{"id":190932,"date":"2024-01-05T11:15:46","date_gmt":"2024-01-05T10:15:46","guid":{"rendered":"https:\/\/liora.io\/de\/?p=190932"},"modified":"2026-02-06T06:05:51","modified_gmt":"2026-02-06T05:05:51","slug":"sarsa-machine-learning-mit-verstaerkendem-lernen","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/sarsa-machine-learning-mit-verstaerkendem-lernen","title":{"rendered":"SARSA &#8211; Machine Learning mit verst\u00e4rkendem Lernen"},"content":{"rendered":"<style><br \/>\n.elementor-heading-title{padding:0;margin:0;line-height:1}.elementor-widget-heading .elementor-heading-title[class*=elementor-size-]>a{color:inherit;font-size:inherit;line-height:inherit}.elementor-widget-heading .elementor-heading-title.elementor-size-small{font-size:15px}.elementor-widget-heading .elementor-heading-title.elementor-size-medium{font-size:19px}.elementor-widget-heading .elementor-heading-title.elementor-size-large{font-size:29px}.elementor-widget-heading .elementor-heading-title.elementor-size-xl{font-size:39px}.elementor-widget-heading .elementor-heading-title.elementor-size-xxl{font-size:59px}<\/style>\n<p><strong>Reinforcement Learning ist neben dem \u00fcberwachten und dem un\u00fcberwachten Lernen eine der drei gro\u00dfen Techniken des maschinellen Lernens. Eine Unterkategorie ist SARSA.<\/strong><\/p>\nDiese <a href=\"https:\/\/liora.io\/de\/algorithmus-was-ist-das-wozu-dient-er\">Algorithmus-Familie<\/a> hat in den letzten Jahren viel Aufmerksamkeit erregt, z. B. durch die innovativen Produkte der <a href=\"https:\/\/liora.io\/de\/der-openai-umsatz-wird-in-den-naechsten-12-monaten-einen-rekordumsatz-erreichen\">Firma OpenAI,<\/a> wie OpenAI Five, eine KI, die es geschafft hat, ein Team von professionellen Spielern im Videospiel Dota 2 zu besiegen, oder das ber\u00fchmte ChatGPT, das diese Technik zur Anpassung seiner Einstellungen verwendet.\n\n<a href=\"https:\/\/liora.io\/de\/weiterbildung-data-scientist\">\nAlles \u00fcber Reinforcement Learning lernen\n<\/a>\n<h3>Was ist Reinforcement Learning?<\/h3>\nDas Lernen durch Verst\u00e4rkung bzw. Reinforcement Learning ist ein <a href=\"https:\/\/liora.io\/de\/automl-und-die-automatisierung-von-machine-learning-eine-bedrohung-fuer-data-scientists-2\">Bereich des maschinellen Lernens,<\/a> in dem ein Agent (virtuelle Entit\u00e4t: Roboter, Programm&#8230;) in eine interaktive Umgebung gesetzt wird, in der er lernen muss, Handlungen auszuf\u00fchren, die quantitative Belohnungen maximieren.\n<h3>Was ist der SARSA-Algorithmus?<\/h3>\n<strong>SARSA<\/strong> ist ein Lernalgorithmus, dessen Name vom englischen <strong>State-Action-Reward-State-Action<\/strong> abgeleitet ist, was Staat-Aktion-Reward-Staat-Aktion bedeutet und die Folge von Elementen bezeichnet, aus denen dieser Algorithmus besteht. Es handelt sich um einen Algorithmus, der auf einer Aktionswerttabelle (oder Q-Tabelle, wobei Q das Ma\u00df f\u00fcr die Qualit\u00e4t einer ausgef\u00fchrten Aktion darstellt) basiert, die jedem Zustand-Aktions-Paar einen Wert zuweist, der die erwartete Belohnung darstellt.\n<h3>Ablauf des Algorithmus<\/h3>\nDie verschiedenen Schritte, die diesen Algorithmus ausmachen, kannst du am Beispiel eines Zustellers veranschaulichen, der ein Paket von A nach B bringen muss.\n\n<style><br \/>\n.elementor-widget-image{text-align:center}.elementor-widget-image a{display:inline-block}.elementor-widget-image a img[src$=\".svg\"]{width:48px}.elementor-widget-image img{vertical-align:middle;display:inline-block}<\/style>\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/2023\/11\/SARSA.jpg\" title=\"\" alt=\"\" loading=\"lazy\"><figcaption><\/figcaption><\/figure>\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Kurse<\/a><\/div><\/div>\n\n\n<style><br \/>\n.elementor-column .elementor-spacer-inner{height:var(--spacer-size)}.e-con{--container-widget-width:100%}.e-con-inner>.elementor-widget-spacer,.e-con>.elementor-widget-spacer{width:var(--container-widget-width,var(--spacer-size));--align-self:var(--container-widget-align-self,initial);--flex-shrink:0}.e-con-inner>.elementor-widget-spacer>.elementor-widget-container,.e-con-inner>.elementor-widget-spacer>.elementor-widget-container>.elementor-spacer,.e-con>.elementor-widget-spacer>.elementor-widget-container,.e-con>.elementor-widget-spacer>.elementor-widget-container>.elementor-spacer{height:100%}.e-con-inner>.elementor-widget-spacer>.elementor-widget-container>.elementor-spacer>.elementor-spacer-inner,.e-con>.elementor-widget-spacer>.elementor-widget-container>.elementor-spacer>.elementor-spacer-inner{height:var(--container-widget-height,var(--spacer-size))}<\/style>Zun\u00e4chst wird die<strong> Q-Tabelle<\/strong> mit Null-Werten initialisiert. Danach k\u00f6nnen die verschiedenen Schritte von <strong>SARSA<\/strong> beginnen:\n<ul>\n \t<li>Der Algorithmus befindet sich in einem S-Zustand (Der Lieferant kennt seine Entfernung zu Punkt B).<\/li>\n \t<li>Du w\u00e4hlst eine Aktion A aus, die du ausf\u00fchren m\u00f6chtest, indem du entweder dein Wissen nutzt oder neue M\u00f6glichkeiten erkundest (Der Lieferant kommt von Norden her an eine Kreuzung und kennt die Stra\u00dfe nach S\u00fcden, also folgt er dieser Stra\u00dfe).<\/li>\n \t<li>Du erh\u00e4ltst eine R-Belohnung (der Zusteller gewinnt 1 Minute, wenn seine Wahl ihn n\u00e4her an Punkt B bringt, verliert aber 5 Minuten, wenn er sich davon entfernt).<\/li>\n \t<li>Zu diesem Zeitpunkt wird die Q-Tabelle mithilfe der Formel Q[\u00e9tat_1, action_1] = (1-\u03b1) * Q[\u00e9tat_1, action_1] + \u03b1 * (r + \u03b3 * Q[\u00e9tat_2, action_2]) mit aktualisiert.<\/li>\n \t<li>Die Alpha- oder \u03b1-Lernrate, die das Ausma\u00df der Aktualisierung steuert. Wenn \u03b1 = 0 ist, lernt man nichts, wenn \u03b1 = 1 ist, lernt man, indem man vergisst, was zuvor gelernt wurde.<\/li>\n \t<li>Die Belohnung, die r erh\u00e4lt, nachdem du eine Handlung zu einem bestimmten Zeitpunkt ausgef\u00fchrt hast.<\/li>\n \t<li>Der Aktualisierungsfaktor gamma oder \u03b3, der zuk\u00fcnftige Belohnungen gewichtet.<\/li>\n \t<li>Der Algorithmus befindet sich in einem neuen Zustand S (der Zusteller kennt seine neue Entfernung von Punkt B).<\/li>\n \t<li>Du entscheidest dich, eine neue Aktion A durchzuf\u00fchren<\/li>\n<\/ul>\nDiese Schritte werden so lange wiederholt, bis der <strong>Algorithmus konvergiert<\/strong> (bis der Lieferant bei Punkt B ankommt).\n\nDieser Algorithmus wird &#8222;on-policy&#8220; genannt, was bedeutet, dass die Politik, die zur Bestimmung der Aktionen verwendet wird, die gleiche ist, die auch die Werte in der <strong>Q-Tabelle aktualisiert. SARSA<\/strong> verwendet normalerweise eine <strong>\u03b5-greedy-Politik,<\/strong> wobei \u03b5 ein Parameter ist, der die Wahrscheinlichkeit von Exploration (zuf\u00e4llige Auswahl von Aktionen) im Vergleich zu Exploitation (Auswahl der besten Aktion gem\u00e4\u00df der Q-Tabelle) bestimmt. Diese Eigenschaft unterscheidet ihn von &#8222;Off-Policy&#8220;-Algorithmen wie Q-Learning.\n<h3>Fazit<\/h3>\nZusammenfassend l\u00e4sst sich sagen, dass<strong> SARSA<\/strong> ein <a href=\"https:\/\/liora.io\/de\/q-learning-machine-learning-mit-reinforcement-learning\">verst\u00e4rkender Lernalgorithmus<\/a> ist, der darauf abzielt, einem Agenten anhand einer iterativ aktualisierten Q-Tabelle beizubringen, welche Entscheidungen er in einer Umgebung zu treffen hat. Er verfolgt eine Politik der Erkundung und Ausbeutung, w\u00e4hrend er mit der Umgebung interagiert, und wird in verschiedenen Bereichen wie Videospielen, der Entscheidungsfindung in der Robotik oder der L\u00f6sung von Problemen bei der Routenplanung eingesetzt.\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/2023\/11\/SARSA-2.jpg\" title=\"\" alt=\"\" loading=\"lazy\">\n\n<figcaption><\/figcaption><\/figure>\nWenn du dich in diesem Bereich weiterbilden m\u00f6chtest, dann schau dir unsere <a href=\"https:\/\/liora.io\/de\/data-science-course-deine-berufliche-neuorientierung\">Weiterbildung zum Data Scientist<\/a> an.\n\n<a href=\"https:\/\/liora.io\/de\/weiterbildung-data-scientist\">\nEntdecke unsere Data Scientist Weiterbildung\n<\/a>","protected":false},"excerpt":{"rendered":"<p>Reinforcement Learning ist neben dem \u00fcberwachten und dem un\u00fcberwachten Lernen eine der drei gro\u00dfen Techniken des maschinellen Lernens. Eine Unterkategorie ist SARSA. Diese Algorithmus-Familie hat in den letzten Jahren viel Aufmerksamkeit erregt, z. B. durch die innovativen Produkte der Firma OpenAI, wie OpenAI Five, eine KI, die es geschafft hat, ein Team von professionellen Spielern [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":190936,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-190932","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/190932","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=190932"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/190932\/revisions"}],"predecessor-version":[{"id":217030,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/190932\/revisions\/217030"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/190936"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=190932"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=190932"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}