{"id":191167,"date":"2026-01-28T12:35:47","date_gmt":"2026-01-28T11:35:47","guid":{"rendered":"https:\/\/liora.io\/de\/?p=191167"},"modified":"2026-02-06T04:41:11","modified_gmt":"2026-02-06T03:41:11","slug":"proximal-policy-optimization-alles-ueber-den-von-openai-entwickelten-algorithmus","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/proximal-policy-optimization-alles-ueber-den-von-openai-entwickelten-algorithmus","title":{"rendered":"Proximal Policy Optimization: Alles \u00fcber den von OpenAI entwickelten Algorithmus"},"content":{"rendered":"<p><strong>Proximal Policy Optimization ist ein von OpenAI entwickelter Reinforcement-Learning-Algorithmus, der sich ideal f\u00fcr komplexe Umgebungen wie Videospiele oder Robotik eignet. Erfahre alles Wissenswerte \u00fcber seine Geschichte, seine Funktionsweise und seine Verwendung!<\/strong><\/p>\n<p>Im Bereich des maschinellen Lernens hat das <a href=\"https:\/\/liora.io\/de\/q-learning-machine-learning-mit-reinforcement-learning\">Reinforcement Learning<\/a> aufgrund seines Potenzials, komplexe Probleme zu l\u00f6sen, in den letzten Jahren einen bemerkenswerten Aufschwung erlebt.<\/p>\n<p>Inspiriert vom menschlichen Konzept des Lernens durch Versuch und Irrtum, beinhaltet dieser Ansatz die Schaffung von Agenten, die durch die Interaktion mit ihrer Umgebung lernen k\u00f6nnen, um bestimmte Ziele zu erreichen.<\/p>\n<p>Diese Agenten m\u00fcssen Politiken, d. h. Strategien, entwickeln, um eine kumulative Belohnung im Laufe der Zeit zu maximieren. Sie f\u00fchren Handlungen aus und erhalten daf\u00fcr Belohnungen oder Strafen und passen ihre Richtlinien an, um die Belohnung zu maximieren.<\/p>\n<p>Es ist jedoch eine gro\u00dfe Herausforderung, diese Richtlinien zu optimieren und gleichzeitig die Stabilit\u00e4t des Lernens aufrechtzuerhalten. Um diese Herausforderung zu meistern, hat die Firma OpenAI,<a href=\"https:\/\/liora.io\/de\/chatgpt-wie-funktioniert-dfer-nlp-algorithmus\"> die unter anderem f\u00fcr ChatGPT verantwortlich<\/a> ist, einen innovativen Algorithmus entwickelt: PPO (<strong>Proximal Policy Optimization<\/strong>).<\/p>\n<p><a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\"><br \/>\nAlles \u00fcber PPO verstehen<br \/>\n<\/a><\/p>\n<h2 class=\"wp-block-heading\" id=\"h-was-ist-proximal-policy-optimization\">Was ist  Proximal Policy Optimization?<\/h2>\n<p>Es war 2017, als der Artikel &#8222;<strong>Proximal Policy Optimization Algorithms<\/strong>&#8220; von den OpenAI-Forschern John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford und Oleg Klimov ver\u00f6ffentlicht wurde.<\/p>\n<p>Ihr Ziel war es, die Grenzen bestehender <strong>Reinforcement-Learning-Algorithmen<\/strong> zu \u00fcberwinden, insbesondere in Bezug auf die Stabilit\u00e4t des Trainings und den Umgang mit komplexen Handlungsr\u00e4umen.<\/p>\n<p>Bei der <a href=\"https:\/\/liora.io\/de\/sarsa-machine-learning-mit-verstaerkendem-lernen\">Optimierung von Richtlinien im Reinforcement Learning<\/a> k\u00f6nnen zu aggressive Updates das Training gef\u00e4hrden.<\/p>\n<p>PPO f\u00fchrt jedoch ein neues Konzept in diesen Prozess ein: die N\u00e4he. Damit wird sichergestellt, dass die Aktualisierungen nicht zu weit von den vorherigen Richtlinien entfernt sind.<\/p>\n<p>Dieser Ansatz lehnt sich an das Konzept des <strong>&#8222;Clipping&#8220;<\/strong> an, das darauf abzielt, den Umfang von Aktualisierungen zu begrenzen, um abrupte \u00c4nderungen zu vermeiden. Dadurch wird die Konvergenz stabiler und die Lernleistung verbessert.<\/p>\n<h2 class=\"wp-block-heading\" id=\"h-die-architektur-und-funktionsweise-von-proximal-policy-optimization-verstehen\">Die Architektur und Funktionsweise von Proximal Policy Optimization verstehen<\/h2>\n<p>Der Algorithmus zeichnet sich durch eine Architektur aus, die Schl\u00fcsselelemente kombiniert, um ein stabiles und effizientes Lernen in dynamischen Umgebungen zu erm\u00f6glichen.<\/p>\n<p>Er verfolgt einen<strong> iterativen Ansatz<\/strong>: Der Agent interagiert mit der Umgebung, sammelt Trainingsdaten, aktualisiert seine Richtlinien nach dem Prinzip der N\u00e4he und wiederholt dann den Prozess, um die Leistung im Laufe der Zeit zu verbessern.<\/p>\n<p>Diese st\u00e4ndige Iteration ist entscheidend, damit sich der Agent an komplexe und <a href=\"https:\/\/liora.io\/de\/q-learning-machine-learning-mit-verstaerkendem-lernen\">sich ver\u00e4ndernde Umgebungen anpassen kann.<\/a><\/p>\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/2026\/01\/ppo-2.jpg\" title=\"\" alt=\"\" loading=\"lazy\"><figcaption><\/figcaption><\/figure>\n<p>Eine der <strong>Schl\u00fcsselkomponenten ist die Wertfunktion<\/strong>, die oft als Zustandswertfunktion (V) oder Vorteilswertfunktion (A) implementiert wird, um die Qualit\u00e4t der vom Agenten durchgef\u00fchrten Aktionen zu bewerten.<\/p>\n<p>Der Vorteil stellt die Differenz zwischen der tats\u00e4chlichen Belohnung, die der Agent erh\u00e4lt, und dem vorhergesagten Wert dar. Diese Bewertung erm\u00f6glicht es, die Relevanz der aktuellen Politik zu quantifizieren und leitet sp\u00e4tere Aktualisierungen an.<\/p>\n<p><strong>Agentenrichtlinien<\/strong> sind in der Regel stochastisch: <a href=\"https:\/\/liora.io\/de\/einfuehrung-in-die-wahrscheinlichkeitsrechnung-teil-1\">Sie erzeugen eine Verteilung von Wahrscheinlichkeiten<\/a> \u00fcber m\u00f6gliche Aktionen. So kann der Agent Exploration in seinen Lernprozess einbringen, um die optimalen Strategien besser zu entdecken.<\/p>\n<h2 class=\"wp-block-heading\" id=\"h-wie-lauft-proximal-policy-optimization-ab\">Wie l\u00e4uft Proximal Policy Optimization ab?<\/h2>\n<p>Alles beginnt mit der <strong>Interaktion des Agenten<\/strong> mit der Umwelt. Er f\u00fchrt Aktionen gem\u00e4\u00df seiner aktuellen Politik aus, beobachtet den resultierenden <strong>Zustand der Umgebung und erh\u00e4lt eine Belohnung oder Strafe.<\/strong><\/p>\n<p>Diese Interaktionen erzeugen Datenpfade, die dann verwendet werden, um die Politik des Agenten zu aktualisieren. Nachdem die Datenpfade gesammelt wurden, berechnet der Agent die Vorteile, indem er die relative Leistung jeder Aktion im Vergleich zum vorhergesagten Wert misst.<\/p>\n<p>Dieser Schritt erm\u00f6glicht es ihm, festzustellen, welche Aktionen positiv oder negativ zu der vom Agenten erhaltenen Belohnung beigetragen haben. Je nach Ergebnis wird die Politik mithilfe von <a href=\"https:\/\/liora.io\/de\/algorithmus-fuer-den-gradientenabstieg\">Algorithmen wie dem stochastischen Gradientenabstieg aktualisiert.<\/a><\/p>\n<p>Ziel ist es, die Wahrscheinlichkeit der vorteilhaftesten Handlungen zu maximieren. Die Einschr\u00e4nkung der N\u00e4he begrenzt jedoch die \u00c4nderungen der Politik auf einen bestimmten Schwellenwert.<\/p>\n<p>Der iterative Prozess wird mehrmals wiederholt, sodass sich der Agent allm\u00e4hlich an seine Umgebung anpassen und im Laufe der Zeit effektivere Politiken erlernen kann.<\/p>\n<p><a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\"><br \/>\nBeherrsche die Funktionsweise des PPO<br \/>\n<\/a><\/p>\n<h2 class=\"wp-block-heading\" id=\"h-was-sind-die-vorteile-von-proximal-policy-optimization\">Was sind die Vorteile von Proximal Policy Optimization?<\/h2>\n<p>Die <a href=\"https:\/\/liora.io\/de\/gradient-boosting-algorithmen\">Verwendung dieses Algorithmus<\/a> bringt mehrere wichtige Vorteile mit sich. Zun\u00e4chst einmal tr\u00e4gt die Proximit\u00e4tsbeschr\u00e4nkung, wie bereits erw\u00e4hnt, wesentlich zur Stabilit\u00e4t des Trainings bei.<\/p>\n<p>Sie verhindert abrupte \u00c4nderungen, die die Konvergenz des Algorithmus gef\u00e4hrden k\u00f6nnten. Dar\u00fcber hinaus ist <strong>PPO<\/strong> hervorragend im Umgang mit gro\u00dfen R\u00e4umen und erm\u00f6glicht es Agenten, komplexe Umgebungen mit vielen und unterschiedlichen Aktionen zu bearbeiten.<\/p>\n<p>Seine Flexibilit\u00e4t macht es auch anpassungsf\u00e4hig an eine Vielzahl von <strong>Reinforcement-Learning-Aufgaben<\/strong> und Anwendungsbereichen. Um seine Vorteile besser zu veranschaulichen, vergleichen wir ihn nun mit anderen Algorithmen.<\/p>\n<h2 class=\"wp-block-heading\" id=\"h-proximal-policy-optimization-im-vergleich-zu-anderen-rl-algorithmen\">Proximal Policy Optimization im Vergleich zu anderen RL-Algorithmen<\/h2>\n<p>Die Landschaft des Reinforcement Learning ist reich an zahlreichen <strong>Algorithmen<\/strong>. Ein Vergleich hilft, die einzigartigen Vorteile von PPO und seine Position in dieser Sph\u00e4re besser zu verstehen.<\/p>\n<p>Einer der bekanntesten Algorithmen ist <strong>DDPG (Deep Deterministic Policy Gradients)<\/strong>, der sich dadurch auszeichnet, dass er Probleme mit kontinuierlichen Aktionsr\u00e4umen angeht, in denen die m\u00f6glichen Aktionen eine unendliche Menge bilden.<\/p>\n<p>Im Gegensatz zu PPO, das sich im Umgang mit stochastischen Aktionsr\u00e4umen auszeichnet, verwendet DDPG eine deterministische Politik. Das bedeutet, dass sie einem bestimmten Zustand eine bestimmte Aktion zuweist, anstatt eine Wahrscheinlichkeitsverteilung zu verwenden.<\/p>\n<p><strong>TRPO (Trust Region Policy Optimization)<\/strong> seinerseits teilt mit PPO die Idee, bei der Optimierung von Richtlinien die Stabilit\u00e4t zu erhalten. Allerdings verwendet es einen Ansatz, der auf einer Vertrauensregion basiert, um \u00c4nderungen der Politik zu begrenzen.<\/p>\n<p>Dies ist also ein <strong>Unterschied zu PPO,<\/strong> das sich f\u00fcr eine Beschr\u00e4nkung auf die N\u00e4he entscheidet. Diese Einfachheit macht es oft leichter zu implementieren und weniger anf\u00e4llig f\u00fcr Hyperparameter.<\/p>\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/2026\/01\/ppo-1.jpg\" title=\"\" alt=\"\" loading=\"lazy\"><figcaption><\/figcaption><\/figure>\n<p>Ein <strong>weiterer Algorithmus<\/strong> ist SAC oder Soft Actor-Critic. Er konzentriert sich auf die Lerneffizienz in Umgebungen mit intensiver Erkundung. Seine Entropiemaximierung f\u00f6rdert die Exploration und unterscheidet ihn von PPO. SAC kann jedoch empfindlicher auf die Wahl von Hyperparametern reagieren und erfordert eine Feinabstimmung f\u00fcr optimale Leistung.<\/p>\n<p>Im Allgemeinen gl\u00e4nzt PPO durch seine konzeptionelle Einfachheit und Implementierbarkeit bei gleichzeitiger Aufrechterhaltung einer soliden Leistung. Sein iterativer Ansatz mit Proximity Constraint erweist sich in praktischen Anwendungen als besonders vorteilhaft, wie wir jetzt sehen werden.<\/p>\n<h2 class=\"wp-block-heading\" id=\"h-was-sind-die-wichtigsten-anwendungen-von-proximal-policy-optimization\">Was sind die wichtigsten Anwendungen VON Proximal Policy Optimization?<\/h2>\n<p>Die <strong>PPO<\/strong> hat in komplexen Videospielen au\u00dfergew\u00f6hnliche Leistungen gezeigt.<a href=\"https:\/\/liora.io\/de\/kuenstliche-intelligenz\"> Ein bemerkenswertes Beispiel ist die KI AlphaGO.<\/a> Der Algorithmus wurde verwendet, um Agenten zu trainieren, die menschliche Champions im Go-Spiel \u00fcbertreffen k\u00f6nnen.<\/p>\n<p>Er wurde auch erfolgreich angewendet, um Robotern das Erlernen komplexer Aufgaben zu erm\u00f6glichen, wie z. B. die Handhabung verschiedener Objekte in dynamischen Umgebungen. Es ist daher einer der Algorithmen, die im Mittelpunkt der bevorstehenden Revolution der humanoiden Roboter stehen, wie z. B. der Tesla Optimus.<\/p>\n<p>Im Finanzbereich wird <strong>PPO<\/strong> genutzt, um automatisierte Handelsstrategien zu optimieren. Seine Stabilit\u00e4t und seine Anpassung an wechselnde Marktbedingungen machen ihn zu einer attraktiven Wahl f\u00fcr diese sensiblen Anwendungen.<\/p>\n<p>Und im<strong> Gesundheitssektor wird PPO<\/strong> dazu verwendet, personalisierte Behandlungsrichtlinien zu entwerfen. Es hilft zum Beispiel dabei, Behandlungsprotokolle dynamisch an die individuelle Reaktion des Patienten anzupassen.<\/p>\n<p>Diese breite Vielfalt an Anwendungsbereichen macht ihn zu einem <strong>Schl\u00fcsselalgorithmus<\/strong> in der neuen Welle <a href=\"https:\/\/liora.io\/de\/ki-und-kreativitaet-mythos-oder-wahr\">k\u00fcnstlicher Intelligenz<\/a>, die in alle Bereiche vordringt. Und das ist erst der Anfang: Viele neue Entwicklungen zeichnen sich am Horizont ab&#8230;<\/p>\n<p><a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\"><br \/>\nLernen, wie man die PPO benutzt<br \/>\n<\/a><\/p>\n<h2 class=\"wp-block-heading\" id=\"h-ppo2-und-zukunftige-entwicklungen-des-algorithmus\">PPO2 und zuk\u00fcnftige Entwicklungen des Algorithmus<\/h2>\n<p>Eine zweite &#8222;<strong>GPU-enabled<\/strong>&#8220; Implementierung namens PPO2 wurde ebenfalls von <a href=\"https:\/\/liora.io\/de\/der-openai-umsatz-wird-in-den-naechsten-12-monaten-einen-rekordumsatz-erreichen\">OpenAI<\/a> entspannt. Sie l\u00e4uft dreimal so schnell wie die Baseline auf dem Atari.<\/p>\n<p>Dar\u00fcber hinaus hat die US-Firma auch eine Implementierung des ACER-Algorithmus (Actor Critic with Experience Replay) ver\u00f6ffentlicht, der einen Replay-Puffer und eine mit Retrace trainierte Q-Function verwendet.<\/p>\n<p>Es haben sich mehrere Varianten herausgebildet, um spezifischere Probleme zu l\u00f6sen. Einige von ihnen f\u00fchren ausgefeiltere Explorationsmechanismen ein, w\u00e4hrend andere sich auf fortgeschrittenere Optimierungsstrategien konzentrieren.<\/p>\n<p>Die Forschung hat die<strong> dynamische Anpassung<\/strong> von Hyperparametern f\u00fcr eine automatische Anpassung an sich \u00e4ndernde Merkmale der Umgebung oder der Aufgabe untersucht.<\/p>\n<p>Der Algorithmus integriert sich zunehmend in Ans\u00e4tze des Imitationslernens, bei dem der Agent aus menschlichen Demonstrationen lernt. Diese Integration erleichtert das schnelle Erlernen von leistungsf\u00e4higen Politiken.<\/p>\n<p>Die Forscher besch\u00e4ftigen sich auch mit dem Potenzial des Lerntransfers mit PPO, um Agenten zu erm\u00f6glichen, das in einem Bereich erworbene Wissen auf verwandte Aufgaben anzuwenden und das Lernen in neuen Kontexten zu beschleunigen.<\/p>\n<p>In Zukunft sind <strong>effizientere Explorationsmechanismen,<\/strong> eine bessere Verwaltung gro\u00dfer Handlungsr\u00e4ume zur Anwendung auf noch komplexere Aufgaben und eine verbesserte Interpretierbarkeit der gelernten Politik zu erwarten, um die Entscheidungen der Agenten verst\u00e4ndlicher zu machen.<\/p>\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/2026\/01\/ppo-3.jpg\" title=\"\" alt=\"\" loading=\"lazy\"><figcaption><\/figcaption><\/figure>\n<h2 class=\"wp-block-heading\" id=\"h-schlussfolgerung-proximal-policy-optimization-ein-gleichgewicht-zwischen-stabilitat-und-effektivitat-von-rl\">Schlussfolgerung: Proximal Policy Optimization, ein Gleichgewicht zwischen Stabilit\u00e4t und Effektivit\u00e4t von RL<\/h2>\n<p>Durch das Konzept der N\u00e4he, das allzu aggressive Richtlinienaktualisierungen verhindert, vermeidet<strong> PPO<\/strong> unerw\u00fcnschte Oszillationen beim Lernen durch Verst\u00e4rkung. Diese perfekte Balance zwischen Stabilit\u00e4t und Effizienz erm\u00f6glicht es ihm, sich an eine gr\u00f6\u00dfere Vielfalt von Aufgaben anzupassen.<\/p>\n<p>Im Laufe der Jahre wurde der Algorithmus aufgrund seiner F\u00e4higkeit, komplexe Umgebungen wie Videospiele, Robotik, Finanzen und Gesundheit zu verarbeiten, immer beliebter. Er ist zu einem Bezugspunkt f\u00fcr viele Anwendungen geworden.<\/p>\n<p>Um Experte f\u00fcr Machine Learning, Reinforcement Learning und k\u00fcnstliche Intelligenz zu werden, kannst du dich an Liora wenden. Unsere Fernlehrg\u00e4nge erm\u00f6glichen es dir, in k\u00fcrzester Zeit zu einem echten Meister zu werden!<\/p>\n<p>Im Data Scientist-Kurs lernst du unter anderem <strong>Python-Programmierung, DataViz, Machine Learning und Deep Learning, Data Engineering und MLOPS kennen.<\/strong><\/p>\n<p>Das Modul, das sich mit komplexen Modellen befasst, behandelt Reinforcement Learning, aber auch Empfehlungssysteme und Graphentheorie. Am Ende des Kurses wirst du alle F\u00e4higkeiten erworben haben, die du als Data Scientist ben\u00f6tigst.<\/p>\n<p>Du erh\u00e4ltst ein Zertifikat <strong>&#8222;Projektleiter f\u00fcr k\u00fcnstliche Intelligenz<\/strong>&#8220; vom Coll\u00e8ge de Paris, ein Zertifikat von Mines ParisTech PSL Executive Education und eine Zertifizierung als <strong>AWS Cloud Practitioner.<\/strong><\/p>\n<p>Wenn du noch weiter gehen m\u00f6chtest, bieten wir dir auch einen Machine Learning Engineer-Kurs an. Dieser Kurs kombiniert das Programm des Data Scientist-Kurses mit Modulen, die sich mit der Entwicklung und dem Einsatz von Systemen mit k\u00fcnstlicher Intelligenz befassen.<\/p>\n<p>Da generative KI-Tools wie ChatGPT und DALL-E immer beliebter werden, kannst du in unserem Kurs <a href=\"https:\/\/liora.io\/de\/prompt-engineering-alles-ueber-den-neuen-ki-beruf\">Prompt Engineering &amp; Generative AI lernen<\/a>, diese neuen Tools zu beherrschen, indem du ein Meister in der Kunst der Formulierung von Prompts wirst.<\/p>\n<p>Du kannst unsere verschiedenen Kurse in intensiven BootCamps, in Vollzeit oder in Teilzeit absolvieren. Was die Finanzierung angeht, so ist unsere staatlich anerkannte Organisation durch den Bildungsgutschein anerkannt und f\u00f6rderf\u00e4hig! Entdecke Liora!<\/p>\n<p><a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\"><br \/>\nEntdecke unsere Kurse<br \/>\n<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Proximal Policy Optimization ist ein von OpenAI entwickelter Reinforcement-Learning-Algorithmus, der sich ideal f\u00fcr komplexe Umgebungen wie Videospiele oder Robotik eignet. Erfahre alles Wissenswerte \u00fcber seine Geschichte, seine Funktionsweise und seine Verwendung!<\/p>\n","protected":false},"author":78,"featured_media":191168,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-191167","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/191167","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/78"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=191167"}],"version-history":[{"count":2,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/191167\/revisions"}],"predecessor-version":[{"id":215947,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/191167\/revisions\/215947"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/191168"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=191167"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=191167"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}