{"id":165974,"date":"2026-02-18T07:14:20","date_gmt":"2026-02-18T06:14:20","guid":{"rendered":"https:\/\/liora.io\/de\/?p=165974"},"modified":"2026-02-18T07:14:21","modified_gmt":"2026-02-18T06:14:21","slug":"algorithmus-fuer-den-gradientenabstieg","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/algorithmus-fuer-den-gradientenabstieg","title":{"rendered":"Algorithmus f\u00fcr den Gradientenabstieg"},"content":{"rendered":"<p><strong>Viele Machine Learning Algorithmen erzielen gute Leistungen durch ihr Workout. Die gro\u00dfe Mehrheit der Workouts basiert jedoch auf der Optimierung einer Verlustfunktion. Je kleiner der Wert dieser Funktion ist, desto besser sind die Ergebnisse des Algorithmus. Der Gradientenabstiegsalgorithmus ist eine von vielen M\u00f6glichkeiten, um das Minimum (oder Maximum) einer Funktion zu finden.<\/strong><\/p>\n<p>Eine erste intuitive Ann\u00e4herung an diesen Algorithmus wurde in <a href=\"https:\/\/liora.io\/de\/deep-learning-oder-tiefes-lernen-was-ist-das-denn\">diesem Artikel<\/a> gegeben.<\/p>\n<p>Hier werden wir auf die mathematischen Grundlagen dieses Algorithmus eingehen und die Bedeutung der Lernrate erl\u00e4utern.<\/p>\n<h2>Gradient Down: Mathematische Formalisierung<\/h2>\n<p>Der Gradientenabstieg ist einer der vielen sogenannten Abstiegsalgorithmen. Die allgemeine Formel lautet wie folgt:<\/p>\n<p style=\"text-align: center\">xt+1 = xt &#8211; \u03b7\u2206xt<\/p>\n<p>wobei \u03b7 die Lernrate und \u2206xt die Abstiegsrichtung ist. Diese Klasse von Algorithmen hat das Ziel, bei jeder Iteration \u0192(xt+1 ) \u2264 \u0192 (xt ) zu haben, wobei \u0192 eine konvexe Funktion ist, die wir minimieren m\u00f6chten.<\/p>\n<p>Der Gradientenabstiegsalgorithmus beschlie\u00dft, als Abstiegsrichtung dem Gegenteil des Gradienten einer <b>konvexen <\/b>Funktion f zu folgen, d.h. &#8211; \u0394\u0192 .<\/p>\n<p>Warum ist das so? Der Gradient einer Funktion zeigt ihr maximales Wachstum von einem Punkt aus an. Die Wahl des Gegengradienten bedeutet, dass Sie den steilsten Anstieg w\u00e4hlen, um den Wert der Funktion zu minimieren.&nbsp; So funktioniert es :<\/p>\n<ol>\n<li style=\"font-weight: 400\">&nbsp;Es sei ein Initialisierungspunkt x0 , der zum Bereich von f geh\u00f6rt.<\/li>\n<li style=\"font-weight: 400\">Berechnen Sie f(xt ).<\/li>\n<li style=\"font-weight: 400\">Aktualisieren Sie die Koordinaten: xt+1&nbsp; = xt &#8211; \u03b7 \u0394 \u0192 (xt ) (*)<\/li>\n<li style=\"font-weight: 400\">Wiederholen Sie 2 und 3 bis zum Abbruchkriterium.<\/li>\n<\/ol>\n<p>Das Abbruchkriterium ist in der Regel ein Kriterium der Form |\u0192xt+1&nbsp; &#8211; \u0192xt | \u2264 \u03b5 , wobei der Wert sehr klein ist. Dieses Kriterium erscheint logisch, da man sich f\u00fcr einen Abbruch entscheidet, wenn der Unterschied zwischen den Werten der Funktion, die an zwei verschiedenen Punkten genommen werden, sehr wenig signifikant ist, was ein Zeichen daf\u00fcr ist, dass man konvergiert hat. Ein anerkanntes Abbruchkriterium im Machine Learning ist die Anzahl der Iterationen; es wird eine endliche Anzahl von Optimierungen durchgef\u00fchrt (Schritt 2 und 3).<\/p>\n<p>Zwei Elemente, die auf den ersten Blick vernachl\u00e4ssigbar erscheinen, wenn man den Algorithmus betrachtet, sind in Wirklichkeit entscheidend f\u00fcr die gute Funktionsweise des Algorithmus; der Initialisierungspunkt x0 und der Wert der Lernrate \u03b7. <b>Ein schlechter Initialisierungspunkt oder eine schlecht angepasste Lernrate kann den Algorithmus daran hindern, zum Minimum zu konvergieren<\/b>. Je h\u00f6her die Lernrate, desto weiter entfernt wird die Richtung verfolgt, die durch den Gradienten angezeigt wird. Dies kann dazu f\u00fchren, dass wir in einem lokalen Minimum oder einem Sattelpunkt stecken bleiben oder das globale Minimum verfehlen. Wir werden anhand eines einfachen Beispiels den Einfluss der Lernrate auf die Leistung des Gradientenabstiegs untersuchen.<\/p>\n<h2>Bedeutung der Lernrate<\/h2>\n<p>Betrachten wir ein einfaches Beispiel einer linearen Regression. Es gibt eine Linie y=w0 *x+w1 . Wir haben n Beobachtungen, die einer linearen Beziehung folgen, und mit Hilfe dieser Beobachtungen versuchen wir, die richtigen <b>Parameter zu finden, <\/b>w und w0&nbsp;1 , die diese Beziehung definieren. Wie bereits erw\u00e4hnt, ist die Optimierung eines Modells, d.h. die <b>Suche nach den besten Parametern, die zu einer <\/b>guten Leistung f\u00fchren, gleichbedeutend mit der <b>Optimierung einer Verlustfunktion<\/b>. Die Verlustfunktion, die in dieser Art von Situation am besten geeignet ist, ist die <b>MSE<\/b>,<\/p>\n<p><img decoding=\"async\" width=\"768\" height=\"120\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/12\/image1.png\" alt=\"\" loading=\"lazy\"><\/p>\n<p>wobei t f\u00fcr die ti\u00e8me&nbsp; Iteration steht. Wenn Sie den Gradienten dieser Funktion berechnen und die Formel (*) anwenden, erhalten Sie die Formel f\u00fcr die Aktualisierung der Parameter :<\/p>\n<p>Auf Code-Ebene ergibt sich daraus folgendes Ergebnis:&nbsp;<\/p>\n<p>Wir variieren die Lernrate, um zu sehen, wie sie sich auf die Leistung des Modells auswirkt, und das \u00fcber mehr als 100 Iterationen.<\/p>\n<h3>Eine geringe Lernrate?<\/h3>\n<p>Nehmen wir zun\u00e4chst einen absichtlich kleinen Schritt von 0,01 an.&nbsp; Wir stellen fest, dass das Modell sehr lange braucht, um zu konvergieren. Nach 100 Iterationen sehen wir kaum noch, dass sich das Modell den Beobachtungen ann\u00e4hert.<\/p>\n<p>https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/07\/Trop-lent.mov<\/p>\n<p>In der dritten Grafik ist zu sehen, dass der Parameter w1 w\u00e4hrend der Optimierung stark variiert. Die letzte Grafik zeigt die langsame Ver\u00e4nderung der Verlustfunktion in Richtung ihres globalen Minimums.&nbsp; <b>Dies ist ein Zeichen daf\u00fcr, dass die Lernrate zu klein ist. <\/b>Ver\u00e4ndern wir sie in Richtung 0,99.<\/p>\n<h3>Eine hohe Lernrate?<\/h3>\n<p>https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/07\/Trop-grand.mov<\/p>\n<p>Lassen Sie uns Grafik f\u00fcr Grafik analysieren. Die erste Grafik zeigt eine gro\u00dfe Instabilit\u00e4t der linearen Approximation. Es ist zu erkennen, dass sie dar\u00fcber und darunter liegt. Dies ist auf die instabile und pl\u00f6tzliche \u00c4nderung von w1 in der dritten Grafik zur\u00fcckzuf\u00fchren, die f\u00fcr die &#8222;H\u00f6he&#8220; der Linie in der Ebene verantwortlich ist. Woher kommt diese Instabilit\u00e4t? Die Antwort finden Sie in der 4.&nbsp;<\/p>\n<p>Die hohe Rate bewirkt, dass der Verlust eine Art Ping-Pong-Effekt zwischen den beiden Seiten auf der Achse von w1 aus\u00fcbt. Dieser Ping-Pong-Effekt verlangsamt den R\u00fcckgang des Wertes unserer Verlustfunktion.&nbsp; In der zweiten Grafik sehen wir, dass der Wert unseres Verlustes w\u00e4hrend der Iterationen lange Zeit hoch bleibt, da er in der H\u00e4lfte der Zeit nicht einmal auf der Grafik erscheint. Die Intuition sagt uns, dass wir den Wert senken sollten.&nbsp; Wir senken also die Rate auf 0,7 und beobachten das Ergebnis.&nbsp;<\/p>\n<h3>Ein besser angepasster Zinssatz<\/h3>\n<p>Diese Lernrate scheint optimal zu sein. In der letzten Grafik ist zu erkennen, dass der Wert der Verlustfunktion ab der ersten Iteration drastisch abnimmt, wie in der zweiten Grafik gezeigt wird. Das Modell n\u00e4hert sich den Daten perfekt an, die Verlustfunktion stabilisiert sich bei 0, ihrem globalen Minimum, und die Parameter in Grafik 3 stagnieren, da sie optimal sind!<\/p>\n<p>https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/07\/Parfait.mov<\/p>\n<h3>Die Komplexit\u00e4t der Lernrate<\/h3>\n<p>Wir haben festgestellt, dass die Lernrate eine entscheidende Rolle spielt. Eine zu hohe Lernrate kann dazu f\u00fchren, dass man sehr lange um das Minimum schwankt oder es sogar verfehlt, w\u00e4hrend es bei einer zu geringen Lernrate sehr lange dauern kann, bis man konvergiert. Selbst eine zu hohe Lernrate kann zu einer Divergenz f\u00fchren und das Ziel, das Minimum zu erreichen, verfehlen. Dasselbe Problem gilt f\u00fcr den Initialisierungspunkt. Zwei Initialisierungspunkte k\u00f6nnen zu zwei verschiedenen Ergebnissen f\u00fchren, je nach der Komplexit\u00e4t der Verlustfunktion.<\/p>\n<p>Hier hatten wir ein einfaches Modell mit zwei Parametern, was es uns erm\u00f6glichte, die Entwicklung des Modells zu visualisieren. In Wirklichkeit hat unser Modell viel mehr Parameter, was die Visualisierung unm\u00f6glich macht. Die Anpassung der Lernrate und die Wahl des Initialisierungspunktes sind in der Realit\u00e4t viel komplizierter. In der Praxis ist es notwendig, verschiedene Lernraten auf unser Modell anzuwenden, um zu sehen, welche die beste Leistung erbringt, ebenso wie der Initialisierungspunkt.<\/p>\n<p>Hat Ihnen dieser Artikel gefallen? <a href=\"https:\/\/6fdb24d0.sibforms.com\/serve\/MUIEAK6UnrbR236UIB9QygO2ap6AQtaii7bMdnFUBKwbvV7knWSCcYwRdisgEXpe-qT7m-GT0as6Fh7JpaLdiwD0_5Cep5Ps3qEScmsvKrZh6NymnqcSrSFpJNirHNaUlqRAXBosIGGdsaWj1pYFbrgisoTFC0bnBnpW5x8XX4azcIPeA7PGuo-f-22EQgqvnjipuXZ4W9nU8ext\">Abonnieren Sie unseren Newsletter<\/a>, um regelm\u00e4\u00dfig weitere Informationen zu erhalten!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Viele Machine Learning Algorithmen erzielen gute Leistungen durch ihr Workout. Die gro\u00dfe Mehrheit der Workouts basiert jedoch auf der Optimierung einer Verlustfunktion. Je kleiner der Wert dieser Funktion ist, desto besser sind die Ergebnisse des Algorithmus. Der Gradientenabstiegsalgorithmus ist eine von vielen M\u00f6glichkeiten, um das Minimum (oder Maximum) einer Funktion zu finden. Eine erste intuitive [&hellip;]<\/p>\n","protected":false},"author":74,"featured_media":217998,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-165974","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/165974","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/74"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=165974"}],"version-history":[{"count":2,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/165974\/revisions"}],"predecessor-version":[{"id":217999,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/165974\/revisions\/217999"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/217998"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=165974"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=165974"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}