{"id":173548,"date":"2026-01-28T12:32:50","date_gmt":"2026-01-28T11:32:50","guid":{"rendered":"https:\/\/liora.io\/de\/?p=173548"},"modified":"2026-02-06T04:42:54","modified_gmt":"2026-02-06T03:42:54","slug":"umgang-mit-problemen-bei-unausgewogener-klassifizierung-teil-i","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/umgang-mit-problemen-bei-unausgewogener-klassifizierung-teil-i","title":{"rendered":"Umgang mit Problemen bei unausgewogener Klassifizierung \u2013 Teil I"},"content":{"rendered":"<h2 class=\"wp-block-heading\" id=\"h-wie-geht-man-mit-einer-unausgewogenen-klassifizierung-um-teil-i\">Wie geht man mit einer unausgewogenen Klassifizierung um? Teil I<\/h2>\n<p>Die <strong>Klassifizierung<\/strong> auf unausgewogenen Daten ist ein Klassifizierungsproblem, bei dem die Lernstichprobe eine starke<strong> Disparit\u00e4t zwischen den vorherzusagenden Klassen<\/strong> enth\u00e4lt. Dieses Problem taucht h\u00e4ufig bei bin\u00e4ren Klassifikationsproblemen auf, insbesondere bei der Erkennung von Anomalien.<\/p>\n<p>Dieser Artikel ist in zwei Teile gegliedert: Der erste besch\u00e4ftigt sich mit der Auswahl von Metriken, die f\u00fcr diesen Datentyp typisch sind, der zweite beschreibt detailliert die<strong> Bandbreite an Methoden<\/strong>, die n\u00fctzlich sind, um ein leistungsf\u00e4higes Modell zu erhalten.<\/p>\n<h2 class=\"wp-block-heading\" id=\"h-teil-i-die-wahl-der-richtigen-metriken\">Teil I: Die Wahl der richtigen Metriken<\/h2>\n<h3 class=\"wp-block-heading\" id=\"h-was-ist-eine-bewertungsmetrik\">Was ist eine Bewertungsmetrik?<\/h3>\n<p>Eine Bewertungsmetrik quantifiziert die Leistung eines Vorhersagemodells.<\/p>\n<p>Die Wahl der richtigen Metrik ist daher bei der Bewertung von<a href=\"https:\/\/liora.io\/de\/machine-learning-data-sets-top-5-websites\"> Machine-Learning-Modellen<\/a> entscheidend, und die Qualit\u00e4t eines Klassifikationsmodells h\u00e4ngt direkt von der Metrik ab, die zu seiner Bewertung verwendet wird.<\/p>\n<p>Bei Klassifikationsproblemen bestehen die Metriken im Allgemeinen darin, die tats\u00e4chlichen Klassen mit den vom Modell vorhergesagten Klassen zu vergleichen. Sie k\u00f6nnen auch dazu dienen, die vorhergesagten Wahrscheinlichkeiten f\u00fcr diese Klassen zu interpretieren.<\/p>\n<p>Eines der wichtigsten Leistungskonzepte f\u00fcr die Klassifizierung ist die Verwechslungsmatrix, die eine tabellarische <strong>Darstellung der Modellvorhersagen<\/strong> im Vergleich zu den tats\u00e4chlichen Labels ist. Jede Zeile der Verwechslungsmatrix repr\u00e4sentiert die Instanzen einer tats\u00e4chlichen Klasse und jede Spalte repr\u00e4sentiert die Instanzen einer vorhergesagten Klasse.<\/p>\n<p>Nehmen wir als Beispiel eine <strong>bin\u00e4re Klassifizierung<\/strong>, bei der es 100 positive und 70 negative Instanzen gibt.<\/p>\n<p>Die folgende Verwechslungsmatrix entspricht den Ergebnissen, die unser Modell liefert:<\/p>\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Image1-.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Image1-.png 512w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Image1--300x169.png 300w\" sizes=\"(max-width: 512px) 100vw, 512px\" width=\"512\" height=\"288\"><figcaption><\/figcaption><\/figure>\n<p>Sie gibt einen \u00dcberblick \u00fcber die richtigen und falschen Vorhersagen.<\/p>\n<p>Um diese <strong><a href=\"https:\/\/liora.io\/de\/matrix-definition-und-implementierung-in-python\">Matrix<\/a> in einer Metrik<\/strong> zusammenzufassen, kann man die Rate der richtigen Vorhersagen oder accuracy verwenden. Hier ist sie gleich (90+57)\/170 = 0,86.<\/p>\n<p>Die Wahl einer geeigneten Metrik ist nicht bei jedem Machine-Learning-Modell offensichtlich, aber bei Problemen mit unausgewogenen Klassifizierungen ist sie besonders schwierig.<\/p>\n<p>Bei Daten mit einer stark \u00fcberwiegenden Klasse sind herk\u00f6mmliche Algorithmen oft verzerrt, da ihre Verlustfunktionen versuchen, Metriken wie die Rate der guten Vorhersagen zu optimieren, und dabei die Verteilung der Daten au\u00dfer Acht lassen.<\/p>\n<p>Im schlimmsten Fall werden die Minderheitsklassen als Ausrei\u00dfer der Mehrheitsklasse behandelt und der Lernalgorithmus erzeugt einfach einen trivialen Klassifikator, der jedes Beispiel in die Mehrheitsklasse einordnet. Das Modell scheint dann zwar leistungsf\u00e4hig zu sein, aber das spiegelt nur die \u00dcberrepr\u00e4sentation der Mehrheitsklasse wider. Dies wird als paradoxes Akkuracy bezeichnet.<\/p>\n<p>In den meisten F\u00e4llen ist es gerade die Minderheitsklasse, die von gr\u00f6\u00dftem Interesse ist und die man gerne identifizieren w\u00fcrde, wie im Beispiel der Betrugserkennung.<\/p>\n<p>Der Grad der Unausgewogenheit variiert, aber die Anwendungsf\u00e4lle sind h\u00e4ufig: Krankheitssuche, Fehlererkennung, Suchmaschinen, Spam-Filter, gezieltes Marketing etc.<\/p>\n<h3 class=\"wp-block-heading\" id=\"h-praxisbeispiel-churn-rate\">Praxisbeispiel : Churn Rate&nbsp;<\/h3>\n<p>Angenommen, ein Dienstleistungsunternehmen m\u00f6chte seine Abwanderungsrate (<strong>Churn Rate<\/strong>) vorhersagen.<\/p>\n<p>Zur Erinnerung: Die <strong>Abwanderungsrate<\/strong> ist das Verh\u00e4ltnis zwischen der Anzahl der verlorenen Kunden und der Gesamtanzahl der Kunden, gemessen \u00fcber einen bestimmten Zeitraum, meist ein Jahr.<\/p>\n<p>Um dies zu erreichen, m\u00f6chte die Firma f\u00fcr jeden Kunden vorhersagen, ob er seinen Vertrag am Ende des Jahres k\u00fcndigen wird.<\/p>\n<p>Wir haben einen <strong>Datensatz<\/strong>, der pers\u00f6nliche Informationen und vertragsbezogene Merkmale f\u00fcr jeden Kunden des Unternehmens f\u00fcr das Jahr X enth\u00e4lt, sowie eine Variable, mit der wir feststellen k\u00f6nnen, ob er seinen Vertrag am Ende des Jahres verl\u00e4ngert hat.<\/p>\n<p>In unseren Daten entspricht die Anzahl der &#8218;Churner&#8216; etwa 11 % der Gesamtzahl der Kunden.<\/p>\n<p>Wir beschlie\u00dfen, ein erstes Modell der logistischen Regression auf unsere vorbereiteten und normalisierten <strong>Daten zu trainieren.<\/strong><\/p>\n<p><strong>\u00dcberraschung! Unser Code hat eine Quote guter Prognosen von 0,90!<\/strong><\/p>\n<p>Das ist ein sehr guter Wert, aber erinnern wir uns an unser Ziel: Erfolgreiche Vorhersage von Kundenabg\u00e4ngen. Bedeutet dieses Ergebnis, dass das Modell von 10 &#8222;Churnern&#8220; 9 als solche erkennt? <em>Absolut nicht!<\/em><\/p>\n<p>Die einzige Interpretation, die man machen kann, ist, dass 9 von 10 Kunden vom Modell richtig eingestuft wurden.<\/p>\n<p>Um naive Verhaltensweisen eines Modells zu erkennen, ist das effektivste Werkzeug immer noch die <a href=\"https:\/\/liora.io\/de\/confusion-matrix\">Verwechslungsmatrix.<\/a><\/p>\n<p>Ein erster Blick auf die<strong> Verwechslungsmatrix<\/strong> zeigt uns, dass die gute Rate an guten Vorhersagen, die wir erhalten, stark davon beeinflusst wird, wie gut sich das Modell in der dominanten Klasse (0) verh\u00e4lt.<\/p>\n<p>Um das Modell in Bezug auf das gew\u00fcnschte Verhalten in einer <strong>Klasse zu bewerten,<\/strong> k\u00f6nnen wir eine Reihe von Metriken aus der Verwirrungsmatrix verwenden, wie z. B. Genauigkeit, Recall und f1-Score, die weiter unten definiert werden.<\/p>\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Image3.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Image3.png 512w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Image3-300x52.png 300w\" sizes=\"(max-width: 512px) 100vw, 512px\" width=\"512\" height=\"89\"><figcaption><\/figcaption><\/figure>\n<p>So f\u00fcr eine bestimmte Klasse:<\/p>\n<p>Eine hohe Genauigkeit und ein hoher Recall -&gt; Die Klasse wurde vom Modell gut erfasst.<\/p>\n<p>Hohe Genauigkeit und niedriger Recall -&gt; Die Klasse wird nicht gut erkannt, aber wenn sie erkannt wird, ist das Modell sehr zuverl\u00e4ssig.<\/p>\n<p>Geringe Genauigkeit und hoher Recall -&gt; Die Klasse wird gut erfasst, enth\u00e4lt aber auch Beobachtungen anderer Klassen.<\/p>\n<p>Eine niedrige Genauigkeit und ein niedriger Recall -&gt; Die Klasse wurde \u00fcberhaupt nicht gut erfasst.<\/p>\n<p>Mit dem F1-Score k\u00f6nnen sowohl die Genauigkeit als auch der Recall gemessen werden.<\/p>\n<p>Im Falle einer bin\u00e4ren Klassifizierung entsprechen Sensitivit\u00e4t und Spezifit\u00e4t dem Recall der positiven bzw. negativen Klasse.<\/p>\n<p>Eine weitere Metrik, der <strong>geometrische Mittelwert (G-mean)<\/strong>, ist n\u00fctzlich f\u00fcr unausgewogene Klassifikationen: Er ist die Wurzel aus dem Produkt von Sensitivit\u00e4t und Spezifit\u00e4t.<\/p>\n<p>Diese verschiedenen Metriken sind \u00fcber das Paket imblearn leicht zug\u00e4nglich.<\/p>\n<p>Die Funktion classification_report_imbalanced() zeigt einen Bericht an, der die Ergebnisse f\u00fcr alle Metriken des Pakets enth\u00e4lt.<\/p>\n<p>Wir erhalten die folgende Tabelle:<\/p>\n<figure>\n\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Image2.png\" alt=\"\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Image2.png 512w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2023\/04\/Image2-300x169.png 300w\" sizes=\"(max-width: 512px) 100vw, 512px\" width=\"512\" height=\"288\"><figcaption><\/figcaption><\/figure>\n<p>Die Tabelle zeigt, dass der Recall und der f1-Score der Klasse 1 schlecht sind, w\u00e4hrend sie f\u00fcr die Klasse 0 hoch sind. Dar\u00fcber hinaus ist auch das geometrische Mittel niedrig.<\/p>\n<p>Das trainierte Modell ist daher f\u00fcr unsere <strong>Daten nicht geeignet.<\/strong><\/p>\n<p>In Teil II&nbsp; werden wir die Methoden kennen lernen, mit denen wir viel bessere Ergebnisse erzielen k\u00f6nnen.<\/p>\n<p>M\u00f6chtest Du Deine F\u00e4higkeiten verbessern, um erfolgreiche und zuverl\u00e4ssige Modelle aus <a href=\"https:\/\/liora.io\/de\/datasets-top-5-websites-fuer-qualitativ-hochwertige-datensaetze\">unausgewogenen Datens\u00e4tzen<\/a> zu erstellen? Schau dir alle unsere Lernmodule an!<\/p>\n<p><a href=\"https:\/\/liora.io\/de\/terminvereinbarung\">Kontaktiere uns f\u00fcr weitere Informationen!<\/a><\/p>\n<p>Auch interessant:<\/p>\n<ul>\n<li><a href=\"https:\/\/liora.io\/de\/api-erstellen-mit-verschiedenen-apps-teil-i\">API&#8217;s erstellen*<\/a><\/li>\n<li><a href=\"https:\/\/liora.io\/de\/apache-schulung-wie-lerne-ich-hadoop-spark-und-cassandra\">Apache Schulung<\/a><\/li>\n<li><a href=\"https:\/\/liora.io\/de\/unit-tests-in-der-datenanalyse\">Unit-Tests in der Datenanalyse<\/a><\/li>\n<li><a href=\"https:\/\/liora.io\/de\/python-fehler-diese-solltest-du-vermeiden\">Python-Fehler<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Wie geht man mit einer unausgewogenen Klassifizierung um? Teil I Die Klassifizierung auf unausgewogenen Daten ist ein Klassifizierungsproblem, bei dem die Lernstichprobe eine starke Disparit\u00e4t zwischen den vorherzusagenden Klassen enth\u00e4lt. Dieses Problem taucht h\u00e4ufig bei bin\u00e4ren Klassifikationsproblemen auf, insbesondere bei der Erkennung von Anomalien. Dieser Artikel ist in zwei Teile gegliedert: Der erste besch\u00e4ftigt sich [\u2026]<\/p>\n","protected":false},"author":78,"featured_media":173566,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-173548","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/173548","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/78"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=173548"}],"version-history":[{"count":2,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/173548\/revisions"}],"predecessor-version":[{"id":215924,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/173548\/revisions\/215924"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/173566"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=173548"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=173548"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}