{"id":180198,"date":"2023-07-16T19:46:49","date_gmt":"2023-07-16T18:46:49","guid":{"rendered":"https:\/\/liora.io\/de\/?p=180198"},"modified":"2026-02-06T06:33:23","modified_gmt":"2026-02-06T05:33:23","slug":"umgang-mit-problemen-bei-unausgewogener-klassifizierung-teil-ii","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/umgang-mit-problemen-bei-unausgewogener-klassifizierung-teil-ii","title":{"rendered":"Umgang mit Problemen bei unausgewogener Klassifizierung &#8211; Teil II"},"content":{"rendered":"<h2>Methoden zur Bek\u00e4mpfung von Datenungleichgewichten bei unausgewogener Klassifizierung<\/h2>\n<p>Nachdem wir die verschiedenen Probleme im<strong> Zusammenhang mit Datenungleichgewicht<\/strong> n\u00e4her erl\u00e4utert und gezeigt haben, dass die Wahl der richtigen Leistungsmetrik f\u00fcr die Bewertung unserer Modelle von entscheidender Bedeutung ist, werden wir eine nicht ersch\u00f6pfende Liste n\u00fctzlicher Techniken zur Bek\u00e4mpfung dieser Art von Problemen vorstellen.<\/p>\n<h3>1) Mehr Daten sammeln<\/h3>\n<p>Es mag vereinfacht klingen, aber das <strong>Sammeln zus\u00e4tzlicher Daten<\/strong> wird fast immer vernachl\u00e4ssigt, obwohl es manchmal sehr effektiv sein kann.<\/p>\n<p>Kannst du mehr Daten sammeln? Nimm dir ein paar Minuten Zeit, um \u00fcber die M\u00f6glichkeit nachzudenken, mehr Daten f\u00fcr dein Problem zu sammeln. Dies k\u00f6nnte deine Klassen m\u00f6glicherweise in unterschiedlichem Ma\u00dfe neu ausrichten.<\/p>\n<h3>2) Resampling-Methoden verwenden<\/h3>\n<p>Du kannst den <a href=\"https:\/\/liora.io\/de\/dataset-definition\">Datensatz,<\/a> den du vor dem Training deines Vorhersagemodells verwendest, \u00e4ndern, um ausgeglichenere Daten zu erhalten.<\/p>\n<p>Diese Strategie wird Resampling genannt und es gibt zwei Hauptmethoden, die du verwenden kannst, um die Klassen auszugleichen:<\/p>\n<p>Oversampling und Undersampling.<\/p>\n<p><strong>Oversampling-Methoden<\/strong> funktionieren, indem die Anzahl der Beobachtungen der Minderheitsklasse(n) erh\u00f6ht wird, um ein zufriedenstellendes Verh\u00e4ltnis von Minderheitsklasse zu Mehrheitsklasse zu erreichen.<\/p>\n<p><strong>Undersampling-Methoden<\/strong> funktionieren, indem die Anzahl der Beobachtungen der Mehrheitsklasse(n) verringert wird, um ein zufriedenstellendes Verh\u00e4ltnis von Minderheits- zu Mehrheitsklasse zu erreichen.<\/p>\n<p>In Python bietet das Paket imblearn eine Reihe von Resampling-Methoden, die hier verf\u00fcgbar sind.<\/p>\n<p>Diese Ans\u00e4tze sind sehr einfach und schnell umzusetzen. Sie sind ein guter Ausgangspunkt.<\/p>\n<p>Unser Rat: Probiere immer beide Ans\u00e4tze f\u00fcr alle deine unausgeglichenen Datens\u00e4tze aus und \u00fcberpr\u00fcfe, ob sich dadurch deine gew\u00e4hlten Leistungsmetriken verbessern.<\/p>\n<p>Bevorzuge Unterstichproben, wenn du gro\u00dfe Datens\u00e4tze hast: Zehn- oder Hunderttausende von F\u00e4llen oder mehr.<br \/>\nWenn du nicht viele Daten hast, solltest du auf Oversampling setzen: Zehntausende oder weniger.<\/p>\n<p>Ziehe in Erw\u00e4gung, verschiedene Klassenverh\u00e4ltnisse zu testen. Bei einem bin\u00e4ren <a href=\"https:\/\/liora.io\/de\/klassifikationsalgorithmen-definition-und-hauptmodelle\">Klassifikationsproblem<\/a> musst du z. B. nicht unbedingt ein Verh\u00e4ltnis von 1:1 anstreben, sondern kannst auch andere Verh\u00e4ltnisse ausprobieren.<\/p>\n<h3>3) Generierung von synthetischen Proben<\/h3>\n<p>Es gibt Algorithmen, um synthetische Stichproben automatisch zu generieren. Der beliebteste dieser Algorithmen ist SMOTE (f\u00fcr Synthetic Minority Over-sampling Technique). Wie der Name schon sagt, ist SMOTE eine Oversampling-Methode. Sie funktioniert, indem sie synthetische Stichproben aus der Minderheitsklasse erstellt, anstatt einfache Kopien zu erstellen. Mehr \u00fcber SMOTE findest du im Originalartikel.<br \/>\nDer ClusterCentroids-Algorithmus ist ein Undersampling-Algorithmus, der Clustering-Methoden verwendet, um eine bestimmte Anzahl von Zentroiden aus den Originaldaten zu erzeugen, damit m\u00f6glichst wenig Informationen \u00fcber die Mehrheitsklasse verloren gehen, wenn diese reduziert werden muss.<\/p>\n<h3>4) Das Problem neu \u00fcberdenken<\/h3>\n<p>Manchmal sind die Methoden des Resampling nicht effektiv genug, und in diesem Fall solltest du das Problem neu \u00fcberdenken. Das kann daran liegen, dass der verwendete Algorithmus nicht f\u00fcr deine Daten geeignet ist.<br \/>\nTeste ruhig andere Algorithmen, eventuell in Kombination mit den oben beschriebenen Resampling-Methoden.<\/p>\n<p>Baumbasierte Ensemblemodelle wie RandomForests sind in der Regel besser f\u00fcr unausgewogene Daten geeignet.<\/p>\n<p>Es ist auch m\u00f6glich, mit Wahrscheinlichkeiten zu spielen. Wenn du z. B. die gro\u00dfe Mehrheit der potenziellen Churns absolut vorhersagen m\u00f6chtest, auch wenn du einige Nicht-Churns falsch einordnest, kannst du den Wahrscheinlichkeitsschwellenwert \u00e4ndern, ab dem Kunden als Churns eingestuft werden.<\/p>\n<p>Je niedriger der Schwellenwert, desto genauer wird unsere Klasse, aber der Recall wird sinken.<\/p>\n<h3>5) Ein benachteiligtes Modell verwenden.<\/h3>\n<p>Die benachteiligte<strong> Klassifizierung erm\u00f6glicht<\/strong> es, dem Modell zus\u00e4tzliche Kosten f\u00fcr Fehlklassifizierungen aufzuerlegen, die w\u00e4hrend des Trainings bei der Minderheitsklasse gemacht werden. Diese Strafen k\u00f6nnen das Modell so verzerren, dass es der Minderheitsklasse mehr Aufmerksamkeit schenkt.<\/p>\n<p>In den meisten Klassen von <a href=\"https:\/\/scikit-learn.org\/stable\/\">scikit-learn-Algorithmen<\/a> ist es m\u00f6glich, einfach den Parameter `class_weight` zu verwenden. Er erm\u00f6glicht es, Fehler, die bei einer Klasse gemacht werden, mit einem neuen Gewicht zu bestrafen.<\/p>\n<p>Je h\u00f6her das Gewicht einer Klasse ist, desto mehr werden Fehler auf dieser Klasse bestraft, und desto mehr Bedeutung wird ihr beigemessen.<\/p>\n<p>Die Gewichte sollten in Form eines W\u00f6rterbuchs angegeben werden, z. B. `{0:1, 1:5}`, um Fehlern, die auf Klasse 1 gemacht werden, das F\u00fcnffache an Gewicht zu geben.<\/p>\n<p>Das Argument &#8222;&#8220;balanced&#8220;&#8222; erm\u00f6glicht es, jeder Klasse eine Gewichtung zuzuweisen, die umgekehrt proportional zu ihrer H\u00e4ufigkeit ist.<\/p>\n<h3>6) Methoden verwenden, die unterstichprobenartige Teilmengen erzeugen.<\/h3>\n<p>Eine weitere L\u00f6sung, die vom Modul imblearn.ensemble angeboten wird, ist die Verwendung von Klassen, die Modelle von Mengen wie Boosting oder Bagging enthalten, die bei jedem Schritt des Algorithmus auf einer Stichprobe trainiert werden, die automatisch zwischen den verschiedenen Klassen neu ausbalanciert wird.<\/p>\n<p>Diese Implementierungen von Modellen erm\u00f6glichen es, auf Resampling-Methoden vor dem Training zu verzichten und sie automatisch bei jeder Datenauswahl durch den Algorithmus anzuwenden.<\/p>\n<h3>7) Sei kreativ!<\/h3>\n<p>Du kannst alle diese Techniken ausprobieren, sie kombinieren oder sogar dar\u00fcber nachdenken, die Daten der Hauptklasse in Unterklassen umzulabeln, um ein ausgewogeneres Mehrklassen-Klassifikationsproblem zu erhalten.<\/p>\n<p>In einigen F\u00e4llen kannst du auch andere Methoden des maschinellen Lernens wie Anomaly Detection oder Active Learning in Betracht ziehen.<\/p>\n<p>Wir haben eine Reihe von Methoden vorgestellt, aus denen du w\u00e4hlen kannst, wenn du mit dieser Art von Daten arbeitest. Probiere diese Methoden ruhig einzeln aus und fange mit den einfachsten an!<\/p>\n<p>M\u00f6chtest du deine F\u00e4higkeiten verbessern, um aus unausgewogenen Datenbest\u00e4nden erfolgreiche und zuverl\u00e4ssige Modelle zu erstellen? Hier findest du alle unsere Lernmodule!<\/p>\n<p>Kontaktiere uns f\u00fcr weitere Informationen!<\/p>\n<p><a href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\"><br \/>\nEntdecke unsere Weiterbildungen<br \/>\n<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Methoden zur Bek\u00e4mpfung von Datenungleichgewichten bei unausgewogener Klassifizierung Nachdem wir die verschiedenen Probleme im Zusammenhang mit Datenungleichgewicht n\u00e4her erl\u00e4utert und gezeigt haben, dass die Wahl der richtigen Leistungsmetrik f\u00fcr die Bewertung unserer Modelle von entscheidender Bedeutung ist, werden wir eine nicht ersch\u00f6pfende Liste n\u00fctzlicher Techniken zur Bek\u00e4mpfung dieser Art von Problemen vorstellen. 1) Mehr Daten [&hellip;]<\/p>\n","protected":false},"author":76,"featured_media":180199,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-180198","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/180198","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/76"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=180198"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/180198\/revisions"}],"predecessor-version":[{"id":217373,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/180198\/revisions\/217373"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/180199"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=180198"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=180198"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}