{"id":164097,"date":"2026-02-18T06:11:14","date_gmt":"2026-02-18T05:11:14","guid":{"rendered":"https:\/\/liora.io\/de\/?p=164097"},"modified":"2026-02-18T06:11:14","modified_gmt":"2026-02-18T05:11:14","slug":"hauptkomponentenanalyse","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/hauptkomponentenanalyse","title":{"rendered":"Was ist die Hauptkomponentenanalyse?"},"content":{"rendered":"<p><strong>Kennst du die PCA? Diese Methode ist sehr n\u00fctzlich und wird bei Dimensionsreduktionen verwendet. Erfahre in diesem Artikel, wie sie funktioniert.<\/strong><\/p>\nWer hat nicht schon einmal einen Datensatz mit einer sehr gro\u00dfen Anzahl von Variablen in den H\u00e4nden gehalten, ohne zu wissen, welche die wichtigsten sind?&nbsp; Wie kann man diesen Datensatz so reduzieren, dass er auf einfache Weise auf 2 oder 3 Achsen dargestellt werden kann? Hier kommt die PCA!\n\nDie Hauptkomponentenanalyse ist die Antwort auf diese Fragen. Die PCA ist eine bekannte Methode zur Dimensionsreduktion, mit der hoch korrelierte Variablen in neue, unkorrelierte Variablen umgewandelt werden k\u00f6nnen.\n\nDas Prinzip ist einfach: Es geht darum, die Informationen, die in einer gro\u00dfen Datenbank enthalten sind, in einer Reihe von synthetischen Variablen zusammenzufassen, die als Hauptkomponenten bezeichnet werden.\n\nDie Idee ist dann, diese Daten auf die n\u00e4chstgelegene Hyperebene zu projizieren, um eine einfache Darstellung unserer Daten zu erhalten.\n\nNat\u00fcrlich bedeutet eine Verkleinerung der Dimension einen Verlust an Informationen. Das ist die Herausforderung bei der Hauptkomponentenanalyse. Du musst in der Lage sein, deine Daten zu verkleinern und gleichzeitig ein Maximum an Informationen zu erhalten.\n<h2>Wie funktioniert eine Hauptkomponentenanalyse?<\/h2>\n<iframe title=\"Data Insights : Analyse en Composantes Principales\" width=\"500\" height=\"281\" src=\"https:\/\/www.youtube.com\/embed\/ilWeGsudOGY?feature=oembed\" frameborder=\"0\" allow=\"accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\" allowfullscreen><\/iframe>\n\nUm das Prinzip der <strong>PCA<\/strong> zu veranschaulichen, nehmen wir als Beispiel einen Datensatz mit dem Namen &#8218;<strong>country_data<\/strong>&#8218;, der, wie der Name schon sagt, mehrere Informationen (BIP; Durchschnittseinkommen; Lebenserwartung; Geburten-\/Mortalit\u00e4tsrate etc.) \u00fcber verschiedene L\u00e4nder zusammenfasst.\n\nHier sind die ersten f\u00fcnf Zeilen:\n\n<img decoding=\"async\" width=\"768\" height=\"236\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/10\/aaaa.webp\" alt=\"\" loading=\"lazy\">\n\nAnschlie\u00dfend ist es wichtig, unsere Variablen zu zentrieren und zu reduzieren, um den Skaleneffekt abzuschw\u00e4chen, da sie nicht auf derselben Basis berechnet werden.\n\nWenn du diesen Schritt gemacht hast, musst du unsere Daten als eine Matrix aus\n\nvon der wir Eigenwerte und Eigenvektoren berechnen werden.\n\nIn der <a href=\"https:\/\/fr.wikipedia.org\/wiki\/Alg%C3%A8bre_lin%C3%A9aire\"><strong>linearen Algebra<\/strong><\/a> entspricht der Begriff des Eigenvektors der Untersuchung von Vorzugsachsen, nach denen sich eine Anwendung eines Raumes in sich selbst wie eine Dilatation verh\u00e4lt, wobei die <a href=\"https:\/\/fr.wikipedia.org\/wiki\/Vecteur\"><strong>Vektoren<\/strong><\/a> mit einer Konstante multipliziert werden, die Eigenwert genannt wird. Die Vektoren, auf die das zutrifft, hei\u00dfen Eigenvektoren, die in einem Eigenraum zusammengefasst sind.\n\nNach dem Importieren des PCA-Moduls von sklearn.decomposition werden folgende Eigenwerte zur\u00fcckgegeben\n\nDie Eigenwerte sind:[3.48753851 1.47902877 1.15061758 0.93557048 0.65529084 0.15140052].\n\nMithilfe dieser Eigenwerte k\u00f6nnen wir die optimale Anzahl an Hauptfaktoren\/Komponenten f\u00fcr unsere PCA bestimmen. Wenn die optimale Anzahl der Komponenten beispielsweise 2 ist, dann werden unsere Daten auf zwei Achsen dargestellt und so weiter.\n\n<img decoding=\"async\" width=\"451\" height=\"263\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/10\/unnamed-1-1.webp\" alt=\"\" loading=\"lazy\">\n\nIn diesem Diagramm, das die Anzahl der zu w\u00e4hlenden Faktoren in Abh\u00e4ngigkeit von den Eigenwerten darstellt, zeigen wir, dass die optimale Faktorwahl 2 betr\u00e4gt (dank der Knickmethode). Wir werden also von einer Dimension 9 zu einer Dimension 2 \u00fcbergehen, was die Basisdimension erheblich reduziert. Wie bereits erw\u00e4hnt, wird es durch diese Reduzierung zwangsl\u00e4ufig zu einem Informationsverlust kommen. Dennoch bleibt eine Informationsrate von fast 70 % erhalten, was uns erlaubt, eine Darstellung zu erhalten, die meiner 9-dimensionalen Darstellung nahe kommt.\n\nNachdem das PCA-Modul die Koordinaten unserer Daten berechnet hat, m\u00fcssen wir sie nur noch darstellen, aber bevor wir das tun, werden wir uns mit einem Werkzeug besch\u00e4ftigen, das sehr oft verwendet wird, wenn man eine Hauptkomponentenanalyse durchf\u00fchrt, n\u00e4mlich dem Korrelationskreis.\n\n<img decoding=\"async\" width=\"512\" height=\"474\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/10\/unnamed-2.webp\" alt=\"\" loading=\"lazy\">\n\nDa unsere Darstellung auf <strong>zwei Achsen<\/strong> beruht, ist der Korrelationskreis ein praktisches Hilfsmittel, mit dem wir die Bedeutung jeder erkl\u00e4renden Variable f\u00fcr jede Achse der Darstellung visualisieren k\u00f6nnen. Die Richtung jedes Pfeils zeigt an, welche Achse durch die Variable erkl\u00e4rt wird, und die Richtung zeigt an, ob die Korrelation positiv oder negativ ist. Es f\u00e4llt auf, dass Variablen wie &#8222;<strong>income<\/strong>&#8222;, &#8222;<strong>gdpp<\/strong>&#8220; und &#8222;<strong>health<\/strong>&#8220; positiv mit der ersten Achse korreliert sind, w\u00e4hrend &#8222;<strong>child_mort<\/strong>&#8220; oder &#8222;<strong>total_fer<\/strong>&#8220; zwar auch positiv, aber negativ korreliert sind. Wir k\u00f6nnen uns nun ansehen, wie die L\u00e4nder auf den beiden Achsen der PCA dargestellt werden und welchen Einfluss die Variable &#8222;<strong>life_expec<\/strong>&#8220; auf ihre Darstellung hat.\n\n<img decoding=\"async\" width=\"512\" height=\"493\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2022\/10\/unnamed-3.webp\" alt=\"\" loading=\"lazy\">\n\nHier ist eine Darstellung jedes Landes (167) auf 2 Achsen. Um die Qualit\u00e4t unserer Darstellung zu beurteilen, haben wir beschlossen, jedes Land entsprechend seiner Lebenserwartung in drei Gruppen einzuf\u00e4rben, wobei wir eine gewisse Tendenz erkennen k\u00f6nnen. Wir k\u00f6nnen feststellen, dass die L\u00e4nder mit einer hohen Lebenserwartung im unteren rechten Teil des Diagramms konzentriert sind. Der Korrelationskreis zeigt, dass die Personen in diesem Bereich teilweise durch die Variablen &#8222;<strong>health<\/strong>&#8222;, &#8222;<strong>income<\/strong>&#8220; oder &#8222;<strong>gdpp<\/strong>&#8220; erkl\u00e4rt werden. Daraus l\u00e4sst sich schlie\u00dfen, dass die L\u00e4nder, die am meisten f\u00fcr Gesundheit ausgeben, eine h\u00f6here Lebenserwartung haben. Dasselbe gilt f\u00fcr die L\u00e4nder, die sich im oberen linken Teil des Diagramms befinden. Der Korrelationskreis zeigt, dass dieser Teil am meisten durch die Variablen &#8222;<strong>child_mort<\/strong>&#8220; oder &#8222;<strong>total_fer<\/strong>&#8220; erkl\u00e4rt wird.\n\nWenn du mehr \u00fcber die Hauptkomponentenanalyse oder andere Methoden zur Reduzierung von Dimensionen erfahren m\u00f6chtest, gibt es in unserer <a href=\"https:\/\/liora.io\/metier-data-analyst\"><strong>Data Analyst-Weiterbildung<\/strong><\/a> mehrere Module, die sich damit besch\u00e4ftigen.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Unsere Kurse in Data Science<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>Kennst du die PCA? Diese Methode ist sehr n\u00fctzlich und wird bei Dimensionsreduktionen verwendet. Erfahre in diesem Artikel, wie sie funktioniert. Wer hat nicht schon einmal einen Datensatz mit einer sehr gro\u00dfen Anzahl von Variablen in den H\u00e4nden gehalten, ohne zu wissen, welche die wichtigsten sind?&nbsp; Wie kann man diesen Datensatz so reduzieren, dass er [&hellip;]<\/p>\n","protected":false},"author":79,"featured_media":217963,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-164097","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/164097","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/79"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=164097"}],"version-history":[{"count":2,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/164097\/revisions"}],"predecessor-version":[{"id":217964,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/164097\/revisions\/217964"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/217963"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=164097"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=164097"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}