{"id":163083,"date":"2024-01-09T13:49:56","date_gmt":"2024-01-09T12:49:56","guid":{"rendered":"https:\/\/liora.io\/de\/?p=163083"},"modified":"2026-02-06T06:05:39","modified_gmt":"2026-02-06T05:05:39","slug":"korrelation-variablen-p-wert","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/korrelation-variablen-p-wert","title":{"rendered":"Korrelation zwischen Variablen: Wie l\u00e4sst sich die Abh\u00e4ngigkeit messen?"},"content":{"rendered":"<p><strong>In der Data Science ist es von entscheidender Bedeutung, herauszufinden und zu quantifizieren, in welchem Ausma\u00df zwei Variablen miteinander verbunden sind. Diese Beziehungen k\u00f6nnen komplex sein und sind nicht unbedingt direkt sichtbar. Einige dieser Abh\u00e4ngigkeiten beeintr\u00e4chtigen jedoch die Leistung von Machine-Learning-Algorithmen wie beispielsweise linearen Regressionen. Es ist daher unerl\u00e4sslich, die eigenen Daten optimal vorzubereiten.<\/strong><\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Weiterbildungen in Machine Learning<\/a><\/div><\/div>\n\n\t\t<p>Wir werden hier sehen, wie man die Abh\u00e4ngigkeit zwischen zwei kategorialen Variablen und zwischen <b>kategorialen und stetigen Variablen<\/b> erh\u00e4lt.<\/p><p>Daf\u00fcr m\u00fcssen wir uns zun\u00e4chst in Erinnerung rufen, dass eine kategoriale Variable eine Variable ist, die eine endliche Anzahl unterschiedlicher Kategorien oder Gruppen besitzt. Zum Beispiel das Geschlecht von Personen, die Art des Materials oder die Zahlungsweise. Im Gegensatz dazu k\u00f6nnen <b>kontinuierliche Variablen<\/b> theoretisch eine unendliche Anzahl von Werten annehmen.<\/p><p>&nbsp;<\/p><p>?Auch interessant:<\/p><table dir=\"ltr\" border=\"1\" cellspacing=\"0\" cellpadding=\"0\" data-sheets-root=\"1\"><colgroup><col width=\"1116\"><\/colgroup><tbody><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Alteryx: Was ist das? Wie funktioniert es?&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/alteryx-was-ist-das-wie-funktioniert-es\"><a href=\"https:\/\/liora.io\/de\/alteryx-was-ist-das-wie-funktioniert-es\" target=\"_blank\" rel=\"noopener\">Alteryx: Was ist das? Wie funktioniert es?<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Low Rank Adaptation: Eine einfache Methode zur Anpassung von KI an verschiedene Bereiche &quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/low-rank-adaptation-eine-einfache-methode-zur-anpassung-von-ki-an-verschiedene-bereiche\"><a href=\"https:\/\/liora.io\/de\/low-rank-adaptation-eine-einfache-methode-zur-anpassung-von-ki-an-verschiedene-bereiche\" target=\"_blank\" rel=\"noopener\">Low Rank Adaptation: Eine einfache Methode zur Anpassung von KI an verschiedene Bereiche <\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Traffic Manager: Alles \u00fcber den Beruf &quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/traffic-manager-alles-ueber-den-beruf\"><a href=\"https:\/\/liora.io\/de\/traffic-manager-alles-ueber-den-beruf\" target=\"_blank\" rel=\"noopener\">Traffic Manager: Alles \u00fcber den Beruf <\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;SEA (Search Engine Advertising): Wie funktioniert es? &quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/sea-search-engine-advertising-wie-funktioniert-es\"><a href=\"https:\/\/liora.io\/de\/sea-search-engine-advertising-wie-funktioniert-es\" target=\"_blank\" rel=\"noopener\">SEA (Search Engine Advertising): Wie funktioniert es? <\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Sendinblue (BREVO): Was ist das? Wozu wird es verwendet? Wer kann es benutzen?&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/sendinblue-brevo-was-ist-das-wozu-wird-es-verwendet-wer-kann-es-benutzen\"><a href=\"https:\/\/liora.io\/de\/sendinblue-brevo-was-ist-das-wozu-wird-es-verwendet-wer-kann-es-benutzen\" target=\"_blank\" rel=\"noopener\">Sendinblue (BREVO): Was ist das? Wozu wird es verwendet? Wer kann es benutzen?<\/a><\/td><\/tr><tr><td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;WLAN: Alles Wichtige&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/wlan-alles-wichtige\"><a href=\"https:\/\/liora.io\/de\/wlan-alles-wichtige\" target=\"_blank\" rel=\"noopener\">WLAN: Alles Wichtige<\/a><\/td><\/tr><\/tbody><\/table>\t\t\n\t\t\t<h3>Korrelation zwischen zwei kategorialen Variablen:<\/h3>\t\t\n\t\t<p>Um festzustellen, ob zwei kategoriale Variablen miteinander in Beziehung stehen, wird der ber\u00fchmte <b>Chi-Quadrat-Test<\/b> verwendet. F\u00fcr diejenigen, die mit statistischen Tests nicht vertraut sind, keine Panik!<\/p><blockquote><p><i>Ein statistischer Test ist ein Verfahren zur Entscheidungsfindung zwischen zwei Hypothesen.<\/i><\/p><p><i>Bei diesem Verfahren wird eine statistische Hypothese, die sogenannte Nullhypothese H0, auf der Grundlage eines Datensatzes abgelehnt oder nicht abgelehnt.<\/i><\/p><\/blockquote><p>In dem hier behandelten Test lautet die Nullhypothese einfach &#8222;die beiden getesteten Variablen sind unabh\u00e4ngig&#8220;. Schlie\u00dflich wird der Test von einer Teststatistik begleitet, die zur Entscheidung beitr\u00e4gt, ob die Nullhypothese abgelehnt wird oder nicht. Diese Statistik hat aufgrund der Art und Weise, wie der Test aufgebaut ist, den positiven Nebeneffekt, dass sie einer <b>Chi-Quadrat-Verteilung<\/b> mit einem gewissen Freiheitsgrad folgt.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Kurse<\/a><\/div><\/div>\n\n\t\t\t<h4>Aber wie entscheidet man, ob die Nullhypothese abgelehnt wird oder nicht?<\/h4>\t\t\n\t\t<p>Ohne auf mathematische Details einzugehen, hat jeder statistische Test einen sogenannten <b>p-Wert<\/b>. Man kann ihn sich als Referenzwert vorstellen, um zu entscheiden, ob die Nullhypothese abgelehnt wird oder nicht. <b>Wenn der p-Wert unter 5% liegt, wird die Nullhypothese abgelehnt<\/b>. Der Schwellenwert von 5% ist in der Praxis \u00fcblich, kann aber je nach Branche variieren.<\/p><p>In Python l\u00e4sst sich der Test mithilfe der <i>Bibliothek scipy<\/i> und ihrer Funktion <i>chi2_contingency<\/i> leicht implementieren. Sie erm\u00f6glicht es, schnell den p-Wert des Tests sowie die Statistik und den zugeh\u00f6rigen Freiheitsgrad zu erhalten. In der Praxis erfordert der Chi-Quadrat-Test im Vorfeld ein wenig Arbeit mit den Daten. Um den Test durchf\u00fchren zu k\u00f6nnen, muss zun\u00e4chst die Kontingenztabelle bestimmt werden. Das ist eine Kreuztabelle zwischen den Modalit\u00e4ten der beiden Variablen. Sie l\u00e4sst sich leicht mit der Funktion crosstab von Pandas erstellen. Anschlie\u00dfend f\u00fchrt man den Test mit Hilfe der Kontingenztabelle durch :<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"612\" height=\"302\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.25.png\" alt=\"python\" loading=\"lazy\">\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t<p>In unserem obigen Beispiel liegt der p-Wert deutlich unter 5%, sodass wir die Hypothese, dass die beiden getesteten Variablen unabh\u00e4ngig sind, ablehnen k\u00f6nnen.<\/p><p>Schlie\u00dflich kann man auch den Grad der Korrelation zwischen den beiden Variablen messen, indem man <b>Cramers V<\/b> verwendet. Cramers V wird mithilfe der Teststatistik, des Freiheitsgrads und der Dimensionen der Kontingenztabelle berechnet. Es gibt einen Wert zwischen 0 und 1 zur\u00fcck. Wenn der zur\u00fcckgegebene Wert gr\u00f6\u00dfer als 0,9 ist, gilt die Beziehung als sehr stark. Wenn der Wert kleiner als 0,10 ist, kann man die Beziehung als schwach bezeichnen.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Lerne das Coden mit Python<\/a><\/div><\/div>\n\n\t\t\t<h3>Korrelation zwischen zwei stetigen Variablen:<\/h3>\t\t\n\t\t<p>Wie bei den kategorialen Variablen gibt es einen Test, um festzustellen, ob zwei kontinuierliche Variablen unabh\u00e4ngig voneinander sind: den <b>Pearson-Korrelationstest<\/b>. Die zu testende Nullhypothese ist identisch: &#8222;Die beiden getesteten Variablen sind unabh\u00e4ngig&#8220;. Wie beim Chi-Quadrat-Test gibt es auch hier eine Teststatistik und einen p-Wert, der dar\u00fcber entscheidet, ob die Nullhypothese abgelehnt wird oder nicht.<\/p><p>Dieser Test kann sehr einfach mithilfe der scipy-Bibliothek und ihrer <a href=\"https:\/\/docs.scipy.org\/doc\/scipy-0.14.0\/reference\/generated\/scipy.stats.pearsonr.html\">Funktion pearsonr<\/a> implementiert werden. Es ist keine vorherige Datenarbeit erforderlich, solange die Daten keine fehlenden Werte enthalten. Hier ein Beispiel f\u00fcr eine Implementierung mit python:<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"596\" height=\"268\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.19.png\" alt=\"python\" loading=\"lazy\">\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t<p>In unserem Beispiel ist der p-Wert kleiner als 5%. Daraus l\u00e4sst sich ableiten, dass die Variablen nicht unabh\u00e4ngig sind. <b>Der Pearson-Koeffizient misst den Grad der Korrelation zwischen den beiden Variablen<\/b>. Er gibt einen Wert zwischen -1 und 1 zur\u00fcck. Wenn er nahe bei 1 liegt, bedeutet dies, dass die Variablen positiv korreliert sind, nahe bei 0, dass die Variablen unkorreliert sind, und nahe bei -1, dass sie negativ miteinander korrelieren. In unserem Beispiel hat der Koeffizient einen Wert von 0,80319. Dies bedeutet, dass die Variablen stark korreliert sind.<\/p>https:\/\/youtu.be\/kNPe_pgbuHg\t\t\n\t\t\t<a href=\"https:\/\/liora.io\/de\/weiterbildung-data-scientist\">\n\t\t\t\t\t\tData Scientist Weiterbildung\n\t\t\t\t\t<\/a>\n\t\t\t<h3>Korrelation zwischen einer kontinuierlichen Variable und einer kategorialen Variable:<\/h3>\t\t\n\t\t<p>Um diese Art von Korrelation zu untersuchen, greift man auf die <a href=\"https:\/\/liora.io\/de\/die-varianzanalyse-anova-ein-tool-der-datenanalyse\"><b>Ein-Faktor-Varianzanalyse (ANOVA)<\/b><\/a> zur\u00fcck, die den Vergleich von Stichprobenmittelwerten erm\u00f6glicht.<\/p><p> Das Ziel dieses Tests ist es, auf den <b>Einfluss einer kategorialen Variable auf die Gesetzm\u00e4\u00dfigkeit einer zu erkl\u00e4renden kontinuierlichen Variable<\/b> zu schlie\u00dfen.<\/p><p>Stelle dir vor, dass du \u00fcber drei Variablen verf\u00fcgst. Die erste stellt eine Kundennummer dar, die zweite eine Kategorie (1,2 oder 3) und die letzte die Ausgaben.<\/p><blockquote><p><em>?Die Frage, die man sich stellen k\u00f6nnte: Hat die Variable Kategorie einen Einfluss auf die H\u00f6he der Ausgaben?<\/em><\/p><\/blockquote><p>Bezeichnen wir \u00b51, \u00b52 und \u00b53 als die Mittelwerte der ausgegebenen Betr\u00e4ge f\u00fcr jede der drei Kategorien.<\/p><p><strong>Eine einfache \u00dcberlegung lautet:<\/strong> Wenn die Variable Kategorie keinen Einfluss auf die Ausgaben hat, dann sollten die Mittelwerte gleich sein. Mit anderen Worten: \u00b51 = \u00b52 = \u00b53.<\/p><p>Dies ist genau die Hypothese, die wir testen, wenn wir die Varianzanalyse verwenden. <a href=\"https:\/\/liora.io\/de\/chi-2-mehr-ueber-diesen-unentbehrlichen-statistischen-test\">Wie der Chi-Quadrat<\/a>&#8211; und der <a href=\"https:\/\/liora.io\/de\/pearson-vs-spearman-korrelationen-einfache-erklaerung\">Pearson-Test<\/a> wird auch dieser Test von einer Teststatistik und einem p-Wert begleitet, der bestimmt, ob die Nullhypothese abgelehnt wird oder nicht.<\/p><p>Dieser Test l\u00e4sst sich leicht in Python implementieren, <a href=\"https:\/\/liora.io\/de\/statsmodels\">indem man die <\/a><i>Bibliothek statsmodels<\/i> verwendet. Hier ist ein Beispiel f\u00fcr eine Implementierung:<\/p>\t\t\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t<img decoding=\"async\" width=\"800\" height=\"236\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.38.png\" alt=\"python\" loading=\"lazy\">\t\t\t\t\t\t\t\t\t\t\t\t\t\t\t\n\t\t<p>In unserem Beispiel informiert df \u00fcber den Freiheitsgrad der Teststatistik F, die einer <b>Fisher-Verteilung<\/b> folgt. PR(&gt;F) gibt den p-Wert des Tests an. Dieser ist kleiner als 5%. Daraus schlie\u00dfen wir, dass die Variable pledged einen Einfluss auf <i>main_category<\/i> hat.<\/p><p>Du hast nun alle n\u00f6tigen Kenntnisse, um Korrelationen innerhalb eines Datensatzes zu untersuchen. <strong>Liora<\/strong> wird dir&nbsp; die M\u00f6glichkeit bieten, noch einen Schritt weiter zu gehen, indem du ein <strong>Datenprojekt<\/strong> von A bis Z durchf\u00fchrst.<\/p>\t\t\n\t\t\t\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Data Science Weiterbildungen!<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>In der Data Science ist es von entscheidender Bedeutung, herauszufinden und zu quantifizieren, in welchem Ausma\u00df zwei Variablen miteinander verbunden sind. Diese Beziehungen k\u00f6nnen komplex sein und sind nicht unbedingt direkt sichtbar. Einige dieser Abh\u00e4ngigkeiten beeintr\u00e4chtigen jedoch die Leistung von Machine-Learning-Algorithmen wie beispielsweise linearen Regressionen. Es ist daher unerl\u00e4sslich, die eigenen Daten optimal vorzubereiten. Wir [&hellip;]<\/p>\n","protected":false},"author":47,"featured_media":163080,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-163083","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/163083","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/47"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=163083"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/163083\/revisions"}],"predecessor-version":[{"id":217028,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/163083\/revisions\/217028"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/163080"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=163083"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=163083"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}