{"id":162402,"date":"2023-06-20T14:38:44","date_gmt":"2023-06-20T13:38:44","guid":{"rendered":"https:\/\/multi.liora.io\/?p=144394"},"modified":"2026-02-06T06:39:06","modified_gmt":"2026-02-06T05:39:06","slug":"zusammenhang-zwischen-variablen-wie-misst-man-den-zusammenhangsgrad","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/zusammenhang-zwischen-variablen-wie-misst-man-den-zusammenhangsgrad","title":{"rendered":"Zusammenhang zwischen Variablen: Wie misst man den Zusammenhangsgrad?"},"content":{"rendered":"<p><strong>In der Datenwissenschaft ist es entscheidend, herauszufinden und zu quantifizieren, wie stark zwei Variablen zusammenh\u00e4ngen. Diese Beziehungen k\u00f6nnen komplex sein und sind nicht unbedingt sichtbar. Einige Zusammenh\u00e4nge schw\u00e4chen die Leistung von Machine-Learning-Algorithmen wie linearen Regressionen. Daher solltest Du Deine Daten gut vorbereiten.<\/strong><\/p>\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Machine Learning-Weiterbildungen<\/a><\/div><\/div>\n\n\nHier werden wir sehen, wie man den Zusammenhang zwischen zwei kategorialen Variablen sowie zwischen kategorialen und kontinuierlichen Variablen erh\u00e4lt.\n\nZun\u00e4chst m\u00fcssen wir uns daran erinnern, dass eine<strong> kategoriale Variable<\/strong> eine Variable ist, die eine <strong>endliche Anzahl <\/strong>von <strong>unterschiedlichen Kategorien<\/strong> oder <strong>Gruppen<\/strong> besitzt. Zum Beispiel das Geschlecht von Personen, die Art des Materials oder die Zahlungsweise. Im Gegensatz dazu k\u00f6nnen <strong>kontinuierliche Variablen<\/strong> theoretisch eine unendliche Anzahl von Werten annehmen.\n<h3>Zusammenhang zwischen zwei kategorialen Variablen:\n\u200b<\/h3>\nUm festzustellen, ob zwei kategoriale Variablen zusammenh\u00e4ngen, wird der ber\u00fchmte <strong>Chi-Quadrat-Test<\/strong> verwendet. F\u00fcr diejenigen, die mit statistischen Tests nicht vertraut sind, keine Panik!\n\nEin statistischer Test ist ein Verfahren zur Entscheidung zwischen zwei Hypothesen.\nEs handelt sich um ein Verfahren, das darin besteht, eine statistische Hypothese, die sogenannte Nullhypothese H0, auf der Grundlage eines Satzes von Datenmengen abzulehnen oder nicht.\n\nIn dem hier behandelten Test lautet die Nullhypothese einfach \u201edie beiden getesteten Variablen sind unabh\u00e4ngig\u201c. Schlie\u00dflich wird der Test von einer Teststatistik begleitet, die an der Entscheidung beteiligt ist, ob die Nullhypothese abgelehnt wird oder nicht. Diese Statistik folgt \u2013 aufgrund der Art und Weise, wie der Test aufgebaut ist \u2013<a href=\"https:\/\/liora.io\/de\/chi-2-mehr-ueber-diesen-unentbehrlichen-statistischen-test\"> einer Chi-Quadrat-Verteilung mit einem gewissen Freiheitsgrad.<\/a>\n\n?Auch interessant:\n<table dir=\"ltr\" cellspacing=\"0\" cellpadding=\"0\" border=\"1\">\n<colgroup>\n<col width=\"426\"><\/colgroup>\n<tbody>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Bagging im Machine Learning - Was ist das ?&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/bagging-im-machine-learning-was-ist-das\"><a href=\"https:\/\/liora.io\/de\/bagging-im-machine-learning-was-ist-das\" target=\"_blank\" rel=\"noopener\">Bagging im Machine Learning &#8211; Was ist das ?<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Machine Learning Clustering: CAH Algorithmus&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/machine-learning-clustering-fokus-auf-den-cah-algorithmus\"><a href=\"https:\/\/liora.io\/de\/machine-learning-clustering-fokus-auf-den-cah-algorithmus\" target=\"_blank\" rel=\"noopener\">Machine Learning Clustering: CAH Algorithmus<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Deep Learning vs. Machine Learning&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/deep-learning-vs-machine-learning\"><a href=\"https:\/\/liora.io\/de\/deep-learning-vs-machine-learning\" target=\"_blank\" rel=\"noopener\">Deep Learning vs. Machine Learning<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Data Poisoning&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/data-poisoning-eine-bedrohung-fuer-machine-learning-modelle\"><a href=\"https:\/\/liora.io\/de\/data-poisoning-eine-bedrohung-fuer-machine-learning-modelle\" target=\"_blank\" rel=\"noopener\">Data Poisoning<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Machine Learning Data Sets Top 5&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/machine-learning-data-sets-top-5-websites\"><a href=\"https:\/\/liora.io\/de\/machine-learning-data-sets-top-5-websites\" target=\"_blank\" rel=\"noopener\">Machine Learning Data Sets Top 5<\/a><\/td>\n<\/tr>\n<tr>\n<td data-sheets-value=\"{&quot;1&quot;:2,&quot;2&quot;:&quot;Die Top 3 Machine Learning Algorithmen&quot;}\" data-sheets-hyperlink=\"https:\/\/liora.io\/de\/3-machine-learning-algorithmen-fuer-deinen-job\"><a href=\"https:\/\/liora.io\/de\/3-machine-learning-algorithmen-fuer-deinen-job\" target=\"_blank\" rel=\"noopener\">Die Top 3 Machine Learning Algorithmen<\/a><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h3>Aber wie entscheidet man, ob man die Nullhypothese ablehnt oder nicht?\n\u200b\u200b<\/h3>\nKurz gesagt hat jeder statistische Test einen sogenannten p-Wert. Man kann ihn <strong>sich als Referenzwert vorstellen, um zu entscheiden, ob die Nullhypothese abgelehnt werden soll oder nicht. Wenn der p-Wert unter 5% liegt, wird die Nullhypothese abgelehnt.<\/strong> Der Schwellenwert von 5% ist in der Praxis \u00fcblich und kann je nach Branche variieren.\n\nIn <strong>Python<\/strong> l\u00e4sst sich der Test mithilfe der Bibliothek scipy und ihrer Funktion chi2_contingency leicht implementieren. Somit erh\u00e4lt man schnell den p-Wert des Tests sowie die Statistik und den zugeh\u00f6rigen Freiheitsgrad. In der Praxis erfordert der Chi-Quadrat-Test im Vorfeld ein wenig Arbeit mit den Daten. Um den Test durchzuf\u00fchren, muss zun\u00e4chst die <strong>Kontingenztafel bestimmt werden<\/strong>, das hei\u00dft eine <strong>Kreuztabelle zwischen den Modalit\u00e4ten der beiden Variablen<\/strong>. Sie l\u00e4sst sich leicht mit der Funktion crosstab von Pandas erstellen. Dann f\u00fchrt man den Test mithilfe der Kontingenztafel durch:\n\nKurz gesagt hat jeder statistische Test einen sogenannten p-Wert. Man kann ihn <strong>sich als Referenzwert vorstellen, um zu entscheiden, ob die Nullhypothese abgelehnt werden soll oder nicht. Wenn der p-Wert unter 5% liegt, wird die Nullhypothese abgelehnt.<\/strong> Der Schwellenwert von 5% ist in der Praxis \u00fcblich und kann je nach Branche variieren.\n\nIn <strong>Python<\/strong> l\u00e4sst sich der Test mithilfe der Bibliothek scipy und ihrer Funktion chi2_contingency leicht implementieren. Somit erh\u00e4lt man schnell den p-Wert des Tests sowie die Statistik und den zugeh\u00f6rigen Freiheitsgrad. In der Praxis erfordert der Chi-Quadrat-Test im Vorfeld ein wenig Arbeit mit den Daten. Um den Test durchzuf\u00fchren, <strong>muss zun\u00e4chst die Kontingenztafel bestimmt werden<\/strong>, das hei\u00dft eine <strong>Kreuztabelle zwischen den Modalit\u00e4ten der beiden Variablen<\/strong>. Sie l\u00e4sst sich leicht mit der Funktion crosstab von Pandas erstellen. Dann f\u00fchrt man den Test mithilfe der Kontingenztafel durch:\n\n<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.25.png\" alt=\"python\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.25.png 612w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.25-300x148.png 300w\" sizes=\"(max-width: 612px) 100vw, 612px\" width=\"612\" height=\"302\">\n\nIm obigen Beispiel liegt der p-Wert deutlich unter 5 %, sodass wir die Hypothese ablehnen k\u00f6nnen, nach der die beiden getesteten Variablen unabh\u00e4ngig sind.\n\nSchlie\u00dflich k\u00f6nnen wir auch den Korrelationsgrad zwischen den beiden Variablen mit <strong>Cramers V<\/strong> messen. F\u00fcr die Berechnung von Cramers V werden die Teststatistik, den Freiheitsgrad und die Dimensionen der Kontingenztafel ben\u00f6tigt. Cramers V liegt <strong>zwischen 0 und 1. Ist der Wert gr\u00f6\u00dfer als 0,9, kann der Zusammenhang als sehr stark bezeichnet werden. Wenn der Wert kleiner als 0,10 ist, kann der Zusammenhang als schwach bezeichnet werden.<\/strong>\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Lerne, in Python zu programmieren<\/a><\/div><\/div>\n\n<h3>Zusammenhang zwischen zwei kontinuierlichen Variablen:<\/h3>\nUm festzustellen, ob zwei kontinuierliche Variablen unabh\u00e4ngig sind, gibt es auch einen Test, n\u00e4mlich den <strong>Test des Korrelationskoeffizienten<\/strong>. Die zu testende Nullhypothese ist identisch: \u201eDie beiden getesteten Variablen sind unabh\u00e4ngig\u201c. Wie beim Chi-Quadrat-Test wird dieser von einer Teststatistik und einem p-Wert begleitet, der bestimmt, ob die Nullhypothese abgelehnt wird oder nicht.\n\nDieser Test kann sehr einfach mit der scipy-Bibliothek und ihrer <a href=\"https:\/\/docs.scipy.org\/doc\/scipy-0.14.0\/reference\/generated\/scipy.stats.pearsonr.html\">pearsonr-Funktion<\/a> implementiert werden. Die Daten m\u00fcssen nicht vorbereitet werden, solange sie <strong>keine fehlenden Werte<\/strong> enthalten. Hier ist eine Beispielimplementierung mit Python:\n\n<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.19.png\" alt=\"python\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.19.png 596w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.19-300x135.png 300w\" sizes=\"(max-width: 596px) 100vw, 596px\" width=\"596\" height=\"268\">\n\nIn unserem Beispiel betr\u00e4gt der p-Wert weniger als 5 %. Wir schlie\u00dfen daraus, dass die Variablen nicht unabh\u00e4ngig sind. Der Korrelationskoeffizient misst den Zusammenhangsgrad zwischen den beiden Variablen.<strong> Er kann Werte zwischen -1 und 1 annehmen.<\/strong> Wenn er nahe bei 1 liegt, bedeutet dies, dass die Variablen zusammenh\u00e4ngen. Wenn er nahe bei 0 liegt, h\u00e4ngen die Variablen nicht zusammen. Wenn er nahe bei -1 liegt, ist der Zusammenhang negativ. In unserem Beispiel hat der Koeffizient einen Wert von 0,80319: Die Variablen haben einen starken Zusammenhang.\n<h3>Korrelation zwischen einer kontinuierlichen Variable und einer kategorialen Variable:<\/h3>\nUm diese Art von Korrelation zu untersuchen, wird eine <strong>Einweg-Varianzanalyse<\/strong> (engl. one-way variance of analysis, kurz: one-way ANOVA) verwendet, um Gruppenmittelwerte zu vergleichen. Somit wird <strong>der Einfluss einer kategorialen Variable auf eine zu erkl\u00e4rende kontinuierliche Variable bestimmt.<\/strong>\n\nStell Dir vor, Du hast 3 Variablen. Die erste liefert eine Kundennummer, die zweite eine Kategorie (1, 2 oder 3) und die letzte die ausgegebenen Betr\u00e4ge. Hier eine Frage, die wir uns stellen k\u00f6nnen: Hat die kategoriale Variable einen Einfluss auf die ausgegebenen Betr\u00e4ge? Seien \u00b51, \u00b52 und \u00b53 die durchschnittlich ausgegebenen Betr\u00e4ge f\u00fcr jede der 3 Kategorien. Wenn die kategoriale Variable keinen Einfluss auf die ausgegebenen Betr\u00e4ge hat, sollten die Durchschnittswerte identisch sein. Mit anderen Worten: \u00b51 = \u00b52 = \u00b53. Genau diese Hypothese testen wir, wenn wir die Varianzanalyse verwenden. Wie beim Chi-Quadrat- und beim <strong>Test des Korrelationskoeffizienten<\/strong> wird dieser Test von einer Teststatistik und einem p-Wert begleitet, der bestimmt, ob die Nullhypothese abgelehnt wird oder nicht.\n\nDieser Test l\u00e4sst sich mithilfe der statsmodels-Bibliothek einfach in Python implementieren. Hier ist eine Beispielimplementierung:\n\n<img decoding=\"async\" src=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.38.png\" alt=\"python\" loading=\"lazy\" srcset=\"https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.38.png 950w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.38-300x88.png 300w, https:\/\/liora.io\/app\/uploads\/sites\/8\/2020\/05\/Capture-d\u2019e\u0301cran-2020-05-24-a\u0300-19.42.38-768x226.png 768w\" sizes=\"(max-width: 800px) 100vw, 800px\" width=\"800\" height=\"236\">\n\nIn unserem Beispiel informiert df \u00fcber den Freiheitsgrad der F-Teststatistik, die einer Fisher-Verteilung folgt. PR(&gt;F) gibt den Wert des p-Werts des Tests an. Hier betr\u00e4gt der Wert weniger als 5 %, sodass wir daraus schlie\u00dfen, dass die zugesagte Variable einen Einfluss auf main_category hat.\n\nJetzt hast Du alle Informationen, um die Zusammenh\u00e4nge innerhalb eines Datensatzes zu untersuchen. Liora bietet Dir die M\u00f6glichkeit, Dich weiterzubilden, indem Du lernst, das Management eines Datenprojekts von A bis Z zu beherrschen. <strong><a href=\"https:\/\/liora.io\/de\/weiterbildung-de#formations\">Entdecke schnell unsere Weiterbildungen!<\/a><\/strong>\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Weiterbildung in Data Science<\/a><\/div><\/div>\n","protected":false},"excerpt":{"rendered":"<p>In der Datenwissenschaft ist es entscheidend, herauszufinden und zu quantifizieren, wie stark zwei Variablen zusammenh\u00e4ngen. Diese Beziehungen k\u00f6nnen komplex sein und sind nicht unbedingt sichtbar. Einige Zusammenh\u00e4nge schw\u00e4chen die Leistung von Machine-Learning-Algorithmen wie linearen Regressionen. Daher solltest Du Deine Daten gut vorbereiten. Hier werden wir sehen, wie man den Zusammenhang zwischen zwei kategorialen Variablen sowie [&hellip;]<\/p>\n","protected":false},"author":74,"featured_media":3041,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-162402","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/162402","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/74"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=162402"}],"version-history":[{"count":1,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/162402\/revisions"}],"predecessor-version":[{"id":217438,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/162402\/revisions\/217438"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/3041"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=162402"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=162402"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}