{"id":175599,"date":"2026-01-28T11:24:19","date_gmt":"2026-01-28T10:24:19","guid":{"rendered":"https:\/\/liora.io\/de\/?p=175599"},"modified":"2026-02-06T04:47:25","modified_gmt":"2026-02-06T03:47:25","slug":"chi-2-mehr-ueber-diesen-unentbehrlichen-statistischen-test","status":"publish","type":"post","link":"https:\/\/liora.io\/de\/chi-2-mehr-ueber-diesen-unentbehrlichen-statistischen-test","title":{"rendered":"Chi-2 : Mehr \u00fcber diesen unentbehrlichen statistischen Test"},"content":{"rendered":"<p><strong>Der Chi-Quadrat-Test ist ein statistischer Test f\u00fcr Variablen, die eine endliche Anzahl von m\u00f6glichen Werten annehmen (also kategoriale Variablen). Zur Erinnerung: Ein statistischer Test ist eine Methode, um eine Hypothese, die sogenannte Nullhypothese, anzunehmen oder abzulehnen, je nachdem, wie gut sie zu den Daten passt.<\/strong><\/p>\n<h2 class=\"wp-block-heading\" id=\"h-wozu-dient-der-chi-quadrat-test\">Wozu dient der Chi-Quadrat-Test?<\/h2>\nDer Vorteil des Chi-Quadrat-Tests ist seine gro\u00dfe Bandbreite an Anwendungsm\u00f6glichkeiten:\n<ul>\n \t<li>Test auf \u00dcbereinstimmung mit einer a priori definierten Gesetzm\u00e4\u00dfigkeit oder einer Familie von Gesetzm\u00e4\u00dfigkeiten, z.B. Folgt die Gr\u00f6\u00dfe einer Population einer Normalverteilung? :<\/li>\n \t<li>Test auf Unabh\u00e4ngigkeit, Beispiel: Ist die Haarfarbe unabh\u00e4ngig vom Geschlecht?<\/li>\n \t<li>Test auf Homogenit\u00e4t: Sind zwei Datens\u00e4tze gleich verteilt?<\/li>\n<\/ul>\n<h2 class=\"wp-block-heading\" id=\"h-wie-funktioniert-der-test\">Wie funktioniert der Test?<\/h2>\nDas Prinzip ist, die N\u00e4he oder Ferne zwischen der Gesetzm\u00e4\u00dfigkeit der Stichprobe und einer theoretischen Gesetzm\u00e4\u00dfigkeit mit der sogenannten Pearson-Statistik [latex] chi_{Pearson}} zu vergleichen. [latex], die auf dem Chi-Quadrat-Abstand basiert.\n\nErstes Problem: Da wir nur \u00fcber eine begrenzte Anzahl von Daten verf\u00fcgen, k\u00f6nnen wir das Gesetz der Stichprobe nicht perfekt kennen, sondern nur eine Ann\u00e4herung an dieses Gesetz, das empirische Ma\u00df.\n\nDas empirische Ma\u00df [latex] widehat{mathbb{P}}_{n,X} [latex] stellt die H\u00e4ufigkeit der verschiedenen beobachteten Werte dar:\n\n[latex] forall x in mathbb{X} quad   widehat{mathbb{P}}_{n,X} (x) = frac{1}{n} sum_{k=1}^{n} 1_{X_{k} =x}[\/latex]\n<p style=\"text-align: center\"><i>Formel Empirische Messung<\/i><\/p>\n<p style=\"text-align: center\">mit<\/p>\n[latex] X_{1},&#8230; ,{X_n}[\/latex] =Probe[latex] {mathbb{X}} [\/latex] = Die Menge aller m\u00f6glichen Werte\n\nWir definieren die Pearson-Statistik als :\n\n[latex] chi_{Pearson} = n times chi_{2}(widehat{mathbb{P}}_{n,X}, P_{theorique} ) = n times sum_{x in  mathbb{X}} frac{(widehat{mathbb{P}}_{n,X} (x)- P_{theorique}(x))^{2}}{P_{theorique}(x)}[\/latex]\n<p style=\"text-align: center\"><em>Statistische Formel nach Pearson<\/em><\/p>\n<p style=\"text-align: left\">Unter der Nullhypothese, d. h. dass die Stichprobenverteilung mit der theoretischen Verteilung \u00fcbereinstimmt, wird die Pearson-Statistik gegen die Chi-Quadrat-Verteilung mit d Freiheitsgraden konvergieren. Die Anzahl d der Freiheitsgrade h\u00e4ngt von der Gr\u00f6\u00dfe des Problems ab und ist im Allgemeinen die Anzahl der m\u00f6glichen Werte -1.<\/p>\nZur Erinnerung: Die Chi-Quadrat-Verteilung mit d Freiheitsgraden\n\nzentriert reduziert unabh\u00e4ngig.\n\n[latex] chi^{2}_{loi}(d)\n[\/latex]\n\nist die einer Summe der Quadrate von d Gau\u00dfschen\n\n[latex] chi^{2}_{loi}(d) := sum_{k=1}^{d} X_{k} quad avec quad X_{k}  sim  mathbb{N}(0,1)[\/latex]\n<p style=\"text-align: left\">Andernfalls wird diese Statistik ins Unendliche divergieren, was die Entfernung zwischen empirischen und theoretischen Verteilungen widerspiegelt.<\/p>\n[latex] Sous quad H_{0}  quad  lim_{nrightarrow  infty } chi_{Pearson} = chi^{2}_{loi}(d). \\\nSous quad H_{1}  quad  lim_{nrightarrow  infty } chi_{Pearson} = infty\n[\/latex]\n<p style=\"text-align: center\"><em>Grenzformel<\/em><\/p>\n\n<h2 class=\"wp-block-heading\" id=\"h-was-sind-seine-vorteile\">Was sind seine Vorteile?<\/h2>\nWir haben also eine einfache Entscheidungsregel: Wenn die Pearson-Statistik einen bestimmten Schwellenwert \u00fcberschreitet, lehnen wir die Ausgangshypothese (die theoretische Verteilung passt nicht zu den Daten) ab, ansonsten akzeptieren wir sie. Der Vorteil des Chi-Quadrat-Tests ist, dass dieser Schwellenwert nur von der Chi-Quadrat-Verteilung und dem Alpha-Konfidenzniveau abh\u00e4ngt, also unabh\u00e4ngig von der Verteilung der Stichprobe ist.\n<h2 class=\"wp-block-heading\" id=\"h-eine-anwendung-der-unabhangigkeitstest\">Eine Anwendung, der Unabh\u00e4ngigkeitstest :<\/h2>\nNehmen wir ein Beispiel, um diesen Test zu veranschaulichen: Wir wollen wissen, ob die Geschlechter der ersten beiden Kinder X und Y eines Paares unabh\u00e4ngig sind?\n\nWir haben die Daten in einer Kontingenztabelle zusammengefasst:\n\n[latex] begin{array}{|c|c|c|c|}\nhline X \/ Y &amp; Kind 2 : Sohn &amp; Kind 2 : Tochter &amp; Total \\\nhline Kind 1 : Sohn &amp; 857  &amp;  801 &amp; 1658 \\\nhline Kind 1 : Tochter  &amp; 813 &amp; 828 &amp; 1641\\\nhline Total  &amp; 1670 &amp; 1629 &amp; 3299\nend{array}\n[\/latex]\n\nDie Pearson-Statistik bestimmt, ob das empirische Ma\u00df der gemeinsamen Gesetzm\u00e4\u00dfigkeit (X,Y) gleich dem Produkt der marginalen empirischen Ma\u00dfe ist, was die Unabh\u00e4ngigkeit charakterisiert:\n\n[latex] chi_{Pearson} = n times chi2\n(widehat{mathbb{P}}_{X times Y}, widehat{mathbb{P}}_{X} times widehat{mathbb{P}}_{Y}) =\nsum_{x in  {Tochter, Sohn}, yin {Tochter, Sohn} } frac{(Observation_{x,y} &#8211; Theory_{x,y})^{2}}{Theory_{x,y}}\n[\/latex]\n\nHier Observation(x,y) ist die H\u00e4ufigkeit des Wertes (x,y) :\n\n[latex] forall x,y in {Tochter, Sohn} quad\nObservation_{x,y} = frac{1}{n} sum_{k=1}^{n} 1_{(X_{k},Y_{k}) =(x,y)}\n[\/latex]\n\nZum Beispiel:\n\n[latex] Observation(Tochter, Sohn)= frac{828}{3299} =0.251\n[\/latex]\n\nF\u00fcr Theory(x,y) wird angenommen, dass X und Y unabh\u00e4ngig sind, so dass die theoretische Gesetzm\u00e4\u00dfigkeit das Produkt der Randgesetze sein sollte:\n\n[latex] forall x,y in {Tochter, Sohn} quad\nTheory_{x,y} = Observation^{X} times Observation^{Y} = sum_{yin{Tochter, Sohn}}Observation_{x,y} times\nsum_{xin{fille, fils}}Observation_{x,y}\n[\/latex]\n\nDie theoretische Wahrscheinlichkeit f\u00fcr (Sohn,Sohn) ist also:\n\n[latex] Theory(Tochter, Sohn)=frac{857+801}{3299} times frac{857+813}{3299}  =frac{1658 times 1670}{3299^{2}}=0.254[\/latex]\n\nBerechnen wir die Teststatistik mithilfe des folgenden Python-Codes:\n\nIn unserem Fall haben die Variablen X und Y nur zwei m\u00f6gliche Werte: M\u00e4dchen oder Jungen. Die Dimension des Problems ist also (2-1)(2-1) oder 1.\n\nWir vergleichen daher die Teststatistik mit dem Chi-Quantil bei 1 Freiheitsgrad \u00fcber die Funktion chi2.ppf in scipy.stats. Sie ist kleiner als das Quantil und der p-Wert ist gr\u00f6\u00dfer als das Konfidenzniveau = 0,05. Wir k\u00f6nnen die Nullhypothese mit 95%igem Vertrauen nicht ablehnen und schlie\u00dfen daher auf die Unabh\u00e4ngigkeit des Geschlechts der ersten beiden Kinder.\n<h2 class=\"wp-block-heading\" id=\"h-wo-liegen-seine-grenzen\">Wo liegen seine Grenzen?<\/h2>\nDer <strong>Chi-Quadrat-Test<\/strong> scheint sehr praktisch zu sein, hat aber auch seine Grenzen: Er stellt nur fest, dass es Korrelationen gibt, aber er erkennt weder die St\u00e4rke dieser Korrelationen noch Kausalit\u00e4ten.\n\nEr beruht auf der Ann\u00e4herung des Chi-Quadrat-Gesetzes durch die Pearson-Statistik, die nur dann \u00fcberpr\u00fcft werden kann, wenn eine ausreichende Anzahl von Daten vorliegt. In der Praxis sieht diese G\u00fcltigkeitsbedingung wie folgt aus:\n\n[latex] forall x in mathbb{X} quad n times P_{theorie}(x) (1- P_{theorie}(x)) geq 5[\/latex]\n\nDer exakte Test nach Fisher kann diesen Mangel beheben, erfordert aber eine hohe Rechenleistung (in der Praxis wird er auf 2*2-Kontingenztabellen beschr\u00e4nkt).\n\nStatistische Tests sind in der Data Science unerl\u00e4sslich, um die Relevanz der erkl\u00e4renden Variablen zu \u00fcberpr\u00fcfen und die Hypothesen der Modellierung zu validieren. Weitere Informationen \u00fcber Chi-2 und andere statistische Tests findest du in unserem Modul 104 &#8211; Explorative Statistik.\n\n\n<div class=\"wp-block-buttons is-layout-flex wp-block-buttons-is-layout-flex is-content-justification-center\"><div class=\"wp-block-button \"><a class=\"wp-block-button__link wp-element-button \" href=\"https:\/\/liora.io\/de\/unsere-aus-und-weiterbildungen\">Entdecke unsere Data Scientist Weiterbildungen<\/a><\/div><\/div>\n\n<h2 class=\"wp-block-heading\" id=\"h-referenzen\">Referenzen:<\/h2>\n<a href=\"https:\/\/docs.scipy.org\/doc\/scipy\/reference\/generated\/scipy.stats.chi2.html\">https:\/\/docs.scipy.org\/doc\/scipy\/reference\/generated\/scipy.stats.chi2.html<\/a>\n\n<a href=\"https:\/\/docs.scipy.org\/doc\/scipy\/reference\/generated\/scipy.stats.chi2_contingency.html\">https:\/\/docs.scipy.org\/doc\/scipy\/reference\/generated\/scipy.stats.chi2_contingency.html<\/a>","protected":false},"excerpt":{"rendered":"<p>Der Chi-Quadrat-Test ist ein statistischer Test f\u00fcr Variablen, die eine endliche Anzahl von m\u00f6glichen Werten annehmen (also kategoriale Variablen). Zur Erinnerung: Ein statistischer Test ist eine Methode, um eine Hypothese, die sogenannte Nullhypothese, anzunehmen oder abzulehnen, je nachdem, wie gut sie zu den Daten passt.<\/p>\n","protected":false},"author":78,"featured_media":175600,"comment_status":"open","ping_status":"open","sticky":false,"template":"elementor_theme","format":"standard","meta":{"_acf_changed":false,"editor_notices":[],"footnotes":""},"categories":[2472],"class_list":["post-175599","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-ki"],"acf":[],"_links":{"self":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/175599","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/users\/78"}],"replies":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/comments?post=175599"}],"version-history":[{"count":3,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/175599\/revisions"}],"predecessor-version":[{"id":216650,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/posts\/175599\/revisions\/216650"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media\/175600"}],"wp:attachment":[{"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/media?parent=175599"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/liora.io\/de\/wp-json\/wp\/v2\/categories?post=175599"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}