À quoi sert le test du khi-2 ?
L’avantage du test khi-deux est sa grande diversité d’utilisation :- Test d’adéquation à une loi ou une famille de lois définies à priori, par exemple : la taille d’une population suit-elle une loi normale ? :
- Test d’indépendance, exemple : la couleur des cheveux est elle indépendante du sexe ?
- Test d’homogénéité : deux séries de données sont-elles identiquement distribuées?
Comment fonctionne le test ?

Formule mesure empirique
avec
[latex] X_{1},… ,{X_n}[/latex] = l’échantillon[latex] {mathbb{X}} [/latex] = l’ensemble des valeurs possiblesOn définit la statistique de Pearson comme :[latex] chi_{Pearson} = n times chi_{2}(widehat{mathbb{P}}_{n,X}, P_{theorique} ) = n times sum_{x in mathbb{X}} frac{(widehat{mathbb{P}}_{n,X} (x)- P_{theorique}(x))^{2}}{P_{theorique}(x)}[/latex]Formule statistiques de Pearson
Sous l’hypothèse nulle , c’est à dire qu’on a bien égalité entre la loi de l’échantillon et la loi théorique, cette statistique de Pearson va converger vers la loi du khi-2 à d degrés de libertés. Le nombre d de degrés de libertés dépend des dimensions du problème, en général c’est le nombre de valeurs possibles -1.
Pour rappel, la loi du khi-2 à d degrés de libertés centrées réduites indépendantes. [latex] chi^{2}_{loi}(d) [/latex] est celle d’une somme de carrés de d gaussiennes [latex] chi^{2}_{loi}(d) := sum_{k=1}^{d} X_{k} quad avec quad X_{k} sim mathbb{N}(0,1)[/latex]Sinon, cette statistique va diverger à l’infini, ce qui traduit l’éloignement entre des distributions empiriques et théoriques.
[latex] Sous quad H_{0} quad lim_{nrightarrow infty } chi_{Pearson} = chi^{2}_{loi}(d). Sous quad H_{1} quad lim_{nrightarrow infty } chi_{Pearson} = infty [/latex]Formule limite
Quels sont ses avantages ?
On dispose donc d’une règle de décision simple : si la statistique de Pearson dépasse une certain seuil, on rejette l’hypothèse de départ (la distribution théorique ne colle pas aux données), sinon on l’accepte. L’avantage du test Khi-2 est que ce seuil dépend seulement de la loi du Khi2 et du niveau de confiance alpha, il est donc indépendant de la loi de l’échantillon.Une application, le test d’indépendance :
Prenons un exemple pour illustrer ce test : on veut savoir si les sexes des deux premiers enfants X et Y d’un couple sont indépendants ? On a rassemblé les données dans une table de contingence : [latex] begin{array}{|c|c|c|c|} hline X / Y & Enfant 2 : fils & Enfant 2 : fille & Total hline Enfant 1 : fils & 857 & 801 & 1658 hline Enfant 1 : fille & 813 & 828 & 1641 hline Total & 1670 & 1629 & 3299 end{array} [/latex] La Statistique de Pearson va déterminer si la mesure empirique de la loi conjointe (X,Y) est égale au produit des mesures empiriques marginales, ce qui caractérise l’indépendance : [latex] chi_{Pearson} = n times chi2 (widehat{mathbb{P}}_{X times Y}, widehat{mathbb{P}}_{X} times widehat{mathbb{P}}_{Y}) = sum_{x in {fille, fils}, yin {fille, fils} } frac{(Observation_{x,y} – Theory_{x,y})^{2}}{Theory_{x,y}} [/latex] Ici Observation(x,y) est la fréquence de la valeur (x,y) : [latex] forall x,y in {fille, fils} quad Observation_{x,y} = frac{1}{n} sum_{k=1}^{n} 1_{(X_{k},Y_{k}) =(x,y)} [/latex] Par exemple: [latex] Observation(fille,fille)= frac{828}{3299} =0.251 [/latex]Pour Theory(x,y), X et Y sont supposés indépendants, la loi théorique devrait donc être le produit des lois marginales :[latex] forall x,y in {fille, fils} quad Theory_{x,y} = Observation^{X} times Observation^{Y} = sum_{yin{fille, fils}}Observation_{x,y} times sum_{xin{fille, fils}}Observation_{x,y} [/latex] Ainsi la probabilité théorique pour(fils,fils) est: [latex] Theory(fils,fils)=frac{857+801}{3299} times frac{857+813}{3299} =frac{1658 times 1670}{3299^{2}}=0.254[/latex] Calculons la statistique du test via le code python suivant : Dans notre cas, les variables X et Y ont seulement 2 valeurs possibles : filles ou garçons, la dimension du problème est donc de (2-1)(2-1) soit 1. On compare donc la statistique du test au quantile du khi2 à 1 degré de liberté, via la fonction chi2.ppf de scipy.stats. Elle est inférieure au quantile, et la p-valeur supérieure au niveau de confiance = 0.05, on ne peut pas rejeter l’hypothèse nulle avec un confiance 95%,et l’on conclut donc à l’indépendance du sexe des 2 premiers enfants.Quelles sont ses limites ?


