Die Varianzanalyse ANOVA (analysis of variance) ist eine einfache und häufig verwendete statistische Technik, um die Beziehung zwischen zwei (oder mehreren) Variablen zu untersuchen, insbesondere zwischen einer erklärenden Variablen und einer Zielvariablen (oder abhängigen Variablen). Die ANOVA ermöglicht es uns zu verstehen, ob und wie die erklärende Variable die Zielvariable beeinflusst.
Die Varianzanalyse ANOVA wird also in verschiedenen Kontexten und zu unterschiedlichen Fragestellungen mobilisiert, angefangen beim Marketing bis hin zu wissenschaftlichen Studien in verschiedenen Bereichen (Medizin, Biologie, Demografie usw.). Wir können uns konkrete Fälle vorstellen, in denen die ANOVA eingesetzt werden kann. Der Leiter einer Kette mit 80 Geschäften möchte wissen, ob sich eine Erhöhung der Helligkeit der Werbeplakate positiv auf die Verkäufe auswirken kann. Er teilt seine Geschäfte in vier Gruppen ein. Die erste Gruppe bittet er, die Helligkeit der Werbeplakate nicht zu verändern. Dagegen bittet er die zweite, dritte und vierte Gruppe von Geschäften, die Helligkeit der Werbeplakate um 20 %, 40 % bzw. 60 % zu erhöhen. Einen Monat später berechnet er die durchschnittlichen Verkaufszahlen für jede der vier Gruppen. Er stellt Unterschiede fest: Der Helligkeitsgrad der Plakate scheint den Verkauf gefördert zu haben. Demografen möchten den Effekt des Bildungsniveaus (unterhalb des Abiturs, Abitur, Bachelor, Master) auf das Einkommen untersuchen. Ausgehend von einer nationalen Studie, die 150.000 Personen in ganz Frankreich umfasste, berechneten sie das durchschnittliche Einkommen für jede dieser Schulstufen. Sie stellen fest, dass sich die Durchschnittswerte unterscheiden und dass die Schulstufe einen positiven Effekt auf das Einkommen zu haben scheint. Wie können der Geschäftsführer der Ladenkette und die Demografen sicher sein, dass es einen signifikanten Zusammenhang zwischen den Variablen gibt, die sie untersuchen (Helligkeit der Werbeplakate und Verkäufe einerseits und Bildungsniveau und Einkommen andererseits) und dass die Unterschiede, die sie festgestellt haben, also real sind? Glücklicherweise können sie sich auf einen statistischen Test verlassen, der 1918 von dem britischen Biologen und Statistiker Fischer entwickelt wurde: die ANOVA.Was ist die Varianzanalyse ANOVA?
Die Varianzanalyse ANOVA ist eine Technik der Inferenzstatistik, die entwickelt wurde, um zu testen, ob es einen signifikanten Zusammenhang zwischen zwei Variablen in zwei oder mehr Gruppen gibt. Sie wird insbesondere dann eingesetzt, wenn wir wissen wollen, ob eine erklärende Variable (in unserem Beispiel die Helligkeit der Plakate und das Bildungsniveau) eine abhängige Variable (in unserem Beispiel die Verkäufe in den Geschäften und das Einkommen) beeinflusst. Es ist wichtig zu beachten, dass im Fall der ANOVA die erklärende Variable eine kategoriale Variable ist, d.h. eine Variable, die Werte für eine Eigenschaft oder ein Merkmal enthält, die bzw. das nicht quantifizierbar ist. Andererseits ist die Zielvariable eine quantitative Variable, d. h. eine Variable, die in Zahlenwerten ausgedrückt werden kann. Die ANOVA folgt der gleichen Logik wie ein Mittelwertvergleichstest wie der T-Test, aber im Gegensatz zum T-Test ist sie nicht auf die Analyse von zwei Gruppen beschränkt, sondern kann im Gegenteil eine Vielzahl von Gruppen berücksichtigen: Das ist ihre Stärke. Das Ziel der ANOVA ist es, die Nullhypothese, die besagt, dass es keinen signifikanten Unterschied zwischen den untersuchten Gruppen gibt, zu verwerfen und die Alternativhypothese, die besagt, dass die festgestellten Unterschiede zwischen den Gruppen tatsächlich bestehen, beizubehalten. Um dies zu erreichen, setzt die Varianzanalyse ANOVA, wie der Name schon sagt, die Varianz zwischen den Klassen in Beziehung zur Varianz innerhalb der Klassen. Die Interklassenvarianz gibt die Varianz zwischen den Gruppen an, d. h., um auf eines unserer Beispiele zurückzukommen, die Varianz zwischen den verschiedenen Gruppen, die durch ihren Bildungsgrad definiert sind. Die Varianz innerhalb der Klasse gibt die Varianz innerhalb jeder Gruppe an, die durch ihre Bildungsstufe definiert ist. Die Grundidee der ANOVA ist, dass je größer das Verhältnis zwischen der Varianz zwischen den Klassen und der Varianz innerhalb der Klassen ist, desto größer ist die Wahrscheinlichkeit, dass die Unterschiede zwischen den Gruppen tatsächlich bestehen. Mit anderen Worten: Wenn die Varianz zwischen den Klassen größer ist als die Varianz innerhalb der Klassen, können wir davon ausgehen, dass die beobachteten Unterschiede tatsächlich auf die Zugehörigkeit zu den verschiedenen Gruppen zurückzuführen sind: Wir können dann die Nullhypothese ablehnen. Das Verhältnis zwischen der Varianz zwischen den Klassen und der Varianz innerhalb der Klasse wird durch die F-Ratio ausgedrückt. Auch interessant: Standardabweichung Formel ExcelWie wird der F Ratio berechnet?
Um den F-Ratio zu berechnen, können wir unser Problem der Varianzanalyse in mehrere Schritte zerlegen. Wir beginnen damit, die Varianz zwischen den Klassen (über die Gruppen hinweg) und die Varianz innerhalb der Klassen (innerhalb der Gruppen) zu berechnen. Dazu müssen wir die Summe der Quadrate der Abweichungen (SCE) zwischen den Gruppen berechnen. Die Formel lautet wie folgt: SCEInterclasse = [latex] sum_{k=1}^{n} u_{k} times (overline{Y_{k}}- overline{Y})^{2}[/latex]mit
k = die Anzahl der verschiedenen Gruppen[latex] overline{Y_{k}}[/latex] = der Durchschnitt einer Gruppe[latex] overline{Y}[/latex] = der Gesamtdurchschnitt Die SCEInterklasse kann auch als die Gesamtvariation in der abhängigen Variable verstanden werden, die durch die unabhängige Variable erklärt werden kann. Als Nächstes werden wir die Intraklassen-Quadratsumme berechnen, d. h. die Summe der Quadrate der Abweichungen innerhalb der Gruppen. Wir werden sie SCEIntraclass nennen. Die Formel zur Berechnung der Summe der Quadrate der Abweichungen innerhalb der einzelnen Gruppen lautet wie folgt: SCEIntraclasse = [latex] sum_{k=1}^{n} u_{k} times (overline{Y_{i}}- overline{Y_{k}})^{2}[/latex]mit:
[latex] overline{Y_{i}}[/latex] = jede einzelne Punktzahl innerhalb der Gruppe[latex] overline{Y_{k}}[/latex] = der Durchschnitt der Gruppe Zusammen bilden die Interklassenvarianz und die Interklassenvarianz die Gesamtvarianz in unseren Beobachtungen. Diese kann wie folgt dargestellt werden: SCEGesamt = SCEInterklasse + SCEIntraklasse. Als Nächstes können wir unsere Freiheitsgrade berechnen. Für SCEInterklasse werden die Freiheitsgrade bestimmt durch: DDLInterklasse = K – 1 Dabei ist K die Anzahl der Gruppen. Für SCEIntraclass werden die Freiheitsgrade wie folgt bestimmt: DDLIntraklasse = N – k Dabei gilt N = die Gesamtzahl der Beobachtungen k = die Anzahl der Gruppen. Wir können nun den Durchschnitt der Interklassenquadrate berechnen, indem wir SCEInterklasse durch die DDL Interklasse dividieren. Mittelwert der klassenübergreifenden Quadrate = SCEinterclass / DDLInterclass. Wir können auf die gleiche Weise vorgehen, um den Durchschnitt der klasseninternen Quadrate zu berechnen: Mittelwert der Intraklassenquadrate = SCEinterklasse / DDLIntraklasse. Wir sind am Ende unseres Weges angelangt und können nun endlich das F-Verhältnis (Fisher’s F) berechnen. F ratio = Mittelwert der Interklassenquadrate / Mittelwert der Intraklassenquadrate Eine hohe F-Ratio zeigt an, dass die Varianz zwischen den Klassen größer ist als die Varianz innerhalb der Klassen. Dies erhöht die Wahrscheinlichkeit, dass wir die Nullhypothese ablehnen und behaupten können, dass es tatsächlich einen Unterschied zwischen unseren Interessengruppen gibt. Es ist wichtig zu erwähnen, dass wir, um eine Varianzanalyse ANOVA an unseren Daten durchführen zu können, überprüfen müssen, ob die Daten eine Reihe von Bedingungen erfüllen, insbesondere die Normalverteilung und die Unabhängigkeit unserer Stichproben. Genauer gesagt ist es notwendig, dass die untersuchte quantitative Variable eine Normalverteilung hat: Dies ist besonders wichtig bei kleinen Stichproben. Außerdem müssen wir die Homoskedastizität untersuchen: Um eine Varianzanalyse ANOVA durchführen zu können, müssen alle untersuchten Gruppen eine gleiche (oder ähnliche) Varianz aufweisen. Schließlich müssen wir vor der Durchführung einer ANOVA überprüfen, ob die Beobachtungen unabhängig voneinander sind. Auch interessant: Statistik Bias die du kennen solltest
