Einfaktorielle Varianzanalyse[Bearbeiten]
Situation und Hypothesenpaar[Bearbeiten]
Situation: Gegeben sind
normalverteilte ZV
deren Standardabweichungen
(bzw. Varianzen) gleich sind.
Hypothesenpaar:
![{\displaystyle H_{0}:\mu _{1}=\mu _{2}=\ldots =\mu _{m}\quad H_{1}:\mu _{i}\not =\mu _{j}\;{\text{für mindestens eine Kombination}}\ (i,j)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d785af0aac56a268d1a66d2de88783a011367841)
Äquivalent dazu (unter obigen Voraussetzungen):
![{\displaystyle H_{0}:\ X^{(1)},\ldots ,X^{(m)}{\text{ sind identisch verteilt.}}\quad }](https://wikimedia.org/api/rest_v1/media/math/render/svg/db1a55532660d872027ce970e92243b1366abb1e)
![{\displaystyle H_{1}:{\text{Mindestens zwei}}X^{(i)},X^{(j)}\;{\text{sind nicht identisch verteilt.}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4202ea883a2cc359c9705c2e0d4838cc51ad7d3f)
unabhängige Stichproben
![{\displaystyle {\begin{aligned}x_{1}^{(1)},\ x_{2}^{(1)},\ldots ,x_{(n_{1})}^{(1)}&{\text{von}}&X^{(1)}\quad \left({\text{Länge:}}\ n_{1}\right)\\&&\\x_{1}^{(2)},\ x_{2}^{(2)},\ldots ,x_{(n_{2})}^{(2)}&{\text{von}}&X^{(2)}\quad \left({\text{Länge:}}\ n_{2}\right)\\&&\\\vdots &\vdots &\vdots \\&&\\x_{1}^{(m)},\ x_{2}^{(m)},\ldots ,x_{(n_{m})}^{(m)}&{\text{von}}&X^{(m)}\quad \left({\text{Länge:}}\ n_{m}\right)\\\hline &&{\text{Gesamtstichprobenlänge:}}\ n=\sum \limits _{k=1}^{m}n_{k}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/eb39d5e74e2734ef6ee2281ce2aa111beb0fde54)
Man berechnet aus den Stichproben:
- die Gruppenmittelwerte (’mean of groups’):
![{\textstyle \quad {\overline {x^{(k)}}}={\frac {1}{n_{k}}}\cdot \sum \limits _{i=1}^{n_{k}}x_{i}^{(k)}\quad (k=1,\ldots ,m)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/38fa596be4e5c969507a54eb1779653992ad52a6)
- den Gesamtmittelwert (’grand mean’):
![{\textstyle \quad {\overline {x}}={\frac {1}{n}}\cdot \sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{k}}x_{i}^{(k)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2695378c33ad3ea76506a8b91426aa1b0b2ddf39)
Beachte: Es gilt:
- Die Summe der quadratischen Abweichungen aller Stichprobenwerte
vom Gesamtmittelwert
bezeichnet man mit: ![{\displaystyle {\text{SSG}}=\sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{k}}\left(x_{i}^{(k)}-{\overline {x}}\right)^{2}\quad \left({\textbf {grand}}\;{\textbf {sum}}\;{\textbf {of}}\;{\textbf {squares}}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/329777af9d827bec21bc7a5a2d85be84660d1bab)
- Weiterhin bezeichnet man die Summe der quadratischen Abweichungen aller Stichprobenmittelwerte
vom Gesamtmittelwert
mit: ![{\displaystyle {\text{SST}}=\sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{k}}\left({\overline {x^{(k)}}}-{\overline {x}}\right)^{2}=\sum \limits _{k=1}^{m}n_{k}\cdot \left({\overline {x^{(k)}}}-{\overline {x}}\right)^{2}\quad }](https://wikimedia.org/api/rest_v1/media/math/render/svg/ea23be0b3a5ab1803215398500f0c91fd7f97a88)
![{\displaystyle \left({\textbf {sum}}\;{\textbf {of}}\;{\textbf {squares}}\;{\textbf {of}}\;{\textbf {treatments}}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/198d6ee5abc5352ca59ec4e6256b4ebc67c4a4d4)
SST ist ein Maß für die Unterschiede zwischen den verschiedenen Stichproben.
- Schließlich bezeichnet man die Summe der quadratischen Abweichungen aller Stichprobenwerte
vom jeweiligen Stichprobenmittelwerte
mit: ![{\displaystyle {\text{SSE}}=\sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{k}}\left(x_{i}^{(k)}-{\overline {x^{(k)}}}\right)^{2}\quad \left({\textbf {sum}}\;{\textbf {of}}\;{\textbf {squares}}\;{\text{of}}\;{\textbf {errors}}\right)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4dad4b357a71f71e72666abee68e313a1837821b)
SSE ist ein Maß für die Unterschiede innerhalb der einzelnen Stichproben.
Man beachte, dass gilt: ![{\textstyle \quad {\text{SSG}}={\text{SST}}+{\text{SSE}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/25dae9fba34f4ecbad2f9dd5524376024f2d64dc)
Man teilt nun SST und SSE durch die Zahl der jeweiligen Freiheitsgrade (falls
gilt, sind
und
jeweils
-verteilt mit
bzw.
FG) und erhält die sogenannten ’mittleren quadratischen Abweichungen’
![{\displaystyle {\begin{aligned}{\text{MST}}={\frac {\text{SST}}{m-1}}&:&{\textbf {('mean}}\;{\textbf {square}}\;{\textbf {of}}\;{\textbf {treatments')}}\\{\text{MSE}}={\frac {\text{SSE}}{n-m}}&:&{\textbf {('mean}}\;{\textbf {squared}}\;{\textbf {error')}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/27855d834a1084fed4a324ee704799e68deeb4ed)
Aus SST und SSE berechnet man nun die Teststatistik wie folgt:
![{\displaystyle T^{\ast }={\frac {\text{MST}}{\text{MSE}}}={\frac {n-m}{m-1}}\cdot {\frac {\text{SST}}{\text{SSE}}}\quad {\text{(hohe Werte sprechen gegen }}H_{0})}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e3593b691f9e3dfc3722024705ba518545c0de35)
Idee: MSE stellt eine Schätzung für die Streuung innerhalb der einzelnen Stichproben dar. Im Gegensatz dazu schätzt MST die Streuung der verschiedenen Stichprobenmittelwerte um den Gesamtmittelwert. Nimmt man an, dass
gilt, sollte MST (im Vergleich zu MSE) klein sein, folglich ist
eine Teststatistik, bei der man eher kleine Werte erwartet, falls
gilt.
Zur Berechung wird die F-Verteilung (bzw. Fisher-Verteilung)
mit den ’Freiheitsgraden’
und
benötigt. Es gilt: ![{\textstyle \quad {\mathfrak {p}}^{\ast }=1-F_{m-1,n-m}(T^{\ast })}](https://wikimedia.org/api/rest_v1/media/math/render/svg/fdae9684ace9530d4d1523771485245ac75fa335)
(Dies geht in R mit
.)
Einlesen der Stichproben in einen gemeinsamen Vektor x zusammen mit einem Faktor g (gleicher Länge), der angibt, zu welcher Größe die jeweiligen Komponenten von x gehören. Dann: ![{\textstyle \quad }](https://wikimedia.org/api/rest_v1/media/math/render/svg/797ea181b7efa4c767f8cf04ffbdfa56a013a987)
Verschiedene Drahtsorten (
) werden auf Zugfestigkeit untersucht. Dabei soll zu
geprüft werden, ob die verschiedenen Drahtsorten (oder einige der Sorten) im erwarteten Mittel unterschiedliche Zugfestigkeiten aufweisen. Dazu nimmt man an, dass die ZV
, die die Zugfestigkeiten der verschiedenen Sorten beschreiben, normalverteilt mit gleicher Varianz sind und formuliert die Nullhypothese:
Man erhält folgende Daten (in
):
![{\displaystyle {\begin{array}{||c||lrrrrrrrr|c|c|}\hline \hline {\text{Sorte}}&{\text{Stichprobe}}\\\hline 1&x_{1}^{(1)},\ldots ,x_{n_{1}}^{(1)}:&13.78&11.27&11.04&10.64&9.07&11.02\\\hline 2&x_{1}^{(2)},\ldots ,x_{n_{2}}^{(2)}:&3.43&10.54&5.12&7.42&7.94&11.46&13.11&14.91\\\hline 3&x_{1}^{(3)},\ldots ,x_{n_{3}}^{(3)}:&12.50&11.88&8.71&9.81&15.66&1.70&11.80&14.13\\\hline 4&x_{1}^{(4)},\ldots ,x_{n_{4}}^{(4)}:&13.81&10.82&11.71&11.53&5.51\\\hline \hline \end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/dc24ce74889411e879fd8acf4ad449593cc0fd47)
Daraus berechnet sich:
und ![{\textstyle {\mathfrak {p}}^{\ast }=0.7076}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0878c041fb7efdb70008ae6110cb5e22f6829880)
Folglich zeigen die Daten keine siginifikanten Unterschiede zwischen den Zugfestigkeiten der verschiedenen Drahtsorten. Die Nullhypothese ist mit den Daten vereinbar.
Man kann obige Rechnungen auch in R durchführen lassen. Dies geht etwa mit
![{\displaystyle {\begin{array}{l}\color {blue}{{\text{x}}<-{\text{c(}}13.78,11.27,\ldots ,5.51)}\\\color {blue}{{\text{sorte}}<-{\text{c(rep(1,6,rep(2,8),rep(3,8),rep(4,5))}}}\\\color {blue}{{\text{sorte}}<-{\text{factor(sorte)}}}\\\color {blue}{{\text{anova(lm(x}}\sim {\text{sorte))}}}\end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/85385139de96bf57e7ee4854540ce7f88c9003bc)
- Die oben genannten Voraussetzungen für die Varianzanalyse mit dem F-Test können (und sollten) mit Hilfe von Vortests empirisch geprüft werden. Die Normalverteilungsannahme kann mit Shapiro-Wilks-Tests für jede der ZV
getestet werden. Die Annahme der Varianzgleichheit kann man dann mit einem sogenannten Bartlett-Test prüfen. Liefert einer der Vortests ein signifikantes Ergebnis (bzw. einen kleinen
-Wert), so kann der F-Test nicht verwendet werden. Man muss dann auf andere Testverfahren zurückgreifen. Beispielsweise kann dann der Test von Kruskal und Wallis verwendet werden.
- Falls die Varianzanalyse ein signifikantes Ergebnis liefert, wird dadurch lediglich angezeigt, dass nicht alle
gleich sind. Zur Klärung der Frage,welche der
signifikant als verschieden angesehen werden können, stehen weitere Testverfahren zur Verfügung, bespielsweise der Scheffé-Test oder der Tukey-Test.
In einer Studie soll untersucht werden, wie sich die Wildschweinpopulationsdichte auf den Traubenertrag im Weinbau auswirkt. Für die Studie wurden 3 Gebiete identifiziert, in denen Weinbau betrieben wird, die jedoch unterschiedliche Populationsdichten an Wildschweinen aufweißen. In jedem Gebiet befinden sich unterschiedlich viele Versuchsflächen, die jeweils gleich bewirtschaftet werden. Bei jeder Testfläche wurde am Ende der Traubensaison der Ertrag an Trauben in Tonnen pro Hektar ermittelt. Es ergeben sich folgende Daten:
![{\displaystyle {\begin{array}{|l|l|l|l|}\hline {\text{Gebiet}}&{\text{Stichprobe}}&{\text{Länge}}&{\overline {x^{(m)}}}&s_{m}^{2}\\\hline {\text{Gebiet 1}}&8.73,9.27,\;8.94\;\;9.36\;\;8.46&n_{1}=5&{\overline {x^{(1)}}}=8.952&s_{1}^{2}=0.374\\\hline {\text{Gebiet 2}}&9.43,\;10.27,\;8.19,\;\;9.01,\;\;10.38,\;\;7.41,\;\;7.93,\;\;8.76,\;\;9.36&n_{2}=9&{\overline {x^{(2)}}}=8.971&s_{2}^{2}=1.026\\\hline {\text{Gebiet 3}}&10.27,\;11.38,\;\;8.34,\;\;9.84&n_{3}=4&{\overline {x^{(3)}}}=9.958&s_{3}^{2}=1.584\\\hline {\text{gesamt}}&&n=18&{\overline {x}}=9.185&\\\hline \end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1e0c39b291626e841bda02c2f34c895ccd831c00)
- Worauf sollte bei der Auswahl der Testgebiete geachtet werden? (Stichwort Randeffekte)
- Überprüfen Sie mit dem Shapiro-Wilks- und dem Bartlett-Test (in R - keine Rechnung notwendig), ob die Voraussetzungen für die Einfaktorielle Varianzanalyse gegeben sind.
Der Tukey-Test (bzw. die Tukey-Methode)[Bearbeiten]
Situation, Signifikanzniveau und Nullhypothese[Bearbeiten]
Situation: Gegeben sind
normalverteilte ZV
deren Standardabweichungen
(bzw. Varianzen) gleich sind.
Signifikanzniveau: Es muss ein Signifikanzniveau
festgelegt werden.
Nullhypothesen:
für
mit ![{\textstyle k\not =l}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6d0a86294359d390fae9e47c7766cb1e9fb73e44)
Alle diese Nullhypothesen werden gemeinsam getestet. Das bedeutet: Falls alle
wahr sind, erhält man höchstens mit Wahrscheinlichkeit
mindestens ein signifikantes Ergebnis.
Benötigte Daten und Teststatistik[Bearbeiten]
benötigte Daten:
unabhängige Stichproben gleicher Länge
![{\displaystyle {\begin{aligned}x_{1}^{(k)},\ x_{2}^{(k)},\ldots ,x_{n_{0}}^{(k)}\;\;{\text{von}}\;\;x^{(k)}\;\;\left(k=1,\ldots ,m\right)\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/aabc2d442d8ec1a7a826ed0d2669b1cae2eac5c4)
Die Gesamtlänge
ergibt sich dann offenbar als
.
Teststatistik: Man berechnet zunächst paarweise die (betragsmäßigen) Differenzen der empirischen Mittelwerte, also ![{\textstyle \;\left|{\overline {x^{(k)}}}-{\overline {x^{(l)}}}\right|\quad (k\not =l)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1aa7127fd1e63ab2dca2ef3c46a162b64d1db4a9)
und die mittlere quadratische Abweichung der Fehler ![{\textstyle \quad {\text{MSE}}={\frac {1}{n-m}}\sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{0}}\left(x_{i}^{(k)}-{\overline {x^{(k)}}}\right)^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/5537620b3d420bc58edc982e9c2b2098507dca7d)
Daraus berechnen sich die Teststatistiken als
![{\displaystyle T_{(k,l)}^{\ast }={\sqrt {\frac {n_{0}}{\text{MSE}}}}\cdot \left|{\overline {x^{(k)}}}-{\overline {x^{(l)}}}\right|\quad (k\not =l)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c370ab16af6e89ac2da8cbd751be114da7a1a970)
Offenbar sprechen hohe Werte dieser Statistik gegen
![{\textstyle H_{0}^{(k,l)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d22f3d5d99311f181f514faa8bcfcb522b60fb63)
.
-Werte: Zur Berechung wird die studentisierte Spannweite
mit den ’Freiheitsgraden’
und
benötigt. Zur Nullhypothese
ist der
-Wert gegeben durch:
![{\textstyle \quad {\mathfrak {p}}_{(k,l)}^{\ast }=1-Q_{m,n-m}(T_{(k,l)}^{\ast })\ (k\not =l)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/66cc02f7d77b8b83a4b7b79c6e2687be5e2e7567)
(Dies geht in R mit ptukey(x,m,n-m).)
Für die Paare
, deren
-Wert kleiner oder gleich
sind, kann also die entsprechende Nullhypothese
verworfen werden. Man hat dann ein oder mehrere signifikante Ergebnisse zum gemeinsamen Niveau
, d.h. es wurde berücksichtigt, dass man mehrere Nullhypothesen getestet hat.
Einlesen der Stichproben in einen gemeinsamen Vektor x zusammen mit einem Faktor g (gleicher Länge), der angibt, zu welcher Größe die jeweiligen Komponenten von x gehören. Dann: ![{\textstyle \color {blue}{{\text{TukeyHSD(aov(lm(x}}\sim {\text{g)),conf.level=}}1-\alpha )}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ebffb8a40311e4df75c6ec3dce0be91b922ba6ff)
Zur Ausgabe gehören neben den
-Werten der einzelnen Nullhypothesen auch Konfidenzintervalle zum (gemeinsamen) Niveau
für die Differenzen der wahren Erwartungswerte
. Diese Intervalle lassen sich mit
auch graphisch darstellen.
Das bedeutet, dass (falls alle
gelten) die Wahrscheinlichkeit, dass alle berechneten Konfidenzintervalle die entsprechende wahre Erwartungswertdifferenz enthalten, mindestens
ist.
Für unterschiedliche Stichprobenlänge
von
berechnet man die Teststatistiken wie folgt (Tukey-Kramer-Methode):
![{\displaystyle T^{(k,l)}={\frac {\left|{\overline {X^{(k)}}}-{\overline {X^{(l)}}}\right|}{\sqrt {{\frac {\text{MSE}}{2}}\cdot \left({\frac {1}{n_{k}}}+{\frac {1}{n_{l}}}\right)}}}\quad (k\not =l)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d3db858b4d0db295f2cdd3d85a946c1d02029941)
Wir betrachten die folgenden Stichproben (
) zum Signifikantsniveau
.
![{\displaystyle {\begin{array}{|c|c|c|c|c|c|}\hline {\text{Sorte}}&{\text{Daten}}&&&&&\\\hline x^{(1)}&x_{1}^{(1)}=89.4&x_{2}^{(1)}=110.9&x_{3}^{(1)}=95.0&x_{4}^{(1)}=120.8&x_{5}^{(1)}=94.2&x_{6}^{(1)}=91.8\\\hline x^{(2)}&x_{1}^{(2)}=129.0&x_{2}^{(2)}=115.3&x_{3}^{(2)}=54.9&x_{4}^{(2)}=131.6&x_{5}^{(2)}=119.9&x_{6}^{(2)}=76.3\\\hline x^{(3)}&x_{1}^{(3)}=127.4&x_{2}^{(3)}=138.9&x_{3}^{(3)}=116.7&x_{4}^{(3)}=133.4&x_{5}^{(3)}=145.0&x_{6}^{(3)}=112.5\\\hline x^{(4)}&x_{1}^{(4)}=117.5&x_{2}^{(4)}=90.8&x_{3}^{(4)}=121.2&x_{4}^{(4)}=115.9&x_{5}^{(4)}=145.3&x_{6}^{(4)}=147.0\\\hline x^{(5)}&x_{1}^{(5)}=168.2&x_{2}^{(5)}=143.8&x_{3}^{(5)}=113.7&x_{4}^{(5)}=159.3&x_{5}^{(5)}=146.3&x_{6}^{(5)}=115.1\\\hline \end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d32dd0f3bafcf9e84370641de4429fe9f5f42366)
Man berechnet
und
. Damit ergibt sich der
-Wert einer Varianzanalyse mit einem
-Tests zur Nullhypothese als
. Man kann also davon ausgehen, dass sich Erwartungswerte einiger der Größen unterscheiden.
Man möcht nun genauer wissen, welche der Erwartungswerte sich im einzelnen unterscheiden. Dazu führt man einen Tukey-Test durch. Insgesamt werden dabei 10 Vergleiche durchgeführt:
![{\displaystyle {\begin{array}{|c|c||c|c|}\hline {\text{Nullhypothese}}&p{\text{-Wert}}&{\text{Nullhypothese}}&p{\text{-Wert}}\\\hline \mu _{1}=\mu _{2}&1-Q_{5,25}\left(T_{(1,2)}^{\ast }\right)=0.997&\mu _{2}=\mu _{4}&1-Q_{5,25}\left(T_{(2,4)}^{\ast }\right)=0.568\\\hline \mu _{1}=\mu _{3}&1-Q_{5,25}\left(T_{(1,3)}^{\ast }\right)=0.167&\mu _{2}=\mu _{5}&1-Q_{5,25}\left(T_{(2,5)}^{\ast }\right)=0.045\\\hline \mu _{1}=\mu _{4}&1-Q_{5,25}\left(T_{(1,4)}^{\ast }\right)=0.372&\mu _{3}=\mu _{4}&1-Q_{5,25}\left(T_{(3,4)}^{\ast }\right)=0.987\\\hline \mu _{1}=\mu _{5}&1-Q_{5,25}\left(T_{(1,5)}^{\ast }\right)=0.021&\mu _{3}=\mu _{5}&1-Q_{5,25}\left(T_{(3,5)}^{\ast }\right)=0.859\\\hline \mu _{2}=\mu _{3}&1-Q_{5,25}\left(T_{(2,3)}^{\ast }\right)=0.296&\mu _{4}=\mu _{5}&1-Q_{5,25}\left(T_{(4,5)}^{\ast }\right)=0.585\\\hline \end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/13d78ad02b720fdb87195b339ecb97608332da8f)
Damit wird also signifikant angezeigt, dass sich die Großen
und
und auch die Großen
und
hinsichtlich ihrer Erwartungswerte unterscheiden.
Legt man ein Signifikanzniveau
fest, so kann man mit TukeyHSD eine Graphik erzeugen, die Konfidenzintervalle zum gemeinsamen Niveau
zeigt:
Nehmen Sie nun an, dass Sie in der vorherigen Aufgabe ein Signifikantes Ergebnis erhalten hätten. Berechnen Sie nun mithilfe der Tukey-Methode, zwischen welchen Gruppen signifikante Unterschiede existieren.
Zweifaktorielle Varianzanalyse[Bearbeiten]
Es soll untersucht werden, ob eine ZV
(Zielvariable) durch zwei vorliegende Faktoren
und
beeinflusst wird. Die Faktoren
und
nehmen dabei nur endlich viele Werte (bzw. Ausprägungen) an (
Möglichkeiten für
und
Möglichkeiten für
).
Betrachtung als Zufallsvariablen[Bearbeiten]
Man unterscheidet nun ZV
![{\displaystyle {\begin{array}{ccccccc}X^{(1,1)}&,&X^{(2,1)}&,&\ldots &,&X^{(m,1)}\\X^{(1,2)}&,&X^{(2,2)}&,&\ldots &,&X^{(m,2)}\\\vdots &,&\vdots &,&\ddots &,&\vdots \\X^{(1,s)}&,&X^{(2,s)}&,&\ldots &,&X^{(m,s)}\end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/497529b11b157410a25d9ad11e6661a94891b392)
wobei
![{\textstyle X^{(k,r)}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ab596b8bf94dd6bf8b0af0e592cab2a3ce1a98d7)
die Größe
![{\textstyle X}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8d80c41192705e1a6c6de1d65e16d7f70fbac391)
für die
![{\textstyle k}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0d5595fc0c47452f8fc2aa6e29c3611f047714b0)
-te Ausprägung von
![{\textstyle A}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a118c6ad00742b3f5dccd2f0e74b5e369df6fd31)
und die
![{\textstyle r}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f2dfb06630b52c9e18fcc0a4688da10774206729)
-te Ausprägung von
![{\textstyle B}](https://wikimedia.org/api/rest_v1/media/math/render/svg/de0b47ffc21636dc2df68f6c793177a268f10e9b)
ist
![{\textstyle (k=1,\ldots ,m,\ r=1,\ldots ,s)}](https://wikimedia.org/api/rest_v1/media/math/render/svg/33f4c0af2aae32bd7e5b3f961e78a889a6e3bfcc)
.
Voraussetzung und Nullhypothese[Bearbeiten]
Vorausgesetzt für den folgenden Test wird, dass alle
normalverteilt mit gleicher Varianz sind.
Man untersucht dabei die Nullhypothesen
![{\displaystyle H_{0}:{\text{Faktor}}\;A\;{\text{hat keine Wirkung auf}}\;X\quad \quad }](https://wikimedia.org/api/rest_v1/media/math/render/svg/50650af9c18f727aee4f2d644525a275155f80d8)
![{\displaystyle H_{0}:{\text{Faktor}}\;B\;{\text{hat keine Wirkung auf }}X}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7d0c39df84707c808f2df4b23ad23b484e4b98e4)
![{\displaystyle H_{0}:{\text{Es gibt keine Wechselwirkungen zwischen}}\;A\;{\text{und}}\;B\;{\text{im Hinblick auf}}\;X.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/da8e2eac67b0284a775f45beeea32c700207ea3d)
Zu jeder der
vielen Größen benötigt man nun eine Stichprobe
![{\displaystyle x_{1}^{(k,r)},\ldots ,x_{n_{0}}^{(k,r)}\quad {\text{der Länge}}\ n_{0}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e965518b3f94db99415adcf3745f2afcfac37b60)
(Wir gehen der Einfachheit halber davon aus, dass alle Stichproben die gleiche Länge haben. Für ungleiche Stichprobenlängen wird es nochmals erheblich komplizierter.)
Zu berechnende Werte und Parameter I[Bearbeiten]
Daraus berechnet man nun die folgenden Mittelwerte und Stichprobenlängen:
- Einzelne Stichprobe (
fest): ![{\displaystyle {\begin{aligned}{\text{Länge}}&:&n_{0}\\{\text{Mittelwert}}&:&{\overline {x^{(k,r)}}}={\frac {1}{n_{0}}}\cdot \sum _{i=1}^{n_{0}}x_{i}^{(k,r)}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3e5cdfeb3d2a99f662bc7c84f2bdfbe5a95f90ce)
Zu berechnende Werte und Parameter II[Bearbeiten]
- Mit festem Wert für
zusammengefasste Stichprobe (
fest): ![{\displaystyle {\begin{aligned}{\text{Länge}}&:&n_{0}\cdot m\\{\text{Mittelwert}}&:&{\overline {x^{(\bullet ,r)}}}={\frac {1}{n_{0}\cdot m}}\cdot \sum \limits _{k=1}^{m}\sum \limits _{i=1}^{n_{0}}x_{i}^{(k,r)}={\frac {1}{m}}\cdot \sum \limits _{k=1}^{m}{\overline {x^{(k,r)}}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/1d88dbdc18b2117f6c7ae656b662ff2d8d74c088)
Zu berechnende Werte und Parameter III[Bearbeiten]
- Mit festem Wert für
zusammengefasste Stichprobe (
fest): ![{\displaystyle {\begin{aligned}{\text{Länge}}&:&n_{0}\cdot s\\{\text{Mittelwert}}&:&{\overline {x^{(k,\bullet )}}}={\frac {1}{n_{0}\cdot s}}\cdot \sum \limits _{r=1}^{s}\sum \limits _{i=1}^{n^{(k,r)}}x_{i}^{(k,r)}={\frac {1}{s}}\cdot \sum \limits _{r=1}^{s}{\overline {x^{(k,r)}}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/866a126d29ea8e1249015847184bc22c4d7ecab5)
Zu berechnende Werte und Parameter IV[Bearbeiten]
- Gesamte Stichprobe:
![{\displaystyle {\begin{aligned}{\text{Länge}}&:&n_{0}\cdot m\cdot s\\{\text{Mittelwert}}&:&{\overline {x^{(\bullet ,\bullet )}}}={\frac {1}{n_{0}\cdot m\cdot s}}\cdot \sum \limits _{k=1}^{m}\sum \limits _{r=1}^{s}\sum \limits _{i=1}^{n^{(k,r)}}x_{i}^{(k,r)}\\&&\quad \quad \quad ={\frac {1}{m\cdot s}}\cdot \sum \limits _{k=1}^{m}\sum \limits _{r=1}^{s}{\overline {x^{(k,r)}}}={\frac {1}{m}}\cdot \sum \limits _{k=1}^{m}{\overline {x^{(k,\bullet )}}}={\frac {1}{s}}\cdot \sum \limits _{r=1}^{s}{\overline {x^{(\bullet ,r)}}}\end{aligned}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cc146808b31d19eaacf66ef934be23423b6ebd2d)
Quadratsummenzerlegung I[Bearbeiten]
Es gilt die folgende Quadratsummenzerlegung:
![{\displaystyle {\text{SSG}}={\text{SSA}}+{\text{SSB}}+{\text{SS(AB)}}+{\text{SSE}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/329f31239e5b8ffb08d57fe9c8d97b3bb5867562)
Quadratsummenzerlegung II[Bearbeiten]
Dabei ist:
![{\displaystyle {\begin{array}{|c|c|c|c|}\hline {\text{Summe der}}&{\text{zurückzu-}}&{\text{FG}}&{\text{mittlere}}\\{\text{quadratischen Abweichungen}}&{\text{führen auf}}&&{\text{Abw.}}\\\hline \hline {\text{SSA}}=n_{0}\cdot s\cdot \sum \limits _{k=1}^{m}\left({\overline {x^{(k,\bullet )}}}-{\overline {x^{(\bullet ,\bullet )}}}\right)^{2}&{\text{Faktor}}\ A&m-1&{\text{MSA}}={\frac {\text{SSA}}{m-1}}\\&&&\\\hline {\text{SSB}}=n_{0}\cdot m\cdot \sum \limits _{r=1}^{s}\left({\overline {x^{(\bullet ,r)}}}-{\overline {x^{(\bullet ,\bullet )}}}\right)^{2}&{\text{Faktor}}\ B&s-1&{\text{MSB}}={\frac {\text{SSB}}{s-1}}\\&&&\\\hline {\text{SS(AB)}}=n_{0}\cdot \sum \limits _{k=1}^{m}\sum \limits _{r=1}^{s}\left({\overline {x^{(k,r)}}}-{\overline {x^{(k,\bullet )}}}-{\overline {x^{(\bullet ,r)}}}+{\overline {x^{(\bullet ,\bullet )}}}\right)^{2}&{\text{Wechsel-}}&(m-1)\cdot (s-1)&{\text{MS(AB)}}={\frac {\text{SS(AB)}}{(m-1)\cdot (s-1)}}\\&{\text{wirkungen}}&&\\\hline {\text{SSE}}=\sum \limits _{k=1}^{m}\sum \limits _{r=1}^{s}\sum \limits _{i=1}^{n_{0}}\left(x_{i}^{(k,r)}-{\overline {x^{(k,r)}}}\right)^{2}&{\text{zufällige}}&m\cdot s\cdot (n_{0}-1)&{\text{MSE}}={\frac {\text{SSE}}{m\cdot s\cdot (n_{0}-1)}}\\&{\text{Fehler}}&&\\\hline \hline {\text{SSG}}=\sum \limits _{k=1}^{m}\sum \limits _{r=1}^{s}\sum \limits _{i=1}^{n_{0}}\left(x_{i}^{(k,r)}-{\overline {x^{(\bullet ,\bullet )}}}\right)^{2}&{\text{gesamt}}&m\cdot s\cdot n_{0}-1&{\text{MSG}}={\frac {\text{SSG}}{m\cdot s\cdot n_{0}-1}}\\&&&\\\hline \end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4217ddb14cdc18f44b381a72ee4e834ab1b56ada)
Zu den oben angegebenen Nullhypothesen berechnet man nun Teststatistik und
-Wert wie folgt:
![{\displaystyle {\begin{array}{|c|c|c|c|}\hline {\text{Nullhypothese}}&{\text{Teststatistik}}&p{\text{-Wert}}\\\hline X{\text{ von }}A{\text{ unabhängig}}&T_{A}={\frac {\text{MSA}}{\text{MSE}}}&1-F_{m-1,m\cdot s\cdot (n_{0}-1)}(T_{A})\\\hline X{\text{ von }}B{\text{ unabhängig}}&T_{B}={\frac {\text{MSB}}{\text{MSE}}}&1-F_{s-1,m\cdot s\cdot (n_{0}-1)}(T_{B})\\\hline {\text{ keine Wechselwirkungen }}&T_{(AB)}={\frac {\text{MS(AB)}}{\text{MSE}}}&1-F_{(m-1)\cdot (s-1),m\cdot s\cdot (n_{0}-1)}(T_{(AB)})\\\hline \end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cea9f5fd00a501253515a95668e1926c639367cf)
Man kann diese auch mit R durchführen. Man trägt dazu in einen Vektor x die Daten ein und in zwei Faktoren a und b (beide haben die gleiche Länge wie x) die Information, zu welcher Ausprägung von
bzw.
die Daten gehören. Dann erhält man mit:
![{\displaystyle \quad \color {blue}{{\text{anova(lm(x}}\sim {\text{a}}\ast {\text{b)).}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e185f0454b2ae4338d09682ade17630ee1ce3f82)
die benötigten Werte (Freiheitsgrade, Quadratsummen, mittlere Quadratsummen, Teststatistiken,
-Werte).
Gegeben seien die Faktoren
und
mit den Ausprägungen
und
, dem Signifikanzniveau
und der folgenden Stichprobe:
![{\displaystyle {\begin{array}{|c||c|c|c|c|}\hline &{\text{A1}}&{\text{A2}}&{\text{A3}}&{\text{A4}}\\\hline {\text{B1}}&69;77&79;83&80;78&75;67\\\hline {\text{B2}}&61;67&62;64&74;76&70;62\\\hline {\text{B3}}&65;69&72;78&80;74&70;76\\\hline \end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c701c57d6a0d15de74bb8844d4164853a5cd18a9)
Es ergibt sich:
![{\displaystyle p_{A}^{\ast }=1-F_{m-1,m\cdot s\cdot (n_{0}-1)}(T_{A})=1-F_{3,12}(5.8105)=0.0108}](https://wikimedia.org/api/rest_v1/media/math/render/svg/7cda7b14a6432032cc778c384439cd41d7b99f7c)
Somit kann die Nullhypothese, dass
unabhängig von
ist, verworfen werden.
Weiterhin ergibt sich:
![{\displaystyle p_{B}^{\ast }=1-F_{s-1,m\cdot s\cdot (n_{0}-1)}(T_{B})=1-F_{2,12}(10.5105)=0.0022}](https://wikimedia.org/api/rest_v1/media/math/render/svg/74c09410247633458bdda5fa2b508d11da8204b3)
Somit kann auch diese Nullhypothese, dass
unabhängig von
ist, verworfen werden.
Weiterhin ergibt sich:
![{\displaystyle p_{(AB)}^{\ast }=1-F_{(m-1)\cdot (s-1),m\cdot s\cdot (n_{0}-1)}(T_{(AB)})=1-F_{6,12}(1.6)=0.2298}](https://wikimedia.org/api/rest_v1/media/math/render/svg/abd9fcf06081c560b8f1da16d32b96a8f1d17bf3)
Die Nullhypothese, dass es keine Wechselwirkung zwischen
![{\textstyle A}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a118c6ad00742b3f5dccd2f0e74b5e369df6fd31)
und
![{\textstyle B}](https://wikimedia.org/api/rest_v1/media/math/render/svg/de0b47ffc21636dc2df68f6c793177a268f10e9b)
im Hinblick auf
![{\textstyle X}](https://wikimedia.org/api/rest_v1/media/math/render/svg/8d80c41192705e1a6c6de1d65e16d7f70fbac391)
gibt, kann nicht wiederlegt werden, somit ist es anzunehmen, dass es keine Wechselwirkung gibt.
Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.
Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.