[{"@context":"http:\/\/schema.org\/","@type":"BlogPosting","@id":"https:\/\/wiki.edu.vn\/wiki12\/2020\/12\/27\/pearsons-chi-quadrat-test-wikipedia\/#BlogPosting","mainEntityOfPage":"https:\/\/wiki.edu.vn\/wiki12\/2020\/12\/27\/pearsons-chi-quadrat-test-wikipedia\/","headline":"Pearsons Chi-Quadrat-Test – Wikipedia","name":"Pearsons Chi-Quadrat-Test – Wikipedia","description":"bewertet, wie wahrscheinlich es ist, dass ein Unterschied zwischen Datens\u00e4tzen zuf\u00e4llig entstanden ist Dieser Artikel befasst sich mit dem jeweiligen","datePublished":"2020-12-27","dateModified":"2020-12-27","author":{"@type":"Person","@id":"https:\/\/wiki.edu.vn\/wiki12\/author\/lordneo\/#Person","name":"lordneo","url":"https:\/\/wiki.edu.vn\/wiki12\/author\/lordneo\/","image":{"@type":"ImageObject","@id":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","url":"https:\/\/secure.gravatar.com\/avatar\/44a4cee54c4c053e967fe3e7d054edd4?s=96&d=mm&r=g","height":96,"width":96}},"publisher":{"@type":"Organization","name":"Enzyklop\u00e4die","logo":{"@type":"ImageObject","@id":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","url":"https:\/\/wiki.edu.vn\/wiki4\/wp-content\/uploads\/2023\/08\/download.jpg","width":600,"height":60}},"image":{"@type":"ImageObject","@id":"https:\/\/wikimedia.org\/api\/rest_v1\/media\/math\/render\/svg\/8c0cc9237ec72a1da6d18bc8e7fb24cdda43a49a","url":"https:\/\/wikimedia.org\/api\/rest_v1\/media\/math\/render\/svg\/8c0cc9237ec72a1da6d18bc8e7fb24cdda43a49a","height":"","width":""},"url":"https:\/\/wiki.edu.vn\/wiki12\/2020\/12\/27\/pearsons-chi-quadrat-test-wikipedia\/","wordCount":22066,"articleBody":"bewertet, wie wahrscheinlich es ist, dass ein Unterschied zwischen Datens\u00e4tzen zuf\u00e4llig entstanden istDieser Artikel befasst sich mit dem jeweiligen Test. F\u00fcr die allgemeinere Kategorie von Tests siehe Chi-Quadrat-Test. Pearsons Chi-Quadrat-Test ((\u03c72{ displaystyle chi ^ {2}}) ist ein statistischer Test, der auf S\u00e4tze kategorialer Daten angewendet wird, um zu bewerten, wie wahrscheinlich es ist, dass ein beobachteter Unterschied zwischen den S\u00e4tzen zuf\u00e4llig aufgetreten ist. Es ist das am weitesten verbreitete von vielen Chi-Quadrat-Tests (z. B. Yates, Wahrscheinlichkeitsverh\u00e4ltnis, Portmanteau-Test in Zeitreihen usw.) – statistische Verfahren, deren Ergebnisse anhand der Chi-Quadrat-Verteilung bewertet werden. Seine Eigenschaften wurden erstmals 1900 von Karl Pearson untersucht.[1] In Kontexten, in denen es wichtig ist, die Unterscheidung zwischen der Teststatistik und ihrer Verteilung zu verbessern, werden \u00e4hnliche Namen verwendet Pearson \u03c7-Quadrat Test oder Statistik werden verwendet.Es wird eine Nullhypothese getestet, die besagt, dass die H\u00e4ufigkeitsverteilung bestimmter in einer Stichprobe beobachteter Ereignisse mit einer bestimmten theoretischen Verteilung \u00fcbereinstimmt. Die ber\u00fccksichtigten Ereignisse m\u00fcssen sich gegenseitig ausschlie\u00dfen und die Gesamtwahrscheinlichkeit 1 haben. Ein h\u00e4ufiger Fall hierf\u00fcr ist, dass die Ereignisse jeweils ein Ergebnis einer kategorialen Variablen abdecken. Ein einfaches Beispiel ist die Hypothese, dass ein gew\u00f6hnlicher sechsseitiger W\u00fcrfel ist “Messe” (d.h. alle sechs Ergebnisse treten gleich wahrscheinlich auf.) Table of ContentsDefinition[edit]Test auf Passform einer Verteilung[edit]Diskrete Gleichverteilung[edit]Andere Distributionen[edit]Berechnung der Teststatistik[edit]Bayesianische Methode[edit]Pr\u00fcfung auf statistische Unabh\u00e4ngigkeit[edit]Annahmen[edit]Ableitung[edit]Zwei Zellen[edit]Zwei-mal-zwei-Kontingenztabellen[edit]Viele Zellen[edit]Beispiele[edit]Fairness der W\u00fcrfel[edit]G\u00fcte der Anpassung[edit]Probleme[edit]Siehe auch[edit]Verweise[edit]Definition[edit]Der Pearson-Chi-Quadrat-Test wird verwendet, um drei Arten von Vergleichen zu bewerten: Anpassungsg\u00fcte, Homogenit\u00e4t und Unabh\u00e4ngigkeit.Ein Test der Anpassungsg\u00fcte stellt fest, ob sich eine beobachtete H\u00e4ufigkeitsverteilung von einer theoretischen Verteilung unterscheidet.Ein Homogenit\u00e4tstest vergleicht die Verteilung der Z\u00e4hlungen f\u00fcr zwei oder mehr Gruppen unter Verwendung derselben kategorialen Variablen (z. B. Wahl der Aktivit\u00e4t – Hochschule, Milit\u00e4r, Besch\u00e4ftigung, Reisen) von Absolventen einer High School, die ein Jahr nach dem Abschluss gemeldet wurden, sortiert nach Abschlussjahr. um festzustellen, ob sich die Anzahl der Absolventen, die eine bestimmte Aktivit\u00e4t ausw\u00e4hlen, von Klasse zu Klasse oder von Jahrzehnt zu Jahrzehnt ge\u00e4ndert hat).[2]Bei einem Unabh\u00e4ngigkeitstest wird bewertet, ob Beobachtungen, die aus Ma\u00dfnahmen zu zwei Variablen bestehen, die in einer Kontingenztabelle ausgedr\u00fcckt werden, unabh\u00e4ngig voneinander sind (z. B. Umfrageantworten von Personen unterschiedlicher Nationalit\u00e4t, um festzustellen, ob die Nationalit\u00e4t mit der Antwort zusammenh\u00e4ngt).F\u00fcr alle drei Tests umfasst das Berechnungsverfahren die folgenden Schritte:Berechnen Sie die Chi-Quadrat-Teststatistik. \u03c7\u00b2, was einer normalisierten Summe quadratischer Abweichungen zwischen beobachteten und theoretischen Frequenzen \u00e4hnelt (siehe unten).Bestimmen Sie die Freiheitsgrade, dfdieser Statistik.F\u00fcr einen Test der Passgenauigkeit df = Katzen – Parms, wo Katzen ist die Anzahl der vom Modell erkannten Beobachtungskategorien und Parms ist die Anzahl der Parameter im Modell, die angepasst wurden, damit das Modell am besten zu den Beobachtungen passt: Die Anzahl der Kategorien, die um die Anzahl der angepassten Parameter in der Verteilung reduziert wurden.Zum Testen der Homogenit\u00e4t df = (Zeilen – 1) \u00d7 (Spalten – 1), wo Reihen entspricht der Anzahl der Kategorien (dh Zeilen in der zugeh\u00f6rigen Kontingenztabelle) und Cols entspricht der Anzahl unabh\u00e4ngiger Gruppen (dh Spalten in der zugeh\u00f6rigen Kontingenztabelle).[2]Zum Test der Unabh\u00e4ngigkeit df = (Zeilen – 1) \u00d7 (Spalten – 1), wo in diesem Fall Reihen entspricht der Anzahl der Kategorien in einer Variablen und Cols entspricht der Anzahl der Kategorien in der zweiten Variablen.[2]W\u00e4hlen Sie ein gew\u00fcnschtes Vertrauensniveau (Signifikanzniveau, p-Wert oder das entsprechende Alpha-Niveau) f\u00fcr das Testergebnis.Vergleichen Sie \u03c72{ displaystyle chi ^ {2}} auf den kritischen Wert aus der Chi-Quadrat-Verteilung mit df Freiheitsgrade und das gew\u00e4hlte Konfidenzniveau (einseitig, da der Test nur eine Richtung hat, dh ist der Testwert gr\u00f6\u00dfer als der kritische Wert?), was in vielen F\u00e4llen eine gute Ann\u00e4herung an die Verteilung von ergibt \u03c72{ displaystyle chi ^ {2}}.Halten Sie die Nullhypothese aufrecht oder lehnen Sie sie ab, dass die beobachtete H\u00e4ufigkeitsverteilung mit der theoretischen Verteilung \u00fcbereinstimmt, basierend darauf, ob die Teststatistik den kritischen Wert von \u00fcberschreitet \u03c72{ displaystyle chi ^ {2}}. Wenn die Teststatistik den kritischen Wert von \u00fcberschreitet \u03c72{ displaystyle chi ^ {2}}, die Nullhypothese (H.0{ displaystyle H_ {0}} = gibt es Nein Unterschied zwischen den Verteilungen) kann zur\u00fcckgewiesen werden, und die alternative Hypothese (H.1{ displaystyle H_ {1}} = da ist ein Unterschied zwischen den Verteilungen) kann akzeptiert werden, beide mit dem ausgew\u00e4hlten Vertrauensniveau. Wenn die Teststatistik unter den Schwellenwert f\u00e4llt \u03c72{ displaystyle chi ^ {2}} Wert, dann kann keine klare Schlussfolgerung gezogen werden, und die Nullhypothese wird aufrechterhalten (wir haben die Nullhypothese nicht abgelehnt), aber nicht unbedingt akzeptiert.Test auf Passform einer Verteilung[edit]Diskrete Gleichverteilung[edit]In diesem Fall N.{ displaystyle N} Beobachtungen werden unter aufgeteilt n{ displaystyle n} Zellen. Eine einfache Anwendung besteht darin, die Hypothese zu testen, dass in der Allgemeinbev\u00f6lkerung Werte in jeder Zelle mit gleicher H\u00e4ufigkeit auftreten w\u00fcrden. Das “theoretische Frequenz” f\u00fcr jede Zelle (unter der Nullhypothese einer diskreten Gleichverteilung) wird somit berechnet alsE.ich=N.n,{ displaystyle E_ {i} = { frac {N} {n}} ,,}und die Verringerung der Freiheitsgrade ist p=1{ displaystyle p = 1}, fiktiv weil die beobachteten Frequenzen \u00d6ich{ displaystyle O_ {i}} sind gezwungen zu summieren N.{ displaystyle N}.Ein spezifisches Beispiel f\u00fcr seine Anwendung w\u00e4re die Anwendung f\u00fcr den Log-Rank-Test.Andere Distributionen[edit]Beim Testen, ob Beobachtungen Zufallsvariablen sind, deren Verteilung zu einer bestimmten Verteilungsfamilie geh\u00f6rt, wird die “theoretische Frequenzen” werden unter Verwendung einer Verteilung aus dieser Familie berechnet, die auf eine Standardweise angepasst ist. Die Verringerung der Freiheitsgrade wird berechnet als p=s+1{ displaystyle p = s + 1}, wo s{ displaystyle s} ist die Anzahl der Co-Variablen, die zur Anpassung der Verteilung verwendet werden. Wenn Sie beispielsweise eine Weibull-Verteilung mit drei Variationen \u00fcberpr\u00fcfen, p=4{ displaystyle p = 4}und bei der \u00dcberpr\u00fcfung einer Normalverteilung (wobei die Parameter Mittelwert und Standardabweichung sind), p=3{ displaystyle p = 3}und beim \u00dcberpr\u00fcfen einer Poisson-Verteilung (wobei der Parameter der erwartete Wert ist), p=2{ displaystyle p = 2}. So wird es sein n– –p{ displaystyle np} Freiheitsgrade, wo n{ displaystyle n} ist die Anzahl der Kategorien.Die Freiheitsgrade basieren nicht auf der Anzahl der Beobachtungen wie bei der t- oder F-Verteilung eines Sch\u00fclers. Wenn Sie beispielsweise auf einen fairen, sechsseitigen W\u00fcrfel testen, gibt es f\u00fcnf Freiheitsgrade, da es sechs Kategorien \/ Parameter (jede Zahl) gibt. Die H\u00e4ufigkeit, mit der die W\u00fcrfel gew\u00fcrfelt werden, hat keinen Einfluss auf die Anzahl der Freiheitsgrade.Berechnung der Teststatistik[edit] Kritische Werte der Chi-Quadrat-Verteilung im oberen Schwanz[3]GradvonFreiheitWahrscheinlichkeit kleiner als der kritische Wert0,900,950,9750,990,99912,7063.8415.0246.63510.82824.6055.9917.3789.21013.81636.2517.8159.34811.34516.26647.7799.48811.14313.27718.46759.23611.07012.83315.08620.515610.64512.59214.44916.81222.458712.01714.06716.01318.47524.322813.36215.50717.53520.09026.125914.68416.91919.02321.66627.8771015.98718.30720.48323.20929.5881117.27519.67521.92024.72531.2641218.54921.02623.33726.21732.9101319.81222.36224.73627.68834.5281421.06423.68526.11929.14136.1231522.30724.99627.48830.57837,6971623.54226.29628.84532.00039,2521724.76927.58730.19133.40940,7901825.98928.86931.52634.80542.3121927.20430.14432,85236.19143.8202028.41231.41034.17037,56645.3152129.61532.67135,47938.93246,7972230.81333.92436.78140,28948,2682332.00735,17238.07641.63849,7282433.19636.41539.36442,98051.1792534.38237,65240,64644.31452.6202635,56338,88541.92345.64254.0522736.74140.11343.19546.96355,4762837.91641.33744.46148,27856,8922939.08742,55745.72249,58858.3013040,25643.77346.97950,89259.7033141.42244.98548,23252.19161.0983242,58546.19449,48053.48662,4873343.74547.40050,72554.77663.8703444.90348.60251.96656.06165,2473546.05949.80253.20357.34266.6193647.21250,99854.43758.61967,9853748.36352.19255,66859.89369,3473849,51353,38456,89661,16270.7033950,66054.57258.12062.42872.0554051.80555,75859,34263.69173.4024152.94956,94260,56164.95074.7454254.09058.12461.77766.20676,0844355.23059.30462,99067,45977,4194456,36960,48164.20168.71078.7504557.50561,65665.41069,95780.0774658.64162.83066.61771.20181.4004759.77464.00167,82172,44382.7204860,90765,17169.02373.68384.0374962.03866,33970,22274.91985,3515063.16767,50571.42076,15486,6615164,29568.66972,61677,38687,9685265.42269.83273.81078.61689,2725366,54870,99375.00279,84390,5735467,67372,15376,19281.06991,8725568.79673.31177,38082,29293,1685669.91974,46878,56783.51394,4615771.04075.62479,75284.73395,7515872,16076,77880,93685,95097.0395973,27977.93182.11787,16698.3246074,39779.08283,29888,37999,6076175,51480,23284.47689,591100,8886276,63081,38185,65490.802102.1666377,74582.52986.83092.010103.4426478,86083,67588.00493.217104.7166579.97384.82189,17794.422105.9886681.08585,96590,34995,626107,2586782.19787.10891,51996,828108,5266883.30888,25092,68998.028109.7916984.41889.39193,85699,228111.0557085,52790.53195.023100,425112.3177186,63591.67096,189101.621113,5777287,74392.80897,353102.816114,8357388,85093.94598.516104.010116.0927489,95695.08199,678105.202117,3467591.06196,217100,839106.393118,5997692,16697,351101.999107,583119,8507793,27098.484103.158108.771121.1007894.37499,617104.316109,958122.3487995,476100,749105,473111,144123,5948096,578101,879106.629112.329124,8398197.680103.010107,783113.512126.0838298.780104,139108,937114.695127,3248399,880105,267110.090115,876128,56584100,980106,395111,242117.057129.80485102.079107,522112.393118,236131.04186103.177108.648113.544119.414132,27787104,275109,773114.693120,591133,51288105.372110,898115.841121.767134,74689106,469112.022116.989122.942135,97890107,565113.145118,136124.116137,20891108.661114,268119,282125,289138,43892109,756115,390120,427126,462139,66693110,850116.511121,571127,633140.89394111.944117,632122.715128.803142,11995113.038118,752123,858129.973143,34496114.131119,871125.000131,141144,56797115,223120,990126.141132.309145,78998116.315122.108127,282133,476147.01099117.407123,225128,422134,642148,230100118,498124.342129,561135,807149,449Der Wert der Teststatistik ist\u03c72=\u2211ich=1n((\u00d6ich– –E.ich)2E.ich=N.\u2211ich=1n((\u00d6ich\/.N.– –pich)2pich{ displaystyle chi ^ {2} = sum _ {i = 1} ^ {n} { frac {(O_ {i} -E_ {i}) ^ {2}} {E_ {i}}} = N sum _ {i = 1} ^ {n} { frac { left (O_ {i} \/ N-p_ {i} right) ^ {2}} {p_ {i}}}}wo\u03c72{ displaystyle chi ^ {2}} = Pearsons kumulative Teststatistik, die sich asymptotisch a n\u00e4hert \u03c72{ displaystyle chi ^ {2}} Verteilung.\u00d6ich{ displaystyle O_ {i}} = Anzahl der Beobachtungen vom Typ ich.N.{ displaystyle N} = Gesamtzahl der BeobachtungenE.ich=N.pich{ displaystyle E_ {i} = Np_ {i}} = die erwartete (theoretische) Anzahl des Typs ich, behauptet durch die Nullhypothese, dass der Bruchteil des Typs ich in der Bev\u00f6lkerung ist pich{ displaystyle p_ {i}}n{ displaystyle n} = die Anzahl der Zellen in der Tabelle.Die Chi-Quadrat-Statistik kann dann verwendet werden, um einen p-Wert zu berechnen, indem der Wert der Statistik mit einer Chi-Quadrat-Verteilung verglichen wird. Die Anzahl der Freiheitsgrade entspricht der Anzahl der Zellen n{ displaystyle n}abz\u00fcglich der Verringerung der Freiheitsgrade, p{ displaystyle p}.Das Ergebnis \u00fcber die Anzahl der Freiheitsgrade ist g\u00fcltig, wenn die Originaldaten multinomial sind und daher die gesch\u00e4tzten Parameter zur Minimierung der Chi-Quadrat-Statistik effizient sind. Allgemeiner jedoch liegt die Verteilung irgendwo zwischen einer Chi-Quadrat-Verteilung mit, wenn die Sch\u00e4tzung der maximalen Wahrscheinlichkeit nicht mit der Sch\u00e4tzung des minimalen Chi-Quadrats \u00fcbereinstimmt n– –1– –p{ displaystyle n-1-p} und n– –1{ displaystyle n-1} Freiheitsgrade (siehe zum Beispiel Chernoff und Lehmann, 1954).Bayesianische Methode[edit]In der Bayes’schen Statistik w\u00fcrde man stattdessen eine Dirichlet-Verteilung als konjugiertes Prior verwenden. Wenn man zuvor eine einheitliche Sch\u00e4tzung vorgenommen hat, ist die maximale Wahrscheinlichkeitssch\u00e4tzung f\u00fcr die Bev\u00f6lkerungswahrscheinlichkeit die beobachtete Wahrscheinlichkeit, und man kann eine glaubw\u00fcrdige Region um diese oder eine andere Sch\u00e4tzung berechnen.Pr\u00fcfung auf statistische Unabh\u00e4ngigkeit[edit]In diesem Fall ein “\u00dcberwachung” besteht aus den Werten zweier Ergebnisse und die Nullhypothese lautet, dass das Auftreten dieser Ergebnisse statistisch unabh\u00e4ngig ist. Jede Beobachtung wird einer Zelle eines zweidimensionalen Arrays von Zellen (als Kontingenztabelle bezeichnet) gem\u00e4\u00df den Werten der beiden Ergebnisse zugeordnet. Wenn es gibt r Zeilen und c Spalten in der Tabelle, die “theoretische Frequenz” f\u00fcr eine Zelle ist angesichts der Hypothese der Unabh\u00e4ngigkeitE.ich,j=N.pich\u22c5p\u22c5j,{ displaystyle E_ {i, j} = Np_ {i cdot} p _ { cdot j},}wo N.{ displaystyle N} ist die Gesamtstichprobengr\u00f6\u00dfe (die Summe aller Zellen in der Tabelle) undpich\u22c5=\u00d6ich\u22c5N.=\u2211j=1c\u00d6ich,jN.,{ displaystyle p_ {i cdot} = { frac {O_ {i cdot}} {N}} = sum _ {j = 1} ^ {c} { frac {O_ {i, j}} { N}},}ist der Bruchteil der Beobachtungen vom Typ ich Ignorieren des Spaltenattributs (Bruchteil der Zeilensummen) undp\u22c5j=\u00d6\u22c5jN.=\u2211ich=1r\u00d6ich,jN.{ displaystyle p _ { cdot j} = { frac {O _ { cdot j}} {N}} = sum _ {i = 1} ^ {r} { frac {O_ {i, j}} { N}}}ist der Bruchteil der Beobachtungen vom Typ j Ignorieren des Zeilenattributs (Bruchteil der Spaltensummen). Der Begriff “Frequenzen” bezieht sich eher auf absolute Zahlen als auf bereits normalisierte Werte.Der Wert der Teststatistik ist\u03c72=\u2211ich=1r\u2211j=1c((\u00d6ich,j– –E.ich,j)2E.ich,j{ displaystyle chi ^ {2} = sum _ {i = 1} ^ {r} sum _ {j = 1} ^ {c} {(O_ {i, j} -E_ {i, j}) ^ {2} \u00fcber E_ {i, j}}} =N.\u2211ich,jpich\u22c5p\u22c5j((((\u00d6ich,j\/.N.)– –pich\u22c5p\u22c5jpich\u22c5p\u22c5j)2{ displaystyle = N sum _ {i, j} p_ {i cdot} p _ { cdot j} left ({ frac {(O_ {i, j} \/ N) -p_ {i cdot} p _ { cdot j}} {p_ {i cdot} p _ { cdot j}}} right) ^ {2}}Beachten Sie, dass \u03c72{ displaystyle chi ^ {2}} ist genau dann 0, wenn \u00d6ich,j=E.ich,j\u2200ich,j{ displaystyle O_ {i, j} = E_ {i, j} forall i, j}dh nur, wenn die erwartete und die wahre Anzahl von Beobachtungen in allen Zellen gleich sind.Passend zum Modell von “Unabh\u00e4ngigkeit” reduziert die Anzahl der Freiheitsgrade um p = r + c – 1. Die Anzahl der Freiheitsgrade entspricht der Anzahl der Zellen rcabz\u00fcglich der Verringerung der Freiheitsgrade, p, was sich auf (r – 1) (c – 1).F\u00fcr den Test der Unabh\u00e4ngigkeit, auch als Homogenit\u00e4tstest bekannt, wird eine Chi-Quadrat-Wahrscheinlichkeit von weniger als oder gleich 0,05 (oder die Chi-Quadrat-Statistik liegt bei oder gr\u00f6\u00dfer als der kritische Punkt von 0,05) von angewandten Arbeitern \u00fcblicherweise als interpretiert Begr\u00fcndung f\u00fcr die Ablehnung der Nullhypothese, dass die Zeilenvariable unabh\u00e4ngig von der Spaltenvariablen ist.[4]Die alternative Hypothese entspricht den Variablen mit einer Assoziation oder Beziehung, bei denen die Struktur dieser Beziehung nicht angegeben ist.Annahmen[edit]Der Chi-Quadrat-Test hat, wenn er mit der Standardn\u00e4herung verwendet wird, dass eine Chi-Quadrat-Verteilung anwendbar ist, die folgenden Annahmen:[citation needed]Einfache ZufallsstichprobeDie Stichprobendaten sind eine Zufallsstichprobe aus einer festen Verteilung oder Population, bei der jede Sammlung von Mitgliedern der Population der angegebenen Stichprobengr\u00f6\u00dfe die gleiche Auswahlwahrscheinlichkeit aufweist. Testvarianten wurden f\u00fcr komplexe Proben entwickelt, z. B. wo die Daten gewichtet werden. Andere Formen k\u00f6nnen verwendet werden, beispielsweise eine gezielte Probenahme.[5]Stichprobengr\u00f6\u00dfe (ganze Tabelle)Eine Stichprobe mit einer ausreichend gro\u00dfen Gr\u00f6\u00dfe wird angenommen. Wenn ein Chi-Quadrat-Test an einer Probe mit einer kleineren Gr\u00f6\u00dfe durchgef\u00fchrt wird, ergibt der Chi-Quadrat-Test eine ungenaue Schlussfolgerung. Durch die Verwendung des Chi-Quadrat-Tests an kleinen Proben kann der Forscher einen Fehler vom Typ II begehen.Erwartete ZellzahlAngemessene erwartete Zellzahlen. Einige erfordern 5 oder mehr, andere 10 oder mehr. Eine \u00fcbliche Regel ist 5 oder mehr in allen Zellen einer 2-mal-2-Tabelle und 5 oder mehr in 80% der Zellen in gr\u00f6\u00dferen Tabellen, aber keine Zellen mit einer erwarteten Anzahl von Null. Wenn diese Annahme nicht erf\u00fcllt ist, wird die Yates-Korrektur angewendet.Unabh\u00e4ngigkeitDie Beobachtungen werden immer als unabh\u00e4ngig voneinander angenommen. Dies bedeutet, dass Chi-Quadrat nicht zum Testen korrelierter Daten (wie \u00fcbereinstimmender Paare oder Paneldaten) verwendet werden kann. In diesen F\u00e4llen ist der McNemar-Test m\u00f6glicherweise besser geeignet.Ein Test, der auf unterschiedlichen Annahmen beruht, ist der genaue Test von Fisher. Wenn die Annahme fester Randverteilungen erf\u00fcllt ist, ist es wesentlich genauer, ein Signifikanzniveau zu erhalten, insbesondere mit wenigen Beobachtungen. In der \u00fcberwiegenden Mehrheit der Anwendungen wird diese Annahme nicht erf\u00fcllt, und der genaue Test von Fisher ist zu konservativ und weist keine korrekte Abdeckung auf.[6]Ableitung[edit]Ableitung unter Verwendung des zentralen GrenzwertsatzesDie Nullverteilung der Pearson-Statistik mit j Zeilen und k Spalten wird durch die Chi-Quadrat-Verteilung mit (angen\u00e4hert) angen\u00e4hert.k – 1) (j – 1) Freiheitsgrade.[7]Diese Ann\u00e4herung ergibt sich als wahre Verteilung unter der Nullhypothese, wenn der erwartete Wert durch eine Multinomialverteilung gegeben ist. F\u00fcr gro\u00dfe Stichprobengr\u00f6\u00dfen tendiert der zentrale Grenzwertsatz dazu, dass diese Verteilung zu einer bestimmten multivariaten Normalverteilung tendiert.Zwei Zellen[edit]In dem speziellen Fall, in dem die Tabelle nur zwei Zellen enth\u00e4lt, folgen die erwarteten Werte einer Binomialverteilung.E. \u223c Beh\u00e4lter((n,p),{ displaystyle E sim { mbox {Bin}} (n, p), ,}wop = Wahrscheinlichkeit unter der Nullhypothese,n = Anzahl der Beobachtungen in der Stichprobe.Im obigen Beispiel betr\u00e4gt die hypothetische Wahrscheinlichkeit einer m\u00e4nnlichen Beobachtung 0,5 mit 100 Proben. Wir erwarten daher 50 M\u00e4nner zu beobachten.Wenn n ausreichend gro\u00df ist, kann die obige Binomialverteilung durch eine Gau\u00dfsche (Normal-) Verteilung angen\u00e4hert werden, und somit n\u00e4hert sich die Pearson-Teststatistik einer Chi-Quadrat-Verteilung an.Beh\u00e4lter((n,p)\u2248N.((np,np((1– –p)).{ displaystyle { text {Bin}} (n, p) ungef\u00e4hr { text {N}} (np, np (1-p)). ,}Lassen \u00d61 ist die Anzahl der Beobachtungen aus der Probe, die sich in der ersten Zelle befinden. Die Pearson-Teststatistik kann ausgedr\u00fcckt werden als((\u00d61– –np)2np+((n– –\u00d61– –n((1– –p))2n((1– –p),{ displaystyle { frac {(O_ {1} -np) ^ {2}} {np}} + { frac {(n-O_ {1} -n (1-p)) ^ {2}} { n (1-p)}},}was wiederum ausgedr\u00fcckt werden kann als((\u00d61– –npnp((1– –p))2.{ displaystyle left ({ frac {O_ {1} -np} { sqrt {np (1-p)}}} right) ^ {2}.}Durch die normale Ann\u00e4herung an ein Binomial ist dies das Quadrat einer Standardnormalvariablen und wird daher als Chi-Quadrat mit 1 Freiheitsgrad verteilt. Beachten Sie, dass der Nenner eine Standardabweichung der Gau\u00dfschen N\u00e4herung ist und somit geschrieben werden kann((\u00d61– –\u03bc)2\u03c32.{ displaystyle { frac {(O_ {1} – mu) ^ {2}} { sigma ^ {2}}}.}In \u00dcbereinstimmung mit der Bedeutung der Chi-Quadrat-Verteilung messen wir, wie wahrscheinlich die beobachtete Anzahl von Standardabweichungen vom Mittelwert unter der Gau\u00dfschen N\u00e4herung ist (was eine gute N\u00e4herung f\u00fcr gro\u00dfe ist n).Die Chi-Quadrat-Verteilung wird dann rechts vom Statistikwert integriert, um den P-Wert zu erhalten, der der Wahrscheinlichkeit entspricht, dass eine Statistik gleich oder gr\u00f6\u00dfer als die beobachtete wird, wobei die Nullhypothese angenommen wird.Zwei-mal-zwei-Kontingenztabellen[edit]Wenn der Test auf eine Kontingenztabelle angewendet wird, die zwei Zeilen und zwei Spalten enth\u00e4lt, entspricht der Test einem Z-Test mit Proportionen.[citation needed]Viele Zellen[edit]\u00c4hnliche Argumente wie oben f\u00fchren zum gew\u00fcnschten Ergebnis.[citation needed] Jede Zelle (mit Ausnahme der letzten, deren Wert vollst\u00e4ndig von den anderen bestimmt wird) wird als unabh\u00e4ngige Binomialvariable behandelt, und ihre Beitr\u00e4ge werden summiert und jede tr\u00e4gt zu einem Freiheitsgrad bei.Lassen Sie uns nun beweisen, dass sich die Verteilung tats\u00e4chlich asymptotisch der n\u00e4hert \u03c72{ displaystyle chi ^ {2}} Verteilung, wenn sich die Anzahl der Beobachtungen der Unendlichkeit n\u00e4hert.Lassen n{ displaystyle n} sei die Anzahl der Beobachtungen, m{ displaystyle m} die Anzahl der Zellen und pich{ displaystyle p_ {i}} die Wahrscheinlichkeit, dass eine Beobachtung in die i-te Zelle f\u00e4llt, z 1\u2264ich\u2264m{ displaystyle 1 leq i leq m}. Wir bezeichnen mit {kich}}{ displaystyle {k_ {i} }} die Konfiguration wo f\u00fcr jedes i gibt es kich{ displaystyle k_ {i}} Beobachtungen in der i-ten Zelle. Beachten Sie, dass\u2211ich=1mkich=nund\u2211ich=1mpich=1.{ displaystyle sum _ {i = 1} ^ {m} k_ {i} = n qquad { text {und}} qquad sum _ {i = 1} ^ {m} p_ {i} = 1 .}Lassen \u03c7P.2(({kich}},{pich}}){ displaystyle chi _ {P} ^ {2} ( {k_ {i} }, {p_ {i} })} Pearsons kumulative Teststatistik f\u00fcr eine solche Konfiguration sein und lassen \u03c7P.2(({pich}}){ displaystyle chi _ {P} ^ {2} ( {p_ {i} })} die Verteilung dieser Statistik sein. Wir werden zeigen, dass sich die letztere Wahrscheinlichkeit dem n\u00e4hert \u03c72{ displaystyle chi ^ {2}} Verteilung mit m– –1{ displaystyle m-1} Freiheitsgrade, as n\u2192\u221e.{ displaystyle n to infty.}F\u00fcr jeden beliebigen Wert T:"},{"@context":"http:\/\/schema.org\/","@type":"BreadcrumbList","itemListElement":[{"@type":"ListItem","position":1,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki12\/#breadcrumbitem","name":"Enzyklop\u00e4die"}},{"@type":"ListItem","position":2,"item":{"@id":"https:\/\/wiki.edu.vn\/wiki12\/2020\/12\/27\/pearsons-chi-quadrat-test-wikipedia\/#breadcrumbitem","name":"Pearsons Chi-Quadrat-Test – Wikipedia"}}]}]