Mi a Chi-Square statisztika?
Chi-négyzet ( χ 2) A statisztika egy olyan teszt, amely azt méri, hogy a várakozások miként hasonlíthatók össze a ténylegesen megfigyelt adatokkal (vagy a modell eredményekkel). A chi-négyzet statisztika kiszámításához használt adatoknak véletlenszerűnek, nyersnek, egymást kizárva, független változókból és elég nagy mintából kell származniuk. Például az érme 100-szoros dobásának eredményei megfelelnek ezeknek a kritériumoknak.
A Chi-négyzet teszteket gyakran használják a hipotézis tesztelésében.
A Chi-Square képlete van
χc2 = ∑ (Oi − Ei) 2Eihol: c = szabadságfokokO = megfigyelt érték (ek) E = várható érték (ek) kezdődik {igazítva} & \ chi ^ 2_c = \ összeg \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {ahol:} \ & c = \ szöveg {szabadságfokok} \ & O = \ szöveg {megfigyelt érték (ek)} \ & E = \ szöveg {várható érték (ek) } \ \ vége {igazítva} χc2 = ∑Ei (Oi −Ei) 2, ahol: c = szabadságfokokO = megfigyelt érték (ek) E = várható érték (ek)
Mit mond neked egy Chi-Square statisztika?
Kétféle négyzet alakú teszt létezik: a függetlenség tesztje, amely kapcsolat kérdést vet fel, például: „Van-e kapcsolat a nemek és a SAT pontszámok között?”; és a fitnesz-teszt, amely felteszi a következő kérdést: „Ha egy érmét 100-szor dobnak el, 50-szer fognak fejet adni, és 50-szer farkával?”
Ezekhez a tesztekhez a szabadság fokát használják annak meghatározására, hogy egy adott nullhipotézist el lehet-e utasítani a kísérletben szereplő változók és minták teljes száma alapján.
Például, ha figyelembe vesszük a hallgatókat és a kurzusválasztást, a 30 vagy 40 hallgató mintája valószínűleg nem elég nagy ahhoz, hogy jelentős adatokat generáljon. Érvényesebb, ha 400 vagy 500 hallgatóból álló minta felhasználásával megkapjuk ugyanazon vagy hasonló eredményeket egy tanulmányból.
Egy másik példában fontolja meg az érme 100-szor dobását. A valódi érme 100-szor történő dobásának várható eredménye az, hogy a fej 50-szer, a farok pedig 50-szer felmegy. A valós eredmény az lehet, hogy a fej 45-szer, a farok pedig 55-szer felmegy. A chi-négyzet statisztika bármilyen eltérést mutat a várható eredmények és a tényleges eredmények között.
Példa egy Chi-négyzetes tesztre
Képzelje el, hogy véletlenszerű szavazást végeztek 2000 különféle választópolgár között, mind férfi, mind nő részvételével. A válaszolókat nem szerint osztályozták, és republikánus, demokraták vagy függetlenek voltak-e. Képzeljen el egy olyan rácsot, amelyben republikánus, demokratikus és független oszlopok vannak, és két sor van a férfi és női felirattal. Tegyük fel, hogy a 2000 válaszadó adatai a következők:
A chi-négyzet statisztika kiszámításának első lépése a várható gyakoriság megtalálása. Ezeket a rács minden "cellájára" kiszámítják. Mivel a nemek két kategóriája és a politikai nézet három kategóriája van, összesen hat várható gyakoriság létezik. A várható gyakoriság képlete:
E (r, c) = n (r) × c (r) n, ahol: r = sor kérdésbenc = kérdéses oszlopban = a megfelelő összesen \ kezdődik {igazítva} és E (r, c) = \ frac {n (r) alkalommal c (r)} {n} \ & \ textbf {ahol:} \ & r = \ szöveg {a kérdéses sor} \ & c = \ szöveg {a szóban forgó oszlop} \ & n = \ szöveg {megfelelő összesen} \ \ vége {igazítva} E (r, c) = nn (r) × c (r), ahol: r = kérdés sora = kérdés oszlop = a megfelelő összes
Ebben a példában a várható frekvencia:
- E (1, 1) = (900 x 800) / 2 000 = 360E (1, 2) = (900 x 800) / 2 000 = 360E (1, 3) = (200 x 800) / 2000 = 80E (2, 1) = (900 x 1 200) / 2 000 = 540 E (2, 2) = (900 x 1 200) / 2 000 = 540 E (2, 3) = (200 x 1 200) / 2 000 = 120
Ezután ezeket használjuk az értékekre a chi négyzet statisztika kiszámításához az alábbi képlet alapján:
Chi-négyzet = ∑2E (r, c) ahol: O (r, c) = az adott sorra és oszlopra vonatkozó megfigyelt adatok \ kezdődik {igazítva} és \ szöveg {Chi-négyzet} = \ összeg \ frac {^ 2} {E (r, c)} \ & \ textbf {ahol:} \ & O (r, c) = \ szöveg {az adott sorra és oszlopra vonatkozó megfigyelt adatok} \ \ vége {igazítva} Chi-négyzet = ∑E (r, c) 2, ahol: O (r, c) = az adott sorra és oszlopra vonatkozó megfigyelt adatok
Ebben a példában az egyes megfigyelt értékek kifejezése:
- O (1, 1) = (400 - 360) 2/360 = 4, 44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2, 96 O (2, 2) = (600 - 540) 2/540 = 6, 67 O (2, 3) = (100 - 120) 2/120 = 3, 33
A chi-négyzet statisztika ekkor megegyezik ezen érték összegével, vagyis 32, 41. Ezután megnézhetünk egy négyzet alakú statisztikai táblázatot, hogy megtudjuk - az eredmény statisztikailag szignifikáns-e vagy sem, figyelembe véve a felépítésünk szabadságának fokát.