Documente Academic
Documente Profesional
Documente Cultură
Testul chi-pătrat
M. Popa
Evenimente probabilistice
• binomiale
– valori dihotomice (P, Q):
• (masculin/feminin, absent/prezent, adevărat/fals,
etc.)
• multinomiale
– mai mult de două valori (P, Q, R...):
• tip de liceu absolvit (“real”, “umanist”, “artistic”,
“industrial”)
• religia (“islamic”, “ortodox”, “catolic”...)
• efectul terapiei (“ameliorat”, “înrăutăţit”, “fără
efect”)
un exemplu:
• tipul de liceu absolvit de
studenţii la psihologie (N=100)
– umanist (P)=60
frecvenţe
– artistic (Q)=30
observate (fO)
– real (R)=10
• P+Q+R=1
• P=1-Q-P
• dacă liceele ar avea acelaşi
număr de absolvenţi:
P=Q=R=1/3=0.33 (100/3=33.3)
Tabelul de corespondenţă (contingenţă)
pentru date categoriale
Fac. Umaniste 45 20 30 95
frecvenţe
Fac. Tehnice 14 60 12 86 marginale
Fac. Artistice 20 13 50 83
Total
pe coloane
79 93 92 264
N
frecvenţe marginale
Fundamentarea testului statistic
Total Frecvenţe
Liceu Liceu Liceu
pe marginale
umanist real artistic
linie
95 (95/264)*100=36%
45 20 30
Fac.
Umaniste (79*36)/100 (93*36)/100 (92*36)/100
fE ?
28.4 33.4 33.1
86 (86/264)*100=32,5%
14 60 12
Fac.
Tehnice (79*32.5)/100 (93*32.5)/100 (92*32.5)/100
25.6 30.2 29.9
83 (83/264)*100=31.5%
20 13 50
Fac.
Artistice (79*31.5)/100 (93*31.5)/100 (92*31.5)/100
24.8 29.2 28.9
Total pe
coloană 79 93 92 264
Testul chi-pătrat (χ2) - Karl Pearson
• se bazează pe evaluarea distanţei
dintre fO şi fE
• formula este derivată din z: z2 =
( X − N * P )2
N * P *Q
• valorile urmează o distribuţie
specială: chi-pătrat (χ2)
– o familie de distribuţii;
– asimetrică;
– originea în zero;
– formă dependentă de numărul de
grade de libertate.
• df=(nr. coloane-1)*(nr. linii-1)
2
( f − f )
formula de calcul χ2 = ∑ O E
fE
Decizia statistică
Se identifică χ2 critic pentru alfa ales şi df corespunzătoare
Respingere
α = 0.05
0 χ2critic
χ2critic=3.84
Frecvenţa ( fO − f E )2
Frecvenţa aşteptată
Calificativ observată fE
(fE)
(fO)
(60 − 33.3) 2
Umanist 60 33.3% din 100 =33.3 33.3
= 21.38
(30 − 33.3) 2
Artistic 30 33.3% din 100 =33.3 33.3
= 0.32
(10 − 33.3) 2
Real 10 33.3% din 100 =33.3 33.3
= 16.30
Σ 100 χ2calculat=38
2
• Indicele φ (fi) χ
ϕ=
N
2
• Indicele φc (fi) Cramer χ
ϕc =
N ∗ ( L − 1)
• N este volumul eşantionului
• L este valoarea cea mai mică dintre numărul liniilor sau al
coloanelor tabelului de corespondenţă (de exemplu, pentru un
tabel de corespondenţă 4x3 - patru linii şi patru coloane - L are
valoarea 3-1=2).
Pentru exemplul nostru...
χ2 86.06
ϕc = = = 0.40
N ∗ (2 − 1) 264 * (2 − 1)
Interpretarea lui φ
Indice al asocierii.
Se interpretează similar cu coeficientul de corelaţie
Prin ridicarea la pătrat poate fi interpretat procentual
0.10 efect mic
φ (Cohen) 0.25 efect mediu
0.40 efect mare
Raportarea rezultatelor
• „Pentru un eșantion de 264 de studenți de la trei
tipuri de facultăți (umaniste, artistice, tehnice) a
fost testată relația cu liceul de proveniență
(umanist, artistic, real). Testul χ2 pentru
asocierea variabilelor indică faptul că rezultatele
diferă semnificativ în funcţie de gen, χ2(4) =86.06,
p >0 .05 (φc=0.57), ceea ce arată o asociere între
tipul de liceu și facultatea aleasă”
Condiţii pentru testul χ2
• Cele două variabile nu trebuie să se „intersecteze”
(să nu existe subiecţi care să fie incluşi în mai
mult de o celulă de tabel)
• Selecţie aleatoare a eşantioanelor
• Frecvenţa aşteptată să nu ia valori mai mici de 5
(sau, cel puţin, în nu mai mult de 20% din celule).
• Nici o celulă nu trebuie să aibă frecvenţa aşteptată
mai mică de 1.
– corecţia Yeates
Χ2 = ∑
(f O − f E − 0.5)
2
fE
Utilizarea testului chi-pătrat al
asocierii
• testarea asocierii a două variabile
categoriale (nominale, ordinale sau... I-R!)
• înlocuitor pentru testul t sau ANOVA, dacă
nu sunt întrunite condiţiile
– după transformarea var. dep. în var. categorială
Testul exact Fisher
• testul chi-pătrat nu urmează cu maximă precizie distribuţia χ2
• cazuri în care rezultatele pot fi alterate suficient de mult pentru
a putea fi luate în considerare:
– volumul eşantionului este redus (N<20);
– valorile fe pentru una sau mai multe dintre celulele tabelei de
corespondenţă sunt foarte mici.
• În aceste situaţii, precum şi atunci când tabelul de
corespondenţă este compus din două linii şi două coloane
– este recomandabilă utilizarea testului exact Fisher
– se bazează pe calcularea tuturor tabelelor posibile ce pot fi construite
pentru frecvenţele marginale
– testul exact Fisher se efectuează numai cu ajutorul programelor
computerizate.
Sinteza testelor statistice neparametrice nominale
Variabila
distribuţie dependentă distribuţie
binomială categorială multinomială
(nominală)
z - prop. chi-pătrat
1 eşantion
unui eşantion al corespondenţei
(goodness of fit)
2 eşantioane z - prop.
independente a două eşant. chi-pătrat
al asocierii
2 eşantioane testul
(independenţei)
dependente semnului
Săptămâna viitoare... ultima evaluare parţială!
Data examenului: ??