Sunteți pe pagina 1din 27

Distribuţia multinomială

Testul chi-pătrat
M. Popa
Evenimente probabilistice
• binomiale
– valori dihotomice (P, Q):
• (masculin/feminin, absent/prezent, adevărat/fals,
etc.)
• multinomiale
– mai mult de două valori (P, Q, R...):
• tip de liceu absolvit (“real”, “umanist”, “artistic”,
“industrial”)
• religia (“islamic”, “ortodox”, “catolic”...)
• efectul terapiei (“ameliorat”, “înrăutăţit”, “fără
efect”)
un exemplu:
• tipul de liceu absolvit de
studenţii la psihologie (N=100)
– umanist (P)=60
frecvenţe
– artistic (Q)=30
observate (fO)
– real (R)=10
• P+Q+R=1
• P=1-Q-P
• dacă liceele ar avea acelaşi
număr de absolvenţi:
P=Q=R=1/3=0.33 (100/3=33.3)
Tabelul de corespondenţă (contingenţă)
pentru date categoriale

Liceu Liceu Liceu Total


fO
umanist real artistic pe linii

Fac. Umaniste 45 20 30 95
frecvenţe
Fac. Tehnice 14 60 12 86 marginale
Fac. Artistice 20 13 50 83
Total
pe coloane
79 93 92 264
N
frecvenţe marginale
Fundamentarea testului statistic
Total Frecvenţe
Liceu Liceu Liceu
pe marginale
umanist real artistic
linie
95 (95/264)*100=36%
45 20 30
Fac.
Umaniste (79*36)/100 (93*36)/100 (92*36)/100
fE ?
28.4 33.4 33.1
86 (86/264)*100=32,5%
14 60 12
Fac.
Tehnice (79*32.5)/100 (93*32.5)/100 (92*32.5)/100
25.6 30.2 29.9
83 (83/264)*100=31.5%
20 13 50
Fac.
Artistice (79*31.5)/100 (93*31.5)/100 (92*31.5)/100
24.8 29.2 28.9
Total pe
coloană 79 93 92 264
Testul chi-pătrat (χ2) - Karl Pearson
• se bazează pe evaluarea distanţei
dintre fO şi fE
• formula este derivată din z: z2 =
( X − N * P )2

N * P *Q
• valorile urmează o distribuţie
specială: chi-pătrat (χ2)
– o familie de distribuţii;
– asimetrică;
– originea în zero;
– formă dependentă de numărul de
grade de libertate.
• df=(nr. coloane-1)*(nr. linii-1)
2
( f − f )
formula de calcul χ2 = ∑ O E

fE
Decizia statistică
Se identifică χ2 critic pentru alfa ales şi df corespunzătoare

Respingere

α = 0.05

0 χ2critic

Τabela χ2 df\aria .100 .050 .025 .010 .005


(parţial) 1 2.70554 3.84146 5.02389 6.63490 7.87944
2 4.60517 5.99146 7.37776 9.21034 10.59663
3 6.25139 7.81473 9.34840 11.34487 12.83816
... ... ... ... ... ...
Tipuri de teste χ2

• testul corespondenţei (goodness of fit)


– compară fO cu fE ale aceleiaşi variabile
– obiectiv: testarea diferenţei faţă de un model de
distribuţie aşteptat
• testul asocierii (independenţei)
– compară fO cu fE ale două variabile
– obiectiv: testarea asocierii valorilor celor două
variabile
Chi-pătrat pentru gradul de
corespondenţă (Goodness of Fit)
Exemplu: 100 studenți la psihologie
Frecvența observată Proporții teoretice (de nul
• Liceu umanist=60 (0.6) • Liceu umanist=33.33 (0.33)
• Liceu artistic=30 (0.3) • Liceu artistic=33.33 (0.33)
• Liceu real=10 (0.1) • Liceu real=33.33 (0.33
Problema cercetării: există o preferință pentru psihologie în
funcție de liceul absolvit?
Criterii de decizie:
alfa=0.05
df(2-1)*(3-2)=1
χ2critic=?
Tabela χ2 (fragment)
df\aria .100 .050 .025 .010 .005
1 2.70554 3.84146 5.02389 6.63490 7.87944
2 4.60517 5.99146 7.37776 9.21034 10.59663
3 6.25139 7.81473 9.34840 11.34487 12.83816
4 7.77944 9.48773 11.14329 13.27670 14.86026
5 9.23636 11.07050 12.83250 15.08627 16.74960
6 10.64464 12.59159 14.44938 16.81189 18.54758
7 12.01704 14.06714 16.01276 18.47531 20.27774
8 13.36157 15.50731 17.53455 20.09024 21.95495
9 14.68366 16.91898 19.02277 21.66599 23.58935
10 15.98718 18.30704 20.48318 23.20925 25.18818
11 17.27501 19.67514 21.92005 24.72497 26.75685
... ... ... ... ... ...

χ2critic=3.84
Frecvenţa ( fO − f E )2
Frecvenţa aşteptată
Calificativ observată fE
(fE)
(fO)
(60 − 33.3) 2
Umanist 60 33.3% din 100 =33.3 33.3
= 21.38

(30 − 33.3) 2
Artistic 30 33.3% din 100 =33.3 33.3
= 0.32

(10 − 33.3) 2
Real 10 33.3% din 100 =33.3 33.3
= 16.30

Σ 100 χ2calculat=38

• χ2 calculat (38) > χ2 critic (3.84)


• H0?
• H1?
• Concluzia cercetării?
• Acest test nu are un coeficient al mărimii efectului
Testul chi-pătrat al asocierii
(independence chi-square)
• mai frecvent utilizat
• compară fO ale unei variabile cu fE ale altei variabile
(ambele categoriale)
• Măsoară asocierea a două variabile nominale (similar
unui test de corelaţie pentru date nominale)
• obiectiv: există o relaţie între cele două variabile?
• exemplu:
– 264 studenți la trei tipuri de facultăți (umaniste, artistice,
tehnice), care provin de la trei tipuri de licee (umanist,
artistic, real)
– obiectiv: este o legătură între tipul de liceu absolvit și
facultatea aleasă?
– criterii de decizie: alfa=0.05; df=(3-1)*(3-1)=4; χ2critic=
9.48
FU/LU 45 28,4 (45 − 28.4) 2
= 9.70
28.4

FU/LA 30 33,1 (30 − 33.1) 2


= 0.29
33.1

FU/LR 20 33,4 (20 − 33.4) 2


= 5.37
33.4
FT/LU 14 25,6 (14 − 25.6) 2
= 5.25
25.6

FT/LA 12 29,9 (12 − 29.9) 2


= 10.71
29.9
FT/LR 60 30,2 (60 − 30.2) 2
= 29.4
30.2

FA/LU 20 24,8 (20 − 24.8) 2


= 0.92
24.8

FA/LA 50 28,9 (50 − 28.9) 2


= 15.4
28.9
FA/LR 13 29,2 (13 − 29.2) 2
= 8.98
29.2

Σ N=264 χ2 calculat =86.06


Interpretarea testului χ 2

• în primul rând se decide asupra semnificaţiei


testului
– χ2 calculat (86.06) < χ2 critic (9.48)
– H0?
– H1?
– Concluzia cercetării?
• Apoi:
– se analizează procentele celulelor tab. de corespondenţă
– se scot în evidenţă procentele relevante pentru ipoteza
cercetării (se constată procente mai mari în cazul
concordanței dintre tipul de liceu și tipul de facultate)
Mărimea efectului pentru χ2

2
• Indicele φ (fi) χ
ϕ=
N

2
• Indicele φc (fi) Cramer χ
ϕc =
N ∗ ( L − 1)
• N este volumul eşantionului
• L este valoarea cea mai mică dintre numărul liniilor sau al
coloanelor tabelului de corespondenţă (de exemplu, pentru un
tabel de corespondenţă 4x3 - patru linii şi patru coloane - L are
valoarea 3-1=2).
Pentru exemplul nostru...
χ2 86.06
ϕc = = = 0.40
N ∗ (2 − 1) 264 * (2 − 1)

Interpretarea lui φ
Indice al asocierii.
Se interpretează similar cu coeficientul de corelaţie
Prin ridicarea la pătrat poate fi interpretat procentual
0.10 efect mic
φ (Cohen) 0.25 efect mediu
0.40 efect mare
Raportarea rezultatelor
• „Pentru un eșantion de 264 de studenți de la trei
tipuri de facultăți (umaniste, artistice, tehnice) a
fost testată relația cu liceul de proveniență
(umanist, artistic, real). Testul χ2 pentru
asocierea variabilelor indică faptul că rezultatele
diferă semnificativ în funcţie de gen, χ2(4) =86.06,
p >0 .05 (φc=0.57), ceea ce arată o asociere între
tipul de liceu și facultatea aleasă”
Condiţii pentru testul χ2
• Cele două variabile nu trebuie să se „intersecteze”
(să nu existe subiecţi care să fie incluşi în mai
mult de o celulă de tabel)
• Selecţie aleatoare a eşantioanelor
• Frecvenţa aşteptată să nu ia valori mai mici de 5
(sau, cel puţin, în nu mai mult de 20% din celule).
• Nici o celulă nu trebuie să aibă frecvenţa aşteptată
mai mică de 1.
– corecţia Yeates
Χ2 = ∑
(f O − f E − 0.5)
2

fE
Utilizarea testului chi-pătrat al
asocierii
• testarea asocierii a două variabile
categoriale (nominale, ordinale sau... I-R!)
• înlocuitor pentru testul t sau ANOVA, dacă
nu sunt întrunite condiţiile
– după transformarea var. dep. în var. categorială
Testul exact Fisher
• testul chi-pătrat nu urmează cu maximă precizie distribuţia χ2
• cazuri în care rezultatele pot fi alterate suficient de mult pentru
a putea fi luate în considerare:
– volumul eşantionului este redus (N<20);
– valorile fe pentru una sau mai multe dintre celulele tabelei de
corespondenţă sunt foarte mici.
• În aceste situaţii, precum şi atunci când tabelul de
corespondenţă este compus din două linii şi două coloane
– este recomandabilă utilizarea testului exact Fisher
– se bazează pe calcularea tuturor tabelelor posibile ce pot fi construite
pentru frecvenţele marginale
– testul exact Fisher se efectuează numai cu ajutorul programelor
computerizate.
Sinteza testelor statistice neparametrice nominale

Variabila
distribuţie dependentă distribuţie
binomială categorială multinomială
(nominală)

z - prop. chi-pătrat
1 eşantion
unui eşantion al corespondenţei
(goodness of fit)
2 eşantioane z - prop.
independente a două eşant. chi-pătrat
al asocierii
2 eşantioane testul
(independenţei)
dependente semnului
Săptămâna viitoare... ultima evaluare parţială!
Data examenului: ??

S-ar putea să vă placă și