Documente Academic
Documente Profesional
Documente Cultură
10 TESTE NONPARAMETRICE
Testul chipătrat (χ2) este aplicabil atunci când nivelul de măsură este nominal,
datele fiind frecvenţe – numărul de cazuri care fac parte din categoriile variabilelor
(variabilei) considerate. Esenţa acestui test constă din compararea frecvenţelor
observate – frecvenţele efective obţinute empiric de către cercetător – cu frecvenţele
teoretice sau aşteptate – frecvenţele calculate sub presupunerea că ipoteza de nul este
adevărată. Testul examinează măsura în care frecvenţele observate sunt sau nu
semnificativ diferite de frecvenţele care sunt aşteptate dacă ipoteza de nul este
adevărată.
Distincţia dintre frecvenţele observate şi cele aşteptate poate fi înţeleasă cu
ajutorul următorului exemplu intuitiv. Să presupunem că avem un zar şi dorim să
verificăm ipoteza că zarul este nemăsluit. Pentru aceasta, aruncăm zarul de 300 de ori şi
observăm frecvenţa de apariţie a fiecărei feţe. Dacă ipoteza menţionată este adevărată,
ne-am aştepta ca fiecare faţă să apară de aproximativ 50 de ori. Acum, să presupunem
că observăm următoarele frecvenţe de apariţie:
aşteptate ale unei singure variabile. Corespunzător, se vorbeşte despre testul chipătrat
pentru independenţă şi despre testul chipătrat pentru concordanţă.
Două variabile sunt independente reciproc dacă, pentru toate cazurile din
eşantionul considerat, clasificarea unui caz într-o categorie a unei variabile nu are nici
un efect asupra probabilităţii ca acel caz să fie clasificat în oricare dintre categoriile
celeilalte variabile1. De pildă, să presupunem că variabilele de interes sunt sexul şi
dominanţa funcţionaloperativă a mâinilor pentru un eşantion de 50 de bărbaţi şi 50 de
femei. Aceste două variabile sunt independente reciproc în condiţiile în care clasificarea
subiecţilor în categoriile unei variabile (masculin feminin) nu are nici un efect asupra
clasificării cazurilor în categoriile celeilalte variabile (dreapta, stânga, ambidextru).
Acum, să presupunem că am efectuat un astfel de studiu şi am obţinut următoarele date:
Sexul
Dominanţa Masculin Feminin TOTAL
Dreapta 15 35 50
Stânga 30 10 40
Ambidextru 5 5 10
TOTAL 50 50 100
1
A nu se confunda cazul independenţei reciproce a două variabile cu situaţiile experimentale în care apar
două variabile independente, i.e. manipulate de experimentator.
10 TESTE NONPARAMETRICE Pagina 3 din 22
fr fc
Formula 10.1 fa
n
f
în care r marginalul rândului pe care este situată celula respectivă
f c marginalul coloanei pe care este situată celula respectivă
n = numărul total de cazuri din eşantion
Masculin Feminin
50 50 50 50
Dreapta 25 25
100 100
40 50 40 50
Stânga 20 20
100 100
10 50 10 50
Ambidextru 5 5
100 100
( fo fa )2
Formula 10.2 2
fa
în care f o frecvenţele observate în celulele tabelului
f a frecvenţele aşteptate
fo fa fo fa ( fo fa )2 ( fo fa )2 fa
15 25 10 100 4
30 20 10 100 5
5 5 0 0 0
35 25 10 100 4
10 20 10 100 5
5 5 0 0 0
100 100 0 18 = χ2
10 TESTE NONPARAMETRICE Pagina 4 din 22
Un tabel cu trei rânduri şi două coloane (un tabel 3 2) are (3 1)(2 1) = 2 grade de
libertate2. Spre deosebire de distribuţia tStudent, care este simetrică, distribuţia χ2
prezintă, ca şi distribuţia F, o asimetrie pozitivă, după cum se ilustrează în figura 10.1.
Grade de libertate
Întrucât în exemplu nostru gl = 2, dacă stabilim α = 0,05, scorul χ2 (critic) este 5,991.
Deoarece χ2 (obţinut) cade în zona critică (18,00 5,991), se poate respinge ipoteza de
nul şi se poate conchide că variabilele respective nu sunt reciproc independente: sexul
influenţează dominanţa funcţionaloperative a mâinilor.
În termenii modelului în patru paşi, testul decurge după cum urmează:
2
Un tabel 3 2 are două grade de libertate deoarece, odată ce frecvenţele din două celule au fost
determinate, frecvenţele din celelalte celule sunt fixate, i.e. nu mai sunt libere să varieze.
10 TESTE NONPARAMETRICE Pagina 5 din 22
( fo fa )2
2 18
fa
20% ţărani
30% muncitori industriali
30% funcţionari
15% mici întreprinzători
5% manageri industriali
10 TESTE NONPARAMETRICE Pagina 6 din 22
145 ţărani
310 muncitori industriali
305 funcţionari
78 mici întreprinzători
26 manageri industriali
( fo fa )2
2
fa
Formula 10.4 f a np
Ocupaţia fo fa fo fa ( fo fa )2 ( fo fa )2 fa R
Ţăran 145 172,80 27,80 772,84 4,47 2,12
Muncitor 310 259,20 50,80 2580,64 9,96 3,16
industrial
Funcţionar 305 259,20 45,80 2097,64 8,09 2,84
Mic 78 129,60 51,60 2662,56 20,54 4,53
întreprinzător
Manager 26 43,20 17,20 295,84 6,85 2,63
industrial
TOTAL 864,00 864,00 0 49,91 = χ2
De notat că frecvenţele aşteptate sunt exact acele frecvenţe pe care le-am întâlni dacă
proporţiile cazurilor din eşantion ar fi acelaşi cu proporţiile cazurilor pentru populaţie.
În cazul testului chipătrat pentru concordanţă, numărul de grade de libertate se
calculează cu ajutorul următoarei formule:
10 TESTE NONPARAMETRICE Pagina 7 din 22
Formula 10.5 gl = k 1
în care k = numărul de categorii ale variabilei de interes.
Întrucât în exemplul nostru sunt considerate cinci categorii ale variabilei ocupaţie, avem
patru grade de libertate3. Pentru α = 0,05 şi gl = 4, χ2 (critic) = 9,488.
Testul formal este următorul:
H0: Nu există nici o diferenţă între proporţiile din eşantion şi cele pentru
populaţie
Ha: Proporţiile din eşantion diferă de cele pentru populaţie
( fo fa )2
2
49,91
fa
De notat că, deşi aici valoarea pentru χ2 (obţinut) este statistic semnificativă,
această valoare este calculată ţinând cont de toate categoriile, astfel că nu putem spune
care categorie are cea mai mare contribuţie la semnificaţia statistică. Atunci când avem
χ2 (obţinut) χ2 (critic), pentru a afla care categorie are cea mai mare contribuţie la
semnificaţia statistică, se calculează reziduul standard pentru fiecare categorie cu
ajutorul următoarei formule:
fo fa
Formula 10.6 R
fa
Valorile reziduurilor standard pentru fiecare categorie din exemplul de mai sus se găsesc
în tabelul 10.3. Atunci când valoarea absolută (modulul) reziduului standard pentru o
categorie este mai mare decât 2,00, se poate conchide că acea categorie are o contribuţie
majoră la valoarea semnificativă a lui χ2 (obţinut). În exemplul de mai sus, toate
3
Aceasta înseamnă că, odată ce frecvenţele a oricare patru categorii sunt determinate, frecvenţa categoriei
rămase este fixată.
10 TESTE NONPARAMETRICE Pagina 8 din 22
reziduurile standard în valoare absolută sunt mai mari decât 2,00. Prin urmare, toate
categoriile contribuie major la valoarea semnificativă a lui χ2 (obţinut), ceea ce
înseamnă că întreaga distribuţie din eşantion nu concordă cu distribuţia presupusă de
cercetător.
După Nu
lectura 14 6
docu- A B
mentelor Da 16 2
C D
38
Este important să remarcăm ordinea intrării datelor în acest tabel. Astfel, celulele
A şi D trebuie să fie cele care indică schimbarea răspunsurilor de la un moment la altul –
de la Da la Nu (A) şi, respectiv, de la Nu la Da (D) –, iar celulele B şi C trebuie să fie
cele care indică absenţa schimbării răspunsurilor de la un moment la altul. Întrucât în
testul McNemar este vorba despre tabele 2 2, gl = 1.
În acest test ne interesează doar celulele care reflectă schimbarea opiniei despre
apărarea intereselor femeilor salariate de către organizaţiile feministe, i.e. celulele A şi
D. ipoteza de nul pentru testul McNemar enunţă că, în cazul populaţiei de referinţă,
numărul de schimbări într-o direcţie este egal cu numărul de schimbări în cealaltă
direcţie. Aceasta înseamnă că, presupunând că ipoteza de nul este adevărată, frecvenţa
aşteptată în celula A va fi egală cu frecvenţa aşteptată în celula D. ipoteza alternativă
enunţă că numărul de schimbări într-o direcţie este diferit de numărul de schimbări în
cealaltă direcţie.
Testul statistic este testul χ2 şi se poate folosi formula 10.2 pentru calcularea
valorii lui χ2 (obţinut), dar formula va fi aplicată doar celulelor A şi D. Întrucât se
presupune că frecvenţele aşteptate din aceste două celule sunt egale, valoarea aşteptată
în fiecare dintre aceste două celule este egală cu (A + D)/2. astfel, formula de calcul a
valorii χ2 (obţinut) pentru testul McNemar se simplifică după cum urmează:
10 TESTE NONPARAMETRICE Pagina 9 din 22
( A D) 2
Formula 10.6 2
A D
( A D) 2 (14 2) 2 12 2 144
2 9,00
A D 14 2 16 16
Întrucât χ2 (obţinut) cade în zona critică (9,00 3,841), se poate respinge ipoteza
de nul. Există o diferenţă statistic semnificativă între numărul de schimbări într-o
direcţie şi numărul de schimbări în cealaltă direcţie (o diferenţă care nu poate fi pusă pe
seama întâmplării). Din tabelul 10.4 rezultă că mai multe femei salariate şi-au schimbat
opinia de la Da la Nu decât de la Nu la Da, iar testul arată că această diferenţă este
statistic semnificativă.
evalueze o serie de propoziţii după următoarea scală: Acord puternic, Acord, Nedecis,
Dezacord, Dezacord puternic. Putem atribui ranguri acestor scoruri după cum urmează:
Cu toate acestea, se obişnuieşte ca diferenţa dintre două ranguri imediat succesive să fie
egală cu unitatea.
Testul MannWhitney U comportă două variante, în funcţie de dimensiunile
eşantioanelor. Prezentăm mai întâi testul pentru eşantioane mici (n1 20 şi n2 20).
Să presupunem că ne preocupă diferenţa pe sexe privind nivelul de satisfacţie în
raport cu serviciile sociale oferite într-un campus universitar. Pentru aceasta, selectăm
aleatoriu două eşantioane de studenţi, băieţi şi fete, cu n1 = 10 şi n2 = 10, şi administrăm
o scală în care un scor înalt indică un nivel înalt de satisfacţie. Scorurile obţinute sunt
prezentate în tabelul 10.5.
Mai întâi, aranjăm scorurile din fiecare eşantion în ordine crescătoare (sau
descrescătoare). Apoi, considerăm scorurile combinate ale celor două eşantioane ca şi
cum ar fi vorba despre un singur eşantion şi atribuim ranguri scorurilor combinate, de la
cel mai mic la cel mai mare scor. Astfel, atribuim rangul 1 celui mai mic scor (5), rangul
2 scorului imediat următor (9) ş.a.m.d. până la cel mai mare scor (45). Dacă întâlnim
două sau mai multe scoruri identice (două sau mai multe cazuri cu acelaşi scor),
procedăm după cum urmează:
10 TESTE NONPARAMETRICE Pagina 11 din 22
considerăm rangurile pe care aceste scoruri le-ar fi avut dacă ar fi fost diferite şi
imediat succesive;
calculăm media aritmetică a acestor ranguri;
atribuim fiecărui scor rangul mediu astfel obţinut.
n1 (n1 1)
Formula 10.7 U 1 n1 n 2 R1
2
n (n 1)
Formula 10.8 U 1 n1 n 2 2 2 R 2
2
În aceste formule, n1 şi n2 sunt, respectiv, dimensiunile celor două eşantioane, iar ΣR1 şi
ΣR2 sunt, respectiv, sumele rangurilor pentru cele două eşantioane.
Odată calculate cele două mărimi, U1 şi U2, se ia drept valoare pentru U (obţinut) cea
mai mică dintre valorile U1, U2: U (obţinut) = min (U1, U2).
Pentru a stabili valoarea critică din distribuţia de eşantionare a valorilor U,
folosim tabelul valorilor critice pentru testul MannWhitney U (Anexa F). Pe
primul rând şi pe prima coloană din stânga ale acestui tabel sunt trecute dimensiunile a
două eşantioane. Nivelele α sunt date pentru un test unilateral (direcţional). În cazul
unui test bilateral (non-direcţional), nivelul α dat se localizează înmulţind cu doi
valoarea lui α. Valoarea critică, U (critic), se află la intersecţia liniei corespunzătoare
dimensiunii unui eşantion cu coloana corespunzătoare dimensiunii celuilalt eşantion la
nivelul α ales. În exemplul nostru, având n1 = 10 şi n2 = 10, pentru α = 0,05 (test non-
direcţional), U (critic) = 23.
Ipoteza de nul este, ca întotdeauna, un enunţ de tipul „nici o diferenţă”, dar este
formulată în termeni mai generali decât în cazul testelor parametrice: nu există nici o
diferenţă în privinţa scorurilor populaţiilor respective sub aspectul variabilei de interes.
În exemplul nostru, ipoteza de nul enunţă că nu există nici o diferenţă între studente şi
studenţi sub aspectul satisfacţiei exprimate în raport cu serviciile sociale oferite în
campus. De regulă, ipoteza alternativă enunţă că populaţiile din care au fost selectate
eşantioanele sunt diferite sub aspectul variabilei de interes. Această formă a ipotezei de
nul conduce la un test nondirecţional. Desigur, putem apela la un test direcţional, atunci
când sensul diferenţei poate fi prezis, i.e. atunci când putem prezice că scorurile unei
populaţii sunt mai mari sau mai mici decât scorurile celeilalte populaţii. Într-un test
nondirecţional, regula de decizie este următoarea:
10 TESTE NONPARAMETRICE Pagina 12 din 22
De remarcat că ipoteza de nul se respinge dacă valoarea obţinută este mai mică decât
cea critică. Această regulă diferă de regulile de decizie din cele mai multe teste de
semnificaţie, în care ipoteza de nul este respinsă dacă valoarea obţinută este mai mare
decât cea critică.
Dacă se poate prezice că scorurile populaţiei 1 sunt mai mari decât cele ale
populaţiei 2, regula de decizie este
iar dacă se poate prezice că scorurile populaţiei 1 sunt mai mici decât cele ale populaţiei
2, regula de decizie este
n1 (n1 1) 10 11
U 1 n1 n 2 R1 (10 10) 85,5 100 55 85,5 69,5
2 2
n ( n 1) 10 11
U 1 n1 n 2 2 2 R2 (10 10) 124,5 100 55 124,5 30,5
2 2
U min(U 1 , U 2 ) 30,5
U U
Formula 10.10 Z
U
în care μU = media aritmetică a distribuţiei de eşantionare a valorilor U pentru toate
eşantioanele posibile
σU = abaterea standard a distribuţiei de eşantionare a valorilor U pentru toate
eşantioanele posibile
n1 n 2 (n1 n 2 1)
Formula 10.12 U
12
n1 n 2
U
Z 2
Formula 10.13
n1 n 2 (n1 n 2 1)
12
Mai întâi, aranjăm scorurile din fiecare eşantion în ordine crescătoare (sau
descrescătoare). Apoi, considerând scorurile combinate ale celor două eşantioane ca şi
cum ar fi vorba despre un singur eşantion şi aflăm mediana scorurilor combinate.
Pentru a înlesni aflarea medianei scorurilor combinate este recomandabil să acordăm
ranguri scorurilor. Întrucât avem un număr par de cazuri (20), mediana va fi media
aritmetică a scorurilor celor două cazuri de mijloc, 31 şi 32:
~ 31 32
X 31,5
2
Cu ajutorul unui tabel 2 2, prezentăm pentru fiecare eşantion numărul de scoruri aflate
deasupra şi sub mediana scorurilor combinate:
Eşantion 1 Eşantion 2
Deasupra
10
medianei 7 3
A B
Sub
mediană 3 7 10
C D
10 10 20
n( AD BC ) 2
Formula 10.14 2
( A B )(C D)( A C )( B D)
H0: ~
~
1 2
Ha: ~
~
1 2
n( AD BC ) 2 20(7 7 3 3) 2
2 3,20
( A B )(C D)( A C )( B D) 10 10 10 10
de iteraţii poate fi mult afectat de felul în care sunt aranjate cazurile cu scoruri identice.
Dacă întâlnim multe cazuri cu scoruri identice în eşantioane diferite este recomandabil
să folosim alt test de semnificaţie.
Distribuţia de eşantionare pentru iteraţii aproximează normalitatea. Media
aritmetică a acestei distribuţii ( R ) şi abaterea sa standard ( R ) se calculează cu
ajutorul următoarelor formule:
2n1 n 2
Formula 10.15 R 1
n1 n 2
2n1 n 2 (2n1 n 2 n1 n 2 )
Formula 10.16 R
(n1 n 2 ) 2 (n1 n 2 1)
R R
Formula 10.17 Z
R
în care R = numărul de iteraţii.
Bărbaţi Femei
Cazul Scorul Cazul Scorul
1 1 21 0
2 1 22 0
3 2 23 4
4 2 24 4
5 3 25 6
6 5 26 6
7 5 27 8
8 7 28 12
9 9 29 12
10 10 30 13
11 10 31 14
12 15 32 16
13 17 33 16
14 17 34 21
15 18 35 21
16 19 36 21
17 20 37 25
18 22 38 26
19 22 39 27
20 23 40 27
În aceste date se află 15 iteraţii şi putem acum să aplicăm testul formal pentru
semnificaţie.
2n1 n 2 2 20 20
R 1 1 21
n1 n 2 20 20
2n1 n 2 (2n1 n 2 n1 n 2 ) 2 20 20(2 20 20 20 20
R 3,12
(n1 n 2 ) (n1 n 2 1)
2
(20 20) 2 (20 20 1)
R R 15 21
Z 1,92
R 3,12
Ranguri cu cel
Scorul Scorul Scorul Rangul mai puţin
Cazul
pretratament posttratament diferenţă diferenţei frecvent semn
1 36 21 15 11
2 23 24 1 1 1
3 48 36 12 10
4 54 30 24 12
5 40 32 8 7
6 32 35 3 3 3
7 50 43 7 6
8 44 40 4 4
9 36 30 6 5
10 29 27 2 2
11 33 22 11 9
12 45 36 9 8
T (obţinut) = 4
3. Se însumează valorile absolute ale rangurilor cu semnul care are cele mai
puţine apariţii; rezultatul însumării reprezintă valoarea pentru T (obţinut).
n(n 1)
Formula 10.18 T
4
n(n 1)(2n 1)
Formula 10.19 T
24
În aceste formule, n reprezintă numărul de cazuri din fiecare eşantion sau, altfel spus,
numărul de perechi de cazuri alcătuite din cele două eşantioane. Z (obţinut) se
calculează cu următoarea formulă:
T T
Formula 10.20 Z
T
Considerând scorurile combinate ale celor trei eşantioane şi ordonate crescător, atribuim
rangul 1 celui mai mic scor (46), rangul 2 scorului imediat următor (48) ş.a.m.d. până la
cel mai mare scor (73). Dacă întâlnim două sau mai multe scoruri identice, procedăm în
maniera indicată în cazul testului MannWhitney U. Calculăm apoi suma rangurilor
pentru fiecare eşantion.
10 TESTE NONPARAMETRICE Pagina 21 din 22
k Rj
12
2
Formula 10.21 H 3( N 1)
N ( N 1) j 1 nj
în care N = numărul total de cazuri din cele k eşantioane
ΣRj = suma rangurilor din eşantionul j, j = 1,2, …, k
nj = numărul de cazuri din eşantionul j, j = 1,2, …, k
k Rj
12
2
H 3( N 1)
N ( N 1) j 1 nj
12 29 2 46 2 78 2
3(17 1) 7,86
17 (17 1) 6 5 6
GLOSAR