Documente Academic
Documente Profesional
Documente Cultură
TESTAREA IPOTEZELOR STATISTICE.
Generalităţi
Eroarea de tipul I
Respingerea ipotezei H0 cand ea este adevărată
Eroarea de tipul II
Validarea ipotezei H0 cand ea este falsă
Valorile critice
Reprezintă valorile statisticii testului care separă regiunea de validare a testului de
cea de respingere
CLASIFICAREA TESTELOR STATISTICE
Testele statistice pot fi clasificate după mai multe criterii, cele mai
importante fiind următoarele:
dacă în aplicarea testului este nevoie sau nu să se ştie dacă
variabila de prelucrat urmează o distribuţie predeterminată:
teste parametrice - se bazează pe ipoteze distribuţionale
teste neparametrice - sunt independente de aceste ipoteze
teste de semnificaţie: sunt teste statistice folosite pentru verificarea egalităţii unui
parametru cu o valoare predefinită
Teste de semnificaţie pentru medie, proporţie, dispersie, coeficienţi de corelaţie etc.
teste de comparare: sunt teste statistice folosite pentru compararea parametrilor mai
multor populaţii. În cazul aplicării unor teste statistice de comparare, trebuie să se facă
distincţie între eşantioane independente şi eşantioane dependente (perechi), astfel:
două eşantioane sunt independente dacă selecţia unităţilor unui eşantion nu depinde de selecţia
unităţilor celuilalt eşantion;
ANOVA, Mann Whitney, Kruskall Wallis, Testul Median
două eşantioane sunt dependente dacă selecţia unităţilor unui grup determină selecţia unităţilor
altui grup. Aceste grupuri se mai numesc şi grupuri perechi
Testul semnului, Testul McNemar, Testul Wilcoxon, Testul Friedman şi Kendall, Testul Cochran,
ANOVA multifactorial
TESTE DE CONCORDANŢĂ
TESTUL 2
Când se foloseşte?
pentru date nominale
pentru compararea distribuţiei observate a numărului de observaţii pe variante cu o
distribuţie predeterminată F
Ipotezele testate:
H0: datele sunt distribuite F;
HA: datele nu sunt distribuite F
Testul statistic:
O E 2 O – frecvenţele absolute observate
2
E – frecvenţele absolute aşteptate (teoretice)
E
Regula de decizie:
2 2; k 1 se respinge H0
2 2; k 1 se acceptă H0
Valori critice ale distribuției Chi pătrat
TESTE DE CONCORDANŢĂ
TESTUL 2
Care sunt preferintele dvs cu privire la site-urile de job-uri?
Total 150
Test Statistics
a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency
is 50.0.
TESTE DE CONCORDANŢĂ
TESTUL KOLMOGOROV-SMIRNOV
Când se foloseşte?
pentru date ordinale
pentru compararea distribuţiei observate a răspunsurilor obţinute cu o
distribuţie definită a priori F
Ipotezele testate:
H0: datele sunt distribuite F;
HA: datele nu sunt distribuite F
Testul statistic:
n Oi – procente cumulate observate pt valoarea i
D max Oi Ei Ei – procente cumulate aşteptate (teoretice) pt valoarea i
2 1i n
Regula de decizie:
D>Dth H0 se respinge
D<Dth H0 se acceptă
TESTE DE CONCORDANŢĂ
TESTUL KOLMOGOROV-SMIRNOV
n i / min(r1;r2 ) n i / min(r1;r2 ) 1
Testul statistic: T min(r1 ; r2 )
2
U z/2 se acceptă H0
TESTUL MANN WHITNEY
Valorile critice U: Testul bilateral α = .10 şi α = .05
n1 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
4 1 2 3 4 5 6 7 8 9 10 11 12 14 15 16 17 18
0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 13
5 2 4 5 6 8 9 11 12 13 15 16 18 19 20 22 23 25
1 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20
6 3 5 7 8 10 12 14 16 17 19 21 23 25 26 28 30 32
2 3 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27
7 4 6 8 11 13 1517 19 21 24 26 28 30 33 35 37 39
3 5 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
8 5 8 10 13 15 18 20 23 26 28 31 33 36 39 41 44 47
4 6 8 10 13 15 17 19 22 24 26 29 31 34 36 38 41
9 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54
4 7 10 12 15 17 20 23 26 28 31 34 37 39 42 45 48
10 7 11 14 17 20 24 27 31 34 37 41 44 48 51 55 58 62
5 8 11 14 17 20 23 26 29 33 36 39 42 45 48 52 55
11 8 12 16 19 23 27 31 34 38 42 46 50 54 57 61 65 69
6 9 13 16 19 23 26 30 33 37 40 44 47 51 55 58 62
12 9 13 17 21 26 30 34 38 42 47 51 55 60 64 68 72 77
7 11 14 18 22 26 29 33 37 41 45 49 53 57 61 65 69
13 10 15 19 24 28 33 37 42 47 51 56 61 65 70 75 80 84
8 12 16 20 24 28 33 37 41 45 50 54 59 63 67 72 76
14 11 16 21 26 31 36 41 46 51 56 61 66 71 77 82 87 92
9 13 17 22 26 31 36 40 45 50 55 59 64 67 74 78 83
15 12 18 23 28 33 39 44 50 55 61 66 72 77 83 88 94 100
10 14 19 24 29 34 39 44 49 54 59 64 70 75 80 85 90
16 14 19 25 30 36 42 48 54 60 65 71 77 83 89 95 101 107
11 15 21 26 31 37 42 47 53 59 64 70 75 81 86 92 98
17 15 20 26 33 39 45 51 57 64 70 77 83 89 96 02 109 115
11 17 22 28 34 39 45 51 57 63 67 75 81 87 93 99 105
18 16 22 28 35 41 48 55 61 68 75 82 88 95 02 09 16 23
12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 106 112
19 17 23 30 37 44 51 58 65 72 80 87 94 01 09 16 123 130
13 19 25 32 38 45 52 58 65 72 78 85 92 99 06 113 119
20 18 25 32 39 47 54 62 69 77 84 92 00 07 15 23 130 138
TESTUL MANN WHITNEY
EXEMPLU
Se aleg 2 magazine ale aceluiaşi lanţ de magazine situate într-un oraş. Se
înregistrează vânzările zilnice ale celor 2 magazine. Se doreşte a se şti dacă
există vreo diferenţă semnificativă între vânzările zilnice ale celor 2
magazine, pentru a decide dacă zona de amplasare influenţează vânzările.
Magazinul 1 235 255 355 195 244 240 236 259 260
Grupurile sunt puse împreună şi sunt ordonate toate valorile. Valorilor li se atribuie
ranguri. Notăm:
k = numărul de grupuri
ni = numărul de observaţii din grupul i
n = n1+...+nk numărul total de observaţii
1 – cea mai mică valoare observată şi n este cea mai mare valoare observată
Ti = suma rangurilor pentru observaţiile din grupul i.
TESTUL KRUSKALL-WALLIS
Testul statistic:
12 k T2
3(n 1) ~ 2k 1
j
H
n (n 1) j1 n j
H > 2 ,k 1 se respinge H0
H 2 ,k 1 se acceptă H0
TESTUL KRUSKALL-WALLIS
Exemplu: La un restaurant fast-food, conducerea decide să organizeze un studiu
pentru a vedea dacă există diferenţe de opinie cu privire la calitatea serviciilor în
trei perioade ale zilei: între 22.00-08.00, între 08.00-14.00 şi între 14.00-22.00.
Variantele de răspuns sunt: 4 – excelent; 3 – bune; 2 – acceptabile, satisfăcătoare; 1 –
slabe.
Există diferenţe de opinie între cele trei categorii de clienţi?
22.00-08.00 4 4 3 4 3 3 3 3 2 3
08.00-14.00 3 4 2 2 3 4 3 3 2 3
14.00-22.00 3 1 3 2 1 3 4 2 4 1
TESTUL MEDIAN
Când se foloseşte?
pentru compararea mai multor eşantioane independente şi de mărimi diferite
variabila de interes este ordinală
pentru a testa dacă eşantioanele au aceeaşi valoare mediană
Acest test este util când scala conţine limite artificiale şi multe cazuri au valori extreme. În
acest caz, testul median este cel mai bun pentru a compara mai multe grupuri.
Ipotezele testate:
H0: med1 =…= medk
HA: există ij astfel încât medi medj
n – numărul de observaţii
k – numărul de grupuri
TESTUL MEDIAN
Pas 1: Se aranjează datele de la cea mai mică la cea mai mare valoare
Pas 2: Se calculează valoarea mediană pentru întregul eşantion
Pas 3: Se organizează datele observate (of) într-un tabel de contingenţă
Grupul 1 … Grupul k Total linii
Pas 4: Se calculează frecvenţa aşteptată (ef) pentru fiecare celulă: n.j *ni./n
Pas 5:Se calculează testul statistic
2 of ef 2 2
k 1
ef
Regula de decizie: pentru un nivel de semnificaţie se extrage valoarea critică 2 ,k 1
2 2 ,k 1 se acceptă H0
2 2 ,k 1 se respinge H0
TESTUL MEDIAN
Exemplul 1: Considerăm că dispunem de 2 grupuri de muncitori pentru
care s-a măsurat timpul necesar (în minute) realizării aceleiaşi sarcini de
serviciu. Să se testeze dacă există o diferenţă semnificativă între cele 2
grupuri.
A: 815 1018 608 921 1267 685 837 681 839 848 873 954
Blonde: 1, 3, 2, 2, 4, 0, 0, 2, 1, 3
Brunete: 0, 2, 1, 2, 3, 0, 0, 1, 1, 2
TESTE PENTRU EȘANTIOANE
DEPENDENTE
Testul McNemar
Când se foloseşte?
este un test neparametric pentru compararea a două variabile nominale dihotomice
eşantioanele sunt dependente (perechi de observaţii)
evaluează efectul unui tratament/experiment realizat asupra unui eşantion (înainte-
după).
Testul constă în construirea unui tablou de contingenţă în care sunt înregistrate
frecvenţele modificărilor şi ale cazurilor nemodificate. În urma acţiunii factorului
(tratament sau experiment) variabila de selecţie poate înregistra modificări ale
modalităţilor observate: o observaţie care avea modalitatea x1 înaintea acţiunii
factorului, după acţiunea factorului înregistrează modalitatea x2.
A = numărul indivizilor care nu mai au modalitatea x1 după acţiunea factorului
B = numărul indivizilor care mai au modalitatea x1 după acţiunea factorului
C = numărul indivizilor care mai au modalitatea x2 după acţiunea factorului
D = numărul indivizilor care nu mai au modalitatea x2 după acţiunea factorului
Testul McNemar
Ipotezele testate:
H0: factorul nu are influenţă asupra variabilei x
HA: factorul are influenţă asupra variabilei x
Testul statistic:
( A D 1) 2
2
A D
2 2 ;1 se respinge H0
2 2 ;1 se acceptă H0
Testul McNemar
Exemplu: Sunt înregistrate preferinţele unui grup de indivizi pentru un produs X
înainte şi după o campanie publicitară:
A: numărul indivizilor care şi-au schimbat preferinţele pentru produsul X pentru un altul în urma
campaniei
B: numărul indivizilor care nu şi-au schimbat preferinţele pentru produsul X în urma campaniei
C: numărul indivizilor care nu şi-au schimbat preferinţele pentru alt produs decât X în urma campaniei
D: numărul indivizilor care şi-au schimbat preferinţele de la un alt produs spre produsul X în urma
campaniei.
Se testează ipoteza:
H0: publicitatea nu influențează preferințele indivizilor referitoare la produsul X
H1: publicitatea influențează preferințele indivizilor referitoare la produsul X
Înainte R A A A A A R R R După
După A A A A A A A R R R A
Înainte A 0 5
R 2 2
( 0 2 1) 2
1
2 02,01;1 6,63
02 2
Deci se acceptă H0, preferințele pentru produsul X nu se schimbă în urma campaniei publicitare.
TESTUL SEMNULUI
Când se foloseşte?
este un test neparametric pentru compararea a două variabile ordinale sau
nominale dihotomice
eşantioanele sunt dependente (perechi de observaţii)
se folosește atunci când planul de cercetare presupune evaluări repetate efectuate
pe acelaşi eşantion
se analizează semnificația diferențelor care apar între cele două serii de
măsurători. Accentul se pune pe semnul diferențelor dintre valori şi nu pe valori.
Ipotezele testate:
H0: mediana diferenţelor = 0 (egalitatea proporțiilor de semne + și – în șirul de date
definit de diferenţa între măsurători)
H1: mediana diferenţelor ≠ 0 (evaluările nu sunt similare)
TESTUL SEMNULUI
Cazul 1: eşantioanele sunt de volum redus (sub 25 de observaţii)
Pentru fiecare pereche (xi,yi) se stabileşte dacă (xi<yi), (xi>yi) sau (xi=yi) şi se
calculează r+ numărul diferenţelor pozitive şi r- numărul diferenţelor negative
Testul statistic:
rmin 0,5 n / 2
Testul statistic: z ~ N (0,1)
n /2
Model 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
1 4 2 5 3 2 5 1 4 4 2 3 4 2 3 2 4 2 4 5 3 4 3 3 5 2
2 5 1 4 2 1 3 3 2 2 2 2 3 1 4 1 3 1 3 4 1 2 3 4 2 3
Exemplu: Dorim să testă dacă faptul că un student este admis la un curs de pian, el
va fi respins la un curs de literatură. pentru aceasta sunt selectaţi 20 de studenţi şi se
obţin rezultatele:
Pian A A A R R A R R R R R A A R A A A R R A
Literatură A R R A R R A R A A A A A A R R R A R R
TESTUL WILCOXON
Când se foloseşte?
este un test neparametric pentru compararea a două variabile ordinale
eşantioanele sunt dependente (perechi de observaţii)
se folosește atunci când planul de cercetare presupune evaluarea impactului unui
factor asupra variabilei de selecţie
se verifică dacă a avut loc o schimbare în comportament după producerea
evenimentului
unităţile statistice sunt observate înainte şi după eveniment
Premisa de bază: atâta timp cât apar schimbări în comportament, sau opinii,
rangurile acestor schimbări vor fi aleatoare dacă nu a fost o schimbare generală.
Când este o schimbare generală, rangurile celor care s-au mutat în direcţia pozitivă
vor fi diferite de cele ale celor care s-au mutat în direcţia negativă.
Ipotezele testate:
H0: nu s-a produs nici o schimbare în urma acţiunii factorului;
HA: au avut loc schimbări în urma acţiunii factorului;
TESTUL WILCOXON
Cazul 1: eşantioanele sunt de volum redus (sub 25 de observaţii)
Se fac n observaţii asupra celor 2 variabile: (xi,yi), i=1,…,n
Se calculează diferenţele între valorile înregistrate înainte de acţiunea factorului şi
cele înregistrate după acţiunea factorului:
di yi xi
n n 1
min r ; r
Testul statistic: w 4 ~ N 0,1
n n 12n 1
24
Înainte 10 20 30 25 27 19 8 17 14 18 21 23 32 40 21 11 19 27 32 41 33 18 25 24 16 25
După 21 19 30 26 21 22 20 16 25 16 24 24 31 41 25 16 17 25 33 40 39 22 24 30 12 24
Testul Cochran Q
Când se foloseşte?
este un test neparametric pentru compararea mai multor variabile nominale binare
eşantioanele sunt dependente (perechi de observaţii)
sunt aplicate k tratamente pe k eşantioane dependente şi se testează dacă
tratamentele au aceeaşi eficacitate.
Ipotezele testate:
H0: tratamentele au aceeași eficacitate
2 0 0 ... L2
. . . ... .
. . . .
. . . .
n 1 . ... Ln
Total G1 G2 ... Gk N
coloană
N 2
k k (k 1)(G j )
Q k
Testul statistic: n
j 1
Li (k Li )
i 1
Regula de decizie: Pentru un nivel de semnificaţie şi k-1 grade de libertate se
extrage valoarea critică din tabelele 2
Q > 2,k-1 se respinge H0
Q 2 ,k-1 se acceptă H0
TESTUL FRIEDMAN
Când se foloseşte?
este un test neparametric pentru compararea mai multor variabile ordinale
eşantioanele sunt dependente (perechi de observaţii)
Ipotezele testate:
H0: eşantioanele provin din aceeaşi populaţie