Sunteți pe pagina 1din 21

Statistică neparametrică

Teste statistice neparametrice

Curs 6 – Aprilie 2022


Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
TESTE DE CONCORDANȚĂ
TESTE DE CONCORDANŢĂ:
TESTUL 2
 Când se foloseşte?
 pentru date nominale
 pentru compararea distribuţiei observate a numărului de observaţii pe variante cu o
distribuţie predeterminată F
 Ipotezele testate:
 H0: datele sunt distribuite F;
 HA: datele nu sunt distribuite F
 Testul statistic:
(O − E )2 O – frecvenţele absolute observate
 =
2
E – frecvenţele absolute aşteptate (teoretice)
E
 Regula de decizie:
  2   2; k −1  se respinge H0

  2   2; k −1  se acceptă H0
Valori critice ale distribuției Chi pătrat
TESTE DE CONCORDANŢĂ
TESTUL 2
Testul 2: Testam dacă distribuția este uniformă: toate
categoriile au aceeasi frecvență de apariție.
Care sunt preferintele dvs cu privire la site-urile de job-uri?

Observed N Expected N Residual

ejobs 72 50.0 22.0

bestjobs 60 50.0 10.0

altele 18 50.0 -32.0

Total 150

Test Statistics

Care sunt preferintele dvs cu privire la site-urile de job-uri?


se respinge H0
Chi- cu o probabilitate de
32.160
Square(a) 99%.
df 2 Deci distribuția
variabilei
Asymp.
Sig.
.000 Preferinta cu privire
la site-urile de job-uri
a 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency
is 50.0. nu este distribuită
uniform.
TESTE DE CONCORDANŢĂ
TESTUL KOLMOGOROV-SMIRNOV
 Când se foloseşte?
 pentru date ordinale
 pentru compararea distribuţiei observate a răspunsurilor obţinute cu o
distribuţie definită a priori F
 Ipotezele testate:
 H0: datele sunt distribuite F;
 HA: datele nu sunt distribuite F
 Testul statistic:
n Oi – procente cumulate observate pt valoarea i
D= max Oi − Ei Ei – procente cumulate aşteptate (teoretice) pt valoarea i
2 1i n

 Regula de decizie:

 D>Dth  H0 se respinge

 D<Dth  H0 se acceptă
TESTE DE CONCORDANŢĂ
TESTUL KOLMOGOROV-SMIRNOV

Distributia observată Distributia Diferen


teoretică ţe
Testul Frecv. % % % % Ei- Oi
Kolmogorov Smirnov cumulate cumulate
Proasă 34 22,7 22,7 26,7 26,7 4
Neutră 22 14,6 37,3 20 46,7 9,4
Bună 52 34,7 72 26,7 73,4 1,4
Foarte bună 42 28 100 26,6 100 0

D = 75 max Oi − Ei = 8,66  0,094 = 0,81


1i  n

D0.05;150 = 0.21  se respinge H 0


EXEMPLU
 2 companii producătoare de soft au dus o campanie agresivă de menţinere şi eventual
creştere a poziţiei pe piaţă.

 Înainte de această campanie,


 compania A deţinea 45% din piaţă,

 compania B 40%,

 restul de 15% fiind deţinut de alte companii.

 Pentru testarea efectului campaniei publicitare s-a efectuat un sondaj după campanie,
prin care s-au înregistrat preferinţele a 200 de consumatori:
 102 preferau compania A,

 82 compania B şi

 16 alte companii.

 Se poate spune cu un nivel de semnificaţie de 5% dacă s-a produs vreo schimbare în


preferinţele consumatorilor?
TESTE PENTRU EȘANTIOANE
INDEPENDENTE
TESTUL MANN WHITNEY
 Când se foloseşte?
 pentru două eşantioane independente şi de mărimi diferite
 pentru a testa dacă cele două eşantioane provin din aceeaşi populaţie
 variabila de interes este ordinală
 este utilizat ca alternativa la testul t când datele nu au o distributie normală

 Ipotezele testate:
 H0: eşantioanele provin din aceeaşi populaţie
 HA: eşantioanele nu provin din aceeaşi populaţie
TESTUL MANN WHITNEY
 Cazul 1: eşantioanele sunt de volum redus (sub 15 observaţii)
 Se ordonează crescător valorile celor 2 eşantioane puse împreună păstrându-se şi
o referinţă la provenienţa valorilor (din primul sau al doilea eşantion) şi se
calculează.
 r1 – suma rangurilor primului eşantion;

 r2 – suma rangurilor celui de-al doilea eşantion.

( )
n i / min( r1;r2 ) n i / min( r1;r2 ) + 1
 Testul statistic: T = min( r1 ; r2 ) −
2

 Regula de decizie: Pentru un nivel de semnificaţie  si n1, n2 se extrage din tabelul


valorilor critice U;n1,n2

 T > U;n1,n2  se accepta H0

 T  U;n1,n2  se respinge H0
TESTUL MANN WHITNEY
 Cazul 2: eşantioanele sunt de volum mare
 Se calculeaza T ca în cazul anterior;
n 1n 2 n 1n 2 (n 1 + n 2 + 1)
 Media = şi eroarea standard = 12
2
 Testul statistic:
n1n2
T − media T−
U= = 2 ~ N (0;1)
eroarea standard n1n2 (n1 + n2 + 1)
12

 Regula de decizie: Pentru un nivel de semnificaţie  se extrage valoarea


critică zα/2
 U > z/2  se respinge H0

 U  z/2  se acceptă H0
TESTUL MANN WHITNEY
Valorile critice U: Testul bilateral α = .10 şi α = .05
n1 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
4 1 2 3 4 5 6 7 8 9 10 11 12 14 15 16 17 18
0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 13
5 2 4 5 6 8 9 11 12 13 15 16 18 19 20 22 23 25
1 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20
6 3 5 7 8 10 12 14 16 17 19 21 23 25 26 28 30 32
2 3 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27
7 4 6 8 11 13 1517 19 21 24 26 28 30 33 35 37 39
3 5 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34
8 5 8 10 13 15 18 20 23 26 28 31 33 36 39 41 44 47
4 6 8 10 13 15 17 19 22 24 26 29 31 34 36 38 41
9 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54
4 7 10 12 15 17 20 23 26 28 31 34 37 39 42 45 48
10 7 11 14 17 20 24 27 31 34 37 41 44 48 51 55 58 62
5 8 11 14 17 20 23 26 29 33 36 39 42 45 48 52 55
11 8 12 16 19 23 27 31 34 38 42 46 50 54 57 61 65 69
6 9 13 16 19 23 26 30 33 37 40 44 47 51 55 58 62
12 9 13 17 21 26 30 34 38 42 47 51 55 60 64 68 72 77
7 11 14 18 22 26 29 33 37 41 45 49 53 57 61 65 69
13 10 15 19 24 28 33 37 42 47 51 56 61 65 70 75 80 84
8 12 16 20 24 28 33 37 41 45 50 54 59 63 67 72 76
14 11 16 21 26 31 36 41 46 51 56 61 66 71 77 82 87 92
9 13 17 22 26 31 36 40 45 50 55 59 64 67 74 78 83
15 12 18 23 28 33 39 44 50 55 61 66 72 77 83 88 94 100
10 14 19 24 29 34 39 44 49 54 59 64 70 75 80 85 90
16 14 19 25 30 36 42 48 54 60 65 71 77 83 89 95 101 107
11 15 21 26 31 37 42 47 53 59 64 70 75 81 86 92 98
17 15 20 26 33 39 45 51 57 64 70 77 83 89 96 02 109 115
11 17 22 28 34 39 45 51 57 63 67 75 81 87 93 99 105
18 16 22 28 35 41 48 55 61 68 75 82 88 95 02 09 16 23
12 18 24 30 36 42 48 55 61 67 74 80 86 93 99 106 112
19 17 23 30 37 44 51 58 65 72 80 87 94 01 09 16 123 130
13 19 25 32 38 45 52 58 65 72 78 85 92 99 06 113 119
20 18 25 32 39 47 54 62 69 77 84 92 00 07 15 23 130 138
13 20 27 34 41 48 55 62 69 76 83 90 98 05 12 119 127
n2
TESTUL MANN WHITNEY
 EXEMPLU
 Se aleg 2 magazine ale aceluiaşi lanţ de magazine situate într-un oraş. Se
înregistrează vânzările zilnice ale celor 2 magazine. Se doreşte a se şti dacă există
vreo diferenţă semnificativă între vânzările zilnice ale celor 2 magazine, pentru a
decide dacă zona de amplasare influenţează vânzările.
Magazinul 1 235 255 355 195 244 240 236 259 260

Magazinul 2 240 198 220 215 245

 H0: eşantioanele provin din aceeaşi populaţie;


 HA: altfel;
vânzări 195 198 215 220 235 236 240 240 244 245 255 259 260 355
ranguri 1 2 3 4 5 6 7,5 7,5 9 10 11 12 13 14
magazin 1 2 2 2 1 1 1 2 1 2 1 1 1 1

 r1 = 78,5; r2 = 26,5;
 T=11,5; U0,05;9;5=7
 T > U0,05;9;5  se accepta H0  eșantioanele provin din aceeași populație


TESTUL KRUSKALL-WALLIS
 Când se foloseşte?
 pentru compararea mai multor eşantioane independente şi de mărimi diferite
 pentru a testa dacă eşantioanele provin din aceeaşi populaţie
 variabila de interes este ordinală
 este utilizat ca alternativa la testul t când datele nu au o distributie normală
 Ipotezele testate:
 H0: eşantioanele provin din aceeaşi populaţie
 HA: eşantioanele nu provin din aceeaşi populaţie

 Grupurile sunt puse împreună şi sunt ordonate toate valorile. Valorilor li se atribuie
ranguri. Notăm:
 k = numărul de grupuri
 ni = numărul de observaţii din grupul i
 n = n1+...+nk numărul total de observaţii
 1 – cea mai mică valoare observată şi n este cea mai mare valoare observată
 Ti = suma rangurilor pentru observaţiile din grupul i.
TESTUL KRUSKALL-WALLIS

 Testul statistic:

 12 k T2 
  − 3(n + 1) ~  2k −1
j
H=
 n (n + 1) j=1 n j 

 Regula de decizie: Pentru un nivel de semnificaţie  se extrage valoarea


critică   ,k −1
2

 H >  2 ,k −1 → se respinge H0
H    ,k −1 → se acceptă H0
2

TESTUL KRUSKALL-WALLIS

22.00-08.00 4 4 3 4 3 3 3 3 2 3
08.00-14.00 3 4 2 2 3 4 3 3 2 3
14.00-22.00 3 1 3 2 1 3 4 2 4 1
TESTUL MEDIAN
 Când se foloseşte?
 pentru compararea mai multor eşantioane independente şi de mărimi diferite
 variabila de interes este ordinală
 pentru a testa dacă eşantioanele au aceeaşi valoare mediană

 Acest test este util când scala conţine limite artificiale şi multe cazuri au valori extreme. În
acest caz, testul median este cel mai bun pentru a compara mai multe grupuri din punctul
de vedere al tendintei centrale.

 Ipotezele testate:
 H0: med1 =…= medk
 HA: există ij astfel încât medi  medj

 n – numărul de observaţii
 k – numărul de grupuri
TESTUL MEDIAN
 Pas 1: Se aranjează datele de la cea mai mică la cea mai mare valoare
 Pas 2: Se calculează valoarea mediană pentru întregul eşantion
 Pas 3: Se organizează datele observate (of) într-un tabel de contingenţă

Grupul 1 … Grupul k Total linii

Număr de valori mai mici n1.


decât valoarea mediană
Număr de valori mai mari n2.
decât valoarea mediană
Total coloane n.1 n.k n

 Pas 4: Se calculează frecvenţa aşteptată (ef) pentru fiecare celulă: n.j *ni./n
 Pas 5:Se calculează testul statistic

2 = 
(of − ef )
2
  k2−1
ef
 Regula de decizie: pentru un nivel de semnificaţie  se extrage valoarea critică
  2   2 ,k −1 → se acceptă H
0

  2   2 ,k −1 → se respinge H0
TESTUL MEDIAN
 Exemplul 1: Considerăm că dispunem de 2 grupuri de muncitori pentru care s-a
măsurat timpul necesar (în minute) realizării aceleiaşi sarcini de serviciu. Să se
testeze dacă există o diferenţă semnificativă între cele 2 grupuri.

A: 815 1018 608 921 1267 685 837 681 839 848 873 954

B: 691 548 554 851 613 774 681 695 753

 Exemplul 2: Există diferențe între blonde și brunete sub aspectul producerii


accidentelor rutiere ? (0 lipsa accidentelor, cu 1 accidente ușoare, cu 2 accidente
medii, 3 accidente grave și 4 accidente foarte grave )

Blonde: 1, 3, 2, 2, 4, 0, 0, 2, 1, 3
Brunete: 0, 2, 1, 2, 3, 0, 0, 1, 1, 2

S-ar putea să vă placă și