Sunteți pe pagina 1din 27

Testarea diferenei la nivel de set de date

1) Ce presupune testarea diferene la seturi de date? unei

2) Testul U sau Mann Whitney

ohp 1

1) Ce presupune testarea unei diferene la seturi de date? n domeniul turismului i a studiilor privind recreerea, n mod frecvent i de regul se folosesc date din 2 locaii diferite, ori asupra a 2 grupe umane diferite sau nainte i dup un anume eveniment. n astfel de situaii este util a se testa diferenele presupuse, incluse, implementate ori induse de seturile de date respective. Exemplu: Preul mediu hotelier la cazare n 2 staiuni diferite.

ohp 2

Comportamentul decizional asupra destinaiei de vacan a 2 grupe sociale diferite. Grupele de vrst ale vizitatorilor unui obiectiv din zilele cu eveniment sau fr eveniment. Atitudini ale turitilor privind destinaia de vacan nainte i dup vizitarea acesteia.

ohp 3

Practic avem date asupra 2 locaii diferite sau grupe umane, diferenele presupuse de acestea sunt evidente dar dorim s testm aceast diferena dintre ele i dpdv statistic (cuantificarea diferenei). Exist 3 teste de diferen la date, mai bine cunoscute: 1) Testul T= parametric 2) Testul U sau Mann Whitney (non-parametric) 3) Testul Wilcoxen perechilor legate (non-parametric) sau testul

ohp 4

Testul U, Mann Whitney


Are la baz procesul de comparare a medianelor de la 2 seturi de date. Elemente necesare: a) Date ordinale sau intervale b) 2 seturi de date necesar a fi comparate ( nu este necesar numr egal de perechi de variabile) c) Minimum 4 valori din fiecare set de variabil d) IPOTEZ ca punct de pornire. Aceasta se numete ipotez nul (H0) i este ntotdeauna; nu exist nici o diferen ntre cele 2 seturi de date. Obiectivul final este acela de a accepta sau respinge H0.
ohp 5

Exemplu de test Mann-Whitney test U

sau

Avem date pentru numrul de turiti romni cazai n Bile Herculane i Drobeta Turnu Severin din 1991 pn n 2000 Vrem s testm dac dpdv statistic exist o diferen semnificativ la nivelul numrului de vizitatori din cele 2 locaii n aceeai perioad de timp. Anul 1991 1992 1993 1994 1995 1996
ohp 6

BileHerculane

Drobeta Turnu Severin

72211 42968 72352 113242 95085 96631

64537 56566 39182 40989 46227 47271

1997 1998 1999 2000

66268 75441 100606 110286

48885 32293 31515 -

Observm c ne lipsete o valoare!!! Problem ???

ohp 7

Stadiul 1:
Dispunem de date intervale; se calculeaz media aritmetic pentru fiecare coloan cu variabile Dac Dispunem de date ordinale se va calcula, mediana pentru fiecare coloan de date.

Rezultatele se compar. n mod evitent dac diferena dintre medii/medianei nu este semnificativ continuarea testului este inutil.
Astfel: Variabla A (B. Herculane): aritmetic = 84.509 media

ohp 8

Variabla B (D.T.Severin): aritmetic = 45.274

media

Diferen valoric semnificativ! Stadiul 2:


Ipoteza nul: nu exist nici o diferen ntre numrul turitilor cazai la Bile Herculane i cei cazai la D.T. Severin n perioada 1991 2000

ohp 9

Stadiul 3:
Se ntocmete un tabel cu 4 coloane. Variabila A se nscrie n coloana 1 iar variabila B n coloana 3.

Variabla A (B.Herculane) 72211 42968 72352 113242 95085 96631 66268 75441 100606 110286
ohp 10

Variabla B (D.T.Severin) 64537 56566 39182 40989 46227 47271 48885 32293 31515

ohp 11

Stadiul 4:
Acordai rangi de importan TUTUROR valorilor, n ordine descresctoare (NU LA NIVEL DE VARIABIL CI TOATE LA UN LOC). Valoarea cea mai mare va primi rangul 1, urmtoarea 2 etc...c Rangii acordai pentru valorile varabilei A se plaseaz n coloana 2. Acetia se noteaz cu ra Rangii acordai pentru valorile varabilei B se plaseaz n coloana 4. Acetia se noteaz cu rb.

n cazul n care avem valori variabile identice se procedeaz la calcularea mediei rangilor valorilor variabile indiferent de numrul acestora.
ohp 12

Variabla A (Herculane) 72211 42968 72352 113242 95085 96631 66268 75441 100606 110286

ra Variabla B (D.T.Severin) 8 1 5 7 1 5 4 9 6 3 2 64537 56566 39182 40989 46227 47271 48885 32293 31515

rb

10 11 17 16 14 13 12 18 19

ohp 13

Stadiul 5:
Se calculeaz suma rangilor variabilei A, notat cu ra. ra = 60

Stadiul 6:
n mod similar se calculeaz suma rangilor variabilei B, notat cu rb. rb = 130

ohp 14

Stadiul 7:
Formula pentru testul U este: U = na nb + na (na+1) - ra,b,c... 2 unde: na este numrul de valori al variabile A, nb este numrul de valori al variabile B Ea se aplic fiecrei variabile n parte! n cazul nostru, pentru variabila A: U = na nb + na (na+1) - ra 2 = (10 x 9) + (10 x 11) - 60 2 = 90 + 55 60 = 85
ohp 15

Stadiul 8:
Variabila B: U = na nb + nb (nb+1) - rb 2 = (10 x 9) + (9 x 10) - 130 2 = 90 + 45 130 = 5

Stadiul 9:
Se alege variabila al crei rezultat este cel mai mic

Stadiul 10:
ohp 16

Se decide nivelul gradului de confiden la care dorim s avem rezultatul. De regul ntiinele sociale se lucreaz cu cel puin 95% adic p = 0.05

ohp 17

Stadiul 11:
Se face apel la tabelele consacrate cu valori critice ale testului U pentru p = 0.05 (95%)

nb 1 2 3 4 5 na 1 2 3 4 5 6 7 8 9 10 11 12

10 11 12

0 0 0 0 1

0 1 1 2 2 3 3 4

0 1 2 3 4 4 5 6 7

0 1 2 3 5 6 7 8 9 11

1 2 3 5 6 8 10 11 13 14

1 3 5 6 8 10 12 14 16 18

0 2 4 6 8 10 13 15 17 19 22

0 2 4 7 10 12 15 17 20 23 26

0 3 5 8 11 14 17 20 23 26 29

0 3 6 9 13 16 19 23 26 30 33

1 4 7 11 14 18 22 26 29 33 37

= 20

Stadiul 12:
ohp 18

Convenia statistic impune ca valoarea de test U mai mic sau egal cu valoarea critic atrage dup sine RESPINGEREA ipotezei nule. n acest caz valoarea critic este 20 iar valoarea de test U = 5. Ipoteza nul se respinge. Ipoteza .................

Stadiul 13:
Iportant! Interpretarea rezultatelor finale, nu a valorilor matematice obinute. n cazul de fa... de ce exist o diferen ntre cele dou seturi de date.
ohp 19

Stadiul 14
Interpretarea i analiza rezultatelor includ ntotdeauna argumente sau explicaii precum: Exist o diferen statistic semnificativ ntre numrul turitilor romni cazai la Bile Herculane i cei cazai la Drobeta Turnu Severin (U = 5, p = 0,05), fapt datorat...... Testul U sau Mann Whitney mai este cunoscut i sub denumirea de test al nivelului de semnificaie.

ohp 20

ohp 21

SEMINAR

ohp 22

EXERCISE 1 The data below shows the number of foreign tourists staying at Baile Herculane over the 1983-2000 period. Use the Mann Whitney U test to determine if there is any difference between tourist numbers during the communist and post-communist period and comment on the reasons for your finding 1983 1984 1985 1986 1987 1988 1989 1990
ohp 23

4196 3278 5058 2778 8877 3385 3309 1546

1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

2925 14319 4404 3212 4124 3187 1063 2180 2575 1519

ohp 24

ANSWER TO EXERCISE 1

A 4196 3278 5058 2778 8877 3385 3309

ra 6 9 3 13 2 8 7

B 1546 2925 14319 4404 3212 4124 3187 1063 2180 2575 1519

rb 16 12 1 4 10 5 11 18 15 14 17

ra = 48
ohp 25

rb = 123

U1 = 77 + 28 48 = 57 U2 = 77 + 66 123 = 20 Critical value = 16 Accept null hypothesis No difference in number of foreign tourists staying at Herculane before and after 1989. WHY????????

ohp 26

ohp 27

S-ar putea să vă placă și