Documente Academic
Documente Profesional
Documente Cultură
2016 c6 Teste Statistice
2016 c6 Teste Statistice
STATISTICE 1
NOTIUNI
2
INTRODUCERE
3
METODE PENTRU TESTAREA
IPOTEZELOR
4
METODE PENTRU TESTAREA
IPOTEZELOR
• Indiferent cum este formulat protocolul
experimentului, scopul cercetătorului este de a
testa ipoteza nulă (de cele mai multe ori pentru a o
respinge)
• Ipoteza nulă nu trebuie probată, ci anulată
• Inferenţă negativă
5
METODE PENTRU TESTAREA
IPOTEZELOR
• Prin respingerea ipotezei nule, cercetătorul afirmă
că rezultatele observate nu sunt datorate
întâmplării (efect semnificativ)
• Când ipoteza nulă nu este rejectată, cercetătorul
afirmă că diferenţele observate sunt datorate
întâmplării şi rezultatele nu sunt semnificative.
6
TESTE STATISTICE
7
SCENARIU
8
ETAPELE UNUI TEST STATISTIC
• Pasul 1: Specificăm ipoteza nulă şi ipoteza
alternativă.
• Pasul 2: Alegem statistica adaptată situaţiei .
• Pasul 3: Alegem nivelul de semnificaţie şi pe baza sa
calculăm pragul de separare (între valorile
“acceptabile” şi cele considerate ca
“inacceptabile”).
• Pasul 4: Calculăm valoarea statisticii, folosind datele
din eşantion (ales aleator).
• Pasul 5: Decidem, prin compararea valorii calculate
cu pragul dat de nivelul de semnificaţie, dacă
respingem sau nu ipoteza nulă.
9
ETAPELE UNUI TEST STATISTIC – 1
(IPOTEZELE STATISTICE)
10
ETAPELE UNUI TEST STATISTIC -1 EXEMPLU
• Ipoteza nulă
• H0: μA = μB (μA - μB = 0)
Media valorilor unei variabile cantitative în
populaţia A nu este diferită de media
valorilor în populaţia B;
• Ipoteza alternativă
• H1: μA ≠ μB (μA - μB ≠ 0)
Media valorilor în populaţia A este diferită de
media valorilor în populaţia B.
11
ETAPELE UNUI TEST STATISTIC -1
EXEMPLU
• Ipotezele anterioare stipulau diferenţa fără a
o enunţa: ipoteze non-direcţionale
12
REGIUNEA CRITICA
Reject Ho Reject Ho
Accept Ho
1–α
Critical value Critical value
Reject Ho
Accept Ho
1–α
Critical value
Reject Ho
Accept Ho
1–α
Critical value
13
ETAPELE UNUI TEST STATISTIC – 2
(DEFINIREA PARAMETRULUI STATISTIC)
15
ETAPELE UNUI TEST STATISTIC – 2
(DEFINIREA PARAMETRULUI STATISTIC)
16
ETAPELE UNUI TEST STATISTIC –4
17
ETAPELE UNUI TEST STATISTIC – 5
DECIZIA (FOLOSIND REGIUNEA CRITICĂ)
18
ETAPELE UNUI TEST STATISTIC – 5
DECIZIA (FOLOSIND VALOAREA LUI P)
La aplicarea testelor statistice programele de
prelucrare statistica vor afisa o probabilitate de
semnificatie a testului statistic, numita si nivel de
semnificatie observat (notat cu p).
• Stabilirea semnificaţiei testului pe baza valorii lui p se
face frecvent cu următoarea regulă empirică
(consideram nivelul ales =0,05) :
1. Dacă 0,01 <= p<0,05 , rezultate semnificative.
2. Dacă 0,001 <= p<0,01, rezultate înalt semnificative.
3. Dacă p<0,001, rezultate foarte înalt semnificative.
4. Dacă p>=0,05, rezultate nesemnificative statistic.
5. Dacă 0,05 <= p<0,1, se notează o oarecare tendinţă
spre considerarea unei semnificaţii statistice.
19
ERORI ÎN TESTAREA IPOTEZELOR
STATISTICE
realitatea
Nu respingem
H0 Eronată (eroare
Corectă!
de tipul al II-lea)
21
EROAREA DE TIP I ŞI NIVELUL DE
SEMNIFICAŢIE
• Probabilitatea comiterii unei erori de tip I = nivelul
de semnificaţie, α (alfa)
• Probabilitatea este determinată prin teste statistice
• Am concluzionat că există reale diferenţe deşi
acestea sunt datorate şansei
• Concluzionăm că un tratament este eficient pe
baza unei interpretări greşite
• Nivelul alfa (riscul maxim acceptabil) 5% există o
şansă de 5% de a respinge incorect ipoteza nulă
• exemple:
• p= 0,18 ipoteza nulă nu se poate respinge
• p= 0,04 ipoteza nulă se poate respinge cu un risc
acceptabil de 4% de a comite o eroare de tipul I
22
H0 este falsa H0 este adevarata
Eronată (eroare
EROAREA DE TIP II Respingem H0
Corectă!
de tipul I)
Nu respingem H0 Eronată (eroare
Corectă!
de tipul al II-lea)
23
CE DETERMINĂ PUTEREA UNUI TEST?
• Criteriul de semnificaţie
• Varianţa
• Dimensiunea eşantionului
• Dimensiunea efectului
24
24
REGIUNEA CRITICĂ
• = regiunea de respingere, aria mărginită
de Z=±1,96
25
STATISTICI PARAMETRICE ŞI NON-
PARAMETRICE
26
TESTE STATISTICE
COMPARATII PE DOUA ESANTIOANE 27
COMPARAREA A DOUĂ MEDII
• Compararea mediilor eşantioanelor pentru
determinarea statistică a diferenţelor se face
prin două caracteristici:
• Media – diferenţa mediilor între grupuri
caracterizează nivelul de separare între grupuri
• Varianţa – caracterizează variabilitatea în interiorul
grupurilor
28
TESTUL STUDENT (T)
• Subtipuri:
• Testul t pentru eşantioane independente:
• Varianţe egale
• Varianţe inegale
• Testul t pentru eşantioane perechi
• Dacă eșantioanele nu au o distribuție normală,
atunci se vor folosi teste neparametrice (Mann-
Whitney)
29
TESTUL T PENTRU EŞANTIOANE
INDEPENDENTE
30
TESTUL T PENTRU EŞANTIOANE
PERECHE
• Se foloseşte în protocoale de cercetare care
implică măsurători repetate asupra aceloraşi
indivizi sau asupra unor indivizi cu
caracteristici asemănătoare (chiar gemeni)
• Datele sunt considerate împerecheate
deoarece pentru fiecare valoare există o
valoare pereche
• Testul evaluează scorul de diferenţă din
cadrul fiecărei perechi astfel încât subiecţii
sunt comparaţi numai cu ei înşişi sau cu
perechea lor
31
COMPARAȚII PE MAI
MULTE EȘANTIOANE
ANALIZA DE VARIANŢĂ ANOVA
• Este utilizat atunci când trebuiesc comparate 3 sau
mai multe eșantioane independente.
• Ipoteza statistică:
H0: μ1 = μ2 = μ3 ... = μn
L C ( f 0 f t )2
2 i t i
i1 f
i
TESTUL HI PĂTRAT
Serveşte la compararea a două distribuţii,
urmând două modele, care constau în:
• compararea unei distribuţii observate (sau empirice)
pe un eşantion cu o distribuţie teoretică. In acest caz,
se caută să se determine dacă un eşantion se
aseamănă cu un anumit model teoretic, fiind astfel
vorba de un test Hi-pătrat de ajustare.
• compararea a două distribuţii observate în scopul
stabilirii fie a independenţei dintre două criterii sau
omogenitatea dintr-un tabel de contingenţă. Este
vorba în acest caz de un test Hi-pătrat de
omogenitate sau de independenţă.
TESTUL HI PĂTRAT - PASI
T
• Tabelul de contingenţă observat (cu frecvenţele observate)
CALCULUL TABELULUI DE CONTINGENŢĂ
TEORETIC
Trebuie să completăm un tabel de contingenţă teoretic
(numit şi tabel de contingenţă calculat)
Ipoteza de independenţă dintre cele două caractere M şi
F permite să se calculeze probabilităţile:
Pr(M F) = Pr(M) Pr(F), unde
- Pr(M F) este probabilitatea de a avea simultan
caracterele M şi F
- Pr(M) este probabilitatea de a avea caracterul M
- Pr(F) este probabilitatea de a avea caracterul F.
EXEMPLU-CONTINUARE
Estimări ale acestor probabilităţi se obţin astfel:
Numarul de indivizi avind M 160
Pr(M) = Numarul total de indivizi
400 şi analog,
130
Pr(F) = ,
400
Numaruldeindiviziavind M siF F ( F , M )
Pr(MF) = ,
Numarultotal deindivizi 400
parametrului fi = + + +
n 78 108
- Se calculează (190 162) 2
( f i0 f it ) 2
LC + =37.2
X
2 162
i 1 f it
Etapa 6. Dacă X 2 [3.84, ) se X2 >> 3.84 aşa că ipoteza nulă
Decizia respinge H 0 cu un risc de H0 se respinge cu un risc
eroare de prima spetă . inferior lui 5%.
Dacă X 2 [3.84, ) atunci In concluzie, fumatul are
H0 nu se respinge, influenţă asupra maladiei M
acceptându-se H 0 cu un risc favorizând-o.
de eroare de speţa a doua
OBSERVAŢII