Documente Academic
Documente Profesional
Documente Cultură
Teste de ipoteză
Compararea mediilor – testul t (student)
Compararea varianțelor - testul F (Fisher)
Statistica are ca scop luarea unei decizii – o concluzie asupra analizei făcute.
Se pot comite în această situaţie două erori :
Eroare de tip I – să se accepte în mod greşit ipoteza alternativă H1, când în realitate H0 este
adevărată. Aceasta este notată cu α și are valoarea standard 0.05.
Eroare de tip II – să se accepte în mod greşit ipoteza nulă H0, când în realitate H1 este adevărată.
Se notează cu β și are valoarea standard 0.10.
Situaţiile posibile sunt prezentate în tabelul de mai jos.
Situaţie adevărată
Sistem decizional cu prag. Ipoteza H0 este Ipoteza H1 este
adevărată adevărată
Eroare tip II
Decizie prin
Eroare tip I
Acceptare ipoteză H1 α Nu există eroare
Falsi pozitivi
Este de dorit ca aceste erori să fie cât mai mici posibil. Se cunoaşte că există o legătură invers
proporţională între ele. Putem micşora eroarea α dar drept consecinţă, eroarea de tip II se va mări într-o
anumită măsură. Încercând să scădem valoarea β obţinem o creştere a erorii de tip I. Este clar că efectele
sunt contradictorii şi un compromis trebuie acceptat, funcţie de scopul urmărit.
0.45
H0 este adevărată H1 este adevărată
0.4
0.35 d
0.3 A
0.25
0.2 B
0.15
0.1
0.05 b a
0
Pentru luarea unei decizii se creează funcţia discriminantă statistică (forma matematică a testului), a cărei valoare
calculată se compară cu valori tabelate ale tipului de repartiţie în care se încadrează.
Pe scurt paşii de urmat în verificarea prin test statistic:
1. Enunţarea ipotezei.
2. Alegerea parametrului de studiu (poate să fie conţinut implicit în enunţarea ipotezei).
3. Deducerea şi calculul statisticii discriminante – Alegerea testului specific
4. Concluzia: acceptarea sau respingerea ipotezei nule.
Comparăm !!!
Diferă
semnificativ
statistic ???!!!
p<0,05
Media1 Media 2
M1 M2
Dispersiile x2 , 2y se cunosc
În această situaţie variabila V urmează o distribuţie normală şi va
Exemplu de calcul
x2 2y
avea dispersia echivalentă V2 .
Testul ipotezei duble nx ny
Compararea mediilor a Funcţia discriminantă se va calcula cu formula:
doua esantioane
Z
V V
X Y x y
V x2 2y
Se creeaza variabila V
egala cu diferenta celor nx ny
doua variabile. Variabila Z este repartizată normal N(0,1).
Pentru specificaţie bilaterală simetrică regiunea de acceptare va fi:
P Za 2 Zc Za 2 1 a , cu a nivelul de semnificaţie.
Pentru medii egale se calculează:
X Y
Zc
x2 2y
Decizia se ia functie de
valoarea calculata Zc n x ny
sau functie de valoarea Dacă calculând Zc se respectă realţia Zc Za 2 , atunci acceptăm
p corespunzatoare. ipoteya H0 cu încredere b = 1 - a. Astfel putem considera că mediile sunt
egale.
Dacă relaţia: Zc Z a 2 este respectată atunci nu putem accepta
ipoteza H0 şi vom considera mediile ca fiind diferite.
CUM DECIDEM STATISTIC ?
Presupunem că avem mai multe populații definite de funcțiile densitate de probabilitate ca în cazul
următor (repartiții normale):
f(x)
f1(x) f2(x)
Limite 95%
x1 x
media 1
Presupunem că avem un punct notat x1 – reprezentat grafic.
Cum decidem cărei populații aparține această valoare x1 ?
Dacă punctul respectiv se află in jurul mediei într-un domeniu simetric definit de 95% probabilitate, atunci
acel punct aparține acelei populații.
Practic am definit limitele unui interval de încredere de 95% în jurul mediei.
Pentru cazul nostru x1 aparține populației definită de funcția de distribuție f1(x).
Funcția discriminantă folosită în cadrul testelor este practic o nouă variabilă aleatoare (deci prezintă o
funcție de probabilitate) și măsoară diferențele dintre medii, dispersii … ce dorim să comparăm.
INTERPRETAREA GRAFICĂ PENTRU LUAREA DECIZIEI STATISTICE
- forma bilaterală (ne interesează doar diferenţa nu şi sensul)
Distribuția Z poate fi înlocuită cu t sau student dacă nu se cunosc deviațiile standard ale populațiilor
sau dacă volumele eșantioanelor sunt mai mici ca 30.
0.4
Nivelul de încredere standard este
Densitate de probabilitate
0.35
0.95 (sau 95%) iar nivelul prag de
0.3 semnificație (notat α sau p-critic)
H1 adevărat H0 adevărat (95%) H1 adevărat
0.25 este 1-0.95 deci 0.05 sau 5%.
0.2
Zcalculat se află în domeniul
0.15
H1 – avem semnificație !
0.1
0.05 Zcritic cât și tcritic arată limita maximă admisa ca
variație a diferenței mediilor.
0
-3.5
-2.5
-1.5
-0.5
-4
-3
-2
-1
0.5
1.5
3.5
0
2.5
4
Zcritic Z sau t
Zcalculat
De exemplu valoarea statisticii calculate
pe baza datelor din eşantioane (Z sau t ) Rețineți:
Statistica t calculată (cât și Z calculată) este proporțională cu diferența
poate avea valoarea reprezentată.
mediilor și măsoară cât de diferite sunt mediile.
X X2
Se mai numește și tstat – statistica calculată t t 1
stat calculat
echivalent
f(z)
1.2
1
DECIZIA STATISTICĂ
0.8
0.6
0.4 a sau p
0.2
0 M[z]=0 Z calculat
Prin calculul statisticii se deduce valoarea Zcalculat (sau t calculat etc.) si corespunzător acesteia se poate determina
valoarea semnificației p calculate.
Zcritic (sau t_critic) – este valoarea statisticii corespunzătoare încrederii standard de 0.95. Este limita maximă
admisă ca variație.
DECIZIA
Dacă |Zcalculat| ≥ Zcritic (sau tabelat) sau daca pcalculat ≤ 0.05 deducem existența diferenței semnificative statistic.
Dacă |Zcalculat| <Zcritic (tabelat) sau daca pcalculat> 0.05 nu exista diferență semnificativă statistic.
COMPARAREA MEDIILOR A DOUĂ EȘANTIOANE
Observație: pentru eșantioane mari , sau pentru situații în care se cunoaște deviația standard
este indicat testul Z pentru comparații. Ținând cont de faptul că testul t (sau distribuția t sau
student) converge în Z pentru volume mari de date rezultă că nu facem nicio eroare dacă folosim
testul t în loc de Z în astfel de situații !
Testul t (doar pt. compararea mediilor a două populații prin eșantioane)
Prezintă variante diferite funcție de:
Rezultatele calculate.
Nivelul de probabilitate p determină
semnificația statistică.
Pentru acest caz p=0.079 ce este mai
mare ca 0.05 – așadar putem aproxima ca F-Test Two-Sample for Variances
Observație ! S12
Statistica Fisher se calculează cu formula: Fcalculat=S1^2/S2^2 sau Fcalculat 2
S2
S1 respectiv S2 sunt deviațiile standard calculate din eșantioane, dacă Fcalculat=1 înseamnă S1=S2.
Fiind un raport de valori pozitive rezultă un rezultat pozitiv deci variabila aleatoare studiată este pozitivă!
F este întotdeauna mai mare ca 0: F>0 !!!
Cu cât valoarea Fcalculat este mai depărtată de 1 cu atât ipoteza H0 este mai puțin probabilă.
Pentru a interpreta corect (prin metoda standard) se selectează mai întâi setul cu varianța mai mare.
Valoarea statisticii F este raportul dintre cele două dispersii. Astfel comparația se face cu valoarea 1, dacă
considerăm raportul subunitar (prima dispersie mai mică supra a doua) atunci valoarea calculată a lui F se va
apropia de 1(pentru lipsă diferență) deci va fi mai mare ca F critic și va însemna lipsa diferenței semnificative
statistice – ceea ce este invers față de regula generală: Fcalculat mai mare ca Fcritic.
Deoarece F nu poate fi negativ (fiind un raport de numere la pătrat) – iată și densitatea de
probabilitate reprezentată grafic prezintă evident această proprietate.
În concluzie x poate fi doar pozitiv – numai graficul C poate reprezenta o distribuție de tip Fisher.
Variabila de interes este x=S1^2/S2^2 și are doar valori pozitive.
Curba A poate reprezenta o distribuție de tip Gauss sau t dar sub nicio formă o distribuție de tip Fisher.
Curba C reprezintă distribuția FISHER.
Fcritic
• …………………………….etc.
Mulțumesc !