Documente Academic
Documente Profesional
Documente Cultură
13 Comparatii Seturi Date PDF
13 Comparatii Seturi Date PDF
Noţiuni prezentate:
Compararea a două seturi de date – testul t (Student)
Unul dintre obiectivele majore ale unui studiu statistic este acela de
a compara între ele seturi de valori aparţinând unor eşantioane diferite,
pentru a evidenţia diferenţele între aceste eşantioane. În acest scop se folosesc
aşa-numitele „teste de semnificaţie statistică”, sau „teste de ipoteză” [i].
Testele de ipoteză funcţionează conform următorului principiu: se
formulează ceea ce se numeşte o „ipoteză statistică” privind
comportamentul datelor în eşantioanele analizate, şi se verifică această
ipoteză prin metode matematice, care au drept scop confirmarea sau
infirmarea ei. În condiţiile în care a fost identificată valoarea de adevăr a
ipotezei formulate pentru eşantioanele luate în studiu, marele avantaj al
testelor statistice este că această valoare de adevăr a ipotezei poate fi
generalizată pentru populaţiile din care provin eşantioanele respective, cu
condiţia ca ele să fi fost alese astfel încât să fie reprezentative pentru
populaţiile de origine.
Enunţarea unei ipoteze se poate face prin două modalităţi:
1. Ipoteza nulă: parametrii de comparat se consideră egali (de ex.:
media populaţiei 1, caracterizată de eşantionul 1, este egală cu media
populaţiei 2, caracterizată de eşantionul 2).
H0: m1 = m2
2. Ipoteza alternativă: parametrii de comparat se consideră diferiţi.
H1: m1 m2
Etapele de parcurs în verificarea unei ipoteze prin test statistic vor fi:
1. Enunţarea ipotezei;
2. Alegerea parametrului de studiu (poate să fie conţinut implicit
în enunţarea ipotezei);
3. Deducerea şi calculul formulei matematice a testului (numită şi
discriminanta statistică) dorită prin regula de decizie;
4. Acceptarea sau respingerea ipotezei, în urma comparării valorii
calculate a testului cu valori tabelate corespunzătoare tipului de
repartiţie a datelor în care se încadrează.
Bibliografie | 1
În funcţie de natura datelor cu care se lucrează, testele de
semnificaţie statistică se încadrează în două categorii – teste parametrice,
proiectate în general pentru date cantitative, a căror distribuţie de valori
respectă legea normală, şi care compară parametri statistici cum ar fi media
sau varianţa, şi teste neparametrice, proiectate pentru date calitative sau date
cantitative a căror distribuţie de valori nu respectă legea normală, şi care
compară mărimi statistice cum ar fi frecvenţele de apariţie a anumitor valori
sau rangurile.
Cele mai simple şi mai frecvent utilizate teste de semnificaţie
statistică sunt testele parametrice, bazate pe compararea mediilor sau a
varianţelor. Alegerea testului de semnificaţie statistică care se va folosi
pentru a compara valorile unui parametru între două sau mai multe
eşantioane se face strict în funcţie de natura şi de caracteristicile datelor cu
care se lucrează [ii]. Astfel, în cazul în care se lucrează cu un parametru
cantitativ, a cărui distribuţie de valori respectă legea de repartiţie normală
(fapt verificat eventual prin aplicarea unui test de fitare a datelor) apar de
obicei următoarele posibilităţi:
2 | Bibliografie
CAZUL 1. Se doreşte compararea valorilor unui parametru între două
eşantioane diferite, sau independente – caracterizate prin aceea că valorile
parametrului cantitativ care se analizează provin de la subiecţi diferiţi (de
exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la
bărbaţi şi la femei).
Bibliografie | 3
Dacă valoarea absolută a lui t calculat, tcalculat > t(P)tabel, urmează că
ipoteza nulă este INFIRMATĂ, iar diferenţa mediilor aritmetice nu este
întâmplătoare, fiind semnificativă statistic (se datorează unor factori externi
care acţionează sistematic). În caz contrar, adică atunci când tcalculat<t(P)tabel,
urmează că ipoteza nulă este CONFIRMATĂ şi nu avem motive să
considerăm că diferenţa între medii este semnificativă (adică ea poate fi
considerată ca o abatere întâmplătoare).
În practică, soft-urile de analiză statistică, deşi calculează şi valoarea
parametrului t şi o compară cu valorile teoretice cunoscute, returnează,
pentru această valoare, un coeficient de încredere, notat cu p, referitor la
confirmarea ipotezei nule cu o probabilitate de 95% sau de 99%. Acest fapt
este valabil nu numai pentru testul t, ci pentru orice test de semnificaţie
statistică (parametric sau neparametric), valoarea lui p fiind cea mai facilă de
utilizat pentru interpretarea testului [iii]. Astfel:
- Dacă p≤0.05, urmează că diferenţa între medii nu este
întâmplătoare, fiind semnificativă statistic, iar ipoteza nulă este
infirmată;
- Dacă p>0.05, urmează că diferenţa între medii este
întâmplătoare, fiind nesemnificativă statistic, iar ipoteza nulă
este confirmată.
Exemplu:
Se foloseşte fişierul LP15.xlsx. Dorim să stabilim dacă există
diferenţe semnificative între valorile Glicemiei la momentul 0 între femei şi
bărbaţi. Analog, pentru valorile glicemiei la 3 luni şi la 6 luni, pentru a
determina dacă evoluţia pacienţilor este diferenţiată între femei şi bărbaţi.
4 | Bibliografie
Pentru a putea decide ce variantă de test t se foloseşte în situaţia
noastră, vom verifica mai întâi dacă cele două eşantioane au varianţele egale
sau nu. Pentru aceasta, se va folosi un alt test statistic, şi anume testul F de
egalitate a varianţelor.
Acest test este relativ simplu ca structură; el calculează valorile
medii şi varianţele pentru cele două eşantioane luate în discuţie şi apoi
determină raportul celor două varianţe calculate, notat cu F; dacă F este foarte
apropiat sau chiar egal cu 1, înseamnă că varianţele în cele două eşantioane
sunt egale, şi cu cât F este mai mare cu atât eşantioanele sunt mai diferite între
ele în ceea ce priveşte acest parametru [15].
Nu se
Se specifică
bifează,şirul
deoarece
de celule
şirurile
în
carevalori
de se au
află
acelaşi
valorile
nume.primei
variabile – Glicemia la bărbaţi.
Se precizează
Nu se locul
bifează,dedeoarece
afişare şirurile
a
rezultatelorde –valori
pe aufoaia
acelaşidenume.
calcul
curentă, pe o nouă foaie de calcul sau
chiar într-un registru de calcul nou.
Bibliografie | 5
Sunt calculaţi următorii indicatori:
- Media, varianţa şi numărul de observaţii pentru cele două şiruri de
valori;
- Valoarea statisticii calculate F = 1.0204;
- P(F<=f) one-tail: probabilitatea de a se observa o valoare F = Fcalculat
mai mică decât F = Ftabel (atunci când Ftabel este un număr pozitiv) sau
mai mare decât Ftabel (atunci când Ftabel este un număr negativ), în
ipoteza în care varianţele variabilei Glicemie la femei şi bărbaţi sunt
egale. Dacă această probabilitate este mai mică de 0.05 (5%), se poate
considera că ipoteza de la care s-a pornit, că varianţele variabilei
Glicemie la femei şi bărbaţi, sunt egale, este INFIRMATĂ, diferenţele
între ele fiind semnificative statistic.
În cazul nostru P(F<=f) one-tail = 0.4669 > 0.05, deci ipoteza nulă este
CONFIRMATĂ, VARIANŢELE SUNT EGALE.
Se
Nuspecifică şirul dedeoarece
se bifează, celule în
care se află valorile
şirurile de valori nu primei
au
variabile –
nume diferite. Glicemia la
bărbaţi.
Nu se bifează, deoarece
şirurile de valori nu au
Se precizează locul de afişare
numeadiferite.
rezultatelor – pe
foaia de calcul curentă, pe o nouă foaie de calcul
sau chiar într-un registru de calcul nou.
6 | Bibliografie
Rezultatele sunt afişate după cum urmează:
Bibliografie | 7
În cazul nostru, P(T<=t) one-tail = 0.1162, deci este >0.05, deci ipoteza
nulă este CONFIRMATĂ, diferenţele între valorile medii ale glicemiei la
femei şi bărbaţi sunt NESEMNIFICATIVE STATISTIC.
LA MOMENTUL 3 LUNI:
Se procedează similar. Testul F de egalitate a varianţelor indică
F=0.8820, P(F<=f) one-tail=0.3983>0.05, deci ipoteza nulă este
CONFIRMATĂ, VARIANŢELE SUNT EGALE.
Prin urmare, se va folosi tot testul t pentru varianţe egale, care furnizează
următoarele rezultate:
8 | Bibliografie
LA MOMENTUL 6 LUNI:
Testul F de egalitate a varianţelor indică F = 0.5335, P(F<=f) one-tail
= 0.0820 < 0.05, deci ipoteza nulă este infirmată, varianţele sunt inegale şi se
va folosi cealaltă variantă a testului t, respectiv testul t pentru varianţe
inegale, „t-Test: Two-Sample Assuming Unequal Variances”.
iar rezultatele urmează şi ele aceeaşi schemă. Prin urmare, şi interpretarea lor
va fi similară.
Bibliografie | 9
Figura 17-9. Modul de afişare a rezultatelor testului t de inegalitate a varianţelor
(la 6 luni)
10 | Bibliografie