Sunteți pe pagina 1din 10

17 COMPARAREA SETURILOR DE DATE (I)

Noţiuni prezentate:
 Compararea a două seturi de date – testul t (Student)

Unul dintre obiectivele majore ale unui studiu statistic este acela de
a compara între ele seturi de valori aparţinând unor eşantioane diferite,
pentru a evidenţia diferenţele între aceste eşantioane. În acest scop se folosesc
aşa-numitele „teste de semnificaţie statistică”, sau „teste de ipoteză” [i].
Testele de ipoteză funcţionează conform următorului principiu: se
formulează ceea ce se numeşte o „ipoteză statistică” privind
comportamentul datelor în eşantioanele analizate, şi se verifică această
ipoteză prin metode matematice, care au drept scop confirmarea sau
infirmarea ei. În condiţiile în care a fost identificată valoarea de adevăr a
ipotezei formulate pentru eşantioanele luate în studiu, marele avantaj al
testelor statistice este că această valoare de adevăr a ipotezei poate fi
generalizată pentru populaţiile din care provin eşantioanele respective, cu
condiţia ca ele să fi fost alese astfel încât să fie reprezentative pentru
populaţiile de origine.
Enunţarea unei ipoteze se poate face prin două modalităţi:
1. Ipoteza nulă: parametrii de comparat se consideră egali (de ex.:
media populaţiei 1, caracterizată de eşantionul 1, este egală cu media
populaţiei 2, caracterizată de eşantionul 2).
H0: m1 = m2
2. Ipoteza alternativă: parametrii de comparat se consideră diferiţi.
H1: m1  m2

Etapele de parcurs în verificarea unei ipoteze prin test statistic vor fi:
1. Enunţarea ipotezei;
2. Alegerea parametrului de studiu (poate să fie conţinut implicit
în enunţarea ipotezei);
3. Deducerea şi calculul formulei matematice a testului (numită şi
discriminanta statistică) dorită prin regula de decizie;
4. Acceptarea sau respingerea ipotezei, în urma comparării valorii
calculate a testului cu valori tabelate corespunzătoare tipului de
repartiţie a datelor în care se încadrează.

Bibliografie | 1
În funcţie de natura datelor cu care se lucrează, testele de
semnificaţie statistică se încadrează în două categorii – teste parametrice,
proiectate în general pentru date cantitative, a căror distribuţie de valori
respectă legea normală, şi care compară parametri statistici cum ar fi media
sau varianţa, şi teste neparametrice, proiectate pentru date calitative sau date
cantitative a căror distribuţie de valori nu respectă legea normală, şi care
compară mărimi statistice cum ar fi frecvenţele de apariţie a anumitor valori
sau rangurile.
Cele mai simple şi mai frecvent utilizate teste de semnificaţie
statistică sunt testele parametrice, bazate pe compararea mediilor sau a
varianţelor. Alegerea testului de semnificaţie statistică care se va folosi
pentru a compara valorile unui parametru între două sau mai multe
eşantioane se face strict în funcţie de natura şi de caracteristicile datelor cu
care se lucrează [ii]. Astfel, în cazul în care se lucrează cu un parametru
cantitativ, a cărui distribuţie de valori respectă legea de repartiţie normală
(fapt verificat eventual prin aplicarea unui test de fitare a datelor) apar de
obicei următoarele posibilităţi:

1. Se doreşte compararea valorilor acestui parametru între două


eşantioane diferite, sau independente – caracterizate prin aceea
că valorile parametrului cantitativ care se analizează provin de
la subiecţi diferiţi (de exemplu, într-un lot de pacienţi se doreşte
compararea valorilor glicemiei la bărbaţi şi la femei) – se va folosi
testul t de comparare a mediilor;
2. Se doreşte compararea valorilor unui parametru între două
eşantioane diferite, dar dependente – caracterizate prin aceea că
valorile parametrului cantitativ care se analizează provin de la
aceiaşi subiecţi (de exemplu, într-un lot de pacienţi se doreşte
compararea valorilor glicemiei la momentul 0 şi la momentul 3
luni, cele 2 determinări fiind realizate la aceleaşi persoane) – se
va folosi testul t corelat (t-pairs);
3. Se doreşte compararea valorilor unui parametru între mai mult
de două eşantioane. În acest caz avem următoarele soluţii: să
luăm eşantioanele două câte două, şi să comparăm valorile
parametrului analizat între acestea folosind testul t (ceea ce ar
putea conduce la un număr însemnat de comparaţii atunci când
se lucrează cu relativ multe eşantioane – de exemplu, la 5
eşantioane ar însemna 10 combinaţii posibile şi în general, la 𝑛
eşantioane ar însemna 𝐶𝑛2 combinaţii posibile), sau să realizăm o
comparare globală între cele 𝑛 eşantioane folosind un test de
semnificaţie adecvat, respectiv testul ANOVA de analiză a
varianţelor.

2 | Bibliografie
CAZUL 1. Se doreşte compararea valorilor unui parametru între două
eşantioane diferite, sau independente – caracterizate prin aceea că valorile
parametrului cantitativ care se analizează provin de la subiecţi diferiţi (de
exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la
bărbaţi şi la femei).

Într-o situaţie de acest tip, pentru a evidenţia eventualele diferenţe


între valorile parametrului urmărit în cele două eşantioane, se foloseşte testul
t (Student) de comparare a mediilor. Acest test a fost creat de matematicianul
William Gosset, care l-a publicat sub pseudonimul Student, de unde provine
şi numele testului.
Presupunem că cele două eşantioane au dimensiunile n1 şi n2
suficient de mari (cel mai bine peste 30 de cazuri, dar în mod obligatoriu mai
mult de 10 – 12 cazuri), iar parametrul urmărit are mediile aritmetice
corespunzătoare x1 şi x2 . Se pune problema de a decide dacă diferenţa între
aceste medii este suficient de mare pentru a se putea afirma că ea nu este
întâmplătoare, ci se datorează unor factori externi care acţionează sistematic
şi afectează într-un mod semnificativ valorile parametrului în unul dintre
eşantioane comparativ cu celălalt. Pentru a soluţiona această problemă, se
formulează ipoteza de lucru că mediile aritmetice ale parametrului analizat
în cele două eşantioane sunt egale, adică x1 = x2 (IPOTEZA NULĂ) şi se
determină valoarea de adevăr a acestei ipoteze calculând valoarea unui
parametru statistic, notat cu t, care la rândul său se determină în două moduri
[14]:
 Pe baza formulei următoare, denumită şi „formulă de bază”, şi folosită în
cazul în care pentru cele 2 eşantioane varianţele 1 şi 2 sunt egale:
x1  x 2
t
x  x
2
1
2
2  1
  
1 

n1  n 2  2 
 n1 n 2 
 Pe baza formulei următoare, denumită şi “formulă separate”, şi folosită
în cazul în care pentru cele 2 eşantioane varianţele 1 şi 2 sunt diferite:
x1  x 2
t
 12  22

n1 n2
Această valoare calculată, tcalculat , se compară apoi cu valori teoretice
ale parametrului t, determinate anterior de către statisticieni pentru
eşantioane de diferite dimensiuni şi anumite intervale de încredere
prestabilite P (de obicei 0.95 sau 0.99) – alegându-se dintre acestea valoarea
teoretică corespunzătoare intervalului de încredere dorit şi dimensiunii
corespunzătoare a celor două eşantioane cu care se lucrează.

Bibliografie | 3
Dacă valoarea absolută a lui t calculat, tcalculat > t(P)tabel, urmează că
ipoteza nulă este INFIRMATĂ, iar diferenţa mediilor aritmetice nu este
întâmplătoare, fiind semnificativă statistic (se datorează unor factori externi
care acţionează sistematic). În caz contrar, adică atunci când tcalculat<t(P)tabel,
urmează că ipoteza nulă este CONFIRMATĂ şi nu avem motive să
considerăm că diferenţa între medii este semnificativă (adică ea poate fi
considerată ca o abatere întâmplătoare).
În practică, soft-urile de analiză statistică, deşi calculează şi valoarea
parametrului t şi o compară cu valorile teoretice cunoscute, returnează,
pentru această valoare, un coeficient de încredere, notat cu p, referitor la
confirmarea ipotezei nule cu o probabilitate de 95% sau de 99%. Acest fapt
este valabil nu numai pentru testul t, ci pentru orice test de semnificaţie
statistică (parametric sau neparametric), valoarea lui p fiind cea mai facilă de
utilizat pentru interpretarea testului [iii]. Astfel:
- Dacă p≤0.05, urmează că diferenţa între medii nu este
întâmplătoare, fiind semnificativă statistic, iar ipoteza nulă este
infirmată;
- Dacă p>0.05, urmează că diferenţa între medii este
întâmplătoare, fiind nesemnificativă statistic, iar ipoteza nulă
este confirmată.

Exemplu:
Se foloseşte fişierul LP15.xlsx. Dorim să stabilim dacă există
diferenţe semnificative între valorile Glicemiei la momentul 0 între femei şi
bărbaţi. Analog, pentru valorile glicemiei la 3 luni şi la 6 luni, pentru a
determina dacă evoluţia pacienţilor este diferenţiată între femei şi bărbaţi.

Având în vedere că se lucrează cu variabile cantitative şi cu două


eşantioane, pentru a testa dacă există sau nu diferenţe semnificative statistic
între valorile lor se va folosi Testul t.
Se lucrează evident cu eşantioane diferite pentru care se
înregistrează valorile Glicemiei (bărbaţii şi femeile din tabel), deci se va folosi
testul t: Two-Sample; trebuie însă determinat care dintre cele 2 variante ale
acestuia se va folosi: varianta „t-Test: Two-Sample Assuming Equal
Variances” sau varianta „t-Test: Two-Sample Assuming Unequal
Variances”. Prima variantă se foloseşte în cazul în care ştim că cele două
eşantioane provin din populaţii cu varianţe egale (testul t homoscedastic), în
timp ce a doua se foloseşte în cazul în care cele două eşantioane provin din
populaţii de origine cu varianţe inegale (testul t heteroscedastic).
Având în vedere că valorile Glicemiei sunt în aceeaşi coloană, şi sunt
amestecate între ele, mai întâi va trebui să sortăm tabelul după variabila Sex,
după care putem aplica testele statistice.

4 | Bibliografie
Pentru a putea decide ce variantă de test t se foloseşte în situaţia
noastră, vom verifica mai întâi dacă cele două eşantioane au varianţele egale
sau nu. Pentru aceasta, se va folosi un alt test statistic, şi anume testul F de
egalitate a varianţelor.
Acest test este relativ simplu ca structură; el calculează valorile
medii şi varianţele pentru cele două eşantioane luate în discuţie şi apoi
determină raportul celor două varianţe calculate, notat cu F; dacă F este foarte
apropiat sau chiar egal cu 1, înseamnă că varianţele în cele două eşantioane
sunt egale, şi cu cât F este mai mare cu atât eşantioanele sunt mai diferite între
ele în ceea ce priveşte acest parametru [15].

Se selectează comanda Data / Data Analysis / F-Test Two Sample for


Variances:

Se specifică şirul de celule în


care se află valorile primei
variabile – Glicemia la femei.

Se specifică şirul de celule în


care se află valorile primei
femei.
variabile – Glicemia la bărbaţi.

Nu se
Se specifică
bifează,şirul
deoarece
de celule
şirurile
în
carevalori
de se au
află
acelaşi
valorile
nume.primei
variabile – Glicemia la bărbaţi.
Se precizează
Nu se locul
bifează,dedeoarece
afişare şirurile
a
rezultatelorde –valori
pe aufoaia
acelaşidenume.
calcul
curentă, pe o nouă foaie de calcul sau
chiar într-un registru de calcul nou.

Figura 17-1. Fereastra corespunzătoare testuluiSe


F deprecizează
egalitate alocul
varianţelor
de afişare a
rezultatelor – pe foaia de calcul
Rezultatele sunt afişate după cum urmează:
curentă, pe o nouă foaie de calcul sau
chiar într-un registru de calcul nou.

Figura 17-2. Modul de afişare a rezultatelor testului F de egalitate a varianţelor

Bibliografie | 5
Sunt calculaţi următorii indicatori:
- Media, varianţa şi numărul de observaţii pentru cele două şiruri de
valori;
- Valoarea statisticii calculate F = 1.0204;
- P(F<=f) one-tail: probabilitatea de a se observa o valoare F = Fcalculat
mai mică decât F = Ftabel (atunci când Ftabel este un număr pozitiv) sau
mai mare decât Ftabel (atunci când Ftabel este un număr negativ), în
ipoteza în care varianţele variabilei Glicemie la femei şi bărbaţi sunt
egale. Dacă această probabilitate este mai mică de 0.05 (5%), se poate
considera că ipoteza de la care s-a pornit, că varianţele variabilei
Glicemie la femei şi bărbaţi, sunt egale, este INFIRMATĂ, diferenţele
între ele fiind semnificative statistic.
În cazul nostru P(F<=f) one-tail = 0.4669 > 0.05, deci ipoteza nulă este
CONFIRMATĂ, VARIANŢELE SUNT EGALE.

În continuare este clar că vom folosi testul t pentru varianţe egale,


adică:
Se selectează comanda Data / Data Analysis / t-Test Two-Sample
Assuming Equal Variances:

Se specifică şirul de celule în


care se află valorile primei
variabile – Glicemia la femei.

Se specifică şirul de celule în


care se aflăşirul
Se specifică valorile primei
de celule în
variabile – Glicemia la femei.
care se află valorile primei
variabile – Glicemia la
bărbaţi.

Se
Nuspecifică şirul dedeoarece
se bifează, celule în
care se află valorile
şirurile de valori nu primei
au
variabile –
nume diferite. Glicemia la
bărbaţi.
Nu se bifează, deoarece
şirurile de valori nu au
Se precizează locul de afişare
numeadiferite.
rezultatelor – pe
foaia de calcul curentă, pe o nouă foaie de calcul
sau chiar într-un registru de calcul nou.

Se precizează locul de afişare a rezultatelor – pe


Figura 17-3. Fereastra corespunzătoare testului
foaia de calcul t pentru
curentă, varianţe
pe o nouă foaie egale
de calcul
sau chiar într-un registru de calcul nou.

6 | Bibliografie
Rezultatele sunt afişate după cum urmează:

Figura 17-4. Modul de afişare a rezultatelor testului t pentru varianţe egale

Pentru valorile Glicemiei la femei, respectiv bărbaţi sunt calculaţi


următorii indicatori:
- Media aritmetică, varianţa şi numărul de cazuri;
- Hypothesized Mean Difference = 0: formularea ipotezei nule – se
presupune că mediile pentru cele 2 variabile sunt egale, diferenţa
între ele fiind 0;
- Valoarea statisticii t calculate, tcalculat = -1.2089;
- P(T<=t) one-tail: probabilitatea de a se observa o valoare T = tcalculat
mai mică decât t = ttabel (atunci când ttabel este un număr pozitiv) sau
mai mare decât ttabel (atunci când ttabel este un număr negativ) în
ipoteza în care mediile variabilei Glicemie la femei şi bărbaţi sunt
egale. Dacă această probabilitate este mai mică de 0.05 (5%), se poate
considera că ipoteza de la care s-a pornit, că mediile variabilei
Glicemie la femei şi bărbaţi sunt egale, este INFIRMATĂ, deci
EXISTĂ DIFERENŢE SEMNIFICATIVE STATISTIC ÎNTRE
VALORILE MEDIEI LA FEMEI ŞI BĂRBAŢI.
- t Critical one-tail: valoarea limită a statisticii t, pentru care P(tcalculat >
= tcritic) = 0.05.
- P(T<=t) two-tail: probabilitatea de a se observa o valoare mai mică în
valoare absolută decât ttabel în ipoteza în care mediile variabilei
Glicemie la femei şi bărbaţi sunt egale – este dublul valorii P(T<=t)
one-tail.
- t Critical two-tail: valoarea limită a statisticii t, pentru care P(tcalculat >
= tcritic) = 0.05.

Bibliografie | 7
În cazul nostru, P(T<=t) one-tail = 0.1162, deci este >0.05, deci ipoteza
nulă este CONFIRMATĂ, diferenţele între valorile medii ale glicemiei la
femei şi bărbaţi sunt NESEMNIFICATIVE STATISTIC.

LA MOMENTUL 3 LUNI:
Se procedează similar. Testul F de egalitate a varianţelor indică
F=0.8820, P(F<=f) one-tail=0.3983>0.05, deci ipoteza nulă este
CONFIRMATĂ, VARIANŢELE SUNT EGALE.

Figura 17-5. Modul de afişare a rezultatelor testului F (la 3 luni)

Prin urmare, se va folosi tot testul t pentru varianţe egale, care furnizează
următoarele rezultate:

Figura 17-6. Modul de afişare a rezultatelor testului t de egalitate a varianţelor (la


3 luni)

Valoarea statisticii t calculate, tcalculat = -0.6770, iar P(T<=t) one-tail =


0.2507, deci este mai mare decât 0.05. Așadar, ipoteza nulă este
CONFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi
bărbaţi sunt NESEMNIFICATIVE STATISTIC şi la momentul 3 luni.

8 | Bibliografie
LA MOMENTUL 6 LUNI:
Testul F de egalitate a varianţelor indică F = 0.5335, P(F<=f) one-tail
= 0.0820 < 0.05, deci ipoteza nulă este infirmată, varianţele sunt inegale şi se
va folosi cealaltă variantă a testului t, respectiv testul t pentru varianţe
inegale, „t-Test: Two-Sample Assuming Unequal Variances”.

Figura 17-7. Modul de afişare a rezultatelor testului F de egalitate a varianţelor


(la 6 luni)

Fereastra de introducere a parametrilor testului este absolut identică


cu cea din cazul testului t pentru varianţe egale:

Figura 17-8. Fereastra corespunzătoare testului t pentru varianţe inegale


(la 3 luni)

iar rezultatele urmează şi ele aceeaşi schemă. Prin urmare, şi interpretarea lor
va fi similară.

Bibliografie | 9
Figura 17-9. Modul de afişare a rezultatelor testului t de inegalitate a varianţelor
(la 6 luni)

Valoarea statisticii t calculate, tcalculat = 8.8039, iar P(T<=t) one-tail =


9.9423 E-12, deci este mult mai mică decât 0.05. Așadar, ipoteza nulă este
INFIRMATĂ, diferenţele între valorile medii ale glicemiei la femei şi
bărbaţi sunt SEMNIFICATIVE STATISTIC la momentul 6 luni.
Prin urmare, s-ar putea astfel concluziona că bărbaţii au reacţionat
mult mai bine la tratament decât femeile după 6 luni (valoarea medie a
glicemiei la bărbaţi a ajuns la 81.3225, în timp ce cea a femeilor a fost de
110.0526), urmând ca medicul să deceleze şi să explice ulterior elementele
practice care au condus la acest fenomen.

i Everitt B.S. Modern Medical Statistics – A practical guide. Oxford University


Press, New York, 2003.
ii Anthony D. Statistics for Health, Life and Social Sciences. Ventus Publishing
ApS, Frederiksberg, Danemarca, 2010.
iii Brink D. Essentials of Statistics. Ventus Publishing ApS, Frederiksberg,
Danemarca, 2010.

10 | Bibliografie

S-ar putea să vă placă și