Sunteți pe pagina 1din 6

18 COMPARAREA SETURILOR DE DATE (II)

Noţiuni prezentate:
 Compararea seturilor de date prin testul t corelat şi metoda
ANOVA
CAZUL II. Se doreşte compararea valorilor unui parametru între două
eşantioane diferite, dar dependente – caracterizate prin aceea că valorile
parametrului cantitativ care se analizează provin de la aceiaşi subiecţi (de
exemplu, într-un lot de pacienţi se doreşte compararea valorilor glicemiei la
momentul 0 şi la momentul 3 luni, cele 2 determinări fiind realizate la aceleaşi
persoane):
În această situaţie se foloseşte tot testul t; în notaţiile anterioare,
diferă numai formula de calcul a lui t, folosindu-se ceea ce se numeşte testul
t corelat (t-pairs, sau t-Test: Paired Two Sample For Means):
x1  x 2
t
 12  22 1 2
  2r  
n1 n2 n1 n2
Testul t în această formă determină dacă valorile variabilei urmărite
la cele două momente în timp provin din populaţii cu media aritmetică a
variabilei egală [14]. Nu este necesară verificarea unor condiţii privind
varianţa parametrului în cele două populaţii.
Se selectează comanda Data / Data Analysis / t-Test: Paired Two
Sample For Means:
Se specifică şirul de celule în
care se află valorile primei
variabile (mom. 0).

Se specifică
specificăşirul
şiruldedecelule în
celule
care
în carese se
află
aflăvalorile
valorileprimei
celei
variabile
de a doua (mom. 0).
variabile (la 3
luni).

Se specifică
bifează când în celule
şirul de prima
celulă din şir se află numele
în care se află valorile celei
variabilei.
de a doua variabile (la 3
luni).
Se precizează locul de afişareSe
a rezultatelor
bifează când – peîn prima
foaia de calcul curentă, pe o nouă foaie de calcul
celulă din şir se află numele
sau chiar într-un registru de calcul nou.
variabilei.

Figura 18-1. Fereastra corespunzătoare testului


Se precizează locul t pentru
de afişare varianţe egale
a rezultatelor – pe
Rezultatele sunt afişate după
foaia cumcurentă,
de calcul urmează:pe o nouă foaie de calcul
sau chiar într-un registru de calcul nou.
Bibliografie | 1
Figura 18-2. Modul de afişare a rezultatelor testului t de egalitate a varianţelor

În plus faţă de cazul anterior este calculat şi un coeficient de


corelaţie între cele 2 variabile, Glicemia la momentul 0 şi Glicemia la
momentul 3 luni, Pearson Correlation, a cărui semnificaţie va fi discutată
ulterior şi care are rolul de a măsura intensitatea legăturii între ele – legătura
între două variabile fiind cu atât mai puternică cu cât acest coeficient este mai
apropiat de 1 (vezi capitolul 19).
Valoarea statisticii t calculate, tcalculat = 10.4554, iar P(T<=t) one-tail
= 2.2471 E-14, deci este mai mică decât 0.05. Așadar, ipoteza nulă este
INFIRMATĂ, diferenţele între valorile medii ale glicemiei la momentul 0
şi la momentul 3 luni sunt SEMNIFICATIVE STATISTIC, deci tratamentul
prescris de medic pentru micşorarea acestui indicator este eficient – glicemia
micşorându-se de la o valoare medie iniţială de 127.18 la o valoare medie
după 3 luni de 119.86.
Pentru a vedea dacă trend-ul favorabil se menţine, putem compara
şi valorile glicemiei la
3 luni cu cele la 6 luni,
folosind exact aceeaşi
manieră de lucru –
respectiv testul t
pentru perechi, t-Test:
Paired Two Sample
For Means. Se
procedează similar,
rezultatele obţinute
fiind cele alăturate:

Figura 18-3. Modul de afişare a rezultatelor testului t de egalitate a varianţelor

2 | Bibliografie
Aşadar, valoarea statisticii t calculate, tcalculat = 9.7781, iar P(T<=t)
one-tail = 2.1082 E-13, deci este o valoare mult mai mică decât 0.05. Așadar,
ipoteza nulă este INFIRMATĂ, diferenţele între valorile medii ale
glicemiei la momentul 3 luni şi la momentul 6 luni sunt SEMNIFICATIVE
STATISTIC, iar tratamentul prescris de medic pentru micşorarea glicemiei
este în continuare eficient, aducând acest parametru aproape în limite
normale după 6 luni de tratament – glicemia se micşorează în continuare, de
la valoarea medie de 119.86 după 3 luni de tratament la o valoare medie după
6 luni de 92.24.
CAZUL III. Se doreşte compararea valorilor unui parametru între mai mult
de 2 eşantioane. În acest caz avem următoarele soluţii: să luăm eşantioanele
două câte două, şi să comparăm valorile parametrului analizat între acestea
folosind testul t (ceea ce ar putea conduce la un număr însemnat de
comparaţii atunci când se lucrează cu relativ multe eşantioane – de exemplu,
la 5 eşantioane ar însemna 10 combinaţii posibile şi în general la 𝑛 eşantioane
ar însemna 𝐶𝑛2 combinaţii posibile), sau să realizăm o comparare globală între
cele 𝑛 eşantioane folosind un test de semnificaţie adecvat, respectiv testul
ANOVA.
Testul ANOVA (Analysis of Variance) a fost proiectat pentru a studia
diferenţa globală între toate loturile incluse în studiu, determinată prin
intermediul analizei varianţei în două moduri: între loturi şi în interiorul
fiecărui lot [15].
Ipoteza nulă de la care se porneşte este aceea că mediile pentru
fiecare lot în parte sunt egale, iar loturile provin din aceeaşi populaţie de
origine. Eventualele diferenţe sunt determinate de fluctuaţiile de eşantionaj.
Conform acestei ipoteze, toate loturile provin din aceeaşi populaţie de bază –
origine, iar varianţa, la rândul ei, provine din 2 surse:
- varianţa între loturi, V(BL);
- varianţa în interiorul fiecărui lot, V(WL).
Varianţele specificate se calculează în modul următor:
A) Varianţa între loturi V(BL):
1
Se calculează cu formula [16]: 𝑉(𝐵𝐿) = ∑𝑘𝑖=1 𝑛𝑖 ∙ (𝑚𝑖 − 𝑀)2
𝑘−1
unde: - k este numărul de loturi luate în consideraţie, pentru care se
calculează valorile medii;
- ni este dimensiunea fiecăruia dintre cele k loturi;
- mi este valoarea medie a parametrului urmărit, calculată la nivelul
fiecărui lot;
- M este media globală a parametrului.
În fapt, această varianţă este de fapt suma abaterilor pătrate ale
mediilor la nivelul fiecărui lot faţă de media generală a parametrului,
raportată la numărul de grade de libertate k – 1.

Bibliografie | 3
B) Varianţa în interiorul fiecărui lot V(WL):
Se calculează cu formula [16]:
𝑘
1
𝑉(𝑊𝐿) = ∑(𝑛𝑗 − 1) ∙ 𝑆𝑗2
𝑁−𝑘
𝑗=1
unde: - N este suma dimensiunilor celor k loturi comparate;
- k este numărul de loturi luate în consideraţie;
- (nj – 1) este numărul de grade de libertate la nivelul fiecărui lor, astfel
încât numărul total de grade de libertate cu care se lucrează va fi
calculat cu formula:
 = (n1 – 1) + (n2 – 1) + … + (nk – 1)
= n1 + n2 + …+nk – k
=N–k
- 𝑆𝑗2 este deviaţia standard calculată la nivelul fiecărui lot, cu formula:
𝑛
∑𝑖 𝑗=1(𝑥𝑖 −𝑚𝑗 )2
𝑗 𝑗
𝑆𝑗2 = 𝑛𝑗 −1
După ce au fost calculate aceste varianţe, se defineşte raportul:
𝑉(𝐵𝐿)
𝐹=
𝑉(𝑊𝐿)
şi se compară acest raport cu valorile teoretice obţinute din tabele, pentru care
ipoteza nulă este adevărată, pentru un interval de încredere stabilit P = 0.95
sau P = 0.99 – corespunzător pragului de semnificaţie cu un coeficient de
securitate de 95% (sau 99%). Apar aşadar două situaţii posibile:
- Fcalculat > F(P)tabel  Ipoteza nulă este respinsă: diferenţa între medii este
semnificativă statistic;
- Fcalculat < F(P)tabel  Ipoteza nulă este acceptată: diferenţa între medii este
aleatoare, şi nu are o semnificaţie specială.
Testul ANOVA, la rândul său, se poate folosi în mai multe variante:
- Varianta clasică (cea prezentată anterior);
- Varianta multivariată (MANOVA) – în cazul în care există mai
mulţi factori de grupare a variabilelor;
- Varianta pentru perechi – atunci când se lucrează cu eşantioane
dependente.
Testul ANOVA, însă, se foloseşte numai dacă este verificată
condiţia de egalitate a varianţelor între grupuri – care se verifică prin testul F
de omogenitate a varianţelor [15]. ANOVA nu determină însă decât dacă
există sau nu diferenţe semnificative statistic între toate mediile valorilor
parametrului numeric analizat corespunzătoare grupurilor generate de
parametrul calitativ, dar nu indică exact între ce grupuri apar diferenţele
semnificative statistic între medii. Pentru a se stabili acest lucru, se poate
apela la aşa-numitele „teste post-hoc”, iar în particular la următoarele teste:
- Testele de comparaţie multiplă pairwise LSD şi Bonferroni, care
verifică diferenţele între fiecare pereche de medii şi generează o

4 | Bibliografie
matrice în care sunt marcate cu  mediile semnificativ diferite cu un
prag de semnificaţie de 0.05:
 Testul LSD realizează comparaţii perechi între mediile
grupurilor, fără a ajusta rata de eroare în cazul comparaţiilor
multiple.
 Testul Bonferroni funcţionează analog, dar controlează rata
globală de eroare prin limitarea ratei de eroare a fiecărui test
sub o anumită valoare de prag, determinată experimental.
- Testele de rang multiplu – SNK (Student – Newman-Keuls), care
identifică grupurile de medii omogene. Testul SNK realizează toate
comparaţiile perechi între medii, identifică subgrupurile de medii
omogene şi ordonează crescător mediile în cadrul acestora. În cazul
în care eşantioanele au dimensiuni egale, compară de asemenea şi
perechile de medii din interiorul subgrupurilor omogene.

Exemplu:
Pe acelaşi tabel de date ca în cazul anterior (LP15.xlsx) dorim să
stabilim dacă există diferenţe semnificative statistic între valorile glicemiei la
momentul 0, la momentul 3 luni şi la momentul 6 luni.
Se selectează comanda Data / Data Analysis / ANOVA: Single
Factor, care este cea mai simplă dintre metodele de analiză a varianţei puse
la dispoziţie de Excel:
Se specifică şirul de celule în care
se află valorile parametrului
analizat (glicemia) care, în
această situaţie, trebuie să
acopere toate cele 3 coloane cu
determinările succesive ale
parametrului (la momentul 0, la
3 luni şi la 6 luni) .
Se indică modul de grupare a
datelor
Se specifică– înşirulcazul nostru
de celule pe
în care
coloane, deoareceparametrului
se află valorile lucrăm cu
eşantioane perechi. care, în
analizat (glicemia)
această situaţie, trebuie să
Se indicătoate
bifează
acopere modul
când înde
cele grupare
3prima cua
celulă
coloane
datelor
din şir se–află
determinările înnumele
cazul nostru ale
pe
variabilei.
succesive
coloane,
parametrului deoarece lucrăm0, cu
(la momentul la
Se precizează locul deeşantioane
afişare
3 luni
Se a perechi.
rezultatelor
şi la 6când
bifează – pe foaia
luni) .în prima celulă
de calcul curentă, pe din
o nouă
şir sefoaie de calcul
află numele sau chiar
variabilei.
într-un registru de calcul nou.

Figura 18-4. FereastraSe


corespunzătoare testului
precizează locul de afişareANOVA
a rezultatelor – pe foaia
Testul ANOVA furnizează următoarele
de calcul rezultate:
curentă, pe o nouă foaie de calcul sau chiar
într-un registru de calcul nou.

Bibliografie | 5
Figura 18-5. Modul de prezentare a rezultatelor testului ANOVA

- Suma valorilor, valoarea medie şi varianţa pentru parametrul


analizat în fiecare dintre cele 3 eşantioane;
- Valoarea varianţei inter-grup şi a varianţei intra-grup, precum şi a
varianţei globale, care este suma acestora;
- Valoarea raportului celor două varianţe F, F = 109.6955;
- Valoarea critică a raportului celor două varianţe, Fcrit, pentru care
coeficientul de încredere p = 0.05; pentru valori ale statisticii F mai
mari decât valoarea critică, coeficientul de încredere p va fi mai mic
sau egal decât 0.05, iar când F scade sub această valoare critică
coeficientul de încredere p devine mai mare decât 0.05, diferenţele
între medii fiind nesemnificative statistic;
- Valoarea coeficientului de încredere p, p = 7.04 E-30 < 0.05, care
indică probabilitatea de confirmare a ipotezei nule.

În cazul nostru, deoarece p este mai mic decât 0.05, urmează că


ipoteza nulă este infirmată, deci diferenţele între valorile medii ale glicemiei
în cele 3 eşantioane sunt semnificative statistic – fapt verificat de altfel şi prin
exemplele anterioare, în care am folosit testul t pentru perechi pentru a
compara valorile glicemiei la momentul 0 şi după 3 luni, şi apoi între 3 şi 6
luni.

6 | Bibliografie

S-ar putea să vă placă și