Documente Academic
Documente Profesional
Documente Cultură
Curs 8 - Testul T PT 2 Eșantioane Independente
Curs 8 - Testul T PT 2 Eșantioane Independente
Când eram copil, imediat după Revoluția din 1989, au apărut gumele de mestecat Turbo.
Acestea erau marea bucurie a copiilor, deoarece aveau o surpriză ce consta într-o poză cu o
mașină. La acea vreme, nu exista copil, mai ales băiat, care să nu colecționeze „mașini Turbo”.
Ieșeam afară la joacă având în buzunar surprizele pe care le aveam de mai multe ori și făceam
schimb cu ceilalți copii. Printre primele lucruri la care ne uitam la surpriză era viteza mașinii.
Eu și fratele meu aveam colecții separate și ne „întreceam” în cine are colecția cu mașinile
cele mai rapide. Fiecare dintre noi avea câte o mașină care avea afișată o viteză mai mare și
niciodată nu puteam stabili un câștigător. Pe vremea aceea nici unul dintre noi nu cunoștea
statistică pentru a putea aplica testul t pentru eșantioane independente și să stabilim cine este
câștigătorul „competiției”. Acest test statistic ar fi putut compara media mașinilor din colecția
mea cu media mașinilor din colecția fratelui meu și astfel am fi elucidat misterul.
8.1 Introducere
Acest test este utilizat pentru a compara scorurile unei variabile cantitative (anxietate,
stres, stare de bine) provenite de la două eșantioane extrase din populații diferite (femei versus
bărbați, șomeri versus angajați). Designul de cercetare pe care îl implică testul t pentru
eșantioane independente este de tip between-subjects. Testul t pentru eșantioane independente
are o aplicabilitate superioară testului z(t) pentru un singur eșantion. Cercetările care își propun
să studieze semnificația statistică a diferenței dintre mediile provenite de la două grupuri
independente sunt extrem de numeroase. În plus, majoritatea cercetărilor realizate de studenți
implică un design care solicită utilizarea acestui test statistic. Asumpția ipotezei de nul este
aceea că mediile celor două populații investigate sunt egale. Cu alte cuvinte, diferența dintre
medii este egală cu 0. Ipoteza de nul se notează astfel:
𝐻0 = µ𝑥 − µ𝑦 , unde:
• µx este media primei populații.
• µy este media celei de-a doua populații.
Atunci când formulăm ipoteza cercetării bilateral, în esență, afirmăm că există diferențe
semnificative între mediile celor două populații (µx ≠ µy). Când ipoteza cercetării este formulată
unilateral susținem că media unui eșantion este semnificativ statistic mai mare comparativ cu a
celuilalt (µx > µy sau µx < µy).
În cadrul testului t pentru eșantioane independente variabila independentă se măsoară pe
scală nominal dihotomică, iar variabila dependentă este măsurată pe scală de interval/raport. În
general, variabila independentă este reprezentată de grupul, eșantionul din care fac parte
participanții (femei versus bărbați, maturi versus bătrâni). Variabila dependentă este constructul
măsurat (anxietate, asumarea riscului, stabilitate emoțională etc.).
Este recomandat ca atunci când aplicăm testul t pentru eșantioane independente să avem
minim 30 de participanți în fiecare grup (Pagano, 2004). Se poate considera că volumele celor
două eșantioane sunt „egale” dacă eșantionul cel mai mare nu are un volum care să depășească
de 1,5 ori volumul celui de-al doilea grup (Morgan, Leech, Gloeckner, & Barrett, 2004).
Utilizarea testului t pentru eșantioane independente solicită îndeplinirea a trei condiții:
1. scorurile măsurate trebuie să fie independente (scorul unui participant nu trebuie să fie în
legătură cu scorul altui respondent).
2. Variabila dependentă trebuie să se distribuie normal în fiecare dintre cele două populații.
3. Dispersiile variabilei dependente măsurate la nivelul celor două populații sunt egale
(omogene). Cu alte cuvinte, nu trebuie să existe diferențe semnificative între dispersiile
celor două populații. Testul Levene pentru egalitatea varianțelor este cea mai
cunoscută metodă în a testa dacă dispersiile sunt omogene. Dacă testul Levene respinge
omogenitatea varianțelor nu vom renunța cu ușurință la utilizarea testului t pentru
eșantioane independente, deoarece se poate utiliza ajustarea erorii standard a estimării
(Cochran & Cox, 1957) și ajustarea gradelor de libertate (Satterthwaite, 1946). Se
consideră că este încălcată condiția de omogenitate a varianțelor atunci când dispersia
unui eșantion este de 4-5 ori mai mare decât dispersia celuilalt eșantion (Tabachnick &
Fidell, 2013).
Atunci când una din cele trei condiții nu este îndeplinită vom aplica testul Mann-
Whitney, corespondentul neparametric al testului t pentru eșantioane independente (capitolul
12). Formula de calcul a testului t pentru eșantioane independente în situația în care cele două
eșantioane au același volum (N1 = N2) este:
𝑚𝑥 − 𝑚𝑦
𝑡= , unde:
(𝑁 − 1) ∗ 𝑠𝑥2 + (𝑁𝑦 − 1) ∗ 𝑠𝑦2 1 1
√ 𝑥 ∗ (𝑁 + 𝑁 )
𝑁𝑥 + 𝑁𝑦 − 2 𝑥 𝑦
(formula 7.1)
Atunci când cele două eșantioane au volume inegale, formula de calcul a testului t pentru
eșantioane independente devine:
𝑚𝑥 − 𝑚𝑦
𝑡=
𝑠2 𝑠2
√ 𝑥 + 𝑦
𝑁𝑥 𝑁𝑦
(formula 7.2)
8.2 Exemplu de calcul
Pentru a-l stabili pe tcritic avem nevoie de valoarea lui α (0,05 bilateral) și de gradele de
libertate (df).
df = Nx + Ny - 2 → df = 18.
Utilizând tabelul de la Anexa 3 îl vom citi pe tcritic la intersecția dintre coloana α = 0,025
(deoarece decizia statistică se ia bilateral, vom împărți valoarea lui α la doi) și linia pentru 18
grade de libertate. Astfel, valoarea critică rezultată este tcritic = ±2,10.
Tabelul 8.1 – Datele cercetării și calculele necesare testului t pentru două eșantioane
independente
X Y
Xi -mx (Xi - mx)2 Yi – my (Yi – my)2
(0m) (3000m)
9 0,3 0,09 8 1,9 3,61
7 -1,7 2,89 4 -2,1 4,41
8 -0,7 0,49 4 -2,1 4,41
8 -0,7 0,49 7 0,9 0,81
9 0,3 0,09 6 -0,1 0,01
8 -0,7 0,49 8 1,9 3,61
10 1,3 1,69 4 -2,1 4,41
10 1,3 1,69 5 -1,1 1,21
8 -0,7 0,49 7 0,9 0,81
10 1,3 1,69 8 1,9 3,61
∑ 87 10,1 61 26,9
∑X = 87 → mx = 8,70
Σ (Xi – mx)2 = 10,10
2
∑(𝑋𝑖 − 𝑚𝑥 )2 10,1
𝑠𝑥 = → 𝑠𝑥2 = → 𝑠𝑥2 = 1,12
𝑁𝑥 − 1 9
∑Y = 61 → my = 6,10
Σ (Yi – my)2 = 26,90
∑(𝑌𝑖 − 𝑚𝑦 )2 26,9
𝑠𝑦2 = → 𝑠𝑦2 = → 𝑠𝑦2 = 2,98
𝑁𝑦 − 1 9
𝑚𝑥 − 𝑚𝑦
𝑡= → 𝑡
(𝑁𝑥 − 1) ∗ 𝑠𝑥2
+ (𝑁𝑦 − 1) ∗ 𝑠𝑦2 1 1
√ ∗ (𝑁 + 𝑁 )
𝑁𝑥 + 𝑁𝑦 − 2 𝑥 𝑦
8,7 − 6,1 2,6
= →𝑡= →𝑡
√(10 − 1) ∗ 1,12 + (10 − 1) ∗ 2,98 ∗ ( 1 + 1 ) √4,10
10 + 10 − 2 10 10 10
2,6
= → 𝑡 = 4,06
0,64
Pentru a lua decizia statistică trebuie să comparăm valoarea calculată a lui t cu valoarea
lui tcritic. Atunci când │tcalculat│≥ │tcritic│ luăm decizia de a respinge ipoteza de nul și de a
accepta faptul că există diferențe semnificative între mediile celor două eșantioane. Dacă
│tcalculat│< │tcritic│vom lua decizia de a accepta ipoteza de nul și de a afirma faptul că nu există
diferențe semnificative între mediile celor două eșantioane. În cazul nostru valoarea calculată a
lui t (4,06) este mai mare decât tcritic (2,10) și luăm decizia de a respinge H0 și de a spune că
performanța cognitivă la 0m altitudine diferă semnificativ de cea de la 3000m. Mai mult, putem
spune că performanța cognitivă la 0m este semnificativ mai mare. În imaginea de mai jos este
prezentată modalitatea grafică de luare a deciziei statistice. Suprafața de pe distribuția t aflată
între valorile critice reprezintă zona de acceptare a ipotezei de nul. Suprafața aflată în exteriorul
valorilor critice este zona de acceptare a lui H0.
Mediile celor două eșantioane pe care le-am supus analizei reprezintă o estimare a
mediilor populațiilor din care au fost extrase. Din acest motiv suntem interesați să aflăm cât de
multă încredere putem avea în diferența dintre cele două medii (2,6) pe care am obținut-o în
capitolul 7.2. Pentru a răspunde la această întrebare vom calcula limitele intervalului de
încredere pentru diferența dintre medii folosind următoarea formulă:
𝜇𝑑𝑖𝑓 = 𝑚𝑑𝑖𝑓 ± 𝑡𝑐𝑟𝑖𝑡𝑖𝑐 ∗ 𝑠𝑑𝑖𝑓 , unde:
(formula 7.3)
Introducând datele în formulă vom obține intervalul de încredere al diferenței dintre medii
(95%).
• lim inf 95% = 2,6 – 2,10*0,64 → lim inf 95% = 2,6 – 1,34 → lim inf 95% = 1,26.
• lim sup 95% = 2,6 + 2,10*0,64 → lim sup 95% = 2,6 + 1,34 → lim sup 95% = 3,94.
Acest rezultat se traduce prin faptul că dacă am extrage alte 100 de eșantioane pe care le
vom evalua la 0m, respectiv alte 100 de eșantioane cu participanți testați la 3000m, în cel puțin
95% din cazuri diferența dintre medii va fi cuprinsă între 1,26 și 3,94.
Atunci când valoarea 0 nu este cuprinsă în intervalul de încredere al diferenței dintre
medii avem un indicator suplimentar al faptului că diferența dintre medii este semnificativă
statistic și că trebuie să respingem ipoteza de nul. Pe măsură ce una din limitele intervalului de
încredere se apropie de 0, obținerea unui rezultat semnificativ este lipsit de relevanță.
Cu ajutorul săgeților sau prin tehnica „drag and drop” în zona Test Variable vom trece
variabila dependentă (performanță), iar în zona Grouping Variable vom insera variabila
independentă (altitudine). Apoi intrăm în caseta Define Groups.
În această casetă, la Group 1 și Group 2 vom trece etichetele cu care am codat cele două
categorii ale variabile independente – 1 pentru 0m altitudine, respectiv 2 pentru 3000m
altitudine. Apoi apăsăm butonul Continue, după care SPSS ne va întoarce la caseta anterioară
unde vom apăsa OK.
La fel ca la testul t pentru un singur eșantion în zona Output vom obține două tabele.
a) Group Statistics ne oferă statistica descriptivă (numărul de participanți, media,
abaterea standard și eroarea standard a mediei pentru fiecare eșantion). Putem observa
că SPSS va descrie cele două grupuri prin intermediul etichetelor (0m, respectiv
3000m).
• F – reprezintă valoarea testul Levene. Acesta este testul care testează omogenitatea
varianțelor.
• Sig – reprezintă probabilitatea asociată testului Levene. Dacă probabilitatea asociată
testului Levene este mai mare decât 0,05 atunci înseamnă că varianțele celor două
grupuri sunt egale, iar rezultatul testului t se citește de pe prima linie. Dacă
probabilitatea asociată testului Levene este ≤ 0,05 nu acceptăm omogenitatea
varianțelor, iar rezultatul testului t se va citi de pe linia a doua. În cazul nostru, p(sig) =
0,037 ceea ce presupune respingerea egalității varianțelor și citirea rezultatelor de pe
linia a doua. Totuși, în secțiunea 6.1.2 am precizat că testul Levene poate respinge
omogenitatea varianțelor, chiar dacă acestea sunt egale și vom folosi raportul varianțelor
(dispersiilor) pentru a fi siguri că am luat decizia corectă. Varianța este pătratul abaterii
standard. Prin urmare vom face raportul 1,7292/1,0592. Rezultatul acestui raport este
2,665 și este mai mic decât 5. Prin urmare, vom considera că varianțele sunt omogene
și vom citi rezultatele de pe prima linie.
• t – reprezintă valoarea calculată a testului t (4,055). Această valoare nu se poate
interpreta, iar raportarea ei se va face cu două zecimale.
• df – numărul de grade de libertate. Când varianțele sunt egale gradele de libertate se
calculează cu formula: N1 + N2 – 2. Atunci când varianțele nu sunt omogene se aplică o
formulă mai complexă pentru a calcula gradele de libertate.
• Sig (2 tailed) - reprezintă probabilitatea asociată valorii calculate a testului t (este
simbolizată cu p). Atunci când valoarea lui p este ≤ 0,05 respingem ipoteza de nul și
afirmăm că există o diferență semnificativă între cele două medii (acceptăm ipoteza
cercetării). Atunci când p > 0,05 acceptăm ipoteza de nul și afirmăm că nu există o
diferență semnificativă între cele două medii (respingem ipoteza cercetării). În cazul
nostru, p (0,001) ≤ 0,05 și suntem în situația în care respingem ipoteza de nul (există o
diferență la nivelul abilităților cognitive între media participanților evaluați la 0m și
media participanților evaluați la 3000m altitudine).
• Mean Difference – reprezintă diferența dintre mediile celor două eșantioane. Este o
estimare a diferenței dintre mediile populațiilor. În cazul nostru, valoarea pentru
diferența dintre medii este 2,600.
• Std Error Difference – reprezintă eroarea standard a diferenței dintre medii. Va fi
înțeleasă ca nivel de precizie cu care Mean Difference estimează diferența reală dintre
mediile celor două populații.
• 95% CI Confidence Interval of Difference – reprezintă limitele intervalului în care se
află media reală a diferenței dintre medii cu o încredere de 95% (vezi capitolul 7.3).
După cum se poate observa, rezultatele obținute în secțiunea 7.2 sunt similare cu cele
obținute în SPSS, diferența fiind făcută la ultima zecimală ca urmare a aproximărilor pe care
le-am utilizat atunci când am prezentat exemplul de calcul.
Ori de câte ori aplicăm un test statistic suntem nevoiți să prezentăm rezultatele în formă
narativă. Raportul de cercetare se va scrie respectând standardele APA (American
Psychological Association, 2010). Pentru exemplul prezentat și analizat în acest capitol
prezentarea rezultatelor se va face astfel: Utilizând un prag de semnificație α = .05, a fost
aplicat testul t pentru eșantioane independente pentru a evalua dacă performanța cognitivă
diferă semnificativ statistic în funcție de altitudine. Testul t a fost semnificativ statistic, t(18) =
4.05, p < .05, d = 1.82. Intervalul de încredere (95%) pentru diferența dintre medii este cuprins
între 1.23 și 3.96. Eșantionul evaluat la 0m altitudine (M = 8.70, SD = 1.05) are o performanță
cognitivă semnificativ mai bună comparativ cu cel evaluat la 3000m (M = 6.01, SD = 1.72).
După cum se poate observa, atunci când scriem raportul de cercetare conform
standardelor APA, valorile numerice se scriu doar cu două zecimale și folosind punctul „.”
pentru a delimita cifra unităților de cifra zeilor. De asemenea, atunci când avem valori
subunitare (cuprinse între 0 și 1) cifra 0 dinainte de „.” nu se mai scrie. Astfel, 0,87 devine, în
formatul APA .87.
Atunci când dorim să exportăm tabelele din Output în documentul în care facem
raportarea, nu este corect să copiem tabelele pe care SPSS le afișează. Tabelele prezentate în
output trebuie raportate conform standardelor APA (2010) astfel:
Tabel 8.2 – Rezultatele testului t pentru eșantioane independente performanță 0m versus performanță
3000m
Mean t df p Cohen’s d
-1.26 4.05 14.92 <.05 1.82
Anexa 3 – Valorile critice pentru distribuția t (unilateral)