x4 - Teste Statistice Parametrice

Testul z pentru un singur eantion
Situaia de care ne-am servit pentru exemplul de mai sus este plauzibil dar puin probabil pentru o
cercetare real. Procedura utilizat, ns, este una care definete unul dintre testele statistice de semnificaie,
numit testul z pentru un singur eantion. Avnd n vedere faptul c una din condiiile de aplicare ale
acestuia este utilizarea unui eantion de minim 30 de subieci (acceptat ca eantion mare, n conformitate
cu teorema limitei centrale), acest test este prezentat i ca testul z pentru eantioane mari.
Testul z se poate utiliza atunci cnd cunoatem media i abaterea standard a unei populaii 1[1] i dorim
s tim dac un eantion experimental face parte din aceast populaie sau nu. Dat fiind faptul c puine
variabile de interes pentru psihologie au medii i abateri standard calculate la nivelul populaiei, acest test
statistic nu este printre cele frecvent utilizate n cercetarea psihologic. Utilitatea lui este dat, mai ales, de
caracterul elementar, care permite introducerea unor noiuni fundamentale de teorie a ipotezelor statistice.
Cu toate acestea, testul z nu poate fi ignorat, existnd destule situaii n care i poate dovedi utilitatea,
chiar dac variabilele pentru care se cunosc parametrii populaiei nu sunt numeroase. De exemplu, un
psiholog clinician poate testa ipoteza conform creia femeile cu depresie cronic sunt mai scunde dect
media, comparnd media unui eantion de paciente cu media de nlime e femeilor, preluat din studii
antropometrice. De asemenea, sunt destule cazurile n care populaia cercetrii nu este att de extins nct s
nu i se poat afla parametrii. De exemplu, dup o evaluare la statistic se poate observa c una dintre grupele
unui an de studiu a obinut o medie mai redus dect celelalte. Pentru a testa ipoteza c aceast valoare este
semnificativ mai mic fa de rezultatul ntregului an de studiu, este suficient s efectum testul z n raport cu
media populaiei care, n acest caz, este dat de media studenilor participani la examen.
Decizii statistice unilaterale i bilaterale
S revenim, pentru moment, la exemplul nostru anterior. Ipoteza de la care am pornit a fost aceea c
cineva poate identifica subiecii cu inteligen peste medie. Ca urmare, ne-a interesat s vedem n ce msur
rezultatul nostru confirm ipoteza pe direcia valorilor din dreapta curbei normale (valori mari, cu z pozitiv).
Am efectuat ceea ce se numete un test unilateral (one-tailed). Dac mediumul ar fi pretins c poate
identifica subiecii cu inteligen sub medie am fi procedat tot la un test unilateral, dar n partea stng a
curbei (valori mici, cu z negativ). n aceste dou situaii am fi avut acelai z critic (1.65) cu semnul + sau
n funcie de zona scalei pentru care fceam testarea. Imaginea de mai jos ilustreaz grafic cele dou direcii
de testare a ipotezelor statistice unilaterale i ariile valorilor semnificative/nesemnificative, n funcie de
valoarea critic a lui z.
1[1]
S ne amintim c, atunci cnd nu cunoatem abaterea standard a populaiei, putem utiliza n formula erorii standard a mediei,
abaterea standard a eantionului (s)
Ce s-ar fi ntmplat, ns, dac eantionul extras de medium ar fi obinut un scor QI=96, ceea ce ar fi
corespuns unui scor z=-1.36? n acest caz, aplicnd un test unilateral, conform ipotezei, am fi verificat doar
msura n care ar putea fi depistai cei cu inteligen peste medie, ignornd posibilitatea ca rezultatul s cad
n zona extrem opus, a celor cu inteligen sub medie. Aceasta ar nsemna c mediumul, dei pretinde c
poate indica persoanele inteligente, este de fapt sensibil la cele neinteligente.
Pentru a verifica ipoteza pe ambele laturi ale distribuiei se aplic ceea ce se numete testul z bilateral
(two-tailed). n acest caz se pstreaz acelai nivel alfa (0.05), dar el se distribuie n mod egal pe ambele
extreme ale curbei, astfel nct pentru 2.5% de fiecare parte, avem un z critic de 1.96 (cu semnul - sau +).
Aceast valoare este luat din tabelul ariei de sub curb, n dreptul probabilitii 0.4750 care corespunde unei
probabiliti complementare de 0.025 (echivalent cu 2.5%).
Figura de mai sus indic scorurile critice pentru testul z bilateral. Se observ c, n cazul alegerii unui
test bilateral (z=1.96), nivelul de 5% se mparte n mod egal ntre cele dou laturi ale curbei. Este de la
sine neles faptul c semnificaia statistic este mai greu de atins n cazul unui test bilateral dect n cazul
unui test unilateral. Alegerea tipului de test, unilateral sau bilateral, este la latitudinea cercettorului. De
regul ns, se prefer testul bilateral. Motivul l constituie necesitatea de a introduce mai mult rigoare i de
a lsa mai puin loc hazardului. Se alege testul unilateral doar atunci cnd suntem interesai de evaluarea
semnificaiei strict ntr-o anumit direcie a curbei, sau atunci cnd miza rezultatului este prea mare nct s
fie justificat asumarea unui risc sporit de eroare. n mod uzual, ipotezele statistice sunt testate bilateral,
chiar dac ipoteza cercetrii este formulat n termeni unilaterali. Testarea unilateral este utilizat numai n
mod excepional, n cazuri bine justificate.
O scurt discuie pe tema nivelului alfa minim acceptabil (0.05) se impune, avnd n vedere faptul c
ntregul eafodaj al deciziei statistice se sprijin pe acest prag. Vom sublinia, din nou, c p=0.05 este un prag
de semnificaie convenional, impus prin consensul cercettorilor din toate domeniile, nu doar n psihologie.
Faptul c scorul critic pentru atingerea pragului de semnificaie este 1.96 a jucat, de asemenea, un rol n
impunerea acestei convenii. Practic, putem considera c orice ndeprtare mai mare de dou abateri standard
de la media populaiei de referin este semnificativ. Chiar dac persist posibiliti de a ne nela, ele sunt
suficient de mici pentru a le trece cu vederea.
Impunerea unui prag minim de semnificaie a testelor statistice are ns, mai ales, rolul de a garanta
faptul c orice concluzie bazat pe date statistice rspunde aceluiai criteriu de exigen, nefiind influenat
de subiectivitatea cercettorului. Nivelul alfa de 0.05 nu este dect pragul minim acceptat. Nimic nu
mpiedic un cercettor s i impun un nivel mai exigent pentru testarea ipotezei de nul. n practic mai
este utilizat pragul de 0.01 i, mai rar, cel de 0.001. Toate aceste praguri pot si exprimate i n procente, prin
opusul lor. Astfel, printr-o probabilitate de 0.05 se poate nelege i un nivel de ncredere de 95% n rezultatul
cercetrii (99%, pentru p=0.01 i, respectiv, 99.9% pentru p=0.001).
n fine, este bine s subliniem faptul c utilizarea acestor praguri vine din perioada n care nu
existau calculatoare i programe de prelucrare statistic. Din acest motiv, cercettorii calculau valoarea
testului statistic pe care apoi o comparau cu valori tabelare ale probabilitii de sub curba de referin. Pentru
a face mai practice aceste tabele, ele nu cuprindeau toate valorile de sub curba ci doar o parte dintre acestea,
printre ele, desigur, cele care marcau anumite praguri. Rezultatul cercetrii era raportat, de aceea, prin
invocarea faptului de a fi sub pragul de semnificaie sau deasupra sa. Odat cu diseminarea pe scar
larg a tehnicii de calcul i cu apariia programelor de prelucrri statistice, semnificaia valorilor testelor
statistice nu mai este cutat n tabele ci este calculat direct i exact de ctre program, putnd fi afiat ca
atare.
Testul t pentru un singur eantion

Aa cum am precizat mai sus, testul z poate fi utilizat doar atunci cnd cunoatem media populaiei
de referin i avem la dispoziie un eantion mare (adic de minim 30 de subieci, n cazul unei variabile
despre care avem motive s credem c se distribuie normal). Puine sunt variabilele utilizate n psihologie
pentru care s dispunem de msurtori la nivelul populaiei. n plus, nu ntotdeauna putem avea eantioane
mari (minim 30 de subieci). Pentru situaiile care nu corespund acestor condiii, testul z nu poate fi
aplicat. i aceasta, pentru c distribuia mediei de eantionare urmeaz legea curbei normale standardizate
doar pentru eantioane de minim 30 de subieci, conform teoremei limitei centrale.
La nceputul secolului XX, William Gosset, angajat al unei companii productoare de bere din
SUA, trebuia s testeze calitatea unor eantioane de bere pentru a trage concluzii asupra ntregii arje. Din
considerente practice, el nu putea utiliza dect eantioane (cantiti) mici de bere. Pentru a rezolva problema,
a dezvoltat un model teoretic propriu, bazat pe un tip special de distribuie, denumit distribuie t, cunoscut
ns i ca distribuia Student, dup pseudonimul cu care a semnat articolul n care i-a expus modelul.
n esen, distribuia t este o distribuie teoretic care are toate caracteristicile unei distribuii
normale (este perfect simetric i are form de clopot). Specificul acestei distribuii const n faptul c forma
ei (mai exact, nlimea) depinde de un parametru denumit grade de libertate (df sau degrees of freedom),
care este egal cu N-1 (unde N este volumul eantionului). Acest parametru poate fi orice numr mai mare
dect 0, iar mrimea lui este aceea care definete forma exact a curbei i, implicit, proporia valorilor de sub
curb ntre diferite puncte ale acesteia. Imaginea de mai jos ilustreaz modul de variaie a nlimii
distribuiei t, n funcie de gradele de libertate.
Aa cum se observ, curba devine din ce n ce mai aplatizat pe msur ce df (volumul eantionului)
este mai mic. Acest fapt care are drept consecin existena unui numr mai mare de valori spre extremele
distribuiei. Nu este ns greu de observat c, pe msur ce df este mai mare, distribuia t se apropie de o
distribuie normal standard astfel nct, pentru valori ale lui N de peste 31 (df=30), aria de sub curba
distribuiei t se apropie foarte mult de valorile de sub aria curbei normale standard (z) iar scorul critic pentru
t este acelai ca i cel pentru z pe curba normal (1.96).
Din cele spuse rezult c, dac avem un eantion de volum mic (N30), vom utiliza testul t n loc de
testul z, pe baza unei formule asemntoare:
t
m
sm
unde:
m este media eantionului
este media populaiei
sm este eroarea standard a mediei
Interpretarea valorii lui t se face n mod similar cu cea pentru valorea z, cu deosebirea c se utilizeaz
tabelul distribuiei t (Anexa 2). n acest caz valorile critice ale lui t vor fi diferite n funcie de numrul de
grade de libertate. Se observ c pragurile critice ale lui t (subnelegnd alfa=0.05 pentru test bilateral) se
plaseaz la valori diferite n funcie de nivelul df. n acelai timp, dac df este mare (peste 30), valorile
tabelare ale lui t se apropie de cele ale lui z. La infinit, ele sunt identice (1.96, la fel ca i n cazul valorilor
lui z).
Date fiind caracteristicile enunate, n practic, testul t se poate utiliza i pentru eantioane mari
(N30). n nici un caz, ns, nu poate fi utilizat testul z n cazul unor eantioane mici (N30). Utilizarea
testului bazat pe un singur eantion (fie z sau t) depinde ntr-o msur decisiv de asigurarea caracteristicii
aleatoare a eantionului.
Publicarea rezultatelor testului z sau t
Publicarea rezultatelor diferitelor proceduri statistice trebuie fcut astfel nct cititorii s i poat face o
imagine corect i complet asupra rezultatelor. n acest scop la publicarea rezultatelor trebuie respectate
anumite reguli la care vom face trimitere n continuare, n legtur cu fiecare nou test statistic ce va fi
introdus.
n principiu, publicarea rezultatelor unui test statistic se poate face n dou moduri:
o sintetic (sub form tabelar), atunci cnd numrul variabilelor testate este relativ mare
o narativ, atunci cnd se refer, s zicem, la o singur variabil.
n cazul testului pentru un singur eantion, se vor raporta: media eantionului, media populaiei,
valoarea lui z (sau t), nivelul lui p, tipul de test (unilateral/bilateral).
Dac avem n vedere rezultatele obinute pe exemplul de mai sus, se apeleaz la o raportare de tip
narativ, care poate utiliza o formulare n maniera urmtoare: Eantionul selectat prin metoda
paranormal a obinut un scor (QI=104) peste media populaiei generale (QI=100). Testul z, cu alfa
0.05, a demonstrat c diferena nu este semnificativ statistic, z=1.36, p>0.05, unilateral.
n exemplu de mai sus nu formularea ca atare este esenial ci categoriile de informaii asociate
publicrii testului z. Formularea ca atare poate diferi de cea prezentat mai sus, dar elementele
informaionale trebuie s fie complete.
Aa cum am spus mai sus, utilizarea programelor statistice ofer pentru orice valoare a lui z (sau
oricare alt test statistic) valoarea exact a lui p. Ea poate fi utilizat ca atare pstrnd, ns, raportarea
acesteia la pragul de semnificaie. Orice valoare a lui p mai mare de 0.05 este considerat nesemnificativ2[2],
dac nu a fost fixat un alt prag, mai sever.
1.
2[2]
3[3]
TEMA PENTRU ACAS3[3]

Un psihiatru testeaz eficiena unui nou medicament anxiolitic care pare s aib un posibil efect secundar negativ n
scderea frecvenei cardiace. Pentru un eantion de 50 de subieci al crui puls a fost msurat dup 6 sptmni de la
iniierea tratamentului, s-a obinut o frecvena cardiac medie de 70 de bti pe minut. Dac frecvena medie a populaiei
Programele de prelucrri statistice utilizeaz termenul Sig. (de la significance n loc de p. Ele sunt strict echivalente.
Exerciii preluate din BH Cohen, 1996, Eplaininig Psychological Statistics, Brooks/Cole Publishing, pp.216-217
2.
3.
generale este 72 bpm, cu o abatere standard de 12, se poate concluziona c noul medicament produce bradicardie?
(=0,05, se efectueaz test unilateral)
Reprimarea mniei conduce la creterea tensiunii arteriale? ntr-un studiu ipotetic, 16 studeni cu scor ridicat de reprimare
a mniei (rezultat din chestionare specifice) au fost supui msurrii tensiunii arteriale. Media tensiunii pentru acest
eantion a fost de 124 mm Hg (milimetri coloan de mercur). Dac media tensiunii la nivelul populaiei este 120 mm Hg
cu o abatere standard de 10, se poate accepta ipoteza c reprimarea mniei conduce la creterea tensiunii? ( =0,05, test
bilateral)
S presupunem c avem o scal care msoar anxietatea n note T (=50, =10). Dup un cutremur puternic se obin
urmtoarele scoruri pe un eantion de subieci care se adreseaz unui cabinet de psihologie clinic: 72, 59, 54, 56, 48, 52,
57, 51, 64, 67. Testai ipoteza de nul care afirm c nivelul anxietii nu este influenat de cutremur. ( =0,05, unilateral i
bilateral)
Testul t pentru eantioane independente

Testul z (t) pentru un singur eantion sunt utile ntr-un model de cercetare n care ne propunem
compararea valorii msurate pe un eantion cu media populaiei din care acesta provine. Aa cum am
precizat deja, acest tip de cercetare este destul de rar ntlnit, ca urmare a dificultii de a avea acces la
parametrii populaiei.
Unul dintre modelele de cercetare frecvente, ns, este acela care vizeaz punerea n eviden a
diferenelor care exist ntre dou categorii de subieci (diferena asumrii riscului ntre brbai i femei,
diferena dintre timpul de reacie al celor care au consumat o anumit cantitate de alcool fa de al celor
care nu au consumat alcool, etc.). n situaii de acest gen psihologul compar mediile unei variabile
(preferina pentru risc, timpul de reacie, etc.), msurat pe dou eantioane compuse din subieci care difer
sub aspectul unei alte variabile (sexul, consumul de alcool, etc.). Variabila supus comparaiei este variabila
dependent, deoarece presupunem c suport efectul variabilei sub care se disting cele dou eantioane i
care, din acest motiv, este variabil independent4[1]. n situaii de acest gen, eantioanele supuse cercetrii se
numesc independente, deoarece sunt constituite, fiecare, din subieci diferii.
Distribuia ipotezei de nul pentru diferena dintre medii independente
S ne imaginm c dorim s vedem dac un lot de sportivi, trgtori la int, care practic trainingul
autogen5[2] (variabila independent) obin o performan (variabila dependent) mai bun dect un lot de
sportivi care nu practic aceast tehnic de autocontrol psihic. n acest caz, variabila dependent ia valori
prin evaluarea performanei de tragere, iar variabila independent ia valori convenionale, pe o scal
nominal categorial, dihotomic (practicani i nepracticani de edine de relaxare).
n acest exemplu avem dou eantioane de cercetare, unul format din sportivi practicani ai
trainingului autogen (TA) i altul format din sportivi nepracticani ai TA. Trebuie s admitem c fiecare
dintre cele dou eantioane provine dintr-o populaie distinct: populaia sportivilor practicani de TA i,
respectiv, cea a nepracticanilor de TA. De asemenea, este evident faptul c perechea de eantioane studiate
nu este dect una din perechile posibile.
S privim figura de mai jos, care ne sugereaz ce se ntmpl dac, teoretic, am extrage (selecta) n
mod repetat de eantioane perechi din cele dou populaii:
4[1]
Am pus cuvntul efect ntre ghilimele deoarece, chiar dac este logic s considerm c este vorba de o relaie de tip cauzefect, simpla msurare a diferenelor pe dou eantioane de subieci nu este suficient pentru a concluziona o relaie cauzal.
Pentru aceasta, ar fi mai potrivit s msurm timpul de reacie la aceiai subieci nainte i dup consumarea unei cantiti de
alcool.
5[2]
O metod de relaxare psihic
Imaginea arat faptul c, pe msur ce constituim perechi de eantioane (m11-m21, etc.) cu valori ale
performanei la int, diferena dintre mediile devine o distribuie n sine, format din valorile acestor
diferene. Dac am reui constituirea tuturor perechilor posibile de eantioane, aceast distribuie, la rndul
ei, ar reprezenta o nou populaie, populaia diferenei dintre mediile practicanilor i nepracticanilor de
training autogen. i, fapt important de reinut, curba diferenelor dintre medii urmeaz legea distribuiei t. Cu
alte cuvinte, la un numr mare (tinznd spre infinit) de eantioane perechi, trebuie s ne ateptm ca cele mai
multe medii perechi sa fie apropiate ca valoare, diferena dintre mediile fiind, ca urmare, mic, tinznd spre 0
i ocupnd partea central a curbei. Diferenele din ce n ce mai mari fiind din ce n ce mai puin probabile,
vor ocupa marginile distribuiei (vezi figura de mai jos). Aceasta este ceea ce se numete distribuia
ipotezei de nul pentru
diferena dintre mediile
a dou eantioane
independente.
(m1-1 m2-1)
1- 2 = 0
(m1-2 m2-2)
(m1-3 m2-3)
n acest moment este bine s accentum, din nou, semnificaia statistic a noiunii de populaie. Dup
cum se observ, aceasta nu face referire neaprat la indivizi ci la totalitatea valorilor posibile care descriu o
anumit caracteristic (psihologic, biologic sau de alt natur). n cazul nostru, diferenele dintre mediile
eantioanelor perechi (fiecare provenind dintr-o populaie fizic distinct) devin o nou populaie, de
aceast dat statistic, compus din totalitatea diferenelor posibile, i a crei distribuie se supune modelului
curbei t.
Procedura statistic pentru testarea semnificaiei diferenei dintre mediile a dou eantioane
Problema pe care trebuie s o rezolvm este urmtoarea: Este diferena dintre cele dou eantioane
suficient de mare pentru a o putea considera ca determinat de variabila independent, sau este doar una
dintre diferenele probabile, generat de jocul hazardului la constituirea perechii de eantioane? Vom observa
c sarcina noastr se reduce, de fapt, la ceea ce am realizat anterior n cazul testului z sau t pentru un singur
eantion. Va trebui s vedem dac diferena dintre dou eantioane reale se distaneaz semnificativ de
diferena la care ne putem atepta n cazul extragerii absolut aleatoare a unor perechi de eantioane, pentru
care distribuia diferenelor este normal. Mai departe, dac probabilitatea de a obine din ntmplare un
astfel de rezultat (diferen) este prea mic (maxim 5%) o putem neglija i accepta ipoteza c ntre cele dou
variabile este o relaie semnificativ.
Dac avem valoarea diferenei dintre cele dou eantioane cercetate, ne mai sunt necesare doar media
populaiei (de diferene ale mediilor) i abaterea standard a acesteia, pentru a calcula testul z (n cazul
eantioanelor mari) sau cel t (n cazul eantioanelor mici). n final, nu ne rmne dect s citim valoarea
tabelar pentru a vedea care este probabilitatea de a se obine un rezultat mai bun (o diferen mai mare ) pe
o baz strict ntmpltoare.
Media populaiei de diferene. Diferena dintre mediile celor dou eantioane ale cercetrii face
parte, aa cum am spus, dintr-o populaie compus din toate diferenele posibile de eantioane perechi. Media
acestei populaii este 0 (zero). Atunci cnd extragem un eantion aleator dintr-o populaie, valoarea sa tinde
sa se plaseze n zona centrala cea mai probabil). Dar aceeai tendin o va avea i media oricrui eantion
extras din populaia pereche. Ca urmare, la calcularea diferenei dintre mediile a dou eantioane, cel mai
probabile sunt diferenele mici, tinznd spre zero. Astfel, ele vor ocupa partea central a distribuiei,
conturnd o medie tot mai aproape de zero cu ct numrul eantioanelor extrase va fi mai mare.
Eroarea standard a diferenei (mprtierea), pe care o vom nota cu
de la formula de calcul a erorii standard:
m
m1-m2, se calculeaz pornind
(formula 3.5)
Din raiuni practice, pentru a obine o formul care s sugereze diferena dintre medii (m 1-m2),
formula de mai sus este supus unor transformri succesive. Prin ridicarea la ptrat a ambilor termeni i dup
extragerea radicalului din noua expresie, se obine:
m
(formula 3.6)
Dac am utiliza-o pentru calcule, aceast ultim formul ar produce acelai rezultat ca i formula
originar.
Formula erorii standard a distribuiei diferenei dintre medii ne arat ct de mare este mprtierea
diferenei tipice ntre dou medii independente atunci cnd eantioanele sunt extrase la ntmplare
m1 m 2
12 2 2
N1 N 2
(formula 3.7)
Formula de mai sus indic faptul c eroarea standard a diferenei dintre medii este dat de suma erorii
standard a celor dou eantioane. Unul dintre eantioane are N1 subieci i o dispersie 12 iar cellalt eantion,
N2 subieci i dispersia 22. Faptul c obinem eroarea standard a diferenei dintre medii ca sum a erorilor
standard a celor dou eantioane este fundamentat pe o lege statistica a crei demonstraie nu se justific aici.
Pentru a calcula scorul z al diferenei, vom utiliza o formul asemntoare cu formula notei z pe care
o cunoatem deja:
m
m
Aceasta va fi:
(m1 m2 ) ( 1 2 )
m1 m 2
(formula 3.8)
Numrtorul exprim diferena dintre diferena obinut de noi (m 1-m2) i diferena dintre mediile
populaiilor (1-2). Dac ne amintim c distribuia ipotezei de nul (1-2) are media 0, atunci deducem c
expresia (1-2) poate lipsi. De altfel, dac am cunoate mediile celor dou populaii nici nu ar mai fi
necesar calcularea semnificaiei diferenei dintre eantioanele care le reprezint.
Numitorul descrie eroarea standard a diferenei, calculat cu formula 8.1, adic mprtierea
diferenei tipice pentru extrageri aleatoare.
n conformitate cu cele spuse pn acum, formula final pentru scorul z al diferenei dintre dou
eantioane devine :
m1 m2
12 2 2
N1
N2
(formula 3.9)
Se observ c am eliminat (1-2) de la numrtor, care este ntotdeauna 0 i am nlocuit m1-m2 cu

expresia echivalent din formula 3.7. Aceast formul ne d ceea ce se numete valoarea testului z pentru
eantioane mari-independente.
Valoarea astfel obinut urmeaz a fi verificat cu ajutorul tabelei z pentru curba normal, iar decizia
statistic se ia n acelai mod ca i n cazul testului z pentru un singur eantion.
n formula 3.8 eroarea standard a diferenelor este calculat pe baza erorii standard a distribuiei de
eantionare pentru populaia din care sunt extrase cele dou eantioane (practicani i nepracticani de
training autogen). n realitate nu cunoatem cele dou dispersii. Din fericire, dac volumul nsumat (N 1+N2)
al eantioanelor care dau diferena noastr (m 1-m2) este suficient de mare (30 dar, de preferat, ct mai
aproape de 100) atunci ne amintim c putem folosi abaterea standard a fiecrui eantion (s 1 respectiv s2), care
aproximeaz suficient de bine abaterile standard ale celor dou populaii.
Atunci cnd eantioanele nu sunt suficient de mari, trebuie s ne ateptm la erori considerabile n
estimarea mprtierii populaiei pe baza mprtierii eantionului. ntr-o astfel de situaie vom apela, desigur,
la un test t, avnd dou opiuni de calcularea acestuia:
a. Testul t pentru dispersii diferite
Acesta se bazeaz pe considerarea separat a dispersiilor celor dou populaii (estimate prin
dispersiile eantioanelor). Formula este foarte asemntoare cu formula anterioar pentru testul z. Vom
reine aceast formul ca testul t pentru dispersii diferite:
t
m1 m2
2
s1
s
2
N1 N 2
(formula 3.10)
Se observ nlocuirea lui (pentru populaie) cu s (pentru eantion). Utilizarea ei este destul de
controversat, deoarece rezultatul nu urmeaz cu exactitate distribuia t aa cum am introdus-o anterior.
Pentru eliminarea acestui neajuns, se utilizeaz o variant de calcul care ia n considerare dispersia cumulat
a celor dou eantioane.
b. Testul t pentru dispersia cumulat

Dispersiile celor dou eantioane pot fi considerate mpreun pentru a forma o singur estimare a
dispersiei populaiei (2). Obinem astfel ceea ce se numete dispersia cumulat, pe care o vom nota cu s2c
i o vom calcula cu formula urmtoare:
2
( N 1) * s1 ( N 2 1) * s 2
1
N1 N 2 2
(formula 3.11)
La numrtor, formula conine suma dispersiilor multiplicate fiecare cu volumul eantionului

respectiv (de fapt, gradele de libertate, N-1). n acest fel vom avea o contribuie proporional cu numrul de
valori ale mprtierii fiecrui eantion la rezultatul final.
La numitor, avem gradele de libertate (df) pentru cele dou eantioane luate mpreun (N1+N2-2).
nlocuind-o n formula 3.10, obinem formula de calcul a testului t pentru dispersii cumulate
t
m1 m2
2
( N1 1) * s1 ( N 2 1) * s2 1
1
N1 N 2 2
N1 N 2
2
(formula 3.12):
Formula 3.12 este formula uzual pentru calcularea diferenei dintre medii pentru dou eantioane
independente. Chiar dac a fost introdus ca utilizabil pentru eantioane mici, caracteristicile distribuiei t
ne permit utilizarea ei i pentru eantioane mari, deoarece distribuia t tinde spre cea normal la valori din ce
n ce mai mari ale gradelor de libertate.
EXEMPLU DE CALCUL:
S presupunem c vrem s vedem dac practicarea trainingului autogen (variabila independent)
determin o cretere a performanei n tragerea la int, manifestat printr-un numr mai mare de lovituri n
centru intei (variabil dependent). Pentru aceasta selectm un eantion de 6 sportivi care practic
trainingul autogen i un eantion de 6 sportivi care nu l practic. Pentru fiecare eantion msurm
performana de tragere.
Formularea ipotezei cercetrii, a ipotezei de nul, i a criteriilor deciziei statistice
Pentru exemplul de mai sus:
Problema cercetrii: Are practicarea trainingului autogen un efect asupra performanei la tirul cu
arcul?
Ipoteza cercetrii (H1): Practicarea trainingului autogen determin un numr mai mare de puncte
la edinele de tragere.
Ipoteza de nul (statistic) (H0): Numrul punctelor la edinele de tragere nu este mai mare la cei
care practic trainingul autogen. Aceast variant este potrivit cu o testare unilateral a ipotezei (nu avem
n vedere dect eventualitatea ca trainingul autogen s creasc performana sportiv).
Dac, ns, am dori s testm n ambele direcii, bilateral, atunci am avea urmtoarele versiuni ale
ipotezelor:
Ipoteza cercetrii: Performana sportiv este diferit la subiecii care practic trainig autogen fa
de cei care nu practic
Ipoteza de nul (statistic): Performana nu difer semnificativ n funcie de practicarea trainingului

autogen.
Fixarea lui t critic. Alegem efectuarea unui test bilateral, pentru c nu putem ti dinainte dac TA nu
are un efect negativ asupra performanei sportive a trgtorilor la int. Alegem nivelul: =0,05. Stabilim
gradele de libertate: df=N1+N2-2=10
Utiliznd tabelul distribuiei t pentru 10 grade de libertate (adic 12-2) i =0,05, bilateral, gsim t
critic=2.228, la intersecia coloanei 0.025 i cu linia pentru 10 grade de libertate.
Valoarea t calculat va trebui s fie cel puin egal sau mai mare dect t critic, pentru a putea respinge
ipoteza de nul i a accepta ipoteza cercetrii (vezi imaginea de mai jos).
Variabila independent (calitatea de practicant-nepracticant Training Autogen) ia dou valori, s

zicem: 1 pentru practicanii trainingului autogen i 2 pentru nepracticani. Valorile 1 i 2 sunt
convenionale i ne indic faptul c variabila independent a cercetrii noastre este msurat pe o scal
nominal, categorial (dihotomic). Variabila dependent (performana de tragere la int) ia valori
cantitative, exprimat n numr de lovituri n centrul intei, fiind de tip cantitativ (raport).
Datele cercetrii
practicani TA (1)
X1
(X1-m1)2
N
M
(X
S= S
m) 2
N 1
15
9
12
13
16
15
80
6
13.33
33.28
5 = 6.67
2.58
2.78
18.74
1.76
0.10
7.12
2,78
33.28
Calculm t pentru dispersii cumulate:

Mai nti, eroarea standard a diferenei (numitorul formulei):
ne-practicani TA (2)
X2
(X2m2)2
10
2.78
8
0,10
11
7.12
5
11.08
7
1.76
9
0.44
50
23.28
6
8.33
23.28
5 = 4.66
2.16
SDif =
( N 1 1)( S 21 ) ( N 2 1)( S 2 2 ) 1
1
N1 N 2 2
N1 N 2
Iar apoi:
t =
m1 m2
S Dif
(6 1) * (2.58) 2 (6 1) * (2.16) 2
662
1 1

6 6 = 1.34
13.33 8.33
1.34
=
=3.73
Comparm t calculat cu t critic din tabelul distribuiei t: 3.73 > 2.228

Decizia statistic: Se respinge ipoteza de nul
Concluzia cercetrii: Se admite ipoteza cercetrii. Practicarea trainingului autogen influeneaz
performana n tirul cu arcul
Publicarea rezultatului
La publicarea testului t pentru diferena dintre mediile a dou eantioane independente vor fi
menionate: mediile i abaterile standard ale fiecrui eantion, volumul eantioanelor sau gradele de libertate,
valoarea testului, nivelul lui p.
n form narativ, rezultatul pentru exemplul de mai sus poate fi formulat astfel: Sportivii care
practic trainingul autogen au fost comparai cu cei care nu practic. Primii au realizat o performan mai
bun (m=13.33, =2.58) fa de ceilali (m=8.33, =2.16), t(10)=3.65, p<0.05
Interpretarea rezultatului la testul t pentru eantioane independente
Trebuie s precizm c, atunci cnd calculm testul t, nu valoarea obinut este relevant ci
probabilitatea care este asociat acestei valori (p). Atunci cnd p este mai mic sau egal cu 0.05, rezultatul
justific aprecierea ca semnificativ a diferenei dintre mediile celor dou eantioane (adic suficient de mare
pentru a respinge ipoteza c ar putea fi ntmpltoare). Modelul de cercetare nu permite formularea acestei
concluzii n termenii unei relaii cauzale ntre practicarea trainingului autogen i performana sportiv, orict
de tentat ar fi aceast concluzie. n plus, existena unei diferene semnificative nu este similar cu existena
unei diferene cu valoare practic. Este posibil ca diferena dintre cele dou loturi de sportivi, dei
semnificativ statistic, s nu justifice costurile angajate n desfurarea programului de relaxare psihic. ntro asemenea situaie, studiul nu este lipsit de valoare dar concluziile sunt utile doar n plan teoretic.
Limitele de ncredere ale diferenei dintre mediile a dou populaii
Dac cercetarea noastr ar fi avut drept obiectiv numai verificarea teoriei conform creia trainingul
autogen poate conduce la creterea performanei (de exemplu, prin diminuarea stresului i favorizarea
concentrrii) consemnarea semnificaiei statistice a testului ar fi absolut suficient. Din perspectiva unui
antrenor, ns, aceast concluzie s-ar putea s nu fie la fel de mulumitoare. n fapt, un astfel de studiu nu are
drept scop stabilirea diferenei dintre mediile celor dou loturi particulare de sportivi, ci msura n care
diferena existent ar putea fi generalizat la nivelul populaiilor (de trgtori cu arcul practicani i
nepracticani de training autogen).
n acest scop este util s estimm limitele de ncredere ale diferenei dintre mediile populaiilor
cercetrii, ntr-o manier similar cu estimarea mediei populaiei pe baza mediei eantionului. Pentru aceasta,
avem punctul de estimare definit ca diferena dintre cele dou medii (m 1-m2=13.33-8.33=5 puncte). Valoarea
diferenei dintre mediile populaiilor din care fac parte cele dou eantioane se ncadreaz, cu o anumit
probabilitate, n jurul diferenei de 5 puncte.
S presupunem c dorim s fixm limitele de variaie a diferenei dintre mediile populaiilor pentru
un nivel de ncredere de 95%, bilateral. n acest caz, fixm mai nti valorile critice pentru t ntre care se afl
95% dintre valorile distribuiei, pentru df=10. n exemplul dat acestea sunt, aa cum am vzut deja,
2.2281.6[3]
Mai departe calculm limitele de variaie pentru diferena dintre mediile populaiilor cercetrii
pornind de formula testului t:
t
m1 m2 1 2
sm1 m 2
n aceast expresie, t este chiar t critic iar pe noi ne intereseaz diferena dintre mediile populaiilor,
ceea ce se obine astfel:
m1 m2 1 2 tcrit * sm1 m 2
(formula 3.13)
De unde deducem, mai departe:
1 2 m1 m2 tcrit * sm1 m 2
(formula 3.14)
Dac nlocuim valorile calculate n exemplul de mai sus, obinem:
1 2 13.33 8.33 2.2281 * 1.34
De unde calculm limita inferioar=2.015 i limita superioar=7.985.
Ceea ce trebuie s observm, n primul rnd, la aceste valori, este c ntre ele nu se afl valoarea 0
(fapt care ar corespunde ipotezei de nul). S reinem c, indiferent de valoarea calculat a testului, dac
intervalul de ncredere al acestuia include valoarea 0, ipoteza de nul nu va putea fi respins. Mai departe,
cercettorul va trebui s aprecieze ct de rentabil este s instituie un astfel de program dac diferena de
performan se afl n plaja menionat. Dac aceast plaj este foarte mare, nseamn c estimarea pe baza
celor dou eantioane nu este foarte precis i, ca urmare, nici foarte util. Dimpotriv, dac diferena
eantioanelor este aproape de cele dou limite, estimarea este mai sigur. n principiu, cu ct volumul
eantioanelor va crete, cu att precizia estimrii va fi mai mare.
n fine, o ultim precizare n legtur cu calcularea limitelor de ncredere. Calcularea lor nu este
relevant din punct de vedere practic atunci cnd variabila dependent este exprimat n uniti de msur
care nu au o semnificaie prin ele nsele. S ne imaginm, spre exemplu, un experiment n care un grup
privete un film trist iar un alt grup privete un film vesel, dup care starea de spirit a celor dou grupuri este
evaluat prin numrarea cuvintelor triste sau vesele pe care subiecii i le pot aminti dintr-o list citit
imediat dup vizionare. n aceast situaie calcularea limitelor de ncredere nu este absolut justificat, fiind
greu de interpretat n cazul numrului de cuvinte. Nu acelai lucru se ntmpl dac, de exemplu, n cazul
unui experiment n care utilizarea unui anumit tip de exerciii la locul de munc, se traduce n creterea
productivitii muncii, msurat prin numrul de produse finite. Este evident c numrul de produse finite
este un indicator cu relevan practic i uor de interpretat.
Condiiile n care putem calcula testul t pentru eantioane independente
-
6[3]
Eantioane aleatoare (ideal)

Eantioane independente (distincte din punctul de vedere al variabilei independente, care
determin constituirea grupurilor)
Variabila supus msurrii s se distribuie normal n ambele populaii. Aceasta ne garanteaz c i
distribuia diferenelor dintre medii se distribuie normal. Totui, teorema limitei centrale ne
permite asumarea normalitii distribuiei mediei de eantionare chiar i n cazul variabilelor care
nu se distribuie normal la nivelul populaiei, pentru eantioane mari. Dac, ns, analiza
distribuiilor indic forme aberante, se va alege soluia unui test neparametric. Vom meniona,
totui, c testele t sunt robuste la nclcarea condiiei de normalitate.
Dispersia celor dou eantioane s fie omogen. Testul t poate fi aplicat strict n cazurile n care
dispersiile celor dou populaii (practicani, nepracticani) au aceeai dispersie (omogenitatea
dispersiei). Din fericire, exist trei situaii n care aceast condiie nu trebuie s ne preocupe:
cnd eantioanele sunt suficient de mari (cel puin 100 fiecare)
Intr-o manier absolut similar se pot construi limite de ncredere pentru orice alt interval: 99% sau 99,9%
cnd cele dou eantioane au acelai volum (N1=N2)

cnd dispersiile celor dou eantioane nu difer semnificativ (dar, chiar i pentru acest
caz, exist formule care in cont de diferena dispersiilor).
Cnd se utilizeaz testul t pentru eantioane independente?

Acest test statistic se utilizeaz n situaiile n care vrem sa aflm dac o variabil dependent, msurat
pe o scal de interval/raport, difer semnificativ ntre dou grupuri (eantioane) difereniate pe o variabil
independent, msurat pe scala de tip nominal (dihotomic). Deoarece este unul dintre modelele frecvent
ntlnite n practica cercetrii psihologice, utilizarea testului t pentru eantioane independente este i ea des
ntlnit n literatura de specialitate.
***
TEMA PENTRU ACAS
ntr-un studiu asupra efectelor unui nou tratament al fobiei, datele pentru grupul experimental obinute printr-o scal de
evaluare a tendinelor fobice sunt:
m1=27.2, s1=4 i N1=15
Datele pentru grupul de control sunt:
m2=34.4, s2=14 i N2=15
Formulai:
Problema (ntrebarea) cercetrii
Ipoteza cercetrii (H1)
Ipoteza de nul (H0)
Aflai t critic pentru =0,05; bilateral
Not: Dei datele din exemplu arat c m1 este mai mic dect m2, vom alege un test bilateral pentru c, s nu uitm, n
practic, criteriile deciziei statistice sunt fixate naintea msurrii experimentale, cnd, deci, nu aveam de unde ti
care vor fi valorile pe care le vom obine.
Calculai testul t pentru diferena dintre cele dou eantioane

Calculai intervalul de ncredere (99%) pentru diferena dintre mediile populaiilor.
Formulai i motivai decizia statistic
Formulai concluzia cercetrii
Testarea diferenei dintre mai mult de dou medii-analiza de varin (ANOVA)

n exemplul prin care am comparat performana la int a celor dou grupe de sportivi (practicani i
nepracticani de training autogen), testul t a rezolvat problema semnificaiei diferenei pentru dou medii. n
practica de cercetare ne putem ntlni ns cu situaii n care avem de comparat trei sau mai multe medii. De
exemplu, atunci cnd am efectuat un test de cunotine de statistic i dorim s tim dac diferenele
constatate ntre cele 5 grupe ale unui an de studiu difer semnificativ. Performana la nivelul fiecrei grupe
este dat de media rspunsurilor corecte realizate de studeni. La prima vedere, am putea fi tentai s
rezolvm problema prin compararea repetat a medie grupelor, dou cte dou. Din pcate, exist cel puin
trei argumente pentru care aceast opiune nu este de dorit a fi urmat:
n primul rnd, volumul calculelor ar urma sa fie destul de mare i ar crete i mai mult dac
numrul categoriilor variabilei independente ar fi din ce n ce mai mare.
n al doilea rnd, problema cercetrii vizeaz relaia dintre variabila dependent (n exemplul de
mai sus, performana la statistic) i variabila independent, exprimat prin ansamblul tuturor
categoriilor sale (grupele de studiu). Ar fi bine s putem utiliza un singur test i nu mai multe,
pentru a afla rspunsul la problema noastr.
n fine, cel mai puternic argument, este acela c, prin efectuarea repetat a testului t se
acumuleaz o cantitate de eroare de tip I mai mare dect este permis pentru o decizie statistic
(0.05). S presupunem c dorim s testm ipoteza unei relaii dintre nivelul anxietii i
intensitatea fumatului, evaluat n trei categorii: 1-10 igri zilnic; 11-20 igri zilnic i 21-30
igri zilnic. n acest caz, avem trei categorii ale cror medii ar trebui comparate dou cte dou.
Dar, n acest fel, prin efectuarea repetat a testului t pentru eantioane independente, s-ar cumula
o cantitate total de eroare de tip I de 0.15 adic 0.05+0.05+0.05.
Pentru a elimina aceste neajunsuri i, mai ales pe ultimul dintre ele, se utilizeaz o procedur
statistic numit analiza de varian (denumit pe scurt ANOVA, de la ANalysis Of VAriance, n englez).
n mod uzual, analiza de varian este inclus ntr-o categorie aparte de teste statistice. Motivul pentru care o
introducem aici, imediat dup testul t pentru eantioane independente, este acela c, n esen, ANOVA nu
este altceva dect o extensie a logicii testului t pentru situaiile n care se dorete compararea a mai mult de
dou medii independente. Dar, dac problema este similar, soluia este, aa cum vom vedea, diferit.
Exist mai multe tipuri de ANOVA, dou fiind mai frecvent folosite:
ANOVA unifactorial:
o Presupune o variabil dependent msurat pe o scal de interval/raport (anxietatea, n
exemplul de mai sus).
o Presupune o variabil independent de tip categorial (nominal sau ordinal) care ia trei sau
mai multe valori (cele trei categorii de fumtori: 1-10 igri zilnic, 11-20 igri i 21-30
igri). n contextul ANOVA, variabila independent este definit ca factor. Modelul de
analiz de varian cu o singura variabil independent se numete ANOVA unifactorial,
ANOVA simpl sau, cel mai frecvent, ANOVA cu o singur cale (One-way ANOVA).
ANOVA multifactorial
o Presupune o variabil dependent (la fel ca n cazul ANOVA unifactorial)
o Presupune dou sau mai multe variabile independente, fiecare cu dou sau mai multe valori
msurate pe o scal nominal sau ordinal. De exemplu, n cazul de mai sus, se poate aduga
sexul ca variabil independent, urmnd s se rspund la ntrebarea dac intensitatea
fumatului i caracteristica de sex au, mpreun, o relaie cu nivelul anxietii.
Nu vom discuta aici dect prima dintre cele dou variante de ANOVA.
Cadrul conceptual pentru analiza de varian unifactorial

n esen, ANOVA este o procedur de comparare a mediilor eantioanelor. Specificul const n faptul
c n locul diferenei directe dintre medii se utilizeaz dispersia lor, gradul de mprtiere. Procedura se
bazeaz pe urmtorul demers logic: Ipoteza cercetrii sugereaz c fiecare categorie de fumtori face parte
dintr-o populaie distinct, creia i corespunde un nivel specific de anxietate (adic o medie caracteristic,
diferit de a celorlalte dou populaii). Prin opoziie, ipoteza de nul, ne oblig s presupunem c cele trei
eantioane7[1] (categoriile de fumtori) pe care vrem s le comparm, provin dintr-o populaie unic de valori
ale anxietii, iar diferenele dintre mediile lor nu reprezint dect expresia variaiei fireti a distribuiei de
7[1]
Pentru simplificare, n continuare ne vom referi la trei eantioane dar se va nelege trei sau mai multe
eantionare. n imaginea de mai jos populaiile cercetrii (Pc1, Pc2, Pc3) sunt exprimate cu linie continu, iar
populaie de nul cu linie discontinu.
Chiar dac absena unei legturi ntre numrul de igri fumate i intensitatea anxietii (ipotez de
nul) este adevrat, cele trei grupuri (eantioane) nu trebuie s aib n mod necesar aceeai medie. Ele pot
avea medii diferite care s rezulte ca expresie a variaiei aleatoare de eantionare (m1m2m3) i, de
asemenea, mprtieri (dispersii) diferite (s1s2s3). S ne gndim acum la cele trei medii pe care vrem s le
comparm ca la o distribuie de sine stttoare, de trei valori (sau mai multe, pentru cazul n care variabila
independent are mai multe categorii). Cu ct ele sunt fi mai diferite una de alta, cu att distribuia lor are o
mprtiere (varian) mai mare. Este evident faptul c, dac eantioanele ar aparine populaiei de nul,
diferena mediilor (exprimat prin dispersia lor) ar fi mai mic dect n cazul n care acestea ar proveni din
populaii distincte (corespunztor ipotezei cercetrii).
n continuare se pune urmtoarea problem: Ct de diferite (mprtiate) trebuie s fie mediile celor
trei eantioane, luate ca distribuie de sine stttoare de trei valori, pentru ca s putem concluziona c ele nu
provin din populaia de nul (dreptunghiul punctat) ci din trei populaii diferite, corespunztoare eantioanelor
de cercetare (Pc1, Pc2, Pc3)?
Pentru a rspunde la aceast ntrebare este necesar:
a) S calculm dispersia valorilor individuale la nivelul populaiei de nul, care se bazeaz pe valorile
anxietii tuturor valorilor msurate, indiferent de intensitatea fumatului;
b) S calculm dispersia mediilor anxietii grupurilor cercetrii (considerate ca eantioane separate);
c) S facem raportul dintre aceste dou valori. Obinerea unei valori mai ridicate a acestui raport ar
exprima apartenena fiecreia din cele trei medii la o populaie distinct n timp ce obinerea unei
valori mai sczute ar sugera proveniena mediilor dintr-o populaie unic (de nul). Decizia statistic
cu privire la mrimea raportului i, implicit, cu privire la semnificaia diferenelor dintre mediile
comparate, se face prin raportarea valorii raportului la o distribuie teoretic adecvat, alta dect
distribuia normal, aa cum vom vedea mai departe.
S ne concentrm acum asupra fundamentrii modului de calcul pentru cei doi termeni ai raportului.
Calcularea exact a dispersiei populaiei de nul este imposibil (deoarece nu avem acces la toate valorile
acesteia), dar ea poate fi estimat prin calcularea mediei dispersiei grupurilor de cercetare. Valoarea astfel
obinut se numete dispersia intragrup i reprezint estimarea mprtierii valorilor msurate la nivelul
populaiei de nul.
La rndul ei, dispersia mediilor grupurilor de cercetare, calculat dup metoda cunoscut de calcul a
dispersiei, formeaz ceea ce se numete dispersia intergrup. Valoarea astfel obinut evideniaz ct de
diferite (mprtiate) sunt mediile eantioanelor care fac obiectul comparaiei.
Raportul dintre dispersia intergrup i dispersia intragrup se numete raport Fisher i ne d
valoarea testului ANOVA unifactorial. Cu ct acesta este mai mare, cu att mprtierea mediilor este mai
mare i, implicit, diferen lor poate fi una semnificativ, ndeprtat ce o variaie pur ntmpltoare.
Imaginile de mai jos dau expresie grafic acestui raionament:
Figura a reprezint expresia grafic a ipotezei de nul:

Presupunem c cele trei grupuri provin din aceeai
populaie. Ca urmare, cele trei medii sunt egale
(1=2=3), iar distribuiile sunt suprapuse.
Figura b reprezint grafic ipoteza cercetrii: Cele trei

grupuri sunt diferite, provenind din populaii distincte.
Dac distana (mprtierea) dintre mediile eantioanelor
care provin din cele trei populaii depete un anumit
nivel, atunci putem concluziona c nu avem o singur populaie (ipoteza de nul) ci mai multe, mediile
grupurilor prezentnd o diferen semnificativ.
Fundamentarea procedurii de calcul ANOVA

Esena procedurii de calcul pentru ANOVA se bazeaz pe o dubl estimare a dispersiei a populaiei
cercetrii.
Estimarea dispersiei populaiei de nul pe baza mediei dispersiei grupurilor (variana intragrup)
Atta timp ct nu cunoatem dispersia populaiei (2) din care ar putea proveni grupurile, trebuie s o
estimm prin dispersiile celor trei grupuri (s12, s22, s32).
Calculnd media celor trei dispersii vom obine o valoare care estimeaz dispersia pentru cele trei
grupuri luate mpreun. Aceast valoare se consider c estimeaz dispersia populaiei totale. Deoarece ea se
calculeaz pe baza dispersiilor n interiorul grupurilor, este desemnat n mod uzual prin termenul de
intragrup (sau, mai frecvent, prin forma englez: within-group) i se noteaz cu s2intragrup i se calculeaz cu
una dintre formulele urmtoare:
Atunci cnd volumele eantioanelor comparate sunt egale (N1=N2=N3):
2
s 2Within
s1 s2 s3
N grupuri
(formula 3.15)
Atunci cnd grupurile comparate sunt de volum inegal:
s 2int ragrup
df1
df int ragrup
* s 21
df 2
dfint ragrup
unde: df1=N1-1; df2=N2-1; df3=N3-1
* s 22
iar
df 3
df int ragrup
* s 23
(formula 3.16)
dfintragrup=Nsubieci-Ngrupuri
Estimarea dispersiei populaiei de nul pe baza dispersiei mediilor grupurilor( variana intergrup)
Mediile celor trei grupuri (eantioane) sunt numere care pot fi analizate ca distribuie n sine, a cror
dispersie (varian) poate fi calculat, fiind o estimare a mprtierii valorilor la nivelul populaiei. Din cauz
c se bazeaz pe mediile grupurilor, aceasta se mai numete i varian intergrupuri (between groups, n
limba englez). ntre variaia acestor medii i variaia valorilor din grupurile analizate, luate mpreun, exist
o legtur care poate fi exprimat pe baza formulei transformate a erorii standard, astfel:
2M
2
N
de unde se deduce:
2 N * 2 M
(formula 3.17)
Vom putea utiliza dispersia mediilor celor trei eantioane pentru a estima dispersia populaiei totale
(vezi exemplul de mai jos). Aceasta se numete estimarea varianei intergrupuri, notat cu s2intergrup.
Dac nlocuim, n expresia de mai sus, expresia de calcul a dispersiei (formula 3.17), obinem:
s
int ergrup
N *s
(m M )
N*
df int ergrup
unde m este media fiecrui grup separat, M este media celor trei grupuri luate mpreun, N este
numrul subiecilor dintr-un grup, atunci cnd grupurile sunt egale, iar dfintergrup se calculeaz ca numrul
grupurilor-1.
Ca urmare, pentru o situaie cu trei grupuri, formula desfurat se scrie astfel:
s 2int ergrup N *
(m1 M ) 2 ( m2 M ) 2 (m3 M ) 2
dfint ergrup
(formula 3.18)
unde: m1, m2, m3 sunt mediile celor trei grupuri, iar celelalte valori sunt cele descrise pentru formula
anterioar.
Ambele tipuri de estimri sunt estimri independente ale varianei populaiei de nul. ns, n timp ce
variana intragrup o estimeaz n mod direct (media varianelor), variana intergrup o msoar indirect
(variana mediilor). Aceasta din urm, variana intergrup, reprezint o estimare a varianei populaiei de nul
numai dac ipoteza de nul este adevrat. Dac ipoteza de nul este fals, ea reflect de fapt msura n care
valorile variabilei independente (factorul) influeneaz mediile variabilei dependente. Pe aceast
particularitate se bazeaz procedura analizei de varian. Raportul dintre cele dou estimri s2intergrup/s2intragrup va
tinde s devin cu att mai mare cu ct diferena dintre mediile grupurilor (tradus prin dispersia mediilor)
devine mai mare dect dispersia din interiorul grupurilor (tradus prin media dispersiilor). Acest raport se
numete raport Fisher, dup numele celui care a fundamentat acest tip de analiz8[2], i se scrie astfel:
F
s 2 int ergup
s 2 int ragrup
(formula 3.19)
Distribuia Fisher
8[2]
Sir Ronald Aylmer Fisher (1890-1962). Astronom de formaie, interesat de teoria erorilor, s-a remarcat prin contribuiile sale n
teoria statisticii, creia, din anul 1922, i-a dat o nou orientare.
Valorile raportului F (sau testul F) se distribuie ntr-un mod particular, numit distribuia F sau distribuia
Fisher. Ca i distribuia normal, distribuia F este o familie de distribuii, avnd urmtoarele caracteristici:
1. asimetrie pozitiv (tendina valorilor de grupare spre partea stng, cu valori mici);
2. poate lua o valori orict de mari;
3. valoarea minim este 0, deoarece decurge din raportul a dou dispersii, iar dispersiile nu pot fi
niciodat negative9[3].
4. forma distribuiei variaz n funcie de o pereche de grade de libertate format din numrul grupelor
(categoriile variabilei independente) i numrul subiecilor.
Imaginea de mai sus reprezint curba F pentru 3 grupuri cu 30 de subieci n total. Distribuia Fisher
are forme distincte n funcie de numrul eantioanelor comparate i volumul acestora.
Calcularea gradelor de libertate

Ca i n cazul distribuiei t, distribuia F se prezint sub o varietate de forme. Distribuia F rezult
dintr-un raport a dou distribuii diferite (s2intergpup i s2intragrup), fiecare cu gradele ei de libertate. Ca urmare, i
schimb forma, n acelai timp, n funcie de numrul grupurilor i de numrul subiecilor din fiecare grup.
n concluzie, vom avea dou grade de libertate, unul pentru MSB i altul pentru MSW, calculate astfel:
dfintergrup=numrul grupurilor-1
dfintragrup=numrul cumulat al subiecilor din toate grupurile-numrul grupurilor
EXEMPLU DE CALCUL
Vom lua ca exemplu de calcul un set de date ipotetice pentru exemplul sugerat mai sus.
Problema cercetrii:
Avem rezultatele la o scal de evaluare a anxietii pentru trei grupuri de fumtori (n funcie de frecvena
zilnic a igrilor fumate), fiecare grup format din 6 subieci, i vrem s vedem dac exist o relaie ntre
nivelul anxietii i intensitatea fumatului.
Ipoteza cercetrii:
Fumtorii afirm c fumatul i linitete. n acest caz putem emite ipoteza c numrul zilnic de igri
este n legtur cu nivelul anxietii (fumtorii au o structur mai anxioas).
Ipoteza de nul:
Nu exist o legtur ntre numrul zilnic de igri i nivelul anxietii.
Fixm criteriile deciziei statistice:
Nivelul =0.05
Stabilim F critic:
9[3]
n practic, se poate ajunge n situaia ca dispersia intragrup s rezulte a fi mai mic dect dispersia intergup i, ca urmare,
valoarea lui F s fie mai mic dect 0. Acest lucru este determinat de inegalitatea sever a dispersiilor ntre grupurile analizate.
5. dfintergrup=3-1=2
6. dfintragrup=18-3=15
7. Citim F critic (F(0.05, 2, 15)) din tabelul F pentru =0.05: Fcritic=3.6823 (Anexa 3)
Not privind utilizarea tabelei pentru distribuiile F
Spre deosebire de tabelele distribuiilor utilizate pn acum, (z i t), pentru interpretarea lui F avem
mai multe tabele, calculate fiecare pentru un anume nivel al lui . Mai nti cutm tabela pentru dorit (s
zicem, =0.05). Apoi citim valoarea critic pentru F la intersecia dintre coloana care reprezint numrul
gradelor de libertate pentru numrul grupurilor (dfB) cu linia care reprezint numrul gradelor de libertate
pentru volumul total al subiecilor (dfW). Dac valoarea obinut prin calcul este mai mare sau egal dect
cea tabelar, atunci putem lua decizia de respingere a ipotezei de nul.
O precizare important cu privire la ANOVA ca test statistic, privete caracterul ei unilateral (onetailed). ntr-adevr, spre deosebire de celelalte teste studiate pn acum, ANOVA este interpretat ntr-o
singur direcie i anume, dac mediile grupurilor difer semnificativ ntre ele (au o variaie mai mare dect
cea normal pentru o distribuie aleatoare). Nu putem avea o valoare negativ pentru F i, ca urmare, testul F
este ntotdeauna un test unilateral.
Calculm F pe baza datelor centralizate n tabelul urmtor10[4]:
X
N
M
s2
(m-M)
(m-M)2
Intensitatea fumatului
MARE
MEDIE
MIC
X1
X2
(X2X3
(X1-m1)2
(X3-m3)2
(anxietate)
(anxietate)
m2)2
(anxietate)
9
1,37
4
,11
3
1,00
7
,69
7
7,13
5
1,00
6
3,35
3
1,77
2
4,00
8
,03
6
2,79
1
9,00
10
4,71
4
,11
6
4,00
7
,69
2
5,43
7
9,00
47
10,83
26
17.33
24
28
6
6
6
m1=7.83
m2=4.33
m3=4.00
M=(m1+m2+m3)/3=5.39
2.17
3.47
5.60
2.44
-1.06
-1.39
5.95
1.12
1.93
(m-M)2=9
Calculm numrtorul, adic dispersia mediilor celor trei grupuri. Dat fiind faptul c nu cunoatem
dispersia populaiei vom utiliza dispersia eantioanelor, conform formulei 3.18 pentru grupuri egale.
Prin nlocuire cu valorile calculate n tabelul de mai sus, obinem:
s 2int ergrup 6 *
5.95 1.12 1.93

6 * 4.5 27
2
Mai departe, calculm numitorul raportului F (s2intragrup), prin nlocuirea valorilor calculate pentru
dispersiile din interiorul celor trei grupuri luate separat, n formula 3.15:
2
s 2 int ragrup
10[4]
s1 s2 s3
2.17 3.47 5.6
3.75
N grupuri
3
Atenie, acest mod de prezentare a datelor servete calculrii manuale a testului F. ntr-o baz de date SPSS vom avea cte o
nregistrare pentru fiecare subiect, cu dou variabile, una pentru nivelul anxietii i cealalt pentru intensitatea fumatului, aceasta
din urm cu trei valori convenionale, s zicem 1, 2, 3 pentru fiecare nivel de intensitate a fumatului.
n acest caz dfintragrup=nr. grupurilor, pentru c N1=N2=N3

n final, calculm raportul F:
s 2 int ergrup
27
F 2
7.20
s int ragrup 3.75
Valoarea astfel obinut o comparm cu F critic gsit anterior n tabel. Constatm c F calculat (7.2),
este mai mare dect F critic (3.6823).
Decizia statistic:
Respingem ipoteza de nul i acceptm ipoteza cercetrii: Nivelul anxietii prezint o variaie n
legtur cu intensitatea fumatului, evaluat n cele trei categorii.
Publicarea rezultatului testului F (ANOVA)
n raportul de publicare pentru ANOVA vor fi descrise grupurile (categoriile) comparate, mediile lor,
valoarea testului F cu numrul gradelor de libertate i pragul de semnificaie al testului. ntr-o manier
narativ, rezultatul obinuit pe exemplul de mai sus, poate fi prezentat astfel:
Au fost comparai subieci fumtori, grupai n trei categorii pe baza numrului zilnic de igri (110 igri, 11-20 igri, 21-30 igri), n funcie de nivelul scorului la un test de anxietate. Mediile
anxietii pentru cele trei grupuri au fost 7.83, 4.33, respectiv 4. Analiza de varian unifactorial a relevat
o diferen semnificativ ntre aceste medii, F (2, 15)=7.2; p0.05.
Graficul urmtor prezint variaia mediilor anxietii celor trei categorii de fumtori. Aa cum se
observ, nivelul anxietii scade de la categoria marilor fumtori la cei care fumeaz sub 20 de igri pe zi. n
acelai timp, putem constata c marii fumtori manifest un nivel considerabil mai ridicat dect celelalte
dou categorii, ntre care diferenele de anxietate sunt ceva mai mici.
M
ia
d
e
n
ie
x
ta
e
m
ta
1-3
tig
0
arf1-2
tu
0
a
ig
r2
-0
1
tiga
r
42
5
6
7
8
Acest lucru ne poate sugera c, dei semnificativ pe ansamblul celor trei categorii, cea mai mare
cantitate de variaie provine de la distana dintre media grupului de mari fumtori i celelalte dou. Msura n
care fiecare dintre grupurile prezente n studiu contribuie la variana total va putea fi pus n eviden prin
analiza post-hoc. Pentru a nu apela la formule complicate i la calcule greoaie, vom prezenta modul de
operare cu analiza post-hoc mai departe, n seciunea SPSS.
Se va reine c raionamentul i modul de calcul al ANOVA prezentat mai sus pentru o variabil
independent cu trei categorii se menine identic i pentru un numr mai mare de categorii. n acest caz,
desigur, volumul prelucrrilor este corespunztor mai mare. n fine, este de precizat faptul c valoarea n sine
a testului ANOVA, ca i a testului t, de altfel, nu este relevant. Singurul aspect care face obiectul
interpretrii este semnificaia testului, probabilitatea cu care valoarea raportului F ar fi putut fi mai mare
dac valorile testate ar fi fost aleatoare.
Avantajele ANOVA
Utilizarea ANOVA pentru testarea ipotezelor n cazul unui numr mai mare de grupuri (eantioane)
prezint dou avantaje. Primul, ine de ceea ce am precizat deja, i anume faptul c reducem riscul cumulrii
unei cantiti prea mare de eroare de tip I, prin efectuarea repetat a testului t. Al doilea, rezult din faptul c
avem posibilitatea s punem n eviden diferene semnificative ntre mediile a mai multe grupuri, chiar i
atunci cnd nici una dintre ele nu difer semnificativ una de cealalt (testul t).
Dei, n mod normal, analiza de varian este utilizat doar n situaia n care se dorete testarea
diferenei dintre mediile a mai mult de dou grupuri independente, ea poate fi utilizat i n cazurile n care
exist numai dou grupuri. Dar, utilizarea testului t pentru testarea diferenei dintre dou medii este o metod
mult mai direct, mai uor de aplicat i de neles, dect analiza de varian.
Condiii de utilizare a testului ANOVA
Utilizarea analizei de varian unifactoriale presupune ndeplinirea urmtoarelor condiii:
o independena eantioanelor (grupurilor supuse comparaiei)

o normalitatea distribuiei de eantionare, n conformitate cu teorema limitei centrale
o egalitatea varianei grupurilor comparate (denumit homoscedasticitate)
Atunci cnd una sau mai multe dintre aceste condiii nu sunt ntrunite, se poate adopta una dintre
soluiile urmtoare:
o renunarea la ANOVA n favoarea unei prezentri descriptive (soluie care ne lipsete de
posibilitatea unei concluzii testate statistic)
o transformarea variabilei dependente astfel nct s dobndeasc proprietile necesare (printre
metodele uzuale, citm aici doar logaritmarea sau extragerea radicalului din toate valorile
variabilei dependente)
o transformarea variabilei pe o alt scal de msurare i aplicarea altui test statistic (de exemplu,
prin transformarea pe o scal nominal, se poate aplica testul neparametric chi-ptrat sau, prin
transformarea pe o scal ordinal, se poate aplica testul neparametric Kruskal-Wallis, ambele
fiind tratate mai departe)
Analiza post-hoc
Testul ANOVA ne ofer o imagine global a relaiei dintre categoriile variabilei independente i
valorile variabilei dependente, fr s ne spun nimic cu privire la sursa de provenien acesteia. n
exemplul nostru, valoarea obinut pentru F ar putea decurge doar prin contribuia unui singur grup (s
zicem, marii fumtori), celelalte grupuri avnd o contribuie minor sau inexistent. Cercettorul poate
fi, ns, interesat care dintre grupuri difer ntre ele i n ce sens.
Pentru a rezolva aceast problem, au fost dezvoltate diverse teste, denumite post-hoc, calculate
dup aplicarea procedurii ANOVA. Printre cele mai frecvent utilizate sunt testele: Scheffe, Tukey i
Bonferoni (desigur, se utilizeaz unul sau altul dintre ele, la alegere). Nu vom intra n detalii teoretice i de
calcul cu privire la aceste teste. Fiecare are avantajele i dezavantajele sale. Important aici este s nelegem
c testele post-hoc se interpreteaz n mod similar testului t pentru diferena mediilor pentru eantioane
necorelate, calculate astfel nct s ia, att ct se poate, msuri de precauie mpotriva excesului de eroare de
tip I menionat anterior. Este important de reinut faptul c analiza post-hoc este permis numai dac a fost
obinut un rezultat semnificativ pentru testul F. Aceasta nseamn c analiza post-hoc nu poate fi utilizat ca
substitut pentru testul t efectuat n mod repetat. Ca urmare, n practic, analiza de varian va cuprinde dou
faze: prima, in care se decide asupra semnificaiei testului F, i a doua, n cazul c acest raport este
semnificativ, n care se analizeaz comparativ diferenele dintre categoriile analizate, pe baza unui test posthoc.
n ce privete calcularea testelor post-hoc menionate mai sus, vom prezenta modul lor de calcul n
seciunea dedicat programului SPSS.
***
TEMA PENTRU ACAS
Un psiholog trebuie s recomande unui patiser culoarea glazurii pentru un nou tip de prjitur, avnd
de ales ntre verde, rou i galben.
n acest scop alege 18 subieci, crora le cere s efectueze o sarcin plictisitoare avnd la ndemn
platouri cu prjituri glazurate. Subiecii sunt mprii n trei grupe, fiecare primind prjituri de o singur
culoare. Dup un timp, numr cte prjituri a mncat fiecare subiect din cele trei grupuri i construiete
tabelul urmtor.
Verde
3
7
1
0
9
2
-
Rou
3
4
5
6
4
6
Galben
2
0
4
6
4
1
Gsii F critic pentru =0.05

Calculai F
Care este decizia statistic n acest caz
Prezentai rezultatul n format APA
Testul t pentru diferena dintre mediile a dou eantioane dependente

Testele de comparaie prezentate pn aici (t i ANOVA) au vizat situaii n care mediile comparate
aparineau unor grupuri compuse din subieci diferii i independeni, (motiv pentru care sunt denumite ca
independente). Din cauz ca acest model presupune comparaii ntre subiecti, el se mai numete i model
intersubiect (betwenn subject design).
Un alt model uzual n cercetarea psihologic vizeaz comparaia a dou valori msurate pe aceiai
subieci. Iat cteva situaii de cercetare tipice:
a) Situaiile n care n care o anumit caracteristic psihologic se msoar naintea unei
condiii i dup aciunea acesteia. Exemple: (i) evaluarea nivelului anxietii nainte i dup
un program de desensibilizare; (ii) evaluarea performanei cognitive a unui lot de subieci,
nainte i dup procedura de ascensiune simulat n camera barometric la 5000m; (iii)
evaluarea unei timpului de reacie nainte i dup ingerarea unei substane. Deoarece se
bazeaz pe msurri repetate ale aceleiai variabile, acest model de cercetare este cunoscut ca
modelul msurrilor repetate (repeated-measures design).
b) Situaiile n care cercettorul utilizeaz dou condiii de investigare, dar plaseaz aceiai
subieci n ambele condiii. De exemplu, ntr-un studiu asupra efectelor unui anumit tip de
stimulare, se pot msura undele cerebrale, simultan n cele dou emisfere cerebrale. Fiind
vorba despre msurarea unor variabile care sunt evaluate concomitent, la aceiai subieci,
acesta este un model intrasubiect (within-subjects design).
c) Situaiile n care natura situaiei experimentale nu permite utilizarea acelorai subieci pentru
cele dou msurri. De exemplu, n cazul unei intervenii terapeutice care are un efect pe
termen foarte lung. n acest caz se poate gsi pentru fiecare subiect corespunztor condiiei
iniiale un subiect similar, corespunztor condiiei finale, constituind astfel perechi de
subieci aparinnd fiecare unui grup distinct, ntre care se poate face o comparaie direct.
Ca urmare, dei diferii, vom trata cei doi subieci din pereche ca i cum ar fi aceeai
persoan. Sau, ntr-un alt context, putem compara subieci care sunt ntr-un anumit tip de
relaie, interesndu-ne diferena dintre ei sub o anumit caracteristic. De exemplu, ne poate
interesa daca ntre nivelul de inteligen dintre bieii i fetele care formeaz cupluri de
prieteni, exist o anumit diferen. n acest caz, dei avem dou eantioane distincte, fiecrui
subiect din eantionul de biei i corespunde un subiect din eantionul de fete, constituirea
celor dou eantioane fcndu-se pe baza relaiei de prietenie dintre ei. n aceiai categorie se
afl comparaiile ntre perechi de gemeni sau cele dintre soi. n astfel de cazuri, avem de a
face cu aa numitul model al eantioanelor perechi (matched pairs design).
Indiferent de tipul lor, toate modele prezentate mai sus au un obiectiv similar, acela de a pune n
eviden n ce msur o anumit condiie (variabila independent) corespunde unei modificri la nivelul unei
caracteristici psihologice oarecare (variabila dependent). Vom observa c, n toate exemplele evocate,
variabila independent este una de tip nominal, dihotomic (nainte/dup; semestru/sesiune; grup de
cercetare/grup de control; biat/fat; so/soie, etc.), n timp ce variabila dependent se msoar pe o scal de
interval/raport. De asemenea, scoatem n eviden faptul c n ambele situaii se utilizeaz msurtori de
acelai fel, cu acelai instrument, care produce valori exprimate n aceeai unitate de msur, ntre care se
poate efectua un calcul direct al diferenei.
Pentru descrierea testului statistic adecvat acestor situaii s ne imaginm urmtoarea situaie
generic de cercetare: Un grup de pacieni cu tulburri de tip anxios sunt inclui ntr-un program de
psihoterapie, avnd drept scop ameliorarea nivelului anxietii. nainte de nceperea programului a fost
aplicat o scal de evaluare a anxietii. Acelai instrument a fost aplicat din nou, dup parcurgerea
programului de terapie.
Aici s-ar putea pune ntrebarea de ce nu considerm valorile rezultate din cele dou msurtori ca
fiind independente, urmnd s utilizm testul t pentru acest tip de date? Exist mai multe argumente n
favoarea respingerii acestei variante simplificatoare:
Utilizarea valorilor perechi ofer informaii mai bogate despre situaia de cercetare. n modele
de cercetare de tip nainte/dup ea capt chiar valene de experiment;
Testul t pentru eantioane independente surprinde variabilitatea dintre subieci, n timp ce testul
t pentru eantioane dependente (msurri repetate) se bazeaz pe variabilitatea intra-subiect,
aceea care provine din diferena valorilor de la o msurare la alta, la nivelul fiecrui subiect n
parte;
Dac exist o diferen real ntre subieci, atunci testul diferenei dintre valorile perechi are
mai multe anse s o surprind dect cel pentru valori independente.
Revenind la tema de cercetare pe care am enunat-o mai sus, dei avem aceiai subieci, i n primul
i n al doilea caz, ne vom raporta la aceasta situaie ca i cum ar fi dou eantioane. Unul al subiecilor care
nu au urmat nc un program de terapie, iar celalalt, al subiecilor care au urmat un astfel de program.
Datorit faptului c cele dou eantioane sunt formate din aceiai subieci, ele se numesc dependente sau
corelate.
n acest tip de studiu, obiectivul testului statistic este acela de a pune n eviden semnificaia
diferenei dintre mediile anxietii n cele dou momente. Cea mai simpl procedur de calcul este metoda
diferenei directe. Pentru aceasta, calculm diferenele fiecrei perechi de valori din cele dou distribuii (X2X1), obinnd astfel o distribuie a diferenelor, pe care o vom nota cu D.
Logica ipotezei de nul
Dac programul de terapie ar fi total ineficient, trebuie s presupunem c diferenele pozitive le-ar
echilibra pe cele negative ceea ce, la un numr mare de eantioane ipotetice, ar conduce la o medie a
diferenelor egal cu 0. Ca urmare, ipoteza de nul presupune c media diferenelor la nivelul populaiei este
0. Ceea ce nseamn c testul t trebuie s demonstreze c media diferenelor msurate este suficient de
departe de 0, pentru a respinge ipoteza de nul i a accepta ipoteza cercetrii.
Rezult c putem reduce metoda de calcul la formula testului t pentru un singur eantion:
t
m
sm
care devine n cazul nostru:

t
mD D
sD / N
formula 3.20
unde mD este media distribuiei D (a diferenelor dintre cele dou msurri), D este media populaiei de
diferene, iar sD este eroarea standard a distribuiei D (msoar mprtierea distribuiei D).
Exemplu analitic de calcul
Problema cercetrii: Se poate obine o reducere a reaciilor anxioase prin aplicarea unei anumite
proceduri de psihoterapie?
Ipoteza cercetrii (H1):
Pentru test bilateral Programul de psihoterapie are un efect asupra anxietii.
Pentru test unilateral Programul de psihoterapie reduce intensitatea reaciilor de tip anxios.
Ipoteza de nul (H0):
Pentru test bilateral Programul de psihoterapie nu are nici un efect asupra anxietii.
Pentru test unilateral Programul de psihoterapie nu reduce nivelul anxietii.
Populaiile cercetrii:
Populaia 1 Subiecii cu anxietate ridicat care nu au urmat un program de terapie
Populaia 2 Subiecii cu anxietate ridicat care au urmat un program de terapie
Ipoteza cercetrii afirm c ele sunt diferite, n timp ce ipoteza de nul afirm c ele sunt identice.
Eantion: Un singur grup de subieci cu probleme anxioase (N=8) al crui nivel de anxietate este
evaluat nainte i dup programul de terapie.
Criteriile deciziei statistice
Alegem modul de testare a ipotezei: bilateral
Fixm, convenional, nivelul =0.01 S spunem c preferm acest nivel deoarece costurile de
implementare a programului sunt destul de mari, iar pacienii trebuie convini c merit timpul i banii.
Cutm t critic pentru =0.01 n tabelul distribuiei t, pentru 7 grade de libertate (8-1). Tabelul ne d
valorile pentru un test unilateral (dreapta curbei). Pentru testul bilateral trebuie mai nti s njumtim
valoarea aleas pentru (0.01/2=0.005). n continuare, cutm valoare aflat la intersecia coloanei gradelor
de libertate (7) cu coloana lui =0.005 i citim t critic= -3.49. i atribuim semnul minus, deoarece ne
ateptm ca nivelul anxietii s scad dup aplicarea programului de terapie.
X
N
Datele cercetrii:
nainte de
Dup
program
program
(X1)
(X2)
6
6
8
7
10
11
9
8
5
5
6
5
11
10
5
4
60
56
8
8
D
(X2-X1)
.00
-1.00
1.00
-1.00
.00
-1.00
-1.00
-1.00
-4
8
D-mD
.50
-.50
1.50
-.50
.50
-.50
-.50
-.50
(D-mD) 2
.25
.25
2.25
.25
.25
.25
.25
.25
(D-mD)2=4
sD =
X
N
nainte de
program
(X1)
Dup
program
(X2)
D
(X2-X1)
7.50
7.00
mD=-0,5
(D mD ) 2
N 1
D-mD
(D-mD) 2
4
0.75
7
Not: n principiu, sub aspectul procedurii statistice, nu prezint nici o importan dac utilizm diferena
X1-X2 sau X2-X1. Depinde de ceea ce dorete s determine cercettorul. Important este ca, n final, s
interpreteze corect rezultatul obinut, n funcie de semnul diferenei i semnificaia concret a acestuia.
Totui, n modelele de tip nainte/dup, este mai adecvat utilizarea diferenei X2-X1.
Introducem valorile n formula 3.20 i obinem:
t
0,5
0,75 / 8
2.08
Raionamentul decizional
Comparm t calculat cu t critic pentru =0.01 bilateral: -2,08 < -3.49

Decizia statistica: acceptm ipoteza de nul. Probabilitatea de a se obine un nivel al anxietii
mai redus doar ca urmare a jocului hazardului este mai mare dect nivelul pe care ni l-am impus
drept criteriu de decizie (adic mai mic de 1%).
Decizia cercetrii: datele nu sprijin ipoteza cercetrii. Ca urmare, nu putem accepta c efectul
obinut se datoreaz programului de terapie. Programul de terapie nu reduce n mod semnificativ
nivelul anxietii.
Publicarea rezultatului
La publicare se vor meniona: volumul eantionului, mediile variabilei dependente n raport cu valorile
variabilei independente, valoarea testului t, pragul de semnificaie i dac testul a fost unilateral sau bilateral.
Avnd n vedere faptul c, uzual, testele statistice se efectueaz bilateral, se poate meniona numai cazul n
care testul este unilateral, eventual cu explicarea motivului pentru care a fost preferat aceast soluie.
Pentru exemplul de mai sus, o prezentare narativ a rezultatului ar putea arta astfel:
Un eantion de 8 subieci cu probleme de anxietate au participat la un program de terapie anxiolitic.
Nivelul anxietii (msurat cu o scal specific) a fost evaluat nainte i dup programul de terapie. S-a
constatat o reducere a nivelului anxietii de la o medie de 7.50 la 7.0, dup aplicarea terapiei. Diferena nu
a atins pragul semnificaiei statistice t(7)=-2,08, p>0.01, pentru =0.01 bilateral.
Limitele de ncredere pentru diferena dintre medii
La fel ca i n cazul testului t pentru eantioane independente, se pune problema generalizrii
rezultatului la nivelul populaiei, cu alte cuvinte, care este intervalul n care ne putem atepta s se afle
diferena dintre medii, pentru variabilele studiate. Pentru o estimare cu o precizie de 99%, conform cu nivelul
alfa ales, limitele critice pentru diferena dintre medii sunt cele care corespund valorilor lui p=0,005, de o
parte i de alta a curbei t (3.4998). Formula de calcul pentru intervalul de ncredere deriv, i n acest caz,
din formula testului:
t
mD D
sD / N
de unde rezult formula pentru calculul limitelor de ncredere ale mediei diferenei:
D m D t crit *
sD
N
n condiiile studiului nostru, decizia statistic de acceptare a ipotezei de nul a infirmat ipoteza
cercetrii dar analiza intervalului de ncredere poate ajuta la nelegerea mai bun a situaiei. nlocuind
valorile corespunztoare studiului nostru, obinem urmtoarele limite de ncredere:
Limita inferioar: D = -0,5-(-3.4998)*0.26=+0.40
Limita superioar D = -0,5+(-3.4998)*0.26=-0.90
Rezultatul arat c dac media diferenei n condiiile eantionului de cercetare este de 0.5, atunci
media adevrat a diferenie, la nivelul populaiei, se afl, cu o probabilitate p=0.99 (sau 99%), ntre o limit
inferioar de +0.40 i o alta superioar de -0.90.
Not: n acest caz, +0.40 este limita inferioar deoarece t critic este negativ, iar o diferen mai aproape de zero, nseamn o
valoare mai mic n raport cu extrema negativ a curbei.
Imaginea ilustreaz faptul c n, condiiile estimate pe eantionul de diferene cercetat, diferena

real la nivelul populaiei de perechi de eantioane ar fi undeva ntre o valoare minim de +0.40 i una
maxim de -0.90. Ceea ce ne atrage atenia este faptul c intervalul de ncredere include i valoarea zero,
care corespunde diferenei nule dintre mediile eantioanelor comparate. Acest lucru corespunde faptului c
testul t a avut o valoare nesemnificativ.O analiz a datelor ar putea s i arate cercettorului c unul dintre
subieci a obinut un scor mai mare al anxietii dup terapie, fapt care este nefiresc i trebuie luat n discuie.
Acest caz se pare ca a fost decisiv n neatingerea pragului de semnificaie. O discuie cu subiectul n cauz
poate conduce la concluzia c problemele lui sunt de alt natur i c, n cazul su, terapia respectiv nu este
eficient pentru c nu este adecvat suferinei pe care o are. Dac se constat c aa stau lucrurile n realitate,
psihologul poate elimina din calcul valoarea acelui subiect, i poate reface calculele, situaie n care testul t ar
putea deveni semnificativ iar metoda terapeutic, validat. Atenie, ns, dac n acest exemplul am
recomandat eliminarea cazului atipic, am fcut-o bazai pe presupunerea c inadecvarea respectiv a fost
dovedit convingtor i indubitabil. Eliminarea nejustificat a valorilor neconvenabile dintr-o cercetare este
interzis.
Nu trebuie s omitem faptul nici faptul c, n exemplul nostru, este vorba de un eantion foarte mic
iar eantioanele de acest gen conduc la valori mari ale erorii standard a mediei i, prin aceasta, la intervale de
ncredere mai largi. Chiar atunci cnd obinem rezultate semnificative pe eantioane mici, ele pot prezenta un
interval de ncredere mai mare dect rezultatele obinute pe eantioane mari. n acelai timp, trebuie s
reinem c distribuia de eantionare a mediilor obinute pe eantioane mici este instabil, fapt care impune
cel puin replicarea cercetrii, pentru mai mult siguran.
***
TEMA PENTRU ACAS
Ne propunem s scoatem n eviden efectul stresului temporal (criza de timp) asupra performanei de
operare numeric. n acest scop, selectm un eantion de subieci crora le cerem s efectueze un test de calcule
aritmetice n dou condiii experimentale diferite: prima, n condiii de timp nelimitat, cu recomandarea de a lucra ct
mai corect; a doua, n condiii de timp limitat, cu condiia de a lucra ct mai repede i mai corect n acelai timp.
Rezultatele celor dou reprize sunt cele din tabelul alturat. S se rezolve urmtoarele sarcini:
Fr
criz de timp
67
79
83
80
99
95
80
100
1.
2.
3.
4.
5.
6.
Cu
criz de timp
65
73
70
85
93
88
72
69
Formularea ipotezei cercetrii i a ipotezei de nul

Stabilirea valorii t critic pentru =0,05 bilateral
Calcularea testului t
Decizia statistic
Decizia cercetrii
Formularea concluziei n raportul de cercetare (format APA)
Coeficientul de corelaie liniar (Pearson)

Introducere
Testul t pentru eantioane dependente se aplic n situaia n care avem o variabil dependent
msurat n dou situaii diferite. n practica cercetrii, ns, exist i situaia n care avem dou variabile
dependente, msurate pentru aceiai subieci. Cu alte cuvinte, avem dou msurri pentru aceiai subieci,
dar efectuate cu instrumente diferite. Acest gen de situaie este ntlnit n cercetri a cror problem se
exprim n maniera: exist o legtur ntre numrul atitudini pozitive pe care le manifest oamenii i
numrul atitudinilor pozitive pe care le primesc din partea celor din jur?. Sau: exist o legtur ntre
timpul de reacie i nivelul extraversiunii ca trstur de personalitate?. n aceste cazuri avem dou
variabile dependente cu valori perechi pentru fiecare subiect i nici o variabil independent.
Pentru situaii de acest gen, problema care se pune este existena unei relaii variaia reciproc a
acelor dou variabile. Testul statistic utilizat este testul de corelaie (coeficientul de corelaie). Termenul de
corelaie, nainte de a fi un concept statistic este un cuvnt uzual n limbajul cotidian. n esen, el exprim o
legtur ntre anumite aspecte ale realitii aa cum este ea reflectat n plan observaiei directe. (O parcare
plin cu maini ne sugereaz c magazinul alturat este plin cu cumprtori, ntre numrul de maini din
parcare i numrul de cumprtori existnd o anumit corelare).
La nivel statistic, corelaia exprim o legtur cantitativ sistematic ntre valorile a dou variabile
perechi, msurate pe subieci aparinnd aceluiai eantion de cercetare.
S presupunem c un grup de studeni au efectuat un test de inteligen bazat pe raionament
abstract/figurativ i unul altul, bazat pe raionament verbal/logic. Dac pe msur ce performana la unul
dintre teste crete concomitent cu performana la cellalt test, avem ceea ce se numete o corelaie pozitiv.
Dac, dimpotriv, creterea performanei la un test este asociat cu scderea performanei la celalalt test, ne
aflm n faa unei corelaii negative. Este evident c exist i posibilitatea ca variaia performanei la unul din
teste s nu aib nici o legtur cu variaia performanei la al doilea test.
Intensitatea legturii dintre cele dou valorile celor dou distribuii se exprim prin coeficientul de
corelaie liniar, notat cu simbolul r. Introdus de Karl Pearson[1], el mai este cunoscut i sub numele de
coeficientul de corelaie Pearson, sau al moment-produsului, dup expresia uneia din formulele de calcul.
n exemplul de mai sus am presupus valori care se refer la dou teste de inteligen, msurate,
ambele, prin numrul de rspunsuri corecte. Cum am putea corela ns, dou variabile msurate fiecare cu
alt unitate de msur, de exemplu, timpul de reacie n sutimi de secund, cu extraversiunea, exprimat prin
scorul la un test? Soluia cea mai simpl este aceea de a transforma ambele variabile n distribuii
standardizate z, care sunt independente de unitatea de msur. Pe aceast transformare se bazeaz i formula
de calcul a coeficientului de corelaie:
r
* zy
(formula 3.21)
unde zx respectiv zy sunt scorurile z ale variabilelor x i y iar N este volumul eantionului
Dac presupunem c cele dou variabile au valori identice, atunci zx ar fi egali cu zy iar formula ar deveni:
z
r
(formula 3.22)
n continuare, prin nlocuirea expresiei de calcul a lui z am ajunge la formula deja cunoscut a
dispersiei. Ori, tim c dispersia unei distribuii z este ntotdeauna egal cu +1. Am obinut astfel valoarea
maxim pe care o poate atinge coeficientul de corelaie n cazul unei corelaii pozitive perfecte (r max=+1). n
cazul unei corelaii negative perfecte, conform aceluiai raionament, obinem valoarea minim a
coeficientului de corelaie (rmin= 1).
Reprezentarea grafic a corelaiei
Plasarea valorilor celor dou variabile pe un grafic produce o imagine intuitiv a relaiei dintre valori.
Acest tip de grafic se numete scatterplot.
n cazul unei corelaii pozitive, reprezentrile scatterplot pot arta astfel:
Relaie direct Corelaie pozitiv
r = 1.00
r = .80
r = .20
+
|
|________________
+
|
|

|
|

|________________
|________________
Tendina este aceea ca valorilor mari de pe axa orizontal s le corespund valori mari pe axa vertical. n
cazul unei corelaii pozitive perfecte (r=+1), punctele de intersecie ale perechilor de valori se plaseaz pe o
linie. Cu ct corelaia este mai mic, cu att norul de puncte este mai larg dar forma elipsei indic relaia
pozitiv dintre cele dou variabile.
n imaginea de mai jos avem reprezentri scatterplot caracteristice pentru corelaii liniare negative.
Relaie indirect- Corelaie negativ
r = -1.00
r = -.80
r = -.20
+
|
|
|________________
+
+
|
|

|
|________________
+
+
|
|
|

|
|________________
+
Tendina este aceea ca valorilor mari de pe axa orizontal s le corespund valori mici pe axa vertical. Ca
urmare, att linia corelaiei negative perfecte (r=-1) ct i diagonala mare a elipsei norului de puncte al
corelaiei imperfecte se orienteaz din stnga sus spre dreapta jos a sistemului de coordonate.
Atunci cnd corelaia dintre cele dou variabile este inexistent, norul punctelor de intersecie are o form
circular, care nu contureaz nici o tendin (r=0).
Nici o relaie Nu exist corelaie
r = 0.00
|

|
|

|

|________________
+
Calcularea coeficientului de corelaie liniar (Pearson)

De obicei, pentru a uura calcularea manual a coeficientului de corelaie, atunci cnd avem date
numeroase, formula 3.21 este transformat prin nlocuirea expresiilor pentru scorul z. Se obine astfel o
formul cu aparen mai complicat, dar mai uor de pus n practic, deoarece se bazeaz pe valori care se
obin prin calcule simple:
* zy
( X m ) / s * (Y m ) / s
x
de unde obinem:
X m * Y m
x
N * sx * s y
(formula 3.23)
unde:
X i Y reprezint valorile individuale ale distribuiilor X i Y
mx i my reprezint mediile distribuiilor X i Y
sx i sy reprezint abaterile standard ale distribuiilor X i Y
N este volumul eantionului

Formula 3.23, numit i a momentului produselor poate fi utilizat pentru calcule, la fel de bine ca
i formula 3.22, obinndu-se rezultate identice.
EXEMPLU DE CALCUL
Vom lua n considerare cazul aplicrii celor dou teste de raionament de tip diferit. n acest caz,
ipoteza cercetrii se exprima n maniera: exist o legtur (corelaie) ntre cele dou tipuri de raionament,
cei care obin rezultate bune la unul din teste, vot tinde sa obin rezultate bune i la celalalt. Desigur, ipoteza poate
fi formulat i corespunztor unei corelaii negative, dac avem motive s presupunem acest lucru.
Scorul la un test de calcul
aritmetic
X
ZX
25 29.63
6.76
= -.68
25
32
40
29
31
16
28
36
X = 237
mX= 29.63
sX = 6.76
.35
1.53
- .09
.20
-2.02
- .24
.94
Scorul la un test de raionament

verbal
Y
ZY
28
27
41
34
25
19
26
39
Y = 239
mY = 29.88
sY = 7.01
28 29.88
7.01
= -.27
- .41
1.59
.59
-.70
-1.55
- .55
1.30
Produsul
Z
ZX*ZY
(-.68)(-.27) = .18
- .14
2.43
- .05
- .14
3.13
.13
1.23
zX*zY = 6.77
Graficul scatterplot exprim o asociere pozitiv ntre cele dou variabile:
Pentru calcularea coeficientului de corelaie am ales formula de definiie (11.1), care se preteaz la distribuii
cu numr mic de valori. nlocuind valorile n formul, obinem coeficientului de corelaie:
* zY
6.77
0.85
8
Semnificaia coeficientului de corelaie

La fel ca i n cazul celorlalte teste statistice, i coeficientul r se raporteaz la o distribuie teoretic, derivat
din distribuia t. Indiferent ct de mare este r calculat, nu putem avea ncredere n acesta atta timp ct nu tim n ce
msur este diferit de un r care ar rezulta prin jocul ntmplrii. Pentru aceasta se utilizeaz distribuia t i o formul
care deriv din testul t.
Pentru uurarea evalurii semnificaiei, a fost creat un tabel special cu praguri de semnificaie ale
coeficientului de corelaie r i care poate fi folosit fr a mai fi necesar utilizarea formulei (Anexa 4). Practic, se caut
n tabel care este nivelul lui r pentru numrul gradelor de libertate (df=N-2) i pragul ales n prealabil. Dac valoarea
tabelar este cel puin egal cu valoarea calculat a lui r, atunci ipoteza de nul se respinge, coeficientul de corelaie
fiind considerat semnificativ.
n cazul exemplului de mai sus, pentru test unilateral, =0.05 i df=6 (8-2), citirea tabelului se face ca n figura
alturat.
Valoarea din tabel a lui r este 0.62. n timp ce valoarea calculat de noi este 0.85. Aceasta nseamn c am obinut un
coeficient de corelaie mai mare dect cel care ar fi rezultat prin jocul ntmplrii [2].
Ca urmare, respingem ipoteza de nul (ntre cele dou variabile nu este nici o legtur) i acceptm ipoteza cercetrii
(performana aritmetic i cea verbal logic sunt corelate, variaz concomitent, n acelai sens )
Interpretarea coeficientului de corelaie
Aa cum am spus deja, avem o corelaie perfect atunci cnd r este egal cu +1 sau 1. Valoarea
obinut de noi (+0.85) este apropiat de +1 ceea ce ne sugereaz c ntre cele dou tipuri de performan
exist o legtur. Desigur, +0.85 este mai puin dect +1 dar i mai mult dect, s zicem, +0.32. O asemenea
interpretare, dei absolut corect, nu poate fi satisfctoare. Se simte necesitatea de a avea un criteriu de
valorizare a cuantificrii numerice a corelaiei. De-a lungul timpului au fost propuse diverse astfel de scale
de valorizare, prin atribuirea unor calificative coeficienilor de corelaie, n funcie de mrimea lor. Aceast
problem comport multe discuii iar soluiile oferite de diferii autori sunt deseori diferite. Ca regul
general, toi autorii sunt de acord c valorile sub 0,1 ale coeficienilor de corelaie trebuie s fie considerate
neglijabile, chiar i atunci cnd ating pragul de semnificaie statistic. Mai departe, oferim, cu caracter
orientativ, modelul de descriere sugerat de Hopkins [3] cu privire la interpretarea valorilor coeficienilor de
corelaie:
Coeficientul de corelaie Descriptor
0.0-0.1
Foarte mic, neglijabil, nesubstanial
0.1-0.3
Mic, minor
0.3-0.5
Moderat, mediu
0.5-0.7
Mare, ridicat, major
0.7-0.9
Foarte mare, foarte ridicat
0.9-1
Aproape perfect, descrie relaia dintre dou variabile practic indistincte
naintea oricrui calificativ ns, prima condiie pentru a lua n considerare existena unei corelaii
ntre dou variabile rmne atingerea pragului de semnificaie (alfa). Dac valoarea lui r corespunde unui
nivel alfa mai mare de 0.05, sau dect alt prag legitim decis de cercettor, existena unei corelaii este de
neluat n seam, indiferent de mrimea coeficientului Pearson. Aceasta, deoarece nu avem temei pentru a
accepta c se ndeprteaz suficient de o valoare care ar fi putut decurge din jocul hazardului. n cele din
urm, ce trebuie s lum n considerare, semnificaia sau intensitatea asocierii? Desigur, rspunsul este unul
relativ. Dac finalitatea studiului este aceea de a lua decizii, ca n cazul seleciei de personal, de exemplu, se
vor cuta valori ct mai mari ale coeficientului de corelaie (r), implicit ale celui de determinare (r2). Dar,
dac obiectivul este preponderent teoretic, de a pune n eviden relaii ascunse ntre variabile, atunci
indiferent de mrimea lor, coeficienii de corelaie vor fi luai n considerare (dar numai dac sunt mai mari
de 0.1).
Limitele de ncredere pentru coeficientul de corelaie
Atunci cnd calculm coeficientul de corelaie pentru valorile msurate pe un eantion o facem,
desigur, cu scopul de a avea o estimare asupra gradului n care cele dou variabile au o variaie comun la
nivelul ntregii populaii. Deoarece calcularea corelaiei pe valorile populaiei este practic imposibil, tot
ce putem face este s o estimm, cu o anumit marj de eroare, prin utilizarea eantionului. Astfel, n termeni
formali, r (calculat pentru eantion) este o estimare pentru (ro), corelaia adevrat la nivelul populaiei.
Calcularea limitelor de ncredere
Construirea intervalelor de ncredere pentru coeficientul de corelaie la nivelul populaiei () nu este
la fel de simpl ca n cazul altor valori statistice. Atunci cnd =0, valorile rs (cele care ar fi calculate pe
eantioanele extrase din aceeai populaie) ar forma o distribuie simetric, n jurul lui zero (normal, dac
volumul eantionului este suficient de mare). Dar dac =+0.7 distribuia lui rs are o mprtiere asimetric
n jurul lui acestei valori. Motivul este simplu: este mai mult loc pentru valori sub +0.7 dect peste aceast
valoare (deoarece tim c r ia valori ntre -1 i +1). Cu ct estimarea pentru este mai aproape de limitele
teoretice ale lui r, cu att distribuia rs este mai asimetric spre partea opus. Aceast particularitate creeaz o
piedic n transformarea coeficienilor rs n scoruri Z (cu majuscul, pentru a se evita confuzia cu scorurile z
clasice), necesare construirii limitelor intervalului de ncredere pentru . Problema a fost rezolvat de Fisher,
care a elaborat un algoritm pe baza cruia valorile rs sunt transformate n valori Z, a cror arie de distribuie
sub curba normal este cunoscut:
Z = 0.5log[(1 + r)/(1 - r)]
Pentru a se evita aplicarea acestei formule relativ greoaie, se poate utiliza un tabel (vezi Anexa 5)
care, chiar dac nu conine toate valorile intermediare, este suficient pentru a acoperi nevoile practice. S
lum ca exemplu valoarea coeficientului de corelaie parial obinut de noi mai sus: r=0.85. Ne propunem s
aflm care sunt limitele de ncredere ale acestei valori, adic s definim intervalul n care se poate afla o
astfel de valoare, cu o probabilitate asumat. De regul, aa cum tim, aceast probabilitate asumat este de
0.05 sau, exprimat altfel, un nivel de ncredere de 95%.
Practic, aflarea limitelor se face astfel:
Se transform r calculat n valoare Z, citind tabela Fisher: n cazul nostru, pentru r=0.85 avem o
valoare Z=1.2561 (facem o medie ntre valorile tabelare apropiate). Pe o distribuie normal, cum este
distribuia de eantionare Z, tim c aproximativ 95% dintre valori se ntind ntre -1.96 i +1.96.
Adic, pe o distan de aproximativ dou abateri standard n jurul mediei (abaterea standard a
valorilor Z fiind 1).
Se calculeaz eroarea standard a transformrii Z, cu formula:
1
1
re
0,447
N 3
83
unde N este volumul eantionului

-
Se calculeaz limitele superioar i inferioar a intervalului: r zcritic * re , adic:

Limita superioar (exprimat n uniti Z): 1.2562+1.96*0.447=+2.132
Limita inferioar (exprimat n uniti Z): 1.2562-1.96*0.447=+0.380
Limitele astfel calculate sunt exprimate n valori transformate Z, ori noi avem nevoie s tim limitele n
valori ale lui r. Pentru aceasta, facem acum transformarea invers, citind valorile lui Z n tabela Fisher,
corespunztoare celor dou limite de mai sus:
Limita superioara de ncredere pentru r=+0.97
Limita inferioar de ncredere pentru r=+0.36
Utilizarea limitelor de ncredere
Dac analizm limitele intervalului de ncredere obinute, pentru exemplul nostru, trebuie s
constatm c ele sunt foarte mari, n zona valorilor pozitive, dar avnd limita inferioar extrem de aproape de
valoarea zero. Acest fapt conduce la concluzia c, dei este att mare i semnificativ statistic, coeficientul
obinut are o valoare mic de generalizare. Situaia este generat de volumul extrem de mic al eantionului.
Amplitudinea intervalului de ncredere este direct dependent de volumul eantionului. Cu ct N este mai
mare, cu att valoarea erorii standard tinde s scad, ceea ce aduce limitele intervalului de ncredere mai
aproape de valoarea calculat a lui r.
S ne imaginm c am efectuat un calcul de corelaie pe 30 de subieci i am obinut r=0.30. Limitele
de ncredere pentru acesta sunt ntre -0.07 i +0.60, ceea ce arat c este nesemnificativ, dat fiind faptul c
ntre cele dou limite este i valoarea zero, aceea care este vizat de ipoteza de nul. Dar, dat fiind faptul c n
formula erorii standard a lui r volumul eantionului de afl la numitor, cu ct N va fi mai mare, cu att
valoarea lui re va fi mai mic iar limitele intervalului de ncredere pentru r, mai aproape de r. Pentru
exemplul anterior, calculele ne arat c, dac am crete volumul eantionului la 50 de subieci, limita
inferioar trece deja peste valoarea zero. Celelalte linii din tabel prezint efectul de mrime al eantionului n
cazul creterii lui N pn la 100 de subieci.
Niv. de
Limite
de
ncredere
Pearson
N
ncredere
r
inferioar superioar
(%)
30
40
50
60
70
80
90
100
0,30
0,30
0,30
0,30
0,30
0,30
0,30
0,30
95
95
95
95
95
95
95
95
-0,07
-0,01
0,02
0,05
0,07
0,09
0,10
0,11
0,60
0,56
0,53
0,51
0,50
0,49
0,48
0,47
Corelaie i cauzalitate
Coeficientul de corelaie ne ofer infirmaii despre modul n care variaz valorile a dou variabile una
n raport cu cealalt. Ca urmare, nu i se poate atribui o semnificaie de cauzalitate ntre variabile dect atunci
cnd cele dou variabile au fost msurate ntr-un context care probeaz cauzalitatea. Iar acest lucru se petrece
numai n situaii de experiment.
Coeficientul de determinare
Valorile lui r trebuie considerate pe o scal ordinal. Cu alte cuvinte, nu este permis s afirmm c un
coeficient de corelaie de 0.40 este de dou ori mai mare dect un altul de 0.20. Dac dorim s comparm n
mod direct doi coeficieni de corelaie trebuie s ridicm valorile lui r la ptrat (r2) obinnd astfel ceea ce se
numete coeficient de determinare (prezentat n programele statistice i ca r squared). Pentru
exemplificare, 0.852 = 0.72. Dac citim n procente rezultatul obinut, putem spune c 72% din variaia
(mprtierea) uneia dintre cele dou variabile este concomitent cu variaia celeilalte variabile. Sau, pentru a
fi i mai coreci, cele dou variabile au in comun 72% din variaia care le caracterizeaz.
Caracterul liniar al corelaiei Pearson
Trebuie s reinem c ceea ce exprim r este nivelul corelaiei liniare, adic msura n care linia care
unete valorile perechi este rectilinie. Aceasta este o form de aproximare a legturii dintre variabile. n
realitate, uneori, corelaia dintre dou variabile are o form care se abate de la modelul rectiliniu (este o
curb). Dac privim imaginile de mai jos, vom vedea cteva tipuri posibile de curbe de corelaie. Figurile a i
b exprim corelaii perfecte dar care se supun unui model curbiliniu, n timp ce figura c reprezint o corelaie
perfect dar rectilinie.
Exist i proceduri de calculare a coeficientului de corelaie curbilinie dar acestea nu fac obiectul unei
introduceri n statistica aplicat. Calcularea corelaiei Pearson pentru variabilele reprezentate in figurile a i
Distributia normala z
(r=0)
b, ar conduce
la valori mici
ale acesteia, n ciuda asocierii grafice evidente a valorilor lor.
Iat i un exemplu concret n acest sens. Am introdus valorile lui z i probabilitile corespunztoare
de pe curba normal, ntr-un program de prelucrri statistice. Coeficientul de corelaie i curba de distribuie
pentru cele dou variabile sunt prezentate n imaginea de mai jos[4]:
,6
,5
,4
,3
,2
,1
0,0
-4
-3
-2
-1
Aa cum se observ, n timp ce r=0 indic absena oricrei corelaii liniare ntre variabile, dei curba
de distribuie arat o corelaie curbilinie perfect.
Din fericire, astfel de situaii sunt rare n realitate, modelul corelaiei liniare fiind adecvat pentru un
mare numr de relaii dintre variabilele naturale, incluzndu-le i pe cele psihologice. Atunci cnd exist
suspiciuni consistente cu privire la natura liniar a legturii dintre variabile, se pot efectua anumite
transformri care s le aduc n cadrul unei variaii liniare (de exemplu, extragerea radicalului sau
logaritmarea variabilelor). Atunci cnd se raporteaz un coeficient de corelaie fr a se preciza caracterul
liniar sau curbiliniu, vom considera c acesta se refer la corelaia liniar. Oricum, graficul scatterplot ofer
informaii suplimentare semnificative i, din acest motiv, este recomandabil analizarea acestuia de fiecare
dat cnd utilizm testul de corelaie Pearson.
Condiii pentru calcularea coeficientului de corelaie Pearson
Pentru a putea utiliza n mod legitim calculul de corelaie, eantionul trebuie s fie aleator iar cele
dou variabile (ambele msurate pe scale de interval/raport) trebuie s aib o distribuie care s nu se abat
grav de la distribuia normal. Aceast condiie este cu att mai important cu ct eantionul este mai mic.
Utilizarea coeficientul de corelaie
Analiza de corelaie este una dintre cele mai uzuale proceduri statistice n cercetarea psihologic.
Printre utilizrile cele mai comune menionm analiza consistenei i validitii testelor psihologice.
Consistena se refer la gradul n care un instrument de evaluare se concentreaz asupra unei anumite
realiti psihice. Validitatea, se refer la faptul dac ceea ce presupune c msoar un instrument psihologic
este msurat cu adevrat (de exemplu, o scal de anxietate msoar cu adevrat anxietatea?).
Din cele prezentate, rezult c putem utiliza coeficientul atunci cnd avem serii perechi de distribuii.
Pentru o mai bun nelegere, se cuvine s facem cteva aprecieri comparative cu testul t pentru eantioane
dependente. Testul t pentru eantioane dependente, se aplic atunci cnd msurm o anumit variabil n
dou situaii diferite (de ex. nainte/dup), ceea ce presupune aceeai unitate de msur. Coeficientul de
corelaie poate fi aplicat att pentru variabile msurate cu aceeai unitate de msur ct i pentru variabile
exprimate n uniti de msur diferite. Aceasta deoarece formula de calcul ia n considerare expresia
standardizat a valorilor (corurile z). ntrebarea este, cnd utilizm unul sau altul dintre cele dou teste?
Rspunsul ine de scopul pe care ni-l propunem. Dac dorim s punem n eviden diferena dintre valorile
medii ale variabilelor, vom aplica testul t pentru eantioane dependente. Dac ne intereseaz intensitatea
variaiei concomitente a variabilelor, vom utiliza coeficientul de corelaie.
Publicarea rezultatului corelaiei (APA style)
A fost evaluat performana la un test de calcul aritmetic i la unul de raionament verbal logic. Scorurile
mari se refer la performane ridicate. Media scorului la primul test a fost de m=29.63 (s=6.76) iar la al
doilea m=29.88 (s=7.01). Am obinut o corelaie semnificativ ntre cele dou performane, r(6)=0.85,
p<0.05, bilateral.
NOT: Se precizeaz neaprat semnificaia valorilor variabilelor n raport de mrimea lor, pentru a se putea
aprecia corect natura relaiei dintre variabile.
TEMA PENTRU ACAS
Se poate spune c inteligena este unul dintre criteriile pe care se constituie cuplurile de prieteni
biei/fete?
A fost selecionat aleator un eantion de cupluri de adolesceni crora li s-a aplicat un test de inteligen.
Rezultatele sunt n tabelul alturat.
Enunai ipoteza statistic, ipoteza cercetrii, definii populaiile, definii criteriile de decizie statistic
Calculai coeficientul de corelaie Pearson i stabilii decizia statistic pentru =0.01, bilateral
Biei
110
100
120
90
108
115
122
110
127
118
Fete
105
108
110
95
105
125
118
116
118
126
[1]
Karl Pearson (1857-1936), matematician, filozof al tiinei, biometrician i statistician

englez
[2]
n mod uzual, valorile lui r se raporteaz cu dou zecimale, chiar dac valorile tabelare i
cele calculate de programele statistice sunt cu mai mult de dou zecimale.
[3]
Hopkins, W. G. (2000). A new view of statistics. Internet Society for Sport Science:
http://www.sportsci.org/resource/stats/
[4]
Exemplul se bazeaz pe un eantion de 61 de perechi de valori, selectate de pe toat plaja
distribuiei z
Regresia liniar simpl

Una dintre utilizrile importante ale coeficientului de corelaie este realizarea de predicii. Dac tim
corelaia dintre dou variabile, putem s prezicem valorile uneia dintre ele pe baza valorilor celeilalte. Acest
raionament se aplic, de exemplu, n cazul evalurilor psihologice de selecie a personalului. Ne putem
imagina situaia n care aplicm un test de coordonare motorie la admiterea n coala de pilotaj, pentru a
prezice nsuirea tehnicii de pilotaj. Prima variabil (coordonarea motorie) se numete variabil predictor,
iar cea de a doua (nsuirea tehnicii de pilotaj), variabil criteriu. Atragem atenia c, i n acest caz, relaia
dintre cele dou variabile nu va putea fi interpretat n termeni de cauzalitate, n ciuda succesiunii temporale
a msurrilor. Tot ce putem afirma, n cazul obinerii unei corelaii semnificative i pozitive, este c cei care
au un nivel mai ridicat de inteligen tind sa aib i rezultate colare mai ridicate. Statistica nu ne permite s
ducem acest rezultat la nivelul unei interpretri de cauzalitate. Este suficient s ne gndim, de exemplu, c
ambele variabile pot fi influenate de alte variabile (inteligena general, motivaie, etc.,).
Esena conceptului de corelaie, aceea de variaie concomitent a valorilor a dou variabile, permite
fundamentarea unei proceduri de predicie reciproc ntre variabilele respective. S ne amintim situaia n
care dou variabile coreleaz perfect. n acest caz orice valoare z x corespunde unei valori zy identice. Cu alte
cuvinte, dac tim c dou variabile au o corelaie liniar egala cu 1 (indiferent de semn) putem prezice
orice valoare a unei variabile pe baza valorii celeilalte.
z y' z x
Formula 3.24
Formula de mai sus descrie modul de predicie n valori z pentru variabila Y, pornind de la valorile
variabilei X, numit din acest motiv predictor. Pentru c valoarea lui Y din formula de mai sus este una
prezis, se noteaz cu indicele prim.
S ne imaginm c am descoperit o corelaie perfect (r=+1) ntre scorul la un test de inteligen
verbal (X) i cel la un test de inteligen abstract (Y). Conform formulei, pentru o valoare z x=1.5 vom
prezice o valoare identic pentru Y, zy=1.5.
Din pcate corelaiile perfecte sunt mai degrab excepii, fiind rar sau de loc ntlnite n realitate. Ca
urmare, predicia suport riscul unei erori dat de faptul c doar o parte din variaia unei variabile este
nsoit (explicat) de variaia celeilalte variabile. Soluia pentru luarea n considerare a acestui aspect este
dat n formula modificat:
z y' r * zx
Formula 3.25
unde r este valoarea coeficientului de corelaie dintre cele dou variabile.

Vom observa c atunci cnd r=+1, se pstreaz identitatea dintre valoarea predictor i valoarea prezis
(afirmaie valabil i pentru r=-1 cu specificaia c valoarea prezis are semn schimbat). n situaia n care
r=0, pentru orice a valoare a lui X obinem valoarea 0 pentru Y, ceea ce reprezint, n termenii scorului z, o
valoare medie. n acest fel avem o minimizare a erorii de predicie, estimnd toate valorile ca fiind egale cu
media (este evident c o astfel de predicie, care nu produce nici o diferen ntre valorile prezise nu
prezint nici o utilitate practic). Pe de alt parte, trebuie s observm c pe msur ce valoarea lui r este mai
mic, tinznd spre 0, valorile prezise se vor abate mai puin de la medie (z y=0) oscilnd mai aproape de
aceasta.
Conceptul de regresie a fost introdus de Francis Galton care, studiind relaia dintre nlimea copiilor
i a prinilor a observat c prinii cu nlimi excesive tind s aib copii cu nlime mai mic dect a lor,
adic mai aproape de medie dect a prinilor. S lum un exemplu ilustrativ. Galton a gsit un coeficient de
corelaie ntre nlimea prinilor (X) i cea a copiilor (Y) r=+0.67. Putem deci prezice nlimea copilului
dac tim c nlimea medie a celor doi prini, exprimat n scoruri z, este z x=2 (adic cu dou abateri
standard mai nali dect media):
z y ' 0.67 * 2 1.34

Aa cum se observ, prinii a cror nlime este mai mare cu dou abateri standard mai mare dect
media, pot avea copii a cror nlime s se abat doar cu 1.34 abateri standard de la medie. Galton a denumit
aceast tendin ca regresie ctre mediocritate dar termenul consacrat este acum cel de regresie ctre
medie. Faptul c se bazeaz pe corelaia de tip liniar ne permite s vorbim de o regresie liniar ctre
medie.
Reprezentarea grafic a regresiei
Imaginea alturat reprezint linia de regresie simpl n cazul unei corelaii perfecte pozitive (r=+1). Ea se
mai numete "liniar", deoarece relaia dintre cele dou variabile este aproximat printr-o dreapta, i
"simpl", deoarece doar avem o singur variabil predictor i o singur variabil criteriu. Cercurile
marcheaz intersecia fiecrei valori X cu valoarea corespondent a variabilei Y. Originea liniei de regresie
se afl n punctul 0 iar nclinarea (panta) liniei de regresie este de 45 o. Mai observm, de asemenea, c
distana dintre fiecare punct de intersecie i linie este nul, fapt ce ne spune c linia de regresie estimeaz
perfect, fr erori, modelul relaiei dintre cele dou variabile.
3,5
3,0
2,5
2,0
1,5
1,0
z(y)
,5
0,0
0,0
,5
1,0
1,5
2,0
2,5
3,0
3,5
z(x)
Dar aceast situaie este doar una de excepie. Atunci cnd corelaia este diferit de 1, linia regresie
este trasat pe o traiectorie de aproximare prin norul de puncte, astfel nct distana dintre fiecare punct i
linie sa fie ct mai mic posibil. n esen, pentru a putea trasa dreapta de regresie a dou variabile, ne sunt
necesare punctul de origine al acesteia i nclinarea, sau panta. Odat aflate, putem trasa linia de regresie
utiliznd formula clasic a liniei drepte: Y=a+b*X, unde:
Y este valoarea prezis a fiecrui punct de pe dreapt
a este originea dreptei sau termenul liber al ecuaiei, de fapt punctul n care linia de regresie
intersecteaz ordonata (axa Oy).
b este panta liniei de regresie
X este valoare predictor a variabilei Y
n ce privete panta, dac privim formula 11.4 putem constata c ea poate fi neleas i implicit,
exprimat, ca fraciuni din valorile variabilei X, fraciuni determinate de valoarea lui r. Astfel, dac r=1,
pentru o unitate a lui X avem o nclinare de aceeai unitate a lui Y. Atunci cnd r=0.5, de exemplu, pentru a
anumit unitate a variabilei X avem o jumtate din unitatea valorii lui Y. Atunci cnd corelaia este perfect,
toate punctele se situeaz pe linia de regresie. Cnd corelaia este diferit de 1, punctele se situeaz n jurul
liniei de regresie ntr-un nor, cu att mai ndeprtat de aceasta cu ct corelaia este mai mic. Intuitiv, linia
de regresie poate fi vzut ca o medie a norului de puncte, fiind trasat astfel nct distanele fa de
punctele distribuiei celor dou variabile s fie similare de o parte i de alta a liniei.
Formula de calcul a regresiei pentru scorurile primare (brute)
Formula 11.4 este adecvat pentru situaia n care operm cu scorurile standard (z).
z y' r * zx
Pentru a opera direct cu scorurile primare (brute) ale variabilelor, trebuie operate o serie de
transformri succesive ale acestei formule, pn va fi adus la o form care s corespund ecuaiei liniei
drepte, prezentat mai sus. Vom prezenta aici numai rezultatul final al acestor transformri, care se exprim
n urmtoarea formul de calcul pentru linia de regresie:

Y ' y y * r * x y * r * X
x
x
Formula 3.26
care poate fi privit ca expresie a ecuaiei generice de regresie liniar:
Y ' a yx byx * X
unde:
Y este valoare prezis

ayx este originea dreptei sau termenul liber al ecuaiei, de fapt punctul n care linia de regresie
intersecteaz ordonata (axa Oy).
byx este panta liniei de regresie
X
este valoare predictor a variabilei X
Relativa complexitate a ecuaiei de regresie liniar este compensat de faptul c, n prezent, aceasta
cade n sarcina programelor specializate.
Graficul de mai jos reprezint linia de regresie corespunztoare relaiei de asociere dintre cele dou
variabile din exemplul de mai sus.
Analiza reziduurilor
Aa cum se observ, linia de regresie reprezint doar o estimare a relaiei dintre cele dou variabile.
Ea se obine, de fapt, prin cutarea unui traseu prin norul de puncte astfel nct distana nsumat dintre
dreapt i punctele de deasupra s fie egal cu distana nsumat fa de punctele de sub linie. n cazul unei
corelaii perfecte toate punctele de intersecie ale valorilor celor dou variabile se afl exact pe dreapta de
regresie. n cazul corelaiilor imperfecte distanele dintre puncte i dreapta de regresie exprim, de fapt,
eroarea de estimare a asocierii dintre variabile. Distana dintre poziia real a punctelor i cea estimat cu
ajutorul liniei de regresie se numete valoare rezidual i exprim, desigur, o eroare de estimare. Din
acest motiv nici panta (unghiul de nclinare al liniei), nu este exact de 45o.
Cu ct suma distanelor de la fiecare punct la linia de regresie este mai mare, cu att eroarea de
estimare este mai pronunat. Ptratul sumei tuturor distanelor dintre valorile de pe linie i punctele din afara
liniei de regresie reprezint ceea ce se numete variana estimrii sau variana rezidual, i se
calculeaz astfel:
est ( y )
Y Y '
Formula 3.28
Cu ct vor fi mai apropiate punctele de intersecie de linia de regresie, cu att mai puin eroare vom
avea n predicie i, implicit, o corelaie mai mare. Invers, cu ct punctele de intersecie vor fi mai ndeprtate
de linia de regresie, cu att cu att valoarea rezidual va fi mai mare iar corelaia va fi mai mic. La limit,
pentru o corelaie egal cu 0, linia de regresie va avea o traiectorie orizontal, nclinarea ei fiind 0.
Utilitatea analizei de regresie
Analiza de regresie se utilizeaz n situaiile n care suntem interesai s facem predicii asupra unei
variabile, pe baza coeficienilor B (sau beta) obinui pe date rezultate din msurri anterioare. De exemplu,
dac am efectuat o analiz de regresie ntre coeficientul de inteligen i performana colar pe un lot de
subieci, putem ulterior s estimm nivelul performanei colare a altor subieci prin evaluarea inteligenei
lor. Aceasta este procedura tipic pe care se bazeaz prediciile psihologice n contextul examenelor de
selecie.

x4 - Teste Statistice Parametrice

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

x4 - Teste Statistice Parametrice

Încărcat de

Drepturi de autor:

Formate disponibile

Testul z pentru un singur eantion

Testul t pentru un singur eantion

TEMA PENTRU ACAS3[3]

Testul t pentru eantioane independente

m1-m2, se calculeaz pornind

Se observ c am eliminat (1-2) de la numrtor, care este ntotdeauna 0 i am nlocuit m1-m2 cu

b. Testul t pentru dispersia cumulat

La numrtor, formula conine suma dispersiilor multiplicate fiecare cu volumul eantionului

Ipoteza de nul (statistic): Performana nu difer semnificativ n funcie de practicarea trainingului

Variabila independent (calitatea de practicant-nepracticant Training Autogen) ia dou valori, s

Calculm t pentru dispersii cumulate:

Comparm t calculat cu t critic din tabelul distribuiei t: 3.73 > 2.228

Eantioane aleatoare (ideal)

cnd cele dou eantioane au acelai volum (N1=N2)

Cnd se utilizeaz testul t pentru eantioane independente?

Calculai testul t pentru diferena dintre cele dou eantioane

Formulai concluzia cercetrii

Testarea diferenei dintre mai mult de dou medii-analiza de varin (ANOVA)

Cadrul conceptual pentru analiza de varian unifactorial

Figura a reprezint expresia grafic a ipotezei de nul:

Figura b reprezint grafic ipoteza cercetrii: Cele trei

Fundamentarea procedurii de calcul ANOVA

Atunci cnd grupurile comparate sunt de volum inegal:

unde: df1=N1-1; df2=N2-1; df3=N3-1

Calcularea gradelor de libertate

5.95 1.12 1.93

n acest caz dfintragrup=nr. grupurilor, pentru c N1=N2=N3

o independena eantioanelor (grupurilor supuse comparaiei)

Gsii F critic pentru =0.05

Testul t pentru diferena dintre mediile a dou eantioane dependente

care devine n cazul nostru:

Comparm t calculat cu t critic pentru =0.01 bilateral: -2,08 < -3.49

Imaginea ilustreaz faptul c n, condiiile estimate pe eantionul de diferene cercetat, diferena

Formularea ipotezei cercetrii i a ipotezei de nul

Coeficientul de corelaie liniar (Pearson)

Calcularea coeficientului de corelaie liniar (Pearson)

X i Y reprezint valorile individuale ale distribuiilor X i Y

mx i my reprezint mediile distribuiilor X i Y

sx i sy reprezint abaterile standard ale distribuiilor X i Y

N este volumul eantionului

Scorul la un test de raionament

Graficul scatterplot exprim o asociere pozitiv ntre cele dou variabile:

Semnificaia coeficientului de corelaie

Foarte mic, neglijabil, nesubstanial

Mare, ridicat, major

Foarte mare, foarte ridicat

Aproape perfect, descrie relaia dintre dou variabile practic indistincte

unde N este volumul eantionului

Se calculeaz limitele superioar i inferioar a intervalului: r zcritic * re , adic:

Karl Pearson (1857-1936), matematician, filozof al tiinei, biometrician i statistician

Regresia liniar simpl

unde r este valoarea coeficientului de corelaie dintre cele dou variabile.

z y ' 0.67 * 2 1.34

Y este valoare prezis

S-ar putea să vă placă și