Documente Academic
Documente Profesional
Documente Cultură
x4 - Teste Statistice Parametrice
x4 - Teste Statistice Parametrice
Situaia de care ne-am servit pentru exemplul de mai sus este plauzibil dar puin probabil pentru o
cercetare real. Procedura utilizat, ns, este una care definete unul dintre testele statistice de semnificaie,
numit testul z pentru un singur eantion. Avnd n vedere faptul c una din condiiile de aplicare ale
acestuia este utilizarea unui eantion de minim 30 de subieci (acceptat ca eantion mare, n conformitate
cu teorema limitei centrale), acest test este prezentat i ca testul z pentru eantioane mari.
Testul z se poate utiliza atunci cnd cunoatem media i abaterea standard a unei populaii 1[1] i dorim
s tim dac un eantion experimental face parte din aceast populaie sau nu. Dat fiind faptul c puine
variabile de interes pentru psihologie au medii i abateri standard calculate la nivelul populaiei, acest test
statistic nu este printre cele frecvent utilizate n cercetarea psihologic. Utilitatea lui este dat, mai ales, de
caracterul elementar, care permite introducerea unor noiuni fundamentale de teorie a ipotezelor statistice.
Cu toate acestea, testul z nu poate fi ignorat, existnd destule situaii n care i poate dovedi utilitatea,
chiar dac variabilele pentru care se cunosc parametrii populaiei nu sunt numeroase. De exemplu, un
psiholog clinician poate testa ipoteza conform creia femeile cu depresie cronic sunt mai scunde dect
media, comparnd media unui eantion de paciente cu media de nlime e femeilor, preluat din studii
antropometrice. De asemenea, sunt destule cazurile n care populaia cercetrii nu este att de extins nct s
nu i se poat afla parametrii. De exemplu, dup o evaluare la statistic se poate observa c una dintre grupele
unui an de studiu a obinut o medie mai redus dect celelalte. Pentru a testa ipoteza c aceast valoare este
semnificativ mai mic fa de rezultatul ntregului an de studiu, este suficient s efectum testul z n raport cu
media populaiei care, n acest caz, este dat de media studenilor participani la examen.
Decizii statistice unilaterale i bilaterale
S revenim, pentru moment, la exemplul nostru anterior. Ipoteza de la care am pornit a fost aceea c
cineva poate identifica subiecii cu inteligen peste medie. Ca urmare, ne-a interesat s vedem n ce msur
rezultatul nostru confirm ipoteza pe direcia valorilor din dreapta curbei normale (valori mari, cu z pozitiv).
Am efectuat ceea ce se numete un test unilateral (one-tailed). Dac mediumul ar fi pretins c poate
identifica subiecii cu inteligen sub medie am fi procedat tot la un test unilateral, dar n partea stng a
curbei (valori mici, cu z negativ). n aceste dou situaii am fi avut acelai z critic (1.65) cu semnul + sau
n funcie de zona scalei pentru care fceam testarea. Imaginea de mai jos ilustreaz grafic cele dou direcii
de testare a ipotezelor statistice unilaterale i ariile valorilor semnificative/nesemnificative, n funcie de
valoarea critic a lui z.
1[1]
S ne amintim c, atunci cnd nu cunoatem abaterea standard a populaiei, putem utiliza n formula erorii standard a mediei,
abaterea standard a eantionului (s)
Ce s-ar fi ntmplat, ns, dac eantionul extras de medium ar fi obinut un scor QI=96, ceea ce ar fi
corespuns unui scor z=-1.36? n acest caz, aplicnd un test unilateral, conform ipotezei, am fi verificat doar
msura n care ar putea fi depistai cei cu inteligen peste medie, ignornd posibilitatea ca rezultatul s cad
n zona extrem opus, a celor cu inteligen sub medie. Aceasta ar nsemna c mediumul, dei pretinde c
poate indica persoanele inteligente, este de fapt sensibil la cele neinteligente.
Pentru a verifica ipoteza pe ambele laturi ale distribuiei se aplic ceea ce se numete testul z bilateral
(two-tailed). n acest caz se pstreaz acelai nivel alfa (0.05), dar el se distribuie n mod egal pe ambele
extreme ale curbei, astfel nct pentru 2.5% de fiecare parte, avem un z critic de 1.96 (cu semnul - sau +).
Aceast valoare este luat din tabelul ariei de sub curb, n dreptul probabilitii 0.4750 care corespunde unei
probabiliti complementare de 0.025 (echivalent cu 2.5%).
Figura de mai sus indic scorurile critice pentru testul z bilateral. Se observ c, n cazul alegerii unui
test bilateral (z=1.96), nivelul de 5% se mparte n mod egal ntre cele dou laturi ale curbei. Este de la
sine neles faptul c semnificaia statistic este mai greu de atins n cazul unui test bilateral dect n cazul
unui test unilateral. Alegerea tipului de test, unilateral sau bilateral, este la latitudinea cercettorului. De
regul ns, se prefer testul bilateral. Motivul l constituie necesitatea de a introduce mai mult rigoare i de
a lsa mai puin loc hazardului. Se alege testul unilateral doar atunci cnd suntem interesai de evaluarea
semnificaiei strict ntr-o anumit direcie a curbei, sau atunci cnd miza rezultatului este prea mare nct s
fie justificat asumarea unui risc sporit de eroare. n mod uzual, ipotezele statistice sunt testate bilateral,
chiar dac ipoteza cercetrii este formulat n termeni unilaterali. Testarea unilateral este utilizat numai n
mod excepional, n cazuri bine justificate.
O scurt discuie pe tema nivelului alfa minim acceptabil (0.05) se impune, avnd n vedere faptul c
ntregul eafodaj al deciziei statistice se sprijin pe acest prag. Vom sublinia, din nou, c p=0.05 este un prag
de semnificaie convenional, impus prin consensul cercettorilor din toate domeniile, nu doar n psihologie.
Faptul c scorul critic pentru atingerea pragului de semnificaie este 1.96 a jucat, de asemenea, un rol n
impunerea acestei convenii. Practic, putem considera c orice ndeprtare mai mare de dou abateri standard
de la media populaiei de referin este semnificativ. Chiar dac persist posibiliti de a ne nela, ele sunt
suficient de mici pentru a le trece cu vederea.
Impunerea unui prag minim de semnificaie a testelor statistice are ns, mai ales, rolul de a garanta
faptul c orice concluzie bazat pe date statistice rspunde aceluiai criteriu de exigen, nefiind influenat
de subiectivitatea cercettorului. Nivelul alfa de 0.05 nu este dect pragul minim acceptat. Nimic nu
mpiedic un cercettor s i impun un nivel mai exigent pentru testarea ipotezei de nul. n practic mai
este utilizat pragul de 0.01 i, mai rar, cel de 0.001. Toate aceste praguri pot si exprimate i n procente, prin
opusul lor. Astfel, printr-o probabilitate de 0.05 se poate nelege i un nivel de ncredere de 95% n rezultatul
cercetrii (99%, pentru p=0.01 i, respectiv, 99.9% pentru p=0.001).
n fine, este bine s subliniem faptul c utilizarea acestor praguri vine din perioada n care nu
existau calculatoare i programe de prelucrare statistic. Din acest motiv, cercettorii calculau valoarea
testului statistic pe care apoi o comparau cu valori tabelare ale probabilitii de sub curba de referin. Pentru
a face mai practice aceste tabele, ele nu cuprindeau toate valorile de sub curba ci doar o parte dintre acestea,
printre ele, desigur, cele care marcau anumite praguri. Rezultatul cercetrii era raportat, de aceea, prin
invocarea faptului de a fi sub pragul de semnificaie sau deasupra sa. Odat cu diseminarea pe scar
larg a tehnicii de calcul i cu apariia programelor de prelucrri statistice, semnificaia valorilor testelor
statistice nu mai este cutat n tabele ci este calculat direct i exact de ctre program, putnd fi afiat ca
atare.
Aa cum se observ, curba devine din ce n ce mai aplatizat pe msur ce df (volumul eantionului)
este mai mic. Acest fapt care are drept consecin existena unui numr mai mare de valori spre extremele
distribuiei. Nu este ns greu de observat c, pe msur ce df este mai mare, distribuia t se apropie de o
distribuie normal standard astfel nct, pentru valori ale lui N de peste 31 (df=30), aria de sub curba
distribuiei t se apropie foarte mult de valorile de sub aria curbei normale standard (z) iar scorul critic pentru
t este acelai ca i cel pentru z pe curba normal (1.96).
Din cele spuse rezult c, dac avem un eantion de volum mic (N30), vom utiliza testul t n loc de
testul z, pe baza unei formule asemntoare:
t
m
sm
unde:
m este media eantionului
este media populaiei
sm este eroarea standard a mediei
Interpretarea valorii lui t se face n mod similar cu cea pentru valorea z, cu deosebirea c se utilizeaz
tabelul distribuiei t (Anexa 2). n acest caz valorile critice ale lui t vor fi diferite n funcie de numrul de
grade de libertate. Se observ c pragurile critice ale lui t (subnelegnd alfa=0.05 pentru test bilateral) se
plaseaz la valori diferite n funcie de nivelul df. n acelai timp, dac df este mare (peste 30), valorile
tabelare ale lui t se apropie de cele ale lui z. La infinit, ele sunt identice (1.96, la fel ca i n cazul valorilor
lui z).
Date fiind caracteristicile enunate, n practic, testul t se poate utiliza i pentru eantioane mari
(N30). n nici un caz, ns, nu poate fi utilizat testul z n cazul unor eantioane mici (N30). Utilizarea
testului bazat pe un singur eantion (fie z sau t) depinde ntr-o msur decisiv de asigurarea caracteristicii
aleatoare a eantionului.
Publicarea rezultatelor testului z sau t
Publicarea rezultatelor diferitelor proceduri statistice trebuie fcut astfel nct cititorii s i poat face o
imagine corect i complet asupra rezultatelor. n acest scop la publicarea rezultatelor trebuie respectate
anumite reguli la care vom face trimitere n continuare, n legtur cu fiecare nou test statistic ce va fi
introdus.
n principiu, publicarea rezultatelor unui test statistic se poate face n dou moduri:
o sintetic (sub form tabelar), atunci cnd numrul variabilelor testate este relativ mare
o narativ, atunci cnd se refer, s zicem, la o singur variabil.
n cazul testului pentru un singur eantion, se vor raporta: media eantionului, media populaiei,
valoarea lui z (sau t), nivelul lui p, tipul de test (unilateral/bilateral).
Dac avem n vedere rezultatele obinute pe exemplul de mai sus, se apeleaz la o raportare de tip
narativ, care poate utiliza o formulare n maniera urmtoare: Eantionul selectat prin metoda
paranormal a obinut un scor (QI=104) peste media populaiei generale (QI=100). Testul z, cu alfa
0.05, a demonstrat c diferena nu este semnificativ statistic, z=1.36, p>0.05, unilateral.
n exemplu de mai sus nu formularea ca atare este esenial ci categoriile de informaii asociate
publicrii testului z. Formularea ca atare poate diferi de cea prezentat mai sus, dar elementele
informaionale trebuie s fie complete.
Aa cum am spus mai sus, utilizarea programelor statistice ofer pentru orice valoare a lui z (sau
oricare alt test statistic) valoarea exact a lui p. Ea poate fi utilizat ca atare pstrnd, ns, raportarea
acesteia la pragul de semnificaie. Orice valoare a lui p mai mare de 0.05 este considerat nesemnificativ2[2],
dac nu a fost fixat un alt prag, mai sever.
1.
2[2]
3[3]
Programele de prelucrri statistice utilizeaz termenul Sig. (de la significance n loc de p. Ele sunt strict echivalente.
Exerciii preluate din BH Cohen, 1996, Eplaininig Psychological Statistics, Brooks/Cole Publishing, pp.216-217
2.
3.
generale este 72 bpm, cu o abatere standard de 12, se poate concluziona c noul medicament produce bradicardie?
(=0,05, se efectueaz test unilateral)
Reprimarea mniei conduce la creterea tensiunii arteriale? ntr-un studiu ipotetic, 16 studeni cu scor ridicat de reprimare
a mniei (rezultat din chestionare specifice) au fost supui msurrii tensiunii arteriale. Media tensiunii pentru acest
eantion a fost de 124 mm Hg (milimetri coloan de mercur). Dac media tensiunii la nivelul populaiei este 120 mm Hg
cu o abatere standard de 10, se poate accepta ipoteza c reprimarea mniei conduce la creterea tensiunii? ( =0,05, test
bilateral)
S presupunem c avem o scal care msoar anxietatea n note T (=50, =10). Dup un cutremur puternic se obin
urmtoarele scoruri pe un eantion de subieci care se adreseaz unui cabinet de psihologie clinic: 72, 59, 54, 56, 48, 52,
57, 51, 64, 67. Testai ipoteza de nul care afirm c nivelul anxietii nu este influenat de cutremur. ( =0,05, unilateral i
bilateral)
4[1]
Am pus cuvntul efect ntre ghilimele deoarece, chiar dac este logic s considerm c este vorba de o relaie de tip cauzefect, simpla msurare a diferenelor pe dou eantioane de subieci nu este suficient pentru a concluziona o relaie cauzal.
Pentru aceasta, ar fi mai potrivit s msurm timpul de reacie la aceiai subieci nainte i dup consumarea unei cantiti de
alcool.
5[2]
O metod de relaxare psihic
Imaginea arat faptul c, pe msur ce constituim perechi de eantioane (m11-m21, etc.) cu valori ale
performanei la int, diferena dintre mediile devine o distribuie n sine, format din valorile acestor
diferene. Dac am reui constituirea tuturor perechilor posibile de eantioane, aceast distribuie, la rndul
ei, ar reprezenta o nou populaie, populaia diferenei dintre mediile practicanilor i nepracticanilor de
training autogen. i, fapt important de reinut, curba diferenelor dintre medii urmeaz legea distribuiei t. Cu
alte cuvinte, la un numr mare (tinznd spre infinit) de eantioane perechi, trebuie s ne ateptm ca cele mai
multe medii perechi sa fie apropiate ca valoare, diferena dintre mediile fiind, ca urmare, mic, tinznd spre 0
i ocupnd partea central a curbei. Diferenele din ce n ce mai mari fiind din ce n ce mai puin probabile,
vor ocupa marginile distribuiei (vezi figura de mai jos). Aceasta este ceea ce se numete distribuia
ipotezei de nul pentru
diferena dintre mediile
a dou eantioane
independente.
(m1-1 m2-1)
1- 2 = 0
(m1-2 m2-2)
(m1-3 m2-3)
n acest moment este bine s accentum, din nou, semnificaia statistic a noiunii de populaie. Dup
cum se observ, aceasta nu face referire neaprat la indivizi ci la totalitatea valorilor posibile care descriu o
anumit caracteristic (psihologic, biologic sau de alt natur). n cazul nostru, diferenele dintre mediile
eantioanelor perechi (fiecare provenind dintr-o populaie fizic distinct) devin o nou populaie, de
aceast dat statistic, compus din totalitatea diferenelor posibile, i a crei distribuie se supune modelului
curbei t.
Procedura statistic pentru testarea semnificaiei diferenei dintre mediile a dou eantioane
Problema pe care trebuie s o rezolvm este urmtoarea: Este diferena dintre cele dou eantioane
suficient de mare pentru a o putea considera ca determinat de variabila independent, sau este doar una
dintre diferenele probabile, generat de jocul hazardului la constituirea perechii de eantioane? Vom observa
c sarcina noastr se reduce, de fapt, la ceea ce am realizat anterior n cazul testului z sau t pentru un singur
eantion. Va trebui s vedem dac diferena dintre dou eantioane reale se distaneaz semnificativ de
diferena la care ne putem atepta n cazul extragerii absolut aleatoare a unor perechi de eantioane, pentru
care distribuia diferenelor este normal. Mai departe, dac probabilitatea de a obine din ntmplare un
astfel de rezultat (diferen) este prea mic (maxim 5%) o putem neglija i accepta ipoteza c ntre cele dou
variabile este o relaie semnificativ.
Dac avem valoarea diferenei dintre cele dou eantioane cercetate, ne mai sunt necesare doar media
populaiei (de diferene ale mediilor) i abaterea standard a acesteia, pentru a calcula testul z (n cazul
eantioanelor mari) sau cel t (n cazul eantioanelor mici). n final, nu ne rmne dect s citim valoarea
tabelar pentru a vedea care este probabilitatea de a se obine un rezultat mai bun (o diferen mai mare ) pe
o baz strict ntmpltoare.
Media populaiei de diferene. Diferena dintre mediile celor dou eantioane ale cercetrii face
parte, aa cum am spus, dintr-o populaie compus din toate diferenele posibile de eantioane perechi. Media
acestei populaii este 0 (zero). Atunci cnd extragem un eantion aleator dintr-o populaie, valoarea sa tinde
sa se plaseze n zona centrala cea mai probabil). Dar aceeai tendin o va avea i media oricrui eantion
extras din populaia pereche. Ca urmare, la calcularea diferenei dintre mediile a dou eantioane, cel mai
probabile sunt diferenele mici, tinznd spre zero. Astfel, ele vor ocupa partea central a distribuiei,
conturnd o medie tot mai aproape de zero cu ct numrul eantioanelor extrase va fi mai mare.
Eroarea standard a diferenei (mprtierea), pe care o vom nota cu
de la formula de calcul a erorii standard:
m
(formula 3.5)
Din raiuni practice, pentru a obine o formul care s sugereze diferena dintre medii (m 1-m2),
formula de mai sus este supus unor transformri succesive. Prin ridicarea la ptrat a ambilor termeni i dup
extragerea radicalului din noua expresie, se obine:
m
(formula 3.6)
Dac am utiliza-o pentru calcule, aceast ultim formul ar produce acelai rezultat ca i formula
originar.
Formula erorii standard a distribuiei diferenei dintre medii ne arat ct de mare este mprtierea
diferenei tipice ntre dou medii independente atunci cnd eantioanele sunt extrase la ntmplare
m1 m 2
12 2 2
N1 N 2
(formula 3.7)
Formula de mai sus indic faptul c eroarea standard a diferenei dintre medii este dat de suma erorii
standard a celor dou eantioane. Unul dintre eantioane are N1 subieci i o dispersie 12 iar cellalt eantion,
N2 subieci i dispersia 22. Faptul c obinem eroarea standard a diferenei dintre medii ca sum a erorilor
standard a celor dou eantioane este fundamentat pe o lege statistica a crei demonstraie nu se justific aici.
Pentru a calcula scorul z al diferenei, vom utiliza o formul asemntoare cu formula notei z pe care
o cunoatem deja:
m
m
Aceasta va fi:
(m1 m2 ) ( 1 2 )
m1 m 2
(formula 3.8)
Numrtorul exprim diferena dintre diferena obinut de noi (m 1-m2) i diferena dintre mediile
populaiilor (1-2). Dac ne amintim c distribuia ipotezei de nul (1-2) are media 0, atunci deducem c
expresia (1-2) poate lipsi. De altfel, dac am cunoate mediile celor dou populaii nici nu ar mai fi
necesar calcularea semnificaiei diferenei dintre eantioanele care le reprezint.
Numitorul descrie eroarea standard a diferenei, calculat cu formula 8.1, adic mprtierea
diferenei tipice pentru extrageri aleatoare.
n conformitate cu cele spuse pn acum, formula final pentru scorul z al diferenei dintre dou
eantioane devine :
m1 m2
12 2 2
N1
N2
(formula 3.9)
m1 m2
2
s1
s
2
N1 N 2
(formula 3.10)
Se observ nlocuirea lui (pentru populaie) cu s (pentru eantion). Utilizarea ei este destul de
controversat, deoarece rezultatul nu urmeaz cu exactitate distribuia t aa cum am introdus-o anterior.
Pentru eliminarea acestui neajuns, se utilizeaz o variant de calcul care ia n considerare dispersia cumulat
a celor dou eantioane.
( N 1) * s1 ( N 2 1) * s 2
1
N1 N 2 2
(formula 3.11)
m1 m2
2
( N1 1) * s1 ( N 2 1) * s2 1
1
N1 N 2 2
N1 N 2
2
(formula 3.12):
Formula 3.12 este formula uzual pentru calcularea diferenei dintre medii pentru dou eantioane
independente. Chiar dac a fost introdus ca utilizabil pentru eantioane mici, caracteristicile distribuiei t
ne permit utilizarea ei i pentru eantioane mari, deoarece distribuia t tinde spre cea normal la valori din ce
n ce mai mari ale gradelor de libertate.
EXEMPLU DE CALCUL:
S presupunem c vrem s vedem dac practicarea trainingului autogen (variabila independent)
determin o cretere a performanei n tragerea la int, manifestat printr-un numr mai mare de lovituri n
centru intei (variabil dependent). Pentru aceasta selectm un eantion de 6 sportivi care practic
trainingul autogen i un eantion de 6 sportivi care nu l practic. Pentru fiecare eantion msurm
performana de tragere.
Formularea ipotezei cercetrii, a ipotezei de nul, i a criteriilor deciziei statistice
Pentru exemplul de mai sus:
Problema cercetrii: Are practicarea trainingului autogen un efect asupra performanei la tirul cu
arcul?
Ipoteza cercetrii (H1): Practicarea trainingului autogen determin un numr mai mare de puncte
la edinele de tragere.
Ipoteza de nul (statistic) (H0): Numrul punctelor la edinele de tragere nu este mai mare la cei
care practic trainingul autogen. Aceast variant este potrivit cu o testare unilateral a ipotezei (nu avem
n vedere dect eventualitatea ca trainingul autogen s creasc performana sportiv).
Dac, ns, am dori s testm n ambele direcii, bilateral, atunci am avea urmtoarele versiuni ale
ipotezelor:
Ipoteza cercetrii: Performana sportiv este diferit la subiecii care practic trainig autogen fa
de cei care nu practic
Datele cercetrii
practicani TA (1)
X1
(X1-m1)2
N
M
(X
S= S
m) 2
N 1
15
9
12
13
16
15
80
6
13.33
33.28
5 = 6.67
2.58
2.78
18.74
1.76
0.10
7.12
2,78
33.28
ne-practicani TA (2)
X2
(X2m2)2
10
2.78
8
0,10
11
7.12
5
11.08
7
1.76
9
0.44
50
23.28
6
8.33
23.28
5 = 4.66
2.16
SDif =
( N 1 1)( S 21 ) ( N 2 1)( S 2 2 ) 1
1
N1 N 2 2
N1 N 2
Iar apoi:
t =
m1 m2
S Dif
(6 1) * (2.58) 2 (6 1) * (2.16) 2
662
1 1
6 6 = 1.34
13.33 8.33
1.34
=
=3.73
95% dintre valorile distribuiei, pentru df=10. n exemplul dat acestea sunt, aa cum am vzut deja,
2.2281.6[3]
Mai departe calculm limitele de variaie pentru diferena dintre mediile populaiilor cercetrii
pornind de formula testului t:
t
m1 m2 1 2
sm1 m 2
n aceast expresie, t este chiar t critic iar pe noi ne intereseaz diferena dintre mediile populaiilor,
ceea ce se obine astfel:
m1 m2 1 2 tcrit * sm1 m 2
(formula 3.13)
De unde deducem, mai departe:
1 2 m1 m2 tcrit * sm1 m 2
(formula 3.14)
Dac nlocuim valorile calculate n exemplul de mai sus, obinem:
1 2 13.33 8.33 2.2281 * 1.34
De unde calculm limita inferioar=2.015 i limita superioar=7.985.
Ceea ce trebuie s observm, n primul rnd, la aceste valori, este c ntre ele nu se afl valoarea 0
(fapt care ar corespunde ipotezei de nul). S reinem c, indiferent de valoarea calculat a testului, dac
intervalul de ncredere al acestuia include valoarea 0, ipoteza de nul nu va putea fi respins. Mai departe,
cercettorul va trebui s aprecieze ct de rentabil este s instituie un astfel de program dac diferena de
performan se afl n plaja menionat. Dac aceast plaj este foarte mare, nseamn c estimarea pe baza
celor dou eantioane nu este foarte precis i, ca urmare, nici foarte util. Dimpotriv, dac diferena
eantioanelor este aproape de cele dou limite, estimarea este mai sigur. n principiu, cu ct volumul
eantioanelor va crete, cu att precizia estimrii va fi mai mare.
n fine, o ultim precizare n legtur cu calcularea limitelor de ncredere. Calcularea lor nu este
relevant din punct de vedere practic atunci cnd variabila dependent este exprimat n uniti de msur
care nu au o semnificaie prin ele nsele. S ne imaginm, spre exemplu, un experiment n care un grup
privete un film trist iar un alt grup privete un film vesel, dup care starea de spirit a celor dou grupuri este
evaluat prin numrarea cuvintelor triste sau vesele pe care subiecii i le pot aminti dintr-o list citit
imediat dup vizionare. n aceast situaie calcularea limitelor de ncredere nu este absolut justificat, fiind
greu de interpretat n cazul numrului de cuvinte. Nu acelai lucru se ntmpl dac, de exemplu, n cazul
unui experiment n care utilizarea unui anumit tip de exerciii la locul de munc, se traduce n creterea
productivitii muncii, msurat prin numrul de produse finite. Este evident c numrul de produse finite
este un indicator cu relevan practic i uor de interpretat.
Condiiile n care putem calcula testul t pentru eantioane independente
-
6[3]
Intr-o manier absolut similar se pot construi limite de ncredere pentru orice alt interval: 99% sau 99,9%
***
TEMA PENTRU ACAS
ntr-un studiu asupra efectelor unui nou tratament al fobiei, datele pentru grupul experimental obinute printr-o scal de
evaluare a tendinelor fobice sunt:
m1=27.2, s1=4 i N1=15
Datele pentru grupul de control sunt:
m2=34.4, s2=14 i N2=15
Formulai:
Problema (ntrebarea) cercetrii
Ipoteza cercetrii (H1)
Ipoteza de nul (H0)
Aflai t critic pentru =0,05; bilateral
Not: Dei datele din exemplu arat c m1 este mai mic dect m2, vom alege un test bilateral pentru c, s nu uitm, n
practic, criteriile deciziei statistice sunt fixate naintea msurrii experimentale, cnd, deci, nu aveam de unde ti
care vor fi valorile pe care le vom obine.
n primul rnd, volumul calculelor ar urma sa fie destul de mare i ar crete i mai mult dac
numrul categoriilor variabilei independente ar fi din ce n ce mai mare.
n al doilea rnd, problema cercetrii vizeaz relaia dintre variabila dependent (n exemplul de
mai sus, performana la statistic) i variabila independent, exprimat prin ansamblul tuturor
categoriilor sale (grupele de studiu). Ar fi bine s putem utiliza un singur test i nu mai multe,
pentru a afla rspunsul la problema noastr.
n fine, cel mai puternic argument, este acela c, prin efectuarea repetat a testului t se
acumuleaz o cantitate de eroare de tip I mai mare dect este permis pentru o decizie statistic
(0.05). S presupunem c dorim s testm ipoteza unei relaii dintre nivelul anxietii i
intensitatea fumatului, evaluat n trei categorii: 1-10 igri zilnic; 11-20 igri zilnic i 21-30
igri zilnic. n acest caz, avem trei categorii ale cror medii ar trebui comparate dou cte dou.
Dar, n acest fel, prin efectuarea repetat a testului t pentru eantioane independente, s-ar cumula
o cantitate total de eroare de tip I de 0.15 adic 0.05+0.05+0.05.
Pentru a elimina aceste neajunsuri i, mai ales pe ultimul dintre ele, se utilizeaz o procedur
statistic numit analiza de varian (denumit pe scurt ANOVA, de la ANalysis Of VAriance, n englez).
n mod uzual, analiza de varian este inclus ntr-o categorie aparte de teste statistice. Motivul pentru care o
introducem aici, imediat dup testul t pentru eantioane independente, este acela c, n esen, ANOVA nu
este altceva dect o extensie a logicii testului t pentru situaiile n care se dorete compararea a mai mult de
dou medii independente. Dar, dac problema este similar, soluia este, aa cum vom vedea, diferit.
Exist mai multe tipuri de ANOVA, dou fiind mai frecvent folosite:
ANOVA unifactorial:
o Presupune o variabil dependent msurat pe o scal de interval/raport (anxietatea, n
exemplul de mai sus).
o Presupune o variabil independent de tip categorial (nominal sau ordinal) care ia trei sau
mai multe valori (cele trei categorii de fumtori: 1-10 igri zilnic, 11-20 igri i 21-30
igri). n contextul ANOVA, variabila independent este definit ca factor. Modelul de
analiz de varian cu o singura variabil independent se numete ANOVA unifactorial,
ANOVA simpl sau, cel mai frecvent, ANOVA cu o singur cale (One-way ANOVA).
ANOVA multifactorial
o Presupune o variabil dependent (la fel ca n cazul ANOVA unifactorial)
o Presupune dou sau mai multe variabile independente, fiecare cu dou sau mai multe valori
msurate pe o scal nominal sau ordinal. De exemplu, n cazul de mai sus, se poate aduga
sexul ca variabil independent, urmnd s se rspund la ntrebarea dac intensitatea
fumatului i caracteristica de sex au, mpreun, o relaie cu nivelul anxietii.
Nu vom discuta aici dect prima dintre cele dou variante de ANOVA.
7[1]
Pentru simplificare, n continuare ne vom referi la trei eantioane dar se va nelege trei sau mai multe
eantionare. n imaginea de mai jos populaiile cercetrii (Pc1, Pc2, Pc3) sunt exprimate cu linie continu, iar
populaie de nul cu linie discontinu.
Chiar dac absena unei legturi ntre numrul de igri fumate i intensitatea anxietii (ipotez de
nul) este adevrat, cele trei grupuri (eantioane) nu trebuie s aib n mod necesar aceeai medie. Ele pot
avea medii diferite care s rezulte ca expresie a variaiei aleatoare de eantionare (m1m2m3) i, de
asemenea, mprtieri (dispersii) diferite (s1s2s3). S ne gndim acum la cele trei medii pe care vrem s le
comparm ca la o distribuie de sine stttoare, de trei valori (sau mai multe, pentru cazul n care variabila
independent are mai multe categorii). Cu ct ele sunt fi mai diferite una de alta, cu att distribuia lor are o
mprtiere (varian) mai mare. Este evident faptul c, dac eantioanele ar aparine populaiei de nul,
diferena mediilor (exprimat prin dispersia lor) ar fi mai mic dect n cazul n care acestea ar proveni din
populaii distincte (corespunztor ipotezei cercetrii).
n continuare se pune urmtoarea problem: Ct de diferite (mprtiate) trebuie s fie mediile celor
trei eantioane, luate ca distribuie de sine stttoare de trei valori, pentru ca s putem concluziona c ele nu
provin din populaia de nul (dreptunghiul punctat) ci din trei populaii diferite, corespunztoare eantioanelor
de cercetare (Pc1, Pc2, Pc3)?
Pentru a rspunde la aceast ntrebare este necesar:
a) S calculm dispersia valorilor individuale la nivelul populaiei de nul, care se bazeaz pe valorile
anxietii tuturor valorilor msurate, indiferent de intensitatea fumatului;
b) S calculm dispersia mediilor anxietii grupurilor cercetrii (considerate ca eantioane separate);
c) S facem raportul dintre aceste dou valori. Obinerea unei valori mai ridicate a acestui raport ar
exprima apartenena fiecreia din cele trei medii la o populaie distinct n timp ce obinerea unei
valori mai sczute ar sugera proveniena mediilor dintr-o populaie unic (de nul). Decizia statistic
cu privire la mrimea raportului i, implicit, cu privire la semnificaia diferenelor dintre mediile
comparate, se face prin raportarea valorii raportului la o distribuie teoretic adecvat, alta dect
distribuia normal, aa cum vom vedea mai departe.
S ne concentrm acum asupra fundamentrii modului de calcul pentru cei doi termeni ai raportului.
Calcularea exact a dispersiei populaiei de nul este imposibil (deoarece nu avem acces la toate valorile
acesteia), dar ea poate fi estimat prin calcularea mediei dispersiei grupurilor de cercetare. Valoarea astfel
obinut se numete dispersia intragrup i reprezint estimarea mprtierii valorilor msurate la nivelul
populaiei de nul.
La rndul ei, dispersia mediilor grupurilor de cercetare, calculat dup metoda cunoscut de calcul a
dispersiei, formeaz ceea ce se numete dispersia intergrup. Valoarea astfel obinut evideniaz ct de
diferite (mprtiate) sunt mediile eantioanelor care fac obiectul comparaiei.
Raportul dintre dispersia intergrup i dispersia intragrup se numete raport Fisher i ne d
valoarea testului ANOVA unifactorial. Cu ct acesta este mai mare, cu att mprtierea mediilor este mai
mare i, implicit, diferen lor poate fi una semnificativ, ndeprtat ce o variaie pur ntmpltoare.
Imaginile de mai jos dau expresie grafic acestui raionament:
s 2Within
s1 s2 s3
N grupuri
(formula 3.15)
s 2int ragrup
df1
df int ragrup
* s 21
df 2
dfint ragrup
* s 22
iar
df 3
df int ragrup
* s 23
(formula 3.16)
dfintragrup=Nsubieci-Ngrupuri
Estimarea dispersiei populaiei de nul pe baza dispersiei mediilor grupurilor( variana intergrup)
Mediile celor trei grupuri (eantioane) sunt numere care pot fi analizate ca distribuie n sine, a cror
dispersie (varian) poate fi calculat, fiind o estimare a mprtierii valorilor la nivelul populaiei. Din cauz
c se bazeaz pe mediile grupurilor, aceasta se mai numete i varian intergrupuri (between groups, n
limba englez). ntre variaia acestor medii i variaia valorilor din grupurile analizate, luate mpreun, exist
o legtur care poate fi exprimat pe baza formulei transformate a erorii standard, astfel:
2M
2
N
de unde se deduce:
2 N * 2 M
(formula 3.17)
Vom putea utiliza dispersia mediilor celor trei eantioane pentru a estima dispersia populaiei totale
(vezi exemplul de mai jos). Aceasta se numete estimarea varianei intergrupuri, notat cu s2intergrup.
Dac nlocuim, n expresia de mai sus, expresia de calcul a dispersiei (formula 3.17), obinem:
s
int ergrup
N *s
(m M )
N*
df int ergrup
unde m este media fiecrui grup separat, M este media celor trei grupuri luate mpreun, N este
numrul subiecilor dintr-un grup, atunci cnd grupurile sunt egale, iar dfintergrup se calculeaz ca numrul
grupurilor-1.
Ca urmare, pentru o situaie cu trei grupuri, formula desfurat se scrie astfel:
s 2int ergrup N *
(m1 M ) 2 ( m2 M ) 2 (m3 M ) 2
dfint ergrup
(formula 3.18)
unde: m1, m2, m3 sunt mediile celor trei grupuri, iar celelalte valori sunt cele descrise pentru formula
anterioar.
Ambele tipuri de estimri sunt estimri independente ale varianei populaiei de nul. ns, n timp ce
variana intragrup o estimeaz n mod direct (media varianelor), variana intergrup o msoar indirect
(variana mediilor). Aceasta din urm, variana intergrup, reprezint o estimare a varianei populaiei de nul
numai dac ipoteza de nul este adevrat. Dac ipoteza de nul este fals, ea reflect de fapt msura n care
valorile variabilei independente (factorul) influeneaz mediile variabilei dependente. Pe aceast
particularitate se bazeaz procedura analizei de varian. Raportul dintre cele dou estimri s2intergrup/s2intragrup va
tinde s devin cu att mai mare cu ct diferena dintre mediile grupurilor (tradus prin dispersia mediilor)
devine mai mare dect dispersia din interiorul grupurilor (tradus prin media dispersiilor). Acest raport se
numete raport Fisher, dup numele celui care a fundamentat acest tip de analiz8[2], i se scrie astfel:
F
s 2 int ergup
s 2 int ragrup
(formula 3.19)
Distribuia Fisher
8[2]
Sir Ronald Aylmer Fisher (1890-1962). Astronom de formaie, interesat de teoria erorilor, s-a remarcat prin contribuiile sale n
teoria statisticii, creia, din anul 1922, i-a dat o nou orientare.
Valorile raportului F (sau testul F) se distribuie ntr-un mod particular, numit distribuia F sau distribuia
Fisher. Ca i distribuia normal, distribuia F este o familie de distribuii, avnd urmtoarele caracteristici:
1. asimetrie pozitiv (tendina valorilor de grupare spre partea stng, cu valori mici);
2. poate lua o valori orict de mari;
3. valoarea minim este 0, deoarece decurge din raportul a dou dispersii, iar dispersiile nu pot fi
niciodat negative9[3].
4. forma distribuiei variaz n funcie de o pereche de grade de libertate format din numrul grupelor
(categoriile variabilei independente) i numrul subiecilor.
Imaginea de mai sus reprezint curba F pentru 3 grupuri cu 30 de subieci n total. Distribuia Fisher
are forme distincte n funcie de numrul eantioanelor comparate i volumul acestora.
n practic, se poate ajunge n situaia ca dispersia intragrup s rezulte a fi mai mic dect dispersia intergup i, ca urmare,
valoarea lui F s fie mai mic dect 0. Acest lucru este determinat de inegalitatea sever a dispersiilor ntre grupurile analizate.
5. dfintergrup=3-1=2
6. dfintragrup=18-3=15
7. Citim F critic (F(0.05, 2, 15)) din tabelul F pentru =0.05: Fcritic=3.6823 (Anexa 3)
Not privind utilizarea tabelei pentru distribuiile F
Spre deosebire de tabelele distribuiilor utilizate pn acum, (z i t), pentru interpretarea lui F avem
mai multe tabele, calculate fiecare pentru un anume nivel al lui . Mai nti cutm tabela pentru dorit (s
zicem, =0.05). Apoi citim valoarea critic pentru F la intersecia dintre coloana care reprezint numrul
gradelor de libertate pentru numrul grupurilor (dfB) cu linia care reprezint numrul gradelor de libertate
pentru volumul total al subiecilor (dfW). Dac valoarea obinut prin calcul este mai mare sau egal dect
cea tabelar, atunci putem lua decizia de respingere a ipotezei de nul.
O precizare important cu privire la ANOVA ca test statistic, privete caracterul ei unilateral (onetailed). ntr-adevr, spre deosebire de celelalte teste studiate pn acum, ANOVA este interpretat ntr-o
singur direcie i anume, dac mediile grupurilor difer semnificativ ntre ele (au o variaie mai mare dect
cea normal pentru o distribuie aleatoare). Nu putem avea o valoare negativ pentru F i, ca urmare, testul F
este ntotdeauna un test unilateral.
Calculm F pe baza datelor centralizate n tabelul urmtor10[4]:
X
N
M
s2
(m-M)
(m-M)2
Intensitatea fumatului
MARE
MEDIE
MIC
X1
X2
(X2X3
(X1-m1)2
(X3-m3)2
(anxietate)
(anxietate)
m2)2
(anxietate)
9
1,37
4
,11
3
1,00
7
,69
7
7,13
5
1,00
6
3,35
3
1,77
2
4,00
8
,03
6
2,79
1
9,00
10
4,71
4
,11
6
4,00
7
,69
2
5,43
7
9,00
47
10,83
26
17.33
24
28
6
6
6
m1=7.83
m2=4.33
m3=4.00
M=(m1+m2+m3)/3=5.39
2.17
3.47
5.60
2.44
-1.06
-1.39
5.95
1.12
1.93
(m-M)2=9
Calculm numrtorul, adic dispersia mediilor celor trei grupuri. Dat fiind faptul c nu cunoatem
dispersia populaiei vom utiliza dispersia eantioanelor, conform formulei 3.18 pentru grupuri egale.
Prin nlocuire cu valorile calculate n tabelul de mai sus, obinem:
s 2int ergrup 6 *
Mai departe, calculm numitorul raportului F (s2intragrup), prin nlocuirea valorilor calculate pentru
dispersiile din interiorul celor trei grupuri luate separat, n formula 3.15:
2
s 2 int ragrup
10[4]
s1 s2 s3
2.17 3.47 5.6
3.75
N grupuri
3
Atenie, acest mod de prezentare a datelor servete calculrii manuale a testului F. ntr-o baz de date SPSS vom avea cte o
nregistrare pentru fiecare subiect, cu dou variabile, una pentru nivelul anxietii i cealalt pentru intensitatea fumatului, aceasta
din urm cu trei valori convenionale, s zicem 1, 2, 3 pentru fiecare nivel de intensitate a fumatului.
s 2 int ergrup
27
F 2
7.20
s int ragrup 3.75
Valoarea astfel obinut o comparm cu F critic gsit anterior n tabel. Constatm c F calculat (7.2),
este mai mare dect F critic (3.6823).
Decizia statistic:
Respingem ipoteza de nul i acceptm ipoteza cercetrii: Nivelul anxietii prezint o variaie n
legtur cu intensitatea fumatului, evaluat n cele trei categorii.
Publicarea rezultatului testului F (ANOVA)
n raportul de publicare pentru ANOVA vor fi descrise grupurile (categoriile) comparate, mediile lor,
valoarea testului F cu numrul gradelor de libertate i pragul de semnificaie al testului. ntr-o manier
narativ, rezultatul obinuit pe exemplul de mai sus, poate fi prezentat astfel:
Au fost comparai subieci fumtori, grupai n trei categorii pe baza numrului zilnic de igri (110 igri, 11-20 igri, 21-30 igri), n funcie de nivelul scorului la un test de anxietate. Mediile
anxietii pentru cele trei grupuri au fost 7.83, 4.33, respectiv 4. Analiza de varian unifactorial a relevat
o diferen semnificativ ntre aceste medii, F (2, 15)=7.2; p0.05.
Graficul urmtor prezint variaia mediilor anxietii celor trei categorii de fumtori. Aa cum se
observ, nivelul anxietii scade de la categoria marilor fumtori la cei care fumeaz sub 20 de igri pe zi. n
acelai timp, putem constata c marii fumtori manifest un nivel considerabil mai ridicat dect celelalte
dou categorii, ntre care diferenele de anxietate sunt ceva mai mici.
M
ia
d
e
n
ie
x
ta
e
m
ta
1-3
tig
0
arf1-2
tu
0
a
ig
r2
-0
1
tiga
r
42
5
6
7
8
Acest lucru ne poate sugera c, dei semnificativ pe ansamblul celor trei categorii, cea mai mare
cantitate de variaie provine de la distana dintre media grupului de mari fumtori i celelalte dou. Msura n
care fiecare dintre grupurile prezente n studiu contribuie la variana total va putea fi pus n eviden prin
analiza post-hoc. Pentru a nu apela la formule complicate i la calcule greoaie, vom prezenta modul de
operare cu analiza post-hoc mai departe, n seciunea SPSS.
Se va reine c raionamentul i modul de calcul al ANOVA prezentat mai sus pentru o variabil
independent cu trei categorii se menine identic i pentru un numr mai mare de categorii. n acest caz,
desigur, volumul prelucrrilor este corespunztor mai mare. n fine, este de precizat faptul c valoarea n sine
a testului ANOVA, ca i a testului t, de altfel, nu este relevant. Singurul aspect care face obiectul
interpretrii este semnificaia testului, probabilitatea cu care valoarea raportului F ar fi putut fi mai mare
dac valorile testate ar fi fost aleatoare.
Avantajele ANOVA
Utilizarea ANOVA pentru testarea ipotezelor n cazul unui numr mai mare de grupuri (eantioane)
prezint dou avantaje. Primul, ine de ceea ce am precizat deja, i anume faptul c reducem riscul cumulrii
unei cantiti prea mare de eroare de tip I, prin efectuarea repetat a testului t. Al doilea, rezult din faptul c
avem posibilitatea s punem n eviden diferene semnificative ntre mediile a mai multe grupuri, chiar i
atunci cnd nici una dintre ele nu difer semnificativ una de cealalt (testul t).
Dei, n mod normal, analiza de varian este utilizat doar n situaia n care se dorete testarea
diferenei dintre mediile a mai mult de dou grupuri independente, ea poate fi utilizat i n cazurile n care
exist numai dou grupuri. Dar, utilizarea testului t pentru testarea diferenei dintre dou medii este o metod
mult mai direct, mai uor de aplicat i de neles, dect analiza de varian.
Condiii de utilizare a testului ANOVA
Utilizarea analizei de varian unifactoriale presupune ndeplinirea urmtoarelor condiii:
Un psiholog trebuie s recomande unui patiser culoarea glazurii pentru un nou tip de prjitur, avnd
de ales ntre verde, rou i galben.
n acest scop alege 18 subieci, crora le cere s efectueze o sarcin plictisitoare avnd la ndemn
platouri cu prjituri glazurate. Subiecii sunt mprii n trei grupe, fiecare primind prjituri de o singur
culoare. Dup un timp, numr cte prjituri a mncat fiecare subiect din cele trei grupuri i construiete
tabelul urmtor.
Verde
3
7
1
0
9
2
-
Rou
3
4
5
6
4
6
Galben
2
0
4
6
4
1
caracteristici psihologice oarecare (variabila dependent). Vom observa c, n toate exemplele evocate,
variabila independent este una de tip nominal, dihotomic (nainte/dup; semestru/sesiune; grup de
cercetare/grup de control; biat/fat; so/soie, etc.), n timp ce variabila dependent se msoar pe o scal de
interval/raport. De asemenea, scoatem n eviden faptul c n ambele situaii se utilizeaz msurtori de
acelai fel, cu acelai instrument, care produce valori exprimate n aceeai unitate de msur, ntre care se
poate efectua un calcul direct al diferenei.
Pentru descrierea testului statistic adecvat acestor situaii s ne imaginm urmtoarea situaie
generic de cercetare: Un grup de pacieni cu tulburri de tip anxios sunt inclui ntr-un program de
psihoterapie, avnd drept scop ameliorarea nivelului anxietii. nainte de nceperea programului a fost
aplicat o scal de evaluare a anxietii. Acelai instrument a fost aplicat din nou, dup parcurgerea
programului de terapie.
Aici s-ar putea pune ntrebarea de ce nu considerm valorile rezultate din cele dou msurtori ca
fiind independente, urmnd s utilizm testul t pentru acest tip de date? Exist mai multe argumente n
favoarea respingerii acestei variante simplificatoare:
Utilizarea valorilor perechi ofer informaii mai bogate despre situaia de cercetare. n modele
de cercetare de tip nainte/dup ea capt chiar valene de experiment;
Testul t pentru eantioane independente surprinde variabilitatea dintre subieci, n timp ce testul
t pentru eantioane dependente (msurri repetate) se bazeaz pe variabilitatea intra-subiect,
aceea care provine din diferena valorilor de la o msurare la alta, la nivelul fiecrui subiect n
parte;
Dac exist o diferen real ntre subieci, atunci testul diferenei dintre valorile perechi are
mai multe anse s o surprind dect cel pentru valori independente.
Revenind la tema de cercetare pe care am enunat-o mai sus, dei avem aceiai subieci, i n primul
i n al doilea caz, ne vom raporta la aceasta situaie ca i cum ar fi dou eantioane. Unul al subiecilor care
nu au urmat nc un program de terapie, iar celalalt, al subiecilor care au urmat un astfel de program.
Datorit faptului c cele dou eantioane sunt formate din aceiai subieci, ele se numesc dependente sau
corelate.
n acest tip de studiu, obiectivul testului statistic este acela de a pune n eviden semnificaia
diferenei dintre mediile anxietii n cele dou momente. Cea mai simpl procedur de calcul este metoda
diferenei directe. Pentru aceasta, calculm diferenele fiecrei perechi de valori din cele dou distribuii (X2X1), obinnd astfel o distribuie a diferenelor, pe care o vom nota cu D.
Logica ipotezei de nul
Dac programul de terapie ar fi total ineficient, trebuie s presupunem c diferenele pozitive le-ar
echilibra pe cele negative ceea ce, la un numr mare de eantioane ipotetice, ar conduce la o medie a
diferenelor egal cu 0. Ca urmare, ipoteza de nul presupune c media diferenelor la nivelul populaiei este
0. Ceea ce nseamn c testul t trebuie s demonstreze c media diferenelor msurate este suficient de
departe de 0, pentru a respinge ipoteza de nul i a accepta ipoteza cercetrii.
Rezult c putem reduce metoda de calcul la formula testului t pentru un singur eantion:
t
m
sm
mD D
sD / N
formula 3.20
unde mD este media distribuiei D (a diferenelor dintre cele dou msurri), D este media populaiei de
diferene, iar sD este eroarea standard a distribuiei D (msoar mprtierea distribuiei D).
Exemplu analitic de calcul
Problema cercetrii: Se poate obine o reducere a reaciilor anxioase prin aplicarea unei anumite
proceduri de psihoterapie?
Ipoteza cercetrii (H1):
Pentru test bilateral Programul de psihoterapie are un efect asupra anxietii.
Pentru test unilateral Programul de psihoterapie reduce intensitatea reaciilor de tip anxios.
Ipoteza de nul (H0):
Pentru test bilateral Programul de psihoterapie nu are nici un efect asupra anxietii.
Pentru test unilateral Programul de psihoterapie nu reduce nivelul anxietii.
Populaiile cercetrii:
Populaia 1 Subiecii cu anxietate ridicat care nu au urmat un program de terapie
Populaia 2 Subiecii cu anxietate ridicat care au urmat un program de terapie
Ipoteza cercetrii afirm c ele sunt diferite, n timp ce ipoteza de nul afirm c ele sunt identice.
Eantion: Un singur grup de subieci cu probleme anxioase (N=8) al crui nivel de anxietate este
evaluat nainte i dup programul de terapie.
Criteriile deciziei statistice
Alegem modul de testare a ipotezei: bilateral
Fixm, convenional, nivelul =0.01 S spunem c preferm acest nivel deoarece costurile de
implementare a programului sunt destul de mari, iar pacienii trebuie convini c merit timpul i banii.
Cutm t critic pentru =0.01 n tabelul distribuiei t, pentru 7 grade de libertate (8-1). Tabelul ne d
valorile pentru un test unilateral (dreapta curbei). Pentru testul bilateral trebuie mai nti s njumtim
valoarea aleas pentru (0.01/2=0.005). n continuare, cutm valoare aflat la intersecia coloanei gradelor
de libertate (7) cu coloana lui =0.005 i citim t critic= -3.49. i atribuim semnul minus, deoarece ne
ateptm ca nivelul anxietii s scad dup aplicarea programului de terapie.
X
N
Datele cercetrii:
nainte de
Dup
program
program
(X1)
(X2)
6
6
8
7
10
11
9
8
5
5
6
5
11
10
5
4
60
56
8
8
D
(X2-X1)
.00
-1.00
1.00
-1.00
.00
-1.00
-1.00
-1.00
-4
8
D-mD
.50
-.50
1.50
-.50
.50
-.50
-.50
-.50
(D-mD) 2
.25
.25
2.25
.25
.25
.25
.25
.25
(D-mD)2=4
sD =
X
N
nainte de
program
(X1)
Dup
program
(X2)
D
(X2-X1)
7.50
7.00
mD=-0,5
(D mD ) 2
N 1
D-mD
(D-mD) 2
4
0.75
7
Not: n principiu, sub aspectul procedurii statistice, nu prezint nici o importan dac utilizm diferena
X1-X2 sau X2-X1. Depinde de ceea ce dorete s determine cercettorul. Important este ca, n final, s
interpreteze corect rezultatul obinut, n funcie de semnul diferenei i semnificaia concret a acestuia.
Totui, n modelele de tip nainte/dup, este mai adecvat utilizarea diferenei X2-X1.
Introducem valorile n formula 3.20 i obinem:
t
0,5
0,75 / 8
2.08
Raionamentul decizional
Publicarea rezultatului
La publicare se vor meniona: volumul eantionului, mediile variabilei dependente n raport cu valorile
variabilei independente, valoarea testului t, pragul de semnificaie i dac testul a fost unilateral sau bilateral.
Avnd n vedere faptul c, uzual, testele statistice se efectueaz bilateral, se poate meniona numai cazul n
care testul este unilateral, eventual cu explicarea motivului pentru care a fost preferat aceast soluie.
Pentru exemplul de mai sus, o prezentare narativ a rezultatului ar putea arta astfel:
Un eantion de 8 subieci cu probleme de anxietate au participat la un program de terapie anxiolitic.
Nivelul anxietii (msurat cu o scal specific) a fost evaluat nainte i dup programul de terapie. S-a
constatat o reducere a nivelului anxietii de la o medie de 7.50 la 7.0, dup aplicarea terapiei. Diferena nu
a atins pragul semnificaiei statistice t(7)=-2,08, p>0.01, pentru =0.01 bilateral.
Limitele de ncredere pentru diferena dintre medii
La fel ca i n cazul testului t pentru eantioane independente, se pune problema generalizrii
rezultatului la nivelul populaiei, cu alte cuvinte, care este intervalul n care ne putem atepta s se afle
diferena dintre medii, pentru variabilele studiate. Pentru o estimare cu o precizie de 99%, conform cu nivelul
alfa ales, limitele critice pentru diferena dintre medii sunt cele care corespund valorilor lui p=0,005, de o
parte i de alta a curbei t (3.4998). Formula de calcul pentru intervalul de ncredere deriv, i n acest caz,
din formula testului:
t
mD D
sD / N
de unde rezult formula pentru calculul limitelor de ncredere ale mediei diferenei:
D m D t crit *
sD
N
n condiiile studiului nostru, decizia statistic de acceptare a ipotezei de nul a infirmat ipoteza
cercetrii dar analiza intervalului de ncredere poate ajuta la nelegerea mai bun a situaiei. nlocuind
valorile corespunztoare studiului nostru, obinem urmtoarele limite de ncredere:
Limita inferioar: D = -0,5-(-3.4998)*0.26=+0.40
Limita superioar D = -0,5+(-3.4998)*0.26=-0.90
Rezultatul arat c dac media diferenei n condiiile eantionului de cercetare este de 0.5, atunci
media adevrat a diferenie, la nivelul populaiei, se afl, cu o probabilitate p=0.99 (sau 99%), ntre o limit
inferioar de +0.40 i o alta superioar de -0.90.
Not: n acest caz, +0.40 este limita inferioar deoarece t critic este negativ, iar o diferen mai aproape de zero, nseamn o
valoare mai mic n raport cu extrema negativ a curbei.
Nu trebuie s omitem faptul nici faptul c, n exemplul nostru, este vorba de un eantion foarte mic
iar eantioanele de acest gen conduc la valori mari ale erorii standard a mediei i, prin aceasta, la intervale de
ncredere mai largi. Chiar atunci cnd obinem rezultate semnificative pe eantioane mici, ele pot prezenta un
interval de ncredere mai mare dect rezultatele obinute pe eantioane mari. n acelai timp, trebuie s
reinem c distribuia de eantionare a mediilor obinute pe eantioane mici este instabil, fapt care impune
cel puin replicarea cercetrii, pentru mai mult siguran.
***
TEMA PENTRU ACAS
Ne propunem s scoatem n eviden efectul stresului temporal (criza de timp) asupra performanei de
operare numeric. n acest scop, selectm un eantion de subieci crora le cerem s efectueze un test de calcule
aritmetice n dou condiii experimentale diferite: prima, n condiii de timp nelimitat, cu recomandarea de a lucra ct
mai corect; a doua, n condiii de timp limitat, cu condiia de a lucra ct mai repede i mai corect n acelai timp.
Rezultatele celor dou reprize sunt cele din tabelul alturat. S se rezolve urmtoarele sarcini:
Fr
criz de timp
67
79
83
80
99
95
80
100
1.
2.
3.
4.
5.
6.
Cu
criz de timp
65
73
70
85
93
88
72
69
Testul t pentru eantioane dependente se aplic n situaia n care avem o variabil dependent
msurat n dou situaii diferite. n practica cercetrii, ns, exist i situaia n care avem dou variabile
dependente, msurate pentru aceiai subieci. Cu alte cuvinte, avem dou msurri pentru aceiai subieci,
dar efectuate cu instrumente diferite. Acest gen de situaie este ntlnit n cercetri a cror problem se
exprim n maniera: exist o legtur ntre numrul atitudini pozitive pe care le manifest oamenii i
numrul atitudinilor pozitive pe care le primesc din partea celor din jur?. Sau: exist o legtur ntre
timpul de reacie i nivelul extraversiunii ca trstur de personalitate?. n aceste cazuri avem dou
variabile dependente cu valori perechi pentru fiecare subiect i nici o variabil independent.
Pentru situaii de acest gen, problema care se pune este existena unei relaii variaia reciproc a
acelor dou variabile. Testul statistic utilizat este testul de corelaie (coeficientul de corelaie). Termenul de
corelaie, nainte de a fi un concept statistic este un cuvnt uzual n limbajul cotidian. n esen, el exprim o
legtur ntre anumite aspecte ale realitii aa cum este ea reflectat n plan observaiei directe. (O parcare
plin cu maini ne sugereaz c magazinul alturat este plin cu cumprtori, ntre numrul de maini din
parcare i numrul de cumprtori existnd o anumit corelare).
La nivel statistic, corelaia exprim o legtur cantitativ sistematic ntre valorile a dou variabile
perechi, msurate pe subieci aparinnd aceluiai eantion de cercetare.
S presupunem c un grup de studeni au efectuat un test de inteligen bazat pe raionament
abstract/figurativ i unul altul, bazat pe raionament verbal/logic. Dac pe msur ce performana la unul
dintre teste crete concomitent cu performana la cellalt test, avem ceea ce se numete o corelaie pozitiv.
Dac, dimpotriv, creterea performanei la un test este asociat cu scderea performanei la celalalt test, ne
aflm n faa unei corelaii negative. Este evident c exist i posibilitatea ca variaia performanei la unul din
teste s nu aib nici o legtur cu variaia performanei la al doilea test.
Intensitatea legturii dintre cele dou valorile celor dou distribuii se exprim prin coeficientul de
corelaie liniar, notat cu simbolul r. Introdus de Karl Pearson[1], el mai este cunoscut i sub numele de
coeficientul de corelaie Pearson, sau al moment-produsului, dup expresia uneia din formulele de calcul.
n exemplul de mai sus am presupus valori care se refer la dou teste de inteligen, msurate,
ambele, prin numrul de rspunsuri corecte. Cum am putea corela ns, dou variabile msurate fiecare cu
alt unitate de msur, de exemplu, timpul de reacie n sutimi de secund, cu extraversiunea, exprimat prin
scorul la un test? Soluia cea mai simpl este aceea de a transforma ambele variabile n distribuii
standardizate z, care sunt independente de unitatea de msur. Pe aceast transformare se bazeaz i formula
de calcul a coeficientului de corelaie:
r
* zy
(formula 3.21)
unde zx respectiv zy sunt scorurile z ale variabilelor x i y iar N este volumul eantionului
Dac presupunem c cele dou variabile au valori identice, atunci zx ar fi egali cu zy iar formula ar deveni:
z
r
(formula 3.22)
n continuare, prin nlocuirea expresiei de calcul a lui z am ajunge la formula deja cunoscut a
dispersiei. Ori, tim c dispersia unei distribuii z este ntotdeauna egal cu +1. Am obinut astfel valoarea
maxim pe care o poate atinge coeficientul de corelaie n cazul unei corelaii pozitive perfecte (r max=+1). n
cazul unei corelaii negative perfecte, conform aceluiai raionament, obinem valoarea minim a
coeficientului de corelaie (rmin= 1).
Reprezentarea grafic a corelaiei
Plasarea valorilor celor dou variabile pe un grafic produce o imagine intuitiv a relaiei dintre valori.
Acest tip de grafic se numete scatterplot.
n cazul unei corelaii pozitive, reprezentrile scatterplot pot arta astfel:
Relaie direct Corelaie pozitiv
r = 1.00
r = .80
r = .20
+
|
|________________
+
|
|
|
|
|________________
|________________
Tendina este aceea ca valorilor mari de pe axa orizontal s le corespund valori mari pe axa vertical. n
cazul unei corelaii pozitive perfecte (r=+1), punctele de intersecie ale perechilor de valori se plaseaz pe o
linie. Cu ct corelaia este mai mic, cu att norul de puncte este mai larg dar forma elipsei indic relaia
pozitiv dintre cele dou variabile.
n imaginea de mai jos avem reprezentri scatterplot caracteristice pentru corelaii liniare negative.
Relaie indirect- Corelaie negativ
r = -1.00
r = -.80
r = -.20
+
|
|
|________________
+
+
|
|
|
|________________
+
+
|
|
|
|
|________________
+
Tendina este aceea ca valorilor mari de pe axa orizontal s le corespund valori mici pe axa vertical. Ca
urmare, att linia corelaiei negative perfecte (r=-1) ct i diagonala mare a elipsei norului de puncte al
corelaiei imperfecte se orienteaz din stnga sus spre dreapta jos a sistemului de coordonate.
Atunci cnd corelaia dintre cele dou variabile este inexistent, norul punctelor de intersecie are o form
circular, care nu contureaz nici o tendin (r=0).
Nici o relaie Nu exist corelaie
r = 0.00
|
|
|
|
|________________
+
* zy
( X m ) / s * (Y m ) / s
x
de unde obinem:
X m * Y m
x
N * sx * s y
(formula 3.23)
unde:
25 29.63
6.76
= -.68
25
32
40
29
31
16
28
36
X = 237
mX= 29.63
sX = 6.76
.35
1.53
- .09
.20
-2.02
- .24
.94
28 29.88
7.01
= -.27
- .41
1.59
.59
-.70
-1.55
- .55
1.30
Produsul
Z
ZX*ZY
(-.68)(-.27) = .18
- .14
2.43
- .05
- .14
3.13
.13
1.23
zX*zY = 6.77
Pentru calcularea coeficientului de corelaie am ales formula de definiie (11.1), care se preteaz la distribuii
cu numr mic de valori. nlocuind valorile n formul, obinem coeficientului de corelaie:
* zY
6.77
0.85
8
Ca urmare, respingem ipoteza de nul (ntre cele dou variabile nu este nici o legtur) i acceptm ipoteza cercetrii
(performana aritmetic i cea verbal logic sunt corelate, variaz concomitent, n acelai sens )
Interpretarea coeficientului de corelaie
Aa cum am spus deja, avem o corelaie perfect atunci cnd r este egal cu +1 sau 1. Valoarea
obinut de noi (+0.85) este apropiat de +1 ceea ce ne sugereaz c ntre cele dou tipuri de performan
exist o legtur. Desigur, +0.85 este mai puin dect +1 dar i mai mult dect, s zicem, +0.32. O asemenea
interpretare, dei absolut corect, nu poate fi satisfctoare. Se simte necesitatea de a avea un criteriu de
valorizare a cuantificrii numerice a corelaiei. De-a lungul timpului au fost propuse diverse astfel de scale
de valorizare, prin atribuirea unor calificative coeficienilor de corelaie, n funcie de mrimea lor. Aceast
problem comport multe discuii iar soluiile oferite de diferii autori sunt deseori diferite. Ca regul
general, toi autorii sunt de acord c valorile sub 0,1 ale coeficienilor de corelaie trebuie s fie considerate
neglijabile, chiar i atunci cnd ating pragul de semnificaie statistic. Mai departe, oferim, cu caracter
orientativ, modelul de descriere sugerat de Hopkins [3] cu privire la interpretarea valorilor coeficienilor de
corelaie:
Coeficientul de corelaie Descriptor
0.0-0.1
0.1-0.3
Mic, minor
0.3-0.5
Moderat, mediu
0.5-0.7
0.7-0.9
0.9-1
naintea oricrui calificativ ns, prima condiie pentru a lua n considerare existena unei corelaii
ntre dou variabile rmne atingerea pragului de semnificaie (alfa). Dac valoarea lui r corespunde unui
nivel alfa mai mare de 0.05, sau dect alt prag legitim decis de cercettor, existena unei corelaii este de
neluat n seam, indiferent de mrimea coeficientului Pearson. Aceasta, deoarece nu avem temei pentru a
accepta c se ndeprteaz suficient de o valoare care ar fi putut decurge din jocul hazardului. n cele din
urm, ce trebuie s lum n considerare, semnificaia sau intensitatea asocierii? Desigur, rspunsul este unul
relativ. Dac finalitatea studiului este aceea de a lua decizii, ca n cazul seleciei de personal, de exemplu, se
vor cuta valori ct mai mari ale coeficientului de corelaie (r), implicit ale celui de determinare (r2). Dar,
dac obiectivul este preponderent teoretic, de a pune n eviden relaii ascunse ntre variabile, atunci
indiferent de mrimea lor, coeficienii de corelaie vor fi luai n considerare (dar numai dac sunt mai mari
de 0.1).
Limitele de ncredere pentru coeficientul de corelaie
Atunci cnd calculm coeficientul de corelaie pentru valorile msurate pe un eantion o facem,
desigur, cu scopul de a avea o estimare asupra gradului n care cele dou variabile au o variaie comun la
nivelul ntregii populaii. Deoarece calcularea corelaiei pe valorile populaiei este practic imposibil, tot
ce putem face este s o estimm, cu o anumit marj de eroare, prin utilizarea eantionului. Astfel, n termeni
formali, r (calculat pentru eantion) este o estimare pentru (ro), corelaia adevrat la nivelul populaiei.
Calcularea limitelor de ncredere
Construirea intervalelor de ncredere pentru coeficientul de corelaie la nivelul populaiei () nu este
la fel de simpl ca n cazul altor valori statistice. Atunci cnd =0, valorile rs (cele care ar fi calculate pe
eantioanele extrase din aceeai populaie) ar forma o distribuie simetric, n jurul lui zero (normal, dac
volumul eantionului este suficient de mare). Dar dac =+0.7 distribuia lui rs are o mprtiere asimetric
n jurul lui acestei valori. Motivul este simplu: este mai mult loc pentru valori sub +0.7 dect peste aceast
valoare (deoarece tim c r ia valori ntre -1 i +1). Cu ct estimarea pentru este mai aproape de limitele
teoretice ale lui r, cu att distribuia rs este mai asimetric spre partea opus. Aceast particularitate creeaz o
piedic n transformarea coeficienilor rs n scoruri Z (cu majuscul, pentru a se evita confuzia cu scorurile z
clasice), necesare construirii limitelor intervalului de ncredere pentru . Problema a fost rezolvat de Fisher,
care a elaborat un algoritm pe baza cruia valorile rs sunt transformate n valori Z, a cror arie de distribuie
sub curba normal este cunoscut:
Z = 0.5log[(1 + r)/(1 - r)]
Pentru a se evita aplicarea acestei formule relativ greoaie, se poate utiliza un tabel (vezi Anexa 5)
care, chiar dac nu conine toate valorile intermediare, este suficient pentru a acoperi nevoile practice. S
lum ca exemplu valoarea coeficientului de corelaie parial obinut de noi mai sus: r=0.85. Ne propunem s
aflm care sunt limitele de ncredere ale acestei valori, adic s definim intervalul n care se poate afla o
astfel de valoare, cu o probabilitate asumat. De regul, aa cum tim, aceast probabilitate asumat este de
0.05 sau, exprimat altfel, un nivel de ncredere de 95%.
Practic, aflarea limitelor se face astfel:
Se transform r calculat n valoare Z, citind tabela Fisher: n cazul nostru, pentru r=0.85 avem o
valoare Z=1.2561 (facem o medie ntre valorile tabelare apropiate). Pe o distribuie normal, cum este
distribuia de eantionare Z, tim c aproximativ 95% dintre valori se ntind ntre -1.96 i +1.96.
Adic, pe o distan de aproximativ dou abateri standard n jurul mediei (abaterea standard a
valorilor Z fiind 1).
Se calculeaz eroarea standard a transformrii Z, cu formula:
1
1
re
0,447
N 3
83
Limitele astfel calculate sunt exprimate n valori transformate Z, ori noi avem nevoie s tim limitele n
valori ale lui r. Pentru aceasta, facem acum transformarea invers, citind valorile lui Z n tabela Fisher,
corespunztoare celor dou limite de mai sus:
Limita superioara de ncredere pentru r=+0.97
Limita inferioar de ncredere pentru r=+0.36
Utilizarea limitelor de ncredere
Dac analizm limitele intervalului de ncredere obinute, pentru exemplul nostru, trebuie s
constatm c ele sunt foarte mari, n zona valorilor pozitive, dar avnd limita inferioar extrem de aproape de
valoarea zero. Acest fapt conduce la concluzia c, dei este att mare i semnificativ statistic, coeficientul
obinut are o valoare mic de generalizare. Situaia este generat de volumul extrem de mic al eantionului.
Amplitudinea intervalului de ncredere este direct dependent de volumul eantionului. Cu ct N este mai
mare, cu att valoarea erorii standard tinde s scad, ceea ce aduce limitele intervalului de ncredere mai
aproape de valoarea calculat a lui r.
S ne imaginm c am efectuat un calcul de corelaie pe 30 de subieci i am obinut r=0.30. Limitele
de ncredere pentru acesta sunt ntre -0.07 i +0.60, ceea ce arat c este nesemnificativ, dat fiind faptul c
ntre cele dou limite este i valoarea zero, aceea care este vizat de ipoteza de nul. Dar, dat fiind faptul c n
formula erorii standard a lui r volumul eantionului de afl la numitor, cu ct N va fi mai mare, cu att
valoarea lui re va fi mai mic iar limitele intervalului de ncredere pentru r, mai aproape de r. Pentru
exemplul anterior, calculele ne arat c, dac am crete volumul eantionului la 50 de subieci, limita
inferioar trece deja peste valoarea zero. Celelalte linii din tabel prezint efectul de mrime al eantionului n
cazul creterii lui N pn la 100 de subieci.
Niv. de
Limite
de
ncredere
Pearson
N
ncredere
r
inferioar superioar
(%)
30
40
50
60
70
80
90
100
0,30
0,30
0,30
0,30
0,30
0,30
0,30
0,30
95
95
95
95
95
95
95
95
-0,07
-0,01
0,02
0,05
0,07
0,09
0,10
0,11
0,60
0,56
0,53
0,51
0,50
0,49
0,48
0,47
Corelaie i cauzalitate
Coeficientul de corelaie ne ofer infirmaii despre modul n care variaz valorile a dou variabile una
n raport cu cealalt. Ca urmare, nu i se poate atribui o semnificaie de cauzalitate ntre variabile dect atunci
cnd cele dou variabile au fost msurate ntr-un context care probeaz cauzalitatea. Iar acest lucru se petrece
numai n situaii de experiment.
Coeficientul de determinare
Valorile lui r trebuie considerate pe o scal ordinal. Cu alte cuvinte, nu este permis s afirmm c un
coeficient de corelaie de 0.40 este de dou ori mai mare dect un altul de 0.20. Dac dorim s comparm n
mod direct doi coeficieni de corelaie trebuie s ridicm valorile lui r la ptrat (r2) obinnd astfel ceea ce se
numete coeficient de determinare (prezentat n programele statistice i ca r squared). Pentru
exemplificare, 0.852 = 0.72. Dac citim n procente rezultatul obinut, putem spune c 72% din variaia
(mprtierea) uneia dintre cele dou variabile este concomitent cu variaia celeilalte variabile. Sau, pentru a
fi i mai coreci, cele dou variabile au in comun 72% din variaia care le caracterizeaz.
Caracterul liniar al corelaiei Pearson
Trebuie s reinem c ceea ce exprim r este nivelul corelaiei liniare, adic msura n care linia care
unete valorile perechi este rectilinie. Aceasta este o form de aproximare a legturii dintre variabile. n
realitate, uneori, corelaia dintre dou variabile are o form care se abate de la modelul rectiliniu (este o
curb). Dac privim imaginile de mai jos, vom vedea cteva tipuri posibile de curbe de corelaie. Figurile a i
b exprim corelaii perfecte dar care se supun unui model curbiliniu, n timp ce figura c reprezint o corelaie
perfect dar rectilinie.
Exist i proceduri de calculare a coeficientului de corelaie curbilinie dar acestea nu fac obiectul unei
introduceri n statistica aplicat. Calcularea corelaiei Pearson pentru variabilele reprezentate in figurile a i
Distributia normala z
(r=0)
b, ar conduce
la valori mici
ale acesteia, n ciuda asocierii grafice evidente a valorilor lor.
Iat i un exemplu concret n acest sens. Am introdus valorile lui z i probabilitile corespunztoare
de pe curba normal, ntr-un program de prelucrri statistice. Coeficientul de corelaie i curba de distribuie
pentru cele dou variabile sunt prezentate n imaginea de mai jos[4]:
,6
,5
,4
,3
,2
,1
0,0
-4
-3
-2
-1
Aa cum se observ, n timp ce r=0 indic absena oricrei corelaii liniare ntre variabile, dei curba
de distribuie arat o corelaie curbilinie perfect.
Din fericire, astfel de situaii sunt rare n realitate, modelul corelaiei liniare fiind adecvat pentru un
mare numr de relaii dintre variabilele naturale, incluzndu-le i pe cele psihologice. Atunci cnd exist
suspiciuni consistente cu privire la natura liniar a legturii dintre variabile, se pot efectua anumite
transformri care s le aduc n cadrul unei variaii liniare (de exemplu, extragerea radicalului sau
logaritmarea variabilelor). Atunci cnd se raporteaz un coeficient de corelaie fr a se preciza caracterul
liniar sau curbiliniu, vom considera c acesta se refer la corelaia liniar. Oricum, graficul scatterplot ofer
informaii suplimentare semnificative i, din acest motiv, este recomandabil analizarea acestuia de fiecare
dat cnd utilizm testul de corelaie Pearson.
Condiii pentru calcularea coeficientului de corelaie Pearson
Pentru a putea utiliza n mod legitim calculul de corelaie, eantionul trebuie s fie aleator iar cele
dou variabile (ambele msurate pe scale de interval/raport) trebuie s aib o distribuie care s nu se abat
grav de la distribuia normal. Aceast condiie este cu att mai important cu ct eantionul este mai mic.
Utilizarea coeficientul de corelaie
Analiza de corelaie este una dintre cele mai uzuale proceduri statistice n cercetarea psihologic.
Printre utilizrile cele mai comune menionm analiza consistenei i validitii testelor psihologice.
Consistena se refer la gradul n care un instrument de evaluare se concentreaz asupra unei anumite
realiti psihice. Validitatea, se refer la faptul dac ceea ce presupune c msoar un instrument psihologic
este msurat cu adevrat (de exemplu, o scal de anxietate msoar cu adevrat anxietatea?).
Din cele prezentate, rezult c putem utiliza coeficientul atunci cnd avem serii perechi de distribuii.
Pentru o mai bun nelegere, se cuvine s facem cteva aprecieri comparative cu testul t pentru eantioane
dependente. Testul t pentru eantioane dependente, se aplic atunci cnd msurm o anumit variabil n
dou situaii diferite (de ex. nainte/dup), ceea ce presupune aceeai unitate de msur. Coeficientul de
corelaie poate fi aplicat att pentru variabile msurate cu aceeai unitate de msur ct i pentru variabile
exprimate n uniti de msur diferite. Aceasta deoarece formula de calcul ia n considerare expresia
standardizat a valorilor (corurile z). ntrebarea este, cnd utilizm unul sau altul dintre cele dou teste?
Rspunsul ine de scopul pe care ni-l propunem. Dac dorim s punem n eviden diferena dintre valorile
medii ale variabilelor, vom aplica testul t pentru eantioane dependente. Dac ne intereseaz intensitatea
variaiei concomitente a variabilelor, vom utiliza coeficientul de corelaie.
Publicarea rezultatului corelaiei (APA style)
A fost evaluat performana la un test de calcul aritmetic i la unul de raionament verbal logic. Scorurile
mari se refer la performane ridicate. Media scorului la primul test a fost de m=29.63 (s=6.76) iar la al
doilea m=29.88 (s=7.01). Am obinut o corelaie semnificativ ntre cele dou performane, r(6)=0.85,
p<0.05, bilateral.
NOT: Se precizeaz neaprat semnificaia valorilor variabilelor n raport de mrimea lor, pentru a se putea
aprecia corect natura relaiei dintre variabile.
TEMA PENTRU ACAS
Se poate spune c inteligena este unul dintre criteriile pe care se constituie cuplurile de prieteni
biei/fete?
A fost selecionat aleator un eantion de cupluri de adolesceni crora li s-a aplicat un test de inteligen.
Rezultatele sunt n tabelul alturat.
Enunai ipoteza statistic, ipoteza cercetrii, definii populaiile, definii criteriile de decizie statistic
Calculai coeficientul de corelaie Pearson i stabilii decizia statistic pentru =0.01, bilateral
Biei
110
100
120
90
108
115
122
110
127
118
Fete
105
108
110
95
105
125
118
116
118
126
[1]
z y' z x
Formula 3.24
Formula de mai sus descrie modul de predicie n valori z pentru variabila Y, pornind de la valorile
variabilei X, numit din acest motiv predictor. Pentru c valoarea lui Y din formula de mai sus este una
prezis, se noteaz cu indicele prim.
S ne imaginm c am descoperit o corelaie perfect (r=+1) ntre scorul la un test de inteligen
verbal (X) i cel la un test de inteligen abstract (Y). Conform formulei, pentru o valoare z x=1.5 vom
prezice o valoare identic pentru Y, zy=1.5.
Din pcate corelaiile perfecte sunt mai degrab excepii, fiind rar sau de loc ntlnite n realitate. Ca
urmare, predicia suport riscul unei erori dat de faptul c doar o parte din variaia unei variabile este
nsoit (explicat) de variaia celeilalte variabile. Soluia pentru luarea n considerare a acestui aspect este
dat n formula modificat:
z y' r * zx
Formula 3.25
distana dintre fiecare punct de intersecie i linie este nul, fapt ce ne spune c linia de regresie estimeaz
perfect, fr erori, modelul relaiei dintre cele dou variabile.
3,5
3,0
2,5
2,0
1,5
1,0
z(y)
,5
0,0
0,0
,5
1,0
1,5
2,0
2,5
3,0
3,5
z(x)
Dar aceast situaie este doar una de excepie. Atunci cnd corelaia este diferit de 1, linia regresie
este trasat pe o traiectorie de aproximare prin norul de puncte, astfel nct distana dintre fiecare punct i
linie sa fie ct mai mic posibil. n esen, pentru a putea trasa dreapta de regresie a dou variabile, ne sunt
necesare punctul de origine al acesteia i nclinarea, sau panta. Odat aflate, putem trasa linia de regresie
utiliznd formula clasic a liniei drepte: Y=a+b*X, unde:
Y este valoarea prezis a fiecrui punct de pe dreapt
a este originea dreptei sau termenul liber al ecuaiei, de fapt punctul n care linia de regresie
intersecteaz ordonata (axa Oy).
b este panta liniei de regresie
X este valoare predictor a variabilei Y
n ce privete panta, dac privim formula 11.4 putem constata c ea poate fi neleas i implicit,
exprimat, ca fraciuni din valorile variabilei X, fraciuni determinate de valoarea lui r. Astfel, dac r=1,
pentru o unitate a lui X avem o nclinare de aceeai unitate a lui Y. Atunci cnd r=0.5, de exemplu, pentru a
anumit unitate a variabilei X avem o jumtate din unitatea valorii lui Y. Atunci cnd corelaia este perfect,
toate punctele se situeaz pe linia de regresie. Cnd corelaia este diferit de 1, punctele se situeaz n jurul
liniei de regresie ntr-un nor, cu att mai ndeprtat de aceasta cu ct corelaia este mai mic. Intuitiv, linia
de regresie poate fi vzut ca o medie a norului de puncte, fiind trasat astfel nct distanele fa de
punctele distribuiei celor dou variabile s fie similare de o parte i de alta a liniei.
Formula de calcul a regresiei pentru scorurile primare (brute)
Formula 11.4 este adecvat pentru situaia n care operm cu scorurile standard (z).
z y' r * zx
Pentru a opera direct cu scorurile primare (brute) ale variabilelor, trebuie operate o serie de
transformri succesive ale acestei formule, pn va fi adus la o form care s corespund ecuaiei liniei
drepte, prezentat mai sus. Vom prezenta aici numai rezultatul final al acestor transformri, care se exprim
n urmtoarea formul de calcul pentru linia de regresie:
Y ' y y * r * x y * r * X
x
x
Formula 3.26
care poate fi privit ca expresie a ecuaiei generice de regresie liniar:
Y ' a yx byx * X
unde:
Analiza reziduurilor
Aa cum se observ, linia de regresie reprezint doar o estimare a relaiei dintre cele dou variabile.
Ea se obine, de fapt, prin cutarea unui traseu prin norul de puncte astfel nct distana nsumat dintre
dreapt i punctele de deasupra s fie egal cu distana nsumat fa de punctele de sub linie. n cazul unei
corelaii perfecte toate punctele de intersecie ale valorilor celor dou variabile se afl exact pe dreapta de
regresie. n cazul corelaiilor imperfecte distanele dintre puncte i dreapta de regresie exprim, de fapt,
eroarea de estimare a asocierii dintre variabile. Distana dintre poziia real a punctelor i cea estimat cu
ajutorul liniei de regresie se numete valoare rezidual i exprim, desigur, o eroare de estimare. Din
acest motiv nici panta (unghiul de nclinare al liniei), nu este exact de 45o.
Cu ct suma distanelor de la fiecare punct la linia de regresie este mai mare, cu att eroarea de
estimare este mai pronunat. Ptratul sumei tuturor distanelor dintre valorile de pe linie i punctele din afara
liniei de regresie reprezint ceea ce se numete variana estimrii sau variana rezidual, i se
calculeaz astfel:
est ( y )
Y Y '
Formula 3.28
Cu ct vor fi mai apropiate punctele de intersecie de linia de regresie, cu att mai puin eroare vom
avea n predicie i, implicit, o corelaie mai mare. Invers, cu ct punctele de intersecie vor fi mai ndeprtate
de linia de regresie, cu att cu att valoarea rezidual va fi mai mare iar corelaia va fi mai mic. La limit,
pentru o corelaie egal cu 0, linia de regresie va avea o traiectorie orizontal, nclinarea ei fiind 0.
Utilitatea analizei de regresie
Analiza de regresie se utilizeaz n situaiile n care suntem interesai s facem predicii asupra unei
variabile, pe baza coeficienilor B (sau beta) obinui pe date rezultate din msurri anterioare. De exemplu,
dac am efectuat o analiz de regresie ntre coeficientul de inteligen i performana colar pe un lot de
subieci, putem ulterior s estimm nivelul performanei colare a altor subieci prin evaluarea inteligenei
lor. Aceasta este procedura tipic pe care se bazeaz prediciile psihologice n contextul examenelor de
selecie.