Sunteți pe pagina 1din 26

UNIVERSITATEA ”PETRE ANDREI” DIN IAŞI

FACULTATEA DE PSIHOLOGIE ŞI ŞTIINŢELE EDUCAŢIEI


DISCIPLINA: Statistică aplicată în psihologie şi analiza informatizata a datelor
PROGRAMUL DE STUDIU: PSIHOLOGIE
CICLUL DE STUDII: I, anul 1

STATISTICĂ APLICATĂ ÎN PSIHOLOGIE ŞI ANALIZA


DATELOR EXPERIMENTALE II
suport de curs (partea a doua)
1. STATISTICA INFERENTIALĂ. NOŢIUNI INTRODUCTIVE

Statistica descriptiva se ocupa de analiza datelor sub aspectul caracteristicilor lor intrinseci
(frecventa valorilor, indicatorii tendintei centrale, ai împrastierii sau formei distributiilor). Tinta finala
a metodei stiintifice insa nu se limiteaza la descrierea datelor ci vizeaza evidentierea relatiilor dintre
ele si, pe aceasta baza, predictia si întelegerea fenomenelor psihice. Aceste proceduri fac parte din
ceea ce se numeste statistica inferentiala

Scoruri standard (z)


Când măsurăm o anumită caracteristică a unui individ (stabilitatea emotionala, anxietate, etc.)
scopul implicit este acela de a efectua comparaţii. Pentru aceasta însă, simpla expresie numerică a
caracteristicii respective nu este suficientă.
Modalitatea de a exprima semnificaţia unei anumite valori dintr-o distribuţie prin raportare la
parametrii distribuţiei (medie şi abatere standard) este scorul normat z (numit şi notă z sau scor z).
Aceasta măsoară distanţa dintre o anumită valoare şi media distribuţiei, în abateri standard:
X m
z
s  
unde X reprezintă oricare dintre valorile distribuţiei

Scorul z se numeşte şi „scor standardizat”. Aceasta inseamna că poate fi utilizat pentru a


compara valori care provin din distribuţii diferite, indiferent de unitatea de măsură a fiecăreia.
Exemplu: Dacă un subiect obţine un scor echivalent cu z=+0.5 la un test de memorie şi un scor
echivalent cu z=+0.4, la un test de inteligenta, se poate spune că are o performanţă mai bună la primul
test decât la al doilea.
 
 
Proprietăţile scorurilor z
  1. Media unei distribuţii z este întotdeauna egală cu 0. Aceasta rezultă din proprietatea mediei
de a se diminua corespunzător dacă se extrage o constantă din fiecare valoare a unei distribuţii.
Formula de calcul pentru z implică scăderea unei constante din fiecare valoare a distribuţiei. Aceasta
înseamnă că şi media noii distribuţii (z) se va reduce cu constanta respectivă. Dar această constantă
este însăşi media distribuţiei originale, ceea ce înseamnă că distribuţia z va avea media egală cu zero,
ca rezultat al diminuării mediei cu ea însăşi.
2. Abaterea standard a unei distribuţii z este întotdeauna 1. Acest fapt decurge prin efectul
cumulat al proprietăţilor abaterii standard. Prima proprietate afirmă că în cazul scăderii unei constante
(în cazul scorurilor z, media) din valorile unei distribuţii, abaterea standard a acesteia nu se modifică.
A doua proprietate afirmă că în cazul împărţirii valorilor unei distribuţii la o constantă, noua abatere
standard este rezultatul raportului dintre vechea abatere standard şi constantă. Dar constanta de care
vorbim este, în cazul distribuţiei z, chiar abaterea standard. Ca urmare, noua abatere standard este un
raport dintre două valori identice al cărui rezultat, evident, este 1.

Alte tipuri de scoruri standardizate


 
Notele z prezintă două avantaje importante: permit compararea valorilor unei distribuţii, şi a
valorilor provenind din distribuţii diferite, ca urmare a faptului ca se exprimă în abateri standard de la
medie.
Notele z au, însă, şi unele dezavantaje: se exprimă prin numere mici, cu zecimale, (greu de
manipulat intuitiv) şi, în plus, pot lua valori negative. Aceste dezavantaje pot fi înlăturate printr-un
artificiu de calcul care să conducă la note standardizate convenabile (ce corespund anumitor nevoi
specifice). Iata câteva tipuri de note standard calculate pe baza notelor z.

2
 
AŞADAR:
Toate variantele sunt obţinute prin transformarea operată pe distribuţia de note z.
La nici una dintre variante nu mai avem valori negative
Zecimalele nu mai sunt semnificative
Notele standard mari indică valori mari iar notele standard mici indică valori mici. 

3
2. PROPRIETĂŢILE CURBEI NORMALE
 
Asa cum am vazut rezultatelor măsurărilor pot lua diverse forme, curba distribuţiei putând fi
unimodală sau multimodală, aplatizată sau înaltă, simetrică sau asimetrică. În statistică există însă un
tip special de distribuţie, numită „distribuţie normală”, care nu este rezultatul unui proces real de
măsurare ci reprezintă un model teoretic. Conceptul de „curbă normală” are câteva proprietăţi
caracteristice:
 are formă de „clopot”- cea mai mare parte a valorilor se concentrează în zona centrală
 este perfect simetrică pe ambele laturi ale sale
 de fiecare parte a mediei se află exact jumătate dintre valorile distribuţiei
 
Curbe normale
 
 
 
 
 
 

 
 
Exemple de curbe normale, care respectă condiţiile de mai sus, chiar dacă au medii şi abateri
standard diferite.

Curba normală standardizată (z)


  Curba normală în care valorile sunt exprimate în scoruri z se numeşte curba normală
standardizată. Ea are toate proprietăţile enunţate mai sus, având însă şi parametrii oricărei distribuţii
z: m=0 şi s=1. Valoarea 0 pentru medie a fost aleasă convenţional pentru că astfel distribuţia este
simetrică în jurul lui 0.

Curba normală standardizată are câteva caracteristici care sunt figurate în imaginea de mai sus şi pe
care este important să le reţinem:
 aproximativ 34% dintre scorurile distribuţiei normale se află între medie şi o abatere
standard deasupra mediei (z=+1)
 intre – 1z şi +1z se află aproximativ 68% dintre valorile distribuţiei
 aproximativ 95% dintre scoruri se află între –2z şi +2z

4
Curba normală are o importanţă aparte pentru analiza statistică. Aceasta, deoarece se acceptă
faptul că variabilele statistice s-ar distribui mai ales sub aceasta formă dacă ar fi efectuate un număr
mare (tinzând spre infinit) de măsurări.

Curba normală si problema probabilitatii


Procentajul ariilor de sub curba normală poate fi citit şi ca probabilitatea a distribuţiei.
Probabilitatea înseamnă „frecvenţa relativă a apariţiei unui eveniment”. Acesta se traduce prin „cât de
siguri putem fi că acel eveniment apare”.
Rezultă de aici că valorile din zona centrală a curbei sunt mai „frecvente” (mai multe), pentru ca
apariţia lor este mai „probabilă”. În acelaşi timp, valorile „mai puţin probabile”, apar mai rar, şi se
plaseaza in zonele extreme ale distribuţiei (curbei).
Dacă probabilitatea reprezintă raportul dintre evenimentul favorabil şi toate evenimentele
posibile, atunci valoarea ei variază între 0 şi 1. Ea poate fi exprimată şi în procente. De exemplu,
probabilitatea de 0.05 corespunde unui procentaj de apariţie de 5%
Utilizând simbolul p (de la „probabilitate”), spunem că dacă p<0.05 înseamnă că evenimentul
are mai puţin de 5% şanse să apară, în condiţiile unei distribuţii normale a curbei. De exemplu,
probabilitatea de a avea un scor între medie şi z=+1 este de 0.34.

Distribuţii reale şi teoretice


Asadar, distribuţia normală reprezintă un model teoretic care aproximează cele mai multe
dintre caracteristicilor fenomenelor naturale, incluzându-le şi pe cele psihice. Cu toate acestea,
distribuţiile reale pe care le descoperă psihologii în studiile lor nu au niciodată parametrii unei curbe
normale perfecte. Acest lucru este practic imposibil dacă ne gândim că o curbă normală are limitele
deschise, mergând spre infinit, în timp ce distribuţiile reale sunt finite. În ciuda acestui neajuns,
aproximarea oferită de modelul teoretic al curbei normale este considerată acceptabilă din punct de
vedere ştiinţific.
Un al aspect care poate conduce la interpretări eronate este exprimarea valorilor curbei normale
în scoruri z. Acest fapt este interpretat uneori în sensul că transformarea în scoruri z a unei oricărei
distribuţii o transformă într-o distribuţie normală. Este o concluzie greşită. Convertirea valorilor unei
distribuţii în scoruri z nu modifică forma distribuţiei. Distribuţia normală z este o distribuţie teoretică
în timp ce o distribuţie z oarecare are forma distribuţiei valorilor originale.

5
6
3. DISTRIBUŢIA MEDIEI DE EŞANTIONARE.
TEOREMA LIMITEI CENTRALE

 Când constituim un eşantion pentru cercetare utilizăm doar unul dintre eşantioanele posibile
din populaţia cercetării. In fapt am putea selecta mai multe eşantioane din aceeaşi populaţie, iar pentru
fiecare dintre ele am putea stabili indicatori sintetici specifici: media şi abaterea standard etc.
Pentru ca fiecare dintre eşantioanele alese va avea are propria sa medie, atunci se poate vorbi
de distribuţia mediilor tuturor eşantioanelor posibile. Aceasta se numeşte distribuţia mediei de
eşantionare sau, mai scurt, distribuţia de eşantionare. La rândul ei, distribuţia mediilor va avea si ea o
medie, numită medie de eşantionare. Astfel, dacă am extrage toate eşantioanele posibile dintr-o
populaţie, atunci media de eşantionare va fi identică cu media populaţiei iar media fiecărui eşantion
va gravita în jurul mediei de eşantionare.
Asa stind lucrurile media fiecarui esantion poate fi considerata o aproximare a mediei de
esantionare, aproximare care contine, evident, o oarecare imprecizie. Această imprecizie se numeşte
eroare de estimare.
Sigur ca, în practică, niciodată nu se ajunge la selectarea tuturor eşantioanelor posibile dintr-o
anumită populaţie de valori.

Împrăştierea distribuţiei de eşantionare - eroarea standard a mediei


  Distribuţia de eşantionare nu are aceeaşi împrăştiere ca şi a distribuţia valorilor variabilei de
origine. Aceasta pentru că, la nivelul fiecărui eşantion o parte din împrăştierea totală este „absorbită”
de media fiecărui eşantion în parte.
Cu cât eşantioanele sunt mai mari, cu atât media fiecărui eşantion tinde să fie mai apropiată de
media variabilei originale.
Imprăştierea distribuţiei de eşantionare va fi mai mică decât împrăştierea variabilei la nivelul
întregii populaţii, deoarece o parte a împrăştierii generale se concentrează şi se „pierde”, în media
fiecărui eşantion extras. Ca urmare, abaterea standard a distribuţiei de eşantionare este o fracţiune din
abaterea standard a populaţiei, fiind dependentă de mărimea eşantionului. Concret, abaterea standard a
distribuţiei de eşantionare este egală cu N din abaterea standard a populaţiei, unde N este volumul
eşantionului.
Deoarece împrăştierea mediei de eşantionare arată cât de mult se abat aceste medii de la media
populaţiei, abaterea standard a mediei de eşantionare este denumită eroare standard a mediei şi se
calculează cu formula:

sm 
N unde sm este eroarea standard a mediei de eşantionare, s este abaterea standard a
populaţiei iar N este volumul eşantionului.
 
Deci, prin creşterea volumului eşantionului, media acestuia se apropie tot mai mult de media
populaţiei, cu alte cuvinte, comportă o eroare din ce în ce în mai mică faţă de aceasta.
Eroarea standard a mediei (expresie mai greu de retinut, fiind utilizata pentru a defini un
indicator al împrăştierii, în timp ce are în compunere cuvântul „medie”) este in indicator care măsoară
cât de departe poate fi media unui eşantion fata de media populaţiei din care a fost extras. Având în
vederea faptul că la numitor avem o expresie bazată pe N (volumul eşantionului), este ca, cu cât
eşantionul este mai mare cu atât eroarea standard a mediei este mai mică.

Teorema limitei centrale


De regula, populaţiile care fac obiectul de interes al cercetărilor de psihologie sunt mari si nu
pot fi accesate în întregimea lor. Apare astfel problema măsurii în care putem estima caracteristicile
statistice ale distribuţiei populaţiei (media, abaterea standard) pe baza aceloraşi indicatori calculaţi
doar la nivelul unui anumit eşantion, selectat pentru studiu.

7
Soluţia acestei probleme rezidă în teorema limitei centrale care avanseaza două axiome statistice:
 cu cât numărul eşantioanelor realizate dintr-o populaţie este mai mare, cu atât media
distribuţiei de eşantionare se apropie de media populaţiei.
 distribuţia mediei de eşantionare se apropie de distribuţia normală, cu atât mai mult cu cât
volumul eşantionului este mai mare (chiar daca la niveelul populatiei distributia nu este una
normala).
Teorema limitei centrale permite inferenţe statistice fără a ne pune problema formei distribuţiei
variabilei la nivelul populaţiei. Este de ajuns să utilizăm un eşantion „destul de mare” pentru a ne
putea asuma presupunerea unei distribuţii normale la nivelul mediei de eşantionare.
Întrebarea care se pune este, însă, cât de mare trebuie să fie un eşantion pentru a putea fi
considerat „destul” de mare”? Vom spune că, dacă eşantionul de referinţă cuprinde cel puţin 30 de
subiecţi, teoria statistică acceptă că avem o distribuţie normală a mediei de eşantionare. Prin urmare 30
este numarul utilizat de obicei pentru constituirea eşantioanelor minime de cercetare. Dacă distribuţia
variabilei la nivelul populaţiei este normală, atunci distribuţia de eşantionare atinge o formă normală si
pentru eşantioane de volum mai mic.

Estimarea intervalului de încredere pentru media populaţiei


Una dintre consecinţele practice ale teoremei limitei centrale este posibilitatea de a face o
estimare a nivelului de încredere pentru media populaţiei, pe baza mediei unui eşantion extras din acea
populaţie. Cu alte cuvinte putem afla, cu o anumită probabilitate, care este intervalul în care se află
media populaţiei, cunoscând doar media unui eşantion extras din aceasta.
Acest lucru se bazează pe proprietatea curbei normale de a avea un număr bine definit de valori
pe un interval simetric în jurul mediei. Astfel, dacă luăm pe curba normală un interval cuprins între
z=±1.96 în jurul mediei, ştim că acoperim aproximativ 95% din valorile posibile ale distribuţiei. În
acest caz, z=±1.96 se numeşte z critic deoarece reprezintă un prag limită, de o parte şi de alta a mediei
(care, pentru curba normală standardizată, este 0). Alegerea acestor limite pentru z critic se bazează, în
esenţă, pe un criteriu subiectiv. Se pot alege, la fel de bine, valori simetrice ale lui z care să cuprindă
între ele 99% sau 99.9% dintre valorile de pe curba normală. Prin consens, însă, se consideră că
asumarea unui nivel de încredere de 95% (corespunzător pentru valori „critice” ale lui z=±1.96) este
considerat suficient pentru păstrarea unui echilibru între precizia estimării şi probabilitatea estimării.
Ca urmare, în această condiţie, putem spune că există 95% şanse ca, având media unui eşantion
aleator, media populaţiei să se afle undeva în intervalul:

  m  z critic * s m

Sigur ca, cu cât limitele intervalului de estimare sunt mai apropiate de media eşantionului, cu
atât aceasta din urmă estimează mai precis media populaţiei şi prezintă mai multă încredere.

AŞADAR:
- distribuţia mediei de eşantionare are o evoluţie diferită fata de distribuţia valorilor
individuale ale unei caracteristici. Chiar şi atunci când acestea din urmă nu se distribuie după regulile
curbei normale, mediile eşantioanelor tind spre o distribuţiei normală dacă volumul lor este suficient
de mare.
- mărimea eşantionului trebuie să fie de cel puţin 30 de valori pentru a avea încredere că
teorema limitei centrale se verifică.
- chiar şi eşantioane de volum mai mic pot avea medii ce se plasează pe o distribuţie normală,
dacă provin din populaţii normale.
- dar forma distribuţiei la nivelul populaţiei nu este de regula cunoscută. De aceea va trebui să
utilizăm, ori de câte ori ne putem permite cel puţin 30 de valori.

8
4. LOGICA VERIFICARII IPOTEZEI STATISTICE

Obiectivul fundamental al cercetării în psihologie este acela de a pune în evidenţă relaţii între
procese şi fenomene. Avem în vedere două tipuri de relaţii:
- de cauzalitate, atunci când modificarea unei variabile determină modificarea celeilalte
(celorlalte) variabile aflate în studiu. O asemenea relaţie de tip cauza-efect poate fi relevata
doar dacă valorile supuse prelucrării provin din experimente psihologice.
- de asociere (variatia concomitenta) - două sau mai multe variabile variază simultan, fără a
putea afirma care dintre ele o influenţează pe cealaltă. Asocierea variabilelor este surprinsa în
studii numite „corelaţionale”, în care variabilele sunt măsurate concomitent, în afara unui
context experimental.
Esenţa inferenţei statistice este aceea de a estima posibilitatea unei relaţii între variabile.
Verificarea acestei estimări se numeşte „testarea ipotezei” iar rezultatul acestei proceduri este unul de
natură probabilistică, comportând, în toate cazurile, un anumit grad de incertitudine (eroare).

 
Ipoteza cercetării şi ipoteza statistică („de nul”)
Utilizarea „ipotezei de nul” (sau „ipoteza diferenţei nule” sau „ipoteză statistică”) implică o
dovadă indirectă a validităţii ipotezei cercetării şi se bazează pe un scenariu „negativ” (similar cu „a
pune răul în faţă”). Ipoteza de nul se formulează ca opusul ipotezei cercetării. Din punct de vedere
formal, ipoteza de nul este simbolizată cu H 0 iar ipoteza cercetării cu H1. Dat fiind faptul că ipoteza
care este supusă efectiv testării directe este ipoteza de nul, ipoteza cercetării este denumită şi „ipoteza
alternativă”.

 Decizia statistică
Acceptarea sau respingerea ipotezei de nul depinde de gradul de risc pe care suntem dispuşi să
ni-l asumăm. In practica cercetării ştiinţifice s-a impus convenţia unui prag minim de risc acceptat în
decizia statistică. Acesta se numeşte nivel alfa (a) şi corespunde probabilităţii de 0.05. Dacă
probabilitatea calculată (p) pentru valoarea eşantionului este mai mică sau egală cu probabilitatea
acceptată (a), atunci ipoteza de nul (H0) poate fi respinsă, fiind acceptată ipoteza cercetării
(alternativă). Acest lucru este similar cu a afirma că rezultatul unui cercetări este semnificativ statistic.
Cu alte cuvinte, probabilitatea de a se obţine un rezultat mai bun, ca urmare a jocului şansei (prin
constituirea de eşantioane aleatoare), este prea mică pentru a fi luată în considerare. Nota z
corespunzătoare limitei de respingere a ipotezei de nul (pragul sau nivelul alfa), este numită şi z critic.
Asadar, în comparaţia rezultatelor derivate dintr-un context de cercetare cu cele calculate pe un
context ipotetic, aleator (bazat pe şansa pură) se realizeaza astfel:
 dacă rezultatul calculat pentru un eşantion este cel puţin egal, sau mai mare, decât scorul critic,
atunci avem un rezultat semnificativ al cercetării, care ar fi avut şanse prea mici să se producă
din întâmplare. În consecinţă, într-un astfel de caz, ipoteza de nul se respinge iar ipoteza
cercetării se consideră confirmată la un prag alfa p=0.05.
 dacă rezultatul cercetării este mai mic decât scorul z critic, atunci avem un rezultat
nesemnificativ al cercetării, prin faptul că există prea mullte şanse să obţinem un rezultat chiar
mai bun din intimplare. În această variantă, ipoteza de nul se acceptă iar ipoteza cercetării se
consideră infirmată la un prag alfa p=0.05.
Raţionamentul deciziei statistice exemplificat astfel, se va regăsi în toate situaţiile de testare a
ipotezelor statistice indiferent de modelul de cercetare şi de natura relaţiei pe care vrem să o
demonstrăm între variabile.

Procedura unilateraa şi bilaterala


  Daca ne intereseaza în ce măsură rezultatul confirmă ipoteza pe direcţia valorilor din dreapta
curbei normale (valori mari, cu z pozitiv) efectuam ceea ce se numeşte un test unilateral (one-tailed).

9
In mod similar se poate proceda tot la un test unilateral si în partea stângă a curbei (valori mici, cu z
negativ). 
Pentru a verifica ipoteza pe ambele laturi ale distribuţiei se aplică ceea ce se numeşte testul z
bilateral (two-tailed). În acest caz se păstrează acelaşi nivel alfa (0.05), dar el se distribuie în mod egal
pe ambele extreme ale curbei, astfel încât pentru 2.5% de fiecare parte, avem un z critic de 1.96 (cu
semnul - sau +).
Alegerea tipului de test, unilateral sau bilateral, este la latitudinea cercetătorului. De regulă
însă, se preferă testul bilateral pentru ca introduce mai multă rigoare şi lăsa mai puţin loc hazardului.
 
Pragul alfa minim acceptabil (0.05).
Am vazut că p=0.05 este un prag de semnificaţie convenţional. Faptul că scorul critic pentru
atingerea pragului de semnificaţie este 1.96 a jucat un rol insemnat în impunerea acestei convenţii.
Practic, putem considera că orice îndepărtare mai mare de două abateri standard de la media populaţiei
de referinţă este semnificativă. Chiar dacă persistă posibilităţi de a ne înşela, ele sunt suficient de mici
pentru a le trece cu vederea.
Impunerea unui prag minim de semnificaţie a testelor statistice are însă rolul de a garanta faptul
că orice concluzie bazată pe date statistice răspunde aceluiaşi criteriu de exigenţă, nefiind influenţată
de subiectivitatea cercetătorului. Nivelul alfa de 0.05 nu este decât pragul minim acceptat. Nimic nu
împiedică un cercetător să îşi impună un nivel mai exigent pentru testarea ipotezei de nul. În practică
mai este utilizat pragul de 0.01 şi, mai rar, cel de 0.001. Toate aceste praguri pot si exprimate şi în
procente, prin opusul lor. Astfel, printr-o probabilitate de 0.05 se poate înţelege şi un nivel de
încredere de 95% în rezultatul cercetării (99%, pentru p=0.01 şi, respectiv, 99.9% pentru p=0.001).
Utilizarea tehnicii de calcul şi apariţia programelor de prelucrări statistice face ca semnificaţia
valorilor testelor statistice sa fie calculată direct şi exact de către program.

10
5. TESTUL T-STUDENT PENTRU
DOUĂ EŞANTIOANE INDEPENDENTE

Puţine sunt variabilele utilizate în psihologie pentru care să dispunem de măsurători la nivelul
populaţiei. În plus, nu întotdeauna putem avea eşantioane „mari” (minim 30 de subiecţi). Pentru a se
rezolva problema comparaţiei mediei unui eşantion cu media populaţiei din care a fost extras, s-a
dezvoltat un model teoretic bazat pe un tip special de distribuţie, denumită distribuţie t, cunoscută însă
şi ca distribuţia „Student”, după pseudonimul cu care s-a semnat autorul acestui model. Distribuţia t
este o distribuţie teoretică care are toate caracteristicile unei distribuţii normale (este perfect simetrică
şi are formă de clopot). Specificul acestei distribuţii constă în faptul că forma ei (mai exact, înălţimea)
depinde de un parametru denumit „grade de libertate” (df sau degrees of freedom), care este egal cu N-
1 (unde N este volumul eşantionului). Curba distributiei t este din ce în ce mai aplatizată pe măsură ce
df (volumul eşantionului) este mai mic. Pe măsură ce df este mai mare, distribuţia t se apropie de o
distribuţie normală standard.
Unul dintre modelele de cercetare frecvente, însă, este acela care vizează punerea în evidenţă a
diferenţelor care există între două categorii de subiecţi. În situaţii de acest gen psihologul compară
mediile unei variabile măsurată pe două eşantioane compuse din subiecţi care diferă sub aspectul altor
variabile (sexul, nivel de instruire, etc.). Variabila supusă comparaţiei este variabila dependentă,
deoarece presupunem că suportă „efectul” variabilei sub care se disting cele două eşantioane şi care,
din acest motiv, este variabilă independentă. În situaţii de acest gen, eşantioanele supuse cercetării se
numesc „independente”, deoarece sunt constituite, fiecare, din subiecţi diferiţi.

Procedura statistică pentru testarea semnificaţiei diferenţei dintre mediile a două


eşantioane
Problema pe care trebuie să o rezolvăm este următoarea: Este diferenţa dintre cele două
eşantioane suficient de mare pentru a o putea considera ca determinată de variabila independentă, sau
este doar una dintre diferenţele probabile, generată de jocul hazardului la constituirea perechii de
eşantioane? Vom observa că sarcina noastră se reduce, de fapt, la ceea ce am realizat anterior în cazul
testului z sau t pentru un singur eşantion. Va trebui să vedem dacă diferenţa dintre două eşantioane
reale se distanţează semnificativ de diferenţa la care ne putem aştepta în cazul extragerii absolut
aleatoare a unor perechi de eşantioane, pentru care distribuţia diferenţelor este normală. Mai departe,
dacă probabilitatea de a obţine din întâmplare un astfel de rezultat (diferenţă) este prea mică (maxim
5%) o putem neglija şi accepta ipoteza că între cele două variabile este o relaţie semnificativă.
Dacă avem valoarea diferenţei dintre cele două eşantioane cercetate, ne mai sunt necesare doar
media populaţiei (de diferenţe ale mediilor) şi abaterea standard a acesteia, pentru a calcula testul z (în
cazul eşantioanelor mari) sau cel t (în cazul eşantioanelor mici). În final, nu ne rămâne decât să citim
valoarea tabelară pentru a vedea care este probabilitatea de a se obţine un rezultat mai bun (o diferenţă
mai mare) pe o bază strict întâmplătoare.
Media populaţiei de diferenţe. Diferenţa dintre mediile celor două eşantioane ale cercetării
face parte, aşa cum am spus, dintr-o populaţie compusă din toate diferenţele posibile de eşantioane
perechi. Media acestei populaţii este 0 (zero). Atunci când extragem un eşantion aleator dintr-o
populaţie, valoarea sa tinde sa se plaseze în zona centrala cea mai probabilă). Dar aceeaşi tendinţă o va
avea şi media oricărui eşantion extras din populaţia pereche. Ca urmare, la calcularea diferenţei dintre
mediile a două eşantioane, cel mai probabile sunt diferenţele mici, tinzând spre zero. Astfel, ele vor
ocupa partea centrală a distribuţiei, conturând o medie tot mai aproape de zero cu cât numărul
eşantioanelor extrase va fi mai mare.

Testul t pentru dispersii diferite


Acesta se bazează pe considerarea separată a dispersiilor celor două populaţii (estimate prin
dispersiile eşantioanelor).

11
Testul t pentru dispersia cumulată
Dispersiile celor două eşantioane pot fi considerate împreună pentru a forma o singură estimare
a dispersiei populaţiei (s2). Obţinem astfel ceea ce se numeşte „dispersia cumulată”, pe care o vom
nota cu.

EXEMPLU DE CALCUL:
Să presupunem că vrem să vedem dacă recompensa (variabila independentă) determină o creştere a
duratei de concentrare a atentiei, constatata printr-un număr mai mare de minute in timpul orei in
care copii ramin atenti la explicatiile invatatorului (variabilă dependentă). Pentru aceasta selectăm
un lot de 10 elevi care vor fi recompensati şi un alt lot de 10 elevi care nu vor fi recompensati. Pentru
fiecare lot vom măsura durata medie de concentrare.

Formularea ipotezei cercetării, a ipotezei de nul, şi a criteriilor deciziei statistice

Pentru exemplul de mai sus:


Problema cercetării: Are recompensa are efect asupra capacitatii de concentrare a atentiei?
Ipoteza cercetării (H1): „Acordarea recompensei determină o crestere a duratei de
concentrare”.
Ipoteza de nul (statistică) (H0): ”Durata de concentrare nu este mai mare nu este mai mare la
lotul care a fost recompensat”. Această variantă este potrivită cu o testare unilaterală a ipotezei (nu
avem în vedere decât eventualitatea ca recompensa sa creasca să crească durata de concentrare).
Dacă, însă, am dori să testăm în ambele direcţii, bilateral, atunci am avea următoarele versiuni
ale ipotezelor:
Ipoteza cercetării: „Durata de concentrare a atentiei este diferita la elevii care au fost
recompensati fata de cei care n-au fost recompensati”
Ipoteza de nul (statistică): „Durata de concentrare nu diferă semnificativ în funcţie de
acordarea recompensei”.
Fixarea lui t critic. Alegem efectuarea unui test bilateral, pentru că nu putem şti dinainte dacă
recompensa nu are un efect negativ asupra capacitatii de concentrare. Alegem nivelul: a=0,05.
Stabilim gradele de libertate: df=N1+N2-2=18
Utilizând tabelul distribuţiei t pentru 18 grade de libertate (adică 20-2) şi a=0,05, bilateral,
vom gasi un t critic. Pentru a respinge ipoteza de nul si a accepta ipoteza cercetării, valoarea t calculată
va trebui să fie cel puţin egală sau mai mare decât t critic.

AŞADAR:
a. se va compara t calculat cu t critic din tabelul distributiei t
b. se va lua decizia statistică: se respinge sau se accepta ipoteza de nul
c. concluzia cercetării: se va admite sau respinge ipoteza cercetării.

Prezentarea rezultatului
La prezentarea testului t pentru diferenţa dintre mediile a două eşantioane independente vor fi
menţionate: mediile fiecărui eşantion, volumul eşantioanelor sau gradele de libertate, valoarea testului,
nivelul lui p.
În formă narativă:
Lotul x a realizat o performanţă mai bună (m=… ) faţă de lotul y (m=…), t(df…)=…, p<0.05”

Interpretarea rezultatului la testul t pentru eşantioane independente


  Trebuie să precizăm că, atunci când calculăm testul t, nu valoarea obţinută este relevantă ci
probabilitatea care este asociată acestei valori (p). Atunci când p este mai mic sau egal cu 0.05, va fi
semnificativă diferenţa dintre mediile celor două eşantioane (adică suficient de mare pentru a respinge
ipoteza că ar putea fi întâmplătoare). Totusi modelul de cercetare nu permite formularea acestei
concluzii în termenii unei relaţii cauzale.

12
Condiţiile în care putem calcula testul t pentru eşantioane independente
- esantioane aleatoare
- eşantioane independente (distincte din punctul de vedere al variabilei independente, care
determină constituirea grupurilor)
- variabila supusă măsurării să se distribuie normal în ambele populaţii. Aceasta ne
garantează că şi distribuţia diferenţelor dintre medii se distribuie normal. Totuşi, teorema
limitei centrale ne permite asumarea normalităţii distribuţiei mediei de eşantionare chiar şi
în cazul variabilelor care nu se distribuie normal la nivelul populaţiei iar testele t sunt
robuste la încălcarea condiţiei de normalitate.
- dispersia celor două eşantioane să fie omogenă. Iar daca eşantioanele sunt suficient de mari
(cel puţin 100 fiecare) sau au acelaşi volum (N1=N2) problematica omogenitatii dispersiei
nici nu trebuie sa ne mai preocupe.

Când se utilizează testul t pentru eşantioane independente ?


Acest test statistic se utilizează în situaţiile în care vrem sa aflăm dacă o variabilă dependentă,
măsurată pe o scală de interval/raport, diferă semnificativ între două grupuri (eşantioane) diferenţiate
pe o variabilă independentă, măsurată pe scala de tip nominal (dihotomic). Deoarece este unul dintre
modelele frecvent întâlnite în practica cercetării psihologice, utilizarea testului t pentru eşantioane
independente este şi ea des întâlnită în literatura de specialitate.

13
6. TESTUL T-STUDENT PENTRU
DOUĂ EŞANTIOANE DEPENDENTE (MĂSURI REPETATE)

Un alt model uzual în cercetarea psihologică vizează comparaţia a două valori măsurate pe
aceiaşi subiecţi Exemple:
 evaluarea nivelului anxietăţii înainte şi după un program de desensibilizare; evaluarea timpului
de reacţie înainte şi după ingerarea unei cantitati de alcool. Pentru ca este vorba despre
măsurarea unor variabile la aceiaşi subiecţi, acesta este un model „intrasubiect”.
 mai exista si situatii cind natura situaţiei experimentale nu permite utilizarea aceloraşi subiecţi
pentru cele două măsurări. În acest caz se poate găsi pentru fiecare subiect corespunzător
condiţiei iniţiale un subiect „similar”, corespunzător condiţiei finale, constituind astfel „perechi
de subiecţi” aparţinând fiecare unui grup distinct, între care se poate face o comparaţie directă.
În astfel de cazuri, avem de a face cu aşa numitul model al ”eşantioanelor perechi” .
De remarcat ca că în ambele situaţii se utilizează măsurători de acelaşi fel, cu acelaşi
instrument, care produce valori exprimate în aceeaşi unitate de măsură, între care se poate efectua un
calcul direct al diferenţei.
Pentru descrierea testului statistic adecvat acestor situaţii să ne imaginăm următoarea situaţie
generică de cercetare: Un grup de pacienţi cu tulburări de tip anxios sunt incluşi într-un program de
psihoterapie, având drept scop ameliorarea nivelului anxietăţii. Înainte de începerea programului a fost
aplicată o scală de evaluare a anxietăţii. Acelaşi instrument a fost aplicat din nou, după parcurgerea
programului de terapie.

Atentie!
 testul t pentru eşantioane independente surprinde variabilitatea dintre subiecţi, în timp ce
testul t pentru eşantioane dependente (măsurări repetate) se bazează pe variabilitatea
„intra-subiect”, aceea care provine din diferenţa valorilor de la o măsurare la alta, la
nivelul fiecărui subiect în parte.

Logica ipotezei de nul


  In astfel de cazuri ipoteza de nul presupune că media diferenţelor la nivelul populaţiei este 0.
Ceea ce înseamnă că testul t trebuie să demonstreze că media diferenţelor măsurate este suficient de
departe de 0, pentru a respinge ipoteza de nul şi a accepta ipoteza cercetării.

Exemplu
 
Problema cercetării: Se poate obţine o crestere a duratei de concentrare a atentiei prin
acordarea unor recompense?

Ipoteza cercetării (H1):


Pentru test bilateral ® Acordarea de recompense are efect asupra capacitatii de concentrare a
atentiei.

Cum apare ipoteza pentru test unilateral?

Ipoteza de nul (H0):


Pentru test bilateral ® Acordarea de recompense nu are nici un efect asupra capacitatii de
concentrare a atentiei..

Cum apare ipoteza pentru test unilateral?

Populaţiile cercetării:
Lotul 1 ® Elevi carora li s-au acordat recompense.
Populaţia 2 ® Elevi carora nu li s-au acordat recompense.

14
Ipoteza cercetării afirmă că ele sunt diferite, în timp ce ipoteza de nul afirmă că ele sunt identice.
 
Decizia statistica
 Alegem modul de testare a ipotezei: bilateral
 Fixăm pragul a= (0.05 sau 0.01).
 Căutăm t critic la pragul fixat functie de gradele de libertate (N-1).
 Comparăm t calculat cu t critic la pragul fixat
 Acceptăm sau nu ipoteza de nul functie de care vom decide asupra ipotezei de cercetare.
- fie probabilitatea de a se obţine o crestere a capacitatii de
concentrare ca urmare a jocului hazardului este mai mare decât
pragul pe care ni l-am impus
- fie probabilitatea de a se obţine o crestere a capacitatii de
concentrare ca urmare a jocului hazardului este mai mica decât
pragul pe care ni l-am impus
Decizia: datele sprijina / nu sprijină ipoteza cercetării.

Prezentarea rezultatului
  La publicare se vor menţiona: volumul eşantionului, valoarea testului t, pragul de semnificaţie şi
dacă testul a fost unilateral sau bilateral.
Pentru exemplul de mai sus, o prezentare narativă a rezultatului ar putea arăta astfel:
„Un lot de ? elevi cu probleme de concentrare au intrat intr-un program cu acordare de
recompense. Capacitatea de concentrare a fost evaluat înainte şi după acordarea de recompense. S-a
constatat o crestere / reducere a duratei de concentrare de la o medie de ? la ? după acordarea
recompenselor. Diferenţa a atins / nu a atins pragul semnificaţiei statistice t(df)=?, p>0.01, pentru
a=0.01 bilateral.”

15
7. TESTAREA DIFERENŢEI DINTRE MEDIILE A CEL PUŢIN TREI
EŞANTIOANE INDEPENDENTE. ANALIZA DE VARIANŢĂ (ANOVA)

Exista situaţii de cercetare în care avem de comparat trei sau mai multe medii. La prima
vedere, am putea fi tentaţi să rezolvăm problema prin compararea repetată a mediei grupelor, două
câte două. Din păcate, există cel puţin trei argumente pentru care această opţiune nu este de dorit a fi
urmată:
Trebuie sa stim ca prin efectuarea repetată a testului t se acumulează o cantitate de eroare mai
mare decât este permis pentru o decizie statistică (0.05). De exemplu, pentru efectuarea repetată a
testului t pentru trei eşantioane independente, s-ar cumula o cantitate totală de eroare 0.15 adică
0.05+0.05+0.05.
Pentru a elimina aceste neajunsuri, se utilizează o procedură statistică numită analiza de
varianţă (denumită pe scurt ANOVA). In esenţă, ANOVA nu este altceva decât o extensie testului t-
Student pentru situaţiile în care se doreşte compararea a mai mult de două medii independente.
Există mai multe tipuri de ANOVA, două fiind mai frecvent folosite:
ANOVA unifactorială (univariată) presupune:
 o variabilă dependentă măsurată pe o scală de interval/raport.
 o variabilă independentă (nominală sau ordinală) care ia trei sau mai multe valori.
Modelul de analiză de varianţă cu o singura variabilă independentă se numeşte
„ANOVA unifactorială”, „ANOVA simplă” sau, cel mai frecvent, „ANOVA cu o
singură cale” (One-way ANOVA).
ANOVA multifactorială (multivariată) presupune
 o variabilă dependentă (similara cazului ANOVA unifactorială)
 două sau mai multe variabile independente, fiecare cu două sau mai multe valori
măsurate pe o scală nominală sau ordinală.

Ce inseamna ANOVA unifactorială


Specificul constă în faptul că în locul diferenţei directe dintre medii se utilizează dispersia lor,
gradul de împrăştiere. Procedura se bazează pe următorul demers logic: Ipoteza cercetării sugerează că
fiecare grup are o medie caracteristică, diferită de a celorlalte. Prin opoziţie, ipoteza de nul, ne obligă
să presupunem că cele trei loturi pe care vrem să le comparăm, provin dintr-o populaţie unică de valori
iar diferenţele dintre mediile lor nu reprezintă decât expresia variaţiei fireşti a distribuţiei de
eşantionare.
Loturile pot avea medii diferite care să rezulte ca expresie a variaţiei aleatoare de eşantionare
(m1¹m2¹m3) şi, de asemenea, împrăştieri (dispersii) diferite (s1¹s2¹s3).
Să ne gândim la cele trei medii pe care vrem să le comparăm ca la o distribuţie de sine
stătătoare, de trei valori (sau mai multe). Cu cât ele sunt fi mai diferite una de alta, cu atât distribuţia
lor are o împrăştiere (varianţă) mai mare. Dacă eşantioanele ar aparţine populaţiei de nul, diferenţa
mediilor (exprimată prin dispersia lor) ar fi mai mică decât în cazul în care acestea ar proveni din
populaţii distincte (corespunzător ipotezei cercetării).
Se pune astfel următoarea problemă: cât de diferite (împrăştiate) trebuie să fie mediile celor
trei eşantioane, luate ca distribuţie de sine stătătoare de trei valori, pentru ca să putem concluziona că
ele nu provin din aceeasi populatie ci din trei populaţii diferite, corespunzătoare eşantioanelor de
cercetare (1, 2, 3)?
Pentru aceasta trebuie sa aflam:
a) dispersia valorilor individuale la nivelul populaţiei care se bazează pe toate valorile măsurate,
indiferent grup;
b) dispersia mediilor fiecarui grup (considrat ca lot separat);
c) raportul dintre aceste două valori. Obţinerea unei valori mai ridicate a acestui raport ar exprima
apartenenţa fiecăreia din cele trei medii la o populaţie distinctă în timp ce obţinerea unei valori
mai scăzute ar sugera provenienţa mediilor dintr-o populaţie unică.

16
Care este modul de calcul pentru cei doi termeni ai raportului?
Calcularea exactă a dispersiei populaţiei este imposibilă (deoarece nu avem acces la toate
valorile acesteia), dar ea poate fi estimată prin calcularea mediei dispersiei grupurilor de cercetare.
Valoarea astfel obţinută se numeşte „dispersia intragrup” şi reprezintă estimarea împrăştierii valorilor
măsurate la nivelul populaţiei de nul.
La rândul ei, dispersia mediilor grupurilor de cercetare, calculată după metoda cunoscută de
calcul a dispersiei, formează ceea ce se numeşte „dispersia intergrup”. Valoarea astfel obţinută
evidenţiază cât de diferite sunt mediile eşantioanelor care fac obiectul comparaţiei.
Raportul dintre „dispersia intergrup” şi „dispersia intragrup” se numeşte raport Fisher şi ne dă
valoarea testului ANOVA unifactorial. Cu cât acesta este mai mare, cu atât împrăştierea mediilor este
mai mare şi, implicit, diferenţă lor poate fi una semnificativă, îndepărtată ce o variaţie pur
întâmplătoare.
Dacă distanţa (împrăştierea) dintre mediile eşantioanelor care provin din cele trei populaţii depăşeşte
un anumit nivel, atunci putem concluziona că nu avem o singură populaţie (ipoteza de nul) ci mai
multe, mediile grupurilor prezentând o diferenţă semnificativă.

AŞADAR:
Esenţa procedurii de calcul pentru ANOVA se bazează pe o dublă estimare a dispersiei populaţiei
cercetării.

 Estimarea dispersiei populaţiei pe baza mediei dispersiei grupurilor (varianţa intragrup)


Pentru ca nu cunoaştem dispersia populaţiei din care ar putea proveni grupurile, o estimăm prin
dispersiile celor trei grupuri (s12, s22, s32).
Calculând media celor trei dispersii vom obţine o valoare care estimează dispersia pentru cele trei
grupuri luate împreună. Această valoare se consideră că estimează dispersia populaţiei totale.
Deoarece ea se calculează pe baza dispersiilor în interiorul grupurilor, este desemnată în mod uzual
prin termenul de intragrup. Se notează cu s2intragrup iar formula de calcul va depinde de egalitatea sau
inegalitatea volumelor grupurilor supuse cercatarii.
 
 Estimarea dispersiei populaţiei de nul pe baza dispersiei mediilor grupurilor( varianţa
intergrup)
Mediile celor trei grupuri (loturi) sunt numere care pot fi analizate ca distribuţie în sine, a căror
dispersie (varianţă) poate fi calculată, fiind o estimare a împrăştierii valorilor la nivelul populaţiei. Din
cauză că se bazează pe mediile grupurilor, aceasta se mai numeşte şi varianţă intergrupuri.
Deci analiza de varianţă are la baza raportul dintre cele două estimări s 2intergrup/s2intragrup. Acesta va
tinde de să devină cu atât mai mare cu cât diferenţa dintre mediile grupurilor (tradusă prin dispersia
mediilor) devine mai mare decât dispersia din interiorul grupurilor (tradusă prin media dispersiilor).
Acest raport se numeşte „raport Fisher”, după numele celui care a fundamentat acest tip de analiză şi
se scrie astfel:
s 2 int ergup
F 2
 
s int ragrup  
Distribuţia F
 Valorile raportului F (sau testul F) se distribuie într-un mod particular, numit distribuţia F sau
distribuţia Fisher, având următoarele caracteristici:
1. asimetrie pozitivă (tendinţa valorilor de grupare spre partea stângă, cu valori mici);
2. poate lua o valori oricât de mari;
3. forma distribuţiei variază în funcţie de cele doua tipuri de grade de libertate: numărul grupelor
(categoriile variabilei independente) şi numărul subiecţilor.

17
Prezentarea rezultatului testului F (ANOVA)
Pentru prezentarea ANOVA vor fi descrise grupurile (categoriile) comparate, mediile lor,
valoarea testului F cu numărul gradelor de libertate şi pragul de semnificaţie al testului. Narativ un
rezultat poate sa apara in urmatoarea forma:
Mediile pentru cele … grupuri au fost: gr.1 - ?, gr.2 - ?, gr.3 - ?. Analiza de varianţă
unifactorială a relevat o diferenţă semnificativă între aceste medii, F (df numarator, df numitor)=?;
p£0.05”.

Analiza „post-hoc”
 Testul ANOVA ne oferă o imagine „globală” a relaţiei dintre categoriile variabilei
independente şi valorile variabilei dependente. Cercetătorul poate fi, însă, interesat care dintre grupuri
diferă între ele şi în ce sens.
Pentru a rezolva această problemă, au fost dezvoltate diverse teste, denumite „post-hoc”,
calculate după aplicarea procedurii ANOVA. Testele post-hoc (ex.Bonferoni) se interpretează în mod
similar testului t. Analiza post-hoc este permisă numai dacă a fost obţinut un rezultat semnificativ
pentru testul F. Asadar în practică, analiza de varianţă va cuprinde două faze: prima, in care se decide
asupra semnificaţiei testului F, şi a doua, în cazul că acest raport este semnificativ, în care se
analizează comparativ diferenţele dintre categoriile analizate, pe baza unui test post-hoc.

18
8. REGRESIA LINIARĂ SIMPLĂ (UNIVARIATĂ)

Una dintre utilizările importante ale coeficientului de corelaţie este realizarea de predicţii. Dacă
ştim corelaţia dintre două variabile, putem să prezicem valorile uneia dintre ele pe baza valorilor
celeilalte. Este vorba despre o variabilă predictor, si una variabilă criteriu.
Asadar corelaţia ar putea permite fundamentarea unei proceduri de „predicţie” reciprocă între
variabilele respective. Dacă ştim, de exemplu, că două variabile  au o corelaţie egala cu 1 (indiferent
de semn) putem prezice orice valoare a unei variabile pe baza valorii celeilalte.

z y'
z x
             
 
Formula de mai sus descrie modul de predicţie în valori z pentru variabila Y, pornind de la
valorile variabilei X, numită din acest motiv „predictor”. Pentru că valoarea lui Y din formula de mai
sus este una „prezisă”, se notează cu indicele „prim”.
Să ne imaginăm că am descoperit o corelaţie perfectă (r=+1) între scorul la un test de
inteligenţă verbală (X) şi cel la un test de inteligenţă abstractă (Y). Conform formulei, pentru o valoare
zx=1.5 vom prezice o valoare identică pentru Y, zy’=1.5.
Din păcate corelaţiile perfecte sunt rare sau de loc întâlnite în realitate. Ca urmare, predicţia
suportă riscul unei erori. Pentru aceasta formula se modifica:

z y'  r * zx                              


 
unde r este valoarea coeficientului de corelaţie dintre cele două variabile.
 
  Conceptul de regresie a fost introdus de Francis Galton care, studiind relaţia dintre înălţimea
copiilor şi a părinţilor a observat că părinţii cu înălţimi excesive tind să aibă copii cu înălţime mai
mică decât a lor, adică mai aproape de medie decât a părinţilor. Galton a denumit această tendinţă ca
„regresie către mediocritate”. Dar pentru ca intra in calcul corelaţia de tip liniar se vorbeste de
„regresie liniară către medie”.
 
Reprezentarea grafică a regresiei
Imaginea de mai jos reprezintă linia de regresie simplă în cazul unei corelaţii perfecte pozitive (r=+1).
 cercurile marchează intersecţia fiecărei valori X cu valoarea corespondentă a variabilei Y.
 originea liniei de regresie se află în punctul 0 iar înclinarea (panta) liniei de regresie este de
45o.
Se poate observa ca distanţa dintre fiecare punct de intersecţie şi linie este nulă, fapt ce ne spune că
linia de regresie estimează perfect, fără erori, modelul relaţiei dintre cele două variabile.
Atunci când corelaţia este diferită de 1, linia regresie este trasată pe o traiectorie de
„aproximare” prin norul de puncte, astfel încât distanţa dintre fiecare punct şi linie sa fie cât mai mică
posibil. În esenţă, pentru a putea trasa dreapta de regresie a două variabile, ne sunt necesare punctul de
origine al acesteia şi înclinarea, sau „panta”. Odată aflate, putem trasa linia de regresie utilizând
formula clasică a liniei drepte: Y=a+b*X, unde:
Y este valoarea prezisă a fiecărui punct de pe dreaptă
a este originea dreptei, punctul în care linia de regresie intersectează ordonata (axa Oy).
b este panta liniei de regresie
X este valoarea predictor a variabilei Y

19
Intuitiv, linia de regresie poate fi văzută ca o „medie” a norului de puncte, fiind trasată astfel
încât distanţele faţă de punctele distribuţiei celor două variabile să fie similare de o parte şi de alta a
liniei.
 
Analiza reziduurilor
 Linia de regresie se obţine, de fapt, prin căutarea unui traseu prin norul de puncte astfel încât
distanţa însumată dintre dreaptă şi punctele de deasupra să fie egală cu distanţa însumată faţă de
punctele de sub linie.
 in cazul unei corelaţii perfecte toate punctele de intersecţie ale valorilor celor două
variabile se află exact pe dreapta de regresie.
 in cazul corelaţiilor „imperfecte” distanţele dintre puncte şi dreapta de regresie exprimă,
de fapt, eroarea de estimare a asocierii dintre variabile. Distanţa dintre poziţia reală a
punctelor şi cea estimată cu ajutorul liniei de regresie se numeşte „valoare reziduală” şi
exprimă, desigur, o  eroare de estimare. .
Cu cît suma distanţelor de la fiecare punct la linia de regresie este mai mare, cu atât eroarea de
estimare este mai pronunţată. Cu cât vor fi mai apropiate punctele de intersecţie de linia de regresie, cu
atât mai puţină eroare vom avea în predicţie şi, implicit, o corelaţie mai mare. Invers, cu cât punctele
de intersecţie vor fi mai îndepărtate de linia de regresie, cu atât cu atât valoarea reziduală va fi mai
mare iar corelaţia va fi mai mică. La limită, pentru o corelaţie egală cu 0, linia de regresie va avea o
traiectorie orizontală, înclinarea ei fiind 0.
 
Utilitatea analizei de regresie
 Analiza de regresie se utilizează în situaţiile în care suntem interesaţi să facem predicţii asupra
unei variabile, pe baza alteia obţinuta măsurări anterioare. De exemplu, dacă am efectuat o analiză de
regresie între coeficientul de inteligenţă şi performanţa in munca pe un lot de subiecţi, putem ulterior
să estimăm nivelul performanţei in munca a altor subiecţi prin evaluarea inteligenţei lor. Aceasta este
procedura tipică pe care se bazează predicţiile psihologice în contextul examenelor de selecţie.

20
10. SUGESTII PENTRU ANALIZA STATISTICA

Alegerea testului statistic


În statistică dificultatea constă în a alege procedura statistică adecvată scopului propus şi
datelor disponibile şi a interpreta rezultatul. Pentru a rezolva această problemă sunt necesare
cunoştinţe de psihologie experimentală şi experienţă în prelucrarea datelor. Dar dacă se respectă o
serie de recomandari lucrurile devin mai accesibile.
I . Atentie la:
 formularea ipotezei. Ea derivă din problema cercetării şi se exprimă sub formă răspunsului pe
care cercetătorul se aşteaptă să îl confirme cu ajutorul datelor statistice.
         
 la identificarea variabilele cercetării
 
 culegerea datelor cercetării. Orice eroare în această fază se va traduce în dificultăţi de
prelucrare şi analiză a datelor.

II . Prelucrarea datelor presupune urmatorii pasi:


 Analiza preliminară a datelor apelind la statistica descriptiva. Astfel:  se verifica corectitudinea
datelor, se observa caracteristicile distribuţiei fiecărei variabile ccea ce va determina alegerea
testului statistic adecvat
 Corectarea eventualelor erori de înregistrare, rezolvarea situaţiilor în care există date lipsă,
transformarea variabilelor, dacă acest lucru se impune, etc.

 Testarea ipotezei cu ajutorul testului statistic de semnificaţie şi adoptarea deciziei cu privire la


ipoteza cercetării.
 
III . Pentru selectarea testului statistic adecvat:
 Se identifică cele doua tipuri de variabile (VI si VD)
 In caul VD
- daca este de tip nominal/ordinal, se aplică un test neparametric
- dacă este de tip interval/raport
dacă eşantionul este mare se recomandă alegerea unui test parametric
dacă eşantionul este mic, se recomandă alegerea unui test neparametric (caz in care
valorile vor fi)

IV . Se precizează obiectivul cercetării:


a) Diferenţa dintre grupuri dependente sau independente. Acest model este potrivit în
următoarele situaţii:
-  când variabila independentă, prin natura ei,  se exprimă în categorii (ex. vârstă,
sexul, etc.)
- când variabila independentă este manipulată
b) Gradul de asociere. Acest model de cercetare este recomandabil atunci când avem
de a face cu variabile măsurate simultan sau succesiv pe aceiaşi subiecţi (modele de
tip „înainte-după”).

V. Se alege testul statistic adecvat


 
Test parametric sau test neparametric ?
 Cand variabila dependentă este măsurată pe scală nominală sau ordinală, singurele teste
aplicabile fiind cele neparametrice.
 Când variabila dependentă este exprimată pe o scală cantitativă (interval/raport) si întruneşte
condiţiile impuse de statistica parametrică, este recomandabil să se utilizeze teste parametrice

21
Atentie la mărimea eşantionului ! Testele statistice, atât cele parametrice cât şi cele
neparametrice, efectuate pe eşantioane reduse, sub N=20, nu oferă rezultate robuste iar credibilitatea
lor este îndoielnică. Studiile pe eşantioane de acest gen pot avea o valoare de „studii pilot” în vederea
deciziei de a lansa sau nu studii de amploare pe o anumită temă.

AŞADAR.:
Analiza statistica presupune 
(1) analiza statistică descriptivă şi (2) testarea ipotezelor.

Analiza statistică descriptivă


In funcţie de obiectivul analizei şi de tipul de variabilă se va apela la anumite procedurii descriptive:

tabela de frecvenţe
distribuţie de frecvenţe
distribuţie de frecvenţe
Histogramă
Poligon
Mod
Mediană
Medie
Mediană
Amplitudinea
abaterea standard
Amplitudinea

(2) Testarea ipotezelor


Se va alege testul statistic adecvat functie de obiectivul cercetării (diferenta intre grupuri,
asocierea variabilelor) şi scalele de măsurare pentru variabila independentă şi variabila dependentă
(categoriale / interval-raport).

Cum prezentam rezultatele cercetarii


Ipotezele - exprimarea cu claritate a tipului de studiu statistic care a fost efectuat, şi a scopurilor care
au fost urmărite.
Populaţia - definită cu claritate, în sensul elementelor care o compun
Eşantionul - se va descrie modul de constituire a eşantionului, insistându-se pe criteriile de includere
şi, eventual, de excludere a unor indivizi.

Prezentarea metodei
Variabilele - vor fi descrise în mod explicit, indicându-se denumirea şi semnificaţia fiecăreia,
modul în care au fost măsurate şi unitatea de măsură.
Instrumentele de măsurare - prezentate cu o descriere (cel puţin) sumară, inclusiv cu
caracteristicile lor psihometrice.
Procedura - modul în care a decurs procedura de investigare, descrierea condiţiilor, a duratei,
locului, şi a personalului care a contribuit la aceasta.

Prelucrarea datelor
Se va începe cu eventualele complicaţii care au survenit pe parcursul studiului.
Analiza primară. Analiza statistică va începe întotdeauna cu o inspecţie a valorilor obţinute.
Aceasta înseamnă analiza distribuţiilor sub aspectul formei, indicatorilor tendinţei centrale, valorilor
excesive, etc. Ignorarea acestui aspect poate conduce la grave erori de interpretare, sau la un volum

22
mai mare de muncă, ulterior, dacă se constată prea târziu imperfecţiuni care trebuiau fi eliminate de la
bun început. Reprezentarea grafică a datelor (histograma) poate fi o metodă foarte eficientă de
identificare a distribuţiilor anormale sau valori improprii.
Scopul acestei analizei primare a variabilelor este dublu:
 obţinerea unei imagini de ansamblu a variabilelor de interes (frecvenţe, tendinţa centrală,
împrăştierea, grafice);
 fundamentarea alegerii testelor statistice adecvate datelor pe care le analizăm.
Desigur, în documentul de cercetare nu se vor include toate rezultate analizei primare, ci numai
acelea strict necesare pentru descrierea variabilelor analizate. De exemplu, nu este necesar ca raportul
să fie „împănat” cu histogramele fiecărei variabile cantitative, fapt care încarcă nejustificat textul cu
imagini puţin relevante pentru cititor. De asemenea, nu se va descrie şi nu se va justifica alegerea
testului statistic, în funcţie de natura variabilelor. Acest lucru se consideră implicit.
Verificarea ipotezelor statistice. Acesta este momentul cel mai important al unei cercetări,
acela în care se concretizează întregul efort depus. Primul lucru care trebuie înţeles este acela că
rezultatele care se vor obţine depind în mod decisiv de calitatea şi minuţiozitatea cu care au fost
parcurse etapele anterior descrise. Un studiu bine fundamentat teoretic, bazat pe ipoteze consistente,
utilizând instrumente adecvate şi beneficiind de o procedură sigură de recoltare a datelor, va conduce
întotdeauna la rezultate utile. Aceasta nu înseamnă neapărat că ele trebuie să confirme ipotezele.
Uneori, chiar şi infirmarea unei ipoteze poate fi semnificativă.
Un aspect important aici este alegerea aparatului statistic (teste de semnificaţie). Apariţia
numeroaselor programe de prelucrare statistică computerizată a condus la orientarea multor
cercetători, mai ales tineri sau începători, spre proceduri sofisticate şi complicate. Cea mai bună soluţie
este alegerea procedurilor statistice minim necesare pentru evidenţierea ideilor urmărite. Abundenţa de
calcule şi de teste statistice nu contribuie la o mai bună înţelegere ci arată, mai degrabă, nesiguranţa
cercetătorului. Una dintre prejudecăţile răspândite, mai ales printre studenţi, este aceea că există teste
statistice „importante” (de ex., analiza factorială, analiza de clusteri, etc., despre care nu a fost vorba în
acest manual introductiv în statistică) şi altele „mai puţin importante” (testul diferenţelor între medii,
etc.). Complet fals! Alegerea unei proceduri statistice mai „sofisticate” putea face o anumită impresie
în epoca de dinaintea programelor de calcul statistic. În prezent, orice procedură, oricât de complicată,
nu mai reprezintă o problemă sub aspectul calculelor, pentru nimeni. Singurul lucru care contează cu
adevărat este alegerea procedurii potrivite cu natura datelor şi cu obiectivele cercetării, precum şi
interpretarea ei corectă. Dacă o procedură „simplă” serveşte exact ideea care trebuie scoasă în
evidenţă, aceasta trebuie folosită şi nu alta, cu un nume mai „sonor”. Să ne gândim şi la faptul că avem
mai multe şanse ca procedurile „simple”, uzuale,  să fie înţelese mai uşor, şi de către mai mulţi cititori.
În ceea ce priveşte testarea ipotezelor, nu este suficientă expresia „acceptăm” sau „respingem”
ipoteza. Întotdeauna se va indica şi valoarea obţinută pentru nivelul de semnificaţie (p, sau Sig., cum
este prezentat în unele programe statistice). De reţinut că, inclusiv atunci când rezultatul obţinut nu
îndreptăţeşte respingerea ipotezei de nul, ipoteza cercetării va fi considerată doar neconfirmată şi nu
respinsă. Această atitudine este mai potrivită, pe de o parte, cu modelul probabilistic de testare
statistică a ipotezelor şi, pe de altă parte, cu faptul că nimic nu ne împiedică să păstrăm ipoteza şi să
încercăm confirmarea ei într-un alt studiu.
Problema variabilelor multiple. Dacă în exemplele din manualele de statistică sunt luate în
discuţie, de regulă, situaţii simple, cu minimum de variabile posibile, cel mai adesea, două. În realitate,
cel mai adesea, studiile de psihologie trebuie să facă faţă unei „avalanşe” de variabile a căror relaţie
trebuie testată nu doar una câte una ci şi în interdependenţa lor. Acest fapt ridică, pe de o parte,
probleme de procedură statistică şi, pe de altă parte, probleme de prezentare a rezultatelor. Alegerea
procedurii astfel încât să surprindă exact relaţiile care interesează, cu excluderea influenţelor
colaterale, este, din păcate, greu de explicitat la nivelul unui manual introductiv. În ceea ce priveşte
forma de prezentare, trebuie avută în vedere necesitatea de a fi, în egală măsură, sintetici şi expliciţi.
Sintetici, pentru a nu îngreuna textul cu o abundenţă excesivă de tabele de date, expliciţi, pentru că nu
pot fi eludate informaţiile esenţiale care sunt necesare pentru interpretarea rezultatelor.
Reţinere faţă de declararea relaţiei cauzale. Aprecierea pe baza unui test de semnificaţie
statistică a unei relaţii de cauzalitate între variabile este cel puţin hazardată. Acest lucru poate fi

23
susţinut numai dacă se respectă anumite condiţii experimentale, care să ne asigure că între cele două
variabile este o relaţie cauză-efect.
Tabele şi figuri. Tabelele sunt cel mai des utilizate pentru includerea în textul rapoartelor de
cercetare a rezultatelor obţinute. Ele prezintă avantajul indicării cu exactitate a valorilor şi susţinerii cu
precizie a concluziilor. Figurile au însă avantajul de a prezenta informaţia într-o formă intuitivă şi
accesibilă, atrăgând atenţia cititorului. Nu se poate face o recomandare de preferinţă pentru una sau
alta dintre cele două forme. Oricum, este de reţinut că figurile ocupă mult spaţiu tipografic şi sunt mai
„pretenţioase” din punctul de vedere al editării şi al tehnoredactării textelor. În orice caz, se vor evita
figurile prea complexe. Este recomandabil ca fiecare grafic să prezinte o singură idee, pe care să o
susţină cât mai simplu şi mai explicit.

Discutarea şi interpretarea rezultatelor.


Adevărata încercare într-un demers de cercetare nu este, aşa cum s-ar putea crede, prelucrarea
efectivă a datelor. Dacă sunt corect recoltate şi înregistrate, prelucrarea lor se face destul de uşor cu
ajutorul programelor computerizate existente astăzi. Interpretarea, însă, este o probă pentru oricine se
află în faza de finalizare a unei cercetări.
Premisa fundamentală a unei interpretări consistente este suportul teoretic, claritatea şi
consistenţa ipotezei sau ipotezelor cercetării. Este imposibil să tragi concluzii dacă nu eşti conştient de
obiectivele urmărite. Adesea se cade pradă iluziei că, indiferent de ce date dispunem, se poate susţine
un demers de cercetare doar cu ajutorul unui program de calcul statistic sofisticat şi a unui set de date
oarecare. Din păcate, se întâmplă destul de des ca un student să vină şi să spună: „am aceste date, ce
teste statistice pot face cu ele?”. Obiectivul cercetării trebuie să fie clar precizat de la bun început ân
timp ce alegerea procedurii statistice ţine de natura scalei de măsurare, caracteristicile variabilelor şi
ipotezei pe care trebuie să o testăm. Dacă fiecare dintre aceste aspecte sunt clare în mintea
cercetătorului, atunci răspunsul la întrebarea demai sus este foarte uşor de dat.
Se va urmări, pe de o parte, coerenţa dintre concluzii şi datele pe care se sprijină, iar pe de altă
parte, dintre concluzii şi condiţiile specifice cercetării (eşantion, model de investigare). Cu alte
cuvinte, fiecare aspect al concluziilor trebuie să aibă un suport robust în datele şi rezultatele obţinute
prin prelucrarea lor. Se va evita generalizarea necritică. Transpunerea anumitor rezultate dincolo de
limitele populaţiei cercetării este adesea hazardată. Rezultatele obţinute nu sunt mai puţin importante
dacă păstrăm prudenţă în generalizarea lor. Studii ulterioare pot confirma sau nu datele obţinute şi, pe
această bază, se poate extinde generalizarea semnificaţiilor.
În altă ordine de idei, relevanţa rezultatelor nu depinde doar de atingerea nivelului de
semnificaţie statistică ci şi de mărimea eşantionului. În principiu, aceste două mărimi contribuie
împreună la fundamentarea concluziilor, astfel:

rezultat semnificativ
eşantion concluzia cercetării
statistic
Da mic rezultat important
Da mare importanţa practică posibilă dar incertă
Nu mic rezultat neconcludent
Nu mare ipoteza cercetării este, probabil, falsă

Un alt aspect important este interpretarea semnificaţiei statistice. Obiectivul legitim al


testelor statistice este atingerea pragului de semnificaţie. De aceea, valoarea lui p este prima care
trebuie să ne atragă atenţia la capătul prelucrărilor, simţimţindu-ne răsplătiţi pentru eforturile făcute,
dacă se află sub pragul de 0.05. Cu toate acestea, nu trebuie să uităm nici un moment că  „statistic
semnificativ” nu este echivalent cu „ştiinţific important”. Dincolo de valoarea lui p se impune luarea
în considerare şi mărimea în sine a diferenţei sau legăturii puse în evidenţă de respectivul test statistic.
Desigur, o valoare ridicată a testului, fără atingerea pragului de semnificaţie, nu este relevantă. Dar
nici valoare prea mică, chiar dacă este semnificativă statistic. Cât de mică sau cât de mare trebuie să
fie valoarea testului, pentru a o considera „importantă” sau „relevantă”? Din păcate, pentru această
întrebare nu există un răspuns riguros. Se recomandă apelul la spiritul ştiinţific şi la simţul comun,

24
concomitent cu raportarea la natura specifică a fiecărei situaţii în parte. Cu alte cuvinte, răspunsul
depinde de contextul fiecărei cercetări în parte.
O altă problemă de discutat este în legătură cu valoarea în sine a lui p. După cum ştim, nivelul
minim pentru acceptarea semnificaţiei statistice este 0.05, corespunzător valorii convenţionale minim
acceptabile pentru pragul alfa. Vorbind în sens strict, un p=0.049 este considerat semnificativ, în timp
ce un p=0.051 trebuie sa fie considerat nesemnificativ. Având în vedere că pragul alfa=0.05 este unul
arbitrar, nu se poate evita un astfel de raţionament rigid. Cu toate acestea, există cercetători care
raportează rezultate ale lui p uşor mai mari decât 0.05 ca fiind „marginal semnificative” sau „aproape
semnificative”. Să menţionăm, totuşi, că o astfel de atitudine este destul de rar întâlnită şi poate
determina reacţii negative, justificate, din partea cercetătorilor mai „riguroşi”, aflaţi în majoritate.
În mod intuitiv, suntem tentaţi să interpretăm nivelul de semnificaţie în funcţie de valoarea
calculată a lui p. Astfel, un p=0.001 ni se pare mai semnificativ decât un p=0.05, de exemplu. Dacă
utilizăm definiţia strictă a termenului de semnificaţie din raţionamentul deciziei statistice, o astfel de
atitudine nu este justificată. O dată ce a fost fixat un anumit nivel al lui alfa, orice p mai mic sau egal
cu acesta este semnificativ, iar orice p mai mare este nesemnificativ. Cei mai mulţi statisticieni
împărtăşesc această opinie.
Este util sa adăugăm că programele de prelucrări statistice afişează „0.000” pentru valori ale lui
p mai mici de 0.001, Acest fapt nu va fi interpretat în nici un caz ca exprimând probabilitate „zero”, ci
doar în sensul că valoarea lui p este mai mică de 0.001. De altfel, la raportarea semnificaţiei, se poate
opta fie pentru înscrierea valorii exacte a lui p, aşa cum este calculată de program, fie doar pentru
menţionarea plasării valorii testului sub nivelul alfa stabilit.

Formularea concluziilor
Studiul trebuie să se încheie cu concluzii adecvate cu rezultatele obţinute, formulate sintetic şi
explicit. Nu se vor evita aspectele mai puţin reuşite ale cercetării, eventualele nereuşite, chiar. Rostul
acestora este acela de a ajuta la evitarea repetarea unor greşeli de către cei care vor dori să reia acelaşi
tip de investigaţie, mai târziu. Se pot face chiar recomandări explicite în acest sens. Oricât de
semnificative ar fi rezultatele unui anumit studiu, ele nu vor schimba modul de a gândi o anumită
realitate psihologic. Acest efect nu îl pot avea decât rezultate obţinute de mai multe studii concordante
pe aceeaşi temă.
Nu se va uita niciodată faptul că semnificaţia statistică nu ţine loc şi de semnificaţie teoretică,
cu sensul de consistenţă a unui anumit model teoretic explicativ. Procedurile statistice nu sunt altceva
decât instrumente de evaluare probabilistă ipotezelor. Profunzimea teoretică a unui studiu nu poate
rezulta decât din calitatea modelului de investigaţie (ipoteze, proceduri de evaluare, subtilitatea
analizei rezultatelor, etc.) şi nu din datele statistice ca atare.
Statistica trebuie să fie o modalitate de organizare şi disciplinare a gândirii ştiinţifice, în nici un caz,
însă, nu se poate substitui acesteia. Dar nu se poate ajunge la această performanţă decât dacă statistica
este înţeleasă atât sub aspecte ei „tari” cât şi cu limitele ei.
În trecut, la începuturile utilizării statisticii în psihologie, prezenţa acesteia într-o lucrare avea
un caracter de prestigiu, cu atât mai mare cu cât era mai bogat reprezentată. În prezent, omniprezenţa
calculatoarelor şi a programelor specializate au făcut ca prelucrările statistice să devină o operaţiune
relativ facilă. Tocmai din acest motiv, apare riscul abuzului de statistică, a utilizării necritice şi
superficiale a acesteia în elaborarea lucrărilor de cercetare.
În fine, ca o concluzie a celor spuse, se cuvine sa insistăm pe respectarea exigenţelor
procedurale impuse de metoda statistică. Simpla „populare” a unei lucrări cu date statistice, tabele,
grafice, sau cu valori ale unor teste de semnificaţie, nu asigură în mod necesar acelui document
valoarea ştiinţifică la care aspiră. Asigurarea calităţii datelor supuse prelucrării, respectarea condiţiilor
de alegere a testelor de semnificaţie, interpretarea lor adecvată şi publicarea rezultatelor în formatul
adecvat, sunt condiţii indispensabile pentru calitatea ştiinţifică a unui studiu bazat pe metoda
statistică. 

25
Greşeli frecvente în redactarea analizelor statistice
Lectura celor mai multe dintre lucrările efectuate de studenţi scoate în evidenţă nerespectarea
recomandărilor prezentate mai sus. Efectul constă în consemnarea unor greşeli, dintre care cele mai
frecvente şi mai supărătoare ni se par a fi următoarele:
 Formulare improprie a ipotezelor sau concluziilor cercetărilor, prin utilizarea unor termeni care
sugerează relaţia de cauzalitate („influenţează”, „determină”). Se ignoră faptul că testele
statistice nu susţin existenţa unei relaţii de cauzalitate decât dacă datele sunt recoltate în
condiţii de experiment psihologic.
 Includerea în lucrare a ipotezelor de nul, în paralel cu cele ale cercetării. Acestea din urmă sunt
singurele necesare şi suficiente.
 Exces de ostentaţie în prezentarea rezultatelor prelucrărilor statistice. Cifrele tind să fie mai
multe decât explicaţiile şi analizele. Această manieră creează impresia neplăcută de „paradă de
statistică”. Statistica trebuie sa ramina o prezenta discreta, al carui rost este doar acela de a
sustine concluziile cercetării.
 Intrarea în detalii de analiză a datelor, inclusiv în descrierea didacticistă a respectării condiţiilor
pentru aplicarea diverselor teste statistice. Se vor evoca, însă, eventuale aspecte deosebite, cum
ar fi valori excesive legitime sau operaţii de transformare a unor variabile, cu scopul
normalizării distribuţiei.
 Includerea integrală a rezultatelor calculate de programe pentru diverse proceduri. Unele dintre
acestea conduc la un mare volum de rezultate numerice. Nu toate trebuie reproduse ci numai
acelea care susţin în mod direct şi explicit concluziile cercetării.
 Raportarea incompleta sau absenta a  rezultatelor la testele statistice (enuntarea deciziei
statistice si a concluziei cercetării nu este suficienta, ea va fi insotita intotdeauna de valorile
testului si de valorile adiacente acestuia).
 Exces de zecimale în prezentarea rezultatelor la prelucrări. De regulă, valoarea testelor
statistice se raportează cu două zecimale.
 Reproducerea rezultatelor din programele statistice cu păstrarea elementelor de text în limba
engleză (atunci când lucrarea este scrisă în limba română).
 Explicaţii inconsistente la tabele şi grafice. Oricât de explicite ar fi acestea, cititorul nu va fi
lăsat să şi le explice singur.
 Grafice sau tabele fără titlu.
 Absenţa coeficienţilor de consistenţă internă pentru testele care nu fac parte din metodologia
profesională generală, sau, încă şi mai grav, pentru cele create de autor, şi pe care se bazează
respectiva cercetare.
 Instrumente de lucru (teste) prezentate integral în textul lucrării. Acestea se descriu la modul
general, fiind prezentate integral, eventual, doar la sfârşitul lucrării, în caz că se doreşte
difuzarea lor.

26

S-ar putea să vă placă și