Sunteți pe pagina 1din 8

Statistica inferenţială: concepte fundamentale.

Testarea
ipotezelor statistice

Derularea unei cercetări presupune înainte de toate alegerea unei teme


ce se doreşte a fi investigată, formularea unor obiective şi enunţarea unor
ipoteze.
Ipotezele sunt presupuneri, afirmaţii care trebuie verificate, testate;
ex.:
- dezorganizarea familiei se asociază la copiii cu o serie de
comportamente de tip deviant;
- există o relaţie între consumul de alcool la adolescenţi şi consumul
de alcool în familiile din care aceştia provin;
- există o relaţie între absenteismul şcolar la elevi şi gradul de
supraveghere din partea părinţilor;
- există o diferenţă între bărbaţi şi femei în ceea ce priveşte nivelul
agresivităţii;
- există o diferenţă între persoanele care provin din mediul rural şi
cele care provin din mediul urban în ceea ce priveşte
comportamentele prosociale etc.

Din punct de vedere al testării statistice, ipotezele sunt de două feluri:


1. ipoteza cercetării sau ipoteza alternativă (notată H1), în care se
afirmă că „ceva există” (ex. există o diferenţă între copii care provin
din familii organizate şi cei care provin din familii dezorganizate în
ceea ce priveşte absenteismul şcolar);
2. ipoteza nulă Ho, în care se spune că „ceva nu există” - Ho este opusul
lui H1 (ex. nu există nici o diferenţă semnificativă între copii care
provin din familii organizate şi cei care provin din familii
dezorganizate în ceea ce priveşte absenteismul şcolar).

Pentru a testa ipotezele formulate, se selectează un eşantion de


subiecţi, se aplică metodele adecvate de culegere a datelor iar la final datele
sunt centralizate, organizate şi prelucrate statistic. Analiza statistică a datelor
presupune pe lângă folosirea statisticilor descriptive şi utilizarea testelor
statistice de semnificaţie, al căror rol este tocmai de a verifica (testa)
ipotezele enunţate.

Testele statistice

1
Sunt mai multe tipuri de testele statistice, toate bazate pe acelaşi
raţionament decizional de tip probabilistic: dacă probabilitatea de a greşi
atunci când acceptăm sau respingem ipoteza cercetării este sub 5% (pragul
de semnificaţie p = 0,05), atunci putem accepta această ipoteză ca fiind
adevărată (la un nivel de încredere de 95%).
Testele statistice se bazează pe o serie de distribuţii statistice
(distribuţia normală standard z, distribuţia t, distribuţia F, distribuţia Chi-
pătrat etc.). Formulele de calcul ale acestor teste sunt foarte complexe, dar
din fericire softurile statistice (ex. SPSS-ul) le calculează automat. Pe lângă
valoarea calculată a testului (scorul calculat – ex. t calculat, F calculat, r
calculat etc.), softurile statistice afişează şi probabilitatea asociată acestei
valori (notată p sau Sig.).
Valoarea lui p este cel mai important element, pe baza lui p luându-se
decizia statistică (decizia privitoare la ipotezele cercetării). Astfel, pentru un
prag de semnificaţie de 0,051, decizia se ia în felul următor:
- dacă p < 0,05: se acceptă H1, se respinge H0;
- dacă p > 0,05: se acceptă H0, se respinge H1

Modalitatea statistică de testare a ipotezelor depinde de designul de


cercetare2 (studiu experimental / studiu corelaţional) şi de scala de
măsurare a variabilelor.
După scala de măsurare a variabilei dependente, testele statistice sunt
de două mari tipuri:
- teste parametrice (folosite pentru variabile numerice – măsurate pe
scală de interval-raport);
- teste neparametrice (folosite pentru variabile nonnumerice – măsurate
pe scală nominală categorială sau ordinală);

Principalele teste statistice parametrice sunt: testele t sau Student şi


analiza de corelaţie Pearson. Acestea sunt prezentate pe scurt în continuare.

Testele t (Student) au ca rol testarea semnificaţiei diferenţei dintre


două medii. Se aplică în condiţiile în care variabila dependentă este măsurată
pe scală de interval-raport (iar forma distribuţiei nu se abate semnificativ de
la forma distribuţiei normale) şi volumul eşantionului este unul „mare”
(peste 30 de subiecţi). Sunt trei tipuri de teste t:

1
OBS. Se poate alege şi un prag mai exigent, de 0,01
2
tipurile de designuri de cercetare fac obiectul metodologiei cercetării

2
- testul t (z) pentru media unui singur eşantion;
- testul t pentru două eşantioane independente;
- testul t pentru două eşantioane dependente (perechi);

Testul t pentru două eşantioane independente3

Se foloseşte pentru a testa diferenţa dintre mediile aceleiaşi variabile


(variabila dependentă VD) măsurate pe două eşantioane independente. Cele
două eşantioane sunt definite prin categoriile variabilei independente VI
(variabilă măsurată pe scală nominală dihotomică).

Exemplu:
Ne interesează diferenţa dintre nivelul venitului la persoanele provenind din
mediul rural comparativ cu persoanele provenind din mediul urban.
- VD este: nivelul venitului; VD se măsoară pe scală de interval / raport
(variabilă numerică);
- VI este: mediul de provenienţă, variabilă non-numerică, măsurată pe
scală nominală categorială cu două modalităţi (dihotomică): rural
versus urban.
Ipotezele sunt:
- ipoteza cercetării: nivelul venitului diferă semnificativ între cele două
grupuri
- ipoteza nulă: nivelul venitului nu diferă semnificativ între cele două
grupuri

Pentru a verifica ipotezele, realizăm o cercetare pe un eşantion


aleatoriu de 60 de subiecţi (30 din mediul rural, 30 din mediul urban). Pentru
fiecare subiect înregistrăm nivelul venitului. Datele le centralizăm într-o
bază de date de tip SPSS, şi aplicăm testul t pentru două eşantioane
independente.
În urma aplicării acestui test se compară venitul mediu pentru
subiecţii din mediul rural comparativ cu cei din mediul urban; dacă diferenţa
dintre cele două medii este suficient de mare pentru a fi statistic
semnificativă la un prag minim de 0.05 (p < 0,05), conform criteriilor
deciziei statistice enunţate anterior, respingem ipoteza nulă şi acceptăm
ipoteza cercetării.

3
eşantioane independente = între subiecţii din cele 2 eşantioane nu există nici o legătură, în sensul că
selecţia unui subiect din primul eşantion nu influenţează selecţia unui subiect din al doilea eşantion (ex.
adulţi-vârstnici, delincvenţi-nondelincvenţi)

3
Testul t pentru două eşantioane dependente4

Se foloseşte pentru a testa diferenţa dintre mediile aceleiaşi variabile


măsurate pe acelaşi grup de subiecţi în situaţii diferite sau în momente
diferite (ex. „înainte” şi „după” acţiunea unei anumite condiţii).
Variabila trebuie să fie una măsurată pe scală de interval / raport.

Exemplu:
Ne interesează diferenţa dintre atitudinile proinfracţionale ale
adolescenţilor5, înainte şi după implementarea într-un liceu a unui program
pentru prevenirea infracţionalităţii juvenile.

Ipotezele sunt:
- ipoteza cercetării: atitudinile proinfracţionale diferă semnificativ între cele
două momente
- ipoteza nulă: atitudinile proinfracţionale nu diferă semnificativ între cele
două momente

Pentru a verifica ipotezele, realizăm o cercetare pe un eşantion


aleatoriu de 30 de elevi. Pentru fiecare subiect înregistrăm scorul total
obţinut la chestionarul de evaluare a atitudinilor proinfracţionale, atât înainte
cât şi la sfârşitul implementării în liceu a programului de prevenţie a
criminalităţii. Datele le centralizăm într-o bază de date de tip SPSS, şi
aplicăm testul t pentru două eşantioane dependente.
În urma aplicării acestui test se compară pentru fiecare subiect
scorurile obţinute la cele două evaluări; dacă diferenţa medie dintre scoruri
este suficient de mare pentru a fi statistic semnificativă la un prag minim de
0.05 (p < 0,05), conform criteriilor deciziei statistice enunţate anterior,
respingem ipoteza nulă şi acceptăm ipoteza cercetării. O astfel de cercetare
fiind una de tip experimental, putem afirma că schimbarea atitudinilor se
datorează programului implementat (probând astfel eficienţa programului).

Analiza de corelaţie

4
eşantioane dependente (perechi) = între subiecţii din cele 2 eşantioane există o anumită relaţie, a.î.
fiecărui subiect din primul eşantion îi corespunde un subiect în al doilea eşantion (ex. copil-părinte, acelaşi
subiect evaluat în două momente diferite)
5
măsurate folosind un chestionar de atitudini special conceput; pentru acest chestionar se calculează un
scor total, ca măsură a atitudinilor proinfracţionale (variabilă numerică)

4
Analiza de corelaţie pune în evidenţă existenţa unei legături între
variaţia valorilor unei variabile în raport cu o altă variabilă. Se testează
gradul de asociere dintre două variabile măsurate pe acelaşi grup de
subiecţi.

ex. asocierea dintre:


- delincvenţă (delincvent / nondelincvent) şi nivelul de educaţie;
- tipul de familie (organizat / dezorganizat) şi consumul de alcool la
adolescenţi;
- gradul de impulsivitate şi numărul de amenzi contravenţionale primite
etc.

În contextul analizei de corelaţie nu se poate vorbi de variabile


„dependente” şi „independente” (ambele variabile sunt dependente una de
alta)6.

Analiza de corelaţie pentru date parametrice: coeficientul de corelaţie


liniară Pearson

Corelaţia Pearson testează asocierea liniară dintre variabile. Acest


test se aplică atunci când variabile sunt măsurate pe scală de interval-raport,
şi distribuţia variabilelor nu se abate semnificativ de la forma distribuţiei
normale (caz în care se preferă un test neparametric, ex. corelaţia Spearman
sau Kendall).
Corelaţia se cuantifică în forma unui coeficient de corelaţie –
coeficientul Pearson (r). Acest coeficient ia valori de la -1 ( corelaţie
negativă perfectă) la + 1 (corelaţie pozitivă perfectă), trecând prin zero. Cu
referire la acest coeficient, interesează trei elemente:
 semnul lui r: „+” (corelaţie pozitivă sau directă: valorile celor două
variabile evoluează în acelaşi sens, ex. creşte numărul de prezenţe,
creşte nota) sau „-„ (corelaţie negativă sau inversă: valorile celor două
variabile evoluează în sens opus, ex. creşte numărul de absenţe, scade
nota);
 mărimea lui r: cu cât valoarea lui r este mai depărtată de zero, cu atât
corelaţia este mai „puternică” (0: lipsa oricărei corelaţii, cele două
6
Obs. este vorba de variaţia concomitentă a valorilor variabilelor testate, şi nu de existenţa unei relaţii
cauzale între acestea

5
variabile evoluează independent; 0,1-0,3: corelaţie slabă; 0,3-0,5:
corelaţie medie; 0,5-0,7: corelaţie puternică; 0,7-0,9: corelaţie foarte
puternică; 0,9-1: variabile practic indistincte);
 semnificaţia lui r: dincolo de mărimea coeficientului, ne interesează
şi măsura în care acesta este „semnificativ” (diferit de o valoare
rezultată prin jocul întâmplării; coeficientul r calculat pe eşantion
estimează corelaţia la nivelul populaţiei); de aceea întotdeauna
analizăm şi probabilitatea aferentă valorii calculate a lui r;

De exemplu, dacă am analiza relaţia dintre numărul de prezenţe şi


nota la examen, vom formula următoarele ipoteze:
H1: Există o asociere semnificativă între numărul de prezenţe şi nota la
examen
Ho: Nu există nici o asociere semnificativă între numărul de prezenţe şi nota
la examen

Am realizat această analiză pe un eşantion de 50 de studenţi.


Realizând analiza de corelaţie, am obţinut un coeficient r = 0,90 (corelaţie
directă, foarte puternică) şi o probabilitate aferentă acestei valori p= 0,000.
Astfel, conform criteriilor deciziei statistice anterior enunţate, putem accepta
ipoteza cercetării (p < 0,05).
Interpretarea corelaţiei este facilitată de folosirea reprezentării sale
grafice – graficul tip Scatterplot. În grafic sunt reprezentate punctele de
intersecţie ale perechilor de valori ale celor două variabile - puncte ce
compun un „nor”. Norul de puncte poate fi aproximat printr-o linie („linia de
regresie”).

Tabel 1. Tabel de corelaţie


nota
nr_ prezenţe r 0,90
p 0,000
N 50

6
10.00   Linear Regression

 

  

   

  
8.00

  

nota
    

  

6.00  

  

 

 


4.00

0.0 2.5 5.0 7.5 10.0

nr_pre zente

Grafic 1. Scatterplot – nota şi numărul de prezenţe

Având o corelaţie pozitivă, observăm cum norul de puncte se


orientează din stânga-jos spre dreapta-sus; în plus, corelaţia fiind una
puternică, punctele sunt alăturate şi situate în jurul liniei de regresie.

Teste statistice neparametrice


Corelaţia pentru date nominale (testul Chi-pătrat al asocierii)

Testul Chi-pătrat se foloseşte atunci când se doreşte a se testa


asocierea dintre două variabile nonnumerice, măsurate pe scală nominală.
Ex.: Dorim să investigăm relaţia dintre tipul de familie (organizată /
dezorganizată) şi consumul excesiv de alcool la adolescenţii proveniţi din
astfel de familii (da / nu).
Formulăm următoarele ipoteze:
H1: Există o asociere semnificativă între tipul de familie şi consumul
excesiv de alcool la adolescenţi
Ho: Nu există nici o asociere semnificativă între tipul de familie şi consumul
excesiv de alcool la adolescenţi
Pentru a verifica ipotezele, realizăm o cercetare pe un eşantion
aleatoriu de 45 de elevi. Pentru fiecare subiect înregistrăm tipul de familie şi
faptul dacă consumă sau nu alcool în exces. Datele le centralizăm într-o bază
de date tip SPSS, şi aplicăm testul Chi-pătrat.

7
În urma aplicării acestui test se măsoară gradul de asociere dintre cele
două variabile; se poate releva de exemplu faptul că majoritatea
adolescenţilor care consumă alcool în mod abuziv provin din familii
dezorganizate. Dacă asocierea dintre cele două variabile este statistic
semnificativă la un prag minim de 0.05 (p < 0,05), conform criteriilor
deciziei statistice enunţate anterior, se respinge ipoteza nulă şi se confirmă
ipoteza cercetării.