Sunteți pe pagina 1din 7

STATISTICĂ

UNITATEA DE ÎNVĂȚARE 10.


RELAŢIA ÎNTRE DOUĂ VARIABILE DE INTERVAL REGRESIA STATISTICĂ ŞI
ECUAŢIA DE REGRESIE

RELAŢIA ÎNTRE DOUĂ VARIABILE DE INTERVAL


Acest gen de corelaţii se întâlnesc frecvent în cercetarea psihopedagogică, atunci când dorim să
ştim dacă rezultatele a două teste variază împreună într-un anumit gradient sau când dorim să ştim
acelaşi lucru în privinţa a două serii de date, dintre care una reprezintă rezultatele unui test, iar alta
rezultatele unui criteriu (care reprezintă rezultatele şcolare sau rezultatele randamentului cuantificat într-
o profesie pentru care s-au folosit teste psihologice în procesul de selecţie profesională). În cazul unei
corelaţii de valoare înaltă putem prevedea performanţele profesionale ale subiecţilor sprijinindu-ne pe
rezultatele de la teste.
Să luăm, de exemplu, rezultatele folosite de noi la calculul coeficientului de corelaţie bazat de
diferenţa de rang, presupunând, de această dată, că ele ar satisface exigenţele unei scale de interval:

Nr.crt. X Y x y x2 y2 1.1.1. xy
1 47 6 - 12,93 - 5,93 167,18 24,81 68,92
2 52 9 - 7,93 - 2,39 62,88 5,43 18,48
3 75 17 15,07 5,67 227,10 32,15 85,45
4 81 10 21,07 - 1,33 443,94 1,77 - 28,02
5 66 11 6,07 - 0,33 36,84 0,11 - 2,00
6 39 7 - 20,93 - 4,33 438,06 18,75 90,63
7 47 6 - 12,93 - 5,33 167,18 24,41 68,92
8 55 11 - 4,93 - 0,33 24,30 0,11 1,63
9 61 17 1,07 5,67 1,14 32,15 6,07
10 70 13 10.07 1,67 101,40 2,79 16,82
11 66 12 6,07 0,67 36,84 0,45 4,07
12 49 14 - 10,93 2,67 119,46 7,13 - 29,18
13 59 10 - 0,93 - 1,33 0,86 1,77 1,24
14 63 12 3,07 0,67 9,42 0,45 2,06
15 69 15 9,07 3,67 82,26 13,47 33,29
Σ 899 170 1918,93 173,39 338,33

Formula de calcul pentru coeficientul de corelaţie Bravais-Pearson este următoarea:

rxy =  xy
 x2 *  y 2
în care cu rxy se notează coeficientul de corelaţie prin momentul produselor, cu x şi y se notează
variabilele de deviaţie. O altă formă în care se poate exprima această formulă este:
rxy = 
xy
n * sx * s y
La această formulă cu n se notează numărul total de pereche de rezultate luate în consideraţie,
cu sx şi sy se notează abaterile standard ale distribuţiilor valorilor variabilei X, respectiv Y.
Pentru a putea realiza un tabel în vederea calculării coeficientului de corelaţie prin momentul
produselor sau coeficientul Bravais–Pearson trebuie, în primul rând să calculăm mediile celor două
distribuţii de valori.

231
AUREL STAN

Astfel, X 
 X  899  59,93 şi Y 
Y  170  11,33 . Rubricile x şi y, conţinând aşa
N 15 N 15
numitele valori de deviaţie, sunt realizate prin scăderea din variabilele originale X şi Y a valorii mediilor
distribuţiilor respective. Rubricile x2 şi y2 sunt realizate prin ridicarea la pătrat a valorilor de deviaţie x şi
y, iar rubrica xy prin înmulţirea valorilor de deviaţie ale celor două variabile. Ultima linie a tabelului
conţine valorile sumelor necesare pentru calcularea coeficientului de corelaţie Bravais-Pearson.
Coeficientul de corelaţie Bravais Pearson este notat, de obicei, cu r, dar în multe cazuri găsim notaţia
rxy, pentru a preciza denumirea variabilelor aflate în corelaţie.
338,3 338,3 338,3
rxy =    0,587
1918,93 *173,39 332723,27 576,21
Observăm că valoarea corelaţiei este foarte apropiată de cea calculată prin procedeul Spearman.
Menţionăm că procedeul Bravais–Pearson prezintă mai multă încredere în privinţa preciziei.
Pentru date negrupate există încă o formulă uzuală care foloseşte valorile brute ale variabilelor
N  XY   X  Y
  
şi are următoarea formă: rxy= .
N  X   X  * N  Y   Y 
2 2 2 2

Aplicarea acestei formule presupune un necesar de calcule mai mare.

Corelaţiile între valorile a două variabile pot lua valori între –1,00 si +1,00 trecând, firesc, prin 0.
Valorile corelaţiile egale +1 şi –1 indică corelaţii perfecte şi sunt foarte rar întâlnite în cadrul distribuţiilor
empirice. Valoarea unui coeficient de corelaţie egală cu 0 indică o lipsă a legăturii de asociere între
valorile celor două variabile. 1,00 indică o consonanţa perfectă între două serii de valori provenind de la
aceiaşi subiecţi. Tendinţei de creştere valorică dintr-o serie îi corespunde o creştere strict proporţională
în cealaltă serie Valoarea coeficientului de corelaţie egală cu –1 indică, de asemenea, o consonanţă
perfectă, dar care se manifestă în sens invers; cu cât valorile unei serii cresc, cu atât valorile celeilalte
serii scad în aceeaşi proporţie. Corelaţia nulă, adică egală cu 0, nu ne spune nimic despre tendinţele
existente între cele două serii de valori (pur si simplu pentru că nu este nimic de spus). Valorile imediat
superioare sau inferioare valorii 0 a coeficientului de corelaţie conturează o tendinţă vagă între cele
două serii de date. În cazul unor studii care-şi propun doar conturarea slabă a unor tendinţe de asociere
a valorilor şirurilor de date, astfel de corelaţii pot avea o anumită importanţă. Dar, în majoritatea
situaţiilor funcţionează exigenţe de semnificaţie a indicelui de corelaţie. Semnificaţia poate fi calculată
r n2
prin intermediul tabelelor t ale lui Student (t= ) sau prin intermediul tabelelor legii r a lui Bravais
1 r2
Pearson. În ambele tabele se caută semnificaţia în limita gradelor de liberate (f=n-2). Vom calcula
valoarea t pentru ultima valoarea obţinută a coeficientului de corelaţie.
r * n  2 0,587 * 15  2 0,587 * 13 0,587 * 3,6 2,11
t=      2,61
1 r 2
1  0,587 2
1  0,344 0,656 0,809
Vom stabili semnificaţia acestei valori a lui t prin apelarea la tabela lui Student, adoptând pragul
de risc de 0,05 şi 13 grade de libertate.
p
0,20 0,10 0,05 0,02 0,01 0,001 0,001 0,0001
f
1
2
……..
13 2,16 2,65 3,01 4,22 5,51 6,96

232
STATISTICĂ

V
Valoarea callculată de nooi este mai mare
m decât vaaloarea tabelară aflată laa intersecţia liniei l care
desemneează 13 graade de liberrate şi coloaanei care inndică pragul de risc eggal cu 0,05. Această
constataare ne indică faptul că ne aflăm în faţaa unei corelaaţii semnificattive şi deci p<0,05. Dacă valoarea
calculatăă ar fi fost mai mică de 2,16 atunnci am fi avut p>0,05 şi ş corelaţia aar fi fost considerată
nesemnificativă. Ce înseamnă faptul declarării unei coorelaţii dreptt semnificatiive. Înseamnnă că în
legătura acestor doouă variabile intervine un u factor sisstematic, însseamnă că legătura lor nu este
întâmplăătoare. Fireştte ne asumăm un risc dee 5%, adică putem greşi în apreciereea noastră înn 5 cazuri
din 100.
Există în râândul anumittor cercetătoori tendinţa de d entuziasm mare în faţaa unor coefiicienţi de
corelaţiee de bun niveel. Desigur, studiile
s de staabilire a indiccelui (sau coeficientului) dde corelaţie au raţiuni
clare şi un
u folos de netăgăduit. Daar, nu trebuiee să uităm faaptul că un cooeficient de ccorelaţie nu reprezintă
r
altceva decât
d proporţţia varianţei comune
c existtente la cele două serii dee date.
De asemeneea, merită dee amintit faptuul că indicii de d corelaţie nu
n pot fi apreeciaţi direct în
î privinţa
proporţioonalităţii. Duppă aparenţe,, o corelaţie de 0.40 estte de două ori o mai mică decât o correlaţie de
0.80. Pentru a ne puttea face o im mpresie adecvvată va trebuui să comparrăm pătratelee valorilor resspectivilor
coeficiennţi, care suntt 0.16 si 0.644. Aceste păătrate traduc o disproporrţie de 1 la 4, şi nu de 1 la 2, cum
apărea inniţial.

IMPORTANT T
În cazul stabilirii unuii coeficient de corelaţie nu putem să stabilim
s clar relaţii
r de cauuzalitate întree variabila
X şi variaabila Y. Dacăă seriile de date
d X şi Y au a un coeficieent de corelaaţie înalt nu pputem precizza dacă X
este cauuza lui Y, daccă Y este cauuza lui X, sauu dacă atât X cât şi Y sunnt influenţate de o a treia variabilă,
Z.

Referinţţe bibliograffice
obligatorrii
▪ Cloccotici, V., Stan, A., Statistiică aplicată în
î psihologie,, Editura Poliirom, Iaşi, 20000
▪ Savaa, F.A. (2011/2004). Analliza datelor înn cercetarea psihologică. Ediția a II-a.. Cluj-Napocaa: ASCR.
suplimenntare
▪ Miltoon-Smith, G., Ghid simpllificat de stattistică pentruu psihologie şi pedagogiee, Editura diddactică şi
pedaagogică, Buccureşti, 1971
▪ Popaa Marian(20008) Statisticăă pentru psihoologie, Teoriee şi aplicaţii SPSS,
S Editurra Polirom, Iaaşi

ECUAŢIILE
C DE REGRESIE
R

Doomeniul regrresiei este unnul vast în doomeniul statisticii. Noi voom trata elem
mentar acestt concept.
Este util să facem o precizare, şi anume că c acest term men de regrresie nu aree un sens neegativ de
retrogradd, înapoiat, ci desemneează doar o serie de tehnici de prognoză înn domeniul statisticii.
Cunoscâând valoareaa unui coeficiient de corellaţie între seeriile de valori ale variabiilelor X şi Y se poate
realiza o prognoză asupra valorii unei variaabile pornindd de valoareea corespunnzătoare cunnoscută a
celeilaltee variabile (necunoscută). Această prrognoză se poate
p realiza cu ajutorul eecuaţiei de reegresie a
lui X în Y şi a ecuaţieei de regresiie a lui Y în X.
X Linia de reegresie sau linia maximeei ajustări a norului
n de
puncte dind diagramaa unei corelaaţii este o linnie care trebbuie să îndeplinească o condiţie eseenţială, şi
anume ca c suma pătrratelor distannţei dintre linie şi punctelee norului să fie
f un minim.. Ecuaţiile dee regresie
ale respeectivelor dreppte sunt urmăătoarele:

233
AUREL STAN

1. ECUAŢIA DREPTEI DE REGRESIE A LUI X CĂTRE Y: ~


x  bx * y
~
În această ecuaţie (exprimată în variabile de deviaţie) ~
x  X  X şi y  Y  Y . Dacă ţinem
seama de aceste ultime egalităţi putem să scriem ecuaţia dreptei de regresie a lui X către Y în felul
următor: X  bx * Y  Y   X , în care X este estimarea variabilei X şi bx este coeficientul de regresie
~ ~

s
a lui X în raport cu Y. Acest coeficient are următoarea formulă: bx = rxy* x , în care sx este abaterea
sy
standard a valorilor seriei X şi sy este abaterea standard a seriei de valori Y. şi rxy este coeficientul de

corelaţie între valorile variabilei X şi valorile variabilei Y. Notaţiile X, X , Y sunt cunoscute din explicaţiile
noastre anterioare.
~
2. ECUAŢIA DREPTEI DE REGRESIE A LUI Y ÎN RAPORT CU y  by * x în care ~
X: ~ y  Y Y ,
y  Y  Y . Făcând înlocuirile necesare obţinem: Y  by  X  X   Y
~

sy
Coeficientul de regresie a lui Y în raport cu X este: by  rxy *
sx
Vom exemplifica bazându-ne pe datele ultimului tabel realizat pentru calcularea coeficientului de
corelaţie prin momentul produselor. Pentru calcularea coeficienţilor de regresie avem nevoie de valorile

abaterilor standard ale distribuţiilor. Formula abaterii standard a seriei de date x este: sx = x 2
.
N
1918,93
Folosind valorile de la tabelul amintit vom avea: sx =  127,92  11,31 . Pentru datele
15

seriei Y valoarea abaterii standard se calculează astfel: s y  x 2


173,39

 11,59  3,39 .
N 15
Deoarece cunoaştem valoarea coeficientului de corelaţie prin momentul produselor (0,587), putem trece
la calcularea coeficienţilor de regresie.
s 11,31 0,587 * 3,33  1,95
bx = rxy * x  0,587 * 
sy 3,39
sy 3,39
by = rxy *  0,587 *  0,587 * 0,29  0,175
sx 11,31
Să presupunem că dorim să estimăm valoarea pe care un subiect ar obţine-o un subiect la
variabila Y în momentul în care ştim că valoarea variabilei X este egală cu 64. Facem precizarea că ne
referim la datele trecute în tabelul pentru calcularea coeficientului de corelaţie prin momentul
produselor). Calculele de efectuat sunt următoarele:
Y  by  X  X   Y  0,17564  59,93  11,33  0,175 * 4,07  11,33  0,712  11,33  12,14
~

Deci, atunci când un subiect ar obţine la variabila X rezultatul de 64 se estimează pentru Y un rezultat
de aproximativ 12.
Să presupunem că dorim să estimăm valoarea pe care un subiect ar obţine-o un subiect la
variabila X în momentul în care ştim că valoarea variabilei Y este egală cu 8. Calculele de efectuat sunt
următoarele:
X  bx Y  Y   X  1,958  11,33  59,93  1,95 *  3,33  59.93  6,49  59,93  53,43 .
~

Deci, ne vom aştepta ca la variabila X subiectul să obţină aproximativ 54.


O situaţie particulară în calcularea coeficientului de corelaţie avem atunci când ne aflăm în
prezenta a două şiruri de date, din care unul este compus din variabile continue sau discrete

234
STATISTICĂ

polihotomice, iar altul din variabile binare (valori 0 şi 1). O astfel de situaţie o întâlnim atunci când dorim
să calculăm coeficientul de corelaţie între rezultatele globale obţinute de subiecţi la un test şi rezultatele
aceloraşi subiecţi la un item exprimat dihotomic.
În tabelul care urmează redăm un exemplu de acest specific. Tabelul cuprinde rubrici necesare
calculării indicatorilor existenţi în formulă:

Nr.crt. X (rezultat global la test) x x2 Y (rezultat item)


1 15 - 0,33 0,11 1
2 19 - 3,67 13,47 0
3 17 - 1,67 2,79 1
4 13 - 2,33 5,43 0
5 21 5,67 31,15 1
6 20 4,67 21,81 0
7 12 - 3,33 11,09 1
8 10 - 5,33 21,41 0
9 11 - 4,33 18,75 0
10 17 1,67 2,79 1
11 13 - 2,33 5,43 1
12 16 0,67 0,45 1
13 12 - 3,33 11,09 0
14 15 - 0,33 0,11 1
15 19 3,67 13,47 1
Σ 230 167,30 9

Coeficientul de corelaţie realizat între aceste două serii de date se numeşte coeficient de
corelaţie biserial punctat. Facem o menţiune în privinţa celei de-a doua serii de date, adică cea
exprimată sub forma de 0 si 1. În cazul în care ne aflăm în prezenţa unui item aparţinând unui test de
randament valoarea 1 reprezintă rezolvarea corectă a unei sarcini şi valoarea 0 nerezolvarea acestei
sarcini. În cazul chestionarelor de personalitate valoarea 1 reprezintă răspunsul care pune în evidenţă
trăsătura specificată în manualul chestionarului sau în titlul chestionarului, iar nota 0 lipsa acestei
trăsături. Aceeaşi întrebare poate fi punctată diferit în funcţie de scopul testului sau mai bine zis de
destinaţia sa psihodiagnostică.

EXEMPLU la întrebarea: „Îţi este frică să traversezi o piaţă imensă?” se poate acorda nota 1 la
răspunsul "da" în cazul în care chestionarul îşi propune să diagnosticheze anxietatea şi nota 0 în cazul
în care chestionarul îşi propune să stabilească echilibrul emotiv şi stabilitatea comportamentală.
Formula coeficientului de corelaţiei biserial punctat este următoarea:
X  Xq
rpbis  p * pq
sx
în care X p este media aritmetică a variabilei continue a subiecţilor care au primit la item valoarea 1, iar
X q este media aritmetică a variabilei continue a subiecţilor care au obţinut la item nota 0; sx este
abaterea standard a întregii serii de date continue; p este proporţia acelor subiecţi care au rezolvat
corect itemul sau care au răspuns în sensul evidenţierii trăsăturii specificate în titlul testului; q = 1 - p,
deci proporţia acelor subiecţi care nu au rezolvat corect itemul sau care nu au răspuns în sensul
specificat în titlul chestionarului de personalitate.

15  17  21  12  17  13  16  15  19
Xp   16.1
9

235
AUREL STAN

19  13  20  10  11  12
Xq   14.1
6
230
p = 9/15 = 0.6; q = 1–p = 1–0.60 = 0.40; X   15.33 ;
15

sx = x 2
167,30
  11,15  3,33 .
N 15
După ce avem toate datele la dispoziţie putem trece la calcularea coeficientului de corelaţie biserial
punctat.
X  Xq 16,1  14,1
rpbis  p * p*q  * 0,60 * 0,40  0,60 * 0,49  0,29 .
sx 3,33
Valoarea de 0,29 a unei corelaţii i indică o slabă asociere între valorile itemului şi rezultatele de
ansamblu ale testului.
În analiza de itemi suntem puşi în situaţia de a efectua corelaţii între itemii unui test pentru a indica
gradul de omogenitate a acestora. Desigur, dacă corelaţia dintre doi itemi este egală cu 1,00 ne putem
pune întrebarea dacă îi putem menţine pe ambii în cadrul unui test psihologic. Raţiunile relaţionării
itemilor sunt mult mai extinse şi formează domeniul de interes a teoriei testului psihologic sau, pentru o
mai mare claritate, a unei părţi a teoriei testului, şi anume a analizei de itemi. Formula pentru calcularea
coeficientului  sau a coeficientului celor 4 câmpuri (pentru itemii i şi j cu exprimarea dihotomică a
pij  pi p j
rezultatelor) este următoarea:  = .
pi qi * p j qj
O altă variantă este:
pij  pi * p j
φ= .
pi  p 2 i * p j  p 2 j
Formula se referă la doi itemi: itemul i şi itemul j. În această formulă pij reprezintă proporţia
răspunsurilor punctate cu 1 comune itemilor i si j, pi proporţia itemilor punctaţi cu 1 la itemul i şi pj
proporţia itemilor punctaţi cu 1 la itemul j. qi = 1- pi şi qj = 1 – pj.
Să presupunem că la un test de inteligenţă aplicat pe 15 subiecţi avem următoarea repartiţie a
răspunsurilor la itemii i şi j, itemi cu punctare dihotomică (vezi tabelul alăturat).

   

236
STATISTICĂ

A
Avem toate datele la disspoziţie pentrru aplicarea
formulei de calcul a coeficientului
c φ. Nr.crt. Item i IItem j Conncordanţă
pij  pi * p j 1 1 0
  2 1 1 +
pi * qi * p j * q j
3 1 0
2  0,6 * 0,53
0,266 4 0 1

4 * 0,53
0,60 * 0,40 * 0,47 5 0 0
 0,052 0,052 6 1 1 +
  0,21 7 1 0
0,48 * 0,499 0,239
8 1 0
Coreelaţia obţinuttă este o correlaţie mică, cu valoare 9 0 1
negativăă. Semnifică o uşoară inversiune a tenndinţelor de 10 0 1
creştere valorile a ceelor doi itemi. 11 1 0
12 0 0
13 1 1 +
14 0 1
15 1 1 +
Σ 9 8 4
Referinţţe bibliograffice P pI = 0,60 pj = 0,53 pij = 0,266
obligatorrii Q qI = 0,40 qI = 0,47
▪ Cloccotici, V., Stan, A., Statistică aplicatăa în
psihoologie, Editura Polirom, Iaaşi, 2000
▪ Savaa, F.A. (2011/2004). Analliza datelor înn cercetarea psihologică. Ediția a II-a.. Cluj-Napocaa: ASCR.
▪ Popaa Marian(20008) Statisticăă pentru psihoologie, Teoriee şi aplicaţii SPSS,
S Editurra Polirom, Iaaşi
suplimenntare
▪ Reucchlin, M., Preecis de statisstique, Pressees Universitaaires de Frannce, Paris, 19975
▪ Miltoon-Smith, G., Ghid simpllificat de stattistică pentruu psihologie şi pedagogiee, Editura diddactică şi
pedaagogică, Buccureşti, 1971

237

S-ar putea să vă placă și