Sunteți pe pagina 1din 40

Dan Ion Gherguţ Pavel Wagner

Unitatea de învăţare 6
ANALIZA SERIILOR INTERDEPENDENTE

Bucureşti, 2021
CUPRINS
Unitatea 6: ANALIZA SERIILOR INTERDEPENDENTE .................................. 1
6.1 Obiective ......................................................................................... 1
6.2 Tipuri de legături ............................................................................. 1
6.3 Metode simple de analiză a legăturii dintre variabile ........................ 5
6.4 Descompunerea dispersiei într-o colectivitate împărţită pe grupe
(Regula de adunare a dispersiilor). ................................................... 9
6.5 Metode de analiză a legăturilor dintre variabile .............................. 17
6.5.1 Metode neparametrice de măsurare a intensităţii corelaţiei ............ 17
6.5.2 Metode parametrice de măsurare a intensităţii corelaţiei................ 20
6.5.3 Metoda regresiei .............................................................................. 25
6.6 Cuvinte – cheie .............................................................................. 33
6.7 Intrebări de control ....................................................................... 34
6.8 Bibliografie selectivă ...................................................................... 35
Index alfabetic ........................................................................................ 36

Lista tabelelor

Tabelul 6-1: Rezultatele la examenul de admitere şi media notelor din prima sesiune de examene –
eşantion de 10 studenţi ................................................................................................................................ 5
Tabelul 6-2: Gruparea agenţilor economici după numărul salariaţilor şi după cifra de afaceri ........ 8
Tabelul 6-3: Modelul tabelului de contingenţă ...................................................................................... 10
Tabelul 6-4: Gruparea agenţilor economici după numărul de salariaţi şi după cifra de afaceri ...... 14
Tabelul 6-5: Tabel de asociere .................................................................................................................. 17
Tabelul 6-6: Rangurile ţărilor în funcţie de rata de alfabetizare a populaţiei masculine şi feminine
...................................................................................................................................................................... 18
Tabelul 6-7: Cifra de afaceri şi profitul obţinute de 8 companii studiate........................................... 19
Tabelul 6-8: Calculul parametrilor unei funcţii de regresie liniară unifactorială................................ 29
Tabelul 6-9: Calculul parametrilor unei funcţii de regresie liniară unifactorială................................ 33

Lista graficelor
Figura 6-1: Diagrama rezultatelor la admitere și în prima sesiune de examene .................................. 6
Figura 6-2: Legătură liniară directă ............................................................................................................ 6
Figura 6-3: Legătură liniară indirectă ......................................................................................................... 6

i
Figura 6-4: Legătură neliniară..................................................................................................................... 7
Figura 6-5: Absenţa legăturii ...................................................................................................................... 7
Figura 6-6: Legătură puternică ................................................................................................................... 7
Figura 6-7: Legătură slabă ........................................................................................................................... 7
Figura 6-8: Graficul de corelaţie între vechimea în muncă şi câştigul salarial ................................... 29

ii
Unitatea 6: ANALIZA SERIILOR
INTERDEPENDENTE

6.1 Obiective
În etapa observării se înregistrează întotdeauna date pentru mai multe variabile, nu doar pentru una
singură. În unităţile precedente au fost prezentate modalităţile prin care datele aferente unei
variabile pot fi prelucrate şi analizate independent de cele ce descriu celelalte variabile. De cele mai
multe ori, însă, suntem nevoiţi să punem câteva întrebări: Între aceste variabile există vreo legătură?
Dacă există, cât de puternică este legătura? Cum se comportă o variabilă dacă alta sau altele se
modifică? Un manager al unei reţele de distribuţie poate fi interesat de legătura dintre volumul
vânzărilor şi structura produselor comercializate sau un sociolog vrea să ştie cum se relaţionează
rezultatele la examene ale studenţilor cu locul de muncă şi venitul pe care îl au după absolvire.
Pentru a măsura cât de puternice sunt aceste legături, statisticienii – sau analiștii de date - utilizează
tehnicile de corelaţie, analizând seriile interdependente şi, pentru a estima cum vor arăta aceste
legături, ei utilizează tehnicile de regresie.
În cadrul acestei unităţi se tratează conceptele, tehnicile şi metodele utilizate cel mai frecvent în
analiza legăturii între variabile statistice, iar la finalul ei veţi fi capabili să:

- utilizaţi metodele simple de caracterizare a legăturii dintre două variabile;

- să calculaţi indicatorii prin care se măsoară intensitatea legăturilor statistice cu ajutorul


celor mai uzuali indicatori, inclusiv pentru evaluarea corelaţiei neparametrice şi să
interpretaţi valorile găsite;

- să construiţi un model de regresie liniară şi să interpretaţi semnificaţia parametrilor


calculaţi;

- să aveţi o imagine de ansamblu asupra principalelor modele de regresie utilizate în


practica analizelor economice şi sociale.
Cunoaşterea acestor tehnici şi metode este utilă în practica economică pentru explicarea evoluţiei
în trecut, dar şi pentru fundamentarea predicţiei evoluţiei variabilelor în viitor sau în circumstanţe
diferite.

6.2 Tipuri de legături


Prima problemă care trebuie soluţionată în analiza legăturii între o variabilă dependentă (rezultativă,
efect, explicată, notată cu Y) şi una sau mai multe variabile independente (factoriale, cauzale,
explicative, notate cu Xi) se referă la întrebarea: există o legătură între variabile sau modificarea
variabilei efect este influenţată de modificarea variabilei (variabilelor) cauză? Răspunsul la o astfel
de întrebare presupune să se pornească de la teorie, respectiv de la ştiinţa de specialitate care
studiază fenomenele respective şi de la datele empirice înregistrate pentru variabilele presupuse a fi
corelate.

1
De la bun început, însă, trebuie să clarificăm un aspect important referitor la legătura dintre
variabile, pe de o parte, şi efectul uneia sau mai multor variabile asupra variabilei explicate sau
cauzalitatea, pe de altă parte: dacă între două variabile constatăm că există o legătură, cauzalitatea
dintre ele nu este implicită. În schimb, dacă între ele există o relaţie de cauzalitate, legătura este
implicită.
Pornind de la datele empirice, se pot întâlni în practică următoarele situaţii:
a) variabila independentă X determină modificarea variabilei dependente Y, caz în care
între cele două variabile există o legătură univocă;
b) între cele două variabile există o legătură reciprocă;
c) variabilele au o evoluţie similară, determinată nu de dependenţa dintre ele ci de o altă
variabilă care influenţează simultan modificarea celor două variabile;
d) cele două variabile au întâmplător o evoluţie similară, fără să existe vreo legătură între
ele.
În cele ce urmează se tratează numai primele două tipuri de relaţii dintre variabile.
Legăturile dintre variabilele independente se clasifică după mai multe criterii.
a) După natura relaţiei de interdependenţă se disting legături funcţionale (deterministe) şi
legături stohastice (statistice).
În cazul legăturilor deterministe, legătura dintre variabila Y şi variabila X este cunoscută cu
certitudine. Spre exemplu, relaţia dintre profit şi costuri nu comportă nici un fel de incertitudine:
odată ce cunoaştem veniturile totale şi costurile totale, vom putea afla cu exactitate care este
profitul. Cu alte cuvinte, variabila X determină în mod univoc variabila Y, ceea ce înseamnă că unei
valori a variabilei cauză îi corespunde o valoare unică a variabilei efect. Legăturile funcţionale sunt
de forma: y  f x  . Acest tip de legătură se întâlneşte mai rar în realitatea economico-socială,
deoarece variaţia unei variabile efect (Y) este rezultatul influenţei simultane a mai multor variabile
cauză (Xi).
Legăturile stohastice se întâlnesc cel mai frecvent în realitatea economico-socială. În acest caz,
modul în care funcţionează legătura dintre variabile nu poate fi precizat cu certitudine. Legătura
statistică există între două variabile dacă valoarea medie a unei variabile se află în relaţie cu valoarea
medie a altei variabile. Astfel, variabila rezultativă (Y) este influenţată de una sau mai multe variabile
cauză (Xi), dar pe lângă aceste cauze considerate esenţiale există şi alte variabile neînregistrate
(nespecificate) care acţionează asupra variabilei Y. Caracteristic pentru legăturile stohastice este
faptul că în variaţia variabilei Y rămâne întotdeauna o parte neexplicată, determinată de influenţa
factorilor neînregistraţi. Cu alte cuvinte, nu putem calcula cu certitudine care este valoarea variabilei
explicate pe baza unei valori a variabilei explicative.
Influenţa variabilelor nespecificate este luată în calcul în modelul stohastic sub forma variabilei
reziduale (  ), denumită şi eroare aleatoare:

y  f x    (6.1)

2
Legătura statistică nu poate fi identificată la nivelul fiecărei unităţi, ci numai la nivelul ansamblului
unităţilor. Tendinţa de corelare se manifestă numai în cazul unui număr suficient de mare de
înregistrări.
b) După numărul variabilelor factoriale luate în considerare se deosebesc legături simple şi
legături multiple.
În cazul legăturilor simple, se analizează dependenţa variabilei efect (Y) în funcţie de o singură
variabilă cauză (X), toate celelalte variabile cu o influenţă semnificativă sau nu (esenţiale sau
întâmplătoare) sunt considerate cu o acţiune constantă. De exemplu, dependenţa profitului de cifra
de afaceri.
În cazul legăturilor multiple, variaţia variabilei Y se analizează în funcţie de mai multe variabile
cauză (X1, X2, ...).
De exemplu, analiza variaţiei salariului într-o colectivitate (Y) în funcţie de numărul orelor lucrate
(X1), de vechime (X2), de nivelul calificării (X3).
c) După natura caracteristicilor se disting legături corelative şi legături de cauzale.
În cazul analizei legăturii dintre două variabile cantitative sau una cantitativă şi alta calitativă poate
fi vorba, în primul rând, de o corelaţie statistică. De exemplu, analiza legăturii între ramura de
activitate şi câştigul salarial sau exemplul anecdotic al corelaţiei dintre numărul nou-născuţilor şi
numărul cuiburilor de barză. Între cele două fenomene poate exista o corelaţie, dar nu în mod
necesar o cauzalitate: va creşte numărul nou-născuţilor dacă va creşte numărul cuiburilor de barză
sau invers? Fireşte că nu.
Cauzalitatea statistică intervine în cazul legăturilor dintre două sau mai multe variabile cantitative
în sensul că modificarea uneia sau mai multor variabile considerate explicative antrenează
modificarea variabilei explicate într-o manieră consistentă. În cazul cuibuirilor de barză şi al nou-
născuţilor există, cel puţin, o a treia variabilă care le influenţează distinct: ritmul biologic, gradul de
dezvoltare socio-economică, prezenţa şi/sau abundenţa resurselor de hrană etc.
d) După direcţia legăturii există legături directe şi legături inverse.
Dacă modificarea variabilei cauză este însoţită de modificări în acelaşi sens ale variabilei efect, există
o legătură directă. În cazul în care variabilele corelate tind să se modifice în sens opus, este cazul
unei legături inverse.
e) După forma funcţiei (expresia analitică a legăturii) acestea pot fi liniare sau neliniare.
Dacă reprezentarea grafică a datelor empirice corespunzătoare celor două variabile sugerează o
dreaptă, legătura este liniară. În cazul legăturilor neliniare, dependenţa dintre variabile se exprimă
grafic printr-o curbă (hiperbolă, parabolă etc).
f) După timpul realizării legăturii se deosebesc legături sincrone (concomitente) şi
asincrone (cu decalaj).
În primul caz, modificarea variabilelor se produce în acelaşi timp, concomitent, iar în cel deal doilea
caz variaţia variabilei cauză (X) este urmată după un anumit timp de variaţia variabilei efect (Y). De

3
exemplu, legătura dintre modificarea preţurilor de consum şi modificarea cheltuielilor populaţiei
pentru consum este una sincronă, iar legătura dintre investiţiile realizate în economie şi modificarea
produsului intern brut este una asincronă.
Analiza corelaţiilor presupune parcurgerea următoarelor etape:

 identificarea variabilelor cauză şi ierarhizarea acestora;

 culegerea datelor pentru variabile presupuse a fi corelate;

 verificarea existenţei şi a formei legăturii prin metode simple;

 calculul indicatorilor de corelaţie şi testarea semnificaţiei indicatorilor de corelaţie.

4
6.3 Metode simple de analiză a legăturii dintre variabile
După culegerea datelor pentru variabilele implicate în analiza legăturii, trebuie verificat dacă între
variabile există o corelaţie, care este forma analitică a acesteia. Metodele care răspund acestor
probleme de cunoaştere sunt, de fapt, procedee de sistematizare a datelor empirice înregistrate, şi
anume:

 metoda grafică;

 metoda grupărilor;

 metoda tabelului de corelaţie (de contingenţă);

 metoda seriilor paralele interdependente.


Metoda grafică este un procedeu simplu şi sugestiv de vizualizare a interdependenţei dintre două
variabile. Această metodă este, de altfel, cea mai rapidă pe care o putem aplica cu ajutorul celor mai
comune aplicaţii informatice care ne oferă posibilitatea de a realiza grafice prin nor de puncte1.
Metoda presupune reprezentarea grafică, în sistemul de axe rectangulare, a perechilor de valori
empirice (xi, yi). Pe abscisă se înscriu valorile caracteristicii independente iar pe ordonată cele ale
caracteristicii dependente. Fiecare pereche de valori empirice se reprezintă în cadranul I printr-un
punct. Procedând astfel se obţine o diagramă de corelaţie sau o corelogramă.
Să presupunem că ne interesează să vedem dacă există o relaţie între nota de la examenul de
admitere la o universitate şi media notelor primite la prima sesiune de examene de către studenţi.
Firesc, vom avea nevoie de un eşantion de studenţi din anul I asupra cărora să organizăm o
cercetare statistică. Eşantionul este format din 10 studenţi, iar rezultatele observării sunt prezentate
în tabelul următor.

Tabelul 6-1: Rezultatele la examenul de admitere şi media notelor din prima sesiune de
examene – eşantion de 10 studenţi

Media notelor la
Student Nota la admitere examenele
din prima sesiune
1 7,34 7
2 8,52 8
3 8,05 7
4 9,21 8
5 6,55 7
6 7,32 6
7 9,16 9
8 9,33 7
9 7,21 8
10 6,15 6

1 „Scatter diagrams” în engleză sau “nouage de points” în franceză.

5
Pentru construirea graficului, variabila explicativă (sau independentă) este nota la admitere, ale cărei
valori le vom reprezenta pe axa orizontală, iar variabila explicată (sau dependentă) este media
notelor la examenele din prima sesiune, ale cărei valori le vom reprezenta pe axa verticală în Figura
6-1.

Figura 6-1: Diagrama rezultatelor la admitere și în prima sesiune de examene


10

8
Media notelor in prima sesiune

0
0 1 2 3 4 5 6 7 8 9 10
Nota la admitere

Pe baza graficului se concluzionează dacă există o corelaţie, dacă există date atipice şi care este
forma şi direcţia legăturii în funcţie de tendinţa de ordonare a punctelor. Din graficul de mai sus
rezultă destul de vizibil că există o relaţie între cele două variabile, respectiv între nota la admitere
şi rezultatele din prima sesiune de examene.
Dacă punctele tind să se ordoneze în jurul unei linii drepte, corelaţia este liniară directă (Figura 6-2)
sau indirectă (Figura 6-3) iar dacă se ordonează sub forma unei curbe (Figura 6-4), între cele două
variabile există o corelaţie neliniară. De asemenea, graficul ne arată şi dacă nu există nici o relaţie
între două variabile (Figura 6-5). Dacă punctele se împrăştie fără nici o regularitate, variabilele
trebuie considerate independente.

Figura 6-2: Legătură liniară directă Figura 6-3: Legătură liniară indirectă

6
Figura 6-4: Legătură neliniară Figura 6-5: Absenţa legăturii

Cu cât tendinţa de ordonare a punctelor este mai pronunţată, cu atât corelaţia între cele două
variabile este mai intensă, adică legătura este puternică (Figura 6-6). Dacă punctele sunt ordonate,
dar sunt relativ împrăştiate, legătura dintre variabile este mai slabă (Figura 6-7).

Figura 6-6: Legătură puternică Figura 6-7: Legătură slabă

În mod evident, metoda grafică ne arată care este forma relaţiei doar dintre două variabile. Dacă
vom considera o variabilă drept variabilă efect şi vom încerca să o punem în relaţie cu un set de
alte variabile explicative pe care le-am inclus în programul de observare, singura posibilitate de a
vizualiza legăturile existente este să construim perechi între variabila efect şi fiecare din variabilele
explicative.
Metoda grupărilor se aplică atunci când numărul de unităţi pentru care s-au înregistrat valori
empirice este mare. Se grupează unităţile după variabila factorială şi pentru fiecare grupă astfel
construită se calculează media variabilei dependente (yi). Între cele două variabile există o corelaţie
dacă mediile de grupă (condiţionate, yi ) reacţionează la modificările intervenite în variabila
independentă. Aplicarea acestei metode este influenţată de modul cum s-a făcut gruparea. Se
recomandă, în acest caz, ca intervalele de grupare să fie egale, numărul grupelor construite să fie

7
suficient de mare pentru evitarea pierderilor de informaţii, numărul unităţilor din fiecare grupă să
fie semnificativ ş.a. În Tabelul 6-2 este prezentat un exemplu de aplicare a metodei grupării.
Tabelul 6-2: Gruparea agenţilor economici după numărul salariaţilor şi după cifra de
afaceri

Grupe Grupe după cifra de afaceri (mil. lei)


după nr. Total
4-6 6-8 8 - 10 10 - 12 12 - 14
salariaţi
0–9 6 8 6 - - 20
10 – 19 4 11 11 4 - 30
20 – 29 - - 4 7 4 15
30 – 39 - - - 5 5 10
40 – 49 - - - 2 3 5
Total 10 19 21 18 12 80

Este cifra de afaceri (Y) influenţată de numărul de salariaţi (X)? Pentru fiecare grupă construită
după numărul de salariaţi se calculează cifra de afaceri realizată în medie de fiecare agent economic
din grupa respectivă.
5

y
j 1
j  nij
yi  5

n
j 1
ij

Grupările fiind pe intervale de mărime, vom introduce în calcul centrele de interval:

5 6  7 8  9 6
y1   7 milioane lei
20
5  4  7  11  9  11  11  4
y2   8 milioane lei
30
....

11  2  13  3
y5   12,2 milioane lei
5
Remarcăm faptul că media cifrei de afaceri pe agent economic creşte odată cu creşterea numărului
de salariaţi, deci există o corelaţie directă.
Cu cât mediile de grupă diferă mai mult între ele cu atât influenţa variabilei independente este mai
puternică.
Metoda tabelului de corelaţie (de contingenţă) presupune gruparea unităţilor colectivităţii după
variaţia celor două variabile şi interpretarea tendinţei de ordonare a frecvenţelor. Grupele construite
după variabila independentă apar, de regulă, în capetele coloanelor iar cele aferente variabilei
dependente apar în capetele rândurilor. La intersecţia dintre rândul "i" şi coloana "j" apare numărul
unităţilor (nij) corespunzător perechii de valori xj, yi. Tabelul care rezultă este unul cu dublă intrare
(vezi tabelul nr. 6.2).

8
Dacă valorile care definesc intervalele de grupare după X şi Y au fost ordonate crescător, iar
frecvenţele tind să se ordoneze după diagonala principală, atunci există o corelaţie directă.
Dacă frecvenţele se concentrează în jurul diagonalei secundare, atunci există o corelaţie inversă. Cu
cât concentrarea frecvenţelor în jurul unei diagonale este mai puternică, cu atât legătura dintre cele
două variabile este mai intensă.
Dispersia frecvenţelor fără nici o regularitate sugerează că cele două variabile sunt independente
sau necorelate.
La folosirea tabelului de corelaţie se recomandă să se respecte regulile menţionate la metoda
grupării.
Metoda seriilor paralele interdependente se recomandă a fi aplicată în cazul unui număr redus
de valori (xi, yi) înregistrate pentru variabile X şi Y.
Se procedează astfel: se ordonează crescător datele variabilei independente (X) şi se ataşează valorile
corespunzătoare variabilei dependente (Y) şi se concluzionează referitor la forma şi direcţia legăturii
în funcţie de reacţia variabilei Y la modificările intervenite în variabila X. Dacă datele tind să se
modifice în acelaşi sens, există o corelaţie directă, respectiv inversă, dacă tind să se modifice în sens
opus. Mărimea cu care se modifică Y la modificările lui X permite aprecierea intensităţii legăturii.
Ultimele două metode sunt rar utilizate în aplicaţiile practice, iar metoda grupării, cu particularizarea
sa prin metoda tabelului de corelaţie este utilizată mai puţin pentru caracterizarea asocierii dintre
două variabile şi mai mult pentru evidenţierea acestei legături. Metoda grafică – diagrama norului
de puncte – este facilă şi permite vizualizarea rapidă a unei posibile legături între variabile şi, de
aceea, este cea mai des utilizată. Odată cu extinderea utilizării tehnologiei informaţiei, caracterizarea
legăturii între variabile şi măsurarea intensităţii ei sunt mijlocite de aplicaţiile dedicate prelucrării
datelor statistice.

6.4 Descompunerea dispersiei într-o colectivitate împărţită pe


grupe (Regula de adunare a dispersiilor).
Dispersia este un indicator pe baza căruia se calculează abaterea medie pătratică. De asemenea, se
foloseşte la analiza interdependenţelor, în sensul că nu de puţine ori este necesar să se cuantifice
cât din variaţia valorilor unei variabile efect (rezultat) se poate explica pe seama altei / (altor)
variabile explicative. De exemplu, ne interesează cât la sută din variaţia cifrei de afaceri celor 200
de agenţi economici (  2  359964 mii lei) se poate explica prin variaţia numărului de angajaţi?
Pentru a răspunde unei astfel de cerinţe de cunoaştere se recurge la o grupare a datelor după
caracteristica considerată cauză (X), denumită şi variabilă explicativă, urmând ca fiecare grupă
obţinută să fie împărţită după caracteristica efect (Y), denumită şi variabilă explicată. Procedând
astfel rezultă o repartiţie bidimensională, respectiv o repartiţie multidimensională de frecvenţe dacă
în analiză se introduc mai multe variabile factoriale. Astfel de tabele se numesc tabele de
contingenţă.

9
În Tabelul 6-3 este prezentată macheta unei repartiţii bidimensionale, în care valorile au fost
împărţite în r grupe după caracteristica X şi în m grupe după caracteristica Y.
Tabelul 6-3: Modelul tabelului de contingenţă

Totalul
Valorile Valorile frecvenţelor
variabilei caracteristicii Y(yi) asociate
X (xi) variabilei
y1 y2 ... yj ... ym X (xi.)
x1 n11 n12 ... n1j … n1m n1.
x2 n21 n22 ... n2j … n2m n2.
... … ... … ... … … …
xi ni1 ni2 ... nij … nim ni.
... … ... … ... … … …
xr nr1 nr2 ... nrj … nrm nr.
Totalul
frecvenţelor
asociate n.1 n.2 … n.j ... n.m n..
variabilei
Y (n.j)

În Tabelul 6-3 apar pentru variabila efect (Y) două tipuri de repartiţii:
a) o repartiţie pe total (yj, nj), care nu ţine seama de grupele construite după caracteristica
considerată cauză.;
b) r repartiţii condiţionate de grupele construite după caracteristica de grupare X.
În plus, tabelul prezintă două distribuţii de total, una în funcţie de valorile variabilei efect (Y) şi una
în funcţie de variabila cauză (X), numite distribuţii marginale.
Corespunzător celor două tipuri de repartiţii se pot calcula pentru variabila Y următoarele medii:

 media generală pentru repartiţia pe total ( y ), calculată prin intermediul valorilor


individuale ale variabilei Y şi a distribuţiei marginale a acesteia :
m

y
j 1
j  n. j
y m
(6.2)
n
j 1
.j

Aceeaşi măsură poate fi obţinută prin intermediul valorilor individuale ale variabilei Y pe ansamblul
distribuţiei din tabelul de contingenţă:
r m

 y
i 1 j 1
j  nij
y r m
(6.3)
 n
i 1 j 1
ij

10
 medii de grupă sau medii condiţionate de factorul de grupare x i , ( y i ), pentru
repartiţiile condiţionate :
m m

y
j 1
j  nij y
j 1
j  nij
yi  m
 (6.4)
n
ni 
ij
j 1

Pe baza relaţiei (4.57), relaţia (4.56) poate fi rescrisă în funcţie de mediile condiţionate ale variabilei
Y, astfel:
r m r
 y j  nij
i 1 j 1
y i  ni 
y r m
 i 1
r
(6.5)
 n
i 1 j 1
ij n
i 1
i

Numărul mediilor de grupă este egal cu numărul grupelor construite după caracteristica factorială.
Media mediilor de grupă este egală cu media generală.

Pornind de la valorile individuale ale variabilei efect ( y j ) şi de la mediile condiţionate ( y i ) şi de la

media generală ( y ) se pot determina următoarele abateri:

a) variaţia valorilor individuale în jurul mediei generale, y j  y ;

b) variaţia valorilor individuale în jurul mediilor de grupă (condiţionate), y j  y i ;

c) abaterea mediilor condiţionate de la media generală, y i  y .

Corespunzător celor trei tipuri de abateri, la nivelul fiecărei unităţi observate se poate scrie:

y j  y = y j  yi + yi  y

Ceea ce înseamnă că abaterea totală este egală cu suma dintre abaterea valorilor individuale faţă de
media grupei şi abaterea mediei de grupă de la media generală. Ce semnificaţie au aceste abateri?

Termenul din stânga al relaţiei, y j  y , măsoară variaţia valorilor individuale în jurul mediei
generale. Dacă valorile empirice înregistrate ( y j ) sunt rezultatul influenţei tuturor factorilor
(esenţiali şi neesenţiali), iar media presupune că toţi factorii sunt constanţi, înseamnă că această
diferenţă exprimă variaţia valorilor individuale în jurul mediei sub acţiunea tuturor factorilor:
factorul X considerat esenţial şi toţi ceilalţi factori, consideraţi neesenţiali.

Primul termen al părţii din dreapta a relaţiei, y j  y i , măsoară variaţia valorilor individuale de la
media de grupă, deci exprimă variaţia în interiorul fiecărei grupe construite după factorul X. Cum
factorul X are aceeaşi valoare în cazul tuturor unităţilor din aceeaşi grupă, înseamnă că această
diferenţă se datorează acţiunii cauzelor din interiorul grupei, deci factorilor neesenţiali.

11
Al doilea termen al părţii din dreapta a relaţiei, y i  y , evidenţiază influenţa factorului esenţial de
grupare (X) asupra variaţiei valorilor mediei condiţionate în jurul mediei generale.
Pe baza acestor abateri se pot calcula următoarele dispersii.

Dispersia generală (  02 sau  Y2 ) se determină pentru repartiţia marginală construită pentru Y, şi


ca urmare, nu ţine seama de grupele construite după factorul X.

 y 
m
2
j  y  n j
j 1
 02  m
(6.6)
n j 1
j

Prin  02 se măsoară variaţia variabilei dependente (efect) sub influenţa tuturor factorilor.

Pentru ansamblul tabelului de contingenţă, dispersia generală mai poate fi scrisă şi sub următoarea
formă:

 y 
r m
2
j  y  nij
i 1 j 1
 02  r m
(6.6’)
 n
i 1 j 1
ij

Dispersia de grupă sau dispersia condiţionată  i2 măsoară variaţia la nivelul fiecărei grupe
construite după factorul X. Numărul dispersiilor de grupă este egal cu numărul grupelor stabilite
după caracteristica considerată cauză (i = 1, 2 ... r).

 y 
m
2
j  yi  nij
j 1
 
i
2
m
(6.7)
n j 1
ij

Fiecare dispersie de grupă măsoară variaţia valorilor variabilei dependente sub influenţa factorilor
din interiorul grupei respective, care sunt priviţi ca factori neesenţiali în raport cu factorul X.
Pentru a măsura acţiunea tuturor factorilor neesenţiali din toate grupele se calculează media
dispersiilor de grupă.
2
Media dispersiilor de grupă (  ) este o medie aritmetică a dispersiilor de grupă:
r

2
 i
2
 ni 
  i 1
r
(6.8)
ni 1
i

12
Dacă toate grupele sunt de acelaşi volum (n1 = n2 = ... = ni = ...), atunci toate dispersiile de grupă
n1 n 2 nr 
intră în calculul mediei cu aceeaşi importanţă r
 r
 ...  r
, atunci se aplică media
n
i 1
i n
i 1
i n
i 1
i

aritmetică simplă:
r

2
 i
2

  i 1
(6.9)
r

Dispersia dintre grupe (  2 ) sau dispersia explicată (  Y2 / X ) măsoară variaţia mediilor de grupă
de la media generală şi exprimă variaţia datorată acţiunii factorilor de grupare, deci a factorului X.

 y 
r
2
i  y  ni 
 Y2 / X  i 1
r
(6.10)
n
i 1
i

Pornind de la factorii de influenţă care determină variaţia valorilor variabilei Y, între dispersiile
menţionate există relaţia:
2
 02 =  +  Y2 / X (6.11)

Relaţia [6.11] este denumită regula de adunare a dispersiilor.


Dispersia totală ne arată că este suma dintre media dispersiilor de grupă şi dispersia mediilor de
grupă.
Pe baza acestei relaţii se calculează doi indicatori derivaţi (mărimi relative de structură) care exprimă
ponderea variaţiei acţiunii fiecărui grup de factori (esenţiali şi neesenţiali) în variaţia totală şi anume:

 Coeficientul de determinaţie ( RY2 / X ), care exprimă ce cotă parte din variaţia totală se
datorează acţiunii factorului considerat esenţial:

 Y2 / X
RY2 / X   100 (6.12)
 02

 Coeficientul de nedeterminaţie ( K Y2 / X ) măsoară cât la sută din variaţia totală se


datorează influenţei factorilor neînregistraţi, consideraţi neesenţiali sau reziduali.
2

K 2
 2  100 (6.13)
0
Y/X

13
Exemplul 6.1 – Regula adunării dispersiilor
Variaţia cifrei de afaceri prezentată în Tabelul 6-2 este cauzată de acţiunea unui mare număr de
factori: numărul salariaţilor; domeniul de activitate; preţurile practicate; calitatea produselor etc.
Presupunem că un factor esenţial de influenţă este numărul de salariaţi (X) şi vrem să măsurăm cât
de mare este această influenţă asupra cifrei de afaceri. În acest caz se grupează mai întâi agenţii
economici după acest factor, iar grupele obţinute se defalcă după cifra de afaceri (Y). Procedând
astfel se obţine o repartiţie bidimensională cum este, spre exemplu, cea din tabelul următor.
Tabelul 6-4: Gruparea agenţilor economici după numărul de salariaţi şi după cifra de
afaceri

Grupe Grupe după cifra de afaceri (mii lei)


după
numărul de 1600- 2000- 2400- 2800- 3200- 3600- 4000- Total
salariaţi 2000 2400 2800 3200 3600 4000 4400
(pers.)
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200

Pentru verificarea regulii de adunarea a dispersiilor şi calculul coeficientului de determinaţie,


procedăm mai întâi la calculul mediilor pentru variabila « cifra de afaceri ».

a) media generală ( y ):
7

y
j 1
j  n j
1800  15  2200  25  2600  50  3000  46  3400  35  3800  24  4200  5
y 2 7
  2906
 n
200
ij
i 1 j 1

mii lei

b) mediile de grupă ( y i ):

y j 1
j  n1 j
1800  15  2200  25  2600  40  3000  25  3400  15  3800  0  4200  0
y1  7
  2600
n
120
1j
j 1

mii lei
7

y
j 1
j  n2 j
1800  0  2200  0  2600  10  3000  21  3400  20  3800  24  4200  5
y2  7
  3365
n
80
2j
j 1

mii lei

14
Media generală ( y ) poate fi calculată pe baza mediilor parţiale ( y i ) astfel:
2

y i  ni 
2600  120  3365  80
y i 1
2
  2906 mii lei
n
200
i
i 1

Să vedem cum facem toate aceste calcule în Tabelul 6-4.

Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
y j  n1 j 27000 55000 104000 75000 51000 0 0 312000
y j  n2 j 0 0 26000 63000 68000 91200 21000 269200
y j  n j 27000 55000 130000 138000 119000 91200 21000 581200

În continuare, procedăm la calculul dispersiilor pentru variabila Y:

c) dispersia generală (  02 =  Y2 ):

 y 
7
2
 y  n j
 02 
j 1
j


1800  29062  15  2200  29062  25  ...  4200  29062  5 
7

n
200
j
j 1

71992800
 359964
200

d) dispersiile de grupă (  i2 ):

 y 
7
2
 y1  n1 j
 12 
j 1
j


1800  26002  15  2200  26002  25 
7

n
120
1j
j 1

2600  26002  40  3000  26002  25  3400  29062  15  27200000  226666,7


120 120

 y 
7
2
 y2  n2 j
 
2 j 1
j


2600  3365  10  3000  3365  21
2 2

2 7

n
80
2j
j 1

3400  33652  20  3800  33652  24  4200  33652  5  897647375  208775,0


80 80

15
2
e) media dispersiilor de grupă (  ):
2

2
 i
2
 ni 
226666,7  120  11220592,2  80
  i 1
2
  219510,0
n
200
i
i 1

f) dispersia dintre grupe (  2 ) sau dispersia explicată (  Y2 / X )

 y 
2
2
 y  ni 
 Y2 / X  i 1
i

2600  29062  120  3365  29062  80  140454,0
2

n
200
i
i 1

g) regula de adunare a dispersiilor:


2
 02 =  +  Y2 / X =219510,0 + 140454,0 = 359964

După cum lesne se poate observa, regula de adunare a dispersiilor este verificată.
Calculele adiţionale de mai sus sunt sintetizate în tabelul de mai jos:

Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
y j  2
 y  n j
183485
40
124609
00
468180
0
406456
854126
0
191816
64
837218 71992800
0 ,0
y j  y  n
1
2
1j
960000
0
400000
0
0
400000 960000
0 0
0 0
27200000
,0
y j  y2  n2 j 2
0
585225 279772
0 5
24500
454140
0
348612 16702000
5 ,0

h) Raportul de corelaţie ( RY / X ) este rădăcina pătrată a raportului dintre dispersia explicată


(INTER) şi dipersia totală (marginală) :

 Y2 / X 140454,0
RY / X   100   100  62,5%
0 2
359964,0

Înseamnă că 62,5% din variaţia cifrei de afaceri a celor 200 de agenţi economici se datorează
deosebirilor privind numărul de salariaţi. Cota parte de 37,5% din variaţia cifrei de afaceri se poate
explica prin acţiunea tuturor celorlalţi factori consideraţi neesenţiali, reziduali.

16
6.5 Metode de analiză a legăturilor dintre variabile
Metodele elementare oferă o serie de informaţii utile în studiul interdependenţelor. Acestea nu sunt
însă în măsură să descrie analitic dependenţa şi să măsoare numeric intensitatea acesteia. Metodele
care permit acest lucru sunt metoda corelaţiei şi metoda regresiei.
Din grupa metodei corelaţiei diferenţiem metodele neparametrice de măsurare a intensităţii
legăturilor dintre variabile şi metodele parametrice. Diferenţa dintre metodele neparametrice şi cele
parametrice este dată de faptul că primele pot fi aplicate indiferent de forma distribuţiei statistice,
pe când cele din urmă depind de forma distribuţiei şi, implicit, de parametrii acesteia, adică de media
şi dispersia distribuţiei respective.

6.5.1 Metode neparametrice de măsurare a intensităţii corelaţiei


Metodele de corelaţie prezentate fac parte din grupa metodelor parametrice de măsurare a
intensităţii legăturilor dintre variabile, întrucât modelele prin care sunt construite presupun
formularea anumitor supoziţii asupra variabilelor implicate şi a formei relaţiei dintre acestea. Mai
precis, aceste metode pot fi aplicate dacă variabilele îndeplinesc două condiţii:
a) sunt de natură cantitativă, numerică (scala de măsurare este cel puţin de tip interval);
b) repartiţiile variabilelor tind spre distribuţia normală.
Dacă nu sunt îndeplinite aceste condiţii se recomandă aplicarea metodelor neparametrice. Cei mai
utilizaţi indicatori din acestă grupă sunt: coeficientul de asociere Yule; coeficientul de corelaţie a
rangurilor Spearman; coeficientul de corelaţie a rangurilor Kendall.
Coeficientul de asociere Yule (Q) se aplică în cazul analizei corelaţiei dintre două variabile
alternative. Astfel de caracteristici admit numai două forme de manifestare: DA şi NU şi se codifică
cu 1 şi 0.
Repartiţia celor două variabile alternative se prezintă într-un tabel de asociere care este o variantă
simplificată a tabelului cu dublă intrare. În acest tabel valorile variabilei X apar în capetele
rândurilor, iar cele ale variabilei Y apar în capetele coloanelor.
Tabelul 6-5: Tabel de asociere

X \ Y y1 y2 Total
x1 n11 n12 n1.
x2 n21 n22 n2.
Total n.1 n.2 n..
Coeficientul de asociere Yule se calculează pe baza relaţiei:

n11  n22  n12  n21


Q (6.14)
n11  n22  n12  n21
Acest indicator poate lua valori cuprinse între 1 şi +1. Valori negative ale lui Q indică o asociere
inversă, respectiv directă, dacă acest indicator este pozitiv.

17
Cu cât Q tinde mai mult spre ±1 cu atât asocierea este mai puternică. Dacă coeficientul de asociere
este egal cu 0, între cele două variabile nu există o legătură de asociere.
Coeficienţii de corelaţie a rangurilor se aplică în cazul în care valorile sau formele de manifestare
a celor două variabile pot fi ierarhizate. Aceşti indicatori se recomandă în situaţiile în care cel puţin
una din variabile este nenumerică (calitativă sau exprimată prin cuvinte) sau când distribuţia nu este
cunoscută.
Caracteristic pentru aceşti coeficienţi este faptul că la determinarea lor nu se porneşte de la valorile
empirice corespunzătoare celor două variabile, ci de la numere care indică locul fiecărei valori /
forme de manifestare în serie, denumite ranguri ( Rx , R y ). Deci, valorile empirice / formele de
manifestare se înlocuiesc cu ranguri. Se ordonează crescător rangurile după caracteristica X (cel mai
mic nivel are rangul 1) şi se ataşeză rangurile corespunzătoare caracteristicii Y.

Coeficientul de corelaţie a rangurilor Spearman ( rS ) se determină pe baza rangurilor celor două


varabile ( Rx , R y ), ordonate aşa cum s-a menţionat mai sus:

N
6   D i2
rS  1  i 1
(6.15)
N  (N  1)
2

în care:

Di  Rx,i  R y ,i
n − numărul cuplurilor de valori X, Y.
Acest coeficient poate lua valori cuprinse între 1 şi +1 şi se interpretează în acelaşi fel ca în cazul
coeficientului de corelaţie liniară (r).
Exemplul următor ilustrează modul de calcul al coeficientului de corelaţie a rangurilor Spearman.

Exemplul 6.2 – Calculul coeficientului de corelaţie a rangurilor Spearman


În tabelul următor sunt prezentate rangurile a 6 ţări ordonate după rata de alfabetizare masculină
(xi) şi feminină (yi). Spre exemplu, ţara 3 este a IV-a în ordinea ratei de alfabetizare masculine şi a
V-a după rata de alfabetizare feminină.
Tabelul 6-6: Rangurile ţărilor în funcţie de rata de alfabetizare a populaţiei masculine şi
feminine

Ţara
1 2 3 4 5 6
Rangul xi 6 5 4 3 1 2
Rangul yi 6 4 5 2 1 3
Di 0 1 1 1 0 1
Di2 0 1 1 1 0 1

18
N
6 D i2
64
rS  1  i 1
 1  0,886
N(N  1) 2
6  (36  1)

Deoarece valoarea coeficientului de corelaţie a rangurilor Spearman este ridicată, concluzionăm că


există o corelaţie puternică între rata de alfabetizare a populaţiei feminine şi a celei masculine în
cele 6 ţări analizate.

Coeficientul de corelaţie a rangurilor Kendall ( rK ) se calculează numai pe baza rangurilor


variabilei Y, după ce datele au fost sortate după variabila X. Relaţia de calcul este:

rk 
 P  Q
i i
(6.16)
nn  1
1
2
unde :

-  P − suma rangurilor superioare care urmează în continuare după rangul i analizat;


i

-  Q − suma rangurilor inferioare care urmează în continuare supă rangul analizat.


i

- n este numărul de ranguri analizate.


Coeficientul Kendall ia deasemenea valori cuprinse între –1 şi +1. Semnul coeficientului indică
direcţia legăturii (+ corelaţie directă şi – o corelaţie inversă), cu cât tinde mai mult spre ±1, cu atât
corelaţia este mai puternică.
Calculul coeficienţilor de corelaţie a rangurilor se exemplifică în continuare pe baza datelor privind
cifra de afaceri (X) şi profitul (Y) realizate de către opt agenţi economici.

Exemplul 6.3 – Calculul coeficientului de corelaţie a rangurilor Spearman şi Kendall


Într-o cercetare statistică au fost studiate 8 companii, ale căror cifră de afaceri şi profit au fost
sintetizate în tabelul următor.
Tabelul 6-7: Cifra de afaceri şi profitul obţinute de 8 companii studiate

Cifra de
Nr. Profit
afaceri Rx Ry Di2 Pi Qi
crt. (mil. lei)
(mil. lei)
1 47 4,0 1 1 0 7 0
2 54 4,7 2 2 0 6 0
3 58 5,9 3 7 16 1 4
4 60 5,2 4 4 0 3 1
5 61 5,0 5 3 4 3 0
6 62 5,8 6 6 0 1 1
7 64 5,6 7 5 4 1 0
8 70 6,4 8 8 0 0 0
Total - - - - 24 22 6

19
Pi şi Qi au fost determinate exclusiv pe baza coloanei de ranguri Ry.
Aplicând relaţiile corespunzătoare,

- coeficientul de corelaţie Spearman este:


N
6 D i2
6  24 144
rS  1  i 1
 1  1  0,714
N(N  1) 2
8  (64  1) 504
- Coeficientul de corelaţie Kendall este:

rk 
 P  Q
i i

2  (22  6) 32
  0,571
8  (8  1)
nn  1
1 56
2
Corelaţia dintre cele două variabile este una directă şi moderată ca intensitate.

6.5.2 Metode parametrice de măsurare a intensităţii corelaţiei


Funcţia de regresie descrie dependenţa variabilei rezultative de variabila sau variabilele cauză atrase
în analiza legăturii. În studiul legăturilor dintre variabile este frecvent necesar să se măsoare cât de
puternică este corelaţia dintre variabile, caz în care se aplică metodele parametrice de măsurare a
corelaţiei2.

Indicatorii prin care se măsoară intensitatea legăturilor sunt: covarianţa cov( X , Y ) ; coeficientul de
corelaţie ( r ); raportul de corelaţie ( R ) şi coeficientul de determinaţie ( R 2 ) .
Covarianţa dintre două variabile este o medie aritmetică simplă a produselor perechilor abaterilor
valorilor empirice ( x i şi y i ) de la mediile lor aritmetice ( x şi y ).

cov( X , Y ) 
 x i  x    yi  y 
(6.17)
n

Dacă corelaţia este directă atunci cov( X , Y ) > 0, respectiv valori negative, în cazul corelaţiilor
inverse. Acest indicator se aplică mai rar în analiza corelaţiilor, datorită următoarelor cauze:

 nu are un interval fix de variaţie; cu cât corelaţia este mai intensă cu atât covarianţa, în
valoare absolută, este mai mare;

 se exprimă în unităţile de măsură a caracteristicelor implicate în analiză, fapt ce


generează dificultăţi în cazul comparaţiilor.

2Metoda corelaţiei presupune că ambele variabile analizate (X şi Y) sunt aleatoare şi distribuite normal, în timp ce metoda regresiei
presupune că variabila Y este aleatoare, în timp ce X nu este. De asemenea, se presupune că abaterea standard a variabilei Y este
constantă pentru toate valorile lui X, iar abaterea standard a variabilei X este constantă pentru toate valorile lui Y.

20
Coeficientul de corelaţie liniară ( r ) (sau coeficientul de corelaţie Pearson3) este un indicator sintetic
care măsoară intensitatea legăturilor liniare simple. Se calculează ca un raport între covarianţă şi
produsul abaterilor medii pătratice ale variabilelor implicate în analiza corelaţiei (  x şi  y ) sau ca
xi  x yi  y
o medie aritmetică a produselor abaterilor normale normate: şi :
x y
n

cov( X , Y )
 x i  x    yi  y 
rxy   i 1
(6.18)
 x  y n  x  y

Înlocuind în această expresie x , y ,  x şi  y cu relaţiile de calcul pe baza cărora se determină (

x , y   y ,  x   xi y   yi
2 2
2
 2

x    şi  y    se ajunge la o relaţie
i i

n n
x
n  n  n  n 
   
relativ simplă de aplicat:

n   xi  y i   xi   y i
rxy 
n   x  
(6.19)
  xi   n   yi2   yi 
2 2 2
i

Coeficientul de corelaţie poate lua valori cuprinse între –1 şi +1. Semnul coeficientului de corelaţie
coincide cu cel al coeficientului de regresie b. Dacă r > 0 există o corelaţie directă, iar dacă r < 0
între cele două variabile este o corelaţie inversă.
Cu cât r se apropie mai mult de ± 1 cu atât legătura dintre variabile este mai puternică. Dacă r = 1,
atunci există o corelaţie directă funcţională, iar dacă r = –1, între variabile este o corelaţie inversă
funcţională. O valoare egală cu 0 indică lipsa legăturii dintre variabile.
În exemplul prezentat privind legătura dintre vechimea în muncă şi câştigul salarial net (vezi Tabelul
6.1), coeficientul de corelaţie este:

8  474,8  110  31,5 333,4


rxy    0,9957
8 1942  110  8 128,11  31,5 
2 2 334,8

Relaţiile (6.18) şi (6.19) se aplică în cazul în care datele înregistrate pentru cele două variabile se
prezintă sub forma a două serii simple. Dacă numărul perechilor de valori înregistrate este mare,
acestea se sistematizează prin gruparea lor pe intervale egale şi se prezintă întrun tabel cu dublă
intrare. Într-o asemenea situaţie, fiecărei valori xi şi yi i se ataşează frecvenţa corespunzătoare de
apariţie.
Relaţia (6.19) devine:

n   xi  yi  n xy   xi  n x  yi  n y
rxy 
n   x  
(6.20)
 n x   xi  n x   n   y  n y   yi  n y 
2 2 2 2
i i

3 In limba engleză poartă denumirea de “Product-moment correlation coefficient”

21
În aplicaţiile reale, o măsură atât de mare a coeficientului de corelaţie este rar întâlnită. De asemenea,
este necesar să precizăm faptul că datele pe baza cărora se calculează coeficientul de corelaţie este,
în majoritatea cazurilor, un eşantion, în condiţiile în care analistul este interesat valoarea acestuia
pentru întreaga populaţie, caz în care coeficientul de corelaţie este notat cu  („rho”). De aceea,
este important să ştim câtă încredere putem da valorii calculate conform relaţiei (6.19). Altfel spus,
analistul este interesat să verifice dacă valoarea coeficientului de corelaţie din populaţie este egal cu
zero sau nu, deoarece, dacă   0 , atunci cele două variabile analizate sunt independente, adică nu
există corelaţie între ele.

În termeni statistici, verificarea relaţiei   0 înseamnă testarea ipotezei nule care este formalizată
astfel: H 0 :   0 . Ipoteza alternativă este H 1:   0 .

Pentru testarea ipotezei nule se utilizează testul „t”. În acest scop, trebuie să calculăm statistica de
test „t”4, care urmează o distribuţie Student cu n-2 grade de libertate. Relaţia de calcul a statisticii de
test este:

r
tc  (6.21)
(1  r ) /(n  2)
2

în care:
r – coeficientul de corelaţie liniară simplă;
n – numărul observaţiilor;
n – 2 – numărul gradelor de libertate.
Valoarea calculată pe baza relaţiei (6.20) se compară cu valoarea teoretică din tabelul Student,
pentru un prag de semnificaţie α (de regulă α= 0.05 ) şi n – 2 grade de libertate (gradul de libertate
este n-2 deoarece dreapta are doi parametri fixaţi).
Întrucât ipoteza nulă priveşte testarea egalităţii coeficientului de corelaţie a întregii colectivităţi
statistice cu valoarea 0, este posibil ca, în realitate,  să fie „semnificativ” mai mare decât 0 sau
„semnificativ” mai mic decât 0. De aceea, este firesc să verificăm dacă statistica t este fie foarte
mare, fie foarte mică pe curba distribuţiei teoretice a acesteia, ştiind că punctul de simetrie al acestei
distribuţii este t=0, adică să aplicăm un test t bilateral.
În consecinţă, se compară valoarea calculată a statisticii t cu cea teoretică, iar regula de evaluare a
testului este următoarea: se respinge ipoteza nulă conform căreia   0 dacă tc > tteoretic la pragul de semnificaţie
de  / 2 sau dacă tc < -tteoretic la pragul de semnificaţie de  / 2 şi nu respingem ipoteza nulă în caz contrar. Altfel
spus, dacă tc > tteoretic sau dacă tc < -tteoretic, probabilitatea5 ca  să fie egal cu 0 este mai mică decât pragul
de semnificaţie ales (de regulă, o probabilitate totală de 5% sau  =0,05, adică 2,5% din stânga

4 În statistica t, magnitudinea numărătorului tinde să crească pe măsură ce ipoteza alternativă este adevărată.
5 Valoarea teoretică faţă de care facem comparaţia este o cuantilă, iar probabilitatea ca valoarea calculată să o depăşească pe cea
teoretică este suprafaţa aflată sub curba distribuţiei.

22
distribuţiei Student şi 2,5% din dreapta ei), deci riscul să acceptăm în mod greşit ipoteza nulă este
foarte mic.
În cazul Exemplului 6.1, statistica t calculată este:

0,9957
tc   8  2  26,33
1  0,9957 2
Valoarea statisticii t pentru un prag de semnificaţie de 0,025 şi 6 grade de libertate se poate citi într-
o tabelă a valorilor critice ale variabilei t calculate pentru teste bilaterale şi găsim că tteoretic; 0,025 = 2,447.

Întrucât 26,33 > 2,447 respingem ipoteza nulă   0 şi concluzionăm că valoarea coeficientului
de corelaţie calculat este semnificativ diferită de zero, deci o putem considera adevărată în 95 de
cazuri din 100 posibile.
Raportul de corelaţie (R) este un indicator sintetic care măsoară intensitatea legăturilor liniare şi
neliniare.
Înainte de a defini şi calcula raportul de corelaţie, să ne reamintim că în paragrafele precedente am
văzut cum se determină o funcţie de regresie liniară. Odată ce am găsit parametrii funcţiei,
următoarea întrebare pe care ne-o punem este: cât de bine ajustează linia de regresie datele
observate? Întrebarea este firească deoarece nu rareori diferenţele între valorile observate ale
variabilei dependente şi valorile teoretice sunt mari. Instrumentul prin intermediul căruia se evaluează
calitatea funcţiei de regresie este coeficientul de determinaţie.
Aşa cum am văzut în secţiunea 6.4, din regula de adunare a dispersiilor, coeficientul de determinaţie
este raportul dintre dispersia între grupe, adică dispersia explicată de variabila de grupare, şi
dispersia totală. În cazul regresiei liniare, calculul coeficientului de determinaţie este obţinut,
de asemenea, prin împărţire a dispersiei totale între dispersia explicată şi dispersia ne-explicată.
După cum ştim, dispersia totală este dată de pătratul diferenţei dintre valorile observate şi valoarea
medie:
n

 y  y .
2
i
i 1

Întrucât regresia liniară ne permite să calculăm valorile teoretice obţinute prin funcţia de regresie,
pentru a măsura cât de bine ajustează această funcţie datele observate este nevoie să operăm o
modificare în relaţia de mai sus, pentru a pune în evidenţă dispersia care nu este explicată de regresie
şi dispersia explicată de regresie:

   
n n

 y  y  =  yi  YX i  YX i  y
2 2
i (6.22)
i 1 i 1

Aşadar, dispunând de valorile empirice înregistrate ( y i ), de valorile teoretice calculate pe baza


funcţiei de regresie ( Y X i ) şi de media valorilor empirice ( y ) se pot stabili trei tipuri de abateri:

a) partea din stânga egalităţii,  yi  y  , reprezintă abaterea valorilor empirice de la media


2

lor. Media presupune toţi factorii de influenţă constanţi, iar valorile empirice sunt

23
rezultatul acţiunii tuturor factorilor. Dispersia calculată pe baza acestor abateri este
dispersia totală a variabilei dependente (  y2 ). Prin aceasta se măsoară variaţia sub
influenţa tuturor factorilor X şi a celorlalţi factori neînregistraţi;


b) primul termen al părţii din dreapta egalităţii, yi  YX i , reprezintă abaterea valorilor 
empirice de la valorile teoretice. Valorile teoretice sunt expresia factorului implicat în
analiza legăturii, deci considerat esenţial. Abaterea menţionată este provocată de
influenţa factorilor neînregistraţi, aleatori. Dispersia care măsoară variaţia variabilei Y
numai sub acţiunea acestor factori este dispersia reziduală (  y2 / r );


c) al doilea termen al părţii din dreapta egalităţii, YX i  y , reprezintă abaterea valorilor 
teoretice de la media valorilor empirice şi exprimă influenţa factorului X. Pe baza
acestor abateri se determină dispersia explicată sau dispersia sistematică (  y2 / x ).

Dacă ridicăm la pătrat ambii termeni ai egalităţii şi însumăm pentru tot setul de observaţii, obţinem:

  yi  y    yi  YX    Y 
n n n
y
2 2 2
i Xi (6.23)
i 1 i 1 i 1

Forma echivalentă, bazată pe cele trei dispersii definite mai sus, este:

 y2 =  y2 / x +  y2 / r (6.24’)

Termenul din stânga al ecuaţiei arată dispersia totală a variabilei dependente. Primul termen al părţii
drepte a ecuaţiei arată dispersia variabilei dependente care este explicată de regresie, iar al doilea
termen al părţii din dreapta a ecuaţiei reprezintă dispersia variabilei dependente care nu este
explicată de regresie.
Coeficientul de determinaţie (R2) arată cât de bine ajustează linia de regresie valorile observate şi este dat
de raportul dintre dispersia explicată de regresie şi dispersia totală:

 y  Y   y 
n n
 YX i
2 2
Xi i
R2  i 1
n
 1 i 1
n
(6.25)
 y  y  y  y
2 2
i i
i 1 i 1

O formă echivalentă a relaţiei (6.23), în care toate elementele de calcul sunt disponibile, este:
2
n n
1  n 
a   y i  b   xi  y i     yi 
i 1 i 1 n  i 1 
R2  2
(6.25’)
n
1  n 

i 1
y     yi 
2
i
n  i 1 
Cu cât valoarea coeficientului de determinaţie este mai mare, cu atât modelul de regresie, adică
variabila factorială, explică mai bine variaţia variabilei dependente. Cu alte cuvinte, coeficientul de
determinaţie – denumit în analiza statistică „R pătrat” – este măsura de apreciere a calităţii
modelului de regresie.

24
În exemplul 6.1, coeficientul de determinaţie este:

2,6033  31,5  0,097  474,8  (1 / 8)  (31,5) 2


R2   0,9876
128,11  (1 / 8)  (31,5) 2
Valoarea apropiată de 1 a coeficientului de determinaţie ne arată că funcţia de regresie
YX i  2,6033  0,097  xi ajustează bine datele observate sau, prin alte cuvinte, că 98,76% din
variabilitatea datelor observate este explicată prin modelul de regresie.
În manieră echivalentă, coeficientul de determinaţie (R2 ) exprimă ce cotă parte din variaţia lui Y se
datorează influenţei factorului X, considerat esenţial. În opoziţie, coeficientul de nedeterminaţie (K2)
măsoară cota parte din variaţia lui Y pe seama acţiunii tuturor factorilor neluaţi în considerare,
reziduali:

 y 
n
 YX i
2
 2 i
K2   i 1
y/r
(6.26)
 2 n

 y  y
y 2
i
i 1

Raportul de corelaţie se calculează extrăgând rădăcina pătrată din coeficientul de determinaţie:

 y 
n
 YX i
2
i
R  1 i 1
n
(6.27)
 y  y
2
i
i 1

Raportul de corelaţie poate lua valori cuprinse între 0 şi 1. Cu cât valoarea lui R se apropie mai mult
de 1 cu atât legătura dintre variabile este mai puternică, respectiv mai puţin intensă cu cât se apropie
mai mult de 0.
Pe baza exemplului din tabelul 6.1 şi a valorii coeficientului de determinaţie de mai sus, raportul de
corelaţie este:

R  0,9876  0,9938

La calcularea valorilor teoretice (valorile funcţiei de regresie, Y X i ) s-a pornit de la o ipoteza că


legătura dintre cele două variabile este liniară. De la aceeaşi ipoteză s-a pornit şi la determinarea
raportului de corelaţie. Dacă legătura dintre cele două variabile este într-adevăr liniară, atunci se
verifică egalitatea: r  R . Dacă raportul de corelaţie diferă de r , atunci legătura este neliniară. În
acest caz trebuie identificată ecuaţia funcţiei neliniare, calculate valorile teoretice ( Y X i ) pe baza
acestei funcţii şi determinată intensitatea corelaţiei prin R.

6.5.3 Metoda regresiei


Prin intermediul metodei regresiei se analizează cu ajutorul unei expresii analitice, denumită funcţie
de regresie, modul în care variabila dependentă Y se comportă în raport cu modificarea uneia sau
a mai multor variabile independente (Xi).

25
Metoda regresiei răspunde la trei principale obiective ale analizei statistice:
1. metoda regresiei furnizează estimaţii ale variabilei dependente pentru anumite valori date ale variabilei
independente. Cu alte cuvinte, funcţia de regresie exprimă cum se comportă în medie
variabila dependentă – sau efect –
sub acţiunea influenţei unei variabile Cadranul 2 – O scurtă istorie a regresiei liniare
independente – sau cauză – în Denumirea dată coeficientului de corelaţie induce pe
condiţiile în care toate celelalte mulţi în eroare, atribuind descoperirea acestei mărimi
variabile independente esenţiale sau statistice lui Karl Pearson. O serie de lucrări
întâmplătoare ar exercita o acţiune descoperite la începutul anilor 2000 (v. „Galton,
constantă, sau, respectiv, ar exercita Pearson, and the Peas: A Brief History of Linear Regression
o influenţă neesenţială. Acest for Statistics Instructors”, Jeffrey M. Stanton, Syracuse
principiu se numeşte ceteris paribus, University, Journal of Statistics Education Volume 9,
adică „toate celelalte fiind egale”, Number 3, 2001) conduc la concluzia că ideea
„celelalte” fiind factorii care conceptualizării noţiunilor de corelaţie şi regresie
influenţează modificarea variabilei aparţine lui Sir Francis Galton. Mai mult, ea nu este
dependente. Astfel, studiind relaţia legată de explicarea „regresiei către medie” a înălţimii
dintre variabila dependentă şi cele copiilor în relaţie cu strămoşii lor, în încercarea de a
independente, metoda ne oferă explica modul în care sunt moştenite trăsăturile
posibilitatea de a găsi valoarea cea înaintaşilor de către urmaşi, ci de un alt organism
mai probabilă a variabilei dependente mult mai prozaic: mazărea dulce.
când ştim o valoare a variabilei
El a ales mazărea dulce pentru că această specie se
independente;
auto-fecundează; plantele de sex feminin arată
2. metoda regresiei ne oferă o măsură a erorilor variaţiile genetice ale plantelor-mamă fără contribuţia
care pot interveni în estimarea variabilei unui alt părinte. El a eliminat, în acest fel, problema
dependente. Dacă putem estima evaluării statistice a contribuţiei genetice a mai
valorile variabilei dependente în multor surse.
funcţie de valoarea unei variabile
Primele concluzii despre regresie au izvorât dintr-o
independente, atunci suntem
diagramă bidimensională în care a trasat punctele
interesaţi să ştim cât de multă
determinate de mărimea boabelor de mazăre „fiice”
încredere putem acorda acestei estimaţii, motiv pentru care statisticianul construieşte
faţă de boabele de mazăre „mamă”, ilustrând
un interval de încredere al acelei estimaţii;
elementele fundamentale a ceea ce astăzi statisticienii
3. metoda regresiei furnizează o estimaţie a efectului
numescasupra valorii medii
„regresie a lui Y atunci când X se
liniară”.
modifică cu o unitate. Pornind de la exemplul din tabelul 6.1, modelul regresiei ne permite
să spunem, în medie, care este modificarea mediei la examene dacă nota la admitere se
modifică cu un punct.
Funcţia de regresie este o funcţie matematică care exprimă legătura dintre variabila dependentă Y
şi k variabile independente Xk şi are forma generală :

YX i  f x1 , x2 , x3 ,...., x K    (6.28)

26
unde "  " este variabila aleatoare perturbatoare, reziduală sau eroare, care sintetizează influenţa
tuturor factorilor neluaţi în calcul, nespecificaţi.
Dacă în analiza regresiei se implică o singură variabilă independentă se recurge la regresia
unifactorială liniară sau neliniară, iar dacă variaţia variabilei Y este dependentă de cel puţin două
variabile factoriale se recurge la regresia multifactorială sau multiplă.
Alegerea funcţiei de regresie se realizează cel mai simplu, pe baza reprezentării grafice a perechilor
de valori {xi,yi}.

Regresia unifactorială liniară


Un model este o formă simplificată, idealizată de reprezentare a realităţii. Modelul de regresie nu
face excepţie şi el presupune că valorile variabilei independente (X) şi cele ale variabilei dependente
(Y) tind să formeze o progresie aritmetică, deci când variabila dependentă tinde să se modifice liniar
sub influenţa unei singure variabile independente.
Tendinţa valorilor de a forma o progresie aritmetică se cunoaşte uşor prin reprezentarea grafică a
perechilor de valori, iar dacă corelograma sugerează tendinţa de ordonare a punctelor în jurul unei
drepte se optează pentru regresia liniară.
Ecuaţia funcţiei liniare de regresie este:

YX i  a  b  X   (6.29)

în care:

YX i – valorile teoretice ale variabilei Y în funcţie de X, pe care le putem estima;

X – vectorul valorilor empirice (observate) ale variabilei factoriale;

a şi b – parametrii necunoscuţi ai funcţiei de regresie care trebuie estimaţi.


Parametrul a nu are o semnificaţie economică. Geometric reprezintă ordonata la origine, respectiv
valoarea lui y când x = 0. Dacă a = 0, variabila Y depinde exclusiv de variabila X, deci legătura este
funcţională.
Parametrul b, denumit coeficient de regresie, exprimă economic cu cât se modifică în medie
variabila dependentă dacă variabila independentă se modifică cu o unitate. Geometric, parametrul
b semnifică panta dreptei de regresie. Semnul parametrului b oferă următoarele informaţii:

- b > 0, legătura este directă;

- b < 0, legătura este inversă;

- b = 0, variabilele sunt independente sau necorelate.


După alegerea funcţiei de regresie trebuie să se estimeze parametrii a şi b ai ecuaţiei liniare şi să se
calculeze valorile funcţiei de regresie.

27
Estimarea parametrilor a şi b se realizează, cel mai adesea, prin metoda celor mai mici pătrate, ceea
ce înseamnă minimizarea sumei pătratelor erorilor  i
2
 min . Dar eroarea reprezintă diferenţa
dintre valoarea empirică (yi) şi valoarea teoretică, calculată pe baza modelului liniar (Yxi). Deci, suma
pătratelor abaterilor valorilor empirice de la cele teoretice trebuie să fie minimă.

 y 
n
 YX i  min
2
i (6.30)
i 1

În cazul modelului unifactorial liniar expresia (6.30) devine:


n
S    y i  a  b  xi   min
2
(6.31)
i 1

Această expresie este minimă în punctele de anulare a derivatelor parţiale calculate în funcţie de
parametrii a şi b.

 S
 a  2    y y  a  bx    1
 S
  2    y y  a  bx    x 
 b
Punând condiţia ca aceste derivate să fie egale cu 0, simplificând cu 2 şi ţinând seama de faptul că
a şi b sunt constante, sistemul de mai sus devine:

n  a  b   x i   y i

a   x i  b   x i   x i  y i
2

unde xi şi yi reprezintă valorile empirice înregistrate pentru cele două variabile, iar n semnifică
numărul unităţilor observate din eşantion.
De unde, prin rezolvarea sistemului de ecuaţii se obţine:


b 
 xi  x    yi  y   Cov( x, y)
   x i  x 2  x2 (6.32)
a  y  b  x

Pentru facilitarea calculelor, se utilizează o formă alternativă pentru parametrul b, care conduce la
acelaşi rezultat:

 n   xi  y i   xi   y i
b 
 n   xi2   xi  (6.33)
2

a  y  b  x

După ce au fost calculaţi parametrii a şi b se pot determina valorile teoretice ale funcţiei de regresie
(Yxi ), prin înlocuirea succesivă în ecuaţia de regresie, cu valorile xi ale caracteristicii factoriale.

Exemplul 6.4 – Estimarea parametrilor unei funcţii liniare unifactoriale


Pentru a ilustra valenţele analitice ale unei funcţii liniare de regresie unifactorială, se porneşte de la
datele privind vechimea în muncă şi câştigul salarial net realizat de 8 muncitori în luna mai 2010

28
(vezi Tabelul 6-8, coloanele 2 şi 3). Între cele două variabile există normal o legătură directă, salariul
net fiind influenţat, pe lângă alţi factori, şi de vechimea în muncă.
Tabelul 6-8: Calculul parametrilor unei funcţii de regresie liniară unifactorială

Vechime în Câştig
Identificator muncă salarial
(ani) net (mii lei) xi  y i xi2 YX i
salariat
( xi ) ( yi )
1 2 3 4 5 6
1 3 2,9 8,7 9 2,89
2 6 3,1 18,6 36 3,19
3 9 3,5 31,5 81 3,48
4 11 3,8 41,8 121 3,67
5 15 4 60,0 225 4,06
6 19 4,4 83,6 361 4,45
7 22 4,8 105,6 484 4,74
8 25 5 125,0 625 5,03
Total 110 31,5 474,8 1942 31,50

Cele două serii de date confirmă existenţa unei corelaţii directe. Pentru alegerea formei legăturii se
construieşte corelograma.
Figura 6-8: Graficul de corelaţie între vechimea în muncă şi câştigul salarial

4
Castig salarial (mii lei)

0
0 5 10 15 20 25 30
Vechime (ani)

Reprezentarea grafică sugerează faptul că punctele tind să se ordoneze în jurul unei drepte. Deci,
funcţia de regresie este de forma: YXi = a + bxi.
Pentru aflarea parametrilor a şi b se porneşte de la sistemul de ecuaţii menţionat, rezolvarea căruia
presupune calcularea expresiilor x i  yi , x 2
i şi  x  i
2

29
Sistemul de ecuaţii normale este:

n  a  b   x i   y i 8  a  110  b  31,5
 
a   x i  b   x i   x i  y i a  110  1942  b  474,8
2

Din rezolvarea sistemului prin metoda determinanţilor se obţine:

31,5 110
474,8 1942
a  2,6033
8 110
110 1942

8 31,5
110 474,8
b  0,097
8 110
110 1942
Valoarea parametrului a = 2,6033 semnifică faptul că dreapta intersectează ordonata în punctul 2,6,
iar b = 0,097 înseamnă că salariul mediu net sporeşte în medie cu 97 lei dacă vechimea creşte cu
un an. Implicit, valoarea pozitivă a parametrului b (panta dreptei de regresie) arată că suntem în
faţa unei corelaţii directe.
Funcţia de regresie care descrie legătura dintre cele două variabile este:
Yxi= 2,6033 + 0,097*xi.
Valorile teoretice privind câştigul salarial net se obţin în urma înlocuirii în această funcţie lui x i cu
valorile corespunzătoare (vezi Tabelul 6.8, coloana a 6-a).

Yx1 = 2,6033 + 0,097 ⋅3 = 2,89


..

Yx8 = 2,6033 + 0,097 ⋅5 = 5,03


Corectitudinea estimării parametrilor a şi b presupune ca suma valorilor empirice ale variabilei
dependente (∑ yi ) să fie egală cu suma valorilor teoretice (∑YXi ).
Utilizând această funcţie de regresie, un salariat al companiei respective poate formula o predicţie
a câştigului salarial pentru vechimi diferite de cele observate.
Spre exemplu, doi salariaţi, unul cu 10 ani vechime şi altul cu 30 de ani, ar putea avea

Y(10) = 2,6033 + 0,097 ⋅10 = 3,57 mii lei.

Y(30) = 2,6033 + 0,097 ⋅30 = 5,51 mii lei.

În cazul exemplului din Tabelul 6.1, datele au fost prezentate sub forma a două serii simple, deci
negrupate.

30
Regresia unifactorială neliniară
În realitate apar frecvent situaţii ca modelul liniar unifactorial să nu corespundă tipului de
dependenţă dintre cele două variabile. Printre cele mai utilizate funcţii neliniare menţionăm: funcţia
polinomială de gradul 2; funcţia exponenţială; funcţia lognormală; funcţia hiperbolică.
Funcţia se alege cel mai simplu pe baza reprezentării grafice, de forma celei prezentate în Fig. 6.4.
Ca şi în cazul regresiei liniare unifactoriale, parametrii funcţiei se estimează pornind de la metoda

 y 
n
 YX i  min .
2
celor mai mici pătrate, care presupune minimizarea erorilor i
i 1

În cazul polinomului de gradul 2, ecuaţia de regresie este:

yi  a  b  xi  c  xi2 (6.34)
Aplicând metoda celor mai mici pătrate şi după anularea derivatelor parţiale calculate în funcţie de
a, b şi c se obţine sistemul de ecuaţii:

n  a  b   xi  c   xi2   y i

a   x i  b   x i  c   x i   x i  y i (6.35)
2 3

a  x 2  b  x 3  c  x 4 
  i  i  i  xi2  yi
Prin rezolvarea sistemului de ecuaţii liniare (6.25) şi prin înlocuirea succesivă a lui xi cu valorile
empirice în funcţia de regresie, se obţin valorile teoretice pentru variabila rezultativă (YXi).
Dacă legătura dintre cele două variabile are forma unei funcţii exponenţiale, ecuaţia de regresie este:

Y X i  a  b xi (6.36)
Aplicarea metodei celor mai mici pătrate presupune în acest caz liniarizarea, prin logaritmare:
lg YX i  lg a  xi  lg b .

În continuare se procedează ca la regresia liniară pentru a determina parametrii a şi b şi pentru


calculul valorilor funcţiei de regresie. Prin aplicarea metodei celor mai mici pătrate se obţine:

n  lg a  lg b   xi   lg y i
 (6.37)
lg a   xi  lg b   xi   xi  lg y i
2

Regresia multifactorială
Modelele unifactoriale de regresie au avantajul uşurinţei aplicării. În realitate însă, se întâlnesc foarte
rar situaţii când efectul este rezultatul influenţei unei singure cauze. De cele mai multe ori, variabila
dependentă este influenţată concomitent de mai mulţi factori, ceea ce înseamnă că în analiza
legăturilor trebuie luaţi în calcul cel puţin factorii care exercită o influenţă semnificativă. Forma
generală a modelului regresiei multifactoriale este:

YX i  f x1 , x2 , x3 ,...., x K    (6.38)

31
Modelul multifactorial cel mai accesibil este cel liniar.

YX1 , X 2 ,..., X K  a0  a1  x1  a 2  x2  ....  a K  x K (6.39)


în care:
a0 – sintetizează influenţa tuturor factorilor neluaţi în calcul
a1 … ak – reprezintă coeficienţii parţiali de regresie şi exprimă cu câte unităţi se modifică variabila
rezultativă dacă variabila factorială respectivă se modifică cu o unitate iar toate celelalte variabile
rămân constante (principiul ceteris paribus).
Prin aplicarea metodei celor mai mici pătrate se obţine sistemul de ecuaţii (6.40) prin rezolvarea
căruia se determină parametrii funcţiei de regresie.

n  a 0  a1   x1i  a 2   x 2i  ...  a k   x ki   y i

a 0   x1i  a1   x1i  a 2   x1i  x 2i  ...  a k   x1i  x ki   x1i  y i
2


a 0   x 2i  a1   x 2i  x1i  a 2   x 2i  ...  a k   x 2i  x ki   x 2i  y i (6.40)
2

.............................................................................................................

a 0   x ki  a1   x ki  x1i  a 2   x ki  x 2i  ...  a k   x ki2   x ki  y i
La interpretarea rezultatelor privind parametrii funcţiei de regresie multifactorială trebuie avut în
vedere faptul că între variabilele factoriale luate în calcul poate exista o dependenţă reciprocă,
denumită multicoliniaritate, care poate afecta rezultatele finale, facând necesară testarea existenţei
acesteia.

Eroarea standard
Alegerea funcţiei de regresie pe baza graficului de corelaţie poate crea probleme dacă mulţimea
punctelor corespunzătoare valorilor empirice (xi,yi) sugerează mai multe funcţii posibile. În
asemenea situaţie, se recomandă să se calculeze valorile după toate funcţiile sugerate de grafic şi să

 y 
n
 YX i  min , deci
2
se opteze, în final, pentru acea funcţie care satisface condiţia de minim i
i 1

care minimalizează eroarea cu care se estimează valorile empirice (yi).

Indicatorul prin care se măsoară această eroare este eroarea standard (  yi ):


YX i

 y  YX i 
2

y 
i
(6.41)
i
YX i n
În cazul exemplului din Tabelul 6-9, eroarea cu care s-au estimat câştigurile salariale nete în funcţie
de vechimea în muncă a fost de 66,1 lei. Pentru a calcula eroarea standard a estimaţiilor funcţiei de
regresie, e necesară determinarea pătratului diferenţelor dintre valorile empirice ale variabilei
dependente şi cele teoretice, calculate pe baza funcţiei de regresie ale cărei parametri au fost obţinuţi
în Exemplul 6.1. În continuarea exemplului 6.4, prezentăm mai jos modul de calcul.

32
Exemplul 6.4 (continuare) – Estimarea erorii standard a funcţiei de regresie liniară
unifactorială
Tabelul 6-9: Calculul parametrilor unei funcţii de regresie liniară unifactorială

Câştig
Vechime în
Identificator
salariat
muncă (ani)
salarial
net (mii lei) yi  YX i y i  YX i 
2

( xi )
( yi )
1 3 2,9 0,0057 0,0000
2 6 3,1 -0,0853 0,0073
3 9 3,5 0,0237 0,0006
4 11 3,8 0,1297 0,0168
5 15 4 -0,0583 0,0034
6 19 4,4 -0,0463 0,0021
7 22 4,8 0,0627 0,0039
8 25 5 -0,0283 0,0008
Total 110 31,5 0,0036 0,0350

0,0350
y   0,0661
i
YX i 8
Aceasta înseamnă că între câştigul salarial net realizat efectiv (yi) şi cel estimat pe baza funcţiei
lunare există, în cazul fiecărui muncitor, o diferenţă medie de 66,1 lei, diferenţă care se explică prin
influenţa altor factori asupra câştigului salarial net.

Dacă eroarea standard  yi se împarte la media valorilor empirice y se obţine eroarea exprimată
YX i

procentual:

y
y 31,5
i
 3,938 mii lei.
n 8
Deci coeficientul de eroare este:

0,0661
Ke   100  1,68%
3,938

6.6 Cuvinte – cheie


 Coeficient de asociere Yule  Legătură multiplă
 Coeficient de corelaţie a  Legătură simplă
rangurilor Kendall
 Coeficient de corelaţie a  Legătură statistică
rangurilor Spearman
 Coeficient de corelaţie liniară  Metoda celor mai mici pătrate
 Coeficient de determinaţie  Metoda grafică

33
 Coeficient de regresie  Metoda grupării
 Covarinţa  Metoda seriilor paralele
interdependente
 Dispersie explicată, sistematică  Metoda tabelului de corelaţie
 Dispersie reziduală  Raport de corelaţie
 Eroarea standard  Regresie
 Legătură directă  Variabila dependentă, rezultativă,
efect, explicată
 Legătură funcţională  Variabila independentă,
factorială, cauzală, explicativă
 Legătură inversă 

6.7 Intrebări de control


1. Prin ce se deosebeşte o legătură stohastică de una funcţională (deterministă)?

2. Ce informaţii oferă metodele simple de analiză a legăturilor dintre variabile?

3. Ce exprimă funcţia de regresie?

4. Care este semnificaţia geometrică şi economică a coeficientului de regresie


liniară?

5. De ce se abat valorile empirice (yi ) de la valorile funcţiei de regresie?

6. Când se aplică şi cum se interpretează coeficientul de corelaţie simplă?

7. Când reprezentarea grafică admite mai multe funcţii care ar putea descrie
legătura dintre două variabile, care este criteriul în funcţie de care se optează
pentru una din aceste funcţii?
8. Când se utilizează şi cum se interpretează raportul de corelaţie?

9. Când se verifică egalitatea r  R ?

10. Când se recomandă corelaţia rangurilor pentru măsurarea intensităţii


legăturilor dintre variabile?

34
6.8 Bibliografie selectivă
1. Wagner P., Gherguț D., Bazele statisticii – Introducere în analiza descriptivă,
Editura Renaissance, București, 2011
2. Anghelache, Constantin, et al., Statistică teoretică și economică: concepte și
studii de caz, București, Editura Economică, 2020
3. Anghelache, Constantin, et al., Statistică economică generală, București,
Editura Economică, 2019
4. Biji E. M, Gogu E., Lilea E., Bentoiu C. G., Ghid de formule în statistică,
Editura Universitară, 2017
5. Mohammed A. Shayib, Applied Statistics, 1st Edition, 2013, Bookboon.com

35
Index alfabetic

Ceteris paribus, 26 Metode simple de analiză a legăturii dintre


variabile, 5
Coeficient de asociere Yule, 17
Metode neparametrice de analiză a
Coeficient de corelaţie
legăturilor dintre variabile
Kendall, al rangurilor, 19
coeficienţii de corelaţie a rangurilor, 18
Spearman, al rangurilor, 18
coeficientul de asociere Yule, 17
Distribuţii marginale, 10
coeficientul de corelaţie a rangurilor Kendall, 19
Eroarea standard, 32
coeficientul de corelaţie a rangurilor Spearman,
Indicatorii sintetici ai variaţiei 18
regula de adunare a dispersiilor, 13 Regula adunării dispersiilor
Legătură liniară directă media de grupă, 11
Metode simple de analiză a legăturii dintre media generală, 10
variabile, 6
Regula de adunare a dispersiilor
Legătură liniară indirectă
dispersia de grupă, 12
Metode simple de analiză a legăturii dintre
dispersia generală, 12
variabile, 6
dispersia între-grupe, 13
Metoda grafică

36

S-ar putea să vă placă și