Documente Academic
Documente Profesional
Documente Cultură
Unitatea de învăţare 6
ANALIZA SERIILOR INTERDEPENDENTE
Bucureşti, 2021
CUPRINS
Unitatea 6: ANALIZA SERIILOR INTERDEPENDENTE .................................. 1
6.1 Obiective ......................................................................................... 1
6.2 Tipuri de legături ............................................................................. 1
6.3 Metode simple de analiză a legăturii dintre variabile ........................ 5
6.4 Descompunerea dispersiei într-o colectivitate împărţită pe grupe
(Regula de adunare a dispersiilor). ................................................... 9
6.5 Metode de analiză a legăturilor dintre variabile .............................. 17
6.5.1 Metode neparametrice de măsurare a intensităţii corelaţiei ............ 17
6.5.2 Metode parametrice de măsurare a intensităţii corelaţiei................ 20
6.5.3 Metoda regresiei .............................................................................. 25
6.6 Cuvinte – cheie .............................................................................. 33
6.7 Intrebări de control ....................................................................... 34
6.8 Bibliografie selectivă ...................................................................... 35
Index alfabetic ........................................................................................ 36
Lista tabelelor
Tabelul 6-1: Rezultatele la examenul de admitere şi media notelor din prima sesiune de examene –
eşantion de 10 studenţi ................................................................................................................................ 5
Tabelul 6-2: Gruparea agenţilor economici după numărul salariaţilor şi după cifra de afaceri ........ 8
Tabelul 6-3: Modelul tabelului de contingenţă ...................................................................................... 10
Tabelul 6-4: Gruparea agenţilor economici după numărul de salariaţi şi după cifra de afaceri ...... 14
Tabelul 6-5: Tabel de asociere .................................................................................................................. 17
Tabelul 6-6: Rangurile ţărilor în funcţie de rata de alfabetizare a populaţiei masculine şi feminine
...................................................................................................................................................................... 18
Tabelul 6-7: Cifra de afaceri şi profitul obţinute de 8 companii studiate........................................... 19
Tabelul 6-8: Calculul parametrilor unei funcţii de regresie liniară unifactorială................................ 29
Tabelul 6-9: Calculul parametrilor unei funcţii de regresie liniară unifactorială................................ 33
Lista graficelor
Figura 6-1: Diagrama rezultatelor la admitere și în prima sesiune de examene .................................. 6
Figura 6-2: Legătură liniară directă ............................................................................................................ 6
Figura 6-3: Legătură liniară indirectă ......................................................................................................... 6
i
Figura 6-4: Legătură neliniară..................................................................................................................... 7
Figura 6-5: Absenţa legăturii ...................................................................................................................... 7
Figura 6-6: Legătură puternică ................................................................................................................... 7
Figura 6-7: Legătură slabă ........................................................................................................................... 7
Figura 6-8: Graficul de corelaţie între vechimea în muncă şi câştigul salarial ................................... 29
ii
Unitatea 6: ANALIZA SERIILOR
INTERDEPENDENTE
6.1 Obiective
În etapa observării se înregistrează întotdeauna date pentru mai multe variabile, nu doar pentru una
singură. În unităţile precedente au fost prezentate modalităţile prin care datele aferente unei
variabile pot fi prelucrate şi analizate independent de cele ce descriu celelalte variabile. De cele mai
multe ori, însă, suntem nevoiţi să punem câteva întrebări: Între aceste variabile există vreo legătură?
Dacă există, cât de puternică este legătura? Cum se comportă o variabilă dacă alta sau altele se
modifică? Un manager al unei reţele de distribuţie poate fi interesat de legătura dintre volumul
vânzărilor şi structura produselor comercializate sau un sociolog vrea să ştie cum se relaţionează
rezultatele la examene ale studenţilor cu locul de muncă şi venitul pe care îl au după absolvire.
Pentru a măsura cât de puternice sunt aceste legături, statisticienii – sau analiștii de date - utilizează
tehnicile de corelaţie, analizând seriile interdependente şi, pentru a estima cum vor arăta aceste
legături, ei utilizează tehnicile de regresie.
În cadrul acestei unităţi se tratează conceptele, tehnicile şi metodele utilizate cel mai frecvent în
analiza legăturii între variabile statistice, iar la finalul ei veţi fi capabili să:
1
De la bun început, însă, trebuie să clarificăm un aspect important referitor la legătura dintre
variabile, pe de o parte, şi efectul uneia sau mai multor variabile asupra variabilei explicate sau
cauzalitatea, pe de altă parte: dacă între două variabile constatăm că există o legătură, cauzalitatea
dintre ele nu este implicită. În schimb, dacă între ele există o relaţie de cauzalitate, legătura este
implicită.
Pornind de la datele empirice, se pot întâlni în practică următoarele situaţii:
a) variabila independentă X determină modificarea variabilei dependente Y, caz în care
între cele două variabile există o legătură univocă;
b) între cele două variabile există o legătură reciprocă;
c) variabilele au o evoluţie similară, determinată nu de dependenţa dintre ele ci de o altă
variabilă care influenţează simultan modificarea celor două variabile;
d) cele două variabile au întâmplător o evoluţie similară, fără să existe vreo legătură între
ele.
În cele ce urmează se tratează numai primele două tipuri de relaţii dintre variabile.
Legăturile dintre variabilele independente se clasifică după mai multe criterii.
a) După natura relaţiei de interdependenţă se disting legături funcţionale (deterministe) şi
legături stohastice (statistice).
În cazul legăturilor deterministe, legătura dintre variabila Y şi variabila X este cunoscută cu
certitudine. Spre exemplu, relaţia dintre profit şi costuri nu comportă nici un fel de incertitudine:
odată ce cunoaştem veniturile totale şi costurile totale, vom putea afla cu exactitate care este
profitul. Cu alte cuvinte, variabila X determină în mod univoc variabila Y, ceea ce înseamnă că unei
valori a variabilei cauză îi corespunde o valoare unică a variabilei efect. Legăturile funcţionale sunt
de forma: y f x . Acest tip de legătură se întâlneşte mai rar în realitatea economico-socială,
deoarece variaţia unei variabile efect (Y) este rezultatul influenţei simultane a mai multor variabile
cauză (Xi).
Legăturile stohastice se întâlnesc cel mai frecvent în realitatea economico-socială. În acest caz,
modul în care funcţionează legătura dintre variabile nu poate fi precizat cu certitudine. Legătura
statistică există între două variabile dacă valoarea medie a unei variabile se află în relaţie cu valoarea
medie a altei variabile. Astfel, variabila rezultativă (Y) este influenţată de una sau mai multe variabile
cauză (Xi), dar pe lângă aceste cauze considerate esenţiale există şi alte variabile neînregistrate
(nespecificate) care acţionează asupra variabilei Y. Caracteristic pentru legăturile stohastice este
faptul că în variaţia variabilei Y rămâne întotdeauna o parte neexplicată, determinată de influenţa
factorilor neînregistraţi. Cu alte cuvinte, nu putem calcula cu certitudine care este valoarea variabilei
explicate pe baza unei valori a variabilei explicative.
Influenţa variabilelor nespecificate este luată în calcul în modelul stohastic sub forma variabilei
reziduale ( ), denumită şi eroare aleatoare:
y f x (6.1)
2
Legătura statistică nu poate fi identificată la nivelul fiecărei unităţi, ci numai la nivelul ansamblului
unităţilor. Tendinţa de corelare se manifestă numai în cazul unui număr suficient de mare de
înregistrări.
b) După numărul variabilelor factoriale luate în considerare se deosebesc legături simple şi
legături multiple.
În cazul legăturilor simple, se analizează dependenţa variabilei efect (Y) în funcţie de o singură
variabilă cauză (X), toate celelalte variabile cu o influenţă semnificativă sau nu (esenţiale sau
întâmplătoare) sunt considerate cu o acţiune constantă. De exemplu, dependenţa profitului de cifra
de afaceri.
În cazul legăturilor multiple, variaţia variabilei Y se analizează în funcţie de mai multe variabile
cauză (X1, X2, ...).
De exemplu, analiza variaţiei salariului într-o colectivitate (Y) în funcţie de numărul orelor lucrate
(X1), de vechime (X2), de nivelul calificării (X3).
c) După natura caracteristicilor se disting legături corelative şi legături de cauzale.
În cazul analizei legăturii dintre două variabile cantitative sau una cantitativă şi alta calitativă poate
fi vorba, în primul rând, de o corelaţie statistică. De exemplu, analiza legăturii între ramura de
activitate şi câştigul salarial sau exemplul anecdotic al corelaţiei dintre numărul nou-născuţilor şi
numărul cuiburilor de barză. Între cele două fenomene poate exista o corelaţie, dar nu în mod
necesar o cauzalitate: va creşte numărul nou-născuţilor dacă va creşte numărul cuiburilor de barză
sau invers? Fireşte că nu.
Cauzalitatea statistică intervine în cazul legăturilor dintre două sau mai multe variabile cantitative
în sensul că modificarea uneia sau mai multor variabile considerate explicative antrenează
modificarea variabilei explicate într-o manieră consistentă. În cazul cuibuirilor de barză şi al nou-
născuţilor există, cel puţin, o a treia variabilă care le influenţează distinct: ritmul biologic, gradul de
dezvoltare socio-economică, prezenţa şi/sau abundenţa resurselor de hrană etc.
d) După direcţia legăturii există legături directe şi legături inverse.
Dacă modificarea variabilei cauză este însoţită de modificări în acelaşi sens ale variabilei efect, există
o legătură directă. În cazul în care variabilele corelate tind să se modifice în sens opus, este cazul
unei legături inverse.
e) După forma funcţiei (expresia analitică a legăturii) acestea pot fi liniare sau neliniare.
Dacă reprezentarea grafică a datelor empirice corespunzătoare celor două variabile sugerează o
dreaptă, legătura este liniară. În cazul legăturilor neliniare, dependenţa dintre variabile se exprimă
grafic printr-o curbă (hiperbolă, parabolă etc).
f) După timpul realizării legăturii se deosebesc legături sincrone (concomitente) şi
asincrone (cu decalaj).
În primul caz, modificarea variabilelor se produce în acelaşi timp, concomitent, iar în cel deal doilea
caz variaţia variabilei cauză (X) este urmată după un anumit timp de variaţia variabilei efect (Y). De
3
exemplu, legătura dintre modificarea preţurilor de consum şi modificarea cheltuielilor populaţiei
pentru consum este una sincronă, iar legătura dintre investiţiile realizate în economie şi modificarea
produsului intern brut este una asincronă.
Analiza corelaţiilor presupune parcurgerea următoarelor etape:
4
6.3 Metode simple de analiză a legăturii dintre variabile
După culegerea datelor pentru variabilele implicate în analiza legăturii, trebuie verificat dacă între
variabile există o corelaţie, care este forma analitică a acesteia. Metodele care răspund acestor
probleme de cunoaştere sunt, de fapt, procedee de sistematizare a datelor empirice înregistrate, şi
anume:
metoda grafică;
metoda grupărilor;
Tabelul 6-1: Rezultatele la examenul de admitere şi media notelor din prima sesiune de
examene – eşantion de 10 studenţi
Media notelor la
Student Nota la admitere examenele
din prima sesiune
1 7,34 7
2 8,52 8
3 8,05 7
4 9,21 8
5 6,55 7
6 7,32 6
7 9,16 9
8 9,33 7
9 7,21 8
10 6,15 6
5
Pentru construirea graficului, variabila explicativă (sau independentă) este nota la admitere, ale cărei
valori le vom reprezenta pe axa orizontală, iar variabila explicată (sau dependentă) este media
notelor la examenele din prima sesiune, ale cărei valori le vom reprezenta pe axa verticală în Figura
6-1.
8
Media notelor in prima sesiune
0
0 1 2 3 4 5 6 7 8 9 10
Nota la admitere
Pe baza graficului se concluzionează dacă există o corelaţie, dacă există date atipice şi care este
forma şi direcţia legăturii în funcţie de tendinţa de ordonare a punctelor. Din graficul de mai sus
rezultă destul de vizibil că există o relaţie între cele două variabile, respectiv între nota la admitere
şi rezultatele din prima sesiune de examene.
Dacă punctele tind să se ordoneze în jurul unei linii drepte, corelaţia este liniară directă (Figura 6-2)
sau indirectă (Figura 6-3) iar dacă se ordonează sub forma unei curbe (Figura 6-4), între cele două
variabile există o corelaţie neliniară. De asemenea, graficul ne arată şi dacă nu există nici o relaţie
între două variabile (Figura 6-5). Dacă punctele se împrăştie fără nici o regularitate, variabilele
trebuie considerate independente.
Figura 6-2: Legătură liniară directă Figura 6-3: Legătură liniară indirectă
6
Figura 6-4: Legătură neliniară Figura 6-5: Absenţa legăturii
Cu cât tendinţa de ordonare a punctelor este mai pronunţată, cu atât corelaţia între cele două
variabile este mai intensă, adică legătura este puternică (Figura 6-6). Dacă punctele sunt ordonate,
dar sunt relativ împrăştiate, legătura dintre variabile este mai slabă (Figura 6-7).
În mod evident, metoda grafică ne arată care este forma relaţiei doar dintre două variabile. Dacă
vom considera o variabilă drept variabilă efect şi vom încerca să o punem în relaţie cu un set de
alte variabile explicative pe care le-am inclus în programul de observare, singura posibilitate de a
vizualiza legăturile existente este să construim perechi între variabila efect şi fiecare din variabilele
explicative.
Metoda grupărilor se aplică atunci când numărul de unităţi pentru care s-au înregistrat valori
empirice este mare. Se grupează unităţile după variabila factorială şi pentru fiecare grupă astfel
construită se calculează media variabilei dependente (yi). Între cele două variabile există o corelaţie
dacă mediile de grupă (condiţionate, yi ) reacţionează la modificările intervenite în variabila
independentă. Aplicarea acestei metode este influenţată de modul cum s-a făcut gruparea. Se
recomandă, în acest caz, ca intervalele de grupare să fie egale, numărul grupelor construite să fie
7
suficient de mare pentru evitarea pierderilor de informaţii, numărul unităţilor din fiecare grupă să
fie semnificativ ş.a. În Tabelul 6-2 este prezentat un exemplu de aplicare a metodei grupării.
Tabelul 6-2: Gruparea agenţilor economici după numărul salariaţilor şi după cifra de
afaceri
Este cifra de afaceri (Y) influenţată de numărul de salariaţi (X)? Pentru fiecare grupă construită
după numărul de salariaţi se calculează cifra de afaceri realizată în medie de fiecare agent economic
din grupa respectivă.
5
y
j 1
j nij
yi 5
n
j 1
ij
5 6 7 8 9 6
y1 7 milioane lei
20
5 4 7 11 9 11 11 4
y2 8 milioane lei
30
....
11 2 13 3
y5 12,2 milioane lei
5
Remarcăm faptul că media cifrei de afaceri pe agent economic creşte odată cu creşterea numărului
de salariaţi, deci există o corelaţie directă.
Cu cât mediile de grupă diferă mai mult între ele cu atât influenţa variabilei independente este mai
puternică.
Metoda tabelului de corelaţie (de contingenţă) presupune gruparea unităţilor colectivităţii după
variaţia celor două variabile şi interpretarea tendinţei de ordonare a frecvenţelor. Grupele construite
după variabila independentă apar, de regulă, în capetele coloanelor iar cele aferente variabilei
dependente apar în capetele rândurilor. La intersecţia dintre rândul "i" şi coloana "j" apare numărul
unităţilor (nij) corespunzător perechii de valori xj, yi. Tabelul care rezultă este unul cu dublă intrare
(vezi tabelul nr. 6.2).
8
Dacă valorile care definesc intervalele de grupare după X şi Y au fost ordonate crescător, iar
frecvenţele tind să se ordoneze după diagonala principală, atunci există o corelaţie directă.
Dacă frecvenţele se concentrează în jurul diagonalei secundare, atunci există o corelaţie inversă. Cu
cât concentrarea frecvenţelor în jurul unei diagonale este mai puternică, cu atât legătura dintre cele
două variabile este mai intensă.
Dispersia frecvenţelor fără nici o regularitate sugerează că cele două variabile sunt independente
sau necorelate.
La folosirea tabelului de corelaţie se recomandă să se respecte regulile menţionate la metoda
grupării.
Metoda seriilor paralele interdependente se recomandă a fi aplicată în cazul unui număr redus
de valori (xi, yi) înregistrate pentru variabile X şi Y.
Se procedează astfel: se ordonează crescător datele variabilei independente (X) şi se ataşează valorile
corespunzătoare variabilei dependente (Y) şi se concluzionează referitor la forma şi direcţia legăturii
în funcţie de reacţia variabilei Y la modificările intervenite în variabila X. Dacă datele tind să se
modifice în acelaşi sens, există o corelaţie directă, respectiv inversă, dacă tind să se modifice în sens
opus. Mărimea cu care se modifică Y la modificările lui X permite aprecierea intensităţii legăturii.
Ultimele două metode sunt rar utilizate în aplicaţiile practice, iar metoda grupării, cu particularizarea
sa prin metoda tabelului de corelaţie este utilizată mai puţin pentru caracterizarea asocierii dintre
două variabile şi mai mult pentru evidenţierea acestei legături. Metoda grafică – diagrama norului
de puncte – este facilă şi permite vizualizarea rapidă a unei posibile legături între variabile şi, de
aceea, este cea mai des utilizată. Odată cu extinderea utilizării tehnologiei informaţiei, caracterizarea
legăturii între variabile şi măsurarea intensităţii ei sunt mijlocite de aplicaţiile dedicate prelucrării
datelor statistice.
9
În Tabelul 6-3 este prezentată macheta unei repartiţii bidimensionale, în care valorile au fost
împărţite în r grupe după caracteristica X şi în m grupe după caracteristica Y.
Tabelul 6-3: Modelul tabelului de contingenţă
Totalul
Valorile Valorile frecvenţelor
variabilei caracteristicii Y(yi) asociate
X (xi) variabilei
y1 y2 ... yj ... ym X (xi.)
x1 n11 n12 ... n1j … n1m n1.
x2 n21 n22 ... n2j … n2m n2.
... … ... … ... … … …
xi ni1 ni2 ... nij … nim ni.
... … ... … ... … … …
xr nr1 nr2 ... nrj … nrm nr.
Totalul
frecvenţelor
asociate n.1 n.2 … n.j ... n.m n..
variabilei
Y (n.j)
În Tabelul 6-3 apar pentru variabila efect (Y) două tipuri de repartiţii:
a) o repartiţie pe total (yj, nj), care nu ţine seama de grupele construite după caracteristica
considerată cauză.;
b) r repartiţii condiţionate de grupele construite după caracteristica de grupare X.
În plus, tabelul prezintă două distribuţii de total, una în funcţie de valorile variabilei efect (Y) şi una
în funcţie de variabila cauză (X), numite distribuţii marginale.
Corespunzător celor două tipuri de repartiţii se pot calcula pentru variabila Y următoarele medii:
y
j 1
j n. j
y m
(6.2)
n
j 1
.j
Aceeaşi măsură poate fi obţinută prin intermediul valorilor individuale ale variabilei Y pe ansamblul
distribuţiei din tabelul de contingenţă:
r m
y
i 1 j 1
j nij
y r m
(6.3)
n
i 1 j 1
ij
10
medii de grupă sau medii condiţionate de factorul de grupare x i , ( y i ), pentru
repartiţiile condiţionate :
m m
y
j 1
j nij y
j 1
j nij
yi m
(6.4)
n
ni
ij
j 1
Pe baza relaţiei (4.57), relaţia (4.56) poate fi rescrisă în funcţie de mediile condiţionate ale variabilei
Y, astfel:
r m r
y j nij
i 1 j 1
y i ni
y r m
i 1
r
(6.5)
n
i 1 j 1
ij n
i 1
i
Numărul mediilor de grupă este egal cu numărul grupelor construite după caracteristica factorială.
Media mediilor de grupă este egală cu media generală.
Corespunzător celor trei tipuri de abateri, la nivelul fiecărei unităţi observate se poate scrie:
y j y = y j yi + yi y
Ceea ce înseamnă că abaterea totală este egală cu suma dintre abaterea valorilor individuale faţă de
media grupei şi abaterea mediei de grupă de la media generală. Ce semnificaţie au aceste abateri?
Termenul din stânga al relaţiei, y j y , măsoară variaţia valorilor individuale în jurul mediei
generale. Dacă valorile empirice înregistrate ( y j ) sunt rezultatul influenţei tuturor factorilor
(esenţiali şi neesenţiali), iar media presupune că toţi factorii sunt constanţi, înseamnă că această
diferenţă exprimă variaţia valorilor individuale în jurul mediei sub acţiunea tuturor factorilor:
factorul X considerat esenţial şi toţi ceilalţi factori, consideraţi neesenţiali.
Primul termen al părţii din dreapta a relaţiei, y j y i , măsoară variaţia valorilor individuale de la
media de grupă, deci exprimă variaţia în interiorul fiecărei grupe construite după factorul X. Cum
factorul X are aceeaşi valoare în cazul tuturor unităţilor din aceeaşi grupă, înseamnă că această
diferenţă se datorează acţiunii cauzelor din interiorul grupei, deci factorilor neesenţiali.
11
Al doilea termen al părţii din dreapta a relaţiei, y i y , evidenţiază influenţa factorului esenţial de
grupare (X) asupra variaţiei valorilor mediei condiţionate în jurul mediei generale.
Pe baza acestor abateri se pot calcula următoarele dispersii.
y
m
2
j y n j
j 1
02 m
(6.6)
n j 1
j
Prin 02 se măsoară variaţia variabilei dependente (efect) sub influenţa tuturor factorilor.
Pentru ansamblul tabelului de contingenţă, dispersia generală mai poate fi scrisă şi sub următoarea
formă:
y
r m
2
j y nij
i 1 j 1
02 r m
(6.6’)
n
i 1 j 1
ij
Dispersia de grupă sau dispersia condiţionată i2 măsoară variaţia la nivelul fiecărei grupe
construite după factorul X. Numărul dispersiilor de grupă este egal cu numărul grupelor stabilite
după caracteristica considerată cauză (i = 1, 2 ... r).
y
m
2
j yi nij
j 1
i
2
m
(6.7)
n j 1
ij
Fiecare dispersie de grupă măsoară variaţia valorilor variabilei dependente sub influenţa factorilor
din interiorul grupei respective, care sunt priviţi ca factori neesenţiali în raport cu factorul X.
Pentru a măsura acţiunea tuturor factorilor neesenţiali din toate grupele se calculează media
dispersiilor de grupă.
2
Media dispersiilor de grupă ( ) este o medie aritmetică a dispersiilor de grupă:
r
2
i
2
ni
i 1
r
(6.8)
ni 1
i
12
Dacă toate grupele sunt de acelaşi volum (n1 = n2 = ... = ni = ...), atunci toate dispersiile de grupă
n1 n 2 nr
intră în calculul mediei cu aceeaşi importanţă r
r
... r
, atunci se aplică media
n
i 1
i n
i 1
i n
i 1
i
aritmetică simplă:
r
2
i
2
i 1
(6.9)
r
Dispersia dintre grupe ( 2 ) sau dispersia explicată ( Y2 / X ) măsoară variaţia mediilor de grupă
de la media generală şi exprimă variaţia datorată acţiunii factorilor de grupare, deci a factorului X.
y
r
2
i y ni
Y2 / X i 1
r
(6.10)
n
i 1
i
Pornind de la factorii de influenţă care determină variaţia valorilor variabilei Y, între dispersiile
menţionate există relaţia:
2
02 = + Y2 / X (6.11)
Coeficientul de determinaţie ( RY2 / X ), care exprimă ce cotă parte din variaţia totală se
datorează acţiunii factorului considerat esenţial:
Y2 / X
RY2 / X 100 (6.12)
02
13
Exemplul 6.1 – Regula adunării dispersiilor
Variaţia cifrei de afaceri prezentată în Tabelul 6-2 este cauzată de acţiunea unui mare număr de
factori: numărul salariaţilor; domeniul de activitate; preţurile practicate; calitatea produselor etc.
Presupunem că un factor esenţial de influenţă este numărul de salariaţi (X) şi vrem să măsurăm cât
de mare este această influenţă asupra cifrei de afaceri. În acest caz se grupează mai întâi agenţii
economici după acest factor, iar grupele obţinute se defalcă după cifra de afaceri (Y). Procedând
astfel se obţine o repartiţie bidimensională cum este, spre exemplu, cea din tabelul următor.
Tabelul 6-4: Gruparea agenţilor economici după numărul de salariaţi şi după cifra de
afaceri
a) media generală ( y ):
7
y
j 1
j n j
1800 15 2200 25 2600 50 3000 46 3400 35 3800 24 4200 5
y 2 7
2906
n
200
ij
i 1 j 1
mii lei
b) mediile de grupă ( y i ):
y j 1
j n1 j
1800 15 2200 25 2600 40 3000 25 3400 15 3800 0 4200 0
y1 7
2600
n
120
1j
j 1
mii lei
7
y
j 1
j n2 j
1800 0 2200 0 2600 10 3000 21 3400 20 3800 24 4200 5
y2 7
3365
n
80
2j
j 1
mii lei
14
Media generală ( y ) poate fi calculată pe baza mediilor parţiale ( y i ) astfel:
2
y i ni
2600 120 3365 80
y i 1
2
2906 mii lei
n
200
i
i 1
Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
y j n1 j 27000 55000 104000 75000 51000 0 0 312000
y j n2 j 0 0 26000 63000 68000 91200 21000 269200
y j n j 27000 55000 130000 138000 119000 91200 21000 581200
c) dispersia generală ( 02 = Y2 ):
y
7
2
y n j
02
j 1
j
1800 29062 15 2200 29062 25 ... 4200 29062 5
7
n
200
j
j 1
71992800
359964
200
d) dispersiile de grupă ( i2 ):
y
7
2
y1 n1 j
12
j 1
j
1800 26002 15 2200 26002 25
7
n
120
1j
j 1
y
7
2
y2 n2 j
2 j 1
j
2600 3365 10 3000 3365 21
2 2
2 7
n
80
2j
j 1
15
2
e) media dispersiilor de grupă ( ):
2
2
i
2
ni
226666,7 120 11220592,2 80
i 1
2
219510,0
n
200
i
i 1
y
2
2
y ni
Y2 / X i 1
i
2600 29062 120 3365 29062 80 140454,0
2
n
200
i
i 1
După cum lesne se poate observa, regula de adunare a dispersiilor este verificată.
Calculele adiţionale de mai sus sunt sintetizate în tabelul de mai jos:
Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
y j 2
y n j
183485
40
124609
00
468180
0
406456
854126
0
191816
64
837218 71992800
0 ,0
y j y n
1
2
1j
960000
0
400000
0
0
400000 960000
0 0
0 0
27200000
,0
y j y2 n2 j 2
0
585225 279772
0 5
24500
454140
0
348612 16702000
5 ,0
Y2 / X 140454,0
RY / X 100 100 62,5%
0 2
359964,0
Înseamnă că 62,5% din variaţia cifrei de afaceri a celor 200 de agenţi economici se datorează
deosebirilor privind numărul de salariaţi. Cota parte de 37,5% din variaţia cifrei de afaceri se poate
explica prin acţiunea tuturor celorlalţi factori consideraţi neesenţiali, reziduali.
16
6.5 Metode de analiză a legăturilor dintre variabile
Metodele elementare oferă o serie de informaţii utile în studiul interdependenţelor. Acestea nu sunt
însă în măsură să descrie analitic dependenţa şi să măsoare numeric intensitatea acesteia. Metodele
care permit acest lucru sunt metoda corelaţiei şi metoda regresiei.
Din grupa metodei corelaţiei diferenţiem metodele neparametrice de măsurare a intensităţii
legăturilor dintre variabile şi metodele parametrice. Diferenţa dintre metodele neparametrice şi cele
parametrice este dată de faptul că primele pot fi aplicate indiferent de forma distribuţiei statistice,
pe când cele din urmă depind de forma distribuţiei şi, implicit, de parametrii acesteia, adică de media
şi dispersia distribuţiei respective.
X \ Y y1 y2 Total
x1 n11 n12 n1.
x2 n21 n22 n2.
Total n.1 n.2 n..
Coeficientul de asociere Yule se calculează pe baza relaţiei:
17
Cu cât Q tinde mai mult spre ±1 cu atât asocierea este mai puternică. Dacă coeficientul de asociere
este egal cu 0, între cele două variabile nu există o legătură de asociere.
Coeficienţii de corelaţie a rangurilor se aplică în cazul în care valorile sau formele de manifestare
a celor două variabile pot fi ierarhizate. Aceşti indicatori se recomandă în situaţiile în care cel puţin
una din variabile este nenumerică (calitativă sau exprimată prin cuvinte) sau când distribuţia nu este
cunoscută.
Caracteristic pentru aceşti coeficienţi este faptul că la determinarea lor nu se porneşte de la valorile
empirice corespunzătoare celor două variabile, ci de la numere care indică locul fiecărei valori /
forme de manifestare în serie, denumite ranguri ( Rx , R y ). Deci, valorile empirice / formele de
manifestare se înlocuiesc cu ranguri. Se ordonează crescător rangurile după caracteristica X (cel mai
mic nivel are rangul 1) şi se ataşeză rangurile corespunzătoare caracteristicii Y.
N
6 D i2
rS 1 i 1
(6.15)
N (N 1)
2
în care:
Di Rx,i R y ,i
n − numărul cuplurilor de valori X, Y.
Acest coeficient poate lua valori cuprinse între 1 şi +1 şi se interpretează în acelaşi fel ca în cazul
coeficientului de corelaţie liniară (r).
Exemplul următor ilustrează modul de calcul al coeficientului de corelaţie a rangurilor Spearman.
Ţara
1 2 3 4 5 6
Rangul xi 6 5 4 3 1 2
Rangul yi 6 4 5 2 1 3
Di 0 1 1 1 0 1
Di2 0 1 1 1 0 1
18
N
6 D i2
64
rS 1 i 1
1 0,886
N(N 1) 2
6 (36 1)
rk
P Q
i i
(6.16)
nn 1
1
2
unde :
Cifra de
Nr. Profit
afaceri Rx Ry Di2 Pi Qi
crt. (mil. lei)
(mil. lei)
1 47 4,0 1 1 0 7 0
2 54 4,7 2 2 0 6 0
3 58 5,9 3 7 16 1 4
4 60 5,2 4 4 0 3 1
5 61 5,0 5 3 4 3 0
6 62 5,8 6 6 0 1 1
7 64 5,6 7 5 4 1 0
8 70 6,4 8 8 0 0 0
Total - - - - 24 22 6
19
Pi şi Qi au fost determinate exclusiv pe baza coloanei de ranguri Ry.
Aplicând relaţiile corespunzătoare,
rk
P Q
i i
2 (22 6) 32
0,571
8 (8 1)
nn 1
1 56
2
Corelaţia dintre cele două variabile este una directă şi moderată ca intensitate.
Indicatorii prin care se măsoară intensitatea legăturilor sunt: covarianţa cov( X , Y ) ; coeficientul de
corelaţie ( r ); raportul de corelaţie ( R ) şi coeficientul de determinaţie ( R 2 ) .
Covarianţa dintre două variabile este o medie aritmetică simplă a produselor perechilor abaterilor
valorilor empirice ( x i şi y i ) de la mediile lor aritmetice ( x şi y ).
cov( X , Y )
x i x yi y
(6.17)
n
Dacă corelaţia este directă atunci cov( X , Y ) > 0, respectiv valori negative, în cazul corelaţiilor
inverse. Acest indicator se aplică mai rar în analiza corelaţiilor, datorită următoarelor cauze:
nu are un interval fix de variaţie; cu cât corelaţia este mai intensă cu atât covarianţa, în
valoare absolută, este mai mare;
2Metoda corelaţiei presupune că ambele variabile analizate (X şi Y) sunt aleatoare şi distribuite normal, în timp ce metoda regresiei
presupune că variabila Y este aleatoare, în timp ce X nu este. De asemenea, se presupune că abaterea standard a variabilei Y este
constantă pentru toate valorile lui X, iar abaterea standard a variabilei X este constantă pentru toate valorile lui Y.
20
Coeficientul de corelaţie liniară ( r ) (sau coeficientul de corelaţie Pearson3) este un indicator sintetic
care măsoară intensitatea legăturilor liniare simple. Se calculează ca un raport între covarianţă şi
produsul abaterilor medii pătratice ale variabilelor implicate în analiza corelaţiei ( x şi y ) sau ca
xi x yi y
o medie aritmetică a produselor abaterilor normale normate: şi :
x y
n
cov( X , Y )
x i x yi y
rxy i 1
(6.18)
x y n x y
x , y y , x xi y yi
2 2
2
2
x şi y se ajunge la o relaţie
i i
n n
x
n n n n
relativ simplă de aplicat:
n xi y i xi y i
rxy
n x
(6.19)
xi n yi2 yi
2 2 2
i
Coeficientul de corelaţie poate lua valori cuprinse între –1 şi +1. Semnul coeficientului de corelaţie
coincide cu cel al coeficientului de regresie b. Dacă r > 0 există o corelaţie directă, iar dacă r < 0
între cele două variabile este o corelaţie inversă.
Cu cât r se apropie mai mult de ± 1 cu atât legătura dintre variabile este mai puternică. Dacă r = 1,
atunci există o corelaţie directă funcţională, iar dacă r = –1, între variabile este o corelaţie inversă
funcţională. O valoare egală cu 0 indică lipsa legăturii dintre variabile.
În exemplul prezentat privind legătura dintre vechimea în muncă şi câştigul salarial net (vezi Tabelul
6.1), coeficientul de corelaţie este:
Relaţiile (6.18) şi (6.19) se aplică în cazul în care datele înregistrate pentru cele două variabile se
prezintă sub forma a două serii simple. Dacă numărul perechilor de valori înregistrate este mare,
acestea se sistematizează prin gruparea lor pe intervale egale şi se prezintă întrun tabel cu dublă
intrare. Într-o asemenea situaţie, fiecărei valori xi şi yi i se ataşează frecvenţa corespunzătoare de
apariţie.
Relaţia (6.19) devine:
n xi yi n xy xi n x yi n y
rxy
n x
(6.20)
n x xi n x n y n y yi n y
2 2 2 2
i i
21
În aplicaţiile reale, o măsură atât de mare a coeficientului de corelaţie este rar întâlnită. De asemenea,
este necesar să precizăm faptul că datele pe baza cărora se calculează coeficientul de corelaţie este,
în majoritatea cazurilor, un eşantion, în condiţiile în care analistul este interesat valoarea acestuia
pentru întreaga populaţie, caz în care coeficientul de corelaţie este notat cu („rho”). De aceea,
este important să ştim câtă încredere putem da valorii calculate conform relaţiei (6.19). Altfel spus,
analistul este interesat să verifice dacă valoarea coeficientului de corelaţie din populaţie este egal cu
zero sau nu, deoarece, dacă 0 , atunci cele două variabile analizate sunt independente, adică nu
există corelaţie între ele.
În termeni statistici, verificarea relaţiei 0 înseamnă testarea ipotezei nule care este formalizată
astfel: H 0 : 0 . Ipoteza alternativă este H 1: 0 .
Pentru testarea ipotezei nule se utilizează testul „t”. În acest scop, trebuie să calculăm statistica de
test „t”4, care urmează o distribuţie Student cu n-2 grade de libertate. Relaţia de calcul a statisticii de
test este:
r
tc (6.21)
(1 r ) /(n 2)
2
în care:
r – coeficientul de corelaţie liniară simplă;
n – numărul observaţiilor;
n – 2 – numărul gradelor de libertate.
Valoarea calculată pe baza relaţiei (6.20) se compară cu valoarea teoretică din tabelul Student,
pentru un prag de semnificaţie α (de regulă α= 0.05 ) şi n – 2 grade de libertate (gradul de libertate
este n-2 deoarece dreapta are doi parametri fixaţi).
Întrucât ipoteza nulă priveşte testarea egalităţii coeficientului de corelaţie a întregii colectivităţi
statistice cu valoarea 0, este posibil ca, în realitate, să fie „semnificativ” mai mare decât 0 sau
„semnificativ” mai mic decât 0. De aceea, este firesc să verificăm dacă statistica t este fie foarte
mare, fie foarte mică pe curba distribuţiei teoretice a acesteia, ştiind că punctul de simetrie al acestei
distribuţii este t=0, adică să aplicăm un test t bilateral.
În consecinţă, se compară valoarea calculată a statisticii t cu cea teoretică, iar regula de evaluare a
testului este următoarea: se respinge ipoteza nulă conform căreia 0 dacă tc > tteoretic la pragul de semnificaţie
de / 2 sau dacă tc < -tteoretic la pragul de semnificaţie de / 2 şi nu respingem ipoteza nulă în caz contrar. Altfel
spus, dacă tc > tteoretic sau dacă tc < -tteoretic, probabilitatea5 ca să fie egal cu 0 este mai mică decât pragul
de semnificaţie ales (de regulă, o probabilitate totală de 5% sau =0,05, adică 2,5% din stânga
4 În statistica t, magnitudinea numărătorului tinde să crească pe măsură ce ipoteza alternativă este adevărată.
5 Valoarea teoretică faţă de care facem comparaţia este o cuantilă, iar probabilitatea ca valoarea calculată să o depăşească pe cea
teoretică este suprafaţa aflată sub curba distribuţiei.
22
distribuţiei Student şi 2,5% din dreapta ei), deci riscul să acceptăm în mod greşit ipoteza nulă este
foarte mic.
În cazul Exemplului 6.1, statistica t calculată este:
0,9957
tc 8 2 26,33
1 0,9957 2
Valoarea statisticii t pentru un prag de semnificaţie de 0,025 şi 6 grade de libertate se poate citi într-
o tabelă a valorilor critice ale variabilei t calculate pentru teste bilaterale şi găsim că tteoretic; 0,025 = 2,447.
Întrucât 26,33 > 2,447 respingem ipoteza nulă 0 şi concluzionăm că valoarea coeficientului
de corelaţie calculat este semnificativ diferită de zero, deci o putem considera adevărată în 95 de
cazuri din 100 posibile.
Raportul de corelaţie (R) este un indicator sintetic care măsoară intensitatea legăturilor liniare şi
neliniare.
Înainte de a defini şi calcula raportul de corelaţie, să ne reamintim că în paragrafele precedente am
văzut cum se determină o funcţie de regresie liniară. Odată ce am găsit parametrii funcţiei,
următoarea întrebare pe care ne-o punem este: cât de bine ajustează linia de regresie datele
observate? Întrebarea este firească deoarece nu rareori diferenţele între valorile observate ale
variabilei dependente şi valorile teoretice sunt mari. Instrumentul prin intermediul căruia se evaluează
calitatea funcţiei de regresie este coeficientul de determinaţie.
Aşa cum am văzut în secţiunea 6.4, din regula de adunare a dispersiilor, coeficientul de determinaţie
este raportul dintre dispersia între grupe, adică dispersia explicată de variabila de grupare, şi
dispersia totală. În cazul regresiei liniare, calculul coeficientului de determinaţie este obţinut,
de asemenea, prin împărţire a dispersiei totale între dispersia explicată şi dispersia ne-explicată.
După cum ştim, dispersia totală este dată de pătratul diferenţei dintre valorile observate şi valoarea
medie:
n
y y .
2
i
i 1
Întrucât regresia liniară ne permite să calculăm valorile teoretice obţinute prin funcţia de regresie,
pentru a măsura cât de bine ajustează această funcţie datele observate este nevoie să operăm o
modificare în relaţia de mai sus, pentru a pune în evidenţă dispersia care nu este explicată de regresie
şi dispersia explicată de regresie:
n n
y y = yi YX i YX i y
2 2
i (6.22)
i 1 i 1
lor. Media presupune toţi factorii de influenţă constanţi, iar valorile empirice sunt
23
rezultatul acţiunii tuturor factorilor. Dispersia calculată pe baza acestor abateri este
dispersia totală a variabilei dependente ( y2 ). Prin aceasta se măsoară variaţia sub
influenţa tuturor factorilor X şi a celorlalţi factori neînregistraţi;
b) primul termen al părţii din dreapta egalităţii, yi YX i , reprezintă abaterea valorilor
empirice de la valorile teoretice. Valorile teoretice sunt expresia factorului implicat în
analiza legăturii, deci considerat esenţial. Abaterea menţionată este provocată de
influenţa factorilor neînregistraţi, aleatori. Dispersia care măsoară variaţia variabilei Y
numai sub acţiunea acestor factori este dispersia reziduală ( y2 / r );
c) al doilea termen al părţii din dreapta egalităţii, YX i y , reprezintă abaterea valorilor
teoretice de la media valorilor empirice şi exprimă influenţa factorului X. Pe baza
acestor abateri se determină dispersia explicată sau dispersia sistematică ( y2 / x ).
Dacă ridicăm la pătrat ambii termeni ai egalităţii şi însumăm pentru tot setul de observaţii, obţinem:
yi y yi YX Y
n n n
y
2 2 2
i Xi (6.23)
i 1 i 1 i 1
Forma echivalentă, bazată pe cele trei dispersii definite mai sus, este:
y2 = y2 / x + y2 / r (6.24’)
Termenul din stânga al ecuaţiei arată dispersia totală a variabilei dependente. Primul termen al părţii
drepte a ecuaţiei arată dispersia variabilei dependente care este explicată de regresie, iar al doilea
termen al părţii din dreapta a ecuaţiei reprezintă dispersia variabilei dependente care nu este
explicată de regresie.
Coeficientul de determinaţie (R2) arată cât de bine ajustează linia de regresie valorile observate şi este dat
de raportul dintre dispersia explicată de regresie şi dispersia totală:
y Y y
n n
YX i
2 2
Xi i
R2 i 1
n
1 i 1
n
(6.25)
y y y y
2 2
i i
i 1 i 1
O formă echivalentă a relaţiei (6.23), în care toate elementele de calcul sunt disponibile, este:
2
n n
1 n
a y i b xi y i yi
i 1 i 1 n i 1
R2 2
(6.25’)
n
1 n
i 1
y yi
2
i
n i 1
Cu cât valoarea coeficientului de determinaţie este mai mare, cu atât modelul de regresie, adică
variabila factorială, explică mai bine variaţia variabilei dependente. Cu alte cuvinte, coeficientul de
determinaţie – denumit în analiza statistică „R pătrat” – este măsura de apreciere a calităţii
modelului de regresie.
24
În exemplul 6.1, coeficientul de determinaţie este:
y
n
YX i
2
2 i
K2 i 1
y/r
(6.26)
2 n
y y
y 2
i
i 1
y
n
YX i
2
i
R 1 i 1
n
(6.27)
y y
2
i
i 1
Raportul de corelaţie poate lua valori cuprinse între 0 şi 1. Cu cât valoarea lui R se apropie mai mult
de 1 cu atât legătura dintre variabile este mai puternică, respectiv mai puţin intensă cu cât se apropie
mai mult de 0.
Pe baza exemplului din tabelul 6.1 şi a valorii coeficientului de determinaţie de mai sus, raportul de
corelaţie este:
R 0,9876 0,9938
25
Metoda regresiei răspunde la trei principale obiective ale analizei statistice:
1. metoda regresiei furnizează estimaţii ale variabilei dependente pentru anumite valori date ale variabilei
independente. Cu alte cuvinte, funcţia de regresie exprimă cum se comportă în medie
variabila dependentă – sau efect –
sub acţiunea influenţei unei variabile Cadranul 2 – O scurtă istorie a regresiei liniare
independente – sau cauză – în Denumirea dată coeficientului de corelaţie induce pe
condiţiile în care toate celelalte mulţi în eroare, atribuind descoperirea acestei mărimi
variabile independente esenţiale sau statistice lui Karl Pearson. O serie de lucrări
întâmplătoare ar exercita o acţiune descoperite la începutul anilor 2000 (v. „Galton,
constantă, sau, respectiv, ar exercita Pearson, and the Peas: A Brief History of Linear Regression
o influenţă neesenţială. Acest for Statistics Instructors”, Jeffrey M. Stanton, Syracuse
principiu se numeşte ceteris paribus, University, Journal of Statistics Education Volume 9,
adică „toate celelalte fiind egale”, Number 3, 2001) conduc la concluzia că ideea
„celelalte” fiind factorii care conceptualizării noţiunilor de corelaţie şi regresie
influenţează modificarea variabilei aparţine lui Sir Francis Galton. Mai mult, ea nu este
dependente. Astfel, studiind relaţia legată de explicarea „regresiei către medie” a înălţimii
dintre variabila dependentă şi cele copiilor în relaţie cu strămoşii lor, în încercarea de a
independente, metoda ne oferă explica modul în care sunt moştenite trăsăturile
posibilitatea de a găsi valoarea cea înaintaşilor de către urmaşi, ci de un alt organism
mai probabilă a variabilei dependente mult mai prozaic: mazărea dulce.
când ştim o valoare a variabilei
El a ales mazărea dulce pentru că această specie se
independente;
auto-fecundează; plantele de sex feminin arată
2. metoda regresiei ne oferă o măsură a erorilor variaţiile genetice ale plantelor-mamă fără contribuţia
care pot interveni în estimarea variabilei unui alt părinte. El a eliminat, în acest fel, problema
dependente. Dacă putem estima evaluării statistice a contribuţiei genetice a mai
valorile variabilei dependente în multor surse.
funcţie de valoarea unei variabile
Primele concluzii despre regresie au izvorât dintr-o
independente, atunci suntem
diagramă bidimensională în care a trasat punctele
interesaţi să ştim cât de multă
determinate de mărimea boabelor de mazăre „fiice”
încredere putem acorda acestei estimaţii, motiv pentru care statisticianul construieşte
faţă de boabele de mazăre „mamă”, ilustrând
un interval de încredere al acelei estimaţii;
elementele fundamentale a ceea ce astăzi statisticienii
3. metoda regresiei furnizează o estimaţie a efectului
numescasupra valorii medii
„regresie a lui Y atunci când X se
liniară”.
modifică cu o unitate. Pornind de la exemplul din tabelul 6.1, modelul regresiei ne permite
să spunem, în medie, care este modificarea mediei la examene dacă nota la admitere se
modifică cu un punct.
Funcţia de regresie este o funcţie matematică care exprimă legătura dintre variabila dependentă Y
şi k variabile independente Xk şi are forma generală :
26
unde " " este variabila aleatoare perturbatoare, reziduală sau eroare, care sintetizează influenţa
tuturor factorilor neluaţi în calcul, nespecificaţi.
Dacă în analiza regresiei se implică o singură variabilă independentă se recurge la regresia
unifactorială liniară sau neliniară, iar dacă variaţia variabilei Y este dependentă de cel puţin două
variabile factoriale se recurge la regresia multifactorială sau multiplă.
Alegerea funcţiei de regresie se realizează cel mai simplu, pe baza reprezentării grafice a perechilor
de valori {xi,yi}.
YX i a b X (6.29)
în care:
27
Estimarea parametrilor a şi b se realizează, cel mai adesea, prin metoda celor mai mici pătrate, ceea
ce înseamnă minimizarea sumei pătratelor erorilor i
2
min . Dar eroarea reprezintă diferenţa
dintre valoarea empirică (yi) şi valoarea teoretică, calculată pe baza modelului liniar (Yxi). Deci, suma
pătratelor abaterilor valorilor empirice de la cele teoretice trebuie să fie minimă.
y
n
YX i min
2
i (6.30)
i 1
Această expresie este minimă în punctele de anulare a derivatelor parţiale calculate în funcţie de
parametrii a şi b.
S
a 2 y y a bx 1
S
2 y y a bx x
b
Punând condiţia ca aceste derivate să fie egale cu 0, simplificând cu 2 şi ţinând seama de faptul că
a şi b sunt constante, sistemul de mai sus devine:
n a b x i y i
a x i b x i x i y i
2
unde xi şi yi reprezintă valorile empirice înregistrate pentru cele două variabile, iar n semnifică
numărul unităţilor observate din eşantion.
De unde, prin rezolvarea sistemului de ecuaţii se obţine:
b
xi x yi y Cov( x, y)
x i x 2 x2 (6.32)
a y b x
Pentru facilitarea calculelor, se utilizează o formă alternativă pentru parametrul b, care conduce la
acelaşi rezultat:
n xi y i xi y i
b
n xi2 xi (6.33)
2
a y b x
După ce au fost calculaţi parametrii a şi b se pot determina valorile teoretice ale funcţiei de regresie
(Yxi ), prin înlocuirea succesivă în ecuaţia de regresie, cu valorile xi ale caracteristicii factoriale.
28
(vezi Tabelul 6-8, coloanele 2 şi 3). Între cele două variabile există normal o legătură directă, salariul
net fiind influenţat, pe lângă alţi factori, şi de vechimea în muncă.
Tabelul 6-8: Calculul parametrilor unei funcţii de regresie liniară unifactorială
Vechime în Câştig
Identificator muncă salarial
(ani) net (mii lei) xi y i xi2 YX i
salariat
( xi ) ( yi )
1 2 3 4 5 6
1 3 2,9 8,7 9 2,89
2 6 3,1 18,6 36 3,19
3 9 3,5 31,5 81 3,48
4 11 3,8 41,8 121 3,67
5 15 4 60,0 225 4,06
6 19 4,4 83,6 361 4,45
7 22 4,8 105,6 484 4,74
8 25 5 125,0 625 5,03
Total 110 31,5 474,8 1942 31,50
Cele două serii de date confirmă existenţa unei corelaţii directe. Pentru alegerea formei legăturii se
construieşte corelograma.
Figura 6-8: Graficul de corelaţie între vechimea în muncă şi câştigul salarial
4
Castig salarial (mii lei)
0
0 5 10 15 20 25 30
Vechime (ani)
Reprezentarea grafică sugerează faptul că punctele tind să se ordoneze în jurul unei drepte. Deci,
funcţia de regresie este de forma: YXi = a + bxi.
Pentru aflarea parametrilor a şi b se porneşte de la sistemul de ecuaţii menţionat, rezolvarea căruia
presupune calcularea expresiilor x i yi , x 2
i şi x i
2
29
Sistemul de ecuaţii normale este:
n a b x i y i 8 a 110 b 31,5
a x i b x i x i y i a 110 1942 b 474,8
2
31,5 110
474,8 1942
a 2,6033
8 110
110 1942
8 31,5
110 474,8
b 0,097
8 110
110 1942
Valoarea parametrului a = 2,6033 semnifică faptul că dreapta intersectează ordonata în punctul 2,6,
iar b = 0,097 înseamnă că salariul mediu net sporeşte în medie cu 97 lei dacă vechimea creşte cu
un an. Implicit, valoarea pozitivă a parametrului b (panta dreptei de regresie) arată că suntem în
faţa unei corelaţii directe.
Funcţia de regresie care descrie legătura dintre cele două variabile este:
Yxi= 2,6033 + 0,097*xi.
Valorile teoretice privind câştigul salarial net se obţin în urma înlocuirii în această funcţie lui x i cu
valorile corespunzătoare (vezi Tabelul 6.8, coloana a 6-a).
În cazul exemplului din Tabelul 6.1, datele au fost prezentate sub forma a două serii simple, deci
negrupate.
30
Regresia unifactorială neliniară
În realitate apar frecvent situaţii ca modelul liniar unifactorial să nu corespundă tipului de
dependenţă dintre cele două variabile. Printre cele mai utilizate funcţii neliniare menţionăm: funcţia
polinomială de gradul 2; funcţia exponenţială; funcţia lognormală; funcţia hiperbolică.
Funcţia se alege cel mai simplu pe baza reprezentării grafice, de forma celei prezentate în Fig. 6.4.
Ca şi în cazul regresiei liniare unifactoriale, parametrii funcţiei se estimează pornind de la metoda
y
n
YX i min .
2
celor mai mici pătrate, care presupune minimizarea erorilor i
i 1
yi a b xi c xi2 (6.34)
Aplicând metoda celor mai mici pătrate şi după anularea derivatelor parţiale calculate în funcţie de
a, b şi c se obţine sistemul de ecuaţii:
n a b xi c xi2 y i
a x i b x i c x i x i y i (6.35)
2 3
a x 2 b x 3 c x 4
i i i xi2 yi
Prin rezolvarea sistemului de ecuaţii liniare (6.25) şi prin înlocuirea succesivă a lui xi cu valorile
empirice în funcţia de regresie, se obţin valorile teoretice pentru variabila rezultativă (YXi).
Dacă legătura dintre cele două variabile are forma unei funcţii exponenţiale, ecuaţia de regresie este:
Y X i a b xi (6.36)
Aplicarea metodei celor mai mici pătrate presupune în acest caz liniarizarea, prin logaritmare:
lg YX i lg a xi lg b .
n lg a lg b xi lg y i
(6.37)
lg a xi lg b xi xi lg y i
2
Regresia multifactorială
Modelele unifactoriale de regresie au avantajul uşurinţei aplicării. În realitate însă, se întâlnesc foarte
rar situaţii când efectul este rezultatul influenţei unei singure cauze. De cele mai multe ori, variabila
dependentă este influenţată concomitent de mai mulţi factori, ceea ce înseamnă că în analiza
legăturilor trebuie luaţi în calcul cel puţin factorii care exercită o influenţă semnificativă. Forma
generală a modelului regresiei multifactoriale este:
31
Modelul multifactorial cel mai accesibil este cel liniar.
n a 0 a1 x1i a 2 x 2i ... a k x ki y i
a 0 x1i a1 x1i a 2 x1i x 2i ... a k x1i x ki x1i y i
2
a 0 x 2i a1 x 2i x1i a 2 x 2i ... a k x 2i x ki x 2i y i (6.40)
2
.............................................................................................................
a 0 x ki a1 x ki x1i a 2 x ki x 2i ... a k x ki2 x ki y i
La interpretarea rezultatelor privind parametrii funcţiei de regresie multifactorială trebuie avut în
vedere faptul că între variabilele factoriale luate în calcul poate exista o dependenţă reciprocă,
denumită multicoliniaritate, care poate afecta rezultatele finale, facând necesară testarea existenţei
acesteia.
Eroarea standard
Alegerea funcţiei de regresie pe baza graficului de corelaţie poate crea probleme dacă mulţimea
punctelor corespunzătoare valorilor empirice (xi,yi) sugerează mai multe funcţii posibile. În
asemenea situaţie, se recomandă să se calculeze valorile după toate funcţiile sugerate de grafic şi să
y
n
YX i min , deci
2
se opteze, în final, pentru acea funcţie care satisface condiţia de minim i
i 1
y YX i
2
y
i
(6.41)
i
YX i n
În cazul exemplului din Tabelul 6-9, eroarea cu care s-au estimat câştigurile salariale nete în funcţie
de vechimea în muncă a fost de 66,1 lei. Pentru a calcula eroarea standard a estimaţiilor funcţiei de
regresie, e necesară determinarea pătratului diferenţelor dintre valorile empirice ale variabilei
dependente şi cele teoretice, calculate pe baza funcţiei de regresie ale cărei parametri au fost obţinuţi
în Exemplul 6.1. În continuarea exemplului 6.4, prezentăm mai jos modul de calcul.
32
Exemplul 6.4 (continuare) – Estimarea erorii standard a funcţiei de regresie liniară
unifactorială
Tabelul 6-9: Calculul parametrilor unei funcţii de regresie liniară unifactorială
Câştig
Vechime în
Identificator
salariat
muncă (ani)
salarial
net (mii lei) yi YX i y i YX i
2
( xi )
( yi )
1 3 2,9 0,0057 0,0000
2 6 3,1 -0,0853 0,0073
3 9 3,5 0,0237 0,0006
4 11 3,8 0,1297 0,0168
5 15 4 -0,0583 0,0034
6 19 4,4 -0,0463 0,0021
7 22 4,8 0,0627 0,0039
8 25 5 -0,0283 0,0008
Total 110 31,5 0,0036 0,0350
0,0350
y 0,0661
i
YX i 8
Aceasta înseamnă că între câştigul salarial net realizat efectiv (yi) şi cel estimat pe baza funcţiei
lunare există, în cazul fiecărui muncitor, o diferenţă medie de 66,1 lei, diferenţă care se explică prin
influenţa altor factori asupra câştigului salarial net.
Dacă eroarea standard yi se împarte la media valorilor empirice y se obţine eroarea exprimată
YX i
procentual:
y
y 31,5
i
3,938 mii lei.
n 8
Deci coeficientul de eroare este:
0,0661
Ke 100 1,68%
3,938
33
Coeficient de regresie Metoda grupării
Covarinţa Metoda seriilor paralele
interdependente
Dispersie explicată, sistematică Metoda tabelului de corelaţie
Dispersie reziduală Raport de corelaţie
Eroarea standard Regresie
Legătură directă Variabila dependentă, rezultativă,
efect, explicată
Legătură funcţională Variabila independentă,
factorială, cauzală, explicativă
Legătură inversă
7. Când reprezentarea grafică admite mai multe funcţii care ar putea descrie
legătura dintre două variabile, care este criteriul în funcţie de care se optează
pentru una din aceste funcţii?
8. Când se utilizează şi cum se interpretează raportul de corelaţie?
34
6.8 Bibliografie selectivă
1. Wagner P., Gherguț D., Bazele statisticii – Introducere în analiza descriptivă,
Editura Renaissance, București, 2011
2. Anghelache, Constantin, et al., Statistică teoretică și economică: concepte și
studii de caz, București, Editura Economică, 2020
3. Anghelache, Constantin, et al., Statistică economică generală, București,
Editura Economică, 2019
4. Biji E. M, Gogu E., Lilea E., Bentoiu C. G., Ghid de formule în statistică,
Editura Universitară, 2017
5. Mohammed A. Shayib, Applied Statistics, 1st Edition, 2013, Bookboon.com
35
Index alfabetic
36