Sunteți pe pagina 1din 30

Regresie si corelatie

Suport de curs
Stud. Management economic
28 martie 2009
Bibliografie

 + Orice manual/ tratat recomandat la secţiunea Bibliografie de pe


site
Context
 Statistica dispune de o seamă de metode de
studiere a dependenţelor dintre două sau mai multe
variabile. Printre acestea sunt şi cele cuprinse în
"analiza de regresie şi corelaţie". În cadrul
acesteia se studiază dependenţa dintre o variabilă
(caracteristică) rezultativă (y) şi una sau mai multe
variabile (caracteristici) independente (x).
 Caracteristica rezultativă se mai numeşte
caracteristica dependentă, endogenă sau efect, iar
caracteristica independentă se mai numeşte
caracteristica factorială, exogenă sau cauză.
 Regresia ne arată cum (ca formă analitică) o
variabilă este dependentă de altă variabilă (sau de
alte variabile), iar corelaţia ne arată gradul în care o
variabilă este dependentă de o altă variabilă (sau
alte variabile).
Clasificări
a) după numărul caracteristicilor independente luate
în studiu:
- legături simple
- legături multiple
b) după direcţia legăturilor, acestea pot fi:
- legături directe
- legături inverse
c) după expresia analitică a legăturilor, acestea pot
fi:
- legături liniare
- legături neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice
METODE ELEMENTARE DE CARACTERIZARE A
LEGĂTURILOR DINTRE VARIABILE

 metoda seriilor paralele independente;


 metoda grupărilor;
 metoda tabelului de corelaţie;
 metoda grafică.
Clasificări
a) după numărul caracteristicilor independente luate
în studiu:
- legături simple
- legături multiple
b) după direcţia legăturilor, acestea pot fi:
- legături directe
- legături inverse
c) după expresia analitică a legăturilor, acestea pot
fi:
- legături liniare
- legături neliniare (curbilinii)
d) metode de abordare
- metode simple (elementare)
- metode analitice
Metoda seriilor paralele interdependente

Se ordonează observaţiile în funcţie de caracteristica


independentă x (crescător sau descrescător) şi se
urmează modul în care se aranjează valorile lui y.
Concluzii:
- caracteristica y se ordonează aproximativ crescător -
rezultă că putem aprecia că între cele două variabile
există o legătură directă;
- caracteristica y se ordonează aproximativ descrescător
rezultă că putem aprecia că între cele două variabile
există o legătură inversă;
- caracteristica y nu înregistrează o tendinţă de ordonare
(crescător sau descrescător) - rezultă că putem aprecia
că între cele două variabile nu există legătură.
Metoda grupărilor
 Se repartizează unităţilor în grupe omogene în
funcţie de o caracteristică independentă.
 Pentru fiecare grupă astfel constituită se
centralizează datele numerice referitoare la
caracteristica rezultativă şi se calculează medii
pe fiecare grupă şi mărimi relative.
 Prin comparaţia variaţiei caracteristicii
independente cu indicatorii calculaţi pentru
caracteristica rezultată se poate aprecia
existenţa şi forma legăturilor dintre cele două
variabile.
Metoda tabelului de contingenţă
Tabelul de contingenţă este un tabel cu
dublă intrare şi prezintă o grupare a
unităţilor unei colectivităţii în funcţie de
două caracteristici: una dependentă şi alta
independentă.
Se foloseşte în special în cadrul unui număr
mare de observaţii.
Dacă considerăm două variabile
naţionalitate şi religie, atunci tabelul poate fi
de forma:
Exemplu - Tabel de contingenţă
Religia/ Total
Naţiona-

Maghiară
Română

General

Slovaci
litatea

Altele
.

.
Ortodoxă n11 n12 . . n1j . . n1p-1 n1p n1.
Romano- n21 n22 . . n2j . . n2p-1 n2p n2.
catolică
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
General ni1 ni2 . . nij . . nip-1 nip ni.
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
Musulma- nr-11 nr-12 . . nr-1j . . nr-1p-1 nr-1p nr-1.

Altele nr1 nr2 . . nrj . . nrp-1 nrp nr.
Total n.1 n.2 . . n.j . . n.p-1 n.p n
Metoda grafică
Graficul se construieşte pornind de le perechile de valori
observate (x, y) care se reprezintă în sistemul de axe
rectangulare. Pe axa OX se reprezintă variabila
independentă x, iar pe axa OY variabila dependentă y.

x x
x x x y x y
x
x
x x x x x x
x
x x x x
x x
x x
Fig. 8.4. xx x
x
x x
x x x
x x

0 x 0 x
Fig. 8.5. Leg` tur` direct` Fig. 8.6. Leg` tur` invers`
Regresia liniară (1)
Asumptii ale regresie liniare:
A1. Toate variabilele independente sunt cantitative sau
dihotomice. Variabilele sunt masurate fara eroare.
A2. Toate variabilele independente au varianta nenula.
A3. Nu are loc multicoliniaritate.
A4. Valoarea medie a variabilei ε (eroare) este zero pentru
orice multime de valori ale variabilelor independente.
A5. Fiecare variabila independenta este necorelata cu
variabila ε.
A6. Varianta lui ε este constanta-- homoscedasticity.
A7. Pentru oricare doua observatii, erorile sunt necorelate.
A8. Pentru orice valori ale variabilelor independente, ε este
distribuita normal.
A1 - A7. : asumptiile Gauss-Markov
Regresia liniară (2)
Să presupunem, că un Număr curent Mireasa (A) Mirele (B)
vârsta (în ani împliniţi) la cununie
cercetător, în căutarea 1. 17 18

partenerei ideale, şi-a 2.


3.
22
28
25
36

propus să studieze 4.
5.
19
20
21
22

căsătoriile reuşite, în 6. 19 19

special în privinţa vârstei


7. 23 24
8. 27 32

mirelui şi a miresei la 9.
10.
32
25
38
26

căsătorie. Statistica a 15 11.


12.
20
22
22
25

căsnicii considerate 13. 20 23


14. 22 25
reuşite, după vârsta la 15. 21 23

cununie, este prezentată Media


Abaterea standard
22,466666667
3,862066229
25,266666667
5,579326921

în tabelul următor Dispersia 14,915555556 31,128888889


Reprezentarea grafică

40
Vârsta mirelui

35

30

25

20

15
15 20 25 30 35
Vârsta m iresei
ŷi
Punerea problemei
Nr. Vârsta Vârsta f(x)=–
f(x)=9+x/2 f(x)=a+bx
Fie f:R->R o crt. mirelui miresei 15+2x

funcţie liniară, i xi yi zi wi
având forma 1. 18 17 21 18 a+18b
analitică: 2. 25 22 35 21,5 a+25b
f(x)=a+bx, xÎR. 3. 36 28 57 27 a+36b
Pentru diferitele 4. 21 19 27 19,5 a+21b

valori ale lui a şi 5. 22 20 29 20 a+22b

b funcţia va lua 6. 19 19 23 18,5 a+19b

valori diferite. 7. 24 23 33 21 a+24b

Două cazuri 8. 32 27 49 25 a+32b

concrete şi unul
9. 38 32 61 28 a+38b
10. 26 25 37 22 a+26b
general este 11. 22 20 29 20 a+22b
redat în tabelul 12. 25 22 35 21,5 a+25b
următor. 13. 23 20 31 20,5 a+23b
14. 25 22 35 21,5 a+25b
15. 23 21 31 20,5 a+23b
Concepte

Chiar şi printr-o inspectare sumară a tabelului putem afirma că valorile w sunt mai bune decât
cele din coloana lui z. Dar trebuie să alegem cea mai bună pereche de alori a şi b. În continuarea
studiului trebuie să introducem o noţiune foarte importantă.
Definiţie:
Fie (xi,yi), i=1..m un set de date, f:RR o funcţie.
Variabila e definită prin ei = yi – f(xi) = y i  yˆ i , i=1..m, se numeşte variabilă reziduală, iar
valorile acestei variabile se numesc valori reziduale.
Este clar că în rezolvarea problemei contează valoarea absolută a valorilor reziduale, dar
pentru a lucra cu expresii luăm pătratele acestora. Expresia cea mai des utilizată este suma
pătratelor valorilor reziduale, care sumă vom numi pe scurt suma pătratică reziduală.
Estimarea parametrilor (1)
Înlocuind pe „Y" cu valoarea sa, relaţia devine:

 y i  a  bx i 2 = minim.

Derivând în raport cu „a" şi „b", anulând derivatele parţiale, se obţine


sistemul de ecuaţii normale:
na  b x i   y i

a x i  b x i   x i y i
unde “n” reprezintă numărul unităţilor observate, adică numărul perechilor (x,y).
Rezultă că y = a + bx sau a = y - bx, ceea ce înseamnă că dreapta de
regresie trece prin punctul mediu (x, y).
Rezolvând sistemul de ecuaţii normale, se obţin parametrii „a" şi „b".
Estimarea parametrilor (2)
i x i2 xi xi yi yi
1 324 18 306 17
2 625 25 550 22
3 1296 36 1008 28
4 441 21 399 19
5 484 22 440 20
6 361 19 361 19
7 576 24 552 23
8 1024 32 864 27
9 1444 38 1216 32
10 676 26 650 25
11 484 22 440 20
12 625 25 550 22
13 529 23 460 20
14 625 25 550 22
15 529 23 483 21
 10043 379 8829 337

yˆ  0.672758423  x  5.468303843
Interpretări
Coeficientul „a", care poate lua atât valori pozitive cât şi
negative, reprezintă ordonata la origine, respectiv
este valoarea lui „y" când “x” este egal cu zero.
Coeficientul „b" - denumit coeficient de regresie - arată
măsura în care variază caracteristica dependentă în
cazul în care caracteristica independentă se modifică
cu o unitate.
În funcţie de semnul coeficientului de regresie, putem
aprecia tipul de legătură: în cazul corelaţiei directe,
coeficientul are o valoare pozitivă; în cazul corelaţiei
inverse, valoarea lui este negativă; în cazul în care b
= 0, se apreciază că variabilele (y şi x) sunt
independente.
În graficul de corelaţie coeficientul „b" indică panta liniei
drepte.
Modele neliniare de regresie (1)
Modelul exponenţial transformat al ecuaţiei exponenţiale are la bază
ecuaţia:
y = a bx care se estimează folosind modelul:
Y = a bx + 
Prin logaritmare, modelul se poate transforma într-un model liniar de
forma:
lg Y = lg a + x lg b
Făcând următoarele înlocuiri:
Y’ = lg Y ; a' = lg a ; b' = lg b, rezultă ecuaţia unei drepte,
respectiv:
y' = a' + b' x
Modele neliniare de regresie (2)
Modelul hiperbolei
Legăturile dintre fenomenele economice pot fi şi de forma unei hiperbole.
În acest caz, dependenţa inversă dintre cele două variabile (x scade, y creşte sau
x creşte, y scade) se poate exprima prin ecuaţia:
1 
y   sau y
x x
Funcţia de estimaţie este:
1
Y  a b
xi

iar cei doi parametri rezultă din rezolvarea sistemului de ecuaţii normale:
 1
 na  b  x
  yi
 i
 1 1 1
a  b 2   y i
 xi xi xi
Modele neliniare de regresie (3)

Modelul logaritmic este dat de expresia:


y = a + b lg x, care se estimează prin modelul:
Y = a + b lg xi + ,
Când a > 0 şi b > 0 curba este crescătoare, iar când a > 0 şi b < 0 curba
este descrescătoare.
Folosind metoda celor mai mici pătrate se ajunge la următorul sistem de
ecuaţii normale:
na  b lg x i   y i

a lg x i  b  lg x i 2
  y i lg x i
MODELE DE REGRESIE MULTIFACTORIALĂ

(X11,X21,Y1)

3,5

(X12,X22,Y2) 3,0

2,5
(X13,X23,Y3)
(X14,X24,Y4) Y 2,0

Y5 1,5
(X15,X25,Y5)
1,0
X15 X25
4 3
X1 3 2 1 1 2
X2 0 -1 -1 0
-2 -3 -2
X1 -3 X2

Y' = a + b1*X1 + b2*X2. Y = (10 - X12 - X22)1/2


Metoda corelaţiei

Corelaţia parametrică (variabile măsurate


pe scala de raport)
Corelaţia neparametrică (variabile
măsurate pe scala nominală, ordinală sau
de interval)
Corelaţia parametrică
Metoda corelaţiei prezintă avantajul că oferă o măsură sintetică a
legăturilor dintre variabilele statistice. Indicatorii care măsoară
intensitatea legăturii sunt: covarianţa, coeficientul de corelaţie şi
raportul de corelaţie.
COVARIANŢA
Covarianţa se calculează sub forma mediei aritmetice simple a produselor
abaterilor celor două variabile corelate, x şi y, de la mediile lor aritmetice x şi y ,

conform relaţiei:
1 n  
  

cov x, y     xi  x    y i  y 
n i 1    
Covarianţa (2)
Covariaţia este nulă dacă variabilele sunt independente (lipsa legăturii de
corelaţie).
Valoarea sa absolută cov (x,y) nu are limită superioară. Pe măsură ce
intensitatea corelaţiei creşte şi covariaţia creşte.
Indicatorul reprezintă avantajul că se calculează destul de uşor. În acelaşi
timp, prezintă şi dezavantajul că depinde de unităţile în care se măsoară
variabilele aleatoare.
Deci nu este comparabil de la o variabilă la alta.
Indicatorul ia valori pozitive dacă legătura dintre variabile este directă şi
valori negative în coz contrar. Valori apropiate de zero semnifică lipsa
oricărei legături între x şi y; valori ridicate ale indicatorului arată o legătură
puternică.
COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ (1)

Este un indicator care măsoară numai intensitatea legăturii de tip liniar


dintre două variabile x şi y. Se calculează ca o medie aritmetică a produsului
abaterilor normale normate ale celor două variabile.
Notând abaterile normale normate ale variabilelor x şi y:

x x y y
zx  i ; zy  i
x y

rezultă următoarea relaţie de calcul:

x xy 
 x i  x y i  y    x i  x y i  y 
 x i  x  y i  y 2
n x  y 2

în care „n " este numărul observaţiilor-perechi.


Faţă de covarianţă rezultă că relaţia:

rxy 
cov x , y 

 x i  x y i  y 
xy n x  y

sau, altfel spus, covariaţia abaterilor normate z x, zy se transformă în coeficientul


de corelaţie liniară simplă.
COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ (2)

În practică se utilizează relaţia:


n x i y i   x i  y i
n x  
r
2
i
  x i 2 n y i2   y i 2

Coeficientul de corelaţie simplă se mai poate calcula şi cu relaţia:



rb x ,
y

în care:
b - este coeficientul de regresie simplă;
x - abaterea medie pătratică a caracteristicii factoriale;
y - abaterea medie pătratică a caracteristicii rezultative.
COEFICIENTUL DE CORELAŢIE LINIARĂ SIMPLĂ (3)

Coeficientul de corelaţie poate lua valori cuprinse între -1 şi


+1, adică satisface inegalităţile: - 1  ryx  1, iar semnul
său, ca şi cel al coeficientului de regresie, semnifică tipul
de legătură: semnul minus indică legătura inversă,
semnul plus indică legătura directă.
Cu cât coeficientul de corelaţie are valori mai apropiate de
1 sau –1, cu atât corelaţia rectilinie dintre variabilele x şi
y este mai puternică. Pe măsură ce coeficientul de
corelaţie se apropie de zero, scade şi intensitatea
legăturii dintre cele două variabile. În cazul în care ryx =
0, variabilele sunt independente ori necorelate liniar, iar
pentru egal cu unitatea, rezultă dependenţa funcţională
între cele două variabile.

S-ar putea să vă placă și