Sunteți pe pagina 1din 30

Regresie si corelatie

Suport de curs Stud. Management economic 28 martie 2009

Bibliografie

+ Orice manual/ tratat recomandat la seciunea Bibliografie de pe site

Context
Statistica

dispune de o seam de metode de studiere a dependenelor dintre dou sau mai multe variabile. Printre acestea sunt i cele cuprinse n "analiza de regresie i corelaie". n cadrul acesteia se studiaz dependena dintre o variabil (caracteristic) rezultativ (y) i una sau mai multe variabile (caracteristici) independente (x). Caracteristica rezultativ se mai numete caracteristica dependent, endogen sau efect, iar caracteristica independent se mai numete caracteristica factorial, exogen sau cauz. Regresia ne arat cum (ca form analitic) o variabil este dependent de alt variabil (sau de alte variabile), iar corelaia ne arat gradul n care o variabil este dependent de o alt variabil (sau alte variabile).

Clasificri
a) dup numrul caracteristicilor independente luate n studiu: - legturi simple - legturi multiple b) dup direcia legturilor, acestea pot fi: - legturi directe - legturi inverse c) dup expresia analitic a legturilor, acestea pot fi: - legturi liniare - legturi neliniare (curbilinii) d) metode de abordare - metode simple (elementare) - metode analitice

METODE ELEMENTARE DE CARACTERIZARE A LEGTURILOR DINTRE VARIABILE

metoda seriilor paralele independente; metoda gruprilor; metoda tabelului de corelaie; metoda grafic.

Clasificri
a) dup numrul caracteristicilor independente luate n studiu: - legturi simple - legturi multiple b) dup direcia legturilor, acestea pot fi: - legturi directe - legturi inverse c) dup expresia analitic a legturilor, acestea pot fi: - legturi liniare - legturi neliniare (curbilinii) d) metode de abordare - metode simple (elementare) - metode analitice

Metoda seriilor paralele interdependente


Se ordoneaz observaiile n funcie de caracteristica independent x (cresctor sau descresctor) i se urmeaz modul n care se aranjeaz valorile lui y.

Concluzii:
- caracteristica y se ordoneaz aproximativ cresctor rezult c putem aprecia c ntre cele dou variabile exist o legtur direct; - caracteristica y se ordoneaz aproximativ descresctor rezult c putem aprecia c ntre cele dou variabile exist o legtur invers; - caracteristica y nu nregistreaz o tendin de ordonare (cresctor sau descresctor) - rezult c putem aprecia c ntre cele dou variabile nu exist legtur.

Metoda gruprilor
Se

repartizeaz unitilor n grupe omogene n funcie de o caracteristic independent. Pentru fiecare grup astfel constituit se centralizeaz datele numerice referitoare la caracteristica rezultativ i se calculeaz medii pe fiecare grup i mrimi relative. Prin comparaia variaiei caracteristicii independente cu indicatorii calculai pentru caracteristica rezultat se poate aprecia existena i forma legturilor dintre cele dou variabile.

Metoda tabelului de contingen


Tabelul de contingen este un tabel cu dubl intrare i prezint o grupare a unitilor unei colectivitii n funcie de dou caracteristici: una dependent i alta independent. Se folosete n special n cadrul unui numr mare de observaii. Dac considerm dou variabile naionalitate i religie, atunci tabelul poate fi de forma:

Exemplu - Tabel de contingen


Maghiar Romn General Slovaci Altele n1p n2p . . . nip . . . nr-1p nrp n.p ni. . . . nr-1. nr. n n1. n2. . . . . . . nip-1 . . . nr-1p-1 nrp-1 n.p-1 Religia/ Naionalitatea Ortodox Romanocatolic . . . General . . . Musulman Altele Total Total

. . . . . . . . . . . . .

n11 n21 . . . ni1 . . . nr-11 nr1 n.1

n12 n22 . . . ni2 . . . nr-12 nr2 n.2

. . . . . . . . . . . .

. . . . . . . . . . . .

n1j n2j . . . nij . . . nr-1j nrj n.j

. . . . . . . . . . . . .

n1p-1 n2p-1

Metoda grafic
Graficul se construiete pornind de le perechile de valori observate (x, y) care se reprezint n sistemul de axe rectangulare. Pe axa OX se reprezint variabila independent x, iar pe axa OY variabila dependent y.
x x x x x x x x x x

y x x x x 0 x

x x

x x

y x

x x x x xx

x x x x x x x

Fig . 8.4.

Fig . 8.5. Le g `tur` dire ct`

0 Fig . 8.6. Le g `tur` inve rs `

Regresia liniar (1)


Asumptii ale regresie liniare: A1. Toate variabilele independente sunt cantitative sau dihotomice. Variabilele sunt masurate fara eroare. A2. Toate variabilele independente au varianta nenula. A3. Nu are loc multicoliniaritate. A4. Valoarea medie a variabilei (eroare) este zero pentru orice multime de valori ale variabilelor independente. A5. Fiecare variabila independenta este necorelata cu variabila . A6. Varianta lui este constanta-- homoscedasticity. A7. Pentru oricare doua observatii, erorile sunt necorelate. A8. Pentru orice valori ale variabilelor independente, este distribuita normal. A1 - A7. : asumptiile Gauss-Markov

Regresia liniar (2)


S presupunem, c un cercettor, n cutarea partenerei ideale, i-a propus s studieze cstoriile reuite, n special n privina vrstei mirelui i a miresei la cstorie. Statistica a 15 csnicii considerate reuite, dup vrsta la cununie, este prezentat n tabelul urmtor
Numr curent 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. Media Abaterea standard Dispersia Mireasa (A) 17 22 28 19 20 19 23 27 32 25 20 22 20 22 21 22,466666667 3,862066229 14,915555556 Mirele (B) 18 25 36 21 22 19 24 32 38 26 22 25 23 25 23 25,266666667 5,579326921 31,128888889 vrsta (n ani mplinii) la cununie

Reprezentarea grafic
40
Vrsta mirelui

35 30 25 20 15 15 20 25 30 35
Vrsta m iresei

i y

Punerea problemei
Fie f:R->R o funcie liniar, avnd forma analitic: f(x)=a+bx, xR. Pentru diferitele valori ale lui a i b funcia va lua valori diferite. Dou cazuri concrete i unul general este redat n tabelul urmtor.
Nr. crt. i
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15.

Vrsta mirelui xi
18 25 36 21 22 19 24 32 38 26 22 25 23 25 23

Vrsta miresei yi
17 22 28 19 20 19 23 27 32 25 20 22 20 22 21

f(x)= 15+2x zi
21 35 57 27 29 23 33 49 61 37 29 35 31 35 31

f(x)=9+x/2 wi
18 21,5 27 19,5 20 18,5 21 25 28 22 20 21,5 20,5 21,5 20,5

f(x)=a+bx

a+18b a+25b a+36b a+21b a+22b a+19b a+24b a+32b a+38b a+26b a+22b a+25b a+23b a+25b a+23b

Concepte

Chiar i printr-o inspectare sumar a tabelului putem afirma c valorile w sunt mai bune dect cele din coloana lui z. Dar trebuie s alegem cea mai bun pereche de alori a i b. n continuarea studiului trebuie s introducem o noiune foarte important. Definiie: Fie (xi,yi), i=1..m un set de date, f:RR o funcie. Variabila e definit prin ei = yi f(xi ) = , i=1..m, se numete variabil rezidual , iar valorile acestei variabile se numesc valori reziduale. Este clar c n rezolvarea problemei conteaz valoarea absolut a valorilor reziduale, dar pentru a lucra cu expresii lum ptratele acestora. Expresia cea mai des utilizat este suma ptratelor valorilor reziduale, care sum vom numi pe scurt suma ptratic rezidual.

Estimarea parametrilor (1)


nlocuind pe Y" cu valoarea sa, relaia devine: = minim. Derivnd n raport cu a" i b", anulnd derivatele pariale, se obine sistemul de ecuaii normale:

unde n reprezint numrul unitilor observate, adic numrul perechilor (x,y). Rezult c y = a + bx sau a = y - bx, ceea ce nseamn c dreapta de regresie trece prin punctul mediu (x, y). Rezolvnd sistemul de ecuaii normale, se obin parametrii a" i b".

Estimarea parametrilor (2)


i

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

324 625 1296 441 484 361 576 1024 1444 676 484 625 529 625 529 10043

18 25 36 21 22 19 24 32 38 26 22 25 23 25 23 379

306 550 1008 399 440 361 552 864 1216 650 440 550 460 550 483 8829

17 22 28 19 20 19 23 27 32 25 20 22 20 22 21 337

= 0.672758423 x + 5.468303843 y

Coeficientul a", care poate lua att valori pozitive ct i negative, reprezint ordonata la origine, respectiv este valoarea lui y" cnd x este egal cu zero. Coeficientul b" - denumit coeficient de regresie - arat msura n care variaz caracteristica dependent n cazul n care caracteristica independent se modific cu o unitate. n funcie de semnul coeficientului de regresie, putem aprecia tipul de legtur: n cazul corelaiei directe, coeficientul are o valoare pozitiv; n cazul corelaiei inverse, valoarea lui este negativ; n cazul n care b = 0, se apreciaz c variabilele (y i x) sunt independente. n graficul de corelaie coeficientul b" indic panta liniei drepte.

Interpretri

Modele neliniare de regresie (1)


Modelul exponenial transformat al ecuaiei exponeniale are la baz ecuaia: y = a bx care se estimeaz folosind modelul: Y = a bx + Prin logaritmare, modelul se poate transforma ntr-un model liniar de forma: lg Y = lg a + x lg b Fcnd urmtoarele nlocuiri: Y = lg Y ; respectiv: y' = a' + b' x a' = lg a ; b' = lg b, rezult ecuaia unei drepte,

Modele neliniare de regresie (2)


Modelul hiperbolei Legturile dintre fenomenele economice pot fi i de forma unei hiperbole. n acest caz, dependena invers dintre cele dou variabile (x scade, y crete sau x crete, y scade) se poate exprima prin ecuaia:

Funcia de estimaie este:

iar cei doi parametri rezult din rezolvarea sistemului de ecuaii normale:

Modele neliniare de regresie (3)


Modelul logaritmic este dat de expresia: y = a + b lg x, care se estimeaz prin modelul: Y = a + b lg xi + , Cnd a > 0 i b > 0 curba este cresctoare, iar cnd a > 0 i b < 0 curba este descresctoare. Folosind metoda celor mai mici ptrate se ajunge la urmtorul sistem de ecuaii normale:

MODELE DE REGRESIE MULTIFACTORIAL

Y
(X11,X21,Y1)
3,5

(X12,X22,Y2) (X13,X23,Y3) (X14,X24,Y4) Y5 (X15,X25,Y5) X15 X25

3,0 2,5

2,0 1,5 1,0 4 3 2 1 2 3

X1

X2

0 -1 X1 -2 -3

1 -1 0 -3 -2 X2

Y' = a + b1*X1 + b2*X2.

Y = (10 - X12 - X22)1/2

Metoda corelaiei

Corelaia

parametric (variabile msurate pe scala de raport) Corelaia neparametric (variabile msurate pe scala nominal, ordinal sau de interval)

Corelaia parametric
Metoda corelaiei prezint avantajul c ofer o msur sintetic a legturilor dintre variabilele statistice. Indicatorii care msoar intensitatea legturii sunt: covariana, coeficientul de corelaie i raportul de corelaie.
COVARI ANA Covariana se calculeaz sub forma mediei aritmetice simple a produselor abaterilor celor dou variabile corelate, x i y, de la mediile lor aritmetice conform relaiei: i ,

Covariana (2)
Covariaia este nul dac variabilele sunt independente (lipsa legturii de corelaie). Valoarea sa absolut cov (x,y) nu are limit superioar. Pe msur ce intensitatea corelaiei crete i covariaia crete. Indicatorul reprezint avantajul c se calculeaz destul de uor. n acelai timp, prezint i dezavantajul c depinde de unitile n care se msoar variabilele aleatoare. Deci nu este comparabil de la o variabil la alta. Indicatorul ia valori pozitive dac legtura dintre variabile este direct i valori negative n coz contrar. Valori apropiate de zero semnific lipsa oricrei legturi ntre x i y; valori ridicate ale indicatorului arat o legtur puternic.

COEFICIENTUL DE CORELAIE LINIAR SIMPL (1)


Este un indicator care msoar numai intensitatea legturii de tip liniar dintre dou variabile x i y. Se calculeaz ca o medie aritmetic a produsului abaterilor normale normate ale celor dou variabile. Notnd abaterile normale normate ale variabilelor x i y:

rezult urmtoarea relaie de calcul:

n care n " este numrul observaiilor-perechi. Fa de covarian rezult c relaia:

sau, altfel spus, covariaia abaterilor normate zx, zy se transform n coeficientul de corelaie liniar simpl.

COEFICIENTUL DE CORELAIE LINIAR SIMPL (2)


n practic se utilizeaz relaia:

Coeficientul de corelaie simpl se mai poate calcula i cu relaia: , n care: b - este coeficientul de regresie simpl; x - abaterea medie ptratic a caracteristicii factoriale; y - abaterea medie ptratic a caracteristicii rezultative.

COEFICIENTUL DE CORELAIE LINIAR SIMPL (3)


Coeficientul de corelaie poate lua valori cuprinse ntre -1 i +1, adic satisface inegalitile: - 1 ryx 1, iar semnul su, ca i cel al coeficientului de regresie, semnific tipul de legtur: semnul minus indic legtura invers, semnul plus indic legtura direct. Cu ct coeficientul de corelaie are valori mai apropiate de 1 sau 1, cu att corelaia rectilinie dintre variabilele x i y este mai puternic. Pe msur ce coeficientul de corelaie se apropie de zero, scade i intensitatea legturii dintre cele dou variabile. n cazul n care ryx = 0, variabilele sunt independente ori necorelate liniar, iar pentru egal cu unitatea, rezult dependena funcional ntre cele dou variabile.