Sunteți pe pagina 1din 8

TEMA 11 REGRESIE I CORELAIE Obiective

Cunoaterea conceptelor referitoare la regresie i corelaie Analiza principalelor metode de regresie i corelaie

Cuprins
11.1 Concepte referitoare la regresie i corelaie 11.2 Modelul de regresie 11.3 Msurile numerice ale dependenei liniare 11.4 Evaluarea modelului de regresie 11.5 Prognoza cu modelul de regresie 11.6 Concepte cheie 11.2 11.3 11.4 11.6 11.7 11.8

11.2

MODULUL 4 METODE DE PROGNOZ

11. REGRESIE I CORELAIE


11.1 Concepte referitoare la regresie i corelaie
Metodele de regresie i corelaie se utilizeaz pentru a analiza relaiile dintre variabilele cantitative de tip interval. Analiza de regresie se utilizeaz i pentru a face predicia asupra valorii unei variabile statistice, pe baza datelor furnizate de alte variabile. Aceast metod se utilizeaz pentru prognoz n multe modele economice n care se utilizeaz variabile ca: cererea de produse, rata dobnzii, rata de schimb etc. Metoda se bazeaz pe determinarea unei ecuaii matematice ce descrie relaia dintre variabila care va fi prognozat, denumit variabil dependent (notat cu y) i variabilele care sunt legate de aceast variabil, denumite variabile independente (notate cu x1, x2,..., xk). Relaia funcional este: y = f (x1, x2,..., xk). Vom ncepe prin analiza grafic a relaiei dintre dou variabile statistice. n acest scop vom construi o diagram de mprtiere (en: scatter diagram) prin reprezentarea ntr-un sistem de axe de coordonate a valorilor celor dou variabile x i y date n tabelul urmtor:

x y

x1 y1

x2 y2
Diagrama de mpr tiere

... ...

xk yk

1000

Cheltuieli totale (u.m.)

800 600 400 200 0 0 20 40 60 80 100 120 140 160

Producia (buc.)

Figura 11.1 Diagram de mprtiere

Din figur se observ c ntre cele dou variabile exist o relaie liniar pozitiv, adic punctele se apropie de o linie (o dreapt), iar dreapta este cresctoare (Figura 11.2).
Diagrama de mpr tiere
1000

Cheltuieli totale (u.m.)

800 600 400 200 0 0 20 40 60 80 100 120 140 160

Producia (buc.)

Figura 11.2 Relaia liniar direct

TEMA 11 REGRESIE I CORELAIE

11.3

11.2 Modelul de regresie


Modelul de regresie este un model probabilist (sau stohastic) deoarece variabilele modelului sunt variabile aleatoare (sau variabile stohastice). Pentru a crea ns un model probabilist, trebuie mai nti s crem un model determinist, care s stabileasc, cu ajutorul unei relaii funcionale, legturile dintre variabilele modelului. Modelul de regresie liniar (de ordinul I) va avea forma: y = 0 + 1 x + , unde: y = variabila dependent; x = variabila independent; 0 = intersecia cu axa Oy; 1 = panta (coeficientul unghiular al) dreptei de regresie; = variabila de eroare. Pentru estimarea coeficienilor 0 i 1 ai modelului de regresie liniar se utilizeaz urmtorul algoritm: [1]: Se extrage un eantion de valori (xi, yi) din populaia analizat; [2]: Se calculeaz coeficienii 0 i 1; [3]: Se reprezint dreapta de regresie. Coeficienii 0 i 1 ai modelului de regresie liniar se determin cu ajutorul metodei celor mai mici ptrate, metod care determin dreapta (Figura 11.3) care minimizeaz suma:

(y
i =1

i ) , y
2

unde:

yi sunt valorile observate; i sunt valorile calculate pe baza ecuaiei dreptei de regresie: y + x. = y
i 0 1 i

yn

+ x i = y 0 1 i

y4 3 y

5 y

n y

y2

4 y

y5

1 y y1

y3 2 y

Figura 11.3 Metoda celor mai mici ptrate

Coeficienii 0 i 1 se determin cu relaiile:

11.4

MODULUL 4 METODE DE PROGNOZ

= 1 unde:

s xy s
2 x

= y x, , 0 1

s xy = ( xi x ) ( yi y ) ,
i =1

2 sx = ( xi x ) , 2 i =1

n x = xi n , i =1

n y = yi n . i =1

2 Relaiile de calcul simplificate pentru s xy i s x sunt:

s xy = xi yi
i =1

xi yi
i =1 i =1

n
2

n xi n 2 sx = xi2 i =1 . n i =1

Am menionat anterior i am analizat modelul de regresie liniar. n practic, exist numeroase situaii cnd modelul liniar nu este adecvat, utilizndu-se modele de regresie neliniare. Acestea pot fi modelate fie prin funcii polinomiale de grad 2 sau prin funcii exponeniale sau logaritmice.

11.3 Msurile numerice ale dependenei liniare


Am descris anterior n mod grafic, cu ajutorul diagramei de mprtiere, legtura sau dependena dintre dou variabile. Dac valorile reprezentate se situau aproximativ n apropierea unei drepte ce putea fi trasat aveam o dependen liniar. Vom determina n continuare msurile numerice ale dependenei liniare, i anume: covariana; corelaia.
Definiia 11.1 Covariana unei populaii statistice este prin definiie:

cov( x, y ) =

(x ) (y
N i =1 i x

y )

Covariana unui eantion statistic este prin definiie:

cov( x, y ) =

(x x ) ( y
i =1 i

y)

n 1

TEMA 11 REGRESIE I CORELAIE

11.5

Covariana eantionului poate fi determinat i cu o relaie de calcul simplificat de forma:


n n x i yi n 1 i =1 . xi yi i =1 cov( x, y ) = n 1 i =1 n

Dac cov(x,y) > 0, atunci avem o dependen liniar pozitiv ntre variabilele analizate (aa cum se observ n Figura 11.4a). Dac cov(x,y) < 0, atunci avem o dependen liniar negativ ntre variabilele analizate (Figura 11.4b). Dac cov(x,y) = 0, atunci nu avem o dependen liniar ntre variabilele analizate (Figura 11.4c.
y y y

a) cov(x,y) > 0

b) cov(x,y) < 0

c) cov(x,y) = 0

Figura 11.4 Covariana i dependena liniar

Definiia 11.2 Coeficientul de corelaie al unei populaii statistice este prin definiie:

( x, y ) =

cov( x, y ) . x y

Coeficientul de corelaie al unui eantion statistic este prin definiie:


r ( x, y ) = cov( x, y ) , sx s y

unde x i y i respectiv sx i sy sunt abaterile standard.


Coeficientul de corelaie al eantionului (denumit i coeficientul Pearson) poate fi determinat i cu o relaie de calcul simplificat:
n n x i yi n 1 i =1 xi yi i =1 n 1 i =1 n . 2 2 n n yi xi n n 1 1 yi2 i =1 xi2 i =1 n 1 n 1 i =1 n n i =1

r ( x, y ) =

11.6

MODULUL 4 METODE DE PROGNOZ

Dac r(x,y) 1, atunci avem o corelaie liniar pozitiv ntre variabilele analizate (aa cum se observ n Figura 11.5a). Dac r(x,y) -1, atunci avem o corelaie liniar negativ ntre variabilele analizate (Figura 11.5b). Dac r(x,y) 0, atunci nu avem o corelaie liniar ntre variabilele analizate (Figura 11.5c). n caz de egalitate la +1 sau 1 corelaia liniar este foarte puternic, iar punctele se vor situa chiar pe dreapta de regresie
y y y

a) r(x,y) 1

b) r(x,y) 1

c) r(x,y) 0

Figura 11.5 Corelaia liniar

11.4 Evaluarea modelului de regresie


Variabila de eroare , care apare n modelul de regresie trebuie s satisfac urmtoarele condiii:
[1] Distribuia de probabilitate a lui este normal; [2] Valoarea medie a lui este 0, adic:

M[]=0;
[3] Abaterea standard a lui , respectiv s , este constant fa de valorile lui x; [4] Valoarea lui asociat unei valori y este independent de alt valoare a lui y.

n modelul de regresie, abaterile de la dreapta de regresie ale valorilor observate: i , ei = yi y se numesc valori reziduale Suma ptratelor acestor valori reziduale este:
2 n 2 s xy i )2 = (n 1) s y SSE = ( yi y 2 . sx i =1

Estimatorul nedeplasat al dispersiei variabilei de eroare s2 este dat de relaia:

s2 =

SSE . n2

TEMA 11 REGRESIE I CORELAIE

11.7

Rdcina ptrat a lui s2 se numete eroarea standard a estimrii, adic:


s = s2 = SSE . n2

Coeficientul de determinaie R2 msoar intensitatea dependenei liniare dintre dou variabile i este dat de relaia:

R2 = 1

SSE

(y
i =1

y)

Coeficientul de determinaie este ptratul coeficientului de corelaie, adic R 2 = r 2 . Dac nu exist o relaie liniar ntre dou variabile, coeficientul de corelaie este 0, adic = 0 . Pentru a testa ipoteza statistic:
H 0 : = 0 , H1 : 0

se utilizeaz statistica testului:


t = r n2 , 1 r2

unde t este o distribuie Student (t) cu = n 2 grade de libertate. O alt metod de evaluare a modelului de regresie este analiza rezidual. O prim abordare este reprezentarea grafic, cu ajutorul histogramei frecvenei relative a valorilor reziduale. Cerina este ca histograma valorilor reziduale s pun n eviden normalitatea, ceea ce ne arat faptul c eroarea este distribuit normal. Cerina ca dispersia variabilei de eroare s2 s fie constant se numete homoscedasticitate. Nerespectarea acestei cerine privind constana dispersiei se numete heteroscedasticitate. Alte elemente de evaluare ale modelului de regresie se refer la independena sau dependena variabilelor i la prezena sau nu a valorilor extreme

11.5 Prognoza cu modelul de regresie


Dac modelul de regresie este adecvat, putem s l utilizm pentru a face o prognoz sau o predicie asupra valorilor variabilei dependente. Pentru valoarea x0 dat valoarea de predicie punctual este:
+ x , 0 = y 0 1 0

obinut prin nlocuirea valorii date n ecuaie de regresie. Pentru predicia asupra unei valori individuale ale variabilei dependente, dat fiind o valoare specificat x0 a variabilei independente se utilizeaz intervalul de predicie de forma:

t 2,n 2 s 1 + y

1 ( x0 x ) , + 2 n (n 1) s x
2

+ x , iar t = unde y 0 1 0 2, n 2 este cuantila 2 a distribuiei Student (t) cu = n 2 grade

de libertate.

11.8

MODULUL 4 METODE DE PROGNOZ

Pentru estimarea valorii medii a variabilei dependente, dat fiind o valoare specificat x0 a variabilei independente se utilizeaz intervalul de ncredere de forma: t 2,n 2 s y 1 ( x0 x ) + , 2 n (n 1) s x
2

+ x , iar t = unde y 0 1 0 2, n 2 este cuantila 2 a distribuiei Student (t) cu = n 2 grade

de libertate.

11.6 Concepte cheie

Variabil dependent Variabil independent Model de regresie liniar Dreapt de regresie Metoda celor mai mici ptrate Covarian Coeficient de corelaie

Variabil de eroare Valoare rezidual Coeficient de determinare Homoscedasticitate Heteroscedasticitate Interval de predicie Interval de ncredere

S-ar putea să vă placă și