Obiective
Cunoaterea conceptelor referitoare la regresie i corelaie
Analiza principalelor metode de regresie i corelaie
Cuprins
11.1 Concepte referitoare la regresie i corelaie 11.2
11.2 Modelul de regresie 11.3
11.3 Msurile numerice ale dependenei liniare 11.4
11.4 Evaluarea modelului de regresie 11.6
11.5 Prognoza cu modelul de regresie 11.7
11.6 Concepte cheie 11.8
11.2 MODULUL 4 METODE DE PROGNOZ
11. REGRESIE I CORELAIE
11.1 Concepte referitoare la regresie i corelaie
Metodele de regresie i corelaie se utilizeaz pentru a analiza relaiile dintre variabilele
cantitative de tip interval. Analiza de regresie se utilizeaz i pentru a face predicia asupra
valorii unei variabile statistice, pe baza datelor furnizate de alte variabile. Aceast metod se
utilizeaz pentru prognoz n multe modele economice n care se utilizeaz variabile ca:
cererea de produse, rata dobnzii, rata de schimb etc.
Metoda se bazeaz pe determinarea unei ecuaii matematice ce descrie relaia dintre
variabila care va fi prognozat, denumit variabil dependent (notat cu y) i variabilele
care sunt legate de aceast variabil, denumite variabile independente (notate cu x
1
, x
2
,..., x
k
).
Relaia funcional este:
y = f (x
1
, x
2
,..., x
k
).
Vom ncepe prin analiza grafic a relaiei dintre dou variabile statistice. n acest scop
vom construi o diagram de mprtiere (en: scatter diagram) prin reprezentarea ntr-un
sistem de axe de coordonate a valorilor celor dou variabile x i y date n tabelul urmtor:
Figura 11.1 Diagram de mprtiere
Din figur se observ c ntre cele dou variabile exist o relaie liniar pozitiv, adic
punctele se apropie de o linie (o dreapt), iar dreapta este cresctoare (Figura 11.2).
Figura 11.2 Relaia liniar direct
y
k
... y
2
y
1
y
x
k
... x
2
x
1
x
y
k
... y
2
y
1
y
x
k
... x
2
x
1
x
Diagrama de mprtiere
0
200
400
600
800
1000
0 20 40 60 80 100 120 140 160
Producia (buc.)
C
h
e
l
t
u
i
e
l
i
t
o
t
a
l
e
(
u
.
m
.
)
Diagrama de mprtiere
0
200
400
600
800
1000
0 20 40 60 80 100 120 140 160
Producia (buc.)
C
h
e
l
t
u
i
e
l
i
t
o
t
a
l
e
(
u
.
m
.
)
TEMA 11 REGRESIE I CORELAIE 11.3
11.2 Modelul de regresie
Modelul de regresie este un model probabilist (sau stohastic) deoarece variabilele
modelului sunt variabile aleatoare (sau variabile stohastice). Pentru a crea ns un model
probabilist, trebuie mai nti s crem un model determinist, care s stabileasc, cu ajutorul
unei relaii funcionale, legturile dintre variabilele modelului.
Modelul de regresie liniar (de ordinul I) va avea forma:
+ + = x y
1 0
,
unde:
y = variabila dependent;
x = variabila independent;
0
= intersecia cu axa Oy;
1
= panta (coeficientul unghiular al) dreptei de regresie;
= variabila de eroare.
Pentru estimarea coeficienilor
0
i
1
ai modelului de regresie liniar se utilizeaz
urmtorul algoritm:
[1]: Se extrage un eantion de valori (x
i
, y
i
) din populaia analizat;
[2]: Se calculeaz coeficienii
0
i
1
;
[3]: Se reprezint dreapta de regresie.
Coeficienii
0
i
1
ai modelului de regresie liniar se determin cu ajutorul metodei celor
mai mici ptrate, metod care determin dreapta (Figura 11.3) care minimizeaz suma:
( )
=
n
i
i i
y y
1
2
,
unde:
y
i
sunt valorile observate;
i
y sunt valorile calculate pe baza ecuaiei dreptei de regresie:
i i
x y
1 0
+ = .
Figura 11.3 Metoda celor mai mici ptrate
Coeficienii
0
i
1
se determin cu relaiile:
i i
x y
1 0
+ =
1
y
2
y
1
y
2
y
3
y
3
y
4
y
4
y
5
y
5
y
n
y
n
y i i
x y
1 0
+ =
1
y
2
y
1
y
2
y
3
y
3
y
4
y
4
y
5
y
5
y
n
y
n
y
11.4 MODULUL 4 METODE DE PROGNOZ
2
1
x
xy
s
s
= , x y =
1 0
,
unde:
( ) ( )
=
=
n
i
i i xy
y y x x s
1
,
( )
=
=
n
i
i x
x x s
1
2 2
,
n x x
n
i
i
=
=1
, n y y
n
i
i
=
=1
.
Relaiile de calcul simplificate pentru
xy
s i
2
x
s sunt:
n
y x
y x s
n
i
i
n
i
i n
i
i i xy
= =
=
=
1 1
1
,
n
x
x s
n
i
i
n
i
i x
2
1
1
2 2
=
=
.
Am menionat anterior i am analizat modelul de regresie liniar. n practic, exist
numeroase situaii cnd modelul liniar nu este adecvat, utilizndu-se modele de regresie
neliniare. Acestea pot fi modelate fie prin funcii polinomiale de grad 2 sau prin funcii
exponeniale sau logaritmice.
11.3 Msurile numerice ale dependenei liniare
Am descris anterior n mod grafic, cu ajutorul diagramei de mprtiere, legtura sau
dependena dintre dou variabile. Dac valorile reprezentate se situau aproximativ n
apropierea unei drepte ce putea fi trasat aveam o dependen liniar.
Vom determina n continuare msurile numerice ale dependenei liniare, i anume:
covariana;
corelaia.
Definiia 11.1 Covariana unei populaii statistice este prin definiie:
( )
( ) ( )
N
y x
y x
N
i
y i x i
=
=
1
, cov
.
Covariana unui eantion statistic este prin definiie:
( )
( ) ( )
1
, cov
1
=
=
n
y y x x
y x
n
i
i i
.
TEMA 11 REGRESIE I CORELAIE 11.5
Covariana eantionului poate fi determinat i cu o relaie de calcul simplificat de forma:
( )
= =
=
n
y x
y x
n
y x
n
i
i
n
i
i n
i
i i
1 1
1
1
1
, cov .
Dac cov(x,y) > 0, atunci avem o dependen liniar pozitiv ntre variabilele analizate
(aa cum se observ n Figura 11.4a).
Dac cov(x,y) < 0, atunci avem o dependen liniar negativ ntre variabilele analizate
(Figura 11.4b).
Dac cov(x,y) = 0, atunci nu avem o dependen liniar ntre variabilele analizate (Figura
11.4c.
Figura 11.4 Covariana i dependena liniar
Definiia 11.2 Coeficientul de corelaie al unei populaii statistice este prin definiie:
( )
( )
y x
y x
y x
=
, cov
, .
Coeficientul de corelaie al unui eantion statistic este prin definiie:
( )
( )
y x
s s
y x
y x r
=
, cov
, ,
unde
x
i
y
i respectiv s
x
i s
y
sunt abaterile standard.
Coeficientul de corelaie al eantionului (denumit i coeficientul Pearson) poate fi
determinat i cu o relaie de calcul simplificat:
( )
=
=
=
=
= =
=
n
y
y
n n
x
x
n
n
y x
y x
n
y x r
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i n
i
i i
2
1
1
2
2
1
1
2
1 1
1
1
1
1
1
1
1
, .
c) cov(x,y) = 0 b) cov(x,y) < 0 a) cov(x,y) > 0
y
x
y
x
y
x
c) cov(x,y) = 0 b) cov(x,y) < 0 a) cov(x,y) > 0
y
x
y
x
y
x
11.6 MODULUL 4 METODE DE PROGNOZ
Dac r(x,y) 1, atunci avem o corelaie liniar pozitiv ntre variabilele analizate (aa
cum se observ n Figura 11.5a).
Dac r(x,y) -1, atunci avem o corelaie liniar negativ ntre variabilele analizate
(Figura 11.5b).
Dac r(x,y) 0, atunci nu avem o corelaie liniar ntre variabilele analizate (Figura
11.5c).
n caz de egalitate la +1 sau 1 corelaia liniar este foarte puternic, iar punctele se vor
situa chiar pe dreapta de regresie
Figura 11.5 Corelaia liniar
11.4 Evaluarea modelului de regresie
Variabila de eroare , care apare n modelul de regresie trebuie s satisfac urmtoarele
condiii:
[1] Distribuia de probabilitate a lui este normal;
[2] Valoarea medie a lui este 0, adic:
M[]=0;
[3] Abaterea standard a lui , respectiv s
= =
n
i x
xy
y i i
s
s
s n y y SSE
1
2
2
2 2
1 .
Estimatorul nedeplasat al dispersiei variabilei de eroare
2
=
n
SSE
s
.
c) r(x,y) 0 b) r(x,y) 1 a) r(x,y) 1
y
x
y
x
y
x
c) r(x,y) 0 b) r(x,y) 1 a) r(x,y) 1
y
x
y
x
y
x
c) r(x,y) 0 b) r(x,y) 1 a) r(x,y) 1
y
x
y
x
y
x
TEMA 11 REGRESIE I CORELAIE 11.7
Rdcina ptrat a lui
2
= =
n
SSE
s s
.
Coeficientul de determinaie R
2
msoar intensitatea dependenei liniare dintre dou
variabile i este dat de relaia:
( )
=
=
n
i
i
y y
SSE
R
1
2
2
1 .
Coeficientul de determinaie este ptratul coeficientului de corelaie, adic
2 2
r R = .
Dac nu exist o relaie liniar ntre dou variabile, coeficientul de corelaie este 0, adic
0 = . Pentru a testa ipoteza statistic:
=
0 :
0 :
1
0
H
H
,
se utilizeaz statistica testului:
2
1
2
r
n
r t
= ,
unde t este o distribuie Student (t) cu = n 2 grade de libertate.
O alt metod de evaluare a modelului de regresie este analiza rezidual. O prim
abordare este reprezentarea grafic, cu ajutorul histogramei frecvenei relative a valorilor
reziduale. Cerina este ca histograma valorilor reziduale s pun n eviden normalitatea,
ceea ce ne arat faptul c eroarea este distribuit normal.
Cerina ca dispersia variabilei de eroare
2
+ +
,
unde
0 1 0
x y + = , iar
2 , 2 n
t
x
n
s n
x x
n
s t y
+
,
unde
0 1 0
x y + = , iar
2 , 2 n
t