Sunteți pe pagina 1din 8

TEMA 11 REGRESIE I CORELAIE

Obiective

Cunoaterea conceptelor referitoare la regresie i corelaie
Analiza principalelor metode de regresie i corelaie



Cuprins
11.1 Concepte referitoare la regresie i corelaie 11.2
11.2 Modelul de regresie 11.3
11.3 Msurile numerice ale dependenei liniare 11.4
11.4 Evaluarea modelului de regresie 11.6
11.5 Prognoza cu modelul de regresie 11.7
11.6 Concepte cheie 11.8



11.2 MODULUL 4 METODE DE PROGNOZ
11. REGRESIE I CORELAIE
11.1 Concepte referitoare la regresie i corelaie
Metodele de regresie i corelaie se utilizeaz pentru a analiza relaiile dintre variabilele
cantitative de tip interval. Analiza de regresie se utilizeaz i pentru a face predicia asupra
valorii unei variabile statistice, pe baza datelor furnizate de alte variabile. Aceast metod se
utilizeaz pentru prognoz n multe modele economice n care se utilizeaz variabile ca:
cererea de produse, rata dobnzii, rata de schimb etc.
Metoda se bazeaz pe determinarea unei ecuaii matematice ce descrie relaia dintre
variabila care va fi prognozat, denumit variabil dependent (notat cu y) i variabilele
care sunt legate de aceast variabil, denumite variabile independente (notate cu x
1
, x
2
,..., x
k
).
Relaia funcional este:
y = f (x
1
, x
2
,..., x
k
).
Vom ncepe prin analiza grafic a relaiei dintre dou variabile statistice. n acest scop
vom construi o diagram de mprtiere (en: scatter diagram) prin reprezentarea ntr-un
sistem de axe de coordonate a valorilor celor dou variabile x i y date n tabelul urmtor:















Figura 11.1 Diagram de mprtiere

Din figur se observ c ntre cele dou variabile exist o relaie liniar pozitiv, adic
punctele se apropie de o linie (o dreapt), iar dreapta este cresctoare (Figura 11.2).











Figura 11.2 Relaia liniar direct
y
k
... y
2
y
1
y
x
k
... x
2
x
1
x
y
k
... y
2
y
1
y
x
k
... x
2
x
1
x
Diagrama de mprtiere
0
200
400
600
800
1000
0 20 40 60 80 100 120 140 160
Producia (buc.)
C
h
e
l
t
u
i
e
l
i

t
o
t
a
l
e

(
u
.
m
.
)
Diagrama de mprtiere
0
200
400
600
800
1000
0 20 40 60 80 100 120 140 160
Producia (buc.)
C
h
e
l
t
u
i
e
l
i

t
o
t
a
l
e

(
u
.
m
.
)


TEMA 11 REGRESIE I CORELAIE 11.3
11.2 Modelul de regresie
Modelul de regresie este un model probabilist (sau stohastic) deoarece variabilele
modelului sunt variabile aleatoare (sau variabile stohastice). Pentru a crea ns un model
probabilist, trebuie mai nti s crem un model determinist, care s stabileasc, cu ajutorul
unei relaii funcionale, legturile dintre variabilele modelului.

Modelul de regresie liniar (de ordinul I) va avea forma:
+ + = x y
1 0
,
unde:
y = variabila dependent;
x = variabila independent;

0
= intersecia cu axa Oy;

1
= panta (coeficientul unghiular al) dreptei de regresie;
= variabila de eroare.
Pentru estimarea coeficienilor
0
i
1
ai modelului de regresie liniar se utilizeaz
urmtorul algoritm:
[1]: Se extrage un eantion de valori (x
i
, y
i
) din populaia analizat;
[2]: Se calculeaz coeficienii
0
i
1
;
[3]: Se reprezint dreapta de regresie.
Coeficienii
0
i
1
ai modelului de regresie liniar se determin cu ajutorul metodei celor
mai mici ptrate, metod care determin dreapta (Figura 11.3) care minimizeaz suma:
( )

=

n
i
i i
y y
1
2
,
unde:
y
i
sunt valorile observate;

i
y sunt valorile calculate pe baza ecuaiei dreptei de regresie:
i i
x y
1 0

+ = .












Figura 11.3 Metoda celor mai mici ptrate

Coeficienii
0
i
1
se determin cu relaiile:
i i
x y
1 0

+ =
1
y
2
y
1
y
2
y
3
y
3
y
4
y
4
y
5
y
5
y
n
y
n
y i i
x y
1 0

+ =
1
y
2
y
1
y
2
y
3
y
3
y
4
y
4
y
5
y
5
y
n
y
n
y


11.4 MODULUL 4 METODE DE PROGNOZ
2
1

x
xy
s
s
= , x y =
1 0

,
unde:
( ) ( )

=
=
n
i
i i xy
y y x x s
1
,
( )

=
=
n
i
i x
x x s
1
2 2
,
n x x
n
i
i

=

=1
, n y y
n
i
i

=

=1
.
Relaiile de calcul simplificate pentru
xy
s i
2
x
s sunt:
n
y x
y x s
n
i
i
n
i
i n
i
i i xy

= =
=

=
1 1
1
,
n
x
x s
n
i
i
n
i
i x
2
1
1
2 2

=
=
.
Am menionat anterior i am analizat modelul de regresie liniar. n practic, exist
numeroase situaii cnd modelul liniar nu este adecvat, utilizndu-se modele de regresie
neliniare. Acestea pot fi modelate fie prin funcii polinomiale de grad 2 sau prin funcii
exponeniale sau logaritmice.
11.3 Msurile numerice ale dependenei liniare
Am descris anterior n mod grafic, cu ajutorul diagramei de mprtiere, legtura sau
dependena dintre dou variabile. Dac valorile reprezentate se situau aproximativ n
apropierea unei drepte ce putea fi trasat aveam o dependen liniar.
Vom determina n continuare msurile numerice ale dependenei liniare, i anume:
covariana;
corelaia.

Definiia 11.1 Covariana unei populaii statistice este prin definiie:
( )
( ) ( )
N
y x
y x
N
i
y i x i
=

=
1
, cov

.
Covariana unui eantion statistic este prin definiie:
( )
( ) ( )
1
, cov
1


=

=
n
y y x x
y x
n
i
i i
.


TEMA 11 REGRESIE I CORELAIE 11.5
Covariana eantionului poate fi determinat i cu o relaie de calcul simplificat de forma:
( )

= =
=
n
y x
y x
n
y x
n
i
i
n
i
i n
i
i i
1 1
1
1
1
, cov .
Dac cov(x,y) > 0, atunci avem o dependen liniar pozitiv ntre variabilele analizate
(aa cum se observ n Figura 11.4a).
Dac cov(x,y) < 0, atunci avem o dependen liniar negativ ntre variabilele analizate
(Figura 11.4b).
Dac cov(x,y) = 0, atunci nu avem o dependen liniar ntre variabilele analizate (Figura
11.4c.










Figura 11.4 Covariana i dependena liniar

Definiia 11.2 Coeficientul de corelaie al unei populaii statistice este prin definiie:
( )
( )
y x
y x
y x

=
, cov
, .
Coeficientul de corelaie al unui eantion statistic este prin definiie:
( )
( )
y x
s s
y x
y x r

=
, cov
, ,
unde
x
i
y
i respectiv s
x
i s
y
sunt abaterile standard.

Coeficientul de corelaie al eantionului (denumit i coeficientul Pearson) poate fi
determinat i cu o relaie de calcul simplificat:
( )

=
=
=
=
= =
=
n
y
y
n n
x
x
n
n
y x
y x
n
y x r
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i n
i
i i
2
1
1
2
2
1
1
2
1 1
1
1
1
1
1
1
1
, .
c) cov(x,y) = 0 b) cov(x,y) < 0 a) cov(x,y) > 0
y
x
y
x
y
x
c) cov(x,y) = 0 b) cov(x,y) < 0 a) cov(x,y) > 0
y
x
y
x
y
x


11.6 MODULUL 4 METODE DE PROGNOZ

Dac r(x,y) 1, atunci avem o corelaie liniar pozitiv ntre variabilele analizate (aa
cum se observ n Figura 11.5a).
Dac r(x,y) -1, atunci avem o corelaie liniar negativ ntre variabilele analizate
(Figura 11.5b).
Dac r(x,y) 0, atunci nu avem o corelaie liniar ntre variabilele analizate (Figura
11.5c).
n caz de egalitate la +1 sau 1 corelaia liniar este foarte puternic, iar punctele se vor
situa chiar pe dreapta de regresie











Figura 11.5 Corelaia liniar

11.4 Evaluarea modelului de regresie
Variabila de eroare , care apare n modelul de regresie trebuie s satisfac urmtoarele
condiii:

[1] Distribuia de probabilitate a lui este normal;
[2] Valoarea medie a lui este 0, adic:
M[]=0;
[3] Abaterea standard a lui , respectiv s

, este constant fa de valorile lui x;


[4] Valoarea lui asociat unei valori y este independent de alt valoare a lui y.

n modelul de regresie, abaterile de la dreapta de regresie ale valorilor observate:
i i i
y y e = ,
se numesc valori reziduale
Suma ptratelor acestor valori reziduale este:
( ) ( )

= =
n
i x
xy
y i i
s
s
s n y y SSE
1
2
2
2 2
1 .
Estimatorul nedeplasat al dispersiei variabilei de eroare
2

s este dat de relaia:


2
2

=
n
SSE
s

.
c) r(x,y) 0 b) r(x,y) 1 a) r(x,y) 1
y
x
y
x
y
x
c) r(x,y) 0 b) r(x,y) 1 a) r(x,y) 1
y
x
y
x
y
x
c) r(x,y) 0 b) r(x,y) 1 a) r(x,y) 1
y
x
y
x
y
x


TEMA 11 REGRESIE I CORELAIE 11.7
Rdcina ptrat a lui
2

s se numete eroarea standard a estimrii, adic:


2
2

= =
n
SSE
s s

.
Coeficientul de determinaie R
2
msoar intensitatea dependenei liniare dintre dou
variabile i este dat de relaia:
( )

=

=
n
i
i
y y
SSE
R
1
2
2
1 .
Coeficientul de determinaie este ptratul coeficientului de corelaie, adic
2 2
r R = .
Dac nu exist o relaie liniar ntre dou variabile, coeficientul de corelaie este 0, adic
0 = . Pentru a testa ipoteza statistic:

=
0 :
0 :
1
0

H
H
,
se utilizeaz statistica testului:
2
1
2
r
n
r t

= ,
unde t este o distribuie Student (t) cu = n 2 grade de libertate.
O alt metod de evaluare a modelului de regresie este analiza rezidual. O prim
abordare este reprezentarea grafic, cu ajutorul histogramei frecvenei relative a valorilor
reziduale. Cerina este ca histograma valorilor reziduale s pun n eviden normalitatea,
ceea ce ne arat faptul c eroarea este distribuit normal.
Cerina ca dispersia variabilei de eroare
2

s s fie constant se numete homoscedasticitate.


Nerespectarea acestei cerine privind constana dispersiei se numete heteroscedasticitate.
Alte elemente de evaluare ale modelului de regresie se refer la independena sau dependena
variabilelor i la prezena sau nu a valorilor extreme
11.5 Prognoza cu modelul de regresie
Dac modelul de regresie este adecvat, putem s l utilizm pentru a face o prognoz sau o
predicie asupra valorilor variabilei dependente. Pentru valoarea x
0
dat valoarea de predicie
punctual este:
0 1 0 0

x y + = ,
obinut prin nlocuirea valorii date n ecuaie de regresie.
Pentru predicia asupra unei valori individuale ale variabilei dependente, dat fiind o
valoare specificat x
0
a variabilei independente se utilizeaz intervalul de predicie de forma:
( )
( )
2
2
0
2 , 2
1
1
1
x
n
s n
x x
n
s t y

+ +

,
unde
0 1 0

x y + = , iar
2 , 2 n
t

este cuantila 2 a distribuiei Student (t) cu = n 2 grade


de libertate.


11.8 MODULUL 4 METODE DE PROGNOZ
Pentru estimarea valorii medii a variabilei dependente, dat fiind o valoare specificat x
0
a
variabilei independente se utilizeaz intervalul de ncredere de forma:
( )
( )
2
2
0
2 , 2
1
1

x
n
s n
x x
n
s t y

+

,
unde
0 1 0

x y + = , iar
2 , 2 n
t

este cuantila 2 a distribuiei Student (t) cu = n 2 grade


de libertate.

11.6 Concepte cheie


Variabil dependent
Variabil independent
Model de regresie liniar
Dreapt de regresie
Metoda celor mai mici
ptrate
Covarian
Coeficient de corelaie


Variabil de eroare
Valoare rezidual
Coeficient de determinare
Homoscedasticitate
Heteroscedasticitate
Interval de predicie
Interval de ncredere

S-ar putea să vă placă și