Sunteți pe pagina 1din 34

MODELUL REGRESIEI SIMPLE

n funcie de numrul de factori a cror variaie se consider


n explicarea variaiei fenomenului efect, y, exist:
- regresie simpl: cnd se consider variaia unui singur
factor: y=f(x) i
- regresie multipl: cnd se consider variaia mai multor
variabile explicative: y=f(x1, x2, , xk).
Metoda regresiei analizeaz relaiile existente ntre
variabila explicat i variabilele explicative, pe baza datelor
observate pentru aceste variabile.
Se poate stabili care din factori au o influen semnificativ,
gradul lor de esenialitate i cunoscnd influena variabilelor
factoriale asupra variaiei fenomenului explicat, se pot face
previziuni ale valorilor variabilei y pentru anumite valori date ale
variabilelor x.

Metoda celor mai mici ptrate - ipoteze


Metoda celor mai mici ptrate, atribuit matematicianului german Carl Friederich
Gauss, este una din cele mai des utilizate metode de estimare a ecuaiilor de regresie a
sondajelor statistice. Principiul acestei metode const n minimizarea sumei ptratelor
abaterilor valorilor empirice fa de cele teoretic estimate, adic minimizarea sumei
ptratelor reziduurilor.
Aplicarea acestei metode se bazeaz pe urmtoarele ipoteze presupuse adevrate:
1. Modelul este liniar n xi (sau n oricare transformare a lui xi).
2. Valorile lui xi sunt observate fr erori (xi este nealeator).
3. Media (operatorul E) erorilor este zero: E(i / xi)=0
Aceast ipotez spune de fapt c toi factorii neexplicitai de model, i dealtfel cuprini n
i, nu afecteaz n mod sistematic valoarea medie a lui y, adic valorile lor pozitive se
anuleaz cu cele negative astfel nct efectul lor mediu asupra lui y este zero.
4. Homoscedasticitatea sau variaia (V dispersia, varian) egal a erorilor 2.

V i / xi E i E i E i2 2
2

Variana erorilor pentru fiecare xi (variana condiionat a lui i) este un numr


pozitiv constant i egal cu 2 sau altfel spus, populaiile lui y, corespunztoare valorilor
xi, au aceeai
varian. Situaia opus se numete heteroscedasticitate i se poate nota:
2
V i / xi i , i unde variana nu mai este constant, i=1,n.

5. Nu exist corelaia (covariana) erorilor.


cov( i , j ) E[ i E ( i )][ j E ( j )] E ( i j ) 0

pentru oricare i j.

Pentru anumite valori date xi, abaterile oricror dou valori y de la valoarea
lor medie nu prezint nici o tendin.
6. Erorile sunt independente de variabila explicativ. Nu exist corelaie ntre
erori i valorile x.

cov( i , xi ) E[ i E ( i )][ xi E ( xi )] E[ i ( xi E ( xi ))]


E ( i x i ) E ( xi ) E ( i ) E ( i xi ) 0

pentru c E i 0 din ipoteza 3.

7. Modelul de regresie este corect specificat. O investigaie econometric


ncepe prin specificarea modelului econometric.
Problemele sunt: ce variabile ar trebui incluse n model, care este forma
funcional a modelului (este liniar n parametri, n variabile sau ambele?)

Proprietile estimatorilor metodei celor mai mici ptrate


Estimatorii metodei celor mai mici ptrate au urmtoarele proprieti:

liniari, adic o funcie liniar a unei variabile aleatoare, cum ar fi variabila


y n modelul de regresie;

nedeplasai, media estimatorului din toate eantioanele posibile, de


volum n sau valoarea ateptat a estimatorului E (a1 ) este egal cu
valoarea adevrat a parametrului, a1 ;

eficieni, adic are variana minim.

Teorema lui Gauss-Markov se enun astfel:


Date fiind ipotezele modelului liniar clasic de regresie, estimatorii celor
mai mici ptrate, din clasa estimatorilor liniari nedeplasai, au varian
minim; se poate spune c sunt BLUE (Best Linear Unbiased
Estimators).

Liniaritatea

liniaritatea n variabile - cu un neles natural nseamn c media condiional (n


sensul de valoarea medie ateptat - n econometrie, apare termenul de speran
matematic) a variabilei y este o funcie liniar a lui xi. Operatorul de speran
matematic se noteaz cu litera E. Dreapta de regresie a populaiei reprezint
tendina medie i se scrie: E(y/xi)=a0 + a1xi.

liniaritatea n parametrii este cnd distribuia condiional a variabilei y, E(y/xi)


este o funcie liniar a parametrilor, adic toi sunt la puterea 1, in timp ce variabilele
x pot sau nu s fie liniare.

Termenul de regresie liniar nsemn ntotdeauna, liniaritatea n parametrii


necunoscui; indiferent dac exist liniaritate n variabilele explicative.

Astfel, exemple de modele liniare sunt:


E(y/xi)=a0 + a1xi, liniar n parametrii i n variabile i
E(y/xi)=a0 + a1xi2, liniar n parametrii i neliniar n variabile.

Un model neliniar n parametrii este:


.
Pentru regresia liniar este relevant termenul de liniaritate n parametrii.

E ( y / xi ) a 0 a1 xi

Liniaritatea estimatorului a1
n

a1

x
i 1
n

x yi

x
i

i 1

i 1

unde
ki

xi x

x
i

yi k i yi
i 1

i 1

xi x
n

x
i
i 1

Estimatorul a1 este o funcie liniar a variabilei


y, valorile ki servind ca ponderi ale valorilor
centrate fa de medie ale variabilei y.

Proprietile ponderilor ki sunt:


a) valorile ki sunt nealeatoare, pentru c se
presupune
c i valorile xi sunt nealeatoare;
n
n

( xi x ) 0
b) k i 0 ; este evident, la numrtor
.
i 1
i 1

c)
i 1

2
i

1
n

(x
i 1

x)

i 1

i 1

d) k i ( xi x ) k i xi 1 .

(1)

Aceste proprieti se pot verifica pe baza


definiiei lui ki:
n

b)

( xi x )

k
i 1

i 1

2
(
x

x
)
i
i 1

1
n

2
(
x

x
)
i

(x
i 1

x) 0

i 1

c)

i 1

i 1

2
k
i

( xi x ) 2

(x
i 1

x)
2

2
(
x

x
)
i

i 1

(x
i 1

x)
2

1
n

2
(
x

x
)
i
i 1
n

d)

k i ( xi x )
i 1

( xi x )

i 1

2
(
x

x
)
i
i 1

( xi x )

2
(
x

x
)
i
i 1
n

2
(
x

x
)
i
i 1

d)

( xi x )

k i xi
i 1

i 1

2
(
x

x
)
i

xi

i 1

( xi x ) xi
i 1
n

2
(
x

x
)
i

i 1

2
x
i
n

i 1

xi
i 1

2
(
x

x
)
i
i 1

2
x

i
i 1

i 1

i 1

i 1

2
(
x

x
)
i
i 1

i 1
n

2
(
x

x
)
i

xi

2
x
i x xi

i 1

2
(
x

x
)
i
i 1
n

2
(
x

x
)
i
i 1

Se nlocuiete valoarea yi cu funcia de regresie a


populaiei, n definiia combinaiei liniare a
estimatorului a1 , i innd seama de proprietile
ponderilor ki, rezult:

Liniaritatea estimatorului a1
n

i 1

i 1

i 1

i 1

i 1

a1 k i yi k i (a0 a1 xi i ) a0 k i a1 k i xi k i i

(2) n

a1 k i i
i 1

Pentru c o proprietate a valorilor ki este c sunt valori


nealeatoare, rezult c pot fi considerate constante i trecnd
la medie, E, relaia obinut anterior, devine:
n

E i 0
E ( a1 ) a1 k i E ( i ) a1
i 1
, pentru c
.
a1 din ipoteze

Astfel s-a demonstrat ca estimatorul


este un estimator
nedeplasat pentru a1.
a 0
La fel se poate demonstra i pentru

Liniaritatea estimatorului a 0
1 n
1 n
a 0 y a1 x yi a1 x (a 0 a1 xi i ) a1 x
n i 1
n i 1
1 n
1 n
a0 a1 xi i a1 x a 0 a1 x a1 x a 0 x a1 a1
n i 1
n i 1

Folosind relaia (2) i ipoteza E i 0 se obine:


n

a 0 a 0 x (a1 a1 ) a 0 x k i i
i 1

Aplicnd operatorul medie se poate demonstra ca i


a 0

a0

este un estimator nedeplasat pentru

Liniaritatea estimatorului a 0
n

E (a 0 ) E[a 0 x (a1 a1 )] a 0 x k i E ( i ) a 0
i 1

n
1

a 0 a0 x a1 a1 x k i i i 1 i k i x i wi
n
n i 1
i 1
i 1
n

1
wi k i x
n

Proprietile ponderilor wi sunt:


n
1

wi
k i x 1 x k i 1

i 1
i 1 n
i 1
n

1.

1
1
1

2. E ( wi ) E n k i x n x E (k i ) n

3.

2
w

k
x

i
i
n

i 1
i 1
n

n
n
1
1
2
2
n 2 2 x k i x k i
n
n
i 1
i 1

x2
n

2
(
x

x
)
i
i 1

Dispersia reziduurilor
n

na 0 a1 xi y i
n

i 1
n

i 1
n

a 0 xi a1 xi2 xi y i
i 1

i 1

i 1

Precizia estimatorilor modelului de regresie liniar simpl se


msoar prin erorile lor standard. Aceste erori se obin prin
extragerea rdcinii ptrate din dispersiile estimatorilor.
2

Formulele varianelor estimatorilor se obin n funcie de


2

estimatorul varianei (dispersiei) reziduurilor sau simplu, .


Estimatorul dispersiei reziduurilor se obine prin raportarea
sumei ptratelor reziduurilor la numrul gradelor de libertate
n-2:
2
2
2
e

yi yi
ei
i i


2 i
i
n2
n2
n2

Varianele estimatorilor

var(a1 ) E[a1 E (a1 )] 2 E ( a1 a1 ) 2 , pentru ca E (a1 ) a1


n

E ( k i i ) 2
i 1

E (k12 12 k 22 22 .... k n2 n2 2k1 k 2 1 2 ... 2k n 1 k n n 1 n )

var(a1 )

k
i 1

2
i

2
n

2
(
x

x
)
i
i 1

var(a 0 ) E[ a 0 E ( a 0 )]2 E ( a 0 a 0 ) 2 , pentru c E ( a 0 ) a 0


n

E ( wi i ) 2
i 1

E ( w12 12 w22 22 .... wn2 n2 2 w1 w2 1 2 ... 2wn 1 wn n 1 n )

x2

var(a 0 ) w n
n
2
i 1
(
x

x
)

i 1

2
i

Precizia i erorile standard ale estimatorilor


Abaterile estimatorilor sunt:

a1 V a1

a0 V a 0

1
x2

n xi x 2
i

Dependena estimatorilor se msoar prin covariana lor:


cov a 0 , a1 E[(a0 E ( a0 ))(a1 E ( a1 ))] E[(a0 a0 )(a1 a1 )]
n

i 1

i 1

E[( wi i )( ki i )] E w11 w2 2 .. wn n k11 k 2 2 .. k n n

2
w
k

i i i
i 1

E w k w2 k ..... w1k11 2 ... w1k n 1 n ... E


2
1 1 1

1

E ki x ki
2 E


i 1 n

ki
2
ki x
E

n

i 1 n
n

1
2
E ki2 x
2 n
x
x var(a1 )
2
i 1
(
x

x
)
i
2

2
2 2

i 1

E
ki x

i 1

2
k

i
i 1

Estimatori liniari nedeplasai

a1 k i y i cu

ki

i 1

xi

xi
i 1

Se definete un alt estimator liniar i nedeplasat pentru


parametrul a1, fiind tot o medie ponderat cu alte ponderi
vi, nu n mod intenionat egale cu ponderile ki:
n

a1 vi y i
i 1

i 1

i 1

i 1

i 1

E
(
a
1 ) v i E ( y i ) vi ( a 0 a1 x i ) a 0 v i a1 v i x i

Pentru ca s fie un estimator


nedeplasat,
trebuie s fie
n
n
ndeplinit condiiile: vi 0 i vi xi 1 .
i 1

i 1

Estimatori liniari nedeplasai i eficieni

vi y i v var( y i )

i 1
i 1

pentru c var( yi ) var( i ) 2.

var(a ) var

2
i

( xi x )

( xi x )

var(a1 ) 2 vi n
n

2
2
i 1
( xi x )
( xi x )

i 1
i 1

i 1

(x

i 1

( xi x )

i 1

vi

(x
i 1

x)

1
n

( xi x ) 2
i 1

( xi x )
n

(x
i 1

x)
2

i 1

( xi x )

2
v
i

( xi x )
vi n

( xi x ) 2

i 1

2 vi n

2
i 1
( xi x )

i 1

var(a1 )

i 1

x)
2

( xi x ) 2

2

i 1

( xi x )
vi n
var(a1 )

( xi x ) 2

i 1

este constant var(a1 ) este minim cnd vi k i .

var(a )

2
n

2
(
x

x
)
i

var(a1 )

i 1

var(
a
1 ) var(a1 ) i estimatorul nu va mai fi de
n caz contrar
varian minim. Dac exist un estimator de varian
minim acela este cel al metodei celor mai mici ptrate. n
mod similar se poate arta i pentru a 0 c este estimatorul
de varian minim pentru parametrul a 0 .
a1

a1

distribuia lui

a1

a
distribuia lui 1

a
a
distribuia lui 1 i 1

Tabela de regresie simpl


cuprinde n sumarul su, SUMMARY OUTPUT, trei pri:
Regression Statistics,
tabelul ANOVA i
informaiile despre estimatorii coeficienilor modelului liniar.
Regression Statistics conine informaii cu caracter general despre
variabilele implicate n analiza de regresie:

coeficientul de corelaie multipl Multiple R, care la regresia simpl este


coeficientul de corelaie liniar simpl, r;
coeficientul de determinaie R2, numit R Square arat validitatea modelului.
Adjusted R Square care este R2 ajustat cu un anumit numr de grade de
libertate;
Standard Error este eroarea medie standard a valorilor teoretice ale lui y i se
calculeaz ca o abatere medie ptratic a valorilor empirice fa de cele
teoretice:
n
n

y
i i
i 1

n k 1

2
e
i
i 1

n k 1

Observations reprezint n este numrul de observri ale variabilei dependente,


care este egal cu numrul de valori ale variabilei (variabilelor) independente xi.

Coeficientul de determinaie.
n

R
2

y2 / x

2
y

( yi y )
i 1
n

2
(
y

y
)
i
i 1

( yi yi )
i 1
n

2
(
y

y
)
i

1 N

i 1

R2 arat n ce msur modelul ales explic variaia lui Y, altfel spus,


este o msur a validitii modelului. 0 < R2 < 1, cu ct este mai
apropiat de 1 cu att modelul este mai bun.

Raportul de corelaie
Raportul de corelaie are semnul coeficientului de regresie b,
i are aceeai semnificaie ca i coeficientul de corelaie, r.
n

y2 / x
y2

(
y

y
)
i
i 1
n

2
(
y

y
)
i
i 1

(
y

y
)
i i
i 1
n

2
(
y

y
)
i
i 1

Coeficientul de corelaie
-1 < r < 1
n

cov( X , Y )
r=

(x
i 1

x )( y i y )
n

cov(X,Y )
x y

n x y x y
n

r
xy

i 1

i i

i 1

i 1

n x2
x n y2
i 1 i i 1 i i 1 i
n

y
n

i 1

Tabelul de analiz a varianei pentru


regresia simpl
Sursa variaiei
reziduuri

Suma ptratelor

Grade
libertate

Ptrate
medii

SSR ( yt y t ) 2 et2

n-2

SSR/(n-2)

SSE ( y t y ) 2

SSE/1

x
Total

SST ( yt y ) 2

n-1

Testul Fisher este un test de verificare a semnificaiei globale a regresiei, n


cazul regresiei multiple. n cazul regresiei simple, aceast semnificaie se
reduce la semnificaia influenei variabilei x asupra variaiei
caracteristicii
2
variabilei y.
R
*
SSE / 1

F*

F * F10,n.05
2

SSR /(n 2)

(1 R 2 ) /(n 2)

Dac ,
se respinge ipoteza de egalitate a varianelor (H0 ipoteza
nul), variabila x fiind semnificativ pentru variaia variabilei y. n caz contrar
se accept aceast ipotez de egalitate a varianelor.

Informaiile despre estimatorii coeficienilor modelului


n coloana Coefficients - valorile estimate ale coeficienilor
,i i=1,k,
modelului liniar a
Intercept - estimatorul termenului constant, 0, care poate fi zero
dac s-a optat pentru Constant is Zero i
estimatorii coeficienilor variabilelor explicative: 1, ..., n la X
Variable 1, X Variable 2, ... n ordinea declarrii variabilelor
explicative;
Standard Error, abaterile standard ale estimatorilor; arat cu ct
variaz n medie, n plus sau n minus valorile estimate ale
coeficienilor fa de parametrii pe care i estimeaz
valorile Student, t*, pentru fiecare estimator, pentru verificarea
semnificaiei acestuia fa de 0;
P-value, corespunztoare pragului de semnificaie , ncepnd de la
care valoarea estimatorului este semnificativ diferit de zero,
limitele intervalului de ncredere ale estimatorilor: inferioar Lower
95% i superioar Upper 95%, cu o probabilitate de 95%, implicit, iar
la cerere se pot solicita i alte valori ale probabilitii: 99%, 90%, etc.

Funcii de regresie a populaiei i a eantioanelor

E ( y / xi ) a 0 a1 xi
Funcia de regresie a eantioanelor y i a 0 a1 xi

Funcia de regresie a populaiei

Dreapta de regresie a populaiei i a eantionului


210

190

170

150

130

yi

110

E(y/x)

yi
ei
E(y/xi)

90

70
0

50

100

150

200

y-es

250

300

yt-es

350

400

yt-pop

450

500

550

Consecine ale ipotezelor:


construirea testelor
teste de verificare a semnificaiei estimatorului
varianei erorilor i intervalul de ncredere al
estimatorului varianei erorilor, ca fiind
consecine ale ipotezei de normalitate a erorilor;
teste de verificare a semnificaiei estimatorilor i
ai parametrilor i din ecuaia de regresie a
populaiei, precum i intervalul lor de ncredere,
estimat cu o anumit probabilitate;
testul Fisher de verificare a semnificaiei globale
a regresiei.

Testul de semnificaie al estimatorului


e

2
i

2
2
2
Estimatorul 2varianei erorilor , notat este: i
.
n2

2
a1
2
(
x

x
)
i i
2
(n 2) 2 urmeaz o lege 2
Ipoteza de normalitate a erorilor implic:

cu n-2 grade de libertate.

a 0 a 0
a1 a1
i
urmeaz o lege normal centrat redus N(0,1).
a0
a1

2
a2
(n 2) 2 (n 2) 2

urmeaz o lege cu n-2 grade de libertate.

a 0 a 0
a1 a1
Rezult c:
i
urmeaz o lege Student cu n-2 grd. lib.
a0
a1
Testul de semnificaie al estimatorilor i intervalele de ncredere ale
acestora apar ca fiind consecine ale ipotezei de normalitate a erorilor.

Teoria testelor statistice: raia Student


- ipoteza nul

H0:

a1 0

- ipoteza alternativ

H1:

a1 0

Dac se respinge ipoteza nul H0, la un prag fixat, atunci estimatorul


este considerat ca fiind semnificativ diferit de 0.
Pragul de semnificaie cel mai des utilizat este =0.05, adic un risc de
a respinge H0, n mod nentemeiat, de 5%.
raie Student

a1 0
a1

t a1
a1
a1

Intervalul de ncredere al estimatorilor

H0 cu probabilitatea P=1-
H1
/2

H1
/2
I

/ 2 0.025
n 2 grd .lib .

a1

Intervalul de ncredere al parametrului

0.025
t n/22grd
.lib .

a1 este:

IC a1 a1 a1 t n/22

Intervalul de ncredere al previziunii cu


modelul regresiei simple
y n 1 a 0 a1 x n 1

en 1 y n 1 y n 1

en 1 (a0 a1 x n 1 n 1 ) (a 0 a1 x n 1 ) (a0 a 0 ) (a1 a1 ) x n 1 n 1


Se calculeaz variana erorii de previziune care permite determinarea
unui interval de ncredere pentru previziune.
var(en 1 ) var( y n 1 y n 1 ) var ( a 0 a 0 ) ( a1 a1 ) x n 1 n 1

2
E ( a 0 a 0 ) ( a1 a1 ) x n 1 n 1

E ( a 0 ) 2 x n21 E ( a1 ) 2 E ( n 1 ) 2 2 x n 1 cov(a 0 , a1 )

2 1

2
x2
2

x n 1
2 2 x n 1 ( x var(a1 ))
2
2
( xt x )

n ( xt x )
t
t

x n21
x2
2 1

1
n ( xt x ) 2 ( xt x ) 2

t
t

2
(
x

x
)
1
n 1
2
1
2
n ( xt x )

2 x n 1 x

2
(
x

x
)
t t

Previziuni cu modelul regresiei simple


Abaterea medie ptratic a erorii de previziune este:
y n 1

1 ( x n 1 x ) 2
n
1
n
2
(
x

x
)
t
t 1

Rezult intervalul de ncredere IC al variabilei y la n+1:

ICy n 1 y n 1 t n/22

1 ( x n 1 x ) 2

1
2
n ( xt x )
t

S-ar putea să vă placă și