Sunteți pe pagina 1din 23

Modelul de regresie

clasic
CE ESTE REGRESIA?
Regresia este o metod statistic pentru studiul relaiei ntre o variabil
dependent i una sau mai multe variabile independente
Cauze
Funcia
Efect
Variabile
independente
f
Variabila
dependent
f(x1,x2,...,xn)=Y
REGRESIA Cnd i cum o utilizm?
Regresia se folosete pentru:
a determina o relaie cauzal
a testa o relaie cauzal
a previziona o variabil dependent n funcie de una sau mai multe
variabile independente
a explica efectul n funcie de cauze
Regresia simpla liniar descrie relaia liniar dintre o variabil
cauz, reprezentat pe axa ox i o variabil efect reprezentat pe axa
oy
Tipuri de corelaie
Corelaie pozitiv Corelaie negativ Nu exist corelaie
Specificarea unui model de regresie
Modelul liniar general de regresie unifactorial:
y= + x +
Parametrul arat modificarea proporional a variabilei efect (Y) la
modificarea(n medie) cu o unitate a variabilei cauz (X).
Parametrul arat punctul n care linia intercepteaz (taie) axa OY

i
reprezint componenta rezidual (eroarea aleatoare) pentru fiecare
unitate, adic partea din valoarea variabilei Y care nu poate fi msurat
prin relaia sistematic existent cu variabila X.
Componenta predictibil Variabila/eroarea aleatoare
Specificarea unui model de regresie
Modelul liniar unifactorial y=1+0,5x
X
Y
1.0
1
0,5
X
Y

Specificarea unui model de regresie


Se efectueaz o selecie de volum n : (x
i
,y
i
)
i=1...n
Pe baza acestei selecii se estimeaz parametrii ecuaiei de regresie
liniar simpl, i .
Modelul de regresie liniar observat este:
y
i
= a + bx
i
+ e
i
cu componenta predictibil:
a este estimatorul punctului de intercepie () obinut pe baza datelor din eantion
b este estimatorul pantei liniei drepte () obinut pe baza datelor din eantion
e
i
este valoarea rezidual (pentru unitatea i) n eantion:
e
i
= y
i
(a + bx
i
)
i i
bx a y + =
Estimarea parametrilor modelului de
regresie clasic
Metoda celor mai mici ptrate:
Pentru estimarea parametrilor i pe baza datelor observate, un
criteriu natural este cel de maximizare a potrivirii modelului cu datele
observate, deci de minimizare a erorilor observate:
2 2
min min ( )
i i i
i i
e y a bx =

Estimarea parametrilor modelului de
regresie clasic
2 2 2
2
2
( )( )
( )
i
i
i i i
i i i i
xy i i
i i
x i i
i
i i
i
i i
i i
a y bx
n y
x x y
x y nxy x x y y
s
b
s x x n x
x nx
x x

= = = =






Rezultate:
Estimarea parametrilor modelului de
regresie clasic
s
xy
este covariana ntre x i y.
Linii de regresie cu a) pant pozitiv b) pant negativ c) pant egal cu zero
o
y
x
o
y
x
o
y
x
=a+bx
=a+bx
=a+bx
b>0
b<0
b=0
c) b) a)
Estimatorul a (intercepia) poate lua valori negative sau positive.
Estimatorul b (panta liniei drepte) numit i coeficient de regresie are
ntotdeauna semnul indicatorului s
xy
,
Ipotezele modelului de regresie
liniar
Pentru a obine proprietile dorite ale estimatorilor regresiei, se
fac, de obicei, cinci presupuneri (ipoteze) standard pentru modelul
din populaia general:
Ipotezele ce trebuie verificate:
Forma funcional: y
i
= + x
i
+
i
, i=1,n
Normalitatea erorilor:
i
N(0, )
Media zero a erorilor: E(
i
)=0 i
Homoscedasticitatea:
2
(
i
)= constant i
Non autocorelarea erorilor: Cov(
i
,
j
)=0 ij
Necorelarea ntre regresor i erori: Cov(x
i
,
j
)=0 i i j
2

Ipoteza 1: Forma funcional


y=a+bx
y=a+bz, z=e
x
y=a+br, r=1/x
y=a+bq, q=ln(x)
Sau
y=Ax

ln(y)=+ln(x)
Forma general:
f(y
i
)= +g(x
i
)+
i
Contra exemplu:
nu poate fi transformat n model liniar.
-400
-200
0
200
400
600
800
1000
-1 0. 003 0.008 0.013 0. 018 0.023 0.028 0.033 0.038 0. 043 0.048 0.053 0. 058 0.063 0.068
X
Y
|

\
|
+
x
b a
1
x
be a +
bx a +
( ) x b a ln +
Modele ce pot fi linearizate
x
y
+
+ =

1
Erorile
Ipoteza de linearitate a modelului include i aditivitatea
erorilor.
Forma modelului:
y = + x + ,
De exemplu modelul se transform prin
logaritmare n modelul liniar: ln(y)=ln(A)+ln(x)+ .
ns modelul nu mai poate fi transformat n
model liniar.
Dac ipoteza de linearitate este verificat, variabila
dependent observat este suma a dou elemente:
un termen nestochastic: +x
o variabil aleatoare

e Ax y =

+ = Ax y
Ipoteza 2: normalitatea erorilor
Se presupune c variabila aleatoare
i
este normal distribuit :
Distribuia de probabilitate pentru
i
Ipoteza 3: media erorilor este
zero: E(
i
)=0 i
Este natural atta timp ct este vzut ca suma efectelor
individuale, cu semne diferite.
Aceast presupunere indic faptul c media valorilor Y,
condiionat de X, E (Y/X = X
i
) = + X
i
, adic nu exist
variabile omise asociate cu regresia n populaie.
Ipoteza 4 (de homoscedasticitate):
V(
i
)= constant i
2

o
y
x
o
y
x
a) b)
Dispersia reziduurilor a) constant; b) variabil
Ipoteza 5: Non autocorelarea
erorilor: E(
i

j
)=0 i j
Aceast ipotez nu implic faptul c y
i
i y
j
sunt necorelate,
ci faptul c deviaiile observaiilor de la valorile lor ateptate
sunt necorelate.
Variabilele aleatoare
i
sunt statistic independente una de
alta, adic , pentru i j.
Acest lucru nseamn c eroarea asociat cu o valoare a
variabilei Y nu are nici un efect asupra erorilor asociate cu
alte valori ale lui Y;
Nu exist deci corelaie ntre reziduuri;
OBSERVAIE: Este convenabil a considera c erorile sunt
independente i normal distribuite cu medie zero i
variaie constant pentru obinerea de rezultate statistice
exacte.
( ) 0
i j
E =
Testarea parametrilor modelului de
regresie
Estimatorii a i b ai coeficienilor din ecuaia de regresie n
colectivitatea general au distribuii de eantionare, cu urmtoarele
proprieti:
a i b sunt estimatori nedeplasai ai parametrilor i , adic:
a i b sunt estimatori consisteni ai parametrilor i , adic:
a i b sunt estimatori eficieni ai parametrilor i , adic:
orice alt estimator pentru i , i are dispersia mai mare dect
dispersia lui a i b
Distribuiile de eantionare ale estimatorilor a i b sunt normal
distribuite, cu mediile i i dispersiile: i
( )
E a = ( )
E b =
2
a
s
2
b
s
( )


=
2
2 2
1
x x
s s
i
e b
( )
2

2
2

=

n
y y
s
i i
e

=
=
=

=
|
|
|
|

\
|

+ =
n
i
i
n
i
i
e
n
i
i
e a
x x
x
s
x x
x
n
s s
1
2
1
2
2
1
2
2
2 2
) ( ) (
1
, b
p p
a
Testarea parametrilor modelului de
regresie
Parametrul (panta dreptei)
Testul bilateral:
H0: = 0
H1: 0
Test unilateral dreapta/stnga:
H0: = 0
H1: > 0 (H1: < 0)
Testul t:
Pentru testul bilateral: dac se respinge H
0
.
Pentru testul unilateral dreapta: dac se respinge H
0
.
Pentru testul unilateral stanga: dac se respinge H
0
.
p-value = cel mai mic nivel de semnificaie la care poate fi respins ipoteza nul.
=P(t>t
calc
sau t<-t
calc
|H
0
) pentru testul bilateral
=P(t>t
calc
|H
0
) pentru testul unilateral dreapta
=p(t<-t
calc
|H
0
) pentru testul unilateral stanga
Intervalul de ncredere pentru :
( ) 0
calc
b b b
b E b
b b
t
s s s


= = =
/ 2, 2
| | sau
calc n
t t p value

> <
b n b n
s t b s t b +
2 , 2 / 2 , 2 /

, 2
sau
calc n
t t p value

> <
, 2
sau
calc n
t t p value

< <
Testarea parametrilor modelului de
regresie
Parametrul
Testul bilateral:
H0: = 0
H1: 0
Test unilateral dreapta/stnga:
H0: = 0
H1: > 0 (H1: < 0)
Testul t:
Pentru testul bilateral: dac se respinge H
0
.
Pentru testul unilateral dreapta: dac se respinge H
0
.
Pentru testul unilateral stanga: dac se respinge H
0
.
p-value = cel mai mic nivel de semnificaie la care poate fi respins ipoteza nul.
=P(t>t
calc
sau t<-t
calc
|H
0
) pentru testul bilateral
=P(t>t
calc
|H
0
) pentru testul unilateral dreapta
=p(t<-t
calc
|H
0
) pentru testul unilateral stanga
Intervalul de ncredere pentru :
( ) 0
calc
a a a
a E a
a a
t
s s s


= = =
/ 2, 2
| | sau
calc n
t t p value

> <
/ 2, 2 / 2, 2 n a n a
a t s a t s


+
, 2
sau
calc n
t t p value

> <
, 2
sau
calc n
t t p value

< <
Determinarea msurii calitii
ajustrii
Abaterea medie ptratic a erorilor n eantion este:
( )
2
1

2 2
n
i i
i
e
y y
SSE
s
n n
=

= =

unde este un estimator nedeplasat al dispersiei reziduurilor


s
e
este util n compararea modelelor. Dac avem la dispoziie cteva modele
dintre care trebuie s alegem, cel mai potrivit a fi utilizat este cel pentru
care s
e
este mai sczut.
2
e
s
2

Interval de predicie pentru valori


particulare
( ) ( )
( )
( )
( )
( )
/ 2, 2 / 2, 2
2

2
1
2
2
2 2
1 1

unde
1
1
si
,
2 1
n P n y y y y
P
e y y n
i
i
n n
i i
i i
e x
y t S y y t S
x x
S s
n
x x
e x x
s s
n n

=
= =
+

= + +

= =


Interval de ncredere pentru media lui Y
( )
( )
( )
/ 2, 2 / 2, 2
2

2
1
2
2
2 2
1 1
( )
unde
1

si
,
2 1
n y n y
p
y e
n
i
i
n n
i i
i i
e x
y t S E y y t S
x x
S s
n
x x
e x x
s s
n n

=
= =
+

= +

= =

S-ar putea să vă placă și