Documente Academic
Documente Profesional
Documente Cultură
clasic
CE ESTE REGRESIA?
Regresia este o metod statistic pentru studiul relaiei ntre o variabil
dependent i una sau mai multe variabile independente
Cauze
Funcia
Efect
Variabile
independente
f
Variabila
dependent
f(x1,x2,...,xn)=Y
REGRESIA Cnd i cum o utilizm?
Regresia se folosete pentru:
a determina o relaie cauzal
a testa o relaie cauzal
a previziona o variabil dependent n funcie de una sau mai multe
variabile independente
a explica efectul n funcie de cauze
Regresia simpla liniar descrie relaia liniar dintre o variabil
cauz, reprezentat pe axa ox i o variabil efect reprezentat pe axa
oy
Tipuri de corelaie
Corelaie pozitiv Corelaie negativ Nu exist corelaie
Specificarea unui model de regresie
Modelul liniar general de regresie unifactorial:
y= + x +
Parametrul arat modificarea proporional a variabilei efect (Y) la
modificarea(n medie) cu o unitate a variabilei cauz (X).
Parametrul arat punctul n care linia intercepteaz (taie) axa OY
i
reprezint componenta rezidual (eroarea aleatoare) pentru fiecare
unitate, adic partea din valoarea variabilei Y care nu poate fi msurat
prin relaia sistematic existent cu variabila X.
Componenta predictibil Variabila/eroarea aleatoare
Specificarea unui model de regresie
Modelul liniar unifactorial y=1+0,5x
X
Y
1.0
1
0,5
X
Y
= = = =
Rezultate:
Estimarea parametrilor modelului de
regresie clasic
s
xy
este covariana ntre x i y.
Linii de regresie cu a) pant pozitiv b) pant negativ c) pant egal cu zero
o
y
x
o
y
x
o
y
x
=a+bx
=a+bx
=a+bx
b>0
b<0
b=0
c) b) a)
Estimatorul a (intercepia) poate lua valori negative sau positive.
Estimatorul b (panta liniei drepte) numit i coeficient de regresie are
ntotdeauna semnul indicatorului s
xy
,
Ipotezele modelului de regresie
liniar
Pentru a obine proprietile dorite ale estimatorilor regresiei, se
fac, de obicei, cinci presupuneri (ipoteze) standard pentru modelul
din populaia general:
Ipotezele ce trebuie verificate:
Forma funcional: y
i
= + x
i
+
i
, i=1,n
Normalitatea erorilor:
i
N(0, )
Media zero a erorilor: E(
i
)=0 i
Homoscedasticitatea:
2
(
i
)= constant i
Non autocorelarea erorilor: Cov(
i
,
j
)=0 ij
Necorelarea ntre regresor i erori: Cov(x
i
,
j
)=0 i i j
2
ln(y)=+ln(x)
Forma general:
f(y
i
)= +g(x
i
)+
i
Contra exemplu:
nu poate fi transformat n model liniar.
-400
-200
0
200
400
600
800
1000
-1 0. 003 0.008 0.013 0. 018 0.023 0.028 0.033 0.038 0. 043 0.048 0.053 0. 058 0.063 0.068
X
Y
|
\
|
+
x
b a
1
x
be a +
bx a +
( ) x b a ln +
Modele ce pot fi linearizate
x
y
+
+ =
1
Erorile
Ipoteza de linearitate a modelului include i aditivitatea
erorilor.
Forma modelului:
y = + x + ,
De exemplu modelul se transform prin
logaritmare n modelul liniar: ln(y)=ln(A)+ln(x)+ .
ns modelul nu mai poate fi transformat n
model liniar.
Dac ipoteza de linearitate este verificat, variabila
dependent observat este suma a dou elemente:
un termen nestochastic: +x
o variabil aleatoare
e Ax y =
+ = Ax y
Ipoteza 2: normalitatea erorilor
Se presupune c variabila aleatoare
i
este normal distribuit :
Distribuia de probabilitate pentru
i
Ipoteza 3: media erorilor este
zero: E(
i
)=0 i
Este natural atta timp ct este vzut ca suma efectelor
individuale, cu semne diferite.
Aceast presupunere indic faptul c media valorilor Y,
condiionat de X, E (Y/X = X
i
) = + X
i
, adic nu exist
variabile omise asociate cu regresia n populaie.
Ipoteza 4 (de homoscedasticitate):
V(
i
)= constant i
2
o
y
x
o
y
x
a) b)
Dispersia reziduurilor a) constant; b) variabil
Ipoteza 5: Non autocorelarea
erorilor: E(
i
j
)=0 i j
Aceast ipotez nu implic faptul c y
i
i y
j
sunt necorelate,
ci faptul c deviaiile observaiilor de la valorile lor ateptate
sunt necorelate.
Variabilele aleatoare
i
sunt statistic independente una de
alta, adic , pentru i j.
Acest lucru nseamn c eroarea asociat cu o valoare a
variabilei Y nu are nici un efect asupra erorilor asociate cu
alte valori ale lui Y;
Nu exist deci corelaie ntre reziduuri;
OBSERVAIE: Este convenabil a considera c erorile sunt
independente i normal distribuite cu medie zero i
variaie constant pentru obinerea de rezultate statistice
exacte.
( ) 0
i j
E =
Testarea parametrilor modelului de
regresie
Estimatorii a i b ai coeficienilor din ecuaia de regresie n
colectivitatea general au distribuii de eantionare, cu urmtoarele
proprieti:
a i b sunt estimatori nedeplasai ai parametrilor i , adic:
a i b sunt estimatori consisteni ai parametrilor i , adic:
a i b sunt estimatori eficieni ai parametrilor i , adic:
orice alt estimator pentru i , i are dispersia mai mare dect
dispersia lui a i b
Distribuiile de eantionare ale estimatorilor a i b sunt normal
distribuite, cu mediile i i dispersiile: i
( )
E a = ( )
E b =
2
a
s
2
b
s
( )
=
2
2 2
1
x x
s s
i
e b
( )
2
2
2
=
n
y y
s
i i
e
=
=
=
=
|
|
|
|
\
|
+ =
n
i
i
n
i
i
e
n
i
i
e a
x x
x
s
x x
x
n
s s
1
2
1
2
2
1
2
2
2 2
) ( ) (
1
, b
p p
a
Testarea parametrilor modelului de
regresie
Parametrul (panta dreptei)
Testul bilateral:
H0: = 0
H1: 0
Test unilateral dreapta/stnga:
H0: = 0
H1: > 0 (H1: < 0)
Testul t:
Pentru testul bilateral: dac se respinge H
0
.
Pentru testul unilateral dreapta: dac se respinge H
0
.
Pentru testul unilateral stanga: dac se respinge H
0
.
p-value = cel mai mic nivel de semnificaie la care poate fi respins ipoteza nul.
=P(t>t
calc
sau t<-t
calc
|H
0
) pentru testul bilateral
=P(t>t
calc
|H
0
) pentru testul unilateral dreapta
=p(t<-t
calc
|H
0
) pentru testul unilateral stanga
Intervalul de ncredere pentru :
( ) 0
calc
b b b
b E b
b b
t
s s s
= = =
/ 2, 2
| | sau
calc n
t t p value
> <
b n b n
s t b s t b +
2 , 2 / 2 , 2 /
, 2
sau
calc n
t t p value
> <
, 2
sau
calc n
t t p value
< <
Testarea parametrilor modelului de
regresie
Parametrul
Testul bilateral:
H0: = 0
H1: 0
Test unilateral dreapta/stnga:
H0: = 0
H1: > 0 (H1: < 0)
Testul t:
Pentru testul bilateral: dac se respinge H
0
.
Pentru testul unilateral dreapta: dac se respinge H
0
.
Pentru testul unilateral stanga: dac se respinge H
0
.
p-value = cel mai mic nivel de semnificaie la care poate fi respins ipoteza nul.
=P(t>t
calc
sau t<-t
calc
|H
0
) pentru testul bilateral
=P(t>t
calc
|H
0
) pentru testul unilateral dreapta
=p(t<-t
calc
|H
0
) pentru testul unilateral stanga
Intervalul de ncredere pentru :
( ) 0
calc
a a a
a E a
a a
t
s s s
= = =
/ 2, 2
| | sau
calc n
t t p value
> <
/ 2, 2 / 2, 2 n a n a
a t s a t s
+
, 2
sau
calc n
t t p value
> <
, 2
sau
calc n
t t p value
< <
Determinarea msurii calitii
ajustrii
Abaterea medie ptratic a erorilor n eantion este:
( )
2
1
2 2
n
i i
i
e
y y
SSE
s
n n
=
= =
2
1
2
2
2 2
1 1
unde
1
1
si
,
2 1
n P n y y y y
P
e y y n
i
i
n n
i i
i i
e x
y t S y y t S
x x
S s
n
x x
e x x
s s
n n
=
= =
+
= + +
= =
Interval de ncredere pentru media lui Y
( )
( )
( )
/ 2, 2 / 2, 2
2
2
1
2
2
2 2
1 1
( )
unde
1
si
,
2 1
n y n y
p
y e
n
i
i
n n
i i
i i
e x
y t S E y y t S
x x
S s
n
x x
e x x
s s
n n
=
= =
+
= +
= =