Documente Academic
Documente Profesional
Documente Cultură
Curs6 8
Curs6 8
1
Regresia scurt istoric al termenului
Sir Francis Galton(1822-1911) spirit enciclopedic al perioadei victoriene,
este cel care a introdus termenii de regresie i corelaie statistic
Originea regresiei ca metod statistic se afl n studiile sale de genetic
aplicat n studiul plantelor- 1877
Plantnd boabe dintr-un anumit soi de mazre dulce a observat c exist o
legtur liniar ntre diametrele acestor boabe i diametrele boabelor
recoltate de la noile plante. El a numit iniial panta acestei drepte
coefficient of reversion, schimbndu-i apoi numele n coefficient of
regression.
Termenul de regresie provine de la descoperirile sale n domeniul ereditii:
n general, progeniturile indivizilor geniali au abiliti care i aaz mai
degrab la nivelul mediei; de asemenea, nalimea copiilor provenii din tai
foarte nali se apropie mai mult de nlimea medie dect nlimea tailor.
2
Modele
Un model este o reprezentare a unui anumit fenomen
Model matematic - o reprezentare matematic a unui
fenomen
De cele mai multe ori un model descrie legturile
existente ntre dou sau mai multe variabile
n general, snt dou clase de modele:
Modele deterministe
Modele probabiliste
3
Modele deterministe Modele probabiliste
Exprim o relaie Componenta determinist
exact ntre variabile Componenta aleatoare
Teoretic, eroarea de Eroarea de previziune este
previziune este nul nenul
Componenta aleatoare
Exemplu: poate fi datorat factorilor
Principiul al doilea al obiectivi, ce nu snt inclui n
mecanicii newtoniene: model
F = m.a Exemplu: Volumul
vnzrilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare
4
Tipuri de modele probabiliste
PModele
P r roo bb aa bb i il li iss t ti icc
MM oo dd ee l lss
probabiliste
Modele
RR ee gg r ree ss ssde
i ioo nn Modele
CC oo r rr ree l laa tde
ti ioo nn AlteOO t thh eer r
MM oo dd ee l lss
regresie MM oo dd ee l lss
corelatie MM oo dd ee l lss
modele
5
Regresia metod de modelare a legturilor dintre variabile
6
Exemplu: Legea lui Keynes privind legtura dintre
venit i consum
Suma cheltuit pentru consum depinde de:
mrimea venitului pe de o parte
alte obiective n funcie de circumstane (de exemplu
investiiile)
alte nevoi subiective
O persoan este dispus de regul i n medie s i creasc
consumul pe msura creterii venitului dar nu n aceeai msur
dC
0 1
dV
Modelul de regresie: C=+V+ , unde 0<<1 .
7
Ipotezele modelului de regresie
(Ipotezele Gauss-Markov)
1. Normalitatea
Valorile Y snt normal distribuite pentru orice X
Erorile snt normal distribuite cu medie zero E(i)=0 i
2. Homoscedasticitatea (dispersie constant)
E
2 2
i
3. Necorelarea erorilor E(i k)=0 (i<>k)
4. Liniaritatea Y i X i
5. Variabilele snt msurate fr eroare
(caracter nestochastic) Cov( X i , j ) 0, i, j
8
Forma funcional
Ipoteza de linearitate nu este att de restrictiv pe ct pare.
Aceasta se refer la felul n care parametrii intr n ecuaie, nu
neaprat la relaia ntre variabilele x i y.
n general modele pot fi linearizate.
y=a+bx
y=a+bz, z=ex
y=a+br, r=1/x
y=a+bq, q=ln(x)
y= x ln(y)=+ln(x)
Forma general: f(yi)= +g(xi)+i
Contra exemplu: y
1
nu poate fi transformat n
model liniar. x
9
Modele ce pot fi linearizate
Y
1000
1 x
a b a be
x
800
600
a bx
400
200
a b ln x
0
-1 0.003 0.008 0.013 0.018 0.023 0.028 0.033 0.038 0.043 0.048 0.053 0.058 0.063 0.068
X
-200
-400
10
Ipoteza c media erorilor este zero: E(i)=0 i, este
natural atta timp ct este vzut ca suma efectelor
individuale, cu semne diferite. Dac media erorilor este diferit
de zero, ea poate fi considerat ca o parte sistematic a
regresiei: E()= 0+ 1x + = (0 +) + 1x + (-
media erorilor fiind acum nul. )
Ipoteza de homoscedasticitate: Var(i)= 2
constant i
Se consider un model care descrie consumul unor gospodrii
n funcie de venitul acestora. n acest caz, consumul
gospodriilor mari pot varia mult mai mult fa de consumul
gospodriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectat.
11
Exemplu de nclcare a ipotezei de
homoscedasticitate
Functia de consum
1200
1000
800
consum
600
400
200
0
200 300 400 500 600 700 800 900 1000
venit
12
Necorelarea erorilor: E( i j)=0 ij
Aceast ipotez nu implic faptul c yi i yj sunt necorelate,
ci faptul c deviaiile observaiilor de la valorile lor ateptate
sunt necorelate.
Ipoteza de normalitate a erorilor i N(0, 2)
Este o ipotez de lucru, tehnic, ce permite obinerea unor
estimatori buni.
Dac ipotezele precedente snt respectate, vom
obine estimatori B.L.U.E. (Best Linear Unbiased
Estimators)
13
Ipotezele de normalitate i
homoscedasticitate
f(e)
Y
X 1
X 2
X
14
Variaia erorilor n jurul dreptei de
regresie
Valorile y snt normal distribuite
n jurul dreptei de regresie.
f(e)
Pentru fiecare valoare x, dispersia
n jurul dreptei de regresie este
constant.
Y
X2
X1
X Dreapta de regresie
15
Clasificarea modelelor de regresie
Simple Multiple
Non- Non-
Linear Linear
Linear Linear
16
Tipuri de modele de regresie
Legtur liniar direct Legtur neliniar
17
Modelul de regresie liniar simpl
18
Modelul lui Keynes la nivelul economiei SUA
Real Consumption Expenditures ($ Billions, 1992) Real Disposable Income ($ Billions 1992)
6000.0
5000.0
4000.0
3000.0
2000.0
1000.0
0.0
19
Regresia folosind EXCEL
20
Corelograma(Scatter plot)
Graficul punctelor de coordonate (Xi,Yi), i=1,n.
Real Consumption Expenditures ($ Billions, 1992)
5000.0
4500.0
4000.0
3500.0
3000.0
2500.0
2000.0
1500.0
1000.0
500.0
0.0
0.0 1000.0 2000.0 3000.0 4000.0 5000.0 6000.0
21
Modelul de regresie
liniar
presupunem simpl
Pe baza corelogramei este rezonabil s
c media variabilei Y depinde de X
printr-o relaie liniar:
Variabila
Variabila independent
dependent Panta dreptei de
(rspuns) (explicativ)
regresie 22
Media i dispersia variabilei dependente
23
La nivelul populaiei regresia se reduce la exprimarea
mediei condiionate a lui Y:
X
25
Modelul de regresie liniar
la nivelul populaiei
Y Yi 0 1X i i Valoarea
observat
i = Eroarea
0 1X i
YX
(E(Y))
X
Valoarea
observat 26
Modelul de regresie liniar
la nivelul eantionului
Yi 0 1 X i
Yi = Valoarea estimat a lui Y pentru observaia i
1 = Estimatorul pantei 1
27
Estimarea parametrilor modelului de regresie
Metoda celor mai mici ptrate(M.C.M.M.P.) Ordinary Least
Squares(O.L.S.)
Presupunem c avem n perechi de observaii (x1, y1), (x2, y2),
, (xn, yn).
Ideea este s minimizm distana dintre valorile estimate i
n n
valorile reale L
2
Y Y 2 min
i i i
i 1 i 1
Ne reamintim c Yi 0deci
1 xi
28
Ilustrare grafic
n
LS minimizeaz
i
2 2
1
2
2
2
3
2
4
i 1
Y Y2 0 1X 2 2
^ 4
^ 2
^ 1 ^ 3
Yi 0 1X i
X
29
Condiiile de minim:
30
Estimatorii modelului de regresie
cov( X , Y ) s
1 2
2
xy
sx sx
y x
0 1
31
Notaii
Valoarea estimat:
Valoarea rezidual(reziduul):
32
Estimatorul dispersiei modelului
33
Proprietile estimatorilor modelului de regresie
0 i 1 snt estimatori nedeplasai ai parametrilor 0 i 1
E ( ) i E ( )
0 0 1 1
1 x 2
V( 0 )
2
n S xx
2
V(1 )
S xx
n
unde S xx ( xi x ) 2 i 2 este dispersia variabilei reziduale
i 1
35
Pentru a discuta despre deplasarea estimatorilor, acetia
trebuie exprimai n funcie de parametrii din populaie
x x y
1 , unde S xx xi x
i i 2
S xx
xi x yi xi x 0 1 xi i
xi x 0 xi x 1 xi xi x i
0 xi x 1 xi x xi xi x i .
Dar xi x 0 si xi x xi xi x
2
1 1 d i i , atunci
S xx
E 1 1
1
d i E i 1
S xx
37
Nedeplasarea estimatorilor
Estimatorii OLS pentru 1 i 0 snt nedeplasai
Demonstraia caracterului de estimator nedeplasat
depinde de 4 ipoteze dac oricare din aceste
ipoteze nu este ndeplinit, atunci nedeplasarea nu
este neaprat adevrat
38
Dispersia estimatorilor OLS
Presupunem Var(|x) = 2 (Homoskedasticity)
Var(|x) = E(2|x)-[E(|x)]2
E(|x) = 0, deci 2 = E(2|x) = E(2) = Var()
Astfel 2 este dispersia necondiionat, numit
dispersia erorilor
este abaterea standard a erorilor
Rezult: E(y|x)=0 + 1x i Var(y|x) = 2
39
Cazul homoskedastic
y
f(y|x)
. E(y|x) = + x
.
0 1
x1 x2
40
Cazul heteroskedastic
f(y|x)
y
.
. E(y|x) = 0 + 1x
.
x1 x2 x3 x
41
Dispersia estimatorilor OLS
Var 1 Var 1
1
d u
i i
S xx
2 2
Var d i i
1 1
S xx S xx
i Var i
d 2
2 2
2
1
S xx
i
d
2 2
1
S xx
i
d 2
2
1 2
2
S xx Var 1
S xx S xx
42
Dispersia estimatorilor OLS
Dispersia pantei modelului de regresie este direct
proporional cu dispersia erorilor
Cu ct dispersia lui xi este mai mare, cu att
dispersia pantei este mai mic
Cu ct volumul eantionului este mai mare, cu att
dispersia pantei este mai mic
43
Estimarea dispersiei erorilor
Nu cunoatem dispersia erorilor, 2, ntruct nu
observm de fapt erorile i
ei yi 0 1 xi
0 1 xi i 0 1 xi
i
0 0 1 1
Atunci un estimator nedeplasat pentru este
2
1
2
ei SSR / n 2
2
n 2
45
Distribuia estimatorului pantei de
regresie
All Possible
Y Sample 1 Line Sample Slopes
Sample 1: 2.5
Sample 2 Line Sample 2: 1.6
Population Line
X Sample 3: 1.8
Sample 4: 2.1
Sampling Distribution : :
S^1 Very large number of
sample slopes
^
1 1
46
Eroarea standard a estimatorilor
n
i
e 2
V ( )
n S 1 x 2
-SE ( 0 ) 0
xx
2
df n2 n S xx
H 0 : 1 10
H A : 1 1
0
1 10 1 10 1 10 1 10
t
SE ( 1 ) 2 n n n
S xx
e /(n 2)
i 1
2
i i
e /
i 1
( 2
x
i x )
i 1
2
/ n2
n
i
( x
i 1
x ) 2
Valoarea critic: t / 2; n 2
49
Exemple de respingere a ipotezei
H 0 : 1 0(nu exist legtur liniar)
50
Testul t pentru termenul liber(intercept)
H 0 : 0 00
A 0
H : 0
0
0 00 0 00
t
SE ( 0 ) 1 x 2
2
n S xx
0 00 0 00
n
1 x 2
ei /(n 2)
2
n 1 x 2
i 1 n S xx ei n
2
/ n2
n 2
i 1
i 1
( xi x )
Valoarea critic: t / 2;n 2
51
Intervale de ncredere pentru parametrii modelului
n S xx n S xx
Pentru panta dreptei de regresie(slope)
1 t / 2, n 2 SE ( 1 ) 1 1 t / 2, n 2 SE ( 1 )
2 x 2 x 2
1 t / 2, n 2 1 1 t / 2, n 2
2
S xx S xx
n
unde e 2
i este estimatorul dispersiei modelului.
2
i 1
n2
52
Teorema Gauss-Markov
( y y)( x x) y ( x x) y ( x x) y ( x x)
i i i i i i i n
1 i 1
n
i 1
n
i 1
i 1
n
i yi
( x x)
i 1
i
2
( x x)
i 1
i
2
( x x)
i 1
i
2 i 1
n n n n
Fie qi yi 0 qi 1 qi xi qi i un alt estimator liniar.
'
i 1 i 1 i 1 i 1
n n
Pentru ca E( ) 1 , e necesar ca qi 0 i
'
q x i i 1.
i 1 i 1
n n
Rezult qi i 1 , deci variana sa este V( )
' ' 2
q . 2
i
i 1 i 1
n
Fie vi q i i , atunci qi i vi i avem V( ) ' 2
i i
(
i 1
v ) 2
n n n
2
(
i 1
i
2
2 i vi v )
2
i
2
(
i 1
i
2
v ) 2
i
2
i 1
i
2
V ( 1 ).*** QED
53
Exemplu-consumul ca funcie de venit
- Y) (Y - Y
(Yi - Y) (Y )
i i i
55
Descompunerea variaiei
Y
SSE =(Yi - Yi )2 ^ Xi
_ ^ 0
+ 1
SST = (Yi - Y) 2
Yi =
_
SSR = (Yi - Y)2
_
Y
X
X Xi
56
ANOVA pentru regresie
(Yi Y) (Yi Y) (Yi Yi )
2 2 2
SSR ( y y )
2
i
2
e i
R2 i 1
1 i 1
0,1
SST ( y y )
i
2
( y y)
i
2
i i
58
Exemplu-consumul ca funcie de venit
Standard Error : n
i
e 2
i 1
n2
59
Observaii
60
Foarte important!!
y1 1 x1 1
, unde y2i y1i i x2i x1i
y2 2 x2 2
^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i
X X
62
Tabelul ANOVA
SSR
k-numrul de parametrii ai
Testul F k 1 ~ Fk 1, n k modelului
SSE
nk
este folosit la verificarea validitii modelului. Un model este valid
dac proporia varianei explicate prin model este semnificativ.
Ipoteza nul pentru testul F in cazul acesta este cea de model
63
nevalid.
ANOVA
64
Predicia folosind modelul de regresie
1. Tipuri de predicii
Estimri punctuale
Estimri pe intervale de ncredere
65
Ce prezicem
Y
Y Individual
Mean Y, E(Y)
E(Y) = 0 + 1X
Prediction, Y ^
X
X P
66
Interval de ncredere pentru media lui Y
Y t / 2,n 2 SY E (Y ) Y t / 2, n 2 SY
unde
n
1 x x
p
2
e 2
i
SY i
2 i 1
n n
n2
x x
2
i
i 1
67
Factori care afecteaz lungimea intervalului de ncredere
1. Nivelul de ncredere (1 - )
Creterea nivelului de ncredere duce la creterea intervalului de
ncredere
2. Dispersia datelor ()
Creterea dispersiei duce la creterea intervalului de ncredere
3. Volumul eantionului
Creterea volumului eantionului duce la micorarea intervalului de
ncredere
4. Distana lui Xp fa de media X
Creterea acestei distante duce la creterea intervalului de ncredere
68
Distana lui Xp fa de media X
Dispersie
_ mai mare
dect la X1
Y
X
X 1 X X 2
69
Interval de predicie pentru valori particulare
Y t / 2,n 2 S Y Y YP Y t / 2, n 2 S Y Y
unde
n
1 xP x
2 i
e 2
S Y Y 1 i
2 i 1
n n
n2
x x
2
i
i 1
70
Predicia
Y
Y we're trying to
predict
Expected
(Mean) Y
E(Y) = 0 + 1X
Prediction, Y ^
X
X P
71
Intervale de ncredere pentru predicie
_ X
X X P
72