Sunteți pe pagina 1din 72

MODELUL DE REGRESIE

1
Regresia scurt istoric al termenului
Sir Francis Galton(1822-1911) spirit enciclopedic al perioadei victoriene,
este cel care a introdus termenii de regresie i corelaie statistic
Originea regresiei ca metod statistic se afl n studiile sale de genetic
aplicat n studiul plantelor- 1877
Plantnd boabe dintr-un anumit soi de mazre dulce a observat c exist o
legtur liniar ntre diametrele acestor boabe i diametrele boabelor
recoltate de la noile plante. El a numit iniial panta acestei drepte
coefficient of reversion, schimbndu-i apoi numele n coefficient of
regression.
Termenul de regresie provine de la descoperirile sale n domeniul ereditii:
n general, progeniturile indivizilor geniali au abiliti care i aaz mai
degrab la nivelul mediei; de asemenea, nalimea copiilor provenii din tai
foarte nali se apropie mai mult de nlimea medie dect nlimea tailor.

2
Modele
Un model este o reprezentare a unui anumit fenomen
Model matematic - o reprezentare matematic a unui
fenomen
De cele mai multe ori un model descrie legturile
existente ntre dou sau mai multe variabile
n general, snt dou clase de modele:
Modele deterministe
Modele probabiliste

3
Modele deterministe Modele probabiliste
Exprim o relaie Componenta determinist
exact ntre variabile Componenta aleatoare
Teoretic, eroarea de Eroarea de previziune este
previziune este nul nenul
Componenta aleatoare
Exemplu: poate fi datorat factorilor
Principiul al doilea al obiectivi, ce nu snt inclui n
mecanicii newtoniene: model
F = m.a Exemplu: Volumul
vnzrilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare
4
Tipuri de modele probabiliste

PModele
P r roo bb aa bb i il li iss t ti icc
MM oo dd ee l lss
probabiliste

Modele
RR ee gg r ree ss ssde
i ioo nn Modele
CC oo r rr ree l laa tde
ti ioo nn AlteOO t thh eer r
MM oo dd ee l lss
regresie MM oo dd ee l lss
corelatie MM oo dd ee l lss
modele

5
Regresia metod de modelare a legturilor dintre variabile

n general, orice fenomen este rezultatul aciunii unuia


sau mai multor factori
Exprimarea matematic:
Y f ( X 1 ,..., X n )

Variabila Variabile Variabila


dependent independente rezidual
(variabila (variabile
endogen) exogene/explicative)

6
Exemplu: Legea lui Keynes privind legtura dintre
venit i consum
Suma cheltuit pentru consum depinde de:
mrimea venitului pe de o parte
alte obiective n funcie de circumstane (de exemplu
investiiile)
alte nevoi subiective
O persoan este dispus de regul i n medie s i creasc
consumul pe msura creterii venitului dar nu n aceeai msur
dC
0 1
dV
Modelul de regresie: C=+V+ , unde 0<<1 .

7
Ipotezele modelului de regresie
(Ipotezele Gauss-Markov)
1. Normalitatea
Valorile Y snt normal distribuite pentru orice X
Erorile snt normal distribuite cu medie zero E(i)=0 i
2. Homoscedasticitatea (dispersie constant)
E
2 2
i
3. Necorelarea erorilor E(i k)=0 (i<>k)
4. Liniaritatea Y i X i
5. Variabilele snt msurate fr eroare
(caracter nestochastic) Cov( X i , j ) 0, i, j
8
Forma funcional
Ipoteza de linearitate nu este att de restrictiv pe ct pare.
Aceasta se refer la felul n care parametrii intr n ecuaie, nu
neaprat la relaia ntre variabilele x i y.
n general modele pot fi linearizate.
y=a+bx
y=a+bz, z=ex
y=a+br, r=1/x
y=a+bq, q=ln(x)
y= x ln(y)=+ln(x)
Forma general: f(yi)= +g(xi)+i

Contra exemplu: y
1
nu poate fi transformat n
model liniar. x
9
Modele ce pot fi linearizate
Y
1000

1 x
a b a be
x
800

600

a bx
400

200

a b ln x
0
-1 0.003 0.008 0.013 0.018 0.023 0.028 0.033 0.038 0.043 0.048 0.053 0.058 0.063 0.068
X

-200

-400

10
Ipoteza c media erorilor este zero: E(i)=0 i, este
natural atta timp ct este vzut ca suma efectelor
individuale, cu semne diferite. Dac media erorilor este diferit
de zero, ea poate fi considerat ca o parte sistematic a
regresiei: E()= 0+ 1x + = (0 +) + 1x + (-
media erorilor fiind acum nul. )
Ipoteza de homoscedasticitate: Var(i)= 2
constant i
Se consider un model care descrie consumul unor gospodrii
n funcie de venitul acestora. n acest caz, consumul
gospodriilor mari pot varia mult mai mult fa de consumul
gospodriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectat.
11
Exemplu de nclcare a ipotezei de
homoscedasticitate

Functia de consum
1200

1000

800
consum

600

400

200

0
200 300 400 500 600 700 800 900 1000
venit

12
Necorelarea erorilor: E( i j)=0 ij
Aceast ipotez nu implic faptul c yi i yj sunt necorelate,
ci faptul c deviaiile observaiilor de la valorile lor ateptate
sunt necorelate.
Ipoteza de normalitate a erorilor i N(0, 2)
Este o ipotez de lucru, tehnic, ce permite obinerea unor
estimatori buni.
Dac ipotezele precedente snt respectate, vom
obine estimatori B.L.U.E. (Best Linear Unbiased
Estimators)

13
Ipotezele de normalitate i
homoscedasticitate
f(e)

Y
X 1
X 2
X

14
Variaia erorilor n jurul dreptei de
regresie
Valorile y snt normal distribuite
n jurul dreptei de regresie.
f(e)
Pentru fiecare valoare x, dispersia
n jurul dreptei de regresie este
constant.

Y
X2
X1
X Dreapta de regresie
15
Clasificarea modelelor de regresie

1 Variabil Modele 2+ Variabile


explicativ de regresie explicative

Simple Multiple

Non- Non-
Linear Linear
Linear Linear

16
Tipuri de modele de regresie
Legtur liniar direct Legtur neliniar

Legtur liniar invers Absena vreunei legturi

17
Modelul de regresie liniar simpl

18
Modelul lui Keynes la nivelul economiei SUA
Real Consumption Expenditures ($ Billions, 1992) Real Disposable Income ($ Billions 1992)

6000.0

5000.0

4000.0

3000.0

2000.0

1000.0

0.0

19
Regresia folosind EXCEL

Accesm meniul TOOLS>DATA ANALYSIS>REGRESSION

20
Corelograma(Scatter plot)
Graficul punctelor de coordonate (Xi,Yi), i=1,n.
Real Consumption Expenditures ($ Billions, 1992)
5000.0

4500.0

4000.0

3500.0

3000.0

2500.0

2000.0

1500.0

1000.0

500.0

0.0
0.0 1000.0 2000.0 3000.0 4000.0 5000.0 6000.0

21
Modelul de regresie

liniar
presupunem simpl
Pe baza corelogramei este rezonabil s
c media variabilei Y depinde de X
printr-o relaie liniar:

Atunci modelul de regresie liniar simpl este dat


de relaia
intercept urmtoare:
(termenul constant)
Variabila
de
Yi 0 1 X i i perturbaie

Variabila
Variabila independent
dependent Panta dreptei de
(rspuns) (explicativ)
regresie 22
Media i dispersia variabilei dependente

Dac presupunem c media i dispersia lui snt 0 i 2,


atunci media lui Y pentru o valoare particular a lui X
este dat de relaia:

Dispersia lui Y pentru o valoare particular a lui X


este dat de relaia:

23
La nivelul populaiei regresia se reduce la exprimarea
mediei condiionate a lui Y:

unde 1 are semnificaia unui coeficient de


elasticitate: arat modificarea lui Y la o modificare cu
o unitate a lui x.
De asemenea, variabilitatea lui Y pentru o valoare
particular x este determinat de dispersia variabilei
reziduale, 2.
Exist o distribuie a valorilor lui Y pentru fiecare
x i dispersia acestei distribuii este constant
pentru orice x. 24
Distribuia condiionat a lui Y
Dreapta de regresie
Y

X
25
Modelul de regresie liniar
la nivelul populaiei
Y Yi 0 1X i i Valoarea
observat

i = Eroarea

0 1X i
YX
(E(Y))
X
Valoarea
observat 26
Modelul de regresie liniar
la nivelul eantionului
Yi 0 1 X i

Yi = Valoarea estimat a lui Y pentru observaia i

Xi = Valoarea lui X pentru observaia i

0 = Estimatorul termenului liber 0

1 = Estimatorul pantei 1
27
Estimarea parametrilor modelului de regresie
Metoda celor mai mici ptrate(M.C.M.M.P.) Ordinary Least
Squares(O.L.S.)
Presupunem c avem n perechi de observaii (x1, y1), (x2, y2),
, (xn, yn).
Ideea este s minimizm distana dintre valorile estimate i

n n
valorile reale L
2
Y Y 2 min
i i i
i 1 i 1

Ne reamintim c Yi 0deci
1 xi

28
Ilustrare grafic
n
LS minimizeaz
i
2 2
1
2
2
2
3
2
4
i 1

Y Y2 0 1X 2 2
^ 4
^ 2
^ 1 ^ 3
Yi 0 1X i
X
29
Condiiile de minim:

Simplificnd, obinem sistemul de ecuaii normale

30
Estimatorii modelului de regresie

cov( X , Y ) s
1 2
2
xy

sx sx
y x
0 1

31
Notaii

Valoarea estimat:
Valoarea rezidual(reziduul):

32
Estimatorul dispersiei modelului

Dac notm suma ptratelor erorilor de regresie

atunci un estimator al varianei variabilei reziduale


este

33
Proprietile estimatorilor modelului de regresie
0 i 1 snt estimatori nedeplasai ai parametrilor 0 i 1
E ( ) i E ( )
0 0 1 1

-Dispersiile celor doi estimatori snt date de relaiile

1 x 2

V( 0 )
2

n S xx
2
V(1 )
S xx
n
unde S xx ( xi x ) 2 i 2 este dispersia variabilei reziduale
i 1

-Estimatorii 0 i 1 urmeaz o distribuie normal


34
Nedeplasarea estimatorilor OLS
Presupunem c modelul de regresie la nivelul
populaiei este liniar y = 0 + 1x +
Fie {(xi, yi): i=1, 2, , n un eantion de n
observaii. Atunci putem formula modelul de
regresie la nivelul eantionului yi = 0 + 1xi + i
Presupunem E(|x) = 0 i atunci E(i|xi) = 0
Presupunem c exist variaie n xi

35
Pentru a discuta despre deplasarea estimatorilor, acetia
trebuie exprimai n funcie de parametrii din populaie
x x y
1 , unde S xx xi x
i i 2

S xx
xi x yi xi x 0 1 xi i
xi x 0 xi x 1 xi xi x i
0 xi x 1 xi x xi xi x i .
Dar xi x 0 si xi x xi xi x
2

deci avem la numarator 1S xx xi x i si atunci


x x i
1 1 i
.
S xx 36
Nedeplasarea lui 1

Fie d i xi x , astfel nct


1

1 1 d i i , atunci
S xx



E 1 1
1
d i E i 1
S xx

37
Nedeplasarea estimatorilor
Estimatorii OLS pentru 1 i 0 snt nedeplasai
Demonstraia caracterului de estimator nedeplasat
depinde de 4 ipoteze dac oricare din aceste
ipoteze nu este ndeplinit, atunci nedeplasarea nu
este neaprat adevrat

38
Dispersia estimatorilor OLS
Presupunem Var(|x) = 2 (Homoskedasticity)
Var(|x) = E(2|x)-[E(|x)]2
E(|x) = 0, deci 2 = E(2|x) = E(2) = Var()
Astfel 2 este dispersia necondiionat, numit
dispersia erorilor
este abaterea standard a erorilor
Rezult: E(y|x)=0 + 1x i Var(y|x) = 2

39
Cazul homoskedastic

y
f(y|x)

. E(y|x) = + x
.
0 1

x1 x2
40
Cazul heteroskedastic

f(y|x)

y
.
. E(y|x) = 0 + 1x

.
x1 x2 x3 x
41
Dispersia estimatorilor OLS


Var 1 Var 1
1
d u
i i


S xx
2 2

Var d i i
1 1

S xx S xx
i Var i
d 2

2 2
2
1
S xx
i
d
2 2
1
S xx
i
d 2


2
1 2
2
S xx Var 1
S xx S xx

42
Dispersia estimatorilor OLS
Dispersia pantei modelului de regresie este direct
proporional cu dispersia erorilor
Cu ct dispersia lui xi este mai mare, cu att
dispersia pantei este mai mic
Cu ct volumul eantionului este mai mare, cu att
dispersia pantei este mai mic

43
Estimarea dispersiei erorilor
Nu cunoatem dispersia erorilor, 2, ntruct nu
observm de fapt erorile i

Valorile observate snt reziduurile modelului de


regresie, ei

Putem folosi reziduurile pentru a estima dispersia


erorilor
44
Estimarea dispersiei erorilor

ei yi 0 1 xi
0 1 xi i 0 1 xi
i

0 0 1 1
Atunci un estimator nedeplasat pentru este
2

1

2
ei SSR / n 2
2

n 2
45
Distribuia estimatorului pantei de
regresie
All Possible
Y Sample 1 Line Sample Slopes
Sample 1: 2.5
Sample 2 Line Sample 2: 1.6
Population Line
X Sample 3: 1.8
Sample 4: 2.1
Sampling Distribution : :
S^1 Very large number of
sample slopes

^
1 1
46
Eroarea standard a estimatorilor
n

i
e 2

ntruct variana rezidual 2 se estimeaz prin 2 i 1


putem avea o estimare
n2
a erorii standard a celor doi estimatori:
2
V ( )
S 2
-SE ( 1 ) 1
xx

df n2 S xx
1 x 2

2

V ( )
n S 1 x 2


-SE ( 0 ) 0
xx

2

df n2 n S xx

Erorile standard vor fi folosite la testarea semnificaiei parametrilor


modelului de regresie 47
Testul t pentru panta dreptei de regresie(slope)

H 0 : 1 10

H A : 1 1
0

1 10 1 10 1 10 1 10
t

SE ( 1 ) 2 n n n

S xx
e /(n 2)
i 1
2
i i
e /
i 1
( 2
x
i x )
i 1
2
/ n2
n

i
( x
i 1
x ) 2

Valoarea critic: t / 2; n 2

H 0 : 1 0(nu exist legtur liniar)


Caz particular:
H A : 1 0( exist legtur liniar)
48
Exemple de acceptare a ipotezei

H 0 : 1 0(nu exist legtur liniar)

49
Exemple de respingere a ipotezei
H 0 : 1 0(nu exist legtur liniar)

50
Testul t pentru termenul liber(intercept)

H 0 : 0 00

A 0
H : 0
0

0 00 0 00
t

SE ( 0 ) 1 x 2

2

n S xx
0 00 0 00

n
1 x 2

ei /(n 2)
2
n 1 x 2
i 1 n S xx ei n
2
/ n2
n 2
i 1



i 1
( xi x )

Valoarea critic: t / 2;n 2
51
Intervale de ncredere pentru parametrii modelului

Pentru termenul liber(intercept)


0 t / 2,n 2 SE ( 0 ) 0 0 t / 2,n 2 SE (0 )
1 x 2 1 x 2
0 t / 2,n 2 0 0 t / 2,n 2
2 2

n S xx n S xx
Pentru panta dreptei de regresie(slope)
1 t / 2, n 2 SE ( 1 ) 1 1 t / 2, n 2 SE ( 1 )
2 x 2 x 2
1 t / 2, n 2 1 1 t / 2, n 2
2

S xx S xx
n
unde e 2
i este estimatorul dispersiei modelului.
2
i 1

n2

52
Teorema Gauss-Markov

Estimatorii obinui prin metoda celor mai mici ptrate snt


B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai mic
dect cei obinui prin MCMMP.
Conform OLS, estimatorul pantei este o combinaie liniar de valorile variabilei dependente:
n n n n

( y y)( x x) y ( x x) y ( x x) y ( x x)
i i i i i i i n
1 i 1
n
i 1
n
i 1
i 1
n
i yi
( x x)
i 1
i
2
( x x)
i 1
i
2
( x x)
i 1
i
2 i 1

n n n n
Fie qi yi 0 qi 1 qi xi qi i un alt estimator liniar.
'

i 1 i 1 i 1 i 1
n n
Pentru ca E( ) 1 , e necesar ca qi 0 i
'
q x i i 1.
i 1 i 1
n n
Rezult qi i 1 , deci variana sa este V( )
' ' 2
q . 2
i
i 1 i 1
n
Fie vi q i i , atunci qi i vi i avem V( ) ' 2
i i
(
i 1
v ) 2

n n n
2
(
i 1
i
2
2 i vi v )
2
i
2
(
i 1
i
2
v ) 2
i
2

i 1
i
2
V ( 1 ).*** QED
53
Exemplu-consumul ca funcie de venit

Panta dreptei de regresie este pozitiv, deci exist o legtur


direct ntre consum i venit.
n plus, dac venitul crete cu o unitate,consumul va crete cu
0.91 uniti.
Doar panta dreptei de regresie este semnifcativ diferit de
zero.
P-value probabilitatea ipotezei ca parametrul estimat s fie
egal cu zero; dac P-value este mai mic dect pragul de
semnificaie atunci respingem aceast ipotez.
54
Analiza varianei pentru modelul de regresie
Dac ntre X i Y nu exist nici o legtur, atunci putem
face predicii privind valoarea medie a lui Y pentru orice
valoare a lui X
Dac exist o legtur ntre X i Y, n ce msur
cunoaterea valorilor lui X poate explica abaterea variabilei
dependente de la media sa?
Abaterea totala = abaterea explicata + Abaterea reziduala

- Y) (Y - Y
(Yi - Y) (Y )
i i i

55
Descompunerea variaiei
Y
SSE =(Yi - Yi )2 ^ Xi
_ ^ 0

+ 1
SST = (Yi - Y) 2
Yi =

_
SSR = (Yi - Y)2
_
Y

X
X Xi
56
ANOVA pentru regresie
(Yi Y) (Yi Y) (Yi Yi )
2 2 2

SST = SSR + SSE


SST = Total Sum of Squares
_
Msoar variaia valorilor observate Yi n jurul mediei Y

SSR = Regression Sum of Squares


Msoar variaia explicat de modelul de regresie

SSE = Error Sum of Squares


Msoar variaia ce poate fi atribuit altor factori, diferii
de variabila explicativ X 57
Coeficientul de determinaie R2
Este o msur a proporiei varianei explicate de
model n n

SSR ( y y )
2
i
2
e i
R2 i 1
1 i 1
0,1
SST ( y y )
i
2
( y y)
i
2

i i

R2 este afectat de creterea numrului de parametri;


de aceea pentru modele cu multi parametri se
calculeaz R2 ajustat, care are aceeai interpretare.
n 1 n 1
R 1 (1 R )
2
adj
2
1 ,1
n k 1 n k 1

58
Exemplu-consumul ca funcie de venit

Modelul explic 99.7% din variaia consumului

Standard Error : n

i
e 2

i 1

n2
59
Observaii

R2 este adesea folosit pentru a alege cel mai bun


model din punctul de vedere al varianei explicate.

Comparaiile de acest fel trebuie fcute ntre modele


de aceeai natur.

60
Foarte important!!

Pentru modele de regresie fr termen liber, de tipuly x


R2 nu mai are semnificaia de proporie a varianei explicate.
Exemplu: considerm dou astfel de modele

y1 1 x1 1
, unde y2i y1i i x2i x1i
y2 2 x2 2

Dei ar prea c modelul al doilea este mai performant, nu


snt argumente pentru a susine aceast ipotez
61
Coeficientul de determinaie i
coeficientul de corelaie liniar
RY2 = 1, r = +1 RY2 = 1, r = -1
^=b +b X
Yi 0 1 i
^=b +b X
Yi 0 1 i
X X
R2Y= .8, r = +0.9 YR2 = 0, r=0

^=b +b X
Y ^=b +b X
Y
i 0 1 i i 0 1 i

X X
62
Tabelul ANOVA

SSR
k-numrul de parametrii ai
Testul F k 1 ~ Fk 1, n k modelului
SSE
nk
este folosit la verificarea validitii modelului. Un model este valid
dac proporia varianei explicate prin model este semnificativ.
Ipoteza nul pentru testul F in cazul acesta este cea de model
63
nevalid.
ANOVA

64
Predicia folosind modelul de regresie

1. Tipuri de predicii
Estimri punctuale
Estimri pe intervale de ncredere

2. Care e obiectul prediciei?


Media populaiei E(Y) pentru o valoare particular a lui X
Valoarea individual (Yi) pentru o valoare particular a lui
X

65
Ce prezicem
Y
Y Individual

Mean Y, E(Y)

E(Y) = 0 + 1X

Prediction, Y ^
X
X P
66
Interval de ncredere pentru media lui Y

Y t / 2,n 2 SY E (Y ) Y t / 2, n 2 SY
unde
n

1 x x
p
2
e 2
i
SY i
2 i 1

n n
n2
x x
2
i
i 1

67
Factori care afecteaz lungimea intervalului de ncredere
1. Nivelul de ncredere (1 - )
Creterea nivelului de ncredere duce la creterea intervalului de
ncredere
2. Dispersia datelor ()
Creterea dispersiei duce la creterea intervalului de ncredere
3. Volumul eantionului
Creterea volumului eantionului duce la micorarea intervalului de
ncredere
4. Distana lui Xp fa de media X
Creterea acestei distante duce la creterea intervalului de ncredere

68
Distana lui Xp fa de media X

Dispersie
_ mai mare
dect la X1
Y

X
X 1 X X 2
69
Interval de predicie pentru valori particulare

Y t / 2,n 2 S Y Y YP Y t / 2, n 2 S Y Y

unde
n

1 xP x
2 i
e 2

S Y Y 1 i
2 i 1
n n
n2
x x
2
i
i 1

70
Predicia
Y
Y we're trying to
predict

Expected
(Mean) Y

E(Y) = 0 + 1X

Prediction, Y ^
X
X P
71
Intervale de ncredere pentru predicie

_ X
X X P
72

S-ar putea să vă placă și