Sunteți pe pagina 1din 33

REGRESIE SI CORELATIE

LINIARA
Joi, 10 Martie 2016

Regresia scurt istoric al termenului

Sir Francis Galton(1822-1911) spirit enciclopedic al


perioadei victoriene, fiind cel care a introdus termenii de regresie
i corelaie statistic
Originea regresiei ca metod statistic se afl n studiile sale de
genetic aplicat n studiul plantelor- 1877
Plantnd boabe dintr-un anumit soi de mazre dulce a observat c
exist o legtur liniar ntre diametrele acestor boabe i
diametrele boabelor recoltate de la noile plante. El a numit iniial
panta acestei drepte coefficient of reversion, schimbndu-i apoi
numele n coefficient of regression.
Termenul de regresie provine de la descoperirile sale n domeniul
ereditii: n general, progeniturile indivizilor geniali au abiliti
care i aaz mai degrab la nivelul mediei; de asemenea,
nalimea copiilor provenii din tai foarte nali se apropie mai
mult de nlimea medie dect nlimea tailor.
2

Modele
Un model este o reprezentare a unui anumit
fenomen
Model matematic - o reprezentare
matematic a unui fenomen
De cele mai multe ori un model descrie
legturile existente ntre dou sau mai multe
variabile
n general, snt dou clase de modele:

Modele deterministe
Modele probabiliste
3

Modele
deterministe

Exprim o relaie
exact ntre
variabile
Teoretic, eroarea
de previziune este
nul

Exemplu:
Principiul al doilea al
mecanicii
newtoniene:
F = m.a

Modele probabiliste

Componenta
determinist
Componenta aleatoare
Eroarea de previziune
este nenul
Componenta aleatoare
poate fi datorat
factorilor obiectivi, ce
nu snt inclui n model
Exemplu: Volumul
vnzrilor=10 *
Cheltuielile cu
publicitatea +
Componenta aleatoare
4

Tipuri de modele probabiliste


Modele
Probabilistic
Probabilistic
Models
probabiliste
Models
Modele
de
Regression
Regression
Models
regresie
Models

Modele
de
Correlation
Correlation
Models
corelatie
Models

Alte
Other
Other
Models
Models

modele
5

Regresia metod de modelare a legturilor


dintre variabile
n general, orice fenomen este rezultatul
aciunii unuia sau mai multor factori
Exprimarea matematic:

Y f ( X 1 ,..., X n )

Variabila
dependent

Variabile
independente

(variabila
endogen)

(variabile
exogene/explicative)

Variabila
rezidual

Exemplu: Legea lui Keynes privind legtura


dintre venit i consum

Suma cheltuit pentru consum depinde de:


mrimea venitului pe de o parte
alte obiective n funcie de circumstane (de exemplu
investiiile)
alte nevoi subiective
O persoan este dispus de regul i n medie s i
creasc consumul pe msura creterii venitului dar nu n
aceeai msur
0

dC
1
dV

Modelul de regresie: C=+V+ , unde 0<<1 .


7

Clasificarea modelelor de regresie


1 Variabil
explicativ

Modele
de regresie

2+ Variabile
explicative

Multiple

Simple

Linear

NonLinear

Linear

NonLinear
8

Tipuri de modele de regresie


Legtur liniar direct

Legtur liniar invers

Legtur neliniar

Absena vreunei legturi

Modelul de regresie liniar simpl

10

Exemplu
practic

Exist o legtur ntre


suprafaa
unor
apartamente
din
zona
central
i
preul
de
nchiriere a acestora?
Selectm aleator 25 de
astfel de apartamente la
care urmrim valorile celor
dou
variabile
X

suprafaa(m2) i Y chiria
lunar(RON).
11

Regresia folosind EXCEL


Accesm meniul TOOLS>DATA ANALYSIS>REGRESSION

12

Regresia folosind EXCEL


Selectm valorile variabilelor

13

14

Corelograma(Scatter plot)
Graficul punctelor de coordonate (Xi,Yi), i=1,n.
2500

2000

Chiria(RON)

1500

1000

500

0
0

50

100

150

Suprafata(m2)

200

250
15

Modelul de regresie liniar simpl

Pe baza corelogramei este rezonabil s presupunem c media


variabilei Y depinde de X printr-o relaie liniar:

Atunci modelul de regresie liniar simpl este dat de relaia


urmtoare:

Y intercept (termenul constant)

Yi 0 1 X i i
Variabila
dependent
(rspuns)

Variabila
de
perturbaie

Variabila
independent
Panta dreptei de
regresie

(explicativ)

16

Media i dispersia variabilei dependente


Dac presupunem c media i dispersia lui snt 0 i 2,
atunci media lui Y pentru o valoare particular a lui X
este dat de relaia:

Dispersia lui Y pentru o valoare particular a lui X


este dat de relaia:

17

La nivelul populaiei regresia se reduce la exprimarea


mediei condiionate a lui Y:

unde 1 are semnificaia unui coeficient de


elasticitate: arat modificarea lui Y la o modificare cu
o unitate a lui x.
De asemenea, variabilitatea lui Y pentru o valoare
particular x este determinat de dispersia variabilei
reziduale, 2.
Exist o distribuie a valorilor lui Y pentru fiecare x
i dispersia acestei distribuii este constant pentru
orice x.

18

Distribuia condiionat a lui Y


Y

Dreapta de regresie

19

Modelul de regresie liniar la


nivelul populaiei
Y

Yi 0 1X i i

Valoarea
observat

i = Eroarea

YX

(E(Y))
Valoarea
observat

0 1X i

X
20

Modelul de regresie liniar la


nivelul eantionului

Yi 0 1 X i

Yi
Xi

= Valoarea estimat a lui Y pentru observaia i


= Valoarea lui X pentru observaia i

= Estimatorul termenului liber 0

= Estimatorul pantei 1

21

Estimarea parametrilor modelului de regresie

Metoda celor mai mici ptrate(M.C.M.M.P.)


Ordinary Least Squares(OLS sau LS)

Presupunem c avem n perechi de observaii (x1,


y1), (x2, y2), , (xn, yn).

Ideea este s minimizm distana dintre valorile


estimate i valorilen reale 2
n

L Yi Yi

Ne reamintim c

i 1

i2 min
i 1

deci

Yi 0 1 xi
22

Ilustrare grafic
n

LS minimizeaz


i 1

2
i


2
1

2
2

2
3

2
4

Y2 0 1 X 2 2

^4

^2
^1

^3

Yi 0 1 X i
X

23

Condiiile de minim:

Simplificnd, obinem sistemul de ecuaii


normale

24

Estimatorii modelului de regresie

b1

cov(X , Y )
2
sx

b 0 y b1 x

25

Notaii
Valoarea estimat:
Valoarea rezidual(reziduul):

26

Estimatorul dispersiei modelului

Dac notm suma ptratelor erorilor de


regresie

atunci un estimator al varianei variabilei


reziduale este

27

Proprietile estimatorilor modelului de regresie


0 i 1 snt estimatori nedeplasai ai parametrilor 0 i 1
E ( ) i E ( )
0

-Dispersiile celor doi estimatori snt date de relaiile


2

1
x
2

V( 0 )

n S xx
2

V(1 )
S xx
n

unde S xx ( xi x ) 2 i 2 este dispersia variabilei reziduale


i 1

-Estimatorii 0 i 1 urmeaz o distribuie normal


28

Distribuia estimatorului pantei de regresie


Y

Sample 1 Line
All

Sample 2 Line
Population Line

X
Sampling Distribution
S^1

^
1

Possible
Sample Slopes
Sample 1:
2.5
Sample 2:
1.6
Sample 3:
1.8
Sample 4:
2.1
:
:
Very large number of
sample slopes

29

Eroarea standard a estimatorilor


n

ntruct variana rezidual 2 se estimeaz prin 2

2
e
i
i 1

n2

putem avea o estimare

a erorii standard a celor doi estimatori:

2
2
)

S
V
(

xx
1
-SE (1 )

df
n2
S xx
1 x2

2

n
S

V
(

)
1
x
xx

2
0

-SE ( 0 )


df
n2
n S xx
2

Erorile standard vor fi folosite la testarea semnificaiei parametrilor


30
modelului de regresie

Intervale de ncredere pentru parametrii


modelului

Pentru termenul
0 t / 2,n2 SEliber(intercept)
( 0 ) 0 0 t / 2,n 2 SE ( 0 )

0 t / 2,n2

2
1 x2

1
x
2
0 0 t / 2,n2
n S xx
n S xx
2

Pentru panta dreptei de regresie(slope)

1 t / 2,n2 SE ( 1 ) 1 1 t / 2,n2 SE ( 1 )
1 t / 2,n2
unde

2
2

x
x
2
2

1 1 t / 2,n2
S xx
S xx
n

e
i 1

este estimatorul dispersiei modelului.

2
i

n2
31

Teorema Gauss-Markov

Estimatorii obinui prin metoda celor mai mici


ptrate snt B.L.U.E. i.e. orice alt estimator liniar
are o dispersie mai mare dect cei obinui prin
MCMMP.
Conform OLS, estimatorul pantei este o combinaie liniar de valorile variabilei dependente:
n

( y y)( x x) y ( x x) y ( x x) y ( x x)
i

i 1

( x x)
i 1

i 1

i 1

( x x)

i 1

i 1

i 1

i 1

i 1

i 1
n

( x x)

i yi
i 1

i 1

Fie qi yi 0 qi 1 qi xi qi i un alt estimator liniar.


'

i 1

i 1

Pentru ca E( ) 1 , e necesar ca qi 0 i qi xi 1.
'

Rezult qi i 1 , deci variana sa este V( )


'

'

i 1

Fie vi q i i , atunci qi i vi i avem V( )


'

(
i 1

2
i

2 i vi v )
2
i

(
i 1

2
i

v )
2
i

i 1

2
i

q .
i 1

(
i 1

2
i

vi ) 2

V ( 1 ).*** QED

32

Exemplu-chiria ca funcie de suprafa

Panta dreptei de regresie este pozitiv, deci exist


o legtur direct ntre chirie i suprafaa
apartamentelor.
n plus, dac chiria crete cu o unitate(1 m2) ,chiria
va crete cu 10.640 lei.
Doar panta dreptei de regresie este semnifcativ
diferit de zero.
P-value probabilitatea ipotezei ca parametrul
estimat s fie egal cu zero; dac P-value este mai
mic dect pragul de semnificaie atunci respingem
33
aceast ipotez.

S-ar putea să vă placă și