Sunteți pe pagina 1din 44

ANALIZA REGRESIEI

Modelul de regresie
Modelul cel mai simplu:

Y =f(X)+
Modelul liniar :
Yi = + xi + i, i=1,n
Componenta determinista
Componenta rezidual (eroarea aleatoare)
Yi = Yi
+ i
Ordonata la origine
Panta dreptei semn si valoare
2

Model liniar de regresie


De

regula dispunem de date obtinute dintr-un


esantion (n perechi de observatii) pe baza carora se
estimeaza parametrii ecuatiei de regresie liniar
simpl, i .
Modelul de regresie liniara n esantion:
yi = a + bxi + ei
cu componenta predictibil:

y i a bx i

a i b sunt estimatorii parametrilor si


ei este valoarea reziduala (pentru unitatea

esantion:
3

ei = yi (a + bxi)

i) n

Ipotezele modelului de
regresie
1. Forma functional: yi = + xi + i,
2.
3.
4.
5.
6.
4

i=1,n
2
Normalitatea erorilor: i N(0,
)
Media zero a erorilor: (
2 i)=0 i
Homoscedasticitatea: 2(i)=
constant i
Non autocorelarea erorilor: Cov(i,j)=0
ij
Necorelarea ntre regresor i erori:
Cov(xi,j)=0 i i j

Estimarea parametrilor modelului


de regresie liniara
Parametrii

modelului probabilistic vor fi


estimati utilizand metoda celor mai mici
patrate, ce urmareste minimizare a erorilor
observate:
min ei2 min ( yi a bxi ) 2
i

Unde, erorile estimate sunt:

ei = yi - a - bxi

Functia
yi isi
na
b minimul
xi
atinge
camd derivata de ordin
5

i zero
i
I este

2
x
y

a
x

b
x

i i
i
i
i
i
i

Estimarea parametrilor modelului


de regresie liniara
sau:

y x

i 1

i 1

i 1

x y

2
i

nx y

2
i

nx

x x y
i

i 1

n x

2
i

x
i 1

i 1
2

y bx

Calitatea functiei de regresie


SEM - eroarea standard a estimatiei (standard error of the

mean)- abaterea medie patratic a erorilor n esantion este:


n

(
y

y
)

se

i 1

n k 1

unde:

k reprezint numrul variabilelor independente


considerate, iar (n-k-1) reprezint numrul gradelor de
libertate.
n cazul regresiei simple liniare, k=1 i (n-k-1)= n-2, iar SEM:

7nnnnnn

se

(
y

y
)

i 1

n2

: testare i intervale de
ncredere

se - este util n compararea modelelor. Dac avem la

dispoziie cteva modele dintre care trebuie s


alegem, cel mai potrivitsea fi utilizat este cel pentru
care este mai sczut.
se

este un indicator important

n determinarea
intervalului de ncredere pentru coeficientul de
regresie , i pentru

deoarece regresia se studiaz, n general, pe baz de


eantioane, b este o estimaie pentru , coeficientul
de regresie, necunoscut, din colectivitatea general
b are o distribuie de eantionare.
8

Testarea coeficientului de regresie


Vom testa existenta relatiei liniare (dac panta ()

este diferit de zero).


H0 : = 0 ,
H1 : 0.
Dac volumul eantionului este mare, vom utiliza

testulb z:

sb

b0

sb

Unde Sb este eroarea standard a coeficientului de

regresie (abaterea
medie ptratic) :
n
2

(
y

y
)

1
i 1
sb
* n

n k 1
2
(
x

x
)
i
i 1

se
n

2
(
x

x
)
i
i 1

Testarea coeficientului de regresie


un prag de semnificaie , vom
respinge ipoteza nul (H0), cnd z > z/2 sau z
< z/2 i vom concluziona c este foarte
improbabil ca estimatorul b s provin dintr-o
populaie cu = 0.

Pentru

Dac

volumul eantionului este mic, vom


utiliza b
testul
( t), cu n-2 grade de
Student
b0
Z :

libertate
sb
sb

10

Testarea coeficientului de regresie


Testarea ipotezei ca panta este pozitiva -test

unilateral de dreapta:
H0 : = 0,
H1 : > 0,

Testarea ipotezei ca panta este pozitiva -test

unilateral de stanga:
H0 : = 0,
H1 : < 0,
11

Testarea coeficientului de regresie


Regiunea critic este dat de
| t | > t/2, n-2 pentru test bilateral;
t > t, n-2 pentru test unilateral dreapta;
t < t, n-2 pentru test unilateral stnga.

12

Intervalul de incredere pentru


parametrul
Intervalul de ncredere pentru parametrul

coeficientul de regresie al populatiei totale:

b t , n 2 sb b t , n 2 sb
Analog

se poate
parametrului

13

proceda

si

in

cazul

Exemplu
Patronul unui lant de 8 magazine doreste sa analizeze

legatura dintre vanzarile anuale si marimea magazinelor


Datele de la cele 8 magazine sunt:
Magazi
nul

14

1
2
3
4
5
6
7
8

Marimea
magazinului
(mp)
120
90
210
400
80
200
250
100

Vanzari
anuale
(mii Euro)
700
600
1400
5400
620
1600
2300
680

Estimation of Predicted
Values
Intervalul de incredere pt XY
Media lui Y pentru o valoare particulara X i
Eroarea Standard
a Estimatorului

Yi t n 2 S e
Valoarea din tabel
pt t cu d.f. = n-2
15

Marimea intervalului variaza in


functie de distanta fata de media X.

( X i X )2
n

2
(
X

X
)
i
i 1

Estimation of Predicted
Values
Intervalul de incredere pt raspunsul
individual Yi la un nivel dat al lui Xi
Yi t n 2 S e

1
1
n

( X i X )2
n

2
(
X

X
)
i
i 1

16

Coeficientul de corelatie
Masoara intensitatea legaturii (asocierii) dintre

doua variabile.
Are valori cuprinse intre -1 and 1.
Daca r = - 1 (asociere negativa) sau r
=+1 (asociere pozitiva) toate punctele se
situeaza pe dreapta de regresie.
Daca r = 0 nu exista legatura liniara.
Coeficientul de corelatie poate fi utilizata
petru testarea legaturii liniare dintre doua
variabile.
17

Testarea coeficientului de

corelatie
NU exista legatura liniara intre cele doua

variabile, = 0.
Formularea ipotezelor:
H0: = 0
n2
H1: t =
X
r0
2
1 este
r
Testul statistic
(cu d.f. = n - 2):

unde r este coeficientul de corelatie liniara


calculat ca r

18

cov( X , Y )
sx s y

Evaluarea validitii modelului


de regresie clasic
sxy este covariana ntre x i y.

n de regresie
n
Linii
cu a) pant pozitiv b) pant negativ c) pant egal cu zero

y i y i

19

i 1

i 1

Evaluarea validitii modelului


de regresie clasic
n evaluarea validitatii modelului se verific daca

variatia lui x este un bun predictor pentru


variatia lui y.
Eroarea

standard a reziduurilor (msur


absolut a calitatii ajustrii pe baza regresiei n
esantion)
Coeficientul de determinaie (indicator relativ).

i ) ( y
explicata
yi
y (=
yi
y
Variatia
totala
variatia
+ variatia
i y)

reziduala (neexplicata
de model

20

Evaluarea validitii modelului


de regresie clasic

Abaterea valorilor individuale yi de la medie


21

Evaluarea validitii modelului


de regresie clasic
Prin ridicarea la ptrat a fiecrei abateri i nsumarea

pentru toate observaiile, obinem:


n

2
( y i y) ( y i y i ) ( y i y)

i 1

i 1

i 1

Putem nota:
n

2
2
( y i y) y

= variana total, suma ptratelor abaterilor totale.

i 1

= variana neexplicat, suma ptratelor erorilor.

2
2
( y i y i ) e

i 1
n

2
2
( y i y) y / x

= variana explicat, suma ptratelor abaterilor

datorate
regresiei.
i 1
22

Vom avea, atunci:

2y 2y / x 2e

ANOVA
Modelul ANOVA este

Tabelul ANOVA
pentru testarea calitii ajustrii
Sursa variaiei

Suma ptratelor

Grade de libertate

Media ptratelor
(dispersia corectat)

23

Pe seama
regresiei
Rezidual

i y
2y / x y

Total

2y y i y

i 1

i 2
2e y i y
i 1

i 1

k
nk1
n1

s2
y/x

s e2
s2
y

2y / x
k

2e

n k 1

2y

n 1

unde: k reprezint numarul variabilelor independente


luate n consideratie (pentru regresia liniara simpla, k
= 1).

Evaluarea validitii modelului


de regresie clasic
Dac se mpart varianele la (n1), avem:
y
n

i 1

n 1

y i y

i 1

y
n

n 1

i 1

n 1

relatie care poate fi scris ca:

y
n

i 1

n 1

y y
n

i 1

n 1

deoarece:
n
n
2

b2

24

i 1

n 1

y y a bx a b x
i 1

x x
n

i 1

Evaluarea validitii modelului


de regresie clasic
Abaterea medie ptratic a erorilor n eantion

este:
se
s2e

2e
n2

i 2
yi y

i 1

n2

unde
este un estimator nedeplasat al dispersiei
reziduurilor
.
O marime relativa a calitatii regresiei, este
2
2y
2y / de
determinatie,
coeficientul
calculat ca pondere a
x
e
1,00 2 2
2
dispersiei
explicate
y
y
y in dispersia totala:
25

Evaluarea validitii modelului


de regresie clasic
Coeficientul de determinaie este:

y
n

R2

2y / x
2y

2e
2y

i 1
n
i 1

Sau

SSR
SSE
R
1
0,1
SST
SST
2

26

i y
y
i

Evaluarea validitii modelului


de regresie clasic
R2 = 0 dac b=0,

y y, deci dac ecuatia de regresie este o dreapta

orizontala. n acest caz variabila x nu are putere explicativ.


R2 = 1 daca punctele determinate de observatiile facute asupra
variabilelor x si y se afl toate pe o dreapta, caz n care erorile vor fi
zero.
n cazul n care toate valorile lui y se afl pe o dreapt vertical, R 2 nu
are nici o semnificaie si nu poate fi calculat.
R2 reprezint masura n care variabila independent, X, explic variaia
variabilei rezultative Y.
Coeficientul de determinaie nu este ajustat cu gradele de libertate.
Daca utilizam estimatorii nedeplasati rezulta valoarea ajustata a
coeficientului de determinaie.
2

Valoarea lui
27

2e / n k 1

1 valoarea
este ntotdeauna mai micRdect
lui R 2.
2
y / n 1

Evaluarea validitii modelului


de regresie clasic
Observaii:

1. R2 poate fi interpretat ca procentul variaiei lui y explicat


de variatia variabilei x doar pentru cazul n care metoda
celor mai mici patrate este aplicata modelului liniar de
regresie.
2. Pentru orice model coeficientul R2 poate fi calculat ca:
2

ei

R 1 i

S yy

28

unde

S yy ( yi y ) 2
i

Evaluarea validitii modelului


de regresie clasic
Testul F de verificare a validitatii modelului

Fcalc

s y2 / x
s2

F;k,n-k-1

Fcalc Ftabel atunci R2 / modelul este


reprezentativ.

Daca

29

Modelul Regresiei
Multiple
Ex: legatura liiniara intre 1 variabila
dependenta si 2 sau mai multe variabile
independente
Random
Populatio
n Yintercept

Population
slopes

Error

Yi 0 1 X 1i 2 X 2i p X pi i
Yi b0 b1 X 1i b2 X 2 i b p X pi ei

Variabila
Dependenta pentru
esantion

Variabilele Independente
pentru esantion

Modelul Regresiei
Multiple
Y

Yi b0 b1 X 1i b2 X 2i b p X pi ei

ei
X2
X1

Yi b0 b1 X 1i b2 X 2 i b p X pi

Modelul Regresiei
Multiple

vezi exemplul regresiei multiple din Excel

Modele cu variabile
Dummy
Variabila Alternativa (variabile

categorice/dummy) cu 2 variante de
raspuns:
da sau nu, gen masculin sau feminin, mediu

urban sau rural etc


Coduri: 0 sau 1
Ordonata la origine diferita
Ipoteza pante egale

Y X X

0
1
1i
2
2i
pi
iModelul
de
Regresie
are aceeasi pforma:

Modele cu variabile
Dummy
Ecuatia de regresie : Yi b0 b1 X 1i b2 X 2i
Y = Valoarea apartamentului
X1 = Suprafata apartamentului
0 - buna
X2 = Calitatea locatiei
1 - proasta
- Buna (X2 = 1)
Yi b0 b1 X 1i b2 (1) (b0 b2 ) b1 X 1i
- Proasta (X2 = 0)

Yi b0 b1 X 1i b2 (0) b0 b1 X 1i

Acelea
si
pante

Modele cu variabile
Dummy
Y (valoarea
apartamentului)
t
a
c
o
L

Ordonate
la origine

na
u
b
ie

b0 + b2
b0

ti
a
c
Lo

ta
s
a
o
e pr

Aceiasi
coeficienti
de regresie

X1 (suprafata)

Analiza variatiei
reziduale

Scop

Examinare Linearitate
Evaluarea ipotezelor

Analiza grafica a variabilei reziduale

Diferenta dintre valorile observate Yi


& predictori Yi

Variatia reziduala (Eroarea


aleatoare) - Conditii
Eroarea este o parte critica a modelului de regresie.
Conditii privind distributia lui :
1. Erorile urmeaza o distributie normala.
2. Valoarea asteptata (media) pentru este zero: E() =

0.
3. Abaterea standard pentru este se pentru toate
valorile lui x (homoscedasticitate).
4. Setul de erori asociate diferitelor valori ale lui y sunt
independente (Variabilele aleatoare i sunt statistic
independente una de alta non-autocorelarea
erorilor).
3
37
7

Variatia Erorilor in jurul


Dreptei de Regresie
f(e)

Y
X2

X1
X

Regression
Line

Analiza variatiei
reziduale pt linearitate

Ne-Liniar
e

Liniar

Analiza variatiei
reziduale pt
homoscedasticitate
Heteroscedasticitate
SR

Homoscedasticitate

SR

Se utilizeaza Vb Residuale Standardizate

Testul Durbin-Watson
utilizat pt detectarea autocorelarii autocorelaia de ordinul 1 (SCR)
utilizat in testarea ipotezei de
independenta
n

2
(
e

e
)
i i 1
i 2

e
i 1

2
i

Ar trebui sa fie aproape


de2.
Daca nu, se examineza
modelul pt autocorelare.

Analiza variatiei
reziduale pt
independenta
Nu sunt Independente
SR

Independente

SR

S-ar putea să vă placă și