Documente Academic
Documente Profesional
Documente Cultură
Modelul de regresie
Modelul cel mai simplu:
Y =f(X)+
Modelul liniar :
Yi = + xi + i, i=1,n
Componenta determinista
Componenta rezidual (eroarea aleatoare)
Yi = Yi
+ i
Ordonata la origine
Panta dreptei semn si valoare
2
y i a bx i
esantion:
3
ei = yi (a + bxi)
i) n
Ipotezele modelului de
regresie
1. Forma functional: yi = + xi + i,
2.
3.
4.
5.
6.
4
i=1,n
2
Normalitatea erorilor: i N(0,
)
Media zero a erorilor: (
2 i)=0 i
Homoscedasticitatea: 2(i)=
constant i
Non autocorelarea erorilor: Cov(i,j)=0
ij
Necorelarea ntre regresor i erori:
Cov(xi,j)=0 i i j
ei = yi - a - bxi
Functia
yi isi
na
b minimul
xi
atinge
camd derivata de ordin
5
i zero
i
I este
2
x
y
a
x
b
x
i i
i
i
i
i
i
y x
i 1
i 1
i 1
x y
2
i
nx y
2
i
nx
x x y
i
i 1
n x
2
i
x
i 1
i 1
2
y bx
(
y
y
)
se
i 1
n k 1
unde:
7nnnnnn
se
(
y
y
)
i 1
n2
: testare i intervale de
ncredere
n determinarea
intervalului de ncredere pentru coeficientul de
regresie , i pentru
testulb z:
sb
b0
sb
regresie (abaterea
medie ptratic) :
n
2
(
y
y
)
1
i 1
sb
* n
n k 1
2
(
x
x
)
i
i 1
se
n
2
(
x
x
)
i
i 1
Pentru
Dac
libertate
sb
sb
10
unilateral de dreapta:
H0 : = 0,
H1 : > 0,
unilateral de stanga:
H0 : = 0,
H1 : < 0,
11
12
b t , n 2 sb b t , n 2 sb
Analog
se poate
parametrului
13
proceda
si
in
cazul
Exemplu
Patronul unui lant de 8 magazine doreste sa analizeze
14
1
2
3
4
5
6
7
8
Marimea
magazinului
(mp)
120
90
210
400
80
200
250
100
Vanzari
anuale
(mii Euro)
700
600
1400
5400
620
1600
2300
680
Estimation of Predicted
Values
Intervalul de incredere pt XY
Media lui Y pentru o valoare particulara X i
Eroarea Standard
a Estimatorului
Yi t n 2 S e
Valoarea din tabel
pt t cu d.f. = n-2
15
( X i X )2
n
2
(
X
X
)
i
i 1
Estimation of Predicted
Values
Intervalul de incredere pt raspunsul
individual Yi la un nivel dat al lui Xi
Yi t n 2 S e
1
1
n
( X i X )2
n
2
(
X
X
)
i
i 1
16
Coeficientul de corelatie
Masoara intensitatea legaturii (asocierii) dintre
doua variabile.
Are valori cuprinse intre -1 and 1.
Daca r = - 1 (asociere negativa) sau r
=+1 (asociere pozitiva) toate punctele se
situeaza pe dreapta de regresie.
Daca r = 0 nu exista legatura liniara.
Coeficientul de corelatie poate fi utilizata
petru testarea legaturii liniare dintre doua
variabile.
17
Testarea coeficientului de
corelatie
NU exista legatura liniara intre cele doua
variabile, = 0.
Formularea ipotezelor:
H0: = 0
n2
H1: t =
X
r0
2
1 este
r
Testul statistic
(cu d.f. = n - 2):
18
cov( X , Y )
sx s y
n de regresie
n
Linii
cu a) pant pozitiv b) pant negativ c) pant egal cu zero
y i y i
19
i 1
i 1
i ) ( y
explicata
yi
y (=
yi
y
Variatia
totala
variatia
+ variatia
i y)
reziduala (neexplicata
de model
20
2
( y i y) ( y i y i ) ( y i y)
i 1
i 1
i 1
Putem nota:
n
2
2
( y i y) y
i 1
2
2
( y i y i ) e
i 1
n
2
2
( y i y) y / x
datorate
regresiei.
i 1
22
2y 2y / x 2e
ANOVA
Modelul ANOVA este
Tabelul ANOVA
pentru testarea calitii ajustrii
Sursa variaiei
Suma ptratelor
Grade de libertate
Media ptratelor
(dispersia corectat)
23
Pe seama
regresiei
Rezidual
i y
2y / x y
Total
2y y i y
i 1
i 2
2e y i y
i 1
i 1
k
nk1
n1
s2
y/x
s e2
s2
y
2y / x
k
2e
n k 1
2y
n 1
i 1
n 1
y i y
i 1
y
n
n 1
i 1
n 1
y
n
i 1
n 1
y y
n
i 1
n 1
deoarece:
n
n
2
b2
24
i 1
n 1
y y a bx a b x
i 1
x x
n
i 1
este:
se
s2e
2e
n2
i 2
yi y
i 1
n2
unde
este un estimator nedeplasat al dispersiei
reziduurilor
.
O marime relativa a calitatii regresiei, este
2
2y
2y / de
determinatie,
coeficientul
calculat ca pondere a
x
e
1,00 2 2
2
dispersiei
explicate
y
y
y in dispersia totala:
25
y
n
R2
2y / x
2y
2e
2y
i 1
n
i 1
Sau
SSR
SSE
R
1
0,1
SST
SST
2
26
i y
y
i
Valoarea lui
27
2e / n k 1
1 valoarea
este ntotdeauna mai micRdect
lui R 2.
2
y / n 1
ei
R 1 i
S yy
28
unde
S yy ( yi y ) 2
i
Fcalc
s y2 / x
s2
F;k,n-k-1
Daca
29
Modelul Regresiei
Multiple
Ex: legatura liiniara intre 1 variabila
dependenta si 2 sau mai multe variabile
independente
Random
Populatio
n Yintercept
Population
slopes
Error
Yi 0 1 X 1i 2 X 2i p X pi i
Yi b0 b1 X 1i b2 X 2 i b p X pi ei
Variabila
Dependenta pentru
esantion
Variabilele Independente
pentru esantion
Modelul Regresiei
Multiple
Y
Yi b0 b1 X 1i b2 X 2i b p X pi ei
ei
X2
X1
Yi b0 b1 X 1i b2 X 2 i b p X pi
Modelul Regresiei
Multiple
Modele cu variabile
Dummy
Variabila Alternativa (variabile
categorice/dummy) cu 2 variante de
raspuns:
da sau nu, gen masculin sau feminin, mediu
Y X X
0
1
1i
2
2i
pi
iModelul
de
Regresie
are aceeasi pforma:
Modele cu variabile
Dummy
Ecuatia de regresie : Yi b0 b1 X 1i b2 X 2i
Y = Valoarea apartamentului
X1 = Suprafata apartamentului
0 - buna
X2 = Calitatea locatiei
1 - proasta
- Buna (X2 = 1)
Yi b0 b1 X 1i b2 (1) (b0 b2 ) b1 X 1i
- Proasta (X2 = 0)
Yi b0 b1 X 1i b2 (0) b0 b1 X 1i
Acelea
si
pante
Modele cu variabile
Dummy
Y (valoarea
apartamentului)
t
a
c
o
L
Ordonate
la origine
na
u
b
ie
b0 + b2
b0
ti
a
c
Lo
ta
s
a
o
e pr
Aceiasi
coeficienti
de regresie
X1 (suprafata)
Analiza variatiei
reziduale
Scop
Examinare Linearitate
Evaluarea ipotezelor
0.
3. Abaterea standard pentru este se pentru toate
valorile lui x (homoscedasticitate).
4. Setul de erori asociate diferitelor valori ale lui y sunt
independente (Variabilele aleatoare i sunt statistic
independente una de alta non-autocorelarea
erorilor).
3
37
7
Y
X2
X1
X
Regression
Line
Analiza variatiei
reziduale pt linearitate
Ne-Liniar
e
Liniar
Analiza variatiei
reziduale pt
homoscedasticitate
Heteroscedasticitate
SR
Homoscedasticitate
SR
Testul Durbin-Watson
utilizat pt detectarea autocorelarii autocorelaia de ordinul 1 (SCR)
utilizat in testarea ipotezei de
independenta
n
2
(
e
e
)
i i 1
i 2
e
i 1
2
i
Analiza variatiei
reziduale pt
independenta
Nu sunt Independente
SR
Independente
SR