Sunteți pe pagina 1din 92

REGRESIE SI CORELATIE

Regresia scurt istoric al termenului


Sir Francis Galton(1822-1911) spirit enciclopedic al perioadei victoriene,
fiind cel care a introdus termenii de regresie i corelaie statistic
Originea regresiei ca metod statistic se afl n studiile sale de genetic
aplicat n studiul plantelor- 1877
Plantnd boabe dintr-un anumit soi de mazre dulce a observat c exist o
legtur liniar ntre diametrele acestor boabe i diametrele boabelor
recoltate de la noile plante. El a numit iniial panta acestei drepte
coefficient of reversion, schimbndu-i apoi numele n coefficient of
regression.
Termenul de regresie provine de la descoperirile sale n domeniul ereditii:
n general, progeniturile indivizilor geniali au abiliti care i aaz mai
degrab la nivelul mediei; de asemenea, nalimea copiilor provenii din tai
foarte nali se apropie mai mult de nlimea medie dect nlimea tailor.

Modele
Un model este o reprezentare a unui anumit fenomen
Model matematic - o reprezentare matematic a unui
fenomen
De cele mai multe ori un model descrie legturile
existente ntre dou sau mai multe variabile
n general, snt dou clase de modele:
Modele deterministe
Modele probabiliste

Modele deterministe
Exprim o relaie
exact ntre variabile
Teoretic, eroarea de
previziune este nul
Exemplu:
Principiul al doilea al
mecanicii newtoniene:
F = m.a

Modele probabiliste
Componenta determinist
Componenta aleatoare
Eroarea de previziune este
nenul
Componenta aleatoare
poate fi datorat factorilor
obiectivi, ce nu snt inclui n
model
Exemplu: Volumul
vnzrilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare
4

Tipuri de modele probabiliste


PP r rooModele
bb aa bb i il li iss t ti icc
MM oo dd ee l lss
probabiliste
RModele
R ee gg r ree ss ss i de
ioo nn
MM oo dd ee l lss
regresie

CC oo r rr ree l laa t tide


Modele
ioo nn
MM oo dd ee l lss
corelatie

OOAlte
t thh ee r r
MM oo dd ee l lss

modele
5

Regresia metod de modelare a legturilor dintre variabile

n general, orice fenomen este rezultatul aciunii unuia


sau mai multor factori
Exprimarea matematic:

Y f ( X 1 ,..., X n )

Variabila
dependent

Variabile
independente

(variabila
endogen)

(variabile
exogene/explicative)

Variabila
rezidual

Exemplu: Legea lui Keynes privind legtura dintre


venit i consum
Suma cheltuit pentru consum depinde de:
mrimea venitului pe de o parte
alte obiective n funcie de circumstane (de exemplu
investiiile)
alte nevoi subiective
O persoan este dispus de regul i n medie s i creasc
consumul pe msura creterii venitului dar nu n aceeai msur
0

dC
1
dV

Modelul de regresie: C=+V+ , unde 0<<1 .


7

Ipotezele modelului de regresie


(Ipotezele Gauss-Markov)
1. Normalitatea
Valorile Y snt normal distribuite pentru orice X
Erorile snt normal distribuite cu medie zero E(i)=0 i
2
2
E

2. Homoscedasticitatea (dispersie constant)


i
3. Necorelarea erorilor E(i k)=0 (i<>k)
4. Liniaritatea Y i X i
5. Variabilele snt msurate fr eroare
(caracter nestochastic)
Cov( X i , j ) 0, i, j
8

Forma funcional
Ipoteza de linearitate nu este att de restrictiv pe ct pare.
Aceasta se refer la felul n care parametrii intr n ecuaie, nu
neaprat la relaia ntre variabilele x i y.
n general modele pot fi linearizate.

y=a+bx
y=a+bz, z=ex
y=a+br, r=1/x
y=a+bq, q=ln(x)

y= x ln(y)=+ln(x)

Forma general: f(yi)= +g(xi)+i

1
y
Contra exemplu:
x nu poate fi transformat n
model liniar.

Modele ce pot fi linearizate


Y

1000

a be

a b

800

600

a bx
400

200

a b ln x
0
-1

0.003

0.008

0.013

0.018

0.023

0.028

0.033

0.038

0.043

0.048

0.053

0.058

0.063

0.068

-200

-400

10

Ipoteza c media erorilor este zero: E(i)=0 i, este


natural atta timp ct este vzut ca suma efectelor
individuale, cu semne diferite. Dac media erorilor este diferit
de zero, ea poate fi considerat ca o parte sistematic a
regresiei:
E()= + x + = (+) + x + (-)
media erorilor fiind acum nul.

Ipoteza de homoscedasticitate: Var(i)= 2


constant i
Se consider un model care descrie consumul unor gospodrii
n funcie de venitul acestora. n acest caz, consumul
gospodriilor mari pot varia mult mai mult fa de consumul
gospodriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectat.
11

Exemplu de nclcare a ipotezei de


homoscedasticitate
Functia de consum
1200
1000

consum

800
600
400
200
0
200

300

400

500

600

700

800

900

1000

venit

12

Necorelarea erorilor: E(ij)=0 ij


Aceast ipotez nu implic faptul c yi i yj sunt necorelate,
ci faptul c deviaiile observaiilor de la valorile lor ateptate
sunt necorelate.

Ipoteza de normalitate a erorilor i N(0, 2)


Este o ipotez de lucru, tehnic, ce permite obinerea unor
estimatori buni.

Dac ipotezele precedente snt respectate, vom


obine estimatori B.L.U.E. (Best Linear Unbiased

Estimators)
13

Ipotezele de normalitate i
homoscedasticitate
f(e)

Y
X
X

14

Variaia erorilor n jurul dreptei de


regresie
f(e)

Valorile y snt normal distribuite


n jurul dreptei de regresie.
Pentru fiecare valoare x, dispersia
n jurul dreptei de regresie este
constant.

Y
X2

X1
X

Dreapta de regresie

15

Clasificarea modelelor de regresie


1 Variabil
explicativ

Modele
de regresie

2+ Variabile
explicative

Multiple

Simple

Linear

NonLinear

Linear

NonLinear
16

Tipuri de modele de regresie


Legtur liniar direct

Legtur liniar invers

Legtur neliniar

Absena vreunei legturi

17

Modelul de regresie liniar simpl

18

Exemplu
practic
Exist o legtur ntre suprafaa
unor apartamente din zona
central i preul de nchiriere a
acestora?
Selectm aleator 25 de astfel de
apartamente la care urmrim
valorile celor dou variabile X
suprafaa(m2) i Y chiria
lunar(RON).
19

Regresia folosind EXCEL


Accesm meniul TOOLS>DATA ANALYSIS>REGRESSION

20

Regresia folosind EXCEL


Selectm valorile variabilelor

21

22

Corelograma(Scatter plot)
Graficul punctelor de coordonate (Xi,Yi), i=1,n.

23

Modelul de regresie
liniar simpl

Pe baza corelogramei este rezonabil s presupunem c media variabilei


Y depinde de X printr-o relaie liniar:

Atunci modelul de regresie liniar simpl este dat de relaia urmtoare:

Y intercept (termenul constant)

Yi 0 1 X i i
Variabila
dependent
(rspuns)

Variabila
de
perturbaie

Variabila
independent
Panta dreptei de
regresie

(explicativ)

24

Media i dispersia variabilei dependente


Dac presupunem c media i dispersia lui snt 0 i 2,
atunci media lui Y pentru o valoare particular a lui X
este dat de relaia:

Dispersia lui Y pentru o valoare particular a lui X


este dat de relaia:

25

La nivelul populaiei regresia se reduce la exprimarea


mediei condiionate a lui Y:
unde 1 are semnificaia unui coeficient de
elasticitate: arat modificarea lui Y la o modificare cu
o unitate a lui x.
De asemenea, variabilitatea lui Y pentru o valoare
particular x este determinat de dispersia variabilei
reziduale, 2.
Exist o distribuie a valorilor lui Y pentru fiecare x
i dispersia acestei distribuii este constant pentru
26
orice x.

Distribuia condiionat a lui Y


Y

Dreapta de regresie

27

Modelul de regresie liniar


la nivelul populaiei
Y

Yi 0 1X i i

Valoarea
observat

i = Eroarea

YX

(E(Y))
Valoarea
observat

0 1X i

X
28

Modelul de regresie liniar


la nivelul eantionului

Yi 0 1 X i

Yi
Xi

= Valoarea estimat a lui Y pentru observaia i


= Valoarea lui X pentru observaia i

= Estimatorul termenului liber 0

= Estimatorul pantei 1
29

Estimarea parametrilor modelului de regresie


Metoda celor mai mici ptrate(M.C.M.M.P.) Least
Squares(L.S.)
Presupunem c avem n perechi de observaii (x1, y1), (x2, y2),
, (xn, yn).
Ideea este s minimizm distana dintre valorile estimate i
n
n
2
valorile reale
L
Y Y i2 min

i 1

Ne reamintim c

i 1

Yi 0 1 xi

deci

30

Ilustrare grafic
n

LS minimizeaz
i 1

2
i

2
1

2
2

2
3

2
4

Y2 0 1X 2 2
^ 44

^ 22
^ 11

^ 33

Yi 0 1X i
X
31

Condiiile de minim:

Simplificnd, obinem sistemul de ecuaii normale

32

Estimatorii modelului de regresie


cov(XX,,YY))
cov(
bb11
2
2
ssxx
bb00 yy bb11xx

33

Notaii
Valoarea estimat:
Valoarea rezidual(reziduul):

34

Estimatorul dispersiei modelului


Dac notm suma ptratelor erorilor de regresie

atunci un estimator al varianei variabilei reziduale


este

35

Proprietile estimatorilor modelului de regresie


0 i 1 snt estimatori nedeplasai ai parametrilor 0 i 1
E ( ) i E ( )
0

-Dispersiile celor doi estimatori snt date de relaiile


2

1
x
2

V( 0 )
n S xx
2

V(1 )
S xx
n

unde S xx ( xi x ) 2 i 2 este dispersia variabilei reziduale


i 1

-Estimatorii 0 i 1 urmeaz o distribuie normal


36

Distribuia estimatorului pantei de


regresie
Y Sample 1 Line

All Possible

Sample 2 Line
Population Line

Sampling Distribution
S^
1

Sample Slopes
Sample 1: 2.5
Sample 2: 1.6
Sample 3: 1.8
Sample 4: 2.1
:
:
Very large number of
sample slopes

^
1
37

Eroarea standard a estimatorilor


n

ntruct variana rezidual 2 se estimeaz prin 2

2
e
i
i 1

n2

putem avea o estimare

a erorii standard a celor doi estimatori:

2
2
)

S
V
(

xx
1
-SE ( 1 )

df
n2
S xx
V ( 0 )

-SE ( 0 )

df

1 x 2

n S xx
2

n2

1 x 2

n S xx
2

Erorile standard vor fi folosite la testarea semnificaiei parametrilor


modelului de regresie
38

Testul t pentru panta dreptei de regresie(slope)


H 0 : 1 10

0
H A : 1 1

1 10 1 10
t

SE ( 1 )

S xx

1 10
n

e /(n 2)
i 1
n

2
i

1 10
n

2
e
/
(
x

x
)
/ n2
i
i 1

2
i

i 1

2
(
x

x
)
i
i 1

Valoarea critic: t / 2;n 2

H 0 : 1 0(nu exist legtur liniar)


Caz particular:
H A : 1 0( exist legtur liniar)
39

Exemple de acceptare a ipotezei


H 0 : 1 0(nu exist legtur liniar)

40

Exemple de respingere a ipotezei


H 0 : 1 0(nu exist legtur liniar)

41

Testul t pentru termenul liber(intercept)


H 0 : 0 00

0
H
:

A 0
0

0 00
t

SE ( 0 )

0 00
2

1
x
2
ei /(n 2)

i 1
n S xx
n

Valoarea critic:

0 00
1 x

n S xx
2

0 00

2
1

x
2
/ n2
ei n

2
n
i 1
(
x

x
)

i 1

t / 2;n 2

42

Intervale de ncredere pentru parametrii


modelului
Pentru termenul liber(intercept)
0 t / 2,n 2 SE ( 0 ) 0 0 t / 2,n 2 SE (0 )
0 t / 2,n 2

2
1 x 2

1
x
2
0 0 t / 2,n 2
n S xx
n S xx
2

Pentru panta dreptei de regresie(slope)

1 t / 2, n 2 SE ( 1 ) 1 1 t / 2, n 2 SE ( 1 )
1 t / 2, n 2
n

unde 2

e
i 1

2
i

n2

2
2 x 2

x
2

1 1 t / 2, n 2

S xx
S xx

este estimatorul dispersiei modelului.

43

Teorema Gauss-Markov

Estimatorii obinui prin metoda celor mai mici ptrate snt


B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai mic
dect cei obinui prin MCMMP.
Conform OLS, estimatorul pantei este o combinaie liniar de valorile variabilei dependente:
n

( y y)( x x) y ( x x) y ( x x) y ( x x)
i

i 1

( x x)
i 1

i 1

( x x)

i 1

i 1

i 1

i 1

i 1

i 1

i 1
n

( x x)

i yi

i 1

i 1

Fie qi yi 0 qi 1 qi xi qi i un alt estimator liniar.


'

i 1

i 1

Pentru ca E( ) 1 , e necesar ca qi 0 i qi xi 1.
'

Rezult qi i 1 , deci variana sa este V( )


'

'

i 1

Fie vi q i i , atunci qi i vi i avem V( )


'

(
i 1

2
i

2 i vi v )
2
i

(
i 1

2
i

v )
2
i

i 1

2
i

q .
i 1

2
i

2
(

v
)
i i
i 1

V ( 1 ).*** QED

44

Exemplu-chiria ca funcie de suprafa

Panta dreptei de regresie este pozitiv, deci exist o legtur


direct ntre chirie i suprafaa apartamentelor.
n plus, dac chiria crete cu o unitate(1 m2) ,chiria va crete cu
10.640 lei.
Doar panta dreptei de regresie este semnifcativ diferit de zero.
P-value probabilitatea ipotezei ca parametrul estimat s fie egal cu
zero; dac P-value este mai mic dect pragul de semnificaie atunci
respingem aceast ipotez.
45

Analiza varianei pentru modelul de regresie


Dac ntre X i Y nu exist nici o legtur, atunci putem
face predicii privind valoarea medie a lui Y pentru orice
valoare a lui X
Dac exist o legtur ntre X i Y, n ce msur
cunoaterea valorilor lui X poate explica abaterea variabilei
dependente de la media sa?
Abaterea totala = abaterea explicata + Abaterea reziduala

(Yi - Y) (Yi - Y) (Yi - Yi )


46

Descompunerea variaiei
Y

SSE =(Yi - Yi )2

SST = (Yi - Y)

^ 0
Yi =

_
SSR = (Yi - Y)2

Xi

^ Xi

+ 1

_
Y
X
47

ANOVA pentru regresie


2
2
2

(Yi Y) (Yi Y) (Yi Yi )


SST

= SSR

SSE

SST = Total Sum of Squares

_
Msoar variaia valorilor observate Yi n jurul mediei Y

SSR = Regression Sum of Squares


Msoar variaia explicat de modelul de regresie

SSE = Error Sum of Squares


Msoar variaia ce poate fi atribuit altor factori, diferii
48
de variabila explicativ X

49

Coeficientul de determinaie R2
Este o msur a proporiei varianei explicate de
n
n
model
2
2
R2

( y y )

SSR

SST ( y y )
i 1

e
i 1

( y y)

0,1

R2 este afectat de creterea numrului de parametri;


de aceea pentru modele cu multi parametri se
calculeaz R2 ajustat, care are aceeai interpretare.
n 1
n 1
2
2
Radj 1 (1 R )
1
,1
n k 1 n k 1
50

Exemplu-chiria ca funcie de suprafa

Modelul explic 72.23% din variaia chiriei pentru


apartamentele din zona central
n

Standard Error :

2
e
i
i 1

n2
51

Observaii
R2 este adesea folosit pentru a alege cel mai bun
model din punctul de vedere al varianei explicate.
Comparaiile de acest fel trebuie fcute ntre modele
de aceeai natur.

52

Foarte important!!
Pentru modele de regresie fr termen liber, de tipul
R2 nu mai are semnificaia de proporie a varianei
y

explicate.
Exemplu: considerm dou astfel de modele

y1 1 x1 1
, unde y2i y1i i x2i x1i

y2 2 x2 2

Dei ar prea c modelul al doilea este mai performant, nu snt


argumente pentru a susine aceast ipotez
53

Coeficientul de determinaie i
coeficientul de corelaie liniar
Y R2 = 1, r = +1
^=b +b X
Y
i
0
1 i

Y R2 = 1, r = -1
^=b +b X
Y
i

2
R
Y = .8,r = +0.9

X
Y

^=b +b X
Y
i
0
1 i
X

1 i

R2 = 0, r = 0
^ =b +b X
Y
i
0
1 i
X
54

Tabelul ANOVA

Testul

SSR
F k 1 ~ Fk 1, n k
SSE
nk

k-numrul de parametrii ai
modelului

este folosit la verificarea validitii modelului. Un model este valid


dac proporia varianei explicate prin model este semnificativ.
Ipoteza nul pentru testul F in cazul acesta este cea de model
55
nevalid.

ANOVA

56

Predicia folosind modelul de regresie


1. Tipuri de predicii
Estimri punctuale
Estimri pe intervale de ncredere

2. Care e obiectul prediciei?


Media populaiei E(Y) pentru o valoare particular a lui X
Valoarea individual (Yi) pentru o valoare particular a lui
X

57

Ce prezicem
Y

Y Individual
Mean Y, E(Y)
E(Y)
Prediction, Y

XP

= 00 + 11 X

^
X
58

Interval de ncredere pentru media lui Y

Y t / 2, n 2 SY E (Y ) Y t / 2, n 2 SY
unde
SY

x x
x x

i 1

i
2

e
i 1

2
i

n2
59

Factori care afecteaz lungimea intervalului de ncredere


1. Nivelul de ncredere (1 - )
Creterea nivelului de ncredere duce la creterea intervalului de
ncredere
2. Dispersia datelor ()
Creterea dispersiei duce la creterea intervalului de ncredere
3. Volumul eantionului
Creterea volumului eantionului duce la micorarea intervalului de
ncredere
4. Distana lui Xp fa de media X
Creterea acestei distante duce la creterea intervalului de ncredere

60

Distana lui Xp fa de media X

Y
Dispersie
mai mare
dect la X1

_
Y
X1

X2

X
61

Exemplu
Un analist de marketing stabilete c volumul vnzrilor depinde
liniar de cheltuielile cu reclama. Estimeaz un model de regresie
i obine 0 = -.1, 1 = .7 & s = .60553.
Cheltuieli cu reclama $ Vnzri(buci)
1
1
2
1
3
2
4
2
5
4
Ct vor fi vnzrile medii dac se cheltuiesc 4 $ pentru reclam?
alfa=0.05
62

Soluie
Y t //2,2,nn22 SYY E (Y ) Y t //2,2,nn22 SYY
Y 0.1 0.7 4 2.7

Valoarea particular
pentru X

1 4 3
SYY .60553
0.3316
5
10
22

2.7 3.1824 0.3316 E (Y ) 2.7 3.1824 0.3316


1.6445 E (Y ) 3.7553

63

Interval de predicie pentru valori particulare

Y t / 2,n 2 S Y Y YP Y t / 2,n 2 S Y Y


unde
n

1
S Y Y 1

n

xP x
n

x x
i 1

i
2

e
i 1

2
i

n2
64

Predicia
Y

we're trying to
predict

Expected
Expected
(Mean) Y

E(Y) =
Prediction, YY

XP

00 + 11 X

X
65

Hyperbolic Interval Bands


Y

_
X

XP

X
66

Predicia pentru modelul particular de regresie dintre chirie i suprafa


Valoarea suprafeei
pentru un apartament
Chiria prezis de model pentru
un apartament cu suprafaa de
100 m2
Interval de ncredere pentru
chiria medie a unui apartament
cu suprafaa de 100 m2
Interval de ncredere pentru
chiria unui apartament cu
suprafaa de 100 m2

1 Xp X
h statistic n
2
n
Xi X
2

i 1

67

Verificarea ipotezelor privind variabila


reziduala
A) Variabila eroare este normal distribuita
Folosim valorile variabilei reziduale standardizate

68

sri s 1 hi unde
( xi x )
1
hi
2
n (x j x )
2

e
i 1

2
i

n2

Standardized residual i =
Residual i / Standard deviation

69

70

Normal Probability Plot

71

72

Variabilele reziduale snt necorelate?

73

74

Variabila reziduala are varianta constanta:


Homoscedasticitate/Heteroscedasticitate
Daca este incalcata conditia variantei constante
suntem in cazul heteroscedasticitatii.
+
++

^y
Residual

+ + +
+
+

+
+

+
+
++ +

+ +
+
+
+
+ +
+
+ +
+
+
+

^y

++
+ ++
++

++
+

+
++
+
+

Imprastierea creste odata cu y

75

Daca varianta este constanta avem


homoscedasticitate
+
++

^y
Residual

+
+ +

+
+

+
+ +

+
+ +

+ +

+ +
+ +

+
+
++ +

^y

++
++
++
+
+ +++
+++
+

++
+

+
++
+
+

76

Independenta erorilor in timp


Tipuri de variabila reziduala care indica exixtenta autocorelatiei erorilor
In timp.
Residual

Residual
+ ++
+

+
+
+
+
+ +
+
+

++

+
+
Time

0 +
+

Time
+

77

REGRESIE MULTIPLA

78

Regresie multipla
Coeficienti de
regresie
Variabila eroare

y = 0 + 1x1+ 2x2 + + kxk +


Variabila
Dependenta

Variabile Independente

79

Examplu Stabilirea locatiei unui hotel


La Quinta Motor Inns doreste construirea unui nou hotel.
Managementul doreste sa stabileasca locatia probabil
cea mai profitabila.
Profitabilitatea unei locatii depinde de factori cum sunt:

Competition
Market awareness
Demand generators
Demographics
Physical quality
80

Profitability

Competition

Rooms
Number of
hotels/motels
rooms within
3 miles from
the site.

Market
awareness

Nearest
Distance to
the nearest
La Quinta inn.

Customers

Office
space

College
enrollment

Margin

Community

Physical

Income

Disttwn

Median
household
income.

Distance to
downtown.

81

Se folosesc date pentru un esantion de 100 hoteluri


care apartin La Quinta, si se foloseste urmatorul
model :
Margin = Rooms
Nearest Office College

+ 5Income + 6Disttwn +

INN
INN
11
22
33
44
55
66

MARGIN ROOMS
ROOMS NEAREST
NEAREST OFFICE
OFFICE COLLEGE
COLLEGE INCOME
INCOME DISTTWN
DISTTWN
MARGIN
55.5
3203
0.1
549
37
12.1
55.5
3203
0.1
549
88
37
12.1
33.8
2810
1.5
496
17.5
39
0.4
33.8
2810
1.5
496
17.5
39
0.4
49
2890
1.9
254
20
39
12.2
49
2890
1.9
254
20
39
12.2
31.9
3422
434
15.5
36
2.7
31.9
3422
11
434
15.5
36
2.7
57.4
2687
3.4
678
15.5
32
7.9
57.4
2687
3.4
678
15.5
32
7.9
49
3759
1.4
635
19
41
49
3759
1.4
635
19
41
44

82

SUMMARY OUTPUT

MARGIN = 72.455 - 0.008ROOMS -1.646NEAREST


+ 0.02OFFICE +0.212COLLEGE
- 0.413INCOME + 0.225DISTTWN

Regression Statistics
Multiple R 0.724611
R Square 0.525062
Adjusted R Square
0.49442
Standard Error
5.512084
Observations
100
ANOVA
df
Regression
Residual
Total

SS
MS
F
Significance F
6 3123.832 520.6387 17.13581 3.03E-13
93 2825.626 30.38307
99 5949.458

Coefficients
Standard Error t Stat
Intercept
72.45461 7.893104 9.179483
ROOMS
-0.00762 0.001255 -6.06871
NEAREST -1.64624 0.632837 -2.60136
OFFICE
0.019766
0.00341 5.795594
COLLEGE 0.211783 0.133428 1.587246
INCOME
-0.41312 0.139552 -2.96034
DISTTWN 0.225258 0.178709 1.260475

P-value Lower 95% Upper 95%


1.11E-14 56.78049 88.12874
2.77E-08 -0.01011 -0.00513
0.010803 -2.90292 -0.38955
9.24E-08 0.012993 0.026538
0.115851 -0.05318 0.476744
0.003899 -0.69025
-0.136
0.210651 -0.12962 0.580138

83

Utilizarea modelului
Predictiepentru un hotel cu urmatoarele
caracteristici:

3815 rooms within 3 miles,


Closet competitor 3.4 miles away,
476,000 sq-ft of office space,
24,500 college students,
$39,000 median household income,
3.6 miles distance to downtown center.

MARGIN = 72.455 - 0.008(3815) -1.646(3.4) + 0.02(476)


+0.212(24.5) - 0.413(39) + 0.225(3.6) = 37.1%

84

Testul Durbin - Watson


n
n

2
2
ii

2
2
(
r

r
)
(rii rii
1
1)
n
n

2
2
rrii

1
1
ii

The range
range of
of d
d is
is 0
0
d
d
4
4
The
85

Autocorelatie de ordinul I pozitiva


+
+

Residuals

Autocorelatie de ordinul I pozitiva

+
0

Time

+
+

+ +

Autocorelatie de ordinul I negativa


Autocorelatie de ordinul I negativa
Residuals

+
+
+

+
+

Time

86

TEST UNILATERAL
Daca d<dL exista autocorelatie de ordinul I pozitiva
If d>dU nu exista autocorelatie de ordinul I pozitiva
Daca d este intre dL si dU indecizie.

Daca d>4-dL,exista autocorelatie de ordinul I negativa


Daca d<4-dU, nu exista autocorelatie de ordinul I negativa
Daca d este intre 4-dU and 4-dL indecizie
87

indecizie

Auto
corelatie

dL

Indepen
denta

dU

Indecizie

Indepen
denta

4-dU

Auto
corelatie

4-dL

88

Variabile calitative
In many real-life situations one or more
independent variables are qualitative.
Including qualitative variables in a regression
analysis model is done via indicator variables.
An indicator variable (I) can assume one out of
two values, zero or one.
o
1
if
a
degree
earned
is
in
Finance
1
if
the
temperature
was
below
50
11 ififadata
firstwere
condition
collected
out ofbefore
two is1980
met
I= 00 ififthe
o Finance
asecond
degree
earnedwas
isout
not
temperature
50
or more
00 ififadata
werecondition
collected
after
ofintwo
1980
is met

89

Variabile calitative
Consideram ca pretul este determinat si de
culoarea masinii.
Consideram trei culori :
White
Silver
Other colors

I1 = 1 if the color is white

0 if the color is not white


I2 = 1 if the color is silver
0 if the color is not silver

90

Folosim modelul
y = 0 + 1(Odometer) + 2I1 + 3I2 +

Price
5318
5061
5008
5795
5784
5359
.
.

Odometer
37388
44758
45833
30862
31705
34010
.
.

I-1
1
1
0
0
0
0
.
.

I-2
0
0
0
0
1
1
.
.

White car
Other color
Silver color
91

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.835482
R Square
0.69803
Adjusted R Square
0.688594
Standard Error
142.271
Observations
100
ANOVA
df
Regression
Residual
Total

3
96
99

SS
MS
F Significance F
4491749 1497250 73.97095 7.22E-25
1943141 20241.05
6434890

Coefficients
Standard Error t Stat
Intercept
6350.323 92.16653 68.90053
Odometer -0.02777 0.002369 -11.7242
I-1
45.24098 34.08443 1.327321
I-2
147.738 38.18499 3.869007

P-value Lower 95% Upper 95%


1.5E-83 6167.374 6533.272
3.14E-20 -0.03247 -0.02307
0.187551 -22.4161 112.8981
0.000199 71.94135 223.5347

92

S-ar putea să vă placă și