Sunteți pe pagina 1din 92

1

REGRESIE SI CORELATIE
2
Regresia scurt istoric al termenului
Sir Francis Galton(1822-1911) spirit enciclopedic al perioadei
victoriene, fiind cel care a introdus termenii de regresie i corelaie
statistic
Originea regresiei ca metod statistic se afl n studiile sale de genetic
aplicat n studiul plantelor- 1877
Plantnd boabe dintr-un anumit soi de mazre dulce a observat c exist o
legtur liniar ntre diametrele acestor boabe i diametrele boabelor
recoltate de la noile plante. El a numit iniial panta acestei drepte
coefficient of reversion, schimbndu-i apoi numele n coefficient of
regression.
Termenul de regresie provine de la descoperirile sale n domeniul
ereditii: n general, progeniturile indivizilor geniali au abiliti care i aaz
mai degrab la nivelul mediei; de asemenea, nalimea copiilor provenii
din tai foarte nali se apropie mai mult de nlimea medie dect nlimea
tailor.

3
Modele
Un model este o reprezentare a unui anumit fenomen
Model matematic - o reprezentare matematic a unui
fenomen
De cele mai multe ori un model descrie legturile
existente ntre dou sau mai multe variabile
n general, snt dou clase de modele:
Modele deterministe
Modele probabiliste
4
Modele deterministe
Exprim o relaie
exact ntre variabile
Teoretic, eroarea de
previziune este nul

Exemplu:
Principiul al doilea al
mecanicii newtoniene:
F = m.a



Modele probabiliste
Componenta determinist
Componenta aleatoare
Eroarea de previziune este
nenul
Componenta aleatoare
poate fi datorat factorilor
obiectivi, ce nu snt inclui
n model
Exemplu: Volumul
vnzrilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare
5
Tipuri de modele probabiliste
Probabilistic
Models
Regression
Models
Correlation
Models
Other
Models
Probabilistic
Models
Regression
Models
Correlation
Models
Other
Models
Modele
probabiliste
Modele de
regresie
Modele de
corelatie
Alte
modele
6
Regresia metod de modelare a legturilor dintre variabile
n general, orice fenomen este rezultatul aciunii unuia
sau mai multor factori
Exprimarea matematic:

1
( ,..., )
n
Y f X X c = +
Variabila
dependent
(variabila
endogen)
Variabile
independente
(variabile
exogene/explicative)
Variabila
rezidual
7
Exemplu: Legea lui Keynes privind legtura dintre
venit i consum
Suma cheltuit pentru consum depinde de:
mrimea venitului pe de o parte
alte obiective n funcie de circumstane (de exemplu
investiiile)
alte nevoi subiective
O persoan este dispus de regul i n medie s i creasc
consumul pe msura creterii venitului dar nu n aceeai msur


Modelul de regresie: C=o+|V+c , unde 0<|<1 .


0 1
dC
dV
< <
8
Ipotezele modelului de regresie
(Ipotezele Gauss-Markov)
1. Normalitatea
Valorile Y snt normal distribuite pentru orice X
Erorile snt normal distribuite cu medie zero E(
i
)=0 i
2. Homoscedasticitatea (dispersie constant)
3. Necorelarea erorilor E(
i

k
)=0 (i<>k)
4. Liniaritatea
5. Variabilele snt msurate fr eroare
(caracter nestochastic)


X Y i i
| o + =
9
Forma funcional
Ipoteza de linearitate nu este att de restrictiv pe ct pare.
Aceasta se refer la felul n care parametrii intr n ecuaie, nu
neaprat la relaia ntre variabilele x i y.
n general modele pot fi linearizate.
y=a+bx
y=a+bz, z=e
x

y=a+br, r=1/x
y=a+bq, q=ln(x)
y= o x

ln(y)=o+|ln(x)
Forma general: f(yi)= o+|g(xi)+ci

Contra exemplu: nu poate fi transformat n
model liniar.
1
y
x
o
|
= +
+
10
Modele ce pot fi linearizate
-400
-200
0
200
400
600
800
1000
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X
Y
|
.
|

\
|
+
x
b a
1
x
be a +
bx a +
( ) x b a ln +
11
Ipoteza c media erorilor este zero: E(ci)=0 i, este
natural atta timp ct c este vzut ca suma efectelor
individuale, cu semne diferite. Dac media erorilor este diferit
de zero, ea poate fi considerat ca o parte sistematic a
regresiei:
media erorilor fiind acum nul.
Ipoteza de homoscedasticitate: Var(ci)=o
2

constant i
Se consider un model care descrie consumul unor gospodrii
n funcie de venitul acestora. n acest caz, consumul
gospodriilor mari pot varia mult mai mult fa de consumul
gospodriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectat.
E(c)= o + |x + c = (o+) + |x + (c-)
12
Exemplu de nclcare a ipotezei de
homoscedasticitate
Functia de consum
0
200
400
600
800
1000
1200
200 300 400 500 600 700 800 900 1000
venit
c
o
n
s
u
m
13
Necorelarea erorilor: E(cicj)=0 i=j
Aceast ipotez nu implic faptul c yi i yj sunt necorelate,
ci faptul c deviaiile observaiilor de la valorile lor ateptate
sunt necorelate.
Ipoteza de normalitate a erorilor c
i
~N(0,o
2
)
Este o ipotez de lucru, tehnic, ce permite obinerea unor
estimatori buni.
Dac ipotezele precedente snt respectate, vom
obine estimatori B.L.U.E. (Best Linear Unbiased
Estimators)


14
Ipotezele de normalitate i
homoscedasticitate
Y
f(e)
X
X
1
X
2
15
Variaia erorilor n jurul dreptei de
regresie
X
1
X
2
X
Y
f(e)
Valorile y snt normal distribuite
n jurul dreptei de regresie.
Pentru fiecare valoare x, dispersia
n jurul dreptei de regresie este
constant.
Dreapta de regresie
16
Clasificarea modelelor de regresie
Modele
de regresie
Linear
Non-
Linear
2+ Variabile
explicative
Simple Multiple
Linear
1 Variabil
explicativ
Non-
Linear
17
Tipuri de modele de regresie
Legtur liniar direct
Legtur liniar invers
Legtur neliniar
Absena vreunei legturi
18
Modelul de regresie liniar simpl
19
Exemplu
practic
Exist o legtur ntre suprafaa
unor apartamente din zona
central i preul de nchiriere a
acestora?
Selectm aleator 25 de astfel de
apartamente la care urmrim
valorile celor dou variabile X
suprafaa(m2) i Y chiria
lunar(RON).

20
Regresia folosind EXCEL
Accesm meniul TOOLS>DATA ANALYSIS>REGRESSION
21
Regresia folosind EXCEL
Selectm valorile variabilelor
22
23
Corelograma(Scatter plot)
Graficul punctelor de coordonate (X
i
,Y
i
), i=1,n.
0
500
1000
1500
2000
2500
0 50 100 150 200 250
Suprafata(m2)
C
h
i
r
i
a
(
R
O
N
)
24
Modelul de regresie liniar simpl
i i i
X Y c | | + + =
1 0
Y intercept (termenul constant)
Panta dreptei de
regresie
Variabila
de
perturbaie
Variabila
dependent
(rspuns)
Variabila
independent
(explicativ)
Pe baza corelogramei este rezonabil s presupunem c media
variabilei Y depinde de X printr-o relaie liniar:


Atunci modelul de regresie liniar simpl este dat de relaia
urmtoare:
25


Dac presupunem c media i dispersia lui c snt 0 i o
2
,
atunci media lui Y pentru o valoare particular a lui X
este dat de relaia:
Dispersia lui Y pentru o valoare particular a lui X
este dat de relaia:
Media i dispersia variabilei dependente
26


La nivelul populaiei regresia se reduce la exprimarea
mediei condiionate a lui Y:
unde |
1
are semnificaia unui coeficient de
elasticitate: arat modificarea lui Y la o modificare cu
o unitate a lui x.
De asemenea, variabilitatea lui Y pentru o valoare
particular x este determinat de dispersia variabilei
reziduale, o
2
.
Exist o distribuie a valorilor lui Y pentru fiecare x
i dispersia acestei distribuii este constant pentru
orice x.

27
Distribuia condiionat a lui Y
Y
X
Dreapta de regresie
28
c
i
= Eroarea
Y
X
Modelul de regresie liniar la
nivelul populaiei
Valoarea
observat
Valoarea
observat
| |
YX
i
X = +
0 1
Y X
i i i
= + + | | c
0 1
(E(Y))
29
Modelul de regresie liniar la
nivelul eantionului
0

|
0 1

i i
Y X | | = +
Y
i

.
= Valoarea estimat a lui Y pentru observaia i
X
i

= Valoarea lui X pentru observaia i
= Estimatorul termenului liber |
0
= Estimatorul pantei |
1
1

|
30
Estimarea parametrilor modelului de regresie
Metoda celor mai mici ptrate(M.C.M.M.P.) Least
Squares(L.S.)
Presupunem c avem n perechi de observaii (x
1
, y
1
), (x
2
, y
2
),
, (x
n
, y
n
).
Ideea este s minimizm distana dintre valorile estimate i
valorile reale

Ne reamintim c deci


( )
2
2
1 1

min

n n
i
i i
i i
L Y Y
c
= =
= = =

0 1

i i
Y x | | = +
31
Ilustrare grafic
c
2
Y
X
c
1
c
3
c
4
^
^
^
^
Y X
2 0 1 2 2
= + +


| | c

Y X
i i
= + | |
0 1
2 2 2 2 2
1 2 3 4
1

LS minimizeaz
n
i
i
c c c c c
=
= + + +

32
Condiiile de minim:





Simplificnd, obinem sistemul de ecuaii normale
33
Estimatorii modelului de regresie
x b y b
s
) Y , X cov(
b
1 0
2
x
1
=
=
34
Notaii
Valoarea estimat:
Valoarea rezidual(reziduul):

35
Dac notm suma ptratelor erorilor de regresie


atunci un estimator al varianei variabilei reziduale
este
Estimatorul dispersiei modelului
36
Proprietile estimatorilor modelului de regresie
0 1 0 1
0 0 1 1
2
2
0

i snt estimatori nedeplasai ai parametrilor i

( ) i ( )
-Dispersiile celor doi estimatori snt date de relaiile
1

V( )
E E
x
n S
| | | |
| | | |
| o

= =
= +
2
1
2 2
1
0 1

V( )
unde ( ) i este dispersia variabilei reziduale

-Estimatorii i urmeaz o distribuie normal
xx
xx
n
xx i
i
S
S x x
o
|
o
| |
=
| |
|
\ .
=
=

37
Y
Population Line
X
Sample 1 Line
Sample 2 Line
Distribuia estimatorului pantei de regresie
|
1
All Possible
Sample Slopes
Sample 1: 2.5
Sample 2: 1.6
Sample 3: 1.8
Sample 4: 2.1
: :
Very large number
of sample slopes
Sampling Distribution
|
1
|
1
S
^
^
38
Eroarea standard a estimatorilor
2
2 2
1
2
2
1
1
ntruct variana rezidual se estimeaz prin putem avea o estimare
2
a erorii standard a celor doi estimatori:

( )

- ( )
df 2

n
i
i
xx
xx
e
n
S V
SE
n S
o o
o
| o
|
=
=

= = =

2
2
2
2
0
0
1

( ) 1

- ( )
df 2
xx
xx
x
n S
V x
SE
n n S
o
|
| o
| |
+
|
| |
\ .
= = = +
|

\ .
Erorile standard vor fi folosite la testarea semnificaiei parametrilor
modelului de regresie
39
Testul t pentru panta dreptei de regresie(slope)






Valoarea critic:

Caz particular:



0
0 1 1
0
1 1
:
:
A
H
H
| |
| |

0 0 0 0
1 1 1 1 1 1 1 1
2
2 2 2 1
1 1 1
2
1

( )

/( 2) / ( ) / 2
( )
n n n
i i i
i i i
xx
n
i
i
t
SE
e n e x x n
S
x x
| | | | | | | |
|
o
= = =
=

= = = =

/ 2; 2 n
t
o
0 1
1
: 0(nu exist legtur liniar)
: 0( exist legtur liniar)
A
H
H
|
|
=

40
Exemple de acceptare a ipotezei
0 1
: 0(nu exist legtur liniar) H | =
41
Exemple de respingere a ipotezei
0 1
: 0(nu exist legtur liniar) H | =
42
Testul t pentru termenul liber(intercept)

0
0 0 0
0
0 0
:
:
A
H
H
| |
| |
=

0 0
0 0 0 0
2
0
2
0 0
0 0 0 0
2
2
2
2
1
2
1
1

( )
1


1
/( 2)
1
/ 2
( )
xx
n
n i
i
xx
i n
i
i
i
t
SE
x
n S
x
e n
x
n S
e n
n
x x
| | | |
|
o
| | | |
=
=
=

= = =
| |
+
|
\ .

= =
| | | |
+
| |
\ .
|
+
|

|
\ .

/ 2; 2 n
t
o
Valoarea critic:
43
Intervale de ncredere pentru parametrii
modelului
Pentru termenul liber(intercept)



Pentru panta dreptei de regresie(slope)





unde este estimatorul dispersiei modelului.

0 / 2, 2 0 0 0 / 2, 2 0
2 2
2 2
0 / 2, 2 0 0 / 2, 2

( ) ( )
1 1


n n
n n
xx xx
t SE t SE
x x
t t
n S n S
o o
o o
| | | | |
| o | | o


s s +
| | | |
+ s s + +
| |
\ . \ .
1 / 2, 2 1 1 1 / 2, 2 1
2 2
2 2
1 / 2, 2 1 1 / 2, 2

( ) ( )


n n
n n
xx xx
t SE t SE
x x
t t
S S
o o
o o
| | | | |
| o | | o


s s +
| | | |
s s +
| |
\ . \ .
2
2 1

2
n
i
i
e
n
o
=
=

44
Teorema Gauss-Markov
Estimatorii obinui prin metoda celor mai mici ptrate snt
B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai
mic dect cei obinui prin MCMMP.


1 1 1 1
1
2 2 2
1
1 1 1
Conform OLS, estimatorul pantei este o combinaie liniar de valorile variabilei dependente:
( )( ) ( ) ( ) ( )

( ) ( ) ( )
n n n n
i i i i i i i n
i i i i
i i n n n
i
i i i
i i i
y y x x y x x y x x y x x
y
x x x x x x
| o
= = = =
=
= = =

= = = =


'
0 1
1 1 1 1
'
1
1 1
' ' 2 2
1
1 1
Fie un alt estimator liniar.
Pentru ca E( ) , e necesar ca 0 i 1.
Rezult , deci variana sa este V( ) .
Fie
n n n n
i i i i i i i
i i i i
n n
i i i
i i
n n
i i i
i i
q y q q x q
q q x
q q
v
| | | c
| |
| c | | o
= = = =
= =
= =
= = + +
= = =
= + =



' 2 2
1
2 2 2 2 2 2 2 2
1
1 1 1
, atunci i avem V( ) ( )

( 2 ) ( ) ( ).***
n
i i i i i i i i
i
n n n
i i i i i i i
i i i
q q v v
v v v V QED
o o | o o
o o o o o o o |
=
= = =
= = + = + =
= + + = + > =


45
Exemplu-chiria ca funcie de suprafa
Panta dreptei de regresie este pozitiv, deci exist o legtur
direct ntre chirie i suprafaa apartamentelor.
n plus, dac chiria crete cu o unitate(1 m2) ,chiria va crete
cu 10.640 lei.
Doar panta dreptei de regresie este semnifcativ diferit de
zero.
P-value probabilitatea ipotezei ca parametrul estimat s fie
egal cu zero; dac P-value este mai mic dect pragul de
semnificaie atunci respingem aceast ipotez.

46
Analiza varianei pentru modelul de regresie
Dac ntre X i Y nu exist nici o legtur, atunci putem
face predicii privind valoarea medie a lui Y pentru orice
valoare a lui X
Dac exist o legtur ntre X i Y, n ce msur
cunoaterea valorilor lui X poate explica abaterea variabilei
dependente de la media sa?
Abaterea totala = abaterea explicata + Abaterea reziduala

) Y - (Y ) Y - Y ( ) Y - (Y
i i i i

+ =
47
Descompunerea variaiei
X
i
Y
X
Y
SST = (Y
i
- Y)
2
SSE =(Y
i
- Y
i
)
2

.
SSR = (Y
i
- Y)
2

.
_
_
_
X
48
ANOVA pentru regresie
2
i i
2
i
2
i
) Y (Y ) Y Y ( ) Y (Y

+ =

SST = SSR + SSE
SST = Total Sum of Squares
Msoar variaia valorilor observate Y
i
n jurul mediei Y
_
SSR = Regression Sum of Squares
Msoar variaia explicat de modelul de regresie
SSE = Error Sum of Squares
Msoar variaia ce poate fi atribuit altor factori, diferii
de variabila explicativ X
49
50
Coeficientul de determinaie R
2

Este o msur a proporiei varianei explicate de
model


R
2
este afectat de creterea numrului de parametri;
de aceea pentru modele cu multi parametri se
calculeaz R
2
ajustat, care are aceeai interpretare.




| |
2 2
2
1 1
2 2

( )
1 0,1
( ) ( )
n n
i i
i i
i i
i i
y y e
SSR
R
SST
y y y y
= =

= = = e



2 2
1 1
1 (1 ) 1 ,1
1 1
adj
n n
R R
n k n k

(
= e
(


51
Exemplu-chiria ca funcie de suprafa
Modelul explic 72.23% din variaia chiriei pentru
apartamentele din zona central

Standard Error :
2
1

2
n
i
i
e
n
o
=
=

52
Observaii
R
2
este adesea folosit pentru a alege cel mai bun
model din punctul de vedere al varianei explicate.

Comparaiile de acest fel trebuie fcute ntre modele
de aceeai natur.

53
Foarte important!!
Pentru modele de regresie fr termen liber, de tipul
R
2
nu mai are semnificaia de proporie a
varianei explicate.
Exemplu: considerm dou astfel de modele








Dei ar prea c modelul al doilea este mai performant, nu
snt argumente pentru a susine aceast ipotez

y x | c = +
1 1 1 1
2 1 2 1
2 2 2 2
, unde i
i i i i
y x
y y x x
y x
| c
o o
| c
= +

= + = +

= +

54
Coeficientul de determinaie i
coeficientul de corelaie liniar
R
2
= 1,
R
2
= 1,
R
2
= .8,
R
2
= 0,
Y
Y
i
= b
0
+ b
1
X
i
X
^
Y
Y
i
= b
0
+ b
1
X
i
X
^
Y
Y
i
= b
0
+ b
1
X
i
X
^
Y
Y
i
= b
0
+ b
1
X
i
X
^
r = +1
r = -1
r = +0.9
r = 0
55
Tabelul ANOVA
Testul

este folosit la verificarea validitii modelului. Un model este valid
dac proporia varianei explicate prin model este semnificativ.
Ipoteza nul pentru testul F in cazul acesta este cea de model
nevalid.

Source of
Variation
Sum of Squares df Mean
Square
F

Regression
2
1
( )
n
i
i
SSR y y
=
=



k-1
MSR=
1
SSR
k

MSR
MSE


Error
2 2
1 1
( )
n n
i i i
i i
SSE y y e
= =
= =



n-k
MSE=
SSE
n k



Total

=
i
i
y y SST
2
) (

n-1
1 n
SST



1,
1
~
k n k
SSR
k
F F
SSE
n k

k-numrul de parametrii ai
modelului
56
ANOVA

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.85
R Square 0.72
Adjusted R Square 0.71
Standard Error 194.70
Observations 25
ANOVA
df SS MS F Significance F
Regression 1 2267827.07 2267827.07 59.82347359 0.00
Residual 23 871898.93 37908.64913
Total 24 3139726
57
Predicia folosind modelul de regresie
1. Tipuri de predicii
Estimri punctuale
Estimri pe intervale de ncredere

2. Care e obiectul prediciei?
Media populaiei E(Y) pentru o valoare particular a lui X
Valoarea individual (Y
i
) pentru o valoare particular a lui
X
58
Ce prezicem
Mean Y, E(Y)
Y
Y
i
=

|
0

+

|
1
X
^
Y
Individual
Prediction, Y
E(Y) = |
0
+ |
1
X
^
X
X
P
^
^
59
Interval de ncredere pentru media lui Y
( )
( )

/ 2, 2 / 2, 2
2
2
2
1

2
1

( )
unde
1

i
2
n n
Y Y
n
i
p
i
n
Y
i
i
Y t S E Y Y t S
e
x x
S
n n
x x
o o
o o

=
=
s s +

= + =

60
Factori care afecteaz lungimea intervalului de ncredere
1. Nivelul de ncredere (1 - o)
Creterea nivelului de ncredere duce la creterea
intervalului de ncredere
2. Dispersia datelor ()
Creterea dispersiei duce la creterea intervalului de
ncredere
3. Volumul eantionului
Creterea volumului eantionului duce la micorarea
intervalului de ncredere
4. Distana lui X
p
fa de mediaX
Creterea acestei distante duce la creterea intervalului
de ncredere
61

Distana lui X
p
fa de mediaX

S
a
m
p
le
2
L
in
e
Y
X
X
1
X
2
Y
_
S
a
m
p
l
e

1

L
i
n
e
Dispersie
mai mare
dect la X
1
X
62
Exemplu
Un analist de marketing stabilete c volumul vnzrilor depinde
liniar de cheltuielile cu reclama. Estimeaz un model de regresie
i obine
0
= -.1,
1
= .7 & s = .60553.
Cheltuieli cu reclama $ Vnzri(buci)
1 1
2 1
3 2
4 2
5 4
Ct vor fi vnzrile medii dac se cheltuiesc 4 $ pentru reclam?
alfa=0.05
63
Soluie
( )( )
( )
( )( ) ( )( )
/ 2, 2 / 2, 2
2


( )

0.1 0.7 4 2.7


4 3
1
.60553 0.3316
5 10
2.7 3.1824 0.3316 ( ) 2.7 3.1824 0.3316
1.6445 ( ) 3.7553
n n
Y Y
Y
Y t S E Y Y t S
Y
S
E Y
E Y
o o
s s +
= + =

= + =
s s +
s s
Valoarea particular
pentru X
64
( ) ( )
( )
( )
( )
/ 2, 2 / 2, 2
2
2
2
1

2
1

unde
1

1 i
2
n P n
Y Y Y Y
n
i
P
i
n
Y Y
i
i
Y t S Y Y t S
e
x x
S
n n
x x
o o
o o


=

=
s s +

= + + =

Interval de predicie pentru valori particulare


65
Predicia
Expected
(Mean) Y
Y
Y
i
=

|
0

+

|
1
X
i
^
Y we're trying to
predict
Prediction, Y
E(Y) = |
0
+ |
1
X
^
X
X
P
^
^
66
Hyperbolic Interval Bands
X
Y
X
Y
i
=

|
0

+

|
1
X
i
^
X
P
_
^
^
67
Predicia pentru modelul particular de regresie dintre chirie i suprafa
Confidence Interval Estimate
X Value 100
Confidence Level 95%
Sample Size 25
Degrees of Freedom 23
t Value 2.068658
Sample Mean 113.76
Sum of Squared Difference 20030.56
Standard Error of the Estimate 194.7014
h Statistic 0.049452
Predicted Y (YHat) 1239.988
Interval Half Width 89.56774
Confidence Interval Lower Limit 1150.42
Confidence Interval Upper Limit 1329.556
Interval Half Width 412.6094
Prediction Interval Lower Limit 827.3785
Prediction Interval Upper Limit 1652.597
Data
Intermediate Calculations
For Average Y
For Individual Response Y
( )
( )
2
2
1
1
p
n
i
i
X X
h statistic
n
X X
=

= +

Valoarea suprafeei
pentru un apartament
Chiria prezis de model pentru
un apartament cu suprafaa de
100 m2
Interval de ncredere pentru
chiria medie a unui apartament
cu suprafaa de 100 m2
Interval de ncredere pentru
chiria unui apartament cu
suprafaa de 100 m2
68
Verificarea ipotezelor privind variabila
reziduala

A) Variabila eroare este normal distribuita
Folosim valorile variabilei reziduale standardizate
69


2
2
2
1
1
( ) 1
( )
2
i
r i
i
i
j
n
i
i
s s h unde
x x
h
n x x
e
s
n
c
c
=
=

= +

Standardized residual i =
Residual i / Standard deviation
RESIDUAL OUTPUT
Observation Predicted Chirie(RON) Residuals Standard Residuals
1 1080.381767 -130.3817667 -0.684052461
2 1718.806454 -118.8064537 -0.623322181
3 1335.751641 -135.7516415 -0.712225696
4 1484.717402 15.28259819 0.080180682
5 942.0564178 7.943582206 0.04167628
6 1761.3681 -61.36809954 -0.321969863
7 1388.953699 261.0463013 1.369588474
8 952.6968292 -17.69682924 -0.092847028
9 920.7755949 -45.77559489 -0.240163246
10 1197.426293 -47.42629262 -0.248823689
11 1346.392053 53.60794706 0.281255954
12 1548.559871 101.4401295 0.532209158
13 2293.388672 6.611327891 0.034686561
14 1633.683162 166.3168379 0.872587059
15 1431.515345 -31.51534455 -0.165346348
16 1484.717402 -34.71740181 -0.182146053
17 1505.998225 -405.9982247 -2.130083769
18 1516.638636 183.3613638 0.962011756
19 1399.59411 -199.5941102 -1.047177422
20 1133.583824 16.41617608 0.086128037
21 1623.042751 -23.04275068 -0.120894591
22 1282.549584 367.4504158 1.927841352
23 984.6180636 215.3819364 1.1300088
24 1239.987938 -439.9879384 -2.308411981
25 1452.796167 297.2038325 1.559290217
70
71
Normal Probability Plot
Normal Probability Plot
0
500
1000
1500
2000
2500
0 20 40 60 80 100
Sample Percentile
C
h
i
r
i
e
(
R
O
N
)
72
73
Variabilele reziduale snt necorelate?
e(t-1) e(t)
-0.684 -0.623
-0.623 -0.712
-0.712 0.080
0.080 0.042
0.042 -0.322
-0.322 1.370
1.370 -0.093
-0.093 -0.240
-0.240 -0.249
-0.249 0.281
0.281 0.532
0.532 0.035
0.035 0.873
0.873 -0.165
-0.165 -0.182
-0.182 -2.130
-2.130 0.962
0.962 -1.047
-1.047 0.086
0.086 -0.121
-0.121 1.928
1.928 1.130
1.130 -2.308
-2.308 1.559
Corelograma dintre e(t) i e(t-1)
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
-3 -2 -1 0 1 2 3
74
e(t-2) e(t)
-0.684 -0.712
-0.623 0.080
-0.712 0.042
0.080 -0.322
0.042 1.370
-0.322 -0.093
1.370 -0.240
-0.093 -0.249
-0.240 0.281
-0.249 0.532
0.281 0.035
0.532 0.873
0.035 -0.165
0.873 -0.182
-0.165 -2.130
-0.182 0.962
-2.130 -1.047
0.962 0.086
-1.047 -0.121
0.086 1.928
-0.121 1.130
1.928 -2.308
1.130 1.559
Corelograma dintre e(t) i e(t-2)
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
-3 -2 -1 0 1 2 3
75
Variabila reziduala are varianta constanta:
Homoscedasticitate/Heteroscedasticitate
Daca este incalcata conditia variantei constante
suntem in cazul heteroscedasticitatii.
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Imprastierea creste odata cu y
y
^
Residual
^
y
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
76
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
y
^
Residual
^
y
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Daca varianta este constanta avem
homoscedasticitate
77
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Time
Residual
Residual
Time
+
+
+
Independenta erorilor in timp
Tipuri de variabila reziduala care indica exixtenta autocorelatiei erorilor
In timp.
0 0
78
REGRESIE MULTIPLA
79
Coeficienti de
regresie
Variabila
Dependenta
Variabile Independente
Variabila eroare
Regresie multipla


y = |
0
+ |
1
x
1
+ |
2
x
2
+ + |
k
x
k
+ c
80
La Quinta Motor Inns doreste construirea unui nou hotel.
Managementul doreste sa stabileasca locatia probabil
cea mai profitabila.
Profitabilitatea unei locatii depinde de factori cum sunt:
Competition
Market awareness
Demand generators
Demographics
Physical quality
Examplu Stabilirea locatiei unui hotel
81
Profitability
Competition
Market
awareness
Customers Community Physical
Margin
Rooms Nearest Office
space
College
enrollment
Income Disttwn
Distance to
downtown.
Median
household
income.
Distance to
the nearest
La Quinta inn.
Number of
hotels/motels
rooms within
3 miles from
the site.
82
Se folosesc date pentru un esantion de 100 hoteluri
care apartin La Quinta, si se foloseste urmatorul
model :
Margin =|
0
+ |
1
Rooms + |
2
Nearest + |
3
Office +
|
4
College
+ |
5
Income + |
6
Disttwn +
INN MARGIN ROOMS NEAREST OFFICE COLLEGE INCOME DISTTWN
1 55.5 3203 0.1 549 8 37 12.1
2 33.8 2810 1.5 496 17.5 39 0.4
3 49 2890 1.9 254 20 39 12.2
4 31.9 3422 1 434 15.5 36 2.7
5 57.4 2687 3.4 678 15.5 32 7.9
6 49 3759 1.4 635 19 41 4
c
83
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.724611
R Square 0.525062
Adjusted R Square 0.49442
Standard Error 5.512084
Observations 100
ANOVA
df SS MS F Significance F
Regression 6 3123.832 520.6387 17.13581 3.03E-13
Residual 93 2825.626 30.38307
Total 99 5949.458
Coefficients Standard Error t Stat P-value Lower 95%Upper 95%
Intercept 72.45461 7.893104 9.179483 1.11E-14 56.78049 88.12874
ROOMS -0.00762 0.001255 -6.06871 2.77E-08 -0.01011 -0.00513
NEAREST -1.64624 0.632837 -2.60136 0.010803 -2.90292 -0.38955
OFFICE 0.019766 0.00341 5.795594 9.24E-08 0.012993 0.026538
COLLEGE 0.211783 0.133428 1.587246 0.115851 -0.05318 0.476744
INCOME -0.41312 0.139552 -2.96034 0.003899 -0.69025 -0.136
DISTTWN 0.225258 0.178709 1.260475 0.210651 -0.12962 0.580138

MARGIN = 72.455 - 0.008ROOMS -1.646NEAREST
+ 0.02OFFICE +0.212COLLEGE
- 0.413INCOME + 0.225DISTTWN
84
Utilizarea modelului
Predictiepentru un hotel cu urmatoarele
caracteristici:
3815 rooms within 3 miles,
Closet competitor 3.4 miles away,
476,000 sq-ft of office space,
24,500 college students,
$39,000 median household income,
3.6 miles distance to downtown center.
MARGIN = 72.455 - 0.008(3815) -1.646(3.4) + 0.02(476)
+0.212(24.5) - 0.413(39) + 0.225(3.6) = 37.1%

85
Testul Durbin - Watson

4 d 0 is d of range The
r
) r r (
d
n
1 i
2
i
n
2 i
2
1 i i
s s

=
=

86
+
+
+
+
+
+
+
+
+
+
Residuals
Time
Autocorelatie de ordinul I pozitiva
Autocorelatie de ordinul I pozitiva
Autocorelatie de ordinul I negativa
+
+
+
+
0
0
Residuals
Time
+
Autocorelatie de ordinul I negativa
87
TEST UNILATERAL
Daca d<d
L
exista autocorelatie de ordinul I pozitiva
If d>d
U
nu exista autocorelatie de ordinul I pozitiva
Daca d este intre d
L
si d
U
indecizie.


Daca d>4-d
L
,exista autocorelatie de ordinul I negativa
Daca d<4-d
U
, nu exista autocorelatie de ordinul I negativa
Daca d este intre 4-d
U
and 4-d
L
indecizie
88
d
L
d
U
2
0
4 4-d
U
4-d
L

Auto
corelatie
Auto
corelatie
indecizie
Indecizie
Indepen
denta
Indepen
denta
89
Variabile calitative
In many real-life situations one or more
independent variables are qualitative.
Including qualitative variables in a regression
analysis model is done via indicator variables.
An indicator variable (I) can assume one out of
two values, zero or one.
1 if a first condition out of two is met
0 if a second condition out of two is met
I=
1 if data were collected before 1980
0 if data were collected after 1980
1 if the temperature was below 50
o

0 if the temperature was 50
o
or more
1 if a degree earned is in Finance
0 if a degree earned is not in Finance
90
Variabile calitative
Consideram ca pretul este determinat si de
culoarea masinii.
Consideram trei culori :
White
Silver
Other colors
I
1
=
1 if the color is white
0 if the color is not white
I
2
=
1 if the color is silver
0 if the color is not silver
91

Folosim modelul
y = |
0
+ |
1
(Odometer) + |
2
I
1
+ |
3
I
2
+ c

Price Odometer I-1 I-2
5318 37388 1 0
5061 44758 1 0
5008 45833 0 0
5795 30862 0 0
5784 31705 0 1
5359 34010 0 1
. . . .
. . . .
White car
Other color
Silver color
92
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.835482
R Square 0.69803
Adjusted R Square 0.688594
Standard Error 142.271
Observations 100
ANOVA
df SS MS F Significance F
Regression 3 4491749 1497250 73.97095 7.22E-25
Residual 96 1943141 20241.05
Total 99 6434890
Coefficients Standard Error t Stat P-value Lower 95%Upper 95%
Intercept 6350.323 92.16653 68.90053 1.5E-83 6167.374 6533.272
Odometer -0.02777 0.002369 -11.7242 3.14E-20 -0.03247 -0.02307
I-1 45.24098 34.08443 1.327321 0.187551 -22.4161 112.8981
I-2 147.738 38.18499 3.869007 0.000199 71.94135 223.5347

S-ar putea să vă placă și