P. 1
Regresie si Corelatie

Regresie si Corelatie

|Views: 982|Likes:
Published by cristinapopa_2005

More info:

Published by: cristinapopa_2005 on Apr 08, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PPS, PDF, TXT or read online from Scribd
See more
See less

05/30/2013

pdf

text

original

Sections

  • Tipuri de modele probabiliste
  • Clasificarea modelelor de regresie
  • Tipuri de modele de regresie
  • Modelul de regresie liniar simpl
  • Corelograma(Scatter plot)
  • Estimatorii modelului de regresie
  • Tabelul ANOVA
  • Ce prezicem
  • Exemplu
  • Solu ie
  • Hyperbolic Interval Bands
  • REGRESIE MULTIPLA
  • Regresie multipla
  • Testul Durbin - Watson

1

REGRESIE SI CORELATIE
2
Regresia ± scurt istoric al termenului
‡ Sir Francis Galton(1822-1911) ± spirit enciclopedic al perioadei
victoriene, fiind cel care a introdus termenii de regresie şi corelaţie
statistică
‡ Originea regresiei ca metodă statistică se află în studiile sale de
genetică aplicată în studiul plantelor- 1877
‡ Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că
există o legătură liniară între diametrele acestor boabe şi diametrele
boabelor recoltate de la noile plante. El a numit iniţial panta acestei
drepte ³coefficient of reversion´, schimbîndu-i apoi numele în
³coefficient of regression´.
‡ Termenul de regresie provine de la descoperirile sale în domeniul
eredităţii: în general, progeniturile indivizilor geniali au abilităţi care îi
aşază mai degrabă la nivelul mediei; de asemenea, înalţimea copiilor
proveniţi din taţi foarte înalţi se apropie mai mult de înălţimea medie
decît înălţimea taţilor.
3
Modele
‡ Un model este o reprezentare a unui anumit
fenomen
‡ Model matematic - o reprezentare matematică a
unui fenomen
‡ De cele mai multe ori un model descrie legăturile
existente între două sau mai multe variabile
‡ În general, sînt două clase de modele:
± Modele deterministe
± Modele probabiliste
4
‡ Modele deterministe
± Exprimă o relaţie
exactă între variabile
± Teoretic, eroarea de
previziune este nulă
± Exemplu:
Principiul al doilea al
mecanicii
newtoniene:
F = m.a
‡ Modele probabiliste
± Componenta deterministă
± Componenta aleatoare
± Eroarea de previziune
este nenulă
± Componenta aleatoare
poate fi datorată factorilor
obiectivi, ce nu sînt
incluşi în model
± Exemplu: Volumul
vînzărilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare
5
Tipuri de modele probabiliste
Probabilistic
Models
Regression
Models
Correlation
Models
Other
Models
Probabilistic
Models
Regression
Models
Correlation
Models
Other
Models
Modele
probabiliste
Modele de
regresie
Modele de
corelatie
Alte
modele
6
Regresia ± metodă de modelare a legăturilor dintre variabile
‡ În general, orice fenomen este rezultatul acţiunii
unuia sau mai multor factori
‡ Exprimarea matematică:
1
( , ..., )
n
Y f X X I !
Variabila
dependentă
(variabila
endogenă)
Variabile
independente
(variabile
exogene/explicative)
Variabila
reziduală
7
Exemplu: Legea lui Keynes privind legătura dintre
venit şi consum
‡ Suma cheltuită pentru consum depinde de:
± mărimea venitului pe de o parte
± alte obiective în funcţie de circumstanţe (de exemplu
investiţiile)
± alte nevoi subiective
‡ ÄO persoană este dispusă de regulă şi în medie să îşi crească
consumul pe măsura creşterii venitului dar nu în aceeaşi
măsură´
‡ Modelul de regresie: C=E+FV+I , unde 0<F<1 .
0 1
dC
dV
· ·
8
Ipotezele modelului de regresie
(Ipotezele Gauss-Markov)
‡ 1. Normalitatea
± Valorile Y sînt normal distribuite pentru orice X
± Erorile sînt normal distribuite cu medie zero E(İ
i
)=0
Vi
‡ 2. Homoscedasticitatea (dispersie constantă)
‡ 3. Necorelarea erorilor E(İ
i
İ
k
)=0 (i<>k)
‡ 4. Liniaritatea
‡ 5. Variabilele sînt măsurate fără eroare
± (caracter nestochastic)
X Y i i
F E !
9
Forma funcţională
‡ Ipoteza de linearitate nu este atât de restrictivă pe cât
pare. Aceasta se referă la felul în care parametrii intră în
ecuaţie, nu neapărat la relaţia între variabilele x şi y.
‡ În general modele pot fi linearizate.
‡ y=a+bx
‡ y=a+bz, z=e
x
‡ y=a+br, r=1/x
‡ y=a+bq, q=ln(x)
y= e x
ȕ
÷ln(y)=e+0ln(x)
‡ Forma generală: f(yi)= e+0g(xi)+si
‡ Contra exemplu: nu poate fi transformat
în model liniar.
1
y
x
E
F
!

10
Modele ce pot fi linearizate
- 4 0 0
- 2 0 0
0
2 0 0
4 0 0
6 0 0
8 0 0
1 0 0 0
- 1 0 . 0 0 3 0 . 0 0 8 0 . 0 1 3 0 . 0 1 8 0 . 0 2 3 0 . 0 2 8 0 . 0 3 3 0 . 0 3 8 0 . 0 4 3 0 . 0 4 8 0 . 0 5 3 0 . 0 5 8 0 . 0 6 3 0 . 0 6 8
X
Y
¹
º
¸
©
ª
¨

x
b a
1
x
be a
b x a
x b a ln
11
‡ Ipoteza că media erorilor este zero: E(si)=0 Vi, este
naturală atâta timp cât s este văzută ca suma efectelor
individuale, cu semne diferite. Dacă media erorilor este
diferită de zero, ea poate fi considerată ca o parte
sistematică a regresiei:
media erorilor fiind acum nulă.
‡ Ipoteza de homoscedasticitate: Var(si)=o
2
constantă Vi
‡ Se consideră un model care descrie consumul unor
gospodării în funcţie de venitul acestora. În acest caz,
consumul gospodăriilor mari pot varia mult mai mult faţă
de consumul gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată.
E(s)=u ÷ e + 0x + s = (e+u) + 0x + (s-u)
12
Exemplu de încălcare a ipotezei de
homoscedasticitate
Functia de consum
0
200
400
600
800
1000
1200
200 300 400 500 600 700 800 900 1000
venit
c
o
n
s
u
m
13
‡ Necorelarea erorilor: E(sisj)=0 Vi=j
Această ipoteză nu implică faptul că yi şi yj sunt
necorelate, ci faptul că deviaţiile observaţiilor de la
valorile lor aşteptate sunt necorelate.
‡ Ipoteza de normalitate a erorilor s
i
~N(0,o
2
)
Este o ipoteză de lucru, tehnică, ce permite obţinerea
unor estimatori ³buni´.
‡ Dacă ipotezele precedente sînt respectate, vom
obţine estimatori B.L.U.E. (Best Linear
Unbiased Estimators)
14 14
Ipotezele de normalitate şi Ipotezele de normalitate şi
homoscedasticitate homoscedasticitate
Ipotezele de normalitate şi Ipotezele de normalitate şi
homoscedasticitate homoscedasticitate
Y
f(e)
X
X
1
X
2
15 15
Variaţia erorilor în jurul dreptei de
regresie
X
1
X
2
X
Y
f(e)
Valorile y sînt normal distribuite
în jurul dreptei de regresie.
Pentru fiecare valoare x, dispersia
în jurul dreptei de regresie este
constantă.
Dreapta de regresie
16
Clasificarea modelelor de regresie
Modele
de regresie
Li ear
Non-
Linear
2+ Variabile 2+ Variabile
expli ative expli ative
Simple Multiple
Linear
1 Variabilă 1 Variabilă
expli ativă expli ativă
Non-
Linear
17
Tipuri de modele de regresie
Legătură liniară directă
Legătură liniară inversă
Legătură neliniară
Absenţa vreunei legături
18
Modelul de regresie liniară simplă
19
Exemplu
practic
‡ Există o legătură între
suprafaţa unor apartamente
din zona centrală şi preţul de
închiriere a acestora?
‡ Selectăm aleator 25 de astfel
de apartamente la care
urmărim valorile celor două
variabile X ± suprafaţa(m2) şi
Y ± chiria lunară(RON).
20
Regresia folosind EXCEL
Accesăm meniul TOOLS>DATA ANALYSIS>REGRESSION
21
Regresia folosind EXCEL
Selectăm valorile variabilelor
22
23
Corelograma(Scatter plot)
‡ Graficul punctelor de coordonate (X
i
,Y
i
), i=1,n.
0
500
1000
1500
2000
2500
0 50 100 150 200 250
Suprafata(m2)
C
h
i
r
i
a
(
R
O
N
)
24
Modelul de regresie liniară simplă Modelul de regresie liniară simplă
i i i
X Y I F F !
1 0
Y intercept (termenul constant)
Panta dreptei de
regresie
Variabila
de
perturbaţie
Variabila
dependentă
(răspuns)
Variabila
independentă
(explicativă)
Pe ba Pe baza corelogramei este rezonabil să presupunem că media za corelogramei este rezonabil să presupunem că media
variabilei Y depinde de X printr variabilei Y depinde de X printr--o relaţie liniară: o relaţie liniară:
Atunci modelul de regresie liniară simplă este dat de relaţia Atunci modelul de regresie liniară simplă este dat de relaţia
următoare: următoare:
25
Dacă presupunem că media şi dispersia lui s sînt 0 şi o
2
,
atunci media lui Y pentru o valoare particulară a lui X
este dată de relaţia:
Dispersia lui Y pentru o valoare particulară a lui X
este dată de relaţia:
Media şi dispersia variabilei dependente
26
‡ La nivelul populaţiei regresia se reduce la exprimarea
mediei condiţionate a lui Y:
unde 0
1
are semnificaţia unui coeficient de
elasticitate: arată modificarea lui Y la o modificare cu
o unitate a lui x.
‡ De asemenea, variabilitatea lui Y pentru o valoare
particulară x este determinată de dispersia variabilei
reziduale, o
2
.
‡ Există o distribuţie a valorilor lui Y pentru fiecare x
şi dispersia acestei distribuţii este constantă pentru
orice x.
27
Distribuţia condiţionată a lui Y
Y
X
Dreapta de regresie
28 28
s
i
= Eroarea
Y
X
Modelul de regresie liniară la Modelul de regresie liniară la
nivelul populaţiei nivelul populaţiei
Valoarea
observată
Valoarea
observată
u 0 0
YX
i
X !
0 1
Y X
i i i
! 0 0 s
0 1
(E(Y))
29 29
Modelul de regresie liniară la Modelul de regresie liniară la
nivelul eşantionului nivelul eşantionului
0
Ö
F
0 1
Ö Ö Ö
i i
Y X F F !
Y
i
›
= Valoarea estimată a lui Y pentru observaţia i
X
i
= Valoarea lui X pentru observaţia i
= Estimatorul termenului liber F
0
= Estimatorul pantei F
1
1
Ö
F
30
Estimarea parametrilor modelului de regresie
‡ Metoda celor mai mici pătrate(M.C.M.M.P.) ±Least
Squares(L.S.)
‡ Presupunem că avemn perechi de observaţii (x
1
, y
1
), (x
2
,
y
2
), «, (x
n
, y
n
).
‡ Ideea este să minimizăm distanţa dintre valorile estimate
şi valorile reale
‡ Ne reamintim că deci

2
2
1 1
Ö
min
Ö
n n
i
i i
i i
L Y Y
I
! !
! ! !
§ §
0 1
Ö Ö Ö
i i
Y x F F !
31 31
Ilustrare grafică Ilustrare grafică
I
2
Y
X
I
1
I
3
I
4
^
^
^
^
Y X
2 0 1 2 2
!


F F

Y X
i i
! F F
0 1
2 2 2 2 2
1 2 3 4
1
Ö Ö Ö Ö Ö
LS minimizează
n
i
i
I I I I I
!
!
§
32
‡ Condiţiile de minim:
‡ Simplificînd, obţinem sistemul de ecuaţii
normale
33
Estimatorii modelului de regresie
x b y b
s
) Y , X cov(
b
1 0
2
x
1
!
!
34
Notaţii
‡ Valoarea estimată:
‡ Valoarea reziduală(reziduul):
35
‡ Dacă notăm suma pătratelor erorilor de
regresie
atunci un estimator al varianţei variabilei
reziduale este
Estimatorul dispersiei modelului
36
Proprietăţile estimatorilor modelului de regresie
0 1 0 1
0 0 1 1
2
2
0
Ö Ö
şi sînt estimatori nedeplasaţi ai parametrilor şi
Ö Ö
( ) şi ( )
- ispersiile celor doi estimatori sînt date de relaţiile
1
Ö
V( )
E E
x
n S
F F F F
F F F F
F W

! !
!
2
1
2 2
1
0 1

Ö
V( )
unde ( ) şi este dispersia variabilei reziduale
Ö Ö
- stimatorii şi urmează o distribuţie normală
xx
xx
n
xx i
i
S
S x x
W
F
W
F F
!
¨ ¸
© ¹
ª º
!
!
§
37 37
Y
Population Line
X
Sample 1 Line
Sample 2 Line
Distribuţia estimatorului pantei de regresie Distribuţia estimatorului pantei de regresie
0
1
ƥ ƥAll Possible All Possible
Sample Slopes Sample Slopes
ƥ ƥ Sample 1: Sample 1: 2.5 2.5
ƥ ƥ Sample 2: Sample 2: 1.6 1.6
ƥ ƥ Sample 3: Sample 3: 1.8 1.8
ƥ ƥ Sample 4: Sample 4: 2.1 2.1
: : : :
Very large number Very large number
of sample slopes of sample slopes
Sampling Distribution Sampling Distribution
00
1 1
00
1 1
SS
^^
^^
38
Eroarea standard a estimatorilor
2
2 2
1
2
2
1
1
Ö Întrucît varianţa reziduală se estimează prin putem avea o estimare
2
a erorii standard a celor doi estimatori:
Ö
Ö ( )
Ö
- ( )
df 2

n
i
i
xx
xx
e
n
S V
SE
n S
W W
W
F W
F
!
!

! ! !

§
2
2
2
2
0
0
1
Ö
( ) 1
Ö
Ö - ( )
df 2
xx
xx
x
n S
V x
SE
n n S
W
F
F W
¨ ¸

© ¹
¨ ¸
ª º
! ! !
© ¹

ª º
Erorile standard vor fi folosite la testarea semnificaţiei parametrilor
modelului de regresie
39
Testul t pentru panta dreptei de regresie(slope)
‡ Valoarea critică:
‡ Caz particular:
0
0 1 1
0
1 1
:
:
A
H
H
F F
F F
® !
±
¯
=
±
°
0 0 0 0
1 1 1 1 1 1 1 1
2
2 2 2 1
1 1 1
2
1
Ö Ö Ö Ö
Ö
( )
Ö
/( 2) / ( ) / 2
( )
n n n
i i i
i i i
xx
n
i
i
t
SE
e n e x x n
S
x x
F F F F F F F F
F
W
! ! !
!

! ! ! !

§ § §
§
/ 2 ; 2 n
t
E
0 1
1
: 0(nu există legătură liniară)
: 0( există legătură liniară)
A
H
H
F
F
!
®
¯
{
40
Exemple de acceptare a ipotezei
0 1
: 0(nu există legătură liniară) H F !
41
Exemple de respingere a ipotezei
0 1
: 0(nu există legătură liniară) H F !
42
Testul t pentru termenul liber(intercept)
0
0 0 0
0
0 0
:
:
A
H
H
F F
F F
® !
±
¯
=
±
°
0 0
0 0 0 0
2
0
2
0 0
0 0 0 0
2
2
2
2
1
2
1
1
Ö Ö
Ö
( )
1
Ö
Ö Ö
1
/( 2)
1
/ 2
( )
xx
n
n i
i
xx
i n
i
i
i
t
SE
x
n S
x
e n
x
n S
e n
n
x x
F F F F
F
W
F F F F
!
!
!

! ! !
¨ ¸

© ¹
ª º

! !
¨ ¸ ¨ ¸

© ¹ © ¹
ª º
© ¹

© ¹

© ¹
ª º
§
§
§
/ 2 ; 2 n
t
E
‡Valoarea critică:
43
Intervale de încredere pentru parametrii
modelului
‡ Pentru termenul liber(intercept)
‡ Pentru panta dreptei de regresie(slope)
unde este estimatorul dispersiei modelului.
0 / 2, 2 0 0 0 / 2, 2 0
2 2
2 2
0 / 2, 2 0 0 / 2, 2
Ö Ö Ö Ö
( ) ( )
1 1
Ö Ö
Ö Ö
n n
n n
xx xx
t SE t SE
x x
t t
n S n S
E E
E E
F F F F F
F W F F W


e e
¨ ¸ ¨ ¸
e e
© ¹ © ¹
ª º ª º
1 / 2, 2 1 1 1 / 2, 2 1
2 2
2 2
1 / 2, 2 1 1 / 2, 2
Ö Ö Ö Ö
( ) ( )
Ö Ö
Ö Ö
n n
n n
xx xx
t SE t SE
x x
t t
S S
E E
E E
F F F F F
F W F F W


e e
¨ ¸ ¨ ¸
e e
© ¹ © ¹
ª º ª º
2
2 1
Ö
2
n
i
i
e
n
W
!
!

§
44
Teorema Gauss-Markov
‡ Estimatorii obţinuţi prin metoda celor mai mici pătrate sînt
B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai
mică decît cei obţinuţi prin MCMMP.
1 1 1 1
1
2 2 2 1
1 1 1
Con orm O S, estimatorul pantei este o combinaţie liniară de valorile variabilei dependente:
( )( ) ( ) ( ) ( )
Ö
( ) ( ) ( )
n n n n
i i i i i i i n
i i i i
i i n n n
i
i i i
i i i
y y x x y x x y x x y x x
y
x x x x x x
F E
! ! ! !
!
! ! !

! ! ! !

§ § § §
§
§ § §
'
0 1
1 1 1 1
'
1
1 1
' ' 2 2
1
1 1
Fie un alt estimator liniar.
Pentru ca ( ) , e necesar ca 0 şi 1.
Rezultă , deci varianţa sa este V( ) .
Fie
n n n n
i i i i i i i
i i i i
n n
i i i
i i
n n
i i i
i i
q y q q x q
q q x
q q
v
F F F I
F F
F I F F W
! ! ! !
! !
! !
! !
! ! !
! !
§ § § §
§ §
§ §
' 2 2
1
2 2 2 2 2 2 2 2
1
1 1 1
, atunci şi avem V( ) ( )
Ö
( 2 ) ( ) ( ).***
n
i i i i i i i i
i
n n n
i i i i i i i
i i i
q q v v
v v v V QED
E E F W E
W E E W E W E F
!
! ! !
! ! ! !
! ! u !
§
§ § §
45
Exemplu-chiria ca funcţie de suprafaţă
‡ Panta dreptei de regresie este pozitivă, deci există o
legătură directă între chirie şi suprafaţa apartamentelor.
‡ În plus, dacă chiria creşte cu o unitate(1 m2) ,chiria va
creşte cu 10.640 lei.
‡ Doar panta dreptei de regresie este semnifcativ diferită de
zero.
‡ P-value ± probabilitatea ipotezei ca parametrul estimat să
fie egal cu zero; dacă P-value este mai mic decît pragul de
semnificaţie atunci respingemaceastă ipoteză.
46
Analiza varianţei pentru modelul de regresie
‡ Dacă între X şi Y nu există nici o legătură, atunci putem
face predicţii privind valoarea medie a lui Y pentru orice
valoare a lui X
‡ Dacă există o legătură între X şi Y, în ce măsură
cunoaşterea valorilor lui X poate explica abaterea
variabilei dependente de la media sa?
‡ Abaterea totala = abaterea explicata + Abaterea
reziduala
) Y - (Y ) Y - Y ( ) Y - (Y
i i i i
Ö Ö
!
47 47
Descompunerea variaţiei Descompunerea variaţiei
X
i
Y
X
Y
SST = §(Y
i
- Y)
2
SSE =§(Y
i
- Y
i
)
2
›
SSR = §(Y
i
- Y)
2
›
_
_
_
X
48
ANOVA pentru regresie
2
i i
2
i
2
i
) Y (Y ) Y Y ( ) Y (Y
Ö Ö
!
§ § §
SST = SSR + SSE
SST = Total Sum of Squares
Măsoară variaţia valorilor observate Y
i
în jurul mediei Y
_
SSR = Regression Sum of Squares
Măsoară variaţia expli ată de modelul de regresie
SSE = Error Sum of Squares
Măsoară variaţia ce poate fi atribuită altor factori, diferiţi
de variabila explicativă X
49
50
Coeficientul de determinaţie R
2
‡ Este o măsură a proporţiei varianţei explicate de
model
‡ R
2
este afectat de creşterea numărului de
parametri; de aceea pentru modele cu multi
parametri se calculează R
2
ajustat, care are
aceeaşi interpretare.
? A
2 2
2
1 1
2 2
Ö
( )
1 0,1
( ) ( )
n n
i i
i i
i i
i i
y y e
SSR
R
SST y y y y
! !

! ! ! 

§ §
§ §
2 2
1 1
1 (1 ) 1 ,1
1 1
adj
n n
n k n k

« »
! 
¬ ¼

­ ½
51
Exemplu-chiria ca funcţie de suprafaţă
‡Modelul explică 72.23% din variaţia chiriei pentru
apartamentele din zona centrală
Standard Error :
2
1
Ö
2
n
i
i
e
n
W
!
!

§
52
Observaţii
‡ R
2
este adesea folosit pentru a alege cel mai bun
model din punctul de vedere al varianţei
explicate.
‡ Comparaţiile de acest fel trebuie făcute între
modele de aceeaşi natură.
53
Foarte important!!
‡ Pentru modele de regresie fără termen liber, de tipul
R
2
nu mai are semnificaţia de
proporţie a varianţei explicate.
‡ Exemplu: considerămdouă astfel de modele
‡ Deşi ar părea că modelul al doilea este mai performant,
nu sînt argumente pentru a susţine această ipoteză
y x F I !
1 1 1 1
2 1 2 1
2 2 2 2
, unde şi
i i i i
y x
y y x x
y x
F I
E E
F I
!
®
! !
¯
!
°
54 54
Coeficientul de determinaţie şi Coeficientul de determinaţie şi
coeficientul de corelaţie liniară coeficientul de corelaţie liniară
R
2
= 1,
R
2
= 1,
R
2
= .8,
R
2
= 0,
Y
Y
i
= b
0
+ b
1
X
i
X
^
Y
Y
i
= b
0
+ b
1
X
i
X
^
Y
Y
i
= b
0
+ b
1
X
i
X
^
Y
Y
i
= b
0
+ b
1
X
i
X
^
r = +1
r = -1
r = +0.9
r = 0
55
Tabelul ANOVA
Testul
este folosit la verificarea validităţii modelului. Un model este valid
dacă proporţia varianţei explicate prin model este semnificativă.
Ipoteza nulă pentru testul F in cazul acesta este cea de model
nevalid.
Source of
Variation
Sum of Squares df Mean
Square
F

Regression
2
1
( )
n
i
i
SSR y y
!
!
§


k-1
MSR=
1
SSR
k

MSR
MSE


Error
2 2
1 1
Ö ( )
n n
i i i
i i
SSE y y e
! !
! !
§ §


n-k
MSE=
SSE
n k



Total
§
!
i
i
y y SST
2
) (

n-1
1 n
SST



1 ,
1
~
k n k
S S R
k
F F
S S E
n k

!

k-numărul de parametrii ai
modelului
56
ANOVA
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.85
R Square 0.72
Adjusted R Square 0.71
Standard Error 194.70
Observations 25
ANOVA
df SS MS F Significance F
Regression 1 2267827.07 2267827.07 59.82347359 0.00
Residual 23 871898.93 37908.64913
Total 24 3139726
57
Predicţia folosind modelul de regresie
‡ 1. Tipuri de predicţii
± Estimări punctuale
± Estimări pe intervale de încredere
‡ 2. Care e obiectul predicţiei?
± Media populaţiei E(Y) pentru o valoare particulară a lui
X
± Valoarea individuală (Y
i
) pentru o valoare particulară a
lui X
58
Ce prezicem
Mean Y, E(Y
Y
Y
i
=

F

+

F
1
X
Y
Indi idual
Predi tion, Y
E(Y = F + F
1
X
X
X
P
^
^
59
Interval de încredere pentru media lui Y


Ö Ö
/ 2, 2 / 2, 2
2
2
2
1
Ö
2
1
Ö Ö
( )
unde
1
Ö Ö
şi
2
n n
Y Y
n
i
p
i
n
Y
i
i
Y t S E Y Y t S
e
x x
S
n n
x x
E E
W W

!
!
™ e e ™

! !

§
§
60
Factori care afectează lungimea intervalului de încredere
‡ 1. Nivelul de încredere (1 - e)
± Creşterea nivelului de încredere duce la creşterea
intervalului de încredere
‡ 2. Dispersia datelor (ı)
± Creşterea dispersiei duce la creşterea intervalului de
încredere
‡ 3. Volumul eşantionului
± Creşterea volumului eşantionului duce la
micşorarea intervalului de încredere
‡ 4. Distanţa lui X
p
faţă de mediaX
± Creşterea acestei distante duce la creşterea
intervalului de încredere
61
Distanţa lui X
p
faţă de mediaX
S
a
m
le
2

i
e
Y
X
X
1
X
2
Y
_
S
a
m
l
e

1

i
e
Dis ersie Dis ersie
mai mare mai mare
decît la decît la XX
1 1
XX
62
Exemplu
‡Un analist de marketing stabileşte că volumul vînzărilor
depinde liniar de cheltuielile cu reclama. Estimează un model
de regresie şi obţine ȕ
0
= -.1, ȕ
1
= .7 & s = .60553.
‡Cheltuieli cu reclama $ Vînzări(bucăţi)
1 1
2 1
3 2
4 2
5 4
‡Cît vor fi vînzările medii dacă se cheltuiesc 4 $ pentru
reclamă?
alfa=0.05
63
Soluţie



Ö Ö / 2, 2 / 2, 2
2
Ö
Ö Ö
( )
Ö
0.1 0.7 4 2.7
4 3
1
.60553 0.3316
5 10
2.7 3.1824 0.3316 ( ) 2.7 3.1824 0.3316
1.6445 ( ) 3.7553
n n
Y Y
Y
Y t S E Y Y t S
Y
S
E Y
E Y
E E
™ e e ™
! !

! !
e e
e e
Valoarea particulară Valoarea particulară
pentru X pentru X
Valoarea particulară Valoarea particulară
pentru X pentru X
64




/ / Ö Ö
Ö
Ö Ö
Ö Ö
n P n
Y Y Y Y
n
i
P
i
n
Y Y
i
i
Y t S Y Y t S
e
x x
S
n n
x x
E E
W W


!

!
™ e e ™

! !

§
§
Interval de predicţie pentru valori particulare
65 65
Predicţia Predicţia
Expected
(Mean) Y
Y
Y
i
=

F
0

+

F
1
X
i
^
Y we're trying to
predict
rediction, Y
E(Y) = F
0
+ F
1
X
^
X
X
P
s
^
^
66
Hyperbolic Interval Bands
X
Y
X
Y
i
=

F
0

+

F
1
X
i
^
X
P
_
^
^
67
Predicţia pentru modelul particular de regresie dintre chirie şi suprafaţă
Confidence Interval Estimate
X Value 100
Confidence Level 95%
Sample Size 25
Degrees of Freedom 23
t Value 2.0 8 58
Sample Mean 113.7
Sum of Squared Difference 20030.5
Standard Error of the Estimate 194.7014
h Statistic 0.049452
Predicted Y (YHat) 1239.988
Interval Half Width 89.5 774
Confidence Interval Lower Limit 1150.42
Confidence Interval Upper Limit 1329.556
Interval Half Width 412. 094
Prediction Interval Lower Limit 827.3785
Prediction Interval Upper Limit 1652.597
Data
Intermediate Calculations
For Average Y
For Individual Response Y


2
2
1
1
p
n
i
i
X X
h statistic
n
X X
!

!

§
Valoarea suprafeţei
pentru un apartament
Chiria prezisă de model pentru
un apartament cu suprafaţa de
100 m2
Interval de încredere pentru
chiria medie a unui apartament
cu suprafaţa de 100 m2
Interval de încredere pentru
chiria unui apartament cu
suprafaţa de 100 m2
68
Verificarea ipotezelor privind variabila
reziduala
A) Variabila eroare este normal distribuita
Folosim valorile variabilei reziduale
standardizate
69
2
2
2
1
1
( ) 1
( )
2
i
r i
i
i
j
n
i
i
s s h unde
x x
h
n x x
e
s
n
I
I
!
!

!

!

§
§
Standardized residual i =
Residual i / Standard deviation
RESIDUAL OUTPUT
Observation Predicted Chirie(RON) Residuals Standard Residuals
1 1080.381767 -130.3817667 -0.684052461
2 1718.806454 -118.8064537 -0.623322181
3 1335.751641 -135.7516415 -0.712225696
4 1484.717402 15.28259819 0.080180682
5 942.0564178 7.943582206 0.04167628
6 1761.3681 -61.36809954 -0.321969863
7 1388.953699 261.0463013 1.369588474
8 952.6968292 -17.69682924 -0.092847028
9 920.7755949 -45.77559489 -0.240163246
10 1197.426293 -47.42629262 -0.248823689
11 1346.392053 53.60794706 0.281255954
12 1548.559871 101.4401295 0.532209158
13 2293.388672 6.611327891 0.034686561
14 1633.683162 166.3168379 0.872587059
15 1431.515345 -31.51534455 -0.165346348
16 1484.717402 -34.71740181 -0.182146053
17 1505.998225 -405.9982247 -2.130083769
18 1516.638636 183.3613638 0.962011756
19 1399.59411 -199.5941102 -1.047177422
20 1133.583824 16.41617608 0.086128037
21 1623.042751 -23.04275068 -0.120894591
22 1282.549584 367.4504158 1.927841352
23 984.6180636 215.3819364 1.1300088
24 1239.987938 -439.9879384 -2.308411981
25 1452.796167 297.2038325 1.559290217
70
71
Normal Probability Plot
Normal Probability Plot
0
500
1000
1500
2000
2500
0 20 40 60 80 100
Sample Percentile
C
h
i
r
i
e
(
R
O
N
)
72
73
Variabilele reziduale sînt necorelate?
e(t-1) e(t)
-0.6 4 -0.623
-0.623 -0.712
-0.712 0.080
0.080 0.042
0.042 -0.322
-0.322 1.370
1.370 -0.093
-0.093 -0.240
-0.240 -0.249
-0.249 0.281
0.281 0.532
0.532 0.035
0.035 0.873
0.873 -0.165
-0.165 -0.182
-0.182 -2.130
-2.130 0.962
0.962 -1.047
-1.047 0.086
0.086 -0.121
-0.121 1.928
1.928 1.130
1.130 -2.308
-2.308 1.559
Corelograma i tre e(t) şi e(t-1)
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
-3 -2 -1 0 1 2 3
74
e(t-2) e(t)
-0.684 -0.712
-0.623 0.080
-0.712 0.042
0.080 -0.322
0.042 1.370
-0.322 -0.093
1.370 -0.240
-0.093 -0.249
-0.240 0.281
-0.249 0.532
0.281 0.035
0.532 0.873
0.035 -0.165
0.873 -0.182
-0.165 -2.130
-0.182 0.962
-2.130 -1.047
0.962 0.086
-1.047 -0.121
0.086 1.928
-0.121 1.130
1.928 -2.308
1.130 1.559
Corelograma dintre e(t) şi e(t-2)
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
-3 -2 -1 0 1 2 3
75
‡ Variabila reziduala are varianta constanta:
Homoscedasticitate/Heteroscedasticitate
± Daca este incalcata conditia variantei constante
suntem in cazul heteroscedasticitatii.
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Imprastierea creste odata cu y
y
^
Residual
^
y
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
76
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
y
^
Residual
^
y
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
‡ Daca varianta este constanta avem
homoscedasticitate
77
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
Time
Residual
Residual
Time
+
+
+
Independenta erorilor in timp
Tipuri de variabila reziduala care indica exixtenta autocorelatiei
erorilor
In timp.
0 0
78
REGRESIE MULTIPLA
79
Coeficienti de
regresie
Variabila
Dependenta
Variabile Independente
Variabila eroare
Regresie multipla
y = 0
0
+ 0
1
x
1
+ 0
2
x
2
+ «+ 0
k
x
k
+ s
80
± La Quinta Motor Inns doreste construirea unui nou
hotel.
± Managementul doreste sa stabileasca locatia
probabil cea mai profitabila.
± Profitabilitatea unei locatii depinde de factori cum
sunt:
‡ Competition
‡ Market awareness
‡ Demand generators
‡ Demographics
‡ Physical quality
Examplu Stabilirea locatiei unui hotel
81
Profitabilit
y
Competition
Market
awareness
Customers Community Physical
Margin
Rooms Nearest Office
space
College
enrollment
Income Disttwn
Distance to
downtown.
Median
household
income.
Distance to
the nearest
La Quinta inn.
Number of
hotels/motels
rooms within
3 miles from
the site.
82
± Se folosesc date pentru un esantion de 100
hoteluri care apartin La Quinta, si se foloseste
urmatorul model :
Margin =0
0
0
l
Rooms 0
2
Nearest 0
1
Office 0
4
College
+ 0
5
Income + 0
6
Disttwn +
INN MARGIN ROOMS NEAREST OFFICE COLLEGE INCOME ISTTWN
1 55.5 3203 0.1 549 8 37 12.1
2 33.8 2810 1.5 496 17.5 39 0.4
3 49 2890 1.9 254 20 39 12.2
4 31.9 3422 1 434 15.5 36 2.7
5 57.4 2687 3.4 678 15.5 32 7.9
6 49 3759 1.4 635 19 41 4
I
83
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.724611
R Square 0.525062
Adjusted R 0.49442
Standard Er5.512084
Observation 100
ANOVA
df SS MS F Significance F
Regression 6 3123.832 520.6387 17.13581 3.03E-13
Residual 93 2825.626 30.38307
Total 99 5949.458
Coefficients Standard Erro t Stat P-value Lower 95%Upper 95%
Intercept 72.45461 7.893104 9.179483 1.11E-14 56.78049 88.12874
ROOMS -0.00762 0.001255 -6.06871 2.77E-08 -0.01011 -0.00513
NEAREST -1.64624 0.632837 -2.60136 0.010803 -2.90292 -0.38955
OFFICE 0.019766 0.00341 5.795594 9.24E-08 0.012993 0.026538
COLLEGE 0.211783 0.133428 1.587246 0.115851 -0.05318 0.476744
INCOME -0.41312 0.139552 -2.96034 0.003899 -0.69025 -0.136
DISTTWN 0.225258 0.178709 1.260475 0.210651 -0.12962 0.580138
MARGIN = 72.455 - 0.008ROOMS -1.646NEAREST
+ 0.02OFFICE +0.212COLLEGE
- 0.413INCOME + 0.225DISTTWN
84
‡ Utilizarea modelului
± Predictiepentru un hotel cu urmatoarele
caracteristici:
‡ 3815 rooms within 3 miles,
‡ Closet competitor 3.4 miles away,
‡ 476,000 sq-ft of office space,
‡ 24,500 college students,
‡ $39,000 median household income,
‡ 3.6 miles distance to downtown center.
MARGIN = 72.455 - 0.008(3815) -1.646(3.4) + 0.02(476)
+0.212(24.5) - 0.413(39) + 0.225(3.6) = 37.1%
85
Testul Durbin - Watson
4 d 0 is d of range The
r
) r r (
d
n
1 i
2
i
n
2 i
2
1 i i
e e

!
§
§
!
!

86
+
+
+
+
+
+
+
+
+
+
Residuals
Time
Autocorelatie de ordinul I pozitiva
Autocorelatie de ordinul I pozitiva
Autocorelatie de ordinul I negativa
+
+
+
+
0
0
Residuals
Time
+
Autocorelatie de ordinul I negativa
87
‡ TEST UNILATERAL
± Daca d<d
L
exista autocorelatie de ordinul I pozitiva
± If d>d
U
nu exista autocorelatie de ordinul I pozitiva
± Daca d este intre d
L
si d
U
indecizie.
± Daca d>4-d
L
,exista autocorelatie de ordinul I negativa
± Daca d<4-d
U
, nu exista autocorelatie de ordinul I
negativa
± Daca d este intre 4-d
U
and 4-d
L
indecizie
88
d
L
d
U
2
0
4 4-d
U
4-d
L
Auto
corelatie
Auto
corelatie
indecizie
Indecizie
Indepen
denta
Indepen
denta
89
Variabile calitative
‡ In many real-life situations one or more
independent variables are qualitative.
‡ Including qualitative variables in a regression
analysis model is done via indicator
variables.
‡ An indicator variable (I) can assume one out
of two values, ³zero´ or ³one´.
1 if a first condition out of two is met
0 if a second condition out of two is met
I=
1 if data were collected before 1980
0 if data were collected after 1980
1 if the temperature was below 50
o
0 if the temperature was 50
o
or more
1 if a degree earned is in Finance
0 if a degree earned is not in Finance
90
Variabile calitative
‡ Consideram ca pretul este determinat si de
culoarea masinii.
‡ Consideram trei culori :
± White
± Silver
± Other colors
I
1
=
1 if the color is white
0 if the color is not white
I
2
=
1 if the color is silver
0 if the color is not silver
91
± Folosim modelul
y = 0
0
+ 0
1
(Odometer) + 0
2
I
1
+ 0
3
I
2
+ s
Pri Odometer I- I-
5318 37388 1 0
5061 44758 1 0
5008 45833 0 0
5795 30862 0 0
5784 31705 0 1
5359 34010 0 1
. . . .
. . . .
White car
Other color
Silver color
92
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.835482
R Square 0.69803
Adjusted R S0.688594
Standard Err 142.271
Observations 100
ANOVA
df SS MS F Significance F
Regression 3 4491749 1497250 73.97095 7.22E-25
Residual 96 1943141 20241.05
Total 99 6434890
Coefficients Standard Error t Stat P-value Lower 95%Upper 95%
Intercept 6350.323 92.16653 68.90053 1.5E-83 6167.374 6533.272
Odometer -0.02777 0.002369 -11.7242 3.14E-20 -0.03247 -0.02307
I-1 45.24098 34.08443 1.327321 0.187551 -22.4161 112.8981
I-2 147.738 38.18499 3.869007 0.000199 71.94135 223.5347

Regresia ± scurt istoric al termenului
‡ Sir Francis Galton(1822-1911) ± spirit enciclopedic al perioadei victoriene, fiind cel care a introdus termenii de regresie i corela ie statistic ‡ Originea regresiei ca metod statistic se afl în studiile sale de genetic aplicat în studiul plantelor- 1877 ‡ Plantînd boabe dintr-un anumit soi de maz re dulce a observat c exist o leg tur liniar între diametrele acestor boabe i diametrele boabelor recoltate de la noile plante. El a numit ini ial panta acestei drepte ³coefficient of reversion´, schimbîndu-i apoi numele în ³coefficient of regression´. ‡ Termenul de regresie provine de la descoperirile sale în domeniul eredit ii: în general, progeniturile indivizilor geniali au abilit i care îi a az mai degrab la nivelul mediei; de asemenea, înal imea copiilor proveni i din ta i foarte înal i se apropie mai mult de în l imea medie decît în l imea ta ilor.
2

Modele
‡ Un model este o reprezentare a unui anumit fenomen ‡ Model matematic - o reprezentare matematic a unui fenomen ‡ De cele mai multe ori un model descrie leg turile existente între dou sau mai multe variabile ‡ În general, sînt dou clase de modele:
± Modele deterministe ± Modele probabiliste
3

‡ Modele deterministe ± Exprim o rela ie exact între variabile ± Teoretic. ce nu sînt inclu i în model ± Exemplu: Volumul vînz rilor=10 * Cheltuielile cu publicitatea + Componenta aleatoare 4 . eroarea de previziune este nul ± Exemplu: Principiul al doilea al mecanicii newtoniene: F = m.a ‡ Modele probabiliste ± Componenta determinist ± Componenta aleatoare ± Eroarea de previziune este nenul ± Componenta aleatoare poate fi datorat factorilor obiectivi.

Tipuri de modele probabiliste Probabilistic Modele Probabilistic Models Models probabiliste Regression Modele de Regression Models Models regresie Correlation Modele de Correlation Models Models corelatie Other Alte Other Models Models modele 5 .

X n )  I Variabila dependent (variabila endogen ) Variabile independente (variabile exogene/explicative) Variabila rezidual 6 . ... orice fenomen este rezultatul ac iunii unuia sau mai multor factori ‡ Exprimarea matematic : Y ! f ( X 1 ..Regresia ± metod de modelare a leg turilor dintre variabile ‡ În general.

Exemplu: Legea lui Keynes privind leg tura dintre venit i consum ‡ Suma cheltuit pentru consum depinde de: ± m rimea venitului pe de o parte ± alte obiective în func ie de circumstan e (de exemplu investi iile) ± alte nevoi subiective ‡ ÄO persoan este dispus de regul i în medie s î i creasc consumul pe m sura cre terii venitului dar nu în aceea i m sur ´ dC 0 dV 1 ‡ Modelul de regresie: C=E+FV+I . unde 0<F<1 . 7 .

Liniaritatea ‡ 5.Ipotezele modelului de regresie (Ipotezele Gauss-Markov) ‡ 1. Necorelarea erorilor E( F X i (i<>k) Y i ! E  i k)=0 ‡ 4. Variabilele sînt m surate f r eroare ± (caracter nestochastic) 8 . Homoscedasticitatea (dispersie constant ) ‡ 3. Normalitatea ± Valorile Y sînt normal distribuite pentru orice X ± Erorile sînt normal distribuite cu medie zero E( i)=0 i ‡ 2.

‡ În general modele pot fi linearizate. z=ex y=a+br. r=1/x y=a+bq. nu neap rat la rela ia între variabilele x i y. 9 . ‡ ‡ ‡ ‡ y=a+bx y=a+bz. q=ln(x) y= E x   ln(y)=E+Fln(x) ‡ ‡ Forma general : f(yi)= E+Fg(xi)+Ii 1 Contra exemplu: y ! E  nu poate fi transformat Fx în model liniar.Forma func ional ‡ Ipoteza de linearitate nu este atât de restrictiv pe cât pare. Aceasta se refer la felul în care parametrii intr în ecua ie.

Modele ce pot fi linearizate 1000 Y a  b© 800 ¨ 1 ¸ ¹ ª x º a  be x 600 a  bx 400 200 a  b ln .

023 0.008 0.038 0.028 0.063 0.013 0.003 0.043 0.033 0.058 0.053 0.048 0. x 0 -1 0.068 X -200 -400 10 .018 0.

11 . este natural atâta timp cât I este v zut ca suma efectelor individuale. Deci ipoteza de homoscedasticitate nu este respectat . ‡ Ipoteza de homoscedasticitate: Var(Ii)=W2 constant i ‡ Se consider un model care descrie consumul unor gospod rii în func ie de venitul acestora. consumul gospod riilor mari pot varia mult mai mult fa de consumul gospod riilor cu venituri mici.‡ Ipoteza c media erorilor este zero: E(Ii)=0 i. ea poate fi considerat ca o parte sistematic a regresiei: E + Fx + I = (E+Q) + Fx + (I-Q) E(I)=Q   media erorilor fiind acum nul . Dac media erorilor este diferit de zero. cu semne diferite. În acest caz.

Exemplu de înc lcare a ipotezei de homoscedasticitate Functia de consum 1200 1000 800 consum 600 400 200 0 200 300 400 500 600 venit 700 800 900 1000 12 .

U.W2) Este o ipotez de lucru. tehnic . ci faptul c devia iile observa iilor de la valorile lor a teptate sunt necorelate.E. ce permite ob inerea unor estimatori ³buni´.‡ Necorelarea erorilor: E(IiIj)=0 i{j Aceast ipotez nu implic faptul c yi i yj sunt necorelate. ‡ Ipoteza de normalitate a erorilor Ii bN(0. (Best Linear Unbiased Estimators) 13 .L. vom ob ine estimatori B. ‡ Dac ipotezele precedente sînt respectate.

Ipotezele de normalitate i homoscedasticitate f(e) Y X2 X 14 X1 .

Varia ia erorilor în jurul dreptei de regresie f(e) Valorile y sînt normal distribuite în jurul dreptei de regresie. dispersia în jurul dreptei de regresie este constant . Pentru fiecare valoare x. Y X2 X1 X Dreapta de regresie 15 .

Clasificarea modelelor de regresie 1 Variabil expli ativ Modele de regresie 2+ Variabile expli ative Simple Multiple Li ear NonLinear Linear NonLinear 16 .

Tipuri de modele de regresie Leg tur liniar direct Leg tur neliniar Leg tur liniar invers Absen a vreunei leg turi 17 .

Modelul de regresie liniar simpl 18 .

19 .Exemplu practic ‡ Exist o leg tur între suprafa a unor apartamente din zona central i pre ul de închiriere a acestora? ‡ Select m aleator 25 de astfel de apartamente la care urm rim valorile celor dou variabile X ± suprafa a(m2) i Y ± chiria lunar (RON).

Regresia folosind EXCEL Acces m meniul TOOLS>DATA ANALYSIS>REGRESSION 20 .

Regresia folosind EXCEL Select m valorile variabilelor 21 .

22 .

Corelograma(Scatter plot) ‡ Graficul punctelor de coordonate (Xi.n.Yi). i=1. 2500 2000 Chiria(RON) 1500 1000 500 0 0 50 100 150 200 250 Suprafata(m2) 23 .

Modelul de regresie liniar simpl  Pe baza corelogramei este rezonabil s presupunem c media baza variabilei Y depinde de X printr-o rela ie liniar : printr-  Atunci modelul de regresie liniar simpl este dat de rela ia urm toare: Variabila de perturba ie Y intercept (termenul constant) Yi ! F 0  F 1 X i  I i Variabila dependent (r spuns) Panta dreptei de regresie Variabila independent (explicativ ) 24 .

atunci media lui Y pentru o valoare particular a lui X este dat de rela ia: Dispersia lui Y pentru o valoare particular a lui X este dat de rela ia: 25 .Media i dispersia variabilei dependente Dac presupunem c media i dispersia lui I sînt 0 i W2.

‡ Exist o distribu ie a valorilor lui Y pentru fiecare x i dispersia acestei distribu ii este constant pentru 26 orice x.‡ La nivelul popula iei regresia se reduce la exprimarea mediei condi ionate a lui Y: unde F1 are semnifica ia unui coeficient de elasticitate: arat modificarea lui Y la o modificare cu o unitate a lui x. W2. variabilitatea lui Y pentru o valoare particular x este determinat de dispersia variabilei reziduale. ‡ De asemenea. .

Distribu ia condi ionat a lui Y Y Dreapta de regresie X 27 .

Modelul de regresie liniar la nivelul popula iei Y Yi ! F 0  F1X i  I i Ii = Eroarea Q Valoarea observat Valoarea observat (E(Y)) YX ! F 0  F1X i X 28 .

Modelul de regresie liniar la nivelul e antionului Ö Ö Ö Yi ! F 0  F 1 X i › Yi Xi = Valoarea estimat a lui Y pentru observa ia i = Valoarea lui X pentru observa ia i = Estimatorul termenului liber F0 = Estimatorul pantei F1 29 Ö F0 Ö F1 .

‡ Ideea este s minimiz m distan a dintre valorile estimate n n 2 i valorile reale Ö L ! § Yi  Yi ! § I i2 ! min Ö i !1 . «.M.S.Estimarea parametrilor modelului de regresie ‡ Metoda celor mai mici p trate(M. y2). y1).M.P. yn).) ±Least Squares(L. (xn.) ‡ Presupunem c avem n perechi de observa ii (x1. (x2.C.

i !1 ‡ Ne reamintim c Ö Ö Ö Yi ! F 0  F1 xi deci 30 .

Ilustrare grafic n LS minimizeaz Y ^ I2 ^ I1 § IÖ i !1 2 i Ö Ö Ö Ö ! I I I I 2 1 2 2 2 3 2 4   Y2 ! F 0  F 1X 2  2 ^ I4 ^ I3   ! F F X Yi 0 1 i X 31 .

ob inem sistemul de ecua ii normale 32 .‡ Condi iile de minim: ‡ Simplificînd.

Y ) 2 sx b1 ! b 0 ! y  b1 x 33 .Estimatorii modelului de regresie cov( X .

Nota ii ‡ Valoarea estimat : ‡ Valoarea rezidual (reziduul): 34 .

Estimatorul dispersiei modelului ‡ Dac not m suma p tratelor erorilor de regresie atunci un estimator al varian ei variabilei reziduale este 35 .

stimatorii F 0 i F1 urmeaz o distribu ie normal 36 .Propriet ile estimatorilor modelului de regresie Ö Ö  F0 i F1 sînt estimatori nedeplasa i ai parametrilor F0 i F1 Ö Ö E( F ) ! F i E( F ) ! F 0 0 1 1 .ispersiile celor doi estimatori sînt date de rela iile ¨ 1 x2 ¸ Ö V( F0 ) ! W 2 ©  ¹ ª n S xx º W2 Ö V( F1) ! S xx unde S xx ! § ( xi  x )2 i W 2 este dispersia variabilei reziduale i !1 n Ö Ö .

Distribu ia estimatorului pantei de regresie Y Sample 1 Line Sample 2 Line Population Line X Sampling Distribution ^ SF1 All Possible Sample Slopes Sample 1: 2.6 Sample 3: 1.8 Sample 4: 2.1 : : Very large number of sample slopes 37 F1 ^ F1 .5 Sample 2: 1.

Eroarea standard a estimatorilor ei2 § Ö Întrucît varian a rezidual W 2 se estimeaz prin W 2 ! a erorii standard a celor doi estimatori: W2 Ö Ö Sxx V (F1 ) W2 Ö)! -SE(F1 ! ! df n2 Sxx ¨ 1 x2 ¸ W ©  ¹ Ö n Sxx º ¨ 1 x2 ¸ V (F0 ) ª Ö Ö -SE(F0 ) ! ! ! W2 ©  ¹ n2 df ª n Sxx º 2 i !1 n n2 putem avea o estimare Erorile standard vor fi folosite la testarea semnifica iei parametrilor modelului de regresie 38 .

n  2 H ® 0 : F1 ! 0(nu exist leg tur liniar ) ‡ Caz particular:¯ H A : F1 { 0( exist leg tur liniar ) 39 .Testul t pentru panta dreptei de regresie(slope) ® 0 : F1 ! F10 H ± ¯ H A : F1 { F10 ± ° Ö Ö F1  F10 F1  F10 t! ! ! 2 Ö SE (F1 ) Ö W Sxx Ö F1  F10 ei2 /(n  2) § i !1 n n ! Ö F1  F10 ei2 / § ( xi  x )2 / n  2 § i !1 i !1 n n ( xi  x )2 § i !1 ‡ Valoarea critic : t E / 2 .

Exemple de acceptare a ipotezei H 0 : F1 ! 0(nu exist leg tur liniar ) 40 .

Exemple de respingere a ipotezei H 0 : F1 ! 0(nu exist leg tur liniar ) 41 .

Testul t pentru termenul liber(intercept) ® 0 : F0 ! F00 H ± ¯ H A : F0 { F00 ± ° Ö F0  F00 ! t! Ö) SE (F 0 Ö F0  F00 ! Ö F0  F00 ¨ 1 x2 ¸ ei2 /(n  2) ©  § ¹ n S xx º i !1 ª n ! ¨ 1 x2 ¸ Ö W2©  ¹ n S xx º ª Ö F0  F00 ¨ ¸ n © ¹ x2 2 1 © ¹ / n2 § ei © n  n i !1 ( xi  x )2 ¹ § © ¹ ª º i !1 42 ! ‡Valoarea critic : tE / 2 .n  2 .

43 n  2 .n  2 SE ( F1 ) e F1 e F1  tE / 2.n 2SE(F 0 ) Ö F0  tE / 2.n  2 SE ( F1 ) Ö F1  tE / 2.Intervale de încredere pentru parametrii modelului ‡ Pentru termenul liber(intercept) Ö Ö Ö Ö F0  tE / 2.n 2 W ©  ¹ n Sxx º n Sxx º ª ª 2 ‡ Pentru panta dreptei de regresie(slope) Ö Ö Ö Ö F1  tE / 2.n 2 SE (F0 ) e F0 e F0  tE / 2.n 2 ¨ 1 x2 ¸ x2 ¸ 2¨1 Ö Ö Ö W ©  ¹ e F0 e F0  tE / 2.n  2 ¨ x2 Ö W2© ª S xx ¸ ¨ x2 ¸ Ö Ö e F1 e F1  tE / 2.n  2 W 2 © ¹ ¹ S xx º º ª unde § WÖ 2 n e i2 ! i!1 este estimatorul dispersiei modelului.

‡ Estimatorii ob inu i prin metoda celor mai mici p trate sînt B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai mic decît cei ob inu i prin MCMMP.
Con orm O S, estimatorul pantei este o combina ie liniar de valorile variabilei dependente:
n n i i i i n i i !1 n i i

Teorema Gauss-Markov

Ö F1 !

§ ( y  y)(x  x) § y (x  x)  y§ (x  x) § y (x  x)
i !1 n

!

i !1

n

!

i !1 n

( xi  x)2 §
i !1 n n n '

( xi  x)2 §
i !1 n

( xi  x)2 §
i !1

! §Ei yi
i !1

n

Fie F ! § qi yi ! F0 § qi  F1 § qi xi  § qiI i un alt estimator liniar.
i !1 i !1 i !1 i !1

Pentru ca (F ) ! F1, e necesar ca
' n '

§ q ! 0 i § q x ! 1.
i i i i !1 i !1 n 2 '

n

n

Rezult F ! § qiI i  F1, deci varian a sa este V( F ) ! W
i !1

§q .
2 i i !1 2 i i

Fie vi ! q i Ei , atunci qi ! Ei  vi i avem V(F ) ! W
'

2

§(E  v )
i !1

n

!

!W

n 2

§ (E
i !1

2 i 

2Ei vi  v ) ! W
2 i

n 2

§ (E
i !1

2 i 

v ) uW
2 i

n 2

§E
i !1

2 i

Ö ! V (F1 ).***QED

44

Exemplu-chiria ca func ie de suprafa

‡ Panta dreptei de regresie este pozitiv , deci exist o leg tur direct între chirie i suprafa a apartamentelor. ‡ În plus, dac chiria cre te cu o unitate(1 m2) ,chiria va cre te cu 10.640 lei. ‡ Doar panta dreptei de regresie este semnifcativ diferit de zero. ‡ P-value ± probabilitatea ipotezei ca parametrul estimat s fie egal cu zero; dac P-value este mai mic decît pragul de semnifica ie atunci respingem aceast ipotez . 45

Analiza varian ei pentru modelul de regresie
‡ Dac între X i Y nu exist nici o leg tur , atunci putem face predic ii privind valoarea medie a lui Y pentru orice valoare a lui X ‡ Dac exist o leg tur între X i Y, în ce m sur cunoa terea valorilor lui X poate explica abaterea variabilei dependente de la media sa? ‡ Abaterea totala = abaterea explicata + Abaterea reziduala

Ö - Y)  (Y - Y ) Ö (Yi - Y) ! (Yi i i
46

Descompunerea varia iei Y SST = §(Yi .Y)2 _ › SSE =§(Yi .Y)2 › _ SSR = §(Yi .Yi )2 _ Y X 47 X Xi .

ANOVA pentru regresie 2 Ö  Y)2  (Y  Y )2 Ö (Y i  Y) ! § (Yi § § i i SST = SSR + SSE SST = Total Sum of Squares _ M soar varia ia valorilor observate Yi în jurul mediei Y SSR = Regression Sum of Squares M soar varia ia expli at de modelul de regresie SSE = Error Sum of Squares M soar varia ia ce poate fi atribuit altor factori. diferi i 48 de variabila explicativ X .

49 .

1¼ adj !1 (1 n  k 1 ­ n  k 1 ½ 50 . n 1 « n 1 » 2 2 ¬1 ) . care are aceea i interpretare. de aceea pentru modele cu multi parametri se calculeaz R2 ajustat.1A ‡ R2 este afectat de cre terea num rului de parametri.Coeficientul de determina ie R2 ‡ Este o m sur a propor iei varian ei explicate de n n model 2 2 R2 Ö §( y  y) SSR ! ! SST § ( y  y) i i !1 i i 2 ! 1 §e i !1 i i 2 § ( y  y) i ?0.

Exemplu-chiria ca func ie de suprafa ‡Modelul explic 72.23% din varia ia chiriei pentru apartamentele din zona central Standard Error : Ö W ! n §e i !1 2 i n2 51 .

52 .Observa ii ‡ R2 este adesea folosit pentru a alege cel mai bun model din punctul de vedere al varian ei explicate. ‡ Compara iile de acest fel trebuie f cute între modele de aceea i natur .

unde y2i ! y1i  E i x2i ! x1i  E ¯ y °2 ! F2 x2  I 2 ‡ De i ar p rea c modelul al doilea este mai performant.Foarte important!! ‡ Pentru modele de regresie f r termen liber. nu sînt argumente pentru a sus ine aceast ipotez 53 . ‡ Exemplu: consider m dou astfel de modele y ®1 ! F1 x1  I1 . de tipul R2 nu mai are semnifica ia de y ! Fx I propor ie a varian ei explicate.

8. r = 0 ^ Yi = b0 + b1Xi X 54 .9 Y ^ Yi = b0 + b1Xi X R2 = 0. r = +1 ^ Yi = b0 + b1Xi X Y R2 = 1.Coeficientul de determina ie i coeficientul de corela ie liniar Y R2 = 1. r = -1 ^ Y =b +b X i 0 1 i X Y R2 = .r = +0.

Tabelul ANOVA Source of Variation Regression Error Total Sum of Squares n df 2 Mean Square F SSR ! § ( yi  y ) i !1 n 2 i !1 k-1 n Ö SSE ! § ( yi  yi ) ! § ei 2 i !1 n-k n-1 SST ! § ( yi i y) 2 SSR k 1 SSE MSE= nk SST n 1 MSR= MSR MSE Testul SSR F ! k  1 ~ F k 1. Un model este valid dac propor ia varian ei explicate prin model este semnificativ . 55 Ipoteza nul pentru testul F in cazul acesta este cea de model nevalid. .n  k SSE n  k k-num rul de parametrii ai modelului este folosit la verificarea validit ii modelului.

70 25 56 .71 194.93 3139726 MS F 2267827.82347359 37908.72 0.07 59.64913 Significance F 0.07 871898.85 0.00 0.ANOVA SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations ANOVA df Regression Residual Total 1 23 24 SS 2267827.

Tipuri de predic ii ± Estim ri punctuale ± Estim ri pe intervale de încredere ‡ 2. Care e obiectul predic iei? ± Media popula iei E(Y) pentru o valoare particular a lui X ± Valoarea individual (Yi) pentru o valoare particular a lui X 57 .Predic ia folosind modelul de regresie ‡ 1.

Y XP X 58 .Ce prezicem Y YIndi idual Mean Y. E(Y Y i= ^ F + ^ 1X F E(Y = F + F 1X Predi tion.

n 2 ™ SYÖ e E (Y ) e Y  tE / 2. n 2 ™ SYÖ unde n Ö SYÖ ! W 1  n .Interval de încredere pentru media lui Y Ö Ö Y  tE / 2.

x  x § .

x  x p n i i !1 2 §e Ö iW ! 2 i !1 2 i 2 n2 59 .

E) ± Cre terea nivelului de încredere duce la cre terea intervalului de încredere ‡ 2. Nivelul de încredere (1 .Factori care afecteaz lungimea intervalului de încredere ‡ 1. Dispersia datelor ( ) ± Cre terea dispersiei duce la cre terea intervalului de încredere ‡ 3. Volumul e antionului ± Cre terea volumului e antionului duce la mic orarea intervalului de încredere ‡ 4. Distan a lui Xp fa de mediaDX ± Cre terea acestei distante duce la cre terea intervalului de încredere 60 .

Distan a lui Xp fa de mediaDX Y e1 l i e Dis ersie mai mare decît la X1 _ Y X1 Sam Sam le 2 i e DX X2 X 61 .

Estimeaz un model de regresie i ob ine 0 = -.Exemplu ‡Un analist de marketing stabile te c volumul vînz rilor depinde liniar de cheltuielile cu reclama. ‡Cheltuieli cu reclama $ Vînz ri(buc i) 1 1 2 1 3 2 4 2 5 4 ‡Cît vor fi vînz rile medii dac se cheltuiesc 4 $ pentru reclam ? 62 alfa=0.1.05 . 1 = .7 & s = .60553.

1  .n 2 ™ SYÖ e E (Y ) e Y  tE / 2.n 2 ™ SYÖ Ö Y ! 0.Solu ie Ö Ö Y  tE / 2.

0.7 .

7 2 Valoarea particular pentru X 1 .4 ! 2.

3316 5 10 2.60553  ! 0.4  3 SYÖ ! .7  .

3.1824

0.3316 e E (Y ) e 2.7 

3.1824

6445 e E (Y ) e 3.7553 63 .3316 1.0.

Interval de predic ie pentru valori particulare Ö Y  tE / n Ö ™ S Y YÖ e YP e Y  tE / .

n ™ S Y YÖ .

n Ö S Y YÖ ! W .

  n .

xP  x n §e Ö W ! i! i § .

x  x i i! n 64 .

Predic ia Y Y we're trying to predict I Expected (Mean) Y F ^ i=^ 0 Y ^ 1X i +F E(Y) = F 0 + F 1X rediction. ^ Y XP X 65 .

Hyperbolic Interval Bands Y F ^ i=^ 0 Y ^ 1X i +F _ X XP X 66 .

3785 Prediction Interval Upper Limit 1652.5 774 1150.556 For Individual Response Y Interval Half Width 412.Predic ia pentru modelul particular de regresie dintre chirie i suprafa Confidence Interval Estimate Data X Value Confidence Level Intermediate Calculations Sample Size Degrees of Freedom t Value Sample Mean Sum of Squared Difference Standard Error of the Estimate h Statistic Predicted Y (YHat) For Average Y Interval Half Width Confidence Interval Lower Limit Confidence Interval Upper Limit 100 95% Valoarea suprafe ei pentru un apartament Chiria prezis de model pentru un apartament cu suprafa a de 100 m2 Interval de încredere pentru chiria medie a unui apartament cu suprafa a de 100 m2 Interval de încredere pentru chiria unui apartament cu suprafa a de 100 m2 25 23 2.5 194.7014 0.597 1 . 094 Prediction Interval Lower Limit 827.42 1329.988 89.0 8 58 113.7 20030.049452 1239.

Xp  X h  statistic !  n 2 n §.

Xi  X i!1 67 2 .

Verificarea ipotezelor privind variabila reziduala A) Variabila eroare este normal distribuita Folosim valorile variabilei reziduale standardizate 68 .

41617608 0.927841352 215.998225 1516.0564178 1761.559290217 sri ! sI 1  hi unde ( xi  x ) 1 hi !  2 n § (x j  x ) n 2 sI ! §e i !1 2 i n2 Standardized residual i = Residual i / Standard deviation 69 .549584 984.240163246 -47.04275068 -0.321969863 261.683162 1431.60794706 0.3168379 0.426293 1346.3817667 -0.2038325 1.0463013 1.515345 1484.3613638 0.RESIDUAL OUTPUT Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Predicted Chirie(RON) 1080.611327891 0.623322181 -135.308411981 297.712225696 15.559871 2293.69682924 -0.130083769 183.51534455 -0.120894591 367.943582206 0.042751 1282.080180682 7.638636 1399.796167 Residuals Standard Residuals -130.583824 1623.165346348 -34.086128037 -23.36809954 -0.04167628 -61.369588474 -17.28259819 0.717402 942.3819364 1.5941102 -1.962011756 -199.182146053 -405.248823689 53.953699 952.42629262 -0.751641 1484.7516415 -0.806454 1335.532209158 6.59411 1133.6180636 1239.6968292 920.7755949 1197.381767 1718.684052461 -118.987938 1452.092847028 -45.9982247 -2.034686561 166.392053 1548.9879384 -2.047177422 16.77559489 -0.8064537 -0.388672 1633.3681 1388.717402 1505.4401295 0.71740181 -0.4504158 1.281255954 101.872587059 -31.1300088 -439.

70 .

Normal Probability Plot Normal Probability Plot 2500 2000 Chirie(RON) 1500 1000 500 0 0 20 40 60 80 100 71 Sample Percentile .

72 .

928 1.121 1.5 -2.080 0.5 1.240 -0.182 -2.281 0.370 -0.6 4 -0.0 -2.0 -3 -2 -1 -0.121 1.928 1.240 -0.5 0.035 0.281 0.0 0 1 2 3 73 .165 -0.712 0.0 -1.322 1.5 -1.322 1.Variabilele reziduale sînt necorelate? e(t-1) -0.086 -0.712 0.080 0.035 0.130 -2.0 1.308 e(t) -0.623 -0.130 0.086 -0.962 -1.5 2.093 -0.165 -0.5 -3.249 0.042 -0.093 -0.182 -2.370 -0.623 -0.873 -0.130 0.308 1.130 -2.532 0.559 Corelograma i tre e(t) i e(t-1) 2.0 0.249 0.962 -1.873 -0.047 0.042 -0.532 0.047 0.

532 0.086 -0.322 1.623 -0.093 -0.559 Corelograma dintre e(t) i e(t-2) 2.086 -0.684 -0.928 1.962 -1.532 0.047 0.e(t-2) -0.047 0.249 0.240 -0.308 1.0 74 0 1 2 3 .873 -0.962 -1.281 0.5 -2.240 -0.182 -2.5 0.370 -0.0 -1.0 0.712 0.165 -0.0 -3 -2 -1 -0.249 0.035 0.322 1.130 0.712 0.121 1.928 1.093 -0.121 1.5 -1.0 1.0 -2.042 -0.080 0.5 1.165 -0.182 -2.5 -3.370 -0.5 2.281 0.873 -0.042 -0.130 e(t) -0.130 0.035 0.130 -2.080 0.

^ y Residual + + + + + + + + + ++ ^ y + + + ++ + + ++ + + ++ + ++ + + + + + + + + + + + + + + + + + + + + Imprastierea creste odata cu y 75 .‡ Variabila reziduala are varianta constanta: Homoscedasticitate/Heteroscedasticitate ± Daca este incalcata conditia variantei constante suntem in cazul heteroscedasticitatii.

‡ Daca varianta este constanta avem homoscedasticitate ^ y Residual + + + + + + + + + + + + + + + + + + + + ^ y + + + + + + + + ++ ++ + + + + + + ++ ++ + + ++ + ++ + + + + + + 76 .

Residual + ++ + 0 + Residual + + + + + + + + ++ + + + + Time + 0 + + + + + + + Time + 77 .Independenta erorilor in timp Tipuri de variabila reziduala care indica exixtenta autocorelatiei erorilor In timp.

REGRESIE MULTIPLA 78 .

Regresie multipla Coeficienti de regresie Variabila eroare y = F0 + F1x1+ F2x2 + «+ Fkxk + I Variabila Dependenta Variabile Independente 79 .

± Managementul doreste sa stabileasca locatia probabil cea mai profitabila.Examplu Stabilirea locatiei unui hotel ± La Quinta Motor Inns doreste construirea unui nou hotel. ± Profitabilitatea unei locatii depinde de factori cum sunt: ‡ ‡ ‡ ‡ ‡ Competition Market awareness Demand generators Demographics Physical quality 80 .

Profitabilit y Market awareness Margin Competition Customers Community Physical Rooms Number of hotels/motels rooms within 3 miles from the site. Nearest Distance to the nearest La Quinta inn. 81 . Disttwn Distance to downtown. Office space College enrollment Income Median household income.

9 3422 1 434 15.7 7.± Se folosesc date pentru un esantion de 100 hoteluri care apartin La Quinta.9 254 20 39 31.9 4 82 . si se foloseste urmatorul model : Margin =F FRooms FNearest FOffice  FCollege + F5Income + F6Disttwn + INN 1 2 3 4 5 6 I MARGIN ROOMS NEAREST OFFICE COLLEGE INCOME 55.4 678 15.4 2687 3.1 0.1 549 8 37 33.5 32 49 3759 1.5 39 49 2890 1.4 12.5 3203 0.5 36 57.5 496 17.4 635 19 41 ISTTWN 12.8 2810 1.2 2.

0.003899 -0.525062 Adjusted R 0.49442 Standard Er5.139552 -2.225258 0.02OFFICE +0.646NEAREST + 0.587246 INCOME -0.458 P-value Lower 95%Upper 95% 1.69025 -0.626 30.60136 OFFICE 0.6387 17.832 520.795594 COLLEGE 0.12874 2.476744 0.12962 0.001255 -6.026538 0.455 .38955 9.41312 0.260475 83 .64624 0.724611 R Square 0.413INCOME + 0.24E-08 0.00513 0.0.211783 0.38307 99 5949.78049 88.13581 3.012993 0.133428 1.77E-08 -0.019766 0.03E-13 93 2825.06871 NEAREST -1.SUMMARY OUTPUT Regression Statistics Multiple R 0.512084 Observation 100 ANOVA df Regression Residual Total MARGIN = 72.632837 -2.00341 5.179483 ROOMS -0.01011 -0.210651 -0.212COLLEGE .11E-14 56.05318 0.008ROOMS -1.580138 Coefficients Standard Erro t Stat Intercept 72.893104 9.115851 -0.00762 0.96034 DISTTWN 0.225DISTTWN SS MS F Significance F 6 3123.010803 -2.90292 -0.45461 7.136 0.178709 1.

MARGIN = 72. 24. Closet competitor 3.000 median household income.02(476) +0.0.212(24.008(3815) -1.500 college students.646(3. $39.455 .4) + 0.6 miles distance to downtown center. 3.‡ Utilizarea modelului ± Predictiepentru un hotel cu urmatoarele caracteristici: ‡ ‡ ‡ ‡ ‡ ‡ 3815 rooms within 3 miles.225(3.1% 84 .0.5) .4 miles away.6) = 37. 476.000 sq-ft of office space.413(39) + 0.

Watson n d ! § ( ri  ri 1 ) 2 n i! 2 § The range ri of 2 i! 1 d is 0 e d e 4 85 .Testul Durbin .

Autocorelatie de ordinul I pozitiva + + + 0 + + + + + Residuals Autocorelatie de ordinul I pozitiva Time Autocorelatie de ordinul I negativa Autocorelatie de ordinul I negativa + + + + + + 0 Time 86 + Residuals .

‡ TEST UNILATERAL ± Daca d<dL exista autocorelatie de ordinul I pozitiva ± If d>dU nu exista autocorelatie de ordinul I pozitiva ± Daca d este intre dL si dU indecizie. ± Daca d>4-dL.exista autocorelatie de ordinul I negativa ± Daca d<4-dU. nu exista autocorelatie de ordinul I negativa ± Daca d este intre 4-dU and 4-dL indecizie 87 .

Auto corelatie indecizie Indepen denta Indepen denta Indecizie Auto corelatie 0 dL dU 2 4-dU 4-dL 4 88 .

³zero´ earnedwas below 50o 1 if the temperature is in Finance if a degree or ³one´.Variabile calitative ‡ In many real-life situations one or more independent variables are qualitative. ‡ Including qualitative variables in a regression analysis model is done via indicator variables. 1 1 if a firstwere collected of two is met 1 if data condition out before 1980 I= 0 if the temperature was 50o or more 0 0if if a degree collectedout of1980is met 0 ifa second condition after two data were earned is not in Finance 89 . ‡ An indicator variable (I) can assume one out of two values.

Variabile calitative ‡ Consideram ca pretul este determinat si de culoarea masinii. ‡ Consideram trei culori : ± White ± Silver ± Other colors I1 = 1 if the color is white 0 if the color is not white 1 if the color is silver I2 = 0 if the color is not silver 90 .

.± Folosim modelul y = F0 + F1(Odometer) + F2I1 + F3I2 + I Pri 5318 5061 5008 5795 5784 5359 . Odometer 37388 44758 45833 30862 31705 34010 . I1 1 0 0 0 0 . . . . White car Other color Silver color 91 . I0 0 0 0 1 1 .

02777 0.5E-83 6167.18499 3.272 3.22E-25 1943141 20241.271 Observations 100 ANOVA df Regression Residual Total 3 96 99 SS MS F Significance F 4491749 1497250 73.24098 34.5347 Coefficients Standard Error t Stat Intercept 6350.7242 I-1 45.02307 0.835482 R Square 0.94135 223.738 38.000199 71.14E-20 -0.187551 -22.08443 1.97095 7.16653 68.05 6434890 P-value Lower 95%Upper 95% 1.4161 112.69803 Adjusted R S 0.SUMMARY OUTPUT Regression Statistics Multiple R 0.03247 -0.002369 -11.327321 I-2 147.374 6533.8981 0.869007 92 .90053 Odometer -0.323 92.688594 Standard Err 142.

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->