Documente Academic
Documente Profesional
Documente Cultură
m
Regresia ± scurt istoric al termenului
Sir Francis Galton(1822-1911) ± spirit enciclopedic al perioadei
victoriene, fiind cel care a introdus termenii de regresie şi corelaţie
statistică
Originea regresiei ca metodă statistică se află în studiile sale de
genetică aplicată în studiul plantelor- 1877
Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că
există o legătură liniară între diametrele acestor boabe şi diametrele
boabelor recoltate de la noile plante. El a numit iniţial panta acestei
drepte ³coefficient of reversion´, schimbîndu-i apoi numele în
³coefficient of regression´.
Termenul de regresie provine de la descoperirile sale în domeniul
eredităţii: în general, progeniturile indivizilor geniali au abilităţi care îi
aşază mai degrabă la nivelul mediei; de asemenea, înalţimea copiilor
proveniţi din taţi foarte înalţi se apropie mai mult de înălţimea medie
decît înălţimea taţilor.
(odele
Un model este o reprezentare a unui anumit
fenomen
(odel matematic - o reprezentare matematică a
unui fenomen
De cele mai multe ori un model descrie legăturile
existente între două sau mai multe variabile
În general, sînt două clase de modele:
± (odele deterministe
± (odele probabiliste
?
(odele deterministe (odele probabiliste
± Exprimă o relaţie ± Componenta deterministă
exactă între variabile ± Componenta aleatoare
± Teoretic, eroarea de ± Eroarea de previziune
previziune este nulă este nenulă
± Componenta aleatoare
± Exemplu: poate fi datorată factorilor
Principiul al doilea al obiectivi, ce nu sînt
mecanicii incluşi în model
newtoniene: ± Exemplu: Volumul
F = m.a vînzărilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare
ã
Tipuri de modele probabiliste
Probabilistic
(odele
Probabilistic
Models
probabiliste
Models
(odele de
Regression
Regression (odele de
Correlation
Correlation Alte
Other
Other
regresie
Models
Models corelatie
Models
Models Models
Models
modele
±
Regresia ± metodă de modelare a legăturilor dintre variabile
:
Exemplu: Legea lui Keynes privind legătura dintre
venit şi consum
Suma cheltuită pentru consum depinde de:
± mărimea venitului pe de o parte
± alte obiective în funcţie de circumstanţe (de exemplu
investiţiile)
± alte nevoi subiective
ÄO persoană este dispusă de regulă şi în medie să îşi crească
consumul pe măsura creşterii venitului dar nu în aceeaşi
măsură´ j
]Õ Õm
j
1. Normalitatea
± Valorile Y sînt normal distribuite pentru orice X
± Erorile sînt normal distribuite cu medie zero E(İi)=0
Ëi
2. Homoscedasticitatea (dispersie constantă)
3. Necorelarea erorilor
İi İÎ
M E( k)=0
(i<>k)
4. Liniaritatea
5. Variabilele sînt măsurate fără eroare
± (caracter nestochastic) i
Forma funcţională
Ipoteza de linearitate nu este atât de restrictivă pe cât
pare. Aceasta se referă la felul în care parametrii intră în
ecuaţie, nu neapărat la relaţia între variabilele x şi y.
În general modele pot fi linearizate.
y=a+bx
y=a+bz, z=ex
y=a+br, r=1/x
y=a+bq, q=ln(x)
y= M xȕ ln(y)=M+ln(x)
Forma generală: f(yi)= M+g(xi)+i
m
Contra exemplu: å M nu poate fi transformat
în model liniar.
m þ
þ
þ
O þ
Î
m]
Ipoteza că media erorilor este zero: E(i)=0 Ëi, este
naturală atâta timp cât este văzută ca suma efectelor
individuale, cu semne diferite. Dacă media erorilor este
diferită de zero, ea poate fi considerată ca o parte
sistematică a regresiei:
E()= M + x + = (M+) + x + (-)
media erorilor fiind acum nulă.
Ipoteza de homoscedasticitate: Var(i)=2
constantă Ëi
Se consideră un model care descrie consumul unor
gospodării în funcţie de venitul acestora. În acest caz,
consumul gospodăriilor mari pot varia mult mai mult faţă
de consumul gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată.
mm
Exemplu de încălcare a ipotezei de
homoscedasticitate
á
]]
]]]
]]
]]
]]
]]
]
]] ]] ]] ]] ]] ]] ]] ]] ]]]
m
Necorelarea erorilor: E(ij)=0 Ëij
Această ipoteză nu implică faptul că yi şi yj sunt
necorelate, ci faptul că deviaţiile observaţiilor de la
valorile lor aşteptate sunt necorelate.
Ipoteza de normalitate a erorilor i N(0,2)
Este o ipoteză de lucru, tehnică, ce permite obţinerea
unor estimatori ³buni´.
Dacă ipotezele precedente sînt respectate, vom
obţine estimatori B.L.U.E. (Best Linear
Unbiased Estimators)
m?
§
·
Î
Î
m
Ö
Ö
Î
Î
Î
m
Clasificarea modelelor de regresie
1 Variabilă Modele 2+ Variabile
expli ativă de regresie expli ative
Simple Multiple
Non- Non-
Li ear Linear
Linear Linear
m:
Tipuri de modele de regresie
| |
mï
(odelul de regresie liniară simplă
mi
Exemplu
practic
Există o legătură între
suprafaţa unor apartamente
din zona centrală şi preţul de
închiriere a acestora?
Selectăm aleator 25 de astfel
de apartamente la care
urmărim valorile celor două
variabile X ± suprafaţa(m2) şi
Y ± chiria lunară(RON).
]
Regresia folosind EXCEL
Selectăm valorile variabilelor
m
Corelograma(Scatter plot)
Graficul punctelor de coordonate (Xi,Yi), i=1,n.
]]
]]]
]]
]]]
]]
]
] ] ]] ] ]] ]
w
?
(
Pe baza
baza corelogramei este rezonabil să presupunem că media
variabilei Y depinde de X printr-
printr-o relaţie liniară:
à
à
à
à
à
à
à
à
à
(
]
±
m
!
!
!
!
"
"
#
$
"
!
"
:
Distribuţia condiţionată a lui Y
Dreapta de regresie
Y
X
ï
(
· ·à ] m à
à
à ß
] m à
·
$
(
] m
f
à ß Ö
"
Îà ß Ö
Î
"
ß $
"
]
]
ß $
m
m
Estimarea parametrilor modelului de regresie
(etoda celor mai mici pătrate((.C.(.(.P.) ±Least
Squares(L.S.)
Presupunem că avem n perechi de observaţii (x1, y1), (x2,
y2), «, (xn, yn).
Ideea este să minimizăm distanţa dintre valorile estimate
şi valorile reale ` `
;
§
Ne reamintim că deci
] m
?]
§
`
§
§ § § §
· ü Ë Ë
Ë
§
§
§ §
Ë
·à Ë Ë
] à
Î
?m
Condiţiile de minim:
?
Estimatorii modelului de regresie
cov( X , Y )
b1 2
sx
b 0 y ® b1 x
??
Notaţii
Valoarea estimată:
Valoarea reziduală(reziduul):
?ã
Estimatorul dispersiei modelului
?±
Proprietăţile estimatorilor modelului de regresie
] m
] m
M
] ] M
m m
%
m
& ]
`
& m
`
m
"
#
%
] m
#
"
?:
·
óY
ó
ó
ó
Sampling Distribution
ó
S^1
!
^
1
?
Eroarea standard a estimatorilor
`
#
l #
l m
`®
l
l
% m m
! `®
m
l
` l
m
% ] ]
! `® `
]
Y m m
® ] ® ] ® ] ® ]
m m m m m m
m m
m l ` ` `
` ® ®
`®
m m m
`
®
m
] m ]
Caz particular:
Y m ]
?
ã]
Exemple de respingere a ipotezei
] m ]
ãm
Testul t pentru termenul liber(intercept)
] ] ]
]
]
Y ] ]
] ]
] ] ] ]
M ] m
`
] ]
] ] ] ]
`
m
`
`
` m
m
` `
`
m
m
Valoarea critică: M '` ® ã
Intervale de încredere pentru parametrii
modelului
Pentru termenul liber(intercept)
] M ` M ]
] M ` M ] ]
m
m
] M `
] ] M `
` `
Pentru panta dreptei de regresie(slope)
m M ` M m
m M ` M m m
m M `
m m M `
`
unde este estimatorul dispersiei modelului.
l
m
` ®
ã?
Teorema Gauss-(arkov
Estimatorii obţinuţi prin metoda celor mai mici pătrate sînt
B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai
mică decît cei obţinuţi prin (C((P.
(
) *
"
"
` ` ` `
å å å å å `
m
m
`
m
`
m m
` M å
m
m
m
m
` ` ` `
+ «
å
m
]
m
m
m
§
m
` `
,
«
m
] m
m m
` `
-#
«
§
m
m
& «
m
`
+ M
M & «
M
m
` ` `
M
M
M
M
m ...M ãã
m m m
Exemplu-chiria ca funcţie de suprafaţă
f 5
Rà 5
Î
Îà
ANOVA pentru regresie
! !
® ® ®
ß egression Sum of Squares
Măsoară variaţia expli ată de modelul de regresie
Coeficientul de determinaţie R2
Este o măsură a proporţiei varianţei explicate de
model ` `
å å
m
m m
´]m
å å
å å
`
±m
Observaţii
R2 este adesea folosit pentru a alege cel mai bun
model din punctul de vedere al varianţei
explicate.
±
Foarte important!!
Pentru modele de regresie fără termen liber, de tipul
å § R 2 nu mai are semnificaţia de
proporţie a varianţei explicate.
Exemplu: considerăm două astfel de modele
åm m m §m
å åm M m M
å §
·
2 ß 1, ß +1 ·
2 ß 1, ß -1
^ß + Î
à 0 1 à
^ß + Î
à 0 1 à
2 ß .8, ß +0.9
· ·
2 ß 0, ß 0
^ß + Î
^ß + Î
à 0 1 à à 0 1 à
Tabelul ANOVA
w w w
w
` Õ ww (
ü Õ
Õ Õ Õ
ü ® (
`
`
Õ ww Õ
ü ® ü Õ Õ Õ
ü ü ®
Õ ww Õ
Å à Õ Õ
à
Õ ` ®
Õ
m /
k-numărul de parametrii ai
Testul
M m` modelului
`
nevalid.
ANOVA
w
6
w
w
w
!"
#$
% & & ' '
' ' '& '
''&
±:
Predicţia folosind modelul de regresie
1. Tipuri de predicţii
± Estimări punctuale
± Estimări pe intervale de încredere
±ï
Ce prezicem
·
·ndi idul ^á 1X
^á +
( n ·, ER· · i=
ER· = á + á 1X
Pr di tion, ·
X
XP
±i
Interval de încredere pentru media lui Y
! ! ! M !
M ` `
;
! ! `
!
` `
;
i e
le 1 Dis ersie
wam mai mare
decît la Î1
· wam le 2
i e
1 2
:m
Exemplu
Un analist de marketing stabileşte că volumul vînzărilor
depinde liniar de cheltuielile cu reclama. Estimează un model
de regresie şi obţine ȕ0 = -.1, ȕ1 = .7 & s = .60553.
Cheltuieli cu reclama $ Vînzări(bucăţi)
1 1
2 1
3 2
4 2
5 4
Cît vor fi vînzările medii dacă se cheltuiesc 4 $ pentru
reclamă?
alfa=0.05 :
Soluţie
! ! ! M !
M ` `
!
;
;
;
;
:?
Interval de predicţie pentru valori particulare
1 M 0 1 1 M 0 1
` ; ` ;
;
1 1 1
; ` `
`
;
:ã
Y
Y we're trying to
predict ^
+á
i
^Y i=^á ]
pected
Rean) Y
RY) = á ] + á
rediction, ^
Y
:
Hyperbolic Interval Bands
^á
^
^· ß á 0+ 1
5
::
Predicţia pentru modelul particular de regresie dintre chirie şi suprafaţă
Ú
Valoarea suprafeţei
% pentru un apartament
Ú
Chiria prezisă de model pentru
un apartament cu suprafaţa de
( +
100 m2
w w
Interval de încredere pentru
w chiria medie a unui apartament
ww
cu suprafaţa de 100 m2
w
!""
w
"!"
#$%$& ' !!
Interval de încredere pentru
&
'
() chiria unui apartament cu
() & * ! " suprafaţa de 100 m2
Ú
Ú
!
m ;O
&
* )
() & * " !" `
`
"
"
#$ $#
!$ ;
m
:ï
Verificarea ipotezelor privind variabila
reziduala
:i
6
]]
]]]
]]
]]]
]]
]
] ] ] ] ] ]]
ïm
ï
Variabilele reziduale sînt necorelate?
1
.6 4 .623
.623 .712
r l
r i r şi 1
.712 .
. .42 2.5
.42 .322
.322 1.37 2.
1.37 .3
1.5
.3 .24
.24 .24 1.
.24 .21
.21 .532 .5
.532 .35
.
.35 .73
3 2 1 1 2 3
.73 .165 .5
.165 .12
.12 2.13 1.
2.13 .62
1.5
.62 1.47
1.47 .6 2.
.6 .121
.121 1.2 2.5
1.2 1.13
3.
1.13 2.3
2.3 1.55
ï?
V V
VVV V
ïã
Variabila reziduala are varianta constanta:
Homoscedasticitate/Heteroscedasticitate
± Daca este incalcata conditia variantei constante
suntem in cazul heteroscedasticitatii.
+
^y
++
Residual
+
+ + + ++
+
+ + + ++ + +
+ + + +
+ + + ++ +
+ + + + ^y
+ + ++ +
+ + +
+ + ++
+ + ++
+
^y
++
Residual
+ +
+ + + ++
+
+ + + +
+ ++ + +
+ +
+ + + + ++ +
+ + + ^y +++
+ + + ++ +
+ + + + ++
+
+ +++++
+
ï:
Independenta erorilor in timp
Tipuri de variabila reziduala care indica exixtenta autocorelatiei
erorilor
In timp.
Residual Residual
+
+ ++
+
+ + +
+ + +
0 + 0 + +
+ Time Time
+ + + + + +
+ + + +
+ +
+
ïï
REGRESIE (ULTIPLA
ïi
Regresie multipla
Coeficienti de
regresie
Variabila eroare
(arket
Competition Customers Community Physical
awareness
i
(ARGIN = 72.455 - 0.008ROO(S -1.646NEAREST
+ 0.02OFFICE +0.212COLLEGE
w - 0.413INCO(E + 0.225DISTTWN
6
w
w!
"#$
%&
'$ ((!( (! (! (()(
( ! ((!(
$
!
*+
!( !( ) ! !!!
w ) )! )! ) )(
%w ) (!( )( !( ) )(!
,,*- ( )! ( (!
-../ !( ((! ! ! )(!
*%- )( ( )( (! ) )(
0*w1% ! ! ) !(!
i?
Utilizarea modelului
i 2
( ri ri 1 ) 2
d n
2
i 1
ri
The range of d is 0 d 4
i±
Autocorelatie de ordinul I pozitiva
Autocorelatie de ordinul I pozitiva
+ Residuals
+
+
+
0
Time
+
+ +
+
0 j j 2 4-j 4-j 4
ii
Variabile calitative
In many real-life situations one or more
independent variables are qualitative.
Including qualitative variables in a regression
analysis model is done via indicator
variables.
An indicator variable (I) can assume one out
of two values,
1 if a ³zero´
degree or ³one´.
earned is inbelow
1 if the temperature was Finance
50o
11 ififadata
firstwere
condition
collected
out of
before
two is1980
met
I= 00 ififthe
a degree earned
temperature is
was not
50 oinorFinance
more
00 ififadata
second
werecondition
collectedout
after
of1980
two is met
i
Variabile calitative
Consideram ca pretul este determinat si de
culoarea masinii.
Consideram trei culori :
± White I1 = 1 if the color is white
0 if the color is not white
± Silver
1 if the color is silver
± Other colors I2 =
0 if the color is not silver
]
± Folosim modelul
y = 0 + 1(Odometer) + 2I1 + 3I2 +
i
t - -
± White car
± ±
± ± Other color
±±
± ±
± ± Silver color
m
w
6
w
w
w !"!
#$% !
&'
(% !" !" "" ")
!!! !
%
*+
! !) !"" "
%, )""" )!!" !) )" )"
*)! !"! !"! )!! !!!
*) !"" ! " ! "!! "