Sunteți pe pagina 1din 72

MODELUL DE REGRESIE

1
Regresia scurt istoric al termenului
Sir Francis Galton(1822-1911) spirit enciclopedic al perioadei
victoriene, este cel care a introdus termenii de regresie i corelaie
statistic
Originea regresiei ca metod statistic se afl n studiile sale de genetic
aplicat n studiul plantelor- 1877
Plantnd boabe dintr-un anumit soi de mazre dulce a observat c exist o
legtur liniar ntre diametrele acestor boabe i diametrele boabelor
recoltate de la noile plante. El a numit iniial panta acestei drepte
coefficient of reversion, schimbndu-i apoi numele n coefficient of
regression.
Termenul de regresie provine de la descoperirile sale n domeniul
ereditii: n general, progeniturile indivizilor geniali au abiliti care i aaz
mai degrab la nivelul mediei; de asemenea, nalimea copiilor provenii
din tai foarte nali se apropie mai mult de nlimea medie dect nlimea
tailor.

2
Modele
Un model este o reprezentare a unui anumit fenomen
Model matematic - o reprezentare matematic a unui
fenomen
De cele mai multe ori un model descrie legturile
existente ntre dou sau mai multe variabile
n general, snt dou clase de modele:
Modele deterministe
Modele probabiliste
3
Modele deterministe
Exprim o relaie
exact ntre variabile
Teoretic, eroarea de
previziune este nul

Exemplu:
Principiul al doilea al
mecanicii newtoniene:
F = m.a


4
Modele probabiliste
Componenta determinist
Componenta aleatoare
Eroarea de previziune este
nenul
Componenta aleatoare
poate fi datorat factorilor
obiectivi, ce nu snt inclui
n model
Exemplu: Volumul
vnzrilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare
Tipuri de modele probabiliste
Probabilistic
Models
Regression
Models
Correlation
Models
Other
Models
Probabilistic
Models
Regression
Models
Correlation
Models
Other
Models
5
Modele
probabiliste
Modele de
regresie
Modele de
corelatie
Alte
modele
Regresia metod de modelare a legturilor dintre variabile
n general, orice fenomen este rezultatul aciunii unuia
sau mai multor factori
Exprimarea matematic:

6
1
( ,..., )
n
Y f X X c = +
Variabila
dependent
(variabila
endogen)
Variabile
independente
(variabile
exogene/explicative)
Variabila
rezidual
Exemplu: Legea lui Keynes privind legtura dintre
venit i consum
Suma cheltuit pentru consum depinde de:
mrimea venitului pe de o parte
alte obiective n funcie de circumstane (de exemplu
investiiile)
alte nevoi subiective
O persoan este dispus de regul i n medie s i creasc
consumul pe msura creterii venitului dar nu n aceeai msur


Modelul de regresie: C=o+|V+c , unde 0<|<1 .


7
0 1
dC
dV
< <
Ipotezele modelului de regresie
(Ipotezele Gauss-Markov)
1. Normalitatea
Valorile Y snt normal distribuite pentru orice X
Erorile snt normal distribuite cu medie zero E(
i
)=0 i
2. Homoscedasticitatea (dispersie constant)
3. Necorelarea erorilor E(
i

k
)=0 (i<>k)
4. Liniaritatea
5. Variabilele snt msurate fr eroare
(caracter nestochastic)


X Y i i
| o + =
8
Forma funcional
Ipoteza de linearitate nu este att de restrictiv pe ct pare.
Aceasta se refer la felul n care parametrii intr n ecuaie, nu
neaprat la relaia ntre variabilele x i y.
n general modele pot fi linearizate.
y=a+bx
y=a+bz, z=e
x

y=a+br, r=1/x
y=a+bq, q=ln(x)
y= o x

ln(y)=o+|ln(x)
Forma general: f(yi)= o+|g(xi)+ci

Contra exemplu: nu poate fi transformat n
model liniar.
9
1
y
x
o
|
= +
+
Modele ce pot fi linearizate
-400
-200
0
200
400
600
800
1000
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X
Y
|
.
|

\
|
+
x
b a
1
x
be a +
bx a +
( ) x b a ln +
10
Ipoteza c media erorilor este zero: E(ci)=0 i, este
natural atta timp ct c este vzut ca suma efectelor
individuale, cu semne diferite. Dac media erorilor este diferit
de zero, ea poate fi considerat ca o parte sistematic a
regresiei:
media erorilor fiind acum nul.
Ipoteza de homoscedasticitate: Var(ci)=o
2

constant i
Se consider un model care descrie consumul unor gospodrii
n funcie de venitul acestora. n acest caz, consumul
gospodriilor mari pot varia mult mai mult fa de consumul
gospodriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectat.
11
E(c)= |0+ |1x + c = (|0 +) + |1x + (c-)
Exemplu de nclcare a ipotezei de
homoscedasticitate
Functia de consum
0
200
400
600
800
1000
1200
200 300 400 500 600 700 800 900 1000
venit
c
o
n
s
u
m
12
Necorelarea erorilor: E(cicj)=0 i=j
Aceast ipotez nu implic faptul c yi i yj sunt necorelate,
ci faptul c deviaiile observaiilor de la valorile lor ateptate
sunt necorelate.
Ipoteza de normalitate a erorilor c
i
~N(0,o
2
)
Este o ipotez de lucru, tehnic, ce permite obinerea unor
estimatori buni.
Dac ipotezele precedente snt respectate, vom
obine estimatori B.L.U.E. (Best Linear Unbiased
Estimators)


13
14
Ipotezele de normalitate i
homoscedasticitate
Y
f(e)
X
X
1
X
2
15
Variaia erorilor n jurul dreptei de
regresie
X
1
X
2
X
Y
f(e)
Valorile y snt normal distribuite
n jurul dreptei de regresie.
Pentru fiecare valoare x, dispersia
n jurul dreptei de regresie este
constant.
Dreapta de regresie
Clasificarea modelelor de regresie
16
Modele
de regresie
Linear
Non-
Linear
2+ Variabile
explicative
Simple Multiple
Linear
1 Variabil
explicativ
Non-
Linear
Tipuri de modele de regresie
17
Legtur liniar direct
Legtur liniar invers
Legtur neliniar
Absena vreunei legturi
Modelul de regresie liniar simpl
18
Modelul lui Keynes la nivelul economiei
SUA
19
0.0
1000.0
2000.0
3000.0
4000.0
5000.0
6000.0
Real Consumption Expenditures ($ Billions, 1992) Real Disposable Income ($ Billions 1992)
Regresia folosind EXCEL
20
Accesm meniul TOOLS>DATA ANALYSIS>REGRESSION
Corelograma(Scatter plot)
Graficul punctelor de coordonate (X
i
,Y
i
), i=1,n.
21
0.0
500.0
1000.0
1500.0
2000.0
2500.0
3000.0
3500.0
4000.0
4500.0
5000.0
0.0 1000.0 2000.0 3000.0 4000.0 5000.0 6000.0
Real Consumption Expenditures ($ Billions, 1992)
22
Modelul de regresie liniar simpl
i i i
X Y c | | + + =
1 0
intercept (termenul constant)
Panta dreptei de
regresie
Variabila
de
perturbaie
Variabila
dependent
(rspuns)
Variabila
independent
(explicativ)
Pe baza corelogramei este rezonabil s presupunem c media
variabilei Y depinde de X printr-o relaie liniar:


Atunci modelul de regresie liniar simpl este dat de relaia
urmtoare:
23


Dac presupunem c media i dispersia lui c snt 0 i o
2
,
atunci media lui Y pentru o valoare particular a lui X
este dat de relaia:
Dispersia lui Y pentru o valoare particular a lui X
este dat de relaia:
Media i dispersia variabilei dependente
24


La nivelul populaiei regresia se reduce la exprimarea
mediei condiionate a lui Y:
unde |
1
are semnificaia unui coeficient de
elasticitate: arat modificarea lui Y la o modificare cu
o unitate a lui x.
De asemenea, variabilitatea lui Y pentru o valoare
particular x este determinat de dispersia variabilei
reziduale, o
2
.
Exist o distribuie a valorilor lui Y pentru fiecare x
i dispersia acestei distribuii este constant pentru
orice x.

Distribuia condiionat a lui Y
25
Y
X
Dreapta de regresie
26
c
i
= Eroarea
Y
X
Modelul de regresie liniar la
nivelul populaiei
Valoarea
observat
Valoarea
observat
| |
YX
i
X = +
0 1
Y X
i i i
= + + | | c
0 1
(E(Y))
27
Modelul de regresie liniar la
nivelul eantionului
0

|
0 1

i i
Y X | | = +
Y
i

.
= Valoarea estimat a lui Y pentru observaia i
X
i

= Valoarea lui X pentru observaia i
= Estimatorul termenului liber |
0
= Estimatorul pantei |
1
1

|
Estimarea parametrilor modelului de regresie
Metoda celor mai mici ptrate(M.C.M.M.P.) Ordinary Least
Squares(O.L.S.)
Presupunem c avem n perechi de observaii (x
1
, y
1
), (x
2
, y
2
),
, (x
n
, y
n
).
Ideea este s minimizm distana dintre valorile estimate i
valorile reale

Ne reamintim c deci


( )
2
2
1 1

min

n n
i
i i
i i
L Y Y
c
= =
= = =

0 1

i i
Y x | | = +
28
29
Ilustrare grafic
c
2
Y
X
c
1
c
3
c
4
^
^
^
^
Y X
2 0 1 2 2
= + +


| | c

Y X
i i
= + | |
0 1
2 2 2 2 2
1 2 3 4
1

LS minimizeaz
n
i
i
c c c c c
=
= + + +

Condiiile de minim:





Simplificnd, obinem sistemul de ecuaii normale
30
Estimatorii modelului de regresie
x y
s
s
s
Y X
x
xy
x
1 0
2 2
1

) , cov(

| |
|
=
= =
31
Notaii
Valoarea estimat:
Valoarea rezidual(reziduul):

32
Dac notm suma ptratelor erorilor de regresie


atunci un estimator al varianei variabilei reziduale
este
33
Estimatorul dispersiei modelului
Proprietile estimatorilor modelului de regresie
34
0 1 0 1
0 0 1 1
2
2
0

i snt estimatori nedeplasai ai parametrilor i

( ) i ( )
-Dispersiile celor doi estimatori snt date de relaiile
1

V( )
E E
x
n S
| | | |
| | | |
| o

= =
= +
2
1
2 2
1
0 1

V( )
unde ( ) i este dispersia variabilei reziduale

-Estimatorii i urmeaz o distribuie normal
xx
xx
n
xx i
i
S
S x x
o
|
o
| |
=
| |
|
\ .
=
=

Nedeplasarea estimatorilor OLS


Presupunem c modelul de regresie la nivelul
populaiei este liniar y = |
0
+ |
1
x +
Fie {(x
i
, y
i
): i=1, 2, , n un eantion de n
observaii. Atunci putem formula modelul de
regresie la nivelul eantionului y
i
= |
0
+ |
1
x
i
+
i

Presupunem E(|x) = 0 i atunci E(
i
|x
i
) = 0
Presupunem c exist variaie n x
i
35
Pentru a discuta despre deplasarea estimatorilor, acetia
trebuie exprimai n funcie de parametrii din populaie
( )
( )

=
2
1
,

x x S unde
S
y x x
i xx
xx
i i
|
36
( ) ( )( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( )
( )
.

0
.
1 1
1
2
1 0
1 0
1 0
xx
i i
i i xx
i i i i
i i i i i
i i i i i
i i i i i
S
x x
atunci si x x S numarator la avem deci
x x x x x si x x Dar
x x x x x x x
x x x x x x x
x x x y x x
c
| |
c |
c | |
c | |
c | |

+ =
+
= =
+ + =
= + + =
= + + =
Nedeplasarea lui
( )
( ) ( )
1 1 1
1 1
1
1
| c | |
c | |
=
|
.
|

\
|
+ =
|
.
|

\
|
+ =
=

i i
xx
i i
xx
i i
E d
S
E
atunci , d
S
nct astfel , x x d Fie
37
1

|
Nedeplasarea estimatorilor
Estimatorii OLS pentru |
1
i |
0
snt nedeplasai
Demonstraia caracterului de estimator nedeplasat
depinde de 4 ipoteze dac oricare din aceste
ipoteze nu este ndeplinit, atunci nedeplasarea nu
este neaprat adevrat

38
Dispersia estimatorilor OLS
Presupunem Var(|x) = o
2
(Homoskedasticity)
Var(|x) = E(
2
|x)-[E(|x)]
2

E(|x) = 0, deci o
2
= E(
2
|x) = E(
2
) = Var()
Astfel o
2
este dispersia necondiionat, numit
dispersia erorilor
o este abaterea standard a erorilor
Rezult: E(y|x)=|
0
+ |
1
x i Var(y|x) = o
2


39
40
.
.
x
1
x
2

Cazul homoskedastic
E(y|x) = |
0
+ |
1
x
y
f(y|x)
41
.
x

x
1
x
2
f(y|x)
Cazul heteroskedastic
x
3
.
.
E(y|x) = |
0
+ |
1
x
Dispersia estimatorilor OLS
( )
( ) ( )
( )
1
2
2
2
2
2
2 2 2
2
2
2 2
1 1
1
1 1
1 1
1
|
o
o
o o
c c
| |
Var
S
S
S
d
S
d
S
Var d
S
d Var
S
u d
S
Var Var
xx
xx
xx
i
xx
i
xx
i i
xx
i i
xx
i i
xx
= =
|
.
|

\
|
=
=
|
.
|

\
|
=
|
.
|

\
|
=
=
|
.
|

\
|
=
|
.
|

\
|
=
=
|
|
.
|

\
|
|
.
|

\
|
+ =

42
Dispersia estimatorilor OLS
Dispersia pantei modelului de regresie este direct
proporional cu dispersia erorilor
Cu ct dispersia lui x
i
este mai mare, cu att
dispersia pantei este mai mic
Cu ct volumul eantionului este mai mare, cu att
dispersia pantei este mai mic

43
Estimarea dispersiei erorilor
Nu cunoatem dispersia erorilor, o
2
, ntruct nu
observm de fapt erorile
i


Valorile observate snt reziduurile modelului de
regresie, e
i

Putem folosi reziduurile pentru a estima dispersia
erorilor
44
Estimarea dispersiei erorilor
( )
( ) ( )
( )
( ) 2 /
2
1




2 2
2
1 1 0 0
1 0 1 0
1 0
=

=
=
= + + =
= =

n SSR e
n
este pentru nedeplasat estimator un Atunci
x x
x y e
i
i
i i i
i i i
o
o
| | | | c
| | c | |
| |
45
46
Y
Population Line
X
Sample 1 Line
Sample 2 Line
Distribuia estimatorului pantei de regresie
|
1
All Possible
Sample Slopes
Sample 1: 2.5
Sample 2: 1.6
Sample 3: 1.8
Sample 4: 2.1
: :
Very large number
of sample slopes
Sampling Distribution
|
1
|
1
S
^
^
Eroarea standard a estimatorilor
47
2
2 2
1
2
2
1
1
ntruct variana rezidual se estimeaz prin putem avea o estimare
2
a erorii standard a celor doi estimatori:

( )

- ( )
df 2

n
i
i
xx
xx
e
n
S V
SE
n S
o o
o
| o
|
=
=

= = =

2
2
2
2
0
0
1

( ) 1

- ( )
df 2
xx
xx
x
n S
V x
SE
n n S
o
|
| o
| |
+
|
| |
\ .
= = = +
|

\ .
Erorile standard vor fi folosite la testarea semnificaiei parametrilor
modelului de regresie
Testul t pentru panta dreptei de regresie(slope)






Valoarea critic:

Caz particular:



0 1
1
: 0(nu exist legtur liniar)
: 0( exist legtur liniar)
A
H
H
|
|
=

48
0
0 1 1
0
1 1
:
:
A
H
H
| |
| |

0 0 0 0
1 1 1 1 1 1 1 1
2
2 2 2 1
1 1 1
2
1

( )

/( 2) / ( ) / 2
( )
n n n
i i i
i i i
xx
n
i
i
t
SE
e n e x x n
S
x x
| | | | | | | |
|
o
= = =
=

= = = =

/ 2; 2 n
t
o
Exemple de acceptare a ipotezei
0 1
: 0(nu exist legtur liniar) H | =
49
Exemple de respingere a ipotezei
0 1
: 0(nu exist legtur liniar) H | =
50
Testul t pentru termenul liber(intercept)

51
0
0 0 0
0
0 0
:
:
A
H
H
| |
| |
=

0 0
0 0 0 0
2
0
2
0 0
0 0 0 0
2
2
2
2
1
2
1
1

( )
1


1
/( 2)
1
/ 2
( )
xx
n
n i
i
xx
i n
i
i
i
t
SE
x
n S
x
e n
x
n S
e n
n
x x
| | | |
|
o
| | | |
=
=
=

= = =
| |
+
|
\ .

= =
| | | |
+
| |
\ .
|
+
|

|
\ .

/ 2; 2 n
t
o
Valoarea critic:
Intervale de ncredere pentru parametrii modelului
Pentru termenul liber(intercept)



Pentru panta dreptei de regresie(slope)





unde este estimatorul dispersiei modelului.

1 / 2, 2 1 1 1 / 2, 2 1
2 2
2 2
1 / 2, 2 1 1 / 2, 2

( ) ( )


n n
n n
xx xx
t SE t SE
x x
t t
S S
o o
o o
| | | | |
| o | | o


s s +
| | | |
s s +
| |
\ . \ .
52
0 / 2, 2 0 0 0 / 2, 2 0
2 2
2 2
0 / 2, 2 0 0 / 2, 2

( ) ( )
1 1


n n
n n
xx xx
t SE t SE
x x
t t
n S n S
o o
o o
| | | | |
| o | | o


s s +
| | | |
+ s s + +
| |
\ . \ .
2
2 1

2
n
i
i
e
n
o
=
=

Teorema Gauss-Markov
Estimatorii obinui prin metoda celor mai mici ptrate snt
B.L.U.E. i.e. orice alt estimator liniar are o dispersie mai
mic dect cei obinui prin MCMMP.


53
1 1 1 1
1
2 2 2
1
1 1 1
Conform OLS, estimatorul pantei este o combinaie liniar de valorile variabilei dependente:
( )( ) ( ) ( ) ( )

( ) ( ) ( )
n n n n
i i i i i i i n
i i i i
i i n n n
i
i i i
i i i
y y x x y x x y x x y x x
y
x x x x x x
| o
= = = =
=
= = =

= = = =


'
0 1
1 1 1 1
'
1
1 1
' ' 2 2
1
1 1
Fie un alt estimator liniar.
Pentru ca E( ) , e necesar ca 0 i 1.
Rezult , deci variana sa este V( ) .
Fie
n n n n
i i i i i i i
i i i i
n n
i i i
i i
n n
i i i
i i
q y q q x q
q q x
q q
v
| | | c
| |
| c | | o
= = = =
= =
= =
= = + +
= = =
= + =



' 2 2
1
2 2 2 2 2 2 2 2
1
1 1 1
, atunci i avem V( ) ( )

( 2 ) ( ) ( ).***
n
i i i i i i i i
i
n n n
i i i i i i i
i i i
q q v v
v v v V QED
o o | o o
o o o o o o o |
=
= = =
= = + = + =
= + + = + > =


Exemplu-consumul ca funcie de venit
54
Panta dreptei de regresie este pozitiv, deci exist o legtur
direct ntre consum i venit.
n plus, dac venitul crete cu o unitate,consumul va crete cu
0.91 uniti.
Doar panta dreptei de regresie este semnifcativ diferit de
zero.
P-value probabilitatea ipotezei ca parametrul estimat s fie
egal cu zero; dac P-value este mai mic dect pragul de
semnificaie atunci respingem aceast ipotez.

Coefficients
Standard
Error t Stat
P-
value
Lower
95%
Upper
95%
Intercept -23.5441 13.94967 -1.68779 0.0963 -51.4117 4.323573
Real
Disposable
Income ($
Billions 1992) 0.915665 0.00542 168.9331 0.0000 0.904837 0.926493

Analiza varianei pentru modelul de regresie
Dac ntre X i Y nu exist nici o legtur, atunci putem
face predicii privind valoarea medie a lui Y pentru orice
valoare a lui X
Dac exist o legtur ntre X i Y, n ce msur
cunoaterea valorilor lui X poate explica abaterea variabilei
dependente de la media sa?
Abaterea totala = abaterea explicata + Abaterea reziduala

) Y - (Y ) Y - Y ( ) Y - (Y
i i i i

+ =
55
56
Descompunerea variaiei
X
i
Y
X
Y
SST = (Y
i
- Y)
2
SSE =(Y
i
- Y
i
)
2

.
SSR = (Y
i
- Y)
2

.
_
_
_
X
ANOVA pentru regresie
2
i i
2
i
2
i
) Y (Y ) Y Y ( ) Y (Y

+ =

57
SST = SSR + SSE
SST = Total Sum of Squares
Msoar variaia valorilor observate Y
i
n jurul mediei Y
_
SSR = Regression Sum of Squares
Msoar variaia explicat de modelul de regresie
SSE = Error Sum of Squares
Msoar variaia ce poate fi atribuit altor factori, diferii
de variabila explicativ X
Coeficientul de determinaie R
2

Este o msur a proporiei varianei explicate de
model


R
2
este afectat de creterea numrului de parametri;
de aceea pentru modele cu multi parametri se
calculeaz R
2
ajustat, care are aceeai interpretare.




58
| |
2 2
2
1 1
2 2

( )
1 0,1
( ) ( )
n n
i i
i i
i i
i i
y y e
SSR
R
SST
y y y y
= =

= = = e



2 2
1 1
1 (1 ) 1 ,1
1 1
adj
n n
R R
n k n k

(
= e
(


Exemplu-consumul ca funcie de venit
2
1

2
n
i
i
e
n
o
=
=

59
Modelul explic 99.7% din variaia consumului

Standard Error :
Regression Statistics
Multiple R 0.998881
R Square 0.997762
Adjusted R
Square 0.997727
Standard Error 59.29206
Observations 66

Observaii
R
2
este adesea folosit pentru a alege cel mai bun
model din punctul de vedere al varianei explicate.

Comparaiile de acest fel trebuie fcute ntre modele
de aceeai natur.

60
Foarte important!!
Pentru modele de regresie fr termen liber, de tipul
R
2
nu mai are semnificaia de proporie a varianei explicate.
Exemplu: considerm dou astfel de modele








Dei ar prea c modelul al doilea este mai performant, nu
snt argumente pentru a susine aceast ipotez

61
y x | c = +
1 1 1 1
2 1 2 1
2 2 2 2
, unde i
i i i i
y x
y y x x
y x
| c
o o
| c
= +

= + = +

= +

62
Coeficientul de determinaie i
coeficientul de corelaie liniar
R
2
= 1,
R
2
= 1,
R
2
= .8,
R
2
= 0,
Y
Y
i
= b
0
+ b
1
X
i
X
^
Y
Y
i
= b
0
+ b
1
X
i
X
^
Y
Y
i
= b
0
+ b
1
X
i
X
^
Y
Y
i
= b
0
+ b
1
X
i
X
^
r = +1
r = -1
r = +0.9
r = 0
Tabelul ANOVA
Source of
Variation
Sum of Squares df Mean
Square
F

Regression
2
1
( )
n
i
i
SSR y y
=
=



k-1
MSR=
1
SSR
k

MSR
MSE


Error
2 2
1 1
( )
n n
i i i
i i
SSE y y e
= =
= =



n-k
MSE=
SSE
n k



Total

=
i
i
y y SST
2
) (

n-1
1 n
SST



63
Testul

este folosit la verificarea validitii modelului. Un model este valid
dac proporia varianei explicate prin model este semnificativ.
Ipoteza nul pentru testul F in cazul acesta este cea de model
nevalid.

1,
1
~
k n k
SSR
k
F F
SSE
n k

k-numrul de parametrii ai
modelului
ANOVA

Regression Statistics
Multiple R 0.998880586
R Square 0.997762426
Adjusted R Square 0.997727464
Standard Error 59.29206039
Observations 66
ANOVA
df SS MS F Significance F
Regression 1 100328138.6 100328138.6 28538.40325 0.000
Residual 64 224995.0992 3515.548425
Total 65 100553133.7
64
Predicia folosind modelul de regresie
1. Tipuri de predicii
Estimri punctuale
Estimri pe intervale de ncredere

2. Care e obiectul prediciei?
Media populaiei E(Y) pentru o valoare particular a lui X
Valoarea individual (Y
i
) pentru o valoare particular a lui
X
65
Ce prezicem
Mean Y, E(Y)
Y
Y
i
=

|
0

+

|
1
X
^
Y
Individual
Prediction, Y
E(Y) = |
0
+ |
1
X
^
X
X
P
^
^
66
Interval de ncredere pentru media lui Y
( )
( )

/ 2, 2 / 2, 2
2
2
2
1

2
1

( )
unde
1

i
2
n n
Y Y
n
i
p
i
n
Y
i
i
Y t S E Y Y t S
e
x x
S
n n
x x
o o
o o

=
=
s s +

= + =

67
Factori care afecteaz lungimea intervalului de ncredere
1. Nivelul de ncredere (1 - o)
Creterea nivelului de ncredere duce la creterea intervalului de
ncredere
2. Dispersia datelor ()
Creterea dispersiei duce la creterea intervalului de ncredere
3. Volumul eantionului
Creterea volumului eantionului duce la micorarea intervalului
de ncredere
4. Distana lui X
p
fa de mediaX
Creterea acestei distante duce la creterea intervalului de
ncredere
68

Distana lui X
p
fa de mediaX

S
a
m
p
le
2
L
in
e
Y
X
X
1
X
2
Y
_
S
a
m
p
l
e

1

L
i
n
e
69
Dispersie
mai mare
dect la X
1
X
Interval de predicie pentru valori particulare
( ) ( )
( )
( )
( )
/ 2, 2 / 2, 2
2
2
2
1

2
1

unde
1

1 i
2
n P n
Y Y Y Y
n
i
P
i
n
Y Y
i
i
Y t S Y Y t S
e
x x
S
n n
x x
o o
o o


=

=
s s +

= + + =

70
71
Predicia
Expected
(Mean) Y
Y
Y
i
=

|
0

+

|
1
X
i
^
Y we're trying to
predict
Prediction, Y
E(Y) = |
0
+ |
1
X
^
X
X
P
^
^
Intervale de ncredere pentru predicie
X
Y
X
Y
i
=

|
0

+

|
1
X
i
^
X
P
_
^
^
72

S-ar putea să vă placă și