Sunteți pe pagina 1din 21

Curs 6

MODELUL DE REGRESIE LINIAR UNIFACTORIAL (III)

Etapele modelrii econometrice


4.

Evaluarea validitii modelului


- se verific dac variaia lui X este un bun predictor pentru variaia lui Y
- presupune:
I.

Inferenta statistica pentru parametrii modelului de regresie

II.

Testarea validitii modelului de regresie folosind metoda ANOVA

III.

Determinarea masurii calitatii ajustarii

IV.

Verificarea ipotezelor modelului de regresie

II. Testarea validitii modelului de regresie folosind metoda ANOVA


- variabilei dependente Y i se asociaz dou medii:
media total (

media condiionat (
- variaia total (

y i a bxi ).

y i y ) poate fi mprit n:

abaterea neexplicat de model (


abaterea explicat (

yi y

y i y ( y i y i ) ( y i y )

yi yi )

)
2

II. Testarea validitii modelului de regresie


folosind metoda analizei de varian(ANOVA)(1/6)
- abaterea ( y

yi ) nu poate fi explicat de linia de regresie, deoarece


atunci cnd x se modific, ambele valori y i y se modific;
i
i
i
i

- abaterea (y y ) poate fi explicat, deoarece cnd


i
rmne constant

xi

se schimb, y

II. Testarea validitii modelului de regresie


folosind metoda analizei de varian(ANOVA)(2/6)

Variaia total:
n

( y

Variaia explicat de
X: n
( yi y )2 2y / x
i 1

i 1

y )2 2y

Variaia neexplicat de
X: n
2
2

( y
i 1

yi ) e

II. Testarea validitii modelului de regresie


folosind metoda analizei de varian(ANOVA)(3/6)

II. Testarea validitii modelului de regresie


folosind metoda analizei de varian(ANOVA)(4/6)

II. Testarea validitii modelului de regresie


folosind metoda analizei de varian(ANOVA)(5/6)

unde k este numrul variabilelor independente (k=1).

II. Testarea validitii modelului de regresie


folosind metoda analizei de varian(ANOVA)(6/6)
Pentru testarea validitii modelului se formuleaz cele dou ipoteze:
H0:
H1:

s y2 / x s e2
s y2 / x s e2

model nevalid (nesemnificativ) statistic


model valid (semnificativ) statistic

Statistica utilizat pentru a decide care dintre ipoteze se accept este:


2
y/x
calc
2
e

Se compar valoarea calculat a testului F cu valoarea teoretic pentru un prag de


semnificaie , k, respectiv (n-k-1) grade de libertate, preluat din tabelul repatiiei
Fisher: F ;k ;n k 1 .

Dac Fcalc<

Dac Fcalc>F ;k ;n k 1 se respinge H0, adic se concluzioneaz c modelul este valid.

F ;k ;nk 1

se accepta H0, modelul nu e semnificativ statistic(valid);

III. Determinarea msurii calitii ajustrii(1/6)

Pentru a msura calitatea ajustrii n cazul regresiei liniare


unifactoriale se calculeaz:

1.Raportul de corelaie

2.Coeficientul de determinaie

3.Coeficientul de determinaie ajustat

4.Abaterea medie ptratic (eroarea standard) a


reziduurilor (msur absolut a calitii ajustrii pe baza
regresiei n eantion)

III. Determinarea msurii calitii ajustrii(2/6)


1. Determinarea i testarea semnificaiei raportului de corelaie
Raportul de corelaie este un indicator relativ utilizat pentru:
- msurarea intensitii legturii dintre variabile
- validarea modelelor de regresie.
Raportul de corelaie se calculeaz ca:

y
n

i 1
n

y
i 1

y
y

y
i 1
n

y
i 1

2y / x
2y

2e
1 2
y

Raportul de corelaie msoar intensitatea legturii i se determin cu


relaia: R R 2
Daca R1 legatura dintre X i Y este puternic
Daca R 0 legatura dintre X i Y este slab
n cazul legturilor liniare: R rxy

10

III. Determinarea msurii calitii ajustrii(3/6)

11

II. Determinarea msurii calitii ajustrii(4/6)

Coeficientul de determinaie:

ia valori n intervalul [0,1] i poate fi interpretat ca procentul variaiei


lui y explicat de variaia variabilei x

R = 0 dac b=0, y y deci dac ecuaia de regresie este o dreapt


orizontal. n acest caz variabila X nu are putere explicativ (X nu
influenteaza variatia lui Y).

R2 = 1 dac punctele determinate de observaiile fcute asupra


variabilelor x i y se afl toate pe o dreapt, caz n care erorile vor fi
zero.
n cazul n care toate valorile lui y se afl pe o dreapt vertical, R2 nu
are nici o semnificaie i nu poate fi calculat.
Coeficientul de determinaie nu este ajustat cu gradele de libertate.

III. Determinarea msurii calitii ajustrii(5/6)


3. Coeficientul de determinaie ajustat se ajusteaz coeficientul de determinaie cu
.
gradele de libertate

2e / n k 1
R 1
2y / n 1
2

Valoarea lui
este ntotdeauna mai mic dect coeficientul de determinaie R2.
2
Raportul de corelaie
se determin pentru legturi de tip liniar sau neliniare
R
Egalitatea r = R este un test de liniaritate pentru model
n analiza corelaiei simple liniare se observ c:

y
n

r = R , deoarece, cum
2

y
n

R
2

i 1
n

y
i 1

y
y

i 1

b
2

i 1
n

y
i 1

( x
i 1

( x

x )2
y

x )2

s x2
b 2 r2
sy
2

III. Determinarea msurii calitii ajustrii(6/6)


4. Abaterea medie ptratic a erorilor n eantion este:
n

se se2

Se
Se

n k 1
n2

y
i 1

y i

n2

unde se este un estimator nedeplasat al dispersiei reziduurilor , se este


util n compararea modelelor. Dac avem la dispoziie cteva modele dintre
care trebuie s alegem, cel mai potrivit a fi utilizat este cel pentru care se
2

este mai sczut.


Acest indicator se este important n determinarea intervalului de ncredere
pentru coeficientul de regresie i pentru intercepia .

Testarea validitii modelului de regresie (ANOVA)exemplu(1/7)


Pentru 15 ageni de asigurri, angajai ai unei companii de asigurri de via, se
cunosc datele privind timpul mediu (n minute) petrecut de un agent cu un
potenial client i numrul de polie ncheiate de fiecare ntr-o sptmn.

Timp mediu
(min.)

25

23

30

25

20

33

18

21

22

30

26

26

27

29

20

Nr. polie

10

11

14

12

18

10

10

15

11

15

12

14

11

A. s se testeze validitatea modelului de regresie pentru un nivel de


semnificaie = 5%;
B. S se testeze semnificaia raportului de corelaie pentru un nivel de
semnificaie = 5%;

Testarea validitii modelului de regresie (ANOVA)exemplu(2/7)


SUMMARY OUTPUT
Regression Statistics
Multiple R

0.883621

R Square
Adjusted R
Square
Standard Error
Observations
ANOVA

0.780786

Regression
Residual
Total

Intercept
Timpul mediu

0.763923
1.311483
15.000000
df
1.000000
13.000000
14.000000

SS
79.640152
22.359848
102.000000

MS
F
79.640152 46.302727
1.719988

Significance F
0.000013

Coefficients

Standard Error

t Stat

P-value

Lower 95%

-1.731061
0.549242

2.046120
0.080716

-0.846021
6.804611

0.412843
0.000013

-6.151434
0.374866

Upper
95%
2.689313
0.723619

Testarea validitii modelului de regresie (ANOVA)exemplu(3/7)


Table 1.SUMMARY OUTPUT
Regression Statistics

Multiple R
Raportuldecorelatie(R)

R Square
Coeficientul(gradul)dedeterminaie
Adjusted R Square
Valoareaajustatacoeficientuluide
determinaie
Standard Error
Abatereamedieptraticaerorilorn
eantion
Observations
Numrulobservaiilor(n)

0.883621

0.780786

R2

2y / x
2y

2y / x
2y

2e
1 2
y

2e
1 2
y

0.763923

2e / n k 1
R 1 2
y / n 1

1.311483

2e
n k 1

15

se

Testarea validitii modelului de regresie (ANOVA)exemplu(4/7)

Interpretare rezultate din tabelul SUMMARY OUTPUT:

R= 0,883621 arat c ntre numrul de polie ncheiate i timpul mediu


petrecut cu un potenial client exist o legtur puternic.

R2 =0,780786 arat c 78% din variaia numrului de polie ncheiate


este explicat de timpul mediu petrecut de un agent cu un potenial
client.

Abaterea medie ptratic a erorilor se = 1,311483. n cazul n care


acest indicator este zero nseamn c toate punctele sunt pe dreapta de
regresie.

Testarea validitii modelului de regresie (ANOVA)exemplu(5/7)

Sursa variaiei

2
y/ x

Regression (variaia

i 1

y i y

k=1

MS
=SS / df
(media ptratelor
=dispersiacorectat)

2
y/ x

SSR=79,64

datoratregresiei)

Residual
(variaiarezidual)

i 1

n-k-1=13

SSE=22,36
n

yi y
2
y

i 1

2e
s
n k 1
2
e

SST=102
SST=SSR+SSE

Testul

s y2 / x

0,000013<0,05

se2

(resping H0
model valid)

F = 46,302727

n-1=14

Significance F

1,719988

F
(testul F)

2y / x

79,640152

yi y i
2
e

Total (variaia
total)

df
(degree of
freedom)
(grade de
libertate)

SS
(Sum of Squares)
(suma ptratelor=
variana)

Testarea validitii modelului de regresie (ANOVA)exemplu(6/7)

2
s y2 / x s(influena
e

H0:
lui X nu este diferit de cea a factorilor aleatori, deci
modelul2 nu este
2 valid)
H1: s y / x se (influenele lui X i ale factorilor aleatori difer semnificativ,
deci modelul este valid)

Statistica testului: F

Valoarea critic:

Deoarece

s y2 / x
se2

79,64
46,30
1,7199

Ftabelar F ; k ; nk 1 F ;1;n 2 F0, 05;1;13 4,67

Fc F ; k ; n k 1

Fcalc (46,30) F0,05; 1; 13 4,67 atunci Ho se respinge, se acc.H1

(modelul este valid).


Significance F (probabilitate critic) este 0,000013 < 0,05
(pragul de semnificaie) atunci modelul de regresie construit este valid i poate
fi utilizat pentru analiza dependenei dintre cele dou variabile.

Testarea raportului de corelaie-exemplu(7/7)

H 0 : R 0(raportul de corelaie al eantionului care-l estimeaz pe cel de la nivelul colectivitii,

nu difer semnificativ de zero, deci nu este semnificativ statistic, prin urmare modelul nu este
valid);

(raportul de corelaie al eantionului care-l estimeaz pe cel de la nivelul colectivitii,


H
:
R

0
1 semnificativ
difer
de zero, deci este semnificativ statistic);
Statistica testului:

Valoarea critic:
Decizia:deoarece

R 2 n k 1 0,78 13
Fc

46,09
1 R2
k
1 0,78 1

Fcritic F ; k ; n k 1 F ;k ;n 2 F0,05;1;13 4,67

Fc F ; k ; nk 1

Se resp.H0 si se acc.H1,Fceea
ce nseamn c raportul de corelaie al eantionului care-l estimeaz
calc ( 46,09) F0 , 05; 1; 13 4,67
pe cel de la nivelul colectivitii, difer semnificativ de zero, deci este semnificativ statistic.