Curs

Econometrie, prof.
Aniela Danciu
pag. 1/8
15-Oct.-2011
Regresia liniara unifactoriala

Liniara, adica legatura intre x si y, y depinde de un singur factor, x.
Aplicatie:
Se cunosc datele referitoare la distanta parcursa de un autovehicul din momentul franarii si pana la
oprire si respectiv viteza autovehiculului in momentul franarii.
xi
yi
x i2
x iyi
Viteza, km/h distanta, m

40
8
1,600
50
12
2,500
60
18
3,600
70
24
4,900
80
32
6,400
90
40
8,100
100
48
10,000
110
58
12,100
120
72
14,400
= 720
= 312 = 63600 =
320
600
1,080
1,680
2,560
3,600
4,800
6,380
8,640
29660 =
3.35
11.18
19.01
26.84
34.67
42.50
50.33
58.16
65.99
312.03
SSR
(i y)2
SSE
(yi i)2
980.73
551.62
245.13
61.26
0.00
61.36
245.34
551.94
981.15
3,678.53 =
(x i x)2
21.62
0.67
1.02
8.07
7.13
6.25
5.43
0.03
36.12
86.33
1600
900
400
100
0
100
400
900
1600
= 6000
Se cere:
a) sa se aprecieze forma si directia legaturii dintre cele doua variabile cu ajutorul metodei grafice;
b) sa se estimeze parametrii functiei de regresie;
c) sa se testeze validitatea modelului de regresie;
d) sa se testeze semnificatia parametrilor modelului pentru un prag de semnificatie = 5%;

e) sa se aprecieze intensitatea legaturii dintre cele 2 variabile cu ajutorul unor indecsi adecvati si sa se
testeze semnificatia acestora, = 5%;
f) sa se efectueze o previzionare punctuala si pe interval de incredere a distantei parcursa de un

autovehicul ce rula in momentul franarii cu 130 km/h.
xi = variabila cauza
yi = variabila efect
i = 1, 9 = volumul esantionului
Notam xi variabila cauza exogena sau independenta si yi variabila efect (sau rezultativa) endogena,
dependenta.
Graficul utilizat pentru aprecierea legaturii e corelograma sau diagrama norului de puncte (scatter
plot).
Econometrie, prof. Aniela Danciu
pag. 2/8
15-Oct.-2011
80
70
60
50
40
distanta, m
30
1 cm OX = 20km/h
1 cm OY = 10 m
20
10
30
40
50
60
70
80
90
100
110
120
130
N-am respectat scara pe acest interval
Unim primul cu ultimul punct. De pe grafic se observa ca intre cele 2 variabile exista o legatura
directa. Ecuatia este:
=abx
{ yy=abx
= valori ajustate (teoretice), rezulta din model;
= eroarea
functii (ecuatii) de regresie liniara unifactoriala.

b.)
estimarea parametrului a si b ai functiei de regresie se face cu ajutorul celor mai mici patrate
(MCMMP):
Suma patratelor abaterilor valorilor reale yi de la valorile ajustate i este minima sau suma
patratelor erorilor este minima.
n
y i y i =minim= yi abx i =minim

i=1
i=1
adica cand derivatele in raport cu a si b se anuleaza (conf. teoriei lui Fermat)

==>
nab x i = yi
i=1
df
=0
da
<==
df
=0
db
i=1
a xi b x = xiy i
2
i
i=1
<==
i=1
i=1
{9a720b=312
720a 63600b=29660
==>
{a=27,97
b=0,783
xi=720
y i=312
x2i =63600
x2iyi2=29660
==> = -27,97 + 0,783x
a s.n. termen liber, b s.n. coeficient de regresie si ne arata directia legaturii dintre y si x.
daca b > 0 avem o legatura directa intre y si x (creste x, creste y)
daca b < 0 avem o legatura indirecta intre x si x (creste x, scade y)
daca b = 0 nu exista legatura intre y si x (creste x, y = contant)
pag. 3/8
15-Oct.-2011
b = 0,783 > 0; la o crestere cu 1 km/h a vitezei (o crestere cu o unitate de masura a lui x) distanta
parcursa va creste cu 0,783 m (y va creste cu b unitati de masura).
c.)
Testarea validitatii modelului de regresie

La nivelul esantionului modelul de regresie are forma:
y = 27,97 + 0,783x +
a
b
La nivelul colectivitatii generale din care a fost extras esantionul modelul de regresie are forma:
y = + x + u
Testarea validitatii modelului se face cu testul F (Fischer Snedecor), respectiv cu ajutorul tabelului
ANOVA (analiza de variatie)
Testarea validitatii
1. Se stabilesc ipotezele nula (H0) si alternativa (H1)

H0 = modelul nu este valid (nu exista deosebiri esentiale intre imprastierea valorilor lui y datorate
factorului x si imprastierea valorilor lui y datorate erorii)
H1 = modelul este valid (imprastierea valorilor lui y datorate factorului x difera semnificativ de
imprastierea valorilor lui y datorate erorii)
2. Se stabileste testul statistic ce va fi utilizat si se calculeaza valorile testului pe baza datelor din
esantion.
F=
s2x
2
su
Unde s2x = dispersia valorilor lui y datorate factorului x

n
s x=
y iy2
SSR i=1
=
k
1
k numarul factorilor de influenta din model (numarul de

variabile cauza); k =1 depinde de un singur factor.
SSR = sum of squares of regression (suma patratelor datorate
factorului = varianta factoriala)
su =
yi y i 2
SSE
= i= 1
= dispersia erorilor
nk 1
911
y i yi 2=SSR=3678,53
==> s2x = 3678,53
k = numarul variabilelor cauza

SSE = sum of squares of errors suma
patratelor erorilor variana reziduala
yi y i 2=SSE=86,33
s2u = 86,33 / 7 = 12,33
==> F = 3678,53 / 12,33 = 298,33
3. se stabileste regiunea critica si se formuleaza concluzii (daca se respinge sau se accepta ipoteza
alternativa)
Regiunea critica, Rc, reprezinta acele valori ale testului statistic pentru care ipoteza nula se respinge.
Rc e astfel aleasa (construita) incat probabilitatea ca valoarea testului sa se gaseasca in regiunea
critica, desi ipoteza nula e falsa, sa fie foarte mica, adica sa fie egala cu un numit prag de
semnificatie foarte mic (de ex. = 0,01; 0,05)
= P (resping H0 / desi H0 e adevarata);
P probabilitatea
(1 )100 reprezinta probabilitatea cu care garantam rezultatele.

Daca: Rc : Fcalc Fjkj n k 1 ==> respingem H0 si acceptam H1
df2 = ajkj;
Fcalc = 298,33;
df1 = n k 1;
Fjkj n k 1 = F tabelat sau F critic
F = 0,05 = valoarea erorii;
k = 1 (un singur factor);
nk1=7
pag. 4/8
Rc: 298,3 F0,05;1;7 F0,05;1;7 = 5,58 (se ia din

tabel) ==>
nk1
1
7
5,58
15-Oct.-2011
se respinge ipoteza H0 si se accepta H1 conform

careia modelul este valid.
3
4
5
6
7
Tabelul ANOVA (furnizat de excel pentru testarea validitatii modelului, 6 coloane si 3 randuri)
Sursa variatiei SS (sum of squares)
df
MS (mean of
squares)
Regression
SSR = 3678,53
K=1
(variatia datorata
factorului x)
nk1=7
datorata erorii)
totala)
s2x
Se compara cu
pragul de
s
semnificatie dat
in problema.
2
s u = 12,33
sig F model
Se compara cu F valid
s2u = SST / n-1 =
sig F > model
tabelat
invalid
471,1
2
u
Reziduals (variatia SSE = 86,33

Total (variatia
s2x = 3678,53
SST = SSR +
SSE = 3764,86
n1=8
(suma celor doua)
(varianta totala)
df numitoare de dispersii
Significance F
(prag de semnificatie)
=298,33
MS media patratelor sau dispersii corectate
MS = SS / df
La examen tabelul va fi completat si vor trebui interpretate rezultatele.
d.) Testarea semnificatiei parametrilor modelului
La nivelul esantionului modelul de regresie are forma:
yi = - 29,97 + 0,783 xi + i
(a = -29,97; b = 0,783)
La nivelul colectiei generale modelul de regresie are forma:

yi = + xi + ui
Testarea semnificatiei parametrului
1. H0: = 0 ( nu e semnificativ statistic)
H1: 0 ( e semnificativ statistic) = test bilateral (pentru ca e diferit de zero si nu mai mare sau
mai mic)
2. se alege testul statistic
daca n 30 se aleg testul Z aferent repartitiei normale sau functiei Gauss Laplace
daca n < 30 atunci se utilizeaza testul t aferent repartitiei Student
t=
Z=
b0
sp
b0
sb
cum n = 9 ==> n < 30 ==> avem esantion de volum redus si pentru testare utilizam testul t
t=
pag. 5/8
b0 b 0,783
= =
=17,79
sb
sb 0,002
s 2u
2
b
s=
xi x
15-Oct.-2011
12,33
=
=0,002
6000
2
i=1
xi
720
i=1
=
=80 km/ h
x =
9
9
Se stabileste regiunea critica si se formuleaza concluziile

Regiunea critica Rc: tcalc < t/2; n-k-1 (ramura cu ); pentru ca e test bilateral se imparte la 2
sau
tcalc > t/2; n-k-1 (ramura cu +)
n-k1
1
2
3
4
5
6
7
t/2; n-k-1 = t tabelat sau t critic = 2,998; tcalc = 17,79
(A)
0,05/2 7
0,025
==> testul este adevarat, ne gasim in regiunea critica ==> se respinge H 0 si se

|
accepta H1 ==> parametrul e semnificativ statistic (pt = 5%).
|
|
Deoarece parametrul e semnificativ statistic putem determina intervalul de
|
incredere pentru acesta.
|
lower (in excel)
upper pt 5%
|
|
b t/2; n-k-1 sb b + t/2; n-k-1 sb
|
0,783 2,998
0,044
|
0,11
0,794
2,998
0,772
La nivelul esantionului = 0,783, la nivelul colectivitatii generale se situeaza intre

0,772 si 0,794 pentru = 5%.
Daca modelul este valid obligatoriu si parametrul e semnificativ statistic.
Testarea semnificatiei parametrului .
H0: = 0 ( nu e semnificativ statistic)
H1: 0 ( este semnificativ statistic) ==> test bilateral
pentru ca n = 9 < 30, utilizam testul t
t=
a0 a 27,97
= =
=15,62
sa
sa
3,2
sa =su
2
x
n
xi x 2
i=1
sa se ia din ANOVA
1 802
=12,33
=3,20
9 6000
Rc, regiunea critica:

-15,62
- 2,998
tcalc < t/2; n-k-1

tcalc > t/2; n-k-1
(A)devarat ==> ne gasim in regiunea critica ==> se respinge ipoteza

nula si se accepta ipoteza alternativa conform careia e semnificativ
statistic.
Pentru ca parametrul este semnificativ statistic putem determina
intervalul de incredere pentru acesta:
a t/2; n-k-1 sa a + t/2; n-k-1 sa
unde a = -27,97
sa = 1,79
t/2; n-k-1 = 2,998

==>
33,33 -22,61
La nivelul colectivitatii generale parametrul [ -33,33; -22,61] pentru un prag de semnificatie de 5%
pag. 6/8
15-Oct.-2011
Observatie: cand lower si upper au celasi semn pentru un parametru, respectivul parametru este
semnificativ statistic.
Tabelul din excel (tab. 3) pe baza caruia testam semnificatia parametrilor modelului:
Coefficient Standard
error
Intercept
-33,33
-22,61
a
=
sb
17,79
0,772
0,794
t a=
b = 0,783
sb = 0,044
t b=
coeficient
standard error
se compara cu tcrit
sau cu -tcrit
Pentru ca b >0
==> legatura
directa
Daca P value
Upper 5%
a
=
sa
15,62
sa = 1,79
(variabila x, viteza)
P value (prag de Lower 5%

semnificatie)
a = -27,97
(termenul liber)
x variable
Testul statistic
t=
Se compara cu
pragul de
semnificatie dat in
problema (5%)
Interval de
incredere; daca
upper si lower au
acelasi semn sunt
semnificative.
==> parametrul e semnificativ statistic, in caz contrar nu este.
e.)
Intensitatea legaturii dintre doua sau mai multe variabile se poate aprecia cu ajutorul urmatorilor
indicatori:
(1) Raportul de corelatie R (multiple R) se poate utiliza pentru toate tipurile de legaturi si ne arata doar
intensitatea legaturii nu si directia ei. Directia se deduce doar din semnul lui b.
R [0, 1]
Daca R = 0 nu exista legatura intre variabile;

Daca R 1, legatura este foarte puternica intre variabile.
R=
SSR
3678,53
=
=0,988
SST
3764,86
SSR si SST se iau din ANOVA
SSR
=0,97
= R square = grad de determinatie, [0, 1] si ne arata cat la suta din variatia lui
SST
y se datoreaza factorului x; in cazul nostru 97% din variatie (a lui y) se datoreaza lui x.
2
R=
Testarea raportului de corelatie la nvelul colectivitatii generale
1. Ipoteza nula, H0: raportul de corelatie la nivelul colectivitatii generale nu e semnificativa statistic
H1: raportul de corelatie la nivelul colectivitatii generale e semnificativa statistic.
2. Se stabileste testul statistic
pentru testarea semnificatiei raportului de corelatie se utilizeaza testul Fischer (testul F)
F=
R 2 nk 1
0,97 7
=
=226,33
2
k
10,97 1
1R
3. se stabileste regiunea critica si se formuleaza concluziile

pentru testul F:
Fcalc F, k, n-k-1
F, k, n-k-1 = Ftabelat = 5,58;
Fcalc = 226,33
==> Adevarat, ne gasim in regiunea critica, se respinge H 0 si se accepta H1 ==> raportul de corelatie
e semnificativ statistic.
Observatie: daca modelul este valid atunci si parametrul e semnificativ statistic si raportul de
pag. 7/8
15-Oct.-2011
corelatie e semnificativ statistic.

(2) coeficientul de corelatie propus de Pearson notat cu r ce se poate utiliza doar in cazul in care vem
legatura liniara intre variabile si pe baza lui putem deduce atat intensitatea legaturii cat si directia ei
n
n x i yi x i y i
r=
i=1
929660720312
[n x x ][ n y y ] [963600720 ][ 914584312 ]
2
i
2
i
=0,988
r [-1, 1]
daca:
r > 0 ==> legatura directa intre y si x
r < 0 ==> legatura inversa intre y si x
r = 0 ==> nu exista legatura intre y si x
r 1 ==> legatura foarte puternica intre y si x
cum r = 0,998 ==> intre y si x exista o legatura directa si foarte puternica
Observatie: daca | r | = R ==> legatura liniara a fost foarte bine aleasa.
Deoarece in cazul nostru r = R = 0,988 ==> legatura dintre y si x e o legatura liniara.
f.)
Previzionarea punctuala reprezinta valoarea previzionata obtinuta prin inlocuirea valorii date in
ecuatia de regresie (reprezinta previziune la nivelul esantionului)
xn+p = 130 km/h
n+p = -27,97 + 0,783xn+p = 73,82 m
(previzionare punctuala)
Previzionarea pe baza intervalului de incredere.

n+p t/2; n-k-1 sn+p n+p n+p+ t/2; n-k-1 sn+p
60,81
n+p= 73,82;
t/2; n-k-1= 2,998
86,82
1 x x
1 13080
s2 yn p=su2 1 n np
=12,33 1
=18,827
n
9
6000
2
xi x
i= 1
s2u = 12,33, se ia din ANOVA
Tabelul 1 din excel se refera la intensitatea legaturii dintre variabile:

Multiple R, (R) = 0,988
R Square, (R2) = 0,97 [0, 1]
Adjusted R Square (R2) = grad de determinatie ajustat = R Square impartit la gradele de libertate
corespunzatoare.
SSE
SSE
nk 1
SSEn1
R =1
=1
=1
SST
SST
SSTnk 1
n1
2
Standard error = abaterea standard a erorilor = s u

2
su = su
se ia din ANOVA
daca su = 0 nu ar exista eroare, toate punctele s-ar gasi pe o dreapta de regresie ==> valorile reale
sunt egale cu valorile ajustate.
Observation = n = volumul esantionului.
pag. 8/8
15-Oct.-2011

Curs

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs

Încărcat de

Drepturi de autor:

Formate disponibile

Econometrie, prof.

Regresia liniara unifactoriala

Viteza, km/h distanta, m

d) sa se testeze semnificatia parametrilor modelului pentru un prag de semnificatie = 5%;

f) sa se efectueze o previzionare punctuala si pe interval de incredere a distantei parcursa de un

Econometrie, prof. Aniela Danciu

N-am respectat scara pe acest interval

= valori ajustate (teoretice), rezulta din model;

functii (ecuatii) de regresie liniara unifactoriala.

y i y i =minim= yi abx i =minim

adica cand derivatele in raport cu a si b se anuleaza (conf. teoriei lui Fermat)

==> = -27,97 + 0,783x

daca b > 0 avem o legatura directa intre y si x (creste x, creste y)

daca b < 0 avem o legatura indirecta intre x si x (creste x, scade y)

daca b = 0 nu exista legatura intre y si x (creste x, y = contant)

Econometrie, prof. Aniela Danciu

Testarea validitatii modelului de regresie

1. Se stabilesc ipotezele nula (H0) si alternativa (H1)

Unde s2x = dispersia valorilor lui y datorate factorului x

k numarul factorilor de influenta din model (numarul de

k = numarul variabilelor cauza

s2u = 86,33 / 7 = 12,33

==> F = 3678,53 / 12,33 = 298,33

(1 )100 reprezinta probabilitatea cu care garantam rezultatele.

Fjkj n k 1 = F tabelat sau F critic

F = 0,05 = valoarea erorii;

k = 1 (un singur factor);

Econometrie, prof. Aniela Danciu

Rc: 298,3 F0,05;1;7 F0,05;1;7 = 5,58 (se ia din

se respinge ipoteza H0 si se accepta H1 conform

Reziduals (variatia SSE = 86,33

MS media patratelor sau dispersii corectate

La nivelul colectiei generale modelul de regresie are forma:

Econometrie, prof. Aniela Danciu

Se stabileste regiunea critica si se formuleaza concluziile

t/2; n-k-1 = t tabelat sau t critic = 2,998; tcalc = 17,79

==> testul este adevarat, ne gasim in regiunea critica ==> se respinge H 0 si se

La nivelul esantionului = 0,783, la nivelul colectivitatii generale se situeaza intre

Rc, regiunea critica:

tcalc < t/2; n-k-1

(A)devarat ==> ne gasim in regiunea critica ==> se respinge ipoteza

a t/2; n-k-1 sa a + t/2; n-k-1 sa

t/2; n-k-1 = 2,998

La nivelul colectivitatii generale parametrul [ -33,33; -22,61] pentru un prag de semnificatie de 5%

Econometrie, prof. Aniela Danciu

P value (prag de Lower 5%

==> parametrul e semnificativ statistic, in caz contrar nu este.

Daca R = 0 nu exista legatura intre variabile;

SSR si SST se iau din ANOVA

Testarea raportului de corelatie la nvelul colectivitatii generale

3. se stabileste regiunea critica si se formuleaza concluziile

F, k, n-k-1 = Ftabelat = 5,58;

Econometrie, prof. Aniela Danciu

corelatie e semnificativ statistic.

Previzionarea pe baza intervalului de incredere.

t/2; n-k-1= 2,998

s2u = 12,33, se ia din ANOVA

Tabelul 1 din excel se refera la intensitatea legaturii dintre variabile:

Standard error = abaterea standard a erorilor = s u

Econometrie, prof. Aniela Danciu

Observation = n = volumul esantionului.

S-ar putea să vă placă și