Documente Academic
Documente Profesional
Documente Cultură
-2007-
PREZENTARE GENERALA
unde
a0,1,2,3,4,5,6,7
parametrii
modelului
si
eroarea
de
observare(necunoscuta)
Deoarece datele culese se refera la o perioada reprezentativa, ele fiind
limitate la teritoriul tarii noastre, parametrii modelului vor fi estimati, astfel
incat sa se obtina valori cat mai apropiate de cele ale parametrilor specifici
colectivitatii generale (se utilizeaza metoda celor mai mici patrate).
In vedera efectuarii calculelor necesare in acest sens, se va apela la
programul Microsoft Excel.
Urmarindu-se studiul influentei celor 7 variabile explicative asupra
variabilei dependente Y, aceasta se va prezenta initial in urmatoarea forma:
Yt = a0 + a1X1t + a2X2t + a3 X3t + a4 X4t + a5 X5t + a6 X6t + a7 X7t + t
Dupa estimarea parametrilor, prin intermediul functiei Regression
din meniul Tools Data Analisys al programului Microsoft Excel, se va
obtine o noua forma a modelului. Aceasta contine estimatorii parametrilor
(0,1,2,3,4,5,6,7), preluati din tabelul de regresie (vezi anexa 2):
Yt = -470103,028 + 142,408X1t - 19,256X2t + 0,008 X3t 0,201 X4t +
0,542 X5t + 0,016 X6t + 8,907 X7t + t
si
reziduuri(SCR).Calculul
acestor
variabile
sunt
prezentate in anexa 3.Cu cat valoarea lui SCE se apropie mai mult de
valoarea SCT, cu atat modelul e mai bine construit.
SCT = SCE + SCR (yt ymed)2 = (yest ymed)2 + (yt yest)2
In cazul nostru ecuatia devine:
234780509369,437 = 234593608242,262 + 186901127,176
= prag de semnificaie
k = numrul variabilelor explicative
n = numrul de observri
n-k-1 = grade de libertate
F* = valoarea din tabelul cu repartiia Fisher-Snedecor(F) pentru k, nk-1 grade de libertate i un prag de semnificaie
F* =
SCE/k
SCR/(n-k-1)
F* = 1434,485
F n-k-1 = 3,5
C. Testul STUDENT:
Se aplica pentru a compara valoarea unui parametru a i cu o valoare
fixat a(de obicei 0).
Ipoteze:
H0 : ai = 0
H1 : ai # 0
t*i < t
/2
n-k-1
/2
n-k-1
/2
n-k-1
var.
t /2n-k-1
t*i
7
Explicativa
X1
X2
X3
X4
X5
X6
X7
0,3371
-0,1650
0,6098
-1,4859
5,5634
1,1253
4,8132
2,7515
2,7515
2,7515
2,7515
2,7515
2,7515
2,7515
/2
n-k-1
explicative) , si anume:
X5 = numarul total de studenti inscrisi in cadrul universitatilor
X7 = personalul didactic din invatamantul superior
Astfel, modelul va avea o noua forma, coeficientii initiali fiind
inlocuiti de cei preluati din tabelul de regresie obtinut pentru noul model cu
doua variabile explicative ( vezi anexa 4)
8,844 X7t + t
D. Testul CHOW (de stabilitate a modelului):
Modelul se poate considera ca fiind stabil pe intreaga perioada sau se
considera doua subperioade distincte de estimare.
Stabilitatea coeficientilor se rezuma la a testa daca exista o diferenta
semnificativa intre SCR pe ansamblul perioadei si suma SCR 1 + SCR2,
calculate subperioadele 1 si 2.
Ipoteze:
H0: SCR = SCR1 + SCR2
H1: SCR SCR1 + SCR2
t*3 = 1,109
t/2n-k-1 = t0,05/212 = 2,56
t*3 < t/2n-k-1 mediul de provenienta al studentilor nu influenteaza
in mod semnificativ nr. total de studenti inscrisi la
cursuri de zi.
F. Testul FARRAR-GLAUBER (detectarea multicoliniaritatii):
Doua variabile se numesc coliniare daca valorile observate pentru una
din ele se pot obtine din valorile observate pentru cealalta printr-o
transformare liniara. Daca exista o astfel de legatura intre variabile, seriile se
numesc multicoliniare.
Pentru detectarea multicoliniaritatii se va aplica testul Farrar-Glauber:
In prima etapa se calculeaza determinatul coeficientilor de corelatie
liniara intre seriile explicative:
D=1
rx1x2 =
rx2x1
1
0,3464
0,3464 = 0,88
1
2k+2 = 9,49
2* < 2k+2 se accepta ipoteza H0, asadar nu exista prezumtia de
coliniaritate, variabilele explicative X5 si X7 nefiind puternic
corelate intre ele.
G. Testul DURBIN-WATSON (detectarea autocorelatiei erorilor):
Prin termenul de autocorelatie se defineste corelatia dintre termenii
unei serii de observari ordonati in timp, daca seria este cronologica, sau
ordonati in spatiu daca seria este instantanee.
Autocorelaia erorilor se datoreaz omiterii unei variabile explicative
importante sau n cazul specificrii greite a modelului.
Evoluia erorilor pentru perioada analizata este infatisata in graficul
de mai jos:
11
DW 2,1466
d1
0,982
d2
1,539
DW = 2,1466 DW ( d2 , 4-d2 ) nu exist o autocorelaie a
erorilor.
H. Testul GOLDFELD-QUANDT(pentru studiul heteroscedasticitii):
Ca si multicoliniaritatea, in practica este necesara detectarea
heteroscedasticitatii. Prin heteroscedasticitatea se nelege faptul c erorile
de observare sunt legate de o variabil explicativ introdus n model.
Detectarea heteroscedasticitatii se poate face prin aplicarea testului
Goldfeld-Quandt, in cadrul caruia ipoteza H0 este cea de homoscedasticitate,
iar cea alternativa H1, cea de heteroscedasticitate.
Ipoteze:
H0: SCR1 = SCR2
H1: SCR1 SCR2
Prima etapa consta in ordonarea observarilor in functie de variabila
explicativa ce se presupune a fi cauza heteroscedasticitatii.
Vor fi omise o parte din observari din centrul acestei serii de date
, in cazul nostru 16/4 = 4. Asadar se vor obtine doua tabele distincte, pt.
primele 6 observari si pt. ultimele 6 (vezi anexa 8) si implicit doua tabele de
regresie.
Se compara valoarea obtinuta pt. F* cu valoarea lui Fn1-k-1;n2-k-1.
12
F* = [SCR2 /(n2k-1)]/[SCR1/(n1-k-1)]
F* = 1,0865
Fn1-k-1;n2-k-1 = F0,053;3 = 9,2766
F* < Fn1-k-1;n2-k-1 modelul este homoscedastic (variatia erorilor nu depinde
de variatia lui x5)
CAP 4. Previziuni
Pentru realizarea de previziuni este necesara analiza cazului in
care numarul observarilor se mareste de la 16 la 17 prin adaugarea la
modelul initial a doua variabile explicative, x1t+1 = 657344 si x2t+1 = 29006.
In acest caz se calculeaza valoarea lui Y estimat(previzionat):
Yn+1 = -97557,543 + 0,517 x1t+1 + 9,004 x2t+1 = 504014,1858
Deoarece valoarea reala a lui Y este alta decat cea
previzionata, este necesara determinarea unui interval de incredere: (Yn+1-E,
Yn+1+E), unde E este valoarea obtinuta din formula:
E = t/2n-k-1*sqrt[2*(Xtranspus* (Xtranspus *X)-1*Xn+1)],
unde matricea Xn+1 =
1
657344
29006
13
CAP 5. Concluzii
Pornind de la modelul initial Yt = -470103,028 +
142,408X1t - 19,256X2t + 0,008 X3t 0,201 X4t + 0,542 X5t + 0,016 X6t +
8,907 X7t + t, care a fost restrans la Yt = -97557,543 + 0,517 X5t + 9,004 X7t
+ t si dupa efectuarea testelor statistice prezentate anterior, precum si dupa
realizarea unei previziuni, se pot desprinde urmatoarele concluzii:
variatia numarului total de studenti inscrisi la cursuri de zi(Y) este
explicata
in
proportie
de
99,92%
de
variatia
variabilelor
explicative(X).
variabilele care nu influenteaza in mod semnificativ numarul total de
studenti inscrisi la cursuri de zi (eliminate din cadrul modelului) sunt
urmatoarele:
X1 = numarul institutiilor de invatamant superior de pe teritoriul
Romaniei;
X2 = numarul de facultati din cadrul universitatilor romane;
X3 = populatia Romaniei cu varsta cuprinsa intre 19 25 ani;
X4 = numarul absolventilor de licee;
X6 = populatia totala a Romaniei
modelul prezinta stabilitate pentru intreaga perioada analizata
variabila binara mediul de provenienta a studentilor nu influenteaza
semnificativ modelul
variabilele explicative X5 si X7 nu sunt puternic corelate intre ele
nu exista o autocorelatie a erorilor
14
15