Sunteți pe pagina 1din 15

UNIVERSITATEA TRANSILVANIA BRASOV

FACULTATEA DE STIINTE ECONOMICE

SPECIALIZAREA: FINANTE BANCI


ANUL : II, GRUPA 8551

-2007-

PREZENTARE GENERALA

Proiectul de fata prezinta analiza influentei pe care variabilele


explicative x1, x2, x3, x4, x5, x6, x7 o exercita asupra variabilei y = numarul
total de studenti inscrisi la cursuri de zi in cadrul universitatilor din
Romania.
Astfel, se va presupune ca numarul de studenti din cadrul
universitatilor din Romania, inscrisi la cursuri de zi depinde de urmatoarele
7 variabile independente:
numarul institutiilor de invatamant superior de pe teritoriul Romaniei;
numarul de facultati din cadrul universitatilor romane;
populatia Romaniei cu varsta cuprinsa intre 19 25 ani;
numarul absolventilor de licee;
numarul total de studenti inscrisi in cadrul universitatilor romane;
populatia totala a Romaniei;
personalul didactic din invatamantul superior
Analiza parcurge patru etape principale, si anume:
1. Culegerea datelor
2. Formalizarea relatiilor
3. Estimarea parametrilor
4. Testarea modelului

CAP.1 Culegerea datelor


Datele centralizate in tabelul nr. 1 (anexa 1) sunt preluate din Anuarele
Statistice ale Romaniei din anii 1990, 1994, 1998, 2002, 2003 si
reprezinta valorile anuale ale variabilei de explicat(endogena) Y,
respectiv ale variabilelor explicative(exogene) X in perioada 1987
2002.
Semnificatia variabilelor alese este urmatoarea:
Y = numarul total de studenti inscrisi la cursuri de zi in cadrul universitatilor
din Romania;
X1 = numarul institutiilor de invatamant superior de pe teritoriul Romaniei;
X2 = numarul de facultati din cadrul universitatilor romane;
X3 = populatia Romaniei cu varsta cuprinsa intre 19 25 ani;
X4 = numarul absolventilor de licee;
X5 = numarul total de studenti inscrisi in cadrul universitatilor romane;
X6 = populatia totala a Romaniei;
X7 = personalul didactic din invatamantul superior.

CAP.2 Formalizarea relatiilor si estimarea parametrilor


Evolutia variabilei Y este urmarita in functie de influenta celor 7
factori prezentati mai sus, intre variabila Y si variabilele X existand
urmatoarea relatie:
Y = f(X1, X2, X3, X4, X5, X6, X7)
Yt = a0 + a1X2t + a2X2t + a3 X3t + a4 X4t + a5 X5t + a6 X6t + a7 X7t + t,

unde

a0,1,2,3,4,5,6,7

parametrii

modelului

si

eroarea

de

observare(necunoscuta)
Deoarece datele culese se refera la o perioada reprezentativa, ele fiind
limitate la teritoriul tarii noastre, parametrii modelului vor fi estimati, astfel
incat sa se obtina valori cat mai apropiate de cele ale parametrilor specifici
colectivitatii generale (se utilizeaza metoda celor mai mici patrate).
In vedera efectuarii calculelor necesare in acest sens, se va apela la
programul Microsoft Excel.
Urmarindu-se studiul influentei celor 7 variabile explicative asupra
variabilei dependente Y, aceasta se va prezenta initial in urmatoarea forma:
Yt = a0 + a1X1t + a2X2t + a3 X3t + a4 X4t + a5 X5t + a6 X6t + a7 X7t + t
Dupa estimarea parametrilor, prin intermediul functiei Regression
din meniul Tools Data Analisys al programului Microsoft Excel, se va
obtine o noua forma a modelului. Aceasta contine estimatorii parametrilor
(0,1,2,3,4,5,6,7), preluati din tabelul de regresie (vezi anexa 2):
Yt = -470103,028 + 142,408X1t - 19,256X2t + 0,008 X3t 0,201 X4t +
0,542 X5t + 0,016 X6t + 8,907 X7t + t

CAP.3 Testarea modelului


Testarea modelului prezentat are la baza efectuarea unei serii de teste
statistice (Fisher, Student) in vederea determinarii variabilelor explicative ce
exercita o influenta semnificativa asupra lui Y si eliminarii celor care nu
influenteaza in mod semnificativ variabila Y.
Testele statistice sunt urmate de efectuarea testului de stabilitate
(testul Chow) pentru esantionul ales si a celui pentru imbunatatirea

modelului, care consta in introducerea si analiza unei variabile auxiliare


Dummy.
In continuare se vor efectua o serie de teste pentru depistarea
multicoliniaritatii (Farrar-Glauber), a autocorelatiei erorilor (Durbin-Watson)
si pentru studiul heteroscedasticitatii modelului (Golfed-Quandt).
Testarea modelului se incheie cu realizarea de previziuni.
A. Ecuatia de analiza a variantei si coeficientul de determinatie:
a)Aceasta ecuatie exprima relatia dintre variabilitatea totala(SCT), cea
explicativa(SCE)

si

reziduuri(SCR).Calculul

acestor

variabile

sunt

prezentate in anexa 3.Cu cat valoarea lui SCE se apropie mai mult de
valoarea SCT, cu atat modelul e mai bine construit.
SCT = SCE + SCR (yt ymed)2 = (yest ymed)2 + (yt yest)2
In cazul nostru ecuatia devine:
234780509369,437 = 234593608242,262 + 186901127,176

b)Coeficientul de variatie este dat de formula:


R2 = SCE/SCT = 1 SCR/SCT = 0,999204 = 99,9204%
In practica se utilizeaza o valoare corectata a coeficientului, si anume:
R2 =1 ((n-1)/(n-k-1)*(1-R2)) = 0,998507 = 99,8507%
Se observa ca cele doua valori ale coeficientului sunt apropiate, iar
variatia numarului total de studenti inscrisi la cursuri de zi(Y) este explicata
in proportie de 99,92% de variatia variabilelor explicative(X).
R2 are o semnificatie mai mare cu cat nr. de observari creste.
Datele sunt preluate din tabelul de regresie (vezi anexe):
SCE = Regression ; SCR = Residuals ; SCT = Total ; R 2 = R Square ; R2 =
Adjusted R Square.

B. Testul FISHER (de semnificatie globala):


Se formuleaza ipotezele:
H0 : SCE =O
H1 : SCE # 0
F* > F n-k-1 se accept H1, adic ansamblul variabilelor explicative
introduse n model influeneaza semnificativ variabila de explicat cu o
probabilitate de 1-
F* < F n-k-1se accepta H0, adic ansamblul variabilelor explicative
introduse n model nu au o influen semnificativ asupra variabilei de
explicat

= prag de semnificaie
k = numrul variabilelor explicative
n = numrul de observri
n-k-1 = grade de libertate
F* = valoarea din tabelul cu repartiia Fisher-Snedecor(F) pentru k, nk-1 grade de libertate i un prag de semnificaie
F* =

SCE/k
SCR/(n-k-1)

F* = 1434,485
F n-k-1 = 3,5

F*>F0,057,8 , se acepta ipoteza H1 (ansamblul variabilelor


explicative influenteaza semnificativ variabila y)-

C. Testul STUDENT:
Se aplica pentru a compara valoarea unui parametru a i cu o valoare
fixat a(de obicei 0).
Ipoteze:
H0 : ai = 0
H1 : ai # 0
t*i < t

/2

n-k-1

se accept H0, adic valoarea parametrului nu este

semnificativ diferit de zero, cu o probabilitate p= 1- ; variabila explicativa


atasata parametrului nu influenteaza semnificativ variabila de explicat
variabila X respectiva se elimina din model
t*i > t

/2
n-k-1

se accepta H1, adica valoarea parametrului este

semnificativ diferit de zero, cu o probabilitate p= 1- ; variabila explicativa


atasata parametrului influenteaza semnificativ variabila de explicat, de aceea
ea va ramane in cadrul modelului
Tabelul urmator prezinta comparatia dintre ratia Student (t*i) si
valoarea tabelara(t

/2

n-k-1

), indicand variabilele explicatve ce trebuie

eliminate din model:

var.

t /2n-k-1

t*i
7

Explicativa

X1
X2
X3
X4
X5
X6
X7

0,3371
-0,1650
0,6098
-1,4859
5,5634
1,1253
4,8132

2,7515
2,7515
2,7515
2,7515
2,7515
2,7515
2,7515

Variabilele explicative ce raman in cadrul modelului sunt cele cu ratia


Student (preluata din tabelul de regresie anexa 4) mai mare decat valoarea
lui t

/2
n-k-1

, unde =0,05, n=16(nr. de observari) si k=7(nr. variabilelor

explicative) , si anume:
X5 = numarul total de studenti inscrisi in cadrul universitatilor
X7 = personalul didactic din invatamantul superior
Astfel, modelul va avea o noua forma, coeficientii initiali fiind
inlocuiti de cei preluati din tabelul de regresie obtinut pentru noul model cu
doua variabile explicative ( vezi anexa 4)

Yt = -9889,47 + 0,517 X5t +

8,844 X7t + t
D. Testul CHOW (de stabilitate a modelului):
Modelul se poate considera ca fiind stabil pe intreaga perioada sau se
considera doua subperioade distincte de estimare.
Stabilitatea coeficientilor se rezuma la a testa daca exista o diferenta
semnificativa intre SCR pe ansamblul perioadei si suma SCR 1 + SCR2,
calculate subperioadele 1 si 2.
Ipoteze:
H0: SCR = SCR1 + SCR2
H1: SCR SCR1 + SCR2

Daca se accepta ipoteza H0, inseamna ca modelul este stabil pe


intreaga perioada, iar divizarea pe subperioade nu imbunatateste calitatea
modelului.
In caz contrar, dacab se accepta H1, modelul este instabil pe intreaga
perioada.
Se aplica testul Fisher, ce consta in calculul lui F* si compararea
valorii sale cu Fk+1;n-2k-2, in vederea alegerii uneia dintre ipotezele de mai sus.
F* = {[SCR-( SCR1 + SCR2)]/(k+1)}/[( SCR1 + SCR2)/(n-2k-1)]
F* = 0,895
F0,053,10 = 3,708

F* < F0,053,10 se accepta ipoteza H0, deci modelul


este stabil pe intreaga perioada

E. Analiza unei variabile explicative calitative (Dummy):


In analiza regresiei se intampla deseori ca variabila de explicat sa fie
influentata nu numai de variabile cuantificabile, ci si de variabile de natura
calitativa. Aceste variabile, care pot avea valorile 0 sau 1, se numesc
variabile Dummy sau binare, dihotomice.
In cazul de fata se va analiza influenta mediului de provenienta al
studentilor(rural sau urban) asupra numarului total de studenti inscrisi la
cursuri de zi.
Astfel, la tabelul ce contine variabilele Y si X se va adauga o coloana
ce contine valorile variabilei Dummy(Di): 1 daca in anul respectiv numarul
studentilor din mediul urban inscrisi la cursuri de zi era superior celui
reprezentat de studentii din mediul rural si 0 in caz contrar.
Din tabelul de regresie obtinut pentru modelul cu 3 variabile
explicative(X 5, X 7, Di) se extrage valoarea lui t*3 , comparandu-se cu
valoarea ratiei Student t/2n-k-1. (vezi anexa 5)
9

t*3 = 1,109
t/2n-k-1 = t0,05/212 = 2,56
t*3 < t/2n-k-1 mediul de provenienta al studentilor nu influenteaza
in mod semnificativ nr. total de studenti inscrisi la
cursuri de zi.
F. Testul FARRAR-GLAUBER (detectarea multicoliniaritatii):
Doua variabile se numesc coliniare daca valorile observate pentru una
din ele se pot obtine din valorile observate pentru cealalta printr-o
transformare liniara. Daca exista o astfel de legatura intre variabile, seriile se
numesc multicoliniare.
Pentru detectarea multicoliniaritatii se va aplica testul Farrar-Glauber:
In prima etapa se calculeaza determinatul coeficientilor de corelatie
liniara intre seriile explicative:
D=1

rx1x2 =

rx2x1

1
0,3464

0,3464 = 0,88
1

*calculele se efectueaza in Microsoft Excel: coeficientii rx1x2 si rx2x1 se

obtin cu ajutorul functiei CORREL, iar determinantul se calculeaza


apeland la functia MDETERM.
Ipotezele:
H0: D = 1
H1: D 1
Testarea acestor ipoteze se face printr-un test 2 , care consta in
calculul lui 2* si compararea valorii obtinute cu 2k+2.
2* = -[n-1-1/2*(k+2)]*lnD = 1,6618
10

2k+2 = 9,49
2* < 2k+2 se accepta ipoteza H0, asadar nu exista prezumtia de
coliniaritate, variabilele explicative X5 si X7 nefiind puternic
corelate intre ele.
G. Testul DURBIN-WATSON (detectarea autocorelatiei erorilor):
Prin termenul de autocorelatie se defineste corelatia dintre termenii
unei serii de observari ordonati in timp, daca seria este cronologica, sau
ordonati in spatiu daca seria este instantanee.
Autocorelaia erorilor se datoreaz omiterii unei variabile explicative
importante sau n cazul specificrii greite a modelului.
Evoluia erorilor pentru perioada analizata este infatisata in graficul
de mai jos:

Se aplica testul Durbin-Watson, ce consta in calculul lui DW dupa


formula: DW = (et-e t-1)2/ et2 si compararea valorii sale cu d si d, valori
tabelare pentru =0,05, n=16 si k=2.calculele efectuate pentru calcularea lui

11

DW sunt in anexa 3 ( calculul pt et si et-1) iar valorile lui d sunt trecute in


anexa 7.

DW 2,1466
d1
0,982
d2
1,539
DW = 2,1466 DW ( d2 , 4-d2 ) nu exist o autocorelaie a
erorilor.
H. Testul GOLDFELD-QUANDT(pentru studiul heteroscedasticitii):
Ca si multicoliniaritatea, in practica este necesara detectarea
heteroscedasticitatii. Prin heteroscedasticitatea se nelege faptul c erorile
de observare sunt legate de o variabil explicativ introdus n model.
Detectarea heteroscedasticitatii se poate face prin aplicarea testului
Goldfeld-Quandt, in cadrul caruia ipoteza H0 este cea de homoscedasticitate,
iar cea alternativa H1, cea de heteroscedasticitate.
Ipoteze:
H0: SCR1 = SCR2
H1: SCR1 SCR2
Prima etapa consta in ordonarea observarilor in functie de variabila
explicativa ce se presupune a fi cauza heteroscedasticitatii.
Vor fi omise o parte din observari din centrul acestei serii de date
, in cazul nostru 16/4 = 4. Asadar se vor obtine doua tabele distincte, pt.
primele 6 observari si pt. ultimele 6 (vezi anexa 8) si implicit doua tabele de
regresie.
Se compara valoarea obtinuta pt. F* cu valoarea lui Fn1-k-1;n2-k-1.
12

F* = [SCR2 /(n2k-1)]/[SCR1/(n1-k-1)]
F* = 1,0865
Fn1-k-1;n2-k-1 = F0,053;3 = 9,2766
F* < Fn1-k-1;n2-k-1 modelul este homoscedastic (variatia erorilor nu depinde
de variatia lui x5)

CAP 4. Previziuni
Pentru realizarea de previziuni este necesara analiza cazului in
care numarul observarilor se mareste de la 16 la 17 prin adaugarea la
modelul initial a doua variabile explicative, x1t+1 = 657344 si x2t+1 = 29006.
In acest caz se calculeaza valoarea lui Y estimat(previzionat):
Yn+1 = -97557,543 + 0,517 x1t+1 + 9,004 x2t+1 = 504014,1858
Deoarece valoarea reala a lui Y este alta decat cea
previzionata, este necesara determinarea unui interval de incredere: (Yn+1-E,
Yn+1+E), unde E este valoarea obtinuta din formula:
E = t/2n-k-1*sqrt[2*(Xtranspus* (Xtranspus *X)-1*Xn+1)],
unde matricea Xn+1 =

1
657344
29006

*in vederea efectuarii calculelor necesare se utilizeaza functiile


TRANSPOSE, MINVERSE si SQRT din Excel.
In final se obtine E = 336812,4132, valoare ce se incadreaza in
intervalul de incredere (325662,2699, 682366,1017) cu o probabilitate de 95%.

13

CAP 5. Concluzii
Pornind de la modelul initial Yt = -470103,028 +
142,408X1t - 19,256X2t + 0,008 X3t 0,201 X4t + 0,542 X5t + 0,016 X6t +
8,907 X7t + t, care a fost restrans la Yt = -97557,543 + 0,517 X5t + 9,004 X7t
+ t si dupa efectuarea testelor statistice prezentate anterior, precum si dupa
realizarea unei previziuni, se pot desprinde urmatoarele concluzii:
variatia numarului total de studenti inscrisi la cursuri de zi(Y) este
explicata

in

proportie

de

99,92%

de

variatia

variabilelor

explicative(X).
variabilele care nu influenteaza in mod semnificativ numarul total de
studenti inscrisi la cursuri de zi (eliminate din cadrul modelului) sunt
urmatoarele:
X1 = numarul institutiilor de invatamant superior de pe teritoriul
Romaniei;
X2 = numarul de facultati din cadrul universitatilor romane;
X3 = populatia Romaniei cu varsta cuprinsa intre 19 25 ani;
X4 = numarul absolventilor de licee;
X6 = populatia totala a Romaniei
modelul prezinta stabilitate pentru intreaga perioada analizata
variabila binara mediul de provenienta a studentilor nu influenteaza
semnificativ modelul
variabilele explicative X5 si X7 nu sunt puternic corelate intre ele
nu exista o autocorelatie a erorilor

14

modelul este homoscedastic (variatia erorilor nu depinde de variatia


variabilei explicative x5)
eroarea cu care a fost calculat Yn+1 are valoarea E = 336812,4132, insa
numarul de observari(16) este redus, eroarea scazand odata cu
sporirea nr. de observari.
Se poate asadar afirma ca de studenti inscrisi la cursuri de zi depinde direct
de numarul total de studenti inscrisi in cadrul universitatilor romane si de
personalul didactic din invatamantul superior.

15