Sunteți pe pagina 1din 9

Facultatea:

pentru reușita curentă


N - numărul din registru

Realizat Controlat

Chișinău, 2020
Nr Y X1 X2 X3 X4
1 16,4+n*0.01 82,9 17,1 92 94
2 17,6+n*0.01 88 21,3 93 96
3 18,4+n*0.01 99,9 25,1 96 97
4 19,4+n*0.01 105,3 29 94 97
5 20,2+n*0.01 117,7 34 100 100
6 22,2+n*0.01 131 40 101 101
7 23,8+n*0.01 148,2 44 105 104
8 25,9+n*0.01 161,81 49 112 109
9 27,3+n*0.01 174,2 51 112 111
10 28,8+n*0.01 184,7 53 112 111

Se cere de efectuat
✓ Testul Klein
✓ Testul Farrar-Glauber
✓ Modelul regresiilor posibile
✓ Metoda eliminarii regresive(Backward Elimination)
✓ Metoda eliminarii progresive in aval (Forward regression)
✓ Metoda regresiei pas cu pas(Stepwise Regression
✓ Metoda regresiei etapizate(Stagewise Regression)

Testul Klein
Modelul regresiei: y=𝑎0 + 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥3 + 𝑎4 𝑥4 + 𝜀
In urma estimarii obtinem
𝑦̂ = −5.51825 + 0.09702𝑥1 + 0.015012𝑥2 − 0.19924𝑥3 + 0.34004𝑥4
𝑁 = 10; 𝑅 2 = 0.998011
Calculam coeficientii de corelatie simpla intre variabilele independente
𝑛 ∗ ∑ 𝑥𝑖 𝑥𝑗 − ∑ 𝑥𝑖 ∗ ∑ 𝑥𝑗
𝑟=
2
√[𝑛 ∗ ∑ 𝑥𝑖 2 − (∑ 𝑥𝑖 )2 ] [𝑛 ∗ ∑ 𝑥𝑗 2 − (∑ 𝑥𝑗 ) ]
Calculele sunt efectuate in excel
10 ∗ 51217,77 − 1293,71 ∗ 363,5
𝑟𝑥1 𝑥2 = = 0,9883
√[10 ∗ 179304,25 − 1673685,56][10 ∗ 14720,11 − 132132,25]
𝑟𝑥1 𝑥3 = 0,9803
𝑟𝑥1 𝑥4 = 0,9876
𝑟𝑥2 𝑥3 = 0,9699
𝑟𝑥2 𝑥4 = 0,9694
𝑟𝑥3 𝑥4 = 0,9917
In urma analizei datelor observam ca 𝑅 2 > 𝑟𝑥𝑖𝑥𝑗 , deci putem presupune ca nu e prezenta
multicolinearitatea, insa toti coeficientii de coliniaritate simpla au valori mari, de unde
putem spuneca e prezenta o legatura intre variabile explicative

I. Testul Farrar-Glauber
Determinam determinantul D al matricei coeficientilor de corelatie intre variabilele
explicative ale modelului
1 𝑟𝑥1 𝑥2 𝑟𝑥1 𝑥3 𝑟𝑥1 𝑥4 1 0,988 0,980 0,987
𝑟𝑥2 𝑥1 1 𝑟𝑥2 𝑥3 𝑟𝑥2 𝑥4 0,988 1 0,969 0,964
𝐷= 𝑟𝑥3 𝑥4 = (0,980 0,969 ) = 0,91987 ∗ 10−5
𝑟𝑥3 𝑥1 𝑟𝑥3 𝑥1 1 1 0,991
𝑟 𝑟𝑥4 𝑥2 𝑟𝑥4 𝑥3 1 0,987 0,964 0,991 1
( 𝑥4 𝑥1 )

Ipoteza:
H0: D=1 (seriile sunt ortogonale)-[n-1-(1/6)(2K+5)*Ln D
H1:D<1(seriile sunt dependente)
Calculam valoarea empirica a lui 𝜒 2
1
𝜒 2 = − [𝑛 − 1 − ∗ (2𝐾 + 5) ∗ 𝐿𝑛𝐷]
6
1
𝜒 2 = − [10 − 1 − ∗ (2 ∗ 5 + 5)] ∗ (−11,59) = 75,3
6
2 2
Valoarea tabelara fiind 𝜒𝑡𝑎𝑏 cu 0,5K(k-1) grade de libertate; 𝜒𝑡𝑎𝑏 = 18,31

Concluzie
2
In urma analizei datelor obtinute, observam ca 𝜒 2 > 𝜒𝑡𝑎𝑏 deci ipoteza nula se respinge, si
presupunem ca se accepta ipoteza alternativa, serii sunt independente.

III.Modelul regresiilor posibile


Vom estima toate combinatiile posibile de variabile independete (2k-1), unde k este
numarul de variabile explicative candadate si modelul retinut este modelul pentru care
R2 este maxim. In cazul nostru, sunt 4 variabile explicative, deci k=4 si avem (24-1)=15
ecuatii posibile. Calculam variabila y si variabilele explicative x1,x2,x3, rezultatele
introducindu-se in tabel. Pentru a putea efectua selectarea variabilei explicative, este
necesar de efectuat citeva calcule si anume vom calcula valoarea testului Fisher,
valoarea criteriului Akaike (AIC), Schwarz(SC).
Cu ajutorul programului Eviews 3, obtinem ecuatia
𝑦̂ = −5.51825 + 0.09702𝑥1 + 0.015012𝑥2 − 0.19924𝑥3 + 0.34004𝑥4
Nr Y X1 X2 X3 X4 𝑦̂ 𝑦𝑖 − 𝑦̂ (𝑦𝑖 − 𝑦̂)2 𝑌𝑖 − 𝑌̅ (𝑌𝑖 − 𝑌̅)2
1 16,4 82,9 17,1 92 94 16.4151 -0.0151 0.0002 -5.60 31.36
2 17,6 88 21,3 93 96 17.4538 0.1462 0.0214 -4.40 19.36
3 18,4 99,9 25,1 96 97 18.4077 -0.0077 0.0001 -3.60 12.96
4 19,4 105,3 29 94 97 19.3886 0.0114 0.0001 -2.60 6.76
5 20,2 117,7 34 100 100 20.4914 -0.2914 0.0849 -1.80 3.24
6 22,2 131 40 101 101 22.0127 0.1873 0.0351 0.20 0.04
7 23,8 148,2 44 105 104 23.9646 -0.1646 0.0271 1.80 3.24
8 25,9 161,81 49 112 109 25.6656 0.2344 0.0549 3.90 15.21
9 27,3 174,2 51 112 111 27.5778 -0.2778 0.0772 5.30 28.09
10 28,8 184,7 53 112 111 28.6265 0.1735 0.0301 6.80 46.24
Total 220 1293,71 363,5 1017 1020 220.0038 -0.0038 0.3311 0.00 166.50

Calculam raportul de determinatie R2


2
∑(𝑦𝑖 − 𝑦̂)2 0.3311
𝑅 =1− = 1 − = 0.998
∑(𝑌𝑖 − 𝑌̅)2 166.5
Testam modelul in baza testului Fisher
a. Determinam valoarea calculata a testului Fisher
𝑅 2 ⁄𝑘 0,998⁄4 0,2495
𝐹𝑐𝑎𝑙𝑐 = 2
= = = 24,95
(1 − 𝑅 ) ∗ (𝑛 − 𝑘 − 1) (1 − 0,998)/(10 − 4 − 1) 0,01
b. Determinam valoarea tabelara
𝛼 0,05
𝐹𝑘−1;𝑛−𝑘 = 𝐹4;5 = 5,19

Concluzie
In urma analizei datelor obtinute, observam 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝑡𝑎𝑏 , deci putem presupune ca
modelul este semnificativ
Calculam valoarea criteriului Akaike(AIC), Schwarz(SC)
∑(𝑦𝑖 − 𝑦̂)2 2∗𝑘 0,3311 2∗5
𝐴𝐼𝐶 = ln ( )+ = ln ( )+ =
𝑛 𝑛 10 10
∑(𝑦𝑖 − 𝑦̂)2 𝑘 ∗ ln 𝑛 0,3311
𝑆𝐶 = ln ( )+ = ln ( )
𝑛 𝑛 10

O altă metodă de măsurarea a multicoliniarităţii este rezultatul analizei formulei


de calcul a erorii standard a coeficientului de regresie (1): (1)

y 1 − R yx2 1...x p
Sa =j
x j
(1 − Rx2j x1 ...x j −1x j +1 ...x p )(n − m − 1)

Din formula (1) rezultă că abaterea standard va fi mai mare , cu cât mai mică
va fi valoarea, care este numită factorul de inflaţie a dispersiei ( sau factor de
umflare a dispersiei) VIF:

1
VIFx j = ,
(1 − Rx2j x1 ...x j −1x j +1 ...x p )

unde R x2j x1 ...x j −1 x j +1 ...x p - raportul de determinaţie, ce arată dependenţa


variabilei xj de alte variabile x1…xp, ce sunt incluse în modelul regresiei multiple.
Mărimea R x2 x ...x
j 1 j −1 x j +1 ...x p
caracterizează multicoliniaritatea aplicată acestei variabile

xj. În cazul lipsei legăturii, indicatorul VIFx va fi egal (sau aproape) cu unu, iar
j

creşterea legăturii conduce la tendinţa acestui indicator către infinit. Se consideră,


că dacă VIFx >3 pentru fiecare variabilă xj, atunci are loc coliniaritatea.
j
Introducem datele corelate in urmatorul tabel
Nr. Ecuatia VIF AIC SC
R2
ord
1 Y=-1,245266+0,117841*X1 0,65 0,71
-3,309935 41,94213 0.9955 222.2
2 Y=2,118167+0,326873*X2 0.9670 2,64 2,70
2,585761 15,30956 30.3
3 Y=-38,51904+0,516411*X3 3,02 3,08
-9,168190 12,53628 0.9516 20.66
4 Y=-5365081+0,6632438*X4 0.9775 2,25 2,31
-14,77097 18,6585 44.4
5 Y=-1,598613+0,131506*X1-0,038912*X2 0,78 0,87
-2,572308 6,920604 -0,727605 0.9958 238.1
6 Y=1,419158+0,125781*X1-0,036298*X3 0,81 0,90
0,288 8,429 -0,543 0.9957 232.6
7 Y=-8,364025+0,102271*X1+0,089541*X4 243.9 0,75 0,84
-1,014 5,607 0,864 0.9959
8 Y=-13,29899+0,208856*X2+0,193777*X3 0.9749 2.56 2,66
-1,280 2,554 1,488 39.84
9 Y=-31,24010+0,137311*X2+0,394597*X4 0.9878 81.97 1,84 1,94
-3,230 2,425 3,454
10 Y=-58,03864-0,165646*X3+0,871420*X4 47.85 2,38 2,47
-8,219 -0,733 3,042 0.9791
11 Y=0,955294+0,138745*X1-0,037930*X2-0,034671*X3 0.9960 0,94 1,06
0,184 5,588 -0,670 -0,497 250
12 Y=-7,383860+0,114955*X1-0,028409*X2+0,073967*X4 0.9961 256.4 0,91 1,03
-0,825 3,552 -0,488 0,647
13 Y=-34,87547+0,163781*X2-0,300337*X3+0,710258*X4 1,53 1,66
-4,203 3,329 -1,999 3,812 0.9927 136.9
14 Y=-12,747+0,10364*X1-0,188346*X3+0,318565*X4 0.9980 0,25 0,37
-1,957 7,47 -2,473 2,621 500
15 Y=-13,51825+0,097017*X1+0,015012*X2- 526.3 0,43 0,58
0.9981
0,199241*X3+0,340042*X4
-1,800 3,664 0,304 -2,211 2,272

Concluzie
Conform acestei metode are loc selectarea acelei variante in care 𝑅 2 este maxim. Comparind toate
variantele observam ca cea mai mare valoare a coeficientului de determinatie ii apartine modelului Nr.
15; deci aceasta varianta va fi aleasa ca cea mai optima metoda

IV.Metoda eliminarii regresive(Backward Elimination)


Aceasta metoda consta in efectuarea unei regresii complete cu toate cele 4 variabile explicative. Se
0,05
elimina acea variabila careia ii corespunde o valoare t-Student sub nivelul critic acceptat, 𝑡𝑛−2 ⇒ 𝑡80,05 =
2,306, apoi reestimam regresia cu 3 variabile. Continuam procedeul prin eliminare pina obtinem o
ecuatie satisfacatoare. In primul caz, am efectuat analiza regresiei complete, deci comparam valorile
obtinute, pentru a putea deduce o concluzie.
Y=-13,52+0,097*X1+0,015*X2-0,199*X3+0,34*X4
tst -1,80 3,664 0,304 -2,211 2,272
Observam ca in majoritate valorilor sunt mai mici decit nivelul critic, deci se intocmeste ecuatia cu 3
variabile
Y=0,955+0,139*X1-0,0379*X2-0,0347*X3
tst 0,184 5,588 -0,670 -0,497
Observam ca valorile sunt mai mici decit nivelul critic, deci in continuare eliminarea si compararea lor in
baza tabelului de mai sus
Concluzie
Observam ca in modelul Nr 2, majoritatea valorilor sunt mai mari decit nivelul critic, deci toate
variabilele sunt semnificative
Y=2,118167+0,326873*X2
tst 2,586 15,3096
V. Metoda eliminarii progresive in aval (Forward regression)
Aceasta metoda contine doar o singura variabila explicativa, a carui coeficient de corelatie este cea mai
mare cu variabila Y. Dar in acelasi timp ea trebuie sa fie mai mica decit nivelul critic.
- Determinarea coeficientului de corelatie
𝑛 ∗ ∑ 𝑥𝑖 𝑦𝑖 − ∑ 𝑥𝑖 ∗ ∑ 𝑦𝑖
𝑟𝑦𝑥1 =
√[𝑛 ∗ ∑ 𝑥𝑖 2 − (∑ 𝑥𝑖 )2 ][𝑛 ∗ ∑ 𝑦𝑖 2 − (∑ 𝑦𝑖 )2 ]
Nr Y X1 𝑋2 X*Y 𝑌2
1 16,4 82,9 6872,41 1359,56 268,96
2 17,6 88 7744 1548,8 309,76
3 18,4 99,9 9980,01 1838,16 338,56
4 19,4 105,3 11088,09 2042,82 376,36
5 20,2 117,7 13853,29 2377,54 408,04
6 22,2 131 17161 2908,2 492,84
7 23,8 148,2 21963,24 3527,16 566,44
8 25,9 161,81 26182,4761 4190,879 670,81
9 27,3 174,2 30345,64 4755,66 745,29
10 28,8 184,7 34114,09 5319,36 829,44
Total 220 1293,71 179304,2 29868,14 5006,50

10 ∗ 29868,14 − 220 ∗ 1293,71


𝑟𝑦𝑥1 = = 0,997736
√[10 ∗ 179304,2 − 1673685,56][10 ∗ 5006,5 − 48400]

𝑟𝑦𝑥2 = 0,9833 𝑟𝑦𝑥3 =0,9754 𝑟𝑦𝑥4 = 0,9887


Din toate variabilele propuse selectam acea variabila a carei valoare este inferioara nivelului critic.
Selectam variabilele explicative x1x2, Nr 5, deoarece in cazul dat variabilele sunt inferioare nivelului
critic asteptat.

VI. Metoda regresiei pas cu pas(Stepwise Regression


Aceasta metoda se aseamana cu metoda precedenta doar ca se deosebeste prin faptul ca in urma
incorporarii unei noi variabile explicative,se analizeaza testul t-Student al fiecarei variabile si se elimina
acea a caror valoare este inferioara valorii acceptate.
Ca urmare a estimarii modelului cu o singura variabila explicativa, am ales variabila X1,
deoarece ea satisface toate conditiile necesare 41,942>2,00
𝑟𝑦𝑥1 = 0,99773 𝑟𝑦𝑥2 = 0,9833 𝑟𝑦𝑥3 =0,9754 𝑟𝑦𝑥4 = 0,9887
Odata ce efectuam estimarea dupa doua variabile explicative obtinem
𝑟𝑥1𝑥2 = 0,9883 𝑟𝑥1𝑥3=0,9803 𝑟𝑥1𝑥4 = 0,9876
Din toate selectam variabilele X1 si X2, dar odata ce valorile lor t-Student sunt inferioare nivelului critic
acceptat, deci ele nu pot fi selectate

Concluzie
In baza acestei metode, variabila explicativa, care satisface toate conditiile necesare este X1, Nr.1
VII. Metoda regresiei etapizate(Stagewise Regression)
Etapa 1
Selectam din rezultatele anterior calculate variabila explicativa cu cel mai inalt coeficient de corelatie
simpla cu variabila Y, avem urmatoarele rezultate :
𝑟𝑦𝑥1 = 0,9955 𝑟𝑦𝑥2 = 0,9669 𝑟𝑦𝑥3 =0,9516 𝑟𝑦𝑥4 = 0,9775
Cel mai inalt coeficientr de corelatie simpla cu variabila Y, este 𝑟𝑦𝑥1 = 0,9955 deci selectam variabila
explicatica X1
Etapa 2
Calculam rezidiul corespunzator regresiei Y asupra variabilei explicative
X1:𝑒 = 𝑦 − 𝑎̂0 − 𝑎̂1 𝑥1 ⇔ 𝑒 = 𝑦 + 1,245266 − 0,117841 ∗ X1, in rezultat obtinem:

Etapa 3
Determinam coeficientii de corelatie simpla r, intre rezidiu e si fiecare dintre variabilele explicative,
selectam acea variabila a carei coeficient este cel mai mare, calculele le efectuam conform
demonstratiilor anterioare sau cu ajutorul programului Eviews 3, in rezultat obtinem
𝑟𝑒𝑥1 = 0,0000 𝑟𝑒𝑥2 = 0,0000 𝑟𝑒𝑥3 = 0.000 𝑟𝑒𝑥4 = 0.0637
Concluzie
In urma analizei si calculelor efectuate am observat ca in cele mai dese cazuri, variabila explicativa X1,
corespunde tuturor cerintelor necesare, deci putem spune ca variabila explicativa X1, explica cel mai
bine variabila dependenta Y.

S-ar putea să vă placă și