Sunteți pe pagina 1din 9

Modelul simplu liniar de regresie

Să se realizeze modelul simplu de regresie dintre cursul valutar LEVA-RON mediu lunar
în funcţie de perioada de timp martie 2017-martie 2018 din România. Seria de date pentru cursul
valutar mediu lunar a fost preluată de pe site-ul Bancii Naţionale a României. Aceste date sunt
introduse în următorul tabel. Menţionăm că s-au păstrat doar primele două zecimale în cadrul
cursului fără rotunjire.

Tabelul 1. Curs valutar mediu lunar din perioada martie 2017-martie 2018

Mart. April. Mai Iunie Iulie Aug. Sept. Oct. Nov. Dec. Ian. Feb. Mart.
2017 2017 2017 2017 2017 2017 2017 2017 2017 2017 2018 2018 2018

2,32 2,31 2,32 2,33 2,33 2,34 2,35 2,34 2,36 2,37 2,37 2,38 2,38

Sursa https://www.curs-valutar-bnr.ro/curs-valutar-mediu-lunar

Reprezentarea grafică a cursului valutar LEVA-RON mediu lunar din perioada martie
2017-martie 2018 este dată în Figura 1.
2.4

2.38

2.36

2.34

2.32

2.3

2.28

2.26
1 2 3 4 5 6 7 8 9 10 11 12 13

Figura 1.

1. Definirea modelului simplu de regresie:

y – variabila de ieşire este dată de cursului valutar LEVA-RON mediu lunar;


x – variabila de intrare este seria de timp exprimată în luni în perioada martie 2017-martie 2018.
n =13 numărul de date (luni) supuse analizei.
Urmărind distribuţia perechilor ( , ), 1,13 i i x y i = în plan, se observă că acestea pot fi
aproximate printr-o dreaptă (Figura 1). Prin urmare, putem spune că modelul econometric ce
descrie legătura dintre cele două variabile este un model liniar simplu de regresie, de forma:
𝑦𝑖 = a ⋅ x + b +𝜀𝑖 , i = 1,13 (1)
unde a şi b sunt parametrii modelului.
Din reprezentarea grafică, se observă că parametrul a (coeficientul pantei dreptei de
regresie), trebuie să fie mai mare decât zero, adică a > 0 , prin urmare putem spune că legătura
dintre cele două variabile este una directă.

2. Estimarea parametrilor modelului liniar de regresie

Pentru estimarea parametrilor modelului liniar de regresie a şi b vom utiliza metoda celor
mai mici pătrate.

2.4
y = 0.006x + 2.3042
R² = 0.945
2.38

2.36

2.34

2.32

2.3

2.28

2.26
1 2 3 4 5 6 7 8 9 10 11 12 13

Figura 2.

Sistemul de tip Gauss este dat de urmatoarea relaţie:


13 13 13

a ∑ xi2 + b ∑ xi = ∑ xi ⋅ yi
i =1 i =1 i=1

13 13
(2)

a ∑ xi + 13⋅ b = ∑ yi
i =1 i=1

Calculăm sumele din cadrul sistemului:


13 13 13 13

∑ xi = 91; ∑ xi2 = 819; ∑ yi = 30,50; ∑ xi ⋅ yi = 214,59


i =1 i =1 i =1 i=1
Sistemul (2) devine:
819𝑎 + 91𝑏 = 214,59
{ (3)
91𝑎 + 13𝑏 = 30,50
Rezolvăm sistemul prin metoda reducerii. Inmulţim cea de-a doua ecuaţie cu (-7),
obţinem soluţiile:
a =0,005 si b = 2,313
Ecuatia dreptei este data de:
𝑦𝑖 = 0,005𝑥𝑖 + 2,313 + ε𝑖 , i = 1,13 (4)

x y x^2 x*y y^ Ɛ=y-yˆ


1,00 2,32 1,00 2,32 2,31 0,01
2,00 2,31 4,00 4,62 2,316 -0,006
3,00 2,32 9,00 6,96 2,322 -0,002
4,00 2,33 16,00 9,32 2,328 0,002
5,00 2,33 25,00 11,65 2,334 -0,004
6,00 2,34 36,00 14,04 2,340 0
7,00 2,35 49,00 16,45 2,346 0,004
8,00 2,34 64,00 18,72 2,352 -0,012
9,00 2,36 81,00 21,24 2,358 0,001
10,00 2,37 100,00 23,7 2,364 0,006
11,00 2,37 121,00 26,07 2,370 0
12,00 2,38 144,00 28,56 2,376 0,004
13,00 2,38 169,00 30,94 2,382 -0,002
91,00 30,5 819,00 214,59 30,498 0,002

Erorile metodei MCMMP sunt:


ε𝑖 = 𝑦𝑖 − 𝑦ˆ𝑖 = 𝑦𝑖 − (0,005𝑥𝑖 + 2,313), 𝑖 = ̅̅̅̅̅̅
1,13 (5)

𝑖=1 ε𝑖 = 0,002
∑13 (6)

3. Calculul coeficientului liniar de corelaţie şi al raportului de determinare:


Coeficientul de corelaţie are rolul de a determina sensul dependenţei dintre variabilele x
şi y ale modelului de regresie, precum şi intensitatea legăturii liniare dintre cele două variabile.
Relaţia de calcul a coeficientului de corelaţie este dată de următoarea relaţie:

∑𝑛
𝑖=1(𝑥𝑖 −𝑀(𝑋))(𝑦𝑖 −𝑀(𝑌))
𝑟𝑥,𝑦 = (7)
𝑛𝜎𝑥 𝜎𝑦
Pentru calculul relaţiei (7), vom utiliza perechile de date (𝑥𝑖 , 𝑦𝑖 ), 𝑖 = ̅̅̅̅̅̅
1,13. Calculăm în
primul rând valorile medii ale celor două variabile, adică M(x) şi M( y) cu relaţiile:
∑13
𝑖=1 𝑥𝑖 91
𝑀(𝑥) = = =7
𝑛 13
(8)
∑13
𝑖=1 𝑦𝑖 30,50
𝑀(𝑦) = = = 2,346153
𝑛 13

Abaterile medii pătratice ale celor două variabile aleatoare sunt:

∑𝑛
𝑖=1(𝑥𝑖 −𝑀(𝑋))
2 ∑13
𝑖=1(𝑥𝑖 −7)
2 182
𝜎𝑥 = √ =√ =√ = 3,741657 (9)
𝑛 13 13

∑13
𝑖=1(𝑦𝑖 −𝑀(𝑌))
2 ∑13
𝑖=1(𝑦𝑖 −2,346153)
2 0,006907692
𝜎𝑦 = √ =√ =√ =0,0240202312
𝑛−1 12 12

Prin urmare, coeficientul de corelaţia are următoarea valoare:

∑𝑛
𝑖=1(𝑥𝑖 −𝑀(𝑋))∗(𝑦𝑖 −𝑀(𝑌)) 1,09
𝑟𝑥,𝑦= = =0,09329 (10)
𝑛∗𝜎𝑥 ∗𝜎𝑦 13∗3,741657∗0,0240202312

Deoarece valoarea coeficientului de corelaţie este foarte apropiată de 1, putem afirma că


între cele două variabile x şi y ale modelului de regresie există o dependenţă liniară directă foarte
puternică.
În ceea ce priveşte raportul de determinare R2 , acesta este un indicator relativ pentru
măsurarea intensității legăturii dintre variabile şi deci cu cât punctele vor fi mai apropiate de
linia de regresie estimată cu atât va fi mai bună “aproximarea”.
Raportul de determinare se calculează cu ajutorul relaţiei:
∑𝑛 (𝑦ˆ−M(y))2 0,006480
𝑅2 = ∑𝑛𝑖=1 = = 0,950 (11)
𝑖=1(𝑦𝑖 −𝑀(𝑦))2 0,006817

Cum raportul (coeficientul) de determinare este 𝑅 2 = 0,95 , rezultă că intensitatea


legăturii este foarte puternică.

4. Verificarea ipotezelor modelului liniar de regresie


În definirea regresiei liniare sunt considerate o serie de ipoteze. Acestea sunt importante
în estimarea şi stabilirea proprietăţilor modelului liniar de regresie. Ipotezele prezentate mai jos
se referă la cele două variabile ce definesc modelul liniar de regresie, dar şi la variabila reziduală.
Ipotezele statistice se verifică cu ajutorul testelor statistice. Testele statistice sunt metode
de decizie ce ne ajută la validarea sau invalidarea cu un anumit grad de siguranţă a ipotezelor
statistice
verificate.

Ipoteza 1. Seriile de date nu sunt afectate de erori de măsură

Se consideră că valorile pentru cele două variabile nu sunt afectate de erori semnificative
de măsură care să distorsioneze calitatea estimatorilor parametrilor modelului liniar de
regresie.Totuşi, pentru o verificare a acestei ipoteze se aplică aşa numita “regulă a celor trei
sigma”, adică variabilele x şi y trebuie să verifice intervalele:

𝑥 ∈ (𝑀(𝑥) ± 3𝜎𝑥 si 𝑦 ∈ 𝑀(𝑦) ± 3𝜎𝑥 (12)

sau 𝑀(𝑥) − 3𝜎𝑥 < 𝑥𝑖 < 𝑀(𝑥) + 3𝜎𝑥 si 𝑀(𝑦) − 3𝜎𝑦 < 𝑦𝑖 < 𝑀(𝑦) + 3𝜎𝑦 (13)

Pentru verificarea relaţiei (13), vom utiliza perechile de date (𝑥𝑖 , 𝑦𝑖 )𝑖 = ̅̅̅̅̅̅
1,13. Valorile
medii ale celor două variabile, adică M(x) şi M( y) au fost calculate cu relaţia (8), iar abaterile
medii pătratice 𝜎𝑥 si 𝜎𝑦 au fost calculate cu relaţia (9).

Prin urmare avem:


7 − 3 ∗ 3,741657 < 𝑥𝑖 < 7 + 3 ∗ 3,741657 → −4,224971 < 𝑥𝑖 < 18,224971 (14)
2,346153 − 3 ∗ 0,024020 < 𝑦𝑖 < 2,346153 + 3 ∗ 0,024020 → 2,274093 < 𝑦𝑖 < 2,418213

Aşa cum se observă fiecare valoare a variabilei de intrare x verifică dubla inegalitate de
mai sus. Acelaşi lucru se poate spune şi despre fiecare valoare a variabilei y. Prin urmare putem
spune că această ipoteză este verificată.

Ipoteza 2. Variabila reziduală este de medie nulă

Această ipoteză se verifică cu egalitatea:

∑𝑛
𝑖=1 𝜀𝑖 ∑13
𝑖=1 𝜀𝑖 0,002
𝑀(𝜀 ) = = = = 0,00015385 (15)
𝑛 13 13

Ipoteza 3. Variabila reziduală este repartizată normal


În cadrul acestei ipoteze, variabila reziduală trebuie să aibă o distribuţie de tip normal,
mai precis trebuie să fie de medie nulă şi dispersie D(Ɛ), adica Ɛ→ N(0, D(Ɛ)).
Pentru seria reziduului se folosesc doi indicatori utilizaţi în statistica discriptivă pentru
analiza asimetriei şi aplatizării seriei reziduurilor. Această ipoteză se verifică fie cu ajutorul
coeficientului de asimetrie şi boltire, fie cu ajutorul testului Jarque-Bera.

Metoda 1. Coeficientul de asimetrie (skewness) , notat cu S se calculează cu ajutorul relaţiei:-


∑𝑛
𝑖=1(𝜀𝑖 −𝑀(𝜀))
3 ∑13
𝑖=1(𝜀𝑖 −𝑀(𝜖))
3
𝑛 13
𝑆=
∑𝑛 (𝜀𝑖 −𝑀(𝜀))2
3 = ∑13 (𝜀 −𝑀(𝜀))2
3 = (16)
√ 𝑖
( 𝑖=1
𝑛
) (√ 𝑖=1 13 )

0,00000000692
13 0,0000000002622
= = =0,005120547
(√0,000002622) 0,0005120547

Acestă valoare a coeficientului de asimetrie ne arată faptul că, curba distribuţiei


reziduurilor are o “coadă” mai voluminoasă la stânga. Valoarea acestui indicator trebuie să fie
cât mai apropiată de zero.
Coeficientul de boltire sau aplatizare (kurtosis) , măsoară boltirea distribuţiei, este
notat cu B se calculează cu ajutorul relaţiei:

∑𝑛
𝑖=1(𝜀𝑖 −𝑀(𝜀))
4 ∑𝑛
𝑖=1(𝜀𝑖 −𝑀(𝜀))
4
𝑛 13
𝐵= 𝑛 4 = 4
∑𝑖=1(𝜀𝑖 −𝑀(𝜀))2 13 2
(√ ) ∑ (𝜀 −𝑀(𝜀))
𝑛 (√ 𝑖=1 𝑖 )
13

(17)

=0,0000000000008933 =0,0000000000008933 =
0,00000000017449
√0,000000262174 0,00511957

Valoarea acestui indicator trebuie să fie egală cu 3. Dacă valoarea coeficientului de


aplatizare este mai mică decât 3, atunci distribuţia reziduurilor este platikurtorică, iar dacă
valoarea coeficientului de aplatizare este mai mare decât 3, atunci distribuţia reziduurilor este
leptokurtorică.
Această valoare a coeficientului de asimetrie ne arată faptul că, curba distribuţiei
reziduurilor este platikurtică.
Metoda 2. În locul celor două teste verificate mai sus, pentru ipoteza de normalizare a
reziduurilor se mai poate aplica şi testul Jarque-Bera (JB), a cărui relaţii de calcul este:

𝑛 𝑛
∗ 𝑆2 + ∗ (𝐵 − 3)2
𝐽𝐵 =
6 24
13 2 13
= *0,005120547 + *(0,00000000017449 − 3)2
6 24

= 2,16*0,00002622+0,5416*8,99 = 4,62631 (18)

2
Valoarea calculată a acestui test se compară cu valoarea tabelată a statisticii 𝑥𝛼,𝑛 pentru
2 2
un prag de semnificaţie de 5% , adică 𝑥0,05;13 = 22,36. Dacă JB=4,62631 <𝑥0,05;13 =22,36
atunci ipoteza de normalizare a reziduurilor este acceptată (verificată).
Se observă că distribuţia medie lunară a cursului valutar LEVA-RON are media nulă,şi
prezintă o asimetrie negativă (ceea ce inseamna ca în periada analizata cursul de schimb LEVA-
RON a avut o tendinta de creştere–moneda leva s-a depreciat).

Ipoteza 4. Varianţa reziduurilor este constantă (ipoteza de homoscedasticitate)

Acestă ipoteză se poate verifica fie prin metoda grafică, fie cu ajutorul relaţiei:

∑13
𝐼=1 𝜀𝐼2
𝐷(𝜀 ) = = 0,0000003077 (19)
𝑛

Dispersia (varianţa) trebuie să fie constantă în acest caz.


Depistarea heteroscedasticităţii (dispersia lui nu este aceeaşi pentru toate valorile lui x) se
poate face prin procedeul grafic, adică se construieşte corelograma ce conţine valorile variabilei
independente x pe axa OX şi ale variabilei reziduale pe axa OY. Dacă valorile celor două
variabile cresc(scad) concomitent, atunci cele două variabile sunt corelate şi deci nu sunt
independente.
Pentru a verifica acestă ipoteză în afara metodei grafice se aplică testul White. Acest test
constă în verificarea statisticii Fisher sau prin verificarea statisticii LM (Lagrange Multiplicator).

Metoda 1. Testul White verificat prin statistica Fisher (statistica F) se calculează cu


ajutorul relaţiei:
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 =720,572 (20)

Valoarea calculată a acestei statistici se compară cu valoarea tabelară a statisticii


𝐹𝛼,𝑘,𝑛−𝑘−1 , pentru un prag de semnificaţie de 5%, iar k reprezintă numărul variabilelor de ieşire
din model.

𝐹0,05;1;11 = 4,844
Daca 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 = 720,572 < 𝐹0,05;1;11 = 4,844, atunci modelul de regresie este corect
specificat, adică este verificată ipoteza de homoscedasticitate (dispersia este aceeaşi pentru toate
valorile lui x).
În afara testului White, se mai poate aplica şi testul Goldfeld-Quandt sau testul Glesjer.

5. Testarea validităţii modelului de regresie


Pentru testarea validităţii modelului liniar de regresie se aplică testul Fisher (testul F), a
cărui statistică se calculează cu relaţia:
𝐷(𝑦) 0,00655
𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 = = = 720,572 (21)
𝐷(𝜀) 0,00000909091

Unde:

∑13
𝑖=1(𝑦^𝑖 −𝑀(𝑦))
2 0,00655
D(y)= = =0,00655
𝑘 1

(22)
∑13
𝑛 (𝑦𝑖 −𝑦^𝑖 )
2 0,001
D(Ɛ)= = =0,00000909091
𝑛−𝑘−1 11

Valoarea calculată a acestei statistici (care se regăseşte şi în tabelul 3), se compară cu


valoarea tabelară a statisticii𝐹𝛼,𝑘,𝑛−𝑘−1, pentru un prag de semnificaţie de 5%. K reprezinta
numarul variabilelor exogene.
Dacă 𝐹𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 = 720,572 > 𝐹0,05;11 = 4,844 , atunci modelul de regresie este corect
specificat, adică este modelul liniar de regresie este unul valid.

Previziunea prin interval de încredere


Pentru construirea unui interval de predicţie pentru valoarea variabilei de ieşire din
model, în condiţiile în care se fixează un nivel al valorii variabilei de intrare în model, se ţine
seama de următoarele două rezultate:
𝑦𝑛+1 −𝑦^𝑛+1 𝑦𝑛+1 −𝑦^𝑛+1
→ N(0,1) si →𝑡𝑛−2 (23)
𝜎𝑦𝑛+1 𝜎𝑦^𝑛+1

Pentru realizarea de previziuni în luna aprilie 2018, vom considera următoarele:


Calculăm valoarea estimată a variabilei 𝑦^𝑖 = 0,006𝑥𝑖 + 2,3042, i=1, ̅̅̅̅̅
𝑛 dată de relaţia
(7), pentru o valoare a variabilei exogene de 14:

𝑦^14 = 0,006 ∗ 14 + 2,3042 = 2,38 (24)


Prin urmare, în luna aprilie 2018 cursul mediu lunar valutar leva-ron este de 2,3882.
Vom defini în acest caz, următorul interval de predicţie, pentru un prag de semnificaţie
α = 5%, pentru a verifica dacă valoarea obţinută a cursului valutar mediu lunar LEVA-RON
poate fi una reală:

𝑦^𝑛+1 − 𝑡𝛼,𝑛−𝑘−1 ∗ 𝜎𝑦^ ≤ 𝑦𝑛+1 ≤ 𝑦 ^ 𝑛+1 + 𝑡𝛼,𝑛−𝑘−1 ∗ 𝑦^𝑛+1 (25)


𝑛+1
2,38 − 1,796 ∗0,000095981≤𝑦𝑛+1 ≤ 2,38 + 1,796 ∗0,000095981
2,379≤𝑦𝑛+1 ≤2,380 unde:
𝑡𝛼,𝑛−𝑘−1 = 𝑡0,05;11 = 1,796

si
1 𝑥𝑛+1 −𝑀(𝑥)
𝜎𝑦^𝑛+1 = 𝜎𝜀 √1 + + ∑𝑛 2
𝑛 𝑖=1((𝑥𝑖 −𝑀(𝑥))

1 14−7
=0,000009090*√1 + +
13 182
=0,000009090*1,0559
= 0,000095981

Deci intervalul de încredere, pentru luna aprilie 2018 a cursului valutar mediu lunar
LEVA RON din România de 2,38 este 2,379≤𝑦𝑛+1 ≤2,380.