Sunteți pe pagina 1din 79

Seminar1 - Recapitulare STATISTICA

1. Pentru un eşantion aleator, format din 10 salariaţi ai unei firme mari, a fost înregistrat numărul
de ore lucrate săptămânal: 36, 28, 40, 30, 34, 38, 25, 24, 36, 39.
a) Ce tip de serie de distribuţie avem în problemă?
b) Identificaţi populaţia statistică, eşantionul şi unitatea statistică.
c) Calculaţi şi interpretaţi media, mediana, valoarea modală şi asimetria.
d) Calculaţi dispersia şi abaterea standard.
e) Calculaţi şi interpretaţi coeficientul de variaţie.
f) Introduceţi datele in Excel şi calculaţi „Descriptive Statistics”.

2. Pentru un eşantion aleator, format din 80 de pachete turistice vândute de o agenţie de turism
într-o lună, a fost înregistrată valoarea acestora (în sute euro). Datele au fost sistematizate
în următoarea distribuţie de frecvenţe:
Valoare pachet turistic(sute euro) Număr pachete turistice
Sub 4 4
4−6 20
6−8 32
8−10 16
10−12 8
Notă: Limita superioară inclusă în interval

a) Ce tip de serie de distribuţie avem în problemă?


b) Calculaţi şi interpretaţi media şi mediana.
c) Calculaţi şi interpretaţi cuartila inferioară.
d) Calculaţi dispersia şi abaterea standard. Calculaţi scorurile z.
e) Calculaţi dispersia variabilei alternative ”Nr de pachete cu valoarea sub 8 sute euro”.

3. S-a constatat că durata de funcţionare a unui eşantion de becuri are media de 42 de luni,
abaterea medie pătratică de 9 luni şi mediana 40 luni.
a) Calculaţi şi interpretaţi coeficientul de variaţie.
b) Calculaţi şi interpretaţi asimetria.

4. La un magazin am notat: numărul de tablete vândute în 6 zile consecutive şi profitul obţinut (în euro).
Număr tablete vândute 5 7 1 6 2 4
Profit obţinut (în euro) 30 42 15 62 12 48
Să se caracterizeze intensitatea legăturii dintre numărul de tablete vândute şi profitul obţinut
folosind coeficientul de corelaţie liniară Peason.

5. Dacă valoarea coeficientului de corelaţie liniară Peason este −0,81, atunci legătura dintre
cele 2 variabile este:
a) Directă, liniară şi puternică;
b) Liniară şi de intensitate slabă;
c) Neliniară, inversă şi de intensitate medie;
d) Liniară, inversă şi puternică;
e) Liniară, inversă şi de intensitate slabă;

1
Seminar1 - Recapitulare STATISTICA

6. Un eşantion aleator privind timpul de servire a 49 de clienţi ai unei bănci comerciale are media
28 de minute. Timpul de servire are distribuţie normală, cu o abatere medie pătratică de 14 minute.
Estimaţi un interval de încredere pentru timpul de servire a unui client, pentru o probabilitate de
încredere (de garantare a rezultatelor) de 95% (valoare tabelară z = 1,96)

7. Procesul de sistematizare şi de calcul al indicatorilor statistici ce caracterizează o colectivitate


statistică se numeşte:
a) Statistică inferenţială;
b) Eşantionare statistică;
c) Statistică descriptivă
d) Observare statistică;
e) Recensământ statistic.

2
Seminar1 - Solutii la Recapitulare STATISTICA

1. a) Serie simplă
b) Populaţia statistică: Mulţimea salariaţilor unei firme mari
Eşantionul: Cei 10 salariaţi selectaţi aleator
Unitatea statistică: Un salariat
c) Calculaţi şi interpretaţi media, mediana şi valoarea modală
∑𝑛
𝑖=1 𝑥𝑖 330
𝑥̅ = = = 33 ore
𝑛 10
Interpretare: Spunem că, în medie, salariaţii firmei analizate lucrează săptămânal 33 ore.

Vom ordona crescător termenii seriei şi le vom acorda numere de ordine (în paranteze):
𝑥𝑖 24 25 28 30 34 36 36 38 39 40
Numere de ordine (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

𝑛+1 10+1
𝐿𝑜𝑐𝑀𝑒 = 2
= 2 = 5,5  mediana este media aritmetică termenilor x5 si x6, ai seriei ordonate crescător
𝑀𝑒 = 35 ore.
Interpretare: 50% din salariaţii firmei analizate lucrează săptămânal sub 35 ore iar 50% din salariaţii firmei
lucrează săptămânal peste 35 ore
Valoarea modală este valoarea cu cea mai mare frecvenţă de apariţie. 36 apare de 2 ori.  𝑀𝑜 = 36 ore.
Interpretare: Cel mai frecvent, salariaţii firmei analizate lucrează săptămânal 36 ore
Asimetria:
𝐴𝑠=3(𝑥̅−𝑀𝑒) = 3(33-35) = −6  asimetrie negativa, predomină valorile mari
𝐴𝑠=𝑥̅−𝑀𝑜 = 33-36 = −3  asimetrie negativa, predomină valorile mari.

d) Dispersia (în cazul seriilor simple) se calculează folosind formula:


2 ∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2 308
𝑠 = = = 34,2222
𝑛−1 9
Abaterea medie pătratică (sau deviaţia standard sau abaterea standard):
𝑠 = √𝑠 2 = √34,2222 = 5,8499
Interpretare: În medie, numărul de ore lucrate se abate de la medie cu 5,85 ore.
e) Coeficientul de variaţie
𝑠 5,85
𝑣 = ∙ 100 = ∙ 100 = 17,73%  35%  seria este omogenă  media este reprezentativă.
𝑥̅ 33

f) Selectăm: Data, apoi Data Analysis şi apoi Descriptive Statistics din lista de instrumente afişate.

Ce facem dacă nu apare Data Analysis în menu?


Selectăm File → Options → Add-Ins → Go → bifăm opţiunea Analysis ToolPak → OK.

1
Seminar1 - Solutii la Recapitulare STATISTICA

2. a) Serie de distribuţie de frecvenţe pe intervale de variaţie egale.


b) Calculaţi şi interpretaţi media şi mediana
Vom efectua calculele şi vom trece toate datele în tabel:
Grupe pachete turistice Fr.abs Centre 𝑥𝑖 ∙ 𝑛𝑖 Fr.abs.cum. (𝑥𝑖 − 𝑥̅ )2 ∙ 𝑛𝑖
după valoare(sute euro) 𝑛𝑖 𝑥𝑖 cresc. 𝐹𝑐𝑖
2−4 4 3 12 4 67,24
4−6 20 5 100 24 88,2
6−8 32 7 224 56 0,32
8−10 16 9 144 72 57,76
10−12 8 11 88 80 121,68
Totaluri 80 35 568 − 335,2
Notă: Limita superioară a intervalului inclusă în interval.

∑𝑟𝑖=1 𝑥𝑖 ∙𝑛𝑖 568


𝑥̅ = ∑𝑟𝑖=1 𝑛𝑖
= = 7,1 sute euro
80
Interpretare: În medie, un pachet turistic are valoarea de 7,1 sute euro (710 euro).
Pentru o serie de distributie frecvenţe pe intervale de variaţie, mediana se poate determina astfel:
1. Se cumulează crescător frecvenţele absolute  𝐹𝑐𝑖
2. Se determină locul medianei în cadrul seriei cu formula:
𝑛+1 80+1
𝐿𝑜𝑐𝑀𝑒 = 2 = = 2 = 40,5
3. Se identifică intervalul median (intervalul care conţine mediana) ca fiind primul interval a cărui frecvenţă
absolută cumulată este imediat mai mare sau egală cu 𝐿𝑜𝑐𝑀𝑒 .
Observăm că Frecvenţa cumulată 𝐹𝑐3 = 56  40,5
 Intervalul 3 este intervalul median.  Mediana se găseşte în intervalul 6−8.
 𝑀𝑒 ≈ 7 sute euro (mediana poate fi aproximată cu valoarea din mijlocul intervalului median)
Interpretare: 50% dintre pachetele turistice analizate au valoarea sub 700 euro iar 50% dintre pachetele turistice
analizate au valoarea peste 700 euro.

2
Seminar1 - Solutii la Recapitulare STATISTICA

c) Calculaţi şi interpretaţi cuartila inferioară.


Cuartila inferioară este notată 𝑸𝟏 şi delimitează cele mai mici 25% din valori.
𝑛+1 80+1
𝐿𝑜𝑐𝑄1 = 4 = 4 = 20,25 Prima 𝐹𝑐𝑖 ≥ 𝐿𝑜𝑐𝑄1 este 24  20,25  𝑄1 se află intervalul 4−6.
 𝑄1 ≈ 5 sute euro (𝑄1 poate fi aproximat cu valoarea din mijlocul intervalului care conţine pe 𝑄1 )
Interpretare: 25% dintre dintre pachetele turistice analizate au valoarea sub 500 euro iar 75% dintre pachetele
turistice analizate au valoarea peste 500 euro.

d)
∑𝑟𝑖=1(𝑥𝑖 −𝑥̅ )2 ∙𝑛𝑖 335,2
𝑠2 = ∑𝑟𝑖=1 𝑛𝑖
= = 4,19
80
Abaterea standard sau deviaţia standard sau abaterea medie pătratică
𝑠 = √𝑠 2 = √4,19 = 2,05 sute euro
Interpretare: În medie, un pachet turistic se abate de la medie cu 2,05 sute euro.

Pentru a putea compara variabile cu unităţi de măsură diferite se calculeaza scorurile z.


Scorul z se calculează prin scăderea mediei din fiecare valoare şi împărţirea rezultatului la
abaterea standard, obţinându-se astfel distanţa dintre o anumită valoare şi medie, în unităţi
ale abaterii standard:
𝑥𝑖 −𝑥⃐
− Scorul z pentru o observaţie xi din eşantion se calculeaza cu formula:
𝑠

e) Calculaţi dispersia variabilei alternative ”Nr de pachete cu valoarea sub 8 sute euro”
m 56
Media variabilei alternative: f= n
= 80 = 0,7
Interpretare: aproximativ 70% din pachetele turistice au valori sub 8 sute euro
Dispersia variabilei alternative: 𝑠 2𝑓 = f(1 − f) = 0,7 ⋅ 0,3 = 0,21.

3. a) Calculaţi şi interpretaţi coeficientul de variaţie.


Din enunt avem : 𝑥̅ = 42, 𝑠 = 9 iar 𝑀𝑒 = 40.
Coeficientul de variaţie:
𝑠 9
𝑣 = 𝑥 ⋅ 100 = 42 ∗ 100 = 21,43%
Interpretare: Deoarece v  35% seria este omogenă; media este reprezentativă

b) Calculaţi şi interpretaţi asimetria.


𝐴𝑠 = 3(𝑥̅ − 𝑀𝑒 ) = 3(42 − 40) = 6  0  asimetrie pozitivă; predomină valorile mici

4. Calculaţi şi interpretaţi coeficientul de corelaţie Pearson

𝑛 ∑𝑛𝑖=1 𝑥𝑖 ⋅ 𝑦𝑖 − ∑𝑛𝑖=1 𝑥𝑖 ⋅ ∑𝑛𝑖=1 𝑦𝑖


𝑟𝑥𝑦 = ∈ [−1,1]
2 2
√[𝑛 ⋅ ∑𝑛𝑖=1 𝑥𝑖2 − (∑𝑛𝑖=1 𝑥𝑖 ) ] ⋅ [𝑛 ⋅ ∑𝑛𝑖=1 𝑦𝑖2 − (∑𝑛𝑖=1 𝑦𝑖 ) ]

Am facut calculele intermediare:

3
Seminar1 - Solutii la Recapitulare STATISTICA

 Am obtinut 𝑟𝑥𝑦 = 0,78

Verificati apoi, folosind functia „Correlation” din Excel

5. d) Legatura este Liniară, inversă şi puternică;

6. Observaţie: Vom face Inferenţă statistică


Trebuie să facem distincţie între populaţie, eşantion, parametru şi valoarea estimată a parametrului.
Vom estima media populaţiei (notată cu ) pe interval de încredere.
Parametrul populatiei, , este necunoscut. La nivelul eşantionului vom calcula media de selecţie 𝒙
̅.
Intervalul de încredere 100(1−)% pentru media , a populaţiei, este de forma:
𝑠
𝑥̅ ± 𝑧𝛼/2 ∙
√𝑛
Pasul 1) Culegem datele din problemă
Variabila de interes este X: Timpul de servire. Vrem să ştim care este timpul mediu de servire.
Din eşantion avem: 𝑛 = 49 clienţi, 𝑥̅ = 28 min, 𝑠 = 14 min.
𝒔 𝟏𝟒
Pasul 2) determinăm Eroarea standard (eroarea medie probabilă): 𝒔𝒙̅ = 𝒏 = = 2 min
√ √𝟒𝟗
Pasul 3) calculăm Eroarea de estimaţie (Eroarea maximă admisă):
𝒔
∆𝑥̅ = 𝑧𝛼/2 ∙ 𝑠𝑥̅ = 𝑧𝛼 ∙ 𝒏 = (1,96) ∙ 2  4
2 √
Pasul 4) calculăm intervalul de încredere şi interpretăm rezultatul. Intervalul de încredere este:
𝑠 𝑠
𝑥̅ − ∆𝑥̅ ≤ 𝜇 ≤ 𝑥̅ + ∆𝑥̅ sau 𝑥̅ − 𝑧𝛼 ∙ ≤ 𝜇 ≤ 𝑥̅ + 𝑧𝛼/2 ∙
2 √𝑛 √𝑛
 28 − 4 ≤ 𝜇 ≤ 28 + 4  24 ≤ 𝜇 ≤ 32
Concluzie: Timpul mediu de servire a unui client, pentru o probabilitate de încredere (de garantare a
rezultatelor) de 95% , este cuprins între aproximativ 24 şi 32 de minute.

7. c)

4
Recapitulare. Noţiuni de Teoria Probabilităţilor şi Statistică Matematică

Variabile aleatoare unidimensionale


Variabila aleatoare este o mărime care poate lua orice valoare, necunoscută aprioric, depinzând de
rezultatul efectuării unui anumit experiment, rezultat care este imposibil de precizat. Variabila aleatoare
este o funcţie reală definită pe mulţimea 𝛺, a evenimentelor elementare asociate experimentului
considerat. Orice funcţie 𝑋: 𝛺 →ℝ se numeşte variabilă aleatoare.

Variabila aleatoare discretă are un număr finit de valori sau o mulţime cel mult numărabilă de valori.
Repartiţia sau distribuția de probabilitate a unei variabile aleatoare discrete se scrie sub forma unui
tablou în care prima linie conţine toate valorile posibile ale variabilei (𝑥𝑖 ,𝑖 = 1,2, . ..), iar a doua linie
conţine probabilităţile de apariţie ale acestor valori (𝑃(𝑋 = 𝑥𝑖 ) = 𝑝𝑖 ,𝑖 = 1,2, . ..).
𝑥1 𝑥2 ⋯ 𝑥𝑖 ⋯ 𝑥𝑖
𝑋: (𝑝 𝑝 ⋯ 𝑝 ⋯) sau 𝑋: (𝑝 ), 𝑖 ∈ 𝐼 ⊂ 𝑁 ∗
1 2 𝑖 𝑖
1) 𝑝𝑖 ≥ 0 (∀)𝑖 ∈ 𝐼
2) ∑𝑖∈𝐼 𝑝𝑖 = 1
𝑥
Variabila aleatoare continuă are un număr infinit de valori 𝑋: (𝑓(𝑥)), unde 𝑥 ∈ 𝐼 ⊂ ℝ
Funcţia densitate de probabilitate: 1)𝑓(𝑥) ≥ 0, (∀)𝑥 ∈ 𝑅

2) ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
𝑏
3) ∫𝑎 𝑓(𝑥)𝑑𝑥 = 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
Funcţia de repartiţie a v. a. X:

𝑥
𝐹(𝑥) = 𝑃(𝑋 < 𝑥) = ∫−∞ 𝑓(𝑡)𝑑𝑡

Caracteristici numerice ale variabilelor aleatoare:


Valoarea medie: 𝜇 = 𝑀(𝑋) = 𝐸(𝑋)
Proprietăţi ale mediei: (𝑎) = 𝑎(∀)𝑎 ∈ 𝑅
𝐸(𝑎 ⋅ 𝑋) = 𝑎 ⋅ 𝐸(𝑋)
𝐸(𝑎 ⋅ 𝑋 ± 𝑏 ⋅ 𝑌) = 𝑎 ⋅ 𝐸(𝑋) ± 𝑏 ⋅ 𝐸(𝑌)
𝐸(𝑋 ⋅ 𝑌) = 𝐸(𝑋) ⋅ 𝐸(𝑌) numai dacă X,Y − v.a.independente.
Dispersia (Varianţa) şi abaterea medie pătratică: D( X ) = Var ( X ) = 𝜎 2 , 𝜎 = √𝜎 2
Proprietăţi ale dispersiei:
𝐷(𝑎) = 0(∀)𝑎 ∈ 𝑅
𝐷(𝑎 ⋅ 𝑋) = 𝑎2 ⋅ 𝐷(𝑋)
𝐷(𝑎 ⋅ 𝑋 ± 𝑏 ⋅ 𝑌) = 𝑎 ⋅ 𝐷(𝑋) + 𝑏 ⋅ 𝐷(𝑌) numai dacă X,Y − v.a.independente.
2 2

Variabile aleatoare bidimensionale: (𝑋, 𝑌). 𝑓(𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑦)


– Variabile aleatoare condiţionate: (𝑋|𝑌 = 𝑦) sau (𝑌|𝑋 = 𝑥)
– Medii condiţionate: 𝐸(𝑋|𝑌 = 𝑦) sau 𝐸(𝑌|𝑋 = 𝑥)
– Covarianţa dintre X şi Y: 𝑐𝑜𝑣( 𝑋, 𝑌)
𝑐𝑜𝑣(𝑋,𝑌) 𝐸(𝑋𝑌)−𝐸(𝑋)𝐸(𝑌)
– Coeficientul de corelaţie liniară: 𝜌(𝑋, 𝑌) = 𝜎 𝜎 = ∈ [−1, +1].
𝑋 𝑌 √𝐷(𝑋)𝐷(𝑌)

1
Distribuţii de probabilitate teoretice, continue

1) Distribuţia Normală, cu parametrii 𝜇 şi 𝜎 2 (𝑋~𝑁(𝜇, 𝜎 2 ))


Spunem că o v.a. are o distribuţie normală de parametrii 𝜇 şi 𝜎 şi notăm prin 𝑋~𝑁(𝜇, 𝜎 2 ), dacă are
funcţia densitate de probabilitate (pdf) de forma
1 𝑥−𝜇 2
1
𝑓(𝑥) = 𝜎√2𝜋 𝑒 −2( )
𝜎 , 𝑥 ∈ 𝑅, 𝜇 ∈ 𝑅, 𝜎 > 0.
Media variabilei este 𝐸(𝑋) = 𝜇 iar varianţa (dispersia) este 𝐷(𝑋) = 𝑉𝑎𝑟(𝑋) = 𝜎 2 .
Distribuţia normală este utilizată atunci când o caracteristică este supusă unui număr mare de influenţe
întîmplătoare, de slabă intensitate şi independente unele de altele. Distribuţia normală este cea mai
cunoscută distribuţie continuă folosită în statistică, pentru că:
– Numeroase variabile continue, folosite în afaceri, au distribuţii care sunt asemănătoare distribuţiei
normale.
– Distribuţia normală poate fi utilizată pentru a aproxima diferite distribuţii de probabilitate discrete.
– Distribuţia normală oferă bazele pentru inferenţa statistică clasică, datorită relaţiei sale cu teorema
limită centrală.

Funcţia densitate de probabilitate a distribuţiei normale cu media 𝜇 şi abaterea standard 𝝈 are


următoarele proprietăţi:
– Este simetrică faţă de dreapta 𝑥 = 𝜇. Datorită simetriei, modul, mediana şi media distribuţiei normale
sunt egale. Media poate lua orice valoare: negativă, pozitivă sau zero.
– Este unimodală: derivata lui f este pozitivă pentru 𝑥 < 𝜇, negativă pentru 𝑥 > 𝜇 şi zero dacă 𝑥 = 𝜇
– Punctele 𝑥 = 𝜇 − 𝜎 şi 𝑥 = 𝜇 + 𝜎 sunt puncte de inflexiune (unde derivata de ordinul doi este 0)
– Domeniul valorilor este de la −∞ la +∞. Curba se extinde, fără a atinge axa Ox, de la −∞ la +∞.
– Aria totală de sub curba care reprezintă 𝑓(𝑥) trebuie să fie egală cu 1.

⚫ Distribuţia normală standard, Z ~ N(0,1), (distribuţia normală normată sau normală redusă)
Orice distribuţie normală 𝑋~𝑁(𝜇, 𝜎 2 ) poate fi redusă la distribuţia normală standard folosind
𝑋−𝜇
transformarea 𝑍 = 𝜎 şi 𝑍~𝑁(0,1).

2
⚫ Dacă 𝛼 ∈ (0,1) se numeşte cuantilă de rang 𝜶 a repartiţiei normale standard Z, un număr 𝑧𝛼 cu
următoarea proprietate: 𝑃(𝑍 > 𝑧𝛼 ) = 𝑃(𝑍 ≥ 𝑧𝛼 ) = 𝛼 şi 𝑃(𝑍 < 𝑧𝛼 ) = 1 − 𝛼.

⚫ Există tabele care dau 𝑷(𝒁 > 𝒛𝜶 ) = 𝜶 .


⚫ Regula empirică şi distribuţia normală (Regula 68-95-99,7 pentru distribuţiile normale)
68,2% din observaţii se vor afla între 𝜇 − 𝜎 şi 𝜇 + 𝜎
95,4% din observaţii se vor afla între 𝜇 − 2𝜎 şi 𝜇 + 2𝜎
99,7% din observaţii se vor afla între 𝜇 − 3𝜎 şi 𝜇 + 3𝜎
𝑃(𝜇 − 𝜎 ≤ 𝑋 ≤ 𝜇 + 𝜎) = 𝑃(−1 ≤ 𝑍 ≤ 1) ≈ 0,682
𝑃(𝜇 − 2𝜎 < 𝑋 < 𝜇 + 2𝜎) = 𝑃(−2 < 𝑍 < 2) ≈ 0,954
𝑃(𝜇 − 3𝜎 < 𝑋 < 𝜇 + 3𝜎) = 𝑃(−3 < 𝑍 < 3) ≈ 0,997
Aria de sub fiecare secţiune a curbei normale poate fi văzută în următoarea diagramă:

Teorema Limită Centrală constituie baza teoretică pentru larga aplicabilitate a distribuţiei normale.
Fie 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 variabile aleatoare independente, identic distribuite, cu media 𝜇 şi dispersia 𝜎 2 .
∑𝑛 𝑋
Fie 𝑋̄ = 𝑖=1 𝑖 . Atunci când 𝑛 → ∞ avem:
𝑛
𝜎2 𝑋̄ −𝐸(𝑋̄ ) 𝑋̄ −𝜇
1) 𝑋̄~𝑁(𝜇, ) 2) 𝑍 = = 𝜎/ ~𝑁(0,1).
𝑛 𝜎𝑋̄ √𝑛
2) Distribuţia Hi-pătrat (Chi-squared) cu n grade de libertate − 𝝌𝟐𝒏
Teoremă: Fie 𝑍1 , 𝑍2 , . . . , 𝑍𝑛 ~𝑁(0,1) variabile aleatoare independente.
Atunci variabila aleatoare 𝑋 = 𝑍12 + 𝑍22 + ⋯ + 𝑍𝑛2 ~𝜒𝑛2

3
n – număr grade de libertate (corespunde numărului de termeni din sumă).
O v. a. cu distribuţie Hi–pătrat este totdeauna nenegativă şi graficul lui 𝑓(𝑥) nu este simetric. Forma sa
grafică, asimetrică spre dreapta, depinde numai de numărul gradelor de libertate.
Distribuţia Hi–pătrat se foloseşte pentru că apar frecvent situaţii în care intervin sume de pătrate de v.a.
independente una de alta, urmând fiecare o distribuţie normală.
⚫ Există tabele care dau funcţia de repartiţie Hi–pătrat.

(𝑛−1)𝑠2
Teoremă: Variabila 𝑈 = urmează o distribuţie 𝜒 2 cu (n−1) grade de libertate.
𝜎2

3) Distribuţia Student 𝑡~𝑆𝑛 (sau notaţia 𝑡~𝑡𝑛 )


Este folosită în statistica clasică şi analiza de regresie
Obţinem o v.a. cu distribuţie Student dintr-o variabilă normală standard şi una Hi-pătrat.

Teoremă: Fie 𝑍~𝑁(0,1) şi 𝑋~𝜒𝑛2 v.a. independente. Atunci variabila aleatoare


𝑡 = 𝑍⁄√𝑋/𝑛 are o distribuţie Student cu n grade de libertate (df=n).

Densitatea de repartiţie are o formă similară cu cea a distribuţiei normale standard şi converge spre
distribuţia normală standard pe măsură ce numărul gradelor de libertate creşte.

𝑋̄ −𝜇
Teoremă: Variabila 𝑡 = 𝑠/ are o distribuţie Student cu (n-1) grade de libertate.
√𝑛

4) Distribuţia F (Fisher-Snedecor)
Teoremă: Fie două v.a. independente: 𝑿𝟏 ~𝝌𝟐𝒏𝟏 şi 𝑋2 ~𝜒𝑛22 . Atunci, v.a.
(𝑋 /𝑛 )
𝐹 = (𝑋1/𝑛1) are o distribuţie F cu (𝑛1 , 𝑛2 ) grade de libertate. Notăm 𝐹~𝐹𝑛1 ,𝑛2
2 2

4
𝑛1 este asociat cu variabila de la numărător; 𝑛2 este asociat cu variabila de la numitor.
– Distribuţia F este asimetrică la dreapta.

– Pătratul unei v.a. 𝑡𝑛 are o distribuţie 𝐹1,𝑛 . Simbolic, 𝑡𝑛2 = 𝐹1,𝑛

INFERENŢA STATISTICĂ
Prin inferenţă statistică se înţelege obţinerea de concluzii bazate pe o evidenţă statistică, adică pe
informaţii obţinute dintr-un eşantion. Concluziile sunt asupra caracteristicilor populaţiei din care provine
eşantionul.
Estimarea şi testarea ipotezelor constituie cele două ramuri ale inferenţei statistice clasice.

• ESTIMAREA. Estimarea este operaţia de stabilire, în baza datelor unui eşantion, a valorilor
parametrilor repartiţiei populaţiei din care a fost extras eşantionul.
Putem avea estimare punctuală sau estimare prin interval de încredere.
Estimarea punctuală
Considerăm o populaţie caracterizată de o v.a. teoretică X, care are o lege de probabilitate cunoscută,
𝑓(𝑥, 𝜃), dar 𝜃 este un parametru necunoscut.
Prin parametru al unei populatii întelegem un număr ce descrie, într- un anumit sens, populatia.
Extragem o selecţie aleatoare (𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ) din populaţie şi folosim datele din eşantion pentru a estima
parametrii necunoscuţi.
𝜃̂ = 𝑓(𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ) se numeşte statistică sau estimator. O valoare numerică particulară:
𝜃̂ = 𝑓(𝑥1 , 𝑥2 , . . . , 𝑥𝑛 ) este o estimaţie a parametrului real 𝜃.
Menţionăm că 𝜃̂ poate fi tratat ca o v.a. deoarece este o funcţie de datele de selecţie.
Estimarea punctuală furnizează o singură valoare (estimaţie ) a lui 𝜃.
Estimatori punctuali se obţin prin MCMMP şi prin metoda verosimilităţii maxime.
Proprietăţi ale estimatorilor
𝜃̂ s.n. estimator nedeplasat pentru parametrul 𝜃 dacă 𝐸(𝜃̂) = 𝜃
𝜃̂ este estimator liniar al lui 𝜃 dacă este o funcţie liniară de datele de observaţie.
𝜃̂ este estimator eficient al lui 𝜃 dacă este estimator de varianţă minimă.
Notaţii:
Indicatorul Populaţia generală Eşantion
∑𝑁
𝑖=1 𝑋𝑖 ∑𝑛
𝑖=1 𝑥𝑖
Media 𝜇= 𝑥̄ =
𝑁 𝑛
2 ∑𝑁
𝑖=1(𝑋𝑖 −𝜇)
2
2 ∑𝑛
𝑖=1(𝑥𝑖 −𝑥̄ )
2
Varianţa (Dispersia) 𝜎 = 𝑁
𝑠 = 𝑛−1
Abaterea medie pătratică 𝜎 = √𝜎 2 𝑠 = √𝑠 2
(abaterea standard)
5
Media aritmetică 𝑋̄ este estimator nedeplasat pentru media populaţiei 𝜇.
Abaterea standard 𝑠 este estimator nedeplasat pentru abaterea standard a populaţiei, 𝜎.

Estimarea prin Intervale de încredere


În loc să obţinem o singură estimaţie a parametrului 𝜃, putem obţine două estimaţii pentru 𝜃.
𝑃(𝜃̂1 ≤ 𝜃 ≤ 𝜃̂2 ) = 1 − 𝛼,
0 < 𝛼 < 1 se numește nivel de semnificaţie (prag de semnificaţie)
1 − 𝛼 se numește coeficient de încredere.
Intervale de încredere pentru valoarea medie a populaţiei
Dacă dispersia 𝜎 2 este cunoscută, intervalul de încredere pentru media populaţiei este:
𝜎 𝜎
(𝑋̄ − 𝑧𝛼 𝑛 ≤ 𝜇 ≤ 𝑋̄ + 𝑧𝛼 𝑛).
2 √ 2 √
Pentru pragul de semnificatie 𝛼 = 0,05 avem:

Obţinerea intervalelor de încredere pentru media 𝝁, pe baza distribuţiei Student.


Dacă dispersia 𝝈𝟐 nu este cunoscută, un interval de încredere pentru media populaţiei este
𝑠 𝑠
(𝑋̄ − 𝑡𝛼;𝑛−1 ≤ 𝜇 ≤ 𝑋̄ + 𝑡𝛼;𝑛−1 )
2 √𝑛 2 √𝑛

•TESTAREA IPOTEZELOR
Se numeşte ipoteză statistică orice presupunere despre parametrii unei populaţii statistice sau despre
distribuţia de probabilitate a populaţiei statistice.
Considerăm o v.a. X, având o pdf cunoscută 𝑓(𝑥, 𝜃), unde 𝜃 este parametrul distribuţiei. Parametrul real
𝜃 este necunoscut. Având o selecţie aleatoare de volum n, obţinem estimatorul punctual 𝜃̂.
Întrebare: H0: 𝜃 = 𝜃0 ?
Ar putea eşantionul nostru să provină dintr-o distribuţie avînd 𝑓(𝑥, 𝜃 = 𝜃0 )?
Ipoteza nulă H0 este testată contra ipotezei alternative H1: 𝜃 ≠ 𝜃0
Ipoteză nulă (H0) = constă în faptul că admitem caracterul întâmplător al deosebirilor, adică presupunem
că nu există deosebiri esenţiale.
Ipoteză alternativă (H1) = este o teorie care contrazice ipoteza nulă. Ea va fi acceptată doar când există
suficiente dovezi pentru a se stabili că este adevărată.
Testul statistic este utilizat drept criteriu de acceptare sau de respingere a ipotezei nule
Regiunea critică, Rc = valorile numerice ale testului statistic pentru care ipoteza nulă va fi respinsă.
Rc este aleasă astfel încât probabilitatea ca ea să conţină testul statistic, când ipoteza nulă este adevărată
să fie α, cu α mic (α=0,05; α=0,01; α=0,10).
Dacă valoarea testului cade în regiunea critică Rc, respingem ipoteza H0, iar dacă este în afara regiunii
critice Rc, acceptăm ipoteza H0.
Regiunea critică este delimitată de o valoare critică (𝑧𝛼 ,𝑧𝛼/2,𝑡𝛼 ,𝑡𝛼/2 ).
În luarea deciziei de acceptare sau de respingere a ipotezei H0 se pot comite 2 tipuri de erori:
Eroarea de genul întâi = eroarea pe care o facem dacă respingem ipoteza nulă, deşi este adevărată.
Riscul de genul întâi (α) = probabilitatea comiterii unei erori de genul întâi; se numeşte nivel sau prag
de semnificaţie.

6
Eroarea de genul al doilea = eroarea pe care o facem dacă acceptăm ipoteza nulă, deşi este falsă.
𝛼 = 𝑃(resping H0 |𝐻0 = adev.) este risc de genul întâi (nivel de semnificaţie)
𝛽 = 𝑃(accept H0 |𝐻0 = falsă) este risc de genul al doilea

Ipoteza adevărată
Decizia de acceptare
H0 H1
Decizie corectă Eroare de gen II
H0
(probabilitate 1-𝜶) (risc β)
Eroare de gen I Decizie corectă
H1
(risc 𝜶) (probabilitate 1-β)

Etape în testarea ipotezelor:


1) Se formulează ipoteza nulă şi ipoteza alternativă
Ipoteza nulă (H0) se referă la afirmaţii supuse testării. Ea specifică întotdeauna o singură
valoare a parametrului populaţiei şi reprezintă ceea ce este acceptat până se dovedeşte a fi fals.
Ipoteza alternativă (H1) se referă la afirmaţii care vor fi acceptate dacă se respinge ipoteza nulă.
2) Se determină testul statistic ce va fi utilizat drept criteriu de acceptare sau de respingere a ip. nule.
3) Se stabileşte nivelul de semnificație α. Se stabileşte regiunea critică, Rc. Regiunea critică
reprezintă valorile numerice ale testului statistic pentru care ipoteza nulă va fi respinsă.
4) Se calculează indicatorii statistici în eşantion şi valoarea testului statistic.
5) Se stabileşte regula de decizie:
a) dacă valoarea numerică a testului statistic cade în regiunea critică (Rc), respingem ipoteza
nulă şi acceptăm că ipoteza alternativă este adevărată.
b) dacă valoarea numerică a testului nu cade în regiunea critică (Rc), acceptăm ipoteza nulă.

Testarea ipotezei privind media populaţiei (μ) pentru eşantioane de volum mare (𝒏 > 𝟑𝟎)
Etapa 1) Stabilirea ipotezelor
Testul unilateral dreapta Testul unilateral stânga Testul bilateral

𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 > 𝜇0 𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0

Etapa 2) Stabilirea testului statistic (a statisticii testului)


𝑋̄ −𝜇 𝑋̄ −𝜇
𝑍 = 𝜎/ ≅ 𝑠/ ~𝑁(0,1)
√ 𝑛 √𝑛

Etapa 3) Nivelul de semnificaţie  şi Regiunea critică (RC) sau de respingere (RR) a ipotezei H0.

𝑅𝑐 : 𝑧𝑐𝑎𝑙𝑐 > 𝑧𝛼 𝑅𝑐 : 𝑧𝑐𝑎𝑙𝑐 < −𝑧𝛼 𝑅𝑐 : 𝑧𝑐𝑎𝑙𝑐 < −𝑧𝛼 𝑠𝑎𝑢 𝑧𝑐𝑎𝑙𝑐 > 𝑧𝛼/2
2
7
Etapa 4) Folosim datele din eşantion şi calculăm valoarea testului statistic:
𝑥̄ −𝜇0 𝑥̄ −𝜇0
𝑧𝑐𝑎𝑙𝑐 = sau 𝑧𝑐𝑎𝑙𝑐 =
𝜎/√𝑛 𝑠/√𝑛

Etapa 5) Decizia: Dacă 𝑧𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1.

Testarea ipotezei privind media populaţiei (μ) pentru eşantioane de volum mic (𝑛 ≤ 30) și
 necunoscut.
Se presupune că 𝑋~𝑁(𝜇, 𝜎 2 ) cu  necunoscut.
Etapa 1) Stabilirea ipotezelor
Testul unilateral dreapta Testul unilateral stânga Testul bilateral

𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 > 𝜇0 𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0

Etapa 2) Stabilirea testului statistic (a statisticii testului)


𝑋̄ −𝜇
𝑡 = 𝑠/ ~𝑆𝑛−1 (are o distribuţie Student cu (n-1) grade de libertate).
√𝑛

Etapa 3) Nivelul de semnificaţie  şi Regiunea critică sau de respingere a ipotezei H0.

(TUD) (TUS) (TB)

𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−1 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−1 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−1 𝑠𝑎𝑢 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−1
2 2

Etapa 4) Folosim datele din eşantion şi calculăm valoarea testului statistic:


𝑥̄ − 𝜇0
𝑡𝑐𝑎𝑙𝑐 =
𝑠/√𝑛

Etapa 5) Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1.

8
Seminar 2 Modelul de regresie liniară simplă (unifactorială)

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
1) Exemple de modele de regresie liniară unifactorială.
2) Analiza existenței legăturii dintre două variabile.
3) Estimarea parametrilor prin metoda celor mai mici pătrate. Interpretarea parametrilor.
4) Estimarea parametrilor prin metoda celor mai mici pătrate, utilizând Excel.
5) Estimarea parametrilor prin metoda celor mai mici pătrate, utilizând EViews.

1) Exemple de Modele de Regresie liniară unifactorială

M1. Cheltuielile pentru Vacanţă = f (Venitul Familiei)


Cheltuielile alocate de o familie pentru petrecerea Vacanţei într-un an depind de Venitul Familiei, realizat
în acel an.
Teoria economică postulează o dependenţă liniară directă între cele două variabile. Astfel, la un nivel dat
al venitului familiei se defineşte, în medie, o relaţie liniară. Avem valoarea medie condiţionată:
𝐸(𝐶𝑉|𝑉𝐹) = 𝛽0 + 𝛽1 ⋅ 𝑉𝐹
Cheltuielile pentru Vacanţă depind şi de alţi factori neînregistraţi. Influenţa lor este cuantificată în cadrul
modelului de regresie prin variabila de perturbaţie ε (eroarea aleatoare):
𝜀 = 𝐶𝑉 − 𝐸(𝐶𝑉|𝑉𝐹) ⇒ 𝐶𝑉 = 𝛽0 + 𝛽1 ⋅ 𝑉𝐹 + 𝜀

M2. Venitul Obţinut = f (Nivelul de Pregătire Profesională)


Venitul Obţinut (VO) de o persoană într-o anumită perioadă de timp depinde de Nivelul de Pregătire
Profesională (NPP) al acelei persoane.
Definim modelul econometric liniar ce poate explica variaţia Venitului Obţinut de angajaţii unei firme în
funcţie de Nivelul de Pregătire Profesională al acestora.
La o creştere a NPP are loc şi o creştere a VO.
În condiţii normale ar trebui ca 𝛽1 > 0.
Două persoane care au acelaşi NPP pot avea venituri diferite, deoarece VO depinde şi de alţi factori, cum
ar fi: vechimea în cadrul firmei, funcţia ocupată, producţia realizată. Influenţa acestor factori asupra
Venitului Obţinut este sintetizată în variabila de perturbaţie ε.
𝑉𝑂 = 𝛽0 + 𝛽1 ⋅ 𝑁𝑃𝑃 + 𝜀

M3. Nivelul Corupţiei într-o ţară, nivel măsurat prin Indicele Corupţiei (IC), depinde de gradul de
dezvoltare al acelei ţări, măsurat prin Indicele Dezvoltării Umane (IDH).
IC = f (IDH) ⇒ 𝐼𝐶 = 𝛽0 + 𝛽1 ⋅ 𝐼𝐷𝐻 + 𝜀
IC este un indicator ce măsoară corupţia dintr-o ţară, în percepţia investitorilor străini.
IDH - caracterizează nivelul de trai al populaţiei unei ţări (se foloseşte PIB/locuitor).

2) Analiza existenței legăturii dintre două variabile.


• Reprezentarea grafică
• Coeficientul de corelație liniară

3) Modelul de regresie liniară unifactorială. Estimarea parametrilor.


Care este variabila dependentă sau explicată?
Care este variabila independentă sau explicativă?

1
Ex1. Consumul unei familii în funcţie de Venitul disponibil

În scopul evaluării influenţei Venitului disponibil asupra Cheltuielilor de consum ale unei familii, au fost
înregistrate, pentru 10 familii, valorile următoarelor variabile:
Y – Cheltuielile de Consum ale familiei; (variabila dependentă sau variabila endogenă)
X – Venitul Disponibil al familiei (variabila independentă sau variabila exogenă).

Y 70 65 90 95 110 115 120 140 155 150


X 80 100 120 140 160 180 200 220 240 260

Fiecare familie a fost selectată, la întâmplare, dintr-un grup de familii cu un venit net disponibil fixat.
Valorile celor două variabile sunt exprimate în mii de unităţi monetare (u.m.), astfel încât prima familie
câştigă 80 mii u.m. şi consumă 70 mii u.m. anual.

1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
2. Pe baza datelor din eşantion, estimaţi coeficienţii modelului de regresie adecvat analizei dependenţei
dintre cele două variabile şi interpretaţi valorile obţinute.

1. Pentru a identifica existenţa unei relaţii de dependenţă între variabilele analizate, ca şi forma şi sensul
relaţiei de dependenţă, construim diagrama împrăştierii datelor. Pentru a crea o diagramă a datelor trebuie
să stabilim care variabilă ar trebui să apară pe axa orizontală. În analiza de regresie, variabila explicativă
apare totdeauna pe axa orizontală iar variabila explicată pe axa verticală.

Folosim Excel pentru a efectua calculele pentru estimarea unui model de regresie.
Valorile observate pentru variabilele Y şi X sunt introduse în coloanele B şi C.

2
Se observă că între variabilele X şi Y există o legătură liniară, directă, puternică.

2. Rezultă că putem considera că între cele două variabile există o relaţie de forma:
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ; 𝑖 = 1,2, . . . , 𝑛.
Notăm estimatorii parametrilor 𝛽0 şi 𝛽1 cu 𝑏0 şi 𝑏1 sau 𝛽̂0 şi 𝛽̂1
Pentru a determina estimatorii 𝑏0 şi 𝑏1 ai parametrilor 𝛽0 şi 𝛽1, rezolvăm sistemul de ecuaţii normale:
𝑏0 𝑛 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖 10𝑏0 + 1700𝑏1 = 1110
{ 2 {
𝑏0 ∑ 𝑥𝑖 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖 1700𝑏0 + 322000𝑏1 = 205500
Soluţiile sistemului se pot obţine folosind metoda determinanţilor:
𝛥𝑏0 ∑ 𝑦𝑖 ∑ 𝑥𝑖2 −∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 (1110)(322000)−(1700)(205500)
𝑏0 = = ⇒ 𝑏0 = ≈ 24,4545
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 (10)(322000)−(1700)2
𝛥𝑏1 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖 (10)(205500)−(1700)(1110)
𝑏1 = = ⇒ 𝑏1 = ≈ 0,5091
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 (10)(322000)−(1700)2
𝑛 ∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑥𝑖 𝑛 ∑ 𝑦𝑖
unde ∆= | 2 |; ∆𝑏0 = | 2| ; ∆𝑏1 = | |
∑ 𝑥𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖
Valorile estimatorii 𝑏0 şi 𝑏1 se pot afla și folosind formulele:
∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) (16800)
𝑏1 = ⇒ 𝑏1 = ≈ 0,5091
∑(𝑥𝑖 −𝑥̄ )2 √(33000)(8890)
𝑏0 = 𝑦̄ − 𝑏1 𝑥̄ ⇒ 𝑏0 = 111 − (0,5091)(170) ≈ 24,4545

Dreapta de regresie estimată este 𝑦̂𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑥𝑖 sau 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 ⋅ 𝑥𝑖


𝑦̂𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
Fiecare punct de pe dreapta de regresie este o estimaţie a valorii medii a lui Y, corespunzător valorii alese
pentru X. Deci 𝑦̂𝑖 este o estimaţie pentru 𝐸(𝑌|𝑋𝑖 ).
Interpretarea parametrilor obţinuţi:
𝑏1 = 𝛽̂1 ≈ 0,5091 măsoară panta dreptei de regresie şi arată că, atunci când Venitul (X) creşte cu o
unitate, adica cu 1000 u.m., Cheltuielile de consum (Y) cresc, în medie, cu 0,5091 mii u.m.
𝑏0 = 𝛽̂0 ≈ 24,4545 arată nivelul cheltuielilor de consum, atunci când venitul este 0.
Interpretăm pe 𝑏0 ≈ 24,4545 ca fiind efectul mediu asupra lui Y, al tuturor factorilor care nu sunt luaţi în
considerare în modelul de regresie.

4) Estimarea parametrilor modelului de regresie liniară unifactorială utilizând EXCEL


Selectăm: Data, apoi Data Analysis şi apoi Regression din lista de instrumente de analiză afişate.
Introducem valorile pentru variabilele Y şi X.

3
Ex2. Cererea pentru un produs în funcţie de Preţ

Legea cererii postulează o relaţie inversă între cantitatea cerută dintr-un produs şi preţul său, toate celelalte
variabile care afectează cererea fiind considerate constante.
O editură doreşte să studieze legătura dintre numărul de albume vândute şi preţul unui anumit album (de
pictură). În acest scop, au fost înregistrate, în 10 oraşe, valorile următoarelor variabile:
Y – numărul de albume vândute;
X – preţul albumului (în euro).

Y 49 45 44 39 38 37 34 33 30 29
X 1 2 3 4 5 6 7 8 9 10

1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
Se observă că între variabilele X şi Y există o legătură liniară inversă.

Modelul Cerere-Pret
60
50
40
cantitate

30 Series1
20
10
0
0 5 10 15
pret

2. Pe baza datelor de la nivelul eşantionului, să se determine ecuaţia de regresie liniară care modelează
legătura dintre cele două variabile. Să se estimeze parametrii modelului şi să se interpreteze rezultatele
obţinute.

Putem considera că între cele două variabile există o relaţie de forma:


𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ; 𝑖 = 1,2, . . . , 𝑛.
Pentru a determina estimatorii 𝛽̂0 şi 𝛽̂1 ai parametrilor 𝛽0 şi 𝛽1, rezolvăm sistemul de ecuaţii normale ale
lui Gauss.
𝛽̂0 𝑛 + 𝛽̂1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖 10𝛽̂0 + 55𝛽̂1 = 378
{ {
𝛽̂0 ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 𝑦𝑖 55𝛽̂0 + 385𝛽̂1 = 1901
Obţinem: 𝛽̂0 ≈ 49,6667 şi 𝛽̂1 ≈ −2,1575
Dreapta de regresie estimată este
𝑦̂𝑖 = 49,6667 − 2,1575 ⋅ 𝑥𝑖
Fiecare punct de pe dreapta de regresie este o estimaţie a valorii medii a lui Y, corespunzător valorii alese
pentru X. Deci 𝑦̂𝑖 este o estimaţie pentru 𝐸(𝑌|𝑋𝑖 ).

Interpretarea parametrilor obţinuţi:


𝛽̂1 ≈ −2,1575 măsoară panta dreptei de regresie şi arată că, atunci când Preţul (X) creşte cu un euro,
numărul de albume vândute (Y) scade, în medie, cu două unităţi (bucăţi).
Valoarea 𝛽̂0 ≈ 49,6667 arată numărul de albume vândute, atunci când preţul unui album este 0.
În general, parametrul de interceptare nu are semnificaţie economică.

4
Modele Regresie liniară unifactorială (simplă)
Ex1. Consumul unei familii în funcţie de Venitul disponibil

Pentru a evalua influenţa Venitului disponibil asupra Cheltuielilor de consum ale unei familii, au fost
înregistrate, pentru 10 familii, valorile următoarelor variabile: X si Y.
X 80 100 120 140 160 180 200 220 240 260
Y 70 65 90 95 110 115 120 140 155 150
X – Venitul disponibil al familiei, exprimat în mii lei
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – Cheltuielile de Consum ale familiei, exprimate în mii lei
(variabila dependentă sau variabila explicată sau variabila endogenă)

1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
2. Pe baza datelor din eşantion, estimaţi coeficienţii modelului de regresie adecvat analizei dependenţei
dintre cele două variabile şi interpretaţi valorile obţinute.
3. Să se testeze validitatea modelului de regresie liniară la un prag de semnificaţie de 5%
(nivel de semnificaţie =0,05; valoare tabelară 5,32).
4. Să se testeze semnificaţia statistică a parametrilor modelului
(nivel de semnificaţie =0,05; valoare tabelară: 2,306).
5. Determinaţi şi interpretaţi intervalele de încredere 95% pentru parametrii modelului
6. Calculaţi coeficientul de determinaţie şi interpretaţi rezultatul obţinut.
7. Calculaţi raportul de corelaţie, testaţi semnificaţia acestuia şi interpretaţi rezultatul obţinut.
8. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul de corelaţie liniară
Pearson si testaţi semnificaţia statistică a acestuia.
9. Să se raporteze rezultatele analizei de regresie
10. Să se previzioneze cheltuielile de consum ale unei familii, în ipoteza că venitul disponibil
este de 280 mii lei.
11. Să se previzioneze cheltuielile medii de consum ale unei familii, în ipoteza că venitul disponibil
este de 280 mii lei.

Rezolvare: Punctele 1 si 2 in Seminarul 2.


Dreapta de regresie estimată este 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 ⋅ 𝑥𝑖
𝑦̂𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
Fiecare punct de pe dreapta de regresie este o estimaţie a valorii medii a lui Y, corespunzător valorii alese
pentru X. Deci 𝑦̂𝑖 este o estimaţie pentru 𝐸(𝑌|𝑋𝑖 ).
Interpretarea parametrilor obţinuţi:
𝛽̂1 ≈ 0,5091 măsoară panta dreptei de regresie şi arată că, atunci când Venitul (X) creşte cu o unitate,
adica cu 1000 lei, Cheltuielile de consum (Y) cresc, în medie, cu 0,5091 mii lei.
𝛽̂0 ≈ 24,4545 arată nivelul cheltuielilor de consum, atunci când venitul este 0.

Estimarea parametrilor modelului de regresie liniară unifactorială utilizând EXCEL


Selectăm: Data, apoi Data Analysis şi apoi Regression din lista de instrumente de analiză afişate.
Introducem valorile pentru variabilele Y şi X.

1
3. Testarea validităţii modelului de regresie folosind metoda ANOVA
Să se verifice dacă modelul de regresie identificat este valid statistic
(valoare tabelară: 5,32 pentru un nivel de semnificaţie de 0,05).
Fie α nivelul (pragul) de semnificaţie al testului, iar 1-α este nivelul de încredere al testului. Dacă nu se
specifică, vom considera în general că =0,05 iar 1-=0,95 (sau 100α% = 5% iar 100(1-α)% = 95%).
Pentru testarea validităţii modelului de regresie construim tabelul ANOVA:

Sursă variaţie df SS MS F Fcritic


Regression k-1 SSR=∑(𝑦̂𝑖 − 𝑦̄ )2 MSR=𝑘−1
𝑆𝑆𝑅 𝑀𝑆𝑅
F=𝑀𝑆𝐸 𝐹𝛼;𝑘−1,𝑛−𝑘
2 𝑆𝑆𝐸
Residual n-k SSE=∑(𝑦𝑖 − 𝑦̂𝑖 ) MSE=𝑠𝑒2 = 𝑛−𝑘
Total n-1 SST=∑(𝑦𝑖 − 𝑦̄ )2
Aici k reprezintă numărul de parametri de estimat, din model

Se completează tabelul de analiză a varianţei (ANOVA)


Sursă Nr grade Suma pătratelor Media pătratelor Statistica
variaţie libertate (df) abaterilor (SS) (MS) F
Regresia k-1=1 SSR=8552,73 MSR=SSR/1=8552,73 F=MSR/MSE=202,87
Eroarea n-2=8 SSE=337,27 MSE=SSE/(n-2)=42,159
Totală n-1=9 SST=8890,00

𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̄ )2 = 8890,0 - variaţia totală a valorilor variabilei Y, suma pătratelor abaterilor totale.
𝑆𝑆𝑅 = ∑(𝑦̂𝑖 − 𝑦̄ )2 =8552,73 reprezintă variaţia explicată prin factorul de regresie.
𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑒𝑖2 =337,27 - variaţia neexplicata (reziduala), variaţia datorată erorilor.
SST=SSR+SSE

2
𝑆𝑆𝐸
𝑀𝑆𝐸 = 𝑛−2 = 𝑠𝑒2 =337,27/8=42,159 - varianţa erorilor în eşantion (dispersia reziduurilor)
𝑆𝑆𝐸
𝑠𝑒 = 𝑠𝜀̂ = √𝑛−2 este abaterea standard a erorilor în eşantion
𝑆𝑆𝑇
De asemenea, se poate calcula si dispersia de selecţie a lui Y, adică 𝑠𝑦2 = 𝑛−1

Pentru testarea validităţii modelului se formulează 2 ipoteze:


H0: modelul nu este valid statistic (MSR=MSE)
H1: modelul este valid statistic (MSR>MSE)
𝑆𝑆𝑅
𝑀𝑆𝑅 𝑘−1
Folosim statistica: 𝐹 = = 𝑆𝑆𝐸 care urmează o distribuţie 𝐹𝑖𝑠h𝑒𝑟 1,𝑛−2
𝑀𝑆𝐸
𝑛−𝑘
Regiunea critică: 𝑅𝑐 : 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼;1,𝑛−2
Dacă 𝐹calculat > 𝐹𝛼;1,𝑛−2 respingem H0 şi acceptăm H1
𝐹calculat = 8552,73/42,159 = 202,87,
𝐹tabelat = 𝐹critic = 𝐹𝛼;1,𝑛−2 = 𝐹0,05;1,8 = 5,32
Deoarece 202,87 > 5,32 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ Modelul este valid statistic.
Observaţie: În tabelul din Excel apare şi o probabilitate (Significance F)

4. Să se testeze semnificaţia statistică a parametrilor modelului


Inferenţa statistică privind parametrii modelului se poate realiza prin:
• Testarea ipotezei statistice referitoare la semnificaţia parametrilor;
• Estimarea pe interval de încredere a parametrilor modelului.

Calculăm abaterile medii pătratice ale estimatorilor parametrilor modelului


Varianţele estimatorilor 𝛽̂1 şi 𝛽̂0 sunt date de următoarele relaţii:
𝜎2 1 𝑥̄ 2 𝜎2 ∑ 𝑥𝑖2
𝑉𝑎𝑟(𝛽̂1 ) = ; 𝑉𝑎𝑟(𝛽̂0 ) = 𝜎 2 ( +
∑(𝑥𝑖 −𝑥̄ )2
)=∑(𝑥𝑖 −𝑥̄ )2
𝑛 𝑛 ∑(𝑥𝑖 −𝑥̄ )2
2
Varianţa erorilor aleatoare este 𝜎 , dar este necunoscută şi trebuie estimată.
Un estimator nedeplasat pentru 𝝈𝟐 este varianţa erorilor estimate: 𝜎̂ 2 = 𝑠𝑒2 = 42,159.
Abaterea medie pătratică a erorilor estimate este: 𝑠𝑒 = √42,159 = 6,493
Estimaţiile abaterilor medii pătratice ale estimatorilor parametrilor modelului sunt:
1
𝑠𝛽̂1 = 𝑠𝑒 ⋅ 2
= 0,0357
√∑(𝑥𝑖 −𝑥̄ )

𝑖∑ 𝑥2 1 𝑥̄ 2
𝑠𝛽̂0 = 𝑠𝑒 ⋅ √𝑛 ∑(𝑥 −𝑥̄ = 𝑠𝑒 ⋅ √𝑛 + ∑(𝑥 −𝑥̄ )2 = 6,4138
𝑖)2 𝑖

Testarea semnificaţiei parametrului pantă 1


𝐻0 : 𝛽1 = 0 (parametrul pantă 𝛽1 nu este semnificativ statistic; 𝛽1 nu diferă semnificativ de zero)
𝐻1 : 𝛽1 ≠ 0 (parametrul pantă 𝛽1 este semnificativ statistic; 𝛽1 diferă semnificativ de zero).
̂1 −0
𝛽 𝑏̂ −0
Statistica testului este 𝑡= = ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑠𝛽
̂ 𝑠𝑏̂
1
adică urmează o distribuţie Student cu (n-2) grade de libertate dacă H0 este adevărată.
𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟−𝑣𝑎𝑙𝑜𝑎𝑟𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑢
Avem: 𝑡 = 𝑎𝑏𝑎𝑡𝑒𝑟𝑒𝑎 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑢𝑙𝑢𝑖
Avem TB (Test Bilateral)
Vom determina Regiunea critică sau de respingere a ipotezei H0.

3
Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−2
2 2
sau 𝑅𝑐 : |𝑡calc | > 𝑡𝛼;𝑛−2
2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1
Dacă |𝑡calc | > 𝑡𝛼;𝑛−2 atunci respingem 𝐻0 şi acceptăm 𝐻1 la un nivel de semnificaţie de 𝛼%.
2
𝑏̂ −0 0,5091
𝑡calc = = 0,0357 = 14,2432
𝑏̂
𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;8 =2,306
Deoarece 14,2432>2,306  𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐  respingem H0 şi acceptăm H1 ⇒ 𝛽1 este semnificativ statistic.
(Spunem că o statistică este semnificativă dacă valoarea testului statistic se găseşte în regiunea critică.
În acest caz se respinge H0.)
Observaţie:
2
Pentru cazul k=2 , pentru coeficientul pantă avem 𝑡𝑐𝑎𝑙𝑐 =𝐹
2
Verificare: (14,2432) = 202,87
Testarea semnificaţiei parametrului de interceptare 𝛽0
𝐻0 : 𝛽0 = 0 (𝛽0 nu este semnificativ statistic; 𝛽0 nu diferă semnificativ de zero)
𝐻1 : 𝛽0 ≠ 0 (𝛽0 este semnificativ statistic; 𝛽0 diferă semnificativ de zero).
̂0 −0
𝛽 𝑎̂−0
Sub ipoteza nulă statistica: 𝑡 = = ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑠𝛽
̂ 𝑠𝑎
̂
0
Vom determina Regiunea critică sau de respingere a ipotezei H0
Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−2
2 2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1

Dacă |𝑡calc | > 𝑡𝛼;𝑛−2 atunci respingem 𝐻0 şi acceptăm 𝐻1 la un nivel de semnificaţie de 𝛼%.
2
𝑎̂−0 24,4545
𝑡calc = = = 3,8128
𝑠𝑎
̂ 6,4138
𝑡calc = 24,4545/6,4138 = 3,8128; 𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;8 = 2,306
Deoarece 3,8128>2,306  𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐  respingem H0 şi acceptăm H1 ⇒ 𝛽0 este semnificativ statistic.

5. Estimarea pe interval de încredere a parametrilor modelului.


Un interval de încredere 𝟏𝟎𝟎(𝟏 − 𝜶)% pentru parametrul pantă 𝜷𝟏 este de forma:
(𝛽̂1 − 𝑡𝛼;𝑛−2 ∙ 𝑠𝛽̂1 ≤ 𝛽1 ≤ 𝛽̂1 + 𝑡𝛼;𝑛−2 ∙ 𝑠𝛽̂1 )
2 2
(0,5091 − (2,306)(0,0357) ≤ 𝛽1 ≤ 0,5901 + 2,306(0,0357))
0,4268 ≤ 𝛽1 ≤ 0,5914
Interpretare: Dat fiind un coeficient de încredere de 95%, pe termen lung, în 95 din 100 de cazuri, intervale
precum intervalul 0,4268 ≤ 𝛽1 ≤ 0,5914, vor include valoarea reală a lui 𝛽1.
Intervalul [0,4268; 0,5914] acoperă valoarea reală a parametrului 𝛽1 cu o probabilitate de 95%.
Se poate testa dacă 𝛽1 = 0 privind la intervalul de încredere pentru 𝛽1 şi observând dacă acesta conţine
valoarea zero. Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽1 ≠ 0. Spunem că:

4
„Factorul X are putere explicativă semnificativă pentru Y” sau „𝛽1 este semnificativ diferit de zero” sau
„𝛽1 este semnificativ statistic”.
Un interval de încredere 100(1-α)% pentru parametrul 𝜷𝟎 este de forma:
(𝛽̂0 − 𝑡𝛼 𝑠𝛽̂ ≤ 𝛽0 ≤ 𝛽̂0 + 𝑡𝛼
;𝑛−2 0
𝑠𝛽̂ ) ;𝑛−2 0
2 2
(24,4545 − (2,306)(6,4138); 24,4545 + 2,306(6,4138)) ⇒
9,6643 ≤ 𝛽0 ≤ 39,2448 ⇒ Interpretare...
Interpretare: Dat fiind un coeficient de încredere de 95%, pe termen lung, în 95 din 100 de cazuri, intervale
precum intervalul [9,6643 ≤ 𝛽0 ≤ 39,2448], vor include valoarea reală a lui 𝛽0.
Intervalul [9,6643; 39,2448] acoperă valoarea reală a parametrului 𝛽0 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽0 ≠ 0.
Important!
Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
• Folosim testul t
• Folosim P-value
• Folosim intervalele de încredere

6. Calculați coeficientul de determinaţie şi interpretaţi rezultatul obţinut.


Coeficientul de determinaţie arată proporţia din variaţia totală a variabilei dependente Y, explicată de
variaţia variabilei independente X, deci prin modelul de regresie estimat.
𝑆𝑆𝑅 ∑(𝑦̂ −𝑦̄ )2 𝑆𝑆𝐸 ∑(𝑦𝑖 −𝑦̂𝑖 )2
𝑅 2 = 𝑆𝑆𝑇 = ∑(𝑦𝑖 −𝑦̄ )2 sau 𝑅 2 = 1 − 𝑆𝑆𝑇 = 1 − ∑(𝑦𝑖 −𝑦̄ )2
0 ≤ 𝑅2 ≤ 1
𝑖
În ce măsură, variaţia cheltuielilor de consum este influenţată de venitul disponibil al familiei, pe baza
modelului de regresie determinat?
𝑹𝟐 ≈ 𝟎, 𝟗𝟔𝟐𝟏, arată că 96,21% din variaţia cheltuielilor de consum (Y) este explicată prin variaţia
venitului disponibil (X). Deoarece 𝑅 2 poate fi cel mult 1, valoarea obţinută sugerează că dreapta de
regresie estimată aproximează (ajustează) foarte bine datele de observaţie.

7. Determinarea raportului de corelaţie şi testarea semnificaţiei acestuia


Raportul de corelaţie (Multiple R) dintre cele două variabile este:
𝑆𝑆𝑅 ∑(𝑦̂ −𝑦̄ )2 𝑆𝑆𝐸 ∑(𝑦𝑖 −𝑦̂𝑖 )2
𝑅 = √𝑆𝑆𝑇 = √∑(𝑦𝑖 −𝑦̄ )2 sau 𝑅 = √1 − 𝑆𝑆𝑇 = √1 − ∑(𝑦𝑖 −𝑦̄ )2
0≤𝑅≤1
𝑖
𝑹 ≈ 𝟎, 𝟗𝟖𝟎𝟖
Raportul de corelaţie se determină pentru legături liniare sau neliniare.
Egalitatea |𝑟| = R este un test de liniaritate pentru model.
Valoarea apropiată de 1 a raportului de corelatie arată că între cele două variabile există o legătură foarte
puternică.
Coeficientul de determinaţie ajustat (Adjusted R-squared)
̅ 𝟐 = 1 − 𝑆𝑆𝐸/(𝑛−𝑘). Totdeauna avem: 𝑹
𝑹 ̅ 𝟐 < 𝑹𝟐 . Coeficientul de determinaţie ajustat se utilizează pentru
𝑆𝑆𝑇/(𝑛−1)
a identifica variabilele independente care au influenţă asupra lui Y. Dacă în model se introduce o variabilă
independentă care are efect explicativ asupra lui Y, valoarea lui 𝑹 ̅ 𝟐 creşte. Dacă în model se introduce o
variabilă independentă care nu are efect explicativ asupra lui Y, valoarea lui 𝑹 ̅ 𝟐 scade.

Testarea semnificaţiei Raportului de corelaţie


Cele două ipoteze ale testului sunt:

5
𝐻0 : 𝑅 2 = 0 ( Raportul de corelaţie nu este semnificativ statistic; modelul nu este corect specificat)
(adică variabila X nu are efect asupra variabilei Y)
𝐻1 : 𝑅 2 > 0 ( Raportul de corelaţie este semnificativ statistic; modelul este corect specificat)
( adică variabila X are efect asupra variabilei Y)
𝑅2
𝐹= (𝑛 − 2)~𝐹𝑖𝑠h𝑒𝑟1,𝑛−2
1 − 𝑅2
Se aplică regula de decizie: dacă 𝐹calc > 𝐹𝛼;1,𝑛−2 se respinge ipoteza nulă în favoarea ipotezei alternative.
Deoarece 𝐹calc ≈ 202 şi 𝐹𝛼;1,𝑛−2 = 5,32 respingem H0 şi acceptăm H1, modelul este corect specificat
⇒ Raportul de corelaţie este semnificativ statistic
⇒ variabila X are efect asupra variabilei Y.
8. Calculaţi coeficientul liniar de corelaţie Pearson şi testaţi semnificaţia statistică a acestuia.
Se notează cu ρ coeficientul de corelaţie din colectivitatea generală.
Se notează cu r coeficientul de corelaţie liniara din esantion
1−𝑟 2
Media estimatorului r este ρ şi abaterea standard este 𝑠𝑟 = √
𝑛−2
Coeficientul de corelaţie de selecţie caracterizează direcţia şi intensitatea legăturii liniare dintre două
variabile. Semnul acestui coeficient indică direcţia legături iar valoarea sa indică intensitatea legăturii.
𝑆𝑥𝑦 ∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟𝑥𝑦 = 𝑆 𝑆 = 2 2
= ∈ [−1, +1]
𝑥 𝑦 √[∑(𝑥𝑖 −𝑥̄ ) ][∑(𝑦𝑖 −𝑦̄ ) ] √[𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 ][𝑛 ∑ 𝑦𝑖2 −(∑ 𝑦𝑖 )2 ]
∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑆𝑥𝑦 𝑆
𝛽̂1 = ∑(𝑥 = 𝑆 ⇒ 𝑟𝑥𝑦 = 𝛽̂1 𝑆𝑥 .
−𝑥̄ )2
𝑖 𝑥𝑥 𝑦

Rezultă că 𝑟𝑥𝑦 are acelaşi semn cu coeficientul de regresie 𝛽̂1.


𝑟 = 𝑟𝑥𝑦 = 0,9808 ⇒ există o legătură directă şi foarte puternică între cele două variabile analizate.
Testarea semnificaţiei coeficientului de corelaţie liniară se face utilizând testul t.
𝐻0 : 𝜌 = 0 (coeficientul de corelaţie 𝜌 nu este semnificativ statistic)
(între cele două variabile nu există o dependenţă liniară semnificativă)
𝐻1 : 𝜌 ≠ 0 ( coeficientul de corelaţie 𝜌 este semnificativ statistic).
(între cele două variabile există o dependenţă liniară semnificativă)
Statistica testului urmează o distribuţie Student cu (n-2) grade de libertate.
𝑟−0 𝑟
𝑡 = 𝑠 = √1−𝑟2 ⋅ √𝑛 − 2 ~ 𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑟
Dacă 𝑡calculat > 𝑡critic , respingem 𝐻0 şi acceptăm 𝐻1 , adică 𝜌 este semnificativ statistic.
𝑡critic = 𝑡α/2,n-2 = 𝑡0,025;8 = 2,306
0,980847
𝑡calculat = ⋅ √10 − 2 = 14,25039
√1 − (0,980847)2
Doarece 14,25039 > 2,306, deci avem 𝑡calculat > 𝑡α/2;n-2 rezultă că
vom respinge 𝐻0 şi vom accepta 𝐻1 ;
⇒ Coeficientul de corelaţie liniara este semnificativ statistic.
⇒ Între cele două variabile există o dependenţă liniară semnificativă.

9. Raportarea rezultatelor analizei de regresie


𝑦̂𝑖 = 24,4545 + 0,5091 × 𝑥𝑖
𝑠𝑒 (6,4138) (0,0357) 𝑅 2 = 0,9621
𝑡 (3,8128) (14,2432) 𝑑𝑓 = 8
𝑝 (0,0051) (0,0000) 𝐹 = 202,8679

6
10. Să se previzioneze (prognozeze) cheltuielile de consum ale unei familii, în ipoteza că
venitul disponibil este 𝑥𝑝 = 𝑥𝑛+1 =280 mii lei.
Putem obţine estimaţii punctuale sau prin intervale de încredere
Se doreşte predicţia unei valori individuale
𝑦̂𝑝 = 𝛽̂0 + 𝛽̂1 𝑥𝑝 = 24,4545 + 0,5091 ⋅ 280 = 167,0025 mii lei
este o estimaţie (predicţie) a valorii individuale 𝑦𝑝 = 𝛽0 + 𝛽1 𝑥𝑝 + 𝜀𝑝
Un Interval de încredere pentru predicţia valorii individuale 𝑦𝑝 este de forma :
1 (𝑥𝑝 − 𝑥̄ )2
𝑦̂𝑝 ± 𝑡𝛼/2,𝑛−2 ⋅ √𝑠𝑒2 (1 + + )
𝑛 ∑(𝑥𝑖 − 𝑥̄ )2
167,0025 ± (2,306) ⋅ (7,8634) 
148,8695 ≤ (𝑦𝑝 |𝑥𝑝 = 280) ≤ 185,1355

11. Să se previzioneze (prognozeze) cheltuielile medii de consum ale unei familii, în ipoteza că
venitul disponibil este 𝑥𝑝 = 𝑥𝑛+1 =280 mii lei.
Suntem în situaţia de a prognoza 𝐸(𝑌|𝑋 = 𝑥𝑝 ) = 𝛽0 + 𝛽1 𝑥𝑝
Folosim ecuaţia de regresie estimată: 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
𝑦̂𝑝 este un estimator (predictor) al mediei condiţionate 𝐸(𝑌|𝑋 = 𝑥𝑝 ).
O estimaţie punctuală a previziunii mediei este
𝑦̂𝑝 = 𝛽̂0 + 𝛽̂1 𝑥𝑝 = 24,4545 + 0,5091 ⋅ 280=167,0025 mii lei
Un Interval de încredere pentru predicţia mediei condiţionate este de forma :
1 (𝑥𝑝 − 𝑥̄ )2
𝑦̂𝑝 ± 𝑡𝛼/2,𝑛−2 ⋅ √𝑠𝑒2 ( + )
𝑛 ∑(𝑥𝑖 − 𝑥̄ )2
167,0025 ± (2,306) ⋅ (4,4356)
156,7741 ≤ 𝐸(𝑌|𝑥𝑝 = 280) ≤ 177,2310
Dacă obţinem intervale de încredere 95% pentru fiecare X dat, vom obţine, ca interval de încredere, o
bandă de încredere pentru funcţia de regresie a populaţiei.

Observaţie: Se obţine un interval de lungime mai mare pentru 𝑦𝑝 decât pentru 𝐸(𝑌|𝑥𝑝 ). Banda de
încredere este mai mică atunci când valoarea lui 𝑥𝑝 = 𝑥𝑛+1 se apropie de media de selecţie 𝑥̄ .

7
Ex4: Model liniar de regresie cu două variabile exogene (explicative)

Ne propunem să studiem cum evoluează cheltuielile de consum personal într-o ţară, în ultimii ani.
Se consideră regresia Cheltuielilor de Consum personal în raport cu Venitul personal şi Timpul,
pe o perioadă de 15 ani. Utilizăm modelul liniar cu două variabile explicative:

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝜀𝑖 , 𝑖 = 1,2, . . . , 𝑛.


Y = Cheltuielile de Consum pe cap de locuitor (în mii lei.)
X1 = Venitul disponibil pe cap de locuitor (în mii lei)
X2 = Timpul (în ani)

Care este forma matriceală a modelului?


1) Pentru modelul de regresie liniară cu doi regresori să se determine matricele:
𝑋, 𝑋 𝑇 (X transpus), 𝑋 𝑇 𝑋 şi 𝑋 𝑇 𝑦.

2) Să se estimeze parametrii modelului de regresie şi să se interpreteze valorile obţinute.


Se efectuează calculele în Excel şi se obţin sumele ce vor fi utilizate în formule.

∑ 𝑦=29 135, 𝑦̄ =1942,333, ∑ 𝑥1 =31895, 𝑥̄ 1 =2126,333, ∑ 𝑥2 =120, 𝑥̄ 2 =8,


∑ 𝑥12 =68 922,513, ,∑ 𝑥22 =1240, ∑ 𝑥1 𝑥2 =272 144, ∑ 𝑥1 𝑦=62 905 821, ∑ 𝑥2 𝑦=247 934,
∑ 𝑦𝑖2=57 420 003, ∑(𝑥𝑖1 − 𝑥̄ 1 )2=1 103 111,333, ∑(𝑥𝑖2 − 𝑥̄ 2 )2 =280.
1 𝑥11 𝑥12
1 1 ⋯ 1
1 𝑥21 𝑥22 𝑇
𝑋=( ) 𝑋 = (𝑥11 𝑥21 ⋯ 𝑥𝑛1 )
⋮ ⋮ ⋮
𝑥12 𝑥22 ⋯ 𝑥𝑛2
1 𝑥𝑛1 𝑥𝑛2
1 𝑥11 𝑥12 𝑛 ∑ 𝑥𝑖1 ∑ 𝑥𝑖2
1 1 ⋯ 1
𝑇 1 𝑥21 𝑥22 2
𝑋 𝑋 = (𝑥11 𝑥21 ⋯ 𝑥𝑛1 ) ( ) = (∑ 𝑥𝑖1 ∑ 𝑥𝑖1 ∑ 𝑥𝑖1 𝑥𝑖2 )
⋮ ⋮ ⋮
𝑥12 𝑥22 ⋯ 𝑥𝑛2 ∑ 𝑥𝑖2 ∑ 𝑥𝑖1 𝑥𝑖2 2
∑ 𝑥𝑖2
1 𝑥𝑛1 𝑥𝑛2
𝑦1
1 1 ⋯ 1 ∑ 𝑦𝑖 29135
𝑦2
𝑋 𝑦 = (𝑥11 𝑥21 ⋯ 𝑥𝑛1 ) ( ⋮ ) = (∑ 𝑥𝑖1 𝑦𝑖 )  𝑋 𝑇 𝑦 = (62905821)
𝑇

𝑥12 𝑥22 ⋯ 𝑥𝑛2 𝑦𝑛 ∑ 𝑥𝑖2 𝑦𝑖 247934

1
15 31895 120
𝑋 𝑇 𝑋 = (31895 68922513 272144)
120 272144 1240
37,232491 −0,0225082 1,336707
 (𝑋 𝑇 𝑋)−1 = (−0,0225082 0,0000137 0,0008319)
1,336707 0,0008319 0,054034

Ecuaţiile normale ale lui Gauss: (𝑋 𝑇 𝑋)𝛽̂ = 𝑋 𝑇 𝑦

300,28625
̂ 𝑇 −1 𝑇 ̂
⇒ 𝛽 = (𝑋 𝑋) 𝑋 𝑦 ⇒ 𝛽 = ( 0,74198 )
8,04356

Interpretarea coeficienţilor obţinuţi:


𝛽0 = parametrul de interceptare
𝛽1 = coeficient de regresie parţial pentru variabila independentă X1.
𝛽2 = coeficient de regresie parţial pentru variabila independentă X2.
𝛽̂1 = 0,7420 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Venitul (X1) creşte cu o mie lei (o unitate), Cheltuielile de Consum
cresc, în medie, cu 0,74 mii lei.
̂
𝛽2 = 8,0436 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Timpul (X2) creşte cu un an, Cheltuielile de Consum cresc, în medie,
cu 8,0436 mii lei.
̂
𝛽0 = 300,2863 este parametru de interceptare şi arată că, dacă cele două variabile explicative, X1 şi
X2 au valoarea 0, valoarea medie a cheltuielilor de consum este estimată la circa 300 mii lei.

3) Să se importe datele din Excel în EViews.


Să se realizeze regresia utilizând EViews.

Să se realizeze regresia utilizând Excel. (Se poate completa la Confidence Level: 90% )

2
Seminar 5 − Regresie liniară simplă − output din Excel de completat

1. Pentru a determina legătura dintre Consumul zilnic de tablete de ciocolată al unei persoane şi
Preţul unei tablete (în euro), am folosit un model de regresie liniară unifactorială.
În urma prelucrării datelor observate cu Excel, am obţinut rezultatele de mai jos:

Regression Statistics
Multiple R ………
R Square ………
Adjusted R Square 0,6205
Standard Error 0,1289
Observations 11
ANOVA
df SS MS F
Regression ……….. ……… ……….. 17,3554.
Residual ……….. ……… ………..
Total ……… ………..
Coefficients Stand.Error t Stat P-value Lower 95% Upper 95%
Intercept 2,6917 0,1220 ……….. 0,0000 2,4157 ………
X Variab.1 ……….. 0,1145 ……….. 0,0024 -0,7359 ………..

a) Completaţi informaţiile care lipsesc (se vor preciza formulele utilizate pentru obţinerea valorilor
care lipsesc). Care este variabila dependentă? Care este variabila independentă?
b) Scrieţi ecuaţia de regresie estimată. Interpretaţi valorile coeficienților obținuți.
c) Testaţi validitatea modelului (nivelul de semnificaţie este  = 0,05 ; valoare critică = 5,12) .
d) În ce proporţie consumul de ciocolată este influenţat de preţ ?
e) Testaţi semnificaţia coeficientului pantă şi interpretaţi intervalul de încredere pentru acesta
(nivelul de semnificaţie este 5%; valoare critică = 2,26).
f) Testaţi dacă parametrul pantă diferă semnificativ de −0,3.
g) Previzionaţi Consumul zilnic de tablete de ciocolată al unei persoane ştiind că Preţul unei tablete este
de 2 euro (previziune punctuală și pe bază de interval de încredere).

2. În urma estimării unui model de regresie liniară unifactorială în Eviews au fost obținute rezultatele de
mai jos. Variabilele considerate sunt: Vânzările obținute de 15 magazine și Profiturile obținute de aceste
magazine, în ultimul an. Datele sunt exprimate în mii de euro.

a) Scrieţi ecuaţia dreptei de regresie estimate. Interpretaţi coeficienții obținuți.


b) Testaţi semnificaţia coeficienților modelului (valoare critică = 2,16).
c) Testaţi validitatea modelului (valoare critică = 4,67).
d) Calculați intervalul de încredere pentru coeficientul pantă.
e) Interpretaţi coeficientul de determinație.
f) Care este valoare medie a profitului, la nivelul tuturor magazinelor analizate?
Ex4: Model liniar de regresie cu două variabile exogene (explicative)

Ne propunem să studiem cum evoluează cheltuielile de consum personal într-o ţară, în ultimii ani.
Se consideră regresia Cheltuielilor de Consum personal în raport cu Venitul personal şi Timpul,
pe o perioadă de 15 ani. Utilizăm modelul liniar cu două variabile explicative:

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝜀𝑖 , 𝑖 = 1,2, . . . , 𝑛.

Y = Cheltuielile de Consum pe cap de locuitor (în mii lei.)


X1 = Venitul disponibil pe cap de locuitor (în mii lei)
X2 = Timpul (în ani)

1) Pentru modelul de regresie liniară cu doi regresori să se determine matricile:


𝑋, 𝑋 𝑇 (X transpus), 𝑋 𝑇 𝑋 şi 𝑋 𝑇 𝑦.

2) Să se estimeze parametrii modelului de regresie şi să se interpreteze valorile obţinute.


Se efectuează calculele în Excel şi se obţin sumele ce vor fi utilizate în formule.
∑ 𝑦=29 135, 𝑦̄ =1942,333, ∑ 𝑥1 =31895, 𝑥̄ 1 =2126,333, ∑ 𝑥2 =120, 𝑥̄ 2 =8,
∑ 𝑥12 =68 922,513, ,∑ 𝑥22 =1240, ∑ 𝑥1 𝑥2 =272 144, ∑ 𝑥1 𝑦=62 905 821, ∑ 𝑥2 𝑦=247 934,
∑ 𝑦𝑖2=57 420 003, ∑(𝑥𝑖1 − 𝑥̄ 1 )2=1 103 111,333, ∑(𝑥𝑖2 − 𝑥̄ 2 )2 =280.

1 𝑥11 𝑥12
1 1 ⋯ 1
1 𝑥21 𝑥22
𝑋=( ) 𝑋 𝑇 = (𝑥11 𝑥21 ⋯ 𝑥𝑛1 )
⋮ ⋮ ⋮
𝑥12 𝑥22 ⋯ 𝑥𝑛2
1 𝑥𝑛1 𝑥𝑛2
1 𝑥11 𝑥12 𝑛 ∑ 𝑥𝑖1 ∑ 𝑥𝑖2
1 1 ⋯ 1
𝑇 1 𝑥21 𝑥22 2
𝑋 𝑋 = (𝑥11 𝑥21 ⋯ 𝑥𝑛1 ) ( ) = (∑ 𝑥𝑖1 ∑ 𝑥𝑖1 ∑ 𝑥𝑖1 𝑥𝑖2 )
⋮ ⋮ ⋮
𝑥12 𝑥22 ⋯ 𝑥𝑛2 ∑ 𝑥𝑖2 ∑ 𝑥𝑖1 𝑥𝑖2 2
∑ 𝑥𝑖2
1 𝑥𝑛1 𝑥𝑛2
𝑦1
1 1 ⋯ 1 ∑ 𝑦𝑖 29135
𝑦 2
𝑛1 ) ( ⋮ ) = ( 𝑥𝑖1 𝑦𝑖 )  𝑋 𝑦 = (62905821)
𝑇 𝑥 𝑥 ⋯ 𝑥 ∑ 𝑇
𝑋 𝑦 = ( 11 21
𝑥12 𝑥22 ⋯ 𝑥𝑛2 𝑦𝑛 ∑ 𝑥𝑖2 𝑦𝑖 247934
15 31895 120
𝑋 𝑇 𝑋 = (31895 68922513 272144)
120 272144 1240
37,232491 −0,0225082 1,336707
 (𝑋 𝑇 𝑋)−1 = (−0,0225082 0,0000137 0,0008319)
1,336707 0,0008319 0,054034
𝑇
Ecuaţiile normale ale lui Gauss: (𝑋 𝑋)𝛽 = 𝑋 𝑦̂ 𝑇

300,28625
̂ 𝑇 −1 𝑇 ̂
⇒ 𝛽 = (𝑋 𝑋) 𝑋 𝑦 ⇒ 𝛽 = ( 0,74198 )
8,04356
Interpretarea coeficienţilor obţinuţi:
𝛽0 = parametrul de interceptare
𝛽1 = coeficient de regresie parţial pentru variabila independentă X1.
𝛽2 = coeficient de regresie parţial pentru variabila independentă X2.
𝛽̂1 = 0,7420 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Venitul (X1) creşte cu o mie lei (o unitate), Cheltuielile de Consum
cresc, în medie, cu 0,74 mii lei.

1
𝛽̂2 = 8,0436 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Timpul (X2) creşte cu un an, Cheltuielile de Consum cresc, în medie,
cu 8,0436 mii lei.
𝛽̂0 = 300,2863 este parametru de interceptare şi arată că, dacă cele două variabile explicative, X1 şi
X2 au valoarea 0, valoarea medie a cheltuielilor de consum este estimată la circa 300 mii lei.

3) Să se importe datele din Excel în EViews.


Să se realizeze regresia utilizând EViews.

Să se realizeze regresia utilizând Excel. (Se poate completa la Confidence Level: 90% )

4) Să se estimeze varianţa erorilor aleatoare (variabilelor de perturbaţie)


𝜎 2 = 𝜎𝜀2 este varianţa erorilor aleatoare. Estimăm 𝜎 2 prin 𝜎̂ 2 .
2 2
∑ 𝑒𝑖2 𝑆𝑆𝐸 𝑒𝑇𝑒
𝜎̂𝜀 = 𝑠𝑒 = = =
𝑛−𝑘 𝑛−𝑘 𝑛−𝑘
unde k = numărul de parametri de estimat din model.
Se calculează suma pătratelor reziduurilor.
𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑒𝑖2 = 𝑒 𝑇 𝑒 = 𝑦 𝑇 𝑦 − 𝛽̂ 𝑇 𝑋 𝑇 𝑦 =
29135
= 57420003 − (300,28 0,74198 8,04356) (62905821)
247934
1976,85574
𝑒 𝑇 𝑒 =1976,85574  𝜎̂𝜀2 = 𝑠𝑒2 = = 164,7379
15−3
𝑠𝑒 = 𝜎̂ = √164,7379 = 12,835. În Eviews, 𝑠𝑒 apare ca „Standard Error of regression”.

5) Să de calculeze Coeficientul de determinaţie (R Square), Raportul de corelaţie multiplă (R) şi


Coeficientul de determinaţie ajustat (Adjusted R Square).
𝑆𝑆𝑅 𝑆𝑆𝐸
𝑅 2 = 𝑆𝑆𝑇 = 1 − 𝑆𝑆𝑇 .
Datele necesare calculării coeficientului de determinare (R2) sunt:
2
𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̄ ) = ∑ 𝑦𝑖2 − 𝑛𝑦̄ 2 = 𝑦 𝑇 𝑦 − 𝑛𝑦̄ 2 = 830 121,333
𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑒𝑖2 = 𝑒 𝑇 𝑒 = 𝑦 𝑇 𝑦 − 𝛽̂ 𝑇 𝑋 𝑇 𝑦 = 1976,855
𝑆𝑆𝑅 = 𝑆𝑆𝑇 − 𝑆𝑆𝐸 = 𝛽̂ 𝑇 𝑋 𝑇 𝑦 − 𝑛𝑦̄ 2 = 828 144,478

2
𝑅 2 =0,9976 ⇒ Rezultă că 99,76% din variaţia Cheltuielilor de consum, în perioada studiată de 15 ani,
este explicată prin variaţia celor 2 variabile exogene: Venitul disponibil şi Timpul.

Raportul de corelaţie multiplă: 𝑅 = √𝑅 2=0,9988

Coeficientul de determinaţie ajustat (Adjusted R Square):


𝑆𝑆𝐸/(𝑛−𝑘−1)
𝑅̄ 2 = 1 − 𝑆𝑆𝑇/(𝑛−1) ⇒ 𝑅̄ 2 = 0,9972
Adjusted R-Squared se utilizează pentru a identifica variabilele independente care au influenţă asupra
lui Y. Dacă în model se introduce o variabilă independentă care are efect explicativ asupra lui Y,
valoarea lui 𝑅̄ 2 creşte. Dacă în model se introduce o variabilă independentă care nu are efect explicativ
asupra lui Y, valoarea lui 𝑅̄ 2 scade.

6) Să se testeze validitatea modelului de regresie (𝛼 = 0,05; valoare tabelară: 3,89)


Pentru testarea validităţii modelului de regresie construim tabelul ANOVA:

df SS MS F Fcritic
̂𝑇 𝑆𝑆𝑅 𝑀𝑆𝑅
Regression k-1=2 𝑆𝑆𝑅 = 𝛽 𝑋 𝑇 𝑦 − 𝑛𝑦̄ 2 MSR= F=𝑀𝑆𝐸 𝐹𝛼;2,𝑛−3
𝑘
𝑆𝑆𝐸
Residual n-k=n-3 𝑆𝑆𝐸 = 𝑦 𝑦 − 𝛽̂ 𝑇 𝑋 𝑇 𝑦
𝑇
MSE=𝑠𝑒2 = 𝑛−𝑘
Total n-1 𝑆𝑆𝑇 = 𝑦 𝑇 𝑦 − 𝑛𝑦̄ 2
Aici k=3 reprezintă numărul de parametri de estimat din model

Testarea validităţii modelului de regresie:


𝐻0 : 𝛽1 = 𝛽2 = 0 (modelul nu este valid statistic) (MSR=MSE)
𝐻1 : 𝑛𝑜𝑛𝐻0 ((∃)𝛽𝑗 ≠ 0, 𝑗 = 1,2) (modelul este valid statistic) (MSR>MSE)
𝑆𝑆𝑅
𝑀𝑆𝑅
𝐹= = 2 ~𝐹𝛼;2,𝑛−3
𝑀𝑆𝐸 𝑆𝑆𝐸
𝑛−3
𝑅𝑐 : 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼;2,𝑛−3,
𝐹𝑐𝑟𝑖𝑡𝑖𝑐 = 𝐹𝛼;2,𝑛−3 = 𝐹0,05;2,12 = 3,89
𝐹𝑐𝑎𝑙𝑐 = 2513,52.
Deoarece 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝑐𝑟𝑖𝑡𝑖𝑐 ⇒ 𝐹𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ modelul este valid statistic.

7) Să se estimeze matricea de covarianţă a estimatorilor parametrilor modelului


Matricea de covarianţă a vectorului estimatorilor este:
𝛺𝛽̂ = 𝑉𝑎𝑟(𝛽̂ ) = 𝜎 2 (𝑋 𝑇 𝑋)−1
Varianţa reziduurilor 𝜎̂𝜀2 = 𝑠𝑒2 este un estimator nedeplasat al varianţei 𝜎 2 a erorilor aleatoare.
Un estimator al matricei de covarianţă a vectorului estimatorilor este:
𝛺̂𝛽̂ = 𝑉̂ 𝑎𝑟(𝛽̂ ) = 𝑠𝑒2 (𝑋 𝑇 𝑋)−1
6133,650 −3,70794 220,20634
̂
𝛺𝛽̂ = ( −3,70794 0,00226 −0,13705 )
220,20634 −0,13705 8,90155
Elementele de pe diagonala acestei matrici sunt varianţele estimatorilor 𝛽̂𝑗 . Avem:
𝑉𝑎𝑟(𝛽̂0 ) = 6133,650 ⇒ 𝑠𝛽̂0 = 𝑠𝑒(𝛽̂0 ) = √6133,650 = 78,31763
𝑉𝑎𝑟(𝛽̂1 ) = 0,00226 ⇒ 𝑠𝛽̂ = 𝑠𝑒(𝛽̂1 ) = √0,00226 = 0,04753
1

𝑉𝑎𝑟(𝛽̂2 ) = 8,90155 ⇒ 𝑠𝛽̂2 = 𝑠𝑒(𝛽̂2 ) = √8,90155 = 2,98354

3
8) Să se testeze semnificaţia statistică a coeficienţilor de regresie
(nivel de semnificaţie 𝛼 = 0,05; valoare tabelară: 2,179)
Testarea semnificaţiei statistice a parametrului pantă 𝛽1
𝐻0 : 𝛽1 = 0 (parametrul pantă 𝛽1 nu este semnificativ statistic)
𝐻1 : 𝛽1 ≠ 0 (parametrul pantă 𝛽1 este semnificativ statistic)
̂1 −0
𝛽
Statistica testului este 𝑡= ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−3
𝑠𝛽
̂ 1

Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−3 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−3


2 2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1

𝛽̂1 − 0 0,74198
𝑡𝑐𝑎𝑙𝑐 = = = 15,61077
𝑠𝛽̂1 0,04753
𝑡𝑐𝑟𝑡 = 𝑡𝛼/2;𝑛−3 = 𝑡0,025;12 = 2,179
Deoarece 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼/2;𝑛−3 ⇒ 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐  respingem H0 şi acceptăm H1 ⇒
⇒ parametrul 𝛽1 este semnificativ statistic la pragul de semnificaţie de 5%.

Să se determine un interval de încredere 95% pentru 𝜷𝟏 .


Un interval de încredere 100(1−)% pentru 1 este de forma
(𝛽̂1 − 𝑡𝛼/2;𝑛−3 ⋅ 𝑠𝛽̂1 ≤ 𝛽1 ≤ 𝛽̂1 + 𝑡𝛼/2;𝑛−3 ⋅ 𝑠𝛽̂1 )
0,74198 ± (2,179)(0,04753)
(0,6384 ≤ 𝛽1 ≤ 0,8455)
Datele pentru toţi coeficienţii pot fi grupate în tabelul următor:
Coefficients Standard Error t Stat Lower 95% Upper 95%
300,28625 78,31763 3,83421
0,74198 0,04753 15,61077 0,6384 0,8455
8,04356 2,98354 2,69598

9) Să se previzioneze o valoare individuală a variabilei endogene pentru valorile cunoscute ale


variabilelor exogene: 𝑥1𝑝 = 2610 şi 𝑥2𝑝 = 16
Se dă vectorul 𝑥𝑝𝑇 = (1, 𝑥1𝑝 , 𝑥2𝑝 )𝑇 .
Cunoaştem vectorul 𝑥𝑝 = (1 2610 16)𝑇 .
Dorim să previzionăm (𝑦𝑝 |𝑥𝑝𝑇 ) = 𝑥𝑝𝑇 𝛽
300,286
𝑇 ̂
Valoarea previzionată este 𝑦̂𝑝 = 𝑥𝑝 𝛽 = (1 2610 16) (0,74198) = 2365,55
8,04356

Un interval de încredere 100(1−)% pentru 𝑦𝑝 este de forma


𝑦̂𝑝 ± 𝑡𝛼/2;𝑛−3 √𝑠𝑒2 [1 + 𝑥𝑝𝑇 (𝑋 𝑇 𝑋)−1 𝑥𝑝 ] ⇒
2365,55 ± (2,179)(14,6067) ⇒ 2333,72 ≤ 𝑦𝑝 ≤ 2397,38

4
ECONOMETRIE – Seminar 7 – (9.11.2022)
Multicoliniaritatea variabilelor explicative

Multicoliniaritatea este un fenomen specific eşantioanelor.


Deşi teoria spune că toate variabilele explicative sunt importante pentru analiza variabilei
dependente, eşantionul obţinut poate să nu permită includerea tuturor variabilelor în analiză.
• Exemplul-1. Teoretic, Cheltuielile personale de consum (Y) sunt determinate nu numai de
Venit (X1) ci şi de Averea personală (X2). Astfel, modelul ar putea fi:
Consum =  0 +  1 Venit +  2 Avere +  sau
y i =  0 + 1 x1i +  2 x 2i +  i
Atunci când sunt colectate date despre Venit şi Avere se poate întâmpla ca cele 2 variabile să
fie puternic corelate. Deşi teoretic Venitul şi Averea sunt variabile care ar trebui să explice
comportamentul cheltuielilor de consum, în practică, este dificil să distingem influenţele
separate ale Venitului şi Averii asupra cheltuielilor de consum. În acest scop este necesar un
număr mare de observaţii.

• (M1) y i =  0 +  1 x1i +  2 x 2i +  i Ne aşteptăm ca 1 > 0 şi 2 > 0.


În Eviews am creat workfile: multicolin_venit.wf1
Specificăm ecuaţia: Y C X1 X2 Salvăm cu Name: EQ01

ŷ i = 24,7747 + 0,9415 x1i − 0,0424 x 2i


se (6,7525) (0.8229) (0,0807)
t (3,6690) (1,1442) (-0,5261)
P (0,0080) (0,2902) (0,6151)
R = 0,9635 , R = 0,9531 , df = 7 , F = 92,4019 , DW = 2,89
2 2

Regresia arată că Venitul şi Averea împreună explică 96% din variaţia cheltuielilor de consum
şi totuşi, nici un coeficient pantă nu este semnificativ statistic. (Ne uităm la Probabilităţi: avem
Prob=0,2902 si Prob=0,6151). Mai mult, coeficientul variabilei X2=Avere are un semn greşit.
A priori, ne aşteptam ca între Consum şi Avere să existe o relaţie pozitivă (2 > 0).
Ambii coeficienţi pantă (  1 şi  2 ) nu sunt semnificativi statistic. Dacă testăm ipoteza nulă:
H0:  1 =  2 = 0 , această ipoteză poate fi respinsă. Statistica F este semnificativă statistic.

1
Faptul că testul F este semnificativ dar valorile t calculate în cazul variabilelor X1 şi X2 nu sunt
semnificative înseamnă că cele 2 variabile sunt puternic corelate, adică este imposibil să izolăm
influenţa fiecărei variabile asupra consumului.
• Detectarea multicoliniarităţii pe baza coeficienţilor de corelaţie dintre var. explicative.

Selectăm EQ01. Select Proc/Make Regressor Group


Pentru grupul creat selectăm View/Correlations
Select Freeze pentru a crea un tabel al coeficienţilor de corelaţie. Select Name
(Variantă: Select Quick/Group Statistics/Correlations. Tastăm Y X1 X2)

Dacă |rx1,x2| > 0,80 avem multicoliniaritate!


Între variabilele X1 şi X2 există o legătură directă aproape perfectă.
rx 1, x 2 = 0,998962  Variabilele X1 şi X2 sunt aproape perfect corelate.
• (M2) Regresăm variabila X2 în raport cu var. X1
Specificăm ecuaţia: X2 C X1 Salvăm cu Name: EQ02

Această regresie arată că există coliniaritate aproape perfectă între X2 şi X1.v

• Criteriul lui Klein.


Se foloseşte pentru identificarea dependenţelor liniare dintre 2 variabile exogene.
Variabilele xi , x j sunt coliniare dacă R y2  rx2i , x j
Pas1. Se estimează modelul complet (cu k regresori) şi se reţine R-Squared, notat R y2 .
Pas2. Se calculează matricea de corelaţii liniare ale variabilelor explicative (rxi , x j ) 1i , j  k
Pas3. Dacă R y2  rx2i x j se identifică perechile de variabile puternic corelate ( x i , x j ).
R y2 = 0,963504 , rx 1, x 2 = 0,998962 iar rx21, x 2 = 0,997925 .
Avem 0,9635  0,9979  R y2  rx21, x 2  Variabilele X1 şi X2 sunt puternic corelate
• Criteriul factorului de inflaţie a varianţei (Variance Inflationary Factor)
Se regresează variabila x j în raport cu restul variabilelor explicative şi se notează cu R 2j
coeficientul de determinare. Se calculează factorul de inflaţie a varianţei: VIF j = 1 /(1 − R 2j ) .

2
Calcularea factorului de inflaţie a varianţei pentru X2, in Eviews:

Selectăm EQ02. Scriem „scalar VIFX2=1/(1-EQ02.@R2)”. Press Enter.


Dublu clic pe “VIFX2” pentru a vedea valoarea. VIFX2=482,1275.
Variabila X2 induce multicoliniaritate severă.

 Remedii pentru Multicoliniaritate


− Eliminăm una din variabilele coliniare

• (M3) Dacă regresăm variabila Y în raport cu X1 obţinem EQ03: (Y C X1)

În M1 (modelul cu variabilele X1 şi X2) coeficientul variabilei X1=Venit nu a fost


semnificativ statistic, dar în M3 coeficientul variabilei X1 este semnificativ statistic.

• (M4) Regresăm Y în raport cu X2


Specificăm ecuaţia: Y C X2 Salvăm cu Name: EQ04

În M1 (modelul cu variabilele X1 şi X2) coeficientul variabilei X2=Avere nu a fost


semnificativ statistic, dar în M4 coeficientul variabilei X2 este semnificativ statistic.
Ultimele 2 regresii arată foarte clar că, în cazul multicoliniarităţii, eliminarea variabilei
coliniare va face ca cealaltă variabilă X să fie semnificativă statistic.
• Exemplul-2. Cererea pentru Album (Y) – Preţul Albumului (X1) – Venitul (X2)

3
(M1) y i =  0 +  1 x1i +  2 x 2i +  i Ne aşteptăm ca 1 < 0 şi 2 > 0.
În Eviews am creat workfile: multicolin_pret_venit.wf1
Specificăm ecuaţia: Y C X1 X2 Salvăm cu Name: EQ01

ŷ i = 145,3650 −2,7975 x1i −0,3191 x 2i


se (120,06) (0.8122) (0,4003)
t (1,2107) (−3,4444) (−0,7971)
P (0,2653) (0,0108) (0,4516)
R = 0,9778, R = 0.9714, , F = 153,8192, DW = 2,56
2 2

• Detectarea multicoliniarităţii

rx1 , x2 = −0,98844 Variabilele X1 şi X2 sunt aproape perfect negativ corelate.


Preţul şi Venitul sunt aproape perfect corelate.

Analizăm rezultatele din EQ01 faţă de cele cunoscute din modelul unifactorial (EQ03)
1) Coeficienţii lui X1 sunt negativi în ambele ecuaţii. Au valori apropiate şi sunt semnificativi.
2) Faţă de modelul unifactorial (EQ03), valoarea lui t este mică. Erorile standard au crescut.

4
3) În modelul unifactorial (EQ03) am obţinut R 2 = 0,975733. În modelul cu 2 factori avem
R 2 = 0,977752, deci nu a crescut mult. Această creştere în R 2 nu este semnificativă.
4) Coeficientul variabilei X2=Venit nu este semnificativ statistic şi are semn greşit. Pentru cele
mai multe bunuri Venitul are un efect pozitiv asupra cantităţii cerute.
5) Ipoteza H0:  1 =  2 = 0 poate fi respinsă. Statistica F este semnificativă statistic.

(M2) Regresăm X2 în raport cu X1. Această regresie arată că există coliniaritate aproape
perfectă între X2 şi X1. Specificăm ecuaţia: X2 C X1 Salvăm cu Name: EQ02

• Calcularea factorului de inflaţie a varianţei pentru X2, in Eviews:


Selectăm EQ02. Scriem „scalar VIFX2=1/(1-EQ02.@R2)”. Press Enter.
Dublu clic pe “VIFX2” pentru a vedea valoarea
VIFX2 = 43,5031  Variabila X2 induce multicoliniaritate severă.

• Estimatorii obţinuţi prin MCMMP şi erorile lor standard devin foarte senzitivi la
modificări mici în date, adică sunt instabili.
Modificăm Venitul pentru observaţiile 1, 5 şi 10: 295, 287, 274.

Specificăm ecuaţia: Y C X2 Salvăm cu Name: EQ04

5
Coeficientul variabilei X2=Venit a devenit semnificativ statistic şi pozitiv, în acord cu
aşteptările teoretice.

 Remedii pentru Multicoliniaritate: Transformarea variabilelor

De foarte multe ori problema se rezolvă prin logaritmarea datelor.


În loc să estimăm modelul y i =  0 +  1 x1i +  2 x 2i +  i vom estima modelul:
ln( y i ) =  0 +  1 ln( x1i ) +  2 ln( x 2i ) +  i
În Eviews vom specifica ecuaţia:
LOG(Y) C LOG(X1) LOG(X2)


ln Yi = –26,8382 –0,0839 ln X 1i + 5,3979 ln X 2i
P (0,0013) (0,0153) (0,0006)
Coeficienţii pantă sunt semnificativi statistic şi au semnele în concordantă cu teoria economică.
Aplicaţi Testul Jarque-Bera (JB) privind distribuţia normală a reziduurilor din EQ04

6
Acest test calculează mai întâi coeficientul de asimetrie (Skewness) şi coeficientul de boltire
(Kurtosis) pentru reziduurile obţinute prin MCMMP. Ipotezele de testat sunt:
H0: Reziduurile au distribuţie normală ( S = 0 şi K = 3 )
H1: Reziduurile nu au distribuţie normală

Statistica testului este


Sub ipoteza nulă, că reziduurile sunt normal distribuite, Jarque şi Bera au arătat că, pentru
eşantioane mari, statistica JB urmează o distribuţie Chi-squared cu două grade de libertate ( ).

Pe meniul ecuaţiei EQ04 selectaţi: View→Residual Tests→Histogram-Normality Test

Jarque-Bera = 0,498737
Probability = 0,779293
Deoarece Probabilitatea asociată statisticii JB este > 0,05 acceptăm H0  Reziduurile au
distribuţie normală.

7
Regresie liniară multiplă − output din Excel de completat

Model de regresie liniară cu doi regresori: 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀.

Exercițiu:
Pentru a se studia legătura dintre variabilele Y = preţul unei case (în mii euro),
X1 = suprafaţa casei (în mp) şi X2 = vechimea casei (în ani), folosim un număr de
23 observaţii şi modelul liniar cu două variabile explicative.

În urma prelucrării datelor observate, cu Excel, am obţinut rezultatele de mai jos:

Regression Statistics
Multiple R ………
R Square ………
Adjusted R
Square 0.7085
Standard Error ………
Observations ……….

ANOVA
df SS MS F Significance F
Regression …… 8659.1982 ……….. ………..
Residual …… ………… 156.1075
Total ……. ………..

Coefficients StandardError t Stat P-value Lower 95% Upper 95%


Intercept 59.0848 10.4539 5.6520 0.0000 37.2784 80.8912
X1 0.1732 0.0329 ………… 0.0000 0.1047 …………
X2 …………. 0.2382 ………… 0.0041 …………. −0.2745

a) Completaţi informaţiile care lipsesc


(se vor preciza formulele utilizate pentru obţinerea valorilor care lipsesc).
b) Scrieţi ecuaţia de regresie estimată. Interpretaţi valoarea coeficientilor pantă.
c) Testaţi validitatea modelului (nivelul de semnificaţie este 𝛼 = 0,05 şi valoarea tabelară
este 3,49) .
d) În ce proporţie preţul unei case este influenţat de suprafaţa casei şi de vechimea casei?
e) Testaţi semnificaţia parametrului pantă 𝛽2 şi interpretaţi intervalul de încredere pentru acesta
(nivelul de semnificaţie este 5% şi valoarea tabelară 2,086).
f) Testaţi dacă parametrul pantă al variabilei X2 diferă semnificativ de −0,7.
g) Previzionaţi preţul unei case ştiind că suprafaţa casei este de 500 mp şi vechimea casei
este de 10 ani.
Seminar 8 ECONOMETRIE –
Testarea Homoscedasticităţii/Heteroscedasticităţii erorilor aleatoare

Definiţie: Erorile aleatoare se numesc homoscedastice dacă au dispersii sau varianţe egale.
Definiţie: Erorile aleatoare se numesc heteroscedastice dacă au dispersii sau varianţe diferite:
𝑽𝒂𝒓(𝜺𝒊 ) = 𝑬(𝜺𝒊 − 𝑬(𝜺𝒊 ))𝟐 = 𝝈𝟐𝒊 , 𝒊 = 𝟏, 𝟐, . . . , 𝒏.
Putem exprima proprietatea de heteroscedasticitate a erorilor aleatoare şi prin 𝐸(𝜀𝑖2 ) = 𝜎𝑖2 .

Aplicaţie: Să se studieze legătura liniară dintre CD şi Venit


(Cheltuielile pentru Cercetare şi Dezvoltare şi Veniturile din Industrie).
Datele sunt exprimate în milioane dolari şi se găsesc în fişierul „Date Heteroscedasticitate.xls”.
Considerăm modelul liniar: 𝐶𝐷 = 𝛽0 + 𝛽1 𝑉𝑒𝑛𝑖𝑡 + 𝜀𝑖 .
CD=Y iar Venit=X. Ne aşteptăm la o relaţie pozitivă între cele 2 variabile.

1). Să se estimeze modelul de regresie utilizând Eviews.


Vom crea un fişier de tip workfile (26 observaţii) şi vom importa datele din fişierul de tip xls (2 serii)
Formăm grupul CD, Venit. Specificăm regresia pentru EQ01: CD C Venit

Fig1. Output-ul regresiei Fig2.Detectarea heteroscedasticităţii grafic

Rezultatele regresiei sunt:



𝐶𝐷 = 8,166390 + 0,040629 Venit
𝑠𝑒 = (51,03628) (0,00286) 𝑅 2 = 0,8937, 𝐹 = 201,8251
2) Reţineţi reziduurile din această regresie sub denumirea REZIDUURI.
În zona de lucru din Eviews (zona albă) definim: „SERIES REZIDUURI=RESID”.
Pe bara de jos apare mesajul: “REZIDUURI successfully computed”.
Vizualizăm grupul REZIDUURI, RESID. Comparăm. Sunt aceleaşi serii? Da!

3) Să se cerceteze prezenţa heteroscedasticităţii erorilor aleatoare.


a) Detectarea heteroscedasticităţii prin metoda grafică
Obs: Reziduurile 𝑒𝑖 nu sunt identice cu erorile aleatoare 𝜀𝑖 . Pentru că nu putem observa 𝜀𝑖 , vom trage concluzii
despre modelul lui 𝜀𝑖 pe baza modelului observat pentru 𝑒𝑖 .
Reprezentăm grafic reziduurile (pe axa Oy) faţă de Venit (pe axa Ox).
Formăm grupul VENIT, REZIDUURI. Selectăm View, Graph, Scatter, Regression Line.
Sau: Quick, Graph, venit abs(reziduuri), Scatter
Din grafic se vede că valoarea absolută a reziduurilor creşte pe măsură ce Veniturile cresc, ceea ce sugerează
că ipoteza de homoscedasticitate nu este îndeplinită. Există heteroscedasticitate.
b) Detectarea heteroscedasticităţii folosind teste statistice
1
Testul White
Testul White solicită ca, după determinarea reziduurilor din regresia originală, să se calculeze o regresie
auxiliară a pătratelor reziduurilor în raport cu o constantă, variabilele explicative ale modelului original,
pătratele lor şi produsele lor încrucişate. În cazul nostru regresia auxiliară este:
𝑒𝑖2 = 𝑎0 + 𝑎1 𝑥𝑖 + 𝑎2 𝑥𝑖2 + 𝑢𝑖
Estimăm această regresie auxiliară prin MCMMP. Reţinem coeficientul de determinaţie 𝑅𝑎2 =0,5659.
𝐻0 : 𝑎1 = 𝑎2 = 0 (erorile aleatoare sunt homoscedastice)
𝐻1 : (∃)𝑎𝑖 ≠ 0, 𝑖 = 1,2 (erorile aleatoare sunt heteroscedastice)
White a arătat că, în selecţii de volum mare, sub ipoteza H0 statistica 𝑊 = 𝑛𝑅𝑎2 urmează asimptotic o
distribuţie 𝜒 2 cu gradele de libertate date de numărul de regresori din ecuaţia auxiliară (la noi 2).
2
Dacă 𝑊𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 = 𝑛𝑅𝑎2 > 𝜒𝑡𝑎𝑏;𝛼 respingem 𝐻0 şi acceptăm 𝐻1 ⇒ erorile aleatoare sunt heteroscedastice.

Testul White poate fi aplicat direct în EViews.


Pasul1. Se estimează parametrii modelului iniţial prin MCMMP şi reţinem reziduurile 𝑒𝑖 .
Pasul2. Se aplică testul White direct, pe seria reziduurilor.
Selectăm View/Residual Diagnostics/ Heteroskedasticity Tests/ White
Sunt afişate statistica F, clasică, statistica 𝑛𝑅𝑎2 =Obs*R-squared şi probabilităţile asociate.
Dacă Probabilităţile asociate statisticilor calculate sunt mai mici decât nivelul de semnificaţie ales, respingem
𝐻0 şi acceptăm 𝐻1 ⇒ erorile aleatoare sunt heteroscedastice.

Observăm că Prob. F(2.23) = 0,0001 iar Prob. Chi-square = 0,0006.


Deoarece P-value< 𝛼 respingem H0 şi acceptăm H1  erorile aleatoare sunt heteroscedastice.

Testul Glejser
După obţinerea reziduurilor din modelul original, Glejser a sugerat regresarea valorii absolute a lui 𝑒𝑖 în
raport cu o variabilă ce reprezintă o transformare a variabilei X, care este privită ca fiind asociată cu varianţa
heteroscedastică 𝜎𝑖2 .
Estimăm modelul: |𝑒𝑖 | = 𝛽0 + 𝛽1 (1/𝑥𝑖 ) + 𝑢𝑖
Vom calcula |𝑒𝑖 | scriind în zona de lucru “series eimodul=abs(reziduuri)”

Specificăm ecuaţia EQ02: EIMODUL C 1/VENIT


2
H0: 𝛽1 = 0 (există homoscedasticitate)

H1: 𝛽1 ≠ 0 (există heteroscedasticitate)  |𝑒𝑖 | = 172,3352 −131196,9 * (1/Venit)

În Eviews, pe EQ01, Selectăm View/Residual Diagnostics/ Heteroskedasticity Tests/ Glejser


Se vor specifica regresorii pentru modelul dorit.
Am specificat regresorii: C 1/VENIT

Estimăm modelul: |𝒆𝒊 | = 𝜷𝟎 + 𝜷𝟏 √𝒙𝒊 + 𝒖𝒊

Specificăm ecuaţia EIMODUL C SQR(VENIT)  salvăm ca EQ03

Specificăm iar CD C Venit, apoi ecuaţia ABS(RESID) C SQR(VENIT)  EQ04

3

|𝑒𝑖 | = −72,8306 + 2,1855 * √Venit
𝑠𝑒 = (34,2057) (0,3208) 𝑅 2 = 0,6591
Modelele din EQ03 şi din EQ04 sugerează să respingem H0, deoarece coeficienţii pantă sunt semnificativi
statistic.

Aceleşi rezultate le-am obţinut şi prin aplicarea testului Glejser direct în EViews.
Statisticile t-calculat (t-Statistic) au Prob. asociate egale cu 0,0000 < . Respingem H0 şi acceptăm H1.

Am specificat regresorii: C SQR(VENIT)

Corectarea heteroscedasticităţii erorilor aleatoare

I) MCMMP-Ponderată
Cazul: Varianţele perturbaţiilor sunt necunoscute: 𝜎𝑖2 = necunoscut
a) 𝜎𝑖2 = 𝜎 2 𝑥𝑖2 (Varianţa erorilor este proporţională cu pătratul unei variabile explicative)
Modelul iniţial este 𝐶𝐷 = 𝛽0 + 𝛽1 𝑉𝑒𝑛𝑖𝑡 + 𝜀𝑖 sau sub forma 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Transformăm modelul iniţial împărţind prin xi
𝑦𝑖 1 𝜀𝑖
= 𝛽0 + 𝛽1 +
𝑥𝑖 𝑥𝑖 𝑥𝑖

4
Modelul transformat prezintă homoscedasticitate. Putem aplica MCMMP modelului transformat.
În Eviews selectăm: Quick → Estimate Equation →EQ05: CD/VENIT C 1/VENIT

Modelul este semnificativ? Nu. Probabilitatea este > 0,05.

b) 𝜎𝑖2 = 𝜎 2 𝑥𝑖 (Varianţa erorilor este proporţională cu o variabilă explicativă)


Transformăm modelul iniţial împărţind prin √𝑥𝑖 :
𝑦𝑖 1 𝑥𝑖 𝜀𝑖 𝑦𝑖 1 𝜀𝑖
= 𝛽0 + 𝛽1 + ,⇒ = 𝛽0 + 𝛽1 √𝑥𝑖 +
√ 𝑥𝑖 √ 𝑥𝑖 √ 𝑥𝑖 𝑥
√ 𝑖 √ 𝑥𝑖 √ 𝑥𝑖 √ 𝑥𝑖
Modelul transformat prezintă homoscedasticitate. Putem aplica MCMMP modelului transformat.

Selectăm: Quick → Estimate Equation →


CD/SQR(VENIT) 1/SQR(VENIT) SQR(VENIT)  salvăm ca EQ06

Comparăm eq06 cu eq01. Variabilele dependente sunt diferite.


Dacă în eq06 înmulţim prin √𝑥𝑖 , eq06 va fi transformată în
𝑦̂𝑖 = −21,196 + 0,0432 ∗ 𝑥𝑖 .
Se pare că presupunerea 𝜎𝑖2 = 𝜎 2 𝑥𝑖 este mai potrivită pentru exemplul CD-Venit.

5
II) Respecificarea modelului
Transformarea logaritmică este folosită în mod frecvent pentru a elimina heteroscedasticitatea, deoarece
reduce dispersia variabilelor iniţiale.
Se estimează prin MCMMP modelul
𝑙𝑛 𝑦𝑖 = 𝛽0 + 𝛽1 𝑙𝑛 𝑥𝑖 + 𝜀𝑖 în locul modelului 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 .
Un avantaj al modelului log-liniar sau dublu logaritmic, este că panta măsoară elasticitatea lui Y în raport cu
X, adică modificarea procentuală în Y, pentru o modificare procentuală în X.
EQ07: LOG(CD) C LOG(VENIT)

După ce am estimat ecuaţia EQ07 aplicăm testul White şi obţinem:

Deoarece Prob(Obs*R-squared) = 0,7622 >  (=0,05) nu respingem H0 (acceptăm H0).


 Erorile aleatoare sunt homoscedastice.

III) White a obţinut un estimator consistent care oferă estimări robuste, corecte, ale erorilor standard ale
parametrilor modelului liniar de regresie, în prezenţa heteroscedasticităţii sub formă necunoscută.
6
Seminar 9 ECONOMETRIE – (23.11.2022)

Autocorelarea erorilor aleatoare


Se dau date privind Consumul final real al gospodăriilor populaţiei (Y) şi PIB-ul real (X) din România,
pe o perioadă de 14 ani. Datele sunt exprimate în miliarde lei.

557. 467. 432. 435. 447. 505. 545. 525. 586. 579. 582. 610. 629. 673.
7 4 1 9 3 3 7 7 2 8 3 7 1 7
857. 746. 681. 691. 718. 769. 799. 750. 714. 706. 720. 761. 799. 838.
9 8 0 3 2 3 5 7 8 1 7 7 1 3

1) Să se construiască modelul econometric care descrie legătura dintre cele 2 variabile.


2) Să se estimeze parametrii modelului (utilizând Eviews).
Modelul de regresie estimat poate fi folosit în inferenţa statistică şi pentru previziune doar dacă
ipotezele pe care acesta se bazează sunt îndeplinite.
A) Verificarea ipotezei de non-autocorelare (independenţă) a erorilor aleatoare
B) Verificarea ipotezei de homoscedasticitate a erorilor aleatoare
C) Verificarea semnificaţiei estimatorilor parametrilor

Notăm Y = Consumul real al gospodăriilor populaţiei şi


X = PIB-ul real
În Eviews vom crea un workfile numit „Autocorelare”.
Vom importa cele 2 serii: Y şi X din fişierul Date Autocorelare.xls
Pentru a reprezenta grafic cele două serii putem utiliza comanda „SCAT X Y”.
Considerăm modelul de regresie liniară simplă:
𝑦𝑡 = 𝛽0 + 𝛽1 𝑥𝑡 + 𝜀𝑡 , 𝑡 = 1, . . . ,14.
𝛽1 arată cu cât se modifică, în medie, Consumul atunci când PIB-ul creşte cu o unitate (1miliard lei).

Scrieţi ecuaţia de regresie estimată şi comentaţi valorile obţinute.



𝑌𝑡 = −67,6561 +0,8077 *Xt
𝑠𝑒 (............) (..........)
𝑡 [............] [2,4416]
𝑝 (.0,7913.) (0,0311)
2
𝑅 =0,3319, 𝑅 =. . . . . .., 𝐹 =. . . . . . . 𝐷𝑊 = 0,19687 ≈ 0,2
Interpretaţi 𝛽̂1=0,8077 ..... Precizaţi 𝑠𝑏0 , 𝑠𝑏1 , 𝑠𝑒 .

1
A1) Verificarea ipotezei de non-autocorelare a erorilor aleatoare prin metoda grafică
Creaţi seria reziduurilor din modelul de regresie şi verificaţi prezenţa autocorelării reziduurilor.
Deschidem EQ01, selectăm Procs/Make Residual Series sau
scriem comanda „series et=resid” sau „genr et=resid”.
Selectăm seria reziduurilor, apoi View/Graph/Spike
Scriem comanda „scat et(–1) et” pentru a reprezenta grafic seria 𝑒𝑡 în raport cu 𝑒𝑡−1.

A2) Testul DURBIN-WATSON. Detectarea autocorelării erorilor aleatoare.


Testul Durbin-Watson verifică dacă există autocorelare de ordinul întâi în seria reziduurilor.
Se bazează pe următoarele ipoteze:
1. Modelul de regresie trebuie să conţină termen liber
2. Marticea X, a variabilelor independente, să nu fie stochastică
3. Valoarea perturbaţiei la momentul t depinde de valoarea sa la momentul (t-1) şi un termen pur
aleator u. Intensitatea dependenţei de valoarea trecută este măsurată prin coeficientul de corelaţie 𝜌.
Erorile sunt generate printr-un proces autoregresiv de ordinul întâi (AR(1)):
𝜺𝒕 = 𝝆𝜺𝒕−𝟏 + 𝒖𝒕 , unde 𝑢𝑡 este zgomot alb (white noise)
4. Erorile aleatoare sunt normal distribuite
5. Modelul de regresie nu conţine, ca variabilă exogenă, variabila endogenă cu decalaj.

Folosim statistica Durbin-Watson:


∑𝑛𝑡=2(𝑒𝑡 − 𝑒𝑡−1 )2
𝐷𝑊 = 𝑑 =
∑𝑛𝑡=1 𝑒𝑡 2
Printre rezultatele oferite prin apelarea funcţiei de regresie din pachetul software EViews, este afişată
valoarea calculată a satisticii DW.
Proprietăţi ale statisticii DW:
∑𝑛
𝑡=2 𝑒𝑡 𝑒𝑡−1
P1. 𝐷𝑊 ≈ 2(1 − 𝜌̂), unde 𝜌̂ = ∑𝑛 2 este coeficientul de corelaţie de selecţie.
𝑡=1 𝑒𝑡
P2. 0 ≤ 𝐷𝑊 ≤ 4
Dacă nu există autocorelaţie, atunci 𝜌̂ ≈ 0  𝐷𝑊 ≈ 2.
Dacă există autocorelaţie puternic pozitivă, atunci 𝜌̂ ≈ 1  𝐷𝑊 ≈ 0.
Dacă există autocorelaţie puternic negativă, atunci 𝜌̂ ≈ −1  𝐷𝑊 ≈ 4.
Statistica DW nu urmează o distribuţie clasică. Valorile sale critice sunt tabelate. Pentru un nivel de
semnificaţie dat, tabelul conţine două valori critice: limita inferioară 𝑑1 şi limita superioară 𝑑2 (notate
şi 𝑑𝐿 şi 𝑑𝑈 ).
Etape în aplicarea testului Durbin-Watson
Pas1. Se estimează parametrii modelului de regresie prin MCMMP şi se obţin reziduurile.
Se testează ipotezele:
𝐻0 : 𝜌 = 0 (nu există Autocorelarea erorilor aleatoare)
𝐻1 : 𝜌 ≠ 0 (există Autocorelare de ordin 1 a erorilor aleatoare).
Pas2. Se calculează valoarea statisticii DW.
Pas3. Se determină valorile critice 𝑑1 şi 𝑑2
Pas4. Se compară valoarea calculată cu valorile critice obţinute din tabele
Dacă 0 ≤ 𝐷𝑊 ≤ 𝑑1, seria reziduurilor prezintă autocorelare de ordinul 1 pozitivă ⇒ 𝜌 > 0.
Dacă 𝑑1 < 𝐷𝑊 < 𝑑2 ⇒indecizie. Se recomandă acceptarea autocorelării pozitive.
Dacă 𝑑2 ≤ 𝐷𝑊 ≤ 4 − 𝑑2 ⇒ reziduurile sunt independente
Dacă 4 − 𝑑2 < 𝐷𝑊 < 4 − 𝑑1 ⇒indecizie. Se recomandă acceptarea autocorelării negative
Dacă 4 − 𝑑1 ≤ 𝐷𝑊 ≤ 4, seria reziduurilor prezintă autocorelare de ordinul 1 negativă ⇒ 𝜌 < 0.
reg1 reg2 reg 3 reg 4 reg 5
0 𝜌>0 d1 d2 4-d2 4-d1 𝜌<0 4

2
Din tabelul distribuţiei DW, pentru nivelul de semnificaţie 5% , n=14 (n≥15), k=1, găsim d1=1,08 şi
d2=1,36. Deoarece DW≈0,2 rezultă că există o autocorelare pozitivă a erorilor aleatoare.
Acceptăm ipoteza H1: ⇒ există Autocorelare de ordinul I pozitivă a erorilor aleatoare.
Concluzie: Nu are sens testarea celorlalte ipoteze. Se impune eliminarea Autocorelării erorilor.

A3) Testul BREUSCH-GODFREY pentru a detecta Autocorelarea de ordin superior (𝑟 > 1).
H0: nu există Autocorelarea de ordin 𝑟, a erorilor aleatoare
H1: există Autocorelarea de ordin 𝑟, a erorilor aleatoare
Aplicăm testul BG pentru autocorelarea de ordin 𝑟 = 2.
EQ01: View/Residual Diagnostics/Serial Correlation Test/Lag to include: 2
(2 este valoarea implicită pentru decalaj)

Vom estima regresia: 𝑒𝑡 = 𝑎0 + 𝑎1 𝑥𝑡 + 𝜌1 𝑒𝑡−1 + 𝜌2 𝑒𝑡−2 + 𝑣𝑡


 𝑒̂𝑡 = 𝑎̂0 + 𝑎̂1 𝑥𝑡 + 𝜌̂1 𝑒𝑡−1 + 𝜌̂2 𝑒𝑡−2
I) Se afişează statistica F, clasică, şi probabilitatea asociată acesteia.
Avem 𝐹 − statistic = 16,65 şi Prob. F(2,10) = 0,0007
⇒ Respingem H0 şi acceptăm H1  Există autocorelare de ordinul 2 (de fapt este de ordinul 1).
Vezi coeficientul lui 𝑒𝑡−1 (resid(-1)). Este semnificativ statistic. Avem t=3,366854 şi p-value=0,0072.
Coeficientul lui 𝑒𝑡−2 (resid(-2)) nu este semnificativ statistic. Avem t = −0,266686 şi p-value=0,7951.
𝑒̂𝑡 = 166,63 − 0,2158 𝑥𝑡 + 1,0097 𝑒𝑡−1 −0,0879 𝑒𝑡−2
𝑠𝑒 (............) (0,1935) (............) (..........)
𝑡 [............] [−1,1153] [3,3668] [−0,2666]
𝑝 (............) (0,2908) (0,0072) (0,7951)
II) Se utilizează testul LM
2
𝐿𝑀 = 𝑛𝑅 2 ~𝜒𝑑𝑓 , unde df este mărimea decalajului
2
Respingem H0 şi acceptăm H1 dacă valoarea calculată a testului este > 𝜒𝛼;𝑑𝑓 .

3
2 2 2
Avem 𝜒𝑐𝑟𝑡 = 𝜒𝛼;𝑑𝑓 = 𝜒0,05;2 = 5,99147
𝐿𝑀 = 𝑛𝑅 2 = Obs*R-squared = 10,76730 şi Prob. Chi-Square(2)=0,0046 
⇒ Respingem H0 şi acceptăm H1  Există autocorelare.

Corectarea autocorelării. MCMMP Generalizată (GLS-Generalized Least Squares).


Considerăm modelul
𝑦𝑡 = 𝛽0 + 𝛽1 𝑥𝑡 + 𝜀𝑡
Presupunem că termenul eroare urmează un model AR(1):
𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑢𝑡 cu 𝜌 cunoscut, −1 ≤ 𝜌 ≤ 1 şi 𝒖𝒕 zgomot alb.
Dacă putem transforma modelul a.î. erorile aleatoare ale modelului transformat să fie independente,
putem aplica MCMMP modelului transformat şi vom obţine estimatori BLUE. (Se presupune că
celelalte ipoteze ale modelului clasic de regresie liniară sunt îndeplinite.)
Scriem ecuaţia de regresie pentru perioada anterioară, o înmulţim cu 𝜌 şi scădem din prima ecuaţie:
𝑦𝑡−1 = 𝛽0 + 𝛽1 𝑥𝑡−1 + 𝜀𝑡−1
𝜌𝑦𝑡−1 = 𝜌𝛽0 + 𝜌𝛽1 𝑥𝑡−1 + 𝜌𝜀𝑡−1
𝑦𝑡 − 𝜌𝑦𝑡−1 = 𝛽0 (1 − 𝜌) + 𝛽1 (𝑥𝑡 − 𝜌𝑥𝑡−1 ) + 𝑢𝑡  𝑑𝑦 = 𝛽0∗ + 𝛽1 𝑑𝑥 + 𝑢
Vom nota 𝑦 ∗ = 𝑦𝑡 − 𝜌𝑦𝑡−1, 𝑥 ∗ = 𝑥𝑡 − 𝜌𝑥𝑡−1 , 𝛽0∗ = 𝛽0 (1 − 𝜌)  Obţinem modelul transformat:
𝑦𝑡∗ = 𝛽0∗ + 𝛽1 𝑥𝑡∗ + 𝑢𝑡
Aplicăm MCMMP variabilelor transformate 𝑦 ∗ = 𝑦𝑡 − 𝜌𝑦𝑡−1 şi 𝑥 ∗ = 𝑥𝑡 − 𝜌𝑥𝑡−1 . Estimatorii asfel
obţinuţi vor avea proprietăţile dorite, vor fi BLUE.
Concluzie: În cazul autocorelării erorilor, în scopul testării ipotezelor modelului de regresie şi pentru
stabilirea intervalelor de încredere, trebuie folosită MCMMP Generalizată, care va furniza estimatori
de maximă verosimilitate.
Notă: Trebuie să cunoaştem coeficientul de autocorelaţie real, 𝜌. Pentru că nu-l cunoaştem pe 𝜌, va
trebui să-l estimăm. Folosim două procedee de estimare pentru 𝜌.

1) Estimarea lui 𝜌 pe baza statisticii DW


Deoarece am găsit că 𝐷𝑊 ≈ 2(1 − 𝜌̂), înseamnă că se poate obţine o estimaţie a lui 𝜌 din statistica
DW calculată. Rezultă
𝜌̂ ≈ 1 − 𝐷𝑊/2.
Deşi este uşor de folosit, acest procedeu de estimare dă estimaţii bune ale lui 𝜌 numai dacă volumul
eşantionului este mare.
Vom folosi notaţia 𝜌̂ = ro1
Pentru eliminarea autocorelării erorilor aleatoare prin GLS vom scrie în Eviews comenzile:

Quick/Estimate Equation: y c x  Salvăm ecuaţia cu numele EQ01


genr et=resid
scalar ro1=1-@dw/2 (ro1=0,901565)
genr dy=y-ro1*y(-1)
genr dx=x-ro1*x(-1)

Quick/Estimate Equation: dy c dx  Salvăm ecuaţia cu numele EQ02


scalar beta0=c(1)/(1-ro1) (beta0=103,2177)

4

𝑦𝑡∗ = 10,16023 +0,7083 *𝑥𝑡∗
𝑠𝑒 (............) (0,1628)
𝑡 [0,7336] [4,3506]
𝑝 (0,4786) (0,0012)
𝑅 2 =. . . . . .., 𝑅 =. . . . . .., 𝐹 =. . . . . . . 𝐷𝑊 = 1,7545

𝐷𝑊 = 1,7545 iar d1=1,08 şi d2=1,36.

0 1,08 1,36 2,64 2,92 4

𝑑2 = 1,36 < 𝐷𝑊 = 1,7545 < 2,64 = 4 − 𝑑2  DWreg.3 


Rezultă că erorile sunt independente. Fenomenul de autocorelare a fost eliminat.

2) Estimarea lui 𝝆 din reziduurile obţinute prin aplicarea MCMMP. (Exerciţiu)


𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑢𝑡
Deoarece perturbaţiile 𝜀𝑡 nu sunt observabile, vom folosi estimaţiile lor şi vom efectua următoarea
regresie: 𝑒𝑡 = 𝜌̂𝑒𝑡−1 + 𝑢𝑡 , unde 𝜌̂ este un estimator al lui 𝜌.
Determinaţi 𝝆 ̂.
EQ03: et et(-1)

𝑒̂𝑡 = 0,887759𝑒𝑡−1  𝜌̂ ≈ 0,89

5
B) Verificarea ipotezei de homoscedasticitate pentru modelul transformat.

EQ02: View/Residual Diagnostics/Heteroskedasticity Tests/White


H0 ? H1 ?? Analizăm rezultatele:
F-statistic = 0,8302 şi Prob. F(2,10) = 0,4639
LM=Obs*R-squared = 1,8512 şi Prob. Chi-Squared(2) = 0,3963 >0,05 
 acceptăm H0  Homoscedasticitate!
Toţi coeficienţii modelului auxiliar 𝑒̂𝑡2 = 𝑎̂0 + 𝑎̂1 𝑑𝑥 + 𝑎̂2 (𝑑𝑥)2 sunt nesemnificativi.
Erorile aleatoare sunt homoscedastice.

C) Verificarea semnificaţiei estimatorilor parametrilor


Analizăm output-ul ecuaţiei EQ02
H0, H1.....
Coeficientul pantă este semnificativ statistic deoarece
𝑡calc = 4,3506, 𝑡crt = 𝑡0,025;11 = 2,201iar p-value=0,0012.
Termenul constant nu este semnificativ statistic deoarece
𝑡calc = 0,7336, 𝑡crt = 𝑡0,025;11 = 2,201 iar p-value=0,4786.

D) Verificarea validităţii modelului (sau a semnificaţiei raportului de corelaţie multiplă)


𝐹calc = 18,9279, Prob(F)=0,001154
𝐹crt = 𝐹0,05;11 = 4,84
Respingem H0 şi acceptăm H1, deci modelul este valid statistic.

Modelul 𝑦𝑡∗ = 10,16023 + 0,7083 * 𝑥𝑡∗ ,
poate fi considerat ca fiind reprezentativ pentru a descrie legătura dintre consumul real al gospodăriilor
populaţiei şi PIB-ul real.

6
Ipoteze în fundamentarea modelului de regresie liniară multifactorială
Unui model de regresie i se asociază o serie de ipoteze pentru a obţine estimaţii de maximă
verosimilitate.
I1) Forma funcţională este liniară: 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊𝟏 + 𝜷𝟐 𝒙𝒊𝟐 + 𝜺𝒊 .

I2) Erorile aleatoare au media zero: 𝐸(𝜀𝑖 ) = 0, 𝑖 = 1,2, . . . , 𝑛.

I3) Homoscedasticitatea erorilor aleatoare: 𝐷(𝜀𝑖 ) = 𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎𝜀2 = 𝜎 2 , 𝑖 = 1,2, . . . , 𝑛.

I4) Erorile aleatoare nu sunt autocorelate: 𝑐𝑜𝑣( 𝜀𝑖 , 𝜀𝑗 ) = 0 pentru 𝑖 ≠ 𝑗

I5) Necorelarea între regresor şi erorile aleatoare: 𝑐𝑜𝑣( 𝜀𝑖 , 𝑥𝑖 ) = 0 pentru orice i .

I6) Erorile aleatoare au distribuţie normală: 𝜺𝒊 ~𝑵(𝟎, 𝝈𝟐 ).

I7) Necoliniaritatea variabilelor explicative. Nu există proprietatea de multicoliniatitate perfectă


între variabilele explicative. Variabilele explicative sunt liniar independente (nu pot fi scrise ca o
combinaţie liniară perfectă a celorlalte variabile explicative). În caz contrar, nu este posibil să se
estimeze efectul liniar separat al fiecărui regresor asupra variabilei dependente.

Comentarii despre ipoteze.


I1) Ipoteza de liniaritate se referă la parametrii modelului şi la termenul eroare.
Modelul trebuie să fie liniar în raport cu parametrii modelului şi cu termenul eroare dar poate să nu fie
liniar în variabilele independente.

I2) Erorile aleatoare au media zero. 𝐸(𝜀𝑖 |𝑥𝑖 ) = 𝐸(𝜀𝑖 ) = 0, 𝑖 = 1,2, . . . , 𝑛.


Eroarea aleatoare 𝜀 este văzută ca suma efectelor individuale ale unor factori aleatori, cu semne
diferite. Înseamnă că, în medie, factorii neînregistraţi nu au efect asupra mediei variabilei Y. Valorile
pozitive şi negative ale lui 𝜀 se anulează între ele.

I3) Erorile aleatoare au dispersia constantă pentru toate observaţiile, adică sunt homoscedastice:
𝑉𝑎𝑟(𝜀𝑖 ) = 𝐷(𝜀𝑖 ) = 𝐸(𝜀𝑖 − 𝐸(𝜀𝑖 ))2 = 𝜎𝜀2 = 𝜎 2 (∀)𝑖 = 1, 𝑛.
Deoarece 𝐸(𝜀𝑖 ) = 0, ipoteza de homoscedasticitate poate fi exprimată într-o formă echivalentă:
𝐸(𝜀𝑖2 ) = 𝜎𝜀2 = 𝜎 2 (∀)𝑖 = 1, 𝑛.
Aceasta este proprietatea de homoscedasticitate a erorilor aleatoare. Pe baza acestei ipoteze se poate
admite că legătura dintre variabilele Y şi X este relativ stabilă.
Dacă ipoteza de homoscedasticitate nu este îndeplinită, erorile aleatoare sunt numite heteroscedastice.

I4) Erorile aleatoare nu sunt autocorelate. Nu există corelaţie între doi termeni eroare. Înseamnă că
termenii eroare sunt aleatori. Se scrie sub forma: 𝑐𝑜𝑣( 𝜀𝑖 , 𝜀𝑗 ) = 0 sau 𝐸(𝜀𝑖 𝜀𝑗 ) = 0 pentru 𝑖 ≠ 𝑗.
Nu înseamnă că 𝑦𝑖 şi 𝑦𝑗 sunt necorelate ci că abaterile valorilor observate de la valorile medii sunt
necorelate.

I5) Necorelarea dintre erorile aleatoare şi regresori: 𝑐𝑜𝑣( 𝜀𝑖 , 𝑥𝑖 ) = 0pentru orice i .


Erorile aleatoare sunt independente de variabilele explicative.

I6) Erorile aleatoare sunt presupuse a fi normal distribuite, pentru orice i.


𝜀𝑖 ~𝑁(0, 𝜎 2 ), (∀)𝑖 = 1, 𝑛.

1
Testarea Autocorelării erorilor aleatoare. Testul Durbin-Watson.
Prin acest test se verifică dacă există autocorelare de ordinul întâi în seria reziduurilor.
Ipotezele de testat sunt:
𝐻0 : 𝜌 = 0 (nu există autocorelarea de ordin I a erorilor aleatoare)
𝐻1 : 𝜌 ≠ 0 (există autocorelarea de ordin I a erorilor aleatoare).
Reamintim:
𝒚𝒊 este valoarea observată
̂𝒊 este valoarea ajustată
𝒚
𝒆𝒊 = 𝒚 𝒊 − 𝒚 ̂𝒊 se numește reziduu (eroarea estimată la observația i)
∑𝑛
𝑖=2(𝑒𝑖 −𝑒𝑖−1 )
2
Statistica Durbin-Watson: 𝐷𝑊 = 𝑑 =
∑𝑛
𝑖=1 𝑒𝑖
2

Proprietăţi ale statisticii DW:


∑𝑛
𝑖=2 𝑒𝑖 𝑒𝑖−1
P1. 𝐷𝑊 ≈ 2(1 − 𝜌̂), unde 𝜌
̂ = 𝑟𝑒𝑖 ,𝑒𝑖−1 = este coeficientul de corelaţie de selecţie.
∑𝑛 2
𝑖=1 𝑒𝑖
P2. 0 ≤ 𝐷𝑊 ≤ 4
P3. Statistica DW nu urmează o distribuţie clasică. Valorile sale critice sunt tabelate. Distribuţia de
selecţie a statisticii DW depinde de numărul de variabile explicative (k) şi de volumul selecţiei (n).
Pentru un nivel de semnificaţie dat, tabelul conţine două valori critice:
limita inferioară 𝑑𝑖𝑛𝑓 = 𝑑1 = 𝑑𝐿 şi limita superioară 𝑑𝑠𝑢𝑝 = 𝑑2 = 𝑑𝑈 .
Se localizează valoarea statisticii DW în una din următoarele 5 regiuni de decizie:
Dacă 0 < 𝐷𝑊 < 𝑑1, seria reziduurilor prezintă autocorelare de ordinul 1 pozitivă. ⇒ 𝜌 > 0
Dacă 𝑑1 < 𝐷𝑊 < 𝑑2 ⇒Indecizie. Se recomandă acceptarea autocorelării pozitive.
Dacă 𝑑2 < 𝐷𝑊 < 4 − 𝑑2 ⇒ reziduurile sunt independente
Dacă 4 − 𝑑2 < 𝐷𝑊 < 4 − 𝑑1 ⇒Indecizie. Se recomandă acceptarea autocorelării negative
Dacă 4 − 𝑑1 < 𝐷𝑊 < 4, seria reziduurilor prezintă autocorelare de ordinul 1 negativă. ⇒ 𝜌 < 0

reg1 reg2 reg 3 reg 4 reg 5


0 𝜌>0 d1 ?? d2 𝜌 = 0 4-d2 ?? 4-d1 𝜌<0 4

Problema1.
Pentru un model econometric se cunosc: 𝜌̂ =−0,54 (coeficientul de autocorelaţie de ordinul I din seria
reziduurilor) şi valorile critice d1=1,24 şi d2=1,56. Testaţi autocorelarea erorilor aleatoare.
Precizaţi cele 5 regiuni de decizie şi concluzia privind autocorelarea erorilor aleatoare.
Rezolvare:
Ipotezele de testat sunt:
𝐻0 : 𝜌 = 0 (nu există autocorelarea de ordin I a erorilor aleatoare)
𝐻1 : 𝜌 ≠ 0 (există autocorelarea de ordin I a erorilor aleatoare).

2
Dacă 0 < 𝐷𝑊 < 𝑑1, seria reziduurilor prezintă autocorelare de ordinul 1 pozitivă.
Dacă 𝑑1 < 𝐷𝑊 < 𝑑2 ⇒indecizie. Se recomandă acceptarea autocorelării pozitive.
Dacă 𝑑2 < 𝐷𝑊 < 4 − 𝑑2 ⇒ reziduurile sunt independente
Dacă 4 − 𝑑2 < 𝐷𝑊 < 4 − 𝑑1 ⇒indecizie. Se recomandă acceptarea autocorelării negative
Dacă 4 − 𝑑1 < 𝐷𝑊 < 4, seria reziduurilor prezintă autocorelare de ordinul 1 negativă.

Calculăm statistica 𝑑 = 𝐷𝑊 ≈ 2(1 − 𝜌̂) = 2*1,54=3,08


. regiunea1 regiunea2 regiunea 3 regiunea 4 regiunea 5
0 d1 d2 4-d2 4-d1 4
0 1,24 1,56 2,44 2,76 4

Avem 4 − 𝑑1 < 𝐷𝑊 < 4


𝐷𝑊 ∈ regiunii 5  Autocorelare negativă de ordin I a erorilor aleatoare.

Problema2.
Presupunem ca am obtinut statistica 𝐷𝑊 ≈ 2(1 − 𝜌̂) = 2,68
Avem 4 − 𝑑2 < 𝐷𝑊 < 4 − 𝑑1 ⇒
𝐷𝑊 ∈ regiunii 4  Indecizie. Se recomandă acceptarea autocorelării negative.
Aplicaţii la Testarea Homoscedasticităţii erorilor aleatoare
Reamintim Testul White
Mai întâi se estimează modelul prin MCMMP şi se reţin reziduurile.
Testul White implică regresia pătratelor reziduurilor, 𝑒𝑖2 , în funcţie de toate variabilele explicative, de
pătratele variabilelor explicative şi de produsele lor încrucişate.
Considerăm modelul cu 2 variabile explicative:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝜀𝑖
Pas1. Estimăm modelul iniţial de regresie prin MCMMP şi reţinem reziduurile 𝑒𝑖 .
Pas2. Construim o regresie auxiliară:
𝑒𝑖2 = 𝑎0 + 𝑎1 𝑥𝑖1 + 𝑎2 𝑥𝑖2 + 𝑎3 𝑥𝑖1
2
+ 𝑎4 𝑥𝑖22
+ 𝑎5 𝑥𝑖1 𝑥𝑖2 + 𝑢𝑖
(În modelul cu o variabilă explicativă, regresia auxiliară va conţine ca variabile exogene: 𝑥 şi 𝑥 2 ).

Pas3. Estimăm regresia auxiliară prin MCMMP. Obţinem coeficientul de determinaţie multiplă din
regresia auxiliară, coeficient notat 𝑅𝑎2 .

Verificăm validitatea regresiei auxiliare (semnificaţia parametrilor modelului auxiliar), iar dacă unul
din acești parametri este semnificativ, atunci acceptăm ipoteza H1, de heteroscedasticitate a erorilor .

𝐻0 : 𝑎1 = 𝑎2 = 𝑎3 = 𝑎4 = 𝑎5 = 0 (există homoscedasticitate)
𝐻1 : (∃)𝑎𝑖 ≠ 0 (există heteroscedasticitate)

Observație: Există două variante de aplicare a testului White:


• Utilizarea testului clasic F, bazat pe statistica F şi pe ipoteza 𝐻0 : 𝑎1 = 𝑎2 = 𝑎3 = 𝑎4 = 𝑎5 = 0
• Utilizarea testului LM, folosind statistica 𝑊 = 𝑛𝑅𝑎2
Sub ipoteza nulă, că există homoscedasticitate, White a arătat că statistica 𝑊 = 𝑛𝑅𝑎2 urmează
asimptotic o distribuţie 𝜒 2 cu gradele de libertate date de numărul de regresori din ecuaţia auxiliară.
2
𝐿𝑀 = 𝑊 = 𝑛𝑅𝑎2 ~𝜒𝑑𝑓 .
În modelul considerat avem df=5.

3
2
Pas4. Dacă 𝑊𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 = 𝑛𝑅𝑎2 > 𝜒𝑐𝑟𝑖𝑡𝑖𝑐;𝛼 , sau dacă P-value este mai mică decât nivelul de semnificaţie
ales, respingem 𝐻0 şi acceptăm 𝐻1 ⇒ erorile aleatoare sunt heteroscedastice.

Problema1.
Modelul 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝜀𝑖 a fost estimat prin mcmmp. Am obtinut seria reziduurilor (𝑒𝑖 ).
Considerăm regresia auxiliară,
𝑒𝑖2 = 𝑎0 + 𝑎1 𝑥𝑖1 + 𝑎2 𝑥𝑖2 + 𝑎3 𝑥𝑖1
2 2
+ 𝑎4 𝑥𝑖2 + 𝑎5 𝑥𝑖1 𝑥𝑖2 + 𝑢𝑖 .
Rezultatele estimării modelului auxiliar sunt:
𝑒𝑖2 = 65,2038 −3,4665 𝑥𝑖1 − 5,0384 𝑥𝑖2 + 0,0452 𝑥𝑖1 2 2
+ 0,1193 𝑥𝑖2 + 0,1608 𝑥𝑖1 ⋅ 𝑥𝑖2
(249,56) (13,7335) (7,9813) (0,1847) (0,4251) (0,2814)

Să se testeze Homoscedasticitatea erorilor aleatoare folosind testul White (𝛼 = 0,05 iar 𝑡𝑐𝑟𝑡 =2,447).
Rezolvare:
Ipotezele de testat sunt:
𝐻0 : 𝑎1 = 𝑎2 = 𝑎3 = 𝑎4 = 𝑎5 = 0 (există homoscedasticitate)
𝐻1 : (∃)𝑎𝑖 ≠ 0, 𝑖 = 1, . . . ,5 (există heteroscedasticitate)
Dacă toţi coeficienţii din H0 sunt nuli  Erorile aleatoare sunt homoscedastice.
Dacă cel puțin un coeficient este semnificativ ≠ 0  Erorile aleatoare sunt heteroscedastice.
Testăm dacă acesti coeficienţi sunt nesemnificativi. În acest scop calculăm statisticile t şi le
comparăm cu t-critic.
𝑎̂1 −3,4665 𝑎̂2 −5,0384
𝑡1 = = =−0,2524 , 𝑡2 = = =−0,6313,
𝑠𝑎
̂1 13,7335 𝑠𝑎
̂2 7,9813
𝑎̂3 0,0452 𝑎̂4 0,1193 𝑎̂5 0,1608
𝑡3 = = =0,2448, 𝑡4 = = =0,2805 , 𝑡5 = = =0,5714
𝑠𝑎
̂3 0,1847 𝑠𝑎
̂4 0,4251 𝑠𝑎
̂5 0,2814
Comparăm statisticile t cu t-critic. Toţi coeficienţii din H0 sunt nuli 
 Acceptăm H0  Erorile aleatoare sunt homoscedastice.

Problema2.
Modelul 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊𝟏 + 𝜷𝟐 𝒙𝒊𝟐 + 𝜺𝒊 a fost estimat prin mcmmp. Am obtinut seria reziduurilor
(𝑒𝑖 ). Considerăm regresia auxiliară, 𝑒𝑖2 = 𝑎0 + 𝑎1 𝑥𝑖1 + 𝑎2 𝑥𝑖2 + 𝑎3 𝑥𝑖1 2 2
+ 𝑎4 𝑥𝑖2 + 𝑎5 𝑥𝑖1 𝑥𝑖2 + 𝑢𝑖 .
Rezultatele estimării modelului auxiliar sunt:
𝑒𝑖2 = −9,9898 + 1,6567 𝑥𝑖1 + 2,5453 𝑥𝑖2 − 0,0436 𝑥𝑖1 2
− 0,1152 𝑥𝑖2
2
− 0,2709 𝑥𝑖1 ⋅ 𝑥𝑖2
𝑠𝑒 = (122,36) (1,5572) (55,9422) (0,0133) (6,3935) (0,3484)
𝑡 = (−0,0816) (1,0639) (0,0455) (−3,2867) (−0,0180) (−0,7776)
𝑝 = (0,9363) (0,3083) (0,9645) (0,0065) (0,9859) (0,4519)
Să se testeze Homoscedasticitatea erorilor aleatoare folosind testul White (𝛼 = 0,05 iar 𝑡𝑐𝑟𝑡 =2,179).
Rezolvare:
Ipotezele de testat sunt:
𝑯𝟎 : 𝒂𝟏 = 𝒂𝟐 = 𝒂𝟑 = 𝒂𝟒 = 𝒂𝟓 = 𝟎 (există homoscedasticitate)
𝑯𝟏 : (∃)𝑎𝑖 ≠ 0, 𝑖 = 1, . . . ,5 (există heteroscedasticitate)
Dacă toţi coeficienţii din H0 sunt nuli  Erorile aleatoare sunt homoscedastice.
Testăm dacă acesti coeficienţi sunt nesemnificativi. Putem calcula statisticile t şi le comparăm cu t-
critic. Mai simplu este să ne uităm la probabilităţile asociate statisticilor t.
Coeficienţii 𝑎1 , 𝑎2 , 𝑎4 , 𝑎5 au „p-value” > 0,05 , deci nu sunt semnificativi statistic.
Doarece „P-value” = 0,0065 < 0,05  𝑎3 ≠ 0  Acceptăm H1
 Erorile aleatoare sunt heteroscscedastice.
Problema3.
Modelul 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 + 𝜺𝒊 a fost estimat prin mcmmp. Am obtinut seria reziduurilor (𝑒𝑖 ).
Considerăm regresia auxiliară,: 𝑒𝑖2 = 𝑎0 + 𝑎1 𝑥𝑖 + 𝑎2 𝑥𝑖2 + 𝑢𝑖 .

4
Rezultatele estimării modelului auxiliar sunt:
𝑒𝑖2 = 166,2761 −1,7649 𝑥𝑖 + 0,0052 𝑥𝑖2 , 𝑹𝟐𝒂 = 0,2255
𝑠𝑒 = (98,97) (1,2525) (0,0036) , 𝑭 =1,019
𝑡 = (1,68) (-1,409) (1,4275) , 𝑷𝒓𝒐𝒃(𝐹) = 0,4088
𝑝 = (0,1368) (0,2016) (0,1964)
Să se testeze Homoscedasticitatea erorilor aleatoare folosind testul White (𝛼 = 0,05 iar 𝑡𝑐𝑟𝑡 =2,36).
Ipotezele de testat sunt:
𝑯𝟎 : 𝒂𝟏 = 𝒂𝟐 = 𝟎 (există homoscedasticitate)
𝑯𝟏 : 𝒂𝟏 ≠ 𝟎 𝒔𝒊/𝒔𝒂𝒖 𝒂𝟐 ≠ 𝟎 (există heteroscedasticitate)
Coeficientul 𝑎1 nu este semnificativ statistic (p-value=0,2016>0,05).
Coeficientul 𝑎2 nu este semnificativ statistic (p-value=0,1964 > 0,05).
Acceptăm H0  erorile aleatoare sunt homoscedastice.

Altă variantă de analiză:


Statistica 𝑭 =1,019 şi 𝐏𝐫𝐨𝐛(𝐹) = 0,4088 înseamnă că acceptăm H0  erorile aleatoare sunt
homoscedastice.

Altă variantă de analiză:


Se calculează testul LM= 𝒏 ∙ 𝑹𝟐𝒂 ~ 𝟐𝜶,𝒅𝒇
Pentru un nivel de semnificație de 5%, valoarea critică a testului LM este 5,99.
Valoarea calculată va fi: LM= 𝒏 ∙ 𝑹𝟐𝒂 = 10*0,2255=2,555.
Deoarece valoarea calculată a testului LM este mai mică decât valoarea critică, acceptăm H0, ceea ce
înseamnă: erorile aleatoare sunt homoscedastice.

Multicoliniaritatea variabilelor explicative


Multicoliniaritatea este un fenomen specific eşantioanelor.
Deşi teoria spune că toate variabilele explicative sunt importante pentru analiza variabilei dependente,
eşantionul obţinut poate să nu permită includerea tuturor variabilelor în analiză.
• Detectarea multicoliniarităţii pe baza coeficienţilor de corelaţie dintre var. explicative.
Se calculează coeficienții de corelație linară dintre variabilele din model.

Se observă că între variabilele X1 şi X2 există o legătură directă aproape perfectă.


𝑟𝑥1,𝑥2 = 0,998962  deoarece 𝑟𝑥1,𝑥2 > 0,80  Există Multicoliniaritate
• Criteriul lui Klein.
Definiție: Variabilele 𝒙𝒊 , 𝒙𝒋 sunt coliniare dacă 𝑹𝟐𝒚 < 𝒓𝟐𝒙𝒊 ,𝒙𝒋
Pas1. Se estimează modelul complet (cu k regresori) şi se reţine R-Squared, notat 𝑅𝑦2 .
Pas2. Se calculează matricea de corelaţii liniare ale variabilelor explicative (𝑟𝑥𝑖 ,𝑥𝑗 )1≤𝑖,𝑗≤𝑘
Pas3. Dacă 𝑅𝑦2 < 𝑟𝑥2𝑖 𝑥𝑗 se identifică perechile de variabile puternic corelate (𝑥𝑖 , 𝑥𝑗 ).
𝑅𝑦2 = 0,963504, 𝑟𝑥1 ,𝑥2 = 0,998962 iar 𝑟𝑥21,𝑥2 = 0,997925.
Avem 0,9635 < 0,9979  𝑅𝑦2 < 𝑟𝑥21 ,𝑥2  Există Multicoliniaritate.
Regula lui Klein: Multicoliniaritatea poate fi o problemă dacă R2 obținut dintr-o regresie auxiliară (a
unei variabile exogene în raport cu celelalte variabile exogene din model) este mai mare decât 𝑅𝑦2 ,
obținut din regresia lui Y în raport cu toate variabilele exogene din model.

5
Analiza reziduurilor (erorilor estimate)
În aproape orice analiză de regresie este util un grafic al erorilor estimate sau reziduurilor (pe axa
verticală) raportate la valorile ajustate ale variabilei dependente (pe axa orizontală). O bună aproximare
are nu numai valori mici pentru reziduuri dar şi o reprezentare grafică a acestora în jurul axei orizontale
fără un model aparent, specific. Un grafic al reziduurilor care arată un anumit model cum ar fi o
mulţime de reziduuri pozitive urmate de o mulţime de reziduuri negative, indică faptul că cel puţin una
din ipotezele impuse modelului de regresie nu este îndeplinită sau indică folosirea unei forme
funcţionale greşite.
Testul Jarque-Bera (JB) privind normalitatea reziduurilor (erorilor estimate)
Testul Jarque-Bera este un test asimptotic, bazat pe reziduurile obţinute în urma estimării modelului
de regresie prin MCMMP. Acest test calculează mai întâi coeficientul de asimetrie şi coeficientul de
boltire (aplatizare) pentru reziduurile obţinute.
Pentru o variabilă X se defineşte 𝜇𝑘 = 𝐸(𝑋 − 𝐸(𝑋))𝑘 ca moment centrat de ordinul k.
𝜇3
Coeficientul de asimetrie este : 𝑆 = 3/2 (Skewness).
𝜇2
𝜇
Coeficientul de boltire (aplatizare) este: 𝐾 = 𝜇42 (Kurtosis).
2
Distribuţia Normală are S=0 şi K=3. (K-3) este excesul de boltire.
Ipotezele de testat sunt:
H0: Reziduurile sunt distribuite normal. (𝑆 = 0 şi 𝐾 = 3)
H1: Reziduurile nu sunt distribuite normal.
𝑺𝟐 (𝑲−𝟑)𝟐
Statistica testului este 𝑱𝑩 = 𝒏 ( + )
𝟔 𝟐𝟒
Sub ipoteza nulă, că reziduurile sunt normal distribuite, Jarque şi Bera au arătat că, pentru eşantioane
mari, statistica JB urmează o distribuţie Hi-pătrat cu două grade de libertate (𝜒22 ).
2 2
𝜒𝑐𝑟𝑡 = 𝜒𝛼,2 = 5,99
2
Dacă 𝐽𝐵𝑐𝑎𝑙𝑐 < 𝜒𝑐𝑟𝑡 acceptăm H0
2
Dacă 𝐽𝐵𝑐𝑎𝑙𝑐 > 𝜒𝑐𝑟𝑡 respingem H0 și acceptăm H1
Dacă probabilitatea asociată statisticii calculate este mare (> 𝛼), asimptotic, acceptăm ipoteza nulă, că
reziduurile sunt normal distribuite.
Dacă, într-o aplicaţie, probabilitatea asociată statisticii calculate este suficient de mică (< 𝛼) putem
respinge ipoteza nulă, că reziduurile sunt normal distribuite.

Problemă: Sa se testeze ipoteza cu privire la distribuția normală a erorilor estimate, cunoscând


următoarele: n=15, Skewness=0,30624, Kurtosis=2,296679. Nivelul de semnificaţie este =0,05 iar
valoarea critică este este 5,99.
Cerințe:
Scrieţi ipoteza nulă şi ipoteza alternativă.
Spuneţi care este statistica testului, care este regula de decizie şi care este concluzia aplicării
testului.

Ipotezele de testat sunt:


H0: Reziduurile sunt distribuite normal. (𝑆 = 0 şi 𝐾 = 3 )
H1: Reziduurile nu sunt distribuite normal
𝑆2 (𝐾−3)2
Statistica testului este 𝐽𝐵 = 𝑛 (
6
+
24
) și urmează o distribuţie 𝜒22
2 2
𝜒𝑐𝑟𝑡 = 𝜒𝛼,2 = 5,99
Am obținut 𝐽𝐵𝑐𝑎𝑙𝑐 = 0,5824
2
Deoarece 𝐽𝐵𝑐𝑎𝑙𝑐 < 𝜒𝑐𝑟𝑡 acceptăm H0 , adică reziduurile sunt normal distribuite.

6
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
Analiza de regresie în cazul modelelor econometrice cu variabile independente calitative.
Variabile dummy.
Până acum am considerat că variabila dependentă este influenţată doar de variabile independente numerice
precum venitul, producţia, preţurile, costurile, etc.
În economie există variabile ce se referă la însuşiri, calităţi şi categorii. Se numesc variabile calitative sau
atributive.
Exemple de variabile de natură calitativă:
– genul persoanei (masculin, feminin), religia (ortodoxă, catolică, protestantă, musulmană), rasa, naţionalitatea
– sezonalitatea determinată de succesiunea anotimpurilor
– evenimente deosebite în activitatea unei firme (greve, restructurări) sau în viaţa unei naţiuni (evenimente
politice,
schimbări în politica economică a unui guvern).
– apreciere excelentă, foarte bună, moderată, negativă
– risc maxim, mediu, minim
Variabilele calitative indică de obicei prezenţa sau absenţa unei calităţi sau însuşiri.
Variabilele binare se referă la două aspecte ce se exclud reciproc, cum ar fi: existenţa – nonexistenţa (absenţa);
acceptarea – refuzul; urban – rural; masculin – feminin; mulţumit – nemulţumit.
Pentru a include variabile calitative într-un model de regresie putem folosi variabile artificiale (variabile binare,
dihotomice, dummy, indicator).
O variabilă dummy codifică, de obicei prin valorile 1 şi 0, categoriile unei variabile atributive.
𝐷 = 1 dacă observaţia este din categoria 1.
𝐷 = 0 dacă observaţia este din categoria 2.
În general, o variabilă dummy este o variabilă artificială care atribuie coduri arbitrare la grupuri diferite.
Exemple de variabile dummy:
– variabile categoriale (exemplu: 1 dacă o persoană este bărbat şi 0 dacă nu este bărbat)
– variabile temporale (exemplu: 1 dacă este luni şi 0 dacă nu este luni)
– variabile spaţiale (exemplu: 1 dacă este regiunea de nord şi 0 dacă nu este)
– variabile calitative (exemplu: 1 dacă un produs este bun şi 0 dacă nu este)

Variabilele dummy sunt un mod de clasificare a datelor prin faptul că ele împart un eşantion în diferite subgrupe
bazate pe calităţi sau atribute şi permit să se aplice regresia pe fiecare subgrupă.
Rezultatele estimării unui model cu variabilă independentă dummy sunt aceleaşi indiferent de modul
de atribuire a valorilor 0 şi 1. Atribuirea valorilor 0 şi 1 este arbitrară. Totuşi, cunoaşterea valorilor atribuite
celor două categorii este importantă pentru interpretarea corectă a estimaţiilor obţinute.
Categoria care are valoarea 0 este numită categorie de bază sau grup de bază. Interpretarea
coeficienţilor de regresie se face prin raportare la categoria de bază.
Dacă există m categorii (m=4 =număr trimestre dintr-un an) numărul de variabile dummy ce trebuie
introduse în model trebuie să fie m-1 (m-1=3).

a) Model cu o singură variabilă independentă calitativă


Considerăm modelul cu o variabilă dummy ca regresor:
𝑦𝑖 = 𝛽0 + 𝛽1 𝐷 + 𝜀𝑖
Ex: Y = investiţiile;
D = forma de proprietate (1 pentru proprietate de stat; 0 pentru proprietate privată)
Modelul poate fi văzut ca două regresii separate
• 𝑦𝑖 = 𝛽0 + 𝜀𝑖 când 𝐷 = 0
• 𝑦𝑖 = (𝛽0 + 𝛽1 ) + 𝜀𝑖 când 𝐷 = 1
Valorile medii ale variabilei Y vor fi:
𝐸(𝑌|𝐷 = 0) = 𝛽0
𝐸(𝑌|𝐷 = 1) = 𝛽0 + 𝛽1
Rezultă că
𝛽0 = 𝐸(𝑌|𝐷 = 0)
𝛽1 = 𝐸(𝑌|𝐷 = 1) − 𝐸(𝑌|𝐷 = 0)
𝛽0 este media variabilei Y pentru grupul cu 𝐷 = 0
𝛽1 este diferenţa mediilor variabilei Y între cele două grupuri.
Media de selecţie 𝑦̄ este estimaţia mediei populaţiei. Avem următoarea interpretare a coeficienţilor estimaţi:

1
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)

• 𝛽̂0 = 𝑦̄ 𝐷=0
• 𝛽̂1 = 𝑦̄ 𝐷=1 − 𝑦̄ 𝐷=0
𝑦̄ 𝐷=0 arată media lui Y în grupul pentru care 𝐷 = 0, iar 𝑦̄ 𝐷=1 arată media lui Y în grupul pentru care
𝐷 = 1.
𝛽̂0 = 𝑦̄ 𝐷=0 este nivelul mediu al variabilei Y pentru grupul de bază (categoria de bază) 𝐷 = 0.
𝛽̂0 + 𝛽̂1 arată nivelul mediu al variabilei Y pentru grupul (categoria) 𝐷 = 1.
𝛽̂1 arată cu cât este mai mare valoarea medie a variabilei Y pe cele două categorii (diferenţa dintre nivelul mediu
al variabilei Y pentru categoria 1 şi nivelul mediu al variabilei Y pentru categoria 0).

Testarea ipotezei că 𝑦̄ 𝐷=0 şi 𝑦̄ 𝐷=1 nu diferă semnificativ între cele două grupuri.
Ipoteza nulă a testului spune că nu există diferenţe între mediile celor două grupuri: 𝐻0 : 𝛽1 = 0
Această ipoteză este respinsă atunci când p-value pentru 𝛽̂1 este mai mică decât 0,05.

Ex.1
Y = investiţiile efectuate de firmele dintr-o ţară (în mil euro )
D = forma de proprietate (1 pentru proprietate de stat; 0 pentru proprietate privată)

• 𝑦̄ 𝐷=0 = 𝛽̂0 = nivelul mediu al investiţiilor efectuate de firmele proprietate privată (D=0)
• 𝑦̄ 𝐷=1 = 𝛽̂0 + 𝛽̂1 = nivelul mediu al investiţiilor efectuate de firmele proprietate de stat (D=1)

𝛽̂0 = 15,375 mil euro = nivelul mediu al investiţiilor efectuate de firmele proprietate privată
𝛽̂0 + 𝛽̂1=15,375+7,958 = 23,333 mil euro=nivelul mediu al invest. efectuate de firmele propr. de stat

Ex.2: Fie
Y = Salariul anual al unei persoane angajate la o mare companie, în mii lei
𝐷 = 1 dacă persoana este femeie,
𝐷 = 0 dacă persoana este bărbat.
Datele se găsesc în fişierul Salariu.wf1. Numărul de observaţii este n=526.
Considerăm regresia 𝑆𝑎𝑙𝑎𝑟𝑖𝑢𝑖 = 𝛽0 + 𝛽1 𝐷 + 𝜀𝑖
Întrebare: Există discriminare la Salariu bazată pe genul persoanei?
𝛽̂0 este salariul mediu pentru o persoană bărbat şi 𝛽̂1 este diferenţa de Salariu relativ la grupul de bază.
𝛽̂1 este egal cu salariul mediu pentru o persoană femeie minus salariul mediu pentru o persoană bărbat. Cele
două salarii diferă semnificativ dacă 𝛽1 este semnificativ statistic.
Notăm variabila D cu Fem. Înseamnă că Fem=1 dacă persoana angajată este femeie.
Cerinţe:
1) Să se afle numărul de persoane din fiecare categorie şi proporţiile corespunzătoare.
Pe meniul variabilei Fem selectăm: View/One-Way Tabulation....

2
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)

Din rezultatul afişat vedem că, din totalul de 526 persoane angajate:
274 persoane, deci 52,09% sunt bărbaţi şi
252 persoane, deci 47,91% sunt femei.

2) Să se estimeze regresia variabilei Salariu în raport cu variabila Fem şi să se analizeze rezultatele


obţinute.

(M1) 𝑆𝑎𝑙𝑎𝑟𝑖𝑢𝑖 = 𝛽0 + 𝛽1 𝐹𝑒𝑚 + 𝜀𝑖  𝑆𝑎𝑙̂𝑎𝑟𝑖𝑢𝑖 = 7,0995 −2,5118 Fem


E (Y | Fem = 0) = 𝛽̂0=7,0995 mii lei este salariul mediu pentru o persoană bărbat (pentru grupul de bază,
D=Fem=0). 𝛽̂1 este diferenţa de Salariu relativ la grupul de bază.
𝛽̂1= −2,5118 mii lei este egal cu salariul mediu pentru o persoană femeie minus salariul mediu
pentru o persoană bărbat. Deoarece 𝛽̂1 este negativ, înseamnă că o femeie câştigă mai puţin decât un
bărbat. Observăm că p-value pentru 𝛽̂1 este mai mică decât 0,05. Respingem ipoteza nulă că salariul
mediu al unei femei este egal cu salariul mediu al unui bărbat. Acestea (salariile) diferă semnificativ.
𝐸(𝑌|𝐹𝑒𝑚 = 1) = 𝛽̂0 + 𝛽̂1 =7,0995 −2,5118 = 4,5877 mii lei
Un bărbat câştigă, în medie, 7,0995 mii lei şi o femeie câştigă, în medie, 4,5877 mii lei. Diferenţa este
4,5877−7,0995=−2,5118 mii lei, adică este chiar coeficientul 𝛽̂1 obţinut din regresia estimată.

3) Să se genereze, din variabila Fem, variabila notată Masc, în care valorile 0 din Fem să devină 1 în
Masc. Să se estimeze regresia variabilei Salariu în raport cu variabila Masc şi să se analizeze rezultatele
obţinute.

Notăm variabila D cu Masc. Înseamnă că Masc=1 dacă persoana angajată este bărbat.

3
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)

(M2) 𝑆𝑎𝑙𝑎𝑟𝑖𝑢𝑖 = 𝛽0 + 𝛽1 𝑀𝑎𝑠𝑐 + 𝜀𝑖  𝑆𝑎𝑙̂𝑎𝑟𝑖𝑢𝑖 = 4,5877 +2,5118 Masc


𝛽̂0=4,5877 mii lei este salariul mediu pentru o persoană femeie (pentru grupul de bază, D=Masc=0).
𝛽̂1 este diferenţa de Salariu relativ la grupul de bază.
𝛽̂1 = 2,5118 mii lei este egal cu salariul mediu pentru o persoană bărbat minus salariul mediu pentru o
persoană femeie. Deoarece 𝛽̂1 este pozitiv, înseamnă că o persoană bărbat câştigă mai mult decât o persoană
femeie. Observăm că p-value pentru 𝛽̂1 este mai mică decât 0,05. Salariile diferă semnificativ.
4) Să se estimeze regresia variabilei Salariu în raport cu variabilele Masc şi Fem (fără intercept) şi să
se analizeze rezultatele obţinute.

(M3) 𝑆𝑎𝑙𝑎𝑟𝑖𝑢𝑖 = 𝛽1 𝑀𝑎𝑠𝑐 + 𝛽2 𝐹𝑒𝑚 + 𝜀𝑖  𝑆𝑎𝑙̂𝑎𝑟𝑖𝑢𝑖 = 7,0995 Masc + 4,5877 Fem


În acest caz estimaţiile coeficienţilor reprezintă salariul mediu pe grupele corespunzătoare.
𝛽̂1 =7,0995 salariul mediu pentru o persoană bărbat
𝛽̂2= 4,5877 salariul mediu pentru o persoană femeie

b) Model cu două variabile independente de natură binară:


𝑦𝑖 = 𝛽0 + 𝛽1 𝐷1 + 𝛽2 𝐷2 + 𝜀𝑖
Ex: Y=venitul naţional;
D1 = tipul de economie (1 = economie planificată; 0 = economie de piaţă)
D2 = starea de pace (1 = pace; 0 = război)
Procedând similar cazului a), se obţin următoarele relaţii pentru estimatori, în raport cu mediile
variabilei dependente Y, obţinute pentru diverese combinaţii de situaţii:
𝑦̄ 𝐷1=0,𝐷2=0 = 𝛽̂0 , 𝑦̄ 𝐷1=1,𝐷2=0 = 𝛽̂0 + 𝛽̂1 , 𝑦̄ 𝐷1=0,𝐷2=1 = 𝛽̂0 + 𝛽̂2

4
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)

Notăm cu 𝑦̄ 0 , 𝑦̄ 1 şi 𝑦̄ 2 valorile medii pentru cele trei situaţii de mai sus. Rezultă:
𝛽̂0 = 𝑦̄ 0 , 𝛽̂1 = 𝑦̄ 1 − 𝑦̄ 0 , 𝛽̂2 = 𝑦̄ 2 − 𝑦̄ 0
Ex.3:
Pentru un eşantion format din 25 persoane angajate la o companie, se înregistrează salariul lunar
obţinut (mii lei/lună) după nivelul de pregătire (nivel liceal, postliceal şi superior).
D1= 1 pentru nivel liceal şi 0 în rest
D2= 1 pentru nivel postliceal şi 0 în rest
𝑦𝑖 = 𝛽0 + 𝛽1 𝐷1 + 𝛽2 𝐷2 + 𝜀𝑖

𝛽̂0 = 30,8117 mii lei este Salariul mediu al persoanelor cu studii superioare
𝛽̂1 = –16,2208 diferenţa dintre salariul mediu al angajaţilor cu studii liceale şi al celor cu studii
superioare.
𝛽̂0 + 𝛽̂1 = 30,8117–16,2208 =14,5909 mii lei – nivelul mediu al salariului persoanelor cu studii liceale
𝛽̂0 + 𝛽̂2 =30,8117–7,9091=22,9026 mii lei–nivelul mediu al salariului persoanelor cu studii postliceale

c) Model cu o variabilă independentă numerică X şi una dummy D

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝐷 + 𝜀
Modelul poate fi văzut ca două regresii separate
• 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀 când 𝐷 = 0
• 𝑌 = (𝛽0 + 𝛽2 ) + 𝛽1 𝑋 + 𝜀 când 𝐷 = 1
Valorile medii vor fi:
𝐸(𝑌|𝑋, 𝐷 = 0) = 𝛽0 + 𝛽1 𝑋
𝐸(𝑌|𝑋, 𝐷 = 1) = (𝛽0 + 𝛽2 ) + 𝛽1 𝑋
𝛽2 = 𝐸(𝑌|𝑋, 𝐷 = 1) − 𝐸(𝑌|𝑋, 𝐷 = 0)
𝛽2 măsoară modificarea în media lui Y între cele două grupuri, menţinând X constant (sau pentru
acelaşi nivel al lui X).
Ex4: Y = Cererea de servicii
X = Venitul
D = mediul (1 = urban; 0 = rural)
Pentru 𝐷 = 1 modelul devine 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 + 𝜀 = (𝛽0 + 𝛽2 ) + 𝛽1 𝑋 + 𝜀 (mediu urban)
Pentru 𝐷 = 0 modelul devine 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀 (mediu rural)
̂
Coeficientul 𝛽2 arată diferenţa dintre termenii liberi din cele două ecuaţii, adică dintre subeşantionul din mediul
urban şi subeşantionul din mediul rural. Apar deosebiri doar în punctul de pornire al dreptelor de regresie, dar
panta 𝛽1 este aceeaşi. Grafic, situaţia este ilustrată de două drepte paralele.
Ex.5: Considerăm regresia Salariului persoanelor (Y) în raport cu Educaţia (X) şi Genul persoanei (D=Gen).
Salariul este exprimat în mii lei. Această regresie se utilizează pentru a vedea dacă există discriminare între
femei şi bărbati, în ceea ce priveşte salariul primit, pentru acelaşi nivel de pregătire.

5
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)

Regresia cu genul Masculin ca grup de bază (de comparaţie)


1 𝑑𝑎𝑐𝑎 𝑔𝑒𝑛𝑢𝑙 𝑒𝑠𝑡𝑒 𝐹𝑒𝑚
𝐷 = 𝐺𝑒𝑛 = {
0 𝑑𝑎𝑐𝑎 𝑔𝑒𝑛𝑢𝑙 𝑒𝑠𝑡𝑒 𝑀𝑎𝑠𝑐
𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛽0 + 𝛽1 𝐸𝑑𝑢𝑐 + 𝛽2 𝐷 + 𝜀𝑖
Dacă 𝐷 = 1 modelul devine 𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛽0 + 𝛽1 𝐸𝑑𝑢𝑐 + 𝛽2 + 𝜀𝑖 = (𝛽0 + 𝛽2 ) + 𝛽1 𝐸𝑑𝑢𝑐 + 𝜀𝑖
Dacă 𝐷 = 0 modelul devine 𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛽0 + 𝛽1 𝐸𝑑𝑢𝑐 + 𝜀𝑖 (grupul de bază – genul Masculin)
𝛽̂0 arată termenul liber pentru grupul de bază, pentru 𝐷 = 0, deci pentru Bărbaţi.
𝛽̂1 este coeficientul pantă pentru variabila Educaţie – este comun pentru cele două genuri.
𝛽̂2 arată diferenţa medie la Salariu între Femei şi Bărbaţi, menţinând Educaţia şi celelalte condiţii constante.
𝛽̂2 ne ajută să determinăm dacă există discriminare în Salariu, între bărbaţi şi femei.
𝛽̂2 < 0 arată că, pentru acelaşi nivel de educaţie, femeile câştigă un salariu mai mic decât bărbaţii.
𝛽̂2 > 0 arată că, pentru acelaşi nivel de educaţie, femeile câştigă un salariu mai mare decât bărbaţii.

Exemplu: Ecuaţia de regresie estimată este:



𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 0,6228 + 0,5065𝐸𝑑𝑢𝑐 − 2,2734𝐷
a) Interpretaţi 𝛽̂2 . Ce arată 𝛽̂2 < 0 şi ce arată 𝛽̂2 > 0?
𝛽̂2 = −2,2734 mii lei arată diferenţa medie a Salariului, între grupul Fem (D=1) şi grupul Masc (D=0), la
acelaşi nivel de Educaţie.
𝛽̂2 < 0 arată că, pentru acelaşi nivel de Educaţie, Salariul este mai mic pentru grupul Femeilor (D=1) decât al
Bărbaţilor (D=0).
𝛽̂2 > 0 arată că, pentru acelaşi nivel de Educaţie, Salariul este mai mare pentru grupul Femeilor (D=1) decât al
Bărbaţilor (D=0).
b) Care este Salariul mediu estimat pentru o persoană Femeie cu Educaţie=12ani?
𝐸(𝑆𝑎𝑙𝑎𝑟𝑖𝑢|𝐸𝑑𝑢𝑐 = 12, 𝐷 = 1) = 𝛽̂0 + 𝛽̂1 ⋅ 12 + 𝛽̂2 ⋅ 1 ≈ 0,62 + 0,51 ⋅ 12 − 2,27 ⋅ 1 = 4,47 mii lei
c) Care este Salariul mediu estimat pentru o persoană Bărbat cu Educaţie=12ani?
𝐸(𝑆𝑎𝑙𝑎𝑟𝑖𝑢|𝐸𝑑𝑢𝑐 = 12, 𝐷 = 0) = 𝛽̂0 + 𝛽̂1 ⋅ 12 + 𝛽̂2 ⋅ 0 ≈ 0,62 + 0,51 ⋅ 12 − 2,27 ⋅ 0 = 6,74mii lei

Rezultate similare se obţin dacă Gen=1 pentru Masculin şi Gen=0 pentru Feminin.
Regresia cu genul Feminin ca grup de bază
1 𝑑𝑎𝑐𝑎 𝑔𝑒𝑛𝑢𝑙 𝑒𝑠𝑡𝑒 𝑀𝑎𝑠𝑐
𝐷 = 𝐺𝑒𝑛 = {
0 𝑑𝑎𝑐𝑎 𝑔𝑒𝑛𝑢𝑙 𝑒𝑠𝑡𝑒 𝐹𝑒𝑚
𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛼0 + 𝛼1 𝐸𝑑𝑢𝑐 + 𝛼2 𝐷 + 𝜀𝑖
Dacă 𝐷 = 1 modelul devine 𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛼0 + 𝛼1 𝐸𝑑𝑢𝑐 + 𝛼2 + 𝜀𝑖 = (𝛼0 + 𝛼2 ) + 𝛼1 𝐸𝑑𝑢𝑐 + 𝜀𝑖
Dacă 𝐷 = 0 modelul devine 𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛼0 + 𝛼1 𝐸𝑑𝑢𝑐 + 𝜀𝑖 (grupul de bază – genul Feminin)
𝛼̂0 arată termenul liber pentru grupul de bază (de comparaţie), pentru 𝐷 = 0, deci pentru Femei.

Ecuaţia de regresie estimată este:


𝑆̂𝑎𝑙𝑎𝑟𝑖𝑢 = −1,6505 + 0,5065𝐸𝑑𝑢𝑐 + 2,2734𝐷
𝛼̂2 = −𝛽̂2 ≈ 2,27
𝛼̂1 = 𝛽̂1 ≈ 0,51
𝛼̂0 = 𝛽̂0 + 𝛽̂2 ≈ 0,62 − 2,27 = −1,65
̂
Semnul lui 𝛽2 este inversat, dar mărimea lui rămâne aceeaşi.

Care este Salariul estimat pentru o persoană Bărbat cu Educaţie=12ani?


𝐸(𝑆𝑎𝑙𝑎𝑟𝑖𝑢|𝐸𝑑𝑢𝑐 = 12, 𝐷 = 1) = 𝛼0 + 𝛼1 ⋅ 12 + 𝛼2 ⋅ 1 ≈ −1,65 + 0,51 ⋅ 12 + 2,27 ⋅ 1 = 6,74 mii lei
Care este Salariul estimat pentru o persoană Femeie cu Educaţie=12ani?
𝐸(𝑆𝑎𝑙𝑎𝑟𝑖𝑢|𝐸𝑑𝑢𝑐 = 12, 𝐷 = 0) = 𝛼0 + 𝛼1 ⋅ 12 + 𝛼2 ⋅ 0 ≈ −1,65 + 0,51 ⋅ 12 + 2,27 ⋅ 0 = 4,47 mii lei

d) Modele cu interacţiune:
O interacţiune apare dacă efectul unei variabile independente asupra variabilei dependente se modifică în acord
cu valoarea unei alte variabile independente.
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝐷 + 𝛽3 𝑋 ⋅ 𝐷 + 𝜀
Pentru 𝐷 = 0 modelul devine 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀

6
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
Pentru 𝐷 = 1 modelul devine 𝑌 = (𝛽0 + 𝛽2 ) + (𝛽1 + 𝛽3 )𝑋 + 𝜀
Ultima ecuaţie arată că
• variabila D permite să avem parametrii de interceptare diferiţi
• termenul de interacţiune dintre D şi X permite să avem coeficienţii pantă diferiţi.

Considerăm datele cu privire la angajaţii unei firme.


Pentru fiecare angajat există informaţii despre următoarele variabile:
Sali = salariul lunar al angajatului i (în euro)
Expi = Experienţa profesionala a angajatului i (în ani)
D1 = variabilă dummy
(D1=1 dacă angajatul i este bărbat şi D1=0 dacă angajatul i este femeie)
Considerăm următoarele modele:
A) 𝑆𝑎𝑙𝑖 = 𝛽0 + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝛽2 𝐷1 + 𝜀𝑖
B) 𝑆𝑎𝑙𝑖 = 𝛽0 + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝛽2 𝐷1 ∗ 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖
C) 𝑆𝑎𝑙𝑖 = 𝛽0 + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝛽2 𝐷1 + 𝛽3 𝐷1 ∗ 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖
Vom estima aceste modele şi vom interpreta coeficienţii de regresie.
A) 𝑆𝑎𝑙𝑖 = 𝛽0 + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝛽2 𝐷1 + 𝜀𝑖
𝐸(𝑆𝑎𝑙𝑖 |𝐷1 = 0) = 𝛽0 + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖 → Salariul mediu pentru categoria de bază, D1=0 (pentru femei)
𝐸(𝑆𝑎𝑙𝑖 |𝐷1 = 1) = (𝛽0 + 𝛽2 ) + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖 → Salariul mediu pentru categoria D=1 (pentru bărbaţi)
• aceeaşi pantă 𝛽1
• intercepts diferite: 𝛽0 şi (𝛽0 + 𝛽2 )

 Creşterea în Salariu, pentru o creştere în Experienta prof. cu 1 an, este aceeaşi indiferent de genul
persoanei angajate.
𝑆𝑎𝑙𝑖 = 199,60 + 12,13𝐸𝑥𝑝𝑒𝑟𝑖 + 229,35𝐷1
𝛽̂0= 199,60 este Salariul mediu al unei femei fără Experienţă profesională.
𝛽̂1= 12,13 arată că, atunci când Exp. creşte cu 1 an Sal. lunar creşte cu 12,13 euro, în medie, indiferent
de genul persoanei angajate.
𝛽̂2= 229,35 arată diferenţa medie dintre salariul unui bărbat şi salariul unei femei, pentru acelaşi nivel
al Experienţei profesionale.

B) 𝑆𝑎𝑙𝑖 = 𝛽0 + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝛽2 𝐷1 ∗ 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖


𝐸(𝑆𝑎𝑙𝑖 |𝐷1 = 0) = 𝛽0 + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖 → Salariul mediu pentru categoria de bază, D1=0 (pentru femei)
𝐸(𝑆𝑎𝑙𝑖 |𝐷1 = 1) = 𝛽0 + (𝛽1 + 𝛽2 )𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖 → Salariul mediu pentru categoria D1=1 (pentru bărbaţi)
• aceeaşi intercept 𝛽0
• pante diferite: 𝛽1 şi (𝛽1 + 𝛽2 )

7
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)

 Creşterea în Salariu, pentru o creştere în Experienta prof. cu 1 an, este diferită pentru barbaţi şi
femei.
𝑆𝑎𝑙𝑖 = 335,49 + 2,19𝐸𝑥𝑝𝑒𝑟𝑖 + 17,41𝐷1 ∗ 𝐸𝑥𝑝𝑒𝑟𝑖
𝛽̂0= 335,49 este Salariul mediu al unui angajat indiferent de gen.
𝛽̂1= 2,19 arată că, atunci când Exp. creşte cu 1 an Sal. lunar al unei femei creşte în medie cu 2,19 euro.
𝛽̂2= 17,41 arată diferenţa estimată în creşterea salariului unui bărbat faţă de creşterea salariului unei
femei, când Exp. creşte cu 1 an. Înseamnă că, atunci când Exp. creşte cu 1 an Sal. lunar al unui bărbat
creşte în medie cu (2,19+17,41)=19,60 euro

C) 𝑆𝑎𝑙𝑖 = 𝛽0 + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝛽2 𝐷1 + 𝛽3 𝐷1 ∗ 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖


𝐸(𝑆𝑎𝑙𝑖 |𝐷1 = 0) = 𝛽0 + 𝛽1 𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖 → Salariul mediu pentru categoria de bază, D1=0 (pentru femei)
𝐸(𝑆𝑎𝑙𝑖 |𝐷1 = 1) = (𝛽0 + 𝛽2 ) + (𝛽1 + 𝛽3 )𝐸𝑥𝑝𝑒𝑟𝑖 + 𝜀𝑖 → Salariul mediu pentru categoria D1=1 (pentru
bărbaţi)
• intercepts diferite: 𝛽0 şi (𝛽0 + 𝛽2 )
• pante diferite: 𝛽1 şi (𝛽1 + 𝛽3 )

 Există discriminare şi în ceea ce priveşte Experienţa profesională.


𝑆𝑎𝑙𝑖 = 235,41 + 8,97𝐸𝑥𝑝𝑒𝑟𝑖 + 167,69𝐷1 + 5,73 ⥂ 𝐷1 ∗ 𝐸𝑥𝑝𝑒𝑟𝑖
𝛽̂0= 235,41euro este Salariul mediu al unei femei fără Experienţă profesională.
𝛽̂1= 8,97 arată că, atunci când Exp. creşte cu 1 an, Sal. lunar al unei femei creşte în medie cu 8,97 euro.
𝛽̂2= 167,69 arată diferenţa estimată între salariul unui bărbat şi salariul unei femei, independent de
Exp.
𝛽̂3= 5,73 arată diferenţa estimată în creşterea salariului unui bărbat faţă de creşterea salariului unei
femei, când Exp. creşte cu 1 an. Înseamnă că, atunci când Exp. creşte cu 1 an, Sal. lunar al unui bărbat
creşte în medie cu (8,97+5,73) = 14,70 euro

e) Model în care variabila independentă calitativă are mai multe stări


Dacă variabila calitativă are mai multe stări, se atribuie numere de ordine variabilelor dummy.
Dacă o variabilă calitativă are m variante, se introduc m-1 variabile dummy.

Ex: Analiza Profitului când Producţia este funcţie de anotimp:


Profitul = 𝛽0 + 𝛽1 𝐷1 + 𝛽2 𝐷2 + 𝛽3 𝐷3 + 𝜀

Observaţie: Variabilele dummy se utilizează pentru considerarea variabilelor calitative, pentru analiza
sezonalităţii şi pentru corecţia valorilor anormale (aberante).

Observaţie. Există şi modele cu varibile dependente calitative. Dacă o varibilă dependentă este variabilă binară,
MCMMP nu este potrivită.
Modelele cu varaibilă dependentă binară sunt modele de tip Logit şi Probit.

8
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)

Model de regresie liniară cu doi regresori: 𝒀 = 𝜷𝟎 + 𝜷𝟏 𝑿𝟏 + 𝜷𝟐 𝑿𝟐 + 𝜺.

Pentru a se studia legătura dintre variabilele Y = preţul unei case (în mii euro),
X1 = suprafaţa casei (în mp) şi X2 = vechimea casei (în ani), folosim un număr de 23 observaţii
Datele de observaţie se găsesc în tabelul de mai jos:

Datele de observaţie se găsesc și în fişierul „Date Ex5 Pret.casa,Supraf,Vechime.xls”.

a) Analizați dependența dintre variabilele considerate utilizând un model de regresie liniară


cu două variabile explicative:

𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊𝟏 + 𝜷𝟐 𝒙𝒊𝟐 + 𝜺𝒊 , 𝑖 = 1,2, … , 𝑛.

Rezolvare folosind EXCEL:

1. Introduceți datele din tabel începând din celula A1.

2. Apăsați pe DATA, Data Analysis și selectați Regression.

3. La Input Y Range selectați A1:A24. La Input X Range selectați B1:C24.


Bifați Labels.

4. Dacă doriți să calculați valorile reziduale, bifați Residuals. Apăsați OK.


În urma prelucrării datelor observate cu Excel, am obţinut rezultatele de mai jos:

SUMMARY OUTPUT

1
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)

Dreapta de regresie estimată este


̂𝒊 = 𝒃𝟎 + 𝒃𝟏 𝒙𝒊𝟏 + 𝒃𝟐 𝒙𝒊𝟐 = 𝟓𝟗, 𝟎𝟖𝟒𝟖 + 𝟎, 𝟏𝟕𝟑𝟐 ⋅ 𝒙𝒊𝟏 − 𝟎, 𝟕𝟕𝟏𝟒 ⋅ 𝒙𝒊𝟐
𝒚
Regression
Statistics
Multiple R 0,8573 𝑆𝑆𝑅 𝑆𝑆𝐸
Raportul de corelaţie multiplă: 𝑅 = √𝑆𝑆𝑇 = √1 − 𝑆𝑆𝑇
R Square 0,7350 𝑆𝑆𝑅 𝑆𝑆𝐸
Coeficientul de determinaţie: 𝑅 2 = 𝑆𝑆𝑇 = 1 − 𝑆𝑆𝑇
Adjusted R Square 0,7085 Valoarea ajustată a coeficientului de determinație
Standard Error 12,4943 Abaterea medie pătratică a erorilor în eșantion 𝑠𝑒 = √𝑠𝑒2
Observations 23 Volumul eșantionului sau Numărul observațiilor (n)
ANOVA
df SS MS F Fcritic
Regression 2 SSR 𝑆𝑆𝑅 𝑀𝑆𝑅 𝐹𝛼;2,𝑛−3
MSR= F=𝑀𝑆𝐸
2
Residual n-3 SSE 𝑆𝑆𝐸
MSE=𝑠𝑒2 = 𝑛−3
Total n-1 SST

Coefficients StandardError t Stat P-value Lower 95% Upper 95%


Intercept 𝑏0 = 59,0848 𝑠𝑏0 𝑡𝑏0
X1 𝑏1 = 0,1732 𝑠𝑏1 𝑡𝑏1
X2 𝑏2 = −0,7713 𝑠𝑏2 𝑡𝑏2

Pe coloana Coefficients se găsesc Coeficienții ecuației de regresie în eșantion: 𝑏0 , 𝑏1 și 𝑏2 (Estimațiile


parametrilor modelului de regresie).
Pe coloana Standard Error se găsesc Abaterile standard ale estimatorilor sau Abaterile medii pătratice
ale estimatorilor parametrlor modelului.
Pe coloana t Stat se găsesc Valorile calculate ale testului t pentru estimatorii 𝑏0 , 𝑏1 și 𝑏2 .

2
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)

Interpretare rezultate din tabelul SUMMARY OUTPUT:


• R= 0,8573 (o valoare apropiata de 1) arată că între Variabila explicată Y (preţul unei case) și cele 2
variabile explicative X1 (suprafaţa casei) și X2 (vechimea casei) există o legătură puternică.
• R2=0,7350 arată că 73,50% din variația totală a Prețului (Y) este explicată de variația celor 2
variabile independente (suprafaţa casei, vechimea casei), iar restul de 26,50 % din variația totala a
Prețului este dată de factorii reziduali.
• Abaterea standard a erorilor în eşantion este 𝑠𝑒 = 12,4943. Cu cât valoarea acestui indicator este
mai mică, cu atât este mai bună potrivirea modelului.

Interpretare rezultate din tabelul ANOVA:


În tabelul ANOVA este calculat testul F pentru validarea modelului de regresie, adică se testează:
H0: modelul nu este valid statistic (MSR=MSE)
H1: modelul este valid statistic (MSR>MSE)
𝑀𝑆𝑅
Statistica testului este: 𝐹 = ~𝐹𝑖𝑠h𝑒𝑟 2,𝑛−3
𝑀𝑆𝐸
Regiunea critică: 𝑅𝑐 : 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼;2,𝑛−3

Deoarece Fcalc= 27,7347 iar Significance F (pragul de semnificație calculat, nu impus, al testului) este
0,0000017 (valoare mai mică de 0,05= nivelul de semnificație considerat sau impus al testului),
atunci respingem H0 si acceptăm H1, adică modelul de regresie construit este valid statistic, pentru o
probabilitate maximă de (100 − 0,0000017100)% = 99,99983%  95% , și poate fi utilizat pentru
analiza dependenței dintre variabilele precizate.

Interpretare rezultate din tabelul coeficienților:

𝛽̂1 = 𝑏1 = 0,1732 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Suprafaţa casei (X1) creşte cu 1 mp (o unitate), preţul casei creşte, în medie, cu
0,1732 mii euro.
𝛽̂2 = 𝑏2 = −0,7713 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când vechimea casei (X2) creşte cu un an, preţul casei scade, în medie, cu 0,7714 mii
euro.
𝛽̂0 = 𝑏0 = 59,0848 este parametru de interceptare şi arată că, dacă cele două variabile explicative, X1
şi X2 au valoarea 0, valoarea medie a preţului casei este estimată la 59,0848 mii euro.

Testarea semnificaţiei parametrului pantă 1


𝑯𝟎 : 𝜷𝟏 = 𝟎 (𝛽1 nu diferă semnificativ de zero)
𝑯𝟏 : 𝜷𝟏 ≠ 𝟎 (𝛽1 diferă semnificativ de zero).
𝒃 −𝜷
Statistica testului este 𝒕 = 𝟏𝒔 𝟏 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝒏−𝟑
𝒃𝟏
𝑏1 −0
Valoarea calculată a statisticii testului este 𝑡𝑏1 = = 5,2717.
𝑠𝑏1
Deoarece pragul de semnificație calculat (nu impus) al testului, P-value, este 0,000037 < 0,05= ,
înseamnă că acest coeficient (𝛽1) este semnificativ (pentru o probabilitate maximă de
(100 − 0,000037100)% = 99,9963%  95% ).
Intervalul [0,1047; 0,2418] acoperă valoarea reală a parametrului 𝛽1 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci putem spune că „𝛽1 este semnificativ diferit de zero”

Testarea semnificaţiei parametrului pantă 2


𝑯𝟎 : 𝜷𝟐 = 𝟎 (𝛽2 nu diferă semnificativ de zero)
𝑯𝟏 : 𝜷𝟐 ≠ 𝟎 (𝛽2 diferă semnificativ de zero).
𝒃 −𝜷
Statistica testului este 𝒕 = 𝟐𝒔 𝟐 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝒏−𝟑
𝒃𝟐

3
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)
𝑏2 −0
Valoarea calculată a statisticii testului este 𝑡𝑏2 = = −3,2385.
𝑠𝑏2
Deoarece pragul de semnificație calculat (nu impus) al testului, P-value, este 0,004118 < 0,05= ,
înseamnă că acest coeficient (𝛽2) este semnificativ (pentru o probabilitate maximă de
(100 − 0,004118100)% = 99,5882%  95% ).
Intervalul [−1,2681; −0,2745] acoperă valoarea reală a parametrului 𝛽2 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci putem spune că „𝛽2 este semnificativ diferit de zero”

b) Să se verifice ipoteza de non-autocorelare a erorilor aleatoare

Pe baza seriei reziduurilor să se testeze ipoteza de non-autocorelare a erorilor utilizând


testul Durbin-Watson pentru un nivel de semnificaţie de 5% (d1=1,17 şi d2=1,54)
𝑯𝟎 : 𝝆 = 𝟎 (nu există Autocorelarea erorilor aleatoare)
𝑯𝟏 : 𝝆 ≠ 𝟎 (există Autocorelare de ordin 1 a erorilor aleatoare).
∑𝑛
𝑖=2(𝑒𝑖 −𝑒𝑖−1 )
2
𝐷𝑊 = 𝑑 = ∑𝑛 2
, 𝐷𝑊 ≈ 2(1 − 𝜌̂),
𝑖=1 𝑒𝑖
𝑛
∑𝑖=2 𝑒𝑖 𝑒𝑖−1
𝜌̂ = 𝑟𝑒𝑖 ,𝑒𝑖−1 = ∑𝑛 2 , 0 ≤ 𝐷𝑊 ≤ 4
𝑖=1 𝑒𝑖
Dacă 0 ≤ 𝐷𝑊 ≤ 𝑑1, seria reziduurilor prezintă Autocorelare de ordinul 1 pozitivă ⇒ 𝜌 > 0.
Dacă 𝑑1 < 𝐷𝑊 < 𝑑2 ⇒indecizie. Se recomandă acceptarea autocorelării pozitive.
Dacă 𝑑2 ≤ 𝐷𝑊 ≤ 4 − 𝑑2 ⇒ reziduurile sunt independente
Dacă 4 − 𝑑2 < 𝐷𝑊 < 4 − 𝑑1 ⇒indecizie. Se recomandă acceptarea autocorelării negative
Dacă 4 − 𝑑1 ≤ 𝐷𝑊 ≤ 4, seria reziduurilor prezintă Autocorelare de ordinul 1 negativă ⇒ 𝜌 < 0.

reg1 reg2 reg 3 reg 4 reg 5


0 𝜌>0 d1 ?? d2 𝜌 = 0 4-d2 ?? 4-d1 𝜌<0 4
0 1,17 1,54 2,46 2,83 4

Vom folosi seria reziduurilor, cu notația 𝑒𝑖 și vom folosi doar 2 zecimale

4
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)
6547,1749
DW = 𝑑𝑐𝑎𝑙𝑐 = = 2.0971
3121,994
Deoarece 𝐷𝑊 = 2,0971  𝐷𝑊 ∈ 𝑟𝑒𝑔3  Nu există Autocorelare (de ordin 1).

c) Să se verifice ipoteza de necoliniaritate a variabilelor explicative


• Detectarea multicoliniarităţii pe baza coeficientului de corelaţie liniară dintre variabilele
explicative X1 si X2:
Pentru calculul corelațiilor dintre variabile se parcurg pașii următori:

1. Introduceți datele din tabel începând din celula A1.


2. Apăsați DATA, Data Analysis și selectați Correlation.
3. La Input Range selectați A1:C24.
4. Selectați Grouped by: Columns
5. Selectați Labels in first row. Apăsați OK

Se obțin rezultatele următoare, sub forma matricei corelațiilor:

𝑟𝑥1,𝑥2 = −0,3283  Între variabilele X1 şi X2 există o legătură slabă inversă.


 Nu există Multicoliniaritate

• Criteriul lui Klein.


Se foloseşte pentru identificarea dependenţelor liniare dintre 2 variabile exogene.
Variabilele 𝑥𝑖 , 𝑥𝑗 sunt coliniare dacă 𝑅𝑦2 < 𝑟𝑥2𝑖 ,𝑥𝑗
Se estimează modelul complet (cu k regresori) şi se reţine R-Squared, notat 𝑅𝑦2 .
𝑅𝑦2 = 0,7350 iar 𝑟𝑥21,𝑥2 = (−0,3283)2 = 0,1078
 Nu există Multicoliniaritate

Rezolvare folosind Eviews7:


Datele observate se găsesc în fişierul „ Date Ex5 Pret.casa,Supraf,Vechime.xls” și încep din cell: A2
Se deschide o sesiune de lucru în Eviews
Se va selecta Eviews7.exe din Folder-ul Eviews7
Vom crea un fişier nou, de tip Workfile
Din meniul principal selectăm File/New/Workfile.
În urma selectării comenzii File/New/Workfile se afişează o fereastră în care vor fi specificate:
tipul de structură a datelor şi numărul de observaţii.
Alegem Unstructured/Undated ca tip de structură dacă datele sunt de tip profil sau secţiune.
5
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)

Introducem apoi nr.de observaţii (23). Opţional se poate acorda un nume fişierului creat. OK.

EViews va crea un fişier şi va afişa o fereastră cu domeniul observaţiilor şi selecţia curentă.


Vectorul C (al constantelor)
Seria resid (al reziduurilor)

Vom introduce seriile de date în Eviews prin import din Excel


Se foloseste comanda Procs/Import/.....
Atenţie: Fişierul din care se importă seriile de date trebuie să nu fie deschis în momentul în care se
face importul. Pentru a fi acceptat de Eviews7 fişierul din care se importă seriile de date trebuie să fie
salvat în format compatibil Excel 97-2003, iar informaţiile să se găsească pe prima pagină a fişierului.
Vom specifica poziţia din stânga sus din pagina Excel, din care începe citirea seriilor de date
(Upper-left data cell) (B2 este valoarea implicită). În cazul exercițiului nostru datele incep din căsuța
A2 și număr serii de importat : 3 (pentru Y, X1 și X2)

Vom verifica dacă datele au fost introduse corect.

Specificarea ecuaţiei de estimat:


Selectăm Quick/Estimate Equation
Specificăm ecuatia sub forma: Y spaţiu C spaţiu X1 spaţiu X2
Method LS (Least Squares), OK.
Rezultatele estimării sunt într-o ecuație fără nume. Apăsăm Name și acceptăm numele propus: EQ01

6
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)

Verificarea ipotezelor clasice formulate asupra modelului de regresie liniară


a) Verificați ipoteza de non-autocorelare a erorilor utilizând testul Durbin-Watson.
Nivelul de semnificaţie este de 5%. Valorile critice sunt: d1=1,17 şi d2=1,54.
𝑯𝟎 : 𝝆 = 𝟎 (nu există Autocorelarea erorilor aleatoare)
𝑯𝟏 : 𝝆 ≠ 𝟎 (există Autocorelare de ordin 1 a erorilor aleatoare).
Din EQ01 obținem valoarea: DW=2,097  𝐷𝑊 ∈ 𝑟𝑒𝑔3  Nu există Autocorelare (de ordin 1).

b) Verificați ipoteza de homoscedasticitate a erorilor aleatoare folosind Testul White.

H0: erorile aleatoare sunt homoscedastice


H1: erorile aleatoare sunt heteroscedastice
Pe meniul ecuaţiei EQ01 selectăm View/Residual Diagnostics/ Heteroskedasticity Tests/ White

7
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)

In partea de sus a tabelului sunt afişate statistica F, clasică, F-statistic,


statistica 𝒏𝑹𝟐𝒂 =Obs*R-squared şi probabilităţile asociate.

• Dacă Probabilităţile asociate statisticilor calculate sunt mai mari decât nivelul de semnificaţie ales,
acceptăm 𝐻0 ⇒ erorile aleatoare sunt homoscedastice.
• Dacă Probabilităţile asociate statisticilor calculate sunt mai mici decât nivelul de semnificaţie ales,
respingem 𝐻0 şi acceptăm 𝐻1 ⇒ erorile aleatoare sunt heteroscedastice.
F-statistic = 1,8954 iar Obs*R-squared = 8,2326
Observăm că Prob. (F-statistic) = 0,1481 iar Prob. (Chi-Square statistic) = 0,1439.
Deoarece probabilitatile P-value > 0,05 acceptăm H0  erorile aleatoare sunt homoscedastice.

c) Verificați normalitatea erorilor estimate utilizand Testul Jarque-Bera.


Pe meniul ecuaţiei EQ01 selectaţi: View→ Residual Diagnostics →Histogram-Normality Test

Testul Jarque-Bera (JB) privind distribuţia normală a reziduurilor


H0: Reziduurile au distribuţie normală ( S = 0 şi K = 3 )
H1: Reziduurile nu au distribuţie normală

Interpretarea rezultatelor:
Statistica Jarque-Bera = 0,058940
Probability(JB) = 0,970960
Deoarece Probabilitatea asociată statisticii JB este 0,97 > 0,05  acceptăm H0.
 Reziduurile au distribuţie normală.

d) Verificați ipoteza privind lipsa multicoliniarităţii variabilelor explicative (criteriul Klein).

Pe meniul grupului seriilor Y, X1 şi X2 selectaţi: View→Covariance Analysis→Correlation

• Criteriul lui Klein.


Variabilele 𝑥𝑖 , 𝑥𝑗 sunt coliniare dacă 𝑅𝑦2 < 𝑟𝑥2𝑖 ,𝑥𝑗
Se estimează modelul complet (cu k regresori) şi se reţine R-Squared, notat 𝑅𝑦2 .
𝑅𝑦2 = 0,7350 iar 𝑟𝑥21,𝑥2 = (−0,3283)2 = 0,1078
 Nu există Multicoliniaritate

8
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)
Exemple de modele neliniare în variabilele iniţiale, care pot fi transformate în modele liniare
Variabilelor economice, evoluează după traiectorii liniare sau neliniare. În general, teoria economică
nu precizează forma funcţiei care trebuie să definească modelul de regresie.
Modelul liniar: 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Coeficientul 𝜷𝟏 arată că, atunci când X creşte cu o unitate, Y se modifică, în medie, cu 𝜷𝟏 unităţi.
Forma funcţională liniară este preferată:
• pentru simplitatea estimării
• pentru simplitatea interpretării coeficienţilor.
Dezavantajul utilizării unei forme funcţionale liniare este că nu este potrivit pentru relaţiile economice
neliniare.

Exemplu: Cerere_Preţ. Cererea pentru un Album depinde de Preţul Albumului.


Modelul liniar 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 a fost esimat utilizând EViews şi s-au obţinut rezultatele:

Ecuaţia de regresie estimată este: 𝑦̂𝑖 = 49,6667 − 2,1576 ⋅ 𝑥𝑖


𝛽̂1 ≈ −2,1576 măsoară panta dreptei de regresie şi arată că, atunci când preţul produsului (X) creşte
cu o unitate monetară, cantitatea vândută (Y) scade, în medie cu 2,16 unităţi (albume).
𝛽̂0 ≈ 49,667arată că, dacă preţul este 0, cantitatea medie vândută este de circa 50 albume. În realitate,
preţul nu este niciodată 0. Coeficientul 𝛽̂0 nu are totdeauna interpretare economică.
Există fenomene economice pentru care modelele de regresie liniare în parametri şi în variabile nu
sunt potrivite.
Modelele de regresie neliniare pot fi:
• modele neliniare în variabilele explicative, dar liniare în parametrii modelului;
Aceste modele pot fi liniarizate. Liniarizarea unui model neliniar se poate face prin:
Logaritmarea modelului
Schimbări de variabilă
• modele neliniare în parametrii modelului.
Pentru un model de regresie, liniar în variabilele explicative, rata de modificare a variabilei dependente
rămâne constantă pentru o modificare cu o unitate a variabilei independente;
Pentru modelele de regresie neliniare în variabilele explicative, panta nu rămâne constantă.

Exemple de modele neliniare în variabilele iniţiale, care pot fi transformate în modele liniare.
Interpretarea parametrilor.
1) Modelul log-log sau cu elasticitate constantă are forma:

1
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)

𝑙𝑛 𝑦𝑖 = 𝛽0 + 𝛽1 𝑙𝑛 𝑥𝑖 + 𝜀𝑖
𝑑 𝑙𝑛 𝑌 dY/Y
𝛽1 = 𝑑 𝑙𝑛 𝑋 = dX/X= elasticitatea lui Y în raport cu X
Interpretarea coeficientul pantă 1, din modelul log-log:
Atunci când X creşte cu un procent, ne aşteptăm ca Y să crească sau să scadă, în medie, cu 1
procente, menţinând celelalte condiţii nemodificate (caeteris paribus).
Deoarece funcţia de regresie pentru modelul log-log este o dreaptă, panta sa este constantă.
Deoarece coeficientul pantă = coeficientul de elasticitate, pentru modelul log-log, elasticitatea este
constantă. Nu are importanţă pentru ce valori ale lui X este calculată această elasticitate.
Modelul log-log estimat pentru modelul Cerere_Preţ a condus la următoarele rezultate:


ln yi = 3,9617 – 0,2272 𝑙𝑛 𝑥𝑖 𝑅 2 = 0,9116
𝑠𝑒 = (0,04158) (0,0250)
𝑡 = (95,2605) (-9,0821)
Coeficientul 𝛽̂1 = −0,2272 este elasticitatea cererii in raport cu preţul şi arată că, atunci când
preţul albumului creşte cu un procent, în medie, cantitatea cerută va scădea cu 0,2272 procente.
𝛽̂0 = 3,9617 înseamnă: valoarea medie a lui lny este 3,96 dacă lnx = 0. Avem 𝑒 3,9617 =52,5466.
(Deoarece lny=3,9617 când lnx=0, dacă luăm antilogaritmul acestui nr. obţinem 52,5466. Astfel
cantitatea cerută medie este de ≈53 unităţi. Pentru modelul liniar am obţinut 49,667, deci ≈50 unităţi.)
𝑅 2 = 0,9116. Aproximativ 91% din variaţia variabilei dependente (lny) este explicată prin variaţia
variabilei explicative (lnx).
Cei doi coeficienţi sunt semnificativi statistic. Valorile calculate ale statisticii t sunt mai mari decât
valoarea critică 2,306 pentru df=8 şi nivelul de semnificaţie 5%.
Putem alege între modelul liniar şi modelul log-log pe baza coeficientului de determinaţie?
În modelul liniar am obţinut 𝑅 2 = 0,9757
În modelul log-log am obţinut 𝑅 2 = 0,9116
Nu putem compara valorile 𝑹𝟐 ale celor două modele, deoarece variabila dependentă nu este în
aceeaşi formă. În modelul liniar, 𝑅 2 măsoară proporţia din variaţia variabilei dependente Y, explicată
prin variabila independentă X. În modelul log-log, 𝑅 2 măsoară proporţia din variaţia variabilei lnY,
explicată prin variaţia variabilei lnX.

Exemplu: Considerăm Y = Salariul lunar al angajaţilor unei firme; X = Vânzările lunare ale firmei.

ln yi = 5,26 + 0,3156  ln xi

2
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)
̂ 𝟏 =0,3156 este elasticitatea lui Y în raport cu X si arată că, în
Interpretare: Coeficientul pantă 𝜷
perioada studiată, atunci când Vânzările cresc cu un procent, în medie, Salariul angajaţilor creşte
cu 0,3156 procente, menţinând celelalte condiţii nemodificate.
2) Modelul lin-log are forma: 𝑦𝑖 = 𝛽0 + 𝛽1 𝑙𝑛 𝑥𝑖 + 𝜀𝑖 .
𝑑𝑌 dY
𝛽1 = 𝑑 𝑙𝑛 𝑋 = dX/X.
Interpretarea coeficientului pantă din modelul lin-log:
Atunci când X creşte cu un procent, Y creşte sau scade, în medie, cu 𝜷𝟏 /𝟏𝟎𝟎 unităţi
(𝟎, 𝟎𝟏𝜷𝟏 unităţi), menţinând celelalte condiţii nemodificate.

Exemplu: Rezultatele estimării unui model lin-log în care Y=PNB iar X=Oferta de bani (în miliarde
lei), în perioada 2000-2015, sunt:
𝑦̂𝑡 = 21,43 + 341,40 × 𝑙𝑛 𝑥𝑡
̂ 𝟏 =341,4 arată că, în perioada analizată (2000-2015), o creştere în
Interpretare: Coeficientul pantă 𝜷
Oferta de bani cu un procent a fost urmată, în medie, de o creştere în PNB de aproximativ 3,414
miliarde lei, menţinând celelalte condiţii nemodificate.

3) Modelul log-lin are forma 𝑙𝑛 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 .


𝑑(𝑙𝑛 𝑌) 𝑑𝑌 1
𝛽1 = = ⋅ .
𝑑𝑋 𝑑𝑋 𝑌
Interpretarea coeficientului pantă 𝛽1 din modelul log-linear:
Atunci când X creşte cu o unitate, Y creşte sau scade, în medie, cu 100𝜷𝟏 procente, menţinând
celelalte condiţii nemodificate.

Exemplu: Considerăm că ecuaţia estimată este:



ln Salariu = 1,86 + 0,096  Educatie
Interpretare: Coeficientul pantă 𝜷̂ 𝟏 =0,096 arată că pentru un an în plus la Educaţie, Salariul creşte,
în medie, cu 9,6 procente, menţinând celelalte condiţii nemodificate.

Modelul cu creştere constantă este mai util când X este timpul (T).
Modelul iniţial este 𝑦𝑖 = 𝑒 𝛽0+𝛽1𝑡+𝜀𝑖 . Prin logaritmare devine 𝑙𝑛 𝑦𝑖 = 𝛽0 + 𝛽1 𝑡 + 𝜀𝑖 .
Modelul log-lin este util pentru a determina rata de creştere a unei variabile economice precum PIB,
oferta de bani, forţa de muncă sau productivitatea. Modelul poate descrie rata de creştere (dacă𝛽1 > 0)
sau de descreştere (dacă𝛽1 < 0).

Ex: 𝑙𝑛 𝑃 𝐼𝐵𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝜀𝑖
Dacă modelul estimat este 𝑙𝑛 ̂𝑃 𝐼𝐵𝑡 = 5,2 + 0,065𝑡
̂
𝑒 𝛽0 = 𝑒 5,2 =181,2722 mld euro estimează PIB-ul la momentul t=0
̂ 𝟏 =0,065 estimează că rata anuală de creştere a PIB-ului este de aprox. 6,5 procente.
𝜷

Important: Putem compara două sau mai multe modele de regresie, cu scopul de a-l alege pe cel care
aproximează cel mai bine datele de observaţie, numai dacă variabila dependentă este în aceeaşi
formă.

4) Modelul reciproc sau hiperbolic. Are forma


1
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥 + 𝜀𝑖 .
𝑖
Exemplu:Studiind legătura dintre X = rata şomajului (în procente) şi Y = rata variaţiei salariului real
(%), în perioada 2000-2015, s-a obţinut ecuaţia de regresie:
𝑦̂𝑡 = 5,43 + 7,42 × (1/𝑥𝑡 )
Interpretare:

3
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)

Coeficientul pantă 𝛽̂1 = 7,42 arată că, în perioada analizată (2000-2015), la o creştere a inversei ratei
şomajului (1/xt) cu o unitate, salariul real creşte, în medie, cu 7,42 p.p. (puncte procentuale), menţinând
celelalte condiţii nemodificate. 𝛽̂0 = 5,43 arată că, atunci când rata şomajului tinde la infinit, creşterea
în salarii nu va fi mai mare de 5,43% pe an.

5) Funcţia de producţie Cobb-Douglas:


𝑄 = 𝐴𝐾𝛽1 𝐿𝛽2 𝑒 𝜀 exprimă dependenţa neliniară dintre cantitatea produsă şi cei doi factori de producţie,
Capitalul K şi Forţa de muncă L. Avem variabilele: Q=Producţia, K=Capitalul şi L=Forţa de muncă.
Aplicăm transformarea logaritmică şi obţinem modelul:
𝑙𝑛 𝑄𝑡 = 𝛽0 + 𝛽1 𝑙𝑛 𝐾𝑡 + 𝛽2 𝑙𝑛 𝐿𝑡 + 𝜀𝑡
𝛽1 şi 𝛽2 = coeficienţi de elasticitate parţială
Exemplu: Pe baza datelor observate pentru 3 variabile: Q = Producţia, K = Capitalul şi L = Forţa de
muncă, am estimat un model econometric. Folosim fişierul functie_productie.wf1.
a) Scrieţi ecuaţia estimată folosind informaţiile din output-ul de mai jos.
b) Interpretaţi coeficienţii variabilelor factoriale.
c) Spuneţi dacă aceşti coeficienţi sunt semnificativ diferiţi de zero. (valoare tabelară: 1,77)
d) Scrieţi funcţia de producţie Cobb-Douglas estimată.
e) Interpretaţi suma coeficienţilor variabilelor factoriale.

a) Modelul estimat este:



ln Qt = –3,2116 + 0,7931 𝑙𝑛 𝐾𝑡 + 0,5811 𝑙𝑛 𝐿𝑡
𝑠𝑒 (0,3933) (0,0625) (0,1234)
𝑡 [–8,1662] [12,6829] [4,7099]
𝑝 (0,0000) (0,0000) (0,0004)
𝑅 2 = 0,9986 𝐹 =4808 Prob(F)=0,000
b)
𝛽̂1 =0,7931 măsoară elasticitatea Producţiei în raport cu Capitalul şi arată că, menţinând celelalte
condiţii nemodificate, atunci când Capitalul creşte cu un procent, pe medie, Producţia creşte cu 0,7931
procente.
𝛽̂2 =0,5811 măsoară elasticitatea Producţiei în raport cu Forţa de muncă şi arată că, menţinând
celelalte condiţii nemodificate, când Forţa de muncă creşte cu un procent, pe medie, producţia creşte
cu 0,5811 procente.

c) Coeficienţii estimaţi sunt semnificativi statistic, pe baza unui test unilateral.

4
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)

𝛽1 este semnificativ statistic (t-Statistic=12,6829  1,77)


𝛽2 este semnificativ statistic (t-Statistic=4,7099  1,77))
Folosim un test unilateral deoarece atât Capitalul cât şi Forţa de muncă au un efect pozitiv asupra
outputului. Valoarea tabelară este 1,77, pentru nivelul de semnificaţie 5% şi df=16-3=13.

Testarea validităţii modelului


𝐻0 : 𝛽1 = 𝛽2 = 0 (modelul nu este valid)
Valoarea calculată F este semnificativă (p-value este aproape 0). Respingem ipoteza nulă că forţa de
muncă şi capitalul împreună, nu au nici un impact asupra outputului.
Coeficientul de determinaţie este 𝑅 2 =0,9986. Rezultă că 99,86% din variaţia în logs(Q) este explicată
prin variaţia în logs Capitalului şi Forţei de muncă. Modelul aproximează datele din eşantion foarte
bine.

d) 𝑄̑𝑡 = 𝑒 −3,2116 𝐾𝑡0,7931 𝐿0,5811


𝑡
e) Dacă adunăm coeficienţii de elasticitate obţinem parametrul randament la scală, care ne arată
răspunsul outputului la o modificare proporţională în inputuri.
Dacă suma celor doi coeficienţi este 1 avem randamente constante la scală (dublând inputurile
simultan, se dublează outputul).
Dacă suma celor doi coeficienţi este >1 avem randamente crescătoare la scală (dublând inputurile,
se obţine mai mult decât dublul outputului).
Dacă suma celor doi coeficienţi este <1 avem randamente descrescătoare la scală (dublând
inputurile, se obţine mai puţin decât dublul outputului).
În modelul nostru suma celor doi coeficienţi de elasticitate este 𝛽̂1 + 𝛽̂2 =0,7931 +0,5811 = 1,3742.
Aceasta sugerează că economia ţării respective a fost caracterizată prin randamente crescătoare la
scală.

Folosim testul Wald pentru a testa dacă restricţia coeficienţilor este validă.
Testarea restricţiilor liniare
Dorim să testăm restricţia 𝛽1 + 𝛽2 = 1 (asupra coeficienţilor pantă).
𝐻0 : 𝛽1 + 𝛽2 = 1 (restricţia este validă) (randamente constante la scală)
𝐻1 : 𝛽1 + 𝛽2 ≠ 1 (restricţia nu este validă).
În Eviews, pe meniul EQ01 selectăm View/Representations pentru a vedea coeficienţii ecuaţiei.

Testul Wald
Pe meniul EQ01 selectăm View/Coefficients Tests/Wald Test
În fereastra de dialog scriem restricţia de testat (Atenţie la componentele vectorului Constantelor!)
c(2)+c(3)=1

Probabilităţile statisticilor F şi Chi-square sunt < 0,05 ⇒ nu acceptăm H0 ⇒ Restricţia nu este validă.
⇒ În perioada studiată, economia a fost caracterizată prin randamente crescătoare la scală.

S-ar putea să vă placă și