Documente Academic
Documente Profesional
Documente Cultură
1. Pentru un eşantion aleator, format din 10 salariaţi ai unei firme mari, a fost înregistrat numărul
de ore lucrate săptămânal: 36, 28, 40, 30, 34, 38, 25, 24, 36, 39.
a) Ce tip de serie de distribuţie avem în problemă?
b) Identificaţi populaţia statistică, eşantionul şi unitatea statistică.
c) Calculaţi şi interpretaţi media, mediana, valoarea modală şi asimetria.
d) Calculaţi dispersia şi abaterea standard.
e) Calculaţi şi interpretaţi coeficientul de variaţie.
f) Introduceţi datele in Excel şi calculaţi „Descriptive Statistics”.
2. Pentru un eşantion aleator, format din 80 de pachete turistice vândute de o agenţie de turism
într-o lună, a fost înregistrată valoarea acestora (în sute euro). Datele au fost sistematizate
în următoarea distribuţie de frecvenţe:
Valoare pachet turistic(sute euro) Număr pachete turistice
Sub 4 4
4−6 20
6−8 32
8−10 16
10−12 8
Notă: Limita superioară inclusă în interval
3. S-a constatat că durata de funcţionare a unui eşantion de becuri are media de 42 de luni,
abaterea medie pătratică de 9 luni şi mediana 40 luni.
a) Calculaţi şi interpretaţi coeficientul de variaţie.
b) Calculaţi şi interpretaţi asimetria.
4. La un magazin am notat: numărul de tablete vândute în 6 zile consecutive şi profitul obţinut (în euro).
Număr tablete vândute 5 7 1 6 2 4
Profit obţinut (în euro) 30 42 15 62 12 48
Să se caracterizeze intensitatea legăturii dintre numărul de tablete vândute şi profitul obţinut
folosind coeficientul de corelaţie liniară Peason.
5. Dacă valoarea coeficientului de corelaţie liniară Peason este −0,81, atunci legătura dintre
cele 2 variabile este:
a) Directă, liniară şi puternică;
b) Liniară şi de intensitate slabă;
c) Neliniară, inversă şi de intensitate medie;
d) Liniară, inversă şi puternică;
e) Liniară, inversă şi de intensitate slabă;
1
Seminar1 - Recapitulare STATISTICA
6. Un eşantion aleator privind timpul de servire a 49 de clienţi ai unei bănci comerciale are media
28 de minute. Timpul de servire are distribuţie normală, cu o abatere medie pătratică de 14 minute.
Estimaţi un interval de încredere pentru timpul de servire a unui client, pentru o probabilitate de
încredere (de garantare a rezultatelor) de 95% (valoare tabelară z = 1,96)
2
Seminar1 - Solutii la Recapitulare STATISTICA
1. a) Serie simplă
b) Populaţia statistică: Mulţimea salariaţilor unei firme mari
Eşantionul: Cei 10 salariaţi selectaţi aleator
Unitatea statistică: Un salariat
c) Calculaţi şi interpretaţi media, mediana şi valoarea modală
∑𝑛
𝑖=1 𝑥𝑖 330
𝑥̅ = = = 33 ore
𝑛 10
Interpretare: Spunem că, în medie, salariaţii firmei analizate lucrează săptămânal 33 ore.
Vom ordona crescător termenii seriei şi le vom acorda numere de ordine (în paranteze):
𝑥𝑖 24 25 28 30 34 36 36 38 39 40
Numere de ordine (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
𝑛+1 10+1
𝐿𝑜𝑐𝑀𝑒 = 2
= 2 = 5,5 mediana este media aritmetică termenilor x5 si x6, ai seriei ordonate crescător
𝑀𝑒 = 35 ore.
Interpretare: 50% din salariaţii firmei analizate lucrează săptămânal sub 35 ore iar 50% din salariaţii firmei
lucrează săptămânal peste 35 ore
Valoarea modală este valoarea cu cea mai mare frecvenţă de apariţie. 36 apare de 2 ori. 𝑀𝑜 = 36 ore.
Interpretare: Cel mai frecvent, salariaţii firmei analizate lucrează săptămânal 36 ore
Asimetria:
𝐴𝑠=3(𝑥̅−𝑀𝑒) = 3(33-35) = −6 asimetrie negativa, predomină valorile mari
𝐴𝑠=𝑥̅−𝑀𝑜 = 33-36 = −3 asimetrie negativa, predomină valorile mari.
f) Selectăm: Data, apoi Data Analysis şi apoi Descriptive Statistics din lista de instrumente afişate.
1
Seminar1 - Solutii la Recapitulare STATISTICA
2
Seminar1 - Solutii la Recapitulare STATISTICA
d)
∑𝑟𝑖=1(𝑥𝑖 −𝑥̅ )2 ∙𝑛𝑖 335,2
𝑠2 = ∑𝑟𝑖=1 𝑛𝑖
= = 4,19
80
Abaterea standard sau deviaţia standard sau abaterea medie pătratică
𝑠 = √𝑠 2 = √4,19 = 2,05 sute euro
Interpretare: În medie, un pachet turistic se abate de la medie cu 2,05 sute euro.
e) Calculaţi dispersia variabilei alternative ”Nr de pachete cu valoarea sub 8 sute euro”
m 56
Media variabilei alternative: f= n
= 80 = 0,7
Interpretare: aproximativ 70% din pachetele turistice au valori sub 8 sute euro
Dispersia variabilei alternative: 𝑠 2𝑓 = f(1 − f) = 0,7 ⋅ 0,3 = 0,21.
3
Seminar1 - Solutii la Recapitulare STATISTICA
7. c)
4
Recapitulare. Noţiuni de Teoria Probabilităţilor şi Statistică Matematică
Variabila aleatoare discretă are un număr finit de valori sau o mulţime cel mult numărabilă de valori.
Repartiţia sau distribuția de probabilitate a unei variabile aleatoare discrete se scrie sub forma unui
tablou în care prima linie conţine toate valorile posibile ale variabilei (𝑥𝑖 ,𝑖 = 1,2, . ..), iar a doua linie
conţine probabilităţile de apariţie ale acestor valori (𝑃(𝑋 = 𝑥𝑖 ) = 𝑝𝑖 ,𝑖 = 1,2, . ..).
𝑥1 𝑥2 ⋯ 𝑥𝑖 ⋯ 𝑥𝑖
𝑋: (𝑝 𝑝 ⋯ 𝑝 ⋯) sau 𝑋: (𝑝 ), 𝑖 ∈ 𝐼 ⊂ 𝑁 ∗
1 2 𝑖 𝑖
1) 𝑝𝑖 ≥ 0 (∀)𝑖 ∈ 𝐼
2) ∑𝑖∈𝐼 𝑝𝑖 = 1
𝑥
Variabila aleatoare continuă are un număr infinit de valori 𝑋: (𝑓(𝑥)), unde 𝑥 ∈ 𝐼 ⊂ ℝ
Funcţia densitate de probabilitate: 1)𝑓(𝑥) ≥ 0, (∀)𝑥 ∈ 𝑅
∞
2) ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
𝑏
3) ∫𝑎 𝑓(𝑥)𝑑𝑥 = 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
Funcţia de repartiţie a v. a. X:
𝑥
𝐹(𝑥) = 𝑃(𝑋 < 𝑥) = ∫−∞ 𝑓(𝑡)𝑑𝑡
1
Distribuţii de probabilitate teoretice, continue
⚫ Distribuţia normală standard, Z ~ N(0,1), (distribuţia normală normată sau normală redusă)
Orice distribuţie normală 𝑋~𝑁(𝜇, 𝜎 2 ) poate fi redusă la distribuţia normală standard folosind
𝑋−𝜇
transformarea 𝑍 = 𝜎 şi 𝑍~𝑁(0,1).
2
⚫ Dacă 𝛼 ∈ (0,1) se numeşte cuantilă de rang 𝜶 a repartiţiei normale standard Z, un număr 𝑧𝛼 cu
următoarea proprietate: 𝑃(𝑍 > 𝑧𝛼 ) = 𝑃(𝑍 ≥ 𝑧𝛼 ) = 𝛼 şi 𝑃(𝑍 < 𝑧𝛼 ) = 1 − 𝛼.
Teorema Limită Centrală constituie baza teoretică pentru larga aplicabilitate a distribuţiei normale.
Fie 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 variabile aleatoare independente, identic distribuite, cu media 𝜇 şi dispersia 𝜎 2 .
∑𝑛 𝑋
Fie 𝑋̄ = 𝑖=1 𝑖 . Atunci când 𝑛 → ∞ avem:
𝑛
𝜎2 𝑋̄ −𝐸(𝑋̄ ) 𝑋̄ −𝜇
1) 𝑋̄~𝑁(𝜇, ) 2) 𝑍 = = 𝜎/ ~𝑁(0,1).
𝑛 𝜎𝑋̄ √𝑛
2) Distribuţia Hi-pătrat (Chi-squared) cu n grade de libertate − 𝝌𝟐𝒏
Teoremă: Fie 𝑍1 , 𝑍2 , . . . , 𝑍𝑛 ~𝑁(0,1) variabile aleatoare independente.
Atunci variabila aleatoare 𝑋 = 𝑍12 + 𝑍22 + ⋯ + 𝑍𝑛2 ~𝜒𝑛2
3
n – număr grade de libertate (corespunde numărului de termeni din sumă).
O v. a. cu distribuţie Hi–pătrat este totdeauna nenegativă şi graficul lui 𝑓(𝑥) nu este simetric. Forma sa
grafică, asimetrică spre dreapta, depinde numai de numărul gradelor de libertate.
Distribuţia Hi–pătrat se foloseşte pentru că apar frecvent situaţii în care intervin sume de pătrate de v.a.
independente una de alta, urmând fiecare o distribuţie normală.
⚫ Există tabele care dau funcţia de repartiţie Hi–pătrat.
(𝑛−1)𝑠2
Teoremă: Variabila 𝑈 = urmează o distribuţie 𝜒 2 cu (n−1) grade de libertate.
𝜎2
Densitatea de repartiţie are o formă similară cu cea a distribuţiei normale standard şi converge spre
distribuţia normală standard pe măsură ce numărul gradelor de libertate creşte.
𝑋̄ −𝜇
Teoremă: Variabila 𝑡 = 𝑠/ are o distribuţie Student cu (n-1) grade de libertate.
√𝑛
4) Distribuţia F (Fisher-Snedecor)
Teoremă: Fie două v.a. independente: 𝑿𝟏 ~𝝌𝟐𝒏𝟏 şi 𝑋2 ~𝜒𝑛22 . Atunci, v.a.
(𝑋 /𝑛 )
𝐹 = (𝑋1/𝑛1) are o distribuţie F cu (𝑛1 , 𝑛2 ) grade de libertate. Notăm 𝐹~𝐹𝑛1 ,𝑛2
2 2
4
𝑛1 este asociat cu variabila de la numărător; 𝑛2 este asociat cu variabila de la numitor.
– Distribuţia F este asimetrică la dreapta.
INFERENŢA STATISTICĂ
Prin inferenţă statistică se înţelege obţinerea de concluzii bazate pe o evidenţă statistică, adică pe
informaţii obţinute dintr-un eşantion. Concluziile sunt asupra caracteristicilor populaţiei din care provine
eşantionul.
Estimarea şi testarea ipotezelor constituie cele două ramuri ale inferenţei statistice clasice.
• ESTIMAREA. Estimarea este operaţia de stabilire, în baza datelor unui eşantion, a valorilor
parametrilor repartiţiei populaţiei din care a fost extras eşantionul.
Putem avea estimare punctuală sau estimare prin interval de încredere.
Estimarea punctuală
Considerăm o populaţie caracterizată de o v.a. teoretică X, care are o lege de probabilitate cunoscută,
𝑓(𝑥, 𝜃), dar 𝜃 este un parametru necunoscut.
Prin parametru al unei populatii întelegem un număr ce descrie, într- un anumit sens, populatia.
Extragem o selecţie aleatoare (𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ) din populaţie şi folosim datele din eşantion pentru a estima
parametrii necunoscuţi.
𝜃̂ = 𝑓(𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ) se numeşte statistică sau estimator. O valoare numerică particulară:
𝜃̂ = 𝑓(𝑥1 , 𝑥2 , . . . , 𝑥𝑛 ) este o estimaţie a parametrului real 𝜃.
Menţionăm că 𝜃̂ poate fi tratat ca o v.a. deoarece este o funcţie de datele de selecţie.
Estimarea punctuală furnizează o singură valoare (estimaţie ) a lui 𝜃.
Estimatori punctuali se obţin prin MCMMP şi prin metoda verosimilităţii maxime.
Proprietăţi ale estimatorilor
𝜃̂ s.n. estimator nedeplasat pentru parametrul 𝜃 dacă 𝐸(𝜃̂) = 𝜃
𝜃̂ este estimator liniar al lui 𝜃 dacă este o funcţie liniară de datele de observaţie.
𝜃̂ este estimator eficient al lui 𝜃 dacă este estimator de varianţă minimă.
Notaţii:
Indicatorul Populaţia generală Eşantion
∑𝑁
𝑖=1 𝑋𝑖 ∑𝑛
𝑖=1 𝑥𝑖
Media 𝜇= 𝑥̄ =
𝑁 𝑛
2 ∑𝑁
𝑖=1(𝑋𝑖 −𝜇)
2
2 ∑𝑛
𝑖=1(𝑥𝑖 −𝑥̄ )
2
Varianţa (Dispersia) 𝜎 = 𝑁
𝑠 = 𝑛−1
Abaterea medie pătratică 𝜎 = √𝜎 2 𝑠 = √𝑠 2
(abaterea standard)
5
Media aritmetică 𝑋̄ este estimator nedeplasat pentru media populaţiei 𝜇.
Abaterea standard 𝑠 este estimator nedeplasat pentru abaterea standard a populaţiei, 𝜎.
•TESTAREA IPOTEZELOR
Se numeşte ipoteză statistică orice presupunere despre parametrii unei populaţii statistice sau despre
distribuţia de probabilitate a populaţiei statistice.
Considerăm o v.a. X, având o pdf cunoscută 𝑓(𝑥, 𝜃), unde 𝜃 este parametrul distribuţiei. Parametrul real
𝜃 este necunoscut. Având o selecţie aleatoare de volum n, obţinem estimatorul punctual 𝜃̂.
Întrebare: H0: 𝜃 = 𝜃0 ?
Ar putea eşantionul nostru să provină dintr-o distribuţie avînd 𝑓(𝑥, 𝜃 = 𝜃0 )?
Ipoteza nulă H0 este testată contra ipotezei alternative H1: 𝜃 ≠ 𝜃0
Ipoteză nulă (H0) = constă în faptul că admitem caracterul întâmplător al deosebirilor, adică presupunem
că nu există deosebiri esenţiale.
Ipoteză alternativă (H1) = este o teorie care contrazice ipoteza nulă. Ea va fi acceptată doar când există
suficiente dovezi pentru a se stabili că este adevărată.
Testul statistic este utilizat drept criteriu de acceptare sau de respingere a ipotezei nule
Regiunea critică, Rc = valorile numerice ale testului statistic pentru care ipoteza nulă va fi respinsă.
Rc este aleasă astfel încât probabilitatea ca ea să conţină testul statistic, când ipoteza nulă este adevărată
să fie α, cu α mic (α=0,05; α=0,01; α=0,10).
Dacă valoarea testului cade în regiunea critică Rc, respingem ipoteza H0, iar dacă este în afara regiunii
critice Rc, acceptăm ipoteza H0.
Regiunea critică este delimitată de o valoare critică (𝑧𝛼 ,𝑧𝛼/2,𝑡𝛼 ,𝑡𝛼/2 ).
În luarea deciziei de acceptare sau de respingere a ipotezei H0 se pot comite 2 tipuri de erori:
Eroarea de genul întâi = eroarea pe care o facem dacă respingem ipoteza nulă, deşi este adevărată.
Riscul de genul întâi (α) = probabilitatea comiterii unei erori de genul întâi; se numeşte nivel sau prag
de semnificaţie.
6
Eroarea de genul al doilea = eroarea pe care o facem dacă acceptăm ipoteza nulă, deşi este falsă.
𝛼 = 𝑃(resping H0 |𝐻0 = adev.) este risc de genul întâi (nivel de semnificaţie)
𝛽 = 𝑃(accept H0 |𝐻0 = falsă) este risc de genul al doilea
Ipoteza adevărată
Decizia de acceptare
H0 H1
Decizie corectă Eroare de gen II
H0
(probabilitate 1-𝜶) (risc β)
Eroare de gen I Decizie corectă
H1
(risc 𝜶) (probabilitate 1-β)
Testarea ipotezei privind media populaţiei (μ) pentru eşantioane de volum mare (𝒏 > 𝟑𝟎)
Etapa 1) Stabilirea ipotezelor
Testul unilateral dreapta Testul unilateral stânga Testul bilateral
𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 > 𝜇0 𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0
Etapa 3) Nivelul de semnificaţie şi Regiunea critică (RC) sau de respingere (RR) a ipotezei H0.
𝑅𝑐 : 𝑧𝑐𝑎𝑙𝑐 > 𝑧𝛼 𝑅𝑐 : 𝑧𝑐𝑎𝑙𝑐 < −𝑧𝛼 𝑅𝑐 : 𝑧𝑐𝑎𝑙𝑐 < −𝑧𝛼 𝑠𝑎𝑢 𝑧𝑐𝑎𝑙𝑐 > 𝑧𝛼/2
2
7
Etapa 4) Folosim datele din eşantion şi calculăm valoarea testului statistic:
𝑥̄ −𝜇0 𝑥̄ −𝜇0
𝑧𝑐𝑎𝑙𝑐 = sau 𝑧𝑐𝑎𝑙𝑐 =
𝜎/√𝑛 𝑠/√𝑛
Testarea ipotezei privind media populaţiei (μ) pentru eşantioane de volum mic (𝑛 ≤ 30) și
necunoscut.
Se presupune că 𝑋~𝑁(𝜇, 𝜎 2 ) cu necunoscut.
Etapa 1) Stabilirea ipotezelor
Testul unilateral dreapta Testul unilateral stânga Testul bilateral
𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 > 𝜇0 𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0
𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−1 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−1 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−1 𝑠𝑎𝑢 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−1
2 2
8
Seminar 2 Modelul de regresie liniară simplă (unifactorială)
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
1) Exemple de modele de regresie liniară unifactorială.
2) Analiza existenței legăturii dintre două variabile.
3) Estimarea parametrilor prin metoda celor mai mici pătrate. Interpretarea parametrilor.
4) Estimarea parametrilor prin metoda celor mai mici pătrate, utilizând Excel.
5) Estimarea parametrilor prin metoda celor mai mici pătrate, utilizând EViews.
M3. Nivelul Corupţiei într-o ţară, nivel măsurat prin Indicele Corupţiei (IC), depinde de gradul de
dezvoltare al acelei ţări, măsurat prin Indicele Dezvoltării Umane (IDH).
IC = f (IDH) ⇒ 𝐼𝐶 = 𝛽0 + 𝛽1 ⋅ 𝐼𝐷𝐻 + 𝜀
IC este un indicator ce măsoară corupţia dintr-o ţară, în percepţia investitorilor străini.
IDH - caracterizează nivelul de trai al populaţiei unei ţări (se foloseşte PIB/locuitor).
1
Ex1. Consumul unei familii în funcţie de Venitul disponibil
În scopul evaluării influenţei Venitului disponibil asupra Cheltuielilor de consum ale unei familii, au fost
înregistrate, pentru 10 familii, valorile următoarelor variabile:
Y – Cheltuielile de Consum ale familiei; (variabila dependentă sau variabila endogenă)
X – Venitul Disponibil al familiei (variabila independentă sau variabila exogenă).
Fiecare familie a fost selectată, la întâmplare, dintr-un grup de familii cu un venit net disponibil fixat.
Valorile celor două variabile sunt exprimate în mii de unităţi monetare (u.m.), astfel încât prima familie
câştigă 80 mii u.m. şi consumă 70 mii u.m. anual.
1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
2. Pe baza datelor din eşantion, estimaţi coeficienţii modelului de regresie adecvat analizei dependenţei
dintre cele două variabile şi interpretaţi valorile obţinute.
1. Pentru a identifica existenţa unei relaţii de dependenţă între variabilele analizate, ca şi forma şi sensul
relaţiei de dependenţă, construim diagrama împrăştierii datelor. Pentru a crea o diagramă a datelor trebuie
să stabilim care variabilă ar trebui să apară pe axa orizontală. În analiza de regresie, variabila explicativă
apare totdeauna pe axa orizontală iar variabila explicată pe axa verticală.
Folosim Excel pentru a efectua calculele pentru estimarea unui model de regresie.
Valorile observate pentru variabilele Y şi X sunt introduse în coloanele B şi C.
2
Se observă că între variabilele X şi Y există o legătură liniară, directă, puternică.
2. Rezultă că putem considera că între cele două variabile există o relaţie de forma:
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ; 𝑖 = 1,2, . . . , 𝑛.
Notăm estimatorii parametrilor 𝛽0 şi 𝛽1 cu 𝑏0 şi 𝑏1 sau 𝛽̂0 şi 𝛽̂1
Pentru a determina estimatorii 𝑏0 şi 𝑏1 ai parametrilor 𝛽0 şi 𝛽1, rezolvăm sistemul de ecuaţii normale:
𝑏0 𝑛 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖 10𝑏0 + 1700𝑏1 = 1110
{ 2 {
𝑏0 ∑ 𝑥𝑖 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖 1700𝑏0 + 322000𝑏1 = 205500
Soluţiile sistemului se pot obţine folosind metoda determinanţilor:
𝛥𝑏0 ∑ 𝑦𝑖 ∑ 𝑥𝑖2 −∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 (1110)(322000)−(1700)(205500)
𝑏0 = = ⇒ 𝑏0 = ≈ 24,4545
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 (10)(322000)−(1700)2
𝛥𝑏1 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖 (10)(205500)−(1700)(1110)
𝑏1 = = ⇒ 𝑏1 = ≈ 0,5091
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 (10)(322000)−(1700)2
𝑛 ∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑥𝑖 𝑛 ∑ 𝑦𝑖
unde ∆= | 2 |; ∆𝑏0 = | 2| ; ∆𝑏1 = | |
∑ 𝑥𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖
Valorile estimatorii 𝑏0 şi 𝑏1 se pot afla și folosind formulele:
∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) (16800)
𝑏1 = ⇒ 𝑏1 = ≈ 0,5091
∑(𝑥𝑖 −𝑥̄ )2 √(33000)(8890)
𝑏0 = 𝑦̄ − 𝑏1 𝑥̄ ⇒ 𝑏0 = 111 − (0,5091)(170) ≈ 24,4545
3
Ex2. Cererea pentru un produs în funcţie de Preţ
Legea cererii postulează o relaţie inversă între cantitatea cerută dintr-un produs şi preţul său, toate celelalte
variabile care afectează cererea fiind considerate constante.
O editură doreşte să studieze legătura dintre numărul de albume vândute şi preţul unui anumit album (de
pictură). În acest scop, au fost înregistrate, în 10 oraşe, valorile următoarelor variabile:
Y – numărul de albume vândute;
X – preţul albumului (în euro).
Y 49 45 44 39 38 37 34 33 30 29
X 1 2 3 4 5 6 7 8 9 10
1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
Se observă că între variabilele X şi Y există o legătură liniară inversă.
Modelul Cerere-Pret
60
50
40
cantitate
30 Series1
20
10
0
0 5 10 15
pret
2. Pe baza datelor de la nivelul eşantionului, să se determine ecuaţia de regresie liniară care modelează
legătura dintre cele două variabile. Să se estimeze parametrii modelului şi să se interpreteze rezultatele
obţinute.
4
Modele Regresie liniară unifactorială (simplă)
Ex1. Consumul unei familii în funcţie de Venitul disponibil
Pentru a evalua influenţa Venitului disponibil asupra Cheltuielilor de consum ale unei familii, au fost
înregistrate, pentru 10 familii, valorile următoarelor variabile: X si Y.
X 80 100 120 140 160 180 200 220 240 260
Y 70 65 90 95 110 115 120 140 155 150
X – Venitul disponibil al familiei, exprimat în mii lei
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – Cheltuielile de Consum ale familiei, exprimate în mii lei
(variabila dependentă sau variabila explicată sau variabila endogenă)
1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
2. Pe baza datelor din eşantion, estimaţi coeficienţii modelului de regresie adecvat analizei dependenţei
dintre cele două variabile şi interpretaţi valorile obţinute.
3. Să se testeze validitatea modelului de regresie liniară la un prag de semnificaţie de 5%
(nivel de semnificaţie =0,05; valoare tabelară 5,32).
4. Să se testeze semnificaţia statistică a parametrilor modelului
(nivel de semnificaţie =0,05; valoare tabelară: 2,306).
5. Determinaţi şi interpretaţi intervalele de încredere 95% pentru parametrii modelului
6. Calculaţi coeficientul de determinaţie şi interpretaţi rezultatul obţinut.
7. Calculaţi raportul de corelaţie, testaţi semnificaţia acestuia şi interpretaţi rezultatul obţinut.
8. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul de corelaţie liniară
Pearson si testaţi semnificaţia statistică a acestuia.
9. Să se raporteze rezultatele analizei de regresie
10. Să se previzioneze cheltuielile de consum ale unei familii, în ipoteza că venitul disponibil
este de 280 mii lei.
11. Să se previzioneze cheltuielile medii de consum ale unei familii, în ipoteza că venitul disponibil
este de 280 mii lei.
1
3. Testarea validităţii modelului de regresie folosind metoda ANOVA
Să se verifice dacă modelul de regresie identificat este valid statistic
(valoare tabelară: 5,32 pentru un nivel de semnificaţie de 0,05).
Fie α nivelul (pragul) de semnificaţie al testului, iar 1-α este nivelul de încredere al testului. Dacă nu se
specifică, vom considera în general că =0,05 iar 1-=0,95 (sau 100α% = 5% iar 100(1-α)% = 95%).
Pentru testarea validităţii modelului de regresie construim tabelul ANOVA:
𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̄ )2 = 8890,0 - variaţia totală a valorilor variabilei Y, suma pătratelor abaterilor totale.
𝑆𝑆𝑅 = ∑(𝑦̂𝑖 − 𝑦̄ )2 =8552,73 reprezintă variaţia explicată prin factorul de regresie.
𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑒𝑖2 =337,27 - variaţia neexplicata (reziduala), variaţia datorată erorilor.
SST=SSR+SSE
2
𝑆𝑆𝐸
𝑀𝑆𝐸 = 𝑛−2 = 𝑠𝑒2 =337,27/8=42,159 - varianţa erorilor în eşantion (dispersia reziduurilor)
𝑆𝑆𝐸
𝑠𝑒 = 𝑠𝜀̂ = √𝑛−2 este abaterea standard a erorilor în eşantion
𝑆𝑆𝑇
De asemenea, se poate calcula si dispersia de selecţie a lui Y, adică 𝑠𝑦2 = 𝑛−1
𝑖∑ 𝑥2 1 𝑥̄ 2
𝑠𝛽̂0 = 𝑠𝑒 ⋅ √𝑛 ∑(𝑥 −𝑥̄ = 𝑠𝑒 ⋅ √𝑛 + ∑(𝑥 −𝑥̄ )2 = 6,4138
𝑖)2 𝑖
3
Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−2
2 2
sau 𝑅𝑐 : |𝑡calc | > 𝑡𝛼;𝑛−2
2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1
Dacă |𝑡calc | > 𝑡𝛼;𝑛−2 atunci respingem 𝐻0 şi acceptăm 𝐻1 la un nivel de semnificaţie de 𝛼%.
2
𝑏̂ −0 0,5091
𝑡calc = = 0,0357 = 14,2432
𝑏̂
𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;8 =2,306
Deoarece 14,2432>2,306 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1 ⇒ 𝛽1 este semnificativ statistic.
(Spunem că o statistică este semnificativă dacă valoarea testului statistic se găseşte în regiunea critică.
În acest caz se respinge H0.)
Observaţie:
2
Pentru cazul k=2 , pentru coeficientul pantă avem 𝑡𝑐𝑎𝑙𝑐 =𝐹
2
Verificare: (14,2432) = 202,87
Testarea semnificaţiei parametrului de interceptare 𝛽0
𝐻0 : 𝛽0 = 0 (𝛽0 nu este semnificativ statistic; 𝛽0 nu diferă semnificativ de zero)
𝐻1 : 𝛽0 ≠ 0 (𝛽0 este semnificativ statistic; 𝛽0 diferă semnificativ de zero).
̂0 −0
𝛽 𝑎̂−0
Sub ipoteza nulă statistica: 𝑡 = = ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑠𝛽
̂ 𝑠𝑎
̂
0
Vom determina Regiunea critică sau de respingere a ipotezei H0
Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−2
2 2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1
Dacă |𝑡calc | > 𝑡𝛼;𝑛−2 atunci respingem 𝐻0 şi acceptăm 𝐻1 la un nivel de semnificaţie de 𝛼%.
2
𝑎̂−0 24,4545
𝑡calc = = = 3,8128
𝑠𝑎
̂ 6,4138
𝑡calc = 24,4545/6,4138 = 3,8128; 𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;8 = 2,306
Deoarece 3,8128>2,306 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1 ⇒ 𝛽0 este semnificativ statistic.
4
„Factorul X are putere explicativă semnificativă pentru Y” sau „𝛽1 este semnificativ diferit de zero” sau
„𝛽1 este semnificativ statistic”.
Un interval de încredere 100(1-α)% pentru parametrul 𝜷𝟎 este de forma:
(𝛽̂0 − 𝑡𝛼 𝑠𝛽̂ ≤ 𝛽0 ≤ 𝛽̂0 + 𝑡𝛼
;𝑛−2 0
𝑠𝛽̂ ) ;𝑛−2 0
2 2
(24,4545 − (2,306)(6,4138); 24,4545 + 2,306(6,4138)) ⇒
9,6643 ≤ 𝛽0 ≤ 39,2448 ⇒ Interpretare...
Interpretare: Dat fiind un coeficient de încredere de 95%, pe termen lung, în 95 din 100 de cazuri, intervale
precum intervalul [9,6643 ≤ 𝛽0 ≤ 39,2448], vor include valoarea reală a lui 𝛽0.
Intervalul [9,6643; 39,2448] acoperă valoarea reală a parametrului 𝛽0 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽0 ≠ 0.
Important!
Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
• Folosim testul t
• Folosim P-value
• Folosim intervalele de încredere
5
𝐻0 : 𝑅 2 = 0 ( Raportul de corelaţie nu este semnificativ statistic; modelul nu este corect specificat)
(adică variabila X nu are efect asupra variabilei Y)
𝐻1 : 𝑅 2 > 0 ( Raportul de corelaţie este semnificativ statistic; modelul este corect specificat)
( adică variabila X are efect asupra variabilei Y)
𝑅2
𝐹= (𝑛 − 2)~𝐹𝑖𝑠h𝑒𝑟1,𝑛−2
1 − 𝑅2
Se aplică regula de decizie: dacă 𝐹calc > 𝐹𝛼;1,𝑛−2 se respinge ipoteza nulă în favoarea ipotezei alternative.
Deoarece 𝐹calc ≈ 202 şi 𝐹𝛼;1,𝑛−2 = 5,32 respingem H0 şi acceptăm H1, modelul este corect specificat
⇒ Raportul de corelaţie este semnificativ statistic
⇒ variabila X are efect asupra variabilei Y.
8. Calculaţi coeficientul liniar de corelaţie Pearson şi testaţi semnificaţia statistică a acestuia.
Se notează cu ρ coeficientul de corelaţie din colectivitatea generală.
Se notează cu r coeficientul de corelaţie liniara din esantion
1−𝑟 2
Media estimatorului r este ρ şi abaterea standard este 𝑠𝑟 = √
𝑛−2
Coeficientul de corelaţie de selecţie caracterizează direcţia şi intensitatea legăturii liniare dintre două
variabile. Semnul acestui coeficient indică direcţia legături iar valoarea sa indică intensitatea legăturii.
𝑆𝑥𝑦 ∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟𝑥𝑦 = 𝑆 𝑆 = 2 2
= ∈ [−1, +1]
𝑥 𝑦 √[∑(𝑥𝑖 −𝑥̄ ) ][∑(𝑦𝑖 −𝑦̄ ) ] √[𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 ][𝑛 ∑ 𝑦𝑖2 −(∑ 𝑦𝑖 )2 ]
∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑆𝑥𝑦 𝑆
𝛽̂1 = ∑(𝑥 = 𝑆 ⇒ 𝑟𝑥𝑦 = 𝛽̂1 𝑆𝑥 .
−𝑥̄ )2
𝑖 𝑥𝑥 𝑦
6
10. Să se previzioneze (prognozeze) cheltuielile de consum ale unei familii, în ipoteza că
venitul disponibil este 𝑥𝑝 = 𝑥𝑛+1 =280 mii lei.
Putem obţine estimaţii punctuale sau prin intervale de încredere
Se doreşte predicţia unei valori individuale
𝑦̂𝑝 = 𝛽̂0 + 𝛽̂1 𝑥𝑝 = 24,4545 + 0,5091 ⋅ 280 = 167,0025 mii lei
este o estimaţie (predicţie) a valorii individuale 𝑦𝑝 = 𝛽0 + 𝛽1 𝑥𝑝 + 𝜀𝑝
Un Interval de încredere pentru predicţia valorii individuale 𝑦𝑝 este de forma :
1 (𝑥𝑝 − 𝑥̄ )2
𝑦̂𝑝 ± 𝑡𝛼/2,𝑛−2 ⋅ √𝑠𝑒2 (1 + + )
𝑛 ∑(𝑥𝑖 − 𝑥̄ )2
167,0025 ± (2,306) ⋅ (7,8634)
148,8695 ≤ (𝑦𝑝 |𝑥𝑝 = 280) ≤ 185,1355
11. Să se previzioneze (prognozeze) cheltuielile medii de consum ale unei familii, în ipoteza că
venitul disponibil este 𝑥𝑝 = 𝑥𝑛+1 =280 mii lei.
Suntem în situaţia de a prognoza 𝐸(𝑌|𝑋 = 𝑥𝑝 ) = 𝛽0 + 𝛽1 𝑥𝑝
Folosim ecuaţia de regresie estimată: 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
𝑦̂𝑝 este un estimator (predictor) al mediei condiţionate 𝐸(𝑌|𝑋 = 𝑥𝑝 ).
O estimaţie punctuală a previziunii mediei este
𝑦̂𝑝 = 𝛽̂0 + 𝛽̂1 𝑥𝑝 = 24,4545 + 0,5091 ⋅ 280=167,0025 mii lei
Un Interval de încredere pentru predicţia mediei condiţionate este de forma :
1 (𝑥𝑝 − 𝑥̄ )2
𝑦̂𝑝 ± 𝑡𝛼/2,𝑛−2 ⋅ √𝑠𝑒2 ( + )
𝑛 ∑(𝑥𝑖 − 𝑥̄ )2
167,0025 ± (2,306) ⋅ (4,4356)
156,7741 ≤ 𝐸(𝑌|𝑥𝑝 = 280) ≤ 177,2310
Dacă obţinem intervale de încredere 95% pentru fiecare X dat, vom obţine, ca interval de încredere, o
bandă de încredere pentru funcţia de regresie a populaţiei.
Observaţie: Se obţine un interval de lungime mai mare pentru 𝑦𝑝 decât pentru 𝐸(𝑌|𝑥𝑝 ). Banda de
încredere este mai mică atunci când valoarea lui 𝑥𝑝 = 𝑥𝑛+1 se apropie de media de selecţie 𝑥̄ .
7
Ex4: Model liniar de regresie cu două variabile exogene (explicative)
Ne propunem să studiem cum evoluează cheltuielile de consum personal într-o ţară, în ultimii ani.
Se consideră regresia Cheltuielilor de Consum personal în raport cu Venitul personal şi Timpul,
pe o perioadă de 15 ani. Utilizăm modelul liniar cu două variabile explicative:
1
15 31895 120
𝑋 𝑇 𝑋 = (31895 68922513 272144)
120 272144 1240
37,232491 −0,0225082 1,336707
(𝑋 𝑇 𝑋)−1 = (−0,0225082 0,0000137 0,0008319)
1,336707 0,0008319 0,054034
300,28625
̂ 𝑇 −1 𝑇 ̂
⇒ 𝛽 = (𝑋 𝑋) 𝑋 𝑦 ⇒ 𝛽 = ( 0,74198 )
8,04356
Să se realizeze regresia utilizând Excel. (Se poate completa la Confidence Level: 90% )
2
Seminar 5 − Regresie liniară simplă − output din Excel de completat
1. Pentru a determina legătura dintre Consumul zilnic de tablete de ciocolată al unei persoane şi
Preţul unei tablete (în euro), am folosit un model de regresie liniară unifactorială.
În urma prelucrării datelor observate cu Excel, am obţinut rezultatele de mai jos:
Regression Statistics
Multiple R ………
R Square ………
Adjusted R Square 0,6205
Standard Error 0,1289
Observations 11
ANOVA
df SS MS F
Regression ……….. ……… ……….. 17,3554.
Residual ……….. ……… ………..
Total ……… ………..
Coefficients Stand.Error t Stat P-value Lower 95% Upper 95%
Intercept 2,6917 0,1220 ……….. 0,0000 2,4157 ………
X Variab.1 ……….. 0,1145 ……….. 0,0024 -0,7359 ………..
a) Completaţi informaţiile care lipsesc (se vor preciza formulele utilizate pentru obţinerea valorilor
care lipsesc). Care este variabila dependentă? Care este variabila independentă?
b) Scrieţi ecuaţia de regresie estimată. Interpretaţi valorile coeficienților obținuți.
c) Testaţi validitatea modelului (nivelul de semnificaţie este = 0,05 ; valoare critică = 5,12) .
d) În ce proporţie consumul de ciocolată este influenţat de preţ ?
e) Testaţi semnificaţia coeficientului pantă şi interpretaţi intervalul de încredere pentru acesta
(nivelul de semnificaţie este 5%; valoare critică = 2,26).
f) Testaţi dacă parametrul pantă diferă semnificativ de −0,3.
g) Previzionaţi Consumul zilnic de tablete de ciocolată al unei persoane ştiind că Preţul unei tablete este
de 2 euro (previziune punctuală și pe bază de interval de încredere).
2. În urma estimării unui model de regresie liniară unifactorială în Eviews au fost obținute rezultatele de
mai jos. Variabilele considerate sunt: Vânzările obținute de 15 magazine și Profiturile obținute de aceste
magazine, în ultimul an. Datele sunt exprimate în mii de euro.
Ne propunem să studiem cum evoluează cheltuielile de consum personal într-o ţară, în ultimii ani.
Se consideră regresia Cheltuielilor de Consum personal în raport cu Venitul personal şi Timpul,
pe o perioadă de 15 ani. Utilizăm modelul liniar cu două variabile explicative:
1 𝑥11 𝑥12
1 1 ⋯ 1
1 𝑥21 𝑥22
𝑋=( ) 𝑋 𝑇 = (𝑥11 𝑥21 ⋯ 𝑥𝑛1 )
⋮ ⋮ ⋮
𝑥12 𝑥22 ⋯ 𝑥𝑛2
1 𝑥𝑛1 𝑥𝑛2
1 𝑥11 𝑥12 𝑛 ∑ 𝑥𝑖1 ∑ 𝑥𝑖2
1 1 ⋯ 1
𝑇 1 𝑥21 𝑥22 2
𝑋 𝑋 = (𝑥11 𝑥21 ⋯ 𝑥𝑛1 ) ( ) = (∑ 𝑥𝑖1 ∑ 𝑥𝑖1 ∑ 𝑥𝑖1 𝑥𝑖2 )
⋮ ⋮ ⋮
𝑥12 𝑥22 ⋯ 𝑥𝑛2 ∑ 𝑥𝑖2 ∑ 𝑥𝑖1 𝑥𝑖2 2
∑ 𝑥𝑖2
1 𝑥𝑛1 𝑥𝑛2
𝑦1
1 1 ⋯ 1 ∑ 𝑦𝑖 29135
𝑦 2
𝑛1 ) ( ⋮ ) = ( 𝑥𝑖1 𝑦𝑖 ) 𝑋 𝑦 = (62905821)
𝑇 𝑥 𝑥 ⋯ 𝑥 ∑ 𝑇
𝑋 𝑦 = ( 11 21
𝑥12 𝑥22 ⋯ 𝑥𝑛2 𝑦𝑛 ∑ 𝑥𝑖2 𝑦𝑖 247934
15 31895 120
𝑋 𝑇 𝑋 = (31895 68922513 272144)
120 272144 1240
37,232491 −0,0225082 1,336707
(𝑋 𝑇 𝑋)−1 = (−0,0225082 0,0000137 0,0008319)
1,336707 0,0008319 0,054034
𝑇
Ecuaţiile normale ale lui Gauss: (𝑋 𝑋)𝛽 = 𝑋 𝑦̂ 𝑇
300,28625
̂ 𝑇 −1 𝑇 ̂
⇒ 𝛽 = (𝑋 𝑋) 𝑋 𝑦 ⇒ 𝛽 = ( 0,74198 )
8,04356
Interpretarea coeficienţilor obţinuţi:
𝛽0 = parametrul de interceptare
𝛽1 = coeficient de regresie parţial pentru variabila independentă X1.
𝛽2 = coeficient de regresie parţial pentru variabila independentă X2.
𝛽̂1 = 0,7420 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Venitul (X1) creşte cu o mie lei (o unitate), Cheltuielile de Consum
cresc, în medie, cu 0,74 mii lei.
1
𝛽̂2 = 8,0436 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Timpul (X2) creşte cu un an, Cheltuielile de Consum cresc, în medie,
cu 8,0436 mii lei.
𝛽̂0 = 300,2863 este parametru de interceptare şi arată că, dacă cele două variabile explicative, X1 şi
X2 au valoarea 0, valoarea medie a cheltuielilor de consum este estimată la circa 300 mii lei.
Să se realizeze regresia utilizând Excel. (Se poate completa la Confidence Level: 90% )
2
𝑅 2 =0,9976 ⇒ Rezultă că 99,76% din variaţia Cheltuielilor de consum, în perioada studiată de 15 ani,
este explicată prin variaţia celor 2 variabile exogene: Venitul disponibil şi Timpul.
df SS MS F Fcritic
̂𝑇 𝑆𝑆𝑅 𝑀𝑆𝑅
Regression k-1=2 𝑆𝑆𝑅 = 𝛽 𝑋 𝑇 𝑦 − 𝑛𝑦̄ 2 MSR= F=𝑀𝑆𝐸 𝐹𝛼;2,𝑛−3
𝑘
𝑆𝑆𝐸
Residual n-k=n-3 𝑆𝑆𝐸 = 𝑦 𝑦 − 𝛽̂ 𝑇 𝑋 𝑇 𝑦
𝑇
MSE=𝑠𝑒2 = 𝑛−𝑘
Total n-1 𝑆𝑆𝑇 = 𝑦 𝑇 𝑦 − 𝑛𝑦̄ 2
Aici k=3 reprezintă numărul de parametri de estimat din model
3
8) Să se testeze semnificaţia statistică a coeficienţilor de regresie
(nivel de semnificaţie 𝛼 = 0,05; valoare tabelară: 2,179)
Testarea semnificaţiei statistice a parametrului pantă 𝛽1
𝐻0 : 𝛽1 = 0 (parametrul pantă 𝛽1 nu este semnificativ statistic)
𝐻1 : 𝛽1 ≠ 0 (parametrul pantă 𝛽1 este semnificativ statistic)
̂1 −0
𝛽
Statistica testului este 𝑡= ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−3
𝑠𝛽
̂ 1
𝛽̂1 − 0 0,74198
𝑡𝑐𝑎𝑙𝑐 = = = 15,61077
𝑠𝛽̂1 0,04753
𝑡𝑐𝑟𝑡 = 𝑡𝛼/2;𝑛−3 = 𝑡0,025;12 = 2,179
Deoarece 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼/2;𝑛−3 ⇒ 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1 ⇒
⇒ parametrul 𝛽1 este semnificativ statistic la pragul de semnificaţie de 5%.
4
ECONOMETRIE – Seminar 7 – (9.11.2022)
Multicoliniaritatea variabilelor explicative
Regresia arată că Venitul şi Averea împreună explică 96% din variaţia cheltuielilor de consum
şi totuşi, nici un coeficient pantă nu este semnificativ statistic. (Ne uităm la Probabilităţi: avem
Prob=0,2902 si Prob=0,6151). Mai mult, coeficientul variabilei X2=Avere are un semn greşit.
A priori, ne aşteptam ca între Consum şi Avere să existe o relaţie pozitivă (2 > 0).
Ambii coeficienţi pantă ( 1 şi 2 ) nu sunt semnificativi statistic. Dacă testăm ipoteza nulă:
H0: 1 = 2 = 0 , această ipoteză poate fi respinsă. Statistica F este semnificativă statistic.
1
Faptul că testul F este semnificativ dar valorile t calculate în cazul variabilelor X1 şi X2 nu sunt
semnificative înseamnă că cele 2 variabile sunt puternic corelate, adică este imposibil să izolăm
influenţa fiecărei variabile asupra consumului.
• Detectarea multicoliniarităţii pe baza coeficienţilor de corelaţie dintre var. explicative.
2
Calcularea factorului de inflaţie a varianţei pentru X2, in Eviews:
3
(M1) y i = 0 + 1 x1i + 2 x 2i + i Ne aşteptăm ca 1 < 0 şi 2 > 0.
În Eviews am creat workfile: multicolin_pret_venit.wf1
Specificăm ecuaţia: Y C X1 X2 Salvăm cu Name: EQ01
• Detectarea multicoliniarităţii
Analizăm rezultatele din EQ01 faţă de cele cunoscute din modelul unifactorial (EQ03)
1) Coeficienţii lui X1 sunt negativi în ambele ecuaţii. Au valori apropiate şi sunt semnificativi.
2) Faţă de modelul unifactorial (EQ03), valoarea lui t este mică. Erorile standard au crescut.
4
3) În modelul unifactorial (EQ03) am obţinut R 2 = 0,975733. În modelul cu 2 factori avem
R 2 = 0,977752, deci nu a crescut mult. Această creştere în R 2 nu este semnificativă.
4) Coeficientul variabilei X2=Venit nu este semnificativ statistic şi are semn greşit. Pentru cele
mai multe bunuri Venitul are un efect pozitiv asupra cantităţii cerute.
5) Ipoteza H0: 1 = 2 = 0 poate fi respinsă. Statistica F este semnificativă statistic.
(M2) Regresăm X2 în raport cu X1. Această regresie arată că există coliniaritate aproape
perfectă între X2 şi X1. Specificăm ecuaţia: X2 C X1 Salvăm cu Name: EQ02
• Estimatorii obţinuţi prin MCMMP şi erorile lor standard devin foarte senzitivi la
modificări mici în date, adică sunt instabili.
Modificăm Venitul pentru observaţiile 1, 5 şi 10: 295, 287, 274.
5
Coeficientul variabilei X2=Venit a devenit semnificativ statistic şi pozitiv, în acord cu
aşteptările teoretice.
ln Yi = –26,8382 –0,0839 ln X 1i + 5,3979 ln X 2i
P (0,0013) (0,0153) (0,0006)
Coeficienţii pantă sunt semnificativi statistic şi au semnele în concordantă cu teoria economică.
Aplicaţi Testul Jarque-Bera (JB) privind distribuţia normală a reziduurilor din EQ04
6
Acest test calculează mai întâi coeficientul de asimetrie (Skewness) şi coeficientul de boltire
(Kurtosis) pentru reziduurile obţinute prin MCMMP. Ipotezele de testat sunt:
H0: Reziduurile au distribuţie normală ( S = 0 şi K = 3 )
H1: Reziduurile nu au distribuţie normală
Jarque-Bera = 0,498737
Probability = 0,779293
Deoarece Probabilitatea asociată statisticii JB este > 0,05 acceptăm H0 Reziduurile au
distribuţie normală.
7
Regresie liniară multiplă − output din Excel de completat
Exercițiu:
Pentru a se studia legătura dintre variabilele Y = preţul unei case (în mii euro),
X1 = suprafaţa casei (în mp) şi X2 = vechimea casei (în ani), folosim un număr de
23 observaţii şi modelul liniar cu două variabile explicative.
Regression Statistics
Multiple R ………
R Square ………
Adjusted R
Square 0.7085
Standard Error ………
Observations ……….
ANOVA
df SS MS F Significance F
Regression …… 8659.1982 ……….. ………..
Residual …… ………… 156.1075
Total ……. ………..
Definiţie: Erorile aleatoare se numesc homoscedastice dacă au dispersii sau varianţe egale.
Definiţie: Erorile aleatoare se numesc heteroscedastice dacă au dispersii sau varianţe diferite:
𝑽𝒂𝒓(𝜺𝒊 ) = 𝑬(𝜺𝒊 − 𝑬(𝜺𝒊 ))𝟐 = 𝝈𝟐𝒊 , 𝒊 = 𝟏, 𝟐, . . . , 𝒏.
Putem exprima proprietatea de heteroscedasticitate a erorilor aleatoare şi prin 𝐸(𝜀𝑖2 ) = 𝜎𝑖2 .
Testul Glejser
După obţinerea reziduurilor din modelul original, Glejser a sugerat regresarea valorii absolute a lui 𝑒𝑖 în
raport cu o variabilă ce reprezintă o transformare a variabilei X, care este privită ca fiind asociată cu varianţa
heteroscedastică 𝜎𝑖2 .
Estimăm modelul: |𝑒𝑖 | = 𝛽0 + 𝛽1 (1/𝑥𝑖 ) + 𝑢𝑖
Vom calcula |𝑒𝑖 | scriind în zona de lucru “series eimodul=abs(reziduuri)”
3
∧
|𝑒𝑖 | = −72,8306 + 2,1855 * √Venit
𝑠𝑒 = (34,2057) (0,3208) 𝑅 2 = 0,6591
Modelele din EQ03 şi din EQ04 sugerează să respingem H0, deoarece coeficienţii pantă sunt semnificativi
statistic.
Aceleşi rezultate le-am obţinut şi prin aplicarea testului Glejser direct în EViews.
Statisticile t-calculat (t-Statistic) au Prob. asociate egale cu 0,0000 < . Respingem H0 şi acceptăm H1.
I) MCMMP-Ponderată
Cazul: Varianţele perturbaţiilor sunt necunoscute: 𝜎𝑖2 = necunoscut
a) 𝜎𝑖2 = 𝜎 2 𝑥𝑖2 (Varianţa erorilor este proporţională cu pătratul unei variabile explicative)
Modelul iniţial este 𝐶𝐷 = 𝛽0 + 𝛽1 𝑉𝑒𝑛𝑖𝑡 + 𝜀𝑖 sau sub forma 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Transformăm modelul iniţial împărţind prin xi
𝑦𝑖 1 𝜀𝑖
= 𝛽0 + 𝛽1 +
𝑥𝑖 𝑥𝑖 𝑥𝑖
4
Modelul transformat prezintă homoscedasticitate. Putem aplica MCMMP modelului transformat.
În Eviews selectăm: Quick → Estimate Equation →EQ05: CD/VENIT C 1/VENIT
5
II) Respecificarea modelului
Transformarea logaritmică este folosită în mod frecvent pentru a elimina heteroscedasticitatea, deoarece
reduce dispersia variabilelor iniţiale.
Se estimează prin MCMMP modelul
𝑙𝑛 𝑦𝑖 = 𝛽0 + 𝛽1 𝑙𝑛 𝑥𝑖 + 𝜀𝑖 în locul modelului 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 .
Un avantaj al modelului log-liniar sau dublu logaritmic, este că panta măsoară elasticitatea lui Y în raport cu
X, adică modificarea procentuală în Y, pentru o modificare procentuală în X.
EQ07: LOG(CD) C LOG(VENIT)
III) White a obţinut un estimator consistent care oferă estimări robuste, corecte, ale erorilor standard ale
parametrilor modelului liniar de regresie, în prezenţa heteroscedasticităţii sub formă necunoscută.
6
Seminar 9 ECONOMETRIE – (23.11.2022)
557. 467. 432. 435. 447. 505. 545. 525. 586. 579. 582. 610. 629. 673.
7 4 1 9 3 3 7 7 2 8 3 7 1 7
857. 746. 681. 691. 718. 769. 799. 750. 714. 706. 720. 761. 799. 838.
9 8 0 3 2 3 5 7 8 1 7 7 1 3
1
A1) Verificarea ipotezei de non-autocorelare a erorilor aleatoare prin metoda grafică
Creaţi seria reziduurilor din modelul de regresie şi verificaţi prezenţa autocorelării reziduurilor.
Deschidem EQ01, selectăm Procs/Make Residual Series sau
scriem comanda „series et=resid” sau „genr et=resid”.
Selectăm seria reziduurilor, apoi View/Graph/Spike
Scriem comanda „scat et(–1) et” pentru a reprezenta grafic seria 𝑒𝑡 în raport cu 𝑒𝑡−1.
2
Din tabelul distribuţiei DW, pentru nivelul de semnificaţie 5% , n=14 (n≥15), k=1, găsim d1=1,08 şi
d2=1,36. Deoarece DW≈0,2 rezultă că există o autocorelare pozitivă a erorilor aleatoare.
Acceptăm ipoteza H1: ⇒ există Autocorelare de ordinul I pozitivă a erorilor aleatoare.
Concluzie: Nu are sens testarea celorlalte ipoteze. Se impune eliminarea Autocorelării erorilor.
A3) Testul BREUSCH-GODFREY pentru a detecta Autocorelarea de ordin superior (𝑟 > 1).
H0: nu există Autocorelarea de ordin 𝑟, a erorilor aleatoare
H1: există Autocorelarea de ordin 𝑟, a erorilor aleatoare
Aplicăm testul BG pentru autocorelarea de ordin 𝑟 = 2.
EQ01: View/Residual Diagnostics/Serial Correlation Test/Lag to include: 2
(2 este valoarea implicită pentru decalaj)
3
2 2 2
Avem 𝜒𝑐𝑟𝑡 = 𝜒𝛼;𝑑𝑓 = 𝜒0,05;2 = 5,99147
𝐿𝑀 = 𝑛𝑅 2 = Obs*R-squared = 10,76730 şi Prob. Chi-Square(2)=0,0046
⇒ Respingem H0 şi acceptăm H1 Există autocorelare.
4
∧
𝑦𝑡∗ = 10,16023 +0,7083 *𝑥𝑡∗
𝑠𝑒 (............) (0,1628)
𝑡 [0,7336] [4,3506]
𝑝 (0,4786) (0,0012)
𝑅 2 =. . . . . .., 𝑅 =. . . . . .., 𝐹 =. . . . . . . 𝐷𝑊 = 1,7545
5
B) Verificarea ipotezei de homoscedasticitate pentru modelul transformat.
6
Ipoteze în fundamentarea modelului de regresie liniară multifactorială
Unui model de regresie i se asociază o serie de ipoteze pentru a obţine estimaţii de maximă
verosimilitate.
I1) Forma funcţională este liniară: 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊𝟏 + 𝜷𝟐 𝒙𝒊𝟐 + 𝜺𝒊 .
I3) Erorile aleatoare au dispersia constantă pentru toate observaţiile, adică sunt homoscedastice:
𝑉𝑎𝑟(𝜀𝑖 ) = 𝐷(𝜀𝑖 ) = 𝐸(𝜀𝑖 − 𝐸(𝜀𝑖 ))2 = 𝜎𝜀2 = 𝜎 2 (∀)𝑖 = 1, 𝑛.
Deoarece 𝐸(𝜀𝑖 ) = 0, ipoteza de homoscedasticitate poate fi exprimată într-o formă echivalentă:
𝐸(𝜀𝑖2 ) = 𝜎𝜀2 = 𝜎 2 (∀)𝑖 = 1, 𝑛.
Aceasta este proprietatea de homoscedasticitate a erorilor aleatoare. Pe baza acestei ipoteze se poate
admite că legătura dintre variabilele Y şi X este relativ stabilă.
Dacă ipoteza de homoscedasticitate nu este îndeplinită, erorile aleatoare sunt numite heteroscedastice.
I4) Erorile aleatoare nu sunt autocorelate. Nu există corelaţie între doi termeni eroare. Înseamnă că
termenii eroare sunt aleatori. Se scrie sub forma: 𝑐𝑜𝑣( 𝜀𝑖 , 𝜀𝑗 ) = 0 sau 𝐸(𝜀𝑖 𝜀𝑗 ) = 0 pentru 𝑖 ≠ 𝑗.
Nu înseamnă că 𝑦𝑖 şi 𝑦𝑗 sunt necorelate ci că abaterile valorilor observate de la valorile medii sunt
necorelate.
1
Testarea Autocorelării erorilor aleatoare. Testul Durbin-Watson.
Prin acest test se verifică dacă există autocorelare de ordinul întâi în seria reziduurilor.
Ipotezele de testat sunt:
𝐻0 : 𝜌 = 0 (nu există autocorelarea de ordin I a erorilor aleatoare)
𝐻1 : 𝜌 ≠ 0 (există autocorelarea de ordin I a erorilor aleatoare).
Reamintim:
𝒚𝒊 este valoarea observată
̂𝒊 este valoarea ajustată
𝒚
𝒆𝒊 = 𝒚 𝒊 − 𝒚 ̂𝒊 se numește reziduu (eroarea estimată la observația i)
∑𝑛
𝑖=2(𝑒𝑖 −𝑒𝑖−1 )
2
Statistica Durbin-Watson: 𝐷𝑊 = 𝑑 =
∑𝑛
𝑖=1 𝑒𝑖
2
Problema1.
Pentru un model econometric se cunosc: 𝜌̂ =−0,54 (coeficientul de autocorelaţie de ordinul I din seria
reziduurilor) şi valorile critice d1=1,24 şi d2=1,56. Testaţi autocorelarea erorilor aleatoare.
Precizaţi cele 5 regiuni de decizie şi concluzia privind autocorelarea erorilor aleatoare.
Rezolvare:
Ipotezele de testat sunt:
𝐻0 : 𝜌 = 0 (nu există autocorelarea de ordin I a erorilor aleatoare)
𝐻1 : 𝜌 ≠ 0 (există autocorelarea de ordin I a erorilor aleatoare).
2
Dacă 0 < 𝐷𝑊 < 𝑑1, seria reziduurilor prezintă autocorelare de ordinul 1 pozitivă.
Dacă 𝑑1 < 𝐷𝑊 < 𝑑2 ⇒indecizie. Se recomandă acceptarea autocorelării pozitive.
Dacă 𝑑2 < 𝐷𝑊 < 4 − 𝑑2 ⇒ reziduurile sunt independente
Dacă 4 − 𝑑2 < 𝐷𝑊 < 4 − 𝑑1 ⇒indecizie. Se recomandă acceptarea autocorelării negative
Dacă 4 − 𝑑1 < 𝐷𝑊 < 4, seria reziduurilor prezintă autocorelare de ordinul 1 negativă.
Problema2.
Presupunem ca am obtinut statistica 𝐷𝑊 ≈ 2(1 − 𝜌̂) = 2,68
Avem 4 − 𝑑2 < 𝐷𝑊 < 4 − 𝑑1 ⇒
𝐷𝑊 ∈ regiunii 4 Indecizie. Se recomandă acceptarea autocorelării negative.
Aplicaţii la Testarea Homoscedasticităţii erorilor aleatoare
Reamintim Testul White
Mai întâi se estimează modelul prin MCMMP şi se reţin reziduurile.
Testul White implică regresia pătratelor reziduurilor, 𝑒𝑖2 , în funcţie de toate variabilele explicative, de
pătratele variabilelor explicative şi de produsele lor încrucişate.
Considerăm modelul cu 2 variabile explicative:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝜀𝑖
Pas1. Estimăm modelul iniţial de regresie prin MCMMP şi reţinem reziduurile 𝑒𝑖 .
Pas2. Construim o regresie auxiliară:
𝑒𝑖2 = 𝑎0 + 𝑎1 𝑥𝑖1 + 𝑎2 𝑥𝑖2 + 𝑎3 𝑥𝑖1
2
+ 𝑎4 𝑥𝑖22
+ 𝑎5 𝑥𝑖1 𝑥𝑖2 + 𝑢𝑖
(În modelul cu o variabilă explicativă, regresia auxiliară va conţine ca variabile exogene: 𝑥 şi 𝑥 2 ).
Pas3. Estimăm regresia auxiliară prin MCMMP. Obţinem coeficientul de determinaţie multiplă din
regresia auxiliară, coeficient notat 𝑅𝑎2 .
Verificăm validitatea regresiei auxiliare (semnificaţia parametrilor modelului auxiliar), iar dacă unul
din acești parametri este semnificativ, atunci acceptăm ipoteza H1, de heteroscedasticitate a erorilor .
𝐻0 : 𝑎1 = 𝑎2 = 𝑎3 = 𝑎4 = 𝑎5 = 0 (există homoscedasticitate)
𝐻1 : (∃)𝑎𝑖 ≠ 0 (există heteroscedasticitate)
3
2
Pas4. Dacă 𝑊𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑡 = 𝑛𝑅𝑎2 > 𝜒𝑐𝑟𝑖𝑡𝑖𝑐;𝛼 , sau dacă P-value este mai mică decât nivelul de semnificaţie
ales, respingem 𝐻0 şi acceptăm 𝐻1 ⇒ erorile aleatoare sunt heteroscedastice.
Problema1.
Modelul 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖1 + 𝛽2 𝑥𝑖2 + 𝜀𝑖 a fost estimat prin mcmmp. Am obtinut seria reziduurilor (𝑒𝑖 ).
Considerăm regresia auxiliară,
𝑒𝑖2 = 𝑎0 + 𝑎1 𝑥𝑖1 + 𝑎2 𝑥𝑖2 + 𝑎3 𝑥𝑖1
2 2
+ 𝑎4 𝑥𝑖2 + 𝑎5 𝑥𝑖1 𝑥𝑖2 + 𝑢𝑖 .
Rezultatele estimării modelului auxiliar sunt:
𝑒𝑖2 = 65,2038 −3,4665 𝑥𝑖1 − 5,0384 𝑥𝑖2 + 0,0452 𝑥𝑖1 2 2
+ 0,1193 𝑥𝑖2 + 0,1608 𝑥𝑖1 ⋅ 𝑥𝑖2
(249,56) (13,7335) (7,9813) (0,1847) (0,4251) (0,2814)
Să se testeze Homoscedasticitatea erorilor aleatoare folosind testul White (𝛼 = 0,05 iar 𝑡𝑐𝑟𝑡 =2,447).
Rezolvare:
Ipotezele de testat sunt:
𝐻0 : 𝑎1 = 𝑎2 = 𝑎3 = 𝑎4 = 𝑎5 = 0 (există homoscedasticitate)
𝐻1 : (∃)𝑎𝑖 ≠ 0, 𝑖 = 1, . . . ,5 (există heteroscedasticitate)
Dacă toţi coeficienţii din H0 sunt nuli Erorile aleatoare sunt homoscedastice.
Dacă cel puțin un coeficient este semnificativ ≠ 0 Erorile aleatoare sunt heteroscedastice.
Testăm dacă acesti coeficienţi sunt nesemnificativi. În acest scop calculăm statisticile t şi le
comparăm cu t-critic.
𝑎̂1 −3,4665 𝑎̂2 −5,0384
𝑡1 = = =−0,2524 , 𝑡2 = = =−0,6313,
𝑠𝑎
̂1 13,7335 𝑠𝑎
̂2 7,9813
𝑎̂3 0,0452 𝑎̂4 0,1193 𝑎̂5 0,1608
𝑡3 = = =0,2448, 𝑡4 = = =0,2805 , 𝑡5 = = =0,5714
𝑠𝑎
̂3 0,1847 𝑠𝑎
̂4 0,4251 𝑠𝑎
̂5 0,2814
Comparăm statisticile t cu t-critic. Toţi coeficienţii din H0 sunt nuli
Acceptăm H0 Erorile aleatoare sunt homoscedastice.
Problema2.
Modelul 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊𝟏 + 𝜷𝟐 𝒙𝒊𝟐 + 𝜺𝒊 a fost estimat prin mcmmp. Am obtinut seria reziduurilor
(𝑒𝑖 ). Considerăm regresia auxiliară, 𝑒𝑖2 = 𝑎0 + 𝑎1 𝑥𝑖1 + 𝑎2 𝑥𝑖2 + 𝑎3 𝑥𝑖1 2 2
+ 𝑎4 𝑥𝑖2 + 𝑎5 𝑥𝑖1 𝑥𝑖2 + 𝑢𝑖 .
Rezultatele estimării modelului auxiliar sunt:
𝑒𝑖2 = −9,9898 + 1,6567 𝑥𝑖1 + 2,5453 𝑥𝑖2 − 0,0436 𝑥𝑖1 2
− 0,1152 𝑥𝑖2
2
− 0,2709 𝑥𝑖1 ⋅ 𝑥𝑖2
𝑠𝑒 = (122,36) (1,5572) (55,9422) (0,0133) (6,3935) (0,3484)
𝑡 = (−0,0816) (1,0639) (0,0455) (−3,2867) (−0,0180) (−0,7776)
𝑝 = (0,9363) (0,3083) (0,9645) (0,0065) (0,9859) (0,4519)
Să se testeze Homoscedasticitatea erorilor aleatoare folosind testul White (𝛼 = 0,05 iar 𝑡𝑐𝑟𝑡 =2,179).
Rezolvare:
Ipotezele de testat sunt:
𝑯𝟎 : 𝒂𝟏 = 𝒂𝟐 = 𝒂𝟑 = 𝒂𝟒 = 𝒂𝟓 = 𝟎 (există homoscedasticitate)
𝑯𝟏 : (∃)𝑎𝑖 ≠ 0, 𝑖 = 1, . . . ,5 (există heteroscedasticitate)
Dacă toţi coeficienţii din H0 sunt nuli Erorile aleatoare sunt homoscedastice.
Testăm dacă acesti coeficienţi sunt nesemnificativi. Putem calcula statisticile t şi le comparăm cu t-
critic. Mai simplu este să ne uităm la probabilităţile asociate statisticilor t.
Coeficienţii 𝑎1 , 𝑎2 , 𝑎4 , 𝑎5 au „p-value” > 0,05 , deci nu sunt semnificativi statistic.
Doarece „P-value” = 0,0065 < 0,05 𝑎3 ≠ 0 Acceptăm H1
Erorile aleatoare sunt heteroscscedastice.
Problema3.
Modelul 𝒚𝒊 = 𝜷𝟎 + 𝜷𝟏 𝒙𝒊 + 𝜺𝒊 a fost estimat prin mcmmp. Am obtinut seria reziduurilor (𝑒𝑖 ).
Considerăm regresia auxiliară,: 𝑒𝑖2 = 𝑎0 + 𝑎1 𝑥𝑖 + 𝑎2 𝑥𝑖2 + 𝑢𝑖 .
4
Rezultatele estimării modelului auxiliar sunt:
𝑒𝑖2 = 166,2761 −1,7649 𝑥𝑖 + 0,0052 𝑥𝑖2 , 𝑹𝟐𝒂 = 0,2255
𝑠𝑒 = (98,97) (1,2525) (0,0036) , 𝑭 =1,019
𝑡 = (1,68) (-1,409) (1,4275) , 𝑷𝒓𝒐𝒃(𝐹) = 0,4088
𝑝 = (0,1368) (0,2016) (0,1964)
Să se testeze Homoscedasticitatea erorilor aleatoare folosind testul White (𝛼 = 0,05 iar 𝑡𝑐𝑟𝑡 =2,36).
Ipotezele de testat sunt:
𝑯𝟎 : 𝒂𝟏 = 𝒂𝟐 = 𝟎 (există homoscedasticitate)
𝑯𝟏 : 𝒂𝟏 ≠ 𝟎 𝒔𝒊/𝒔𝒂𝒖 𝒂𝟐 ≠ 𝟎 (există heteroscedasticitate)
Coeficientul 𝑎1 nu este semnificativ statistic (p-value=0,2016>0,05).
Coeficientul 𝑎2 nu este semnificativ statistic (p-value=0,1964 > 0,05).
Acceptăm H0 erorile aleatoare sunt homoscedastice.
5
Analiza reziduurilor (erorilor estimate)
În aproape orice analiză de regresie este util un grafic al erorilor estimate sau reziduurilor (pe axa
verticală) raportate la valorile ajustate ale variabilei dependente (pe axa orizontală). O bună aproximare
are nu numai valori mici pentru reziduuri dar şi o reprezentare grafică a acestora în jurul axei orizontale
fără un model aparent, specific. Un grafic al reziduurilor care arată un anumit model cum ar fi o
mulţime de reziduuri pozitive urmate de o mulţime de reziduuri negative, indică faptul că cel puţin una
din ipotezele impuse modelului de regresie nu este îndeplinită sau indică folosirea unei forme
funcţionale greşite.
Testul Jarque-Bera (JB) privind normalitatea reziduurilor (erorilor estimate)
Testul Jarque-Bera este un test asimptotic, bazat pe reziduurile obţinute în urma estimării modelului
de regresie prin MCMMP. Acest test calculează mai întâi coeficientul de asimetrie şi coeficientul de
boltire (aplatizare) pentru reziduurile obţinute.
Pentru o variabilă X se defineşte 𝜇𝑘 = 𝐸(𝑋 − 𝐸(𝑋))𝑘 ca moment centrat de ordinul k.
𝜇3
Coeficientul de asimetrie este : 𝑆 = 3/2 (Skewness).
𝜇2
𝜇
Coeficientul de boltire (aplatizare) este: 𝐾 = 𝜇42 (Kurtosis).
2
Distribuţia Normală are S=0 şi K=3. (K-3) este excesul de boltire.
Ipotezele de testat sunt:
H0: Reziduurile sunt distribuite normal. (𝑆 = 0 şi 𝐾 = 3)
H1: Reziduurile nu sunt distribuite normal.
𝑺𝟐 (𝑲−𝟑)𝟐
Statistica testului este 𝑱𝑩 = 𝒏 ( + )
𝟔 𝟐𝟒
Sub ipoteza nulă, că reziduurile sunt normal distribuite, Jarque şi Bera au arătat că, pentru eşantioane
mari, statistica JB urmează o distribuţie Hi-pătrat cu două grade de libertate (𝜒22 ).
2 2
𝜒𝑐𝑟𝑡 = 𝜒𝛼,2 = 5,99
2
Dacă 𝐽𝐵𝑐𝑎𝑙𝑐 < 𝜒𝑐𝑟𝑡 acceptăm H0
2
Dacă 𝐽𝐵𝑐𝑎𝑙𝑐 > 𝜒𝑐𝑟𝑡 respingem H0 și acceptăm H1
Dacă probabilitatea asociată statisticii calculate este mare (> 𝛼), asimptotic, acceptăm ipoteza nulă, că
reziduurile sunt normal distribuite.
Dacă, într-o aplicaţie, probabilitatea asociată statisticii calculate este suficient de mică (< 𝛼) putem
respinge ipoteza nulă, că reziduurile sunt normal distribuite.
6
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
Analiza de regresie în cazul modelelor econometrice cu variabile independente calitative.
Variabile dummy.
Până acum am considerat că variabila dependentă este influenţată doar de variabile independente numerice
precum venitul, producţia, preţurile, costurile, etc.
În economie există variabile ce se referă la însuşiri, calităţi şi categorii. Se numesc variabile calitative sau
atributive.
Exemple de variabile de natură calitativă:
– genul persoanei (masculin, feminin), religia (ortodoxă, catolică, protestantă, musulmană), rasa, naţionalitatea
– sezonalitatea determinată de succesiunea anotimpurilor
– evenimente deosebite în activitatea unei firme (greve, restructurări) sau în viaţa unei naţiuni (evenimente
politice,
schimbări în politica economică a unui guvern).
– apreciere excelentă, foarte bună, moderată, negativă
– risc maxim, mediu, minim
Variabilele calitative indică de obicei prezenţa sau absenţa unei calităţi sau însuşiri.
Variabilele binare se referă la două aspecte ce se exclud reciproc, cum ar fi: existenţa – nonexistenţa (absenţa);
acceptarea – refuzul; urban – rural; masculin – feminin; mulţumit – nemulţumit.
Pentru a include variabile calitative într-un model de regresie putem folosi variabile artificiale (variabile binare,
dihotomice, dummy, indicator).
O variabilă dummy codifică, de obicei prin valorile 1 şi 0, categoriile unei variabile atributive.
𝐷 = 1 dacă observaţia este din categoria 1.
𝐷 = 0 dacă observaţia este din categoria 2.
În general, o variabilă dummy este o variabilă artificială care atribuie coduri arbitrare la grupuri diferite.
Exemple de variabile dummy:
– variabile categoriale (exemplu: 1 dacă o persoană este bărbat şi 0 dacă nu este bărbat)
– variabile temporale (exemplu: 1 dacă este luni şi 0 dacă nu este luni)
– variabile spaţiale (exemplu: 1 dacă este regiunea de nord şi 0 dacă nu este)
– variabile calitative (exemplu: 1 dacă un produs este bun şi 0 dacă nu este)
Variabilele dummy sunt un mod de clasificare a datelor prin faptul că ele împart un eşantion în diferite subgrupe
bazate pe calităţi sau atribute şi permit să se aplice regresia pe fiecare subgrupă.
Rezultatele estimării unui model cu variabilă independentă dummy sunt aceleaşi indiferent de modul
de atribuire a valorilor 0 şi 1. Atribuirea valorilor 0 şi 1 este arbitrară. Totuşi, cunoaşterea valorilor atribuite
celor două categorii este importantă pentru interpretarea corectă a estimaţiilor obţinute.
Categoria care are valoarea 0 este numită categorie de bază sau grup de bază. Interpretarea
coeficienţilor de regresie se face prin raportare la categoria de bază.
Dacă există m categorii (m=4 =număr trimestre dintr-un an) numărul de variabile dummy ce trebuie
introduse în model trebuie să fie m-1 (m-1=3).
1
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
• 𝛽̂0 = 𝑦̄ 𝐷=0
• 𝛽̂1 = 𝑦̄ 𝐷=1 − 𝑦̄ 𝐷=0
𝑦̄ 𝐷=0 arată media lui Y în grupul pentru care 𝐷 = 0, iar 𝑦̄ 𝐷=1 arată media lui Y în grupul pentru care
𝐷 = 1.
𝛽̂0 = 𝑦̄ 𝐷=0 este nivelul mediu al variabilei Y pentru grupul de bază (categoria de bază) 𝐷 = 0.
𝛽̂0 + 𝛽̂1 arată nivelul mediu al variabilei Y pentru grupul (categoria) 𝐷 = 1.
𝛽̂1 arată cu cât este mai mare valoarea medie a variabilei Y pe cele două categorii (diferenţa dintre nivelul mediu
al variabilei Y pentru categoria 1 şi nivelul mediu al variabilei Y pentru categoria 0).
Testarea ipotezei că 𝑦̄ 𝐷=0 şi 𝑦̄ 𝐷=1 nu diferă semnificativ între cele două grupuri.
Ipoteza nulă a testului spune că nu există diferenţe între mediile celor două grupuri: 𝐻0 : 𝛽1 = 0
Această ipoteză este respinsă atunci când p-value pentru 𝛽̂1 este mai mică decât 0,05.
Ex.1
Y = investiţiile efectuate de firmele dintr-o ţară (în mil euro )
D = forma de proprietate (1 pentru proprietate de stat; 0 pentru proprietate privată)
• 𝑦̄ 𝐷=0 = 𝛽̂0 = nivelul mediu al investiţiilor efectuate de firmele proprietate privată (D=0)
• 𝑦̄ 𝐷=1 = 𝛽̂0 + 𝛽̂1 = nivelul mediu al investiţiilor efectuate de firmele proprietate de stat (D=1)
𝛽̂0 = 15,375 mil euro = nivelul mediu al investiţiilor efectuate de firmele proprietate privată
𝛽̂0 + 𝛽̂1=15,375+7,958 = 23,333 mil euro=nivelul mediu al invest. efectuate de firmele propr. de stat
Ex.2: Fie
Y = Salariul anual al unei persoane angajate la o mare companie, în mii lei
𝐷 = 1 dacă persoana este femeie,
𝐷 = 0 dacă persoana este bărbat.
Datele se găsesc în fişierul Salariu.wf1. Numărul de observaţii este n=526.
Considerăm regresia 𝑆𝑎𝑙𝑎𝑟𝑖𝑢𝑖 = 𝛽0 + 𝛽1 𝐷 + 𝜀𝑖
Întrebare: Există discriminare la Salariu bazată pe genul persoanei?
𝛽̂0 este salariul mediu pentru o persoană bărbat şi 𝛽̂1 este diferenţa de Salariu relativ la grupul de bază.
𝛽̂1 este egal cu salariul mediu pentru o persoană femeie minus salariul mediu pentru o persoană bărbat. Cele
două salarii diferă semnificativ dacă 𝛽1 este semnificativ statistic.
Notăm variabila D cu Fem. Înseamnă că Fem=1 dacă persoana angajată este femeie.
Cerinţe:
1) Să se afle numărul de persoane din fiecare categorie şi proporţiile corespunzătoare.
Pe meniul variabilei Fem selectăm: View/One-Way Tabulation....
2
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
Din rezultatul afişat vedem că, din totalul de 526 persoane angajate:
274 persoane, deci 52,09% sunt bărbaţi şi
252 persoane, deci 47,91% sunt femei.
3) Să se genereze, din variabila Fem, variabila notată Masc, în care valorile 0 din Fem să devină 1 în
Masc. Să se estimeze regresia variabilei Salariu în raport cu variabila Masc şi să se analizeze rezultatele
obţinute.
Notăm variabila D cu Masc. Înseamnă că Masc=1 dacă persoana angajată este bărbat.
3
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
4
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
Notăm cu 𝑦̄ 0 , 𝑦̄ 1 şi 𝑦̄ 2 valorile medii pentru cele trei situaţii de mai sus. Rezultă:
𝛽̂0 = 𝑦̄ 0 , 𝛽̂1 = 𝑦̄ 1 − 𝑦̄ 0 , 𝛽̂2 = 𝑦̄ 2 − 𝑦̄ 0
Ex.3:
Pentru un eşantion format din 25 persoane angajate la o companie, se înregistrează salariul lunar
obţinut (mii lei/lună) după nivelul de pregătire (nivel liceal, postliceal şi superior).
D1= 1 pentru nivel liceal şi 0 în rest
D2= 1 pentru nivel postliceal şi 0 în rest
𝑦𝑖 = 𝛽0 + 𝛽1 𝐷1 + 𝛽2 𝐷2 + 𝜀𝑖
𝛽̂0 = 30,8117 mii lei este Salariul mediu al persoanelor cu studii superioare
𝛽̂1 = –16,2208 diferenţa dintre salariul mediu al angajaţilor cu studii liceale şi al celor cu studii
superioare.
𝛽̂0 + 𝛽̂1 = 30,8117–16,2208 =14,5909 mii lei – nivelul mediu al salariului persoanelor cu studii liceale
𝛽̂0 + 𝛽̂2 =30,8117–7,9091=22,9026 mii lei–nivelul mediu al salariului persoanelor cu studii postliceale
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝐷 + 𝜀
Modelul poate fi văzut ca două regresii separate
• 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀 când 𝐷 = 0
• 𝑌 = (𝛽0 + 𝛽2 ) + 𝛽1 𝑋 + 𝜀 când 𝐷 = 1
Valorile medii vor fi:
𝐸(𝑌|𝑋, 𝐷 = 0) = 𝛽0 + 𝛽1 𝑋
𝐸(𝑌|𝑋, 𝐷 = 1) = (𝛽0 + 𝛽2 ) + 𝛽1 𝑋
𝛽2 = 𝐸(𝑌|𝑋, 𝐷 = 1) − 𝐸(𝑌|𝑋, 𝐷 = 0)
𝛽2 măsoară modificarea în media lui Y între cele două grupuri, menţinând X constant (sau pentru
acelaşi nivel al lui X).
Ex4: Y = Cererea de servicii
X = Venitul
D = mediul (1 = urban; 0 = rural)
Pentru 𝐷 = 1 modelul devine 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 + 𝜀 = (𝛽0 + 𝛽2 ) + 𝛽1 𝑋 + 𝜀 (mediu urban)
Pentru 𝐷 = 0 modelul devine 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀 (mediu rural)
̂
Coeficientul 𝛽2 arată diferenţa dintre termenii liberi din cele două ecuaţii, adică dintre subeşantionul din mediul
urban şi subeşantionul din mediul rural. Apar deosebiri doar în punctul de pornire al dreptelor de regresie, dar
panta 𝛽1 este aceeaşi. Grafic, situaţia este ilustrată de două drepte paralele.
Ex.5: Considerăm regresia Salariului persoanelor (Y) în raport cu Educaţia (X) şi Genul persoanei (D=Gen).
Salariul este exprimat în mii lei. Această regresie se utilizează pentru a vedea dacă există discriminare între
femei şi bărbati, în ceea ce priveşte salariul primit, pentru acelaşi nivel de pregătire.
5
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
Rezultate similare se obţin dacă Gen=1 pentru Masculin şi Gen=0 pentru Feminin.
Regresia cu genul Feminin ca grup de bază
1 𝑑𝑎𝑐𝑎 𝑔𝑒𝑛𝑢𝑙 𝑒𝑠𝑡𝑒 𝑀𝑎𝑠𝑐
𝐷 = 𝐺𝑒𝑛 = {
0 𝑑𝑎𝑐𝑎 𝑔𝑒𝑛𝑢𝑙 𝑒𝑠𝑡𝑒 𝐹𝑒𝑚
𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛼0 + 𝛼1 𝐸𝑑𝑢𝑐 + 𝛼2 𝐷 + 𝜀𝑖
Dacă 𝐷 = 1 modelul devine 𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛼0 + 𝛼1 𝐸𝑑𝑢𝑐 + 𝛼2 + 𝜀𝑖 = (𝛼0 + 𝛼2 ) + 𝛼1 𝐸𝑑𝑢𝑐 + 𝜀𝑖
Dacă 𝐷 = 0 modelul devine 𝑆𝑎𝑙𝑎𝑟𝑖𝑢 = 𝛼0 + 𝛼1 𝐸𝑑𝑢𝑐 + 𝜀𝑖 (grupul de bază – genul Feminin)
𝛼̂0 arată termenul liber pentru grupul de bază (de comparaţie), pentru 𝐷 = 0, deci pentru Femei.
d) Modele cu interacţiune:
O interacţiune apare dacă efectul unei variabile independente asupra variabilei dependente se modifică în acord
cu valoarea unei alte variabile independente.
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝛽2 𝐷 + 𝛽3 𝑋 ⋅ 𝐷 + 𝜀
Pentru 𝐷 = 0 modelul devine 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
6
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
Pentru 𝐷 = 1 modelul devine 𝑌 = (𝛽0 + 𝛽2 ) + (𝛽1 + 𝛽3 )𝑋 + 𝜀
Ultima ecuaţie arată că
• variabila D permite să avem parametrii de interceptare diferiţi
• termenul de interacţiune dintre D şi X permite să avem coeficienţii pantă diferiţi.
Creşterea în Salariu, pentru o creştere în Experienta prof. cu 1 an, este aceeaşi indiferent de genul
persoanei angajate.
𝑆𝑎𝑙𝑖 = 199,60 + 12,13𝐸𝑥𝑝𝑒𝑟𝑖 + 229,35𝐷1
𝛽̂0= 199,60 este Salariul mediu al unei femei fără Experienţă profesională.
𝛽̂1= 12,13 arată că, atunci când Exp. creşte cu 1 an Sal. lunar creşte cu 12,13 euro, în medie, indiferent
de genul persoanei angajate.
𝛽̂2= 229,35 arată diferenţa medie dintre salariul unui bărbat şi salariul unei femei, pentru acelaşi nivel
al Experienţei profesionale.
7
Analiza de regresie cu variabile independente calitative (Silvia Spătaru)
Creşterea în Salariu, pentru o creştere în Experienta prof. cu 1 an, este diferită pentru barbaţi şi
femei.
𝑆𝑎𝑙𝑖 = 335,49 + 2,19𝐸𝑥𝑝𝑒𝑟𝑖 + 17,41𝐷1 ∗ 𝐸𝑥𝑝𝑒𝑟𝑖
𝛽̂0= 335,49 este Salariul mediu al unui angajat indiferent de gen.
𝛽̂1= 2,19 arată că, atunci când Exp. creşte cu 1 an Sal. lunar al unei femei creşte în medie cu 2,19 euro.
𝛽̂2= 17,41 arată diferenţa estimată în creşterea salariului unui bărbat faţă de creşterea salariului unei
femei, când Exp. creşte cu 1 an. Înseamnă că, atunci când Exp. creşte cu 1 an Sal. lunar al unui bărbat
creşte în medie cu (2,19+17,41)=19,60 euro
Observaţie: Variabilele dummy se utilizează pentru considerarea variabilelor calitative, pentru analiza
sezonalităţii şi pentru corecţia valorilor anormale (aberante).
Observaţie. Există şi modele cu varibile dependente calitative. Dacă o varibilă dependentă este variabilă binară,
MCMMP nu este potrivită.
Modelele cu varaibilă dependentă binară sunt modele de tip Logit şi Probit.
8
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)
Pentru a se studia legătura dintre variabilele Y = preţul unei case (în mii euro),
X1 = suprafaţa casei (în mp) şi X2 = vechimea casei (în ani), folosim un număr de 23 observaţii
Datele de observaţie se găsesc în tabelul de mai jos:
SUMMARY OUTPUT
1
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)
2
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)
Deoarece Fcalc= 27,7347 iar Significance F (pragul de semnificație calculat, nu impus, al testului) este
0,0000017 (valoare mai mică de 0,05= nivelul de semnificație considerat sau impus al testului),
atunci respingem H0 si acceptăm H1, adică modelul de regresie construit este valid statistic, pentru o
probabilitate maximă de (100 − 0,0000017100)% = 99,99983% 95% , și poate fi utilizat pentru
analiza dependenței dintre variabilele precizate.
𝛽̂1 = 𝑏1 = 0,1732 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când Suprafaţa casei (X1) creşte cu 1 mp (o unitate), preţul casei creşte, în medie, cu
0,1732 mii euro.
𝛽̂2 = 𝑏2 = −0,7713 este coeficient pantă şi arată că, în perioada analizată, menţinând celelalte variabile
constante, atunci când vechimea casei (X2) creşte cu un an, preţul casei scade, în medie, cu 0,7714 mii
euro.
𝛽̂0 = 𝑏0 = 59,0848 este parametru de interceptare şi arată că, dacă cele două variabile explicative, X1
şi X2 au valoarea 0, valoarea medie a preţului casei este estimată la 59,0848 mii euro.
3
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)
𝑏2 −0
Valoarea calculată a statisticii testului este 𝑡𝑏2 = = −3,2385.
𝑠𝑏2
Deoarece pragul de semnificație calculat (nu impus) al testului, P-value, este 0,004118 < 0,05= ,
înseamnă că acest coeficient (𝛽2) este semnificativ (pentru o probabilitate maximă de
(100 − 0,004118100)% = 99,5882% 95% ).
Intervalul [−1,2681; −0,2745] acoperă valoarea reală a parametrului 𝛽2 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci putem spune că „𝛽2 este semnificativ diferit de zero”
4
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)
6547,1749
DW = 𝑑𝑐𝑎𝑙𝑐 = = 2.0971
3121,994
Deoarece 𝐷𝑊 = 2,0971 𝐷𝑊 ∈ 𝑟𝑒𝑔3 Nu există Autocorelare (de ordin 1).
Introducem apoi nr.de observaţii (23). Opţional se poate acorda un nume fişierului creat. OK.
6
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)
7
Ex5: Regresie liniară multiplă − cu Verificare ipoteze (Silvia Spătaru)
• Dacă Probabilităţile asociate statisticilor calculate sunt mai mari decât nivelul de semnificaţie ales,
acceptăm 𝐻0 ⇒ erorile aleatoare sunt homoscedastice.
• Dacă Probabilităţile asociate statisticilor calculate sunt mai mici decât nivelul de semnificaţie ales,
respingem 𝐻0 şi acceptăm 𝐻1 ⇒ erorile aleatoare sunt heteroscedastice.
F-statistic = 1,8954 iar Obs*R-squared = 8,2326
Observăm că Prob. (F-statistic) = 0,1481 iar Prob. (Chi-Square statistic) = 0,1439.
Deoarece probabilitatile P-value > 0,05 acceptăm H0 erorile aleatoare sunt homoscedastice.
Interpretarea rezultatelor:
Statistica Jarque-Bera = 0,058940
Probability(JB) = 0,970960
Deoarece Probabilitatea asociată statisticii JB este 0,97 > 0,05 acceptăm H0.
Reziduurile au distribuţie normală.
8
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)
Exemple de modele neliniare în variabilele iniţiale, care pot fi transformate în modele liniare
Variabilelor economice, evoluează după traiectorii liniare sau neliniare. În general, teoria economică
nu precizează forma funcţiei care trebuie să definească modelul de regresie.
Modelul liniar: 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Coeficientul 𝜷𝟏 arată că, atunci când X creşte cu o unitate, Y se modifică, în medie, cu 𝜷𝟏 unităţi.
Forma funcţională liniară este preferată:
• pentru simplitatea estimării
• pentru simplitatea interpretării coeficienţilor.
Dezavantajul utilizării unei forme funcţionale liniare este că nu este potrivit pentru relaţiile economice
neliniare.
Exemple de modele neliniare în variabilele iniţiale, care pot fi transformate în modele liniare.
Interpretarea parametrilor.
1) Modelul log-log sau cu elasticitate constantă are forma:
1
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)
𝑙𝑛 𝑦𝑖 = 𝛽0 + 𝛽1 𝑙𝑛 𝑥𝑖 + 𝜀𝑖
𝑑 𝑙𝑛 𝑌 dY/Y
𝛽1 = 𝑑 𝑙𝑛 𝑋 = dX/X= elasticitatea lui Y în raport cu X
Interpretarea coeficientul pantă 1, din modelul log-log:
Atunci când X creşte cu un procent, ne aşteptăm ca Y să crească sau să scadă, în medie, cu 1
procente, menţinând celelalte condiţii nemodificate (caeteris paribus).
Deoarece funcţia de regresie pentru modelul log-log este o dreaptă, panta sa este constantă.
Deoarece coeficientul pantă = coeficientul de elasticitate, pentru modelul log-log, elasticitatea este
constantă. Nu are importanţă pentru ce valori ale lui X este calculată această elasticitate.
Modelul log-log estimat pentru modelul Cerere_Preţ a condus la următoarele rezultate:
ln yi = 3,9617 – 0,2272 𝑙𝑛 𝑥𝑖 𝑅 2 = 0,9116
𝑠𝑒 = (0,04158) (0,0250)
𝑡 = (95,2605) (-9,0821)
Coeficientul 𝛽̂1 = −0,2272 este elasticitatea cererii in raport cu preţul şi arată că, atunci când
preţul albumului creşte cu un procent, în medie, cantitatea cerută va scădea cu 0,2272 procente.
𝛽̂0 = 3,9617 înseamnă: valoarea medie a lui lny este 3,96 dacă lnx = 0. Avem 𝑒 3,9617 =52,5466.
(Deoarece lny=3,9617 când lnx=0, dacă luăm antilogaritmul acestui nr. obţinem 52,5466. Astfel
cantitatea cerută medie este de ≈53 unităţi. Pentru modelul liniar am obţinut 49,667, deci ≈50 unităţi.)
𝑅 2 = 0,9116. Aproximativ 91% din variaţia variabilei dependente (lny) este explicată prin variaţia
variabilei explicative (lnx).
Cei doi coeficienţi sunt semnificativi statistic. Valorile calculate ale statisticii t sunt mai mari decât
valoarea critică 2,306 pentru df=8 şi nivelul de semnificaţie 5%.
Putem alege între modelul liniar şi modelul log-log pe baza coeficientului de determinaţie?
În modelul liniar am obţinut 𝑅 2 = 0,9757
În modelul log-log am obţinut 𝑅 2 = 0,9116
Nu putem compara valorile 𝑹𝟐 ale celor două modele, deoarece variabila dependentă nu este în
aceeaşi formă. În modelul liniar, 𝑅 2 măsoară proporţia din variaţia variabilei dependente Y, explicată
prin variabila independentă X. În modelul log-log, 𝑅 2 măsoară proporţia din variaţia variabilei lnY,
explicată prin variaţia variabilei lnX.
Exemplu: Considerăm Y = Salariul lunar al angajaţilor unei firme; X = Vânzările lunare ale firmei.
ln yi = 5,26 + 0,3156 ln xi
2
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)
̂ 𝟏 =0,3156 este elasticitatea lui Y în raport cu X si arată că, în
Interpretare: Coeficientul pantă 𝜷
perioada studiată, atunci când Vânzările cresc cu un procent, în medie, Salariul angajaţilor creşte
cu 0,3156 procente, menţinând celelalte condiţii nemodificate.
2) Modelul lin-log are forma: 𝑦𝑖 = 𝛽0 + 𝛽1 𝑙𝑛 𝑥𝑖 + 𝜀𝑖 .
𝑑𝑌 dY
𝛽1 = 𝑑 𝑙𝑛 𝑋 = dX/X.
Interpretarea coeficientului pantă din modelul lin-log:
Atunci când X creşte cu un procent, Y creşte sau scade, în medie, cu 𝜷𝟏 /𝟏𝟎𝟎 unităţi
(𝟎, 𝟎𝟏𝜷𝟏 unităţi), menţinând celelalte condiţii nemodificate.
Exemplu: Rezultatele estimării unui model lin-log în care Y=PNB iar X=Oferta de bani (în miliarde
lei), în perioada 2000-2015, sunt:
𝑦̂𝑡 = 21,43 + 341,40 × 𝑙𝑛 𝑥𝑡
̂ 𝟏 =341,4 arată că, în perioada analizată (2000-2015), o creştere în
Interpretare: Coeficientul pantă 𝜷
Oferta de bani cu un procent a fost urmată, în medie, de o creştere în PNB de aproximativ 3,414
miliarde lei, menţinând celelalte condiţii nemodificate.
Modelul cu creştere constantă este mai util când X este timpul (T).
Modelul iniţial este 𝑦𝑖 = 𝑒 𝛽0+𝛽1𝑡+𝜀𝑖 . Prin logaritmare devine 𝑙𝑛 𝑦𝑖 = 𝛽0 + 𝛽1 𝑡 + 𝜀𝑖 .
Modelul log-lin este util pentru a determina rata de creştere a unei variabile economice precum PIB,
oferta de bani, forţa de muncă sau productivitatea. Modelul poate descrie rata de creştere (dacă𝛽1 > 0)
sau de descreştere (dacă𝛽1 < 0).
Ex: 𝑙𝑛 𝑃 𝐼𝐵𝑡 = 𝛽0 + 𝛽1 𝑡 + 𝜀𝑖
Dacă modelul estimat este 𝑙𝑛 ̂𝑃 𝐼𝐵𝑡 = 5,2 + 0,065𝑡
̂
𝑒 𝛽0 = 𝑒 5,2 =181,2722 mld euro estimează PIB-ul la momentul t=0
̂ 𝟏 =0,065 estimează că rata anuală de creştere a PIB-ului este de aprox. 6,5 procente.
𝜷
Important: Putem compara două sau mai multe modele de regresie, cu scopul de a-l alege pe cel care
aproximează cel mai bine datele de observaţie, numai dacă variabila dependentă este în aceeaşi
formă.
3
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)
Coeficientul pantă 𝛽̂1 = 7,42 arată că, în perioada analizată (2000-2015), la o creştere a inversei ratei
şomajului (1/xt) cu o unitate, salariul real creşte, în medie, cu 7,42 p.p. (puncte procentuale), menţinând
celelalte condiţii nemodificate. 𝛽̂0 = 5,43 arată că, atunci când rata şomajului tinde la infinit, creşterea
în salarii nu va fi mai mare de 5,43% pe an.
4
Modele neliniare în variabilele iniţiale, liniarizabile (Silvia Spătaru)
Folosim testul Wald pentru a testa dacă restricţia coeficienţilor este validă.
Testarea restricţiilor liniare
Dorim să testăm restricţia 𝛽1 + 𝛽2 = 1 (asupra coeficienţilor pantă).
𝐻0 : 𝛽1 + 𝛽2 = 1 (restricţia este validă) (randamente constante la scală)
𝐻1 : 𝛽1 + 𝛽2 ≠ 1 (restricţia nu este validă).
În Eviews, pe meniul EQ01 selectăm View/Representations pentru a vedea coeficienţii ecuaţiei.
Testul Wald
Pe meniul EQ01 selectăm View/Coefficients Tests/Wald Test
În fereastra de dialog scriem restricţia de testat (Atenţie la componentele vectorului Constantelor!)
c(2)+c(3)=1
Probabilităţile statisticilor F şi Chi-square sunt < 0,05 ⇒ nu acceptăm H0 ⇒ Restricţia nu este validă.
⇒ În perioada studiată, economia a fost caracterizată prin randamente crescătoare la scală.