Sunteți pe pagina 1din 17

UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014

Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

Econometrie
Aplicație + ghid empirical paper
În cele ce urmează vă prezint un ghid pentru proiectele la econometrie (Empirical Paper).
De remarcat că munca voastră trebuie să se finalizeze cu două livrabile:
1. Lucrarea – redactată în Word, după planulși standard ele de expunere, redactare
și comunicare indicate mai jos, salvată cu numele Variabila Y vs variabila X.
2. Fișierul de lucru (Workfile Excel sau Eviews)
Atenție:
Nu se așteaptă nimeni la rezultate de cercetare științifică, ci la o abordare la nivelul
cunoștințelor predate la curs.
Data limită de transmitere a proiectelor: decembrie 2013 (se transmit la și de pe adresele
de e-mail ale universită ții ... @profesor.rau.ro. , precizați nume și prenume pentru
identificare; subiectul e-mailului va conține de asemenea nume, prenume, spec ializarea și
grupa).

Plan lucrare
Tema proiectului:
Exemplu “Analiza relației de legătură dintre veniturile realizate de o firmă şi taxele
plătite de către aceasta”
Autor: nume şi prenume, specializare, grupa

Rezumat: Pe câteva rânduri se va descrie contribuţia studentului la dezvoltarea temei şi


concluziile desprinse în urma elaborării şi validării modelului econometric construit.
(rezumatul se completează ultimul, după definitivarea analizei)
Exemplu Scopul lucrării de față este de a determina dacă și în ce proporție veniturile
(mii euro) realizate de o firmă pot fi considerate ca factor explicativ pentru taxele
plătite (mii euro) de către aceasta. Se știe că ecuaţia regresiei nu va stabili în nici un
caz relaţia de cauzalitate, ci numai modelul teoretic propus pentru a explica variaţia
variabilei studiate, care, în cazul nostru este nivelul taxelor plătite.
Pentru aceasta se probează pe unșantione de 2 0 de ani ipoteza conform căreia
veniturile medii anuale realizate de firmă (exprimate în mii euro) influențează direct
nivelul mediu anual al taxelor plătile (exprimate în mii euro). Totodată, se dorește a
se previziona pentru o probabilitate de 95% nivelul taxelor care trebuie plătite dacă
venitul total realizat de firmă atinge valoarea de 40 mii euro.
(La Rezumat revenim după ce am terminat lucrarea; la început nu știm exact la ce
eșantion ne vom stabili, pentru câte variabile explicative, câte modele...)
Cuvinte cheie: (maximum cincișase cuvinte reprezentati ve pentru subiect)
De exemplu: taxe, venit, model de regresie liniară, predicția taxelor

1
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

I. INTRODUCERE
I.1 Scopul studiului
De exemplu: Este cunoscut faptul că printre obiectivele unui manager se află
probleme legate de optimizarea planificării resurselor financiare. Managerul este
interesat să estimeze nivelul taxelor care se vor plăti dacă veniturile realizate de
firmă vor atinge o anumită valoare.
Lucrarea de față fundamentează un studiu empiric privind legătura dintre variabilele
venit și taxe, la nivelul înregistrărilor realizate de o firmă pe perioada anterioară de
20 de ani, cu scopul de a identifica, specifica și valida un model econometric pe baza
căruia managerul să poată predicționa nivelul taxelor de plătit.
I.2 Formularea întrebării de cercetare
De exemplu: Analiza econometrică din lucrarea de ță fa își propune să răspundă pe
baza analizei datelor empirice la întrebarea aflată sub cercetare „Care este influenţa
pe care o au veniturile realizate de firmă asupra nivelului taxelor de plată?”.
I.3 Formularea obiectivelor
De exemplu: Prin acest studiu econometric s-a urmărit:
1) determinarea relațiilor de legătură între variabila „taxe” ca variabilă dependentă și
variabila „venit” ca variabilă independentă/explicativă.
2) construirea unui model econometric liniar pentru a analiza în ce măsură acesta
poate răspunde la întrebarea de cercetare formulată.
3) validarea rezultatelor prin teste specifice pentru a vedea în ce măsură rapoartele
de tip „Output” răspund la întrebarea de cercetare formulată.
4) predicția variabilei dependente „taxe” în funcţie de variabila „venit” ca variabilă
independentă/explicativă.
5) explicarea efectului pe care îl are variabila independentă (explicativă) aleasă,
„venit”, asupra variabilei dependente (rezultative) studiate, respectiv „taxe”.
I.4 Rezultate așteptate
De exemplu: Ne așteptăm ca din concluziile desprinse pe baza analizei econometrice
a modelului specificat să se confirme ipoteza conform căreia nivelul taxelor de plătit
este explicat de o relație de legătură directă între acesta și variabila „venit” realizat.
I.5 Explicaţii despre organizarea lucrării
Câte secțiuni și ce se tratează în fiecare, foarte pe scurt.

II. ARGUMENTAŢIA ECONOMICĂ


(pentru a evidenția motivele alegerii acestui subiect/de ce ar putea interesa
studiul din lucrare)
De exemplu: Tema de ță fa referitoare la efectul veniturilor realizate asupra
impoziltelor și taxelor de plată ale unei firme este utilă pentru analiza economico-
financiară a firmei. În acest sens, pentru optimizarea planificării bugetare a

2
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

întreprinderii, managerul poate predicţiona pe baza modelului validat, nivelul


taxelor de plată pentru alte valori de venituri pe care planifică să le realizeze.
II.1 Scurtă recenzie pe aceeaşi temă 1 (literature review)
Cine ce și cum a mai abordat ceva a semănător? La ce concluzii au ajuns ei? Cum arătă
diversele modele asociate?
De exemplu, în cadrul teoriilor microeconomice se pot găsi studii ale
comportamentului economic al firmei care tratează problematica veniturilor vs
impozite și taxe.
Dacă tema aleasă este inspirată de articole recenzate, atunci se specifică acest lucru
(citare corectă a autorilorși an ului) și se face trimitere prin note de subsol la sursa
articolului (link). De asemenea se trece la bibliografie 2 articolul recenzat.
Se pot prezenta texte sau articole care tratează fie aceeaşi întrebare, fie aceeaşi relaţie de
dependenţă dintre variabile, sau chiar alţi factori de influenţă asupra variabilei
dependente propusă a fi studiată. Se va explica în acest fel intenţia studentului de a
verifica concluziile obţinute de el însuşi prin comparaţie cu rezultatelr recenzate.
Se va întocmi un sumar cu ceea ce studentul a lecturat din alte resurse 3 în demersul său
de a documenta ştiinţific întrebarea aleasă. (Un tabel care ține
con trei coloane: Au tori
[an]/Scopul cercetării-tema studiată/Rezultate-concluzii obținute).

II.2 Analiza critică și valorificare


Se pot relata diferite teorii economice întâlnite (teoria consumatorului, teoria producției,
alte teorii economice) dacă se pretează la tema aleasă, teorii pe care studentul le poate
aplica în constuirea modelului său.
Prin urmare, se va urmări valorificarea lucrărilor lecturate în propriul proiect, printr-o
analiză critică, fără a utiliza pasaje de la al
ți autori necitate corespunzător . Plagiatul este
interzis și pedepsit prin lege.
După o muncă de documentare în prealabil, chiar dacă tema aleasă/întrebarea de
cercetare este inspirată de articole recenzate, proiectul va fi realizat cu mijloace proprii,
datele proprii de observaţie și interpretări proprii ale rezultatelor.

III. METODOLOGIA CERCETĂRII


(pentru a descrie metoda de cercetare utilizată, selectarea variabilelor, descrierea lor,
colectarea seriilor de date care exprimă valorile observate ale variabilelor, sursele de
date)
III.1 Selectarea metodei de cercetare

1
Recenzia nu va depăşi o pagină.
2
Se va folosi stilul Chicago2 ca format standard de referinţe bibliografice; pentru citări se va folosi notaţia
nume [an]; De exemplu, „în lucrarea sa, asupra cursului valutar, Popescu [2006] susţine că …” Citarea
întreagă, cu titlul articolului, editură, etc. se va trece la referinţe bibliografice.
3
Sursele mass media nu sunt potrivite cu misiunea acestui proiect.

3
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

Analiză uni/multifactorială pentru date cross-sectional/serii de timp/panel (recomandare:


date cross section).
De exemplu: Metoda propusă în această lucrare pentru a răspunde întrebării aflate
sub cercetare este analiza unui model econometric unifactorial pentru date cross-
section (chiar dacă seriile de date sunt ținute
ob pentru o perioadă de 20 de ani,
ordinea istorică a lor este neimportantă, deci nu se consideră serii de timp).
III.2 Selectarea variabilelor
Se motivează alegerea variabilelor modelului (variabila dependentă aleasă pentru a fi
explicată și respectiv variabilele independente/explicative, alese pentru a explica). Se
denumesc variabilele modeluluiși abrevierile lor.
Exemplu: Din punct de vedere economic, ambele variabile, venit și taxe pot fi
considerate variabile de interes în calitate de variabile dependente. Aici ne punem
problema într-un singur sens: cum afectează veniturile realizate asupra variației
taxelor, la nivelul firmei.
Y – variabila dependentă: „Taxe” exprimată prin volumul mediu anual al tuturor
tipurilor de taxe de plătit, măsurată prin mii euro.
X – variabila independentă/explicativă: „Venituri” exprimată prin veniturile totale
anuale realizate de firmă, măsurată prin mii euro.
III.3 Descrierea variabilelor
Se definesc variabilele şi indicatorul statistic care le măsoară. Nu este cazul pentru tema
de față. Această secțiune este potrivită pentru teme macroeconomice. De exemplu,
indicatorul „rata deșomaj” exprimă numărul de persoane neangajate ca procent di n
populația aflată în câmpul muncii. Rata șomajului se calculează după formula:
[(numărul de persoane neangajate)/( numărul de persoane în câmpul muncii)] X 100.
Ca o sugestie, la portalul Eurostat, calea Eurostat> Statistics > Statistics by
theme>National accounts (including GDP) > Data > Main tables> poți găsi nu doar
indicatorul și datele gata de exportat în orice fel de fișier, inclusiv excel, dar poți găsi
și definiția acestuia și ce variabilă măsoară.
III.4 Colectarea seriilor de date
Ce fel de date s-ar putea folosi ca să exprime semnifica
ția variabilelor alese? (indicatori
economici existenți sau procente/ponderi calculate)
Este locul unde se oferă informaţii despre seriile de date utilizate. Se vor preciza
eventualele limitări, se va descrie procedeul de obţinere a datelor, precum şi de formare a
eşantionului. Se va menţiona momentul de timp (dacă datele sunt cross section) sau
perioada de timp (dacă sunt serii de timp), dacă cum este cazul.
Datele (valori observate ale variabilelor) sunt colectate în șantioane
e (selecții) din
colectivități generale (populații statistice). Astfel, într-o analiză pe date cross section,
fiecare dată observată poate fi realizarea unei variabile la un moment dat de timp, cum ar
fi „venitul personal”, „producția unei companii”, „vânzările unei firme dintr-un sector
economic”, „PIB-ul unei țări”.

4
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

Atenție: pentru date de tip cross section, datele colectate corespund aceluia și moment de
timp, iar pentru datele de tip serii de timp, datele sunt istorice, observate la diferite
intervale de timp/frecven ța lunar, trimestrial, anual, etc. Diferența esențială între cross
section și serii de timp este că datele de tip serii de timp au ordonare fixă în timp și sunt
indexate în ordinea derulării timpului.
III.5 Surse de date 1
Se descrie modul în care au fost selectate valorile observate din colectivitatea generală,
respectiv baze de date sau observate din sondaje asupra populaţiei cercetate.

Recomandare: Pentru seriile de date necesare lucrării la econometrie, aveți două


posibilități, la alegere:
i) selectarea seriilor de date dintr-o bază de date pentru care se indică sursa de (nume,
data și link). Sugerez pentru temele care se referă la date macro, utilizarea bazei de date a
Comisiei Europene EUROSTAT > Statistics > Statistics by theme
ii) generarea seriilor de date care să corespundă unei legături de dependen ță de tip liniar
y=a+bx+u utilizând instrumentul de analiză Generator de numere aleatoare (Random
Number Generation) din Data Analysis, astfel 2: Pentru setul de date corespunzătoare
variabilei y se generează valorile variabilei aleatoare u (numere independente aleatoare
derivate din distribuția normală și normată, de medie zero și abatere medie pătratică 1).
Acestea se adună cu valorile calculate pentru partea deterministă a modelului, pe baza
relației de dependență de tip liniar dorită a+bx, unde valorile variabilei x se aleg în
prealabil.
III.6 Prezentarea teoretică a analizei propuse
și definit
(Se va prezenta pe scurt modelul identificat, specificat - alegerea formei
funcţionale 3)
Răspunsul la întrebarea aflată sub cercetarea econometrică a datelor empirice trebuie să
se bazeze pe teoria economică şi pe date de observare. Înainte de redactarea lucrării se
vor încerca mai multe specificări ale modelului şi de asemenea mai multe serii de date
care exprimă variabilele alese.
Aici se vor povesti pe scurt diferitele încercări de identificare și specificare a funcţiei de
regresie pentru a putea face un comentariu asupra alegerii finale a modelului.

1
Exemple de surse de date: EUROSTAT http://epp.eurostat.ec.europa.eu/
http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/themes
OECD http://www.oecd.org ; http://stats.oecd.org/
Banca Mondială http://www.worldbank.org
Fondul Monetar Internaţional http://www.imf.org
BNR http://www.bnr.ro/Baza-de-date-interactiva-604.aspx
Institutul Naţional de Statistică www.insse.ro
Institutul de Economie Naţională www.ien.ro
UNdata http://data.un.org /
Free Economic, Demographic & Financial Data http://www.economy.com/freelunch/default.asp
2
Vezi imaginea de la anexa 1 la acest ghid.
3
Unele teorii sunt bine fundamentate economic, cum ar fi funcţia câstig pentru care se utilizează forme
functionale semilogaritmice.

5
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

Teoria economică este principalul ghid în orientarea alegerii variabilelor care sunt
relevante pentru întrebarea formulată 1. Teoria poate ajuta şi la verificarea autocorelării
sau heteroscedasticităţii ca parte a procesului de generare a datelor.
La definirea modelului şi identificarea sa, se va explica apariţia termenului rezidual prin
existența unor presupuse variabile neobservate în această etapă.Totodată aici se poate
încerca propunerea unui alt factor de influenţă, verificând mai multe variante de alegere.

IV. ANALIZA DATELOR


(Analiza pe baza datelor empirice 2 - este partea principală a lucrării )
IV.1 Se analizează seriile de date pentru toate variabilele observate
Se alcătuiește un tabel care să ofere sumarul statisticilor (Summary Statistics: max, min,
average, and SD values) pentru fiecare variabilă adusă în discuţie şi se interpretează
valorile calculate. Se folosesc facilităţile grafice pentru validarea/legitimarea
datelor/interpretarea datelor – outliers, missing data. Se reprezintă histogramele, mai ales
pentru distribuţiile asimetrice.
IV.2 Se detaliază etapele analizei
La fiecare etapă se urmăresc pas cu pas punctarea cu claritate a următoarelor aspecte:
- denumirea fiecăreia din etapele de analiză econometrică parcurse
- scopul fiecărei etape
- precizarea mijloacelor de realizare
- interpretarea rezultatelor
- concluziile desprinse

IV.2.1 Specificarea modelului econometric ce descrie legătura dintre cele două


variabile
Se va reprezenta grafic legătura dintre venit (x) și nivelul taxelor (y) pentru cele 20 de
perechi de date (xi,yi) 3 prin corelogramă sau diagrama norului de puncte:
240

200

160

120
Y

80

40

0
10 20 30 40 50 60 70 80

1
Pura intuiţie sau bunul simţ nu sunt motive suficiente pentru includerea sau excluderea variabilelor în
model
2
Datele și analiza vor fi disponibile într-un fişier Excel sau Eviews denumit identic cu wordul, pentru a
putea fi verificate.
3
Seriile de Date se găsesc în fi șierul Excel atașat, cu aceeași denumire.

6
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

Din grafic se poate observa că distribuţia punctelor (xi, yi) poate fi aproximată cu o
dreaptă, deci se poate presupune că modelul econometric care descrie legătura dintre cele
două variabile este un model liniar: y =E (Y | X ) =α + β x + ε , unde α , β – parametrii
modelului. Se observă că β > 0 (slope/panta dreptei) ceea ce confirmă ipoteza din teoria
economică asupra unei legături directe între cele două variabile: creșterea veniturilor
atrage creșterea taxelor de plătit.

IV.2.2 Estimarea parametrilor modelului

Pentru estimarea parametrilor modelului de regresie utilizăm metoda celor mai mici
pătrate.
Modelul de regresie este: yi =α + β xi + ε i , i =
1, 20 iar ecuaţia de regresie estimată este:
yˆ = aˆ + bx
i
ˆ
i

Metoda celor mai mici pătrate presupune minimizarea erorilor prin minimizarea sumei
pătratelor reziduurilor:
20 ⋅ aˆ + 733,1⋅ bˆ =
( )
1557,5
min ∑ ( yi − yˆ i ) ⇔ min ∑ yi − aˆ − bx
20 20 2
ˆ ⇔
2

i 
733,1 ⋅ aˆ + 31991,53 ⋅ bˆ =
=i 1 =i 1
68864
Atunci avem că:
n ∑ yi 20 1557,5
∑ xi ∑ xi yi 733,1 68864
= 2, 2997 , aˆ =y − b ⋅ x =−6, 4201
=bˆ =
ˆ
n ∑ xi 20 733,1
∑ xi ∑ xi
2
733,1 31991,53
aˆ = −6, 4201
Deci ˆ iar ecuaţia de regresie este: yˆ =
−6, 4201 + 2, 2997 x
b = 2, 2997
Interpretare: Panta dreptei (slope), respectiv coeficientul de regresie estimat punctual
b̂ =2,2997 sugerează că la fiecare 1000 euro înregistraţi ca venit pe an, taxele cresc în
medie cu 2,2997 euro.
Observație: Punctul de intercep ț ie (interception) â = - 6,4201 este punctul în care
dreapta de regresie intersecteaza axa Oy, acest lucru însemnand că atunci cand x = 0 (nu
există venit), taxa este de -6,4201 euro. Deoarece eșantionul nostru nu include ani cu 0
euro venit înregistrat, nu avem nici o bază pentru a-l interpreta pe â . Ca regulă generală,
nu putem determina valoarea lui ŷ pentru o valoare x care are o valoare mult prea
diferită de valorile din eș antion corespunzatoare lui x (intervalul în care ia valori seria de
date pentru x nu conține pe zero).
În partea superioară a tabelului 1, se pot verifica estimările punctuale pentru coeficienții
regresiei (în coloana coefficient, C este pentru estimatorul punctual intercept, iar X este
pentru estimatorul coeficientului de regresie, slope).

Tabel 1 Tabelul coeficienților din Summary output generat de Eviews


Dependent Variable: Y
Method: Least Squares
Sample: 1991 2010

7
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

Included observations: 20
Variable Coefficient Std. Error t-Statistic Prob.
C -6.420142 9.353375 -0.686398 0.5012
X 2.299690 0.233865 9.833395 0.0000
R-squared 0.843063 Mean dependent var 77.87500
Adjusted R-squared 0.834344 S.D. dependent var 41.11373
S.E. of regression 16.73363 Akaike info criterion 8.567358
Sum squared resid 5040.259 Schwarz criterion 8.666931
Log likelihood -83.67358 F-statistic 96.69566
Durbin-Watson stat 1.489529 Prob(F-statistic) 0.000000

Tabel 2 Tabelul coeficienților din Summary output generat de Excel


Coefficients Standard Error t Stat P-value Lower 90.0% Upper 90.0%
Intercept -6.420142 9.353374888 -0.6864 0.501209 -22.6394893 9.799204379
x(venit) 2.2996902 0.233865325 9.833395 1.16E-08 1.894152806 2.705227496

IV.2.3 Verificarea semnificaţiei parametrilor modelului de regresie pentru α = 0,1


Din teorie știm că parametrul â estimat pe baza selecției este o variabilă aleatoare care
urmează o distribuție normală cu media egală cu parametrul corespunzător pentru
populația statistică, respectiv α şi cu dispersia egală cu:
  n

21 x2
 ∑ xi2
,
saˆ =
2
se + = 2
se n i =1
n n 
 ∑ ( xi − x )2  ∑ ( xi − x )2
=  i 1=  i 1

Analog, parametrul b̂ estimat pe baza selecției este o variabilă aleatoare care urmează o
repartiţie normală cu media egală cu parametrul corespunzător pentru populația statistică,
n
∑ ( yi − yˆi )
2

respectiv β şi cu dispersia egală cu: sb=


2
se2 ⋅
1 unde se2 = i =1 este un
ˆ n n−2
∑ ( xi − x )
2

i =1

∑ ( yi − yˆi )
2

estimator nedeplasat al dispersiei reziduurilor σ ε . Prin= 2


urmare se =
i
16,73 ,
n−2
∑ xi
2
sε2
saˆ =
sε ⋅2 i =
=
9,35 ; sbˆ = 0, 23
∑ ( xi − x ) ( )
2 20 2
∑ xi − x
i i =1
Testăm semnificaţia parametrului α din modelul corespunzător colectivită ții statistice
pentru un prag de semnificație α = 0,1:
• se stabilesc ipoteza nulă: H0: α = 0 și ipoteza alternativă: H1: α ≠ 0
aˆ −6, 4201
• se calculează statistica testului t: tcalculat = = = −0, 68
saˆ 9,35

8
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

• se compară tcalculat cu valoarea critică tabelată pentru un test bilateral:


tα = t0,05;18 = 2,101
,n − 2
2
Deoarece tcalculat =0.68 < t0,05;18 =2,101 , iar probabilitatea p-value este 0.50 > 0,1 (mai
mare decât pragul de semnificație ales) înseamnă că acest coeficient este nesemnificativ
statistic, adică pentru un risc asumat de 10%, decidem că estimatorul â provine dintr-o
colectivitate cu α = 0, deci α nu este semnificativ diferit de zero.

Analog testăm semnificaţia parametrului β :


• se stabilesc ipoteza nulă: H0: β = 0 și ipoteza alternativă: H1: β ≠ 0
bˆ 2, 2997
• se calculează statistica testului t: tcalculat
= = = 9,83
sbˆ 0, 23
• se compară tcalculat cu tα = t0,05;18 = 2,101
,n − 2
2
Deoarece tcalculat > t0,05;18 iar probabilitatea p-value este 1.16E-08<0,05 înseamnă că
coeficientul de regresie este semnificativ statistic, adică pentru un risc asumat de 10%,
putem decide că estimatorul b̂ provine dintr-o colectivitate cu parametrul β
semnificativ diferit de zero.
Intervalul de încredere pentru parametrul β este:
bˆ − t ⋅ s ≤ β ≤ bˆ + t
α /2;n − 2 bˆ
⋅ s , adică
α /2;n − 2 bˆ
2, 299 − 2,101 ⋅ 0, 23 ≤ β ≤ 2, 299 + 2,101 ⋅ 0, 23 ⇔ 1,816 ≤ β ≤ 2, 782

IV.2.4 Verificarea ipotezelor metodei celor mai mici pătrate


Pentru verificarea ipotezelor de fundamentare a metodei celor mai mici patrate se vor
folosi mai multe procedee şi teste de diagnostic.
Ipoteza 1. Variabilele observate nu sunt afectate de erori de măsurare
Această ipoteză se verifică cu “regula celor 3 σ ”: x ∈ ( x ± 3σ x ) şi y ∈ ( y ± 3σ y ) .
Se utilizează datele de selecție (xi,yi) pentru verificarea următoarelor relaţii:
 x − 3sx < xi < x + 3sx

 y − 3s y < yi < y + 3s y
Unde mediile și dispersiile de selecție se calculează cu formulee cunoscute:
n
∑ ( xi − x )
n 20 2
∑ xi ∑ xi 733,1 5119, 74
=x = =
=i 1 =i 1
= 36,
= 655 ; sx i =1
= = 16, 4152
n 20 20 n −1 19
n
∑ ( yi − y )
20 2
∑ yi 32116, 44
1557,5 i =1
=y i ==
1
=
= 77,875 ; sy = = 41,11373
20 20 n −1 19
Atunci avem că:
36, 655 − 3 ⋅16, 4152 < xi < 36, 655 + 3 ⋅16, 4152 ⇔ −12,5906 < xi < 85,900 (adevărat)
77,875 − 3 ⋅ 41,11373 < yi < 77,875 + 3 ⋅ 41,11373 ⇔ −45, 466 < yi < 201, 216 (adevărat)

9
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

şi deci ipoteza poate fi acceptată fără nici un dubiu.


Ipoteza 2. Valorile variabilei aleatoare eroare (disturbanţă) sunt normal distribuite, mai
exact legea de probabilitate a variabilei eroare ε t este legea normală, de medie nulă şi
abatere medie patratică σ ε , adica: ε t 
p
→ N (0, σ ε ) .
Ipoteza normalităţii erorilor implică faptul că metoda celor mai mici pătrate este o
metodă de estimare optimală, fiind atât consistentă cât şi eficientă, adică echivalentă
metodei verosimilităţii maxime.
Ipoteza normalităţii erorilor se testează prin compararea momentelor statistice din
eşantion (asimetria și boltirea) cu momentele teoretice ale erorilor în ipoteza nulă a
normalităţii.
8
Series: RESID
7 Sample 2001 2020
Observations 20
6
Mean -2.56E-14
5 Median 0.975255
Maximum 33.94338
4
Minimum -29.46963
3 Std. Dev. 16.28732
Skewness 0.213892
2 Kurtosis 2.489201

1 Jarque-Bera 0.369928
Probability 0.831134
0
-30 -20 -10 0 10 20 30 40

S - coeficientul de asimetrie (skewness) măsoară simetria distribuţiei în jurul mediei sale.


E 2 ( X − m ) 
3

Momentul teoretic este S =   ~ N  0, 6  , unde m = E ( X ) , iar în


 
(σ 2 ( X ) )
3
 n 
2
 n 
 ∑ ( ei − e ) n 
3

eșantionul pentru reziduuri S =  i =1  =0,21 (curba distribuției rezidurilor are


3
 n 
 ∑ ( ei − e ) n 
2

 i =1 
0, 21 − 0
o coadă mai „voluminoasă” la dreapta). Statistica testului τS = =0,383 <
6
20
zα /2 =1,645 pentru un test bilateral, de unde rezultă că ipoteza nulă H0 : S=0 este
acceptată la un prag de semnificație de 10% și deci distribuția variabiei aleatoare eroare
este simetrică.
K - coeficientul de aplatizare (kurtosis) măsoară boltirea distributiei, cât de aplatizată sau
ascuţită este distribţia faţă de distribuţia normală.

10
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

 E ( X − m) 4 
  24 
Momentul teoretic este K = ~ N  3,  , unde m = E ( X ) iar în
( )
2
σ 2
( X )  n 
n
∑ ( ei − e )
4
n
i =1
eșantionul pentru reziduuri K= 2
ției
=2,48 < 3 (curba distribu
 n 
 ∑ ( ei − e ) n 
2

 i =1 
0, 48 − 3
reziduurilor este platikurtică). Statistica testului τK = = -0,47 și cum
24
20
τK <1,645 pentru un test bilateral, rezultă că ipoteza nulă H0 : K = 3 este acceptată la un
prag de semnificatie de 10% ceea ce înseamnă că aplatizarea curbei de distribu ție a
erorilor coincide cu cea pentru distribuț ia normală.
Cumulat, cele două teste pentru verificarea simetriei și apla tizării conduc la acceptarea
ipotezei de normalitate a erorilor.
În locul celor două teste anterioare pentru verificarea ipotezei de normalitate a erorilor se
poate folosi un singur test, numit Jarque-Bera.
Statistica Jarque-Bera (JB) este dată de suma pătratelor statisticilor anterioare, care
devine o variabilă distribuită după legea hi-pătrat: JB= τ S2 + τ K2  χα2 ,2
 n   n 
2 2

( K − 3) = n  S 2 + ( K − 3)  = 0,369928
1 1
JB=  S  + 
2

 6   24  6 24 
Cele două ipoteze ale testului JB:
H0: ε ~ N (0,1) (JB = 0 i.e. S = 0 şi K = 3)
H1: ε nu urmeaza o repartitie N (0,1) ( JB ≠ 0)
Regula de decizie:
• Daca JBcalculat > χα2 ;2 atunci ipoteza nulă H0 de normalitate este respinsă la un prag
de semnificaţie de ( α ⋅ 100 )%.
• Daca p-value < α , atunci respingem ipoteza nula H0 de normalitate a rezidurilor
la un prag de semnificaţie de ( α ⋅ 100 )%.
Cum statistica test Jarque-Bera = 0,369928 < χ 0,1;2 2
=4,605 pentru testul unilateral
dreapta iar p-value = 0,831134 > 0,6, atunci ipoteza nulă H0 de normalitate a erorilor este
acceptată la un prag de semnificaţie de 10%.

Ipoteza 3. Variabila aleatoare eroare ε este de medie nulă E (ε ) = 0 şi aceeaşi dispersie


constantă σ pentru toate valorile lui x (ipoteza de homoscedasticitate).
2

Depistarea heteroscedasticităţii (dispersia lui ε nu este aceeaşi pentru toate valorile lui x)
se poate face prin procedeul grafic, adică se construieşte corelograma ce conţine valorile
variabilei independente x pe axa OX şi ale variabilei reziduale ε pe axa OY. Dacă
valorile celor două variabile cresc(scad) concomitent, atunci cele două variabile sunt
corelate şi deci nu sunt independente.

11
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

40

30

20

10
RESID
0

-10

-20

-30
10 20 30 40 50 60 70 80

Deoarece graficul punctelor prezintă o evoluţie oscilantă putem accepta ipoteza că


variabila factorială x şi cea reziduală sunt independente.

Ipoteza 4. Valorile variabilei reziduale sunt necorelate, adică nu exista fenomenul de


autocorelare a erorilor : Cov(et, ek) = 0, ∀t ,= k 1, n , t < k , i.e. sunt independente între
ele.
Verificarea acestei ipoteze se poate face prin:
• metoda grafică (corelograma);
• testul Durbin-Warson.
Pentru a testa autocorelarea prin metoda grafică se construieşte corelograma trecându-se
pe axa OX valorile variabilei rezultative yi, iar pe axa OY valorile variabilei reziduale și
se cercetează dacă există o relaţie între valorile curente ale erorilor estimate la momentul
t, et , şi valorile precedente et −1 , et −2 ,.... :
40

30

20

10
RESID

-10

-20

-30
0 40 80 120 160 200 240

Pe graficul din imagie se observă că distribuţia erorilor este oscilantă, deci putem accepta
ipoteza că erorile sunt independente, adică nu sunt autocorelate (seria reziduurilor nu
traverseaza axa timpului de prea multe ori sau de prea puţine ori).

Testul Durbin – Watson se foloseşte pentru a testa autocorelarea de prim ordin, adică se
ε t ρε t −1 + vt ,
testează doar dacă există o legătură dintre o eroare şi cea de dinaintea sa:=
unde vt ~ N (0, σ v2 )
Pentru testarea ipotezei de necorelare a erorilor cu ajutorul testului Durbin-Watson:

12
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

• se stabilesc ipoteza nulă H0: variabila reziduală nu este autocorelată H 0 : ρ = 0 și


ipoteza alternativă H1: variabila reziduală este autocorelată H 1 : ρ ≠ 0 .
• se calculează statistica test Durbin-Watson:
∑ (et − et −1 )
2
7508,87
dcalc = t >2 2
= = 1, 48
∑e t
5040, 26
t ≥1
• se compară d cu cele două valori dL şi dU din tabelul testului Durbin-Watson
pentru pragul de semnificaţie α = 0,05 pentru numărul variabilelor exogene k = 1
şi pentru n = 2 0 dL: = 1,20, dU = 1,41 şi cum
d 2 < d calc < 4 − d 2 ⇔ 1,41 < 1,48 < 2,59 ⇒ erorile sunt independente.
Tot pentru testarea ipotezei privind autocorelarea erorilor poate fi utilizat şi coeficientul
de autocorelaţie de ordinul I:
n
∑ et ⋅ et −1
709, 41
=r1 t ==
1
n
= 0,14
5040, 26
∑ et
2
t =1
-1, autocorelaţie strict negativă
 Deoarece r1=0,14 este apropiat de 0 putem aprecia că
ţă
r1 =  0, independen
+1, autocorelaţie strict pozitivă

valorile variabilei reziduale nu sunt autocorelate, adică sunt independente.

IV.2.5 Testarea validităţii modelului de regresie


și
• se stabilesc ipoteza nulă H0: modelul nu este valid ipoteza alternativă H1:
modelul este valid;
sx2 MSE 27076,18
• se calculează statistica test F: Fcalculat
= = 2
= = 96, 69
sε MSR 280, 01
20
∑ ( yˆi − y )
2

i =1 27076,18
unde =2
=
sx MSE = = 27076,18 .
k 1
20
∑ ( yi − yˆi )
2
5040.25
= = i =1
sε2 MSR = = 280.014
n − k −1 18
• se compară Fcalculat cu Fα; k; n-k-1 = F0,1; 1; 18 = 8,28 şi cum Fcalc = 96,69 > F0,1;1;18 și
pvalue (significance F)< α (tabel 1 și tabel 3) ⇒ se respinge ipoteza nulă şi se
acceptă alternativa, deci modelul este valid.

Tabel 3 Tabelul ANOVA din Summary output generat de Excel


df SS MS F Significance F
Regression 1 27076.17814 27076.18 96.69566 1.15588E-08
Residual 18 5040.259363 280.0144
Total 19 32116.4375

13
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

IV.2.6 Testarea intensității legăturii dintre cele două variabile și testarea


semnificaţiei indicatorilor utilizaţi

Intensitatea legăturii dintre cele două variabile se apreciază cu ajutorul:


1. coeficientului de corelaţie;
2. raportului de corelaţie (coeficientul de determinare).

1. Coeficientul de corelaţie:
n ∑ xi yi − ∑ xi ⋅ ∑ yi
=r = i i i
0,918
( )
n x2 − x  n y 2 − y 
( )
2 2

 ∑i i ∑ i  ∑ i
i
 i
∑ i 
i

Deoarece r = 0,918 → 1, apreciem că între cele două variabile există o legătură liniară,
directă, foarte puternică.
Testarea semnificaţiei coeficientului de corelaţie pentru colectivitatea generală:
• se stabilesc ipoteza nulă H0: ρ = 0 (ρ nu este semnificativ statistic)și ipoteza
alternativă H1: ρ ≠ 0 (ρ este semnificativ statistic), unde ρ - coeficientul de
corelaţie la nivelul colectivităţii generale
r n − 2 0,918 ⋅ 18
• se calculează statistica test t:=tcalculat = = 9,82
1− r2 1 − 0,9182
• se compară t calc cu t α;n −2 = t 0,1; 18 = 2,878 . Deoarece tcalculat > t0,1;18 ⇒ respingem
ipoteza nulă şi acceptăm alternativa, deci coeficientul de corelaţie este
semnificativ statistic.

2. Raportul de corelaţie R:

∑ (y i − ŷ i )2
5040,26
R = 1 − i =1 = 1− = 0,918
∑ (y i − y )
2 32116,44
i =1
Deoarece R = r, apreciem că între cele două variabile există o legătură liniară.
Coeficientul de determinare (a calităţii ajustării) R-squared (R2) este un indicator relativ
pentru măsurarea intensității legăturii dintre variabile şi deci cu cât punctele vor fi mai
apropiate de linia de regresie estimată cu atât va fi mai bună “potrivirea” (goodness of fit).
Cum coeficientul de determinare este R 2 = 0,84 , rezultă că intensitatea legăturii este mare,
respectiv că că 84,3% din variaţia taxelor este explicată de variaţia veniturilor înregistrate.
Testarea semnificaţiei raportului de corelaţie:
• se stabilesc ipoteza nulă H0: R nu este semnificativ statisticși ipoteza alternativă
H1: R este semnificativ statistic;
• se calculează statistica test F:
n − k −1 R2 18 0,9182
Fcalculat = ⋅ =⋅ = 94,5
k 1 − R 2 1 1 − 0,9182

14
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

• se compară Fcalc cu . Deoarece Fcalc > F0,1; 1; 18 = 8,28 ⇒ se respinge ipoteza nulă
şi se acceptă alternativa, deci raportul de corelaţie este semnificativ statistic.
Tabel 4 Tabelul Regression Statistics din Summary output generat de Excel
Regression Statistics
Multiple R 0.9181846
R Square 0.8430629
Adjusted R Square 0.8343442
Standard Error 16.733631
Observations 20

IV.2.7 Estimarea punctuală şi pe interval de încredere a taxelor care trebuie plătite


dacă venitul este de 40 mii euro, pentru o probabilitate de 95%.

Pentru estimarea punctuală vom avea ŷ n +1 = −6,4201 + 2,2997 ⋅ 40 = 85,5679 euro


Pentru estimarea pe interval de încredere vom avea:
yˆ n +1 − tα /2;n − k −1 ⋅ s yˆ n+1 ≤ yn +1 ≤ yˆ n +1 + tα /2;n − k −1 ⋅ s yˆ n+1
adică
85,5679 − t0,05;18 ⋅17,16 ≤ yn +1 ≤ 85,5679 + t0,05;18 ⋅17,16
 
( )
2
 1 xn +1 − x   1 (40 − 36, 655) 2 
unde s 2yˆ n+= sε 1 + + n
2
=
 280, 01 1 + + = 294,59
( )
2
 n ∑ xi − x  20 5119, 75 
1

 i =1 
Deci intervalul de încredere pentru taxele plătite pentru un venit de 40 mii euro este:
41, 77 (euro) ≤ yn +1 ≤ 129,36 (euro) .
IV.3 Se scrie raportul de cercetare 1.
Calculele se verifică rulând unul din programele informatice specifice (Eviews/Excel).
Se prezintă şi se interpretează rezultatele (Summary Output) asistate de unul din
programele informatice.
Pentru Excel, accesați instrumentul de analizare a datelor „Analysis ToolPak”. Pentru
aceasta faceți clic pe Analiză date („Data Analysis”) din meniul Instrumente (Tools).
În cazul în care comanda Analiză date nu este disponibilă, este necesar să încărca ți
programul de completare Analysis ToolPak (Excel Options, Add-ins).
La sfârşitul părţii de analiză empirică a datelor se vor desprinde concluzii, chiar dacă
acestea nu coincid cu cele aşteptate. De exemplu, s-ar putea găsi că nu există nici o relaţie
de dependenţă între variabilele presupuse a fi într-o relaţie de dependență. Se va raporta
acest lucru care este destul de important pentru justificarea luării în considerare a unui alt
factor de influenţă pentru variabila studiată.

1
Eviews, Excel sau Minitab sunt unelte de lucru recomandate în acest proiect, unde facilităţile grafice şi de
calcul sunt relativ uşor de accesat. Calculele efectuate cu Eviews sau Excel vor fi disponibile într-un fişier
atașat pentru a putea fi urmărite și verificate. Pentru utilizarea software-ului Eviews, dacă se aplează
butonul Help din meniu, un ghid de utilizare Eviews este disponibil în format pdf.

15
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

Pentru un model valid, se va încerca adăugarea unui nou factor explicativ pentru a vedea
în ce măsură se îmbunătăţeşte similitudinea modelului prin trecere la un model
multifactorial.
V. CONCLUZII

V.1 Se furnizează propriile concluzii


Se reaminteşte subiectul, respectiv întrebarea analizată. Dacă este cazul, se reformulează
întrebarea de cercetare.
Se furnizează propriile concluzii şi răspunsul găsit la întrebare şi se compară cu
eventualele rezultate descrise de alte articole. Concluziile vor fi personale, rezultate din
calcule statistice şi testări, indiferent dacă acestea coincid sau nu cu răspunsurile întâlnite.
V.2 Atingerea obiectivelor
Se va urmări să se puncteze atingerea obiectivelor metodei econometrice din practica
economică: explicarea variaţiei fenomenului considerat ca efect datorat variaţiei
variabilei factor, estimarea valorilor probabile ale fenomenului studiat (simularea
acestuia) în funcţie de posibile valori pe care le poate lua factorul economic, prognoza
fenomenului în funcţie de valorile variabilei explicative, pe intervale de prognoză, etc.
V.3 Confirmarea rezultatelor
Se vor compara rezultatele obţinute cu cele din literatura consultată, dacă este cazul. Se
va răspunde dacă ele sprijină sau vin în contradicţie cu teoria economică.
Care dintre rezultatele obținute ar putea genera o mai mare confidenţă şi cum s-ar extinde
acestea la răspunsurile raportate în alte articolele similare?
V.4 Sugestii privind continuarea cercetărilor
Se va sugera o viitoare cercetare asupra subiectului dezvoltat, ca o continuare a acestui
demers.

VI. REFERINŢE BIBLIOGRAFICE

Exemplu de scriere
GREENWOOD, M. J. (1997): “Internal Migration in Developed Countries,” in Handbook of
Population and Family Economics, Vol. 1B, ed. by M. R. Rosenzweig and O. Stark. North
Holland.
KENNAN,J.,AND J. R. WALKER (2010): “Wages, Welfare Benefits and Migration,” Journal of
Econometrics, 156, 229–238.

ANEXE
Aici puteți pune calculele mai detaliate care conțin formule, sau tabelele (numerotate,
pentru a putea face trimitere la ele)

16
UNIVERSITATEA ROMÂNO-AMERICANĂ 2013-2014
Aplicație +Ghid proiecte analiză econometrie - Conf. univ. dr. Din Marilena Aura

Anexa 1

17

S-ar putea să vă placă și