Sunteți pe pagina 1din 190

EONOMETRIE

Prof.univ.dr.Liviu-Stelian BEGU
Departamentul de Statistica si Econometrie
Email:liviubegu@yahoo.co.uk
 Curs obligatoriu – an III; sem.I; R.E.I.
 Numar cursuri: 14
 Numar seminarii: 7

 Evaluare:
- test + prezenta: 40% (3pct.)
- examen final: 60% (7pct.)
PROIECT ECONOMETRIE AN III ZI, REI

Problema A.
Înregistrați pentru cel puțin 30 unitati, valorile specifice ale
unor caracteristici (X1, X2 si Y) intre care exista o legătura
logica. Datele prezentate sub forma tabelara fac parte din
lucrare. Se cer următoarele:
a) prezentarea problemei;
b) definirea modelului de regresie;
- forma, variabilele si parametrii modelului de regresie
-aproximarea grafica a modelului legăturii dintre variabile
PROIECT ECONOMETRIE AN III ZI, REI

c) estimarea parametrilor modelului;


- estimarea punctuala a parametrilor
- estimarea parametrilor prin interval de încredere
d) testarea semnificației corelației si a parametrilor modelului
de regresie;
- testarea semnificației corelației
- testarea parametrilor unui model de regresie
PROIECT ECONOMETRIE AN III ZI, REI

e) testarea ipotezelor clasice asupra modelului de regresie;


- ipoteze statistice clasice supra modelului de
regresie
- testarea liniarității modelului propus
- testarea normalității erorilor
- testarea ipotezei de homoscedasticitate
- testarea ipotezei de autocorelare a erorilor
f) previziunea valorii variabilei Y in ipoteza modificarii
variabilelor factoriale.
PROIECT ECONOMETRIE AN III ZI, REI

Problema B.
Sa se identifice o serie cronologica de cel puțin 16 înregistrări
privind evoluția unui fenomen economic (luna, trimestru,
semestru, an).
a) Sa se analizeze aceasta serie din punct de vedere al
componentelor sale si sa efectueze previziunea pentru
următoarele doua perioade
b) Sa se analizeze stationaritatea seriei.
STRUCTURA CURSULUI

1. Istoric. Definitii. Elemente conceptuale


2. Testarea ipotezelor statistice
3. Elemente de analiza dispersionala
4. Modelul de regresie liniară simplă
5. Modelul de regresie liniară multiplă
6. Modele de regresie neliniare
7. Modele cu variabile dummy
8. Modele cu ecuatii simultane
9. Modelarea seriilor de timp
ECONOMETRIE - definire

 provine din cuvintele greceşti: „eikonomia” - economie şi


„metron” - măsură.
 „experienţa a arătat că fiecare din următoarele 3 puncte de vedere,
al statisticii, al teoriei economice şi al matematicii este o condiţie
necesară, dar nu şi suficientă pentru o înţelegere efectivă a
relaţilor cantitative din economia modernă; unificarea lor este
aceea care asigură eficienţa. Econometria este tocmai această
unificare.” (R.Frisch, Econometrica)
 „o analiză cantitativă a fenomenelor economice actuale bazată pe
dezvoltarea teoriei şi a observaţiei în relaţie cu cea mai potrivită
metodă de inferenţă statistică” (1954, Samuelson, Koopmans şi Stone)
ECONOMETRIE - definire

 termenul econometrie a fost introdus în anul 1926 de către


economistul şi statisticianul norvegian R. Frisch prin analogie
cu termenul „biometrie” (cercetări biologice cu ajutorul statisticii şi
matematicii), utilizat de Galton şi Pearson.
 econometria este o disciplină care s-a conturat ca o sinteză între
economie, matematică şi statistică.
ISTORIC
 Şcoala Aritmeticii politice engleze începutul secolului al XVII-lea - englezul
W. Petty pune bazele “aritmeticii politice” prin care se foloseau sistematic fapte
şi cifre în elaborarea unor studii legate de populaţie, finanţe, comerţ exterior sau
impozitare.
 Laboratoarele biometrice engleze - sfârşitul sec. al XIX-lea şi începutul sec. al
XX-lea, în Anglia se desfăşurau activităţi de cercetare a legilor naturii şi a
geneticii umane. Reprezentanţi: F. Galton, K. Pearson, R.A: Fisher, F.Y.
Edgeworth.
 Societatea de econometrie la 29 decembrie 1930, la Cleveland (S.U.A.) a fost
întemeiată “Societatea de Econometrie”, instituţie care a creat şi promovat
termenul de “econometrie”.
 Dintre membrii societăţii, menţionăm cele mai importante figuri: Irving Fisher,
R. A. Fisher (matematician şi biolog, care a dezvoltat analiza dispersională),
Jan Timbergen (fizician olandez), R. Frisch (primul preşedinte al societăţii) ş.a.
Societatea de Econometrie a creat publicatia “Econometrica”. Primul numar a
aparut in 1933 avand ca editor sef pe Ragnar Frisch.
NOTIUNI FUNDAMENTALE
Econometria opereaza cu o serie de concepte, notiuni si termeni specifici:
 model econometric – modelul fiind o schema simplificata a realitatii cu rol in
explicarea realitatii, de regula, sub forma unor ecuatii sau sisteme de ecuatii.
 variabile statistice care pot fi: dependente, independente si reziduale.
 parametrii sunt marimi reale si necunoscute care apar in model sub forma
coeficientiilor de regresie. Parametrii fac obiectul procesului de estimare si
testare statistica.
 estimatorii sunt variabile aleatoare,construite in procesul de estimare
 ipoteze statistice sunt presupuneri cu privire la parametrii modelului
econometric.
 test statistic sau o statistica este o variabila aleatoare cu legi de repartitie
cunoscute si complet specificate. La finalul testului se ia o decizie, pe baza
unor reguli de decizie.
MODELUL ECONOMETRIC
 Modelul econometric: un model economic formulat astfel încât parametrii să
poată fi estimaţi dacă se face presupunerea că modelul este corect.
 Relaţiile statistice pe care se formulează modelul econometric:
 relaţii de identitate sau deterministe: sunt formulări logice cu privire la
procesul economic descris (exemplu: V=C + I );
 relaţii de comportament: au în vedere modificările tradiţiilor, atitudinilor,
înclinaţiilor (sub raportul satisfacţie/efort) (exemplu: C = a + bV );
 relaţii tehnologice: restricţiile impuse output-urilor în raport cu input-urile
(exemplu: funcţia Cobb Douglas: Q = IL1-, 01);
 relaţii instituţionale: conform unor reglementări impuse de lege
(exemplu:amortizarea, impozitul pe venit etc.).
MODELE ECONOMETRICE
Modelele econometrice pot fi clasificate dupa mai multe criterii:

 domeniul;
 natura;
 numarul variabilelor explicative;
 gradul de detaliere;
 forma functiei.
TIPOLOGIA MODELELOR ECONOMETRICE

1. după numărul factorilor luaţi în considerare


 modele unifactoriale: se fundamentează pe ipoteza că în rândul factorilor de
influenţă ai variabilei rezultative y există un factor determinant x, ceilalţi
factori cu excepţia acestuia având o influenţă întâmplătoare (exprimată prin
intermediul variabilei reziduale u) sau fiind invariabili în perioada analizată
y = f(x)+u
 modele multifactoriale: elimină deficienţa modelului unifactorial, însă trebuie
ca numărul factorilor luaţi în considerare să nu fie foarte mare pentru a nu fi
mult prea complex, dificil de estimat etc.
y = f(x1,x2,...,xp)+u
2. după forma legăturii dintre variabila rezultativă şi variabilele cauză
 modele liniare: dacă legătura este liniară
 modele neliniare: dacă legătura este neliniară
TIPOLOGIA MODELELOR ECONOMETRICE
3. după includerea factorului timp în model
 modele statice: dependenţa variabilei endogene y faţă de valorile variabilei
exogene xj se realizează în aceeaşi perioadă de timp:
y = f(x1t,...,xjt,...,xkt) + ut
 modele dinamice:
 introducerea variabilei timp ca o variabilă explicativă
y = f(xt,t) + ut
 autoregresive : variabila rezultativă cu valori decalate este una din variabilele
explicative
y = f(xt,yt-k) + ut
 model cu decalaj: variabila explicativă x îşi exercită influenţa asupra variaţiei
variabilei rezultative pe mai multe perioade de timp:
y = f(xt,xt-1,... xt-k) + ut
TIPOLOGIA MODELELOR ECONOMETRICE

4. Numărul de ecuaţii din model


 modele cu o singură ecuaţie: toate modelele prezentate anterior
 modele cu ecuaţii multiple: sunt formate dintr-un sistem de ecuaţii
 Forma structurală a unui model cu ecuaţii multiple este:
 Y1  b12Y2  ...  b1nYn  c11 X 1  c12 X 2  ...  c1m X m  U 1
b Y  Y  ...  b Y  c X  c X  ...  c X  U
 21 1 2 2n n 21 1 22 2 2m m 2

 
bn1Y1  bn 2Y2  ...  Yn  cn1 X 1  cn 2 X 2  ...  cnm X m  U n

Yi , i  1, n variabile rezultative sau endogene


X j , j  1, m variabile explicative sau exogene
VARIABILE SI DATE STATISTICE
 Variabilele economice determină structura modelului econometric:
 endogene: variabile determinate în cadrul sistemului;
 exogene: variabile determinate în afara sistemului, despre care modelul econometric nu are
nimic de spus.
 Tipuri de date: modalitatea de observare a fenomenelor şi proceselor
 date de tip profil
 "tăieturi informaţionale" efectuate într-o populaţie la un moment dat, "tăieturi" care
sunt de tip transversal, în raport cu axa timpului.
 starea pe care o au la un moment dat unităţile populaţiei statistice.
 date de tip serii de timp (serii cronologice)
 reprezintă "secţiuni informaţionale" de-a lungul axei timpului, de-a lungul evoluţiei;
adică sunt secţiuni longitudinale în raport cu axa timpului.
 date de tip panel
 sunt combinaţii, mixturi, ale datelor de tip profil şi datelor de tipul seriilor de timp.
 "tăieturi informaţionale mixte" transversale şi logitudinale, în raport cu axa timpului.
Caracteristica esenţială a acestor date este simultaneitatea.
Testarea ipotezelor statistice
Concepte
 Ipoteză statistică = se intelege “presupunerea” care se face cu
privire la parametrul unei repartitii sau a legii de repartitie pe care
o urmeaza anumite variabile aleatoare.
 Ipoteză nulă (H0) = este ipoteza care urmeaza a fi testata. Aceasta
presupune ca nu exista deosebiri esentiale sau ca eventualele
deosebiri au un caracter intamplator; constă întotdeauna în
admiterea caracterului întâmplător al deosebirilor.
 Ipoteză alternativă (H1) = reprezinta negarea ipotezei nule. Ea va
fi acceptată doar când există suficiente dovezi, evidenţe, pentru a
se stabili că este adevărată.
Concepte
 Testul statistic (criteriu de semnificatie) este procedeul de
verificare a unei ipoteze statistice, utilizat drept criteriu de
acceptare sau de respingere a ipotezei nule.
 Regiunea critică, Rc = valorile numerice ale testului statistic
pentru care ipoteza nulă va fi respinsă. In testul bilateral, regiunea
de respingere a ipotezi H0 corespunde unui interval, divizat in
doua subintervale, delimitate la un capat de o valoare critica (prag
critic) iar la celalalt capat de infinit:
(-∞; valoarea critica inferioara] si [valoarea critica superioara;+∞)

 este astfel aleasă încât probabilitatea ca ea să conţină testul statistic, când


ipoteza nulă este adevărată să fie α, cu α mic (α=0.01 etc).
Concepte
 dacă punctul definit de vectorul de sondaj
x1,x2,…,xn cade în regiunea critică Rc, ipoteza H0 se
respinge, iar dacă punctul cade în afara regiunii
critice Rc, ipoteza H0 se acceptă.
 regiunea critică este delimitată de valoarea critică,
C – punctul de tăietură în stabilirea acesteia.
Concepte
 Eroare de genul întâi = eroarea pe care o facem eliminând o
ipoteză nulă, deşi este adevărată.
 Riscul de genul întâi (α) = probabilitatea comiterii unei erori de
genul întâi. In practica α este cunoscut ca risc al vanzatorului.
 se numeşte nivel sau prag de semnificaţie.
 Nivelul de încredere al unui test statistic este (1-α) iar în
expresie procentuală, (1-α)100 reprezintă probabilitatea de
garantare a rezultatelor.
 Eroare de genul al doilea = eroarea pe cere o facem acceptând
o ipoteză nulă, deşi este falsă
 Probabilitatea (riscul) comiterii unei erori de genul al doilea este β.
Riscul β este cunoscut ca risc al cumparatorului.
 Puterea testului statistic este (1-β).
Concepte

 Tabelul de mai jos ilustreaza relatia dintre decizia luata referitoare la


ipoteza nula si adevarul sau falsitatea acestei ipoteze.

Decizia de Ipoteza adevărată


acceptare H0 H1
H0 Decizie corectă Eroare de gen II
(probabilitate 1-α) (risc β)
H1 Eroare de gen I Decizie corectă
(risc α) (probabilitate 1-β)
 α= P(respingere H0 ‫ ׀‬H0 este corectă)=P(eroare de gen I)
 β= P(acceptare H0 ‫ ׀‬H0 este falsă)=P(eroare de gen II)
Concepte

Legătura dintre probabilităţile α şi β


In testarea ipotezelor statistice se
disting doua tipuri de teste:

Testele parametrice
presupun cunoasterea distributiei populatiei (legii de distributie)
considerate. Cel mai cunoscut este testul Student (testul t). De
asemenea, acesta este utilizat pentru testarea valorii unui
coeficient de regresie, precum si a valorii coeficientului de
corelatie.
In testarea ipotezelor statistice se
disting doua tipuri de teste:
Testele neparametrice presupun testarea ipotezelor statistice
fara a cere specificarea formei parametrice a distributiei
populatiilor comparate:
- testul Wilcoxon (utilizat pentru a verifica, pe baza de sondaj,
daca exista diferente semnificative intre doua populatii),
- testul Mann-Whitney (utilizat pentru verificarea existentei
egalitatii dintre doua populatii),
- testul Kolmogorov-Smirnov (testeaza identitatea a doua functii
de repartitie), etc.
Concepte
 Se fac presupuneri despre populaţia sau populaţiile ce sunt
eşantionate (normalitate etc.).
 Se calculează apoi testul statistic şi se determină valoarea sa
numerică, pe baza datelor din eşantion.
 Se desprind concluziile: ipoteza nulă este fie acceptată, fie
respinsă, astfel:
 dacă valoarea numerică a testului statistic cade în regiunea critică (Rc),
respingem ipoteza nulă şi concluzionăm că ipoteza alternativă este
adevărată. Această decizie este incorectă doar în 100 α % din cazuri;
 dacă valoarea numerică a testului nu cade în regiunea critică (Rc), se
acceptă ipoteza nulă H0.
Concepte
 Ipoteza alternativă poate avea una din trei forme (pe care le vom
exemplifica pentru testarea egalităţii parametrului „media
colectivităţii generale“, μ cu valoarea μ0)
 test bilateral:
H0: μ = μ0
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0)
 test unilateral dreapta:
H0: μ = μ0
H1: μ > μ0
 test unilateral stânga:
H0: μ = μ0
H1: μ < μ0
Concepte

μ μ μ
a) b) c)

Regiunea critică pentru a) test bilateral; b) test unilateral stânga; c) test unilateral dreapta
Testarea ipotezei privind media
populaţiei generale (μ) pentru
eşantioane de volum mare
 Utilizarea eşantioanelor de volum mare (n > 30) face posibilă
aplicarea teoremei limită centrală.
 În cazul testului bilateral, ipotezele sunt:
H0: μ = μ0 (μ - μ0=0)
H1: μ ≠ μ0 (μ - μ0≠0) (adică μ < μ0 sau μ > μ0);
x  0 x  0 x  0
z  
x x n sx n

Rc: z< - z α/2 sau z> z α/2


Regula de decizie este, deci:
x  0
Respingem H0 dacă   z / 2
x n
x  0
sau  z / 2
x n
Testarea ipotezei privind media
populaţiei generale (μ) pentru
eşantioane de volum mare
 Pentru testul unilateral dreapta, ipotezele sunt:
H0: μ = μ0 (μ - μ0=0)
H1: μ > μ0 (μ - μ0>0);
Testul statistic calculat este:
x  0 x  0 x  0
z  
x  n s n
Regiunea critică este dată de:
Rc: z > zα
Regula de decizie este:
Respingem ipoteza H0 dacă x   0  z
 n
Testarea ipotezei privind media
populaţiei generale (μ) pentru
eşantioane de volum mare
 Pentru testul unilateral stânga, ipotezele sunt:
H0: μ = μ0 (μ - μ0=0)
H1: μ < μ0 (μ - μ0<0);
Testul statistic calculat este:
x  0 x  0 x  0
z  
x  n s n

Regiunea critică este dată de:


Rc: z < –zα
Regula de decizie este:
x  0
Respingem ipoteza H0 dacă  z 
 n
Testarea ipotezelor statistice (II)
TESTAREA IPOTEZEI PRIVIND MEDIA
POPULAŢIEI GENERALE (μ) PENTRU
EŞANTIOANE DE VOLUM REDUS
 Forma distribuţiei de eşantionare a mediei x depinde, de forma
populaţiei generale din care a fost extras eşantionul.
 Distribuţia de eşantionare a lui x va fi normală (sau aproximativ
normală), în cazul eşantioanelor de volum redus, doar dacă
colectivitatea generală este distribuită normal (sau aproximativ
normal).
 dispersia eşantionului ( s 2x ), poate să nu ofere o aproximare foarte
bună a lui  (în cazul eşantioanelor mici).
2
x

 În locul statisticii z care necesită cunoaşterea (sau o bună


aproximare) a lui  x , vom folosi statistica:
x  0 x  0
t 
sx sx n
unde:  x 
2
 x

i
s 2x
n 1
TESTAREA IPOTEZEI PRIVIND MEDIA
POPULAŢIEI GENERALE (μ) PENTRU
EŞANTIOANE DE VOLUM REDUS
 Ipotezele sunt:
 pentru test bilateral;
H0: μ = μ0,
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0);
 pentru test unilateral dreapta;
H 0 : μ = μ0 ,
H 1 : μ > μ0 ,
 pentru test unilateral stânga;
H0: μ = μ0,
H1: μ < μ0.
 Testul statistic utilizat:
x  0 x  0
t 
sx sx n
TESTAREA IPOTEZEI PRIVIND MEDIA
POPULAŢIEI GENERALE (μ) PENTRU
EŞANTIOANE DE VOLUM REDUS

 Presupunerea specială ce trebuie făcută este aceea că


populaţia generală este normal sau aproximativ normal
distribuită.

 Regiunea critică este dată de:


 t>t α/2,n-1 sau t < - t α/2,n-1

 t>t α,n-1

 t<-t α,n-1
Exemplu
Conducerea unei companii apelează la 5 experţi pentru
a previziona profitul companiei în anul curent. Valorile
previzionate sunt 2,6; 3,32; 1,80; 3,43; 2,00 (miliarde lei).
Ştiind că profitul în anul anterior profitul a fost de 2,01 miliarde
lei, se poate concluziona cu o probabilitate de 95% că media
previziunilor experţilor este semnificativ mai mare decât cifra
anului anterior ?
Rezolvare:
E1: H 0 : μ = μ0

H 1 : μ > μ0
E2: Se alege nivelul de încredere al testului statistic

(1   )  95%    0.05
E3:se stabileşte testul statistic utilizat drept criteriu de
acceptate sau respingere a ipotezei nule ( H0 ), în funcţie de
volumul eşantionului şi obiectivul urmărit
volum mic ( n  30 ) -> testul ”t”
 H1:μ>μ0 - testul unilateral dreapta
E4: se calculează valoarea numerică a testului
statistic pe baza datelor din eşantion
2,6  3,32  1,8  3,43  2
x  2,63
5

S 
2  i
( x  x ) 2


2,203
 0,5507 S x  S x2  0,74
n 1
x
4

x  0 x  0 2,63  2,01
t    1,874
sx sx n 0,74 5
E5Se determină astfel:
Rc : t  t ,n 1
t ,n 1  t0, 05; 4  2,132
Se caută în tabelul cu valorile repartiţiei Student în funcţie de
probabilitate P(t  t ) şi numărul gradelor de libertate (f=n-
1)
Nivel de semnificaţie pentru testul bilateral
n  0,50 0,20 0,10 0,05 0,02 ...
1 1,000 3,078 6,314 12,706 31,821 ...
... ... ... ... ... ... ...
4 0,741 1,533 2,132 2,776 3,747 ...
... ... ... ... ... ... ...
n  0,25 0,10 0,05 0,25 0,01 ...
Nivel de semnificaţie pentru testul unilateral
E6:Se verifică dacă valoarea testului cade în regiunea critică
şi se ia decizia
Cum t  1,874  t0, 05; 4  2,132
acceptăm ipoteza nulăH 0 şi respingemH1

 Rezultă că nu se poate trage concluzia că media profitului


previzionat pentru anul curent va fi semnificativ mai mare
decât profitul anului trecut (2,01 milioane lei)
TESTAREA IPOTEZEI PRIVIND
PROPORŢIA POPULAŢIEI PENTRU
EŞANTIOANE MARI
 Pentru variabile alternative, media în eşantion era notată
cu f (proporţia succeselor), dispersia f(1-f), iar abaterea
medie pătratică f (1  f ) .
 proporţia eşantionului (f) este aproximativ normal
distribuită, de medie p şi eroare standard p(1  p) / n , pentru
n mare (np  5 şi n(1  p)  5 ):
  f  p şi s f  p(1  p)  f (1  f )
n n

 Pentru testarea ipotezelor statistice privind proporţia este


necesar să lucrăm cu eşantioane mari (n>100).
 Cum proporţia f este aproximativ normal distribuită, rezultă
f  p
că variabila standardizată z  f (1  f ) / n este aproximativ
normal standardizat distribuită.
TESTAREA IPOTEZEI PRIVIND
PROPORŢIA POPULAŢIEI PENTRU
EŞANTIOANE MARI

 Ipoteza nulă indică faptul că p este egală cu o valoare


specificată: H 0 : p  p0
 În timp ce ipoteza alternativă răspunde la una dintre cele
trei întrebări:
 dacă proporţia este diferită de valoarea specificată (test bilateral):
H 1 : p  p0 ;
 dacă proporţia este mai mare decât valoarea specificată (test
unilateral dreapta): H 1 : p  p0 ;
 dacă proporţia este mai mică decât valoarea specificată (test
unilateral stânga): H 1 : p  p0 .
TESTAREA IPOTEZEI PRIVIND
PROPORŢIA POPULAŢIEI PENTRU
EŞANTIOANE MARI

 Testul statistic pentru proporţia p este:


f  p0 f  p0
z 
p(1  p / n) f (1  f ) / n
 Regiunea critică (Rc) este dată de:

z   z / 2 sau z  z / 2 pentru testul bilateral;


z  z pentru testul unilateral dreapta;
z   z pentru testul unilateral stânga.
TESTAREA IPOTEZEI PRIVIND
PROPORŢIA POPULAŢIEI PENTRU
EŞANTIOANE MARI

 Exemplu:
Managerul unui lnaţ de magazine consideră în urma unei analize financiare că - pentru un
nou produs - comercializarea este profitabilă, dacă procentul cumpărătorilor care ar dori să
achiziţioneze produsul este mai mare de 12%. El selectează 400 de cumpărători potenţiali
şi află că 52 dintre aceştia vor achiziţiona produsul. Pentru o probabilitate de 99% sunt
suficiente dovezi care să convingă managerul să comercializeze produsul?
Ipotezele sunt:
H 0 : p  0,12
H1 : p  0,12 test unilateral dreapta).
Testul statistic este:
f  0,12 0,14  0,12 0,02
z    1,15
f (1  f ) / n 0,14  0,86 / 400 0,017
Cum z   z 0.01  2,33 şi z  z ,rezultă că nu ne aflăm în regiunea critică (Rc), nu avem
suficiente dovezi să respingem ipoteza nulă, deci procentul nu este mai mare de 12%.
TESTAREA IPOTEZEI PRIVIND
DIFERENŢA DINTRE DOUĂ MEDII
PENTRU EŞANTIOANE DE VOLUM REDUS
 Se fac presupunerile:
 ambele colectivităţi generale din care s-au extras eşantioanele sunt
normal sau aproximativ normal distribuite;
 eşantioanele aleatoare sunt selectate independent unul de celălalt.
 În condiţiile în care presupunem că cele două colectivităţi
generale au dispersii egale (  =  =  ), un estimator al
2 2 2
x1 x2 x

dispersiei (variabilităţii) totale din cele două populaţii


combinate este:
 x    x 
n1 n2
2 2

i  x1 i  x2
s  2 i 1 i 1

n1  n 2  2
c

sau s 2

n 1  1s 2x1  n 2  1s 2x 2 n 1  1s 2x1  n 2  1s 2x 2

c
n 1  1  n 2  1 n1  n 2  2
TESTAREA IPOTEZEI PRIVIND
DIFERENŢA DINTRE DOUĂ MEDII
PENTRU EŞANTIOANE DE VOLUM REDUS
 Dacă dispersiile nu sunt egale (σx1 ≠ σx2), atunci testul sta-
tistic are forma:
(x 1  x 2 )  D
t 
s 12 s 22

n1 n2

cu gradele de libertate:
s 2
1/n1  s 22 /n2 
2

(s12 /n1 ) 2 (s 22 /n2 ) 2



n1  1 n2  1
TESTAREA IPOTEZEI PRIVIND
DIFERENŢA DINTRE DOUĂ MEDII
PENTRU EŞANTIOANE DE VOLUM REDUS

 Ipotezele statistice vor fi, în aceste condiţii:


 pentru test bilateral;
H0: μ1 = μ2 (μ1- μ2 = D),
H1: μ1 ≠ μ2 (μ1- μ2 ≠ D),
 pentru test unilateral dreapta;
H0: μ1 = μ2 (μ1- μ2 = D),
H1: μ1 > μ2 (μ1- μ2 > D),
 pentru test unilateral stânga;
H0: μ1 = μ2 (μ1- μ2 = D),
H1: μ1 < μ2 (μ1- μ2 < D).
TESTAREA IPOTEZEI PRIVIND
DIFERENŢA DINTRE DOUĂ MEDII
PENTRU EŞANTIOANE DE VOLUM REDUS

 Testul statistic t va avea forma:


t
x 1 
 x2  D

x 1 
 x2  D

n 1n 2 n 1  n 2  2
1 1  s 2x1 n 1  1  s 2x 2 n 2  1 n1  n 2
s   
2
c
 n1 n 2 
 Regiunea critică este dată de:

 pentru test bilateral: t  t / 2, n1  n2 2 sau t  t / 2, n1  n2  2 ;

 pentru test bilateral dreapta: t  t , n1  n2 2 ;

 pentru test bilateral stânga: t  t , n1  n2 2 .


TESTAREA IPOTEZEI PRIVIND
DIFERENŢA DINTRE DOUĂ MEDII
PENTRU EŞANTIOANE DE VOLUM REDUS
 Exemplu
Presupunem că dorim să testăm ipoteza conform căreia între două mărci de autoturisme
nu există diferenţe semni-ficative privind cheltuielile de funcţionare. Pentru aceasta 20 de
posesori de autoturisme (8 posesori ai primei mărci şi 12 posesori ai celei de-a doua) sunt
rugaţi să ţină, cu acurateţe, evidenţa cheltuielilor de funcţionare pe o perioadă de un an de
zile. Pentru α=0,1 (probabilitate de garantare a rezultatelor (1-α)100 = 90%) să se testeze
această ipoteză, dacă rezultatele prelucrării datelor în eşantioane sunt:
Marca 1 Marca 2
n1=8 n2=12
x 1  5,696 mil. lei x 2  5,273 mil. lei
sx1=0,485 mil. lei sx2=0,635 mil. Lei

s c2 
8  10,485 2  12  10,635 2
 0,3379
8  12  2
Ipotezele statistice sunt:
H0: μ1 = μ2 (μ1- μ2 = 0),
H1: μ1 ≠ μ2 (μ1- μ2 ≠ 0) [μ1> μ2 sau μ1< μ2].
TESTAREA IPOTEZEI PRIVIND
DIFERENŢA DINTRE DOUĂ MEDII
PENTRU EŞANTIOANE DE VOLUM REDUS

 Exemplu
Testul statistic este:

t
5,696  5,273  0  0,423
 1,5943
1 1  0,2653
0,3379  
 8 12 
Cum tα/2,n1+n2-2= t0,05;18 = 1,734, se observă că t < tα/2,n1+n2-2, aşadar nu ne aflăm în
regiunea critică.
Rezultă, deci, că nu există suficiente dovezi pentru a concluziona că sunt diferenţe
semnificative între cheltuielile de funcţionare ale celor două mărci de autoturisme.
ELEMENTE DE ANALIZĂ
DISPERSIONALĂ (ANOVA)
ELEMENTE DE ANALIZĂ
DISPERSIONALĂ (ANOVA)
 Analiza dispersională (analiză de varianţă) (ANOVA), a fost introdusă de
statisticianul Irving Fisher.

 Modelul de analiză dispersională îşi propune ca pentru fiecare nivel al


factorului/factorilor cauzali să analizeze populaţia distinctă asociată şi
eventualele diferenţe ce apar între populaţii: să studieze efectul
variabilei/variabilelor independente asupra celei dependente.

 Analiza dispersională se poate face după un model unifactorial, după


modele bi sau multifactoriale.
Analiză dispersională unifactorială

 În modelul de analiză dispersională unifactorială se testează ipoteza nulă:


H0: y1 = y2 = ... = yr,
 cu ipoteza alternativă cel puţin două medii din populaţie nu sunt egale:
H1 : yi  yj, (i  j)
 Dacă rezultatul testului indică faptul că mediile sunt semnificativ diferite,
se concluzionează că factorul X are un impact asupra variabilei Y.
 Setul de date pentru analiza dispersională unifactorială constă în valorile
variabilei Y pentru cele r grupe independente.
 Volumele grupelor pot fi diferite n1  n2  ...  nr
Analiză dispersională unifactorială

 Sistematizarea datelor pentru ANOVA

Grupe după factorul cauză

Gr. 1 Gr. 2 ... . Gr.r

y11 y21 … yr1


y12 y22 … yr2
. .
. .
y 1n 1
y 2n 2 ..... y rn r

Media y1 y2 ..... yr
Vol. grupă n1 n2 . . . .. nr
Analiză dispersională unifactorială
 Presupunerile sub care se aplică testul F în analiza dispersională
unifactorială:
 cele r grupe din eşantion sunt extrase aleator şi independent din cele r grupe
ale colectivităţii generale;
 fiecare grupă din colectivitatea generală are o distribuţie normală, iar abaterile
medii pătratice sunt egale s1 = s2 = ..... = sr.
 Testul statistic F pentru analiza dispersională unifactorială este raportul
indicatorilor de variabilitate pentru cele două surse de variaţie:
 variabilitatea dintre grupe
 variabilitatea din interiorul grupelor.
 Dacă ipoteza nulă este adevărată, mediile celor r populaţii ar trebui să fie,
toate, egale. Ne aşteptăm atunci ca mediile celor r eşantioane să fie
aproximativ egale.
 Dacă ipoteza alternativă este adevărată, există diferenţe mari între unele
medii ale eşantioanelor.
Analiză dispersională
unifactorială

a) b)
a) medii de grupă egale; b) mediile de grupă inegale
Analiză dispersională unifactorială
 pe baza datelor din eşantion calculăm:
ni

y
j 1
ij

yi  , i  1, r
ni
r ni r
 y
i 1 j 1
ij y n i i
y  i 1
n n
r
n   ni
i 1
Analiză dispersională unifactorială
 Varianţa dintre grupe, dată de influenţa factorului cauzal, numită şi
varianţa factorială, este suma pătratelor abaterilor mediilor de grupă de
la media generală:

 
r
S1   y i  y n i
2

i 1

 Dacă y1  y 2  ...  y r
 atunci: S1 = 0.
 varianţa din interiorul grupelor (varianţa reziduală), este suma
pătratelor abaterilor valorilor individuale de la mediile de grupă:
 
r ni

S2   y ij  y i
2

i 1 j1

 Împrăştierea totală a valorilor individuale faţă de media generală


S   y ij  y
n
(varianţa totală):
r 2 i

i 1 j1
Analiză dispersională unifactorială
 Raţionamentul analizei dispersionale se bazează pe partiţionarea sumei
pătratelor abaterilor:
 y  y    y  y  n   y 
r ni 2 r 2 r ni
2
ij i i ij  y i
i 1 j1 i 1 i 1 j1

 Pentru a face comparabile aceste măsuri ale variabilităţii, le vom pe fiecare


la gradele de libertate, => media pătratele raporta abaterilor.
 Pentru varianţa factorială S1, numărul gradelor de libertate este r-1;
măsurăm variabilitatea a r medii, se pierde un grad de libertate, deoarece
media totală a fost estimată.
 Pentru varianţa reziduală (din interiorul grupelor) S2, numărul gradelor de
libertate este n–r; măsurăm variabilitatea tuturor celor n valori, dar
pierdem r grade de libertate.
Analiză dispersională unifactorială

 Obţinem astfel:
 dispersia factorială corectată:

 y 
r 2
i  y ni
S
s12  1  i 1

r 1 r 1

 dispersia corectată reziduală:

 y 
r ni 2

ij  yi
S i 1 j1
s 22  2 
nr nr
Analiză dispersională unifactorială
 Statistica F pentru analiza dispersională unifactorială are forma:
s12 var iabilitate a dintre grupe
F 2 
s 2 variabilit atea din interiorul grupelor
cu gradele de libertate (r – 1) la numărător şi (n – r) la numitor.
 Regiunea critică este dată de :

F> F(r- 1),(n- r),,

 acest lucru indică diferenţe mai mari între mediile grupelor decât cele
datorate întâmplării.
Analiză dispersională unifactorială
 dacă valoarea F este mai mică decât valoarea critică Fα, atunci :
 acceptăm ipoteza nulă, H0;
 nu acceptăm ipoteza alternativă H1;
 mediile grupelor nu sunt semnificativ diferite una faţă de alta;
 diferenţele observate între mediile grupelor pot fi datorate doar întâmplării;
 rezultatul nu este semnificativ statistic.
 Dacă valoarea F este mai mare decât valoarea critică Fα, atunci:
 acceptăm ipoteza alternativă, H1;
 respingem ipoteza nulă, H0;
 mediile grupelor sunt semnificativ diferite una faţă de alta;
 diferenţele observate între mediile grupelor nu sunt datorate doar întâmplării;
 rezultatul este semnificativ statistic.
Analiză dispersională unifactorială
Calculul statisticii F
pentru analiza dispersională unifactorială
Sursa Gradele de Varianţa Dispersia corectată Statistica
variaţiei libertate (suma pătratelor) (media pătratelor) F

0 1 2 3 4

Factorul X r–1 S1 s12


s12
F
Reziduală n–r S2 s 22 s22
Totală n–1 –
S = S1 + S2
s2  s1  s2
2 2
Modelul de analiză dispersională
bifactorială
 se identifică doi factori de influenţă, iar variabilitatea caracteristicii
rezultative poate să fie pusă:
 pe seama influenţei primului factor (cu I niveluri);
 pe seama influenţei celui de-al doilea factor (cu J niveluri);
 pe seama interacţiunii celor doi factori;
 pe seama întâmplării (factorului rezidual).

 O valoare înregistrată pentru variabila efect Y, la grupa i ( ) ai primului


1, I
factor şi grupa j ( )j a1,celui
J de-al doilea factor este yijk, (cu k =
numărul
1, K de observaţii din fiecare celulă considerată pentru nivelul i al
primului factor şi nivelul j al celui de-al doilea factor).
Modelul de analiză dispersională
bifactorială
Analiza dispersională bifactorială
Varianţa Dispersia Statisica
Grade de
Sursa variaţiei corectată (media
libertate (suma pătratelor) F
pătratelor)
0 1 2 3 4

 
I S s 12
Primul factor I–1 S1  JK  x i..  x
2
s  1
2
F 2
I 1
1
i 1
s4

 IK  x  x
J 2 S2 s 22
Al doilea factor J–1 S2 . j. s 22  F 2
j1 J 1 s4

  s 32
I J
S 3  K  x ij.  x i..  x . j.  x
Interacţiunea
2 S3
s 
2
F 2
I  1J  1
(I-1)(J-1) 3
celor doi factori i 1 j 1
s4

  S4
I J K
S 4   x ijk  x ij. s 24 
2
Reziduală IJ(K-1)
i 1 j1 k 1 IJ K  1

 x 
I J K 2
Totală IJK–1 S ijk
x
i 1 j1 k 1
Modelul de analiză dispersională
bifactorială
 media celulei este:
K

x ijk

x ij .  k 1

K
 media grupei i ( i  1, I ) pentru primul factor este:
J K

 x
j1 k 1
ijk

x i.. 
JK
 media grupei j ( j  1, J ) pentru al doilea factor este:
I K

 x ijk

x . j.  i 1 k 1

IK
 media totală este:
I J K J

 x x
I

i 1 j1 k 1
ijk x i ..
j1
. j.

x  i 1

IJK I J
Concluzii

 modelele de analiză dispersională nu explică relaţia dintre variabile


 verifică doar măsura în care valorile reale ale unei caracteristici se abat de
la valorile teoretice, precum şi măsura în care aceste variaţii sunt sau nu
dependente de factorul/factorii de grupare.
 metoda analizei dispersionale poate fi utilizată atât înaintea, cât şi după
aplicarea metodelor corelaţiei şi regresiei statistice.
 Testul F se poate utiliza şi pentru testarea validităţii modelului de
regresie.
 în general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt niveluri ale
unei variabile categoriale (numite şi tratamente), dar, cum ceea ce este
valabil pentru o scală inferioară (nominală) este valabil şi pentru orice altă
scală superioară (ordinală, de intervale, de rapoarte), analiza se poate
extinde.
Exemplu
 Pentru regiunile României s-au cules şi sistematizat date privind rata ocupării (%). Folosind
analiza dispersională să se stabilească dacă există diferenţe semnificative între regiuni.
Regiunea Nr. Rata medie a ocupării Abaterea Dispersia
judeţe medie
(ni) xi pătratică (si) s 2 S 2  si2 (ni  1)
i
(%)
NE 6 47.77 4.89 23.91 119.55

SE 6 41.24 5.68 32.26 161.3

S 7 40.68 6.57 43.16 258.96

SV 5 41.9 3.31 10.96 43.84

V 4 42.71 6.18 38.19 114.57

NV 6 46.32 5.84 34.11 170.55

C 6 42.08 2.32 5.38 26.9

Buc 2 41.59 5.62 31.58 31.58

Total 42 43.16 5.41 = s 29.27 = s2   927.25


Exemplu
927.25
s  2
 27.27
42  8
2
S 2  927.25
S1  272.82 272.82
s12   38.97
8 1
S  29.27 * 41  1200.07
1200.07
s2   29.27
42  1

38.97
F  1.42
27.27
F0.05;7;34  2.40
F  F0.05;7;34  H 0
Modelul de regresie
clasic
Specificarea unui model de
regresie

 Un studiu econometric începe cu o serie de presupuneri


teoretice despre anumite aspecte ale economiei.
 Investigaţiile empirice furnizează estimatori pentru
parametri necunoscuţi ai modelului.
 Keynes: C=f(x)
 Suma cheltuită pentru consum depinde de:
 mărimea venitului pe de o parte
 alte obiective în funcţie de circumstanţe (de exemplu investiţiile)
 alte nevoi subiective
Specificarea unui model de
regresie
 Legea psihologică fundamentală: „o persoană este dispusă
de regulă şi în medie să îşi crească consumul pe măsura
creşterii venitului dar nu în aceeaşi măsură”
dC
0 1
dX
 Un nivel absolut mai mare al venitului va tinde de regulă să
mărească diferenţa între venit şi consum:
d (C / X )
0
dX
 Presupunerea cea mai simplă: C=+X, 0<<1 este o
relaţie deterministă neadecvată.
Specificarea unui model de
regresie
 În model trebuie inclus şi factorul aleator:
C=f(X,)
 Modelul cel mai simplu:
C=+X+
 Modelul general ce trebuie estimat are forma:
 yi = + xi + i, i=1,n
unde:
xi este nestochastic (situaţie experimentală)
 Analistul alege valorile regresiei xi şi apoi observă yi
Specificarea unui model de
regresie

 Valoarea parametrului  arată modificarea proporţională a


variabilei efect (Y) la modificarea cu o unitate a variabilei
cauză (X).
 Valoarea parametrului  arată punctul în care linia
interceptează (taie) axa OY
 i reprezintă componenta reziduală (eroarea aleatoare)
pentru fiecare unitate, adică partea din valoarea variabilei Y
care nu poate fi măsurată prin relaţia sistematică existentă
cu variabila X.
Specificarea unui model de
regresie

Modelul liniar unifactorial y=1+0,5x


Specificarea unui model de
regresie
 Modelul probabilistic conţine:
 componenta deterministică, adică partea din valoarea lui Yi care poate fi
determinată cunoscând valoarea Xi ( + Xi = Yi')
 componenta reziduală care nu poate fi determinată cunoscând valoarea
individuală Xi (i)
 Atunci,
 Yi =  + Xi + i

 Yi = componenta predictibilă (detrministică) + eroarea aleatoare

 Yi = Yi' + i
Specificarea unui model de
regresie
 Dacă datele disponibile provin dintr-un eşantion avem la
dispoziţie n perechi de observaţii (x1, y1), (x2,y2), ... (xn, yn),
pe care le vom folosi pentru estimarea parametrilor ecuaţiei
de regresie liniară simplă,  şi .
 Modelul de regresie liniară în eşantion este:
yi = a + bxi + ei
 cu componenta predictibilă:
ŷi  a  bx i
 a şi b sunt estimatorii punctului de intercepţie () şi pantei liniei
drepte (), obţinuţi pe eşantion
 ei este valoarea reziduală (pentru unitatea i) în eşantion:
ei = yi – (a + bxi)
Ipotezele modelului de regresie
liniară
 Pentru a obţine proprietăţile dorite ale estimatorilor regresiei, se
fac, de obicei, cinci presupuneri (ipoteze) standard pentru modelul
din populaţia generală:

 Ipotezele ce trebuie verificate:

 Forma funcţională: yi = + xi + i, i=1,n


Normalitatea erorilor: i N(0,   )
2

 Media zero a erorilor: μ(i)=0 i


Homoscedasticitatea: σ2(i)=   constantă i
2

 Non autocorelarea erorilor: Cov(i,j)=0 ij


 Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j
Ipoteza 1: Forma funcţională
 y=a+bx Y
1000

y=a+bz, z=ex a  be x
1
a  b 
x
800

y=a+br, r=1/x
y=a+bq, q=ln(x)
600

a  bx
400

 Sau 200

a  b ln  x 

y=Ax  ln(y)=+ln(x) 0

-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X

 Forma generală: -200

f(yi)= +g(xi)+i
1 -400

 Contra exemplu: y  
x
Modele ce pot fi linearizate
nu poate fi transformat în model liniar.
Erorile
 Ipoteza de linearitate a modelului include şi aditivitatea
erorilor.
 Forma modelului:
y =  + x + ,
 
 De exemplu modelul y  Ax e se transformă prin
logaritmare în modelul liniar: ln(y)=ln(A)+ln(x)+ .

 Însă modelul y  Ax   nu mai poate fi transformat în
model liniar.
 Dacă ipoteza de linearitate este verificată, variabila
dependentă observată este suma a două elemente:
 un termen nestochastic: +x
 o variabilă aleatoare
Ipoteza 2: normalitatea erorilor
 Se presupune că variabila aleatoare i este normal
distribuită :

Distribuţia de probabilitate pentru i


Ipoteza 3: media erorilor este
zero: μ(i)=0 i

 Este naturală atâta timp cât  este văzută ca suma efectelor


individuale, cu semne diferite.
 Dacă media erorilor este diferită de zero, ea poate fi
considerată ca o parte sistematică a regresiei:
 μ()=   + x +  = (+) + x + (-)
 Media erorilor este acum nulă.
 Această presupunere indică faptul că media valorilor Y,
condiţionat de X,  (Y/X = Xi) =  + Xi, adică nu există
variabile omise asociate cu regresia în populaţie.
Ipoteza 4 (de homoscedasticitate):
Var(i)=   constantă i
2

 Dispersia reziduurilor în populaţie este constantă peste toate


valorile Xi
Functia de consum
1200

1000

800
consum

600

400

200

0
200 300 400 500 600 700 800 900 1000
venit
Ipoteza 4 (de homoscedasticitate):
Var(i)=   constantă i
2

a) b)
Dispersia reziduurilor a) constantă; b) variabilă

Discuţie:
Profiturile firmelor mari vor varia mult mai mult ca profiturile firmelor
mici.
Variaţia cheltuielilor gospodăriilor în funcţie de venit sau de mărimea
lor poate fi
Ipoteza 5: Non autocorelarea
erorilor: μ(ij)=0 ij
 Această ipoteză nu implică faptul că yi şi yj sunt necorelate,
ci faptul că deviaţiile observaţiilor de la valorile lor aşteptate
sunt necorelate.
 Variabilele aleatoare i sunt statistic independente una de
alta, adică    = 0, pentru i  j.
i j
 Acest lucru înseamnă că eroarea asociată cu o valoare a
variabilei Y nu are nici un efect asupra erorilor asociate cu
alte valori ale lui Y;
 Nu există deci corelaţie între reziduuri;
 OBSERVAŢIE: Este convenabil a considera că erorile sunt
independente şi normal distribuite cu medie zero şi
variaţie constantă pentru obţinerea de rezultate statistice
exacte.
Estimarea parametrilor
modelului de regresie clasic
 Parametrii necunoscuţi ai reacţiei stochastice sunt cei ce trebuie estimaţi:
yi = + xi + i, i=1,n
 Modelul estimat va fi scris:

y i  a  bxi , i  1, n
 Eroarea asociată unui punct i este:
i = yi -  - xi
 Pentru orice valori estimate a şi b, erorile estimate vor fi:
ei = yi - a - bxi
 Pentru estimarea parametrilor  şi  pe baza datelor observate, un
criteriu natural este cel de maximizare a potrivirii modelului cu datele
observate, deci de minimizare a erorilor observate:
min  ei2  min  ( yi  a  bxi ) 2
i i
Estimarea parametrilor
modelului de regresie clasic
 Condiţiile de ordin 1 de minimizare a funcţiei sunt:
  (  ei2 )


i 0  yi  na  ( xi )b


a
 i i
  (  ei2 )  2
 i 0  i i
x y  (  i
x ) a  (  i )b
x

 b i i i

a  y  bx

 n  yi
 i
  xi  xi yi  xi yi  n x y
 i i
b  n  xi
 i
2 2
 i
 xi  n x
 2 i
  xi  xi
 i i
Estimarea parametrilor
modelului de regresie clasic
 Rămâne de verificat dacă este verificată condiţia de ordin 2, adică soluţia găsită
este un punct de minim. Matricea derivatelor parţiale de ordin doi trebuie să fie
pozitiv definită:
  2 ( ei2 )  2 ( ei2 ) 
 
 2 2
i i
  2n 2 xi 
  a ab   i 

2   2 x
  2 ( ei2 ) 2
 ( ei ) 2 xi2 
 
  i
i
i 
i i
 ba 
  2b 2 


2 n  0
 2
2 xi  0
 i
 2 2 2
 4 n  x i  4(  xi )  4 n  ( xi  x ) 0
 i i i
 Deci matricea este pozitiv definită.
Modele cu variabile dummy
Noţiuni

 Variabila dummy este o variabilă categorială care


poate lua două valori. Acestor două valori li se
acordă, de regulă, două coduri: codul 1 (pentru
unităţile statistice care posedă caracteristica
urmărită în studiu) şi codul 0 (pentru celelalte
unităţi statistice).

Exemplu:
- sexul persoanei: 1 -masculin şi 0 - feminin.
Modele ANOVA (modele de
analiză a variaţiei)
Sunt modelele în care variabilele independente sunt
variabile dummy.
a. Modele cu o variabilă dummy
Forma generală a modelului ANOVA cu variabile
dummy este:

Y= β0+ β1Di+ε
unde: Di este variabila dummy: D1=1 (de exemplu, în
cazul persoanelor de sex masculin) sau D2=0
(în cazul persoanelor de sex feminin);
β0 este nivelul mediu al variabilei Y pentru
categoria Di=0
β1 arată cu cât este mai mare valoarea medie a
variabilei Y pe cele două categorii (diferenţa dintre
nivelul mediu al variabilei Y pentru categoria 1 şi
nivelul mediu al variabilei Y pentru categoria 0).

β0+β1 arată nivelul mediu al variabilei Y pentru


categoria Di=1.

Exemplu: Pentru un eşantion format din 10 persoane,


se înregistrează salariul lunar obţinut (mil.lei/lună)
pe sexe (1- masculin; 0 - feminin).
Salariu (mil.lei) Sexul persoanei
15 1
10 0
9 0
17 1
11 0
18 1
17 1
12 0
11 0
19 1
În urma prelucrării datelor s-au
obţinut următoarele rezultate:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 10,600 ,592 17,917 ,000
sexul 6,600 ,837 ,941 7,889 ,000
a. Dependent Variable: salariu
Model Summary

Adjusted Std. Error of


Model R R Square R Square the Es timate
1 ,941a ,886 ,872 1,32288
a. Predictors : (Constant), sexul
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regres sion 108,900 1 108,900 62,229 ,000a
Residual 14,000 8 1,750
Total 122,900 9
a. Predic tors : (Constant), sex ul
b. Dependent Variable: s alariu
Interpretare:

a) Ecuaţia estimată a legăturii dintre variabile:


Y=10,6+6,6D

b) Interpretarea parametrilor modelului:

 bo=10,6 mil.lei/lună arată că nivelul mediu al salariului


persoanelor de sex feminin este de 10,6 mil.lei/lună.
 b0+b1=17,2 mil. lei/lună reprezintă nivelul mediu al
salariului persoanelor de sex masculin.

 b1=6,6 mil.lei/lună arată diferenţa dintre salariul


mediu al persoanelor de sex masculin şi salariul
mediu al persoanelor de sex feminin.
b. Modele cu două variabile dummy

Forma generală a modelului ANOVA cu variabile


dummy este:

Y= β0+ β1D1+ β2D2+ε

Exemplu: Pentru un eşantion format din 20 persoane,


se înregistrează salariul lunar obţinut (mil.lei/lună)
pe nivele de pregătire (gimnazial; liceal, superior).

D1=1, pt. gimnazial şi D1=0 în rest


D2=1, pt. liceal şi D2=0 în rest
 b1 = – 8,453 este estimaţia diferenţei dintre salariul
mediu al angajaţilor cu studii gimnaziale şi al celor
cu studii superioare.

Coeffi cientsa
 b2 = – 4,612 este estimaţia diferenţei
Unstandardized St andardiz ed
dintre salariul mediu
al angajaţilor cu studii liceale
Coeffic ient s şi al celor
Coeffic ient scu studii superioare
Model B St d. E rror Beta t Si g.
1 (Const ant) 15,187 1,020 14,884 ,000
D1 -8, 453 1,285 -,907 -6, 580 ,000
D2 -4, 612 1,395 -,456 -3, 307 ,004
a. Dependent Variabl e: s alari u
2

 b0=15,187 mil.lei reprezintă nivelul mediu al salariului


persoanelor cu studii superioare.

 b0+b1=15,187 – 8,453 = 6,734 reprezintă nivelul mediu al


salariului persoanelor cu studii gimnaziale.

 b0+b2=15,187 – 4,612 = 10,575 reprezintă nivelul mediu


al salariului persoanelor cu studii liceale.
Modele ANCOVA (modele de
analiză a covarianţei)

 Sunt modele de regresie în care variabila


dependentă este numerică iar variabilele
independente sunt numerice şi categoriale
(dummy).

a. Modelul ANCOVA cu o variabilă dummy şi o


variabilă numerică
Forma generală a modelului:

Y= β0 + β1Di+ β2X+ε

unde:
Y este variabila dependentă numerică;
Di variabila independentă dummy;
X este variabila independentă numerică;
β0 valoarea lui Y când Di=0 şi X=0.
 β1 arată diferenţa dintre valoarea medie a variabilei
Y pe cele două categorii (categoria 1 şi categoria 0).

 β2 arată cu cât variază, în medie, nivelul variabilei Y la


o creştere cu o unitate a lui X (pentru ambele
categorii).

Exemplu: Pentru un eşantion de persoane se


înregistrează salariul lunar obţinut (Y, mil.lei), sexul
persoanei (1-masculin, 0- feminin) şi numărul de ani
de şcoală.
În urma prelucrării datelor s-au
obţinut următoarele rezultate:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 3,109 2,592 1,199 ,276
sexul 5,757 ,689 ,778 8,351 ,000
ani_scoala ,480 ,165 ,272 2,914 ,027
a. Dependent Variable: salariu
 b0= 3,109 mil.lei/lună reprezintă nivelul mediu al
salariului persoanelor de sex feminin, în condiţiile
în care nivelul studiilor este X=0.

 b1= 5,757 mil.lei/lună reprezintă diferenţa dintre


nivelul mediu al salariului persoanelor de sex
masculin şi nivelul mediu al salariului persoanelor
de sex feminin.
 b0+b1= 8,866 mil. lei reprezintă nivelul mediu al
salariului persoanelor de sex masculin în condiţiile
în care X=0.
 b2= 0,48 mil.lei/lună arată că la o creştere cu un
an a numărului de ani de şcoală, nivelul salariului
pentru ambele categorii creşte, în medie, cu 0,48
mil.lei/lună.
Observaţie:
 dacă valoarea parametrului β1 este semnificativ
diferită de zero, atunci există diferenţe între
nivelurile medii ale variabilei Y pe categorii.

b. Modelul ANCOVA cu două variabile dummy şi o


variabilă numerică

Forma modelului:
Y= β0+ β1Di1+ β2Di2+ β3X+ε
Interpretare:

 Dacă valoarea coeficientului β1 este semnificativ


diferită de zero, atunci se poate considera că
variabila D1 influenţează variaţia variabilei Y. Idem
β2.
 Dacă ambii coeficienţi sunt semnificativi statistic,
atunci ambele variabile influenţează variaţia
variabilei Y.
 Coeficientul β3 arată cu cât creşte sau scade, în
medie, nivelul variabilei Y la o creştere cu o unitate
a nivelului variabilei X.
Exemplu:
În studiul legăturii dintre venitul lunar realizat, sexul
persoanei (1-masculin; 0-feminin), mediul de
rezidenţă (1-urban, 0-rural) şi vârsta persoanei, s-
au obţinut următoarele rezultate:

Y= 2,5 + 1,2D1 + 3,6D2 + 0,9X


(tcalc=5,8) (tcalc=4,3) (tcalc=-3,7) (tcalc=1,79)

Să se interpreteze rezultatele obţinute (n=100


persoane).
 b0= 2,5 mil. lei reprezintă salariul mediu al
persoanelor de sex feminin din mediul rural, când
X=0.
 b0+b1= 3,7 mil. lei reprezintă salariul mediu al
persoanelor de sex masculin din mediul rural, dacă
X=0.
 b1= 1,2 mil. lei arată diferenţa dintre salariul
mediu al persoanelor de sex masculin şi feminin,
dacă X=0.
 b2= 3,6 mil. lei arată diferenţa dintre salariul
mediu al persoanelor din mediul urban şi rural,
dacă X=0.
MODELAREA ECONOMETRICĂ
A SERIILOR CRONOLOGICE

 Componentele unei serii cronologice


 Estimarea componentei trend (METODA MEDIILOR MOBILE)
 Estimarea componentei sezoniere
 Previzionarea fenomenelor afectate de sezonalitate

1
Componentele unei serii cronologice
▪ Dacă datele statistice sunt transversale (dinamice), adică dacă
variabila este măsurată în timp, în ordine secvenţială, atunci, în urma
sistematizării, se obţine o serie cronologică de tipul:
 1 2 ... t ... n  t 
    , t  1, n
 y1 y 2 ... yt ... y n  y t 

unde: t  1, n reprezintă unităţile de timp (perioade sau momente)


yt reprezintă nivelurile variabilei studiate, Y.
▪ O serie cronologică poate fi formată din patru componente:
1. Componenta de lungă durată – trend (YT);

2. Componenta sezonieră (YS);


3. Componenta ciclică (YC);

4. Componenta reziduală (YR). 2


Componentele unei serii cronologice pot fi prezentate, sintetic, astfel:

Componenta
Componenta Componenta Componenta
Denumire de lungă
sezonieră ciclică reziduală
durată
Tip Sistematică Sistematică Sistematică Nesistematică
Fluctuaţii Fluctuaţii Fluctuaţii
regulate ce aproximativ reziduale
apar în regulate ce (întâmplătoar
Tendinţa de
interiorul unei apar la e), care
Definiţie modificare pe
perioade de intervale de rămân după
termen lung
12 luni şi se timp mai mari evidenţierea
repetă an de de 1 an de celorlalte
an zile componente
Evenimente
Schimbări în neprevăzute
Condiţii Interacţiunea
populaţie, (greve,
climaterice, unor factori
tehnologie, inundaţii,
obiceiuri ce
educaţie, războaie etc.)
religioase, influenţează
Factori de nivel de trai sau variaţii
influenţă sociale etc. economia
etc. aleatoare ale
datelor
Un număr Mai mică sau Durată scurtă
De obicei 2-
Durată mare de egală cu 12 şi care nu se
10 ani
termeni luni repetă
3
Modelul general al unei serii cronologice poate fi exprimat ca:

▪ un model aditiv

yt  yTt  ySt  yCt  yRt ,


Modelul aditiv se utilizează atunci când fluctuaţiile rămân
constante în amplitudine faţă de trend

▪ ca un model multiplicativ

yt  yTt  ySt  yCt  yRt .


Modelul multiplicativ se utilizează atunci când fluctuaţiile
(regulate şi neregulate) se amplifică ori se diminuează faţă de
trend
4
Estimarea componentei trend
• Caracterizarea şi descrierea tendinţei de lungă durată se poate face folosind:
- metode statistice mecanice (simple)
- metode analitice.

• În alegerea metodei un rol important îl joacă graficul statistic (cronograma)

• Metode mecanice:
1. metoda modificării medii absolute
2. metoda indicelui mediu de modificare
3. metoda mediilor mobile.

• Metodele analitice presupun utilizarea unei funcţii analitice de tendinţă.

• Tehnicile de netezire (sau ajustare) a seriei cronologice urmăresc eliminarea


sau atenuarea oscilaţiilor (fluctuaţiilor) sistematice şi nesistematice.

5
Estimarea componentei trend prin metoda mediilor mobile (MMM)

▪ MMM este utilizată când seria cronologică prezintă fluctuaţii regulate


(sezoniere sau ciclice), pentru a netezi evoluţia fenomenului.
▪ Trendul se determină sub formă unor medii, calculate din atâţia
termeni (m), la câţi se manifestă o oscilaţie completă.
▪ Mediile se numesc mobile, glisante, deoarece în calculul unei astfel
de medii, se lasă în afară primul termen al mediei anterioare şi se
introduce următorul termen.
▪ Dacă mediile mobile sunt calculate, de exemplu, din 5 termeni,
fiecare valoare ajustată va cuprinde termenul din perioada respectivă,
cei 2 termeni anteriori şi cei 2 termeni următori.
yt  2  yt 1  yt  yt 1  yt  2
ytTMM  , t  3, n  2 .
5
6
▪ Dacă mediile sunt calculate din m termeni si:
 m este număr impar se vor pierde, prin calculul mediilor (m-1)
termeni şi fiecare valoare ajustată va fi situată în dreptul unei valori
înregistrate.
 m este număr par, atunci valorile medii se situează între termenii
reali şi vom centra nivelurile, astfel ajustate, prin calculul unor medii de
medii (medii parţiale). Spre exemplu, dacă o oscilaţie completă are loc la
6 termeni, atunci calculăm medii mobile centrate:
yt 3 y
 yt  2  yt 1  yt  yt 1  yt  2  t  3
ytTMM  2 2 , t  4, n  3
.
6
În acest caz se vor pierde, prin calculul mediilor centrate, m termeni.

▪ Prin calculul mediilor mobile, abaterile sezoniere se compensează.


7
Exemplu

Să considerăm seria cronologică privind sosirile trimestriale de turişti, în


hotelul „TURIST“ dintr-o zonă montană:
Trimestre
Anii
I II III IV
2003 940 650 1934 1360
2004 952 706 2072 1406
2005 992 734 2088 1478
2006 1026 740 2190 1492

Pentru calcularea tendinţei pe termen lung, folosind metoda mediilor


mobile din 4 termeni (la câţi se manifestă o oscilaţie completă), putem
sistematiza datele astfel:

8
Anul Trimestrul Perioada (t) yt ytT(MM)
0 1 2 3 4
I 1 940 —
II 2 650 —
2003
III 3 1934 1222
IV 4 1360 1231
I 5 952 1255
II 6 706 1278
2004
III 7 2072 1289
IV 8 1406 1297
I 9 992 1303
II 10 734 1314
2005
III 11 2088 1327
IV 12 1478 1332
I 13 1026 1346
II 14 740 1360
2006
III 15 2190 —
IV 16 1492 —

9
▪ Prima medie mobilă centrată este:
y1 y5
 y 2  y3  y 4 
y 3TMM  2 2
4
940 952
 650  1934  1360 
y3TMM  2 2  1222
persoane.
4
▪ Cea de-a doua medie mobilă centrată este:
650 706
 1934  1360  952 
y4TMM  2 2  1231
persoane
4
ş.a.m.d.

10
Reprezentarea grafică ilustrează modul în care
mediile mobile permit determinarea tendinţei de lungă
durată, prin eliminarea oscilaţiilor sezoniere.

2500

2000
persoane

1500

1000

500

0
Tr. I Tr. II Tr. Tr. Tr. I Tr. II Tr. Tr. Tr. I Tr. II Tr. Tr. Tr. I Tr. II Tr. Tr.
'03 '03 III IV '04 '04 III IV '05 '05 III IV '06 '06 III IV
'03 '03 '04 '04 '05 '05 '06 '06

Valori observate Medii mobile

11
Estimarea componentei sezoniere
• Variaţiile sezoniere pot să apară în interiorul unui an sau
chiar al unui interval mai scurt de timp, cum ar fi luna,
săptămâna sau ziua.
• Deci, pentru studiul statistic al componentei sezoniere
este necesar să avem la dispoziţie date sistematizate pe
intervale de timp mai mici de un an de zile.
• Pentru a măsura efectul sezonier putem determina
devieri sezoniere sau indici de sezonalitate.
• Devierile sezoniere măsoară, în medie, abaterile
fiecărui sezon de la trend, iau valori pozitive şi negative,
astfel încât suma devierilor sezoniere, pentru toate
sezoanele, este egală cu zero.
• Indicii de sezonalitate măsoară, în medie, de câte ori
se abate variabila, în fiecare sezon, de la trend, iau
valori supraunitare sau subunitare, astfel încât produsul
lor este egal cu 1.
12
Determinarea devierilor sezoniere
Pentru determinarea devierilor sezoniere se parcurg următorii paşi:

1. Se înlătură din valorile seriei cronologice (yt) componenta de


trend (ytT). Atunci:

yt-ytT=ytS+ytR.

2. Pentru fiecare sezon în parte, calculăm media rezultatelor


obţinute la pasul 1. Astfel, prin calculul mediei se înlătură cea mai mare
parte din variaţiile reziduale. Aceste medii, calculate pentru m sezoane,
măsoară diferenţele, faţă de linia de tendinţă, date de componenta
sezonieră.

3. Devierile sezoniere se vor calcula din valorile obţinute la pasul 2,


 m 
ajustate astfel încât suma lor să fie egală cu zero.  

k 1
y Sk  0 

13
Exemplu
Folosind datele din exemplul anterior, vom determina devierile
sezoniere ale variabilei, „sosiri de turişti“.
Pentru aceasta, vom înlătura mai întâi componenta de trend (col. 3 –
col. 4, tabelul anterior), iar rezultatele (ytS+ytR) le vom sistematiza în
tabelul de mai jos:
Trimestrul
Anii Suma
I II III IV
0 1 2 3 4 5
2003 — — 712 129 —
2004 -303 -572 783 109 —
2005 -311 -580 761 746 —
2006 -320 -620 — — —
Media -311,3 -590,7 752 128 -22
Deviere sezonieră -306 -585 758 133 0

14
Pentru fiecare sezon vom determina media abaterilor:
 303  (311)  (320)
– pentru trimestrul I:  311,3 ;
3

 572  (580)  (620)


– pentru trimestru II:  590,7 ;
3

712  783  761


– pentru trimestrul III:  752 ;
3

129  109  146


– pentru trimestrul IV:  128 .
3

15
Cum suma acestor medii ale abaterilor este diferită de zero:
4

y
k 1
Sk  (311,3)  (590,7)  752  128  22
,

22
vom ajusta mediile calculate cu valoarea 4  5,5 , obţinând
devieri sezoniere, astfel:

yS1  311,3  (5,5)  305,8  306 persoane

yS 2  590,7  (5,5)  585,2  585 persoane

yS 3  752  (5,5)  757,5  758 persoane

yS 4  128  (5,5)  133,5  134 persoane

16
• Devierile sezoniere în trimestrele I şi II sunt
negative (niveluri sub trend), iar trimestrele III şi
IV sunt pozitive (vârfuri de activitate)

• Rezultatele ne arată că factorul sezonier


deviază numărul sosirilor de turişti în trimestrul I
cu 306 persoane sub linia de trend, în trimestrul
II cu 585 persoane sub trend, iar în trimestrele III
şi IV cu 758, respectiv, cu 133 persoane peste
tendinţa de lungă durată.

17
Determinarea indicilor sezonieri
▪ Pentru determinarea indicilor de sezonalitate, metodologia
este similară, parcurgându-se paşii:

1. Se înlătură componenta de trend:


yt
 ytS  ytR
ytT .

2. Se calculează, pentru fiecare sezon, media rezultatelor


obţinute la punctul 1, eliminând astfel variaţiile reziduale.

3. Indicii de sezonalitate se determină din mediile obţinute la


pasul 2, ajustate astfel încât indicele mediu să fie egal cu 1.

▪ Cele mai exacte rezultate se obţin dacă vom folosi în calcule


media geometrică. Cu toate acestea, pentru uşurinţa calculelor,
deseori se foloseşte media aritmetică.
18
Exemplu

Pe baza datelor din exemplul dat (slide 9), vom înlătura


componenta de trend yt:ytT (col. 3:col. 4) şi vom obţine
ytS·ytR, valori sistematizate în tabelul urmator.
Trimestrul
Anii Prod
I II III IV
0 1 2 3 4
2003 — — 1,583 1,105 —
2004 0,759 0,552 1,607 1,084 —
2005 0,761 0,559 1,573 1,112 —
2006 0,762 0,554 — — —
Media 0,761 0,555 1,588 1,099 0,7
Indice de
0,821 0,599 1,714 1,186 1,0
sezonalitate

19
Pentru fiecare sezon determinăm media valorilor astfel obţinute:

– pentru trimestrul I: 0,759  0,761 0,762  0,761 ;


3

– pentru trimestru II: 0,552  0,559  0,554  0,555 ;


3

– pentru trimestrul III: 3 1,583 1,607 1,573  1,588 ;

– pentru trimestrul IV: 3 1,105 1,084 1,110  1,099 .

20
▪ Cum produsul acestor medii (geometrice) este diferit de 1:
4

y
k 1
Sk  0,761  0,555  1,588  1,099  0,737 , vom ajusta mediile calculate cu media

indicilor sezonieri, obţinând indici de sezonalitate, astfel:

▪Media indicilor sezonieri este calculată ca o medie geometrică:


y S  4 y S1  y S2  y S3  y S4  0,9265 .
▪ Indicii de sezonalitate vor fi subunitari în trimestrele I şi II şi
supraunitari în trimestrele III şi IV.

yS1=0,761:0,9265=0,821

yS2=0,555:0,9265=0,599

yS3=1,588:0,9265=1,714

yS4=1,099:0,9265=1,186
4

Acum y
k 1
Sk 1
. 21
• Indicii de sezonalitate arată că, în medie, sosirile de turişti:
- în trimestrele III şi IV se află peste tendinţa de lungă durată cu
71,4%, respectiv cu 18,6%
- în trimestrele I şi II, sosirile de turişti se situează sub linia de trend
cu 17,9%, respectiv cu 40,1%.
• În previzionarea sosirilor de turişti va trebui să ţinem cont, pentru
fiecare trimestru, de influenţa factorului sezonier, influenţă
determinată sub forma devierilor sezoniere sau a indicilor de
sezonalitate.
• După ce am determinat devierile sezoniere ori indicii de
sezonalitate, vom desezonaliza seria cronologică ((yt-ySk) pentru
devieri şi yt/ySk pentru indici).
• Rezultatele astfel obţinute vor conţine doar componenta trend (ytT)
şi componenta reziduală (ytR).
• Putem acum să determinăm tendinţa de lungă durată, aplicând
o metodă mecanică ori analitică.
• Trebuie subliniat că in etapa de previzionare, va trebui să ţinem cont
şi de devierile sezoniere sau de indicii de sezonalitate.

22
Previzionarea fenomenelor afectate de sezonalitate
▪ În cazul fenomenelor afectate de sezonalitate, nivelurile
previzionate, pentru tendinţa pe termen lung pe sezoane, vor trebui
corectate cu factorul sezonier.
▪ Astfel, în cazul în care am determinat devieri sezoniere, paşii
pentru previzionare sunt:

1. Pentru seria desezonalizată ( yt  ySk  ytT  ytR ) se determină trendul

( y tT ), folosind o metodă mecanică sau analitică.


2. Pentru perioada viitoare, se previzionează componenta de trend
y( n  p )T .

3. Se adună valorile previzionate pe sezoane cu devierile sezoniere

( y Sk ) pentru a obţine previziunea finală:

y( n  p )  y( n  p )T  ySk 23
Exemplu

▪ Pe baza datelor trimestriale, din perioada 2003-2006 ( t  1,16 )


privind sosirile de turişti, în hotelul „CREASTA“, s-a determinat
tendinţa de lungă durată (pentru seria desezonalizata) folosind
metoda modificării medii absolute:
ytT  1246  (t  1)  7,53 , t  1, n , n  16

y1T  1246 ; y16T  1359  ynT

şi devierile sezoniere (trimestriale), y Sk :

yS 1  306 , yS 2  585 , yS 3  758 , yS 4  133 .

▪ Pentru previzionarea sosirilor trimestriale de turişti, pentru anii


2007 şi 2008 se determină rezultatele din tabelul urmator:
24
Previzionarea sosirilor trimestriale de turişti

Anul Trimestrul p y( n  p ) T  y Sk Previziune y( n  p )


2007 I 1 1359+7,53=1367 -306 1061
II 2 1359+2·7,53=1374 -585 789
III 3 1359+3·7,53=1382 758 2140
IV 4 1359+4·7,53=1389 133 1522
2008 I 5 1359+5·7,53=1397 -306 1091
II 6 1359+6·7,53=1404 -585 819
III 7 1359+7·7,53=1412 758 2170
IV 8 1359+8·7,53=1419 133 1552

25
▪ În cazul în care factorul sezonier a fost măsurat prin indici de
sezonalitate, atunci, pentru previzionare parcurgem paşii:
1. Pentru seria desezonalizată ( yt / ySk  ytT  ytR ) se determină trendul
( y tT ), folosind o metodă mecanică sau analitică.
2. Pentru perioada viitoare, se previzionează componenta de
trend y ( np )T .
3. Se corectează (prin înmulţire) valorile previzionate pe
sezoane, cu indicii de sezonalitate ( y Sk ) pentru a obţine previziunea

finală: yn  p   yn  p T  ySk .

26
Exemplu

Pe baza datelor trimestriale, din perioada 2003-2006 ( t  1,16 ) privind


sosirile de turişti, în hotelul „CREASTA“, s-a determinat tendinţa de
lungă durată folosind metoda modificării medii absolute:
ytT  1246  (t  1)  7,53 , t  1, n , n  16

y1T  1246 ; y16T  1359  ynT

şi indicii de sezonalitate (pe trimestre), y Sk :


yS1  0,821 , yS 2  0,599 , yS 3  1,714 , yS 4  1,186

27
Previzionarea sosirilor trimestriale de turişti

Anul Trimestrul p y( n  p ) T  y Sk Previziune y( n  p )


2007 I 1 1359+7,53=1367 0,821 1122
II 2 1359+2·7,53=1374 0,599 823
III 3 1359+3·7,53=1382 1,714 2369
IV 4 1359+4·7,53=1389 1,186 1647
2008 I 5 1359+5·7,53=1397 0,821 1147
II 6 1359+6·7,53=1404 0,599 840
III 7 1359+7·7,53=1412 1,714 2420
IV 8 1359+8·7,53=1419 1,186 1683

28
Se cunosc următoarele date privind
evoluția exportului si importului unei
țări in perioada 2002-2015:
ANUL IMP (Y) EXP (X)
mld.euro mld.euro
2002 6.1 7.9
2003 6.4 9.1
2004 7.4 9.9
2005 7.4 10.5
2006 7.9 9.8
2007 11.2 13.1
2008 12.7 16.0
2009 14.6 17.4
2010 15.6 19.5
2011 18.9 24.2
2012 22.2 30.0
2013 25.8 37.6
2014 29.5 47.3
2015 33.6 51.8
Se cer următoarele:
a) Să se specifice modelul econometric care
descrie legătura dintre cele doua
variabile;

b) Să se estimeze parametrii modelului și


să se calculeze valorile teoretice ale
variabilei endogene (estimare punctuală
și estimare prin intervale de încredere);

c) Să se verifice ipotezele de fundamentare


a metodei celor mai mici pătrate;

d) Să se verifice semnificațiile
estimatorilor și verosimilitatea
modelului;

e) Presupunând că exportul în anul 2016


este de 60 mld. euro să se estimeze
importul în acest caz.
Rezolvare:
Pct.a)
Pe baza datelor se poate construi un model
econometric unifactorial de forma:

y = variabila dependenta (import);


x = variabila independenta (export);
u = variabila reziduală.
Din grafic se poate observa ca distribuția
punctelor empirice poate fi aproximata cu o
dreapta.
Pct.b)
Deoarece parametrii modelului sunt
necunoscuți, valorile acestora se pot estima
cu ajutorul mai multor momente, in mod
curent fiind folosita M.C.M.M.P. Utilizarea
metodei pornește de la următoarea relație:

unde:
valorile teoretice ale variabilei „y”
obținute numai in funcție de valorile
factorului „x” si de valorile estimatorilor
parametrilor „a” si „b”, respectiv „ ” si „ ”.

Estimațiile valorilor variabilei reziduale:

Se determina si :
= 2,2869
= 0,6158

Dispunând de estimațiile parametrilor se pot


calcula valorile teoretice (estimate) ale
variabilei endogene cu ajutorul relației:
Estimarea prin interval de încredere a
parametrilor modelului de regresie liniara.

(vezi Excel).

Valorile variabilei reziduale se calculează


după relația:

Pe baza acestor valori se pot calcula abaterea


medie pătratica a variabilei reziduale si
abaterile medii pătratice ale celor doi
estimatori:
Abaterea medie pătratica a valorii reziduale:

k= nr. parametrilor

Abaterea medie pătratica a estimatorului :


Abaterea medie pătratica a estimatorului :

In urma acestor calcule, modelul econometric


se poate scrie:

(0,64577) (0,02494)
Pct.c)

Estimatorii obținuți sunt estimatori de


maximă verosimilitate dacă pot fi acceptate
următoarele ipoteze:

c1) variabilele observate nu sunt afectate de


erori de măsură.
Această condiție se verifică cu regula celor
trei sigma, regula care constă în verificarea
următoarelor relații:

(vezi Excel)
c2) variabila reziduala (aleatoare) este de
medie nula , iar dispersia ei, ,
este constanta si independenta de X – ipoteza
de homoscedasticitate, pe baza căreia se
poate admite ca legătura dintre X si Y este
relativ stabila.
Acceptarea se poate face folosind mai multe
metode:

c21) procedeul grafic (corelograma dintre


variabila factoriala X și variabila reziduală
u). Vezi Excel.
Concluzie: deoarece graficul punctelor
empirice prezintă o distribuite oscilantă, se
poate accepta ipoteza ca cele doua variabile
sunt independente si nu corelate.

c22) acceptarea sau respingerea ipotezei de


homoscedasticitate cu ajutorul analizei
variației (vezi pct. d).
c3) valorile variabilei reziduale ( sunt
independente, respectiv nu exista fenomenul
de autocorelare.
Acceptarea sau respingerea acestei condiții se
poate face cu:

c31) procedeul grafic (corelograma dintre


valorile variabilei dependente Y si valorile
variabilei reziduale (vezi Excel).
Concluzie: ca si in graficul precedent se
observa ca distribuția punctelor empirice este
oscilanta, deci se poate accepta ipoteza de
independenta a erorilor.

c32) Testul Durbin-Watson (DW) consta in


calcularea termenului empiric:
si compararea acestei mărimi „d” cu doua
valori teoretice d1 si d2, preluate din tabela
Durbin-Watson in funcție de un prag de
semnificație , arbitrar ales, de numărul
variabilelor exogene (k) si de valorile
observate n (n .
Acceptarea sau respingerea ipotezei de
independenta a erorilor se bazează pe o
anumita regula, care consta in:
 autocorelare pozitiva;
 indecizie;
 erorile sunt
independente;
 indecizie;
 autocorelare
negativa;
Pt.ex. d=0,61; d1=1,08; d2=1,36
0<0,61<1,08 autocorelare pozitiva
deci nu se accepta ipoteza de
independenta a val. var. reziduale
c33) coeficientul de autocorelație de
ordinul 1 este:

Intre coeficientul de autocorelație de


ordinul 1si variabila Durbin-Watson
exista relația:

Stiind ca:
c4) verificarea ipotezei de normalitate a
valorilor variabilei reziduale.

Se stie ca, daca erorile urmeaza legea


normala de medie 0 si de abatere medie
patratica (consecinta ipotezelor
c1,c2,c3) atunci are loc relatia:

Pe baza acestei relații, in funcție de


diferite praguri de semnificație α, din
tabela distribuției normale se vor prelua
valorile corespunzătoare ale lui

Lucrând cu din tabelul


Student se preia valoarea variabilei, cu
un număr de grade de libertate
v = n-2 = 14-2 = 12

iar, pentru avem

Cu ajutorul acestor date, verificarea


ipotezei de normalitate se poate face pe
baza următorului grafic: pe axa Ox se
vor reprezenta valorile ajustate ale
variabilei y ( , iar pe axa Oy se vor
trece valorile variabilei reziduale .
Se observa ca valorile variabilei
reziduale se inscriu in banda construita
pentru pragul de semnificație .
Ca urmare, ipoteza de normalitate a
variabilei reziduale poate fi acceptata cu
acest prag de semnificație.
Pct.d.) Verificarea semnificației
estimatorilor si a verosimilitatii
modelului.

d1) verificarea semnificației


estimatorilor:
Estimatorii sunt semnificativ diferiți de
zero, cu un prag de semnificație , daca
se verifica următoarele relații:

in exemplu:
Pe baza calculelor se observa faptul ca
ambii estimatori sunt semnificativ diferiți
de zero, cu un prag de semnificație

d2) verificarea verosimilitatii modelului.


Pentru a verifica ipoteza de liniaritate se
calculează coeficientul de corelatie
liniara:

ceea ce indica o corelație foarte puternica


intre export si import.

Verificarea verosimilitatii modelului se


face cu ajutorul analizei dispersionale.
(vezi ANOVA).
Testul Fisher-Snedecor indica faptul ca
rezultatele obținute sunt semnificative
pentru pragul de semnificație de 5%:
Pe baza datelor din tabel se poate calcula
si raportul de corelație:

Se poate demonstra ca in cazul unei


legături liniare, raportul de corelație este
egal cu coeficientul de corelație liniara:

Verificarea semnificației raportului de


corelație si, implicit, a coeficientului de
corelație liniara se face cu ajutorul
testului Fisher-Snedecor:
Rx,y este semnificativ daca:

Pt. exemplu:

Deoarece raportul de corelație este


semnificativ diferit de zero cu un prag de
semnificație modelul descrie
corect dependenta dintre export si
import, explicand in masura a 98,06%
influenta factorului de influenta asupra
variabilei dependente.

Pct.e.)

Daca x=60 mld.euro, atunci


Y= 2,2869+0,6158*60=39,2 mld.euro
ANUL IMP (Y) EXP (X) Y U
mld.euro mld.euro TEORETIC VAL.REZIDUALA
2002 6.1 7.9 7.2 -1.1
2003 6.4 9.1 7.9 -1.5
2004 7.4 9.9 8.4 -1.0
2005 7.4 10.5 8.8 -1.4
2006 7.9 9.8 8.3 -0.4
2007 11.2 13.1 10.4 0.8
2008 12.7 16.0 12.1 0.6
2009 14.6 17.4 13.0 1.6
2010 15.6 19.5 14.3 1.3
2011 18.9 24.2 17.2 1.7
2012 22.2 30.0 20.8 1.4
2013 25.8 37.6 25.4 0.4
2014 29.5 47.3 31.4 -1.9
2015 33.6 51.8 34.2 -0.6
TOTAL 219.3 304.1 219.3 0.0

U
VAL.REZIDUALA u2
-1.05 1.107213769
-1.49 2.223893336
-0.98 0.968175593
-1.35 1.831892429
-0.42 0.178399203
0.85 0.714521682
0.56 0.312821369
1.60 2.550736533
1.30 1.699893958
1.71 2.921587311
1.44 2.065791546
0.36 0.127279135
-1.92 3.675137726
-0.59 0.346247348
20.72359094

dispersia u 1.726965911

abaterea standard u 1.31414075


u(t-1) u(t)-u(t-1) ()2 u2 u(t)*u(t-1)
7.9
9.1 -1.1 -0.4 0.19 2.2 1.569179825

9.9 -1.5 0.5 0.26 1.0 1.467351099

10.5 -1.0 -0.4 0.14 1.8 1.331763319

9.8 -1.4 0.9 0.87 0.2 0.571671364

13.1 -0.4 1.3 1.61 0.7 -0.357029548

16.0 0.8 -0.3 0.08 0.3 0.472776534

17.4 0.6 1.0 1.08 2.6 0.893266419

19.5 1.6 -0.3 0.09 1.7 2.082302

24.2 1.3 0.4 0.16 2.9 2.22853957

30.0 1.7 -0.3 0.07 2.1 2.45670315

37.6 1.4 -1.1 1.17 0.1 0.512769111

47.3 0.4 -2.3 5.17 3.7 -0.683935926

51.8 -1.9 1.3 1.77 0.3 1.128054384

304.1 0.5 12.65 19.6 13.6734113

0.644711 0.644711205 0.697041 0.677644398


SUMMARY OUTPUT

Regression Statistics
Multiple R 0.99220311
R Square 0.98446701
Adjusted R Square 0.98252539
Standard Error 0.70763868
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 253.89798 253.89798 507.03287 1.60175E-08
Residual 8 4.00602004 0.500752505
Total 9 257.904

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 0.88362397 0.6132396 1.440911469 0.18757849 -0.530509078 2.297757
x 1.18820481 0.05276832 22.5173904 1.6017E-08 1.06652085 1.309889

RESIDUAL OUTPUT

Observation Predicted y Residuals


1 8.1316733 -0.2316733
2 8.48813474 0.61186526
3 9.67633955 0.22366045
4 9.67633955 0.82366045
5 10.270442 -0.47044196
6 14.1915178 -1.09151783
7 15.973825 0.02617496
8 18.2314142 -0.83141418
9 19.419619 0.08038101
10 23.3406949 0.85930514
0.984467

63.37911
507.0329

Lower 95,0%
Upper 95,0%
-0.53051 2.297757
1.066521 1.309889
x y
6.1 7.9
6.4 9.1
7.4 9.9
7.4 10.5
7.9 9.8
11.2 13.1
12.7 16.0
14.6 17.4
15.6 19.5
18.9 24.2
40.0

35.0

30.0
IMPORT

25.0

20.0

15.0

10.0

5.0

0.0
7.9 9.1 9.9 10.5 9.8 13.1 16.0 17.4
import 6.1 6.4 7.4 7.4 7.9 11.2 12.7 14.6

EXPORT
19.5 24.2 30.0 37.6 47.3 51.8
15.6 18.9 22.2 25.8 29.5 33.6
IMPORT (Y) EXPORT (X)

Mean 15.66428571 Mean


Standard Error 2.428168195 Standard Error
Median 13.65 Median
Mode 7.4 Mode
Standard Deviation 9.085373464 Standard Deviation
Sample Variance 82.54401099 Sample Variance
Kurtosis -0.575773246 Kurtosis
Skewness 0.764601727 Skewness
Range 27.5 Range
Minimum 6.1 Minimum
Maximum 33.6 Maximum
Sum 219.3 Sum
Count 14 Count

-11.59183468 42.92040611 -22.1062516


21.72142857
3.904480078
16.7
#N/A
14.60922672
213.4295055
0.02584175
1.099585787
43.9
7.9
51.8
304.1
14

65.54910875
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.990296727
R Square 0.980687607
Adjusted R Square 0.979078241
Standard Error 1.31414075
Observations 14

ANOVA
df SS MS
Regression 1 1052.348552 1052.348552
Residual 12 20.72359094 1.726965911
Total 13 1073.072143

Coefficients Standard Error t Stat


Intercept 2.286960566 0.645776147 3.541413813
X Variable 1 0.615858442 0.024948416 24.68527225
F Significance F
609.362666 1.1802E-11

P-value Lower 95% Upper 95% Lower 95.0% Upper 95.0%


0.004060254 0.879935214 3.69398592 0.879935214 3.693985917
1.1802E-11 0.561500513 0.67021637 0.561500513 0.67021637
2.0

1.5

1.0

0.5
VALORI "U"

0.0
0.0 10.0 20.0 30.0
-0.5

-1.0

-1.5

-2.0

-2.5
VALORI "X"
40.0 50.0 60.0
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.900647848
R Square 0.811166547
Adjusted R Square 0.787562365
Standard Error 1008.176407
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 34929643 34929643 34.36537 0.00037753
Residual 8 8131357 1016420
Total 9 43061000

CoefficientsStandard Error t Stat P-value Lower 95% Upper 95%Lower 95,0%


Intercept -36.84210526 1008.176 -0.03654 0.971745 -2361.70107 2288.017 -2361.7
Nr.ani vechime 983.6565097 167.7965 5.862199 0.000378 596.717059 1370.596 596.7171

RESIDUAL OUTPUT

ObservationPredicted Venit net (lei)


Residuals
1 3897.783934 -397.784
2 4881.440443 -181.44
3 5865.096953 -65.097
4 7832.409972 -632.41
5 2914.127424 -514.127
6 7832.409972 167.59
7 4881.440443 1418.56
8 3897.783934 1502.216
9 8816.066482 383.9335
10 4881.440443 -1681.44
Venit=-36,84+983,65*Vechime

Upper 95,0%
2288.017
1370.596
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.903328823
R Square 0.816002962
Adjusted R Square 0.76343238
Standard Error 1063.894225
Observations 10

ANOVA
df SS MS F Significance F
Regression 2 35137904 17568952 15.52205 0.002672009
Residual 7 7923096 1131871
Total 9 43061000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%Lower 95,0%
Intercept 11.92893401 1069.953 0.011149 0.991416 -2518.106727 2541.965 -2518.11
Nr.ani vechime 1007.614213 185.6697 5.426919 0.00098 568.5752109 1446.653 568.5752
Gen -308.8832487 720.0936 -0.42895 0.680852 -2011.634009 1393.868 -2011.63

RESIDUAL OUTPUT

ObservationPredicted Venit net (lei)


Residuals
1 4042.385787 -542.386
2 4741.116751 -41.1168
3 5748.730964 51.26904
4 7763.959391 -563.959
5 3034.771574 -634.772
6 8072.84264 -72.8426
7 5050 1250
8 3733.502538 1666.497
9 8771.573604 428.4264
10 4741.116751 -1541.12
Venit=11,928+1007,61*Vechime-308,88*Gen

Upper 95,0% 308,88 este diferența medie de venit dintre cele două genuri
2541.965
1446.653 1007,61 înseamnă creșterea venitului atunci când vechimea crește cu un an
1393.868
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.903919667
R Square 0.817070764
Adjusted R Square 0.725606146
Standard Error 1145.797818
Observations 10

ANOVA
df SS MS F Significance F
Regression 3 35183884 11727961 8.933189477 0.012435499
Residual 6 7877116 1312853
Total 9 43061000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept -249.1725768 1809.523 -0.1377 0.894981817 -4676.915131 4178.57
Nr.ani vechime 1074.468085 409.3876 2.624574 0.039344422 72.73270805 2076.203
Gen -313.7115839 775.9588 -0.40429 0.700017001 -2212.414409 1584.991
Mediu -292.6713948 1563.871 -0.18715 0.857714519 -4119.325787 3533.983

RESIDUAL OUTPUT

ObservationPredicted Venit net (lei)


Residuals
1 4048.699764 -548.7
2 4809.456265 -109.456
3 5591.252955 208.747
4 7740.189125 -540.189
5 2974.231678 -574.232
6 8053.900709 -53.9007
7 5123.167849 1176.832
8 3734.98818 1665.012
9 8814.65721 385.3428
10 4809.456265 -1609.46
Lower 95,0%
Upper 95,0%
-4676.92 4178.57
72.73271 2076.203
-2212.41 1584.991 Venit=-249,17+1074*Vechime-313,71*Gen-292,67
-4119.33 3533.983
13,71*Gen-292,67*Mediu
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.204604725
R Square 0.041863093
Adjusted R Square
-0.07790402
Standard Error
2270.967121
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 1802667 1802667 0.349537 0.570698
Residual 8 41258333 5157292
Total 9 43061000

CoefficientsStandard Error t Stat P-value Lower 95% Upper 95%Lower 95,0%


Upper 95,0%
Intercept 5050 1135.484 4.447444 0.002147 2431.57 7668.43 2431.57 7668.43
Gen 866.6666667 1465.903 0.591217 0.570698 -2513.71 4247.045 -2513.71 4247.045

RESIDUAL OUTPUT

Observation
Predicted Venit net (lei)
Residuals
1 5050 -1550
2 5916.666667 -1216.67
3 5916.666667 -116.667
4 5916.666667 1283.333
5 5050 -2650
6 5050 2950
7 5050 1250
8 5916.666667 -516.667
9 5916.666667 3283.333
10 5916.666667 -2716.67
Venit=5050+866,67*Gen

Upper 95,0%

5050 este salariul mediu pentru femei


866,67 este diferența dintre venitul mediu al barbat și venitul mediu al femei

5050+866,67=5916,67 venitul mediu al barbați


venitul mediu al femei
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.779072
R Square 0.606953
Adjusted R Square
0.557822
Standard Error
1454.519
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 26136000 26136000 12.3538 0.007906
Residual 8 16925000 2115625
Total 9 43061000

Coefficients
Standard Error t Stat P-value Lower 95% Upper 95%Lower 95,0%
Upper 95,0%
Intercept 4250 593.8048 7.157234 9.64E-05 2880.684 5619.316 2880.684 5619.316
Mediu 3300 938.8879 3.514797 0.007906 1134.921 5465.079 1134.921 5465.079

RESIDUAL OUTPUT

Observation
Predicted Venit netResiduals
(lei)
1 4250 -750
2 4250 450
3 7550 -1750
4 7550 -350
5 4250 -1850
6 7550 450
7 4250 2050
8 4250 1150
9 7550 1650
10 4250 -1050
Venit=4250+3300*Mediu

4250 este venitul mediu al unei persoane din rural

3300 diferenta de venit dintre persoanele din mediu urban si cele din rural

4250+3300 = 7550 este venitul persoanelor din mediu urban


SUMMARY OUTPUT

Regression Statistics
Multiple R 0.900648
R Square 0.811167
Adjusted R Square 0.787562
Standard Error 1008.176
Observations 10

ANOVA
df SS MS F Significance F
Regression 1 34929643 34929643 34.36537 0.000378
Residual 8 8131357 1016420
Total 9 43061000

Coefficients
Standard Error t Stat P-value Lower 95% Upper 95%Lower 95,0%
Upper 95,0%
Intercept -36.8421 1008.176 -0.03654 0.971745 -2361.7 2288.017 -2361.7 2288.017
Nr.ani vechime 983.6565 167.7965 5.862199 0.000378 596.7171 1370.596 596.7171 1370.596

RESIDUAL OUTPUT

Observation
Predicted Venit netResiduals
(lei)
1 3897.784 -397.784
2 4881.44 -181.44
3 5865.097 -65.097
4 7832.41 -632.41
5 2914.127 -514.127
6 7832.41 167.59
7 4881.44 1418.56
8 3897.784 1502.216
9 8816.066 383.9335
10 4881.44 -1681.44
Upper 95,0%
Venit net (lei) Nr.ani vechime Gen Mediu
3500 4 0 0
4700 5 1 0
5800 6 1 1
7200 8 1 1
2400 3 0 0
8000 8 0 1
6300 5 0 0
5400 4 1 0
9200 9 1 1
3200 5 1 0

Gen M=1 F=0


Mediu U=1 R=0

S-ar putea să vă placă și