Sunteți pe pagina 1din 445

Econometrie

Facultatea de Comerţ, seria A


Curs 1

Prof.univ.dr. Simona GHIŢĂ


Introducere
în
Econometrie
CUPRINSUL CURSULUI:

 Introducere în Econometrie.

 1. Ce este “Econometria”?
 2. Noţiunea de model. Model economic vs. Model
econometric.
 3. Etapele demersului econometric.
 4. Variabile si date statistice incluse în modelele
econometrice.
 5. Tipologia modelelor econometrice.
1. Ce este econometria?
 Econometria s-a constituit ca ştiinţă în anul 1930, odată cu înfiinţarea
Societăţii de econometrie
 Econometrie provine din cuvintele grecesti: „eikonomia” - economie şi
„metren” – măsură
 Econometria reprezintă o unificare a teoriei economice, a matematicii
şi a statisticii având la bază inferenţa statistică
 Teoria economică oferă afirmaţii/ipoteze pentru care trebuie construite
modele econometrice susţinute de date reale, empirice
 Econometria poate fi folosită:
1. Ca metodă explicativă, pentru a confirma sau infirma o teorie economică
2. Ca instrument de predicţie, pentru a previziona valoarea unei variabile economice

4
Ce este econometria?
 Definiţia istorică: „experienţa a arătat că fiecare din următoarele 3 puncte de
vedere, al statisticii, al teoriei economice şi al matematicii este o condiţie
necesară, dar nu şi suficientă pentru o înţelegere efectivă a relaţilor cantitative
din economia modernă; unificarea lor este aceea care asigură eficienţa.
Econometria este tocmai această unificare.” (Ragnar Frisch, Econometrica)
 Definiţia restrictivă: econometria presupune investigarea fenomenelor
economice numai cu ajutorul modelelor aleatoare; ea include doar cercetările
economice ce utilizează metodele inducţiei matematice la verificarea relaţiilor
cantitative formulate în teoria economică cu privire la fenomenele sau
procesele studiate (Cowles Comission for Research in Economics, Chicago, 1940-
1950)
 Definiţia extinsă: Econometria în sens larg înseamnă econometria în sens
restrâns, la care se adaugă metodele cercetării operaţionale (economiştii anglo-
saxoni)
Ce este Econometria?

ECONOMETRIE = ECONOMIE + STATISTICĂ + MATEMATICĂ


2. Modelul econometric
 Modelul: metodă de cercetare ştiinţifică ce constă într-o imagine
convenţională (fizică, virtuală, abstractă) cu structură identică sau simplificată
a obiectului supus cercetării.

X  S  Y
Modelarea economică
 Tipuri de modele:
 Modelele deterministe: Y = f(X) (de exemplu: Q = wL) se utilizează frecvent în
practica economică în analiza pe factori a variaţiei, în timp sau spaţiu, a
fenomenelor social economice, reflectând legături de tip determinist sau
funcţional (ex: metoda indicilor).
 Modelele stochastice.
 Modelul econometric descrie legătura statistică sau stochastică dintre intrările
sistemului - factorii de influenţă X - şi ieşirile acestuia, variabila rezultativă Y:
Y = f(X)+ε
 Este un model matematic formulat în conformitate cu principiile teoriei economice,
astfel încât parametrii săi să poată fi estimaţi, dacă se face presupunerea că modelul
este corect.
 Descrie, cu ajutorul unui set de simboluri, relaţiile de dependenţă dintre fenomenele
economice, pe baza unei ecuaţii sau a unui sistem de ecuaţii, permiţând înţelegerea,
explicarea sau obţinerea de informaţii noi privind comportamentul fenomenelor
cercetate.
3. Etapele demersului
econometric
1. Identificarea ipotezelor, afirmaţiilor din teoria economică ce
urmează a fi testate (modelul economic);
2. Specificarea modelului matematic al teoriei
3. Specificarea modelului econometric.
4. Colectarea datelor statistice necesare.
5. Estimarea parametrilor modelului econometric.
6. Evaluarea modelului pe baza criteriilor economice,
matematice, econometrice.
7. Predicţii, previziuni pe baza modelului.
8. Control şi construire de politici economice.
4. Variabile şi date statistice
 Variabilele economice determină structura modelului econometric:
 Endogene (rezultative, dependente, explicate): variabile determinate în cadrul
sistemului;
 Exogene (factoriale, independente, explicative): variabile determinate în afara
sistemului, despre care modelul econometric nu are nimic de spus.
 Variabila aleatoare (ε): sintetizează totalitatea variabilelor (în afara celor
factoriale) care influenţează variabila endogenă, dar nu sunt specificate în
cadrul modelului (factori aleatori)
 Variabila timp (t) se introduce în anumite modele econometrice ca variabilă
explicativă a variabilei endogene (modele dinamice), deşi ea nu poate fi
considerată o variabilă economică concretă. Introducerea ei ca variabilă
fictivă se face din două motive:
 Permite identificarea unor regularităţi în evoluţia fenomenelor;
 Reprezintă măsura artificială a acelor variabile economice care acţionează asupra
variabilei rezultative dar care, fiind de natură calitativă, nu pot fi cuantificate şi
nici nu apar explicit în model;
Variabile şi date statistice

Variabile aleatoare

Variabile exogene Variabile endogene


Modelul
econometric

Variabila timp
Variabile şi date statistice
Intr-un model econometric, un fenomen oarecare X=(x1, x2, ...,xn) poate fi
introdus cu următoarele valori:
 Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de
măsură specifice naturii fenomenului X. Vectorul valorilor lui X poate fi
definit prin 2 parametri: n

 Media arimetică: x i
x i 1

n
 x  x
 Abaterea medie pătratică: n
2
i
sx  s  2
x
i 1
n

 x  x 
n
Unde: 2
i
s 
2
x
i 1
 dispersia
n
Variabile şi date statistice
 Valori centrate xi*  xi  x
 Media:
x *

x *
i

 x  x   0
i

n n
 x  x    x  x 
 Dispersia: * *
2 2

s x2*  i i

n n

xi  x
 Valori centrate şi normate: xi** 
sx
 xi  x 
   x 
 1
 x
 Media:
x **

x **
i
  x 
s

sx
i
0
n n n
2
 xi  x 
 x  x 
Dispersia:
  s  s12
 x 
 2
2
**
x ** i
s x2
     x  2 1
2 i x
s x**
n n n sx
5. Tipologia modelelor econometrice

1. după numărul factorilor luaţi în considerare


 modele unifactoriale: se fundamentează pe ipoteza că în rândul factorilor de influenţă
ai variabilei rezultative y există un factor determinant x, ceilalţi factori cu excepţia
acestuia având o influenţă întâmplătoare (exprimată prin intermediul variabilei
reziduale u) sau fiind invariabili în perioada analizată: Y = f(X)+ ε
 modele multifactoriale: elimină deficienţa modelului unifactorial, însă trebuie ca
numărul factorilor luaţi în considerare să nu fie foarte mare pentru a nu fi mult prea
complex, dificil de estimat etc.
Y = f(X1,X2,...,Xp)+ ε
2. după forma legăturii dintre variabila rezultativă şi variabilele cauză
 modele liniare: dacă legătura este liniară
 modele neliniare: dacă legătura este neliniară
3. după sfera de cuprindere a modelului
 modele globale (agregate)
 modele parţiale
5. Tipologia modelelor econometrice
4. după includerea factorului timp în model
 modele statice: dependenţa variabilei endogene y faţă de valorile variabilei
exogene xj se realizează în aceeaşi perioadă de timp:
Yt = f(X1t,...,Xjt,...,Xkt) + εt
 modele dinamice:
 introducerea variabilei timp ca o variabilă explicativă
Yt = f(Xt,t) + ε t
 autoregresive : variabila rezultativă cu valori decalate este una din variabilele
explicative
Yt = f(Xt,Yt-k) + ε t
 model cu decalaj: variabila explicativă x îşi exercită influenţa asupra variaţiei
variabilei rezultative pe mai multe perioade de timp:
Yt = f(Xt,Xt-1,... Xt-k) + ε t
5. Tipologia modelelor econometrice

5. Dupa numărul de ecuaţii din model


 modele cu o singură ecuaţie: toate modelele prezentate anterior
 modele cu ecuaţii multiple: sunt formate dintr-un sistem de ecuaţii
 Forma structurală a unui model cu ecuaţii multiple este:
 y1  b12 y 2  ...  b1n y n  c11 x1  c12 x 2  ...  c1m x m   1
b y  y  ...  b y  c x  c x  ...  c x  
 21 1 2 2n n 21 1 22 2 2m m 2

 
bn1 y1  bn 2 y 2  ...  y n  c n1 x1  c n 2 x 2  ...  c nm x m   n

Yi , i  1, n variabile rezultative sau endogene


X j , j  1, m variabile explicative sau exogene
Testarea ipotezelor
statistice

Econometrie - Curs 2,
Business şi Turism,
Seria A anul II

1
1. Scop şi utilitate

 Inferența statistică presupune:


 Extinderea rezultatelor de la nivelul eșantionului la nivelul populației
totale, în condiții de probabilitate.
 Estimarea valorii unui parametru al populației totale pe baza
rezultatelor obținute în eșantion
 Emiterea unor concluzii generale asupra unei populații totale, pe baza
unor informații limitate, ce provin dintr-un eșantion.

 Există două modalități prin care putem realiza inferența statistică:


 Folosind mai multe valori, sub forma unui interval de încredere – care
acoperă, cu o anumită probabilitate, valoare parametrului din populația
totală (vezi sondajul statistic)
 Folosind o singură valoare – numită valoare ipotetică, despre care se
emite ipoteza că ar fi egală cu valoarea parametrului populației totale
(Testarea ipotezelor statistice).

2
1. Scop şi utilitate
 Scop:
 De a stabili existenţa unor dovezi suficiente pentru a
concluziona dacă o ipoteză sau o afirmaţie referitoare la un
parametru al unei populaţii este adevărată.
 În ce constă procedura:
 Se caută dovezi în eșantion în sprijinul acestei ipoteze. Dacă se
găsesc astfel de dovezi, se acceptă ipoteza emisă, considerând-o
adevărată. Dacă nu, se respinge, considerând-o falsă și se
acceptă o altă ipoteză, contrară celei inițiale.
 Utilitate:
Testarea ipotezelor statistice ajută managerii să verifice ştiinţific
ipotezele emise, pentru a adopta deciziile cele mai potrivite în
legătură cu acţiunile lor viitoare.
3
2. Concepte de bază în Testarea
ipotezelor statistice
 Ipoteză statistică = o afirmaţie matematică cu privire la parametrul unei
populaţii sau la legea de repartiţie pe care o urmează anumite variabile
aleatoare.
 Teste parametrice = teste statistice care verifică valoarea unui parametru al
colectivităţii totale. Ele au următoarele componente (4):
a) Ipoteză nulă (H0)
 Este o afirmaţie în care se specifică valori ipotetice pt. unul sau mai mulţi
parametri ai pop. totale.
 Ea admite întotdeauna caracterul întâmplător al deosebirilor, adică
presupune că nu există deosebiri esenţiale.
 Este ipoteza ce urmează a fi testată, considerată adevărată până când se
dovedeşte că este falsă.

4
2. Concepte de bază în Testarea
ipotezelor statistice
 Exemplu: Reprezentantul patronatelor din industria hotelieră
susține că salariul mediu net al unui angajat în acest domeniu
este de 3500 lei.
 Ipoteza emisă se scrie astfel:

H0 : µ = 3500

Valoarea parametrului Valoarea ipotetică


(mediei) populației totale
5
2. Concepte
b) Ipoteza alternativă (H1)
 O afirmaţie despre acelaşi parametru al populaţiei totale ca şi cel la care se
referă ipoteza nulă, dar care contrazice ipoteza nulă.
 Ea constituie ipoteza ce va fi acceptată, dacă ipoteza nulă va fi respinsă.
 Poate fi de două feluri:
 Ipoteze non-direcţionale:
 Sunt ipoteze alternative care specifică existenţa unei diferenţe între
valoarea parametrului pop. generale şi valoarea specificată în
ipoteza nulă, dar fără a arăta direcţia acestei diferenţe
 Sunt asociate testelor bilaterale
 Ipoteze direcţionale:
 Reprezintă ipoteze alternative care stabilesc direcţia în care
parametrul pop. totale diferă de valoarea specificată în ipoteza nulă
 Corespund testelor unilaterale (test unilateral stâng sau drept).

 Cele două ipoteze sunt teorii mutual exclusive (este imposibil ca ambele să fie
adevărate) şi exhaustive (acoperă toate posibilităţile: ori H0 este adevărată, ori H1.)
6
2. Concepte de bază în Testarea
ipotezelor statistice
 Exemplu: Reprezentantul sindicatelor din industria hotelieră
susține că salariul mediu net al unui angajat în acest domeniu:
 nu este de 3500 lei:
H1: µ≠ 3500 (Test bilateral -TB)
 este mai mare de 3500 lei:
 H1: µ > 3500 (Test unilateral dreapta - TUD)
 este mai mic de 3500 lei:
 H1: µ < 3500 (Test unilateral stânga - TUS)

7
2. Concepte de bază în Testarea
ipotezelor statistice
c) Testul statistic propriuzis(criteriul de semnificaţie)

 Este un criteriu în funcţie de a cărui valoare se ia decizia de


acceptare sau de respingere a ipotezei nule.
 Se bazează pe un estimator punctual al parametrului ce va fi
testat (ex.: media eşantionului- x_bar)
 Reprezintă o variabilă aleatoare, ce urmează diferite distribuții
matematice:
 În cazul testării unei ipoteze referitoare la media unei populații
totale, se pot folosi:
 Testul z – dacă eșantionul este de volum mare (n>30)

 Testul t – dacă eșantionul este de volum redus (n≤30)


8
2. Concepte de bază în Testarea
ipotezelor statistice
d) Regiunea critică (de respingere) (Rr)
 Valorile numerice ale testului statistic pentru care ipoteza nulă
va fi respinsă.
 Regula de decizie:
 Dacă valoarea testului se găseşte în regiunea critică Rr, atunci se va
respinge ipoteza nulă (H0) și se va accepta ipoteza alternativă (H1);
 Dacă valoarea testului nu se regăseşte în Rr, nu avem suficiente
argumente pt. a respinge ipoteza nulă, deci o acceptăm.
 Intervalul de valori care nu se găseşte în regiunea critică se
numeşte “regiune non-critică” sau “regiune de acceptare” (Rac).
 regiunea critică este delimitată de valoarea critică, C – punctul
de tăietură în stabilirea acesteia.
 Ea este astfel aleasă încât probabilitatea ca ea să conţină testul
statistic, când ipoteza nulă este adevărată să fie α, cu α mic
(α=0.01, 0.05 etc). 9
2. Concepte de bază în Testarea
ipotezelor statistice
 Întrucât ipoteza nulă poate fi sau adevărată, sau falsă, deciziile adoptate în
urma testului statistic pot fi:
 Decizii corecte:
 Să nu respingem ipoteza nulă (să o acceptăm) atunci când ea este adevărată;
 Să respingem ipoteza nulă atunci când ea este falsă;
 Decizii incorecte:
 Să respingem ipoteza nulă atunci când ea este adevărată (eroare de genul
întâi);
 Să nu respingem ipoteza nulă atunci când ea este falsă (eroare de genul al
doilea);

10
2. Concepte de bază în Testarea
ipotezelor statistice

Decizia de Ipoteza adevărată


acceptare H0 H1
H0 Decizie corectă Eroare de gen II
(probabilitate 1-α) (risc β)
H1 Eroare de gen I Decizie corectă
(risc α) (probabilitate 1-β)

 Probabilitatea (riscul) comiterii unei erori de genul I = α


α= P(respingere H0 ‫ ׀‬H0 este adevărată)=P(eroare de gen I)
 Probabilitatea (riscul) comiterii unei erori de genul II = β
β= P(acceptare H0 ‫ ׀‬H0 este falsă)=P(eroare de gen II)
 “α” se mai numeşte prag/nivel de semnificaţie
 “1-α” se mai numeşte nivelul de încredere al testului
 “1- β” se mai numeşte puterea testului
11
3. Paşii pentru aplicarea procedurilor
de testare a ipotezelor statistice

 Paşi pentru aplicarea unui test statistic de verificare a ipotezelor:

1. Se formulează ipoteza nulă şi cea alternativă;


2. Se stabileşte testul statistic;
3. Se stabileşte regiunea critică şi pragul de semnificaţie (se da);
4. Se formulează principalele presupuneri despre populaţia eşantionată
(normalitate etc.);
5. Se calculează valoarea testului statistic, pe baza datelor culese de la
unităţile eşantionului;
6. Se formulează concluziile (se iau deciziile): ipoteza nulă este fie
acceptată, fie respinsă, astfel:
 dacă valoarea numerică a testului statistic cade în regiunea critică (Rc),
respingem ipoteza nulă şi concluzionăm că ipoteza alternativă este
adevărată. Această decizie este incorectă doar în 100 α % din cazuri;
 dacă valoarea numerică a testului nu cade în regiunea critică (Rc), se
acceptă ipoteza nulă H0.
12
Regiunea critică/de respingere

-tcrit 0 tcrit 0 tcrit - tcrit 0


Rr Rac Rr Rac Rr Rr Rac

Regiunea critică pentru a) Test bilateral; b) Test Unilateral Dreapta; c) Test Unilateral Stânga

13
Notaţii – variabilă non-alternativă
INDICATORUL COLECTIVITATEA COLECTIVITATEA DE
GENERALĂ SELECŢIE
(POPULAŢIA TOTALĂ) (EŞANTION)
PARAMETRII ESTIMATORI
N n

MEDIA x i xi 1
i
i 1
 x
N n

 x 
N n

 x  
2
DISPERSIA i
2
i x
(VARIANŢA) 2  i 1
s2  i 1
N n 1
ABATEREA MEDIE
 x 
N

 xi   2
n
2
PĂTRATICĂ i x
(ABATEREA   2  i 1
s s2  i 1

STANDARD) N n 1

14
4. TESTAREA IPOTEZEI PRIVIND MEDIA
POPULAŢIEI GENERALE (μ) PENTRU
EŞANTIOANE DE VOLUM REDUS (n≤30)
 Forma distribuţiei de eşantionare a mediei x depinde, de forma
populaţiei generale din care a fost extras eşantionul.
 Distribuţia de eşantionare a lui x va fi normală (sau aproximativ
normală), în cazul eşantioanelor de volum redus, doar dacă
colectivitatea generală este distribuită normal (sau aproximativ
normal).
 dispersia eşantionului ( s 2x ), poate să nu ofere o aproximare foarte
bună a lui  (în cazul eşantioanelor mici).
2
x

 Pentru efectuarea testării se utilizează statistica t, de forma:


x  0 x  0
t 
x s n
unde:

s 2

 x  x
i
2

n 1
15
Repartiţia Student
 Prin curba Student se înţelege graficul densităţii de probabilitate a repartiţiei
Student (de fapt o familie de curbe indexată prin numărul gradelor de
libertate).
 Curba este simetrică şi are o formă apropiată de curba normală standard
către care tinde o dată cu mărirea numărului de grade de libertate. Se poate
observa că probabilităţile extreme sunt mai mari decât în cazul curbei
normale.

 Pentru valori mici ale lui n se poate considera că T este repartizată Student cu
df=n - 1 grade de libertate (degrees of freedom).
 Adică P(a < T < b)  aria de sub curba S(n – 1) delimitată de x = a şi x = b
 Pentru n mare repartiţia Student aproximează repartiţia normală.
16
Repartiţia t (Student)

17
4. TESTAREA IPOTEZEI PRIVIND MEDIA
POPULAŢIEI GENERALE (μ) PENTRU
EŞANTIOANE DE VOLUM REDUS

 Test bilateral (TB):


H0: μ = μ0,
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0);
 Testul statistic utilizat:
x  0 x  0
tcalc  
x s n
 Regiunea critică/de respingere Rr este dată de:
 tcalc< - tcrit sau tcalc> tcrit
μ0 este valoarea ipotetica
unde tcrit = tα/2,n-1 este valoarea critică, determinată în funcţie de nivelul de
semnificaţie alfa şi de numărul gradelor de libertate. Se preia din tabelele
matematice ale repartiţiei Student, sau prin apelarea unor funcţii în diferite
programe soft specializate.
18
4. TESTAREA IPOTEZEI PRIVIND MEDIA
POPULAŢIEI GENERALE (μ) PENTRU
EŞANTIOANE DE VOLUM REDUS

 Test unilateral dreapta (TUD):


H0: μ = μ0
H1: μ > μ0

 Testul statistic utilizat:


x  0 x  0
tcalc  
x s n

 Regiunea critică/de respingere Rr este dată de:


 tcalc> tcrit
unde tcrit = tα,n-1
19
4. TESTAREA IPOTEZEI PRIVIND MEDIA
POPULAŢIEI GENERALE (μ) PENTRU
EŞANTIOANE DE VOLUM REDUS

 Test unilateral stânga (TUS):


H0: μ = μ0
H 1 : μ < μ0

 Testul statistic utilizat:


x  0 x  0
tcalc  
x s n
 Regiunea critică/de respingere Rr este dată de:
 tcalc < - tcrit
unde tcrit = tα,n-1
 Presupunerea specială ce trebuie făcută este aceea că populaţia generală
este normal sau aproximativ normal distribuită.
20
Tabel cu valorile repartiţiei Student în funcţie de probabilitatea
P t  t  şi numărul „f” al gradelor de libertate

Nivel de semnificaţie pentru testul bilateral


α 0,50 0,20 0,10 0,05 0,02 0,01 0,002 0,001 0,0001
f
1 1,000 3,078 6,314 12,706 31,821 63,657 318,309 636,618 6366,198
2 0,816 1,886 2,920 4,303 6,965 9,925 22,327 31,598 99,992
3 0,765 1,638 2,353 3,482 4,541 5,841 10,214 12,924 28,000
4 0,741 1,533 2,132 2,776 3,747 4,604 7,173 8,610 15,544
5 0,727 1,476 2,015 2,571 3,365 4,032 5,893 6,869 11,178
6 0,718 1,440 1,943 2,447 3,143 3,707 5,208 5,959 9,082
7 0,711 1,415 1,895 2,365 2,998 3,499 4,785 5,408 7,885
8 0,706 1,397 1,860 2,306 2,896 3.355 4,501 5,041 7,120
9 0,703 1,383 1,833 2,262 2,821 3,250 4,297 4,781 6,594
10 0,700 1,372 1,812 2,228 2,764 3,169 4,144 4,587 6,211
11 0,697 1,363 1,796 2,201 2,718 3,106 4,025 4,437 5,921
12 0,695 1,356 1,782 2,179 2,681 3,055 3,930 4,318 5,694
13 0,694 1,350 1,771 2,160 2,650 3,102 3,852 4,221 5,513
14 0,692 1,345 1,761 2,145 2,624 2,977 3,787 4,140 5,363
15 0,691 1,341 1,753 2,131 2,602 2,947 3,733 4,073 5,239
16 0,690 1,337 1,746 2,120 2,583 2,921 3,686 4,015 5,134
17 0,689 1,333 1,740 2,110 2,567 2,898 3,646 3,965 5,014
18 0,688 1,330 1,734 2,101 2,552 2,878 3,610 3,922 `4,966
19 0,688 1,328 1,729 2,093 2,539 2,861 3,579 3,883 4,897
20 0,687 1,325 1,725 2,086 2,528 2,845 3,552 3,850 4,837
21 0,686 1,323 1,721 2,080 2,518 2,831 3,527 3,819 4,784
22 0,686 1,321 1,717 2,074 2,508 2,819 3,505 3,792 4,736
23 0,685 1,319 1,714 2,069 2,500 2,807 3,485 3,767 4,693
24 0,685 1,318 1,711 2,064 2,492 2,797 3,467 3,745 4,654
25 0,684 1,316 1,708 2,060 2,485 2,787 3,450 3,725 4,619
26 0,684 1,315 1,706 2,056 2,479 2,779 3,435 3,707 4,587
27 0,684 1,314 1,703 2,052 2,473 2,771 3,421 3,690 4,558
28 0,683 1,313 1,701 2,048 2,467 2,763 3,408 3,674 4,530
29 0,683 1,312 1,699 2,045 2,462 2,756 3,396 3,659 4,506
30 0,683 1,310 1,697 2,042 2,457 2,750 3,385 3,646 4,482
35 0,682 1,306 1,690 2,030 2,438 2,724 3,340 3,591 4,389
40 0,681 1,303 1,684 2,021 2,423 2,704 3,307 3,551 4,321
45 0,680 1,301 1,679 2,014 2,412 2,690 3,281 3,520 4,269
50 0,679 1,299 1,676 2,009 2,403 2,678 3,261 3,496 4,288
60 0,679 1,296 1,671 2,000 2,390 2,660 3,232 3,460 4,169
70 0,678 1,294 1,667 1,994 2,381 2,648 3,211 3,435 4,127
80 0,678 1,292 1,664 1,990 2,374 2,639 3,195 3,416 4,096
90 0,677 1,291 1,662 1,987 2,368 2,632 3,183 3,402 4,072
100 0,677 1,290 1,660 1,984 2,364 2,626 3,174 3,390 4,053
120 0,677 1,289 1,658 1,980 2,358 2,617 3,160 3,373 4,025
200 0,676 1,286 1,653 1,972 2,345 2,601 3,131 3,340 3,970
500 0,675 1,283 1,648 1,965 2,334 2,586 3,107 3,310 3,922
1000 0,675 1,282 1,646 1,962 2,330 2,581 3,098 3,300 3,906
∞ 0,675 1,282 1,645 1,960 2,326 2,576 3,090 3,290 3,891
α 0,25 0,10 0,05 0,025 0,01 0,005 0,001 0,0005 0,00005
f
Nivel de semnificaţie pentru testul unilateral

21
EXEMPLUL 1
 Exemplu:
Conducerea unei firme apelează la 5 experţi pentru a previziona profitul acesteia în anul
curent. Valorile previzionate sunt: 2,60; 3,32; 1,80; 3,43; 2,00 (milioane lei, preţurile anului
anterior).
Ştiind că profitul firmei în anul anterior a fost de 2,01 mil. lei, sunt suficiente dovezi pentru
a concluziona că media previziunilor experţilor este semnificativ mai mare decât cifra anului
anterior (pentru α = 0,05)?
Soluție:
Notații:

X = profitul pe anul current (variabila statistică)


(xi): 2,60; 3,32; 1,80; 3,43; 2,00 (valorile variabilei)
n = 5 (volumul eșantionului)<30 esantion de volum redus
µ0 = 2,01 (valoarea ipotetică)
α = 0,05 (nivel de semnificatie, 5%)

22
EXEMPLUL 1

s  s 2  0,74

x x   2,63  2,01


tcalc     1,874
x s n 0,74 / 5

23
Exemplul 2.

20

24
Exemplul 2.

25
Exemplul 2.

26
Exemplul 2 – Sondaj statistic
 c) Estimați pe interval de încredere timpul mediu de servire al unui client al firmei
sale, garantând rezultatele cu o probabilitate de 99% (valoare critică: z=2,86)
 1. Se determină eroare standard a mediei:

 2. Se calculează erorea limită (folosind valoarea critica de la TB):

 3. Se determină intervalul de încredere pentru media populației totale:

27
Curs 3
Business & Turism

1
 A fost dezvoltată în 1918 de către RONALD FISHER.
 Obiectivul acestei metode este de a compara mediile a
2 sau mai multe populaţii, pentru date cantitative.
 O modalitate de a compara mediile a 3 sau mai multe
populaţii este de a utiliza de mai multe ori testul t sau
z (se compară prima cu a doua medie, apoi a doua cu a
treia etc.), însă ANOVA permite combinarea tuturor
acestor teste într-o singură procedură.
 Prin metoda ANOVA dispersia unei variabile este
partiţionată în componente atribuite unor surse de
variaţie diferite.

2
 Metoda studiază efectul uneia sau mai multor variabile
independente asupra unei variabilei dependente,
determinând gradul în care variaţia celei din urmă este
influenţată de variabila independentă.
 Are la bază metoda grupării, permiţând separarea
influenţei factorilor esenţiali (determinanţi) de influenţa
factorilor consideraţi întâmplători (aleatori) asupra
caracteristicii “efect”/dependente.
 în funcţie de numărul factorilor înregistraţi ce-şi exercită
influenţa asupra caracteristicii rezultative (unul, doi sau
mai mulţi), analiza dispersională se poate efectua după
un model unifactorial, bifactorial sau multifactorial.
3
 Selectăm un grup
de indivizi pe
care-l împărţim
apoi aleator în
subgrupuri
 Fiecare subgrup
primeşte sarcini
diferite, sau
fiecăruia i se
aplică tratamente
sau condiţii
diferite
 Se măsoară
răspunsul unei
variabile
dependente
comune

4
 Un cercetător doreşte să studieze dacă
diferitele strategii de alergare influenţează
timpul de realizare a unei curse de maraton.
El selectează mai mulţi voluntari şi îi împarte
aleator în 3 subgrupuri, alocând fiecăruia o
strategie diferită de alergare:
◦ (a) viteză mică la început, apoi creşte pe parcurs;
◦ (b) viteză mare la început, apoi încetinire.
◦ (c) viteză/ritm constant(ă) pe tot parcursul cursei.
 Timpul în care finalizează cursa de maraton
este rezultatul (variabila dependentă).
 Strategia de alergare este variabila de grupare
5
 Un producător de sucuri de mere a realizat un nou
produs: concentrat lichid. Acest produs are câteva
avantaje faţă de vechiul produs, printre care:
1. este mai practic (uşor) de utilizat;
2. are o calitate cel puţin la fel de bună ca şi a vechiului
produs;
3. preţul noului produs este semnificativ mai mic decât al
vechiului produs.

6
Pentru a decide care este cea mai bună strategie de
marketing, directorul Departamentului de marketing a
dispus realizarea unui studiu în 3 oraşe:
- în oraşul A, strategia s-a axat pe uşurinţa folosirii noului
produs;
- în oraşul B, strategia s-a axat pe calitatea net superioară a
noului produs;
- în oraşul C, strategia s-a axat pe preţul inferior al noului
produs.
În toate cele 3 oraşe, s-au înregistrat vânzările
săptămânale (u.m.), în mai multe săptămâni consecutive.

7
Strategia de Valoarea vânzărilor săptămânale (u.m) Număr de
marketing săptămâni
Uşurinţă în 53; 68; 79; 51; 66; 72; 71; 61; 46; 53; 10
folosire
Calitate 80; 63; 77; 72; 68; 60; 62; 70 8
Preţ 67; 53; 44; 60; 60; 50; 66; 69; 68; 51; 59; 49 12

Directorul de marketing ar dori să ştie dacă există


diferenţe semnificative între vânzările medii săptămânale
din cele 3 oraşe şi dacă strategia de marketing a
determinat o diferenţiere semnificativă a vânzărilor (nivel
de semnificaţie 5%).

8
 O populaţie este împărţită în “r” grupe, după valorile unei
variabile X (X – factorul de grupare sau variabila independentă).
Pentru fiecare unitate a populaţiei s-au înregistrat valorile unei
variabile Y. S-a extras aleator câte un subeşantion din fiecare
grupă a populaţiei totale.

9
 Mediile grupelor din populaţia totală (μi), i = 1, r
sunt estimate prin mediile grupelor din
eşantion: y i , i = 1, r
 Populaţia totală este împărţită în “r ” grupe,
după valorile variabilei X; Din fiecare grupă a
populaţiei totale este extras câte un
subeşantion de volum n1, n2, …, nr.
 Pentru fiecare unitate a eşantionului este
înregistrată valoarea variabilei dependente Y.

10
Pentru fiecare variantă/interval de variaţie a variabilei cauzale X, se
înregistrează o distribuţie de valori ale variabilei efect Y, distribuţie
pe care o putem caracteriza, de regulă, prin nivelul mediu. Astfel,
avem “r” medii parţiale (de grupă) ale variabileiY .

a) Medii parţiale egale; b) Medii parţiale diferite;


11
 Dacă aceste medii ale variabilei Y, pe grupe după X
sunt egale sau foarte puţin diferite, atunci se
concluzionează că variabila independentă X nu
influenţează variaţia variabilei dependente Y (vezi
figura din cazul a)
 Cu cât mediile lui Y pe grupe după X diferă mai mult
unele de altele, cu atât X influenţează mai mult pe Y
(vezi figura din cazul cazul b).

12
 Ipotezele ANOVA:
◦ ANOVA testează dacă există diferenţe semnificative între
mediile grupelor din populaţia totală (estimate prin mediile
grupelor din eşantion);
◦ Cu alte cuvinte, metoda testează dacă aceste diferenţe nu sunt
cumva prea mari pentru a fi explicate de factorii aleatori;
◦ Dacă cel puţin două medii diferă semnificativ, atunci variabila
X influenţează semnificativ variaţia variabilei Y.

13
 Ipoteza nulă susţine egalitatea între mediile grupelor din
colectivitatea generală, alcătuite după variabila X deci, factorul
de grupare nu influențează semnificativ variaţia variabilei
dependente.

H0 : μ1 = μ2 = μ3 =  = μr
Toate mediile sunt egale:
Nu există variaţie între
mediile grupelor (între grupe)

14
 Ipoteza alternativă susţine că cel puţin două medii ale grupelor din
populatia totală, alcătuite după variabila X, nu sunt egale deci, factorul de
grupare influențează semnificativ variaţia variabilei Y
H1 : i, j  1,2,..., r, i  j , astfel incat μi  μ j
Cel puţin o medie este diferită
Există variaţie între grupe

μ1=μ2 μ3 μ1 μ2 μ3

μ1 = μ2  μ3 μ1  μ2  μ3

15
 Condiţiile de aplicare ale metodei (Presupuneri)
✓cele “r” grupe din eşantion sunt extrase aleator
şi independent unele de altele din cele “r”
grupe ale colectivităţii totale;
✓fiecare grupă din colectivitatea generală are o
distribuţie normală
✓abaterile medii pătratice ale acestora sunt
egale:
 1 =  2 = ... =  r

16
 Variabilitatea datelor este factorul cheie prin care se testează
egalitatea mediilor.
 În ambele figuri de mai jos mediile sunt diferite, dar din
cauza împrăştierii mari a datelor (fig. B) diferenţele dintre
medii se estompează.

Variaţie mică în interiorul Variaţie mare în interiorul


grupelor grupelor
17
Datele sistematizate – pentru eşantion – arată
astfel:
Grupe Valorile variabilei Y Numar Media Dispersia
dupa X unitati grupei grupei
x1 y11, y12, …, y1j, …, y1n1 n1 y1 s12
x2 y21, y22, …, y2j, …, y2n2 n2 y2 s 22
… … …. ….. ….. …. …. …
xi yi1, yi2, …, yij, …, yini ni yi si2
… … …. ….. ….. …. …. …
xr yr1, yr2, …, yrj, …, yrnr nr yr s r2

18
 Media grupei “i” (parţială): Dispersia grupei “i” (parţială):

 (y )
ni

 yij
ni
2
ij − y i
j =1 si2 =
j =1 i = 1, r
yi = ni -1
ni
 Media generală (totală): Dispersia totală:

r ni

 y
r

y n
?
ij
i i
i =1 j =1
y = r
= i =1
r

n i n i =1
i
i =1

19
Factori sistematici, Factori neesenţiali,
Totalitatea determinanţi (X – aleatori (ceilalţi
factorilor de = +
factorul de factori, în afară de
influenţă ai lui Y grupare) X)

Variaţia din
Variaţia totală a = Variaţia dintre + interiorul grupelor
lui Y grupe

Varianţa totală a Varianţa sistematică,


lui Y = factorială (dintre + Varianţa reziduală
grupe) (din interiorul
grupelor)

SST = SSB + SSW 20


 Varianţa sistematică sau factorială sau Varianţa dintre grupe (Sum of Squares
Between Groups ) măsoară variaţia dintre grupele eşantionului, explicată de factorul
de grupare X: r
SSB =  ( y i - y) 2 n i
i =1
 Varianţa reziduală sau Varianţa din interiorul grupelor (Sum of Squares Within
Groups ) măsoară variaţia din interiorul grupelor eşantionului, explicată de factorii
aleatori: r ni r
SSW =  (yij - yi) 2 =  si2 (ni − 1)
i =1 j=1 i =1
 Varianţa totală (Sum of Total Squares) măsoară variaţia totală a variabilei Y la
nivelul eşantionului, explicată de influenţa tuturor factorilor (factorul de grupare X şi
factorii aleatori):
r ni 2

SST =  (yij - y) = SSB + SSW


i =1 j=1

21
 Pentru a compara varianţele, acestea se împart la gradele de libertate
(Degrees of Freedom), obţinându-se Dispersiile corectate (Medii ale
pătratelor - Mean Squares):
◦ Dispersia corectată factorială (dintre grupe) - Mean Squares
Between Groups: r

SSB SSB i =1  ( yi - y )2
ni
MSB = = =
df B r-1 r-1
◦ Dispersia corectată reziduală (din interiorul grupelor) -
Mean Squares Within Groups:
r ni r

SSW SSW
 (yij- yi)
i =1 j =1
2
 i (ni − 1)
s 2

MSW = = = = i =1
dfW n-r n-r n-r

22
 Dispersia corectata totala (Total Mean Square):
r ni

SST SST
 (yij- y
i =1 j =1
)2

SSB + SSW
MST = s = 2
= = =
n −1
y
dfT n-1 n-1

23
 Pentru testarea ipotezelor, se aplică testul F:
MSB Dispersia dintre grupe
Fcalc = =
MSW Dispersia din interiorul grupelor

◦ Valoarea calculată a testului F se compară cu valoarea critică, ce depinde


de nivelul de semnificaţie α şi de o pereche de grade de libertate (r-1) şi
(n-r): Fcrit = F α; r-1; n-r.

24
Regula de decizie este:
❖ dacă Fcalc ≤ F α; r-1; n-r , atunci: Fcalc ϵ Rac

- se acceptă ipoteza nula H0,


- mediile de grupă nu diferă semnificativ unele de altele,
iar eventualele diferenţe ce pot apare pot fi puse pe seama
întâmplării.
- variabila Y este independentă de factorul de grupare X
❖ dacă Fcalc> F α; r-1; n-r , atunci Fcalc ϵ Rr

- H0 se respinge, deci se acceptă H1,


- între mediile de grupă există o diferenţă semnificativă, care
nu poate fi pusă pe seama acţiunii factorilor aleatori.
- variabila Y depinde semnificativ de factorul de grupare X şi
trebuie aplicate în continuare metodele de analiză a
legăturilor dintre variabile.
25
 Regula de decizie:

26
Source of SS df MS Testul F
Variation
Between SSB MSB
SSB dfB = r - 1 MSB =
Groups F=
r-1 MSW
Within SSW
SSW dfB = n - r MSW =
Groups n-r
SST = dfT = n - 1
Total
SSB+SSW
r = numărul de grupe
n = volumul eşantionului
df = grade de libertate
27
 Rezolvare:
Strategia de Valoarea vânzărilor săptămânale (u.m) Număr de
marketing săptămâni
Uşurinţă în 53; 68; 79; 51; 66; 72; 71; 61; 46; 53; 10
folosire
Calitate 80; 63; 77; 72; 68; 60; 62; 70 8
Preţ 67; 53; 44; 60; 60; 50; 66; 69; 68; 51; 59; 49 12
Ipoteze:
H 0 : 1 = 2 = 3 între vânzările medii săptămânale nu
există diferențe semnificative deci, strategia de marketing NU
influențează semnificativ volumul vânzărilor;
H 1 :  i   j , i  j (i, j = 1,2,3) între cel puțin două
vânzări medii săptămânale există diferențe semnificative deci,
strategia de marketing influențează semnificativ volumul
vânzărilor
28
29
Valoarea medie a vânzărilor pentru fiecare strategie:

620 552
y1 = = 62 y2 = = 69 y3 =
696
= 58
10 8 12

Media generala a vanzarilor:

Dispersia vânzărilor pentru fiecare strategie:


s12 = 118 s22 = 51,71 s32 = 71,82

30
 Dispersiile grupelor:
Strategia de Valoarea vânzărilor săptămânale (u.m) Număr de
marketing săptămâni
Uşurinţă în 53; 68; 79; 51; 66; 72; 71; 61; 46; 53; 10
folosire
Calitate 80; 63; 77; 72; 68; 60; 62; 70 8
Preţ 67; 53; 44; 60; 60; 50; 66; 69; 68; 51; 59; 49 12

31
 Sum of squares:
r
SSB =  ( yi - y) 2 n i = (62 − 62,27) 2 10 + (69 − 62,27) 2  8 + (58 − 62,27) 2 12 = 581,86
i =1

 Mean of Squares:
SSB 581,86
MSB = = = 290,93
r -1 3 -1
SSW 2214
MSW = = = 82
n - r 30 - 3

32
 Testul F:

MSB 290,93
Fcalc = = = 3,55
MSW 82

Fcrit = F ,r −1,n − r = F0, 05; 2; 27 = 3,35

 Cum Fcalc  Fcrit respingem H0, acceptăm H1, cel puţin două vânzări
medii săptămânale, pentru două strategii diferă semnificativ. Putem, deci,
concluziona cu o probabilitate de 95%, că strategia de marketing aleasă
pentru promovarea produsului a determinat o diferenţiere semnificativă a
vânzărilor, influenţând variaţia acestora.

33
Convenience = utilitate,
uşurinţă în folosire
Quality = calitate
Price = preţ

34
Se bifează dacă în au fost Celulele ce conţin datele
selectate şi etichetele celor trei iniţiale
grupuri

Nivelul
de
semni-
ficaţie

Indică celula din foaia curentă de calcul începând


de la care se vor afişa rezultatele
35
Nivelul minim de
Degrees of semnificaţie pentru care
SSB SSW MSB
freedom se acceptă H1.

SST MSW Fcalc Fcrit

CONCLUZIE: Cum P-value < 0,05 se respinge H0 şi se acceptă H1.


36
 Funcții EXCEL:
◦ Pentru determinarea valorii critice:
 =F.INV.RT(alfa,df1,df2)
 = F.INV.RT(0.05,2,27) → returnează 3.35

◦ Pentru determinarea pvalue:


 =F.DIST.RT(Fcalc,df1,df2)
 = F.IDIST.RT(3.55,2,27) → returnează 0.04

37
38
Definirea variabilelor

Introducerea valorilor
variabilelor
39
40
41
42
Convenience = utilitate,
uşurinţă în folosire
Quality = calitate
Price = preţ

43
 Rezultatele se interpretează similar cu soluţia
EXCEL.
 Cum Fcalc  Fcrit respingem H0, acceptăm H1, cel puţin
două vânzări medii săptămânale, pentru două strategii
diferă semnificativ. Putem, deci, concluziona cu o
probabilitate de 95%, că strategia de marketing aleasă
pentru promovarea produsului a determinat o
diferenţiere semnificativă a vânzărilor, influenţând
variaţia acestora.
 p-value < α = 0,05, respingem H0, acceptăm H1.
 Probabilitatea maximă (acceptăm H1) = 100-pvalue %
= 100 - 4,3 = 95,7 %>95%

44
45
 Formulele devin:
m m r
y n
j=1
j ij  y j n .j
j=1
 y i n i.
i =1
yi = y= m
= r
m

nj=1
ij  n .j
j=1
 n i.
i =1

r r m
SSB =  ( yi - y) ni 2
SSW =  (yj - yi) n ij 2

i =1 i =1 j=1

46
În modelul de analiză bifactorială se identifică doi
factori de influenţă, iar variabilitatea caracteristicii
rezultative poate să fie pusă:

➢ pe seama influenţei primului factor;


➢ pe seama influenţei celui de-al doilea factor;
➢ pe seama interacţiunii celor doi factori;
➢ pe seama întâmplării (factorului rezidual).

47
❖ modelele de analiză dispersională nu explică relaţia dintre
variabile;
❖ verifică doar măsura în care valorile reale ale unei caracteristici
se abat de la valorile teoretice, precum şi măsura în care aceste
variaţii sunt sau nu dependente de factorul/factorii de grupare;
❖ metoda analizei dispersionale poate fi utilizată atât înaintea,
cât şi după aplicarea metodelor corelaţiei şi regresiei statistice;
❖ testul F se poate utiliza şi pentru testarea validităţii modelului
de regresie;
❖ în general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt
niveluri ale unei variabile categoriale (numite şi tratamente) dar,
cum ceea ce este valabil pentru o scală inferioară (nominală) este
valabil şi pentru orice altă scală superioară (ordinală, de intervale,
de rapoarte), analiza se poate extinde.

48
Econometrie - Curs 4,
BUSINESS&TOURISM, anul II, seria A

1
 Definiție: un set de date statistice care se
referă la două variabile statistice
 Analiza: vizează caracterizarea legăturii
dintre variabile
 Metode:
◦ Regresia – explică comportamentul unei variabile în
funcție de modificările celeilalte variabile
◦ Corelația – caracterizează intensitatea și sensul
legăturii dintre variabile
Unitatea
Variabila X Variabila Y
statistica
(xi) (yi)
1
x1 y1
2
x2 y2
3
x3 y3

…. ….
n
xn yn
 Definiţie: o relaţie matematică construită pe baza teoriei economice, care
presupune că fenomenul economic Y (fenomenul efect) este rezultatul
acţiunii a două categorii de factori:
◦ prima, constituită dintr-un singur factor principal, esenţial, determinant – X,
◦ a doua - formată din toţi ceilalţi factori – consideraţi neesenţiali, cu acţiune
întâmplătoare (specificaţi prin variabila reziduală “ε”) sau constantă,
invariabilă, asupra lui Y (şi deci nu au sens a fi specificaţi în model).
 Specificarea modelului unifactorial constă în precizarea variabilei
endogene Y şi a celei exogene X, pe baza teoriei economice; ca orice
ipoteză teoretică, ea poate fi adevărată sau falsă.
◦ y = f(x) + ε
 Identificarea modelului constă în alegerea unei funcţii (sau a unui grup
de funcţii) matematice, cu ajutorul căreia se urmăreşte să se descrie
valorile variabilei endogene, doar în funcţie de variaţia variabilei exogene
X. Identificarea modelului se poate face prin: • procedeul grafic; •
procedeul conservării ariilor; • procedeul calculelor algebrice.
4
1 factor esențial Factori neesențiali
(variabila (variabila reziduală,
independentă X) aleatoare ɛ)

Variabila dependentă (Y)

5
 Scop:
 Explică comportamentul unei variabile
dependente în funcție de variația valorilor
unei variabile independente, pe baza unui
model matematic numit model de regresie.;
 Permite previzionarea unei noi valori a
variabilei effect Y;
 Permite ajustarea şi controlul variabile efect,
prin intervenţia asupra variabilei cauză
 Presupune stabilirea relației de cauzalitate

6
 Keynes: C=f(V)
 Suma cheltuită pentru consum depinde de:
◦ mărimea venitului (V)
◦ prețuri, tarife
◦ alte obiective în funcţie de circumstanţe (de exemplu investiţiile)
◦ alte nevoi subiective
 Legea psihologică fundamentală: „o persoană este dispusă de
regulă şi în medie să îşi crească consumul odată cu creşterea
venitului dar nu în aceeaşi măsură”
 Presupunerea cea mai simplă: C=+V, 0<<1 este o relaţie
deterministă neadecvată.
 În model trebuie inclus şi factorul aleator:
C=f(V,)
 Modelul cel mai simplu:
C=+V+

7
8
9
1
0
 y=a+bx Y
1000

1 a + be x
y=a+bz, z=ex
a + b 
 x

y=a+br, r=1/x
800


 y=a+bq, q=ln(x) 600

a + bx

Sau
400


 y=αx  ln(y)=+ln(x) 200

 Forma generală: a + b ln ( x )

f(yi)= +g(xi)+i
0

 -1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X

 Contra exemplu: 1 -200

y = +
+x
nu poate fi transformat în
-400


model liniar.
Modele ce pot fi linearizate

11
 Modelul probabilistic la populației totale:

yi =  0 + 1  xi +  i
 unde
 (xi,yi) reprezintă valorile numerice ale variabilelor cauză şi
efect înregistrate la nivelul unităţii statistice „i”;
 β0, β1 = parametri constanţi
 β0 = interceptie= punctul de intersecţie al dreptei de regresie
cu axa Oy;
 β1 = panta dreptei, se mai numeşte şi „coeficient de regresie”
şi arată cu câte unităţi de măsură se modifică Y dacă X se
modifică cu o unitate de măsură;
 ɛi = componenta reziduală (eroare aleatoare) pentru unitatea
statistică „i”.

1
2
 Valoarea reală yi a caracteristicii Y din modelul
probabilistic cuprinde:
 - componenta teoretică, deterministă ( ŷi ), adică
partea din valoarea reală yi care se poate
determina pe baza modelului pentru o anumită
valoare xi:
 yˆ i =  0 + 1  xi (Ecuația de regresie liniară)
 - componenta aleatoare (reziduală), numită şi
eroarea aleatoare, (ɛi), reprezentând acea parte
din valoarea reală a lui Y care nu se poate
cuantifica.
 yi = yˆ i +  i

1
3
 Dacă datele disponibile provin dintr-un eşantion, avem n
perechi de observaţii reale: (x1,y1), (x2, y2), ... , (xn, yn), pe
baza cărora se vor estima parametrii ecuaţiei, β0 şi β1.
 Modelul de regresie în eşantion va fi:
yi = b0 + b1  xi + ei
ei = y i − yˆ i
yˆ i = b0 + b1  xi
 unde:
◦ b0 = estimatorul parametrului β0 din pop. Totală (interceptie);
◦ b1 = estimatorul parametrului β1 din pop. Totală (panta);
◦ ei = valoarea reziduală pt. unitatea “i” în eşantion.

14
15
 Estimarea parametrilor modelului se poate face prin
următoarele metode:
◦ Metoda punctelor empirice
◦ Metoda punctelor medii
◦ Metoda celor mai mici pătrate
◦ Metoda celor mai mici pătrate generalizată
◦ Metoda verosimilităţii maxime cu informaţie limitată sau completă
 Metoda celor mai mici pătrate presupune maximizarea
similitudinii, a gradului de asemănare a valorilor teoretice cu
valorile reale, deci minimizarea erorilor. Cum erorile se pot
produce intr-un sens sau în altul faţă de valorile reale, ea
presupune minimizarea sumei pătratelor reziduurilor (sau
erorilor):

16
Erorile pot fi pozitive sau negative, dupa cum
punctele sunt situate deasupra sau dedesubtul
dreptei de regresie

y1 − ŷ1 y 3 − ŷ 3
y 2 − ŷ 2

0
x1 x2 x3 X

17
S =  ei2 = ( yi − yˆ i ) =  ( yi − b0 − b1  xi ) → minim
2 2

 Condiţiile de ordin 1 de minimizare a funcţiei sunt:

 S
 b = 0   2( yi − b0 − b1  xi )(− 1) = 0   yi − nb0 − b1  xi = 0
 0
  
 S
=0  2 ( y i − b0 − b1  xi )(− xi ) = 0  xi y i − b0  xi − b1  xi
2
=0

 b1
nb0 + b1  xi =  yi

b0  xi + b1  xi =  xi yi
2

18
Aplicând metoda determinanţilor, se obţine:

b0 =
 yi  x i
b1 =
n y i

x y x
i i
2
i x i x y
i i

=
n x i

 xi x 2
i

b0 =
b0
=
 i  i − xi   xi yi
y  x 2

 n xi2 − ( xi )
2

b1 n   xi yi −  xi   yi
b1 = =
 n xi − ( xi )
2 2

19
 Rămâne de verificat dacă este verificată condiţia de ordin 2, adică soluţia găsită este un
punct de minim. Matricea derivatelor parţiale de ordin doi trebuie să fie pozitiv
definită:

  2 (S )  2 (S ) 
 2 2   2n 2 xi 
 2 b0 b0 b1   
= i
  (S )  ( S )  2 xi
2
2 xi2 
 b b 2 2   i 
 b1 
i
 1 0


2 n  0
 2
2 xi  0
 i
 2 2 2
4n xi − 4( xi ) = 4n ( xi − x)  0
 i i i
 Deci matricea este pozitiv definita.
20
 “b1” se mai poate scrie:
x y − x y
i i i i

b1 n   xi yi −  xi   yi n n n xy − x  y
b1 = = = =
 n xi − ( xi )  xi −   xi   i − x2
2 2 2 2 2
x
n  n 
  n
 Numărătorul lui “b1” este:

cov( x, y ) = xy − x  y =
 x y x y

i

i i i

n n n
 Numitorul lui “b1” este:

   xi
2
x 2

= − 
2 i
s x
n  n 
  21
 Deci “b1” se mai poate scrie: b = cov(x, y )
1 2
sx
 Din expresia coeficientului de corelaţie:
cov( x, y ) s x2 sx
rxy = = b1  = b1 
sx  s y sx  s y sy
 Rezultă deci că:

sy
b1 = rxy 
sx

22
Semnul lui b1 arată direcția sau sensul legăturii

𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥 𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥
𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥 𝑏1 < 0 𝑏1 = 0
𝑏1 > 0

Linii de regresie cu
a) pantă pozitivă
b) pantă negativă
23
c) pantă egală cu zero
 Semnificația estimatorului Intercept (b0)
◦ Reprezintă valoarea medie a variabilei dependente
Y, la o valoare a variabilei independente X egală cu
0
 Semnificația estimatorului Pantă (b1)
◦ Arată cu câte u.m. se modifică, în medie Y dacă X se
modifică cu 1 u.m.
◦ Semnul său indică direcția sau sensul legăturii:
 b1 >0 legătură liniară directă
 b1 <0 legătură liniară inversă
 b1 =0 lipsa legăturii liniare (variabile necorelate linear)

24
 Sistemul de ecuaţii normale are următoarele
proprietăţi:

◦ Variabila aleatoare are media 0

 (y i − yˆ i ) = 0   (ei ) = 0   (ei ) = 0

◦ Principiul conservării informaţiilor

 (y i − yˆ i ) = 0   yˆ i   y i

◦ Dreapta de regresie trece prin punctul M x, y ( )


b0 + b1  x = y
25
Pentru obţinerea unor estimatori de calitate, se formulează următoarele presupuneri
(ipoteze):

1. Valorile xi (fixate sau aleatoare) sunt statistic independente de variabila aleatoare


εi .
Dacă se acceptă că
cov( , x ) =
 ( )( )=  (
 i −  xi − x  i xi − x)0
n n
variabilele ε şi x sunt independente.

2. Variabilele aleatoare εi sunt statistic independente una de alta, adică

cov( i ,  j ) = 0 i j (non-autocorelarea reziduurilor).

Dacă cov(εi, εj) ≠ 0, i ≠ j spunem că erorile sunt autocorelate.

26
3. Valorile variabilei reziduale εi urmează o distribuţie
normală, de medie zero (  ( i ) = 0, i = 1, n ) şi dispersie
constantă şi nenulă, pentru toate valorile Xi:

 2  0  2 = const i = 1, n
(homoscedasticitatea erorilor).
Cu alte cuvinte, întrucât distribuţia variabilei reziduu
este independentă de valorile variabilelor explicative, nici
dispersia perturbaţiei nu diferă semnificativ în raport cu
valorile Xi, ceea ce indică o stabilitate relativă a legăturii
dintre variabila rezultativă şi variabilele factoriale.

27
28
Dispersia reziduurilor a) constantă; b) variabilă

29
Homoscedasticitatea erorilor

The probability density function for yt at two levels of household


income, xt. has the same variance.

30
Heteroscedasticitatea erorilor

The variance of yt increases as household income, xt , increases.

31
 - crearea bazei de date
 - realizarea si interpretarea corelogramei
 - estimarea parametrilor modelului de
regresie liniara
Un specialist în marketing dorește să studieze legătura dintre vânzările unei firme
producătoare de mobilă și cheltuielile cu reclama și publicitatea. Pentru aceasta sunt
înregistrate valorile celor două variabile pentru 24 de perioade consecutive (u.m.).
Se cere:
a) Să se analizeze legătura dintre cele două variabile utilizând metoda grafică.
b) În ipoteza unei legături liniare, să se determine ecuația de regresie liniară în eșantion și
să se interpreteze valorile estimatorilor b0 și b1 ai parametrilor modelului.
c) Să se arate dacă punctul de coordonate (4.2, 12.3) aparține dreptei de regresie. Care este
eroarea în acest caz?
d) Să se previzioneze valoarea vânzărilor, dacă s-au cheltuit 6 u.m. cu reclama și
publicitatea.

32
Crearea bazei
de date
-Structurarea bazei de
date
- Popularea bazei de date

33
34
CORELOGRAMA (SCATTER PLOT)

Legătură liniara
directa

35
 Corelograma (digrama norului de puncte,
diagrama de împrăștiere)
 Indică:
◦ existența
◦ direcția legăturii dintre variabile
◦ forma
 Existența legăturii

Există Nu există Nu există Nu există


legătură legătură legătură legătură
 Sensul legăturii:

Legătură Legătură
directă inversă

 Forma legăturii

Legătură
liniară Legături neliniare
38
39
40
Interpretarea estimatorilor
parametrilor modelului
Interpretari:
b0 = 6.581 inseamna ca: dacă cheltuielile cu publicitatea
sunt 0, atunci valoarea medie a vânzărilor ar fi de 6.581
u.m.

b1 = 1.072 inseamna ca: daca cheltuielile cu publicitatea


cresc cu 1 u.m., atunci valoarea vânzărilor creste, in medie
cu 1.072 u.m.
b1>0 inseamna ca exista o legatura directa intre variabile
X=chelt. Cu reclama (variabila independenta)
Y=vanzarile (variabila dependenta)
n=24 (perioade consecutive)

𝑦ො𝑖 = 6.581 + 1.072 ⋅ 𝑥𝑖 Ecuația de regresie


liniară

41
 xi=4.2, yi=12.3
 Dacă acest punct aparține dreptei, atunci el
îndeplinește condiția: yi= 𝑦ො𝑖
 Aceasta înseamnă că:
 12.3 = 6.581 + 1.072 ⋅ 4.2
 12.3 = 11.08 𝐹𝐴𝐿𝑆
 Punctul nu aparține dreptei de regresie
 Eroarea 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 =12.3-11.08=1.22

42
 Se consideră xi=6 și se înlocuiește în relația:
 𝑦ො𝑖 = 6.581 + 1.072 ⋅ 𝑥𝑖
 𝑦ො𝑖Τ𝑥𝑖 =6 = 6.581 + 1.072 ⋅ 6 = 13.01 𝑢𝑚

43
44
45
46
47
48
Econometrie
Modelul de regresie
liniară unifactorială (2)

Curs 5
1
Conţinutul cursului:

▪ Etapele elaborării şi aplicării modelului de


regresie liniară simplă.
▪ Ipotezele modelului de regresie liniară.
▪ Testarea validităţii modelului de regresie.
▪ Evaluarea calităţii ajustării oferite de modelul de
regresie (indicatorii de bonitate).
▪ Testarea semnificaţiei statistice a parametrilor
modelului şi determinarea intervalelor de
încredere ale acestora.
▪ Exemplu EXCEL si SPSS.
2
Etapele elaborării şi aplicării modelului
de regresie liniară simplă

▪ 1. Definirea, specificarea şi identificarea modelului de regresie în


populaţia totală şi în eşantion.
▪ 2. Verificarea ipotezelor modelului de regresie.
▪ 3. Estimarea parametrilor modelului (MCMMP).
▪ 4. Verificarea validităţii modelului (testul F).
▪ 5. Evaluarea calităţii ajustării oferite de modelul de regresie
(indicatorii de bonitate).
▪ 6. Testarea semnificaţiei statistice a parametrilor modelului (testul
t), obţinerea intervalelor de încredere ale acestora.
▪ 7. Măsurarea intensităţii legăturii dintre variabile şi testarea
semnificaţiei statistice a indicatorului utilizat.
▪ 8. Previzionarea (punctuală şi pe interval de încredere) a valorilor
variabilei dependente.

3
1. Definirea, specificarea şi
identificarea modelului de regresie
▪ Modelul în populaţia totală:
yi = 0 + 1  xi +  i
▪ unde β0, β1 = parametrii modelului
▪ Modelul în eşantion:
yi = b0 + b1  xi + ei
▪ unde b0, b1 = estimatorii parametrilor modelului.
▪ Ecuaţia de regresie liniară in esantion:
yˆi = b0 + b1  xi
4
2. Ipotezele modelului unifactorial de
regresie liniară
Pentru obţinerea unor estimatori de calitate, se formulează următoarele presupuneri
(ipoteze):

1. Valorile xi (fixate sau aleatoare) sunt statistic independente de variabila aleatoare


εi .
Dacă se acceptă că: cov( , x )  0

variabilele ε şi x sunt independente.

2. Variabilele aleatoare εi sunt statistic independente una de alta, adică

cov( i ,  j ) = 0 i  j (non-autocorelarea reziduurilor).


Dacă cov(εi, εj) ≠ 0, i ≠ j spunem că erorile sunt autocorelate.

5
2. Ipotezele modelului unifactorial de
regresie liniară
3. Valorile variabilei reziduale εi urmează o distribuţie normală,
de medie zero (  ( i ) = 0, i = 1, n ) şi dispersie constantă şi
nenulă, pentru toate valorile Xi:

 2  0  2 = const i = 1, n

(homoscedasticitatea erorilor).
Cu alte cuvinte, întrucât distribuţia variabilei reziduu este
independentă de valorile variabilelor explicative, nici dispersia
perturbaţiei nu diferă semnificativ în raport cu valorile Xi, ceea
ce indică o stabilitate relativă a legăturii dintre variabila
rezultativă şi variabilele factoriale.

6
Normalitatea erorilor

7
Homoscedasticitatea /
heteroscedasticitatea erorilor

Dispersia reziduurilor a) constantă; b) variabilă

8
Homoscedasticitatea erorilor

The probability density function for yt at two levels


of household income, xt. has the same variance.
9
Heteroscedasticitatea erorilor

The variance of yt increases as household income, xt ,


increases.
10
3. Estimarea parametrilor
modelului
▪ Metoda celor mai mici pătrate:
S =  ei2 = ( yi − yˆ i ) → minim
2

▪ nb0 + b1  xi =  yi

b0  xi + b1  xi =  xi yi
2

b0 =
b0
=
 y   x − x   x y
i
2
i i i i

 n x − ( x )
2 2
i i

b1 n   xi yi −  xi   yi
b1 = =
 2
(
n xi −  xi )2

11
Estimarea parametrilor modelului unifactorial
liniar
Semnul lui b1 arată direcția sau sensul legăturii

Linii de regresie cu
a) pantă pozitivă
b) pantă negativă
c) pantă egală cu zero

12
Estimarea parametrilor modelului unifactorial
liniar

▪ Semnificația estimatorului Intercept (b0)


▪ Reprezintă valoarea medie a variabilei dependente
Y, la o valoare a variabilei independente X egală cu 0
▪ Semnificația estimatorului Pantă (b1)
▪ Arată cu câte u.m. se modifică, în medie Y dacă X se
modifică cu 1 u.m.
▪ Semnul său indică direcția sau sensul legăturii:
▪ b1 >0 legătură liniară directă
▪ b1 <0 legătură liniară inversă
▪ b1 =0 lipsa legăturii liniare (variabile necorelate linear)

13
4. Testarea validităţii modelului
▪ Analiza de varianţă (ANOVA) şi Testul Fisher (testul F).
(
y i − y = ( y i − yˆ i ) + yˆ i − y )
▪ unde:
▪ yi − y este deviaţia totală
▪ yi − yˆ i este deviaţia neexplicată de model (eroare).
▪ yˆ i − y este deviaţia explicată de model (de infl. Lui
X)

unde:
y = media variabilei dependente Y
yi = valorile observate (reale) ale variabilei dependente
ŷ i = valorile previzionate ale lui Y pentru un xi dat
12
4.Testarea validităţii modelului

 (y ) =  (yˆ ) +  (y
n n n
− yˆ i )
2 2
−y −y
2
i i i
i =1 i =1 i =1

Varianţa reziduală a
Varianţa totală a Varianţa de regresie
variabilei Y (a
variabilei Y a variabilei Y
erorilor) (neexplicată
(determinată de toţi (explicată de modelul
de modelul de
factorii de influenţă) de regresie)
regresie)

Total Sum Regression Sum Error Sum


of Squares of Squares of Squares
SST SSR SSE

13
4. Testarea validităţii modelului
Varianţa (Sum of Squares)
n
▪ SST =  ( yi − y) 2 = Total Sum of Squares (varianţa totală)
i =1
▪ Măsoară variaţia valorilor yi în jurul mediei lor
n
▪ SSR =  ( yˆ i − y ) 2 = Regression Sum of Squares (varianţa
i =1 de regresie)
▪ Măsoară variaţia lui Y datorată relaţiei liniare dintre X
şi Y (explicată de model, de influenta lui X)
n
▪ SSE =  ( yi − yˆ i ) 2 = Error Sum of Squares (varianţa
i =1
reziduală sau a erorilor)
▪ Măsoară variaţia lui Y datorată factorilor aleatori
(neexplicată de model, neexplicata de X)

SST = SSR + SSE


14
4. Testarea validităţii modelului
Y
yi 
 2 y
SSE = (yi - yi )
_
SST = (yi - y)2

y  _2
_ SSR = (yi - y) _
y y

xi X
15
4.Testarea validităţii modelului
Dispersiile corectate (Mean Squares)

▪ Dispersia corectată de regresie MSR = SSR = SSR


(Regression Mean Squares) df R k

▪ Dispersia corectată reziduală SSE SSE


(a erorilor)(Error Mean Squares): MSE = s 2
= =
df E n − k − 1
e

unde k reprezintă numărul variabilelor independente (k=1)


iar n este volumul eşantionului.
▪ Dispersia totală (MST): sT2 = SST = SST = SSR + SSE
dfT n − 1 n −1
16
4.Testarea validităţii modelului

▪ Ipotezele testate:
▪ H0: MSRP = MSEP (influenţa lui X asupra lui Y este
egală cu cea a factorilor aleatori) (Modelul nu este
valid)
▪ H1: MSRP > MSEP (influenţa lui X asupra lui Y este
semnificativ mai mare decât cea a factorilor aleatori)
(Modelul este valid)
▪ Testul F (Fisher): se aplica precum un TUD
MSR SSR SSE
Fcalc = = :
MSE k n − k −1
Valoarea calculată a testului F se compară cu valoarea
critică Fα,k,n-k-1
17
4.Testarea validităţii modelului

▪ Regula de decizie:
▪ Dacă Fcalc≤ Fα,k,n-k-1, atunci se acceptă H0, variaţia lui Y
datorată lui X nu diferă semnificativ de variaţia lui Y
datorată factorilor aleatori şi modelul de regresie nu
este valid
▪ Dacă Fcalc> Fα,k,n-k-1 atunci se respinge H0, se acceptă
H1, variaţia lui Y datorată lui X este semnificativ mai
mare decât variaţia lui Y datorată factorilor aleatori şi
modelul de regresie este valid.
▪ Rezultatele se trec în următorul tabel:

18
▪ Regula de decizie:

21
4.Testarea validităţii modelului

Source of df (Degrees of
SS (Sum of Squares) MS (Mean Squares) F-test
variation freedom)

( )
(Regression) n
SSR MSR
SSR =  yˆ i − y
2
MSR = Fcomp =
Explicata de i =1 dfR = k k MSE
model
(Error/Residual) n
SSE
SSE =  ( yi − yˆ i ) MSE =
2
Explicata de dfE = n- k-1 n − k −1
factorii aleatori i =1

( )
n
SST =  yi − y
2
Total dfT = n- 1 -
i =1

19
5.Evaluarea calităţii ajustării oferite de
modelul de regresie

▪ 5.1. Coeficientul de determinaţie


▪ Coeficientul de determinaţie reprezintă proporţia din
variaţia totală a lui Y care este explicată de linia de
regresie (de influenta lui X).

( )
n n

 ( yi − yˆi )
2
yˆ i − y
2

SSR SSE
R2 = = 1− = 1− i =1
= i =1

 (y − y )  (y − y )
n n
SST SST 2 2
i i
i =1 i =1

R 2  0,1

20
5. Evaluarea calităţii ajustării oferite de
modelul de regresie
▪ Raportul (coeficientul) de determinatie ia valori in intervalul [0,1].
▪ Interpretare: 
▪ R2 = 0 dacă b1=0, y = y , deci dacă ecuaţia de regresie este o dreaptă
orizontală. În acest caz variabila X nu are putere explicativă (X nu
influenteaza variatia lui Y).
▪ R2 = 1 dacă punctele determinate de observaţiile făcute asupra variabilelor
X şi Y se află toate pe o dreaptă, caz în care erorile vor fi zero.
▪ În cazul în care toate valorile lui Y se află pe o dreaptă verticală, R2 nu are
nici o semnificaţie şi nu poate fi calculat.
▪ R = R 2 unde R este raportul de corelatie, cu valori in intervalul [0,1].
▪ Daca R→1 legatura dintre X si Y este puternica.
▪ Daca R →0 legatura dintre X si Y este slaba.
▪ In cazul legaturilor liniare, R = rxy
24
5. Evaluarea calităţii ajustării
oferite de modelul de regresie
Y
rxy = -1
Relaţie inversă/directă liniară
perfectă între X and Y.
R=1
100% din variaţia lui Y este
X explicată de variaţia lui X
Y rxy = +1 !!! R nu arată direcţia
legăturii dintre X şi Y.

X
R=1
22
5. Evaluarea calităţii ajustării
oferite de modelul de regresie

R=0
Y
Nu există legătură între X şi
Y (liniară sau neliniară)

Valorile lui Y nu depind de


R=0
X X. (Nimic din variaţia lui Y
nu este explicat de variaţia
lui X)

23
5. Evaluarea calităţii ajustării
oferite de modelul de regresie

▪ Testarea semnificaţiei raportului de corelaţie


se face utilizând statistica F (TUD):
▪ H0: R = 0 (R nu este semnificativ statistic)
▪ H1: R > 0 (R este semnificativ statistic)
▪ n − k −1 R2 MSR
Fcalc =  = = Fcalc ( valid.model)
k 1− R 2
MSE

▪ Dacă Fcalc > Fcrit se respinge H0, se acceptă H1


variabila X are o influenţă semnificativă asupra
variabilei rezultative Y, si R este semnificativ
statistic. 24
5. Evaluarea calităţii ajustării oferite de
modelul de regresie

Coeficientul
. de determinaţie ajustat se ajustează coeficientul de determinaţie cu
gradele de libertate
2 SSE / n − k − 1
R = 1−
SST / n − 1
Valoarea lui R 2 este întotdeauna mai mică decât coeficientul de determinaţie R2.
Raportul de corelaţie se determină pentru legături de tip liniar sau neliniare
Egalitatea r= R este un test de liniaritate pentru model
În analiza corelaţiei simple liniare se observă că:

 (yˆ − y ) = b  ( x − x)
n n
2 2 2
r2 = R2, deoarece, cum
i 1 i
i =1 i =1

 (yˆ − y )
n n

 ( x − x)
2 2
i i 2
s
R 2
= i =1
=b  2
=b
i =1
=r 2 x 2

 (y − y )  (y − y )
n 1 n 1 2
2 s 2
y
i i
i =1 i =1

25
5. Evaluarea calităţii ajustării
oferite de modelul de regresie
▪ 5.2. Abaterea standard a erorilor (Standard Error) în
eşantion este:
n

 ( y − yˆ )
2
i i
SSE SSE
se = se2 = = = i =1
n − k −1 n−2 n−2
unde s e este un estimator nedeplasat al dispersiei reziduurilor  
2 2

se este util în compararea modelelor. Dacă avem la dispoziţie


câteva modele dintre care trebuie să alegem, cel mai potrivit a fi
utilizat este cel pentru care se este mai scăzut.
se este un indicator important în determinarea intervalului de
încredere pentru coeficientul de regresie β1 şi pentru intercepţia β0.

29
Comparare Standard Error

Y Y

valoare s e redusa X valoare se mare X

Mărimea lui se ar trebui judecată comparativ cu mărimea


valorilor lui Y în eşantion.

27
Observaţii

▪ Modelul de regresie liniară se bazează pe minimizarea


sumei pătratelor erorilor.
▪ Dacă există valori de tip outliers, atunci pătratele erorilor
corespunzătoare lor – cu valori mari – pot avea o
influenţă puternică asupra liniei de regresie.
▪ Se recomandă examinarea grafică a datelor, pentru
detectarea eventualelor valori extreme (de tip outliers).
▪ Decideţi, pe baza logicii şi a modelului, dacă aceste valori
extreme rămân sau vor fi eliminate.

28
6. Testarea semnificaţiei parametrilor modelului
de regresie liniară unifactorială şi determinarea
intervalelor lor de încredere
▪ Estimatorii “b0” şi “b1” ai parametrilor din ecuaţia de regresie în
colectivitatea generală sunt variabile aleatoare, având distribuţii de
eşantionare, cu următoarele proprietăţi:
▪ “b0” şi “b1” sunt estimatori nedeplasaţi ai parametrilor “β0” şi “β1”, adică:
▪ Distribuţiile de eşantionare ale estimatorilor “b0” şi “b1” sunt normal
distribuite, cu mediile “β0” şi “β1” şi dispersiile: s 2 şi 2
b0 sb1
 (bo ) = 0  (b1 ) = 1

s =s
2 2

 x 2
i
1
n (x − x ) sb21 = se2 
b0 e

 (x − x )
2
i 2
i
 
 
( )
2
sb20 = se2  + n 
 i i
1 x
− ˆ 2
y y
n  se2 =



i =1
( xi − x ) 
2


n−2
32
6.1. Testarea semnificaţiei
parametrului “β1” (panta dreptei)

▪ Ipotezele statistice pestru testul bilateral:


▪ H0: β1 = 0
▪ H1: β1 ≠ 0

▪ Testul t:
b1 −  (b1 ) b1 − 0 b1
tcalc = = =
sb1 sb1 sb1

▪ Reg. critică: dacă t calc  −t / 2,n − 2 sau t calc  t / 2,n−2 se


respinge H0.

30
6.1. Testarea semnificaţiei parametrului
“β1” (panta dreptei)

▪ Teste unilaterale:
▪ Test unilateral dreapta:
▪ H0: β1 = 0 b1 −  (b1 ) b1 − 0 b1
▪ H1: β1  0 tcalc = = =
sb1 sb1 sb1
▪ Test unilateral stânga:
▪ H0: β1 = 0
▪ H1: β1  0
▪ Regiunea critică:
▪ Pt. test unilat. dreapta:
t calc  t ,n − 2
▪ Pt. test unilat. stânga: t calc  −t ,n − 2
▪ Intervalul de încredere pentru “β1”:
b1 − t / 2,n − 2  sb1  1  b1 + t / 2,n − 2  sb1
34
6.2. Testarea semnificaţiei parametrului
“β0” (Intercepţia)

▪ Ipotezele statistice pestru testul bilateral:


▪ H0: β0 = 0
▪ H1: β0 ≠ 0
▪ Testul t:
b0 −  (b0 ) b0 − 0 b0
tcalc = = =
sb0 sb0 sb0
▪ Reg. critică: dacă t calc  −t / 2,n − 2 sau t calc  t / 2,n − 2
se respinge H0.
▪ Intervalul de incredere pentru parametrul β0 este:

b0 − t / 2,n − 2  sb0   0  b0 + t / 2,n − 2  sb0

35
Compararea erorilor standard
ale pantei dreptei de regresie
Sb1 este o măsură a variaţiei pantei dreptelor de regresie
pentru mai multe eşantioane.

Y Y

X X
valoare mica a lui Sb1 valoare mare a lui Sb1

33
7. Exemplu:
Variabilele statistice:
-Cheltuielile cu publicitatea (unit.monetare)
- Valoarea vânzărilor (mii unit. monetare)
-Volumul eşantionului: n = 24 unităţi hoteliere

a) Testaţi validitatea modelului de regresie,


pentru α = 0,05.
b) Determinaţia şi interpretaţi coeficientul
de determinaţie.
c) Măsuraţi intensitatea legăturii dintre
variabile şi testaţi semnificaţia statistică
a indicatorului utilizat.
d) Testaţi semnificaţia statistică a parametrilor
modelului, determinaţi şi interpretaţi
intervalele lor de încredere.
34
CORELOGRAMA
(SCATTER PLOT)

Legătură liniara
directa

38
Interpretarea estimatorilor
parametrilor modelului

Interpretari:
b0 = 6.581 inseamna ca: dacă cheltuielile cu publicitatea sunt 0,
atunci valoarea medie a vânzărilor ar fi de 6.581 u.m.

b1 = 1.072 inseamna ca: daca cheltuielile cu publicitatea cresc


cu 1 u.m., atunci valoarea vânzărilor creste, in medie cu 1.072
u.m.
b1>0 inseamna ca exista o legatura directa intre variabile
X=chelt. Cu reclama (variabila independenta)
Y=vanzarile (variabila dependenta)
n=24 (perioade consecutive)

Ecuația de regresie
liniară

39
▪ Data / Data Analysis / Regression

40
Regression
Statistics
Multiple R R = 0,92
R Square R2 =0,84
Adjusted R 2
Square R = 0,83
Standard Error Se = 0,74
Observations n = 24

ANOVA
df SS MS F Significance F

Regression k = 1 SSR = 62,58 MSR = 62,58 Fcalc = 115,11 0,0000000003


Residual n-k-1 =22 SSE =11,96 MSE = 0,54
Total n-1 =23 SST =74,54 -

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept b0 = 6,58 Sb0 = 0,40 tcalc (β0) =16,41 0,0000000000001 5,75 7,41
Cheltuieli cu
publicitatea
(units) b1 = 1,07 Sb1 = 0,10 tcalc (β1) =10,73 0,0000000003305 0,86 1,28
35
EXEMPLU – soluție EXCEL
▪ a) Testarea validitatii modelului
▪ H0: MSRP = MSEP (Modelul nu este valid)
▪ H1: MSRP > MSEP (Modelul este valid)
▪ Testul F (Fisher):
Fcalc=MSR/MSE
MSR=SSR/k=62.58/1=62.58
MSE=SSE/(n-k-1)=11.96/22=0.54
Fcalc=MSR/MSE=62.58/0.54=115.11
K=1
n=24
EXEMPLU – soluție EXCEL

▪ Fcrit=F0.05,1,22= 4.3
▪ Fcalc > Fcrit , Fcalc ϵ Rr, resping H0, accept H1,
modelul este valid (garantat cu 95% prob.)
▪ Significance = 0.00…03 < α resping H0, accept
H1, modelul este valid
▪ Prob.max(modelul este valid)=Prob.max(accept
H1) = 100-Significance%=99,99…97%>95%
EXEMPLU – soluție EXCEL
▪ b) Calculați și interpretați coeficientul de
determinație.
▪ R2=SSR/SST
▪ SST=SSR+SSE=62.58+11.96=74.54
▪ R2=SSR/SST=62.58/74.54=0.84 ϵ [0,1]
▪ R2= R Square (tabel 1, Excel)
▪ Interpretare: 84% din variația valorii vânzărilor
este determinată de cheltuielile cu publicitatea
(este explicată de modelul de regresie)
▪ 100-84=16% - influența factorilor aleatori
EXEMPLU – soluție EXCEL

EXEMPLU – soluție EXCEL


Exemplu – Soluție SPSS

Chap 12-47
Modelul de regresie liniară
unifactorială (3)

Econometrie - Curs 6,
Facultatea Business&Turism,
Seria A, anul II

1
Cuprinsul cursului
◼ 6. Testarea semnificaţiei statistice a parametrilor
modelului şi determinarea intervalelor de încredere ale
acestora.
◼ 7. Măsurarea intensităţii legăturii dintre variabile.
◼ 2.1. Raportul de corelaţie. Testarea semnificaţiei raportului
de corelaţie.
◼ 2.2. Coeficientul de corelaţie liniară Pearson: calcul,
interpretare, testarea semnificaţiei.
◼ Aplicaţie (SPSS şi Excel).

2
6. Testarea semnificaţiei parametrilor
modelului de regresie liniară unifactorială şi
determinarea intervalelor lor de încredere
◼ Estimatorii “b0” şi “b1” ai parametrilor din ecuaţia de regresie în
colectivitatea generală sunt variabile aleatoare, având distribuţii de
eşantionare, cu următoarele proprietăţi:
◼ “b0” şi “b1” sunt estimatori nedeplasaţi ai parametrilor “β0” şi “β1”,
adică:
◼ Distribuţiile de eşantionare ale estimatorilor “b0” şi “2b1” sunt normal
2
distribuite, cu mediile “β0” şi “β1” şi dispersiile: sb0 şi sb
 (bo ) = 0  (b1 ) = 1
1

s =s
2 2

 x 2
i
sb21 = se2 
1
n (x − x )  (x − x )
b0 e 2 2
i i

 
 
sb20 = se2  + n
1 x 2
 (
 i i
y − ˆ
y )2

n  se2 =
  ( xi − x ) 2
 n−2
 i =1 
3
6. Testarea semnificaţiei
parametrului “β1” (panta dreptei)
◼ Ipotezele statistice pestru testul bilateral:
◼ H0: β1 = 0 (β1 nu este semnificativ statistic)
◼ H1: β1 ≠ 0 (β1 este semnificativ statistic)

◼ Testul t :
b1 −  (b1 ) b1 − 0 b1
tcalc = = =
sb1 sb1 sb1

◼ Reg. critică: dacă t calc  −t / 2,n − 2 sau t calc  t / 2,n − 2 se respinge
H0.
◼ unde tcrit= tα/2,n-k-1 =tα/2,n-2

30
6. Testarea semnificaţiei
parametrului “β1” (panta dreptei)

◼ Test unilateral dreapta:

◼ H0: β1 = 0 (β1 nu este semnificativ statistic)


◼ H1: β1  0 (β1 este semnificativ statistic si pozitiv)

◼ Testul t: b1 −  (b1 ) b1 − 0 b1
tcalc = = =
sb1 sb1 sb1

◼ Regiunea critică: t calc  t ,n − 2

◼ unde tcrit= tα,n-k-1 =tα,n-2

5
6. Testarea semnificaţiei
parametrului “β1” (panta dreptei)
◼ Test unilateral stanga:
◼ H0: β1 = 0 (β1 nu este semnificativ statistic)
◼ H1: β1  0 (β1 este semnificativ statistic si negativ)

◼ Testul t: tcalc = b1 −  (b1 ) = b1 − 0 = b1


sb1 sb1 sb1

t calc  −t ,n − 2
◼ Regiunea critică:

◼ unde tcrit=tα,n-2

6
6. Testarea semnificaţiei
parametrului “β0” (intercepția)
◼ Ipotezele statistice pestru testul bilateral:
◼ H0: β0 = 0 (β0 nu este semnificativ statistic)
◼ H1: β0 ≠ 0 (β0 este semnificativ statistic)

◼ Testul t :
b0 −  (b0 ) b0 − 0 b0
tcalc = = =
sb0 sb0 sb0

◼ Reg. critică: dacă t calc  −t / 2,n − 2 sau t calc  t / 2,n − 2 se respinge
H0.
◼ unde tcrit=tα/2,n-2

30
6. Intervalele de încredere pentru
parametrii modelului (β0 , β1)

b0 − t / 2,n − 2  sb0   0  b0 + t / 2,n − 2  sb0 Intervalul pentru β0

8
6. Intervalele de încredere pentru
parametrii modelului (β0 , β1)

◼ Interpretare:
◼ Dacă valoarea lui X este egală cu 0, atunci valoarea medie
a lui Y este cuprinsă între Lower(β0) și Upper(β0)
◼ Intervalul pentru β1
b1 − t / 2,n − 2  sb1  1  b1 + t / 2,n − 2  sb1

◼ Lower(β1) Upper(β1)
◼ Interpretare:
◼ - semnul limitelor: idem β0
◼ - dacă valoarea lui X se modifică cu 1 u.m., valoarea lui Y se modifică
în medie cu o valoare cuprinsă între Lower(β1) și Upper(β1)

9
7.Măsurarea intensităţii legăturii dintre
variabile – Raportul de corelaţie
◼ Raportul de corelaţie
◼ Măsoară intensitatea legăturii liniare sau neliniare dintre
două sau mai multe variabile statistice.

( )
n n

 ( yi − yˆi )
2
yˆ i − y
2

SSR SSE
R = R2 = = 1− = 1− i =1
= i =1

 (y − y )  (y − y )
n n
SST SST 2 2
i i
i =1 i =1

R  0,1

◼ Dacă R → 0 există o legătură slabă între variabile


◼ Dacă R → 1 există o legătură puternică între variabile
3
7. Măsurarea intensităţii legăturii dintre
variabile – Raportul de corelaţie
În cazul legăturii liniare este adevărată egalitatea:

rxy= R

Legătură liniară Legătură liniară Nu există


perfectă inversă perfectă directă legătură

Observație: semnul lui R fiind întotdeauna pozitiv, R nu poate indica sensul/direcția legăturii.
11
2.1. Măsurarea intensităţii legăturii dintre
variabile – Raportul de corelaţie
◼ Testarea semnificaţiei raportului de corelaţie R se
face utilizând statistica F:
◼ H0: R = 0 (R nu este semnificativ statistic)
◼ H1: R > 0 (R este semnificativ statistic)
◼ n − k −1 R2 MSR
Fcalc =  = = Fcalc ( valid.model)
k 1− R 2
MSE
◼ Dacă Fcalc > Fcrit se respinge H0, se acceptă H1 variabila X
are o influenţă semnificativă asupra variabilei rezultative
Y, si R este semnificativ statistic.
5
7. Măsurarea intensităţii legăturii
dintre variabile – Coeficientul de
corelaţie
◼ r xy = r =coeficientul de corelație liniară Pearson
n

 ( x − x)( y

i i − y)
cov(x, y )
rxy = = i =1

n rxyϵ [-1,1]
2  2
sx s y n

 i ( x − x )   i ( y − y ) 
 i =1   i =1 

◼ sau, prin transformări elementare:


n n n
- Semnul lui rxy arata
n x i yi −  x i  yi directia legaturii, iar
rxy = i =1 i =1 i =1
valoarea sa absoluta
 n 2  n 
2
  n
 n
 
2
arata intensitatea ei.
  i   i    i   i  
− −
2
n x x n y y
 i =1  i =1    i =1  i =1   - Se aplica numai in
cazul legaturilor liniare
13
7. Măsurarea intensităţii legăturii dintre
variabile – Coeficientul de corelaţie
◼ Din expresia coeficientului de corelaţie:
cov(x, y ) s x2 sx
rxy = = b1  = b1 
sx  s y sx  s y sy
◼ coeficientul de corelaţie din populația totală ( ):
N

COV ( X , Y )  xy  (x i −  X )( yi − Y )
= = = i =1
 x y  x y  N 2 
N
2
 
 i =1
( xi −  X )  
  i =1
( y i −  Y ) 

◼ Media estimatorului rxy este  (r) =  , iar abaterea medie


pătratică este 2
1− r
sr =
n−2
◼ cu condiţia ca cele două variabile să aibă o distribuţie
bivariată normală
14
7. Măsurarea intensităţii legăturii dintre
variabile – Coeficientul de corelaţie

◼ Testarea semnificației statistice a coef. de corelația în


populația totală (ρ)
◼ H0 : ρ = 0 (ρ nu este semnificativ statistic)
◼ H1 : ρ  0, (TB - ρ este semnificativ statistic)
◼ H1 : ρ > 0, (TUD - ρ este semnificativ statistic și pozitiv)
◼ H1 : ρ < 0, (TUS - ρ este semnificativ statistic și negativ)
◼ Statistica t: r r n−2
tcalc = =
sr 1− r 2
◼ Ipoteza nulă se respinge dacă valoarea calculată |tcalc|>t/2,n-2
pentru TB şi tcalc. >t,n-2 sau tcalc. < -t,n-2 pentru TUD,
respectiv TUS.
15
Exemplu
(soluție Excel și SPSS)
Variabilele statistice:
X=Cheltuielile cu publicitatea (var. indep.)
Y=Valoarea vânzărilor (var. depend.)
n = 24 unităţi hoteliere (volumul eșantionului)
k=1 (nr. de variabile independente)

a) Testaţi validitatea modelului de regresie,


pentru α = 0,05.
b) Determinaţia şi interpretaţi coeficientul
de determinaţie.
c) Măsuraţi intensitatea legăturii dintre
Variabile folosind raportul de corelație şi testaţi
semnificaţia statistică a acestuia
d) Testaţi semnificaţia statistică a parametrilor
modelului, determinaţi şi interpretaţi
intervalele lor de încredere.
e) Calculați și interpretați coeficientul de corelație
Pearson, testați semnificația statistică a acestuia.
34
CORELOGRAMA
(SCATTER PLOT)

Legătură liniara
directa

17
Interpretarea estimatorilor
parametrilor modelului

Interpretari:
b0 = 6.581 inseamna ca: dacă cheltuielile cu publicitatea sunt 0,
atunci valoarea medie a vânzărilor ar fi de 6.581 u.m.

b1 = 1.072 inseamna ca: daca cheltuielile cu publicitatea cresc


cu 1 u.m., atunci valoarea vânzărilor creste, in medie cu 1.072
u.m.
b1>0 inseamna ca exista o legatura directa intre variabile
X=chelt. Cu reclama (variabila independenta)
Y=vanzarile (variabila dependenta)
n=24 (perioade consecutive)

Ecuația de regresie
liniară

18
◼ Data / Data Analysis / Regression

19
Regression
Statistics
Multiple R R = 0,92
R Square R2 =0,84
Adjusted R 2
Square R = 0,83
Standard Error Se = 0,74
Observations n = 24

ANOVA
df SS MS F Significance F

Regression k = 1 SSR = 62,58 MSR = 62,58 Fcalc = 115,11 0,0000000003


Residual n-k-1 =22 SSE =11,96 MSE = 0,54
Total n-1 =23 SST =74,54 -

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept b0 = 6,58 Sb0 = 0,40 tcalc (β0) =16,41 0,0000000000001 5,75 7,41
Cheltuieli cu
publicitatea
(units) b1 = 1,07 Sb1 = 0,10 tcalc (β1) =10,73 0,0000000003305 0,86 1,28
35
EXEMPLU

◼ a) Testarea validitatii modelului


◼ H0: MSRP = MSEP (Modelul nu este valid)
◼ H1: MSRP > MSEP (Modelul este valid)
◼ Testul F (Fisher):
Fcalc=MSR/MSE
MSR=SSR/k=62.58/1=62.58
MSE=SSE/(n-k-1)=11.96/22=0.54
Fcalc=MSR/MSE=62.58/0.54=115.11
K=1
n=24
EXEMPLU
◼ Fcrit=F0.05,1,22= 4.3
◼ Fcalc > Fcrit , Fcalc ϵ Rr, resping H0, accept H1, modelul este
valid (garantat cu 95% prob.)
◼ Significance = 0.00…03 < α resping H0, accept H1,
modelul este valid
◼ Prob.max(modelul este valid)=Prob.max(accept H1) =
100-Significance%=99,99…97%>95%
EXEMPLU

◼ b) Calculați și interpretați coeficientul de


determinație.
◼ R2=SSR/SST
◼ SST=SSR+SSE=62.58+11.96=74.54
◼ R2=SSR/SST=62.58/74.54=0.84 ϵ [0,1]
◼ R2= R Square (tabel 1, Excel)
◼ Interpretare: 84% din variația valorii vânzărilor este
determinată de cheltuielile cu publicitatea (este
explicată de modelul de regresie)
◼ 100-84=16% - influența factorilor aleatori
EXEMPLU

EXEMPLU

Exemplu

26
Exemplu

27
Exemplu

28
Exemplu

29
Exemplu

◼ Coeficientul de corelatie Pearson:


◼ Legatura liniara: |rxy|=R
◼ rxy = +R (daca b1 >0)
◼ rxy = - R (daca b1 <0)
◼ Cum b1 =1.07>0, iar R = 0.92, rxy =0.92 ϵ [-1, 1]
◼ Cum rxy >0 legatura directa
◼ Cum rxy →1 legatura puternica
◼ Concluzie: legatura directa, puternica

30
Exemplu

31
Exemplu – Soluție SPSS

Chap 12-32
Exemplu

33
Tabel cu valorile repartiţiei Student în funcţie de probabilitatea
P( t  t ) şi numărul „f” al gradelor de libertate

Nivel de semnificaţie pentru testul bilateral


α 0,50 0,20 0,10 0,05 0,02 0,01 0,002 0,001 0,0001
f
1 1,000 3,078 6,314 12,706 31,821 63,657 318,309 636,618 6366,198
2 0,816 1,886 2,920 4,303 6,965 9,925 22,327 31,598 99,992
3 0,765 1,638 2,353 3,482 4,541 5,841 10,214 12,924 28,000
4 0,741 1,533 2,132 2,776 3,747 4,604 7,173 8,610 15,544
5 0,727 1,476 2,015 2,571 3,365 4,032 5,893 6,869 11,178
6 0,718 1,440 1,943 2,447 3,143 3,707 5,208 5,959 9,082
7 0,711 1,415 1,895 2,365 2,998 3,499 4,785 5,408 7,885
8 0,706 1,397 1,860 2,306 2,896 3.355 4,501 5,041 7,120
9 0,703 1,383 1,833 2,262 2,821 3,250 4,297 4,781 6,594
10 0,700 1,372 1,812 2,228 2,764 3,169 4,144 4,587 6,211
11 0,697 1,363 1,796 2,201 2,718 3,106 4,025 4,437 5,921
12 0,695 1,356 1,782 2,179 2,681 3,055 3,930 4,318 5,694
13 0,694 1,350 1,771 2,160 2,650 3,102 3,852 4,221 5,513
14 0,692 1,345 1,761 2,145 2,624 2,977 3,787 4,140 5,363
15 0,691 1,341 1,753 2,131 2,602 2,947 3,733 4,073 5,239
16 0,690 1,337 1,746 2,120 2,583 2,921 3,686 4,015 5,134
17 0,689 1,333 1,740 2,110 2,567 2,898 3,646 3,965 5,014
18 0,688 1,330 1,734 2,101 2,552 2,878 3,610 3,922 `4,966
19 0,688 1,328 1,729 2,093 2,539 2,861 3,579 3,883 4,897
20 0,687 1,325 1,725 2,086 2,528 2,845 3,552 3,850 4,837
21 0,686 1,323 1,721 2,080 2,518 2,831 3,527 3,819 4,784
22 0,686 1,321 1,717 2,074 2,508 2,819 3,505 3,792 4,736
23 0,685 1,319 1,714 2,069 2,500 2,807 3,485 3,767 4,693
24 0,685 1,318 1,711 2,064 2,492 2,797 3,467 3,745 4,654
25 0,684 1,316 1,708 2,060 2,485 2,787 3,450 3,725 4,619
26 0,684 1,315 1,706 2,056 2,479 2,779 3,435 3,707 4,587
27 0,684 1,314 1,703 2,052 2,473 2,771 3,421 3,690 4,558
28 0,683 1,313 1,701 2,048 2,467 2,763 3,408 3,674 4,530
29 0,683 1,312 1,699 2,045 2,462 2,756 3,396 3,659 4,506
30 0,683 1,310 1,697 2,042 2,457 2,750 3,385 3,646 4,482
35 0,682 1,306 1,690 2,030 2,438 2,724 3,340 3,591 4,389
40 0,681 1,303 1,684 2,021 2,423 2,704 3,307 3,551 4,321
45 0,680 1,301 1,679 2,014 2,412 2,690 3,281 3,520 4,269
50 0,679 1,299 1,676 2,009 2,403 2,678 3,261 3,496 4,288
60 0,679 1,296 1,671 2,000 2,390 2,660 3,232 3,460 4,169
70 0,678 1,294 1,667 1,994 2,381 2,648 3,211 3,435 4,127
80 0,678 1,292 1,664 1,990 2,374 2,639 3,195 3,416 4,096
90 0,677 1,291 1,662 1,987 2,368 2,632 3,183 3,402 4,072
100 0,677 1,290 1,660 1,984 2,364 2,626 3,174 3,390 4,053
120 0,677 1,289 1,658 1,980 2,358 2,617 3,160 3,373 4,025
200 0,676 1,286 1,653 1,972 2,345 2,601 3,131 3,340 3,970
500 0,675 1,283 1,648 1,965 2,334 2,586 3,107 3,310 3,922
1000 0,675 1,282 1,646 1,962 2,330 2,581 3,098 3,300 3,906
∞ 0,675 1,282 1,645 1,960 2,326 2,576 3,090 3,290 3,891
α 0,25 0,10 0,05 0,025 0,01 0,005 0,001 0,0005 0,00005
f
Nivel de semnificaţie pentru testul unilateral

34
Modelul de regresie liniară
unifactorială (4)

Econometrie - Curs 7,
Facultatea Business&Turism,
Seria A, anul II

1
Etapele elaborării şi aplicării
modelului de regresie liniară simplă
◼ 1. Definirea, specificarea şi identificarea modelului de regresie în
populaţia totală şi în eşantion.
◼ 2.Estimarea parametrilor modelului (MCMMP).
◼ 3. Verificarea ipotezelor modelului de regresie.
◼ 4. Verificarea validităţii modelului (testul F).
◼ 5. Evaluarea calităţii ajustării oferite de modelul de regresie
(indicatorii de bonitate).
◼ 6. Testarea semnificaţiei statistice a parametrilor modelului (testul t),
obţinerea intervalelor de încredere ale acestora.
◼ 7. Măsurarea intensităţii legăturii dintre variabile şi testarea
semnificaţiei statistice a indicatorului utilizat.
◼ 8. Previzionarea (punctuală şi pe interval de încredere) a valorilor
variabilei dependente.
Cuprinsul cursului
◼ 1. Utilizarea funcţiei EXCEL “LINEST”
◼ 2. Previzionarea valorilor variabilei
dependente (PASUL 8).
◼ 3. Aplicaţie SPSS şi Excel (continuare).

3
1. Funcţia EXCEL “LINEST”
◼ LINEST(val. Yi; [val. Xi]; [const]; [stats])
◼ Utilizează MCMMP pentru a calcula o serie de statistici ce
descriu dreapta de regresie.
◼ [val. Xi] – dacă lipseşte, se consideră 1,2,...,n
◼ [const] - argument optional logic. Stabileşte cum este
tratată intercepţia în cadrul modelului.
◼ Daca este TRUE sau este omis, b0 se determină în mod normal.
Dacă este FALSE atunci b0 = 0 iar b1 se determină astfel încât:
◼ Y = b1 X
◼ [stats] - argument optional logic, stabileşte dacă vor fi
afişate unele statistici ale ecuaţiei de regresie liniară
4
1. Funcţia EXCEL “LINEST”
◼ Dacă este TRUE, returnează statisticile funcţiei de
regresie, după formatul:
b1 b0
sb1 sb0
R2 Se = √MSE
Fcalc dfE = n-k-1
SSR SSE
◼ Dacă este FALSE, nu returnează statisticile funcţiei de
regresie
5
1. Funcţia EXCEL “LINEST” -
exemplu

1,07 (b1 ) 6,58 (b0)


0,1 (sb1) 0,4 (sb0)
0,84 (R2) 0,74 (Se)
115,11 (Fcalc) 22 (n-k-1)
62,57 (SSR) 11,96 (SSE)

6
2. Estimarea valorilor variabilei
dependente Y – Pasul 8
◼ Dacă presupunem că la unit. statistica i variabila independentă ia valoarea
specificată Xn+1,i şi legătura liniară se menţine, atunci valoarea
corespunzătoare a variabilei dependente la acea unitate (Yn+1,i) este:
Yn+1,i = 0 + 1Xn+1,i + n+1,i cu val. ajustata: Yˆn +1,i =  0 + 1  X n +1,i
◼ Daca  (Xn+1,i) = Xn+1, atunci media tuturor valorilor Yn+1,i va fi:
 (Yn+1,i/X = Xn+1) = 0 + 1Xn+1.
◼ Putem estima o valoare individuala a lui Y sau media variabilei Y.
◼ Putem obţine estimaţii punctuale sau pe intervale de încredere ale
valorilor variabilei Y.
◼ I. Pentru a obţine estimaţii punctuale, folosim ecuaţia de regresie
liniară în eşantion:

7
2. Estimarea valorilor variabilei
dependente
◼ yi = b0 + b1xi + ei ; yˆi = b0 + b1  xi
şi atunci, înlocuind pe xi cu valoarea dată xn+1, obţinem:
ŷ n +1 = b0 + b1xn+1.

◼ II. Construirea intervalului de încredere pentru


previzionare necesită cunoaşterea distribuţiei, mediei şi
dispersiei pentru ŷ n +1
Variabila ŷn+1 urmează o distribuţie t cu (n–k-1=n-2) grade de
libertate.

8
2. Estimarea valorilor variabilei
dependente

9
2. Estimarea valorilor variabilei
dependente
◼ A. determinarea intervalului de încredere pentru media de
răspuns (media lui Y), când xn+1 = x .
ˆ n +1 = b0 + b1  xn +1 dar y = b0 + b1  x  b0 = y − b1  x 
◼ Ştim că: y

(
yˆ n +1 = y − b1 x + b1 xn +1 = y + b1 xn +1 − x )
dacă xn+1 = x , atunci ŷ n +1 = y, iar estimatorul dispersiei pentru ŷn+1
este:

◼ Intervalul de încredere este, în acest caz:

10
2. Estimarea valorilor variabilei
dependente
◼ B. determinarea intervalului de încredere pentru media de
răspuns (media lui Y), când xn+1  x .
◼ În acest caz:
yˆ n +1 = y + b1 ( xn +1 − x)
◼ iar estimatorul dispersiei pentru ŷ n +1 este:
 
 
2 1 ( xn +1 − x) 2 
s(2yˆ n+1 ) = sy +b ( xn+1 − x )  = se
2
+ n
n
  ( xi − x)2 

 i =1 
◼ Intervalul de încredere pentru media de răspuns este:

11
2. Estimarea valorilor variabilei
dependente

yˆ n+1 − yn+1,i ,

   
 2   2 
1 ( x − x)  2 1 ( x − x) 
s(2yˆ n+1 ) = se2  + n n +1 + se = se2 1 + + n n +1
n   n 



i =1
( xi − x) 
2




i =1
( xi − x) 
2

12
3. Exemplul 1 (cont.)
(soluție Excel și SPSS)
Variabilele statistice:
X=Cheltuielile cu publicitatea (var. indep.)
Y=Valoarea vânzărilor (var. depend.)
n = 24 unităţi hoteliere (volumul eșantionului)
k=1 (nr. de variabile independente)

a) Testaţi validitatea modelului de regresie,


pentru α = 0,05.
b) Determinaţia şi interpretaţi coeficientul
de determinaţie.
c) Măsuraţi intensitatea legăturii dintre
Variabile folosind raportul de corelație şi testaţi
semnificaţia statistică a acestuia
d) Testaţi semnificaţia statistică a parametrilor
modelului, determinaţi şi interpretaţi
intervalele lor de încredere.
e) Calculați și interpretați coeficientul de corelație
Pearson, testați semnificația statistică a acestuia.
34
Exemplul 1 - continuare

14
Exemplul 1 - continuare

15
Exemplul 1 - continuare

16
Exemplul 2
◼ Exemplul 2
◼ Proprietarul unui minihotel dezvoltă o analiză statistică pentru determinarea cheltuielilor cu
materialele de curăţenie (y) în funcţie de numărul camerelor ocupate (x). El determină
ecuaţia de regresie pentru cheltuielile zilnice (pentru detergent, clor etc.) (zeci mii lei), pe
baza datelor înregistrate pentru n=14 zile:
y = 10,8 + 3,7 x
i  ( yi − yˆ ) 2 = 163,39 SSE
i
s = 2,066
2
x x = 2,3
a) Proprietarul doreşte să estimeze cheltuielile pentru o zi în care are 6 camere ocupate;
b) Proprietarul doreşte să estimeze cheltuielile medii pentru zilele în care are 6 camere
ocupate.
Dacă numărul camerelor ocupate este xn+1 = 6 , atunci:
yˆ n +1 = 10,8 + 3,7  6 = 33; t0,025;12 = 2,179
t  / 2 , n − 2 = t 0.025,12 = 2,179;
163,39
se = = 3,69.
12
17
Exemplul 2

1 (6 − 2,3) 2
33  2,179  3,69 +
14 26.86

18
Rezolvare SPSS

Crearea bazei
de date
-Structurarea bazei de
date
- Popularea bazei de date
19
20
CORELOGRAMA
(SCATTER PLOT)

21
22
23
24
25
Exemplu: EXCEL

26
27
28
29
Regression
Statistics
Multiple R R = 0,92
R Square R2 =0,84
Adjusted R 2
Square R = 0,83
Standard Error Se = 0,74
Observations n = 24

ANOVA
df SS MS F Significance F

Regression k = 1 SSR = 62,58 MSR = 62,58 Fcalc = 115,11 0,0000000003


Residual n-k-1 =22 SSE =11,96 MSE = 0,54
Total n-1 =23 SST =74,54 -

Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept b0 = 6,58 Sb0 = 0,40 tcalc (β0) =16,41 0,0000000000001 5,75 7,41
Cheltuieli cu
publicitatea
(units) b1 = 1,07 Sb1 = 0,10 tcalc (β1) =10,73 0,0000000003305 0,86 1,28 29
Econometrie
Curs 8

MODELUL DE REGRESIE
LINIARĂ MULTIPLĂ
(MULTIFACTORIALĂ)
Cuprins:
◼ 1. Specificarea, definirea şi identificarea modelului.
◼ 2. Estimarea parametrilor modelului. Caz particular:
modelul de regresie liniară bifactorială.
◼ 3. Testarea validităţii modelului.
◼ 4. Testarea semnificaţiei parametrilor modelului şi
determinarea intervalelor de încredere ale acestora.
◼ 5. Raportul de corelaţie multiplă. Coeficienţii de corelaţie
parţială.
◼ 6. Estimarea valorilor variabilei dependente.
◼ 7. Ipotezele modelului liniar multifactorial
◼ 8. Aplicaţie – Excel şi SPSS.
1. Specificarea şi definirea modelului
multifactorial
◼ În multe situaţii, variabila rezultativă supusă studiului este afectată,
determinată de mai mulţi factori de influenţă:
◼ Specificarea unui model econometric se face pe baza teoriei
economice: fenomenul Y este precizat pe baza conceptelor,
definiţiilor, a relaţiilor cauză-efect, elaborate pe baza teoriei
economice; în acest fel se acceptă că “Xi” este un factor esenţial, sau,
dimpotrivă, el este trecut în categoria factorilor aleatori, prin
intermediul variabilei reziduale “ε”
◼ Definirea modelului multifactorial:
◼ Y = f(X1, X2, …, Xk) + ε

◼ Realitatea = Teoria + Întâmplarea


1. Specificarea şi definirea modelului
multifactorial
◼ Exemplul 1:
◼ În medie ne-am aştepta ca la un nivel mai ridicat de educaţie, nivelul
venitului să crească:
◼ Venit = f(educaţie) + 
◼ Dar în acest caz nu se tine seama de faptul că venitul depinde şi de
vârstă:
◼ Venit = f(educaţie,vârstă) + 
◼ Exemplul 2:
◼ Consum = f(venit, preţ, nr.membri) + 

◼ Exemplul 3 (funcţia Cobb Douglas):


◼ Producţia = f(capital, forţă de muncă) + 
Identificarea modelului
multifactorial
◼ Forma generală a modelului liniar de regresie
multifactorial în populaţia totală:
◼ Yi = 0+1X1i+2X2i+...+kXki+ i, cu i=1,...,N
◼ unde:
◼ 0= intercepţia
◼ j (j=1,2,…,k) panta ce arată legătura condiţionată între
Y şi Xj, considerând că ceilalţi factori sunt constanţi
Identificarea modelului
multifactorial

 y1 =  0 + 1  x11 +  2  x21 + ... +  k  xk1 +  1


 y =  +   x +   x + ... +   x + 
 2 0 1 12 2 22 k k2 2

...
 y N =  0 + 1  x1N +  2  x2 N + ... +  k  xkN +  N

 y1 
◼ Unde  
y 
este vectorul coloană al variabilei endogene,
Y = 2 
◼ ...
  de dimensiune (N,1)
y 
 N
 1 x11 x12 ...x1k 
◼   este matricea variabilelor exogene de
 1 x21 x22 ...x2 k 
X =


... ... ... ... 

dimensiune (N,k+1)
1 x xN 2 ...x Nk 
 N1
Identificarea modelului
multifactorial
 0 
 
 1 
◼  =  ...  este vectorul coloană al parametrilor βj, j=0,1,…,k
 
  de dimensiune (k+1,1).
◼  k
 1 
 
 
◼ vectorul coloană al variabilei aleatoare, de
 = 2 
...
 

 
 Ndimensiune (N,1)
◼ Prin urmare, modelul liniar multifactorial se scrie:

◼ Y = X + 
Identificarea modelului
multifactorial
◼ Forma generală a modelului liniar de regresie
multifactorială în eşantion:
◼ yi = b0+b1x1i+b2x2i+...+bkxki+ ei, cu i=1,...,n
◼ unde:
◼ b0= intercepţia (arata nivelul mediu al variabilei Y daca valorilor
variabilelor cauzale sunt 0)
◼ bj (j=1,2,…,k) = coeficienţi (parțiali) de regresie; bj arată cu câte
unităţi de măsură se modifică în medie Y dacă Xj se modifică cu o
unitate de măsură, considerând că ceilalţi factori sunt constanţi.
◼ Dacă bj0 atunci între Xj şi Y există o legătură directă iar dacă bj0
atunci între Xj şi Y există o legătură inversă
Identificarea modelului
multifactorial
◼ Deoarece variabilele independente au, de regulă, unităţi de măsură
diferite şi scale de măsurare diferite, această interpretare poate
deforma imaginea importanţei acestora în model.
◼ De aceea se utilizează coeficienţii de regresie standardizaţi, care ne
arată care dintre variabilele independente au cel mai mare efect
asupra variabilei dependente.
◼ Modelul devine:
◼ ẏi = ḃ1ẋ1i+ḃ2ẋ2i+...+ḃkẋki
◼ În care nu există termen liber, iar variabilele ẋ şi ẏ sunt variabile
standardizate.
◼ ḃj arată cu câte abateri standard se modifică valoarea lui Y dacă
valoarea lui Xj se modifică cu o abatere standard.
2. Estimarea parametrilor modelului
liniar multifactorial
2. Modelul liniar bifactorial
◼ dacă luăm în consideraţie o variabilă dependentă (Y) şi
două variabile independente (X1 şi X2), modelul de
regresie multiplă liniară în populatia generală este:
Yi = 0 + 1 X1i +  2 X 2i +  i
◼ în eşantion:
yi = b0 + b1x 1i + b2x 2i + ei
◼ b0 reprezintă intercepţia;
◼ b1 este panta care ne arată legătura condiţionată între Y şi
X1, considerând că X2 este fixat (constant);
◼ b2 este panta care ne arată legătura condiţionată între Y şi
X2, considerând X1 fixat (constant).
2. Modelul liniar bifactorial
◼ Dacă modelul este liniar, atunci:
 (Yi | X1 = X1i , X 2 = X 2i ) = 0 + 1 X1i + 2 X 2i
◼ Coeficienţii b1 şi b2 sunt numiţi coeficienţi de regresie
parţiali
◼ Pe baza datelor din eşantion, ecuaţia de regresie multiplă
este:
yˆi = b0 + b1 x1i + b2 x2i

◼ Ecuaţia de regresie multiplă în acest caz - când sunt luate


în consideraţie două variabile factoriale - generează un
plan de regresie:
2. Modelul liniar bifactorial

Plan de regresie cu o variabilă dependentă (Y) şi


două variabile independente (X1 şi X2)
2. Modelul liniar bifactorial
◼ Aplicând metoda celor mai mici pătrate:

𝑛
2
𝑆 = ෍ 𝑦𝑖 − 𝑦ො𝑖 → min
𝑖=1


nb0 + b1  x1i + b2  x2i =  yi
 i i i

b0  x1i + b1  x1i + b2  x1i  x2i =  x1i  yi


2

 i i i i
b  x + b  x  x + b  x 2 =  x  y
 0 i 2i 1 i 1i 2i 2 i 2i i 2i i
3. Testarea validităţii modelului de regresie
folosind metoda analizei de varianţă (ANOVA)
◼ Ipotezele testate:
H0: 𝑀𝑆𝑅𝑃 /𝑀𝑆𝐸𝑃 = 1 (influenţa variabilelor X nu este diferită de cea a factorilor
aleatori, deci modelul nu poate fi validat)
H1: 𝑀𝑆𝑅𝑃 Τ𝑀𝑆𝐸𝑃 > 1 (influenţa variabilelor exogene X este semnificativ mai
mare decât cea a factorilor aleatori, deci modelul este valid)
2 σ 𝑦𝑖 − 𝑦ො𝑖 2
◼ Testul statistic F (Fisher): 𝐹𝑐𝑎𝑙𝑐 =
𝑀𝑆𝑅 σ 𝑦ො𝑖 − 𝑦
= :
𝑀𝑆𝐸 𝑘 𝑛−𝑘−1
n
◼ Unde SSR =  ( yˆ i − y ) 2 = varianța de regresie
i =1
n
◼ SSE =  ( yi − yˆ i ) 2 = varianța reziduală (a erorilor)
i =1

◼ Regula de decizie:
◼ Dacă Fcalc≤ Fcrit = Fα,k,n-k-1, atunci se acceptă H0 şi deci modelul nu este valid;
◼ Dacă Fcalc> Fcrit = Fα,k,n-k-1, atunci se respinge H0, se acceptă H11, deci modelul este valid.
3. Testarea validităţii modelului de regresie
folosind metoda analizei de varianţă (ANOVA)

Tabelul ANOVA pentru testarea calităţii ajustării oferită de modelul de regresie

Sursa variaţiei Suma pătratelor Numărul Media pătratelor Statistica F


(Varianţa) gradelor de (Dispersia
libertate corectată)
Datorată regresiei
( )
n
SSR = 
(explicată de model, adică 2 SSR MSR
yˆ i − y k MSR = Fcalc =
de influenţa lui X1, X2, … k MSE
i =1
Xk)
Neexplicată de model n
SSE =  ( y i − yˆ i )
SSE
MSE =
2
(reziduală, dată de influenţa n-k-1
factorilor aleatori) i =1 n − k −1

( )
n
SST =  y i − y
2
Totală n-1
i =1
4. Testarea semnificaţiei parametrilor
modelului de regresie
◼ Testarea parametrilor modelului de regresie
◼ Ipotezele: H0 :  j = 0
 sb21 
 
H1 :  j  0  sb2 
Testul statistic: unde sB =  2  = se2  diag ( X ' X ) −1
2

 ... 

bj −  j bj  2 
t calc = =  sbk 
sb j sb j
Regula de decizie:  se respinge H0, deci
tcalc  −t / 2,n − k −1 parametrul βj este semnificativ

tcalc  t / 2,n − k −1
Intervalul de incredere:

b j − tcrit  sb j   j  b j + tcrit  sb j
5. Raportul de corelaţie multiplă
◼ Pentru a studia intensitatea legăturii dintre o caracteristică
dependentă (Y) şi mai multe caracteristici independente utilizând
metoda corelaţiei:
◼ Raportul de corelaţie multiplă:

𝑆𝑆𝑅 σ𝑛𝑖=1 𝑦ො𝑖 − 𝑦lj 2 𝑆𝑆𝐸 σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2


𝑅𝑦,𝑥1 ,𝑥2 ,...,𝑥𝑘 = = = 1− = 1− 𝑛
𝑆𝑆𝑇 σ𝑛𝑖=1 𝑦𝑖 − 𝑦lj 2 𝑆𝑆𝑇 σ𝑖=1 𝑦𝑖 − 𝑦lj 2

𝑅 ∈ 0,1
R y , x1 , x2 ,...,xk  | ryx j | j =1, k
◼ Pătratul raportului de corelaţie multiplă este coeficientul de
determinaţie multiplă (R2). El arată proporţia din variaţia totală a
variabilei Y, care este explicată de variabilele independente X1, X2, ...,
Xk. (sau este explicată de modelul de regresie)
5. Raportul de corelaţie multiplă
◼ Testarea semnificaţiei raportului de corelaţie multiplă se poate face utilizând
statistica F:
𝐻0 : 𝑅(𝑃) = 0 (𝑅(𝑃) nu este semnificativ statistic)
𝐻1 : 𝑅(𝑃) > 0 (𝑅(𝑃) este semnificativ statistic)

𝑛−𝑘−1 𝑅2 𝑀𝑆𝑅
𝐹𝑐𝑎𝑙𝑐 = ⋅ =
𝑘 1 − 𝑅2 𝑀𝑆𝐸
◼ unde k reprezintă numărul variabilelor independente.
◼ Dacă:
◼ Fcalc. > F  , k, n-k-1 se acceptă ipoteza conform căreia variabilele X1, X2, ..., Xk au o
influenţă semnificativă asupra variabilei rezultative, Y (deci 𝑅(𝑃) este semnificativ
statistic)
◼ numărul de unităţi statistice pentru care se culeg datele (n), trebuie să fie mai
mare cu cel puţin 2 decât numărul variabilelor independente considerate (k).
Coeficientul de determinație ajustat

Coeficientul
. de determinaţie ajustat se ajustează coeficientul de determinaţie cu
gradele de libertate
2 𝑆𝑆𝐸/(𝑛−𝑘−1) 𝑀𝑆𝐸
𝑅 =1− = 1−
𝑆𝑆𝑇/(𝑛−1) 𝑀𝑆𝑇
2
Valoarea lui R este întotdeauna mai mică decât coeficientul de determinaţie R2.
Raportul de corelaţie se determină pentru legături de tip liniar sau neliniare
Egalitatea r= R este un test de liniaritate pentru model
În analiza corelaţiei simple liniare se observă că:

 (yˆ − y ) = b  ( x − x)
n n
2 2 2
r2 = R2, deoarece, cum
i 1 i
i =1 i =1

 (yˆ − y )
n n

 ( x − x)
2 2
i i 2
s
R 2
= i =1
=b  2
=b =r
i =1 2 x 2

 (y − y )  (y − y )
n 1 n 1 2
2 s 2
y
i i
i =1 i =1

25
5. Coeficienţii de corelaţie
parţială
◼ coeficienţii de corelaţie parţială - caracterizează intensitatea legăturii
dintre două variabile, în ipoteza că celelalte variabile rămân constante.
◼ coeficientul de corelaţie parţială între Y şi X1, eliminând influenţa variabilei X2
este:
ryx1 − ryx2  rx1x2
ryx1  x2 =
(1 − r ) (1 − r )
2
yx2
2
x1 x2

◼ coeficientul de corelaţie parţială între Y şi X2, eliminând influenţa variabilei X1


este:

ryx 2 − ryx1  rx1x 2


ryx 2 x1 =
(1 − r )(1 − r )
2
yx1
2
x1x 2
6. Estimarea valorilor variabilei
dependente
◼ Valoarea punctuală previzionată atunci când elementele vectorului x0 sunt
fixate este:

Yˆ = x0 ˆ
Y p =  0 +  1 X 1 p +  2 X 2 p + ... +  k X kp +  p

◼ Intervalul de încredere pentru valoarea previzionată este:


yˆ 0  t / 2,n − k −1se 1 + X 0' ( X ' X ) X 0
−1
7. Ipotezele modelului liniar multifactorial
◼ 1. Media erorilor este zero: μ()=0  μ(Y) = X
◼ 2. Homoscedasticitatea: dispersia reziduurilor (2) este
constantă şi nenulă.
◼ 3. Non-autocorelarea erorilor: cov(, ’)=0
◼ 4. Necorelarea între variabila indep. şi erori: cov(,X)=0
◼ 5. Normalitatea erorilor: i N(0,2)
◼ 6. Matricea X este de rang k cu coloane independente două câte
două. Altfel spus, o variabilă independentă Xj nu poate fi
exprimată ca o combinaţie liniară perfectă a celorlalte variabile
independente; deci nu există un set de numere: d0,d1,...dk, astfel
încât: d0+d1x1i+...+dkxki=0 (multicoliniaritate perfectă).
EXEMPLU
◼ Patronul unui lanț de magazine alimentare dorește să
analizeze rezultatele activității magazinelor sale în
funcție de factorii de influență. Pentru aceasta el a
angajat un analist care a presupus ca succesul afacerii
(cuantificat prin cifra de afaceri - um) depinde de
suprafata comerciala a magaziului (m2) si de numarul
de familii rezidente in cartier. Datele inregistrate
pentru 13 magazine, selectate aleator, sunt:
Aplicatie Excel şi SPSS

Nr. familii Supr.comerciala Cifra de afaceri


(X1) (mp) (X2) (Y) (u.m.)
70 21 198
35 26 209
55 14 197
25 10 156
28 12 85
43 20 187
15 5 43
33 28 211
23 9 120
4 6 62
45 10 176
20 8 117
56 36 273
EXEMPLU
a) Să se identifice variabilele incluse în model.
b) Să se scrie ecuația de regresie liniară în eșantion și să se
Interpreteze valorile estimatorilor parametrilor modelului.
c) Să se testeze validitatea modelului de regresie, pentru α = 0,05.
d) Să se determine și interpreteze coeficientul de determinație.
e) Să se măsoare intensitatea legăturii dintre variabile folosind un
raportul de corelație şi testaţi semnificaţia statistică a acestuia
f) Testaţi semnificaţia statistică a parametrilor modelului, determinaţi
şi interpretaţi intervalele lor de încredere.

a) X1=numărul de familii (variabilă independentă)


X2 = suprafața comercială (variabilă independentă)
Y = cifra de faceri (variabilă dependentă)
n=13
k=2
EXEMPLU
◼ b) Modelul de regresie liniară bifactorială în populație:
Yi = 0 + 1 X1i +  2 X 2i +  i
◼ Modelul de regresie liniară bifactorială în eșantion:
◼ yi = b0 + b1x1i + b2x2i + ei
◼ Ecuația de regresie liniară în eșantion:
yˆi = b0 + b1 x1i + b2 x2i
𝑦ො𝑖 = 37.5 + 1.5 𝑥1𝑖 + 4.24 𝑥2𝑖
EXEMPLU
◼ b0=37.5 (Dacă suprafața comercială a magazinelor ar fi 0 m2 și nu ar
locui nici o familie în zonă, cifra de afaceri medie ar fi de 37.5 um)
◼ b1=1.5 (Dacă numărul de familii care locuiesc în zonă crește cu 1,
atunci cifra de afaceri crește, în medie cu 1.5 um, în condițiile
menținerii neschimbate a suprafeței comerciale a magazinelor)
◼ b1>0 legătură directă între numărul de familii rezidente (X1) și cifra
de afaceri a magazinelor (Y)
◼ b2=4.24 (Dacă suprafața comercială a magazinelor crește cu 1 m2,
atunci cifra de afaceri crește, în medie cu 1.5 um, în condițiile
menținerii neschimbate a numărului de familii rezidente)
◼ b2>0 legătură directă între suprafața comercială a magazinelor (X2) și
cifra de afaceri a acestora (Y)
EXEMPLU
◼ c) Testarea validității modelului de regresie
◼ H0: 𝑀𝑆𝑅𝑃 Τ𝑀𝑆𝐸𝑃 = 1 (sau 𝑀𝑆𝑅𝑃 = 𝑀𝑆𝐸𝑃 ,modelul nu este valid)
◼ H1: 𝑀𝑆𝑅𝑃 Τ𝑀𝑆𝐸𝑃 > 1 (sau 𝑀𝑆𝑅𝑃 > 𝑀𝑆𝐸𝑃 ,modelul este valid)
◼ Fcalc=MSR/MSE=29.67
◼ Fcrit= F0.05,2,10 =4.1
◼ Fcalc> Fcrit, resping H0, accept H1, modelul de regresie este valid
◼ Sig.F =0.00006<0.05
◼ d) Coeficientul de determinație:
◼ R2=SSR/SST=0.85 (85% din variația cifrei de afaceri este
explicată de modelul de regresie, adică de influența numărului
de familii și a suprafeței comerciale)
EXEMPLU
◼ e) Raportul de corelație:
◼ R=0.93 → 1 legătură (foarte) puternică
◼ Testarea raportului de corelație din populația totală:
𝐻0 : 𝑅(𝑃) = 0 (𝑅(𝑃) nu este semnificativ statistic)
𝐻1 : 𝑅(𝑃) > 0 (𝑅(𝑃) este semnificativ statistic)

◼ Fcalc=29.67
◼ Fcrit= F0.05,2,10 =4.1
◼ Fcalc> Fcrit, resping H0, accept H1, raportul de corelație este
semnificativ statistic
◼ Sig.F =0.00006<0.05
EXEMPLU
◼ f) Testarea parametrului β0:
◼ H0: β0=0 (β0 nu este semnificativ statistic)
◼ H1: β0≠0 (β0 este semnificativ statistic)
𝑏0 37.5
◼ 𝑡𝑐𝑎𝑙𝑐 = = = 2.13
𝑠𝑏0 17.65
◼ tcrit= t0.05,10 =2.23
◼ |tcalc| < tcrit, accept H0, parametrul β0 nu este
semnificativ statistic
◼ Pvalue(β0) =0.06>0.05
EXEMPLU
◼ f) Testarea parametrului β1:
◼ H0: β1=0 (β1 nu este semnificativ statistic)
◼ H1: β1≠0 (β1 este semnificativ statistic)
𝑏1 1.5
◼ 𝑡𝑐𝑎𝑙𝑐 = = = 2.7
𝑠𝑏1 0.55
◼ tcrit= t0.05,10 =2.23
◼ |tcalc| > tcrit, resping H0, accept H1, parametrul β1 este
semnificativ statistic
◼ Pvalue(β1) =0.02<0.05
EXEMPLU
◼ f) Testarea parametrului β2:
◼ H0: β2=0 (β2 nu este semnificativ statistic)
◼ H1: β2≠0 (β2 este semnificativ statistic)
𝑏2 4.24
◼ 𝑡𝑐𝑎𝑙𝑐 = = = 3.98
𝑠𝑏2 1.06
◼ tcrit= t0.05,10 =2.23
◼ |tcalc| > tcrit, resping H0, accept H1, parametrul β2 este
semnificativ statistic
◼ Pvalue(β2) =0.002<0.05
EXEMPLU
◼ Intervalele de incredere ale parametrilor:
◼ 𝑏0 − 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏0 ≤ 𝛽0 ≤ 𝑏0 + 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏0
◼ 37.5 − 2.23 ∙ 17.65 ≤ 𝛽0 ≤ 37.5 + 2.23 ∙ 17.65
◼ −1.82 ≤ 𝛽0 ≤ 76.82
◼ Interpretare: Lower(β0)<0, Upper(β0)>0 limitele au semne
opuse, 0 se afla in intervalul [-1.82, 76.82], β0=0 deci β0 nu
este semnificativ statistic
◼ Observatie: deoarece parametrul nu este semnificativ
statistic, nu se interpreteaza valorile celor doua limite.
EXEMPLU
◼ Intervalele de încredere ale parametrilor:
◼ 𝑏1 − 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏1 ≤ 𝛽1 ≤ 𝑏1 + 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏1
◼ 1.5 − 2.23 ∙ 0.55 ≤ 𝛽1 ≤ 1.5 + 2.23 ∙ 0.55
◼ 0.26 ≤ 𝛽1 ≤ 2.73
◼ Interpretare: Lower(β1)>0, Upper(β1)>0 limitele au acelasi
semn, 0 nu se afla in intervalul [0.26, 2.73], β1 ≠ 0 deci β1
este semnificativ statistic
◼ Dacă numărul de familii crește cu 1, atunci cifra de afaceri
va crește, în medie, cu o valoare cuprinsă între 0.26 um și
2.73 um (cu condiția ca suprafața comercială să nu se
modifice)
EXEMPLU
◼ Intervalele de încredere ale parametrilor:
◼ 𝑏2 − 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏2 ≤ 𝛽2 ≤ 𝑏2 + 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏2
◼ 4.24 − 2.23 ∙ 1.06 ≤ 𝛽2 ≤ 4.24 + 2.23 ∙ 1.06
◼ 1.87 ≤ 𝛽2 ≤ 6.62
◼ Interpretare: Lower(β2)>0, Upper(β2)>0 limitele au acelasi
semn, 0 nu se afla in intervalul [1.87, 6.62], β2 ≠ 0 deci β2
este semnificativ statistic
◼ Dacă suprafața comercială crește cu 1, atunci cifra de
afaceri va crește, în medie, cu o valoare cuprinsă între
1.87 um și 6.62 um (cu condiția ca numărul de familii să
nu se modifice)
Aplicaţie – rezultate Excel:

Regression Statistics
Multiple R (R) 0,9251
R Square (R2) 0,8558
Adjusted R Square 0,8270
Standard Error (se) 27,8500
Observations (n) 13

Interpretări:
R : legătura dintre Xj şi Y este puternică.
R2 : 85,6% din variaţia lui Y este determinată de
influenţa lui X1,X2 (este explicată de model)
Aplicaţie – rezultate Excel:
ANOVA
df SS MS F Significance F
Regression k=2 SSR = 46033,02 MSR = 23016,51 Fcalc = 29,67 0,00006234
Residual n-k-1 = 10 SSE = 7756,21 MSE = 775,62
Total n-1 = 12 SST = 53789,23

Interpretări:
Modelul de regresie este semnificativ statistic (valid) (adică se acceptă
H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%
Aplicaţie – rezultate Excel:
Standard Lower Upper
Coefficients Error t Stat P-value 95% 95%
0
b0 = Sb0 = tcalc =
Intercept 37,5023 17,6461 2,1252 0,059496 -1,82 76,82
1
b1 = sb1 = tcalc =
Nr. familii 1,4963 0,5534 2,7039 0,022165 0,26 2,73
2
b2 = sb2 = t calc =
Supr.com 4,2446 1,0650 3,9856 0,002578 1,87 6,62

Interpretări:
• Parametrul β0 nu este semnificativ, deoarece probabilitatea cu care se poate
accepta H1 (care susţine că este semnificativ) este de cel mult 100-
5,95=94,05%<95%.
− 1,82  0  76,82
• Parametrul β1 este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susţine că este semnificativ) este de cel mult 100-2,2=97,8%>95%
0,26  1  2,73
• Parametrul β2 este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susţine că este semnificativ) este de cel mult 100-0,26=99,74%>95%
1,87   2  6,62
Aplicaţie – rezultate Excel:
RESIDUAL
OUTPUT

Predicted Cifra
Observation afaceri Residuals
1 231,38 -33,38
2 200,23 8,77
3 179,22 17,78
4 117,36 38,64
5 130,33 -45,33
6 186,74 0,26
7 81,17 -38,17
8 205,73 5,27
9 110,12 9,88
10 68,96 -6,96
11 147,28 28,72
12 101,39 15,61
13 274,10 -1,10
Aplicaţie - SPSS
Aplicaţie - SPSS
Verificarea ipotezelor
modelului de regresie
liniară simplă
Econometrie – Cursurile 9-10,
BUSINESS & TURISM, anul II, seria A

1
Structura cursului

◼ 1. Verificarea ipotezei de normalitate a erorilor.


◼ 2. Verificarea ipotezei de homoscedasticitate a erorilor.
◼ 3. Verificarea ipotezei de non-autocorelare a erorilor
◼ 4. Verificarea ipotezei de multicoliniaritate.
◼ 5. Aplicaţii – Rezolvare Excel şi SPSS.

2
1. Testarea ipotezei de normalitate a
erorilor
◼ Formularea matematică a ipotezei:
i N(0,ε2)
◼ În acest caz şi estimatorii parametrilor modelului urmează, de asemenea, o
lege normală de repartiţie:

◼ Importanţa ipotezei:
◼ Permite obţinerea unor estimatori de calitate ai parametrilor modelului
◼ Încălcarea acestei ipoteze afectează calitatea estimatorilor (ei au doar proprietăţi
asimptotice: necesită eşantioane de volum mare).
◼ Verificarea ipotezei de normalitate se poate face prin:
◼ Procedee grafice
◼ Procedee numerice

3
1. Testarea ipotezei de normalitate a
erorilor – METODA GRAFICĂ

◼ 1. Curba frecvenţelor sau histograma reziduurilor


◼ se utilizează erorile standardizate:
◼ ẽi = (ei -0)/ se

Pe Ox se reprezintă
valorile reziduurilor
standardizate, iar pe
Oy frecvenţele de
apariţie.

4
1. Testarea ipotezei de normalitate a
erorilor – METODA GRAFICĂ

◼ 2. Procedura P – P Plot
(Probability – Probability
Plot)
Compară 2 distribuţii: una empirică şi una
teoretică (ex: normală)
Arată relaţia dintre două funcţii de
probabilitate cumulate: între distribuţia
cumulată teoretică (normală) şi cea
empirică. Cele două distribuţii coincid
dacă punctele cad pe linia diagonală la
45 grade, ce uneşte punctele (0,0) cu
(1,1). Orice deviere de la această linie
indică şi o diferenţă între cele două
distribuţii.
Dacă se reprezintă valorile observate vs.
valorile aşteptate ale unei variabile se
obţine Diagrama Q-Q (Quantile-
Quantile). 5
6
Procedeul grafic – Exemplu
Excel – modelul unifactorial
Normal Probability Plot
14

12

10

Vanzari (yi)
8

0
0 20 40 60 80 100 120
Sample Percentile

7
1. Testarea ipotezei de normalitate a
erorilor – PROCEDEE NUMERICE
◼ 1. Testul Kolmogorov-Smirnov-Lilliefors
◼ Presupune compararea frecvenţelor relative cumulate
calculate (ale distribuţiei empirice a erorilor) cu
frecvenţele teoretice cumulate din tabelul Gauss.
◼ H0: erorile sunt normal distribuite.
◼ H1: distribuţia erorilor nu urmează o lege normală.
◼ Regula de decizie: dacă Sig. <α (0,05), atunci se
respinge H0, se acceptă H1 şi ipoteza de normalitate a
erorilor este invalidată.

8
Statistica testului K-S

9
10
1. Testarea ipotezei de normalitate
a erorilor – PROCEDEE NUMERICE
◼ 2. Testul Jarque-Bera:
◼ Se verifică simultan proprietăţile de asimetrie şi de boltire ale
distribuţiei reziduurilor, pe baza coeficienţilor Fisher.
◼ Pentru o distribuţie normală:
◼ Coeficientul de asimetrie Fisher Skew=0 (skewness)
◼ Coeficientul de boltire Fisher Kurt=0 (kurtosis)
◼ Ipotezele:
◼ H0: distribuţia erorilor nu diferă semnificativ de distribuţia normală.
◼ H1: între distribuţia erorilor şi distribuţia normală există o diferenţă
semnificativă.
n
JB = (Skew) +
( Kurt ) 
2

 ~  ;k +1 (k = numar de variabile independente)


2 2

6 4 
◼ Se compara valoarea calculata JB cu valoarea critica  crit
2
= 2 ;k +1
◼ Regula de decizie: dacă JB>  se respinge H0, erorile nu sunt
2
crit
normal distribuite.
11
Forma distribuţiei
Hi-pătrat pentru
diferite grade de
libertate

12
Exemplu:

2 ;k +1 =  02,05;2 = 5,99


Cum JB< 0,05;2 se acceptă H0
2

Deci erorile urmează o distribuţie normală

13
2. Testarea ipotezei de homoscedasticitate
a erorilor
ε
◼ Y=X+
◼ Variabila reziduală este de
medie 0, dispersie constantă x
şi nenulă, independentă de
variabila exogenă X.

◼ Dacă pe măsura creșterii


(scăderii) valorilor variabilei
exogene X se observă o
creștere(scădere) a valorilor
erorilor, atunci cele două
variabile sunt corelate si nu
independente
14
Homoscedasticitatea /
heteroscedasticitatea erorilor

Dispersia reziduurilor a) constantă; b) variabilă

15
Homoscedasticitatea erorilor

The probability density function for yt at two levels


of household income, xt. has the same variance.
16
Heteroscedasticitatea erorilor

The variance of yt increases as household income, xt ,


increases.
17
2. Testarea ipotezei de
homoscedasticitate a erorilor
◼ Cauzele apariţiei heteroscedasticităţii:
◼ Modele de învăţare din erori (indivizii învaţă permanent, erorile lor
comportamentale diminuându-se în timp)
◼ Erorile de măsurare: unii indivizi pot furniza răspunsuri mai precise
decât alţii, ceea ce va determina heteroscedasticitatea.
◼ Strategiile de eşantionare.
◼ Transformarea incorectă a datelor.
◼ Specificarea eronată a formei funcţionale a modelelor.
◼ Consecinţele heteroscedasticităţii:
◼ Obţinerea unor estimatori deplasaţi (prin MCMMP) ai variaţiei
coeficienţilor modelului liniar de regresie şi a unor estimatori
neeficienţi ai parametrilor modelului (în sensul că vor exista alţi
estimatori cu varianţă mai mică)
18
2. Testarea ipotezei de
homoscedasticitate a erorilor
◼ Metoda grafică
◼ Se construieşte corelograma valorilor reziduurilor (eventual ale
reziduurilor standardizate, sau ale pătratelor erorilor) în funcţie de
valorile variabilei independente.

◼ se observă dacă există o legătură sistematică între acestea.

ei2

xi

19
2. Testarea ipotezei de
homoscedasticitate a erorilor
a) Nu se infirmă ipoteza normalităţii
erorilor şi nici cea de homoscedasticitate
a acestora

b) Se infirmă ipoteza de homoscedas-


ticitate a erorilor

c) Eroare de calcul

d) Modelul liniar nu este adecvat datelor


observate

20
Modelul liniar unifactorial
– Exemplu EXCEL -

Chelt_publ (xi) Residual Plot


1.5

Erori 0.5

homoscedastice
Residuals
0
0 1 2 3 4 5 6 7
-0.5

-1

-1.5

-2
Chelt_publ (xi)

21
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
◼ 1. Testul Goldfeld-Quandt
◼ H0: erori homoscedastice
◼ H1: erori heteroscedastice.
◼ Paşi:
◼ Se ordonează perechile de valori empirice (xi,yi) crescător după xi.
◼ Se împarte seria în doua părţi egale (în cazul unui volum mare de
date se poate omite o pereche de valori din centrul seriei)
◼ Se estimează parametrii ecuaţiei de regresie pentru fiecare din cele
două seturi de date şi se calculează dispersia reziduală pentru fiecare
model în parte: MSE1 şi MSE2
◼ Se calculează statistica Fisher ce compară cele două dispersii
reziduale:
Fcalc =
( 1
max MSE , MSE 2)
min (MSE1 , MSE2 )

22
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
Fcalc urmeaza o lege de repartitie F n −l n −l
; − ( k +1); − ( k +1)
2 2

◼ Unde:
l = numărul de termeni eliminaţi din seria iniţială;
k = numărul de variabile independente (k = 1)
◼ Regula de decizie:
Dacă
Fcalc  Fcrit = F ;n1 −( k +1);n2 −( k +1)
Atunci se respinge H0 (sau dacă Sign. < 0,05).
Observatie:
Testul Goldfeld-Quandt ofera rezultate semnificative numai in masura in care
s-a identificat variabila exogena care a cauzat heteroscedasticitatea.

23
Exemplu – testul Goldfeld-Quandt
◼ După ce s-au ordonat perechile de date, se împarte setul
în două:

◼ Se aplică Data/Data Analysis/Regression pentru


fiecare set de date.
24
Exemplu – testul Goldfeld-Quandt

Coefficients
Intercept 5,326
Chelt_publ (xi) 1,615

Coefficients
Intercept 10,250
Chelt_publ (xi) 0,342

MSE 1 0,305
MSE 2 0,487

◼ Cum Fcalc<Fcrit, accept H0, erorile sunt homoscedastice


25
Teste statistice utilizate pentru depistarea
heteroscedasticităţii

◼ 2. Testul White – Regresia liniară simplă


◼ A. Fie modelul de regresie liniară unifactorială:

yi = 0 + 1  xi +  i respectiv y = b +b x +e
i 0 1 i i

◼ B. Se estimează parametrii 0 , 1
◼ C. Se calculează erorile  i respectiv ei .
◼ D. Se construieşte modelul auxiliar de regresie bazat pe
presupunerea dependenţei pătratelor erorilor ei2 de valorile
variabilei exogene X şi de pătratele acesteia X2:

◼ E. Ipotezele testului:
◼ H : α1= α =0  model homoscedastic
0 2
◼ H :  α  0  model heteroscedastic
1 j

26
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
◼ F. Se calculează raportul de determinaţie al modelului auxiliar
◼ G. Se calculează statistica: (Multiplicatorul Lagrange)
◼ H. Se compară LM cu valoarea critică (unde k = nr. variabilelor
independente din modelul auxiliar).
◼ I. Dacă se acceptă H0, erorile sunt homoscedastice.

◼ Observaţie:
◼ Testul White se recomandă a se utiliza în ipoteza unei repartiţii
normale a erorilor.

27
Exemplu: testul White pentru
regresia liniară unifactorială

Coefficients Regression Statistics


Intercept 1,755 Multiple R 0,340
xi -0,847 R Square 0,115
xi^2 0,118 Adjusted R Square 0,031
Standard Error 0,661
Observations 24

Cum se acceptă H0,


erorile sunt homoscedastice.
28
Teste statistice utilizate pentru depistarea
heteroscedasticităţii

◼ Testul White - Regresia liniară multiplă


◼ A. Fie modelul de regresie liniară bifactorială:
◼ yi = 0 + 1  x1i +  2  x2i +  i respectiv yi = b0 + b1  x1i + b2  x2i + ei
◼ B. Se estimează parametrii 0 , 1 ,  2
◼ C. Se calculează erorile  i respectiv ei .
◼ D. Se construieşte modelul auxiliar de regresie bazat pe
presupunerea dependenţei pătratelor erorilor ei2 de valorile
variabilelor exogene X1 si X2, de pătratele acestora si de produs:

◼ E. Ipotezele testului:
◼ H : α =...= α 5=0  model homoscedastic
0 1
◼ H :  α  0  model heteroscedastic
1 j

29
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
Regresia liniară multiplă
◼ F. Se calculează raportul de determinaţie al modelului auxiliar
◼ G. Se calculează statistica: (Multiplicatorul Lagrange)
◼ H. Se compară LM cu valoarea critică (unde k = nr. variabilelor
independente din modelul auxiliar).
◼ I. Dacă se acceptă H0, erorile sunt homoscedastice.

30
Exemplu: testul White pentru regresia liniară
multifactorială
Regression Statistics
Multiple R 0,512
R Square 0,262
Adjusted R Square -0,265
Standard Error 798,58
Observations 13

Cum se acceptă
H0, erorile sunt
homoscedastice.
31
Metode de estimare a parametrilor în
cazul heteroscedasticităţii

◼ În cazul în care heteroscedasticitatea este indusă de o variabilă


exogenă într-o manieră multiplicativă:
 i2 =  2 x 2ji ,

◼ Fenomenul de heteroscedasticitate se elimină prin transformarea


modelului: * y i  x1i xki  i
yi = xi
*
=  ,...,   *
i =
x ji  x ji x ji  x ji

◼ Notând: y i* = xi*  +  i*
Modelul devine: yi x1i x 

= 1 + ... + ki  k + i
x ji x ji x ji x ji

◼ După estimarea parametrilor acestui model transformat se revine în


modelul iniţial cu estimatorii.
32
3. AUTOCORELAREA ERORILOR
◼ Fie modelul de regresie în formă matriceală: Y=X+
◼ Definiţie: prezenţa unei corelaţii între valorile variabilei
reziduale se numeşte autocorelaţie a reziduurilor.
 ij astfel încât cov(i,j)  0.
◼ Matricea de covarianţă a variabilei reziduale este:
 cov( 1 ,  1 ) cov( 1 ,  2 )  cov( 1 ,  n ) 
cov( ,  ) cov( ,  )  cov( ,  )
◼ V=  2 1 2 2 2 n 

    
 
cov( n ,  1 ) cov( n ,  2 )  cov( n ,  n )
◼ Cum variabilele reziduale au media 0 şi dispersia
constantă, atunci matricea de covarianţă a variabilei
reziduale este:
33
3. AUTOCORELAREA ERORILOR
 1 1   n −1 
 1   n − 2 
V =  2  1
    
 
  n −1  n−2  1 

◼ unde: ρk, k=1,2,...,n-1 reprezintă coeficientul de


autocorelaţie de ordin “k”.
cov( i ,  i + k )
k = , k = 1, n - 1
s i  s i+k
2 2

◼ Variabila reziduală prezintă o autocorelare de ordinul întâi,


dacă verifică relaţia:
εi = ρ • εi-1+ ui 34
3. AUTOCORELAREA ERORILOR

Problemele ce se pun în acest caz sunt:


a. Identificarea cauzelor de apariţie a corelării
erorilor
b. Testele statistice utilizate pentru depistarea
autocorelării
c. Metode de estimare a parametrilor în cazul
autocorelării

35
3a. Cauzele de apariţie a
autocorelării erorilor
◼ Absenţa uneia sau mai multor variabile explicative importante
◼ neincluderea uneia sau mai multor variabile explicative importante
poate genera autocorelarea erorilor.
◼ Modelul de regresie nu este corect specificat:
◼ fie modelul se exprimă sub forma unei combinaţii liniare de
variabile în condiţiile în care o specificare corectă a modelului
trebuie să fie exprimată printr-o combinaţie liniară de logaritmi de
variabile exogene etc.
◼ Au fost făcute transformări neadecvate sau interpolări în cadrul seriei
de date

36
3b. AUTOCORELAREA ERORILOR
◼ Grafic, în cazul modelului de regresie liniar unifactorial, lipsa
autocorelării erorilor poate fi reprezentată astfel:
ε

timp

◼ Grafic, în cazul modelului de regresie liniar unifactorial, autocorelarea


ε
erorilor poate fi reprezentată prin diverse pattern-uri ale erorilor:
ε

timp timp

37
Corelograma – autocorelarea erorilor
Exemplu: cheltuieli publicitate-vânzări

38
3b. Testele statistice utilizate pentru
depistarea autocorelării: Durbin Watson
◼ Variabila reziduală satisface relaţia:  i =  i −1 + ui
◼ Ipoteze: Ho: =0 (erori non-autocorelate) H1: 0 (erori autocorelate)
n

 (e − e i −1 )2
( )
i

◼ Statistica testului: DW = i =2
n
= 2 1 − rei ,ei−1
e
2
i
i =1
◼ dL şi dU extrase din tabela Durbin Watson pentru , k (var. exogene) şi n:
◼ 0 < DW < dL  autocorelare pozitivă a erorilor
◼ dL  DW  dU  indecizie, recomandată acceptarea autocorelării pozitive
◼ dU < DW < 4-dU  erori independente
◼ 4-dU  DW  4-dL  indecizie, recomandată acceptarea autocorelării negative
◼ 4-dL< DW <4  autocorelare negativă a erorilor
◼ Observaţie: Testul Durbin Watson nu poate fi aplicat decât dacă:
◼ modelul de regresie are termen liber
◼ matricea X este nestochastică
◼ printre variabilele explicative nu se află şi variabila endogenă cu decalaj
◼ seriile de date nu sunt atributive
39
3c. Metode de estimare a parametrilor în
cazul autocorelării
◼ Erorile prezintă o autocorelare de un anumit ordin  estimatorii
parametrilor sunt nedeplasaţi şi consistenţi, dar nu sunt eficienţi.
a. Se estimează parametrii modelului de regresie: Y=X+ prin metoda celor
mai mici pătrate şi se obţine seria erorilor (ei)i=1,n
b. Se consideră că erorile urmează un proces autoregresiv de ordinul I:
n

 e e i i −1
= i =2
n  i =  i −1 + ui
e
i =2
2
i −1

c. p    p  
y i =  0 +   j x ji +  i yi −   yi −1 =  0 (1 −  ) +   j ( x ji −  x ji −1 ) +  i −   i −1
j =1
j =1
Notând:  *  
 yi = yi −  yi −1
p
yi* =  0 +   j x*ji + i  i → N (0,  2 )
 * 
 x ji = x ji −  x ji −1 j =1
 
 0 =  0 (1 −  )

d. Se estimează parametrii noului model şi apoi se revine la modelul iniţial.
40
Aplicarea testului Durbin-Watson în SPSS

41
Aplicarea testului Durbin-Watson în SPSS

42
Aplicarea testului
Durbin-Watson in SPSS

Erori non-
autocorelate

43
Aplicarea testului
Durbin-Watson în Excel

24
(
 i i−1
e − e )2

28,537
DW = i =2
24
= = 2,386
i 2 11,959
e
i =1

α = 0.05
k=1
n = 24
dL = 1.27
dU = 1.44
dU < DW < 4-dU  erori
independente (non-
autocorelate)
44
Aplicarea testului
Durbin-Watson în Excel

Sau:
α = 0.05
rei ,ei−1 = −0,21284 k=1
n = 24
dL = 1.27
( )
DW = 2 1 − rei ,ei−1 = 2 * (1 + 0,21284 ) = 2,42
dU = 1.44
dU < DW < 4-dU  erori
independente (non-
autocorelate)

45
4. MULTICOLINEARITATEA
◼ este determinată de prezenţa corelării între variabilele exogene
 determinantul matricei X’X este zero, deci aceasta nu este
inversabilă.
◼ Se consideră modelul centrat şi redus, deci modelul de regresie
fără termen liber:
◼ matricea de corelaţie evaluată pentru variabilele exogene este
1/n(X’X)-1
◼ variaţia estimatorilor este 2R-1/n
◼ prezenţa corelării variabilelor exogene conduce la creşterea
varianţei acelor estimatori ai parametrilor modelului liniar de
regresie ce corespund variabilelor exogene aflate într-o
dependenţă liniară semnificativă, deci scăderea performanţelor
modelului de regresie estimat prin forma clasică a metodei celor
mai mici pătrate.
◼ Problemele ce se pun în acest caz sunt:
a. Indicatori pentru semnalarea coliniarităţii
b. Înlăturarea efectului de multicoliniaritate 46
4a. Indicatori pentru semnalarea
coliniarităţii
◼ Criteriul Klein
◼ se determină raportul de determinaţie Ry2 şi coeficienţii liniari de corelaţie a
variabilelor exogene rx , x , ij.
i j

două variabile exogene Xi şi Xj sunt coliniare dacă: R y  rxi , x j


2 2

◼ sunt identificate numai dependenţele liniare dintre două variabile exogene.


◼ Criteriul Belsley
◼ se calculează valorile proprii ale matricei X’X, deci soluţii ale ecuaţiei:
X’X-Ip=0.
◼ în cazul în care una sau mai multe valori proprii sunt zero sau aproximativ
zero, fenomenul de colinearitate este semnificativ şi va afecta într-o bună
măsură calitatea estimatorilor. 
 ( X ) = max
◼ se calculează indicatorul: min
◼ dacă valorile acestui indicator sunt superioare lui 1  colinearitatea
◼ o valoare cuprinsă între 20 şi 30 sau mai mare, pentru datele reale, relevă o
colinearitate puternică a variabilelor exogene.

47
4a. Indicatori pentru semnalarea coliniarităţii

48
EXEMPLU.
Cifra afaceri = f (Nr.familii, Supr. comercială)

Regression Statistics Supr.comerciala


Multiple R 0,925097 Nr. familii (X1)
(X2)
R Square 0,855804 Nr. familii (X1) 1
Adjusted R
Supr.comerciala
Square 0,826964 0,619761261 1
(X2)
Standard Error 27,84998
Observations 13
R2 = 0,855 > r2x1,x2 = 0,6192 = 0,384 →
Criteriul Klein Variabilele exogene nu sunt corelate, deci
nu exista multicoliniaritate.

Factorul de VIF= 1/(1- r2x1,x2 )= 1,623 →VIF<10


inflaţie al Variabilele exogene nu sunt corelate,
dispersiei deci nu exista multicoliniaritate.
49
4 b. Înlăturarea efectului de
multicoliniaritate
◼ Estimarea prin partiţionarea

matricei X în două blocuri de
variabile y* = y − y m
◼ se consideră partiţionarea matricei în două submatrice ale căror
coloane sunt liniar independente: X=(Xm, Xp-m)
◼ se estimează parametrii modelului de regresie: y=Xmm+m
◼ se calculează apoi:
◼ şi se estimează parametrii modelului liniar de regresie: y*=Xrr+r
◼ Eliminarea mecanică a coliniarităţii
◼ dacă dependenţa celor două variabile exogene este: x2i=x1i + i
n
yi = (1 +  2 ) x1i +  i
  x x
1i 2 i
cu  = i =1 atunci se estimează modelul de regresie:
n

x
i =1
2
2i 50
4 b. Înlăturarea efectului de
multicoliniaritate
• Transformarea variabilelor

Pentru reducerea multicoliniarităţii, în cazul seriilor temporale, se


apelează adesea la transformarea variabilelor iniţiale, folosind diferenţele
de ordinul întâi. Astfel, în locul modelului general:

yt =  0 + 1 x1t +  2 x2t + ... +  k xkt +  t

se vor estima parametrii modelului:

yt − yt −1 = 1 (x1t − x1t −1 ) +  2 (x2t − x2t −1 ) + ... +  k (xkt − xkt−1 ) +  t −  t −1 .

O altă transformare ce poate fi aplicată datelor este împărţirea


datelor la una din variabile, în cazul în care există semnificaţie economică
pentru noile variabile obţinute.
51
4 b. Exemplu
Ritm anual de
Ritm anual de crestere
modificare a
a salariului mediu
Ani Rata inflatiei (%) (X1) consumului final
(%)
(%)
(X2)
(Y)

2006 32,3 48,9 10,8

2007 38,8 51,9 7

2008 155 96,8 -4,3

2009 59,1 64,9 1,1

2010 45,8 46,1 -2,5

2011 45,7 62,8 1,4

2012 34,5 41,2 6,3

2013 22,5 25,5 4,9

2014 15,3 27,7 6,9

2015 11,9 23,3 10,3 52


4 b. Exemplu

ANOVA
df SS MS F Significance F
Regression 2 131,3655 65,68275 4,419955 0,057373
Residual 7 104,0235 14,8605
Total 9 235,389

Standard Lower Upper


Coefficients Error t Stat P-value 95% 95%
Intercept 8,813138 4,268295 2,064792 0,077813 -1,27977 18,90605
Rata inflatiei (%) -0,087 0,080807 -1,0766 0,317357 -0,27807 0,104081
Ritm anual de
crestere a
salariului mediu
(%) -0,01254 0,148395 -0,08452 0,935007 -0,36344 0,338356

53
4b. - Exemplu

R2 = 0,558 < r2x1,x2 = 0,9212 = 0,849 →


Variabilele exogene sunt puternic corelate

54
4 b. Înlăturarea efectului de multicoliniaritate -
Exemplu
◼ Deoarece atât ritmul anual de creştere a câştigului salarial
mediu cât şi ritmului anual de modificare a consumului final
sunt dependente de rata inflaţiei, variabilele se vor împărţi
la rata inflaţiei.
◼ Modelul va deveni:
(Y / X1 ) =  +   ( X 2 / X1 )
ANOVA
Significance
df SS MS F F
Regression 1 0,521316 0,521316 23,42939 0,001287
Residual 8 0,178004 0,022251
Total 9 0,699321

Standard Lower Upper


Coefficients Error t Stat P-value 95% 95%
Intercept -0,58578 0,172996 -3,38608 0,009555 -0,98471 -0,18685
X2/X1 0,617306 0,127532 4,840391 0,001287 0,323216 0,911396

55
Verificarea ipotezelor
modelului de regresie
liniară simplă
Econometrie – Cursurile 9-10,
BUSINESS & TURISM, anul II, seria A

1
Structura cursului

◼ 1. Verificarea ipotezei de normalitate a erorilor.


◼ 2. Verificarea ipotezei de homoscedasticitate a erorilor.
◼ 3. Verificarea ipotezei de non-autocorelare a erorilor
◼ 4. Verificarea ipotezei de multicoliniaritate.
◼ 5. Aplicaţii – Rezolvare Excel şi SPSS.

2
1. Testarea ipotezei de normalitate a
erorilor
◼ Formularea matematică a ipotezei:
i N(0,ε2)
◼ În acest caz şi estimatorii parametrilor modelului urmează, de asemenea, o
lege normală de repartiţie:

◼ Importanţa ipotezei:
◼ Permite obţinerea unor estimatori de calitate ai parametrilor modelului
◼ Încălcarea acestei ipoteze afectează calitatea estimatorilor (ei au doar proprietăţi
asimptotice: necesită eşantioane de volum mare).
◼ Verificarea ipotezei de normalitate se poate face prin:
◼ Procedee grafice
◼ Procedee numerice

3
1. Testarea ipotezei de normalitate a
erorilor – METODA GRAFICĂ

◼ 1. Curba frecvenţelor sau histograma reziduurilor


◼ se utilizează erorile standardizate:
◼ ẽi = (ei -0)/ se

Pe Ox se reprezintă
valorile reziduurilor
standardizate, iar pe
Oy frecvenţele de
apariţie.

4
1. Testarea ipotezei de normalitate a
erorilor – METODA GRAFICĂ

◼ 2. Procedura P – P Plot
(Probability – Probability
Plot)
Compară 2 distribuţii: una empirică şi una
teoretică (ex: normală)
Arată relaţia dintre două funcţii de
probabilitate cumulate: între distribuţia
cumulată teoretică (normală) şi cea
empirică. Cele două distribuţii coincid
dacă punctele cad pe linia diagonală la
45 grade, ce uneşte punctele (0,0) cu
(1,1). Orice deviere de la această linie
indică şi o diferenţă între cele două
distribuţii.
Dacă se reprezintă valorile observate vs.
valorile aşteptate ale unei variabile se
obţine Diagrama Q-Q (Quantile-
Quantile). 5
6
Procedeul grafic – Exemplu
Excel – modelul unifactorial
Normal Probability Plot
14

12

10

Vanzari (yi)
8

0
0 20 40 60 80 100 120
Sample Percentile

7
1. Testarea ipotezei de normalitate a
erorilor – PROCEDEE NUMERICE
◼ 1. Testul Kolmogorov-Smirnov-Lilliefors
◼ Presupune compararea frecvenţelor relative cumulate
calculate (ale distribuţiei empirice a erorilor) cu
frecvenţele teoretice cumulate din tabelul Gauss.
◼ H0: erorile sunt normal distribuite.
◼ H1: distribuţia erorilor nu urmează o lege normală.
◼ Regula de decizie: dacă Sig. <α (0,05), atunci se
respinge H0, se acceptă H1 şi ipoteza de normalitate a
erorilor este invalidată.

8
Statistica testului K-S

9
10
1. Testarea ipotezei de normalitate
a erorilor – PROCEDEE NUMERICE
◼ 2. Testul Jarque-Bera:
◼ Se verifică simultan proprietăţile de asimetrie şi de boltire ale
distribuţiei reziduurilor, pe baza coeficienţilor Fisher.
◼ Pentru o distribuţie normală:
◼ Coeficientul de asimetrie Fisher Skew=0 (skewness)
◼ Coeficientul de boltire Fisher Kurt=0 (kurtosis)
◼ Ipotezele:
◼ H0: distribuţia erorilor nu diferă semnificativ de distribuţia normală.
◼ H1: între distribuţia erorilor şi distribuţia normală există o diferenţă
semnificativă.
n
JB = (Skew) +
( Kurt ) 
2

 ~  ;k +1 (k = numar de variabile independente)


2 2

6 4 
◼ Se compara valoarea calculata JB cu valoarea critica  crit
2
= 2 ;k +1
◼ Regula de decizie: dacă JB>  se respinge H0, erorile nu sunt
2
crit
normal distribuite.
11
Forma distribuţiei
Hi-pătrat pentru
diferite grade de
libertate

12
Exemplu:

2 ;k +1 =  02,05;2 = 5,99


Cum JB< 0,05;2 se acceptă H0
2

Deci erorile urmează o distribuţie normală

13
2. Testarea ipotezei de homoscedasticitate
a erorilor
ε
◼ Y=X+
◼ Variabila reziduală este de
medie 0, dispersie constantă x
şi nenulă, independentă de
variabila exogenă X.

◼ Dacă pe măsura creșterii


(scăderii) valorilor variabilei
exogene X se observă o
creștere(scădere) a valorilor
erorilor, atunci cele două
variabile sunt corelate si nu
independente
14
Homoscedasticitatea /
heteroscedasticitatea erorilor

Dispersia reziduurilor a) constantă; b) variabilă

15
Homoscedasticitatea erorilor

The probability density function for yt at two levels


of household income, xt. has the same variance.
16
Heteroscedasticitatea erorilor

The variance of yt increases as household income, xt ,


increases.
17
2. Testarea ipotezei de
homoscedasticitate a erorilor
◼ Cauzele apariţiei heteroscedasticităţii:
◼ Modele de învăţare din erori (indivizii învaţă permanent, erorile lor
comportamentale diminuându-se în timp)
◼ Erorile de măsurare: unii indivizi pot furniza răspunsuri mai precise
decât alţii, ceea ce va determina heteroscedasticitatea.
◼ Strategiile de eşantionare.
◼ Transformarea incorectă a datelor.
◼ Specificarea eronată a formei funcţionale a modelelor.
◼ Consecinţele heteroscedasticităţii:
◼ Obţinerea unor estimatori deplasaţi (prin MCMMP) ai variaţiei
coeficienţilor modelului liniar de regresie şi a unor estimatori
neeficienţi ai parametrilor modelului (în sensul că vor exista alţi
estimatori cu varianţă mai mică)
18
2. Testarea ipotezei de
homoscedasticitate a erorilor
◼ Metoda grafică
◼ Se construieşte corelograma valorilor reziduurilor (eventual ale
reziduurilor standardizate, sau ale pătratelor erorilor) în funcţie de
valorile variabilei independente.

◼ se observă dacă există o legătură sistematică între acestea.

ei2

xi

19
2. Testarea ipotezei de
homoscedasticitate a erorilor
a) Nu se infirmă ipoteza normalităţii
erorilor şi nici cea de homoscedasticitate
a acestora

b) Se infirmă ipoteza de homoscedas-


ticitate a erorilor

c) Eroare de calcul

d) Modelul liniar nu este adecvat datelor


observate

20
Modelul liniar unifactorial
– Exemplu EXCEL -

Chelt_publ (xi) Residual Plot


1.5

Erori 0.5

homoscedastice
Residuals
0
0 1 2 3 4 5 6 7
-0.5

-1

-1.5

-2
Chelt_publ (xi)

21
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
◼ 1. Testul Goldfeld-Quandt
◼ H0: erori homoscedastice
◼ H1: erori heteroscedastice.
◼ Paşi:
◼ Se ordonează perechile de valori empirice (xi,yi) crescător după xi.
◼ Se împarte seria în doua părţi egale (în cazul unui volum mare de
date se poate omite o pereche de valori din centrul seriei)
◼ Se estimează parametrii ecuaţiei de regresie pentru fiecare din cele
două seturi de date şi se calculează dispersia reziduală pentru fiecare
model în parte: MSE1 şi MSE2
◼ Se calculează statistica Fisher ce compară cele două dispersii
reziduale:
Fcalc =
( 1
max MSE , MSE 2)
min (MSE1 , MSE2 )

22
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
Fcalc urmeaza o lege de repartitie F n −l n −l
; − ( k +1); − ( k +1)
2 2

◼ Unde:
l = numărul de termeni eliminaţi din seria iniţială;
k = numărul de variabile independente (k = 1)
◼ Regula de decizie:
Dacă
Fcalc  Fcrit = F ;n1 −( k +1);n2 −( k +1)
Atunci se respinge H0 (sau dacă Sign. < 0,05).
Observatie:
Testul Goldfeld-Quandt ofera rezultate semnificative numai in masura in care
s-a identificat variabila exogena care a cauzat heteroscedasticitatea.

23
Exemplu – testul Goldfeld-Quandt
◼ După ce s-au ordonat perechile de date, se împarte setul
în două:

◼ Se aplică Data/Data Analysis/Regression pentru


fiecare set de date.
24
Exemplu – testul Goldfeld-Quandt

Coefficients
Intercept 5,326
Chelt_publ (xi) 1,615

Coefficients
Intercept 10,250
Chelt_publ (xi) 0,342

MSE 1 0,305
MSE 2 0,487

◼ Cum Fcalc<Fcrit, accept H0, erorile sunt homoscedastice


25
Teste statistice utilizate pentru depistarea
heteroscedasticităţii

◼ 2. Testul White – Regresia liniară simplă


◼ A. Fie modelul de regresie liniară unifactorială:

yi = 0 + 1  xi +  i respectiv y = b +b x +e
i 0 1 i i

◼ B. Se estimează parametrii 0 , 1
◼ C. Se calculează erorile  i respectiv ei .
◼ D. Se construieşte modelul auxiliar de regresie bazat pe
presupunerea dependenţei pătratelor erorilor ei2 de valorile
variabilei exogene X şi de pătratele acesteia X2:

◼ E. Ipotezele testului:
◼ H : α1= α =0  erori homoscedastice
0 2
◼ H :  α  0  erori heteroscedastice
1 j

26
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
◼ F. Se calculează raportul de determinaţie al modelului auxiliar
◼ G. Se calculează statistica: (Multiplicatorul Lagrange)
◼ H. Se compară LM cu valoarea critică (unde k = nr. variabilelor
independente din modelul auxiliar).
◼ I. Dacă se acceptă H0, erorile sunt homoscedastice.

◼ Observaţie:
◼ Testul White se recomandă a se utiliza în ipoteza unei repartiţii
normale a erorilor.

27
Exemplu: testul White pentru
regresia liniară unifactorială

Coefficients Regression Statistics


Intercept 1,755 Multiple R 0,340
xi -0,847 R Square 0,115
xi^2 0,118 Adjusted R Square 0,031
Standard Error 0,661
Observations 24

Cum se acceptă H0,


erorile sunt homoscedastice.
28
Teste statistice utilizate pentru depistarea
heteroscedasticităţii

◼ Testul White - Regresia liniară multiplă


◼ A. Fie modelul de regresie liniară bifactorială:
◼ yi = 0 + 1  x1i +  2  x2i +  i respectiv yi = b0 + b1  x1i + b2  x2i + ei
◼ B. Se estimează parametrii 0 , 1 ,  2
◼ C. Se calculează erorile  i respectiv ei .
◼ D. Se construieşte modelul auxiliar de regresie bazat pe
presupunerea dependenţei pătratelor erorilor ei2 de valorile
variabilelor exogene X1 si X2, de pătratele acestora si de produs:

◼ E. Ipotezele testului:
◼ H : α =...= α 5=0  erori homoscedastice
0 1
◼ H :  α  0  erori heteroscedastice
1 j

29
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
Regresia liniară multiplă
◼ F. Se calculează raportul de determinaţie al modelului auxiliar
◼ G. Se calculează statistica: (Multiplicatorul Lagrange)
◼ H. Se compară LM cu valoarea critică (unde k = nr. variabilelor
independente din modelul auxiliar).
◼ I. Dacă se acceptă H0, erorile sunt homoscedastice.

30
Exemplu: testul White pentru regresia liniară
multifactorială
Regression Statistics
Multiple R 0,512
R Square 0,262
Adjusted R Square -0,265
Standard Error 798,58
Observations 13

Cum se acceptă
H0, erorile sunt
homoscedastice.
31
Metode de estimare a parametrilor în
cazul heteroscedasticităţii

◼ În cazul în care heteroscedasticitatea este indusă de o variabilă


exogenă într-o manieră multiplicativă:
 i2 =  2 x 2ji ,

◼ Fenomenul de heteroscedasticitate se elimină prin transformarea


modelului: * y i  x1i xki  i
yi = xi
*
=  ,...,   *
i =
x ji  x ji x ji  x ji

◼ Notând: y i* = xi*  +  i*
Modelul devine: yi x1i x 

= 1 + ... + ki  k + i
x ji x ji x ji x ji

◼ După estimarea parametrilor acestui model transformat se revine în


modelul iniţial cu estimatorii.
32
3. AUTOCORELAREA ERORILOR
◼ Fie modelul de regresie în formă matriceală: Y=X+
◼ Definiţie: prezenţa unei corelaţii între valorile variabilei
reziduale se numeşte autocorelaţie a reziduurilor.
 ij astfel încât cov(i,j)  0.
◼ Matricea de covarianţă a variabilei reziduale este:
 cov( 1 ,  1 ) cov( 1 ,  2 )  cov( 1 ,  n ) 
cov( ,  ) cov( ,  )  cov( ,  )
◼ V=  2 1 2 2 2 n 

    
 
cov( n ,  1 ) cov( n ,  2 )  cov( n ,  n )
◼ Cum variabilele reziduale au media 0 şi dispersia
constantă, atunci matricea de covarianţă a variabilei
reziduale este:
33
3. AUTOCORELAREA ERORILOR
ρk= ρ( 𝜀𝑖 , 𝜀𝑖−𝑘 )
 1 1   n −1 
 ρk= ρ( 𝜀𝑖 , 𝜀𝑖+𝑘 )
1   n − 2 
V =  2  1
     rk= r( 𝑒𝑖 , 𝑒𝑖−𝑘 )
  rk= r( 𝑒𝑖 , 𝑒𝑖+𝑘 )
  n −1  n−2  1 

◼ unde: ρk, k=1,2,...,n-1 reprezintă coeficientul de


autocorelaţie de ordin “k”.
cov( 𝜀𝑖 , 𝜀𝑖+𝑘 )
𝜌𝑘 = , k = 1,n−1
𝜎𝜀2𝑖 ⋅ 𝜎𝜀2𝑖+𝑘

◼ Variabila reziduală prezintă o autocorelare de ordinul întâi,


dacă verifică relaţia:
εi = ρ • εi-1+ ui 34
3. AUTOCORELAREA ERORILOR

Problemele ce se pun în acest caz sunt:


a. Identificarea cauzelor de apariţie a corelării
erorilor
b. Testele statistice utilizate pentru depistarea
autocorelării
c. Metode de estimare a parametrilor în cazul
autocorelării

35
3a. Cauzele de apariţie a
autocorelării erorilor
◼ Absenţa uneia sau mai multor variabile explicative importante
◼ neincluderea uneia sau mai multor variabile explicative importante
poate genera autocorelarea erorilor.
◼ Modelul de regresie nu este corect specificat:
◼ fie modelul se exprimă sub forma unei combinaţii liniare de
variabile în condiţiile în care o specificare corectă a modelului
trebuie să fie exprimată printr-o combinaţie liniară de logaritmi de
variabile exogene etc.
◼ Au fost făcute transformări neadecvate sau interpolări în cadrul seriei
de date

36
3b. AUTOCORELAREA ERORILOR
◼ Grafic, în cazul modelului de regresie liniar unifactorial, lipsa
autocorelării erorilor poate fi reprezentată astfel:
ε

timp

◼ Grafic, în cazul modelului de regresie liniar unifactorial, autocorelarea


ε
erorilor poate fi reprezentată prin diverse pattern-uri ale erorilor:
ε

timp timp

37
Corelograma – autocorelarea erorilor
Exemplu: cheltuieli publicitate-vânzări

38
3b. Testele statistice utilizate pentru
depistarea autocorelării: Durbin Watson
◼ Variabila reziduală satisface relaţia:  i =  i −1 + ui
◼ Ipoteze: Ho: =0 (erori non-autocorelate) H1: 0 (erori autocorelate)
n

 (e − e i −1 )2
( )
i

◼ Statistica testului: DW = i =2
n
= 2 1 − rei ,ei−1
e
2
◼ Intre 0 si 4 i
i =1
◼ dL şi dU extrase din tabela Durbin Watson pentru , k (var. exogene) şi n:
◼ 0 < DW < dL  autocorelare pozitivă a erorilor
◼ dL  DW  dU  indecizie, recomandată acceptarea autocorelării pozitive
◼ dU < DW < 4-dU  erori independente
◼ 4-dU  DW  4-dL  indecizie, recomandată acceptarea autocorelării negative
◼ 4-dL< DW <4  autocorelare negativă a erorilor
◼ Observaţie: Testul Durbin Watson nu poate fi aplicat decât dacă:
◼ modelul de regresie are termen liber
◼ matricea X este nestochastică
◼ printre variabilele explicative nu se află şi variabila endogenă cu decalaj
◼ seriile de date nu sunt atributive
39
3b. Testele statistice utilizate pentru
depistarea autocorelării: Durbin Watson

40
3c. Metode de estimare a parametrilor în
cazul autocorelării
◼ Erorile prezintă o autocorelare de un anumit ordin  estimatorii
parametrilor sunt nedeplasaţi şi consistenţi, dar nu sunt eficienţi.
a. Se estimează parametrii modelului de regresie: Y=X+ prin metoda celor
mai mici pătrate şi se obţine seria erorilor (ei)i=1,n
b. Se consideră că erorile urmează un proces autoregresiv de ordinul I:
n

 e e i i −1
= i =2
n  i =  i −1 + ui
e
i =2
2
i −1

c. p    p  
y i =  0 +   j x ji +  i yi −   yi −1 =  0 (1 −  ) +   j ( x ji −  x ji −1 ) +  i −   i −1
j =1
j =1
Notând:  *  
 yi = yi −  yi −1
p
yi* =  0 +   j x*ji + i  i → N (0,  2 )
 * 
 x ji = x ji −  x ji −1 j =1
 
 0 =  0 (1 −  )

d. Se estimează parametrii noului model şi apoi se revine la modelul iniţial.
41
Aplicarea testului Durbin-Watson în SPSS

42
Aplicarea testului Durbin-Watson în SPSS

43
Aplicarea testului
Durbin-Watson in SPSS

Erori non-
autocorelate

44
Aplicarea testului
Durbin-Watson în Excel

24
(
 i i−1
e − e )2

28,537
DW = i =2
24
= = 2,386
i 2 11,959
e
i =1

α = 0.05
k=1
n = 24
dL = 1.27
dU = 1.44
dU < DW < 4-dU  erori
independente (non-
autocorelate)
45
Aplicarea testului
Durbin-Watson în Excel

Sau:
α = 0.05
rei ,ei−1 = −0,21284 k=1
n = 24
dL = 1.27
( )
DW = 2 1 − rei ,ei−1 = 2 * (1 + 0,21284 ) = 2,42
dU = 1.44
dU < DW < 4-dU  erori
independente (non-
autocorelate)

46
4. MULTICOLINEARITATEA
◼ este determinată de prezenţa corelării între variabilele exogene
 determinantul matricei X’X este zero, deci aceasta nu este
inversabilă.
◼ Se consideră modelul centrat şi redus, deci modelul de regresie
fără termen liber:
◼ matricea de corelaţie evaluată pentru variabilele exogene este
1/n(X’X)-1
◼ variaţia estimatorilor este 2R-1/n
◼ prezenţa corelării variabilelor exogene conduce la creşterea
varianţei acelor estimatori ai parametrilor modelului liniar de
regresie ce corespund variabilelor exogene aflate într-o
dependenţă liniară semnificativă, deci scăderea performanţelor
modelului de regresie estimat prin forma clasică a metodei celor
mai mici pătrate.
◼ Problemele ce se pun în acest caz sunt:
a. Indicatori pentru semnalarea coliniarităţii
b. Înlăturarea efectului de multicoliniaritate 47
4a. Indicatori pentru semnalarea
coliniarităţii
◼ Criteriul Klein
◼ se determină raportul de determinaţie Ry2 şi coeficienţii liniari de corelaţie a
variabilelor exogene rx , x , ij.
i j

două variabile exogene Xi şi Xj sunt coliniare dacă: R y  rxi , x j


2 2

◼ sunt identificate numai dependenţele liniare dintre două variabile exogene.


◼ Criteriul Belsley
◼ se calculează valorile proprii ale matricei X’X, deci soluţii ale ecuaţiei:
X’X-Ip=0.
◼ în cazul în care una sau mai multe valori proprii sunt zero sau aproximativ
zero, fenomenul de colinearitate este semnificativ şi va afecta într-o bună
măsură calitatea estimatorilor. 
 ( X ) = max
◼ se calculează indicatorul: min
◼ dacă valorile acestui indicator sunt superioare lui 1  colinearitatea
◼ o valoare cuprinsă între 20 şi 30 sau mai mare, pentru datele reale, relevă o
colinearitate puternică a variabilelor exogene.

48
4a. Indicatori pentru semnalarea coliniarităţii

49
EXEMPLU.
Cifra afaceri = f (Nr.familii, Supr. comercială)

Regression Statistics Supr.comerciala


Multiple R 0,925097 Nr. familii (X1)
(X2)
R Square 0,855804 Nr. familii (X1) 1
Adjusted R
Supr.comerciala
Square 0,826964 0,619761261 1
(X2)
Standard Error 27,84998
Observations 13
R2 = 0,855 > r2x1,x2 = 0,6192 = 0,384 →
Criteriul Klein Variabilele exogene nu sunt corelate, deci
nu exista multicoliniaritate.

Factorul de VIF= 1/(1- r2x1,x2 )= 1,623 →VIF<10


inflaţie al Variabilele exogene nu sunt corelate,
varianței deci nu exista multicoliniaritate.
50
4 b. Înlăturarea efectului de
multicoliniaritate
◼ Estimarea prin partiţionarea

matricei X în două blocuri de
variabile y* = y − y m
◼ se consideră partiţionarea matricei în două submatrice ale căror
coloane sunt liniar independente: X=(Xm, Xp-m)
◼ se estimează parametrii modelului de regresie: y=Xmm+m
◼ se calculează apoi:
◼ şi se estimează parametrii modelului liniar de regresie: y*=Xrr+r
◼ Eliminarea mecanică a coliniarităţii
◼ dacă dependenţa celor două variabile exogene este: x2i=x1i + i
n
yi = (1 +  2 ) x1i +  i
  x x
1i 2 i
cu  = i =1 atunci se estimează modelul de regresie:
n

x
i =1
2
2i 51
4 b. Înlăturarea efectului de
multicoliniaritate
• Transformarea variabilelor

Pentru reducerea multicoliniarităţii, în cazul seriilor temporale, se


apelează adesea la transformarea variabilelor iniţiale, folosind diferenţele
de ordinul întâi. Astfel, în locul modelului general:

yt =  0 + 1 x1t +  2 x2t + ... +  k xkt +  t

se vor estima parametrii modelului:

yt − yt −1 = 1 (x1t − x1t −1 ) +  2 (x2t − x2t −1 ) + ... +  k (xkt − xkt−1 ) +  t −  t −1 .

O altă transformare ce poate fi aplicată datelor este împărţirea


datelor la una din variabile, în cazul în care există semnificaţie economică
pentru noile variabile obţinute.
52
4 b. Exemplu
Ritm anual de
Ritm anual de crestere
modificare a
a salariului mediu
Ani Rata inflatiei (%) (X1) consumului final
(%)
(%)
(X2)
(Y)

2006 32,3 48,9 10,8

2007 38,8 51,9 7

2008 155 96,8 -4,3

2009 59,1 64,9 1,1

2010 45,8 46,1 -2,5

2011 45,7 62,8 1,4

2012 34,5 41,2 6,3

2013 22,5 25,5 4,9

2014 15,3 27,7 6,9

2015 11,9 23,3 10,3 53


4 b. Exemplu

ANOVA
df SS MS F Significance F
Regression 2 131,3655 65,68275 4,419955 0,057373
Residual 7 104,0235 14,8605
Total 9 235,389

Standard Lower Upper


Coefficients Error t Stat P-value 95% 95%
Intercept 8,813138 4,268295 2,064792 0,077813 -1,27977 18,90605
Rata inflatiei (%) -0,087 0,080807 -1,0766 0,317357 -0,27807 0,104081
Ritm anual de
crestere a
salariului mediu
(%) -0,01254 0,148395 -0,08452 0,935007 -0,36344 0,338356

54
4b. - Exemplu

R2 = 0,558 < r2x1,x2 = 0,9212 = 0,849 →


Variabilele exogene sunt puternic corelate

55
4 b. Înlăturarea efectului de multicoliniaritate -
Exemplu
◼ Deoarece atât ritmul anual de creştere a câştigului salarial
mediu cât şi ritmului anual de modificare a consumului final
sunt dependente de rata inflaţiei, variabilele se vor împărţi
la rata inflaţiei.
𝑌/𝑋1 = 𝛽0 + 𝛽1 ⋅ 𝑋2 /𝑋1
◼ Modelul va deveni:
ANOVA
Significance
df SS MS F F
Regression 1 0,521316 0,521316 23,42939 0,001287
Residual 8 0,178004 0,022251
Total 9 0,699321

Standard Lower Upper


Coefficients Error t Stat P-value 95% 95%
Intercept -0,58578 0,172996 -3,38608 0,009555 -0,98471 -0,18685
X2/X1 0,617306 0,127532 4,840391 0,001287 0,323216 0,911396

56
Modelarea econometrică a seriilor
de timp cu componentă sezonieră

1
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Componentele termenilor unei serii cronologice sunt:
◼ Trendul (componenta de lunga durata) (ytT);
◼ Componenta sezoniera (ytS);
◼ Componenta ciclica (ytC) – este mai dificil de determinat;
◼ Componenta reziduala, aleatoare (ytR).
◼ 1. TRENDUL
◼ reprezintă tendinţa generală, ce corespunde unei evoluţii sistematice,

generale, fundamentale, sesizabile pe perioade lungi de timp,


generate de acţiunea unor factori de lungă durată.
◼ Este componenta principală a termenilor unei serii cronologice

◼ 2. COMPONENTA SEZONIERĂ
◼ Oscilaţiile sezoniere sunt fluctuaţii regulate, cu periodicitate
constantă, care se repetă în cadrul unei perioade complete de până
la un an
2
Componentele termenilor unei serii
cronologice
◼ Sunt sesizabile când termenii seriei se referă la perioade mai mici
decât anul (date trimestriale, lunare, zilnice, orare etc.)
◼ Apar sunt influenţa a două categorii de factori:
◼ - factori naturali, climatici (prod. agricolă, vânzări de băuturi
răcoritoare, de articole de îmbrăcăminte etc.)
◼ - factori sociali – tradiţii, obiceiuri, concedii (vânzările de
rechizite şcolare, de ouă, de pomi de iarnă etc.)
◼ 3. COMPONENTA CICLICĂ
◼ E formată din fluctuaţii regulate, manifestate pe termen mai lung,
care devin complete pe parcursul câtorva ani.
◼ Sunt cauzate de două categorii de factori:
◼ - naturali (oscilaţiile producţiei agricole, datorate ciclurilor meteo)
◼ - economico-sociali (ciclurile de afaceri, datorate modernizării
aparatului de producţie, aprovizionarea cu materii prime etc.)
3
Componentele termenilor unei serii
cronologice

◼ 4. COMPONENTA ALEATOARE (REZIDUALĂ)


◼ Fluctuaţiile aleatoare apar sub forma unor abateri accidentale ale
termenilor seriei de la linia de trend, sub influenţa unor factori
imprevizibili, accidentali (greve, conflicte de muncă spontane,
calamităţi naturale, războaie etc.)
◼ uneori nu se identifică toate cele patru componente,
atunci când analizăm o serie cronologică:
◼ Cel mai adesea, componenta ciclică nu se poate determina
◼ La unele serii, poate lipsi chiar trendul (serii staţionare)

4
Componentele termenilor unei serii
cronologice
◼ Pentru a reconstitui termenii unei serii cronologice, cele 4
componente se pot combina după două modele:
◼ MODELUL ADITIV:


yt = ytT + ytS + ytR
◼ Se presupune că abaterile aleatoare se compensează reciproc,
deci suma lor e zero, iar media componentei reziduale este
nulă.
◼ Modelul este recomandat a se folosi atunci când amplitudinea
oscilaţiilor faţă de linia de trend este aproximativ constantă.
◼ Efectul sezonier se măsoară, în acest model, sub forma
devierilor (abaterilor) sezoniere.
◼ Devierile sezoniere arata cu câte unitati de masura se abate,
în medie, în fiecare sezon, nivelul variabilei analizate faţă de
trend; iau valori pozitive şi negative, astfel încât suma devierilor
sezoniere, pentru toate sezoanele, este egală cu zero.

5
Componentele termenilor unei serii
cronologice

Aplicarea modelului aditiv


6
Componentele termenilor unei serii
cronologice
◼ MODELUL MULTIPLICATIV:
yt = ytT  ytS  ytR
◼ În acest model, doar componenta de trend şi termenii reali au
valori absolute, concrete, în timp ce componenta sezonieră şi
cea aleatoare au valori relative (sunt rezultatele unor
rapoarte).
◼ Media componentei aleatoare are valoarea neutră 1.
◼ Modelul este recomandat a se folosi atunci când amplitudinea
oscilaţiilor faţă de linia de trend este crescătoare sau
descrescătoare (oscilaţii amplificate sau atenuate).
◼ Efectul sezonier se măsoară, în acest model, sub forma
indicilor de sezonalitate.
◼ Indicii de sezonalitate măsoară, în medie, de câte ori se
abate nivelul variabilei, în fiecare sezon, de la trend; iau valori
supraunitare sau subunitare, astfel încât produsul lor este
egal cu 1
7
Componentele termenilor unei serii
cronologice

Aplicarea modelului multiplicativ

8
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Determinarea componentei sezoniere se face prin
eliminarea, din nivelul real al termenilor seriei, a celorlalte
componente ale acesteia (trendul şi componenta aleatoare)
◼ Deci, înainte, trebuie identificat trendul, cu o metodă
analitică sau, dintre metodele mecanice, cu metoda
mediilor mobile.

9
Metoda mediilor mobile

◼ Este utilizată cu deosebire atunci când seria cronologică


prezintă fluctuaţii regulate (sezoniere sau ciclice), pentru a
netezi evoluţia.
◼ Tendinţa pe termen lung se determină sub formă unor
medii, calculate din atâţia termeni succesivi (m), la câţi se
manifestă o oscilaţie completă.
◼ Mediile se numesc mobile, glisante, deoarece, în
permanenţă, în calculul unei astfel de medii, se lasă în afară
primul termen al mediei anterioare şi se introduce următorul
termen.

10
Metoda mediilor mobile

Determinarea numărului de termeni


din care se calculează media mobilă

11
Metoda mediilor mobile

◼ Dacă mediile mobile sunt calculate, spre exemplu, din cinci


termeni, fiecare valoare ajustată va cuprinde termenul din
perioada respectivă, cei doi termeni anteriori şi cei doi
termeni următori.
y t − 2 + y t −1 + y t + y t +1 + y t + 2
y tTMM = , t = 3, n − 2
5
◼ În general, dacă mediile sunt calculate din m termeni (m,
număr impar) se vor pierde, prin calculul mediilor mobile,
(m-1) termeni; fiecare valoare ajustată va fi situată în
dreptul unei valori înregistrate, deci mediile mobile astfel
calculate vor constitui chiar valorile ajustate (de trend).
12
Metoda mediilor mobile

◼ Dacă, însă, mediile mobile se calculează din m termeni (m număr


par), atunci valorile medii se situează între termenii reali şi vom
centra nivelurile, astfel ajustate, prin calculul unor medii de medii.
◼ Spre exemplu, dacă o oscilaţie completă are loc la 6 termeni,
atunci calculăm medii mobile centrate:
y t −3 y
+ y t −2 + y t −1 + y t + y t +1 + y t + 2 + t +3
y tTMM = 2 2 , t = 4, n − 3
6

◼ În acest caz se vor pierde, prin calculul mediilor centrate,


m termeni.

13
Metoda mediilor mobile

Avantaje ale metodei:


-Este flexibila, uşor de aplicat
-Nu necesită îndeplinirea prealabilă a unor condiţii;

Dezavantaje ale metodei:


-Se pierde informaţie (cu cât nr. de termeni din care se
calculează media mobilă este mai mare, cu atât se pierde
mai multă informaţie)
-Nu permite previzionarea fenomenului pe o perioadă
viitoare

14
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Exemplu
◼ Să considerăm seria cronologică privind sosirile trimestriale de turişti, în hotelul
„CREASTA“ dintr-o zonă montană (tabelul nr. 1):
Tabelul nr. 1

Sosiri turişti în trimestrul


Anii
I II III IV
2009 940 650 1934 1360
2010 952 706 2072 1406
2011 992 734 2088 1478
2012 1026 740 2190 1492

15
Sosiri turisti

500
1000
1500
2000
2500

0
I'0
9
II'0
9
III
'09
IV
'0
9
I'1
0
Cronograma

II'1
0
III
'10
IV
'1
0
Hotelul “Creasta”

I'1
1
II'1
1
III
'11
IV
'1
1
I'1
2
II'1
2
III
'12
Sosiri trimestriale de turişti la

IV
'1
2
16
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Pentru calcularea tendinţei pe termen lung, folosind metoda mediilor mobile din 4
termeni (la câţi se manifestă o oscilaţie completă), putem sistematiza datele astfel
(tabelul nr. 2):
Calculul mediilor mobile Tabelul nr. 2
Anul Trimestrul Perioada (t) yt MM=ytT
0 1 2 3 4

I 1 940 —
II 2 650 —
2009
III 3 1934 1222
IV 4 1360 1231
I 5 952 1255
II 6 706 1278
2010
III 7 2072 1289
IV 8 1406 1297
I 9 992 1303
II 10 734 1314
2011
III 11 2088 1327
IV 12 1478 1332
I 13 1026 1346
II 14 740 1360
2012
III 15 2190 —
IV 16 1492 — 17
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Prima medie mobilă centrată este:
y1 y
+ y2 + y3 + y4 + 5
y3T = 2 2
4
940 952
+ 650 + 1934 + 1360 +
y3T = 2 2  1222 persoane.
4
◼ Cea de-a doua medie mobilă centrată este:

650 706
+ 1934 + 1360 + 952 +
y4T = 2 2 = 1231 persoane
4
ş.a.m.d.

18
Determinarea tendinţei seculare,
folosind mediile mobile
2500

2000
Sosiri turisti

1500

1000

500

0
9

2
'09

'10

'11

'12
9

2
9

2
II'0

II'1

II'1

II'1
I'0

I'1

I'1

I'1
'0

'1

'1

'1
III

III

III

III
IV

IV

IV

IV
Perioada

Valori reale Medii mobile

Figura nr.1:
19
Determinarea componentei
sezoniere în modelul aditiv
◼ Pentru determinarea devierilor sezoniere se parcurg următorii paşi:
◼ 1. Se înlătură din valorile seriei cronologice (yt) componenta de trend (ytT).
yt − ytT = ytS + ytR
◼ 2. Pentru fiecare sezon/trimestru în parte, calculăm media diferenţelor
obţinute la pasul 1.
◼ În felul acesta (prin calculul mediei) se înlătură cea mai mare parte din
variaţiile reziduale (deşi foarte rar le putem înlătura în întregime).
◼ Aceste medii ale diferenţelor, calculate pentru m sezoane, măsoară abaterile
fenomenului, faţă de linia de tendinţă, date de componenta sezonieră
(devieri sezoniere brute).
◼ 3. Se determina media devierilor sezoniere brute obtinute la pasul 2.
◼ 4. Se corecteaza (prin scadere) devierile sezoniere brute cu media lor,
obtinandu-se devierile sezoniere corectate ( a caror suma este egală cu
zero).

20
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră

◼ Exemplu

◼ După cum se ştie, industria turistică este subiectul unor serioase variaţii
sezoniere. Folosind datele din tabelul nr. 2, vom urmări să determinăm devierile
sezoniere ale variabilei, „sosiri de turişti“. Pentru aceasta, vom înlătura mai întâi
componenta de trend (col. 3 – col. 4, tabelul nr. 2), iar rezultatele (ytS+ytR) le
vom sistematiza în tabelul nr. 4.

21
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
Tabelul nr. 3
Anul Trimestrul Perioada (t) yt ytTMM yt-ytT = ytS+ytR

0 1 2 3 4 5
I 1 940 — -
II 2 650 — -
2009
III 3 1934 1222 712
IV 4 1360 1231 129
I 5 952 1255 -303
II 6 706 1278 -572
2010
III 7 2072 1289 783
IV 8 1406 1297 109
I 9 992 1303 -311
II 10 734 1314 -580
2011
III 11 2088 1327 761
IV 12 1478 1332 146
I 13 1026 1346 -320
II 14 740 1360 -620
2012
III 15 2190 — -
IV 16 1492 — - 22
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
Tabelul nr. 4
Determinarea devierilor sezoniere

Trimestrul
Anii Suma
I II III IV
0 1 2 3 4 5

2009 — — 712 129 —


2010 -303 -572 783 109 —
2011 -311 -580 761 146 —
2012 -320 -620 — — —

Media (dev.sez. brute)


-311,3 -590,7 752 128 -22
DSBj
Devieri
sezoniere corectate -306 -585 758 133 0
DSCj=ytS

23
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
Pentru fiecare sezon vom determina media abaterilor (devieri sezoniere brute):

− 303 + (−311) + (−320)


– pentru trimestrul I: DSBI = ; = −311,3
3
− 572 + (−580) + (−620)
– pentru trimestru II: DSBII = ; = −590,7
3
712 + 783 + 761
– pentru trimestrul III: DSBIII = ; = 752
3
129 + 109 + 146
– pentru trimestrul IV: DSBIV = . = 128
3
Devierile sezoniere în trimestrele I şi II sunt negative (niveluri sub trend), iar
trimestrele III şi IV sunt pozitive (vârfuri de activitate).

24
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
Cum suma acestor medii ale abaterilor este diferită de zero
4

෍ 𝐷𝑆𝐵𝑗 = (−311,3) + (−590,7) + 752 + 128 = −22


𝑗=1
−22
vom ajusta mediile calculate cu valoarea = −5,5 , obţinând devieri sezoniere
4
corectate, astfel:
𝑦𝑆1 = 𝐷𝑆𝐶1 = −311,3 − (−5,5) = −305,8 ≈ −306 persoane
𝑦𝑆2 = 𝐷𝑆𝐶2 = −590,7 − (−5,5) = −585,2 ≈ −585 persoane
𝑦𝑆3 = 𝐷𝑆𝐶3 = 752 − (−5,5) = 757,5 ≈ 758 persoane
𝑦𝑆4 = 𝐷𝑆𝐶4 = 128 − (−5,5) = 133,5 ≈ 133 persoane

Rezultatele ne arată că factorul sezonier deviază in medie numărul sosirilor de


turişti în trimestrul I cu 306 persoane sub linia de trend, în trimestrul II cu 585
persoane sub trend, iar în trimestrele III şi IV cu 758, respectiv, cu 133
persoane peste tendinţa de lungă durată.
25
Previzionarea fenomenelor
afectate de sezonalitate
◼ A. În cazul în care am determinat devieri sezoniere, paşii
pentru previzionare sunt:
◼ 1. Pentru seria desezonalizată ( y t − y Sk = y tT + y tR ) se determină
trendul ( y tT ), folosind o metodă mecanică sau analitică.
◼ 2. Pentru perioada viitoare, se previzionează componenta de
trend y ( n + p ) T .
◼ 3. Se adună valorile previzionate pe sezoane cu devierile
sezoniere ( y Sk ) pentru a obţine previziunea finală:
y ( n + p ) = y ( n + p) T + y Sk

26
Previzionarea fenomenelor
afectate de sezonalitate
◼ Pe baza datelor trimestriale, din perioada 2009-2012 ( t = 1,16 ) privind sosirile
de turişti, în hotelul „CREASTA“ dintr-o zonă montană, s-a determinat tendinţa de
lungă durată folosind metoda modificării medii absolute:
t Serie desezonalizată Tabelul nr. 6
1 940+306=1246
2 650+585=1235
3 1934-758=1176
4 1360-133=1227
5 952+306=1258
6 706+585=1291
7 2072-758=1314
8 1406-133=1273
9 992+306=1298
10 734+585=1319
11 2088-758=1330
12 1478-133=1345
13 1026+306=1332
14 740+585=1325
15 2190-758=1432
27
16 1492-133=1359
Previzionarea fenomenelor
afectate de sezonalitate
ytT = 1246 + (t −1)  7,53, t = 1, n , n = 16

y1T = 1246 ; y16T = 1359 = y nT

◼ şi devierile sezoniere (trimestriale), y Sk :

y S1 = −306 , y S2 = −585 , y S3 = 758 , y S4 = 133 .

◼ Atunci, pentru previzionarea sosirilor trimestriale de turişti, pentru anii 2013 şi


2014 vom calcula (tabelul nr. 7).

28
Previzionarea fenomenelor
afectate de sezonalitate
Tabelul nr. 7
Previzionarea sosirilor trimestriale de turişti

y (n +p)T  Previziune
Anul Trimestrul p y Sk y ( n +p)
0 1 2 3 4 5

2013 I 1 1359+7,53=1367 -306 1061


II 2 1359+2·7,53=1374 -585 789
III 3 1359+3·7,53=1382 758 2140
IV 4 1359+4·7,53=1389 133 1522
2014 I 5 1359+5·7,53=1397 -306 1091
II 6 1359+6·7,53=1404 -585 819
III 7 1359+7·7,53=1412 758 2170
IV 8 1359+8·7,53=1419 133 1552

29
Rezolvare SPSS – Crearea cronogramei

30
Rezolvare SPSS – Crearea cronogramei

31
Rezolvare SPSS – Calculul mediilor mobile

32
Exemplu SPSS
– Calculul mediilor mobile

33
Exemplu SPSS – calculul
devierilor/abaterilor sezoniere

34
35
36
ytS (DSC)

SCR desezonalizata

ytR

37
Calculul mediilor mobile - Excel

38
Calculul mediilor mobile - Excel

39
Calculul mediilor mobile - Excel

40
Calculul mediilor mobile - Excel

41

S-ar putea să vă placă și