Documente Academic
Documente Profesional
Documente Cultură
Introducere în Econometrie.
1. Ce este “Econometria”?
2. Noţiunea de model. Model economic vs. Model
econometric.
3. Etapele demersului econometric.
4. Variabile si date statistice incluse în modelele
econometrice.
5. Tipologia modelelor econometrice.
1. Ce este econometria?
Econometria s-a constituit ca ştiinţă în anul 1930, odată cu înfiinţarea
Societăţii de econometrie
Econometrie provine din cuvintele grecesti: „eikonomia” - economie şi
„metren” – măsură
Econometria reprezintă o unificare a teoriei economice, a matematicii
şi a statisticii având la bază inferenţa statistică
Teoria economică oferă afirmaţii/ipoteze pentru care trebuie construite
modele econometrice susţinute de date reale, empirice
Econometria poate fi folosită:
1. Ca metodă explicativă, pentru a confirma sau infirma o teorie economică
2. Ca instrument de predicţie, pentru a previziona valoarea unei variabile economice
4
Ce este econometria?
Definiţia istorică: „experienţa a arătat că fiecare din următoarele 3 puncte de
vedere, al statisticii, al teoriei economice şi al matematicii este o condiţie
necesară, dar nu şi suficientă pentru o înţelegere efectivă a relaţilor cantitative
din economia modernă; unificarea lor este aceea care asigură eficienţa.
Econometria este tocmai această unificare.” (Ragnar Frisch, Econometrica)
Definiţia restrictivă: econometria presupune investigarea fenomenelor
economice numai cu ajutorul modelelor aleatoare; ea include doar cercetările
economice ce utilizează metodele inducţiei matematice la verificarea relaţiilor
cantitative formulate în teoria economică cu privire la fenomenele sau
procesele studiate (Cowles Comission for Research in Economics, Chicago, 1940-
1950)
Definiţia extinsă: Econometria în sens larg înseamnă econometria în sens
restrâns, la care se adaugă metodele cercetării operaţionale (economiştii anglo-
saxoni)
Ce este Econometria?
X S Y
Modelarea economică
Tipuri de modele:
Modelele deterministe: Y = f(X) (de exemplu: Q = wL) se utilizează frecvent în
practica economică în analiza pe factori a variaţiei, în timp sau spaţiu, a
fenomenelor social economice, reflectând legături de tip determinist sau
funcţional (ex: metoda indicilor).
Modelele stochastice.
Modelul econometric descrie legătura statistică sau stochastică dintre intrările
sistemului - factorii de influenţă X - şi ieşirile acestuia, variabila rezultativă Y:
Y = f(X)+ε
Este un model matematic formulat în conformitate cu principiile teoriei economice,
astfel încât parametrii săi să poată fi estimaţi, dacă se face presupunerea că modelul
este corect.
Descrie, cu ajutorul unui set de simboluri, relaţiile de dependenţă dintre fenomenele
economice, pe baza unei ecuaţii sau a unui sistem de ecuaţii, permiţând înţelegerea,
explicarea sau obţinerea de informaţii noi privind comportamentul fenomenelor
cercetate.
3. Etapele demersului
econometric
1. Identificarea ipotezelor, afirmaţiilor din teoria economică ce
urmează a fi testate (modelul economic);
2. Specificarea modelului matematic al teoriei
3. Specificarea modelului econometric.
4. Colectarea datelor statistice necesare.
5. Estimarea parametrilor modelului econometric.
6. Evaluarea modelului pe baza criteriilor economice,
matematice, econometrice.
7. Predicţii, previziuni pe baza modelului.
8. Control şi construire de politici economice.
4. Variabile şi date statistice
Variabilele economice determină structura modelului econometric:
Endogene (rezultative, dependente, explicate): variabile determinate în cadrul
sistemului;
Exogene (factoriale, independente, explicative): variabile determinate în afara
sistemului, despre care modelul econometric nu are nimic de spus.
Variabila aleatoare (ε): sintetizează totalitatea variabilelor (în afara celor
factoriale) care influenţează variabila endogenă, dar nu sunt specificate în
cadrul modelului (factori aleatori)
Variabila timp (t) se introduce în anumite modele econometrice ca variabilă
explicativă a variabilei endogene (modele dinamice), deşi ea nu poate fi
considerată o variabilă economică concretă. Introducerea ei ca variabilă
fictivă se face din două motive:
Permite identificarea unor regularităţi în evoluţia fenomenelor;
Reprezintă măsura artificială a acelor variabile economice care acţionează asupra
variabilei rezultative dar care, fiind de natură calitativă, nu pot fi cuantificate şi
nici nu apar explicit în model;
Variabile şi date statistice
Variabile aleatoare
Variabila timp
Variabile şi date statistice
Intr-un model econometric, un fenomen oarecare X=(x1, x2, ...,xn) poate fi
introdus cu următoarele valori:
Valori reale (xi), sunt mărimi concrete, pozitive, exprimate în unităţi de
măsură specifice naturii fenomenului X. Vectorul valorilor lui X poate fi
definit prin 2 parametri: n
Media arimetică: x i
x i 1
n
x x
Abaterea medie pătratică: n
2
i
sx s 2
x
i 1
n
x x
n
Unde: 2
i
s
2
x
i 1
dispersia
n
Variabile şi date statistice
Valori centrate xi* xi x
Media:
x *
x *
i
x x 0
i
n n
x x x x
Dispersia: * *
2 2
s x2* i i
n n
xi x
Valori centrate şi normate: xi**
sx
xi x
x
1
x
Media:
x **
x **
i
x
s
sx
i
0
n n n
2
xi x
x x
Dispersia:
s s12
x
2
2
**
x ** i
s x2
x 2 1
2 i x
s x**
n n n sx
5. Tipologia modelelor econometrice
Econometrie - Curs 2,
Business şi Turism,
Seria A anul II
1
1. Scop şi utilitate
2
1. Scop şi utilitate
Scop:
De a stabili existenţa unor dovezi suficiente pentru a
concluziona dacă o ipoteză sau o afirmaţie referitoare la un
parametru al unei populaţii este adevărată.
În ce constă procedura:
Se caută dovezi în eșantion în sprijinul acestei ipoteze. Dacă se
găsesc astfel de dovezi, se acceptă ipoteza emisă, considerând-o
adevărată. Dacă nu, se respinge, considerând-o falsă și se
acceptă o altă ipoteză, contrară celei inițiale.
Utilitate:
Testarea ipotezelor statistice ajută managerii să verifice ştiinţific
ipotezele emise, pentru a adopta deciziile cele mai potrivite în
legătură cu acţiunile lor viitoare.
3
2. Concepte de bază în Testarea
ipotezelor statistice
Ipoteză statistică = o afirmaţie matematică cu privire la parametrul unei
populaţii sau la legea de repartiţie pe care o urmează anumite variabile
aleatoare.
Teste parametrice = teste statistice care verifică valoarea unui parametru al
colectivităţii totale. Ele au următoarele componente (4):
a) Ipoteză nulă (H0)
Este o afirmaţie în care se specifică valori ipotetice pt. unul sau mai mulţi
parametri ai pop. totale.
Ea admite întotdeauna caracterul întâmplător al deosebirilor, adică
presupune că nu există deosebiri esenţiale.
Este ipoteza ce urmează a fi testată, considerată adevărată până când se
dovedeşte că este falsă.
4
2. Concepte de bază în Testarea
ipotezelor statistice
Exemplu: Reprezentantul patronatelor din industria hotelieră
susține că salariul mediu net al unui angajat în acest domeniu
este de 3500 lei.
Ipoteza emisă se scrie astfel:
H0 : µ = 3500
Cele două ipoteze sunt teorii mutual exclusive (este imposibil ca ambele să fie
adevărate) şi exhaustive (acoperă toate posibilităţile: ori H0 este adevărată, ori H1.)
6
2. Concepte de bază în Testarea
ipotezelor statistice
Exemplu: Reprezentantul sindicatelor din industria hotelieră
susține că salariul mediu net al unui angajat în acest domeniu:
nu este de 3500 lei:
H1: µ≠ 3500 (Test bilateral -TB)
este mai mare de 3500 lei:
H1: µ > 3500 (Test unilateral dreapta - TUD)
este mai mic de 3500 lei:
H1: µ < 3500 (Test unilateral stânga - TUS)
7
2. Concepte de bază în Testarea
ipotezelor statistice
c) Testul statistic propriuzis(criteriul de semnificaţie)
10
2. Concepte de bază în Testarea
ipotezelor statistice
Regiunea critică pentru a) Test bilateral; b) Test Unilateral Dreapta; c) Test Unilateral Stânga
13
Notaţii – variabilă non-alternativă
INDICATORUL COLECTIVITATEA COLECTIVITATEA DE
GENERALĂ SELECŢIE
(POPULAŢIA TOTALĂ) (EŞANTION)
PARAMETRII ESTIMATORI
N n
MEDIA x i xi 1
i
i 1
x
N n
x
N n
x
2
DISPERSIA i
2
i x
(VARIANŢA) 2 i 1
s2 i 1
N n 1
ABATEREA MEDIE
x
N
xi 2
n
2
PĂTRATICĂ i x
(ABATEREA 2 i 1
s s2 i 1
STANDARD) N n 1
14
4. TESTAREA IPOTEZEI PRIVIND MEDIA
POPULAŢIEI GENERALE (μ) PENTRU
EŞANTIOANE DE VOLUM REDUS (n≤30)
Forma distribuţiei de eşantionare a mediei x depinde, de forma
populaţiei generale din care a fost extras eşantionul.
Distribuţia de eşantionare a lui x va fi normală (sau aproximativ
normală), în cazul eşantioanelor de volum redus, doar dacă
colectivitatea generală este distribuită normal (sau aproximativ
normal).
dispersia eşantionului ( s 2x ), poate să nu ofere o aproximare foarte
bună a lui (în cazul eşantioanelor mici).
2
x
s 2
x x
i
2
n 1
15
Repartiţia Student
Prin curba Student se înţelege graficul densităţii de probabilitate a repartiţiei
Student (de fapt o familie de curbe indexată prin numărul gradelor de
libertate).
Curba este simetrică şi are o formă apropiată de curba normală standard
către care tinde o dată cu mărirea numărului de grade de libertate. Se poate
observa că probabilităţile extreme sunt mai mari decât în cazul curbei
normale.
Pentru valori mici ale lui n se poate considera că T este repartizată Student cu
df=n - 1 grade de libertate (degrees of freedom).
Adică P(a < T < b) aria de sub curba S(n – 1) delimitată de x = a şi x = b
Pentru n mare repartiţia Student aproximează repartiţia normală.
16
Repartiţia t (Student)
17
4. TESTAREA IPOTEZEI PRIVIND MEDIA
POPULAŢIEI GENERALE (μ) PENTRU
EŞANTIOANE DE VOLUM REDUS
21
EXEMPLUL 1
Exemplu:
Conducerea unei firme apelează la 5 experţi pentru a previziona profitul acesteia în anul
curent. Valorile previzionate sunt: 2,60; 3,32; 1,80; 3,43; 2,00 (milioane lei, preţurile anului
anterior).
Ştiind că profitul firmei în anul anterior a fost de 2,01 mil. lei, sunt suficiente dovezi pentru
a concluziona că media previziunilor experţilor este semnificativ mai mare decât cifra anului
anterior (pentru α = 0,05)?
Soluție:
Notații:
22
EXEMPLUL 1
s s 2 0,74
23
Exemplul 2.
20
24
Exemplul 2.
25
Exemplul 2.
26
Exemplul 2 – Sondaj statistic
c) Estimați pe interval de încredere timpul mediu de servire al unui client al firmei
sale, garantând rezultatele cu o probabilitate de 99% (valoare critică: z=2,86)
1. Se determină eroare standard a mediei:
27
Curs 3
Business & Turism
1
A fost dezvoltată în 1918 de către RONALD FISHER.
Obiectivul acestei metode este de a compara mediile a
2 sau mai multe populaţii, pentru date cantitative.
O modalitate de a compara mediile a 3 sau mai multe
populaţii este de a utiliza de mai multe ori testul t sau
z (se compară prima cu a doua medie, apoi a doua cu a
treia etc.), însă ANOVA permite combinarea tuturor
acestor teste într-o singură procedură.
Prin metoda ANOVA dispersia unei variabile este
partiţionată în componente atribuite unor surse de
variaţie diferite.
2
Metoda studiază efectul uneia sau mai multor variabile
independente asupra unei variabilei dependente,
determinând gradul în care variaţia celei din urmă este
influenţată de variabila independentă.
Are la bază metoda grupării, permiţând separarea
influenţei factorilor esenţiali (determinanţi) de influenţa
factorilor consideraţi întâmplători (aleatori) asupra
caracteristicii “efect”/dependente.
în funcţie de numărul factorilor înregistraţi ce-şi exercită
influenţa asupra caracteristicii rezultative (unul, doi sau
mai mulţi), analiza dispersională se poate efectua după
un model unifactorial, bifactorial sau multifactorial.
3
Selectăm un grup
de indivizi pe
care-l împărţim
apoi aleator în
subgrupuri
Fiecare subgrup
primeşte sarcini
diferite, sau
fiecăruia i se
aplică tratamente
sau condiţii
diferite
Se măsoară
răspunsul unei
variabile
dependente
comune
4
Un cercetător doreşte să studieze dacă
diferitele strategii de alergare influenţează
timpul de realizare a unei curse de maraton.
El selectează mai mulţi voluntari şi îi împarte
aleator în 3 subgrupuri, alocând fiecăruia o
strategie diferită de alergare:
◦ (a) viteză mică la început, apoi creşte pe parcurs;
◦ (b) viteză mare la început, apoi încetinire.
◦ (c) viteză/ritm constant(ă) pe tot parcursul cursei.
Timpul în care finalizează cursa de maraton
este rezultatul (variabila dependentă).
Strategia de alergare este variabila de grupare
5
Un producător de sucuri de mere a realizat un nou
produs: concentrat lichid. Acest produs are câteva
avantaje faţă de vechiul produs, printre care:
1. este mai practic (uşor) de utilizat;
2. are o calitate cel puţin la fel de bună ca şi a vechiului
produs;
3. preţul noului produs este semnificativ mai mic decât al
vechiului produs.
6
Pentru a decide care este cea mai bună strategie de
marketing, directorul Departamentului de marketing a
dispus realizarea unui studiu în 3 oraşe:
- în oraşul A, strategia s-a axat pe uşurinţa folosirii noului
produs;
- în oraşul B, strategia s-a axat pe calitatea net superioară a
noului produs;
- în oraşul C, strategia s-a axat pe preţul inferior al noului
produs.
În toate cele 3 oraşe, s-au înregistrat vânzările
săptămânale (u.m.), în mai multe săptămâni consecutive.
7
Strategia de Valoarea vânzărilor săptămânale (u.m) Număr de
marketing săptămâni
Uşurinţă în 53; 68; 79; 51; 66; 72; 71; 61; 46; 53; 10
folosire
Calitate 80; 63; 77; 72; 68; 60; 62; 70 8
Preţ 67; 53; 44; 60; 60; 50; 66; 69; 68; 51; 59; 49 12
8
O populaţie este împărţită în “r” grupe, după valorile unei
variabile X (X – factorul de grupare sau variabila independentă).
Pentru fiecare unitate a populaţiei s-au înregistrat valorile unei
variabile Y. S-a extras aleator câte un subeşantion din fiecare
grupă a populaţiei totale.
9
Mediile grupelor din populaţia totală (μi), i = 1, r
sunt estimate prin mediile grupelor din
eşantion: y i , i = 1, r
Populaţia totală este împărţită în “r ” grupe,
după valorile variabilei X; Din fiecare grupă a
populaţiei totale este extras câte un
subeşantion de volum n1, n2, …, nr.
Pentru fiecare unitate a eşantionului este
înregistrată valoarea variabilei dependente Y.
10
Pentru fiecare variantă/interval de variaţie a variabilei cauzale X, se
înregistrează o distribuţie de valori ale variabilei efect Y, distribuţie
pe care o putem caracteriza, de regulă, prin nivelul mediu. Astfel,
avem “r” medii parţiale (de grupă) ale variabileiY .
12
Ipotezele ANOVA:
◦ ANOVA testează dacă există diferenţe semnificative între
mediile grupelor din populaţia totală (estimate prin mediile
grupelor din eşantion);
◦ Cu alte cuvinte, metoda testează dacă aceste diferenţe nu sunt
cumva prea mari pentru a fi explicate de factorii aleatori;
◦ Dacă cel puţin două medii diferă semnificativ, atunci variabila
X influenţează semnificativ variaţia variabilei Y.
13
Ipoteza nulă susţine egalitatea între mediile grupelor din
colectivitatea generală, alcătuite după variabila X deci, factorul
de grupare nu influențează semnificativ variaţia variabilei
dependente.
H0 : μ1 = μ2 = μ3 = = μr
Toate mediile sunt egale:
Nu există variaţie între
mediile grupelor (între grupe)
14
Ipoteza alternativă susţine că cel puţin două medii ale grupelor din
populatia totală, alcătuite după variabila X, nu sunt egale deci, factorul de
grupare influențează semnificativ variaţia variabilei Y
H1 : i, j 1,2,..., r, i j , astfel incat μi μ j
Cel puţin o medie este diferită
Există variaţie între grupe
μ1=μ2 μ3 μ1 μ2 μ3
μ1 = μ2 μ3 μ1 μ2 μ3
15
Condiţiile de aplicare ale metodei (Presupuneri)
✓cele “r” grupe din eşantion sunt extrase aleator
şi independent unele de altele din cele “r”
grupe ale colectivităţii totale;
✓fiecare grupă din colectivitatea generală are o
distribuţie normală
✓abaterile medii pătratice ale acestora sunt
egale:
1 = 2 = ... = r
16
Variabilitatea datelor este factorul cheie prin care se testează
egalitatea mediilor.
În ambele figuri de mai jos mediile sunt diferite, dar din
cauza împrăştierii mari a datelor (fig. B) diferenţele dintre
medii se estompează.
18
Media grupei “i” (parţială): Dispersia grupei “i” (parţială):
(y )
ni
yij
ni
2
ij − y i
j =1 si2 =
j =1 i = 1, r
yi = ni -1
ni
Media generală (totală): Dispersia totală:
r ni
y
r
y n
?
ij
i i
i =1 j =1
y = r
= i =1
r
n i n i =1
i
i =1
19
Factori sistematici, Factori neesenţiali,
Totalitatea determinanţi (X – aleatori (ceilalţi
factorilor de = +
factorul de factori, în afară de
influenţă ai lui Y grupare) X)
Variaţia din
Variaţia totală a = Variaţia dintre + interiorul grupelor
lui Y grupe
21
Pentru a compara varianţele, acestea se împart la gradele de libertate
(Degrees of Freedom), obţinându-se Dispersiile corectate (Medii ale
pătratelor - Mean Squares):
◦ Dispersia corectată factorială (dintre grupe) - Mean Squares
Between Groups: r
SSB SSB i =1 ( yi - y )2
ni
MSB = = =
df B r-1 r-1
◦ Dispersia corectată reziduală (din interiorul grupelor) -
Mean Squares Within Groups:
r ni r
SSW SSW
(yij- yi)
i =1 j =1
2
i (ni − 1)
s 2
MSW = = = = i =1
dfW n-r n-r n-r
22
Dispersia corectata totala (Total Mean Square):
r ni
SST SST
(yij- y
i =1 j =1
)2
SSB + SSW
MST = s = 2
= = =
n −1
y
dfT n-1 n-1
23
Pentru testarea ipotezelor, se aplică testul F:
MSB Dispersia dintre grupe
Fcalc = =
MSW Dispersia din interiorul grupelor
24
Regula de decizie este:
❖ dacă Fcalc ≤ F α; r-1; n-r , atunci: Fcalc ϵ Rac
26
Source of SS df MS Testul F
Variation
Between SSB MSB
SSB dfB = r - 1 MSB =
Groups F=
r-1 MSW
Within SSW
SSW dfB = n - r MSW =
Groups n-r
SST = dfT = n - 1
Total
SSB+SSW
r = numărul de grupe
n = volumul eşantionului
df = grade de libertate
27
Rezolvare:
Strategia de Valoarea vânzărilor săptămânale (u.m) Număr de
marketing săptămâni
Uşurinţă în 53; 68; 79; 51; 66; 72; 71; 61; 46; 53; 10
folosire
Calitate 80; 63; 77; 72; 68; 60; 62; 70 8
Preţ 67; 53; 44; 60; 60; 50; 66; 69; 68; 51; 59; 49 12
Ipoteze:
H 0 : 1 = 2 = 3 între vânzările medii săptămânale nu
există diferențe semnificative deci, strategia de marketing NU
influențează semnificativ volumul vânzărilor;
H 1 : i j , i j (i, j = 1,2,3) între cel puțin două
vânzări medii săptămânale există diferențe semnificative deci,
strategia de marketing influențează semnificativ volumul
vânzărilor
28
29
Valoarea medie a vânzărilor pentru fiecare strategie:
620 552
y1 = = 62 y2 = = 69 y3 =
696
= 58
10 8 12
30
Dispersiile grupelor:
Strategia de Valoarea vânzărilor săptămânale (u.m) Număr de
marketing săptămâni
Uşurinţă în 53; 68; 79; 51; 66; 72; 71; 61; 46; 53; 10
folosire
Calitate 80; 63; 77; 72; 68; 60; 62; 70 8
Preţ 67; 53; 44; 60; 60; 50; 66; 69; 68; 51; 59; 49 12
31
Sum of squares:
r
SSB = ( yi - y) 2 n i = (62 − 62,27) 2 10 + (69 − 62,27) 2 8 + (58 − 62,27) 2 12 = 581,86
i =1
Mean of Squares:
SSB 581,86
MSB = = = 290,93
r -1 3 -1
SSW 2214
MSW = = = 82
n - r 30 - 3
32
Testul F:
MSB 290,93
Fcalc = = = 3,55
MSW 82
Cum Fcalc Fcrit respingem H0, acceptăm H1, cel puţin două vânzări
medii săptămânale, pentru două strategii diferă semnificativ. Putem, deci,
concluziona cu o probabilitate de 95%, că strategia de marketing aleasă
pentru promovarea produsului a determinat o diferenţiere semnificativă a
vânzărilor, influenţând variaţia acestora.
33
Convenience = utilitate,
uşurinţă în folosire
Quality = calitate
Price = preţ
34
Se bifează dacă în au fost Celulele ce conţin datele
selectate şi etichetele celor trei iniţiale
grupuri
Nivelul
de
semni-
ficaţie
37
38
Definirea variabilelor
Introducerea valorilor
variabilelor
39
40
41
42
Convenience = utilitate,
uşurinţă în folosire
Quality = calitate
Price = preţ
43
Rezultatele se interpretează similar cu soluţia
EXCEL.
Cum Fcalc Fcrit respingem H0, acceptăm H1, cel puţin
două vânzări medii săptămânale, pentru două strategii
diferă semnificativ. Putem, deci, concluziona cu o
probabilitate de 95%, că strategia de marketing aleasă
pentru promovarea produsului a determinat o
diferenţiere semnificativă a vânzărilor, influenţând
variaţia acestora.
p-value < α = 0,05, respingem H0, acceptăm H1.
Probabilitatea maximă (acceptăm H1) = 100-pvalue %
= 100 - 4,3 = 95,7 %>95%
44
45
Formulele devin:
m m r
y n
j=1
j ij y j n .j
j=1
y i n i.
i =1
yi = y= m
= r
m
nj=1
ij n .j
j=1
n i.
i =1
r r m
SSB = ( yi - y) ni 2
SSW = (yj - yi) n ij 2
i =1 i =1 j=1
46
În modelul de analiză bifactorială se identifică doi
factori de influenţă, iar variabilitatea caracteristicii
rezultative poate să fie pusă:
47
❖ modelele de analiză dispersională nu explică relaţia dintre
variabile;
❖ verifică doar măsura în care valorile reale ale unei caracteristici
se abat de la valorile teoretice, precum şi măsura în care aceste
variaţii sunt sau nu dependente de factorul/factorii de grupare;
❖ metoda analizei dispersionale poate fi utilizată atât înaintea,
cât şi după aplicarea metodelor corelaţiei şi regresiei statistice;
❖ testul F se poate utiliza şi pentru testarea validităţii modelului
de regresie;
❖ în general, în analiza dispersională, nivelurile x1, x2, ..., xr sunt
niveluri ale unei variabile categoriale (numite şi tratamente) dar,
cum ceea ce este valabil pentru o scală inferioară (nominală) este
valabil şi pentru orice altă scală superioară (ordinală, de intervale,
de rapoarte), analiza se poate extinde.
48
Econometrie - Curs 4,
BUSINESS&TOURISM, anul II, seria A
1
Definiție: un set de date statistice care se
referă la două variabile statistice
Analiza: vizează caracterizarea legăturii
dintre variabile
Metode:
◦ Regresia – explică comportamentul unei variabile în
funcție de modificările celeilalte variabile
◦ Corelația – caracterizează intensitatea și sensul
legăturii dintre variabile
Unitatea
Variabila X Variabila Y
statistica
(xi) (yi)
1
x1 y1
2
x2 y2
3
x3 y3
…
…. ….
n
xn yn
Definiţie: o relaţie matematică construită pe baza teoriei economice, care
presupune că fenomenul economic Y (fenomenul efect) este rezultatul
acţiunii a două categorii de factori:
◦ prima, constituită dintr-un singur factor principal, esenţial, determinant – X,
◦ a doua - formată din toţi ceilalţi factori – consideraţi neesenţiali, cu acţiune
întâmplătoare (specificaţi prin variabila reziduală “ε”) sau constantă,
invariabilă, asupra lui Y (şi deci nu au sens a fi specificaţi în model).
Specificarea modelului unifactorial constă în precizarea variabilei
endogene Y şi a celei exogene X, pe baza teoriei economice; ca orice
ipoteză teoretică, ea poate fi adevărată sau falsă.
◦ y = f(x) + ε
Identificarea modelului constă în alegerea unei funcţii (sau a unui grup
de funcţii) matematice, cu ajutorul căreia se urmăreşte să se descrie
valorile variabilei endogene, doar în funcţie de variaţia variabilei exogene
X. Identificarea modelului se poate face prin: • procedeul grafic; •
procedeul conservării ariilor; • procedeul calculelor algebrice.
4
1 factor esențial Factori neesențiali
(variabila (variabila reziduală,
independentă X) aleatoare ɛ)
5
Scop:
Explică comportamentul unei variabile
dependente în funcție de variația valorilor
unei variabile independente, pe baza unui
model matematic numit model de regresie.;
Permite previzionarea unei noi valori a
variabilei effect Y;
Permite ajustarea şi controlul variabile efect,
prin intervenţia asupra variabilei cauză
Presupune stabilirea relației de cauzalitate
6
Keynes: C=f(V)
Suma cheltuită pentru consum depinde de:
◦ mărimea venitului (V)
◦ prețuri, tarife
◦ alte obiective în funcţie de circumstanţe (de exemplu investiţiile)
◦ alte nevoi subiective
Legea psihologică fundamentală: „o persoană este dispusă de
regulă şi în medie să îşi crească consumul odată cu creşterea
venitului dar nu în aceeaşi măsură”
Presupunerea cea mai simplă: C=+V, 0<<1 este o relaţie
deterministă neadecvată.
În model trebuie inclus şi factorul aleator:
C=f(V,)
Modelul cel mai simplu:
C=+V+
7
8
9
1
0
y=a+bx Y
1000
1 a + be x
y=a+bz, z=ex
a + b
x
y=a+br, r=1/x
800
y=a+bq, q=ln(x) 600
a + bx
Sau
400
y=αx ln(y)=+ln(x) 200
Forma generală: a + b ln ( x )
f(yi)= +g(xi)+i
0
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X
y = +
+x
nu poate fi transformat în
-400
model liniar.
Modele ce pot fi linearizate
11
Modelul probabilistic la populației totale:
yi = 0 + 1 xi + i
unde
(xi,yi) reprezintă valorile numerice ale variabilelor cauză şi
efect înregistrate la nivelul unităţii statistice „i”;
β0, β1 = parametri constanţi
β0 = interceptie= punctul de intersecţie al dreptei de regresie
cu axa Oy;
β1 = panta dreptei, se mai numeşte şi „coeficient de regresie”
şi arată cu câte unităţi de măsură se modifică Y dacă X se
modifică cu o unitate de măsură;
ɛi = componenta reziduală (eroare aleatoare) pentru unitatea
statistică „i”.
1
2
Valoarea reală yi a caracteristicii Y din modelul
probabilistic cuprinde:
- componenta teoretică, deterministă ( ŷi ), adică
partea din valoarea reală yi care se poate
determina pe baza modelului pentru o anumită
valoare xi:
yˆ i = 0 + 1 xi (Ecuația de regresie liniară)
- componenta aleatoare (reziduală), numită şi
eroarea aleatoare, (ɛi), reprezentând acea parte
din valoarea reală a lui Y care nu se poate
cuantifica.
yi = yˆ i + i
1
3
Dacă datele disponibile provin dintr-un eşantion, avem n
perechi de observaţii reale: (x1,y1), (x2, y2), ... , (xn, yn), pe
baza cărora se vor estima parametrii ecuaţiei, β0 şi β1.
Modelul de regresie în eşantion va fi:
yi = b0 + b1 xi + ei
ei = y i − yˆ i
yˆ i = b0 + b1 xi
unde:
◦ b0 = estimatorul parametrului β0 din pop. Totală (interceptie);
◦ b1 = estimatorul parametrului β1 din pop. Totală (panta);
◦ ei = valoarea reziduală pt. unitatea “i” în eşantion.
14
15
Estimarea parametrilor modelului se poate face prin
următoarele metode:
◦ Metoda punctelor empirice
◦ Metoda punctelor medii
◦ Metoda celor mai mici pătrate
◦ Metoda celor mai mici pătrate generalizată
◦ Metoda verosimilităţii maxime cu informaţie limitată sau completă
Metoda celor mai mici pătrate presupune maximizarea
similitudinii, a gradului de asemănare a valorilor teoretice cu
valorile reale, deci minimizarea erorilor. Cum erorile se pot
produce intr-un sens sau în altul faţă de valorile reale, ea
presupune minimizarea sumei pătratelor reziduurilor (sau
erorilor):
16
Erorile pot fi pozitive sau negative, dupa cum
punctele sunt situate deasupra sau dedesubtul
dreptei de regresie
y1 − ŷ1 y 3 − ŷ 3
y 2 − ŷ 2
0
x1 x2 x3 X
17
S = ei2 = ( yi − yˆ i ) = ( yi − b0 − b1 xi ) → minim
2 2
S
b = 0 2( yi − b0 − b1 xi )(− 1) = 0 yi − nb0 − b1 xi = 0
0
S
=0 2 ( y i − b0 − b1 xi )(− xi ) = 0 xi y i − b0 xi − b1 xi
2
=0
b1
nb0 + b1 xi = yi
b0 xi + b1 xi = xi yi
2
18
Aplicând metoda determinanţilor, se obţine:
b0 =
yi x i
b1 =
n y i
x y x
i i
2
i x i x y
i i
=
n x i
xi x 2
i
b0 =
b0
=
i i − xi xi yi
y x 2
n xi2 − ( xi )
2
b1 n xi yi − xi yi
b1 = =
n xi − ( xi )
2 2
19
Rămâne de verificat dacă este verificată condiţia de ordin 2, adică soluţia găsită este un
punct de minim. Matricea derivatelor parţiale de ordin doi trebuie să fie pozitiv
definită:
2 (S ) 2 (S )
2 2 2n 2 xi
2 b0 b0 b1
= i
(S ) ( S ) 2 xi
2
2 xi2
b b 2 2 i
b1
i
1 0
2 n 0
2
2 xi 0
i
2 2 2
4n xi − 4( xi ) = 4n ( xi − x) 0
i i i
Deci matricea este pozitiv definita.
20
“b1” se mai poate scrie:
x y − x y
i i i i
b1 n xi yi − xi yi n n n xy − x y
b1 = = = =
n xi − ( xi ) xi − xi i − x2
2 2 2 2 2
x
n n
n
Numărătorul lui “b1” este:
cov( x, y ) = xy − x y =
x y x y
−
i
i i i
n n n
Numitorul lui “b1” este:
xi
2
x 2
= −
2 i
s x
n n
21
Deci “b1” se mai poate scrie: b = cov(x, y )
1 2
sx
Din expresia coeficientului de corelaţie:
cov( x, y ) s x2 sx
rxy = = b1 = b1
sx s y sx s y sy
Rezultă deci că:
sy
b1 = rxy
sx
22
Semnul lui b1 arată direcția sau sensul legăturii
𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥 𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥
𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥 𝑏1 < 0 𝑏1 = 0
𝑏1 > 0
Linii de regresie cu
a) pantă pozitivă
b) pantă negativă
23
c) pantă egală cu zero
Semnificația estimatorului Intercept (b0)
◦ Reprezintă valoarea medie a variabilei dependente
Y, la o valoare a variabilei independente X egală cu
0
Semnificația estimatorului Pantă (b1)
◦ Arată cu câte u.m. se modifică, în medie Y dacă X se
modifică cu 1 u.m.
◦ Semnul său indică direcția sau sensul legăturii:
b1 >0 legătură liniară directă
b1 <0 legătură liniară inversă
b1 =0 lipsa legăturii liniare (variabile necorelate linear)
24
Sistemul de ecuaţii normale are următoarele
proprietăţi:
(y i − yˆ i ) = 0 (ei ) = 0 (ei ) = 0
(y i − yˆ i ) = 0 yˆ i y i
26
3. Valorile variabilei reziduale εi urmează o distribuţie
normală, de medie zero ( ( i ) = 0, i = 1, n ) şi dispersie
constantă şi nenulă, pentru toate valorile Xi:
2 0 2 = const i = 1, n
(homoscedasticitatea erorilor).
Cu alte cuvinte, întrucât distribuţia variabilei reziduu
este independentă de valorile variabilelor explicative, nici
dispersia perturbaţiei nu diferă semnificativ în raport cu
valorile Xi, ceea ce indică o stabilitate relativă a legăturii
dintre variabila rezultativă şi variabilele factoriale.
27
28
Dispersia reziduurilor a) constantă; b) variabilă
29
Homoscedasticitatea erorilor
30
Heteroscedasticitatea erorilor
31
- crearea bazei de date
- realizarea si interpretarea corelogramei
- estimarea parametrilor modelului de
regresie liniara
Un specialist în marketing dorește să studieze legătura dintre vânzările unei firme
producătoare de mobilă și cheltuielile cu reclama și publicitatea. Pentru aceasta sunt
înregistrate valorile celor două variabile pentru 24 de perioade consecutive (u.m.).
Se cere:
a) Să se analizeze legătura dintre cele două variabile utilizând metoda grafică.
b) În ipoteza unei legături liniare, să se determine ecuația de regresie liniară în eșantion și
să se interpreteze valorile estimatorilor b0 și b1 ai parametrilor modelului.
c) Să se arate dacă punctul de coordonate (4.2, 12.3) aparține dreptei de regresie. Care este
eroarea în acest caz?
d) Să se previzioneze valoarea vânzărilor, dacă s-au cheltuit 6 u.m. cu reclama și
publicitatea.
32
Crearea bazei
de date
-Structurarea bazei de
date
- Popularea bazei de date
33
34
CORELOGRAMA (SCATTER PLOT)
Legătură liniara
directa
35
Corelograma (digrama norului de puncte,
diagrama de împrăștiere)
Indică:
◦ existența
◦ direcția legăturii dintre variabile
◦ forma
Existența legăturii
Legătură Legătură
directă inversă
Forma legăturii
Legătură
liniară Legături neliniare
38
39
40
Interpretarea estimatorilor
parametrilor modelului
Interpretari:
b0 = 6.581 inseamna ca: dacă cheltuielile cu publicitatea
sunt 0, atunci valoarea medie a vânzărilor ar fi de 6.581
u.m.
41
xi=4.2, yi=12.3
Dacă acest punct aparține dreptei, atunci el
îndeplinește condiția: yi= 𝑦ො𝑖
Aceasta înseamnă că:
12.3 = 6.581 + 1.072 ⋅ 4.2
12.3 = 11.08 𝐹𝐴𝐿𝑆
Punctul nu aparține dreptei de regresie
Eroarea 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 =12.3-11.08=1.22
42
Se consideră xi=6 și se înlocuiește în relația:
𝑦ො𝑖 = 6.581 + 1.072 ⋅ 𝑥𝑖
𝑦ො𝑖Τ𝑥𝑖 =6 = 6.581 + 1.072 ⋅ 6 = 13.01 𝑢𝑚
43
44
45
46
47
48
Econometrie
Modelul de regresie
liniară unifactorială (2)
Curs 5
1
Conţinutul cursului:
3
1. Definirea, specificarea şi
identificarea modelului de regresie
▪ Modelul în populaţia totală:
yi = 0 + 1 xi + i
▪ unde β0, β1 = parametrii modelului
▪ Modelul în eşantion:
yi = b0 + b1 xi + ei
▪ unde b0, b1 = estimatorii parametrilor modelului.
▪ Ecuaţia de regresie liniară in esantion:
yˆi = b0 + b1 xi
4
2. Ipotezele modelului unifactorial de
regresie liniară
Pentru obţinerea unor estimatori de calitate, se formulează următoarele presupuneri
(ipoteze):
5
2. Ipotezele modelului unifactorial de
regresie liniară
3. Valorile variabilei reziduale εi urmează o distribuţie normală,
de medie zero ( ( i ) = 0, i = 1, n ) şi dispersie constantă şi
nenulă, pentru toate valorile Xi:
2 0 2 = const i = 1, n
(homoscedasticitatea erorilor).
Cu alte cuvinte, întrucât distribuţia variabilei reziduu este
independentă de valorile variabilelor explicative, nici dispersia
perturbaţiei nu diferă semnificativ în raport cu valorile Xi, ceea
ce indică o stabilitate relativă a legăturii dintre variabila
rezultativă şi variabilele factoriale.
6
Normalitatea erorilor
7
Homoscedasticitatea /
heteroscedasticitatea erorilor
8
Homoscedasticitatea erorilor
▪ nb0 + b1 xi = yi
b0 xi + b1 xi = xi yi
2
b0 =
b0
=
y x − x x y
i
2
i i i i
n x − ( x )
2 2
i i
b1 n xi yi − xi yi
b1 = =
2
(
n xi − xi )2
11
Estimarea parametrilor modelului unifactorial
liniar
Semnul lui b1 arată direcția sau sensul legăturii
Linii de regresie cu
a) pantă pozitivă
b) pantă negativă
c) pantă egală cu zero
12
Estimarea parametrilor modelului unifactorial
liniar
13
4. Testarea validităţii modelului
▪ Analiza de varianţă (ANOVA) şi Testul Fisher (testul F).
(
y i − y = ( y i − yˆ i ) + yˆ i − y )
▪ unde:
▪ yi − y este deviaţia totală
▪ yi − yˆ i este deviaţia neexplicată de model (eroare).
▪ yˆ i − y este deviaţia explicată de model (de infl. Lui
X)
unde:
y = media variabilei dependente Y
yi = valorile observate (reale) ale variabilei dependente
ŷ i = valorile previzionate ale lui Y pentru un xi dat
12
4.Testarea validităţii modelului
(y ) = (yˆ ) + (y
n n n
− yˆ i )
2 2
−y −y
2
i i i
i =1 i =1 i =1
Varianţa reziduală a
Varianţa totală a Varianţa de regresie
variabilei Y (a
variabilei Y a variabilei Y
erorilor) (neexplicată
(determinată de toţi (explicată de modelul
de modelul de
factorii de influenţă) de regresie)
regresie)
13
4. Testarea validităţii modelului
Varianţa (Sum of Squares)
n
▪ SST = ( yi − y) 2 = Total Sum of Squares (varianţa totală)
i =1
▪ Măsoară variaţia valorilor yi în jurul mediei lor
n
▪ SSR = ( yˆ i − y ) 2 = Regression Sum of Squares (varianţa
i =1 de regresie)
▪ Măsoară variaţia lui Y datorată relaţiei liniare dintre X
şi Y (explicată de model, de influenta lui X)
n
▪ SSE = ( yi − yˆ i ) 2 = Error Sum of Squares (varianţa
i =1
reziduală sau a erorilor)
▪ Măsoară variaţia lui Y datorată factorilor aleatori
(neexplicată de model, neexplicata de X)
xi X
15
4.Testarea validităţii modelului
Dispersiile corectate (Mean Squares)
▪ Ipotezele testate:
▪ H0: MSRP = MSEP (influenţa lui X asupra lui Y este
egală cu cea a factorilor aleatori) (Modelul nu este
valid)
▪ H1: MSRP > MSEP (influenţa lui X asupra lui Y este
semnificativ mai mare decât cea a factorilor aleatori)
(Modelul este valid)
▪ Testul F (Fisher): se aplica precum un TUD
MSR SSR SSE
Fcalc = = :
MSE k n − k −1
Valoarea calculată a testului F se compară cu valoarea
critică Fα,k,n-k-1
17
4.Testarea validităţii modelului
▪ Regula de decizie:
▪ Dacă Fcalc≤ Fα,k,n-k-1, atunci se acceptă H0, variaţia lui Y
datorată lui X nu diferă semnificativ de variaţia lui Y
datorată factorilor aleatori şi modelul de regresie nu
este valid
▪ Dacă Fcalc> Fα,k,n-k-1 atunci se respinge H0, se acceptă
H1, variaţia lui Y datorată lui X este semnificativ mai
mare decât variaţia lui Y datorată factorilor aleatori şi
modelul de regresie este valid.
▪ Rezultatele se trec în următorul tabel:
18
▪ Regula de decizie:
21
4.Testarea validităţii modelului
Source of df (Degrees of
SS (Sum of Squares) MS (Mean Squares) F-test
variation freedom)
( )
(Regression) n
SSR MSR
SSR = yˆ i − y
2
MSR = Fcomp =
Explicata de i =1 dfR = k k MSE
model
(Error/Residual) n
SSE
SSE = ( yi − yˆ i ) MSE =
2
Explicata de dfE = n- k-1 n − k −1
factorii aleatori i =1
( )
n
SST = yi − y
2
Total dfT = n- 1 -
i =1
19
5.Evaluarea calităţii ajustării oferite de
modelul de regresie
( )
n n
( yi − yˆi )
2
yˆ i − y
2
SSR SSE
R2 = = 1− = 1− i =1
= i =1
(y − y ) (y − y )
n n
SST SST 2 2
i i
i =1 i =1
R 2 0,1
20
5. Evaluarea calităţii ajustării oferite de
modelul de regresie
▪ Raportul (coeficientul) de determinatie ia valori in intervalul [0,1].
▪ Interpretare:
▪ R2 = 0 dacă b1=0, y = y , deci dacă ecuaţia de regresie este o dreaptă
orizontală. În acest caz variabila X nu are putere explicativă (X nu
influenteaza variatia lui Y).
▪ R2 = 1 dacă punctele determinate de observaţiile făcute asupra variabilelor
X şi Y se află toate pe o dreaptă, caz în care erorile vor fi zero.
▪ În cazul în care toate valorile lui Y se află pe o dreaptă verticală, R2 nu are
nici o semnificaţie şi nu poate fi calculat.
▪ R = R 2 unde R este raportul de corelatie, cu valori in intervalul [0,1].
▪ Daca R→1 legatura dintre X si Y este puternica.
▪ Daca R →0 legatura dintre X si Y este slaba.
▪ In cazul legaturilor liniare, R = rxy
24
5. Evaluarea calităţii ajustării
oferite de modelul de regresie
Y
rxy = -1
Relaţie inversă/directă liniară
perfectă între X and Y.
R=1
100% din variaţia lui Y este
X explicată de variaţia lui X
Y rxy = +1 !!! R nu arată direcţia
legăturii dintre X şi Y.
X
R=1
22
5. Evaluarea calităţii ajustării
oferite de modelul de regresie
R=0
Y
Nu există legătură între X şi
Y (liniară sau neliniară)
23
5. Evaluarea calităţii ajustării
oferite de modelul de regresie
Coeficientul
. de determinaţie ajustat se ajustează coeficientul de determinaţie cu
gradele de libertate
2 SSE / n − k − 1
R = 1−
SST / n − 1
Valoarea lui R 2 este întotdeauna mai mică decât coeficientul de determinaţie R2.
Raportul de corelaţie se determină pentru legături de tip liniar sau neliniare
Egalitatea r= R este un test de liniaritate pentru model
În analiza corelaţiei simple liniare se observă că:
(yˆ − y ) = b ( x − x)
n n
2 2 2
r2 = R2, deoarece, cum
i 1 i
i =1 i =1
(yˆ − y )
n n
( x − x)
2 2
i i 2
s
R 2
= i =1
=b 2
=b
i =1
=r 2 x 2
(y − y ) (y − y )
n 1 n 1 2
2 s 2
y
i i
i =1 i =1
25
5. Evaluarea calităţii ajustării
oferite de modelul de regresie
▪ 5.2. Abaterea standard a erorilor (Standard Error) în
eşantion este:
n
( y − yˆ )
2
i i
SSE SSE
se = se2 = = = i =1
n − k −1 n−2 n−2
unde s e este un estimator nedeplasat al dispersiei reziduurilor
2 2
29
Comparare Standard Error
Y Y
27
Observaţii
28
6. Testarea semnificaţiei parametrilor modelului
de regresie liniară unifactorială şi determinarea
intervalelor lor de încredere
▪ Estimatorii “b0” şi “b1” ai parametrilor din ecuaţia de regresie în
colectivitatea generală sunt variabile aleatoare, având distribuţii de
eşantionare, cu următoarele proprietăţi:
▪ “b0” şi “b1” sunt estimatori nedeplasaţi ai parametrilor “β0” şi “β1”, adică:
▪ Distribuţiile de eşantionare ale estimatorilor “b0” şi “b1” sunt normal
distribuite, cu mediile “β0” şi “β1” şi dispersiile: s 2 şi 2
b0 sb1
(bo ) = 0 (b1 ) = 1
s =s
2 2
x 2
i
1
n (x − x ) sb21 = se2
b0 e
(x − x )
2
i 2
i
( )
2
sb20 = se2 + n
i i
1 x
− ˆ 2
y y
n se2 =
i =1
( xi − x )
2
n−2
32
6.1. Testarea semnificaţiei
parametrului “β1” (panta dreptei)
▪ Testul t:
b1 − (b1 ) b1 − 0 b1
tcalc = = =
sb1 sb1 sb1
30
6.1. Testarea semnificaţiei parametrului
“β1” (panta dreptei)
▪ Teste unilaterale:
▪ Test unilateral dreapta:
▪ H0: β1 = 0 b1 − (b1 ) b1 − 0 b1
▪ H1: β1 0 tcalc = = =
sb1 sb1 sb1
▪ Test unilateral stânga:
▪ H0: β1 = 0
▪ H1: β1 0
▪ Regiunea critică:
▪ Pt. test unilat. dreapta:
t calc t ,n − 2
▪ Pt. test unilat. stânga: t calc −t ,n − 2
▪ Intervalul de încredere pentru “β1”:
b1 − t / 2,n − 2 sb1 1 b1 + t / 2,n − 2 sb1
34
6.2. Testarea semnificaţiei parametrului
“β0” (Intercepţia)
35
Compararea erorilor standard
ale pantei dreptei de regresie
Sb1 este o măsură a variaţiei pantei dreptelor de regresie
pentru mai multe eşantioane.
Y Y
X X
valoare mica a lui Sb1 valoare mare a lui Sb1
33
7. Exemplu:
Variabilele statistice:
-Cheltuielile cu publicitatea (unit.monetare)
- Valoarea vânzărilor (mii unit. monetare)
-Volumul eşantionului: n = 24 unităţi hoteliere
Legătură liniara
directa
38
Interpretarea estimatorilor
parametrilor modelului
Interpretari:
b0 = 6.581 inseamna ca: dacă cheltuielile cu publicitatea sunt 0,
atunci valoarea medie a vânzărilor ar fi de 6.581 u.m.
Ecuația de regresie
liniară
39
▪ Data / Data Analysis / Regression
40
Regression
Statistics
Multiple R R = 0,92
R Square R2 =0,84
Adjusted R 2
Square R = 0,83
Standard Error Se = 0,74
Observations n = 24
ANOVA
df SS MS F Significance F
Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept b0 = 6,58 Sb0 = 0,40 tcalc (β0) =16,41 0,0000000000001 5,75 7,41
Cheltuieli cu
publicitatea
(units) b1 = 1,07 Sb1 = 0,10 tcalc (β1) =10,73 0,0000000003305 0,86 1,28
35
EXEMPLU – soluție EXCEL
▪ a) Testarea validitatii modelului
▪ H0: MSRP = MSEP (Modelul nu este valid)
▪ H1: MSRP > MSEP (Modelul este valid)
▪ Testul F (Fisher):
Fcalc=MSR/MSE
MSR=SSR/k=62.58/1=62.58
MSE=SSE/(n-k-1)=11.96/22=0.54
Fcalc=MSR/MSE=62.58/0.54=115.11
K=1
n=24
EXEMPLU – soluție EXCEL
▪ Fcrit=F0.05,1,22= 4.3
▪ Fcalc > Fcrit , Fcalc ϵ Rr, resping H0, accept H1,
modelul este valid (garantat cu 95% prob.)
▪ Significance = 0.00…03 < α resping H0, accept
H1, modelul este valid
▪ Prob.max(modelul este valid)=Prob.max(accept
H1) = 100-Significance%=99,99…97%>95%
EXEMPLU – soluție EXCEL
▪ b) Calculați și interpretați coeficientul de
determinație.
▪ R2=SSR/SST
▪ SST=SSR+SSE=62.58+11.96=74.54
▪ R2=SSR/SST=62.58/74.54=0.84 ϵ [0,1]
▪ R2= R Square (tabel 1, Excel)
▪ Interpretare: 84% din variația valorii vânzărilor
este determinată de cheltuielile cu publicitatea
(este explicată de modelul de regresie)
▪ 100-84=16% - influența factorilor aleatori
EXEMPLU – soluție EXCEL
▪
EXEMPLU – soluție EXCEL
▪
Exemplu – Soluție SPSS
Chap 12-47
Modelul de regresie liniară
unifactorială (3)
Econometrie - Curs 6,
Facultatea Business&Turism,
Seria A, anul II
1
Cuprinsul cursului
◼ 6. Testarea semnificaţiei statistice a parametrilor
modelului şi determinarea intervalelor de încredere ale
acestora.
◼ 7. Măsurarea intensităţii legăturii dintre variabile.
◼ 2.1. Raportul de corelaţie. Testarea semnificaţiei raportului
de corelaţie.
◼ 2.2. Coeficientul de corelaţie liniară Pearson: calcul,
interpretare, testarea semnificaţiei.
◼ Aplicaţie (SPSS şi Excel).
2
6. Testarea semnificaţiei parametrilor
modelului de regresie liniară unifactorială şi
determinarea intervalelor lor de încredere
◼ Estimatorii “b0” şi “b1” ai parametrilor din ecuaţia de regresie în
colectivitatea generală sunt variabile aleatoare, având distribuţii de
eşantionare, cu următoarele proprietăţi:
◼ “b0” şi “b1” sunt estimatori nedeplasaţi ai parametrilor “β0” şi “β1”,
adică:
◼ Distribuţiile de eşantionare ale estimatorilor “b0” şi “2b1” sunt normal
2
distribuite, cu mediile “β0” şi “β1” şi dispersiile: sb0 şi sb
(bo ) = 0 (b1 ) = 1
1
s =s
2 2
x 2
i
sb21 = se2
1
n (x − x ) (x − x )
b0 e 2 2
i i
sb20 = se2 + n
1 x 2
(
i i
y − ˆ
y )2
n se2 =
( xi − x ) 2
n−2
i =1
3
6. Testarea semnificaţiei
parametrului “β1” (panta dreptei)
◼ Ipotezele statistice pestru testul bilateral:
◼ H0: β1 = 0 (β1 nu este semnificativ statistic)
◼ H1: β1 ≠ 0 (β1 este semnificativ statistic)
◼ Testul t :
b1 − (b1 ) b1 − 0 b1
tcalc = = =
sb1 sb1 sb1
◼ Reg. critică: dacă t calc −t / 2,n − 2 sau t calc t / 2,n − 2 se respinge
H0.
◼ unde tcrit= tα/2,n-k-1 =tα/2,n-2
30
6. Testarea semnificaţiei
parametrului “β1” (panta dreptei)
◼ Testul t: b1 − (b1 ) b1 − 0 b1
tcalc = = =
sb1 sb1 sb1
5
6. Testarea semnificaţiei
parametrului “β1” (panta dreptei)
◼ Test unilateral stanga:
◼ H0: β1 = 0 (β1 nu este semnificativ statistic)
◼ H1: β1 0 (β1 este semnificativ statistic si negativ)
t calc −t ,n − 2
◼ Regiunea critică:
◼ unde tcrit=tα,n-2
6
6. Testarea semnificaţiei
parametrului “β0” (intercepția)
◼ Ipotezele statistice pestru testul bilateral:
◼ H0: β0 = 0 (β0 nu este semnificativ statistic)
◼ H1: β0 ≠ 0 (β0 este semnificativ statistic)
◼ Testul t :
b0 − (b0 ) b0 − 0 b0
tcalc = = =
sb0 sb0 sb0
◼ Reg. critică: dacă t calc −t / 2,n − 2 sau t calc t / 2,n − 2 se respinge
H0.
◼ unde tcrit=tα/2,n-2
30
6. Intervalele de încredere pentru
parametrii modelului (β0 , β1)
◼
8
6. Intervalele de încredere pentru
parametrii modelului (β0 , β1)
◼ Interpretare:
◼ Dacă valoarea lui X este egală cu 0, atunci valoarea medie
a lui Y este cuprinsă între Lower(β0) și Upper(β0)
◼ Intervalul pentru β1
b1 − t / 2,n − 2 sb1 1 b1 + t / 2,n − 2 sb1
◼ Lower(β1) Upper(β1)
◼ Interpretare:
◼ - semnul limitelor: idem β0
◼ - dacă valoarea lui X se modifică cu 1 u.m., valoarea lui Y se modifică
în medie cu o valoare cuprinsă între Lower(β1) și Upper(β1)
9
7.Măsurarea intensităţii legăturii dintre
variabile – Raportul de corelaţie
◼ Raportul de corelaţie
◼ Măsoară intensitatea legăturii liniare sau neliniare dintre
două sau mai multe variabile statistice.
( )
n n
( yi − yˆi )
2
yˆ i − y
2
SSR SSE
R = R2 = = 1− = 1− i =1
= i =1
(y − y ) (y − y )
n n
SST SST 2 2
i i
i =1 i =1
R 0,1
rxy= R
Observație: semnul lui R fiind întotdeauna pozitiv, R nu poate indica sensul/direcția legăturii.
11
2.1. Măsurarea intensităţii legăturii dintre
variabile – Raportul de corelaţie
◼ Testarea semnificaţiei raportului de corelaţie R se
face utilizând statistica F:
◼ H0: R = 0 (R nu este semnificativ statistic)
◼ H1: R > 0 (R este semnificativ statistic)
◼ n − k −1 R2 MSR
Fcalc = = = Fcalc ( valid.model)
k 1− R 2
MSE
◼ Dacă Fcalc > Fcrit se respinge H0, se acceptă H1 variabila X
are o influenţă semnificativă asupra variabilei rezultative
Y, si R este semnificativ statistic.
5
7. Măsurarea intensităţii legăturii
dintre variabile – Coeficientul de
corelaţie
◼ r xy = r =coeficientul de corelație liniară Pearson
n
( x − x)( y
◼
i i − y)
cov(x, y )
rxy = = i =1
n rxyϵ [-1,1]
2 2
sx s y n
i ( x − x ) i ( y − y )
i =1 i =1
COV ( X , Y ) xy (x i − X )( yi − Y )
= = = i =1
x y x y N 2
N
2
i =1
( xi − X )
i =1
( y i − Y )
Legătură liniara
directa
17
Interpretarea estimatorilor
parametrilor modelului
Interpretari:
b0 = 6.581 inseamna ca: dacă cheltuielile cu publicitatea sunt 0,
atunci valoarea medie a vânzărilor ar fi de 6.581 u.m.
Ecuația de regresie
liniară
18
◼ Data / Data Analysis / Regression
19
Regression
Statistics
Multiple R R = 0,92
R Square R2 =0,84
Adjusted R 2
Square R = 0,83
Standard Error Se = 0,74
Observations n = 24
ANOVA
df SS MS F Significance F
Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept b0 = 6,58 Sb0 = 0,40 tcalc (β0) =16,41 0,0000000000001 5,75 7,41
Cheltuieli cu
publicitatea
(units) b1 = 1,07 Sb1 = 0,10 tcalc (β1) =10,73 0,0000000003305 0,86 1,28
35
EXEMPLU
26
Exemplu
27
Exemplu
◼
28
Exemplu
29
Exemplu
30
Exemplu
31
Exemplu – Soluție SPSS
Chap 12-32
Exemplu
33
Tabel cu valorile repartiţiei Student în funcţie de probabilitatea
P( t t ) şi numărul „f” al gradelor de libertate
34
Modelul de regresie liniară
unifactorială (4)
Econometrie - Curs 7,
Facultatea Business&Turism,
Seria A, anul II
1
Etapele elaborării şi aplicării
modelului de regresie liniară simplă
◼ 1. Definirea, specificarea şi identificarea modelului de regresie în
populaţia totală şi în eşantion.
◼ 2.Estimarea parametrilor modelului (MCMMP).
◼ 3. Verificarea ipotezelor modelului de regresie.
◼ 4. Verificarea validităţii modelului (testul F).
◼ 5. Evaluarea calităţii ajustării oferite de modelul de regresie
(indicatorii de bonitate).
◼ 6. Testarea semnificaţiei statistice a parametrilor modelului (testul t),
obţinerea intervalelor de încredere ale acestora.
◼ 7. Măsurarea intensităţii legăturii dintre variabile şi testarea
semnificaţiei statistice a indicatorului utilizat.
◼ 8. Previzionarea (punctuală şi pe interval de încredere) a valorilor
variabilei dependente.
Cuprinsul cursului
◼ 1. Utilizarea funcţiei EXCEL “LINEST”
◼ 2. Previzionarea valorilor variabilei
dependente (PASUL 8).
◼ 3. Aplicaţie SPSS şi Excel (continuare).
3
1. Funcţia EXCEL “LINEST”
◼ LINEST(val. Yi; [val. Xi]; [const]; [stats])
◼ Utilizează MCMMP pentru a calcula o serie de statistici ce
descriu dreapta de regresie.
◼ [val. Xi] – dacă lipseşte, se consideră 1,2,...,n
◼ [const] - argument optional logic. Stabileşte cum este
tratată intercepţia în cadrul modelului.
◼ Daca este TRUE sau este omis, b0 se determină în mod normal.
Dacă este FALSE atunci b0 = 0 iar b1 se determină astfel încât:
◼ Y = b1 X
◼ [stats] - argument optional logic, stabileşte dacă vor fi
afişate unele statistici ale ecuaţiei de regresie liniară
4
1. Funcţia EXCEL “LINEST”
◼ Dacă este TRUE, returnează statisticile funcţiei de
regresie, după formatul:
b1 b0
sb1 sb0
R2 Se = √MSE
Fcalc dfE = n-k-1
SSR SSE
◼ Dacă este FALSE, nu returnează statisticile funcţiei de
regresie
5
1. Funcţia EXCEL “LINEST” -
exemplu
6
2. Estimarea valorilor variabilei
dependente Y – Pasul 8
◼ Dacă presupunem că la unit. statistica i variabila independentă ia valoarea
specificată Xn+1,i şi legătura liniară se menţine, atunci valoarea
corespunzătoare a variabilei dependente la acea unitate (Yn+1,i) este:
Yn+1,i = 0 + 1Xn+1,i + n+1,i cu val. ajustata: Yˆn +1,i = 0 + 1 X n +1,i
◼ Daca (Xn+1,i) = Xn+1, atunci media tuturor valorilor Yn+1,i va fi:
(Yn+1,i/X = Xn+1) = 0 + 1Xn+1.
◼ Putem estima o valoare individuala a lui Y sau media variabilei Y.
◼ Putem obţine estimaţii punctuale sau pe intervale de încredere ale
valorilor variabilei Y.
◼ I. Pentru a obţine estimaţii punctuale, folosim ecuaţia de regresie
liniară în eşantion:
7
2. Estimarea valorilor variabilei
dependente
◼ yi = b0 + b1xi + ei ; yˆi = b0 + b1 xi
şi atunci, înlocuind pe xi cu valoarea dată xn+1, obţinem:
ŷ n +1 = b0 + b1xn+1.
8
2. Estimarea valorilor variabilei
dependente
◼
9
2. Estimarea valorilor variabilei
dependente
◼ A. determinarea intervalului de încredere pentru media de
răspuns (media lui Y), când xn+1 = x .
ˆ n +1 = b0 + b1 xn +1 dar y = b0 + b1 x b0 = y − b1 x
◼ Ştim că: y
(
yˆ n +1 = y − b1 x + b1 xn +1 = y + b1 xn +1 − x )
dacă xn+1 = x , atunci ŷ n +1 = y, iar estimatorul dispersiei pentru ŷn+1
este:
10
2. Estimarea valorilor variabilei
dependente
◼ B. determinarea intervalului de încredere pentru media de
răspuns (media lui Y), când xn+1 x .
◼ În acest caz:
yˆ n +1 = y + b1 ( xn +1 − x)
◼ iar estimatorul dispersiei pentru ŷ n +1 este:
2 1 ( xn +1 − x) 2
s(2yˆ n+1 ) = sy +b ( xn+1 − x ) = se
2
+ n
n
( xi − x)2
i =1
◼ Intervalul de încredere pentru media de răspuns este:
11
2. Estimarea valorilor variabilei
dependente
◼
yˆ n+1 − yn+1,i ,
2 2
1 ( x − x) 2 1 ( x − x)
s(2yˆ n+1 ) = se2 + n n +1 + se = se2 1 + + n n +1
n n
i =1
( xi − x)
2
i =1
( xi − x)
2
12
3. Exemplul 1 (cont.)
(soluție Excel și SPSS)
Variabilele statistice:
X=Cheltuielile cu publicitatea (var. indep.)
Y=Valoarea vânzărilor (var. depend.)
n = 24 unităţi hoteliere (volumul eșantionului)
k=1 (nr. de variabile independente)
14
Exemplul 1 - continuare
◼
15
Exemplul 1 - continuare
◼
16
Exemplul 2
◼ Exemplul 2
◼ Proprietarul unui minihotel dezvoltă o analiză statistică pentru determinarea cheltuielilor cu
materialele de curăţenie (y) în funcţie de numărul camerelor ocupate (x). El determină
ecuaţia de regresie pentru cheltuielile zilnice (pentru detergent, clor etc.) (zeci mii lei), pe
baza datelor înregistrate pentru n=14 zile:
y = 10,8 + 3,7 x
i ( yi − yˆ ) 2 = 163,39 SSE
i
s = 2,066
2
x x = 2,3
a) Proprietarul doreşte să estimeze cheltuielile pentru o zi în care are 6 camere ocupate;
b) Proprietarul doreşte să estimeze cheltuielile medii pentru zilele în care are 6 camere
ocupate.
Dacă numărul camerelor ocupate este xn+1 = 6 , atunci:
yˆ n +1 = 10,8 + 3,7 6 = 33; t0,025;12 = 2,179
t / 2 , n − 2 = t 0.025,12 = 2,179;
163,39
se = = 3,69.
12
17
Exemplul 2
◼
1 (6 − 2,3) 2
33 2,179 3,69 +
14 26.86
18
Rezolvare SPSS
Crearea bazei
de date
-Structurarea bazei de
date
- Popularea bazei de date
19
20
CORELOGRAMA
(SCATTER PLOT)
21
22
23
24
25
Exemplu: EXCEL
26
27
28
29
Regression
Statistics
Multiple R R = 0,92
R Square R2 =0,84
Adjusted R 2
Square R = 0,83
Standard Error Se = 0,74
Observations n = 24
ANOVA
df SS MS F Significance F
Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept b0 = 6,58 Sb0 = 0,40 tcalc (β0) =16,41 0,0000000000001 5,75 7,41
Cheltuieli cu
publicitatea
(units) b1 = 1,07 Sb1 = 0,10 tcalc (β1) =10,73 0,0000000003305 0,86 1,28 29
Econometrie
Curs 8
MODELUL DE REGRESIE
LINIARĂ MULTIPLĂ
(MULTIFACTORIALĂ)
Cuprins:
◼ 1. Specificarea, definirea şi identificarea modelului.
◼ 2. Estimarea parametrilor modelului. Caz particular:
modelul de regresie liniară bifactorială.
◼ 3. Testarea validităţii modelului.
◼ 4. Testarea semnificaţiei parametrilor modelului şi
determinarea intervalelor de încredere ale acestora.
◼ 5. Raportul de corelaţie multiplă. Coeficienţii de corelaţie
parţială.
◼ 6. Estimarea valorilor variabilei dependente.
◼ 7. Ipotezele modelului liniar multifactorial
◼ 8. Aplicaţie – Excel şi SPSS.
1. Specificarea şi definirea modelului
multifactorial
◼ În multe situaţii, variabila rezultativă supusă studiului este afectată,
determinată de mai mulţi factori de influenţă:
◼ Specificarea unui model econometric se face pe baza teoriei
economice: fenomenul Y este precizat pe baza conceptelor,
definiţiilor, a relaţiilor cauză-efect, elaborate pe baza teoriei
economice; în acest fel se acceptă că “Xi” este un factor esenţial, sau,
dimpotrivă, el este trecut în categoria factorilor aleatori, prin
intermediul variabilei reziduale “ε”
◼ Definirea modelului multifactorial:
◼ Y = f(X1, X2, …, Xk) + ε
y1
◼ Unde
y
este vectorul coloană al variabilei endogene,
Y = 2
◼ ...
de dimensiune (N,1)
y
N
1 x11 x12 ...x1k
◼ este matricea variabilelor exogene de
1 x21 x22 ...x2 k
X =
◼
... ... ... ...
dimensiune (N,k+1)
1 x xN 2 ...x Nk
N1
Identificarea modelului
multifactorial
0
1
◼ = ... este vectorul coloană al parametrilor βj, j=0,1,…,k
de dimensiune (k+1,1).
◼ k
1
◼ vectorul coloană al variabilei aleatoare, de
= 2
...
◼
Ndimensiune (N,1)
◼ Prin urmare, modelul liniar multifactorial se scrie:
◼ Y = X +
Identificarea modelului
multifactorial
◼ Forma generală a modelului liniar de regresie
multifactorială în eşantion:
◼ yi = b0+b1x1i+b2x2i+...+bkxki+ ei, cu i=1,...,n
◼ unde:
◼ b0= intercepţia (arata nivelul mediu al variabilei Y daca valorilor
variabilelor cauzale sunt 0)
◼ bj (j=1,2,…,k) = coeficienţi (parțiali) de regresie; bj arată cu câte
unităţi de măsură se modifică în medie Y dacă Xj se modifică cu o
unitate de măsură, considerând că ceilalţi factori sunt constanţi.
◼ Dacă bj0 atunci între Xj şi Y există o legătură directă iar dacă bj0
atunci între Xj şi Y există o legătură inversă
Identificarea modelului
multifactorial
◼ Deoarece variabilele independente au, de regulă, unităţi de măsură
diferite şi scale de măsurare diferite, această interpretare poate
deforma imaginea importanţei acestora în model.
◼ De aceea se utilizează coeficienţii de regresie standardizaţi, care ne
arată care dintre variabilele independente au cel mai mare efect
asupra variabilei dependente.
◼ Modelul devine:
◼ ẏi = ḃ1ẋ1i+ḃ2ẋ2i+...+ḃkẋki
◼ În care nu există termen liber, iar variabilele ẋ şi ẏ sunt variabile
standardizate.
◼ ḃj arată cu câte abateri standard se modifică valoarea lui Y dacă
valoarea lui Xj se modifică cu o abatere standard.
2. Estimarea parametrilor modelului
liniar multifactorial
2. Modelul liniar bifactorial
◼ dacă luăm în consideraţie o variabilă dependentă (Y) şi
două variabile independente (X1 şi X2), modelul de
regresie multiplă liniară în populatia generală este:
Yi = 0 + 1 X1i + 2 X 2i + i
◼ în eşantion:
yi = b0 + b1x 1i + b2x 2i + ei
◼ b0 reprezintă intercepţia;
◼ b1 este panta care ne arată legătura condiţionată între Y şi
X1, considerând că X2 este fixat (constant);
◼ b2 este panta care ne arată legătura condiţionată între Y şi
X2, considerând X1 fixat (constant).
2. Modelul liniar bifactorial
◼ Dacă modelul este liniar, atunci:
(Yi | X1 = X1i , X 2 = X 2i ) = 0 + 1 X1i + 2 X 2i
◼ Coeficienţii b1 şi b2 sunt numiţi coeficienţi de regresie
parţiali
◼ Pe baza datelor din eşantion, ecuaţia de regresie multiplă
este:
yˆi = b0 + b1 x1i + b2 x2i
𝑛
2
𝑆 = 𝑦𝑖 − 𝑦ො𝑖 → min
𝑖=1
nb0 + b1 x1i + b2 x2i = yi
i i i
i i i i
b x + b x x + b x 2 = x y
0 i 2i 1 i 1i 2i 2 i 2i i 2i i
3. Testarea validităţii modelului de regresie
folosind metoda analizei de varianţă (ANOVA)
◼ Ipotezele testate:
H0: 𝑀𝑆𝑅𝑃 /𝑀𝑆𝐸𝑃 = 1 (influenţa variabilelor X nu este diferită de cea a factorilor
aleatori, deci modelul nu poate fi validat)
H1: 𝑀𝑆𝑅𝑃 Τ𝑀𝑆𝐸𝑃 > 1 (influenţa variabilelor exogene X este semnificativ mai
mare decât cea a factorilor aleatori, deci modelul este valid)
2 σ 𝑦𝑖 − 𝑦ො𝑖 2
◼ Testul statistic F (Fisher): 𝐹𝑐𝑎𝑙𝑐 =
𝑀𝑆𝑅 σ 𝑦ො𝑖 − 𝑦
= :
𝑀𝑆𝐸 𝑘 𝑛−𝑘−1
n
◼ Unde SSR = ( yˆ i − y ) 2 = varianța de regresie
i =1
n
◼ SSE = ( yi − yˆ i ) 2 = varianța reziduală (a erorilor)
i =1
◼ Regula de decizie:
◼ Dacă Fcalc≤ Fcrit = Fα,k,n-k-1, atunci se acceptă H0 şi deci modelul nu este valid;
◼ Dacă Fcalc> Fcrit = Fα,k,n-k-1, atunci se respinge H0, se acceptă H11, deci modelul este valid.
3. Testarea validităţii modelului de regresie
folosind metoda analizei de varianţă (ANOVA)
( )
n
SST = y i − y
2
Totală n-1
i =1
4. Testarea semnificaţiei parametrilor
modelului de regresie
◼ Testarea parametrilor modelului de regresie
◼ Ipotezele: H0 : j = 0
sb21
H1 : j 0 sb2
Testul statistic: unde sB = 2 = se2 diag ( X ' X ) −1
2
...
◼
bj − j bj 2
t calc = = sbk
sb j sb j
Regula de decizie: se respinge H0, deci
tcalc −t / 2,n − k −1 parametrul βj este semnificativ
◼
tcalc t / 2,n − k −1
Intervalul de incredere:
b j − tcrit sb j j b j + tcrit sb j
5. Raportul de corelaţie multiplă
◼ Pentru a studia intensitatea legăturii dintre o caracteristică
dependentă (Y) şi mai multe caracteristici independente utilizând
metoda corelaţiei:
◼ Raportul de corelaţie multiplă:
𝑅 ∈ 0,1
R y , x1 , x2 ,...,xk | ryx j | j =1, k
◼ Pătratul raportului de corelaţie multiplă este coeficientul de
determinaţie multiplă (R2). El arată proporţia din variaţia totală a
variabilei Y, care este explicată de variabilele independente X1, X2, ...,
Xk. (sau este explicată de modelul de regresie)
5. Raportul de corelaţie multiplă
◼ Testarea semnificaţiei raportului de corelaţie multiplă se poate face utilizând
statistica F:
𝐻0 : 𝑅(𝑃) = 0 (𝑅(𝑃) nu este semnificativ statistic)
𝐻1 : 𝑅(𝑃) > 0 (𝑅(𝑃) este semnificativ statistic)
𝑛−𝑘−1 𝑅2 𝑀𝑆𝑅
𝐹𝑐𝑎𝑙𝑐 = ⋅ =
𝑘 1 − 𝑅2 𝑀𝑆𝐸
◼ unde k reprezintă numărul variabilelor independente.
◼ Dacă:
◼ Fcalc. > F , k, n-k-1 se acceptă ipoteza conform căreia variabilele X1, X2, ..., Xk au o
influenţă semnificativă asupra variabilei rezultative, Y (deci 𝑅(𝑃) este semnificativ
statistic)
◼ numărul de unităţi statistice pentru care se culeg datele (n), trebuie să fie mai
mare cu cel puţin 2 decât numărul variabilelor independente considerate (k).
Coeficientul de determinație ajustat
Coeficientul
. de determinaţie ajustat se ajustează coeficientul de determinaţie cu
gradele de libertate
2 𝑆𝑆𝐸/(𝑛−𝑘−1) 𝑀𝑆𝐸
𝑅 =1− = 1−
𝑆𝑆𝑇/(𝑛−1) 𝑀𝑆𝑇
2
Valoarea lui R este întotdeauna mai mică decât coeficientul de determinaţie R2.
Raportul de corelaţie se determină pentru legături de tip liniar sau neliniare
Egalitatea r= R este un test de liniaritate pentru model
În analiza corelaţiei simple liniare se observă că:
(yˆ − y ) = b ( x − x)
n n
2 2 2
r2 = R2, deoarece, cum
i 1 i
i =1 i =1
(yˆ − y )
n n
( x − x)
2 2
i i 2
s
R 2
= i =1
=b 2
=b =r
i =1 2 x 2
(y − y ) (y − y )
n 1 n 1 2
2 s 2
y
i i
i =1 i =1
25
5. Coeficienţii de corelaţie
parţială
◼ coeficienţii de corelaţie parţială - caracterizează intensitatea legăturii
dintre două variabile, în ipoteza că celelalte variabile rămân constante.
◼ coeficientul de corelaţie parţială între Y şi X1, eliminând influenţa variabilei X2
este:
ryx1 − ryx2 rx1x2
ryx1 x2 =
(1 − r ) (1 − r )
2
yx2
2
x1 x2
Yˆ = x0 ˆ
Y p = 0 + 1 X 1 p + 2 X 2 p + ... + k X kp + p
◼ Fcalc=29.67
◼ Fcrit= F0.05,2,10 =4.1
◼ Fcalc> Fcrit, resping H0, accept H1, raportul de corelație este
semnificativ statistic
◼ Sig.F =0.00006<0.05
EXEMPLU
◼ f) Testarea parametrului β0:
◼ H0: β0=0 (β0 nu este semnificativ statistic)
◼ H1: β0≠0 (β0 este semnificativ statistic)
𝑏0 37.5
◼ 𝑡𝑐𝑎𝑙𝑐 = = = 2.13
𝑠𝑏0 17.65
◼ tcrit= t0.05,10 =2.23
◼ |tcalc| < tcrit, accept H0, parametrul β0 nu este
semnificativ statistic
◼ Pvalue(β0) =0.06>0.05
EXEMPLU
◼ f) Testarea parametrului β1:
◼ H0: β1=0 (β1 nu este semnificativ statistic)
◼ H1: β1≠0 (β1 este semnificativ statistic)
𝑏1 1.5
◼ 𝑡𝑐𝑎𝑙𝑐 = = = 2.7
𝑠𝑏1 0.55
◼ tcrit= t0.05,10 =2.23
◼ |tcalc| > tcrit, resping H0, accept H1, parametrul β1 este
semnificativ statistic
◼ Pvalue(β1) =0.02<0.05
EXEMPLU
◼ f) Testarea parametrului β2:
◼ H0: β2=0 (β2 nu este semnificativ statistic)
◼ H1: β2≠0 (β2 este semnificativ statistic)
𝑏2 4.24
◼ 𝑡𝑐𝑎𝑙𝑐 = = = 3.98
𝑠𝑏2 1.06
◼ tcrit= t0.05,10 =2.23
◼ |tcalc| > tcrit, resping H0, accept H1, parametrul β2 este
semnificativ statistic
◼ Pvalue(β2) =0.002<0.05
EXEMPLU
◼ Intervalele de incredere ale parametrilor:
◼ 𝑏0 − 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏0 ≤ 𝛽0 ≤ 𝑏0 + 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏0
◼ 37.5 − 2.23 ∙ 17.65 ≤ 𝛽0 ≤ 37.5 + 2.23 ∙ 17.65
◼ −1.82 ≤ 𝛽0 ≤ 76.82
◼ Interpretare: Lower(β0)<0, Upper(β0)>0 limitele au semne
opuse, 0 se afla in intervalul [-1.82, 76.82], β0=0 deci β0 nu
este semnificativ statistic
◼ Observatie: deoarece parametrul nu este semnificativ
statistic, nu se interpreteaza valorile celor doua limite.
EXEMPLU
◼ Intervalele de încredere ale parametrilor:
◼ 𝑏1 − 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏1 ≤ 𝛽1 ≤ 𝑏1 + 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏1
◼ 1.5 − 2.23 ∙ 0.55 ≤ 𝛽1 ≤ 1.5 + 2.23 ∙ 0.55
◼ 0.26 ≤ 𝛽1 ≤ 2.73
◼ Interpretare: Lower(β1)>0, Upper(β1)>0 limitele au acelasi
semn, 0 nu se afla in intervalul [0.26, 2.73], β1 ≠ 0 deci β1
este semnificativ statistic
◼ Dacă numărul de familii crește cu 1, atunci cifra de afaceri
va crește, în medie, cu o valoare cuprinsă între 0.26 um și
2.73 um (cu condiția ca suprafața comercială să nu se
modifice)
EXEMPLU
◼ Intervalele de încredere ale parametrilor:
◼ 𝑏2 − 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏2 ≤ 𝛽2 ≤ 𝑏2 + 𝑡𝑐𝑟𝑖𝑡 ∙ 𝑠𝑏2
◼ 4.24 − 2.23 ∙ 1.06 ≤ 𝛽2 ≤ 4.24 + 2.23 ∙ 1.06
◼ 1.87 ≤ 𝛽2 ≤ 6.62
◼ Interpretare: Lower(β2)>0, Upper(β2)>0 limitele au acelasi
semn, 0 nu se afla in intervalul [1.87, 6.62], β2 ≠ 0 deci β2
este semnificativ statistic
◼ Dacă suprafața comercială crește cu 1, atunci cifra de
afaceri va crește, în medie, cu o valoare cuprinsă între
1.87 um și 6.62 um (cu condiția ca numărul de familii să
nu se modifice)
Aplicaţie – rezultate Excel:
Regression Statistics
Multiple R (R) 0,9251
R Square (R2) 0,8558
Adjusted R Square 0,8270
Standard Error (se) 27,8500
Observations (n) 13
Interpretări:
R : legătura dintre Xj şi Y este puternică.
R2 : 85,6% din variaţia lui Y este determinată de
influenţa lui X1,X2 (este explicată de model)
Aplicaţie – rezultate Excel:
ANOVA
df SS MS F Significance F
Regression k=2 SSR = 46033,02 MSR = 23016,51 Fcalc = 29,67 0,00006234
Residual n-k-1 = 10 SSE = 7756,21 MSE = 775,62
Total n-1 = 12 SST = 53789,23
Interpretări:
Modelul de regresie este semnificativ statistic (valid) (adică se acceptă
H1) pentru o probabilitate de cel mult 100-0,0062=99,9938%>95%
Aplicaţie – rezultate Excel:
Standard Lower Upper
Coefficients Error t Stat P-value 95% 95%
0
b0 = Sb0 = tcalc =
Intercept 37,5023 17,6461 2,1252 0,059496 -1,82 76,82
1
b1 = sb1 = tcalc =
Nr. familii 1,4963 0,5534 2,7039 0,022165 0,26 2,73
2
b2 = sb2 = t calc =
Supr.com 4,2446 1,0650 3,9856 0,002578 1,87 6,62
Interpretări:
• Parametrul β0 nu este semnificativ, deoarece probabilitatea cu care se poate
accepta H1 (care susţine că este semnificativ) este de cel mult 100-
5,95=94,05%<95%.
− 1,82 0 76,82
• Parametrul β1 este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susţine că este semnificativ) este de cel mult 100-2,2=97,8%>95%
0,26 1 2,73
• Parametrul β2 este semnificativ, deoarece probabilitatea cu care se poate accepta
H1 (care susţine că este semnificativ) este de cel mult 100-0,26=99,74%>95%
1,87 2 6,62
Aplicaţie – rezultate Excel:
RESIDUAL
OUTPUT
Predicted Cifra
Observation afaceri Residuals
1 231,38 -33,38
2 200,23 8,77
3 179,22 17,78
4 117,36 38,64
5 130,33 -45,33
6 186,74 0,26
7 81,17 -38,17
8 205,73 5,27
9 110,12 9,88
10 68,96 -6,96
11 147,28 28,72
12 101,39 15,61
13 274,10 -1,10
Aplicaţie - SPSS
Aplicaţie - SPSS
Verificarea ipotezelor
modelului de regresie
liniară simplă
Econometrie – Cursurile 9-10,
BUSINESS & TURISM, anul II, seria A
1
Structura cursului
2
1. Testarea ipotezei de normalitate a
erorilor
◼ Formularea matematică a ipotezei:
i N(0,ε2)
◼ În acest caz şi estimatorii parametrilor modelului urmează, de asemenea, o
lege normală de repartiţie:
◼
◼ Importanţa ipotezei:
◼ Permite obţinerea unor estimatori de calitate ai parametrilor modelului
◼ Încălcarea acestei ipoteze afectează calitatea estimatorilor (ei au doar proprietăţi
asimptotice: necesită eşantioane de volum mare).
◼ Verificarea ipotezei de normalitate se poate face prin:
◼ Procedee grafice
◼ Procedee numerice
3
1. Testarea ipotezei de normalitate a
erorilor – METODA GRAFICĂ
Pe Ox se reprezintă
valorile reziduurilor
standardizate, iar pe
Oy frecvenţele de
apariţie.
4
1. Testarea ipotezei de normalitate a
erorilor – METODA GRAFICĂ
◼ 2. Procedura P – P Plot
(Probability – Probability
Plot)
Compară 2 distribuţii: una empirică şi una
teoretică (ex: normală)
Arată relaţia dintre două funcţii de
probabilitate cumulate: între distribuţia
cumulată teoretică (normală) şi cea
empirică. Cele două distribuţii coincid
dacă punctele cad pe linia diagonală la
45 grade, ce uneşte punctele (0,0) cu
(1,1). Orice deviere de la această linie
indică şi o diferenţă între cele două
distribuţii.
Dacă se reprezintă valorile observate vs.
valorile aşteptate ale unei variabile se
obţine Diagrama Q-Q (Quantile-
Quantile). 5
6
Procedeul grafic – Exemplu
Excel – modelul unifactorial
Normal Probability Plot
14
12
10
Vanzari (yi)
8
0
0 20 40 60 80 100 120
Sample Percentile
7
1. Testarea ipotezei de normalitate a
erorilor – PROCEDEE NUMERICE
◼ 1. Testul Kolmogorov-Smirnov-Lilliefors
◼ Presupune compararea frecvenţelor relative cumulate
calculate (ale distribuţiei empirice a erorilor) cu
frecvenţele teoretice cumulate din tabelul Gauss.
◼ H0: erorile sunt normal distribuite.
◼ H1: distribuţia erorilor nu urmează o lege normală.
◼ Regula de decizie: dacă Sig. <α (0,05), atunci se
respinge H0, se acceptă H1 şi ipoteza de normalitate a
erorilor este invalidată.
8
Statistica testului K-S
9
10
1. Testarea ipotezei de normalitate
a erorilor – PROCEDEE NUMERICE
◼ 2. Testul Jarque-Bera:
◼ Se verifică simultan proprietăţile de asimetrie şi de boltire ale
distribuţiei reziduurilor, pe baza coeficienţilor Fisher.
◼ Pentru o distribuţie normală:
◼ Coeficientul de asimetrie Fisher Skew=0 (skewness)
◼ Coeficientul de boltire Fisher Kurt=0 (kurtosis)
◼ Ipotezele:
◼ H0: distribuţia erorilor nu diferă semnificativ de distribuţia normală.
◼ H1: între distribuţia erorilor şi distribuţia normală există o diferenţă
semnificativă.
n
JB = (Skew) +
( Kurt )
2
6 4
◼ Se compara valoarea calculata JB cu valoarea critica crit
2
= 2 ;k +1
◼ Regula de decizie: dacă JB> se respinge H0, erorile nu sunt
2
crit
normal distribuite.
11
Forma distribuţiei
Hi-pătrat pentru
diferite grade de
libertate
12
Exemplu:
Cum JB< 0,05;2 se acceptă H0
2
13
2. Testarea ipotezei de homoscedasticitate
a erorilor
ε
◼ Y=X+
◼ Variabila reziduală este de
medie 0, dispersie constantă x
şi nenulă, independentă de
variabila exogenă X.
15
Homoscedasticitatea erorilor
ei2
xi
19
2. Testarea ipotezei de
homoscedasticitate a erorilor
a) Nu se infirmă ipoteza normalităţii
erorilor şi nici cea de homoscedasticitate
a acestora
c) Eroare de calcul
20
Modelul liniar unifactorial
– Exemplu EXCEL -
Erori 0.5
homoscedastice
Residuals
0
0 1 2 3 4 5 6 7
-0.5
-1
-1.5
-2
Chelt_publ (xi)
21
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
◼ 1. Testul Goldfeld-Quandt
◼ H0: erori homoscedastice
◼ H1: erori heteroscedastice.
◼ Paşi:
◼ Se ordonează perechile de valori empirice (xi,yi) crescător după xi.
◼ Se împarte seria în doua părţi egale (în cazul unui volum mare de
date se poate omite o pereche de valori din centrul seriei)
◼ Se estimează parametrii ecuaţiei de regresie pentru fiecare din cele
două seturi de date şi se calculează dispersia reziduală pentru fiecare
model în parte: MSE1 şi MSE2
◼ Se calculează statistica Fisher ce compară cele două dispersii
reziduale:
Fcalc =
( 1
max MSE , MSE 2)
min (MSE1 , MSE2 )
22
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
Fcalc urmeaza o lege de repartitie F n −l n −l
; − ( k +1); − ( k +1)
2 2
◼ Unde:
l = numărul de termeni eliminaţi din seria iniţială;
k = numărul de variabile independente (k = 1)
◼ Regula de decizie:
Dacă
Fcalc Fcrit = F ;n1 −( k +1);n2 −( k +1)
Atunci se respinge H0 (sau dacă Sign. < 0,05).
Observatie:
Testul Goldfeld-Quandt ofera rezultate semnificative numai in masura in care
s-a identificat variabila exogena care a cauzat heteroscedasticitatea.
23
Exemplu – testul Goldfeld-Quandt
◼ După ce s-au ordonat perechile de date, se împarte setul
în două:
Coefficients
Intercept 5,326
Chelt_publ (xi) 1,615
Coefficients
Intercept 10,250
Chelt_publ (xi) 0,342
MSE 1 0,305
MSE 2 0,487
◼ B. Se estimează parametrii 0 , 1
◼ C. Se calculează erorile i respectiv ei .
◼ D. Se construieşte modelul auxiliar de regresie bazat pe
presupunerea dependenţei pătratelor erorilor ei2 de valorile
variabilei exogene X şi de pătratele acesteia X2:
◼ E. Ipotezele testului:
◼ H : α1= α =0 model homoscedastic
0 2
◼ H : α 0 model heteroscedastic
1 j
26
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
◼ F. Se calculează raportul de determinaţie al modelului auxiliar
◼ G. Se calculează statistica: (Multiplicatorul Lagrange)
◼ H. Se compară LM cu valoarea critică (unde k = nr. variabilelor
independente din modelul auxiliar).
◼ I. Dacă se acceptă H0, erorile sunt homoscedastice.
◼ Observaţie:
◼ Testul White se recomandă a se utiliza în ipoteza unei repartiţii
normale a erorilor.
27
Exemplu: testul White pentru
regresia liniară unifactorială
◼ E. Ipotezele testului:
◼ H : α =...= α 5=0 model homoscedastic
0 1
◼ H : α 0 model heteroscedastic
1 j
29
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
Regresia liniară multiplă
◼ F. Se calculează raportul de determinaţie al modelului auxiliar
◼ G. Se calculează statistica: (Multiplicatorul Lagrange)
◼ H. Se compară LM cu valoarea critică (unde k = nr. variabilelor
independente din modelul auxiliar).
◼ I. Dacă se acceptă H0, erorile sunt homoscedastice.
30
Exemplu: testul White pentru regresia liniară
multifactorială
Regression Statistics
Multiple R 0,512
R Square 0,262
Adjusted R Square -0,265
Standard Error 798,58
Observations 13
Cum se acceptă
H0, erorile sunt
homoscedastice.
31
Metode de estimare a parametrilor în
cazul heteroscedasticităţii
◼ Notând: y i* = xi* + i*
Modelul devine: yi x1i x
◼
= 1 + ... + ki k + i
x ji x ji x ji x ji
cov( n , 1 ) cov( n , 2 ) cov( n , n )
◼ Cum variabilele reziduale au media 0 şi dispersia
constantă, atunci matricea de covarianţă a variabilei
reziduale este:
33
3. AUTOCORELAREA ERORILOR
1 1 n −1
1 n − 2
V = 2 1
n −1 n−2 1
35
3a. Cauzele de apariţie a
autocorelării erorilor
◼ Absenţa uneia sau mai multor variabile explicative importante
◼ neincluderea uneia sau mai multor variabile explicative importante
poate genera autocorelarea erorilor.
◼ Modelul de regresie nu este corect specificat:
◼ fie modelul se exprimă sub forma unei combinaţii liniare de
variabile în condiţiile în care o specificare corectă a modelului
trebuie să fie exprimată printr-o combinaţie liniară de logaritmi de
variabile exogene etc.
◼ Au fost făcute transformări neadecvate sau interpolări în cadrul seriei
de date
36
3b. AUTOCORELAREA ERORILOR
◼ Grafic, în cazul modelului de regresie liniar unifactorial, lipsa
autocorelării erorilor poate fi reprezentată astfel:
ε
timp
timp timp
37
Corelograma – autocorelarea erorilor
Exemplu: cheltuieli publicitate-vânzări
38
3b. Testele statistice utilizate pentru
depistarea autocorelării: Durbin Watson
◼ Variabila reziduală satisface relaţia: i = i −1 + ui
◼ Ipoteze: Ho: =0 (erori non-autocorelate) H1: 0 (erori autocorelate)
n
(e − e i −1 )2
( )
i
◼ Statistica testului: DW = i =2
n
= 2 1 − rei ,ei−1
e
2
i
i =1
◼ dL şi dU extrase din tabela Durbin Watson pentru , k (var. exogene) şi n:
◼ 0 < DW < dL autocorelare pozitivă a erorilor
◼ dL DW dU indecizie, recomandată acceptarea autocorelării pozitive
◼ dU < DW < 4-dU erori independente
◼ 4-dU DW 4-dL indecizie, recomandată acceptarea autocorelării negative
◼ 4-dL< DW <4 autocorelare negativă a erorilor
◼ Observaţie: Testul Durbin Watson nu poate fi aplicat decât dacă:
◼ modelul de regresie are termen liber
◼ matricea X este nestochastică
◼ printre variabilele explicative nu se află şi variabila endogenă cu decalaj
◼ seriile de date nu sunt atributive
39
3c. Metode de estimare a parametrilor în
cazul autocorelării
◼ Erorile prezintă o autocorelare de un anumit ordin estimatorii
parametrilor sunt nedeplasaţi şi consistenţi, dar nu sunt eficienţi.
a. Se estimează parametrii modelului de regresie: Y=X+ prin metoda celor
mai mici pătrate şi se obţine seria erorilor (ei)i=1,n
b. Se consideră că erorile urmează un proces autoregresiv de ordinul I:
n
e e i i −1
= i =2
n i = i −1 + ui
e
i =2
2
i −1
c. p p
y i = 0 + j x ji + i yi − yi −1 = 0 (1 − ) + j ( x ji − x ji −1 ) + i − i −1
j =1
j =1
Notând: *
yi = yi − yi −1
p
yi* = 0 + j x*ji + i i → N (0, 2 )
*
x ji = x ji − x ji −1 j =1
0 = 0 (1 − )
d. Se estimează parametrii noului model şi apoi se revine la modelul iniţial.
40
Aplicarea testului Durbin-Watson în SPSS
41
Aplicarea testului Durbin-Watson în SPSS
42
Aplicarea testului
Durbin-Watson in SPSS
Erori non-
autocorelate
43
Aplicarea testului
Durbin-Watson în Excel
24
(
i i−1
e − e )2
28,537
DW = i =2
24
= = 2,386
i 2 11,959
e
i =1
α = 0.05
k=1
n = 24
dL = 1.27
dU = 1.44
dU < DW < 4-dU erori
independente (non-
autocorelate)
44
Aplicarea testului
Durbin-Watson în Excel
Sau:
α = 0.05
rei ,ei−1 = −0,21284 k=1
n = 24
dL = 1.27
( )
DW = 2 1 − rei ,ei−1 = 2 * (1 + 0,21284 ) = 2,42
dU = 1.44
dU < DW < 4-dU erori
independente (non-
autocorelate)
45
4. MULTICOLINEARITATEA
◼ este determinată de prezenţa corelării între variabilele exogene
determinantul matricei X’X este zero, deci aceasta nu este
inversabilă.
◼ Se consideră modelul centrat şi redus, deci modelul de regresie
fără termen liber:
◼ matricea de corelaţie evaluată pentru variabilele exogene este
1/n(X’X)-1
◼ variaţia estimatorilor este 2R-1/n
◼ prezenţa corelării variabilelor exogene conduce la creşterea
varianţei acelor estimatori ai parametrilor modelului liniar de
regresie ce corespund variabilelor exogene aflate într-o
dependenţă liniară semnificativă, deci scăderea performanţelor
modelului de regresie estimat prin forma clasică a metodei celor
mai mici pătrate.
◼ Problemele ce se pun în acest caz sunt:
a. Indicatori pentru semnalarea coliniarităţii
b. Înlăturarea efectului de multicoliniaritate 46
4a. Indicatori pentru semnalarea
coliniarităţii
◼ Criteriul Klein
◼ se determină raportul de determinaţie Ry2 şi coeficienţii liniari de corelaţie a
variabilelor exogene rx , x , ij.
i j
47
4a. Indicatori pentru semnalarea coliniarităţii
48
EXEMPLU.
Cifra afaceri = f (Nr.familii, Supr. comercială)
x
i =1
2
2i 50
4 b. Înlăturarea efectului de
multicoliniaritate
• Transformarea variabilelor
ANOVA
df SS MS F Significance F
Regression 2 131,3655 65,68275 4,419955 0,057373
Residual 7 104,0235 14,8605
Total 9 235,389
53
4b. - Exemplu
54
4 b. Înlăturarea efectului de multicoliniaritate -
Exemplu
◼ Deoarece atât ritmul anual de creştere a câştigului salarial
mediu cât şi ritmului anual de modificare a consumului final
sunt dependente de rata inflaţiei, variabilele se vor împărţi
la rata inflaţiei.
◼ Modelul va deveni:
(Y / X1 ) = + ( X 2 / X1 )
ANOVA
Significance
df SS MS F F
Regression 1 0,521316 0,521316 23,42939 0,001287
Residual 8 0,178004 0,022251
Total 9 0,699321
55
Verificarea ipotezelor
modelului de regresie
liniară simplă
Econometrie – Cursurile 9-10,
BUSINESS & TURISM, anul II, seria A
1
Structura cursului
2
1. Testarea ipotezei de normalitate a
erorilor
◼ Formularea matematică a ipotezei:
i N(0,ε2)
◼ În acest caz şi estimatorii parametrilor modelului urmează, de asemenea, o
lege normală de repartiţie:
◼
◼ Importanţa ipotezei:
◼ Permite obţinerea unor estimatori de calitate ai parametrilor modelului
◼ Încălcarea acestei ipoteze afectează calitatea estimatorilor (ei au doar proprietăţi
asimptotice: necesită eşantioane de volum mare).
◼ Verificarea ipotezei de normalitate se poate face prin:
◼ Procedee grafice
◼ Procedee numerice
3
1. Testarea ipotezei de normalitate a
erorilor – METODA GRAFICĂ
Pe Ox se reprezintă
valorile reziduurilor
standardizate, iar pe
Oy frecvenţele de
apariţie.
4
1. Testarea ipotezei de normalitate a
erorilor – METODA GRAFICĂ
◼ 2. Procedura P – P Plot
(Probability – Probability
Plot)
Compară 2 distribuţii: una empirică şi una
teoretică (ex: normală)
Arată relaţia dintre două funcţii de
probabilitate cumulate: între distribuţia
cumulată teoretică (normală) şi cea
empirică. Cele două distribuţii coincid
dacă punctele cad pe linia diagonală la
45 grade, ce uneşte punctele (0,0) cu
(1,1). Orice deviere de la această linie
indică şi o diferenţă între cele două
distribuţii.
Dacă se reprezintă valorile observate vs.
valorile aşteptate ale unei variabile se
obţine Diagrama Q-Q (Quantile-
Quantile). 5
6
Procedeul grafic – Exemplu
Excel – modelul unifactorial
Normal Probability Plot
14
12
10
Vanzari (yi)
8
0
0 20 40 60 80 100 120
Sample Percentile
7
1. Testarea ipotezei de normalitate a
erorilor – PROCEDEE NUMERICE
◼ 1. Testul Kolmogorov-Smirnov-Lilliefors
◼ Presupune compararea frecvenţelor relative cumulate
calculate (ale distribuţiei empirice a erorilor) cu
frecvenţele teoretice cumulate din tabelul Gauss.
◼ H0: erorile sunt normal distribuite.
◼ H1: distribuţia erorilor nu urmează o lege normală.
◼ Regula de decizie: dacă Sig. <α (0,05), atunci se
respinge H0, se acceptă H1 şi ipoteza de normalitate a
erorilor este invalidată.
8
Statistica testului K-S
9
10
1. Testarea ipotezei de normalitate
a erorilor – PROCEDEE NUMERICE
◼ 2. Testul Jarque-Bera:
◼ Se verifică simultan proprietăţile de asimetrie şi de boltire ale
distribuţiei reziduurilor, pe baza coeficienţilor Fisher.
◼ Pentru o distribuţie normală:
◼ Coeficientul de asimetrie Fisher Skew=0 (skewness)
◼ Coeficientul de boltire Fisher Kurt=0 (kurtosis)
◼ Ipotezele:
◼ H0: distribuţia erorilor nu diferă semnificativ de distribuţia normală.
◼ H1: între distribuţia erorilor şi distribuţia normală există o diferenţă
semnificativă.
n
JB = (Skew) +
( Kurt )
2
6 4
◼ Se compara valoarea calculata JB cu valoarea critica crit
2
= 2 ;k +1
◼ Regula de decizie: dacă JB> se respinge H0, erorile nu sunt
2
crit
normal distribuite.
11
Forma distribuţiei
Hi-pătrat pentru
diferite grade de
libertate
12
Exemplu:
Cum JB< 0,05;2 se acceptă H0
2
13
2. Testarea ipotezei de homoscedasticitate
a erorilor
ε
◼ Y=X+
◼ Variabila reziduală este de
medie 0, dispersie constantă x
şi nenulă, independentă de
variabila exogenă X.
15
Homoscedasticitatea erorilor
ei2
xi
19
2. Testarea ipotezei de
homoscedasticitate a erorilor
a) Nu se infirmă ipoteza normalităţii
erorilor şi nici cea de homoscedasticitate
a acestora
c) Eroare de calcul
20
Modelul liniar unifactorial
– Exemplu EXCEL -
Erori 0.5
homoscedastice
Residuals
0
0 1 2 3 4 5 6 7
-0.5
-1
-1.5
-2
Chelt_publ (xi)
21
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
◼ 1. Testul Goldfeld-Quandt
◼ H0: erori homoscedastice
◼ H1: erori heteroscedastice.
◼ Paşi:
◼ Se ordonează perechile de valori empirice (xi,yi) crescător după xi.
◼ Se împarte seria în doua părţi egale (în cazul unui volum mare de
date se poate omite o pereche de valori din centrul seriei)
◼ Se estimează parametrii ecuaţiei de regresie pentru fiecare din cele
două seturi de date şi se calculează dispersia reziduală pentru fiecare
model în parte: MSE1 şi MSE2
◼ Se calculează statistica Fisher ce compară cele două dispersii
reziduale:
Fcalc =
( 1
max MSE , MSE 2)
min (MSE1 , MSE2 )
22
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
Fcalc urmeaza o lege de repartitie F n −l n −l
; − ( k +1); − ( k +1)
2 2
◼ Unde:
l = numărul de termeni eliminaţi din seria iniţială;
k = numărul de variabile independente (k = 1)
◼ Regula de decizie:
Dacă
Fcalc Fcrit = F ;n1 −( k +1);n2 −( k +1)
Atunci se respinge H0 (sau dacă Sign. < 0,05).
Observatie:
Testul Goldfeld-Quandt ofera rezultate semnificative numai in masura in care
s-a identificat variabila exogena care a cauzat heteroscedasticitatea.
23
Exemplu – testul Goldfeld-Quandt
◼ După ce s-au ordonat perechile de date, se împarte setul
în două:
Coefficients
Intercept 5,326
Chelt_publ (xi) 1,615
Coefficients
Intercept 10,250
Chelt_publ (xi) 0,342
MSE 1 0,305
MSE 2 0,487
◼ B. Se estimează parametrii 0 , 1
◼ C. Se calculează erorile i respectiv ei .
◼ D. Se construieşte modelul auxiliar de regresie bazat pe
presupunerea dependenţei pătratelor erorilor ei2 de valorile
variabilei exogene X şi de pătratele acesteia X2:
◼ E. Ipotezele testului:
◼ H : α1= α =0 erori homoscedastice
0 2
◼ H : α 0 erori heteroscedastice
1 j
26
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
◼ F. Se calculează raportul de determinaţie al modelului auxiliar
◼ G. Se calculează statistica: (Multiplicatorul Lagrange)
◼ H. Se compară LM cu valoarea critică (unde k = nr. variabilelor
independente din modelul auxiliar).
◼ I. Dacă se acceptă H0, erorile sunt homoscedastice.
◼ Observaţie:
◼ Testul White se recomandă a se utiliza în ipoteza unei repartiţii
normale a erorilor.
27
Exemplu: testul White pentru
regresia liniară unifactorială
◼ E. Ipotezele testului:
◼ H : α =...= α 5=0 erori homoscedastice
0 1
◼ H : α 0 erori heteroscedastice
1 j
29
Teste statistice utilizate pentru depistarea
heteroscedasticităţii
Regresia liniară multiplă
◼ F. Se calculează raportul de determinaţie al modelului auxiliar
◼ G. Se calculează statistica: (Multiplicatorul Lagrange)
◼ H. Se compară LM cu valoarea critică (unde k = nr. variabilelor
independente din modelul auxiliar).
◼ I. Dacă se acceptă H0, erorile sunt homoscedastice.
30
Exemplu: testul White pentru regresia liniară
multifactorială
Regression Statistics
Multiple R 0,512
R Square 0,262
Adjusted R Square -0,265
Standard Error 798,58
Observations 13
Cum se acceptă
H0, erorile sunt
homoscedastice.
31
Metode de estimare a parametrilor în
cazul heteroscedasticităţii
◼ Notând: y i* = xi* + i*
Modelul devine: yi x1i x
◼
= 1 + ... + ki k + i
x ji x ji x ji x ji
cov( n , 1 ) cov( n , 2 ) cov( n , n )
◼ Cum variabilele reziduale au media 0 şi dispersia
constantă, atunci matricea de covarianţă a variabilei
reziduale este:
33
3. AUTOCORELAREA ERORILOR
ρk= ρ( 𝜀𝑖 , 𝜀𝑖−𝑘 )
1 1 n −1
ρk= ρ( 𝜀𝑖 , 𝜀𝑖+𝑘 )
1 n − 2
V = 2 1
rk= r( 𝑒𝑖 , 𝑒𝑖−𝑘 )
rk= r( 𝑒𝑖 , 𝑒𝑖+𝑘 )
n −1 n−2 1
35
3a. Cauzele de apariţie a
autocorelării erorilor
◼ Absenţa uneia sau mai multor variabile explicative importante
◼ neincluderea uneia sau mai multor variabile explicative importante
poate genera autocorelarea erorilor.
◼ Modelul de regresie nu este corect specificat:
◼ fie modelul se exprimă sub forma unei combinaţii liniare de
variabile în condiţiile în care o specificare corectă a modelului
trebuie să fie exprimată printr-o combinaţie liniară de logaritmi de
variabile exogene etc.
◼ Au fost făcute transformări neadecvate sau interpolări în cadrul seriei
de date
36
3b. AUTOCORELAREA ERORILOR
◼ Grafic, în cazul modelului de regresie liniar unifactorial, lipsa
autocorelării erorilor poate fi reprezentată astfel:
ε
timp
timp timp
37
Corelograma – autocorelarea erorilor
Exemplu: cheltuieli publicitate-vânzări
38
3b. Testele statistice utilizate pentru
depistarea autocorelării: Durbin Watson
◼ Variabila reziduală satisface relaţia: i = i −1 + ui
◼ Ipoteze: Ho: =0 (erori non-autocorelate) H1: 0 (erori autocorelate)
n
(e − e i −1 )2
( )
i
◼ Statistica testului: DW = i =2
n
= 2 1 − rei ,ei−1
e
2
◼ Intre 0 si 4 i
i =1
◼ dL şi dU extrase din tabela Durbin Watson pentru , k (var. exogene) şi n:
◼ 0 < DW < dL autocorelare pozitivă a erorilor
◼ dL DW dU indecizie, recomandată acceptarea autocorelării pozitive
◼ dU < DW < 4-dU erori independente
◼ 4-dU DW 4-dL indecizie, recomandată acceptarea autocorelării negative
◼ 4-dL< DW <4 autocorelare negativă a erorilor
◼ Observaţie: Testul Durbin Watson nu poate fi aplicat decât dacă:
◼ modelul de regresie are termen liber
◼ matricea X este nestochastică
◼ printre variabilele explicative nu se află şi variabila endogenă cu decalaj
◼ seriile de date nu sunt atributive
39
3b. Testele statistice utilizate pentru
depistarea autocorelării: Durbin Watson
40
3c. Metode de estimare a parametrilor în
cazul autocorelării
◼ Erorile prezintă o autocorelare de un anumit ordin estimatorii
parametrilor sunt nedeplasaţi şi consistenţi, dar nu sunt eficienţi.
a. Se estimează parametrii modelului de regresie: Y=X+ prin metoda celor
mai mici pătrate şi se obţine seria erorilor (ei)i=1,n
b. Se consideră că erorile urmează un proces autoregresiv de ordinul I:
n
e e i i −1
= i =2
n i = i −1 + ui
e
i =2
2
i −1
c. p p
y i = 0 + j x ji + i yi − yi −1 = 0 (1 − ) + j ( x ji − x ji −1 ) + i − i −1
j =1
j =1
Notând: *
yi = yi − yi −1
p
yi* = 0 + j x*ji + i i → N (0, 2 )
*
x ji = x ji − x ji −1 j =1
0 = 0 (1 − )
d. Se estimează parametrii noului model şi apoi se revine la modelul iniţial.
41
Aplicarea testului Durbin-Watson în SPSS
42
Aplicarea testului Durbin-Watson în SPSS
43
Aplicarea testului
Durbin-Watson in SPSS
Erori non-
autocorelate
44
Aplicarea testului
Durbin-Watson în Excel
24
(
i i−1
e − e )2
28,537
DW = i =2
24
= = 2,386
i 2 11,959
e
i =1
α = 0.05
k=1
n = 24
dL = 1.27
dU = 1.44
dU < DW < 4-dU erori
independente (non-
autocorelate)
45
Aplicarea testului
Durbin-Watson în Excel
Sau:
α = 0.05
rei ,ei−1 = −0,21284 k=1
n = 24
dL = 1.27
( )
DW = 2 1 − rei ,ei−1 = 2 * (1 + 0,21284 ) = 2,42
dU = 1.44
dU < DW < 4-dU erori
independente (non-
autocorelate)
46
4. MULTICOLINEARITATEA
◼ este determinată de prezenţa corelării între variabilele exogene
determinantul matricei X’X este zero, deci aceasta nu este
inversabilă.
◼ Se consideră modelul centrat şi redus, deci modelul de regresie
fără termen liber:
◼ matricea de corelaţie evaluată pentru variabilele exogene este
1/n(X’X)-1
◼ variaţia estimatorilor este 2R-1/n
◼ prezenţa corelării variabilelor exogene conduce la creşterea
varianţei acelor estimatori ai parametrilor modelului liniar de
regresie ce corespund variabilelor exogene aflate într-o
dependenţă liniară semnificativă, deci scăderea performanţelor
modelului de regresie estimat prin forma clasică a metodei celor
mai mici pătrate.
◼ Problemele ce se pun în acest caz sunt:
a. Indicatori pentru semnalarea coliniarităţii
b. Înlăturarea efectului de multicoliniaritate 47
4a. Indicatori pentru semnalarea
coliniarităţii
◼ Criteriul Klein
◼ se determină raportul de determinaţie Ry2 şi coeficienţii liniari de corelaţie a
variabilelor exogene rx , x , ij.
i j
48
4a. Indicatori pentru semnalarea coliniarităţii
49
EXEMPLU.
Cifra afaceri = f (Nr.familii, Supr. comercială)
x
i =1
2
2i 51
4 b. Înlăturarea efectului de
multicoliniaritate
• Transformarea variabilelor
ANOVA
df SS MS F Significance F
Regression 2 131,3655 65,68275 4,419955 0,057373
Residual 7 104,0235 14,8605
Total 9 235,389
54
4b. - Exemplu
55
4 b. Înlăturarea efectului de multicoliniaritate -
Exemplu
◼ Deoarece atât ritmul anual de creştere a câştigului salarial
mediu cât şi ritmului anual de modificare a consumului final
sunt dependente de rata inflaţiei, variabilele se vor împărţi
la rata inflaţiei.
𝑌/𝑋1 = 𝛽0 + 𝛽1 ⋅ 𝑋2 /𝑋1
◼ Modelul va deveni:
ANOVA
Significance
df SS MS F F
Regression 1 0,521316 0,521316 23,42939 0,001287
Residual 8 0,178004 0,022251
Total 9 0,699321
56
Modelarea econometrică a seriilor
de timp cu componentă sezonieră
1
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Componentele termenilor unei serii cronologice sunt:
◼ Trendul (componenta de lunga durata) (ytT);
◼ Componenta sezoniera (ytS);
◼ Componenta ciclica (ytC) – este mai dificil de determinat;
◼ Componenta reziduala, aleatoare (ytR).
◼ 1. TRENDUL
◼ reprezintă tendinţa generală, ce corespunde unei evoluţii sistematice,
◼ 2. COMPONENTA SEZONIERĂ
◼ Oscilaţiile sezoniere sunt fluctuaţii regulate, cu periodicitate
constantă, care se repetă în cadrul unei perioade complete de până
la un an
2
Componentele termenilor unei serii
cronologice
◼ Sunt sesizabile când termenii seriei se referă la perioade mai mici
decât anul (date trimestriale, lunare, zilnice, orare etc.)
◼ Apar sunt influenţa a două categorii de factori:
◼ - factori naturali, climatici (prod. agricolă, vânzări de băuturi
răcoritoare, de articole de îmbrăcăminte etc.)
◼ - factori sociali – tradiţii, obiceiuri, concedii (vânzările de
rechizite şcolare, de ouă, de pomi de iarnă etc.)
◼ 3. COMPONENTA CICLICĂ
◼ E formată din fluctuaţii regulate, manifestate pe termen mai lung,
care devin complete pe parcursul câtorva ani.
◼ Sunt cauzate de două categorii de factori:
◼ - naturali (oscilaţiile producţiei agricole, datorate ciclurilor meteo)
◼ - economico-sociali (ciclurile de afaceri, datorate modernizării
aparatului de producţie, aprovizionarea cu materii prime etc.)
3
Componentele termenilor unei serii
cronologice
4
Componentele termenilor unei serii
cronologice
◼ Pentru a reconstitui termenii unei serii cronologice, cele 4
componente se pot combina după două modele:
◼ MODELUL ADITIV:
◼
yt = ytT + ytS + ytR
◼ Se presupune că abaterile aleatoare se compensează reciproc,
deci suma lor e zero, iar media componentei reziduale este
nulă.
◼ Modelul este recomandat a se folosi atunci când amplitudinea
oscilaţiilor faţă de linia de trend este aproximativ constantă.
◼ Efectul sezonier se măsoară, în acest model, sub forma
devierilor (abaterilor) sezoniere.
◼ Devierile sezoniere arata cu câte unitati de masura se abate,
în medie, în fiecare sezon, nivelul variabilei analizate faţă de
trend; iau valori pozitive şi negative, astfel încât suma devierilor
sezoniere, pentru toate sezoanele, este egală cu zero.
5
Componentele termenilor unei serii
cronologice
8
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Determinarea componentei sezoniere se face prin
eliminarea, din nivelul real al termenilor seriei, a celorlalte
componente ale acesteia (trendul şi componenta aleatoare)
◼ Deci, înainte, trebuie identificat trendul, cu o metodă
analitică sau, dintre metodele mecanice, cu metoda
mediilor mobile.
9
Metoda mediilor mobile
10
Metoda mediilor mobile
11
Metoda mediilor mobile
13
Metoda mediilor mobile
14
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Exemplu
◼ Să considerăm seria cronologică privind sosirile trimestriale de turişti, în hotelul
„CREASTA“ dintr-o zonă montană (tabelul nr. 1):
Tabelul nr. 1
15
Sosiri turisti
500
1000
1500
2000
2500
0
I'0
9
II'0
9
III
'09
IV
'0
9
I'1
0
Cronograma
II'1
0
III
'10
IV
'1
0
Hotelul “Creasta”
I'1
1
II'1
1
III
'11
IV
'1
1
I'1
2
II'1
2
III
'12
Sosiri trimestriale de turişti la
IV
'1
2
16
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Pentru calcularea tendinţei pe termen lung, folosind metoda mediilor mobile din 4
termeni (la câţi se manifestă o oscilaţie completă), putem sistematiza datele astfel
(tabelul nr. 2):
Calculul mediilor mobile Tabelul nr. 2
Anul Trimestrul Perioada (t) yt MM=ytT
0 1 2 3 4
I 1 940 —
II 2 650 —
2009
III 3 1934 1222
IV 4 1360 1231
I 5 952 1255
II 6 706 1278
2010
III 7 2072 1289
IV 8 1406 1297
I 9 992 1303
II 10 734 1314
2011
III 11 2088 1327
IV 12 1478 1332
I 13 1026 1346
II 14 740 1360
2012
III 15 2190 —
IV 16 1492 — 17
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Prima medie mobilă centrată este:
y1 y
+ y2 + y3 + y4 + 5
y3T = 2 2
4
940 952
+ 650 + 1934 + 1360 +
y3T = 2 2 1222 persoane.
4
◼ Cea de-a doua medie mobilă centrată este:
650 706
+ 1934 + 1360 + 952 +
y4T = 2 2 = 1231 persoane
4
ş.a.m.d.
18
Determinarea tendinţei seculare,
folosind mediile mobile
2500
2000
Sosiri turisti
1500
1000
500
0
9
2
'09
'10
'11
'12
9
2
9
2
II'0
II'1
II'1
II'1
I'0
I'1
I'1
I'1
'0
'1
'1
'1
III
III
III
III
IV
IV
IV
IV
Perioada
Figura nr.1:
19
Determinarea componentei
sezoniere în modelul aditiv
◼ Pentru determinarea devierilor sezoniere se parcurg următorii paşi:
◼ 1. Se înlătură din valorile seriei cronologice (yt) componenta de trend (ytT).
yt − ytT = ytS + ytR
◼ 2. Pentru fiecare sezon/trimestru în parte, calculăm media diferenţelor
obţinute la pasul 1.
◼ În felul acesta (prin calculul mediei) se înlătură cea mai mare parte din
variaţiile reziduale (deşi foarte rar le putem înlătura în întregime).
◼ Aceste medii ale diferenţelor, calculate pentru m sezoane, măsoară abaterile
fenomenului, faţă de linia de tendinţă, date de componenta sezonieră
(devieri sezoniere brute).
◼ 3. Se determina media devierilor sezoniere brute obtinute la pasul 2.
◼ 4. Se corecteaza (prin scadere) devierile sezoniere brute cu media lor,
obtinandu-se devierile sezoniere corectate ( a caror suma este egală cu
zero).
20
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
◼ Exemplu
◼ După cum se ştie, industria turistică este subiectul unor serioase variaţii
sezoniere. Folosind datele din tabelul nr. 2, vom urmări să determinăm devierile
sezoniere ale variabilei, „sosiri de turişti“. Pentru aceasta, vom înlătura mai întâi
componenta de trend (col. 3 – col. 4, tabelul nr. 2), iar rezultatele (ytS+ytR) le
vom sistematiza în tabelul nr. 4.
21
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
Tabelul nr. 3
Anul Trimestrul Perioada (t) yt ytTMM yt-ytT = ytS+ytR
0 1 2 3 4 5
I 1 940 — -
II 2 650 — -
2009
III 3 1934 1222 712
IV 4 1360 1231 129
I 5 952 1255 -303
II 6 706 1278 -572
2010
III 7 2072 1289 783
IV 8 1406 1297 109
I 9 992 1303 -311
II 10 734 1314 -580
2011
III 11 2088 1327 761
IV 12 1478 1332 146
I 13 1026 1346 -320
II 14 740 1360 -620
2012
III 15 2190 — -
IV 16 1492 — - 22
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
Tabelul nr. 4
Determinarea devierilor sezoniere
Trimestrul
Anii Suma
I II III IV
0 1 2 3 4 5
23
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
Pentru fiecare sezon vom determina media abaterilor (devieri sezoniere brute):
24
Caracterizarea econometrică a seriilor
cronologice cu componentă sezonieră
Cum suma acestor medii ale abaterilor este diferită de zero
4
26
Previzionarea fenomenelor
afectate de sezonalitate
◼ Pe baza datelor trimestriale, din perioada 2009-2012 ( t = 1,16 ) privind sosirile
de turişti, în hotelul „CREASTA“ dintr-o zonă montană, s-a determinat tendinţa de
lungă durată folosind metoda modificării medii absolute:
t Serie desezonalizată Tabelul nr. 6
1 940+306=1246
2 650+585=1235
3 1934-758=1176
4 1360-133=1227
5 952+306=1258
6 706+585=1291
7 2072-758=1314
8 1406-133=1273
9 992+306=1298
10 734+585=1319
11 2088-758=1330
12 1478-133=1345
13 1026+306=1332
14 740+585=1325
15 2190-758=1432
27
16 1492-133=1359
Previzionarea fenomenelor
afectate de sezonalitate
ytT = 1246 + (t −1) 7,53, t = 1, n , n = 16
28
Previzionarea fenomenelor
afectate de sezonalitate
Tabelul nr. 7
Previzionarea sosirilor trimestriale de turişti
y (n +p)T Previziune
Anul Trimestrul p y Sk y ( n +p)
0 1 2 3 4 5
29
Rezolvare SPSS – Crearea cronogramei
30
Rezolvare SPSS – Crearea cronogramei
31
Rezolvare SPSS – Calculul mediilor mobile
32
Exemplu SPSS
– Calculul mediilor mobile
33
Exemplu SPSS – calculul
devierilor/abaterilor sezoniere
34
35
36
ytS (DSC)
SCR desezonalizata
ytR
37
Calculul mediilor mobile - Excel
38
Calculul mediilor mobile - Excel
39
Calculul mediilor mobile - Excel
40
Calculul mediilor mobile - Excel
41