Documente Academic
Documente Profesional
Documente Cultură
Econometrie PDF
Econometrie PDF
Mijloace
- citire/învăţare
10
MODELUL REGRESIEI SIMPLE
11
1. Problema estimării
12
sumei pătratelor abaterilor valorilor empirice faţă de cele teoretic estimate, adică
minimizarea sumei pătratelor reziduurilor.
Aplicarea acestei metode se bazează pe următoarele ipoteze presupuse
adevărate:
1. Modelul este liniar în xi (sau în oricare transformare a lui xi).
2. Valorile lui xi sunt observate fără erori (xi este nealeator).
3. Media (operatorul E) reziduurilor este zero: E(i / xi)=0.
Această ipoteză spune de fapt că toţi factorii neexplicitaţi de model, şi dealtfel
cuprinşi în i, nu afectează în mod sistematic valoarea medie a lui y, adică valorile
lor pozitive se anulează cu cele negative astfel încât efectul lor mediu asupra lui y
este zero.
4. Homoscedasticitatea sau variaţia (V – dispersia, varianţă) egală a reziduurilor 2.
Varianţa reziduurilor pentru fiecare xi (varianţa condiţionată a lui i) este un
număr pozitiv constant şi egal cu 2 sau altfel spus, populaţiile lui y,
corespunzătoare valorilor xi, au aceeaşi varianţă.
V i / xi E i E i E i2 2
2
210
190
170
profit (mii euro)
150
130
110
90
70
50
0 50 100 150 200 250 300 350 400 450 500 550
ymed ymed.teoretic număr angajaţi (persoane)
13
5. Nu există corelaţia (covarianţa) erorilor pentru oricare i j.
n n
e yi yˆ i .
2 2
i
i 1 i 1
date din eşantioane diferite. Alegând valori diferite pentru â0 şi â1 se vor obţine
14
n
valori diferite ale reziduurilor şi deci şi pentru e
i 1
2
i . Derivatele parţiale ale sumei
n n
S yi yˆ i yi aˆ 0 aˆ1 xi se egalează cu 0.
2 2
i 1 i 1
S n
0 2 (aˆ 0 aˆ1 xi yi ) 0
aˆ 0 i 1
S n
0 2 (aˆ 0 aˆ1 xi yi ) xi 0
aˆ1 i 1
n n n
aˆ 0 xi aˆ1 xi2 xi y i
i 1 i 1 i 1
yi
i 1
x
i 1
i
n n n n n n
xi y i
i 1
xi2
i 1
xi2 yi xi xi yi
aˆ 0 i 1 i 1 i 1 i 1
2
;
n
x
n n
n i n xi2 xi
n
i 1
n
i 1 i 1
x x
i 1
i
i 1
2
i
n
n y
i 1
i
n n n n n
x x y
i 1
i
i 1
i i n xi y i xi y i
aˆ1 i 1 i 1 i 1
2
n
xi
n n
n n x xi 2
i
n
i 1
n
i 1 i 1
x x
i 1
i
i 1
2
i
n n
naˆ 0 aˆ1 ( xi x ) ( yi y )
i 1 i 1
15
n n n
aˆ 0 ( xi x ) aˆ1 ( xi x ) 2 ( xi x )( yi y )
i 1 i 1 i 1
n n
Cum ( xi x ) 0 şi
i 1
(y
i 1
i y ) 0 , din a doua ecuaţie, se obţine
x i x y i y
aˆ1 i 1
n
.
x x
2
i
i 1
Aceşti estimatori â0 şi â1 sunt numiţi estimatori “ai celor mai mici pătrate”,
deoarece sunt obţinuţi pe baza acestui principiu şi sunt estimatori punctuali, pentru
că furnizează o singură valoare (punct) relevantă pentru parametrul populaţiei.
5. Liniaritatea
16
speranţă matematică se notează cu litera E. Dreapta de regresie a populaţiei
reprezintă tendinţa medie şi se scrie:
E(y/xi)=a0 + a1xi.
• liniaritatea în parametrii este când distribuţia condiţională a variabilei y, E(y/xi)
este o funcţie liniară a parametrilor, adică toţi sunt la puterea 1, in timp ce
variabilele x pot sau nu să fie liniare.
• Termenul de regresie liniară însemnă întotdeauna, liniaritatea în parametrii
necunoscuţi; indiferent dacă există liniaritate în variabilele explicative.
Astfel, exemple de modele liniare sunt:
– E(y/xi)=a0 + a1xi, liniar în parametrii şi în variabile şi
– E(y/xi)=a0 + a1xi2, liniar în parametrii şi neliniar în variabile.
• Un model neliniar în parametrii este: E ( y / xi ) a0 a1 xi .
• Pentru regresia liniară este relevant termenul de liniaritate în parametrii.
6. Tabela de regresie
yi yˆ i min ei2 .
2
min
i 1 i 1
17
patratelor abaterilor face ca metoda ce stă la baza obţinerii estimatorilor, să se
numească metoda celor mai mici pătrate (M.C.M.M.P.).
Tabela de regresie cuprinde în sumarul său, SUMMARY OUTPUT, trei părţi:
Regression Statistics, tabelul ANOVA şi informaţiile despre estimatorii coeficienţilor
modelului liniar. Regression Statistics conţine informaţii cu caracter general despre
variabilele implicate în analiza de regresie:
- coeficientul de corelaţie multiplă Multiple R, care la regresia simplă este
coeficientul de corelaţie liniară simplă, r;
- coeficientul de determinaţie R2, numit R Square arată validitatea modelului.
Valoarea sa este cuprinsă în intervalul [0, 1] şi cu cât e mai apropiată de 1, cu atât
modelul este bine ales, adică explică într-o proporţie mai mare (deseori, în %)
variaţia variabilei dependente y.
n n
yˆi y y yˆ
2 2
i i
R2 i 1
n
1 i 1
n
, unde
y y y y
2 2
i i
i 1 i 1
yi yˆ i e
2 2
i
ˆ i 1
i 1
ˆ 2 , unde
n k 1 n k 1
ˆ 2 este estimatorul pentru dispersia reziduurilor, iar n–k–1 este numărul gradelor
de libertate, iar k este numărul variabilelor explicative;
- Observations reprezintă n este numărul de observări ale variabilei dependente,
care este egal cu numărul de valori ale variabilei (variabilelor) independente xi.
Tabelul ANOVA este tabelul de analiză a varianţelor, a cărui denumire
provine din iniţialele ANalysis Of Variances şi are ca scop prezentarea variaţiei pe
factori de influenţă şi calculul testului Fisher pentru evaluarea semnificaţiei globale a
regresiei. Analiza varianţei pentru o regresie simplă este prezentată în Tabelul 1.1.
În coloana numită SS - Sum Squares (sumă de pătrate) - se prezintă
n
y y pe tipuri
2
descompunerea variaţiei totale a variabilei explicate y, Total: i
i 1
de influenţă:
18
n
yˆ y ,
2
- atribuită şi explicată de factorii de regresie, Regression: i
i 1
y yˆ i .
2
- atribuită factorilor reziduali, neînregistraţi în model, Residual: i
i 1
19
Acest test se poate scrie în funcţie de coeficientul de determinaţie, astfel:
R2
F *
. Dacă varianţa explicată de model este superioară varianţei
(1 R 2 ) /( n 2)
reziduale, se consideră modelul semnificativ pentru explicarea variabilei dependente.
Dacă F * F10,n.05
2 , se respinge ipoteza de egalitate a varianţelor (H0 – ipoteza
medie, în plus sau în minus valorile estimate ale coeficienţilor faţă de parametri pe
care îi estimează. Eroarea standard de estimaţie are caracter de medie a abaterilor
valorilor estimate ale coeficientului faţă de parametrul corespondent din populaţie.
- valorile Student, t*, pentru fiecare estimator, pentru verificarea semnificaţiei
acestuia faţă de 0;
- P-value, corespunzătoare pragului de semnificaţie α, începând de la care valoarea
estimatorului este semnificativ diferită de zero,
- limitele intervalului de încredere ale estimatorilor: inferioară Lower 95% şi
superioară Upper 95%, cu o probabilitate de 95%, implicit, iar la cerere se pot
solicita şi alte valori ale probabilităţii: 99%, 90%, etc.
Suma valorilor observate este egală cu suma valorilor teoretice:
n n
20
7. Funcţia de regresie a populaţiei
21
B4:B11), obţinându-se o medie a profiturilor pentru această grupă de angajaţi, de 79
mii € (B19). Similar, pentru o altă variantă a numărului de angajaţi, de 500 salariaţi
(coloana K), există 12 firme (K20), al căror profit mediu lunar este cuprins între 167
mii € şi 208 mii € (blocul K4:K15), cu o medie a profiturilor lunare de 191 mii €
(K19).
O coloană din tabel reprezintă distribuţia profitului lunar y, la un nivel fixat al
numărului de angajaţi, x, adică distribuţia condiţională a lui y pentru o valoare dată
a lui x.
În celulele B19:K19 se află profiturile medii lunare pentru fiecare grupă de
angajaţi, adică mediile blocurilor de celule corespunzătoare fiecărei grupe: B4:B17,
C4:C17, D4:D17, ... K4:K17. Mediile se calculează astfel: în celula B19, se scrie
funcţia statistică pentru calculul mediei, =AVERAGE(B4..B17). Se observă că
numărul maxim de firme dintr-o grupă este de 14, pentru x=200, x=400. Deşi în
prima grupă sunt 8 firme, se va specifica blocul de dimensiunea maximă, pentru ca
prin copierea formulei din celula B19 în celelalte celule, de la C19 la K19, să se
translateze corespunzător coloanele celulelor, şi să se ia în considerare toate situaţiile
grupelor (indiferent de numărul de elemente declarate, media se va calcula ţinând
seama de numărul efectiv de elemente existente, în fiecare bloc de celule).
În linia 21, se află profiturile totale lunare ale grupelor, obţinute prin
însumarea profiturilor individuale observate în fiecare grupă de salariaţi. La B21 se
scrie formula =SUM(B4..B17), care apoi se copiază pentru restul celulelor de pe
aceeaşi linie, adică pentru celelalte nouă variante date ale numărului de salariaţi.
Profiturile medii pe grupe de salariaţi se pot obţine şi împărţind profitul total al
grupei la numărul de firme considerate în grupa respectivă, de exemplu în linia 18
(care în Tabelul 1.2 este liberă), cu formula =B21/B20, şi apoi copiată pentru restul
grupelor; valorile obţinute vor fi identice cu cele din linia 19.
În graficul din Figura 1.2, de tip Scatter XY, s-au reprezentat profiturile
firmelor corespunzătoare fiecărei grupe de salariaţi. S-au declarat 14 serii,
corespunzător numărului maxim de variante de profit în funcţie de numărul de
salariaţi, astfel: B4..K4, B5..K5, B6..K6, ..., B17..K17 (cu acelaşi tip de marcatori -
puncte) şi a 15-a serie, pentru profiturile medii calculate ale celor 10 grupe diferite
după numărul de salariaţi, B19..K19. Profiturile medii sunt reprezentate cu marcatori
diferiţi, cercuri mari.
22
Corelaţia dintre profit şi număr de angajaţi
230
210
190
170
profit (mii euro)
150
130
110
90
70
50
0 50 100 150 200 250 300 350 400 450 500 550
număr angajaţi (persoane)
asimilată erorilor i , iar ipoteza conform căreia media lor este 0, semnifică faptul că
erorile pozitive se anulează cu cele negative, adică nu au o acţiune sistematică asupra
mediei variabilei y. Valorile observate ale profiturilor lunare se abat faţă de valoarea
lor medie, calculată ca medie a grupei din care fac parte, după numărul de salariaţi.
Aceste abateri, numite erori, se datorează altor factori, decât cel înregistrat – numărul
23
de salariaţi, numiţi factori reziduali, care ar putea fi: eficienţa activităţii de
management, profilul de activitate al firmei, ramura economică în care activează,
gradul de instruire, nivelul de sănătate şi experienţa salariaţilor, conjunctura pieţei,
nivelul naţional şi internaţional la care activează firma, deschiderea spre pieţele
externe, etc.
210
190
170
profit (mii euro)
150
130
110
90
70
50
0 50 100 150 200 250 300 350 400 450 500 550
ymed ymed.teoretic număr angajaţi (persoane)
şi pentru a1 : =SLOPE(B19:K19,B2:K2).
Aceste funcţii se pot tasta, de exemplu în celulele N23, respectiv N24.
Modelul de regresie a populaţiei este E ( y / xi ) 66.86 0.25 xi .
Coeficientul de determinaţie R2=1 indică faptul că modelul liniar explică
100% variaţia profiturilor lunare, y şi este evident din faptul că s-a efectuat regresia
pe valorile medii ale profiturilor lunare. Coeficientul de corelaţie se poate obţine şi
24
prin funcţia statistică =correl(array1,array2), aici =CORREL(B2:K2,B19:K19).
Aceleaşi rezultate se pot obţine cu ajutorul tabelei de regresie.
Regresia nu poate utiliza decât blocuri de tip coloană şi de aceea trebuie să se
transpună blocurile linie ale valorilor variabilelor pe verticală. Se poate proceda în
felul următor:
- se selectează blocul B2:K2, al variabilei x;
- se activează operaţia de copiere prin <CTRL/C> sau din meniul Edit / Copy sau
apăsând butonul dreapta al mouse-ului pe blocul selectat şi se alege comanda
Copy;
- se poziţionează cursorul în celula blocului destinaţie, de exemplu în N2;
- se apasă butonul dreapta al mouse-ului şi se alege Paste Special sau din meniul
Edit, comanda Paste Special, unde se bifează Values, pentru a transforma în
valori rezultatul unor formule – pentru variabila x, nu este cazul, acestea fiind
deja valori, rezultate prin editarea lor – şi Transpose, apoi se confirmă prin OK.
Blocul N2:N11 va conţine valorile variabilei x, din Tabelul 1.2.
Pentru transpunerea valorilor medii ale variabilei y se procedează la fel,
selectând blocul B19:K19, se depune blocul transpus în O2:O11, cu menţiunea că la
Paste Special se va bifa Values şi Transpose.
Prin transpunere, funcţiile de calcul ale mediilor din linia 19, =AVERAGE(...), îşi
vor schimba adresele din argumentul lor, obţinându-se nişte valori eronate şi de
aceea, formulele conţinute în celulele B19:K19 trebuie transformate în valori, cu
opţiunea Values.
Pentru că profiturile medii calculate (linia19) se află pe o dreaptă, regresia
între valorile variabilei x şi valorile medii ale variabilei y furnizează nişte parametri,
care utilizaţi în calculul valorilor teoretice corespunzătoare, au ca rezultat valori
identice cu mediile calculate din valorile observate ale variabilei y.
Modelul liniar determină în totalitate, 100%, variaţia acesteia, regresia
exprimând chiar această tendinţă medie de evoluţie a lui y în funcţie de x.
Valorile medii ale profiturilor pe grupe, se află pe dreapta de regresie a
populaţiei, după cum se poate vedea şi pe graficul din Figura 1.3. Valorile teoretice
se obţin prin modelul liniar determinat, în linia 22 din Tabelul 1.2. Dacă, de exemplu,
valorile parametrilor a 0 şi a1 se află în celulele N23 şi N24, atunci în celula B22 se
scrie formula =$N$23+$N$24*B2, care se copiază şi pentru restul celulelor
C22:K22. Celulele N23 şi N24, sunt fixate prin folosirea simbolului $, astfel încât
25
prin copierea formulei în restul celulelor, să nu se schimbe coloanele şi linii. Cum
acestea din urmă nu se schimbă, pentru că se face copierea pe orizontală, formula era
la fel de corectă dacă se scria =$N23+$N24*B2. Se adaugă încă o serie pe graficul
din Figura 1.2, cea a valorilor teoretice din linia 22, şi se obţine graficul din Figura
1.3.
Mediile profiturilor calculate pe grupe de salariaţi se pot abate de la valorile
teoretice ale acestor medii condiţionale, sub influenţa alegerii modelului. Un model
bine ales va minimiza aceste abateri. Acest tip de variaţie a mediilor condiţionale se
datorează factorului de grupare, numărul de salariaţi, variabila explicativă a variaţiei
profiturilor, cea înregistrată, a cărei influenţă este considerată în model. În acest caz
mediile profiturilor calculate pe grupe de salariaţi coincid cu valorile lor teoretice,
aflate pe dreapta de regresie a populaţiei.
Suma celor două tipuri de variaţie: din interiorul grupelor şi dintre variantele
de grupare, reprezintă variaţia totală a profiturilor datorată tuturor factorilor, şi se
exprimă prin totalitatea abaterilor valorilor observate ale profiturilor faţă de nivelul
lor mediu calculat (media mediilor grupelor).
Acţiunea factorilor reziduali apare în modelul liniar de regresie a populaţiei
sub termenul de disturbanţă sau eroare, i, iar la nivel de eşantion, ca reziduu, ei.
26
La nivel de eşantion, în modelul liniar, erorile se estimează prin reziduuri şi
se notează ei . Modelul liniar la nivel de eşantion este yˆ i aˆ 0 aˆ1 xi , iar valorile
190
170
150
yi 130
i ei
110
ŷ i
90 E(y/xi)
70
0 50 100 150 200 250 300 350 400 450 500 550
şi a1 , diferă între ele, pentru că unităţile statistice au fost extrase la întâmplare şi faţă
27
de parametri, pentru că un eşantion nu poate reproduce identic colectivitatea din care
a fost extras. Folosind pe rând, pentru fiecare eşantion funcţiile intercept şi slope se
pot determina valorile estimate pentru a 0 şi respectiv, a1 .
1
Pentru primul eşantion, în celula A42: =INTERCEPT(B31:B40,A31:A40) pentru â 0
1
şi pentru â1 , în celula A43: =SLOPE(B31:B40,A31:A40).
Pentru al doilea eşantion, în celula D42: =INTERCEPT(E31:E40,D31:D40) pentru
2 2
â 0 şi pentru â1 , în celula D43: =SLOPE(E31:E40,D31:D40).
Astfel pentru primul eşantion se determină următoarele rezultate:
- un coeficient de corelaţie liniară între variabilele x şi y, de rxy1 0.943 , care arată
31 50 60 83 50 92 84
32 50 83 83 150 105 107
33 100 107 96 200 120 119
34 100 110 96 250 125 130
35 200 120 121 300 136 142
36 200 125 121 350 153 153
37 300 152 147 400 156 165
38 300 155 147 400 170 165
39 350 135 160 450 170 176
40 500 204 198 500 202 188
42 69.7836 â 0
1
72.6035 â 0
2
28
variabila independentă (Input X Range), blocul A31:A40, iar la Output Range, celula
care va fi din colţul stânga sus al tabelei de regresie, de exemplu K27. În Tabelul 1.4
este prezentată tabela de regresie obţinută în Excel pentru primul eşantion. În tabela
de regresie se regăsesc estimatorii şi indicatorii calculaţi mai sus.
SUMMARY OUTPUT eşantionul 1
Regression Statistics
Multiple R 0.943
R Square 0.8893
Adjusted R Square 0.8755
Standard Error 14.1781
Observations 10
ANOVA df SS MS F Signif. F
Regression 1 12924.74 12924.7 64.29573 4.29E-05
Residual 8 1608.161 201.02
Total 9 14532.9
Coeff. Standard t Stat P-value Lower 95% Upper
Error 95%
Intercept 69.784 8.2275 8.4817 2.86E-05 50.811 88.756
X Variable 1 0.2573 0.0321 8.0185 4.29E-05 0.183 0.331
Tabelul 1.4. Tabela de regresie pentru eşantionul 1
29
SUMMARY OUTPUT eşantionul 2
Regression Statistics
Multiple R 0.9764
R Square 0.9534
Adjusted R 0.9475
Square
Standard Err 7.694
Observations 10
ANOVA df SS MS F Signif. F
Regression 1 9681.317 9681.317 163.5416 1.32E-06
Residual 8 473.583 59.19787
Total 9 10154.9
Coeff. Standard Err t Stat P-value Lower 95% Upper 95%
Intercept 72.6035 6.0113 12.0778 2.04E-06 58.7414 86.4656
X Variable 1 0.2305 0.0180 12.7883 1.32E-06 0.1889 0.2720
Tabelul 1.5. Tabela de regresie pentru eşantionul 2
Pe graficul din Figura 1.5 s-au reprezentat: dreapta de regresie a populaţiei
(în legendă, ymed. teoretic), declarând la X Values blocul B2:K2, iar la Y Values,
blocul B22:K22, valorile variabilei y pentru primul eşantion (în legendă, y1), la X
Values s-a declarat blocul variabilei x, adică A31:A40, iar pe axa Oy, la Y Values,
B31:B40 şi dreapta de regresie a primului eşantion, valorile teoretice yˆ i (în
1
210
190
170
profit (mii euro)
150
130
110
90
70
50
0 50 100 150 200 250 300 350 400 450 500 550
ymed.teoretic y1 yt1 număr angajaţi (persoane)
30
Graficul din Figura 1.6, conţine: dreapta de regresie a populaţiei (în legendă,
ymed. teoretic), valorile variabilei y pentru eşantionul al doilea (y2), la X Values s-a
declarat blocul variabilei x, adică D31:D40, iar la Y Values, E31:E40 şi dreapta de
regresie a eşantionului al doilea, yˆ i (yt2), blocul F31:F40.
2
190
170
profit (mii euro)
150
130
110
90
70
50
0 50 100 150 200 250 300 350 400 450 500 550
ymed.teoretic y2 yt2 număr angajaţi (persoane)
210
190
170
profit (mii euro)
150
130
110
90
70
50
0 50 100 150 200 250 300 350 400 450 500 550
ymed.teoretic y1 y2 yt1 yt2 număr angajaţi (persoane)
31
Legenda graficului arată aceeaşi marcatori pentru valorile empirice observate
ale profiturilor medii lunare şi marcatori diferiţi pentru fiecare din cele trei drepte de
regresie.
Comparând ecuaţiile de regresie ale celor două eşantioane:
yˆ i 69.78 0.26 xi , yˆ i 72.6 0.23 xi cu ecuaţia de regresie a populaţiei:
1 2
determinaţie R2=0.9152.
xi yi yˆ i
3 300 136 144
350 135 156
50 60 84
350 153 156
50 83 84
50 92 84 400 156 168
100 107 96 400 170 168
100 110 96 450 170 180
150 105 108 500 204 192
200 120 120 500 202 192
200 125 120 50 60 84
200 120 120 71.643 â 0
3
32
Ajustarea profitului în funcţie de numărul de angajaţi - eşantionul 3
230
210
190
170
profit (mii euro)
150
130
110
90
70
50
0 50 100 150 200 250 300 350 400 450 500 550
ymed.teoretic y yt număr angajaţi (persoane)
33
Se cer estimaţiile coeficienţilor â 0 şi â1 , dispersia reziduurilor, varianţele şi
erorile standard ale estimatorilor, covarianţa lor, coeficientul de corelaţie şi
coeficientul de determinaţie.
Se recomandă utilizarea formulelor prezentate mai sus şi apoi pentru
verificare, utilizarea tabelei de regresie din Tools / Data Analysis / Regression.
Cheltuieli de Venitul xi ŷ i
consum yi
70 80 65.18
65 100 75.36
90 120 85.55
95 140 95.73
110 160 105.91
115 180 116.09
120 200 126.27
140 220 136.45
155 240 146.64
150 260 156.82
Tabelul 1.7. Analiza cheltuielilor în funcţie de venituri
34
10.1. Exerciţiu - Rolul termenului aleator
Anul Venit
1993 8000
1994 9000
1995 9500
1996 9500
1997 9800
1998 11000
1999 12000
2000 13000
2001 15000
2002 16000
Tabelul 1.8. Evoluţia venitului mediu lunar/locuitor ($)
35
realizează cu un generator de numere aleatoare, t N(0; 20000). Media şi varianţa
acestor erori generate, sunt uşor diferite de valorile teoretice: 19 faţă de 0, respectiv,
10056, faţă de 20000. Aceste diferenţe reprezintă o consecinţă a extragerii unui
eşantion de volum mic (zece observări).
Consumul observat se calculează adăugând la consumul teoretic, obţinut cu
modelul de regresie a populaţiei: yt=1000+0.8+t., erorile de observare, generate.
Acesta este un demers invers, pentru a pune în evidenţă rolul erorilor şi distincţia
între ecuaţia de regresie a populaţiei şi cea a eşantionului. În realitate valorile
observate conţin deja erorile.
Valorile observate sunt empirice, reale, şi nu se pot obţine invers prin
adăgarea erorilor (necunoscute, dealtfel) la valorile teoretice.
Generarea de numere aleatoare se poate realiza, de exemplu, cu o comandă:
=(RAND()*100+RAND()*100)*(-1)^(ROUND(RAND()*10,0).
Această formulă poate fi diferită, de cea prezentată (se poate înmulţi, de
exemplu, rezultatul generării prin funcţia RAND(..), care este un număr subunitar
pozitiv, cu 200, 500 sau 1000), care conţine înmulţirea cu (-1) ridicat la o putere
obţinută ca partea întreagă a unui număr până la 10, pentru a genera şi erori negative.
Formula odată scrisă pentru primul an 1993, se copiază şi pentru restul anilor. Se vor
obţine rezultate diferite ale erorilor la fiecare nouă operaţie pe spreadsheet. De aceea,
se recomandă ca atunci când s-au generat nişte erori, care să îndeplinească condiţiile
pentru medie şi dispersie, aceste valori să se transforme cu Values, prin copiere în
acelaşi bloc de celule, cu Paste Special.
Rezultatele obţinute de cei care lucrează acest exerciţiu nu pot fi identice cu
cele din Tabelul 1.9 (cu excepţia cazului când, se preferă să se lucreze cu erorile
generate aici).
Calculele pentru întrebările a) şi b) sunt prezentate în Tabelul 1.9.
Tabela de regresie y=f(x), unde valorile xt reprezintă veniturile observate, iar
yt, consumurile observate, furnizează estimaţiile coeficienţilor: aˆ 0 971.56 şi
36
(date convenţionale)
Anul Venitul xt ŷ t populaţie Erori et yt observat ŷ t regresie
1993 8000 7400 -103 7297 7405
1994 9000 8200 143 8343 8210
1995 9500 8600 -145 8455 8612
1996 9500 8600 72 8672 8612
1997 9800 8840 65 8905 8853
1998 11000 9800 131 9931 9818
1999 12000 10600 -91 10509 10622
2000 13000 11400 58 11458 11427
2001 15000 13000 64 13064 13035
2002 16000 13800 -2 13798 13839
media 19
dispersia 10056
Tabelul 1.9. Calculele în ordine inversă, prin generarea erorilor
Graficul din Figura 1.9 este de tip Scatter (X,Y) şi prezintă corelaţia dintre
venitul/locuitor şi consumul/locuitor. Consumul observat este sub forma unor puncte
aflate de o parte şi de alta a dreptei de regresie: yˆ t 971.56 0.804 xt , după cum
erorile au fost pozitive sau negative. Se observă că estimatorii â0 şi â1 , au valori
14000
13000
consumul/locuitor
12000
11000
10000
9000
8000
7000
7000 9000 11000 13000 15000 17000
y y teoretic venitul/locuitor
37
Evolutia in timp a consumului si venitului pe locuitor
18000
16000
14000
$/locuitor/an
12000
y
10000 x
yt-regr
8000
6000
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
anii
Graficul din Figura 1.10, de tip Line, fiind o cronogramă, prezintă evoluţia în
timp a consumului teoretic calculat cu ecuaţia de regresie a eşantionului, a
consumului observat şi a venitului care fiind cam de acelaşi ordin de mărime şi
aceeaşi unitate de măsură se pot reprezenta împreună pe acelaşi grafic. Evoluţia
asemănătoare, în timp, a celor două variabile: venitul şi consumul, arată existenţa
unei legături puternice, între ele.
În exerciţiul prezentat, valorile adevărate a0 şi a1 , sunt perfect cunoscute:
38
10.2. Testul de semnificaţie al estimatorilor
e 2
i
ˆ 2
cu: ˆ 2 i
. Estimaţia varianţei estimatorului lui a1 este: ˆ a2ˆ1 .
n2 (x
i
i x)2
ˆ 2
Ipoteza de normalitate a erorilor implică: (n 2) urmează o lege 2 cu n-2 grade
2
aˆ1 a1 aˆ 0 a 0
de libertate. şi urmează o lege normală centrată redusă N(0,1).
aˆ 1
aˆ 0
ˆ 2 ˆ a2ˆ
(n 2) ( n 2) urmează o lege 2 cu n-2 grade de libertate.
2 a2ˆ
aˆ 0 a 0
Rezultă că: urmează o lege Student cu n-2 grade de libertate;
ˆ aˆ0
aˆ1 a1
urmează o lege Student cu n-2 grade de libertate.
ˆ aˆ1
39
Dacă se respinge ipoteza nulă H0, la un prag fixat, atunci înclinaţia marginală spre
consum este considerată, ca fiind semnificativ diferită de 0. Pragul de semnificaţie
cel mai des utilizat este =0.05, adică un risc de a respinge H0, în mod neîntemeiat,
de 5%.
aˆ1 a1 aˆ 0 aˆ1
Sub ipoteza H0, relaţia devine 1 t aˆ1 , care urmează o lege
ˆ aˆ1 ˆ aˆ1 ˆ aˆ1
H0 cu probabilitatea P=1-
H1 H1
/2 /2
I
/ 20.025
t n2 grd.lib. a1 t n/22grd
0.025
.lib.
Regula de decizie pentru un prag =0.05 este următoarea: dacă t aˆ1 t n0.025
2 se
e 2
i (y i yˆ i ) 2
ˆ 2 i
i
.
n2 n2
40
Aplicând formulele, se pot obţine: estimaţia varianţei estimatorului â1 :
ˆ 2 aˆ1
V (aˆ1 ) , abaterea sa: ˆ aˆ1 V (aˆ1 ) şi raţia Student t aˆ1 .
(x
i
i x)2 ˆ aˆ1
aˆ1 a1 aˆ a
Fie t n/22 , unde 1 1 urmează o lege Student cu n-2 grade de libertate.
ˆ aˆ1 ˆ aˆ1
41
coeficient să se găsească în exteriorul acestui interval. Se constată că acest interval
nu cuprinde valoarea 0, ceea ce este coerent cu rezultatul diferenţei semnificative faţă
de 0 a coeficientului.
Intervalul de încredere pentru estimatorul â 0 este de [619.8 , 1323.3]. În acest
Cum F * F10.8.05 5.32 , se acceptă ipoteza H1, varianţa explicată diferă semnificativ
42
11. Intervalul de încredere al previziunii cu modelul regresiei simple
en1 (a0 a1 xn1 n1 ) (aˆ 0 aˆ1 xn1 ) (a0 aˆ 0 ) (a1 aˆ1 ) xn1 n1 .
1 ( x n 1 x ) 2
ˆyˆ n 1 ˆ n 1 .
( xt x )
n 2
t 1
t 1 t 1
43
1 ( x n 1 x ) 2
ICy n 1 yˆ n 1 t n/22 ˆ 1
n ( xt x ) 2
t
Caz particular:
Când se utilizează modelul regresiei simple pentru o serie cronologică, se calculează
dreapta de tendinţă după modelul specificat astfel:
Tt aˆ 0 aˆ1t et pentru t=1,2,…,n.
Pentru a calcula previziunea pentru orizontul h, se înlocuieşte valoarea variabilei t cu
n+h pentru extrapolare: Tt aˆ 0 aˆ1 (n h) et , iar intervalul de încredere se găseşte
44
Pentru aceste date, modelul consum - venit estimat este:
yt 1186.45 0.785xt et
(20.97) (160.4) (.) = raţia t Student; n = 10.
1) Să se calculeze coeficientul de determinaţie şi să se efectueze testul Fisher, prin
care se determină dacă regresia este global semnificativă.
2) Care este consecinţa asupra consumului a unei creşteri de 8% a venitului?
3) În 2003 şi 2004 se prevăd venituri de 16800$ şi 17000$ venit/locuitor. Să se
determine previziunea consumului pentru cei doi ani, şi intervalele de încredere cu o
probabilitate de 95%.
Soluţie:
estimatorului â1 .
În Tabelul 1.13 s-au calculat valorile: SSR (Sum Squares of Residues)
n n n
SSR ( yt yˆ t ) 2 et2 ; SSE (Sum Squares Explained) SSE ( yˆ t y ) 2 ;
t 1 t 1 t 1
n
SST (Sum Squares Total) SST ( yt y ) 2 .
t 1
Se verifică relaţia dintre aceste sume: SST SSR SSE . Testul Fisher se poate
calcula ca raport între două dispersii corectate cu gradele de libertate, întotdeauna cea
SSE / 1
explicată raportată la cea reziduală: F . Valorile sumelor se regăsesc
SSR /( n 2)
în tabelul ANOVA, unde valoarea foarte mică a pragului de semnificaţie
Significance F arată o probabilitate de 100% de garantare a semnificaţiei globale a
45
R2
regresiei liniare. Acelaşi rezultat se obţine şi cu formula: F * ,
(1 R 2 ) /( n 2)
46
3) Cunoscându-se valorile veniturilor, previziunile cheltuielilor de consum în anii
2003 şi 2004, se calculează ca previziuni punctuale, utilizând modelul estimat:
yˆ 2003 1186.45 0.787 x2003 1186.45 0.785 16800 14376
yˆ 2004 1186.45 0.787 x2004 1186.45 0.785 17000 14533
Se pot calcula intervalele de încredere, pentru previziunile celor doi ani:
1 ( x 2003 x ) 2
ICy 2003 yˆ 2003 t n/22 ˆ 1 ;
n ( xt x ) 2
t
1 ( x 2004 x ) 2
ICy 2004 yˆ 2004 t n/22 ˆ 1
n ( xt x ) 2
t
Se cunosc informaţiile:
n=10; 39.2 , (x
t
t x ) 2 64156000 , x 11280 , t n/22 2.306 .
Pentru anul 2003: x2003 16800 ; ICy 2003 14376 2.306 49.2 ;
IC2003 = [14262 , 14489]. Previziunea are o şansă de 95%, să se afle în interiorul
intervalului.
Pentru 2004: x2003 17000 ; ICy 2004 14533 2.306 49.74 ;
IC2004 = [14418 , 14647], cu o probabilitate de 95%.
47
1) Este semnificativă durata studiilor asupra salariului?
2) Ştiind că salariul mediu al bărbaţilor este 6.9 milioane lei şi cel al femeilor este 5.8
milioane lei, să se stabilească dacă există diferenţă semnificativă între salariul
bărbaţilor şi cel al femeilor?
Soluţie:
H1 : a B a F ; H1 : d a B a F 0
(aˆ B aˆ F ) (a B a F )
Raportul: urmează o lege Student cu n1 n2 3 grade de
ˆ aˆ B aˆ F
libertate.
Sub ipoteza nulă H 0 : a B a F şi cu ˆ d2ˆ ˆ a2ˆ F ˆ a2ˆ B , raportul se scrie:
dˆ (1.8 0.7)
t* 2.49 t 62
0.05
1.96 .
dˆ
ˆ 0.34 0.28
2 2
48
Rezumat
Termeni importanţi
Model de regresie simplă, estimatori, parametri, proprietările estimatorilor,
reziduuri, erori, ipotezele modelului de regresie, testul F, ANOVA, testul t, tabela de
regresie
Întrebări recapitulative
1. Enumeraţi ipotezele modelului de regresie
2. Stabiliţi diferenţa între modelul de regresie al populaţiei şi modelul de
regresie al eşantioanelor
3. Ce este liniaritatea?
4. Care sunt proprietăţile estimatoruilor modelului de regresie?
5. Reprezentaţi tabelul de analiză a varianţei ANOVA si testul F pentru regresia
simplă.
6. La ce se referă testul t Student?
7. Cum apreciaţi validitatea unui model?
Teme de casă
Parcurgeţi exemplele din curs utilizând calculatorul; realizaţi graficele şi tabela
de regresie.
49