Sunteți pe pagina 1din 40

UNITATEA DE ÎNVĂȚARE 1

Tema MODELUL REGRESIEI SIMPLE


Obiectivele 1. Problema estimării
2. Metoda celor mai mici pătrate – ipoteze
3. Metoda celor mai mici pătrate - estimatorii
4. Proprietăţile estimatorilor metodei celor mai mici pătrate
5. Liniaritatea
6. Tabela de regresie
7. Funcţia de regresie a populaţiei
8. Funcţia de regresie a eşantioanelor
9. Exerciţiu - Calculul estimatorilor modelului de regresie simplă
10. Consecinţe ale ipotezelor: construirea testelor
10.1. Exerciţiu - Rolul termenului aleator
10.2. Testul de semnificaţie al estimatorilor
10.3. Intervalul de încredere al estimatorilor
10.4. Tabelul de analiză a varianţei – testul Fisher
11. Intervalul de încredere al previziunii cu modelul regresiei
simple
11.1. Exerciţiu - Previziuni ale variabilei endogene
12. Exerciţiu - Compararea coeficienţilor de regresie
Finalitatea - 1. Estimarea coeficienţilor modelului de regresie simplă
Competenţe 2. Cunoaşterea unui software si a procedurii statistice care are
dobândite ca rezultat tabela de regresie; conţinutul tabelei de regresie
3. Diferenţe dintre modelul la nivelul populaţiei şi al
eşantionului
4. Realizarea de previziuni cu modelul regresiei simple

Mijloace
- citire/învăţare

- întrebări, probleme ce apar, explicaţii

- definiţii, explicaţii ce trebuie reţinute

- situaţii economice concrete, supuse analizei, exemple


(sub lupă)

- teme de casă, aplicaţii practice pentru studenţi


Evaluarea - parcurgerea aplicaţiilor propuse
Timp de lucru 1. Pentru cunoaşterea problemei: 4 ore
necesar 2. Pentru rezolvarea temelor: 12 ore + timpul de documentare

10
MODELUL REGRESIEI SIMPLE

În funcţie de numărul de factori a căror variaţie se consideră în explicarea


variaţiei fenomenului efect, y, există:
- regresie simplă: când se consideră variaţia unui singur factor: y=f(x) şi
- regresie multiplă: când se consideră variaţia mai multor variabile
explicative: y=f(x1, x2, …, xk).
Metoda regresiei analizează relaţiile existente între variabila explicată şi
variabilele explicative, pe baza datelor observate pentru aceste variabile.
Se poate stabili care din factori au o influenţă semnificativă, gradul lor de
esenţialitate şi cunoscând influenţa variabilelor factoriale asupra variaţiei
fenomenului explicat, se pot face previziuni ale valorilor variabilei y pentru anumite
valori date ale variabilelor x.
Analiza regresiei reprezintă o metodă analitică de măsurare a intensităţii
legăturilor dintre fenomenele economico-sociale, fiind instrumentul cel mai utilizat
în analiza economică. Analiza de regresie măsoară dependenţa statistică a unei
variabile y, variabilă dependentă, de una sau mai multe variabile explicative x, cu
scopul de a estima şi de a previziona valoarea medie a variabilei y, pe baza valorilor
cunoscute sau fixate ale variabilelor explicative.
Fenomenul a cărui variaţie se analizează în funcţie de influenţa variaţiei unor
alte fenomene-cauză, se mai numeşte variabilă explicată, endogenă, iar fenomenele
a căror variaţie influenţează semnificativ variabila y, se mai numesc variabile
independente, exogene, independente, regresori, factori sau variabile factoriale.
De exemplu, în funcţia Keynesiană a consumului: C  C0  cYd , unde
C = consumul privat
C0 = consumul privat incompresibil,
c = înclinaţia marginală spre consum
Yd = venitul disponibil,
C este variabila dependentă, endogenă, explicată, iar Yd reprezintă variabila
independentă, exogenă, explicativă, factorul de influenţă, cauza, regresorul.

11
1. Problema estimării

Metoda regresiei statistice constă în stabilirea funcţiei de regresie care


descrie cel mai bine relaţia dintre variabila explicată şi variabila sau variabilele
independente, după caz.
Fenomenele economico-sociale sunt fenomene de masă supuse acţiunii
legilor statistice, care se manifestă sub formă de tendinţă (medie) într-un număr mare
de cazuri individuale, diferite ca formă de manifestare, sub acţiunea combinată a
influenţei mai multor factori, dar care aparţin aceleaşi esenţe, aceleaşi colectivităţi.
Fenomenele economico-sociale sunt fenomene stochastice, care nu pot fi
experimentate în laborator. La aceleaşi valori ale fenomenelor cauză, se obţin
întotdeauna valori diferite ale fenomenului efect analizat. Combinarea diferită a
factorilor, cu grade diferite de esenţialitate, conferă o mare variabilitate fenomenului
explicat.
A observa întreaga colectivitate pentru a stabili parametri ecuaţiei de
regresie a populaţiei este o modalitate ineficientă, care necesită un efort mare, atât
din punct de vedere material cât şi al timpului.
Avantajele oferite de sondajul statistic reprezintă cea mai bună soluţie pentru
estimarea parametrilor pe baza datelor observate dintr-un eşantion. Se obţine astfel
ecuaţia de regresie a eşantionului. Estimatorii ecuaţiei de regresie a eşantionului
vor furniza rezultate foarte bune, despre parametrii polulaţiei, în anumite condiţii de
probabilitate şi respectând anumite ipoteze pe care aceştia trebuie să le îndeplinească.
Problema estimării parametrilor este obiectivul prioritar al econometriei.
Există mai multe metode de determinare a estimatorilor parametrilor de regresie:
metoda momentelor, metoda celor mai mici pătrate şi metoda maximei verosimilităţi.
Dintre aceste metode, cea care îndeplineşte criteriile de cost minim de
aplicare, şi de asigurare a calităţii estimatorilor, în condiţiile respectării unor ipoteze
fundamentale, este metoda celor mai mici pătrate (M.C.M.M. P.)

2. Metoda celor mai mici pătrate - ipoteze

Metoda celor mai mici pătrate, atribuită matematicianului german Carl


Friederich Gauss, este una din cele mai des utilizate metode de estimare a ecuaţiilor
de regresie a sondajelor statistice. Principiul acestei metode constă în minimizarea

12
sumei pătratelor abaterilor valorilor empirice faţă de cele teoretic estimate, adică
minimizarea sumei pătratelor reziduurilor.
Aplicarea acestei metode se bazează pe următoarele ipoteze presupuse
adevărate:
1. Modelul este liniar în xi (sau în oricare transformare a lui xi).
2. Valorile lui xi sunt observate fără erori (xi este nealeator).
3. Media (operatorul E) reziduurilor este zero: E(i / xi)=0.
Această ipoteză spune de fapt că toţi factorii neexplicitaţi de model, şi dealtfel
cuprinşi în i, nu afectează în mod sistematic valoarea medie a lui y, adică valorile
lor pozitive se anulează cu cele negative astfel încât efectul lor mediu asupra lui y
este zero.
4. Homoscedasticitatea sau variaţia (V – dispersia, varianţă) egală a reziduurilor 2.
Varianţa reziduurilor pentru fiecare xi (varianţa condiţionată a lui i) este un
număr pozitiv constant şi egal cu 2 sau altfel spus, populaţiile lui y,
corespunzătoare valorilor xi, au aceeaşi varianţă.
 
V  i / xi   E i  E  i   E  i2   2
2

Situaţia opusă se numeşte heteroscedasticitate şi se poate nota: V  i / xi    i2 ,


unde varianţa nu mai este constantă, i=1,n.

Ajustarea liniară a profitului în funcţie de numărul de angajaţi


230

210

190

170
profit (mii euro)

150

130

110

90

70

50
0 50 100 150 200 250 300 350 400 450 500 550
ymed ymed.teoretic număr angajaţi (persoane)

Figura 1.1. Reprezentarea grafică a ipotezei de heteroscedasticitate

13
5. Nu există corelaţia (covarianţa) erorilor pentru oricare i  j.

cov( i ,  j )  E[ i  E ( i )][ j  E ( j )]  E ( i j )  0


Pentru anumite valori date xi, abaterile oricăror două valori y de la valoarea lor
medie nu prezintă nici o tendinţă.
6. Erorile sunt independente de variabila explicativă. Nu există corelaţie între erori şi
valorile x.
cov( i , xi )  E[ i  E ( i )][xi  E ( xi )]  E[ i ( xi  E ( xi ))] 
 E ( i xi )  E ( xi ) E ( i )  E ( i xi )  0

pentru că E  i   0 din ipoteza 3.


7. Modelul de regresie este corect specificat. O investigaţie econometrică începe
prin specificarea modelului econometric.
Problemele sunt: ce variabile ar trebui incluse în model, care este forma
funcţională a modelului (este liniar în parametri, în variabile sau ambele?)

3. Metoda celor mai mici pătrate - estimatorii

Ecuaţia de regresie a populaţiei se poate scrie: yi  a0  a1 xi   i sau

yt  a0  a1 xt   t . Cu ajutorul datelor dintr-un eşantion de date i=1,n (pentru serii


de date instantanee) sau t=1,n (pentru serii cronologice) se poate aproxima ecuaţia de
regresie a populaţiei prin ecuaţia de regresie a eşantionului astfel:
yi  aˆ 0  aˆ1 xi  ei  yˆ i  ei , unde ŷ i este valoarea estimată a yi (media

condiţională). Reziduurile ei reprezintă diferenţele dintre valorile observate y i şi

cele estimate ŷ i : ei  yi  yˆ i  yi  aˆ 0  aˆ1 xi .


Dându-se n perechi de observări ale lui y şi x, se va construi funcţia de
regresie a eşantionului astfel încât să minimizeze suma reziduurilor, pe cât posibil.
n n
Cum  ei    yi  yˆ i   0 , se alege criteriul minimizării pătratelor reziduurilor:
i n i n

n n

e    yi  yˆ i  .
2 2
i
i 1 i 1

Este evident că suma pătratelor reziduurilor este funcţie de valorile


n
estimatorilor coeficienţilor dreptei de regresie e 2
i  f aˆ 0 , aˆ1  , pentru orice set de
i 1

date din eşantioane diferite. Alegând valori diferite pentru â0 şi â1 se vor obţine

14
n
valori diferite ale reziduurilor şi deci şi pentru e
i 1
2
i . Derivatele parţiale ale sumei

n n
S    yi  yˆ i     yi  aˆ 0  aˆ1 xi  se egalează cu 0.
2 2

i 1 i 1

S n
0  2 (aˆ 0  aˆ1 xi  yi )  0
aˆ 0 i 1

S n
0  2 (aˆ 0  aˆ1 xi  yi ) xi  0
aˆ1 i 1

Simplificând cu -2 şi aplicând operatorul , se obţine sistemul de ecuaţii normale,


numite şi simultane:
n n
naˆ 0  aˆ1  xi   yi
i 1 i 1

n n n
aˆ 0  xi  aˆ1  xi2   xi y i
i 1 i 1 i 1

Sistemul se poate rezolva prin metoda determinanţilor:


n n

 yi
i 1
x
i 1
i

n n n n n n
 xi y i
i 1
 xi2
i 1
 xi2  yi   xi  xi yi
aˆ 0   i 1 i 1 i 1 i 1
2
;
 
n

x
n n
n i n xi2    xi 
n
i 1
n
i 1  i 1 
x x
i 1
i
i 1
2
i

n
n y
i 1
i

n n n n n
x x y
i 1
i
i 1
i i n  xi y i   xi  y i
aˆ1   i 1 i 1 i 1
2
 
n

 xi
n n
n n x    xi  2
i
n
i 1
n
i 1  i 1 
x x
i 1
i
i 1
2
i

Dacă în sistemul de ecuaţii normale, variabilele x i şi y i se înlocuiesc cu valorile lor


centrate faţă de mediile lor, se obţine:

n n
naˆ 0  aˆ1  ( xi  x )   ( yi  y )
i 1 i 1

15
n n n
aˆ 0  ( xi  x )  aˆ1  ( xi  x ) 2   ( xi  x )( yi  y )
i 1 i 1 i 1

n n
Cum  ( xi  x )  0 şi
i 1
(y
i 1
i  y )  0 , din a doua ecuaţie, se obţine

 x i  x  y i  y 
aˆ1  i 1
n
.
 x  x
2
i
i 1

Ştiind că y  aˆ 0  aˆ1 x , rezultă aˆ 0  y  aˆ1 x .

Aceşti estimatori â0 şi â1 sunt numiţi estimatori “ai celor mai mici pătrate”,
deoarece sunt obţinuţi pe baza acestui principiu şi sunt estimatori punctuali, pentru
că furnizează o singură valoare (punct) relevantă pentru parametrul populaţiei.

4. Proprietăţile estimatorilor metodei celor mai mici pătrate

Estimatorii metodei celor mai mici pătrate au următoarele proprietăţi:


• liniari, adică o funcţie liniară a unei variabile aleatoare, cum ar fi variabila y
în modelul de regresie;
• nedeplasaţi, media estimatorului din toate eşantioanele posibile, de volum n
E (aˆ1 )
sau valoarea aşteptată a estimatorului este egală cu valoarea adevărată a a1
parametrului, ;
• eficienţi, adică are varianţa minimă.
Teorema lui Gauss-Markov se enunţă astfel:
Date fiind ipotezele modelului liniar clasic de regresie, estimatorii celor mai
mici pătrate, din clasa estimatorilor liniari nedeplasaţi, au varianţă minimă; se poate
spune că sunt BLUE (Best Linear Unbiased Estimators).

5. Liniaritatea

• liniaritatea în variabile - cu un înţeles „natural” înseamnă că media condiţională


(în sensul de valoarea medie aşteptată - în econometrie, apare termenul de
speranţă matematică) a variabilei y este o funcţie liniară a lui xi. Operatorul de

16
speranţă matematică se notează cu litera E. Dreapta de regresie a populaţiei
reprezintă tendinţa medie şi se scrie:
E(y/xi)=a0 + a1xi.
• liniaritatea în parametrii este când distribuţia condiţională a variabilei y, E(y/xi)
este o funcţie liniară a parametrilor, adică toţi sunt la puterea 1, in timp ce
variabilele x pot sau nu să fie liniare.
• Termenul de regresie liniară însemnă întotdeauna, liniaritatea în parametrii
necunoscuţi; indiferent dacă există liniaritate în variabilele explicative.
Astfel, exemple de modele liniare sunt:
– E(y/xi)=a0 + a1xi, liniar în parametrii şi în variabile şi
– E(y/xi)=a0 + a1xi2, liniar în parametrii şi neliniar în variabile.
• Un model neliniar în parametrii este: E ( y / xi )  a0  a1  xi .
• Pentru regresia liniară este relevant termenul de liniaritate în parametrii.

6. Tabela de regresie

În realitate, nu se pot observa colectivităţi generale, ci numai eşantioane


extrase din acestea, repectând principii probabilistice, pentru a asigura condiţia de
reprezentativitate.
Scopul analizei de regresie este descrierea modelului prin estimarea
parametrilor, pe baza datelor de sondaj. Această metodă calculează valorile
estimatorilor, astfel încât suma pătratelor abaterilor valorilor empirice (observate) ale
variabilei dependente y de la valorile ei teoretice (calculate după funcţia liniară
obţinută), adică suma pătratelor reziduurilor să fie minimă:
n n

  yi  yˆ i   min  ei2 .
2
min
i 1 i 1

Analiza de regresie se poate obţine automat prin tabela de regresie, în


Microsoft Excel. După efectuarea declaraţiilor blocurilor care conţine valorile
variabilei explicate y şi variabila (sau variabilele, în cazul regresiei multiple)
independentă x, precum şi a locului pe spreadsheet unde se va obţine tabela şi
eventual a unor alte opţiuni privind probabilitatea de garantare a rezultatelor, pentru
intervalele de încredere ale estimatorilor sau obţinerea automată a valorilor teoretice,
ale erorilor lor faţă de valorile y observate, ale graficelor, etc., se confirmă
declaraţiile prin OK şi tabela apare instantaneu. Acest criteriu al minimizării

17
patratelor abaterilor face ca metoda ce stă la baza obţinerii estimatorilor, să se
numească metoda celor mai mici pătrate (M.C.M.M.P.).
Tabela de regresie cuprinde în sumarul său, SUMMARY OUTPUT, trei părţi:
Regression Statistics, tabelul ANOVA şi informaţiile despre estimatorii coeficienţilor
modelului liniar. Regression Statistics conţine informaţii cu caracter general despre
variabilele implicate în analiza de regresie:
- coeficientul de corelaţie multiplă Multiple R, care la regresia simplă este
coeficientul de corelaţie liniară simplă, r;
- coeficientul de determinaţie R2, numit R Square arată validitatea modelului.
Valoarea sa este cuprinsă în intervalul [0, 1] şi cu cât e mai apropiată de 1, cu atât
modelul este bine ales, adică explică într-o proporţie mai mare (deseori, în %)
variaţia variabilei dependente y.
n n

  yˆi  y    y  yˆ 
2 2
i i
R2  i 1
n
 1 i 1
n
, unde
 y  y  y  y
2 2
i i
i 1 i 1

y este media valorilor empirice yi.


- Adjusted R Square care este R2 ajustat cu un anumit număr de grade de libertate;
- Standard Error este eroarea medie standard a valorilor teoretice ale lui y şi se
calculează ca o abatere medie pătratică a valorilor empirice faţă de cele teoretice:
n n

  yi  yˆ i  e
2 2
i
ˆ   i 1
 i 1
 ˆ 2 , unde
n  k 1 n  k 1
ˆ 2 este estimatorul pentru dispersia reziduurilor, iar n–k–1 este numărul gradelor
de libertate, iar k este numărul variabilelor explicative;
- Observations reprezintă n este numărul de observări ale variabilei dependente,
care este egal cu numărul de valori ale variabilei (variabilelor) independente xi.
Tabelul ANOVA este tabelul de analiză a varianţelor, a cărui denumire
provine din iniţialele ANalysis Of Variances şi are ca scop prezentarea variaţiei pe
factori de influenţă şi calculul testului Fisher pentru evaluarea semnificaţiei globale a
regresiei. Analiza varianţei pentru o regresie simplă este prezentată în Tabelul 1.1.
În coloana numită SS - Sum Squares (sumă de pătrate) - se prezintă
n

 y  y  pe tipuri
2
descompunerea variaţiei totale a variabilei explicate y, Total: i
i 1

de influenţă:

18
n

  yˆ  y ,
2
- atribuită şi explicată de factorii de regresie, Regression: i
i 1

 y  yˆ i  .
2
- atribuită factorilor reziduali, neînregistraţi în model, Residual: i
i 1

Sursa variaţiei Suma pătratelor (SS) Grade Sume


libertate modificate
(df) (MS)
x (Regression) SSE =  ( yˆ t  y ) 2 1 SSE/1
t
Reziduuri (Residual) SSR =  ( yt  yˆ t ) 2   et2 n-2 SSR/(n-2)
t t

Total (Total) SST =  ( yt  y ) 2 n-1


t

Tabelul 1.1. ANOVA în cazul regresiei simple

Coloana numită df – degrees freedom - se referă la gradele de libertate


corespunzătoare fiecărui tip de variaţie:
- pentru variaţia explicată de regresie, gradele de libertate sunt egale cu numărul
variabilelor explicative, k; la regresia simplă este 1;
- pentru variaţia datorată factorilor reziduali, gradele de libertate sunt egale cu n-k-
1, adică n-2;
- pentru variaţia totală corespunde un număr de grade de libertate egal cu n-1.
Gradele de libertate se calculează în funcţie de termenul constant Intercept astfel:
dacă Intercept = 0, df = n-k şi numai dacă Intercept ≠ 0, df = n-k-1.
Coloana numită MS - Modified Sums – conţine dispersiile corectate cu
gradele de libertate corespunzătoare fiecărui tip de variaţie.
Valoarea calculată F se obţine raportând variaţia corectată datorată modelului
la cea corectată datorată factorilor reziduali, iar Significance F reprezintă pragul de
semnificaţie  de la care regresia începe să devină global semnificativă. Regresia
este global semnificativă cu o probabilitate P=1 - .
SSE / 1
Testul empiric F de analiză a varianţei este: F *  , unde F *
SSR /( n  2)
urmează o lege Fisher cu 1 şi n-2 grade de libertate.
La regresia liniară simplă: F *  (t * ) 2 , unde t * , este testul Student empiric.

19
Acest test se poate scrie în funcţie de coeficientul de determinaţie, astfel:
R2
F  *
. Dacă varianţa explicată de model este superioară varianţei
(1  R 2 ) /( n  2)
reziduale, se consideră modelul semnificativ pentru explicarea variabilei dependente.
Dacă F *  F10,n.05
 2 , se respinge ipoteza de egalitate a varianţelor (H0 – ipoteza

nulă), variabila x fiind semnificativă pentru variaţia variabilei y. În caz contrar se


acceptă această ipoteză de egalitate a varianţelor.
A treia parte a tabelei de regresie conţine:
- valorile estimate ale coeficienţilor modelului liniar, â i , i=1,k, în coloana
Coefficients pentru:
- Intercept - estimatorul termenului constant, â0, care poate fi zero
dacă s-a optat pentru Constant is Zero şi
- estimatorii coeficienţilor variabilelor explicative: â1, ..., ân la X
Variable 1, X Variable 2, ... în ordinea declarării variabilelor
explicative;
- Standard Error, ˆ âi abaterile standard ale estimatorilor â i ; arată cu cât variază în

medie, în plus sau în minus valorile estimate ale coeficienţilor faţă de parametri pe
care îi estimează. Eroarea standard de estimaţie are caracter de medie a abaterilor
valorilor estimate ale coeficientului faţă de parametrul corespondent din populaţie.
- valorile Student, t*, pentru fiecare estimator, pentru verificarea semnificaţiei
acestuia faţă de 0;
- P-value, corespunzătoare pragului de semnificaţie α, începând de la care valoarea
estimatorului este semnificativ diferită de zero,
- limitele intervalului de încredere ale estimatorilor: inferioară Lower 95% şi
superioară Upper 95%, cu o probabilitate de 95%, implicit, iar la cerere se pot
solicita şi alte valori ale probabilităţii: 99%, 90%, etc.
Suma valorilor observate este egală cu suma valorilor teoretice:
n n

 yi  yˆ i , pentru că prin ajustare se realizează o redistribuire a influenţei


i 1 i 1

factorului, variabila explicativă, x.

20
7. Funcţia de regresie a populaţiei

Pentru a ilustra analiza de regresie a populaţiei, se consideră un caz ipotetic


al unei ţări a cărei economie este formată din 120 de societăţi comerciale, despre care
se cunosc informaţii referitoare la numărul mediu lunar de salariaţi şi profitul mediu
lunar, exprimat în mii euro (€), la sfârşitul anului.
Societăţile comerciale sunt grupate în zece clase după numărul mediu de
salariaţi şi în fiecare grupă este observat un număr variabil de societăţi.
Datele observate sunt prezentate în Tabelul 1.2 (liniile sunt numerotate, iar
coloanele numite cu literele alfabetului, ca în Microsoft Excel).
A B C D E F G H I J K
1 Grupe după numărul mediu de angajaţi (x)
2 50 100 150 200 250 300 350 400 450 500
3
4 Profitul 60 74 85 95 110 130 120 140 145 167
5 lunar (y) 70 78 88 97 112 132 122 148 150 169
6 75 81 90 100 115 134 135 151 160 170
7 (mii €) 85 89 95 110 120 136 149 156 170 180
8 80 90 98 112 125 139 153 160 185 192
9 83 94 104 115 128 141 155 169 190 195
10 87 90 105 120 130 144 160 170 200 197
11 92 95 110 120 135 145 160 170 205 200
12 96 110 125 140 145 165 174 206 202
13 100 115 125 141 146 165 175 204
14 107 114 127 145 147 170 177 208
15 110 117 130 147 152 173 179 208
16 121 130 155 175 180
17 132 189
18 pe grupă:
19 profit mediu 79 92 104 117 129 142 154 167 179 191
20 nr=120 8 12 13 14 12 13 13 14 9 12
21 profit total 632 1104 1352 1638 1548 1846 2002 2338 1611 2292
22 pr.med.teor 79 92 104 117 129 142 154 167 179 191
Tabelul 1.2. Gruparea societăţilor comerciale după numărul mediu lunar de salariaţi
şi după profiturile medii lunare

Pentru a se analiza vaiaţia profitului în funcţie de numărul mediu de angajaţi,


se va considera variabila independentă ca fiind numărul mediu lunar de salariaţi (x),
iar variabila dependentă – profitul lunar (y). Societăţile comerciale cuprinse în
aceeaşi grupă după numărul de angajaţi, au un profit variabil. Corespunzător unui
număr mediu de 50 de salariaţi (coloana B), de exemplu, sunt 8 firme (celula B20)
ale căror profituri medii lunare se situează între 60 mii € şi 92 mii € (blocul de celule

21
B4:B11), obţinându-se o medie a profiturilor pentru această grupă de angajaţi, de 79
mii € (B19). Similar, pentru o altă variantă a numărului de angajaţi, de 500 salariaţi
(coloana K), există 12 firme (K20), al căror profit mediu lunar este cuprins între 167
mii € şi 208 mii € (blocul K4:K15), cu o medie a profiturilor lunare de 191 mii €
(K19).
O coloană din tabel reprezintă distribuţia profitului lunar y, la un nivel fixat al
numărului de angajaţi, x, adică distribuţia condiţională a lui y pentru o valoare dată
a lui x.
În celulele B19:K19 se află profiturile medii lunare pentru fiecare grupă de
angajaţi, adică mediile blocurilor de celule corespunzătoare fiecărei grupe: B4:B17,
C4:C17, D4:D17, ... K4:K17. Mediile se calculează astfel: în celula B19, se scrie
funcţia statistică pentru calculul mediei, =AVERAGE(B4..B17). Se observă că
numărul maxim de firme dintr-o grupă este de 14, pentru x=200, x=400. Deşi în
prima grupă sunt 8 firme, se va specifica blocul de dimensiunea maximă, pentru ca
prin copierea formulei din celula B19 în celelalte celule, de la C19 la K19, să se
translateze corespunzător coloanele celulelor, şi să se ia în considerare toate situaţiile
grupelor (indiferent de numărul de elemente declarate, media se va calcula ţinând
seama de numărul efectiv de elemente existente, în fiecare bloc de celule).
În linia 21, se află profiturile totale lunare ale grupelor, obţinute prin
însumarea profiturilor individuale observate în fiecare grupă de salariaţi. La B21 se
scrie formula =SUM(B4..B17), care apoi se copiază pentru restul celulelor de pe
aceeaşi linie, adică pentru celelalte nouă variante date ale numărului de salariaţi.
Profiturile medii pe grupe de salariaţi se pot obţine şi împărţind profitul total al
grupei la numărul de firme considerate în grupa respectivă, de exemplu în linia 18
(care în Tabelul 1.2 este liberă), cu formula =B21/B20, şi apoi copiată pentru restul
grupelor; valorile obţinute vor fi identice cu cele din linia 19.
În graficul din Figura 1.2, de tip Scatter XY, s-au reprezentat profiturile
firmelor corespunzătoare fiecărei grupe de salariaţi. S-au declarat 14 serii,
corespunzător numărului maxim de variante de profit în funcţie de numărul de
salariaţi, astfel: B4..K4, B5..K5, B6..K6, ..., B17..K17 (cu acelaşi tip de marcatori -
puncte) şi a 15-a serie, pentru profiturile medii calculate ale celor 10 grupe diferite
după numărul de salariaţi, B19..K19. Profiturile medii sunt reprezentate cu marcatori
diferiţi, cercuri mari.

22
Corelaţia dintre profit şi număr de angajaţi
230

210

190

170
profit (mii euro)
150

130

110

90

70

50
0 50 100 150 200 250 300 350 400 450 500 550
număr angajaţi (persoane)

Figura 1.2. Corelaţia dintre profiturile medii lunare şi numărul mediu


lunar de salariaţi

În Figura 1.2, punctele mediilor profiturilor lunare pe grupe de salariaţi,


reprezintă distribuţia condiţională a profiturilor, corespunzătoare fiecărei grupe după
numărul de salariaţi. Graficul arată tendinţa relaţiei dintre cei doi indicatori, de formă
liniară şi sensul direct al legăturii, profitul mediu creşte când numărul mediu al
salariaţilor creşte.
Se poate spune că pentru fiecare valoare xi există o populaţie a valorilor y,
presupuse a fi distribuite normal, iar media acestor valori y este medie condiţională.
Dreapta sau curba de regresie, după caz, trece prin mediile condiţionale teoretice
(aşteptate) care corespund mediilor condiţionale calculate.
Pe graficul din Figura 1.3 se pot vedea distribuţiile condiţionale ale valorilor
y pentru fiecare valoare dată xi, precum şi distribuţiile erorilor în jurul fiecărei medii
condiţionale a variabilei y. Dreapta de regresie trece prin toate valorile teoretice ale
mediilor condiţionale, ca urmare a ipotezei că mediile condiţionale ale erorilor pentru
o valoare dată xi sunt 0: E ( i / xi )  0 . Acţiunea factorilor necuprinşi în model este

asimilată erorilor  i , iar ipoteza conform căreia media lor este 0, semnifică faptul că
erorile pozitive se anulează cu cele negative, adică nu au o acţiune sistematică asupra
mediei variabilei y. Valorile observate ale profiturilor lunare se abat faţă de valoarea
lor medie, calculată ca medie a grupei din care fac parte, după numărul de salariaţi.
Aceste abateri, numite erori, se datorează altor factori, decât cel înregistrat – numărul

23
de salariaţi, numiţi factori reziduali, care ar putea fi: eficienţa activităţii de
management, profilul de activitate al firmei, ramura economică în care activează,
gradul de instruire, nivelul de sănătate şi experienţa salariaţilor, conjunctura pieţei,
nivelul naţional şi internaţional la care activează firma, deschiderea spre pieţele
externe, etc.

Ajustarea liniară a profitului în funcţie de numărul de angajaţi


230

210

190

170
profit (mii euro)

150

130

110

90

70

50
0 50 100 150 200 250 300 350 400 450 500 550
ymed ymed.teoretic număr angajaţi (persoane)

Figura 1.3. Distribuţiile condiţionale şi dreapta de regresie a populaţiei

Valorile teoretice corespunzătoare acestor profituri medii se află pe dreapta


de regresie a populaţiei, a cărei ecuaţie este E ( y / xi )  a0  a1 xi .

Valorile parametrilor a 0 şi a1 se pot determina folosind funcţiile statistice, în Excel:


=intercept(known_y’s,known_x’s) şi =slope(known_y’s,known_x’s).
Pentru a 0 : =INTERCEPT(B19:K19,B2:K2)

şi pentru a1 : =SLOPE(B19:K19,B2:K2).
Aceste funcţii se pot tasta, de exemplu în celulele N23, respectiv N24.
Modelul de regresie a populaţiei este E ( y / xi )  66.86  0.25  xi .
Coeficientul de determinaţie R2=1 indică faptul că modelul liniar explică
100% variaţia profiturilor lunare, y şi este evident din faptul că s-a efectuat regresia
pe valorile medii ale profiturilor lunare. Coeficientul de corelaţie se poate obţine şi

24
prin funcţia statistică =correl(array1,array2), aici =CORREL(B2:K2,B19:K19).
Aceleaşi rezultate se pot obţine cu ajutorul tabelei de regresie.
Regresia nu poate utiliza decât blocuri de tip coloană şi de aceea trebuie să se
transpună blocurile linie ale valorilor variabilelor pe verticală. Se poate proceda în
felul următor:
- se selectează blocul B2:K2, al variabilei x;
- se activează operaţia de copiere prin <CTRL/C> sau din meniul Edit / Copy sau
apăsând butonul dreapta al mouse-ului pe blocul selectat şi se alege comanda
Copy;
- se poziţionează cursorul în celula blocului destinaţie, de exemplu în N2;
- se apasă butonul dreapta al mouse-ului şi se alege Paste Special sau din meniul
Edit, comanda Paste Special, unde se bifează Values, pentru a transforma în
valori rezultatul unor formule – pentru variabila x, nu este cazul, acestea fiind
deja valori, rezultate prin editarea lor – şi Transpose, apoi se confirmă prin OK.
Blocul N2:N11 va conţine valorile variabilei x, din Tabelul 1.2.
Pentru transpunerea valorilor medii ale variabilei y se procedează la fel,
selectând blocul B19:K19, se depune blocul transpus în O2:O11, cu menţiunea că la
Paste Special se va bifa Values şi Transpose.
Prin transpunere, funcţiile de calcul ale mediilor din linia 19, =AVERAGE(...), îşi
vor schimba adresele din argumentul lor, obţinându-se nişte valori eronate şi de
aceea, formulele conţinute în celulele B19:K19 trebuie transformate în valori, cu
opţiunea Values.
Pentru că profiturile medii calculate (linia19) se află pe o dreaptă, regresia
între valorile variabilei x şi valorile medii ale variabilei y furnizează nişte parametri,
care utilizaţi în calculul valorilor teoretice corespunzătoare, au ca rezultat valori
identice cu mediile calculate din valorile observate ale variabilei y.
Modelul liniar determină în totalitate, 100%, variaţia acesteia, regresia
exprimând chiar această tendinţă medie de evoluţie a lui y în funcţie de x.
Valorile medii ale profiturilor pe grupe, se află pe dreapta de regresie a
populaţiei, după cum se poate vedea şi pe graficul din Figura 1.3. Valorile teoretice
se obţin prin modelul liniar determinat, în linia 22 din Tabelul 1.2. Dacă, de exemplu,
valorile parametrilor a 0 şi a1 se află în celulele N23 şi N24, atunci în celula B22 se
scrie formula =$N$23+$N$24*B2, care se copiază şi pentru restul celulelor
C22:K22. Celulele N23 şi N24, sunt fixate prin folosirea simbolului $, astfel încât

25
prin copierea formulei în restul celulelor, să nu se schimbe coloanele şi linii. Cum
acestea din urmă nu se schimbă, pentru că se face copierea pe orizontală, formula era
la fel de corectă dacă se scria =$N23+$N24*B2. Se adaugă încă o serie pe graficul
din Figura 1.2, cea a valorilor teoretice din linia 22, şi se obţine graficul din Figura
1.3.
Mediile profiturilor calculate pe grupe de salariaţi se pot abate de la valorile
teoretice ale acestor medii condiţionale, sub influenţa alegerii modelului. Un model
bine ales va minimiza aceste abateri. Acest tip de variaţie a mediilor condiţionale se
datorează factorului de grupare, numărul de salariaţi, variabila explicativă a variaţiei
profiturilor, cea înregistrată, a cărei influenţă este considerată în model. În acest caz
mediile profiturilor calculate pe grupe de salariaţi coincid cu valorile lor teoretice,
aflate pe dreapta de regresie a populaţiei.
Suma celor două tipuri de variaţie: din interiorul grupelor şi dintre variantele
de grupare, reprezintă variaţia totală a profiturilor datorată tuturor factorilor, şi se
exprimă prin totalitatea abaterilor valorilor observate ale profiturilor faţă de nivelul
lor mediu calculat (media mediilor grupelor).
Acţiunea factorilor reziduali apare în modelul liniar de regresie a populaţiei
sub termenul de disturbanţă sau eroare, i, iar la nivel de eşantion, ca reziduu, ei.

8. Funcţia de regresie a eşantioanelor

La nivelul populaţiei, între valorile teoretice ale modelului liniar


E ( y / xi )  a0  a1 xi şi valorile observate y i , există abateri, numite la nivel de

colectivitate, erori şi se notează  i . Erorile sunt rezultatul influenţei factorilor


neînregistraţi în ecuaţia de regresie, care fac să existe abateri între valorile empirice
şi cele teoretice.
Valorile observate ale profiturilor, la nivel de populaţie statistică, se pot scrie
yi  E ( y / xi )   i  a0  a1 xi   i .
Funcţia de regresie a populaţiei E(y / xi) = a0 + a1xi se poate estima prin
funcţia de regresie a unui eşantion yˆ i  aˆ 0  aˆ1 xi şi atunci ŷ i reprezintă un estimator
pentru E(y / xi).

26
La nivel de eşantion, în modelul liniar, erorile se estimează prin reziduuri şi
se notează ei . Modelul liniar la nivel de eşantion este yˆ i  aˆ 0  aˆ1 xi , iar valorile

observate în eşantion sunt descrise de ecuaţia yi  aˆ 0  aˆ1 xi  ei  yˆ i  ei .


În Figura 1.4 se prezintă grafic termenul de eroare şi cel de reziduu,
dispunând de un eşantion oarecare extras din populaţia statistică. Se cunosc dreaptele
de regresie a eşantionului şi a populaţiei. Se poate exprima funcţia de regresie a
populaţiei cunoscând datele dintr-unul sau mai multe eşantioane?

Din populaţia de societăţi comerciale, prezentată anterior, s-au extras două


eşantioane aleatoare, prezentate în Tabelul 1.3. Din cele 120 de societăţi s-au extras
10 în primul eşantion şi 10 în al doilea. S-au înregistrat valorile numărului mediu
lunar de salariaţi, x şi profitul mediu lunar, y, pentru fiecare din cele 10 firme. Pentru
fiecare eşantion se va stabili ecuaţia de regresie a eşantionului. Aceasta va conţine
estimatorii â 0 şi â1 ai parametrilor a 0 şi a1 ai ecuaţiei de regresie a populaţiei.

Modelul liniar de regresie a eşantionului va fi: yˆ i  aˆ 0  aˆ1 xi .

Dreapta de regresie a populaţiei şi a eşantionului


210

190

170

150

yi 130
i ei
110
ŷ i
90 E(y/xi)

70
0 50 100 150 200 250 300 350 400 450 500 550

yes ytes ytpop

Figura 1.4. Valorile observate din eşantion, dreapta de regresie a eşantionului şi a


populaţiei
Pentru fiecare din cele două eşantioane valorile estimate ale parametrilor a 0

şi a1 , diferă între ele, pentru că unităţile statistice au fost extrase la întâmplare şi faţă

27
de parametri, pentru că un eşantion nu poate reproduce identic colectivitatea din care
a fost extras. Folosind pe rând, pentru fiecare eşantion funcţiile intercept şi slope se
pot determina valorile estimate pentru a 0 şi respectiv, a1 .
1
Pentru primul eşantion, în celula A42: =INTERCEPT(B31:B40,A31:A40) pentru â 0
1
şi pentru â1 , în celula A43: =SLOPE(B31:B40,A31:A40).
Pentru al doilea eşantion, în celula D42: =INTERCEPT(E31:E40,D31:D40) pentru
2 2
â 0 şi pentru â1 , în celula D43: =SLOPE(E31:E40,D31:D40).
Astfel pentru primul eşantion se determină următoarele rezultate:
- un coeficient de corelaţie liniară între variabilele x şi y, de rxy1  0.943 , care arată

o legătură de intensitate mare şi se obţine cu funcţia


=CORREL(B31:B40,A31:A40), în celula A44;
estimatorii aˆ 0  69.78 şi aˆ1  0.26 , modelul este yˆ i  69.78  0.26  xi ;
1 1 1
-
- un coeficient de determinaţie R2=0.8893, care arată un model valid, bine ales,
care explică variaţia variabilei y, într-o proporţie de 88.93%;
Valorile teoretice corespunzătoare yˆ i , se află în coloana C, din Tabelul 1.3. În celula
1

C31, formula =A$42+A$43*A31 se copiază în blocul C32:C40.


A B C D E F
29 eşantion 1 eşantion 2
30 xi yi yˆ i xi yi yˆ i
1 2

31 50 60 83 50 92 84
32 50 83 83 150 105 107
33 100 107 96 200 120 119
34 100 110 96 250 125 130
35 200 120 121 300 136 142
36 200 125 121 350 153 153
37 300 152 147 400 156 165
38 300 155 147 400 170 165
39 350 135 160 450 170 176
40 500 204 198 500 202 188
42 69.7836 â 0
1
72.6035 â 0
2

43 0.2573 â11 0.2305 â1


2

44 0.9430 rxy1 0.9764 rxy2


Tabelul 1.3. Cele două eşantioane extrase din populaţie

Aceste rezultate se pot obţine şi folosind procedura Regression din meniul


Tools, opţiunea Data Analysis. Se realizează tabela de regresie pentru primul
eşantion, declarându-se variabila dependentă (Input Y Range), blocul B31:B40,

28
variabila independentă (Input X Range), blocul A31:A40, iar la Output Range, celula
care va fi din colţul stânga sus al tabelei de regresie, de exemplu K27. În Tabelul 1.4
este prezentată tabela de regresie obţinută în Excel pentru primul eşantion. În tabela
de regresie se regăsesc estimatorii şi indicatorii calculaţi mai sus.
SUMMARY OUTPUT eşantionul 1
Regression Statistics
Multiple R 0.943
R Square 0.8893
Adjusted R Square 0.8755
Standard Error 14.1781
Observations 10
ANOVA df SS MS F Signif. F
Regression 1 12924.74 12924.7 64.29573 4.29E-05
Residual 8 1608.161 201.02
Total 9 14532.9
Coeff. Standard t Stat P-value Lower 95% Upper
Error 95%
Intercept 69.784 8.2275 8.4817 2.86E-05 50.811 88.756
X Variable 1 0.2573 0.0321 8.0185 4.29E-05 0.183 0.331
Tabelul 1.4. Tabela de regresie pentru eşantionul 1

Pentru al doilea eşantion se determină cu funcţii sau din tabela de regresie,


următoarele rezultate:
- un coeficient de corelaţie liniară între variabilele x şi y, de rxy2  0.9764 , care

arată o legătură de intensitate mare şi se poate obţine cu funcţia


=CORREL(E31:E40,D31:D40) în D44;
estimatorii: aˆ 0  72.6 , în celula D42 şi aˆ1  0.23 , în celula D43, iar modelul
2 2
-

este yˆ i  72.6  0.23  xi ;


2

- un coeficient de determinaţie R2=0.9534, care arată că modelul liniar este bine


ales şi explică variaţia variabilei y, într-o proporţie de 95.34%, mai mare decât în
cazul primului eşantion;
Valorile teoretice corespunzătoare yˆ i se află în coloana F, din Tabelul 1.3 şi sunt
2

calculate prin copierea formulei =D$42+D$43*D31 din celula F31, în F32:F40.


Se realizează tabela de regresie pentru al doilea eşantion, la Input Y Range se
declară E31:E40, la Input X Range, D31:D40, iar la Output Range, de exemplu,
celula U27. Tabela de regresie pentru al doilea eşantion este prezentată în Tabelul
1.5.

29
SUMMARY OUTPUT eşantionul 2
Regression Statistics
Multiple R 0.9764
R Square 0.9534
Adjusted R 0.9475
Square
Standard Err 7.694
Observations 10
ANOVA df SS MS F Signif. F
Regression 1 9681.317 9681.317 163.5416 1.32E-06
Residual 8 473.583 59.19787
Total 9 10154.9
Coeff. Standard Err t Stat P-value Lower 95% Upper 95%
Intercept 72.6035 6.0113 12.0778 2.04E-06 58.7414 86.4656
X Variable 1 0.2305 0.0180 12.7883 1.32E-06 0.1889 0.2720
Tabelul 1.5. Tabela de regresie pentru eşantionul 2
Pe graficul din Figura 1.5 s-au reprezentat: dreapta de regresie a populaţiei
(în legendă, ymed. teoretic), declarând la X Values blocul B2:K2, iar la Y Values,
blocul B22:K22, valorile variabilei y pentru primul eşantion (în legendă, y1), la X
Values s-a declarat blocul variabilei x, adică A31:A40, iar pe axa Oy, la Y Values,
B31:B40 şi dreapta de regresie a primului eşantion, valorile teoretice yˆ i (în
1

legendă, yt1), la X Values declarându-se A31:A40, iar la Y Values, C31:C40.

Ajustarea profitului în funcţie de număr de angajaţi-eşantionul 1


230

210

190

170
profit (mii euro)

150

130

110

90

70

50
0 50 100 150 200 250 300 350 400 450 500 550
ymed.teoretic y1 yt1 număr angajaţi (persoane)

Figura 1.5. Valorile empirice din eşantionul 1 şi ajustarea lor

30
Graficul din Figura 1.6, conţine: dreapta de regresie a populaţiei (în legendă,
ymed. teoretic), valorile variabilei y pentru eşantionul al doilea (y2), la X Values s-a
declarat blocul variabilei x, adică D31:D40, iar la Y Values, E31:E40 şi dreapta de
regresie a eşantionului al doilea, yˆ i (yt2), blocul F31:F40.
2

Ajustarea profitului în funcţie de numărul de angajaţi - eşantionul 2


210

190

170
profit (mii euro)

150

130

110

90

70

50
0 50 100 150 200 250 300 350 400 450 500 550
ymed.teoretic y2 yt2 număr angajaţi (persoane)

Figura 1.6. Valorile empirice din eşantionul 2 şi ajustarea lor

Pe graficul din Figura 1.7 s-au reprezentat: dreapta de regresie a populaţiei


(în legendă, ymed. teoretic), valorile variabilelor y pentru cele două eşantioane (în
legendă, y1 şi y2), cele două drepte de regresie ale eşantioanelor (yt1 şi yt2).

Ajustarea liniară a profitului în funcţie de numărul de angajaţi


230

210

190

170
profit (mii euro)

150

130

110

90

70

50
0 50 100 150 200 250 300 350 400 450 500 550
ymed.teoretic y1 y2 yt1 yt2 număr angajaţi (persoane)

Figura 1.7. Valorile empirice din eşantioane şi ajustările lor

31
Legenda graficului arată aceeaşi marcatori pentru valorile empirice observate
ale profiturilor medii lunare şi marcatori diferiţi pentru fiecare din cele trei drepte de
regresie.
Comparând ecuaţiile de regresie ale celor două eşantioane:
yˆ i  69.78  0.26  xi , yˆ i  72.6  0.23  xi cu ecuaţia de regresie a populaţiei:
1 2

E ( y / xi )  66.86  0.25  xi , se observă că estimatorii â1 sunt apropiaţi de valoarea

a1 , din regresia populaţiei.


Dacă s-ar alege un eşantion de volum mai mare, n=20, de exemplu, cele două
eşantioane reunite într-unul singur, în Tabelul 1.6, atunci noul model obţinut este:
yˆ i  71.64  0.24  xi , cu un coeficient de corelaţie r = 0.9566 şi un coeficient de
3

determinaţie R2=0.9152.

xi yi yˆ i
3 300 136 144
350 135 156
50 60 84
350 153 156
50 83 84
50 92 84 400 156 168
100 107 96 400 170 168
100 110 96 450 170 180
150 105 108 500 204 192
200 120 120 500 202 192
200 125 120 50 60 84
200 120 120 71.643 â 0
3

250 125 132 0.239 â1


3

300 152 144


0.956 0.915
300 155 144
rxy3 R2
Tabelul 1.6. Eşantionul 3 şi ajustarea prin estimatorii săi

Dreapta de regresie obţinută pe baza datelor din eşantionul 3 şi prezentată în


Figura 1.8, diferă de celelalte două, anterior calculate; valorile teoretice sunt diferite,
3 3
pentru că şi valorile estimate ale coeficienţilor a 0 şi a1 sunt diferite.

32
Ajustarea profitului în funcţie de numărul de angajaţi - eşantionul 3
230

210

190

170
profit (mii euro)
150

130

110

90

70

50
0 50 100 150 200 250 300 350 400 450 500 550
ymed.teoretic y yt număr angajaţi (persoane)

Figura 1.8. Valorile empirice din eşantionul 3 şi ajustarea lor

Modelul calculat pe baza datelor din eşantionul al doilea are un coeficient de


determinaţie mai mare decât celelalte două eşantioane. Acesta poate fi o variantă mai
bună, pentru estimarea parametrilor ecuaţiei de regresie a populaţiei, decât celelalte
două modele. Se poate afirma însă, că fiecare din cele trei modele prezentate, este
bun, datorită valorii mari a coeficientului de determinaţie, R2.

9. Exerciţiu - Calculul estimatorilor modelului de regresie simplă

Referitor la funcţia dintre consum şi venit, Keynes spune: “Legea


psihologică fundamentală…este că oamenii sunt dispuşi de regulă şi în medie, să îşi
crească consumul pe măsură ce le creşte venitul, dar nu tot cu atât cu cât creşte
venitul”; aceasta este înclinaţia marginală spre consum, care este mai mare ca 0 şi
mai mică decât 1. Deşi Keynes nu specifică forma funcţională exactă a relaţiei dintre
consum şi venit, pentru simplitate, se poate presupune că este liniară.
Pentru exemplul numeric, va fi considerat un eşantion de 10 familii, dintr-o
populaţia ipotetică, pentru care se cunosc cheltuielile de consum şi veniturile lunare,
exprimate în € şi prezentat în Tabelul 1.7.

33
Se cer estimaţiile coeficienţilor â 0 şi â1 , dispersia reziduurilor, varianţele şi
erorile standard ale estimatorilor, covarianţa lor, coeficientul de corelaţie şi
coeficientul de determinaţie.
Se recomandă utilizarea formulelor prezentate mai sus şi apoi pentru
verificare, utilizarea tabelei de regresie din Tools / Data Analysis / Regression.

Cheltuieli de Venitul xi ŷ i
consum yi
70 80 65.18
65 100 75.36
90 120 85.55
95 140 95.73
110 160 105.91
115 180 116.09
120 200 126.27
140 220 136.45
155 240 146.64
150 260 156.82
Tabelul 1.7. Analiza cheltuielilor în funcţie de venituri

Valorile teoretice obţinute, după estimarea coeficienţilor â0 şi â1 , cu

modelul: yˆ i  24.45  0.51xi sunt prezentate în Tabelul 1.7.

10. Consecinţe ale ipotezelor: construirea testelor

Pe baza ipotezelor modelului liniar de regresie se pot construi:


- teste de verificare a semnificaţiei estimatorului varianţei erorilor şi intervalul de
încredere al estimatorului varianţei erorilor, ca fiind consecinţe ale ipotezei de
normalitate a erorilor;
- teste de verificare a semnificaţiei estimatorilor â 0 şi â1 ai parametrilor a 0 şi a1
din ecuaţia de regresie a populaţiei, precum şi intervalul lor de încredere, estimat
cu o anumită probabilitate;
- testul Fisher de verificare a semnificaţiei globale a regresiei.

34
10.1. Exerciţiu - Rolul termenului aleator

Termenul t din modelul regresiei simple: yt  a0  a1 xt   t (t=1,n - dacă

modelul este specificat în serie temporală) sintetizează ansamblul informaţiilor


neexplicate de model, multitudinea de alţi factori, în afara lui x, care sunt susceptibili
de a explica pe y. Acest termen t, măsoară diferenţa între valorile reale observate ale
lui y, şi valorile care ar fi fost observate, dacă relaţia specificată ar fi fost riguros
exactă. Termenul aleator regrupează trei feluri de erori:
- o eroare de specificare, care se datorează faptului că o singură variabilă explicativă
nu este suficientă pentru a caracteriza fenomenul de explicat, în ansamblul său;
- o eroare de măsurare - datele nu reprezintă exact fenomenul;
- o eroare de fluctuaţie a eşantionării - de la un eşantion la altul, observările şi
estimatorii sunt uşor diferiţi.

Exerciţiul foloseşte datele din Tabelul 1.8, care reprezintă venitul


mediu lunar/locuitor, exprimat în dolari, pentru o ţară, în perioada 1993-2002.

Anul Venit
1993 8000
1994 9000
1995 9500
1996 9500
1997 9800
1998 11000
1999 12000
2000 13000
2001 15000
2002 16000
Tabelul 1.8. Evoluţia venitului mediu lunar/locuitor ($)

Ştiind că înclinaţia marginală spre consum este 0.8 şi consumul incompresibil


(sub care nu se poate asigura un trai normal) este 1.000, se cere:
a) Să se calculeze consumul teoretic în perioada 1993 - 2002.
b) Considerând că erorile de observare urmează o lege normală de medie 0 şi
varianţă 20000, să se genereze un consum aleator.
Consumul teoretic se calculează prin formula: yt  1000  0.8xt , unde xt este
venitul/locuitor, iar yt este consumul/locuitor. Generarea variabilei aleatoare se

35
realizează cu un generator de numere aleatoare, t N(0; 20000). Media şi varianţa
acestor erori generate, sunt uşor diferite de valorile teoretice: 19 faţă de 0, respectiv,
10056, faţă de 20000. Aceste diferenţe reprezintă o consecinţă a extragerii unui
eşantion de volum mic (zece observări).
Consumul observat se calculează adăugând la consumul teoretic, obţinut cu
modelul de regresie a populaţiei: yt=1000+0.8+t., erorile de observare, generate.
Acesta este un demers invers, pentru a pune în evidenţă rolul erorilor şi distincţia
între ecuaţia de regresie a populaţiei şi cea a eşantionului. În realitate valorile
observate conţin deja erorile.
Valorile observate sunt empirice, reale, şi nu se pot obţine invers prin
adăgarea erorilor (necunoscute, dealtfel) la valorile teoretice.
Generarea de numere aleatoare se poate realiza, de exemplu, cu o comandă:
=(RAND()*100+RAND()*100)*(-1)^(ROUND(RAND()*10,0).
Această formulă poate fi diferită, de cea prezentată (se poate înmulţi, de
exemplu, rezultatul generării prin funcţia RAND(..), care este un număr subunitar
pozitiv, cu 200, 500 sau 1000), care conţine înmulţirea cu (-1) ridicat la o putere
obţinută ca partea întreagă a unui număr până la 10, pentru a genera şi erori negative.
Formula odată scrisă pentru primul an 1993, se copiază şi pentru restul anilor. Se vor
obţine rezultate diferite ale erorilor la fiecare nouă operaţie pe spreadsheet. De aceea,
se recomandă ca atunci când s-au generat nişte erori, care să îndeplinească condiţiile
pentru medie şi dispersie, aceste valori să se transforme cu Values, prin copiere în
acelaşi bloc de celule, cu Paste Special.
Rezultatele obţinute de cei care lucrează acest exerciţiu nu pot fi identice cu
cele din Tabelul 1.9 (cu excepţia cazului când, se preferă să se lucreze cu erorile
generate aici).
Calculele pentru întrebările a) şi b) sunt prezentate în Tabelul 1.9.
Tabela de regresie y=f(x), unde valorile xt reprezintă veniturile observate, iar
yt, consumurile observate, furnizează estimaţiile coeficienţilor: aˆ 0  971.56 şi

aˆ1  0.804 , un coeficient de corelaţie de 0.99893, care indică o intensitate puternică


între consum şi venit, precum şi un coeficient de determinaţie de 0.9979, foarte
apropiat de 1, care arată ca modelul liniar al venitului este foarte bun pentru
explicarea variaţiei consumului/locuitor.

36
(date convenţionale)
Anul Venitul xt ŷ t populaţie Erori et yt observat ŷ t regresie
1993 8000 7400 -103 7297 7405
1994 9000 8200 143 8343 8210
1995 9500 8600 -145 8455 8612
1996 9500 8600 72 8672 8612
1997 9800 8840 65 8905 8853
1998 11000 9800 131 9931 9818
1999 12000 10600 -91 10509 10622
2000 13000 11400 58 11458 11427
2001 15000 13000 64 13064 13035
2002 16000 13800 -2 13798 13839
media 19
dispersia 10056
Tabelul 1.9. Calculele în ordine inversă, prin generarea erorilor

Graficul din Figura 1.9 este de tip Scatter (X,Y) şi prezintă corelaţia dintre
venitul/locuitor şi consumul/locuitor. Consumul observat este sub forma unor puncte
aflate de o parte şi de alta a dreptei de regresie: yˆ t  971.56  0.804 xt , după cum

erorile au fost pozitive sau negative. Se observă că estimatorii â0 şi â1 , au valori

apropiate de parametri modelului de regresie a populaţiei a 0 şi a1 .

Corelaţia dintre venitul şi consumul pe locuitor


15000

14000
13000
consumul/locuitor

12000
11000

10000

9000
8000
7000
7000 9000 11000 13000 15000 17000
y y teoretic venitul/locuitor

Figura 1.9. Corelaţia dintre venitul şi consumul mediu lunar, pe locuitor

37
Evolutia in timp a consumului si venitului pe locuitor
18000

16000

14000
$/locuitor/an

12000
y
10000 x
yt-regr
8000

6000
1993 1994 1995 1996 1997 1998 1999 2000 2001 2002
anii

Figura 1.10. Evoluţia consumului şi venitului mediu lunar, pe locuitor în perioada


1993-2002

Graficul din Figura 1.10, de tip Line, fiind o cronogramă, prezintă evoluţia în
timp a consumului teoretic calculat cu ecuaţia de regresie a eşantionului, a
consumului observat şi a venitului care fiind cam de acelaşi ordin de mărime şi
aceeaşi unitate de măsură se pot reprezenta împreună pe acelaşi grafic. Evoluţia
asemănătoare, în timp, a celor două variabile: venitul şi consumul, arată existenţa
unei legături puternice, între ele.
În exerciţiul prezentat, valorile adevărate a0 şi a1 , sunt perfect cunoscute:

a0  1000 , şi a1  0.8 . În realitate, aceste valori nu se cunosc; ci numai consumurile


şi veniturile medii, observate pe locuitor în perioada celor 10 ani, adică coloanele: xt
şi yt.
Estimatorii coeficienţilor â0 şi â1 , sunt variabilele aleatoare, care urmează

aceeaşi lege de probabilitate ca şi t, pentru că sunt funcţie de această variabilă


aleatoare. Mediile şi abaterile standard ale acestor estimatori permit construirea
testelor de validitate a modelului.

38
10.2. Testul de semnificaţie al estimatorilor

Ipoteza de normalitate a erorilor  t  N (0; 2 ) permite definirea legii de

probabilitate a estimatorilor. Estimatorul varianţei erorilor  2 , notat: ˆ 2 este egal

e 2
i
ˆ 2
cu: ˆ 2  i
. Estimaţia varianţei estimatorului lui a1 este: ˆ a2ˆ1  .
n2  (x
i
i  x)2

ˆ 2
Ipoteza de normalitate a erorilor implică: (n  2) urmează o lege  2 cu n-2 grade
 2

aˆ1  a1 aˆ 0  a 0
de libertate. şi urmează o lege normală centrată redusă N(0,1).
 aˆ 1
 aˆ 0

ˆ 2 ˆ a2ˆ
(n  2)  ( n  2) urmează o lege  2 cu n-2 grade de libertate.
 2  a2ˆ
aˆ 0  a 0
Rezultă că: urmează o lege Student cu n-2 grade de libertate;
ˆ aˆ0

aˆ1  a1
urmează o lege Student cu n-2 grade de libertate.
ˆ aˆ1

Testul de semnificaţie al estimatorilor şi intervalele de încredere ale acestora


apar ca fiind consecinţe ale ipotezei de normalitate a erorilor.

Utilizând datele din exerciţiul prezentat, se cere:


a) Înclinaţia marginală spre consum este semnificativ diferită de 0?
b) Care este intervalul de încredere, la un nivel de semnificaţie de 95%, pentru
înclinaţia marginală spre consum?
În cazul unui răspuns negativ la prima întrebare - coeficientul a1 nu este
semnificativ diferit de 0, variabila explicativă venitul anual/locuitor, nu va fi
considerată ca fiind explicativă pentru consum, pentru că are un coeficient de
ponderare nul. Problema se rezolvă pornind de la teoria testelor, folosind următoarele
ipoteze:
- ipoteza nulă H0: a1  0
- ipoteza alternativă H1: a1  0

39
Dacă se respinge ipoteza nulă H0, la un prag  fixat, atunci înclinaţia marginală spre
consum este considerată, ca fiind semnificativ diferită de 0. Pragul de semnificaţie
cel mai des utilizat este =0.05, adică un risc de a respinge H0, în mod neîntemeiat,
de 5%.
aˆ1  a1 aˆ  0 aˆ1
Sub ipoteza H0, relaţia devine 1   t aˆ1 , care urmează o lege
ˆ aˆ1 ˆ aˆ1 ˆ aˆ1

Student cu n-2 grade de libertate şi t â1 se numeşte raţie Student.

Distribuţia de eşantionaj a estimatorului â1 este, cea din Figura 1.11:

H0 cu probabilitatea P=1-

H1 H1

/2 /2

I
 / 20.025
  t n2 grd.lib. a1  t n/22grd
0.025
.lib. 

Figura 1.11. Distribuţia de eşantionare a estimatorului â1

Regula de decizie pentru un prag =0.05 este următoarea: dacă t aˆ1  t n0.025
2 se

respinge H0; se acceptă H1 (a1  0) . Coeficientul este semnificativ diferit de 0,


variabila explicativă contribuie la explicarea variaţiei lui y.
Dacă t aˆ1  t n0.025
2 se acceptă H0 (a1  0) , se respinge H1. Coeficientul nu este

semnificativ diferit de 0, variabila explicativă nu contribuie la explicarea variaţiei lui


y.
Cu modelul yt  aˆ 0  aˆ1 xt  et se pot estima valorile teoretice ŷ t , prin

ecuaţia de regresie: yˆ t  aˆ 0  aˆ1 xt , concret: yˆ t  971.56  0.804 xt .

Se pot calcula reziduurile et  yt  yˆ t , dispersia lor:

e 2
i (y i  yˆ i ) 2
ˆ 2  i
 i
.
n2 n2

40
Aplicând formulele, se pot obţine: estimaţia varianţei estimatorului â1 :

ˆ 2 aˆ1
V (aˆ1 )  , abaterea sa: ˆ aˆ1  V (aˆ1 ) şi raţia Student t aˆ1  .
 (x
i
i  x)2 ˆ aˆ1

Dispersia reziduurilor se poate obţine şi prin ridicarea la puterea a 2-a a


valorii Standard Error din tabela de regresie, care reprezintă abaterea medie pătratică
a valorilor yt faţă de valorile sale teoretice ŷ t . Raţia Student este calculată şi în tabela
de regresie, care se poate vedea în Tabelul 1.10, partea referitoare la coeficienţi. Se
compară valoarea calculată a raţiei Student cu cea teoretică, din tabelele statistice ale
funcţiei Student, pentru n-2 grade de libertate şi un prag de semnificaţie /2.
Coeff. Standard t Stat P-value Lower Upper
Error 95% 95%
Intercept 971.556 152.54 6.37 0.000216 619.79 1323.32
X Variable 1 0.804 0.013 60.95 5.83E-12 0.774 0.835
Tabelul 1.10. Estimatorii regresiei liniare simple şi intervalele lor de încredere
Dacă se utilizează tabela de regresie nu mai este nevoie de compararea
amintită, pentru ca Excel-ul furnizează la P-value, valoarea pragului de semnificaţie
, care aici, este foarte mică, aproape 0, deci probabilitatea P=1-, de garantare a
rezultatelor este de 100%.
aˆ1 0.8042
t aˆ1    60.95  t 80.025  2.306 .
ˆ aˆ1 0.0132

Se respinge ipoteza nulă, estimatorul coeficientului a1 este semnificativ diferit de 0,


se acceptă ipoteza H1: a1  0 .
Şi estimatorul â 0 este semnificativ diferit de 0. Valoarea raţiei Student este
6.369 > 2.306, fapt indicat şi de P-value care este de 0.0216%.

10.3. Intervalul de încredere al estimatorilor

Intervalul de încredere al parametrului a1 este: IC a1  aˆ1  ˆ aˆ1  t n/22 .

aˆ1  a1 aˆ  a
Fie  t n/22 , unde 1 1 urmează o lege Student cu n-2 grade de libertate.
ˆ aˆ1 ˆ aˆ1

Pentru un nivel de semnificaţie 0.95: IC a1  0.804  0.0132  2.306 .


Intervalul de încredere este [0.77; 0.83]. În acest exerciţiu, se ştie ca valoarea lui a1
este de 0.8, deci este cuprinsă în interval. Există un risc de 5% ca adevăratul

41
coeficient să se găsească în exteriorul acestui interval. Se constată că acest interval
nu cuprinde valoarea 0, ceea ce este coerent cu rezultatul diferenţei semnificative faţă
de 0 a coeficientului.
Intervalul de încredere pentru estimatorul â 0 este de [619.8 , 1323.3]. În acest

exerciţiu, valoarea parametrului a 0 este 1000, şi este cuprinsă în intervalul de


încredere.

10.4. Tabelul de analiză a varianţei – testul Fisher

Tabelul de analiză a varianţei din tabela de regresie este prezentat în


Tabelul 1.11. Testul empiric F * de analiză a varianţei este:
SCE / 1 41494953.7 / 1
F*    3715.068 , unde
SCR /( n  2) 11169.367 / 8

F * urmează o lege Fisher cu 1 şi 8 grade de libertate. Pentru =5%, valoarea


teoretică este F10si.058  5.32 .
ANOVA df SS MS F Significance F
Regression 1 41494954 41494953.7 3715.068 5.83E-12
Residual 8 89354.94 11169.3673
Total 9 41584309
Tabelul 1.11. tabelul ANOVA pentru regresia liniară simplă

Testul Fisher în funcţie de coeficientul de determinaţie, R2, este:


R2 0.9978 0.9978
F*     3715 .
(1  R ) /( n  2) (1  0.9978) /(10  2) 0.0002686
2

Cum F *  F10.8.05  5.32 , se acceptă ipoteza H1, varianţa explicată diferă semnificativ

de cea a reziduurilor, deci coeficientul variabilei explicative, â1 , este semnificativ,


regresia este global semnificativă.
La regresia simplă: F   (t aˆ1 ) 2  (60.95135) 2  3715.068 , pentru că semnificaţia

globală a regresiei se rezumă la verificarea semnificaţiei coeficientului â1 .

42
11. Intervalul de încredere al previziunii cu modelul regresiei simple

După estimarea coeficienţilor modelului de regresie simplă, se poate trece la


calculul unei previziuni pentru un orizont de previziune h.
Pentru perioada t=1,2,…,n, fie modelul estimat yt  aˆ 0  aˆ1 xt  et . Dacă valoarea
variabilei explicative xt este cunoscută la momentul n+1(xn+1), previziunea este dată
de: yˆ n1  aˆ 0  aˆ1 xn1 .

Eroarea de previziune este: en1  y n1  yˆ n1 şi se poate scrie:

en1  (a0  a1 xn1   n1 )  (aˆ 0  aˆ1 xn1 )  (a0  aˆ 0 )  (a1  aˆ1 ) xn1   n1 .

Făcând apel la ipotezele modelului E (en1 )  0 şi E (enh )  0 . O previziune


nedeplasată se obţine prin aplicarea directă a modelului de regresie estimat. În
practică, cunoaşterea unei previziuni este puţin utilă, dacă nu se ştie gradul de
încredere care să i se acorde.
Se calculează varianţa erorii de previziune care permite determinarea unui
interval de încredere pentru previziune.
Abaterea medie pătratică a erorii de previziune este:

1 ( x n 1  x ) 2
ˆyˆ n 1  ˆ   n 1 .
 ( xt  x )
n 2

t 1

În această formulă, varianţa erorii de previziune este funcţie de abaterea


medie pătratică între variabila exogenă prevăzută şi media aceleiaşi variabile: cu cât
acestă valoare prevăzută se abate mai mult de la media sa, cu atât riscul erorii este
mai important. Totodată se observă că varianţa erorii de previziune este o funcţie
inversă a variabilităţii seriei explicative. Ipoteza de normalitate a erorilor, t, permite
determinarea intervalului cu o încredere P=1-:
yˆ n 1  y n 1 aˆ 0  aˆ1 x n 1  y n 1
Fie raportul t     t n 2 (care
1 ( x n 1  x ) 2
1 ( x n 1  x ) 2
ˆ   n 1 ˆ   n 1
 ( xt  x )  ( xt  x )
n 2 n 2

t 1 t 1

urmează o lege Student cu n-2 grade de libertate). Rezultă intervalul de încredere IC


al variabilei y la n+1:

43
1 ( x n 1  x ) 2
ICy n 1  yˆ n 1  t n/22  ˆ   1
n  ( xt  x ) 2
t

Caz particular:
Când se utilizează modelul regresiei simple pentru o serie cronologică, se calculează
dreapta de tendinţă după modelul specificat astfel:
Tt  aˆ 0  aˆ1t  et pentru t=1,2,…,n.
Pentru a calcula previziunea pentru orizontul h, se înlocuieşte valoarea variabilei t cu
n+h pentru extrapolare: Tt  aˆ 0  aˆ1 (n  h)  et , iar intervalul de încredere se găseşte

pe două braţe de hiperbolă: (n  h  t ) 2 , ilustrate în graficul din Figura 1.12:

Figura 1.12. Intervalul de încredere pentru previziunea prin extrapolarea tendinţei

11.1. Exerciţiu - Previziuni ale variabilei endogene

Tabelul 1.12 conţine cheltuielile de consum medii lunare/locuitor, yt şi


venitul mediu lunar/locuitor, xt, exprimat în $, pentru ţara A, în perioada 1993-2002.
(date convenţionale)
Anul Venitul xt Consumul yt
1993 8000 7410
1994 9000 8267
1995 9500 8664
1996 9500 8645
1997 9800 8921
1998 11000 9766
1999 12000 10645
2000 13000 11425
2001 15000 12963
2002 16000 13714
media 11280
Tabelul 1.12. Venitul şi consumul mediu lunar/locuitor

44
Pentru aceste date, modelul consum - venit estimat este:
yt  1186.45  0.785xt  et
(20.97) (160.4) (.) = raţia t Student; n = 10.
1) Să se calculeze coeficientul de determinaţie şi să se efectueze testul Fisher, prin
care se determină dacă regresia este global semnificativă.
2) Care este consecinţa asupra consumului a unei creşteri de 8% a venitului?
3) În 2003 şi 2004 se prevăd venituri de 16800$ şi 17000$ venit/locuitor. Să se
determine previziunea consumului pentru cei doi ani, şi intervalele de încredere cu o
probabilitate de 95%.

Soluţie:

1) Pentru a calcula coeficientul de determinaţie se utilizează relaţiile testului Fisher


empiric, prezentate în paragraful 1.7. Se utilizează formulele din paragraful 1.5, în
Tabelul 1.13.
Se calculează dispersia reziduurilor, apoi abaterea reziduurilor, care se
regăseşte în prima parte a tabelei de regresie, la Standard Error. Dispersia
reziduurilor se utilizează în formulele de calcul ale varianţelor estimatorilor.
Abaterile estimatorilor, calculate cu funcţia =SQRT(), se regăsesc în partea a treia a
tabelei de regresie; raţia Student pentru estimatorul â1 se calculează raportând
estimatorul la abaterea sa şi se află în coloana t-Stat.
F *  ( t â1 )2  ( 160.4 )2  25730.77 , unde t * , este testul Student empiric al
*

estimatorului â1 .
În Tabelul 1.13 s-au calculat valorile: SSR (Sum Squares of Residues)
n n n
SSR   ( yt  yˆ t ) 2   et2 ; SSE (Sum Squares Explained) SSE   ( yˆ t  y ) 2 ;
t 1 t 1 t 1

n
SST (Sum Squares Total) SST   ( yt  y ) 2 .
t 1

Se verifică relaţia dintre aceste sume: SST  SSR  SSE . Testul Fisher se poate
calcula ca raport între două dispersii corectate cu gradele de libertate, întotdeauna cea
SSE / 1
explicată raportată la cea reziduală: F  . Valorile sumelor se regăsesc
SSR /( n  2)
în tabelul ANOVA, unde valoarea foarte mică a pragului de semnificaţie
Significance F arată o probabilitate de 100% de garantare a semnificaţiei globale a

45
R2
regresiei liniare. Acelaşi rezultat se obţine şi cu formula: F *  ,
(1  R 2 ) /( n  2)

R 2  r 2  0.99967 . Se calculează şi F *  25730.77  F10si.05


.8 grd.lib.  5.35 , arată că

regresia şi implicit variabila explicativă (singura) este semnificativă. Se observă că


valoarea Fisher calculată după oricare din formule, este aceeaşi şi este egală cu cea
furnizată de tabela de regresie. De asemenea se mai poate verifica valoarea
SSE SSR
coeficientului de determinaţie: R 2  sau R 2  1   1  N 2 , unde N2 este
SST SST
coeficientul de nedeterminaţie.
Anul Venitul xt Consum yt yteoretic ( xt  x )2 ( y t  yˆ t ) 2 ( yˆ t  y ) 2 ( yt  y) 2
1993 8000 7410 7467 10758400 3247.1 6630711.4 6927424
1994 9000 8267 8252 5198400 223.5 3203923.4 3150625
1995 9500 8664 8645 3168400 377.0 1952776.1 1898884
1996 9500 8645 8645 3168400 0.2 1952776.1 1951609
1997 9800 8921 8880 2190400 1672.6 1350006.5 1256641
1998 11000 9766 9822 78400 3156.4 48320.175 76176
1999 12000 10645 10607 518400 1425.2 319504.83 363609
2000 13000 11425 11392 2958400 1068.4 1823347 1912689
2001 15000 12963 12962 13838400 0.3 8529004 8532241
2002 16000 13714 13748 22278400 1123.1 13730819 13483584
2003 16800 14376
2004 17000 14533
medii 11280 10042 SSR SSE SST
sume până în până în 64156000 12293.8 39541188 39553482
2002 2002
disp. rezid 1536.73 SSR+SSE 39553482
SUMMARY OUTPUT abatere.rez. 39.20
Regression Statistics var(aˆ0 ) 3201.41
Multiple R 0.9998 abat. (aˆ0 ) 56.58
R Square 0.9997 var(aˆ1 ) 2.39E-05
Adj. R Sq. 0.9997 abat. (aˆ1 ) 0.00489
Std. Err 39.20 Raţiat (aˆ 1 ) 160.408
Obs. 10 Fisher 25730.775
ANOVA df SS MS F Signific.F
Regression 1 39541188 39541188 25730.775 2.5522E-15
Residual 8 12293.82 1536.727
Total 9 39553482
Coeff. Std. Error t Stat P-value Lower 95% Upper95%
Intercept 1186.45 56.581 20.969 0.000 1055.978 1316.931
XVariable1 0.785 0.00489 160.408 0.000 0.774 0.796
Tabelul 1.13. Calculele şi tabela de regresie

2) Creşterea cu 8% a venitului duce la o creştere mai mică a consumului, şi anume de


6.28%.
yt  aˆ1xt ; yt  0.785xt  0.785  0.08  0.0628

46
3) Cunoscându-se valorile veniturilor, previziunile cheltuielilor de consum în anii
2003 şi 2004, se calculează ca previziuni punctuale, utilizând modelul estimat:
yˆ 2003  1186.45  0.787 x2003  1186.45  0.785  16800  14376
yˆ 2004  1186.45  0.787 x2004  1186.45  0.785  17000  14533
Se pot calcula intervalele de încredere, pentru previziunile celor doi ani:

1 ( x 2003  x ) 2
ICy 2003  yˆ 2003  t n/22  ˆ   1 ;
n  ( xt  x ) 2
t

1 ( x 2004  x ) 2
ICy 2004  yˆ 2004  t n/22  ˆ   1
n  ( xt  x ) 2
t

Se cunosc informaţiile:
n=10;    39.2 ,  (x
t
t  x ) 2  64156000 , x  11280 , t n/22  2.306 .

Pentru anul 2003: x2003  16800 ; ICy 2003  14376  2.306  49.2 ;
IC2003 = [14262 , 14489]. Previziunea are o şansă de 95%, să se afle în interiorul
intervalului.
Pentru 2004: x2003  17000 ; ICy 2004  14533  2.306  49.74 ;
IC2004 = [14418 , 14647], cu o probabilitate de 95%.

12. Exerciţiu - Compararea coeficienţilor de regresie


(Problemă preluată şi adaptată din „Econometrie”, Regis Bourbonais, Ed. Dunod, Paris,
1993)

Un economist specialist în managementul resurselor umane se interesează


de legătura dintre salariu şi durata studiilor. El dispune de un eşantion de 40 de
bărbaţi şi 25 de femei, având aceeaşi vârstă şi cărora le înregistrează salariul pe un an
(yi) exprimat în milioane lei şi numărul de studii (xi), exprimat în ani de studiu.
Estimaţiile sunt următoarele:
Pentru bărbaţi:
yi  112.80  1.8xi  ei , i=1,2,…,40 ni=40, R2=0.42
(9.3) (5.2)
Pentru femei:
yi  87.20  0.7 xi  ei , i=1,2,…,25, n2=25, R2=0.22
(12.8) (2.5)
(∙) raţia Student

47
1) Este semnificativă durata studiilor asupra salariului?
2) Ştiind că salariul mediu al bărbaţilor este 6.9 milioane lei şi cel al femeilor este 5.8
milioane lei, să se stabilească dacă există diferenţă semnificativă între salariul
bărbaţilor şi cel al femeilor?

Soluţie:

1) Se analizează fie raţiile Student, fie coeficientul de determinaţie.

Raţia Student pentru variabila “anii de studiu” este:


 0.05
- pentru bărbaţi: t B*  5.2  t 38  238 grd.lib.  1.96
0.05
, t 40
 0.05
- pentru femei: t F*  2.5  t 23  2 23 grd.lib.  2.06
0.05
, t 25

Cei doi coeficienţi sunt semnificativi diferiţi de 0. Se observă că pentru


femei, coeficientul de ponderare a anilor de studii este mai mic şi mai puţin
semnificativ ca cel pentru bărbaţi. Testul Fisher conduce la aceleaşi rezultate.

2) Problema se rezumă la un test de diferenţă a mediilor variabilelor aleatoare


normale independente şi a varianţelor inegale. În acest caz se testează diferenţa dintre
coeficienţii â1 ai celor două regresii (valorile1.8, respectiv 0.7). Cunoscând raţiile
estimatoru l
Student, t   şi estimatorii se pot obţine abaterile lor tip (abaterile
abaterea std.
standard):  B  0.346 şi  F  0.28 .
Ipoteza nulă şi cea alternativă ale unui test bilateral, sunt:
H 0 : aB  aF ; H 0 : d  aB  aF  0

H1 : a B  a F ; H1 : d  a B  a F  0
(aˆ B  aˆ F )  (a B  a F )
Raportul: urmează o lege Student cu n1  n2  3 grade de
ˆ aˆ B aˆ F

libertate.
Sub ipoteza nulă H 0 : a B  a F şi cu ˆ d2ˆ  ˆ a2ˆ F  ˆ a2ˆ B , raportul se scrie:

dˆ (1.8  0.7)
t*    2.49  t 62
0.05
 1.96 .
 dˆ
ˆ 0.34  0.28
2 2

Se respinge ipoteza nulă. Există o diferenţă semnificativă între coeficienţii de


regresie: durata studiilor la femei are un impact mai mic asupra salariului, decât în
cazul bărbaţilor.

48
Rezumat

Aceast capitol prezintă modelul regresiei multiple, ipoteze de lucru, estimarea


coeficienţilor modelului, intervalele lor de încredere, testarea validităţii lor şi a
regresiei, previziunea cu modelul regresiei simple.
Exemplele oferă explicaţii pentru înţelegerea obiectivelor capitolului.

Termeni importanţi
Model de regresie simplă, estimatori, parametri, proprietările estimatorilor,
reziduuri, erori, ipotezele modelului de regresie, testul F, ANOVA, testul t, tabela de
regresie

Întrebări recapitulative
1. Enumeraţi ipotezele modelului de regresie
2. Stabiliţi diferenţa între modelul de regresie al populaţiei şi modelul de
regresie al eşantioanelor
3. Ce este liniaritatea?
4. Care sunt proprietăţile estimatoruilor modelului de regresie?
5. Reprezentaţi tabelul de analiză a varianţei ANOVA si testul F pentru regresia
simplă.
6. La ce se referă testul t Student?
7. Cum apreciaţi validitatea unui model?

Teme de casă
Parcurgeţi exemplele din curs utilizând calculatorul; realizaţi graficele şi tabela
de regresie.

49

S-ar putea să vă placă și