Documente Academic
Documente Profesional
Documente Cultură
1. Tabela de regresie
În realitate, nu se pot observa colectivităţi generale, ci numai eşantioane extrase din acestea,
repectând principii probabilistice, pentru a asigura condiţia de reprezentativitate.
Scopul analizei de regresie este descrierea modelului prin estimarea parametrilor, pe baza
datelor de sondaj. Această metodă calculează valorile estimatorilor, astfel încât suma pătratelor
abaterilor valorilor empirice (observate) ale variabilei dependente y de la valorile ei teoretice (calculate
după funcţia liniară obţinută), adică suma pătratelor reziduurilor să fie minimă:
n n
min yi yˆ i 2 min ei2 .
i 1 i 1
Analiza de regresie se poate obţine automat prin tabela de regresie, în Microsoft Excel. După
efectuarea declaraţiilor blocurilor care conţine valorile variabilei explicate y şi variabila (sau
variabilele, în cazul regresiei multiple) independentă x, precum şi a locului pe spreadsheet unde se va
obţine tabela şi eventual a unor alte opţiuni privind probabilitatea de garantare a rezultatelor, pentru
intervalele de încredere ale estimatorilor sau obţinerea automată a valorilor teoretice, ale erorilor lor
faţă de valorile y observate, ale graficelor, etc., se confirmă declaraţiile prin OK şi tabela apare
instantaneu. Acest criteriu al minimizării patratelor abaterilor face ca metoda ce stă la baza obţinerii
estimatorilor, să se numească metoda celor mai mici pătrate (M.C.M.M.P.). Tabela de regresie cuprinde
în sumarul său, SUMMARY OUTPUT, trei părţi: Regression Statistics, tabelul ANOVA şi informaţiile
despre estimatorii coeficienţilor modelului liniar. Regression Statistics conţine informaţii cu caracter
general despre variabilele implicate în analiza de regresie:
- coeficientul de corelaţie multiplă Multiple R, care la regresia simplă este coeficientul de corelaţie
liniară simplă, r;
- coeficientul de determinaţie R2, numit R Square arată validitatea modelului. Valoarea sa este
cuprinsă în intervalul [0, 1] şi cu cât e mai apropiată de 1, cu atât modelul este bine ales, adică
explică într-o proporţie mai mare (deseori, în %) variaţia variabilei dependente y.
n n
yˆi y y yˆ
2 2
i i
R2 i 1
n
1 i 1
n , unde
y y
i 1
i
2
y y
i 1
i
2
y i yˆ i
2
e 2
i
, unde
ˆ i 1
i 1
ˆ 2
n k 1 n k 1
ˆ este estimatorul pentru dispersia reziduurilor, iar n–k–1 este numărul gradelor de libertate, iar k
2
yˆ y ,
2
- atribuită şi explicată de factorii de regresie, Regression: i
i 1
n
- atribuită factorilor reziduali, neînregistraţi în model, Residual: y
i 1
i yˆ i .
2
SSR = ( y t yˆ t ) et
2 2
reziduuri n-2 SCR/(n-2)
t t
SST = ( y t y )
2
total n-1
t
- Intercept - estimatorul termenului constant, â0, care poate fi zero dacă s-a optat pentru
Constant is Zero şi
- estimatorii coeficienţilor variabilelor explicative: â1, ..., ân la X Variable 1, X Variable
2, ... în ordinea declarării variabilelor explicative;
- Standard Error, ˆ âi abaterile standard ale estimatorilor âi ; arată cu cât variază în medie, în plus sau
în minus valorile estimate ale coeficienţilor faţă de parametri pe care îi estimează. Eroarea standard de
estimaţie are caracter de medie a abaterilor valorilor estimate ale coeficientului faţă de parametrul
corespondent din populaţie.
- valorile Student, t*, pentru fiecare estimator, pentru verificarea semnificaţiei acestuia faţă de 0;
- P-value, corespunzătoare pragului de semnificaţie α, începând de la care valoarea estimatorului este
semnificativ diferită de zero,
- limitele intervalului de încredere ale estimatorilor: inferioară Lower 95% şi superioară Upper 95%,
cu o probabilitate de 95%, implicit, iar la cerere se pot solicita şi alte valori ale probabilităţii: 99%,
90%, etc.
Suma valorilor observate este egală cu suma valorilor teoretice:
n n
y yˆ
i 1
i
i 1
i ,
pentru că prin ajustare se realizează o redistribuire a influenţei factorului, variabila explicativă, x.
Pentru a ilustra analiza de regresie a populaţiei, se consideră un caz ipotetic al unei ţări a cărei
economie este formată din 120 de societăţi comerciale, despre care se cunosc informaţii referitoare la
numărul mediu lunar de salariaţi şi profitul mediu lunar, exprimat în mii euro (€), la sfârşitul anului.
Societăţile comerciale sunt grupate în zece clase după numărul mediu de salariaţi şi în fiecare
grupă este observat un număr variabil de societăţi.
Datele observate sunt prezentate în Tabelul 1.2 (liniile sunt numerotate, iar coloanele numite cu
literele alfabetului, ca în Microsoft Excel).
A B C D E F G H I J K
1 Grupe după numărul mediu de angajaţi (x)
2 50 100 150 200 250 300 350 400 450 500
3
4 Profitul 60 74 85 95 110 130 120 140 145 167
5 lunar (y) 70 78 88 97 112 132 122 148 150 169
6 75 81 90 100 115 134 135 151 160 170
7 (mii €) 85 89 95 110 120 136 149 156 170 180
8 80 90 98 112 125 139 153 160 185 192
9 83 94 104 115 128 141 155 169 190 195
10 87 90 105 120 130 144 160 170 200 197
11 92 95 110 120 135 145 160 170 205 200
12 96 110 125 140 145 165 174 206 202
13 100 115 125 141 146 165 175 204
14 107 114 127 145 147 170 177 208
15 110 117 130 147 152 173 179 208
16 121 130 155 175 180
17 132 189
18 pe grupă:
19 profit mediu 79 92 104 117 129 142 154 167 179 191
20 nr=120 8 12 13 14 12 13 13 14 9 12
4 Modelul regresiei liniare simple
21 profit total 632 1104 1352 1638 1548 1846 2002 2338 1611 2292
22 pr.med.teor 79 92 104 117 129 142 154 167 179 191
Tabelul 1.2. Gruparea societăţilor comerciale după numărul mediu lunar de salariaţi şi după profiturile
medii lunare
În graficul din Figura 1.2, de tip Scatter XY, s-au reprezentat profiturile firmelor
corespunzătoare fiecărei grupe de salariaţi. S-au declarat 14 serii, corespunzător numărului maxim de
variante de profit în funcţie de numărul de salariaţi, astfel: B4..K4, B5..K5, B6..K6, ..., B17..K17 (cu
acelaşi tip de marcatori - puncte) şi a 15-a serie, pentru profiturile medii calculate ale celor 10 grupe
diferite după numărul de salariaţi, B19..K19. Profiturile medii sunt reprezentate cu marcatori diferiţi,
cercuri mari.
În Figura 1.2, punctele mediilor profiturilor lunare pe grupe de salariaţi, reprezintă distribuţia
condiţională a profiturilor, corespunzătoare fiecărei grupe după numărul de salariaţi. Graficul arată
tendinţa relaţiei dintre cei doi indicatori, de formă liniară şi sensul direct al legăturii, profitul mediu
creşte când numărul mediu al salariaţilor creşte.
Se poate spune că pentru fiecare valoare xi există o populaţie a valorilor y, presupuse a fi
distribuite normal, iar media acestor valori y este medie condiţională. Dreapta sau curba de regresie,
după caz, trece prin mediile condiţionale teoretice (aşteptate) care corespund mediilor condiţionale
calculate.
Pe graficul din Figura 1.3 se pot vedea distribuţiile condiţionale ale valorilor y pentru fiecare
valoare dată xi, precum şi distribuţiile erorilor în jurul fiecărei medii condiţionale a variabilei y.
Dreapta de regresie trece prin toate valorile teoretice ale mediilor condiţionale, ca urmare a ipotezei că
mediile condiţionale ale erorilor pentru o valoare dată xi sunt 0: E ( i / xi ) 0 . Acţiunea factorilor
necuprinşi în model este asimilată erorilor i , iar ipoteza conform căreia media lor este 0, semnifică
faptul că erorile pozitive se anulează cu cele negative, adică nu au o acţiune sistematică asupra mediei
variabilei y. Valorile observate ale profiturilor lunare se abat faţă de valoarea lor medie, calculată ca
medie a grupei din care fac parte, după numărul de salariaţi. Aceste abateri, numite erori, se datorează
altor factori, decât cel înregistrat – numărul de salariaţi, numiţi factori reziduali, care ar putea fi:
eficienţa activităţii de management, profilul de activitate al firmei, ramura economică în care
activează, gradul de instruire, nivelul de sănătate şi experienţa salariaţilor, conjunctura pieţei, nivelul
naţional şi internaţional la care activează firma, deschiderea spre pieţele externe, etc.
6 Modelul regresiei liniare simple
Suma celor două tipuri de variaţie: din interiorul grupelor şi dintre variantele de grupare,
reprezintă variaţia totală a profiturilor datorată tuturor factorilor, şi se exprimă prin totalitatea
abaterilor valorilor observate ale profiturilor faţă de nivelul lor mediu calculat (media mediilor
grupelor).
Acţiunea factorilor reziduali apare în modelul liniar de regresie a populaţiei sub termenul de
disturbanţă sau eroare, i, iar la nivel de eşantion, ca reziduu, ei.
190
170
150
yi 130 yi
i e i
ŷ i ŷ i
110
E(y/x) E(y/xi)
90
70
0 50 100 150 200 250 300 350 400 450 500 550
Figura 1.4. Valorile observate din eşantion, dreapta de regresie a eşantionului şi a populaţiei
Se poate exprima funcţia de regresie a populaţiei cunoscând datele dintr-unul sau mai multe
eşantioane?
8 Modelul regresiei liniare simple
Din populaţia de societăţi comerciale, prezentată anterior, s-au extras două eşantioane
aleatoare, prezentate în Tabelul 1.3. Din cele 120 de societăţi s-au extras 10 în primul eşantion şi 10 în
al doilea. S-au înregistrat valorile numărului mediu lunar de salariaţi, x şi profitul mediu lunar, y,
pentru fiecare din cele 10 firme. Pentru fiecare eşantion se va stabili ecuaţia de regresie a eşantionului.
Aceasta va conţine estimatorii â 0 şi â1 ai parametrilor a 0 şi a1 ai ecuaţiei de regresie a populaţiei.
Modelul liniar de regresie a eşantionului va fi: yˆ i aˆ 0 aˆ1 xi .
Pentru fiecare din cele două eşantioane valorile estimate ale parametrilor a 0 şi a1 , diferă
între ele, pentru că unităţile statistice au fost extrase la întâmplare şi faţă de parametri, pentru că un
eşantion nu poate reproduce identic colectivitatea din care a fost extras. Folosind pe rând, pentru
fiecare eşantion funcţiile intercept şi slope se pot determina valorile estimate pentru a 0 şi respectiv,
a1 .
1 1
Pentru primul eşantion, în celula A42: =INTERCEPT(B31:B40,A31:A40) pentru â 0 şi pentru â1 ,
în celula A43: =SLOPE(B31:B40,A31:A40).
2 2
Pentru al doilea eşantion, în celula D42: =INTERCEPT(E31:E40,D31:D40) pentru â 0 şi pentru â1
, în celula D43: =SLOPE(E31:E40,D31:D40).
Astfel pentru primul eşantion se determină următoarele rezultate:
- un coeficient de corelaţie liniară între variabilele x şi y, de rxy 0.943 , care arată o legătură de
1
31 50 60 83 50 92 84
32 50 83 83 150 105 107
33 100 107 96 200 120 119
34 100 110 96 250 125 130
35 200 120 121 300 136 142
36 200 125 121 350 153 153
37 300 152 147 400 156 165
38 300 155 147 400 170 165
39 350 135 160 450 170 176
40 500 204 198 500 202 188
42 69.7836 â 0
1 72.6035 â 0
2
Pentru al doilea eşantion se determină cu funcţii sau din tabela de regresie, următoarele
rezultate:
- un coeficient de corelaţie liniară între variabilele x şi y, de rxy 0.9764 , care arată o legătură de
2
- valorile variabilei y pentru eşantionul al doilea (y2), la X Values s-a declarat blocul variabilei x,
adică D31:D40, iar la Y Values, E31:E40 şi
2
- dreapta de regresie a eşantionului al doilea, yˆ i (yt2), blocul F31:F40.
Pe graficul din Figura 1.7 s-au reprezentat:
- dreapta de regresie a populaţiei (în legendă, ymed. teoretic),
- valorile variabilelor y pentru cele două eşantioane (în legendă, y1 şi y2),
- cele două drepte de regresie ale eşantioanelor (în legendă, yt1 şi yt2).
Legenda graficului arată aceeaşi marcatori pentru valorile empirice observate ale profiturilor medii
lunare şi marcatori diferiţi pentru fiecare din cele trei drepte de regresie.
1
Comparând ecuaţiile de regresie ale celor două eşantioane: yˆ i 69.78 0.26 xi ,
2
yˆ i 72.6 0.23 xi cu ecuaţia de regresie a populaţiei: E ( y / xi ) 66.86 0.25 xi , se observă că
estimatorii â1 sunt apropiaţi de valoarea a1 , din regresia populaţiei.
Dacă s-ar alege un eşantion de volum mai mare, n=20, de exemplu, cele două eşantioane
3
reunite într-unul singur, în Tabelul 1.6, atunci noul model obţinut este: yˆ i 71.64 0.24 xi , cu un
coeficient de corelaţie r = 0.9566 şi un coeficient de determinaţie R2=0.9152.
xi yi yˆ i
3 350 135 156
350 153 156
50 60 84
50 83 84 400 156 168
50 92 84 400 170 168
100 107 96 450 170 180
100 110 96 500 204 192
150 105 108 500 202 192
200 120 120 50 60 84
200 125 120 71.643 â 0
3
Dreapta de regresie obţinută pe baza datelor din eşantionul 3 şi prezentată în Figura 1.8, diferă de
celelalte două, anterior calculate; valorile teoretice sunt diferite, pentru că şi valorile estimate ale
3 3
coeficienţilor a 0 şi a1 sunt diferite.
Modelul calculat pe baza datelor din eşantionul al doilea are un coeficient de determinaţie
mai mare decât celelalte două eşantioane. Acesta poate fi o variantă mai bună, pentru estimarea
parametrilor ecuaţiei de regresie a populaţiei, decât celelalte două modele. Se poate afirma însă,
că fiecare din cele trei modele prezentate, este bun, datorită valorii mari a coeficientului de
determinaţie, R2.