Sunteți pe pagina 1din 12

Modelul regresiei liniare simple 1

1. Tabela de regresie

În realitate, nu se pot observa colectivităţi generale, ci numai eşantioane extrase din acestea,
repectând principii probabilistice, pentru a asigura condiţia de reprezentativitate.
Scopul analizei de regresie este descrierea modelului prin estimarea parametrilor, pe baza
datelor de sondaj. Această metodă calculează valorile estimatorilor, astfel încât suma pătratelor
abaterilor valorilor empirice (observate) ale variabilei dependente y de la valorile ei teoretice (calculate
după funcţia liniară obţinută), adică suma pătratelor reziduurilor să fie minimă:
n n
min   yi  yˆ i  2  min  ei2 .
i 1 i 1
Analiza de regresie se poate obţine automat prin tabela de regresie, în Microsoft Excel. După
efectuarea declaraţiilor blocurilor care conţine valorile variabilei explicate y şi variabila (sau
variabilele, în cazul regresiei multiple) independentă x, precum şi a locului pe spreadsheet unde se va
obţine tabela şi eventual a unor alte opţiuni privind probabilitatea de garantare a rezultatelor, pentru
intervalele de încredere ale estimatorilor sau obţinerea automată a valorilor teoretice, ale erorilor lor
faţă de valorile y observate, ale graficelor, etc., se confirmă declaraţiile prin OK şi tabela apare
instantaneu. Acest criteriu al minimizării patratelor abaterilor face ca metoda ce stă la baza obţinerii
estimatorilor, să se numească metoda celor mai mici pătrate (M.C.M.M.P.). Tabela de regresie cuprinde
în sumarul său, SUMMARY OUTPUT, trei părţi: Regression Statistics, tabelul ANOVA şi informaţiile
despre estimatorii coeficienţilor modelului liniar. Regression Statistics conţine informaţii cu caracter
general despre variabilele implicate în analiza de regresie:
- coeficientul de corelaţie multiplă Multiple R, care la regresia simplă este coeficientul de corelaţie
liniară simplă, r;
- coeficientul de determinaţie R2, numit R Square arată validitatea modelului. Valoarea sa este
cuprinsă în intervalul [0, 1] şi cu cât e mai apropiată de 1, cu atât modelul este bine ales, adică
explică într-o proporţie mai mare (deseori, în %) variaţia variabilei dependente y.
n n

  yˆi  y    y  yˆ 
2 2
i i
R2  i 1
n
 1 i 1
n , unde
  y  y
i 1
i
2
  y  y
i 1
i
2

y este media valorilor empirice yi.


- Adjusted R Square care este R2 ajustat cu un anumit număr de grade de libertate;
- Standard Error este eroarea medie standard a valorilor teoretice ale lui y şi se calculează ca o
abatere medie pătratică a valorilor empirice faţă de cele teoretice:
n n

 y i  yˆ i 
2
e 2
i
, unde
ˆ   i 1
 i 1
 ˆ 2
n  k 1 n  k 1
ˆ este estimatorul pentru dispersia reziduurilor, iar n–k–1 este numărul gradelor de libertate, iar k
2

este numărul variabilelor explicative;


- Observations reprezintă n este numărul de observări ale variabilei dependente, care este egal cu
numărul de valori ale variabilei (variabilelor) independente xi.
Tabelul ANOVA este tabelul de analiză a varianţelor, a cărui denumire provine din iniţialele
ANalysis Of Variances şi are ca scop prezentarea variaţiei pe factori de influenţă şi calculul testului
Fisher pentru evaluarea semnificaţiei globale a regresiei. Analiza varianţei pentru o regresie simplă
este prezentată în Tabelul 1.1.
2 Modelul regresiei liniare simple

În coloana numită SS - Sum Squares (sumă de pătrate) - se prezintă descompunerea variaţiei


n
totale a variabilei explicate y, Total:  y
i 1
i  y  pe tipuri de influenţă:
2

  yˆ  y ,
2
- atribuită şi explicată de factorii de regresie, Regression: i
i 1
n
- atribuită factorilor reziduali, neînregistraţi în model, Residual:  y
i 1
i  yˆ i  .
2

Sursa Suma pătratelor (SS) Grade Sume


variaţiei libertate modificate
(df) (MS)
x SSE =  ( yˆ t  y ) 1 SCE/1
2

SSR =  ( y t  yˆ t )   et
2 2
reziduuri n-2 SCR/(n-2)
t t

SST =  ( y t  y )
2
total n-1
t

Tabelul 1.1. ANOVA în cazul regresiei simple

Coloana numită df – degrees freedom - se referă la gradele de libertate corespunzătoare fiecărui


tip de variaţie:
- pentru variaţia explicată de regresie, gradele de libertate sunt egale cu numărul variabilelor
explicative, k; la regresia simplă este 1;
- pentru variaţia datorată factorilor reziduali, gradele de libertate sunt egale cu n-k-1, adică n-2;
- pentru variaţia totală corespunde un număr de grade de libertate egal cu n-1.
Gradele de libertate se calculează în funcţie de termenul constant Intercept astfel: dacă Intercept = 0,
df = n-k şi numai dacă Intercept ≠ 0, df = n-k-1.
Coloana numită MS - Modified Sums – conţine dispersiile corectate cu gradele de libertate
corespunzătoare fiecărui tip de variaţie.
Valoarea calculată F se obţine raportând variaţia corectată datorată modelului la cea corectată
datorată factorilor reziduali, iar Significance F reprezintă pragul de semnificaţie  de la care regresia
începe să devină global semnificativă. Regresia este global semnificativă cu o probabilitate P=1 - .
Testul empiric F de analiză a varianţei este:
SSE / 1
F*  , unde
SSR /( n  2)
F * urmează o lege Fisher cu 1 şi n-2 grade de libertate.
La regresia liniară simplă:
F *  (t * ) 2 , unde t * , este testul Student empiric.
Acest test se poate scrie în funcţie de coeficientul de determinaţie, astfel:
R2
F*  .
(1  R 2 ) /( n  2)
Dacă varianţa explicată de model este superioară varianţei reziduale, se consideră modelul
semnificativ pentru explicarea variabilei dependente.
Dacă F  F1,n  2 , se respinge ipoteza de egalitate a varianţelor
* 0.05
(H 0 – ipoteza nulă),
variabila x fiind semnificativă pentru variaţia variabilei y. În caz contrar se acceptă această ipoteză de
egalitate a varianţelor.
A treia parte a tabelei de regresie conţine:
- valorile estimate ale coeficienţilor modelului liniar, âi , i=1,k, în coloana Coefficients pentru:
Modelul regresiei liniare simple 3

- Intercept - estimatorul termenului constant, â0, care poate fi zero dacă s-a optat pentru
Constant is Zero şi
- estimatorii coeficienţilor variabilelor explicative: â1, ..., ân la X Variable 1, X Variable
2, ... în ordinea declarării variabilelor explicative;
- Standard Error, ˆ âi abaterile standard ale estimatorilor âi ; arată cu cât variază în medie, în plus sau
în minus valorile estimate ale coeficienţilor faţă de parametri pe care îi estimează. Eroarea standard de
estimaţie are caracter de medie a abaterilor valorilor estimate ale coeficientului faţă de parametrul
corespondent din populaţie.
- valorile Student, t*, pentru fiecare estimator, pentru verificarea semnificaţiei acestuia faţă de 0;
- P-value, corespunzătoare pragului de semnificaţie α, începând de la care valoarea estimatorului este
semnificativ diferită de zero,
- limitele intervalului de încredere ale estimatorilor: inferioară Lower 95% şi superioară Upper 95%,
cu o probabilitate de 95%, implicit, iar la cerere se pot solicita şi alte valori ale probabilităţii: 99%,
90%, etc.
Suma valorilor observate este egală cu suma valorilor teoretice:
n n

 y  yˆ
i 1
i
i 1
i ,
pentru că prin ajustare se realizează o redistribuire a influenţei factorului, variabila explicativă, x.

2. Funcţia de regresie a populaţiei

Pentru a ilustra analiza de regresie a populaţiei, se consideră un caz ipotetic al unei ţări a cărei
economie este formată din 120 de societăţi comerciale, despre care se cunosc informaţii referitoare la
numărul mediu lunar de salariaţi şi profitul mediu lunar, exprimat în mii euro (€), la sfârşitul anului.
Societăţile comerciale sunt grupate în zece clase după numărul mediu de salariaţi şi în fiecare
grupă este observat un număr variabil de societăţi.
Datele observate sunt prezentate în Tabelul 1.2 (liniile sunt numerotate, iar coloanele numite cu
literele alfabetului, ca în Microsoft Excel).
A B C D E F G H I J K
1 Grupe după numărul mediu de angajaţi (x)
2 50 100 150 200 250 300 350 400 450 500
3
4 Profitul 60 74 85 95 110 130 120 140 145 167
5 lunar (y) 70 78 88 97 112 132 122 148 150 169
6 75 81 90 100 115 134 135 151 160 170
7 (mii €) 85 89 95 110 120 136 149 156 170 180
8 80 90 98 112 125 139 153 160 185 192
9 83 94 104 115 128 141 155 169 190 195
10 87 90 105 120 130 144 160 170 200 197
11 92 95 110 120 135 145 160 170 205 200
12 96 110 125 140 145 165 174 206 202
13 100 115 125 141 146 165 175 204
14 107 114 127 145 147 170 177 208
15 110 117 130 147 152 173 179 208
16 121 130 155 175 180
17 132 189
18 pe grupă:
19 profit mediu 79 92 104 117 129 142 154 167 179 191
20 nr=120 8 12 13 14 12 13 13 14 9 12
4 Modelul regresiei liniare simple

21 profit total 632 1104 1352 1638 1548 1846 2002 2338 1611 2292
22 pr.med.teor 79 92 104 117 129 142 154 167 179 191
Tabelul 1.2. Gruparea societăţilor comerciale după numărul mediu lunar de salariaţi şi după profiturile
medii lunare

Pentru a se analiza variaţia profitului în funcţie de numărul mediu de angajaţi, se va considera


variabila independentă ca fiind numărul mediu lunar de salariaţi (x), iar variabila dependentă – profitul
lunar (y). Societăţile comerciale cuprinse în aceeaşi grupă după numărul de angajaţi, au un profit
variabil. Corespunzător unui număr mediu de 50 de salariaţi (coloana B), de exemplu, sunt 8 firme
(celula B20) ale căror profituri medii lunare se situează între 60 mii € şi 92 mii € (blocul de celule
B4:B11), obţinându-se o medie a profiturilor pentru această grupă de angajaţi, de 79 mii € (B19).
Similar, pentru o altă variantă a numărului de angajaţi, de 500 salariaţi (coloana K), există 12 firme
(K20), al căror profit mediu lunar este cuprins între 167 mii € şi 208 mii € (blocul K4:K15), cu o
medie a profiturilor lunare de 191 mii € (K19).
O coloană din tabel reprezintă distribuţia profitului lunar y, la un nivel fixat al numărului de
angajaţi, x, adică distribuţia condiţională a lui y pentru o valoare dată a lui x.
În celulele B19:K19 se află profiturile medii lunare pentru fiecare grupă de angajaţi, adică
mediile blocurilor de celule corespunzătoare fiecărei grupe: B4:B17, C4:C17, D4:D17, ... K4:K17.
Mediile se calculează astfel: în celula B19, se scrie funcţia statistică pentru calculul mediei,
=AVERAGE(B4..B17). Se observă că numărul maxim de firme dintr-o grupă este de 14, pentru x=200,
x=400. Deşi în prima grupă sunt 8 firme, se va specifica blocul de dimensiunea maximă, pentru ca prin
copierea formulei din celula B19 în celelalte celule, de la C19 la K19, să se translateze corespunzător
coloanele celulelor, şi să se ia în considerare toate situaţiile grupelor (indiferent de numărul de
elemente declarate, media se va calcula ţinând seama de numărul efectiv de elemente existente, în
fiecare bloc de celule).
În linia 21, se află profiturile totale lunare ale grupelor, obţinute prin însumarea profiturilor
individuale observate în fiecare grupă de salariaţi. La B21 se scrie formula =SUM(B4..B17), care apoi
se copiază pentru restul celulelor de pe aceeaşi linie, adică pentru celelalte nouă variante date ale
numărului de salariaţi. Profiturile medii pe grupe de salariaţi se pot obţine şi împărţind profitul total al
grupei la numărul de firme considerate în grupa respectivă, de exemplu în linia 18 (care în Tabelul 1.2
este liberă), cu formula =B21/B20, şi apoi copiată pentru restul grupelor; valorile obţinute vor fi
identice cu cele din linia 19.
Modelul regresiei liniare simple 5

Figura 1.2. Corelaţia dintre profiturile medii lunare şi numărul mediu


lunar de salariaţi

În graficul din Figura 1.2, de tip Scatter XY, s-au reprezentat profiturile firmelor
corespunzătoare fiecărei grupe de salariaţi. S-au declarat 14 serii, corespunzător numărului maxim de
variante de profit în funcţie de numărul de salariaţi, astfel: B4..K4, B5..K5, B6..K6, ..., B17..K17 (cu
acelaşi tip de marcatori - puncte) şi a 15-a serie, pentru profiturile medii calculate ale celor 10 grupe
diferite după numărul de salariaţi, B19..K19. Profiturile medii sunt reprezentate cu marcatori diferiţi,
cercuri mari.
În Figura 1.2, punctele mediilor profiturilor lunare pe grupe de salariaţi, reprezintă distribuţia
condiţională a profiturilor, corespunzătoare fiecărei grupe după numărul de salariaţi. Graficul arată
tendinţa relaţiei dintre cei doi indicatori, de formă liniară şi sensul direct al legăturii, profitul mediu
creşte când numărul mediu al salariaţilor creşte.
Se poate spune că pentru fiecare valoare xi există o populaţie a valorilor y, presupuse a fi
distribuite normal, iar media acestor valori y este medie condiţională. Dreapta sau curba de regresie,
după caz, trece prin mediile condiţionale teoretice (aşteptate) care corespund mediilor condiţionale
calculate.

Figura 1.3. Distribuţiile condiţionale şi dreapta de regresie a populaţiei

Pe graficul din Figura 1.3 se pot vedea distribuţiile condiţionale ale valorilor y pentru fiecare
valoare dată xi, precum şi distribuţiile erorilor în jurul fiecărei medii condiţionale a variabilei y.
Dreapta de regresie trece prin toate valorile teoretice ale mediilor condiţionale, ca urmare a ipotezei că
mediile condiţionale ale erorilor pentru o valoare dată xi sunt 0: E ( i / xi )  0 . Acţiunea factorilor
necuprinşi în model este asimilată erorilor  i , iar ipoteza conform căreia media lor este 0, semnifică
faptul că erorile pozitive se anulează cu cele negative, adică nu au o acţiune sistematică asupra mediei
variabilei y. Valorile observate ale profiturilor lunare se abat faţă de valoarea lor medie, calculată ca
medie a grupei din care fac parte, după numărul de salariaţi. Aceste abateri, numite erori, se datorează
altor factori, decât cel înregistrat – numărul de salariaţi, numiţi factori reziduali, care ar putea fi:
eficienţa activităţii de management, profilul de activitate al firmei, ramura economică în care
activează, gradul de instruire, nivelul de sănătate şi experienţa salariaţilor, conjunctura pieţei, nivelul
naţional şi internaţional la care activează firma, deschiderea spre pieţele externe, etc.
6 Modelul regresiei liniare simple

Valorile teoretice corespunzătoare acestor profituri medii se află pe dreapta de regresie a


populaţiei, a cărei ecuaţie este E ( y / xi )  a 0  a1 xi .
Valorile parametrilor a 0 şi a1 se pot determina folosind funcţiile statistice, în Excel:
=intercept(known_y’s,known_x’s) şi =slope(known_y’s,known_x’s).
Pentru a 0 : =INTERCEPT(B19:K19,B2:K2)
şi pentru a1 : =SLOPE(B19:K19,B2:K2).
Aceste funcţii se pot tasta, de exemplu în celulele N23, respectiv N24.
Modelul de regresie a populaţiei este E ( y / xi )  66.86  0.25  xi .
Coeficientul de determinaţie R2=1 indică faptul că modelul liniar explică 100% variaţia
profiturilor lunare, y şi este evident din faptul că s-a efectuat regresia pe valorile medii ale profiturilor
lunare. Coeficientul de corelaţie se poate obţine şi prin funcţia statistică =correl(array1,array2), aici
=CORREL(B2:K2,B19:K19). Aceleaşi rezultate se pot obţine cu ajutorul tabelei de regresie.
Regresia nu poate utiliza decât blocuri de tip coloană şi de aceea trebuie să se transpună
blocurile linie ale valorilor variabilelor pe verticală. Se poate proceda în felul următor:
- se selectează blocul B2:K2, al variabilei x;
- se activează operaţia de copiere prin <CTRL/C> sau din meniul Edit / Copy sau apăsând butonul
dreapta al mouse-ului pe blocul selectat şi se alege comanda Copy;
- se poziţionează cursorul în celula blocului destinaţie, de exemplu în N2;
- se apasă butonul dreapta al mouse-ului şi se alege Paste Special sau din meniul Edit, comanda
Paste Special, unde se bifează Values, pentru a transforma în valori rezultatul unor formule –
pentru variabila x, nu este cazul, acestea fiind deja valori, rezultate prin editarea lor – şi Transpose,
apoi se confirmă prin OK.
Blocul N2:N11 va conţine valorile variabilei x, din Tabelul 1.2.
Pentru transpunerea valorilor medii ale variabilei y se procedează la fel, selectând blocul
B19:K19, se depune blocul transpus în O2:O11, cu menţiunea că la Paste Special se va bifa Values şi
Transpose.
Prin transpunere, funcţiile de calcul ale mediilor din linia 19, =AVERAGE(...), îşi vor schimba
adresele din argumentul lor, obţinându-se nişte valori eronate şi de aceea, formulele conţinute în
celulele B19:K19 trebuie transformate în valori, cu opţiunea Values.
Pentru că profiturile medii calculate (linia19) se află pe o dreaptă, regresia între valorile
variabilei x şi valorile medii ale variabilei y furnizează nişte parametri, care utilizaţi în calculul
valorilor teoretice corespunzătoare, au ca rezultat valori identice cu mediile calculate din valorile
observate ale variabilei y.
Modelul liniar determină în totalitate, 100%, variaţia acesteia, regresia exprimând chiar această
tendinţă medie de evoluţie a lui y în funcţie de x.
Valorile medii ale profiturilor pe grupe, se află pe dreapta de regresie a populaţiei, după cum se
poate vedea şi pe graficul din Figura 1.3. Valorile teoretice se obţin prin modelul liniar determinat, în
linia 22 din Tabelul 1.2. Dacă, de exemplu, valorile parametrilor a 0 şi a1 se află în celulele N23 şi
N24, atunci în celula B22 se scrie formula =$N$23+$N$24*B2, care se copiază şi pentru restul
celulelor C22:K22. Celulele N23 şi N24, sunt fixate prin folosirea simbolului $, astfel încât prin
copierea formulei în restul celulelor, să nu se schimbe coloanele şi linii. Cum acestea din urmă nu se
schimbă, pentru că se face copierea pe orizontală, formula era la fel de corectă dacă se scria =$N23+
$N24*B2. Se adaugă încă o serie pe graficul din Figura 1.2, cea a valorilor teoretice din linia 22, şi se
obţine graficul din Figura 1.3.
Mediile profiturilor calculate pe grupe de salariaţi se pot abate de la valorile teoretice ale
acestor medii condiţionale, sub influenţa alegerii modelului. Un model bine ales va minimiza aceste
abateri. Acest tip de variaţie a mediilor condiţionale se datorează factorului de grupare, numărul de
salariaţi, variabila explicativă a variaţiei profiturilor, cea înregistrată, a cărei influenţă este considerată
în model. În acest caz mediile profiturilor calculate pe grupe de salariaţi coincid cu valorile lor
teoretice, aflate pe dreapta de regresie a populaţiei.
Modelul regresiei liniare simple 7

Suma celor două tipuri de variaţie: din interiorul grupelor şi dintre variantele de grupare,
reprezintă variaţia totală a profiturilor datorată tuturor factorilor, şi se exprimă prin totalitatea
abaterilor valorilor observate ale profiturilor faţă de nivelul lor mediu calculat (media mediilor
grupelor).
Acţiunea factorilor reziduali apare în modelul liniar de regresie a populaţiei sub termenul de
disturbanţă sau eroare, i, iar la nivel de eşantion, ca reziduu, ei.

1.9. Funcţia de regresie a eşantioanelor

La nivelul populaţiei, între valorile teoretice ale modelului liniar E ( y / xi )  a 0  a1 xi şi valorile


observate y i , există abateri, numite la nivel de colectivitate, erori şi se notează  i . Erorile sunt
rezultatul influenţei factorilor neînregistraţi în ecuaţia de regresie, care fac să existe abateri între
valorile empirice şi cele teoretice.
Valorile observate ale profiturilor, la nivel de populaţie statistică, se pot scrie
y i  E ( y / xi )   i  a 0  a1 xi   i .
Funcţia de regresie a populaţiei E(y / xi) = a0 + a1xi se poate estima prin funcţia de regresie a
unui eşantion yˆ i  aˆ 0  aˆ1 xi şi atunci ŷ i reprezintă un estimator pentru E(y / xi).
La nivel de eşantion, în modelul liniar, erorile se estimează prin reziduuri şi se notează ei .
Modelul liniar la nivel de eşantion este yˆ i  aˆ 0  aˆ1 xi , iar valorile observate în eşantion sunt descrise
de ecuaţia y i  aˆ 0  aˆ1 xi  ei  yˆ i  ei .
În Figura 1.4 se prezintă grafic termenul de eroare şi cel de reziduu, dispunând de un eşantion
oarecare extras din populaţia statistică. Se cunosc dreaptele de regresie a eşantionului şi a populaţiei.

Dreapta de regresie a populaţiei şi a eşantionului


210

190

170

150

yi 130 yi
i e i
ŷ i ŷ i
110
E(y/x) E(y/xi)

90

70
0 50 100 150 200 250 300 350 400 450 500 550

y-es yt-es yt-pop

Figura 1.4. Valorile observate din eşantion, dreapta de regresie a eşantionului şi a populaţiei
Se poate exprima funcţia de regresie a populaţiei cunoscând datele dintr-unul sau mai multe
eşantioane?
8 Modelul regresiei liniare simple

Din populaţia de societăţi comerciale, prezentată anterior, s-au extras două eşantioane
aleatoare, prezentate în Tabelul 1.3. Din cele 120 de societăţi s-au extras 10 în primul eşantion şi 10 în
al doilea. S-au înregistrat valorile numărului mediu lunar de salariaţi, x şi profitul mediu lunar, y,
pentru fiecare din cele 10 firme. Pentru fiecare eşantion se va stabili ecuaţia de regresie a eşantionului.
Aceasta va conţine estimatorii â 0 şi â1 ai parametrilor a 0 şi a1 ai ecuaţiei de regresie a populaţiei.
Modelul liniar de regresie a eşantionului va fi: yˆ i  aˆ 0  aˆ1 xi .
Pentru fiecare din cele două eşantioane valorile estimate ale parametrilor a 0 şi a1 , diferă
între ele, pentru că unităţile statistice au fost extrase la întâmplare şi faţă de parametri, pentru că un
eşantion nu poate reproduce identic colectivitatea din care a fost extras. Folosind pe rând, pentru
fiecare eşantion funcţiile intercept şi slope se pot determina valorile estimate pentru a 0 şi respectiv,
a1 .
1 1
Pentru primul eşantion, în celula A42: =INTERCEPT(B31:B40,A31:A40) pentru â 0 şi pentru â1 ,
în celula A43: =SLOPE(B31:B40,A31:A40).
2 2
Pentru al doilea eşantion, în celula D42: =INTERCEPT(E31:E40,D31:D40) pentru â 0 şi pentru â1
, în celula D43: =SLOPE(E31:E40,D31:D40).
Astfel pentru primul eşantion se determină următoarele rezultate:
- un coeficient de corelaţie liniară între variabilele x şi y, de rxy  0.943 , care arată o legătură de
1

intensitate mare şi se obţine cu funcţia =CORREL(B31:B40,A31:A40), în celula A44;


1 1 1
- estimatorii aˆ 0  69.78 şi aˆ1  0.26 , modelul este yˆ i  69.78  0.26  xi ;
- un coeficient de determinaţie R2=0.8893, care arată un model valid, bine ales, care explică variaţia
variabilei y, într-o proporţie de 88.93%;
1
Valorile teoretice corespunzătoare yˆ i , se află în coloana C, din Tabelul 1.3. În celula C31, formula
=A$42+A$43*A31 se copiază în blocul C32:C40.
Aceste rezultate se pot obţine şi folosind procedura Regression din meniul Tools, opţiunea Data
Analysis. Se realizează tabela de regresie pentru primul eşantion, declarându-se variabila dependentă
(Input Y Range), blocul B31:B40, variabila independentă (Input X Range), blocul A31:A40, iar la
Output Range, celula care va fi din colţul stânga sus al tabelei de regresie, de exemplu K27. În Tabelul
1.4 este prezentată tabela de regresie obţinută în Excel pentru primul eşantion. În tabela de regresie se
regăsesc estimatorii şi indicatorii calculaţi mai sus.
A B C D E F
29 eşantion 1 eşantion 2
30 xi yi yˆ i
1 xi yi yˆ i
2

31 50 60 83 50 92 84
32 50 83 83 150 105 107
33 100 107 96 200 120 119
34 100 110 96 250 125 130
35 200 120 121 300 136 142
36 200 125 121 350 153 153
37 300 152 147 400 156 165
38 300 155 147 400 170 165
39 350 135 160 450 170 176
40 500 204 198 500 202 188
42 69.7836 â 0
1 72.6035 â 0
2

43 0.2573 â11 0.2305 â1


2

44 0.9430 rxy1 0.9764 rxy2


Tabelul 1.3. Cele două eşantioane extrase din populaţie
Modelul regresiei liniare simple 9

SUMMARY OUTPUT eşantionul 1


Regression Statistics
Multiple R 0.943
R Square 0.8893
Adjusted R 0.8755
Square
Standard 14.1781
Error
Observations 10
ANOVA df SS MS F Signif. F
Regression 1 12924.74 12924.7 64.29573 4.29E-05
Residual 8 1608.161 201.02
Total 9 14532.9
Coeff. Standard t Stat P-value Lower 95% Upper
Error 95%
Intercept 69.784 8.2275 8.4817 2.86E-05 50.811 88.756
X Variable 1 0.2573 0.0321 8.0185 4.29E-05 0.183 0.331
Tabelul 1.4. Tabela de regresie pentru eşantionul 1

Pentru al doilea eşantion se determină cu funcţii sau din tabela de regresie, următoarele
rezultate:
- un coeficient de corelaţie liniară între variabilele x şi y, de rxy  0.9764 , care arată o legătură de
2

intensitate mare şi se poate obţine cu funcţia =CORREL(E31:E40,D31:D40) în celula D44;


2 2
- estimatorii: aˆ 0  72.6 , în celula D42 şi aˆ1  0.23 , în celula D43, iar modelul este
2
yˆ i  72.6  0.23  xi ;
- un coeficient de determinaţie R2=0.9534, care arată că modelul liniar este bine ales şi explică
variaţia variabilei y, într-o proporţie de 95.34%, mai mare decât în cazul primului eşantion;
2
Valorile teoretice corespunzătoare yˆ i se află în coloana F, din Tabelul 1.3 şi sunt calculate prin
copierea formulei =D$42+D$43*D31 din celula F31, în F32:F40.
Se realizează tabela de regresie pentru al doilea eşantion, la Input Y Range se declară E31:E40,
la Input X Range, D31:D40, iar la Output Range, de exemplu, celula U27. Tabela de regresie pentru al
doilea eşantion este prezentată în Tabelul 1.5.

SUMMARY OUTPUT eşantionul 2


Regression Statistics
Multiple R 0.9764
R Square 0.9534
Adjusted R 0.9475
Square
Standard Err 7.694
Observation 10
s
ANOVA df SS MS F Signif. F
Regression 1 9681.317 9681.317 163.5416 1.32E-06
Residual 8 473.583 59.19787
Total 9 10154.9
Coeff. Standard Err t Stat P-value Lower Upper 95%
95%
Intercept 72.6035 6.0113 12.0778 2.04E-06 58.7414 86.4656
X Variable 1 0.2305 0.0180 12.7883 1.32E-06 0.1889 0.2720
Tabelul 1.5. Tabela de regresie pentru eşantionul 2
10 Modelul regresiei liniare simple

Pe graficul din Figura 1.5 s-au reprezentat:


- dreapta de regresie a populaţiei (în legendă, ymed. teoretic), declarând la X Values blocul B2:K2,
iar la Y Values, blocul B22:K22,
- valorile variabilei y pentru primul eşantion (în legendă, y1), la X Values s-a declarat blocul
variabilei x, adică A31:A40, iar pe axa Oy, la Y Values, B31:B40 şi
1
- dreapta de regresie a primului eşantion, valorile teoretice yˆ i (în legendă, yt1), la X Values
declarându-se A31:A40, iar la Y Values, C31:C40.

Figura 1.5. Valorile empirice din eşantionul 1 şi ajustarea lor

Figura 1.6. Valorile empirice din eşantionul 2 şi ajustarea lor

Graficul din Figura 1.6, conţine:


- dreapta de regresie a populaţiei (în legendă, ymed. teoretic),
Modelul regresiei liniare simple 11

- valorile variabilei y pentru eşantionul al doilea (y2), la X Values s-a declarat blocul variabilei x,
adică D31:D40, iar la Y Values, E31:E40 şi
2
- dreapta de regresie a eşantionului al doilea, yˆ i (yt2), blocul F31:F40.
Pe graficul din Figura 1.7 s-au reprezentat:
- dreapta de regresie a populaţiei (în legendă, ymed. teoretic),
- valorile variabilelor y pentru cele două eşantioane (în legendă, y1 şi y2),
- cele două drepte de regresie ale eşantioanelor (în legendă, yt1 şi yt2).
Legenda graficului arată aceeaşi marcatori pentru valorile empirice observate ale profiturilor medii
lunare şi marcatori diferiţi pentru fiecare din cele trei drepte de regresie.

Figura 1.7. Valorile empirice din eşantioane şi ajustările lor

1
Comparând ecuaţiile de regresie ale celor două eşantioane: yˆ i  69.78  0.26  xi ,
2
yˆ i  72.6  0.23  xi cu ecuaţia de regresie a populaţiei: E ( y / xi )  66.86  0.25  xi , se observă că
estimatorii â1 sunt apropiaţi de valoarea a1 , din regresia populaţiei.
Dacă s-ar alege un eşantion de volum mai mare, n=20, de exemplu, cele două eşantioane
3
reunite într-unul singur, în Tabelul 1.6, atunci noul model obţinut este: yˆ i  71.64  0.24  xi , cu un
coeficient de corelaţie r = 0.9566 şi un coeficient de determinaţie R2=0.9152.
xi yi yˆ i
3 350 135 156
350 153 156
50 60 84
50 83 84 400 156 168
50 92 84 400 170 168
100 107 96 450 170 180
100 110 96 500 204 192
150 105 108 500 202 192
200 120 120 50 60 84
200 125 120 71.643 â 0
3

200 120 120 0.239 3


â1
250 125 132
300 152 144 0.956 0.915
300 155 144 rxy3 R2
300 136 144
Tabelul 1.6. Eşantionul 3 şi ajustarea prin estimatorii săi

Dreapta de regresie obţinută pe baza datelor din eşantionul 3 şi prezentată în Figura 1.8, diferă de
celelalte două, anterior calculate; valorile teoretice sunt diferite, pentru că şi valorile estimate ale
3 3
coeficienţilor a 0 şi a1 sunt diferite.

Figura 1.8. Valorile empirice din eşantionul 3 şi ajustarea lor

Modelul calculat pe baza datelor din eşantionul al doilea are un coeficient de determinaţie
mai mare decât celelalte două eşantioane. Acesta poate fi o variantă mai bună, pentru estimarea
parametrilor ecuaţiei de regresie a populaţiei, decât celelalte două modele. Se poate afirma însă,
că fiecare din cele trei modele prezentate, este bun, datorită valorii mari a coeficientului de
determinaţie, R2.

S-ar putea să vă placă și