Sunteți pe pagina 1din 6

Tema de casa nr.

Funcţia de regresie a populaţiei

Pentru a ilustra analiza de regresie a populaţiei, se consideră un caz ipotetic


al unei ţări a cărei economie este formată din 120 de societăţi comerciale, despre care
se cunosc informaţii referitoare la numărul mediu lunar de salariaţi şi profitul mediu
lunar, exprimat în mii euro (€), la sfârşitul anului.
Societăţile comerciale sunt grupate în zece clase după numărul mediu de
salariaţi şi în fiecare grupă este observat un număr variabil de societăţi.
Datele observate sunt prezentate în Tabelul 1.2 (liniile sunt numerotate, iar
coloanele numite cu literele alfabetului, ca în Microsoft Excel).
A B C D E F G H I J K
1 Grupe după numărul mediu de angajaţi (x)
2 50 100 150 200 250 300 350 400 450 500
3
4 Profitul 60 74 85 95 110 130 120 140 145 167
5 lunar (y) 70 78 88 97 112 132 122 148 150 169
6 75 81 90 100 115 134 135 151 160 170
7 (mii €) 85 89 95 110 120 136 149 156 170 180
8 80 90 98 112 125 139 153 160 185 192
9 83 94 104 115 128 141 155 169 190 195
10 87 90 105 120 130 144 160 170 200 197
11 92 95 110 120 135 145 160 170 205 200
12 96 110 125 140 145 165 174 206 202
13 100 115 125 141 146 165 175 204
14 107 114 127 145 147 170 177 208
15 110 117 130 147 152 173 179 208
16 121 130 155 175 180
17 132 189
18 pe grupă:
19 profit mediu 79 92 104 117 129 142 154 167 179 191
20 nr=120 8 12 13 14 12 13 13 14 9 12
21 profit total 632 1104 1352 1638 1548 1846 2002 2338 1611 2292
22 pr.med.teor 79 92 104 117 129 142 154 167 179 191
Tabelul 1.2. Gruparea societăţilor comerciale după numărul mediu lunar de salariaţi
şi după profiturile medii lunare

Pentru a se analiza vaiaţia profitului în funcţie de numărul mediu de angajaţi,


se va considera variabila independentă ca fiind numărul mediu lunar de salariaţi (x),
iar variabila dependentă – profitul lunar (y). Societăţile comerciale cuprinse în
aceeaşi grupă după numărul de angajaţi, au un profit variabil. Corespunzător unui

1
număr mediu de 50 de salariaţi (coloana B), de exemplu, sunt 8 firme (celula B20)
ale căror profituri medii lunare se situează între 60 mii € şi 92 mii € (blocul de celule
B4:B11), obţinându-se o medie a profiturilor pentru această grupă de angajaţi, de 79
mii € (B19). Similar, pentru o altă variantă a numărului de angajaţi, de 500 salariaţi
(coloana K), există 12 firme (K20), al căror profit mediu lunar este cuprins între 167
mii € şi 208 mii € (blocul K4:K15), cu o medie a profiturilor lunare de 191 mii €
(K19).
O coloană din tabel reprezintă distribuţia profitului lunar y, la un nivel fixat al
numărului de angajaţi, x, adică distribuţia condiţională a lui y pentru o valoare dată
a lui x.
În celulele B19:K19 se află profiturile medii lunare pentru fiecare grupă de
angajaţi, adică mediile blocurilor de celule corespunzătoare fiecărei grupe: B4:B17,
C4:C17, D4:D17, ... K4:K17. Mediile se calculează astfel: în celula B19, se scrie
funcţia statistică pentru calculul mediei, =AVERAGE(B4..B17). Se observă că
numărul maxim de firme dintr-o grupă este de 14, pentru x=200, x=400. Deşi în
prima grupă sunt 8 firme, se va specifica blocul de dimensiunea maximă, pentru ca
prin copierea formulei din celula B19 în celelalte celule, de la C19 la K19, să se
translateze corespunzător coloanele celulelor, şi să se ia în considerare toate situaţiile
grupelor (indiferent de numărul de elemente declarate, media se va calcula ţinând
seama de numărul efectiv de elemente existente, în fiecare bloc de celule).
În linia 21, se află profiturile totale lunare ale grupelor, obţinute prin
însumarea profiturilor individuale observate în fiecare grupă de salariaţi. La B21 se
scrie formula =SUM(B4..B17), care apoi se copiază pentru restul celulelor de pe
aceeaşi linie, adică pentru celelalte nouă variante date ale numărului de salariaţi.
Profiturile medii pe grupe de salariaţi se pot obţine şi împărţind profitul total al
grupei la numărul de firme considerate în grupa respectivă, de exemplu în linia 18
(care în Tabelul 1.2 este liberă), cu formula =B21/B20, şi apoi copiată pentru restul
grupelor; valorile obţinute vor fi identice cu cele din linia 19.
În graficul din Figura 1.2, de tip Scatter XY,s-au reprezentat profiturile
firmelor corespunzătoare fiecărei grupe de salariaţi. S-au declarat 14 serii,
corespunzător numărului maxim de variante de profit în funcţie de numărul de
salariaţi, astfel: B4..K4, B5..K5, B6..K6, ..., B17..K17 (cu acelaşi tip de marcatori -
puncte) şi a 15-a serie, pentru profiturile medii calculate ale celor 10 grupe diferite

2
după numărul de salariaţi, B19..K19. Profiturile medii sunt reprezentate cu marcatori
diferiţi, cercuri mari.

Corelaţia dintre profit şi număr de angajaţi


230

210

190

170
profit (mii euro)

150

130

110

90

70

50
0 50 100 150 200 250 300 350 400 450 500 550
număr angajaţi (persoane)

Figura 1.2. Corelaţia dintre profiturile medii lunare şi numărul mediu


lunar de salariaţi

În Figura 1.2, punctele mediilor profiturilor lunare pe grupe de salariaţi,


reprezintă distribuţia condiţională a profiturilor, corespunzătoare fiecărei grupe după
numărul de salariaţi. Graficul arată tendinţa relaţiei dintre cei doi indicatori, de formă
liniară şi sensul direct al legăturii, profitul mediu creşte când numărul mediu al
salariaţilor creşte.
Se poate spune că pentru fiecare valoare xi există o populaţie a valorilor y,
presupuse a fi distribuite normal, iar media acestor valori y este medie condiţională.
Dreapta sau curba de regresie, după caz, trece prin mediile condiţionale teoretice
(aşteptate) care corespund mediilor condiţionale calculate.
Pe graficul din Figura 1.3 se pot vedea distribuţiile condiţionale ale valorilor
y pentru fiecare valoare dată xi, precum şi distribuţiile erorilor în jurul fiecărei medii
condiţionale a variabilei y. Dreapta de regresie trece prin toate valorile teoretice ale
mediilor condiţionale, ca urmare a ipotezei că mediile condiţionale ale erorilor pentru
o valoare dată xi sunt 0: E ( i / xi )  0 . Acţiunea factorilor necuprinşi în model este

asimilată erorilor  i , iar ipoteza conform căreia media lor este 0, semnifică faptul că
erorile pozitive se anulează cu cele negative, adică nu au o acţiune sistematică asupra
3
mediei variabilei y.Valorile observate ale profiturilor lunare se abat faţă de valoarea
lor medie, calculată ca medie a grupei din care fac parte, după numărul de salariaţi.
Aceste abateri, numite erori, se datorează altor factori, decât cel înregistrat – numărul
de salariaţi, numiţi factori reziduali, care ar putea fi: eficienţa activităţii de
management, profilul de activitate al firmei, ramura economică în care activează,
gradul de instruire, nivelul de sănătate şi experienţa salariaţilor, conjunctura pieţei,
nivelul naţional şi internaţional la care activează firma, deschiderea spre pieţele
externe, etc.

Ajustarea liniară a profitului în funcţie de numărul de angajaţi


230

210

190

170
profit (mii euro)

150

130

110

90

70

50
0 50 100 150 200 250 300 350 400 450 500 550
ymed ymed.teoretic număr angajaţi (persoane)

Figura 1.3. Distribuţiile condiţionale şi dreapta de regresie a populaţiei

Valorile teoretice corespunzătoare acestor profituri medii se află pe dreapta


de regresie a populaţiei, a cărei ecuaţie este E ( y / xi )  a0  a1 xi .

Valorile parametrilor a 0 şi a1 se pot determina folosind funcţiile statistice, în Excel:


=intercept(known_y’s,known_x’s) şi =slope(known_y’s,known_x’s).
Pentru a 0 : =INTERCEPT(B19:K19,B2:K2)

şi pentru a1 : =SLOPE(B19:K19,B2:K2).
Aceste funcţii se pot tasta, de exemplu în celulele N23, respectiv N24.
Modelul de regresie a populaţiei este E ( y / xi )  66.86  0.25  xi .

4
Coeficientul de determinaţie R2=1 indică faptul că modelul liniar explică
100% variaţia profiturilor lunare, y şi este evident din faptul că s-a efectuat regresia
pe valorile medii ale profiturilor lunare. Coeficientul de corelaţie se poate obţine şi
prin funcţia statistică =correl(array1,array2), aici =CORREL(B2:K2,B19:K19).
Aceleaşi rezultate se pot obţine cu ajutorul tabelei de regresie.
Regresia nu poate utiliza decât blocuri de tip coloană şi de aceea trebuie să se
transpună blocurile linie ale valorilor variabilelor pe verticală. Se poate proceda în
felul următor:
- se selectează blocul B2:K2, al variabilei x;
- se activează operaţia de copiere prin <CTRL/C> sau din meniul Edit / Copy sau
apăsând butonul dreapta al mouse-ului pe blocul selectat şi se alege comanda
Copy;
- se poziţionează cursorul în celula blocului destinaţie, de exemplu în N2;
- se apasă butonul dreapta al mouse-ului şi se alege Paste Special sau din meniul
Edit, comanda Paste Special, unde se bifează Values, pentru a transforma în
valori rezultatul unor formule – pentru variabila x, nu este cazul, acestea fiind
deja valori, rezultate prin editarea lor – şi Transpose, apoi se confirmă prin OK.
Blocul N2:N11 va conţine valorile variabilei x, din Tabelul 1.2.
Pentru transpunerea valorilor medii ale variabilei y se procedează la fel,
selectând blocul B19:K19, se depune blocul transpus în O2:O11, cu menţiunea că la
Paste Special se va bifa Values şi Transpose.
Prin transpunere, funcţiile de calcul ale mediilor din linia 19, =AVERAGE(...), îşi
vor schimba adresele din argumentul lor, obţinându-se nişte valori eronate şi de
aceea, formulele conţinute în celulele B19:K19 trebuie transformate în valori, cu
opţiunea Values.
Pentru că profiturile medii calculate (linia19) se află pe o dreaptă, regresia
între valorile variabilei x şi valorile medii ale variabilei y furnizează nişte parametri,
care utilizaţi în calculul valorilor teoretice corespunzătoare, au ca rezultat valori
identice cu mediile calculate din valorile observate ale variabilei y.
Modelul liniar determină în totalitate, 100%, variaţia acesteia, regresia
exprimând chiar această tendinţă medie de evoluţie a lui y în funcţie de x.
Valorile medii ale profiturilor pe grupe, se află pe dreapta de regresie a
populaţiei, după cum se poate vedea şi pe graficul din Figura 1.3. Valorile teoretice
se obţin prin modelul liniar determinat, în linia 22 din Tabelul 1.2. Dacă, de exemplu,

5
valorile parametrilor a 0 şi a1 se află în celulele N23 şi N24, atunci în celula B22 se
scrie formula =$N$23+$N$24*B2, care se copiază şi pentru restul celulelor
C22:K22. Celulele N23 şi N24, sunt fixate prin folosirea simbolului $, astfel încât
prin copierea formulei în restul celulelor, să nu se schimbe coloanele şi linii. Cum
acestea din urmă nu se schimbă, pentru că se face copierea pe orizontală, formula era
la fel de corectă dacă se scria =$N23+$N24*B2. Se adaugă încă o serie pe graficul
din Figura 1.2, cea a valorilor teoretice din linia 22, şi se obţine graficul din Figura
1.3.
Mediile profiturilor calculate pe grupe de salariaţi se pot abate de la valorile
teoretice ale acestor medii condiţionale, sub influenţa alegerii modelului. Un model
bine ales va minimiza aceste abateri. Acest tip de variaţie a mediilor condiţionale se
datorează factorului de grupare, numărul de salariaţi, variabila explicativă a variaţiei
profiturilor, cea înregistrată, a cărei influenţă este considerată în model. În acest caz
mediile profiturilor calculate pe grupe de salariaţi coincid cu valorile lor teoretice,
aflate pe dreapta de regresie a populaţiei.
Suma celor două tipuri de variaţie: din interiorul grupelor şi dintre variantele
de grupare, reprezintă variaţia totală a profiturilor datorată tuturor factorilor, şi se
exprimă prin totalitatea abaterilor valorilor observate ale profiturilor faţă de nivelul
lor mediu calculat (media mediilor grupelor).
Acţiunea factorilor reziduali apare în modelul liniar de regresie a populaţiei
sub termenul de disturbanţă sau eroare, i, iar la nivel de eşantion, ca reziduu, ei.

S-ar putea să vă placă și