Sunteți pe pagina 1din 378

Lect. dr. ec.

Remus C-tin BUTĂNESCU-VOLANIN


Statistică descriptivă

Sibiu, 2018
Remus BUTĂNESCU-VOLANIN

STATISTICĂ
DESCRIPTIVĂ

EDITURA UNIVERSITĂŢII „LUCIAN BLAGA”


SIBIU, 2018
Copertă şi tehnoredactare: Remus C-tin Butănescu-Volanin

Referenţi ştiinţifici:

Prof. dr. ec. Doina-Maria Simion, Universitatea „Lucian Blaga” din Sibiu

Prof. dr. în ec., ing. Dan Miricescu, Universitatea „Lucian Blaga” din
Sibiu

Prof. dr. ing. și ec. Viorel Bucur, Universitatea „Lucian Blaga” din Sibiu

 Butănescu-Volanin Remus C-tin

Descrierea CIP a Bibliotecii Naţionale a României


BUTĂNESCU-VOLANIN, REMUS
Statistică descriptivă / Remus Butănescu-Volanin. - Ed. a 3-a.
- Sibiu : Editura Universităţii "Lucian Blaga" din Sibiu, 2018
Conţine bibliografie
ISBN 978-606-12-1588-1

519.22
Statistics: The only science that enables different experts using the same
figures to draw different conclusions
(Statistica: Singura ştiinţă care face creează posibilitatea ca, folosind
aceleaşi mijloace, mai mulţi experţi să ajungă la concluzii diferite)

Evan Esar, Esar's Comic Dictionary


(Umorist american, 1899 - 1995)
CUPRINS

Cuvânt înainte 11

CAPITOLUL 1. Locul statisticii în cunoaşterea umană 13

1.1. Rolul statisticii în cunoaşterea umană 15

1.2. Planificarea cercetării statistice 17

1.3. Concepte de bază folosite în statistică 18

1.4. Datele statistice şi scalele de identificare și/sau măsurare


29
a acestora
1.5. Utilizarea calculatorului în prelucrarea şi analiza
32
statistică a datelor

1.6. Observarea statistică 33

1.7. Erorile de observare statistică. Controlul datelor


37
înregistrate

1.8. Prelucrarea primară a datelor statistice 38

1.9. Prezentarea rezultatelor prelucrării primare a datelor 40

CAPITOLUL 2. Exprimarea în mărimi relative a


63
informaţiilor statistice

2.1. Mărimile relative – rezultate ale comparațiilor 65

2.2. Mărimile relative de structură 77

2.3. Mărimile relative de coordonare (corespondenţă) 80

7
2.4. Mărimile relative de dinamică 82

2.5. Mărimile relative de intensitate 83

CAPITOLUL 3. Descrierea statistică a tendinţei centrale:


85
statisticile medii

3.1. Media aritmetică 87

3.2. Media geometrică 99

3.3. Media pătratică 110

3.4. Media armonică 116

3.5. Media generalizată sau media de ordinul "r" 123

CAPITOLUL 4. Descrierea statistică a tendinţei centrale:


125
statisticile de poziţie

4.1. Valoarea mediană 128

4.2. Cuartilele, Decilele şi Centilele (Procentilele) 144

4.3. Valorile modale 146

4.4. Valoarea medială 161

CAPITOLUL 5. Descrierea statistică a variaţiei 167

5.1. Amplitudinea variației statistice 171

5.2. Abaterile individuale 174

8
5.3. Abaterea medie absolută 176

5.4. Varianţa sau dispersia 177

5.5. Relaţia de adunare a varianţelor pentru o distribuție


182
bivariată

5.6. Abaterea medie pătratică sau abaterea standard 187

5.7. Coeficientul de variaţie 189

5.8. Alegerea statisticilor de variaţie 192

5.9. Momentele centrate 193

5.10. Covarianţa 194

5.11. Analiza statistică a tendinței centrale cu ajutorului


199
programului Excel

CAPITOLUL 6. Concentrarea şi diversificarea statistică 203

6.1. Descrierea concentrării pentru variabile statistice


206
cantitative sau calitative

6.2. Descrierea concentrării statistice pentru variabile


214
cantitative cu valori cumulabile

6.3. Statistici ale diversificării 236

CAPITOLUL 7. Descrierea statistică a formei


239
distribuţiilor unimodale: oblicitatea şi kurtosisul

7.1. Statisticile de oblicitate (asimetrie) 241

7.2. Statisticile de kurtosis (aplatizare / boltire) 257

9
CAPITOLUL 8. Descrierea statistică a legăturilor dintre
263
fenomene
8.1. Ce se înțelege prin corelaţia și regresia statistică? 265

8.2. Coeficientul de corelaţie liniară Pearson 265

8.3. Coeficienţi neparametrici pentru descrierea legăturii


272
statistice dintre 2 variabile

8.4. Regresia statistică simplă 277

8.5. Regresia liniară univariată multiplă 304

8.6. Coeficientul de determinare (R2) 312

CAPITOLUL 9. Descrierea statistică a variaţiei în timp 321

9.1. Descrierea statistică a variaţiei cronologice de nivel 324

9.2. Componente ale dinamicii reflectate în seriile


350
cronologice
9.3. Ajustarea variației cronologice prin eliminarea
353
componentei sezoniere (desezonalizarea)

CAPITOLUL 10. Descrierea statistică a variaţiei în spațiu 361

10.1. Seriile de spațiu sau teritoriale – instrumente de bază


367
pentru prezentarea datelor în cadrul statisticii teritoriale

10.2. Descrierea statistică a variaţiei teritoriale de nivel 368

BIBLIOGRAFIE SELECTIVĂ 373

10
Cuvânt înainte

În procesul decizional informația este sângele care irigă şi împinge la


acţiune. Calitatea unei decizii depinde în mare măsură de calitatea şi pertinenţa
informaţiilor folosite. În boomul informaţional din prezent profesionistul este un
homo informationalis și în egală măsură un homo algoritmicus, creator şi
utilizator de modele ştiinţifice, statistice şi econometrice.

Explozia informaţională şi dinamica vieţii economice şi sociale impune


rapiditatea deciziilor, ceea ce accentuează o dată în plus rolul informaţiei în
pregătirea, elaborarea şi aplicarea acestora. Informaţia nu trebuie să reprezinte
un scop în sine, ci o bază pentru fundamentarea deciziilor, în sensul în care
activităţile informaţionale preced, condiţionează şi succed activităţile decizionale.
De aceea informaţiile trebuie să fie utile şi pertinente, fie exacte şi complete,
actuale şi oportune, să fie eficiente economic.

Faţă de toate acestea se impune o bună cunoaştere a statisticii ca principal


spaţiu teoretic şi aplicativ generator de informaţii. Suntem în mod curent
utilizatori şi furnizori de informaţie, fie în viaţa profesională, fie în cea privată,
iar calitatea înţelegerii şi a deciziei fiecăruia depinde de o bună gândire
statistică, de o bună cunoştere şi informare.

Nu mai este o noutate faptul că toate disciplinele ştiinţifice şi toate


domeniile de activitate sunt tributare statisticii. "Într-o zi gândirea statistică va
fi la fel de necesară pentru un cetăţean eficient, ca si abilitatea de a scrie şi a
citi" (H. G. Wells). Şi vremea este a gândi corect statistic-economic. Ce înseamnă
de fapt o găndire statistică? Înseamnă o înţelegere concretă, riguroasă, coerentă,
corectă, rapidă, în context şi în corelaţie, a realităţii economice şi sociale.

Cartea de faţă oferă un conţinut ştiinţific şi aplicativ, bogat şi accesibil,


substanţial şi variat, coerent structurat şi fundamentat, pentru cei ce doresc să
dezvolte găndirea statistică. Cartea se adresează deopotrivă autodidacţilor şi
cercetătorilor ştiinţfici, cât şi studenţilor dornici de aprofundare. Prin felul în
care sunt prezentate în succesiune metodele şi instrumentele statisticii
descriptive, prin stilul elevat, prin exprimarea clară şi precisă, prin abundenţa
de exemple şi aplicaţii practice, ea poate fi un foarte bun fundament teoretic
pentru toate aceste categorii de utilizatori.

Autorul cărţii, pregătit temeinic la înalta şcoală economică românească,


dar mai ales instruit şi format în practica profesiunii, economică şi didactică,
foloseşte un bogat şi variat material documentar şi prezintă cu elocinţă şi într-o
manieră distinsă metode şi instrumente statistice pe care se pot sprijini în
continuare cei ce abordează alte discipline curriculare ca Statistica financiară
sau Econometria.

Prof. univ. dr. Doina Maria Simion


LOCUL STATISTICII ÎN
CUNOAŞTEREA UMANĂ 1.

OBIECTIVELE CAPITOLULUI
Obiectivul principal al acestui capitol este de a-l introduce pe cititor în lumea
statisticii, ajutându-l la:
 înţelegerea rolului statisticii în cunoaşterea umană;
 reţinerea principalelor concepte folosite în statistică;
 conturarea distincţiei dintre preocupările statisticii descriptive şi cele ale
statisticii inferenţiale;
 reţinerea celor 4 scale utilizate în identificarea și/sau măsurarea datelor
statistice, precum și a caracteristicilor fiecăreia dintre aceste scale în parte;
 recunoaşterea cu ușurință a principalele tipuri de reprezentări grafice folosite
în statistică, precum și a situațiilor care le recomandă pe fiecare în parte.

13
14
1.1. Rolul statisticii în cunoaşterea umană.
Metodele statistice de cunoaștere sunt folosite astăzi pe scară foarte largă
și pentru o plajă de aplicabilitate aflată mereu în extindere: sunt supuse
investigației statistice atât fenomene ale naturii, cât și fenomene ale
activității umane, pornind de la cele economice până la cele sociale în
general, dar și la cele de natură tehnică sau psihologică.
Ce anume face ca aplicabilitatea statisticii să fie așa de impresionantă?
Răspunsul la această întrebare este în legătură cu faptul că atât conceptele,
cât şi metodele statistice pot fi aplicate de fiecare dată când este avută în
vedere o anumită generalizare în legătură cu fenomenul studiat.
În ce privește metodele statistice, B. N. Gupta arăta faptul că acestea „sunt
inductive1 prin natura lor, deoarece generalizările rezultă din observații
individuale. [...] Ele pun în evidență numai comportamentul tipic al tuturor
obiectelor luate în studiu, dar nu descriu comportamentul elementelor
luate separat, deoarece există o stabilitate mai mare în colectivitate decât
în individ.”2
Pentru ca investigația statistică să-și dovedească într-adevăr
aplicabilitatea, se impune existenţa următoarelor două condiţii în legătură
cu fenoemenele studiate:
1. Condiţia de volum: considerarea unui număr suficient de
mare de cazuri individuale;
2. Condiţia de justificare a analizei statistice: existenţa unei
variabilități de la un caz la altul, dată de acțiunea unuia sau a mai
multor factori de influență.
Fenomenele statistice, adică fenomenele care constituie obiectul de studiu
al statisticii, se mai numesc și „fenomene de masă”. Acestea sunt
fenomene descrise simultan de proprietăţi care decurg din cele două
condiții enumerate mai sus:
1. Esenţa lor nu poate fi evidenţiată decât pe baza considerării
unui număr suficient de mare de manifestări individuale. De
exemplu, opţiunile de vot ale unui electorat nu pot fi suficient de bine
cunoscute decât prin analiza unui număr suficient de mare de
alegători. De asemenea, preţurile pentru aceleași categorii de mărfuri
variază pe baza comportamentelor unui număr mare de producători şi,

1
Sublinierea noastră.

2
B. N. GUPTA. An Introduction to Modern Statistics. Brokland Private Ltd., Calcutta, 1962, p. 10.
Apud: Alexandru ISAIC-MANIU Constantin MITRUŢ și Vergil VOINEAGU. Statistică. Ediția a 2-a.
Editura Universitară, Bucureşti, 2004, pp. 15-16.

15
respectiv, de consumatori. Aceasta implică faptul că o analiză
serioasă a lor trebuie să fie una statistică. Două prețuri cheie în
economie sunt: cursul valutar, ca expresie a preţului unei monede în
altă monedă, respectiv dobânda pentru un anumit tip de credit, ca
expresie a preţului acestuia pe piaţa împrumuturilor. Din acest motiv,
statisticile privitoare la cursurile valutare și la dobânzi sunt esențiale
pentru analizele macroeconomice.
Legile de manifestare a fenomenelor de masă sunt legi probabilistice,
adică legi care pot fi verificate deplin doar la nivelul întregului
ansamblu de cazuri particulare. Absenţa din câmpul observaţional a
unui număr de cazuri particulare duce, de regulă, la apariţia erorilor
statistice, adică a erorilor cauzate de deficiențe în ce privește
reprezentativitatea statistică.
2. Aceste fenomene înregistrează o anumită variabilitate de la o
manifestare individuală la alta. Variabilitatea fenomenelor de masă se
poate manifesta fie în timp (la nivelul unei singure unităţi statistice),
fie în spaţiu (la acelaşi moment sau pentru aceeaşi perioadă de timp).
Proprietatea variabilităţii fenomenelor statistice rezultă din faptul că
ele sunt supuse influenţei unor factori care acţionează diferit la
nivelul cazurilor particulare ale acestora. De exemplu,
comportamentele producătorilor şi ale consumatorilor pe baza cărora
se formează preţurile diferitelor mărfuri, sunt influenţate de o
multitudine de factori, precum: vârsta, sexul, educaţia, venitul etc.
Această caracteristică a fenomenelor de masă face ca ele să fie
fenomene aleatorii, adică fenomene ale căror manifestări particulare
nu pot fi anticipate cu exactitate, ci doar în termeni de probabilităţi.
Având în vedere aceste proprietăţi ale fenomenelor statistice, se poate
spune că generalizările obţinute pe calea studiului statistic sunt
reprezentări nedeterministe sau de tip stocastic, luând forma aşa-
numitelor „legi statistice”, legi care descriu tendinţe predominante la
nivelul diferitelor cazuri înregistrate pentru fenomenul studiat.
Cea mai importantă lege statistică este legea numerelor mari, formulată
pentru prima dată de către Jacob Bernoulli (1654-1705) în celebra sa
lucrare Ars Conjectandi.
Legea numerelor mari a dobândit în timp rolul unui principiu fundamental
al cercetării statistice, care afirmă că într-un număr suficient de mare de
cazuri individuale, influenţele diverşilor factori se pot compensa, astfel
încât să se ajungă la o anumită valoare tipică, reprezentativă pentru întreg
ansamblul studiat.
Respectarea acestui principiu presupune ca în cercetarea statistică să fie
luat în considerare un număr atât de mare de cazuri individuale (condiţia

16
de volum la care ne-am referit şi mai sus) încât abaterile într-un sens sau
altul determinate de diferițíi factori de influență să se poată compensa.
Statistica nu trebuie confundată cu un simplu domeniu al matematicii, deşi
ea presupune folosirea, într-o proporţie covârşitoare, a instrumentarului
matematic. Acesta din urmă constituie, de altfel, obiectul unei discipline
distincte şi mult mai recente, şi anume cel al statisticii matematice,
„ramură a matematicii care elaborează noţiunile şi metodele folosite în
statistică”3.

1.2. Planificarea cercetării statistice.


Un loc important în cercetarea statistică trebuie acordat etapei de
planificare a acesteia.
Cei care investighează trebuie să fie conştienţi de limitele caracteristice
cercetărilor statistice. Astfel de limite pot fi, de exemplu, cele determinate
de indisponibilitatea tuturor datelor statistice necesare.
Planificarea unei cercetări statistice poate fi sensibil îmbunătăţită dacă este
făcut efortul de plasare nu doar în postura de producători ai rezultatelor
statistice, ci şi în aceea de consumatori ai acestora. În acest fel, se pot
identifica mai bine factorii relevanţi care trebuie studiaţi pentru obţinerea
statisticilor care descriu obiectivele de cunoaştere fixate, factori pe baza
cărora se vor putea defini criteriile de observare statistică, adică
variabilele statistice.
Să presupunem, de pildă, că dorim să răspundem la întrebarea: Sunt
bărbaţii şoferi mai buni decât femeile sau invers? În acest caz, ar fi
incorect să încercăm să căutăm răspunsul analizând ratele accidentelor de
maşină pe o anumită perioadă, pentru a compara rata accidentelor
provocate de bărbaţi cu rata accidentelor provocate de femei 4. Pentru o
concluzie corectă sunt necesare mai multe criterii. Astfel, accidentele nu
sunt determinate doar de abilitatea de a conduce. Un alt factor important în
producerea accidentelor este, de pildă, înclinaţia de expunere la risc, care
este, in general, mai mare la bărbaţi decât la femei5. Aceasta înseamnă că

3
Cf. Dicţionarului explicativ al limbii române, Academia Română, Institutul de Lingvistică "Iorgu
Iordan", Editura Univers Enciclopedic, ediţia 1998, http://dexonline.ro/

4
Conform studiului TrafficSTATS 2007, bărbații sunt cu 77% mai mult decât femeile implicați în
accidente. Studiul include informații FARS (Fatality Analysis Reporting System) și National Household
Travel Survey, având ca suport de analiză peste 100 de milioane de călătorii. Numărul bărbaților decedați
în urma unui accident de mașină, pe o perioadă de 6 ani, a fost dublu în comparație cu cel al femeilor.
Cf.: https://www.i-asigurare.ro/blog/sunt-barbatii-mai-buni-soferi-decat-femeile/ (accesat: 12 octombrie
2017)
5
http://www.psychologies.ro/cunoaste-te/femeile-sunt-mai-reticente-la-risc-decat-barbatii-2139736
(accesat: 12 octombrie 2017)

17
este posibil ca rata mai mare de accidente produse de bărbați să aibă ca și
cauză principală înclinația mai mare a acestora de a se expune la risc și nu
presupusa abilitate mai redusă a acestora de a conduce6.

1.3. Concepte de bază folosite în statistică.


Statistica şi-a elaborat pe parcursul dezvoltării sale un limbaj specific. În
continuare vor fi prezentate conceptele de bază cu care operează statistica.

Colectivitatea şi unitatea statistică


Colectivitatea statistică reprezintă o mulţime de elemente a căror
observare este necesară pentru obţinerea informaţiilor statistice dorite.
Prin observarea statistică a acestor elemente, se obțin date statistice a căror
prelucrare poate genera informaţii statistice de interes.
Definirea colectivităţii statistice trebuie să asigure stabilirea explicită a
naturii şi întinderii mulţimii de date pe baza cărora se vor trasa concluziile
cercetării statistice. De aceea este necesar ca în cadrul etapei de planificare
a cercetării statistice să fie precizate cu cât mai mare exactitate graniţele
care definesc în timp şi spaţiu colectivitatea statistică. Aceste graniţe se
stabilesc în funcţie de informaţiile care constituie scopul realizării
cercetării statistice.
În tabelul 1.1 sunt prezentate câteva exemple de colectivități statistice
definite corespunzător informaţiilor statistice dorite.
Colectivităţile statistice pot fi abordate static sau dinamic. Abordarea
statică este cea prin care colectivitatea statistică este studiată doar la un
anumit moment sau pentru o anumită perioadă de timp. În cadrul abordării
dinamice, colectivitatea statistică este observată pe parcursul timpului
pentru a se putea surprinde evoluţia acesteia din perspectiva
caracteristicilor de interes ale acesteia.
Colectivitățile statistice considerate la un moment dat pot fi unele totale
(populații statistice) sau parțiale (eșantioane statistice).
O populație statistică cuprinde toate elementele de la care sunt necesare
date pentru obținerea informațiilor dorite.
Un eșantion statistic cuprinde doar o parte din elementele unei populații
statistice.

6
În realitate, este un fapt binecunoscut acela că bărbații au o abilitate mai mare de a șofa întrucât se pot
orienta mai bine în spațiu. A se vedea, de pildă: http://www.descopera.ro/dnews/13577917-de-ce-
barbatii-se-orienteaza-in-spatiu-mai-bine-decat-femeile-motivul-e-cu-totul-altul-decat-se-credea (accesat:
13 octombrie 2017)

18
Tabelul 1.1 Exemple de colectivităţi statistice
Informaţia statistică dorită Colectivitatea statistică
Cele 378 de școli private
Numărul mediu de elevi al școlilor
care erau funcționale în
private din România la sfârșitul anului
România la sfârșitul anului
2016
20167
Câștigul salarial mediu (brut sau net) la Cei 4,902 milioane salariați
nivelul României în luna februarie înregistrați în România în
2018 luna februarie 20188
Ponderea Societăților cu Răspundere
Cele 98567 Societăți
Limitată (S.R.L.) în totalul Societăților
Comerciale înmatriculate în
Comerciale înmatriculate în România
România în 20179
în 2017

Cele 3617 căsătorii


Numărul de căsătorii cu diferențe de încheiate în anul 2017 la
vârstă între viitorii soți de peste 10 ani, Serviciul de Stare Civilă din
încheiate în Iași în anul 2017 cadrul Direcţiei Locale de
Evidenţă a Populaţiei Iași10
Traficul mediu de pasageri pentru
Aeroporturile internaţionale
primele 10 aeroporturi din topul ACI
participante la topul ACI din
(Airports Council International) în
201711
2017

7
Cf.: Ziarul Financiar, 5 septembrie 2018, https://www.pressreader.com/romania/ziarul-
financiar/20180905 (accesat în 5 septembrie 2018).

8
Cf.: Ziarul Financiar, 1 mai 2018, https://www.pressreader.com/romania/ziarul-financiar/20180501
(accesat în 2 mai 2018).

9
A se vedea datele publicate de Oficiul Național al Registrului Comerțului,
https://www.onrc.ro/statistici/2017/decembrie/inmatriculari%20de%20persoane%20fizice%20si%20jurid
ice%202017.xls (accesat în 19 aprilie 2018).

10
Cf.: https://www.ziaruldeiasi.ro/stiri/anul-trecut-au-fost-mai-multe-casatorii-fata-de-2016--187335.html
(accesat în 18 aprilie 2018).

11
A se vedea: http://www.aci.aero/Data-Centre

19
Tabelul 1.1 Exemple de colectivităţi statistice (continuare)
Informaţia statistică dorită Colectivitatea statistică
Valoarea medie a despăgubirilor Cei 7785 de proprietari de
acordate proprietarilor de porci din porci despăgubiți în 2018
România în 2018 până la data de 1 până la data de 1 noiembrie
noiembrie pentru acoperirea pierderilor în urma deciziilor de
apărute în urma măsurilor adoptate sacrificare luate pentru
pentru oprirea extinderii pestei pornice stoparea extinderii pestei
în România pornice în România12

Elementele unei colectivităţi statistice sunt denumite unităţi statistice și


ele pot fi simple, adică indivizibile (de exemplu, studenții din cadrul unei
universități, angajații din cadrul unei firme, cetățenii cu drept de vot dintr-
o anumită localitate, produsele obținute pe o linie de fabricație etc.) sau
complexe, adică ansambluri organizate de unități simple (de exemplu,
grupele sau semigrupele de studenți dintr-o facultate, colectivele de muncă
dintr-o întreprindere, familiile sau gospodăriile dintr-o localitate, loturile
de produse fabricate într-o unitate industrială etc.).
Datorită rolului lor aparte jucat în organizarea corespunzătoare a datelor
statistice, deseori se întâlnesc în investigația statistică următoarele două
tipuri de unități statistice:
- de timp (cronologice): ani (a se vedea, de exemplu, tabelele 1.4 și 1.5),
luni (a se vedea, de exemplu, tabelele 1.2, 1.3 și 1.6), zile etc.
- de spațiu (teritoriale): continente (a se vedea, de exemplu, tabelul 1.10)
țări (a se vedea, de exemplu, figurile 1.5, 1.6 și 1.7), regiuni geografice,
județe, orașe etc.
Uneori unitățile statistice organizatorice pot îndeplini simultan și funcția
unor variabile statistice (așa cum se poate vedea în figura 1.1). De pildă,
poate fi de un mare interes pentru efortul de predicție a fenomenelor
statistice definirea unor anumite variabile cronologice.

Variabilele (caracteristicile) şi repartiţiile statistice


Variabilele sau caracteristicile statistice sunt criteriile de interes după
care unităţile statistice sunt supuse studiului statistic. Se numesc aşa
deoarece pot înregistra mai multe variante de la o unitate statistică la alta.

12
Cf.: Lidia TRUICĂ. Molimele animalelor bântuie România. În: Reporter Global, nr. 23, 9-15
noiembrie 2018, p. 42, https://reporterglobal.ro/molimele-animalelor-bantuie-romania/ (accesat în 9
noiembrie 2018) .

20
O problemă importantă în cercetarea statistică o reprezintă stabilirea listei
de variabile după care se studiază colectivitatea statistică. În această listă
trebuie să apară doar variabilele care răspund direct obiectivului propus.
În figura 1.1 este prezentată clasificarea variabilelor statistice în funcţie de
natura lor.

de timp (cronologice)
organizatorice binare sau dihotomice
de spaţiu (teritoriale) (cu 2 variante de tip
„atribut”); o categorie
aparte este cea a
nominale
variabilelor binare de
(au variante de tip
tipul DA / NU)
“atribut“, între care nu
calitative există o relaţie de
(nenumerice) ordine) multinominale (cu mai
Variabile
mult de 2 variante)
statistice ordinale
(cu variante aflate într-o
relaţie de ordine)

discontinue
(cu valori în salturi)
cantitative
(numerice) continue
(definite deseori pe
intervale)

Figura 1.1 Clasificarea variabilelor statistice

Variabilele organizatorice au fost deja menționate și descrise (în cadrul


prezentării unităților statistice organizatorice) în paragraful anterior.
Variabilele binare sau dihotomice sunt variabile calitative nominale
definite prin două variante. Variabile binare mai des întânite sunt:
- mediul, cu variantele urban și rural;
- sexul, cu variantele masculin și feminin;
- starea civilă, cu variantele căsătorit și necăsătorit.
O categorie aparte de variabile binare este cea a variabilelor de tipul DA /
NU. Cu ajutorul unor astfel de variabile se poate cerceta gradul de
manifestare al unui fenomen. De exemplu, gradul de participare la anumite
alegeri electorale sau la un referendum poate fi măsurat prin luarea în
considerare a unei variabile statistice de tipul DA (participare) / NU
(neparticipare).
Variabilele multinominale sunt variabile calitative nominale definite prin
mai mult de două variante. Un exemplu îl poate sursele de generare a
producției de energie electrică, variabilă considerată în figurile 1.12 și
21
1.13, cu ajutorul cărora este prezentată structura acestei producții pentru
România în data de 29 martie 2018, ora 18:45:02. Cele șapte variante care
definesc această variabilă, după cum reiese din aceste figuri, sunt:
- hidro;
- cărbune;
- hidrocarburi;
- nuclear;
- biomasă;
- foto;
- eolian.
Variabilele ordinale sunt variabile definite de variante între care există o
relație de ordine. Un exemplu este variabila „calitate” cu variantele: I, II,
III etc. Trebuie subliniat faptul că aceste variante nu sunt unele cantitative,
fiind vorba despre o ierarhie a calității și nu despre o măsurare exactă a
acesteia. Deseori se folosesc variabile ordinale în cercetările privind
atitudinea manifestată în rândul persoanelor chestionate în legătură cu un
anumit subiect. Astfel de variabile sunt construite conform scalei
psihometrice Likert13, definite prin următoarele 5 variante:
1. puternic dezacord;
2. dezacord;
3. neutru;
4. acord;
5. puternic acord.
După cum se poate vedea, între aceste variante există o relație de ordine
privind acordul în legătură cu un subiect în discuție.
Variabilele cantitative pot fi definite ca variabile discontinue (sau
„discrete”) fie ca urmare a naturii fenomenelor în legătură cu care se
realizează cercetarea statistică, fie din considerente izvorâte din
caracteristicile colectivității statistice avute în vedere în cadrul cercetării
statistice. Un exemplu de variabilă cantitativă discontinuă din cadrul
primei categorii este variabila „număr de copii” avută în vedere în tabelul
3.1. Variantele numerice care definesc această variabilă sunt doar valori

13
Denumirea acestei scale vine de la numele psihologului social Rensis LIKERT (1903-1981), care a
conceput-o în 1932 (cf.: Ankur JOSHI, Saket KALE, Satish CHANDEL și D. K. PAL. Likert Scale:
Explored and Explained. British Journal of Applied Science & Technology 7(4): 396-403, 2015, p. 397,
http://www.journalrepository.org/media/journals/BJAST_5/2015/Feb/Joshi742014BJAST14975_1.pdf -
accesat în 31 octombrie 2018).

22
întregi (prin urmare, sunt valori în salturi): 0, 1, 2, 3 și 4. Astfel de
variabile cantitative discontinue sunt totodată și variabile numărabile.
Un exemplu de variabilă cantitativă discontinuă din cadrul celei de-a 2-a
categorii menționate este variabila „vârstă” definită în ani împliniți,
variabilă la care se poate apela atunci când colectivitatea statistică este una
la nivelul căreia vârsta nu înregistrează valori pe o plajă mare de variație.
Pentru ilustrarea variabilelor cantitative continue, definite pe intervale,
putem să ne oprim asupra variabilei „vechime în muncă” luată în
considerare în tabelul 1.7 și figurile 1.15 și 1.16. În acest exemplu,
intervalele prin care sunt definite variantele variabilei statistice sunt egale
între ele.
În situația în care criteriul de omogenitate/eterogenitate a valorilor
înregistrate impune acest lucru, variantele statistice pot fi construite sub
forma unor intervale neegale. Lungimile acestor intervale vor fi stabilite în
așa fel încât să se asigure, pe cât este posibil, un grad corespunzător de
omogenitate a valorilor înregistrate pentru fiecare dintre aceste intervale
(este de dorit ca valorile de pe fiecare interval să fie cât mai puțin
eterogene14).
Sunt situații în care o variabilă cantitativă este definită pe anumite
intervale de variație în ciuda faptului că fenomenul avut în vedere nu este
caracterizat prin continuitate. Se optează pentru această modalitate ca
urmare a reducerii considerabile a efortului de culegere și de prelucrare
statistică fără o pierdere semnificativă în ceea ce privește precizia
rezultatelor urmărite în cadrul investigației desfășurate. Un exemplu în
acest sens îl poate constitui variabila „număr de vizite medicale făcute la
medicul de familie pe parcursul unui an calendaristic”. Această variabilă
este una numărabilă, cu ajutorul căreia se caracterizează un fenomen cu o
variație discontinuă. Totuși, în scopul reducerii efortului de culegere și
prelucrare a datelor statistice se poate opta pentru definirea ei pe un
anumit număr de intervale (de la 0 la 4 vizite pe an; de la 5 la 9 vizite pe
an etc.).
În descrierea statistică a fenomenelor sau însușirilor caracterizate prin
continuitate nu se poate pretinde respectarea întocmai a criteriului de
precizie numerică (de pildă, înălțimea sau greutatea unei persoane sunt
mărimi continue, ale căror valori nu pot fi niciodată exprimate cu
exactitate absolută).

14
Dacă, de exemplu, pe un anumit interval se observă, în cadrul unei cercetări preliminare, o concentrare
a valorilor în două regiuni diferite ale acestuia, este de preferat ca intervalul să fie împărțit corespunzător
în două subintervale care vor constitui noi variante ale variabilei statistice în cauză. Pentru exemplul dat
(variabila „vechime în muncă” considerată în tabelul 1.7 și figurile 1.15 și 1.16), vor rezulta astfel în
locul unui interval de 5 ani două subintervale de câte 2,5 ani.

23
Frecvenţele statistice sunt măsuri ale intensităţii de manifestare a
varianteler care definesc variabilele statistice considerate. O frecvenţă
statistică se poate exprima fie într-o formă absolută, indicând numărul de
apariţii sau de manifestări pentru varianta considerată, fie într-o formă
relativă, prin raportarea mărimii ei absolute la alte mărimi de interes (cel
mai des la numărul total de apariţii sau manifestări considerate pentru
fenomenul studiat).
Șirul de variante pe care le înregistrează o variabilă statistică la nivelul
tuturor unităţilor statistice dintr-o colectivitate statistică, împreună cu şirul
de frecvenţe statistice înregistrate pentru fiecare dintre aceste variante se
numeşte distribuţie sau repartiţie statistică de frecvențe. Exemple de
astfel de distribuții sunt prezentate în tabelele 1.2 și 1.3 (este vorba despre
distribuțiile vânzărilor de autoturisme autohtone înregistrate în România în
anii 2013 și 2017).

Tabelul 1.2 Distribuţiile de frecvenţe absolute şi relative ale vânzărilor


de autoturisme autohtone înregistrate în România în anul 201315
Luna Frecvenţe absolute Frecvenţe relative
Ianuarie 729 729 / 20908 = 3,49%
Februarie 1114 5,33%
Martie 1490 7,13%
Aprilie 1389 6,64%
Mai 1230 5,88%
Iunie 1688 8,07%
Iulie 2790 13,34%
August 1795 8,59%
Septembrie 2447 11,70%
Octombrie 2380 11,38%
Noiembrie 1828 8,74%
Decembrie 2028 9,70%
Total 20908 100,00%

În afara distribuţiilor statistice empirice (reale sau experimentale), în


cercetarea statistică se folosesc şi distribuţiile statistice teoretice sau
probabilistice. Pentru o distribuție probabilistică, şirului de variante ale
variabilei statistice îi este asociat şirul de probabilităţi de apariţie.

15
Sursa datelor: APIA (Asociaţia Producătorilor şi Importatorilor de Automobile),
http://www.apia.ro/wp-content/uploads/2014/05/2013-12-Analize.pdf (accesat: 30 mai 2018)

24
Dacă nu se prevăd modificări esenţiale în evoluţia lunară a vânzărilor de
autoturisme autohtone pentru anul 2018, distribuţia frecvenţelor relative
înregistrate în anul 2017 poate fi considerată ca fiind totodată o distribuţie
probabilistică a vânzărilor de autoturisme autohtone pentru anul 2018.

Tabelul 1.3 Distribuţiile de frecvenţe absolute şi relative ale vânzărilor


de autoturisme autohtone înregistrate în România în anul 201716
Luna Frecvenţe absolute Frecvenţe relative
Ianuarie 1345 1345 / 36601 = 3,67%
Februarie 1722 4.70%
Martie 2425 6.63%
Aprilie 2102 5.74%
Mai 3527 9.64%
Iunie 5659 15.46%
Iulie 3446 9.42%
August 2013 5.50%
Septembrie 3614 9.87%
Octombrie 4085 11.16%
Noiembrie 3306 9.03%
Decembrie 3357 9.17%
Total 36601 100,00%

Statisticile (sau indicatorii statistici)


Statisticile (sau indicatorii statistici) sunt valori reprezentative pentru
colectivităţile statistice studiate, obţinute prin diverse operaţii numerice
(de calcul, cumulare, agregare etc.).
Statisticile descriptive se pot clasifica în:
 statistici pentru descrierea tendinţei centrale – statistici medii
(media aritmetică, media geometrică etc.), statistici de poziție
(valoarea mediană, valoarea sau valorile modale etc.), statistici de
variaţie în jurul tendinţei centrale (amplitudinea, abaterea medie
pătratică, dispersia sau varianţa, coeficientul de variaţie etc.);
 statistici ale concentrării/diversificării (abaterea medială-
mediană, indicele de concentrare Gini, energia informaţională
Onicescu etc.);

16
Sursa datelor: APIA (Asociaţia Producătorilor şi Importatorilor de Automobile),
http://www.apia.ro/wp-content/uploads/2018/02/2018-01-Analize.pdf (accesat: 30 mai 2018)

25
 statistici pentru caracterizarea formei distribuţiilor
unimodale (coeficienţii de oblicitate şi kurtosis propuși de Karl
Pearson (1857-1936), coeficienţii de oblicitate şi kurtosis propuși de
Ronald Aylmer Fisher (1890-1962) etc.);
 statistici de corelaţie (covarianţa, coeficientul de corelaţie
liniară, coeficientul de determinare, coeficientul de corelaţie
neparametrică Kendall, coeficientul de corelaţie neparametrică
Spearman etc.).

Statistica descriptivă
Metodele statisticii descriptive răspund nevoilor de descriere a unei
colectivităţi de unităţi statistice prin valorile lor reprezentative, adică prin
statistici.
Fac obiectul descrierii statistice acele experienţe care sunt în legătură cu
fenomene care nu sunt caracterizate de o uniformitate sistematică.
În măsura în care se poate discerne o regularitate în derularea unui
fenomen, recursul la descrierea statistică a acestuia nu mai este necesar17.
De exemplu, scopul statisticii demografice privind durata medie de viaţă a
unei populaţii nu este acela de a evidenţia faptul că toţi oamenii sunt
muritori, ci de a informa în legătură cu lungimea vieţii umane, a cărei
magnitudine, nu este, conform observaţiilor statistice, uniformă.
Pentru obţinerea statisticilor prin care se pot descrie colectivităţile
statistice studiate este necesară parcurgerea următoarelor două etape:
 centralizarea datelor obţinute în urma observărilor statistice;
 prelucrarea datelor centralizate cu ajutorul tehnicilor de calcul
statistice.
În urma centralizării datelor statistice se obţin statisticile primare, iar prin
prelucrarea, cu ajutorul tehnicilor de calcul statistice, a statisticilor
primare, se obţin statisticile derivate.
Atât statisticile primare, cât şi statisticile derivate, sunt expresii numerice
ale fenomenelor studiate statistic.
Statisticile primare descriu în mărimi absolute fenomenele studiate,
exprimând direct nivelurile cantitative ale variabilelor studiate. Ele se pot
determina global sau prin cumulare treptată. Centralizarea la nivelul
întregii colectivităţi statistice este calea obţinerii statisticilor primare
globale, iar centralizarea la nivelul grupelor colectivităţii statistice asigură
obţinerea statisticilor primare cumulate.

17
Ludwig von Mises, The Ultimate Foundation of Economic Science, Van Nostrand Edition, 1962, p. 55.

26
Statisticile primare se exprimă în unităţile de măsură specifice variabilelor
studiate (bucăţi, kilograme, metri etc.). Cu ajutorul lor se pot face doar
aprecieri globale privind fenomenele studiate.
Statisticile derivate sunt necesare pentru evidenţierea tendinţelor specifice
(care interesează în cercetările întreprinse) manifestate la nivelul
colectivităţilor statistice studiate.
Pentru cunoaşterea multilaterală, din punct de vedere statistic, a
fenomenelor, este necesară utilizarea combinată a statisticilor absolute
(primare) şi a celor derivate.
Am ales pentru exemplificare statisticile primare privind natalitatea,
mortalitatea şi sporul natural pentru anii 2010-2016, centralizate la nivelul
Institului Naţional de Statistică din România. Acestea sunt prezentate în
tabelul 1.4.
Se poate observa că pe baza statisticilor primare din coloanele 2 (număr
născuți-vii) și 4 (număr decedați) ale acestui tabel au fost calculate în
coloanele 3 și 5 statisticile derivate privind variațiile anuale ale acestora.
De asemenea, în coloanele 6 și 7 au fost determinate statistici derivate
privind sporul natural (dat de diferența dintre numărul de născuți-vii și
numărul de decedați dintr-un anumit an).
În acest fel s-au putut obține, de pildă, următoarele informaţii
suplimentare:
- în anul 2015 s-a înregistrat un număr de născuţi-vii mai mic cu
1249 faţă de anul 2014 (197491 – 198740 = -1249);
- în anul 2015 s-a înregistrat un număr de decedaţi mai mare cu 6329
faţă de anul 2014 (261294 – 254965 = +6329);
- scăderea numărului de născuţi-vii în paralel cu creșterea numărului
de decedați în anul 2015 față de anul 2014, a determinat în această
perioadă o creştere a sporului natural negativ cu 7578 (de la -
56225 în 2014 acesta a ajuns la -63803 în 2015);
- în anul 2016 s-a înregistrat un număr de născuţi-vii mai mic cu
9076 faţă de anul 2015 (188415 – 197491 = -9076);
- în anul 2016 s-a înregistrat un număr de decedaţi mai mic cu 4818
faţă de anul 2015 (256476 – 261294 = -4818);
- scăderea mai accentuată a numărului de născuţi-vii față de scăderea
numărului de decedați în anul 2016 față de anul 2015, a determinat
în această perioadă o creştere a sporului natural negativ cu 4258
(de la -63803 în 2015 acesta a ajuns la -68061în 2016).

27
Tabelul 1.4 Statistici ale Institului Naţional de Statistică din România
privind natalitatea, mortalitatea şi sporul natural pentru anii 2010-
201618
Variaţie Variaţie Variaţie
Număr
față de Număr față de Spor față de
Anul născuţi-
anul decedaţi anul natural anul
vii
precedent precedent precedent

2010 212199 - 259723 - -47524 -

2011 196242 -15957 251439 -8284 -55197 -7673

2012 180714 -15528 253716 2277 -73002 -17805

2013 188589 7875 247475 -6241 -58876 14116

2014* 198740 10151 254965 7490 -56225 2661

2015 197491 -1249 261294 6329 -63803 -7578

2016** 188415 -9076 256476 -4818 -68061 -4258

* Date revizuite
** Date semidefinitive

Statistica inferenţială
Statistica modernă s-a dezvoltat mai ales prin apariţia şi dezvoltarea
metodelor de investigare parţială. Metodele de investigare statistică
parţială sunt metode ale aşa-numitei statistici inferenţiale.
Statistica inferenţială îşi propune să caracterizeze colectivitatea statistică
studiată prin observarea doar a uneia sau mai multor părţi ale acesteia,
denumite eşantioane. Bineînţeles, o astfel de caracterizare nu poate fi
decât una estimativă, valorile statistice obţinute la nivel de eşantion
statistic fiind denumite estimatori statistici. Estimarea statisticilor la
nivelul unei colectivități prin intermediul unor astfel de metode se numeşte
inferenţiere statistică (figura 1.2).

18
Anuarul statistic al României pentru anul 2017, capitolul 2, „Populaţie”, tabelul 2.8, „Mișcarea naturală
a populației”, p. 70,
http://www.insse.ro/cms/sites/default/files/field/publicatii/anuarul_statistic_al_romaniei_carte_ro.pdf
(accesat în 29 august 2018)

28
Estimarea
statisticii 

EŞANTION la
POPULAŢIE nivelul căruia se
descrisă de determină
statistica  estimatorul

SELECŢIA
aleatoare a unui
eşantion şi
calculul unei
estimator al
statisticii 

Figura 1.2 Inferenţierea statistică

Eşantionul este o parte din întregul definit de o colectivitate statistică,


parte care, atunci când este corect constituită (adică ţinând cont de
principii statistice izvorâte din teoria selecţiei), este suficient de
reprezentativă pentru întreaga colectivitate statistică din care provine.

1.4. Datele statistice şi scalele de identificare și/sau măsurare a


acestora
Pentru a fi complete, datele statistice trebuie să conţină următoarele
elemente:
 noţiunea, care precizează fenomenul sau procesul la care se referă data
statistică;
 identificatorii – de spaţiu, de timp etc.;
 valoarea numerică însoţită, dacă este cazul, de unitatea de măsură.
De exemplu, pentru data statistică “salariul mediu nominal net în luna
august 2018, la nivelul României, a fost de 2669 RON”19 noţiunea este
“salariul mediu nominal net”, identificatorul de spaţiu este “România”,
identificatorul de timp este “luna august, 2018” iar valoarea numerică este
“2669”, cu unitatea de măsură “RON”. Dacă ne referim, mai departe, la
data statistică “salariul mediu nominal net în industria extractivă pentru
luna august 2018, la nivelul României, a fost de 3683 RON”20, putem

19
Cf: http://www.insse.ro/cms/sites/default/files/com_presa/com_pdf/cs08r18.pdf (comunicat de presă
publicat online în 9 octombrie 2018)

20
Cf.: http://www.insse.ro/cms/sites/default/files/com_presa/anexa_date/cs08r18.xls (accesat: 10
octombrie 2018)

29
evidenţia, de această dată, pentru aceeaşi noţiune (“salariul mediu nominal
net”), trei identificatori: unul de timp (“luna august, 2018”), unul de spaţiu
(“România”) şi unul organizatoric, de detaliere (“industria extractivă”).
Datele statistice sunt purtătoare de informaţii statistice, acestea din urmă
constând în mesajele semnificative oferite de datele statistice.
În funcție de posibilitatea de identificare și/sau măsurare a lor, datele
statistice se pot clasifica în:
 date statistice nominale;
 date statistice ordinale;
 date statistice de tip interval;
 date statistice raţionale.

Scala nominală de identificare a datelor


Variabile calitative sunt, așa cum s-a arătat mai sus, variabile
nemăsurabile. Aceasta înseamnă că variantele care descriu aceste
variabile constau în diferite atribute sau însușiri și nu în cantități.
Pentru ușurarea prelucrării datelor statistice, acestor atribute li se pot atașa
anumite valori numerice, care joacă însă întotdeauna doar rolul unor
coduri, care pot fi utilizate doar în realizarea unor clasificări ale datelor
colectate.
Să considerăm, de pildă, variabila “profesie”, cu următoarele 4 variante: 1.
profesor; 2. avocat; 3. medic; 4. altele. Valorile numerice 1, 2, 3 şi 4
desemnate pentru variante nu pot fi folosite decât pentru clasificarea
acestora.
Tehnicile statistice care răspund analizei unor astfel de date sunt, prin
urmare, foarte limitate.

Nivelul de măsurare ordinală a datelor


Acest nivel de măsurare este superior nivelului nominal din punctul de
vedere al puterii de prelucrare a datelor. Astfel, pe acest nivel de măsurare
a datelor se pot efectua, pe lângă clasificări, şi ordonări ale datelor.
Ca exemplu, să considerăm variabila statistică “calitate”, definită de
următoarele 5 variante: 1. Foarte rea; 2. Rea; 3. Medie; 4. Bună; 5. Foarte
bună.

30
După cum se observă, valorile numerice asociate variantelor pot fi folosite
atât pentru clasificarea datelor, cât şi pentru ordonarea acestora.

Nivelul de măsurare pe intervale a datelor


Nivelul de măsurare pe intervale este superior nivelurilor prezentate
anterior, prin faptul că între valorile numerice asociate variantelor
variabilelor statistice sunt distanţe egale (intervale), ceea ce dă
posibilitatea utilizării de tehnici statistice suplimentare pentru astfel de
date statistice.
Variabila pe care o alegem ca exemplu este “temperatura”, având ca şi
variante valorile numerice ale scării Celsius.
Pentru astfel de date nu sunt însă disponibile operaţiile aditive sau
multiplicative între variante.

Nivelul de măsurare raţională al datelor


Faţă de nivelul de măsurare pe intervale, acestui nivel îi este caracteristică
în plus existenţa unei valori numerice nule, a unui “zero absolut”.
Întrucât, în aceste condiţii devin disponibile şi operaţiile aditive sau
multiplicative, nivelul de măsurare raţională a datelor este cel mai înalt
nivel de măsurare.

Raţional

Interval

Ordinal

Nominal

Figura 1.3 Potenţialul de analiză statistică pentru cele 4 niveluri de


măsurare a datelor statistice

Nivelurile de măsurare şi tehnicile statistice corespunzătoare.


Tehnicile statistice se pot împărţi în:

31
 tehnici parametrice;
 tehnici neparametrice.
 Tehnicile parametrice cer ca datele să fie aflate pe nivelurile de
măsurare raţională sau pe intervale. Dacă datele se află pe niveluri de
măsurare inferioare – ordinală sau nominală – atunci sunt disponibile
doar tehnicile statistice neparametrice, care pot fi folosite şi pentru date
aflate pe nivelurile de măsurare superioare.
 În figura 1.3 este sugerat potenţialul de analiză statistică pentru cele 4
niveluri de măsurare a datelor. Desigur, nivelul raţional este
caracterizat de potenţialul maxim de prelucrare şi analiză statistică.

1.5. Utilizarea calculatorului în prelucrarea şi analiza


statistică a datelor
Dezvoltarea deosebită a calculatoarelor a deschis multe oportunităţi noi
pentru activitatea de prelucrare şi de analiză statistică a unui volum din ce
în ce mai mare de date necesare în activităţile umane.
Calculatorul permite stocarea, regăsirea şi transferul rapid a unei mari
cantităţi de date.
În ultimii ani s-au dezvoltat programe tot mai sofisticate dedicate acestor
scopuri.
Anumite tehnici statistice, foarte utile în luarea deciziilor pe care le
implică desfăşurarea corespunzătoare a activităţilor umane, sunt în acelaşi
timp foarte greoaie şi plictisitoare, predispunând la multe greşeli în ce
priveşte calculele realizate manual sau chiar cu ajutorul unor
minicalculatoare. Acest fapt a făcut ca aceste tehnici să fie folosite practic
de puţini utilizatori înainte de dezvoltarea şi utilizarea pe scară largă a
calculatoarelor.
Astăzi sunt disponibile însă multe pachete software dedicate prelucrării şi
analizei statistice.
Printre cele mai cunoscute pachete software dedicate prelucrării şi analizei
statistice se pot menţiona: SPSS; STATISTICA; JMP (SAS); EViews;
STATA; Minitab etc.
Alături de aceste pachete dedicate, se pot folosi şi pachete software de tip
"spreadsheet", adică pentru "calcul tabelar", dintre care cel mai cunoscut şi
folosit este EXCEL.
Foarte utile pot fi şi aplicaţiile statistice on-line. Astfel, pe site-ul aflat la
adresa http://www.statistics.com se pot găsi diverse mici aplicaţii
statistice, o mare parte dintre acestea fiind oferite gratuit spre descărcare şi
instalare. La adresa http://www.wessa.net se poate folosi un foarte
32
puternic calculator statistic on-line. De asemenea, la adresa
http://ncalculators.com/statistics/ se pot găsi calculatoare pentru cele mai
importante statistici.

1.6. Observarea statistică


Cercetarea statistică se desfăşoară în următoarele trei etape:
 observarea statistică, adică culegerea datelor statistice;
 prelucrarea datelor obţinute în faza precedentă;
 analiza şi interpretarea rezultatelor obţinute în urma prelucrării.
Aceste etape trebuie abordate împreună, ca un tot unitar, asigurându-se
astfel premisa reducerii riscului unor erori de culegere, prelucrare sau
analiză statistică.
Pentru a putea satisface corespunzător necesităţile de cercetare statistică,
observarea statistică trebuie să îndeplinească două condiţii:
 condiţia de volum, care presupune culegerea datelor de la toate
unităţile care compun colectivitatea sau eşantionul statistic, aşa cum au
fost definite acestea în etapa de planificare statistică;
 condiţia de calitate, care presupune înregistrarea de date autentice,
reale.
După modul de organizare a lor în timp, observările statistice se pot
clasifica în:
 observări permanente (cum sunt, de exemplu, cele realizate prin
raportările statistice din cadrul Sistemelor Informaţionale Statistice,
SIS, Naţionale);
 observări fără caracter permanent, cum sunt recensămintele,
anchetele, monografiile statistice etc.
După numărul unităţilor supuse observării, observările statistice se pot
împărţi în:
 observări totale – în urma cărora se obţin date de la toate unităţile care
compun colectivitatea statistică ţintă (recensăminte, rapoarte statistice
etc.);
 observări parţiale (observări prin sondaj sau prin selecţie) – prin care
se culeg date doar de la o parte (eşantion) din unităţile care compun
colectivitatea statistică ţintă.
Principalele metode de observare statistică sunt:
 recensământul;

33
 raportarea statistică;
 sondajul sau selecţia statistică;
 ancheta statistică;
 observarea părţii principale (panelul);
 monografia statistică.

Recensământul
Recensământul este cea mai veche metodă de observare statistică,
constând în culegerea periodică de date statistice de la toate unităţile care
compun colectivitatea statistică ţintă.
Caracterul periodic (de exemplu, recensămintele demografice se
organizează, de regulă, din 10 în 10 ani) al recensământului este impus de
eforturile mari pe care acesta le presupune.
Primul recensământ demografic autentic din România a fost organizat în
anul 1838 şi a vizat totalitatea locuitorilor Ţării Româneşti, indiferent de
vârstă, sex, stare socială etc. Acest recensământ a întrunit majoritatea
cerinţelor impuse unei astfel de investigaţii (universalitate, înregistrare
prin dialog nemijlocit cu subiectul, caracterul individual al înregistrării,
iniţierea şi efectuarea acţiunii de către autoritatea de stat) 21.
După acest an au mai fost organizate în România următoarele
recensăminte demografice22:
 Recensământul din 1859-1860
 Recensământul general al populaţiei României din 1899
 Recensământul general al populaţiei din 1912
 Recensământul general al populaţiei din 1930
 Recensământul general al populaţiei din 1941
 Recensământul agricol şi al populaţiei din ianuarie 1948
 Recensământul populaţiei din februarie 1956
 Recensământul populaţiei şi locuinţelor din martie 1966
 Recensământul populaţiei şi al locuinţelor din ianuarie 1977
 Recensământul populaţiei şi locuinţelor din 1992

21
http://www.recensamantromania.ro/istoric/primele-cercetari-demografice/

22
http://www.recensamantromania.ro/istoric/lista-recensafmintelor-populaaiei/

34
 Recensământul populaţiei şi al locuinţelor din 2002
 Recensământul populaţiei şi al locuinţelor din octombrie 2011

Raportarea statistică
Prin intermediul unui sistem de raportare statistică se doreşte o observare
permanentă a tuturor unităţilor statistice componente ale colectivității
statistice ţintă.
În cadrul unui sistem de raportare statistică, unităţile statistice trebuie să
furnizeze permanent datele statistice solicitate, astfel încât să poată fi
surprinsă evoluţia în timp a fenomenelor cercetate.
Exemple de sisteme de raportare statistică sunt:
- Sistemul de raportare statistică INTRASTAT. Obligaţia de raportare în
sistemul statistic INTRASTAT revine tuturor operatorilor economici care
îndeplinesc simultan următoarele condiţii 23: 1. sunt înregistraţi în scopuri
de taxă pe valoare adăugată, adică au cod de identificare fiscală; 2.
realizează schimburi de bunuri cu alte state membre ale Uniunii Europene;
3. valoarea totală a schimburilor de bunuri cu alte state membre ale
Uniunii Europene, pentru fiecare dintre cele două fluxuri, introduceri şi,
respectiv, expedieri, depăşeşte pragul valoric INTRASTAT stabilit pentru
fiecare an;
- Sistemul de raportare statistică monetară a instituţiilor de credit către
Banca Naţională a României. În aceste sistem rapoartele se transmit lunar,
în format electronic, până cel târziu în data de 15 a lunii următoare şi ele
cuprind informaţii privind24: bilanţul monetar al instituţiilor financiare
monetare; ratele dobânzii practicate de instituţiile financiare monetare;
activele şi pasivele bilanţiere ale instituţiilor financiare nebancare; activele
şi pasivele fondurilor de investiţii; balanţa de plăţi; operaţiuni valutare de
capital de natura datoriei private externe pe termen mediu şi lung;
structura în profil teritorial a creditelor şi depozitelor clienţilor nebancari,
neguvernamentali; emisiunile şi deţinerile de titluri de valoare.

23
Cf. Ordinului Preşedintelui Institutului Naţional de Statistică nr. 1948, din 19 decembrie 2012, privind
aprobarea Normelor de completare a Declaraţiei statistice Intrastat,
http://www.intrastat.ro/doc/Ordin_1948_norme_2013.pdf (accesat: 26 august 2014)

24
Cf. Regulamentului BNR nr.3/2013 pentru modificarea şi completarea Regulamentului Băncii
Naţionale a României nr. 31/2011 privind raportarea de date şi informaţii statistice la Banca Naţională a
României, http://www.bnr.ro/apage.aspx?pid=404&actId=326255 (accesat: 26 august 2014)

35
Sondajul sau selecţia statistică
Sondajul sau selecţia statistică este o metodă de observare statistică
parţială a colectivității statistice ţintă.
O observare statistică parţială este motivată prin eforturile mai mici pe
care aceasta le presupune.
În cazul unei asemenea observări se cere însă rezolvată problema
reprezentativităţii eşantionului (partea din colectivitate care este selectată
pentru a fi supusă observării) ales pentru studiu.
Cerinţa de asigurare a reprezentativităţii face din alegerea eşantionului o
problemă destul de complexă.

Ancheta statistică
Ancheta statistică este metoda de observare statistică parţială în cadrul
căreia nu se ţine cont de problema reprezentativităţii eşantionului
constituit.
Ea se bazează, de regulă, pe distribuirea directă (cu ocazia unor târguri,
expoziţii etc.) sau indirectă (de exemplu, prin poştă) de chestionare a căror
completare este benevolă.
Avantajul acestei metode constă în economicitatea ei. În schimb,
neasigurarea condiţiei de reprezentativitate a eşantionului face dificil
controlul privind erorile statistice ale rezultatelor obţinute. În consecinţă,
rezultatele obţinute se pot extinde asupra întregii colectivităţi statistice
numai cu o aproximaţie necontrolabilă.

Observarea părţii principale (masivul principal sau panelul)


Observarea părţii principale este metoda de observare statistică parţială
prin care se culeg date numai de la cele mai semnificative unităţi ale
colectivității statistice ţintă.
Prin această metodă se înlătură dezavantajul metodei precedente,
asigurându-se reprezentativitatea unităţilor statistice supuse studiului.
Spre deosebire de metoda sondajului, unde reprezentativitatea se asigură
printr-o eşantionare statistică, în cazul metodei observării părţii principale
reprezentativitatea se asigură prin stabilirea unei părţi din colectivitatea
statistică, numită parte principală, masiv principal sau panel, parte supusă
permanent observării statistice.
Dificultatea acestei metode constă în stabilirea părţii principale şi în
asigurarea receptivităţii acesteia la solicitarea permanentă de date.

36
Monografia statistică
Monografia statistică este, propriu-zis, o metodă de cercetare statistică,
realizată cu scopul depistării de noi elementele care apar la nivelul
colectivității statistice studiate, ceea ce presupune o anumită aprofundare a
etapei de observare statistică.
Monografia statistică presupune nu numai culegerea datelor ci şi
interpretarea acestora. O ontribuţie importantă la dezvoltarea şcolii
statistice monografice a adus-o şi sociologul român Dimitrie Gusti.

1.7. Erorile de observare statistică. Controlul datelor


înregistrate
Erorile de observare statistică sunt determinate cel mai des de: omisiuni de
înregistrare a variantelor particulare ale variabilelor studiate; înţelegerea
sau transmiterea greşită a unor mărimi numerice; culegerea de date
conform unor instrucţiuni greşit înţelese; înregistrări pe bază de date
inexacte (din memorie) etc.
În general, erorile de observare statistică se împart în:
 erori întâmplătoare – erori foarte des întâlnite, care se produc de cele
mai multe ori din neatenţie. Acest gen de erori afectează rezultatele
observării într-o mică măsură deoarece ele se produc în ambele sensuri,
compensând-se;
 erori sistematice – erori care se produc în acelaşi sens, determinând
abateri semnificative de la nivelul real al caracteristicilor studiate.
Aceste erori sunt determinate, de cele mai multe ori, de redactarea
necorespunzătoare a instrucţiunilor de culegere a datelor.
Cele două grupe de erori amintite pot apărea şi pe parcursul celorlalte
două etape ale programului de cercetare statistică (prelucrarea primară şi
analiza datelor statistice).
Pentru evitarea apariţiei de erori în etapa de observare statistică, se
recomandă:
 efectuarea unor observări de probă;
 aplicarea de operaţii de control pentru depistarea la timp a eventualelor
erori. Controlul poate fi de tip aritmetic sau de tip logic. Controlul
aritmetic presupune efectuarea de operaţii simple de calcul (pe baza
unor "chei de calcul") pentru analiza şi verificarea unor date derivate.
Controlul logic constă în testarea concordanţei logice între variantele
diferitelor variabile înregistrate la aceeaşi unitate de observare sau între
diferite variante pentru aceeaşi variabilă;
 instruirea atentă a celor însărcinaţi cu culegerea datelor;
37
 formularea şi transmiterea de instrucţiuni clare, fiind chiar indicată
menţionarea expresă a cazurilor când riscul de apariţie a erorilor este
mai mare;
 în cazul observării indirecte, elaborarea de formulare complete în care
să se indice foarte clar ce anume trebuie să se înregistreze.

1.8. Prelucrarea primară a datelor statistice


Conţinutul prelucrării primare a datelor statistice
Pentru obţinerea unei prime imagini asupra colectivităţii statistice studiate,
dar şi pentru asigurarea condiţiilor necesare unor prelucrări aprofundate a
datelor, este necesară mai întâi prelucrarea primară a datelor colectate.
Prelucrarea primară este prima fază a prelucrării statistice a datelor
colectate şi constă în operaţii de grupare şi centralizare a acestora, având
ca rezultate diferite serii statistice.
În urma prelucrării primare, se obţin primele statistici privind
colectivitatea statistică studiată, denumite statistici primare. De asemenea,
prelucrarea primară a datelor statistice oferă posibilitatea descrierii grafice,
prin intermediul tabelelor şi diagramelor statistice, a colectivităţii
statistice studiate.

Centralizarea datelor statistice


Centralizarea datelor statistice se poate realiza:
 global
 pe grupe.
Centralizarea globală se realizează prin cumularea datelor obţinute pentru
întreaga colectivitate statistică.
Centralizările globale pot furniza informaţii importante, numărându-se
deseori între principalele obiective ale cercetării statistice. De pildă, prin
centralizarea datelor obţinute în urma organizării unui recensământ
demografic se poate obţine numărul de locuitori al unei ţări la momentul
efectuării acestuia.
Centralizarea pe grupe se realizează prin cumularea datelor care au fost în
prealabil ordonate şi grupate după anumite criterii de interes.
Centralizarea pe grupe oferă posibilitatea unei cunoaşteri detaliate a
fenomenului studiat, prin analiza acestuia pe elementele sale de structură.
De exemplu, prin centralizarea pe grupe a datelor obţinute în urma unui
recensământ demografic se poate obţine numărul de locuitori pe judeţe, pe

38
sexe, pe categorii socio-profesionale etc., în funcţie de criteriile stabilite
pentru gruparea datelor.
Prin gruparea datelor statistice pot fi satisfăcute necesităţi ale analizei
statistice. De exemplu, prin gruparea datelor statistice se pot pune în
evidenţă efectele unei relaţii cauzale dintre două sau mai multe variabile.
Gruparea datelor trebuie realizată cu respectarea condiţiei de omogenitate.
Aceasta înseamnă că diferenţele înregistrate în interiorul grupei nu pot
depăşi anumite limite fixate anterior.

Clasificarea grupărilor statistice


În funcţie de numărul criteriilor (variabilelor) de grupare, gruparea poate
fi:
 simplă, adică după un singur criteriu, rezultatul grupării putând fi redat
printr-un tabel simplu;
 combinată, realizate după două sau mai multe variabile concomitent,
rezultatul urmând a fi redat printr-un tabel combinat.
În funcţie de natura criteriilor de grupare, se pot realiza:
 grupări cronologice, realizate după un criteriu de timp (ziua, luna, anul
etc.). Colecţiile de date obţinute în urma centralizării datelor după
asemenea criterii se numesc serii statistice cronologice;
 grupări spaţiale sau teritoriale, realizate după un criteriu de spaţiu (ţara,
judeţul, zona geografică etc.). Colecţiile de date obţinute în urma
centralizării datelor după asemenea criterii se numesc serii statistice
teritoriale;
 grupări după variabile atributive (de exemplu, grupări pe tipuri, pe
feluri etc.);
 grupări după variabile cantitative, care la rândul lor pot fi cu variaţie
discretă (grupări pe variante, pe valori discrete) sau cu variaţie continuă
(grupări pe intervale).

Gruparea statistică pe intervale egale


Pentru gruparea datelor pe intervale egale se recomandă parcurgerea
următoarelor etape:
1. Stabilirea amplitudinii variaţiei, cu ajutorul relaţiei:

unde:

39
A reprezintă amplitudinea variaţiei statistice;
xmax = limita superioară de variaţie (varianta maximă pe care o poate
înregistra variabila statistică);
xmin = limita inferioară de variaţie (varianta minimă pe care o poate
înregistra variabila statistică).
2. Stabilirea mărimii intervalelor de grupare.
a. dacă numărul de grupe este anterior fixat, se foloseşte relaţia:

unde:
mj reprezintă mărimea intervalelor de grupare;
ng = numărul de grupe.
b. dacă nu se fixează anterior numărul de grupe, se foloseşte relaţia
propusă de H.A. Sturges:

unde n reprezintă numărul de unităţi statistice.


3. Formarea intervalelor de grupare pornind de la limita inferioară de
variaţie. Intervalele pot fi deschise doar la unul dintre capete.

1.9. Prezentarea rezultatelor prelucrării primare a datelor


Gruparea şi centralizarea datelor statistice asigură posibilitatea descrierii
grafice a colectivităţii statistice studiate prin intermediul tabelelor şi
diagramelor statistice.
Asemenea descrieri grafice sunt publicate în rapoarte, buletine sau anuare
statistice etc. şi pot fi folosite pentru continuarea studiului statistic al
datelor respective prin determinarea diverselor statistici, prin analize
statistice aprofundate etc.

Tabelele statistice
Tabelele statistice sunt folosite pentru prezentarea seriilor statistice şi se
construiesc în aşa fel încât să conţină următoarele elemente:
 Titlul general, prin care este prezentat, într-o formă completă, dar şi
concisă, obiectul tabelului. Pentru a fi complet, titlul general trebuie să
40
definească colectivitatea statistică atât în spaţiu, cât şi în timp. Concizia
titlului general nu trebuie să afecteze, desigur, precizia şi claritatea sa;
 Titlurile interioare, adică cele ale rândurilor şi coloanelor tabelului.
Titlurile interioare definesc gruparea sau grupările datelor statistice
prezentate;
 Macheta tabelului, adică reţeaua de rânduri şi coloane (care formează
rubricile în care se înscriu datele);
 Unităţile de măsură utilizate pentru exprimarea datelor;
 Eventualele note explicative necesare pentru interpretarea corectă a
datelor;
 Sursele datelor, a căror cunoaştere permite verificarea, de către cei
interesaţi, a exactităţii informaţiilor.
După numărul şi natura variabilelor statistice implicate, se întocmesc:
 Tabele simple sau descriptive, prezentând distribuția colectivității
analizate după o singură variabilă statistică. Ele înlesnesc prezentarea
datelor statistice ordonate din punct de vedere cronologic, teritorial sau
organizatoric;
 Tabele combinate, în care datele sunt prezentate în urma grupărilor
combinate după două sau mai multe variabile. Când există o
dependenţă între cele două variabile, tabelul este unul de corelaţie sau
de asociere statistică.

Diagramele statistice
Calea cea mai expresivă de reprezentare a datelor statistice este cea
grafică.
Prin reprezentarea grafică a datelor statistice se asociază acestora o
imagine spaţială, cu caracter convenţional, prin care se reliefează ceea ce
este esenţial pentru colectivitatea statistică studiată.
Pentru a fi completă, reprezentarea grafică trebuie să conţină următoarele
elemente:
 Titlul graficului, care arată la ce se referă reprezentarea grafică, cu
specificarea locului şi perioadei pentru care sunt prezentate datele;
 Axele de coordonate. Coordonatele pot fi rectangulare sau polare (în
cazul seriilor cronologice);
 Titlurile interioare, care arată ce se măsoară pe fiecare axă de
coordonate.

41
 Reţeaua graficului, formată din linii paralele, orizontale şi verticale,
trasate explicit sau subînţelese, servind la înscrierea simbolurilor şi
figurilor. Reţelele pot fi aritmetice, logaritmice, semilogaritmice sau
polare;
 Scara de măsură, prin care este stabilită relaţia dintre unitatea grafică
de măsură şi unitatea de măsură a variabilei (de exemplu: 1 cm =
100.000 de lei). Se folosesc scări de măsură uniforme (scara aritmetică,
în care diviziunile sunt echidistante) sau neuniforme (scara logaritmică,
folosită, în special, pentru reprezentarea grafică a seriilor statistice
cronologice);
 Legenda, care arată semnificaţia simbolurilor folosite în grafic;
 Sursa datelor;
 Una sau mai multe note explicative, indicând ipotezele de lucru avute
în vedere la construirea graficului.
Principalele tipuri de grafice statistice sunt:
 Diagramele prin benzi;
 Diagramele prin coloane;
 Diagramele de structură;
 Diagrama polară;
 Histograma;
 Poligonul de frecvenţe;
 Ogiva;
 Cartograma;
 Cronograma;
 Corelograma.

Diagramele prin benzi


Diagramele prin benzi sunt grafice în care datele statistice, grupate prin
metodele prezentate, sunt reprezentate prin ariile unor dreptunghiuri
construite cu bazele pe ordonata unui sistem rectangular de axe.
Dreptunghiurile (benzile) astfel construite sunt despărţite prin spaţii egale.
Benzile pot fi diferite între ele doar prin lungimile lor (lăţimea este egală
pentru toate benzile), acestea variind direct proporţional cu mărimile
valorilor reprezentate.
Pentru exemplificare să considerăm datele din tabelul 1.5, reprezentate
grafic cu ajutorul diagramei din figura 1.4.

42
Tabelul 1.5. Numărul întreprinderilor mici (10-49 angajaţi) în
perioada 2012-201625

Anul Număr întreprinderi mici (10-49 angajaţi)*

2012 57941

2013 57820

2014 57716

2015 58153

2016 58508
*Datele pentru anii 2012-2015 sunt revizuite față de cele publicate anterior

Figura 1.4 Diagramă prin benzi

25
Datele au fost preluate din Anuarul statistic al României editat de Institutul Naţional de Statistică al
României (http://www.insse.ro).pentru anul 2017, pag. 536,
http://www.insse.ro/cms/sites/default/files/field/publicatii/anuarul_statistic_al_romaniei_carte_ro.pdf
(accesat în 25 aprilie 2018).

43
Ţările cu cele mai mari rezerve de gaze naturale
(mld. me tri cubi, 2012)

0,000 10,000 20,000 30,000 40,000 50,000

Rusia 45,955

Iran 33,620

Qatar 25,069

Turkmenistan 10,000

Arabia Saudită 8,151

Emiratele Arabe Unite 6,090

Venezuela 5,528

Nigeria 5,118

Algeria 4,504

SUA 4,291

Figura 1.5 Diagramă prin benzi

Diagramele prin benzi se folosesc mai ales atunci în special atunci când se
doreşte evidenţierea diferenţelor dintre valori, deoarece ochiul omenesc
poate sesiza mai uşor variaţiile care apar pe orizontală.
Un prim exemplu este diagrama din figura 1.5, în care sunt reprezentate
ţările cu cele mai mari rezerve de gaze naturale, la nivelul anului 201226.
Un al doilea exemplu este diagrama din figura 1.6, în care se pot observa
ușor diferențele înregistrate în anul 2017 între anumite țări ale lumii în
ceea ce privește averea bănească brută, exprimată în euro per capita27.
Al treilea exemplu interesant este prezentat în figura 1.7, care constă în
diagrama top 5 mondial a veniturilor medii (brute) obținute de către expați
la nivelul anul 201728.

26
Conform: http://de.statista.com/statistik/daten/studie/37381/umfrage/laender-nach-konventionellen-
erdgasreserven

27
Cf.: Frankfurter Allgemeine Zeitung, 27 septembrie 2018, p. 23.

44
Figura 1.6 Diagramă prin benzi

Figura 1.7 Diagramă prin benzi

28
Cf: Expat Explorer: Broadening perspectives, Global Report, HSBC, 2017, p. 16,
https://www.expatexplorer.hsbc.com/survey/files/pdfs/overall-
reports/2017/YouGov_HSBC_Report_Final.pdf (accesat: 16 octombrie 2018).

45
Diagramele prin coloane
Cu ajutorul diagramelor prin coloane, datele statistice sunt reprezentate tot
prin dreptunghiuri, construite însă pe verticală, cu bazele pe abscisă
(coloane).
Coloanele diferă între ele doar prin înălţime, aceasta fiind direct
proporţională cu mărimea valorilor reprezentate. Diagramele prin coloane
se folosesc cel mai des pentru reprezentarea evoluţiei în timp a
fenomenelor studiate.
În figura 1.8 sunt reprezentate grafic datele din tabelul 1.5, optându-se de
această dată pentru o diagramă prin coloane.

Figura 1.8 Diagramă prin coloane

Diagramele de structură
Diagramele de structură se folosesc pentru reprezentarea distribuţiilor
statistice după variabilele considerate. Sunt puse, astfel, în evidenţă
ponderile principalelor părţi componente ale colectivităţii statistice
analizate.
Pentru reprezentarea grafică se folosesc diverse figuri geometrice: cercul,
pătratul, dreptunghiul etc. Suprafaţa totală a figurii corespunde volumului
întregii colectivități statistice, în timp ce suprafeţele diferitelor porţiuni ale
figurii corespund părţilor componente ale colectivității statistice studiate.
Pentru exemplificare, în figura 1.9 este reprezentată distribuţia populaţiei
Republicii Moldova pe medii de reşedinţă, conform rezultatelor

46
preliminare ale recensamântului populaţiei şi locuinţelor din 12-25 mai
201429.

Populaț ia Republicii Moldova pe medii de re ședinț ă


(recensământ 2014)

Persoane în
mediul rural;
995227

Persoane în
mediul urban;
1918054

Figura 1.9 Diagramă de tip „pie”

În figura 1.10 este reluată aceeaşi distribuţie, însă cu valori procentuale.


Aceste valori procentuale reprezintă frecvenţe relative înregistrate, fiind
obţinute prin raportarea frecvenţelor absolute la totalul acestora:

unde:
rj (%) reprezintă frecvenţa relativă de apariţie (exprimată procentual) a
variantei j care defineşte variabila statistică X;
nj = frecvenţa absolută de apariţie a variantei j care defineşte variabila
statistică X.
Pentru datele din exemplul nostru, frecvenţele relative, exprimate
procentual, sunt:
- pentru populaţia din mediul urban:

29
Cf:
http://www.statistica.md/public/files/Recensamint/Recensamint_pop_2014/Nota_informativa_Preliminare
_Recensamint_2014.pdf

47
- pentru populaţia din mediul rural:

Distribuţia popula ț iei Republicii Moldova pe medii de re ședinț ă


(recensământ 2014)

Persoane în
mediul rural
34,16%
Persoane în
mediul urban
65,84%

Figura 1.10 Diagramă de tip „pie” pentru reprezentarea distribuţiei


populaţiei Republicii Moldova pe medii de reşedinţă, conform
rezultatelor preliminare ale recensamântului populaţiei şi locuinţelor
din 12-25 mai 2014

Figura 1.11 Diagramă pentru reprezentarea structurii pe grupe de


vârstă a emigranților din România în anul 2017

48
Un alt exemplu de diagramă de tip „pie” (= „plăcintă”) este cel din figura
1.11, în care este reprezentată structura pe grupe de vârstă a emigranților
din România în anul 201730.
Tot ca diagrame de structură se pot folosi diagramele prin batoane sau
bare. Ele pot fi uşor confundate cu diagramele prin coloane. Se disting
însă prin faptul că valorile variabilei statistice se reprezintă prin batoane
sau bare verticale care au înălţimi care prin însumare dau valoarea 1 (dacă
frecvenţele relative iau forma coeficienţilor) sau 100 (dacă frecvenţele
relative se exprimă prin procente).
De exemplu, în figura 1.13 este reprezentată structura producției de
energie electrică a României în funcție de sursele de generare în data de 29
martie 2018, ora 18:45:0231, reprezentată printr-o diagramă prin bare, spre
deosebire de diagrama de tip plăcintă din figura 1.12, folosită pentru
reprezentarea acelorași date statistice.

Figura 1.12 Structura producției de energie electrică a României în


funcție de sursele de generare în data de 29 martie 2018, ora 18:45:02
(Diagramă de tip „pie”)

30
Cf.: Ziarul financiar, 30 august 2018, p. 3 (sursa datelor: Institutul Național de Statistică).

31
Datele au fost preluate din ziarul Bursa apărut în 30 martie 2018, http://www.bursa.ro/oprirea-
reactorului-2-ieftineste-electricitatea-pe-bursa-cu-circa-35-procente-hidroelectrica-a-compensat-lipsa-
energiei-nucleare-343837&s=companii_afaceri&articol=343837.html (accesat în 2 mai 2018).

49
Figura 1.13 Structura producției de energie electrică a României în
funcție de sursele de generare în data de 29 martie 2018, ora 18:45:02
– Diagramă prin bare

Diagrama polară
Se mai numeşte şi diagramă radială şi se foloseşte pentru ilustrarea
sezonalităţii caracteristice anumitor fenomene statistice studiate.
Diagrama polară se construieşte folosind o reţea radială. În figura 1.14 este
reprezentată evoluţia vânzărilor de băuturi răcoritoare produse de firma
„ABC” pe parcursul celor 12 luni ale unui an, conform datelor din tabelul
1.6.

Vânzări băuturi răcoritoare pentru firma "ABC" (mil. lei)

1
15,0
12 2
10,0
11 3
5,0

10 0,0 4

9 5

8 6
7

Figura 1.14 Diagramă polară

50
Tabel 1.6 Vânzări de băuturi răcoritoare produse de firma „ABC”
într-un anumit an (mil. lei)
Ianuarie 6,5
Februarie 6,7
Martie 7,4
Aprilie 8,3
Mai 10,0
Iunie 12,4
Iulie 12,5
August 13,1
Septembrie 12,5
Octombrie 10,2
Noiembrie 8,0
Decembrie 7,1

Histograma
Histograma se foloseşte pentru reprezentarea repartiţiilor variabilelor
statistice definite pe intervale.
Ea se construieşte într-un sistem rectangular de axe astfel:
 pe abscisă se reprezintă prin segmente de dreaptă mărimile intervalelor
de grupare;
 pe ordonată se reprezintă prin segmente de dreaptă frecvenţele
distribuţiei statistice;
 se construiesc dreptunghiuri care au ca baze segmentele de dreaptă ce
reprezintă mărimile intervalelor de grupare şi înălţimi egale cu
segmentele de pe ordonată corespunzătoare frecvenţelor statistice.
Pentru exemplificare, să presupunem variabila "vechime în muncă", pentru
care au fost înregistrate, la nivelul unei firme, valorile din tabelul 1.7. Este
necesară mai întâi construirea distribuţiei statistice a frecvenţelor. Pentru
aceasta trebuie parcurse următoarele etape:
a) se calculează amplitudinea variaţiei statistice:
A = xmax – xmin = 35 – 1 = 34 ani
b) se alege lungimea intervalelor. Se opteauă pentru împărţirea pe
intervale egale de lungime L = 5;
c) se determină numărul de intervale:
51
k = A / L = 34 / 5 = 6,8  7 intervale
d) construim cele 7 intervale, considerând ca limită minimă valoarea de 0
şi ca limită maximă valoarea 35. Se obţine astfel distribuţia frecvenţelor
absolute din tabelul 1.8.
Histograma corespunzătoare distribuţiei din tabelul 1.8 este redată în
figura 1.15.

Poligonul frecvenţelor
Poligonul frecvenţelor este linia poligonală care uneşte, în cadrul unui
sistem rectangular de axe, punctele care corespund frecvenţelor absolute
ale căror valori sunt reprezentate pe ordonata graficului. Se poate construi,
de asemenea, pornind de la graficul histogramei, unind mijloacele bazelor
de sus ale dreptunghiurilor corespunzătoare intervalelor variabilei
statistice.
Poligonul frecvenţelor obţinut pe baza distribuţiei frecvenţelor absolute
din tabelul 1.8 este construit în figura 1.16.

Tabelul 1.7 Vechimea în muncă înregistrată pentru cei 50 de angajaţi


ai firmei „ABC”
20 5 3 11 17
4 30 24 21 16
6 19 19 1 9
5 17 10 20 10
15 7 2 18 27
23 16 32 35 10
25 29 18 18 11
1 23 19 2 3
2 19 3 9 1
3 8 9 3 22

Ogiva
Ogiva este linia poligonală care uneşte, în cadrul unui sistem rectangular
de axe, punctele care corespund frecvenţelor absolute sau relative
cumulate ale căror valori sunt reprezentate pe ordonata graficului.
Frecvenţe cumulate se obţin prin însumarea treptată a frecvenţelor
absolute sau relative.

52
Tabelul 1.8 Distribuţia variabilei "vechime în muncă" pentru cei 50
de angajaţi ai firmei „ABC”
Intervale de variaţie (ani) Frecvenţe absolute
[0-5] 14
(5-10] 9
(10-15] 3
(15-20] 13
(20-25] 6
(25-30] 3
(30-35] 2
Total 50

Frecvenţe absolute

15
14 13
10
9
5
6
3 3 2
0
[0-5] (5-10] (10-15] (15-20] (20-25] (25-30] (30-35] Ani

Figura 1.15 Histograma vechimii în muncă pentru cei 50 de angajaţi


ai firmei „ABC”

Frecvenţe absolute

15
14 Poligonul frecvenţelor
10 13
9
5
6 2
3 3
0
[0-5] (5-10] (10-15] (15-20] (20-25] (25-30] (30-35] Ani

Figura 1.16 Poligonul frecvenţelor pentru vechimea în muncă


înregistrată pentru cei 50 de angajaţi ai firmei „ABC”

53
În tabelul 1.9 sunt calculate frecvenţele absolute cumulate corespunzătoare
intervalelor care definesc variabila după care a fost construită distribuţia
statistică din tabelul 1.8. De exemplu, frecvenţa cumulată care corespunde
intervalului (15-20] este egală cu 39, reprezentând numărul muncitorilor
care au cel mult 20 ani vechime (frecvența cumulată a primelor 4 intervale
de vechime).

Tabelul 1.9
Intervale de variaţie Frecvenţe Frecvenţe absolute
(ani) absolute cumulate
[0-5] 14 14
(5-10] 9 23
(10-15] 3 26
(15-20] 13 39
(20-25] 6 45
(25-30] 3 48
(30-35] 2 50
Total 50

În figura 1.17 este reprezentată ogiva construită pe baza datelor din tabelul
1.9.
Frecvenţe cumulate

60
50
40 48 50
45
30 39
20
23 26
10
0 14

0 5 10 15 20 25 30 35 40
Intervale vechime în muncă (ani)

Figura 1.17 Ogiva pentru vechimea în muncă înregistrată pentru cei


50 de angajaţi ai firmei „ABC”

Cartograma
Cartograma este un grafic folosit pentru evidenţierea variaţiilor care apar
la nivelul diferitelor unităţi statistice teritoriale. Ea se reprezintă direct pe
54
o hartă şi se foloseşte în cazul variabilelor statistice teritoriale. Pentru
exemplificare, în figura 1.18 este prezentată cartograma construită pe baza
datelor din tabelul 1.10, privitoare la ponderea în venitul naţional a
cheltuielilor pentru educaţia publică, pe continente, la nivelul anului 1965.

Tabelul 1.10 Ponderea în venitul naţional a cheltuielilor pentru


educaţia publică, pe continente, la nivelul anului 1965 32
1965
Africa 4,3 %
America de Nord 4,1 %

America de Sud 4,0 %

Asia 4,0 %

Europa (inclusiv URSS) 5,3 %

Oceania 4,4 %

5,3%
4,1%
4,0%

4,3%

4,0%
4,4%

Figura 1.18 Cartogramă

32
John SHEEHAN. The Economics of Education. Routledge - Taylor & Francis Group, 1973, 2012, p.
12.

55
Cronograma
Cronograma se foloseşte în cazul seriilor statistice cronologice. Ea este, de
fapt, o diagramă pentru care una dintre axe este axa timpului.
Cronogramele sunt utile în redarea evoluţiei fenomenelor foarte dinamice.
Astfel de fenomene sunt, de exemplu, preţurile (preţul aurului, cursul
valutar, cursul unei acţiuni, nivelul dobânzii etc.).
În cronograma din figura 1.19 este redată, de pildă, evoluţia preţului
benzinei Euro-super 95 (I) în România, în perioada 16 iulie – 3 septembrie
2018 (Euro / 1000 litri, fără considerarea taxelor)33.

Figura 1.19 Cronogramă

În figura 1.20 este reprezentată cronograma evoluției depozitelor bancare


ale gospodăriilor populației României pentru perioada ianuarie 2007 –
martie 201834.

33
Valorile au fost preluate din baza de date a Comisiei Europene, disponibilă la adresa:
http://ec.europa.eu/energy/observatory/reports/Oil_Bulletin_Prices_History.xls

34
Datele pe baza cărora a fost construită această cronogramă au fost preluate de pe site-ul Băncii
Naționale a României: http://www.bnr.ro/Baza-de-date-interactiva-604.aspx (accesat în 26 aprilie 2018).

56
Figura 1.20 Cronogramă

Corelograma
Corelograma se foloseşte pentru evidenţierea legăturilor statistice dintre
fenomenele studiate. Pe cele două axe ale unei corelograme sunt
reprezentate cele două variabile care fac obiectul studierii existenţei şi
intensităţii legăturii statistice. Cel mai des se foloseşte metoda grafică a
"norului de puncte". "Punctele" au ca şi coordonate perechile de valori pe
care le înregistrează cele două variabile studiate din punctul de vedere al
corelaţiei statistice.

Tabelul 1.11 Cheltuielile cu reclama în luna septembrie 2017 şi


vânzările în luna octombrie 2017, la nivelul a 8 companii
Compania Cheltuieli cu reclama în Vânzări în luna
luna septembrie 2017 (mil. octombrie 2017 (mil.
lei) lei)
1 13,5 124,5
2 22,3 196,8
3 17,7 165,2
4 32,0 232,3
5 26,6 213,6
6 19,8 226,4
7 39,4 311,3
8 24,5 243,4

57
Figura 1.21 Corelograma legăturii statistice dintre variabilele
"cheltuieli cu reclama" şi "vânzări" pentru 8 companii

În figura 1.21 este reprezentat un astfel de nor de puncte pentru


evidenţierea legăturii statistice dintre variabila "cheltuieli cu reclama în
luna septembrie 2017)" şi variabila "vânzări în luna octombrie 2017)",
variabile ale căror valori au fost înregistrate pentru un număr de 8
companii (tabelul 1.11). Din analiza norului de puncte format, se poate
deduce existenţa unei legături destul de puternice între cele două variabile.
Astfel, pentru magazinele unde s-au efectuat cheltuieli mai mari cu
reclama se observă şi vânzări mai mari.

Dezinformarea prin intermediul reprezentărilor grafice


Nu toți furnizorii de informații statistice au intenții bune. Din păcate,
mijloacele media sunt folosite în zilele noastre din ce în ce mai des în
scopul dezinformării, nu al informării corecte.
Pentru toți utilizatorii de informații statistice este bine de știut că
reprezentările grafice pot fi folosite destul de ușor în scopul manipulării
opiniei publice.
Mai jos sunt prezentate trei astfel de metode de manipulare mai des
întâlnite:
- Folosirea unor scale diferite de reprezentare pe același grafic. În figura
1.22 este reprezentată evoluția lunară a cifrei de afaceri pentru companiile
A și B, în anul 2017. Se poate observa faptul că cele două scale de
reprezentare a valorilor cifrei de afaceri pentru cele două companii sunt
diferite atât prin origine, cât și prin unitatea de măsură. Scopul este acela
de-a se induce ideea că cea de-a doua companie (B) ar fi reușit la finalul

58
anului să obțină o performanță mai bună decât prima compnaie (A), deși
realitatea este cu totul alta.

Figura 1.22

Figura 1.23

- Reprezentarea grafică prin intermediul unor figuri spațiale. În figura 1.23


este reprezentat comparativ profitul obținut într-o anumită perioadă de
către două companii (A și B). Compania B are un profit de 60 milioane
RON, adică dublu față de profitul câștigat de compania A, de 30 milioane
RON. Raportul dintre cele două niveluri de profit corespunde raportului

59
dintre cele două diametre ale cercurilor care reprezintă profiturile obținute
de către cele două companii.
Construit așa, graficul este unul înșelător, deoarece suprafața celui de-al
doilea cerc este de 4 ori mai mare decât a celuilalt35 și nu doar de 2 ori, așa
cum ar fi trebuit să fie pentru a corespunde raportului dintre nivelurile de
profit ale celor două companii.

Figura 1.24

Figura 1.25

35
Pentru un cerc, un diametru de două ori mai mare corespunde unei arii de patru ori mai mare.

60
- Omiterea reprezentării unor date. În figura 1.24 este reprezentată evoluția
lunară a prețului mediu pentru apartamente vechi cu 2 camere în Cluj-
Napoca, în perioada decembrie 2016 – septembrie 201736. Omiterea
reprezentării datelor pentru toată perioada considerată pe abscisă poate
avea ca scop inducerea în eroare a cititorului, care poate fi convins că se
află în fața unei evoluții mult mai abrupte a prețurilor decât este în
realitate. Acest fapt poate fi demonstrat, de exemplu, cu ajutorul figurii
1.25, în care sunt reprezentate aceleași date, eliminând însă părțile din
grafic pentru care au fost omise datele.

36
Datele pe baza cărora a fost construit graficul au fos preluate de la sursa online:
https://www.imobiliare.ro/indicele-imobiliare-ro/cluj-napoca#c2

61
62
EXPRIMAREA ÎN MĂRIMI
RELATIVE A
INFORMAŢIILOR
STATISTICE
2.

OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate mărimile relative cu ajutorul cărora se pot face
descrieri comparative la nivelul colectivităţilor statistice studiate. Principalele
obiective ale capitolului au în vedere prezentarea:
 principalelor tipuri de mărimi relative care se pot folosi pentru descrieri
comparative;
 de exemple necesare pentru înţelegerea utilităţii mărimilor relative în statistica
descriptivă;
 unităţilor de măsură adecvate pentru mărimile relative folosite.

63
64
2.1. Mărimile relative – rezultate ale comparațiilor
În demersul statistic sunt necesare deseori comparaţii prin care se
evidenţiază:
 relaţii cantitative manifestate între diferite variabile statistice;
 relaţii cantitative manifestate între diferite părţi ale colectivităţilor
statistice studiate;
 dinamica manifestată la nivelul colectivităţilor statistice studiate;
 relaţii cantitative între diferite fenomene supuse studiului statistic.
Prin compararea sub formă de raport (cel mai des) sau diferenţă a două
valori, se exprimă proporţia uneia faţă de cealaltă (aceasta din urmă
constituindu-se, astfel, ca şi bază de raportare).
Forma de exprimare a rezultatelor obţinute în urma comparării trebuie
aleasă în funcţie de natura fenomenelor studiate, precum şi de diferenţele
de proporţie dintre valorile comparate.
Atunci când valoarea de comparat este mai mare decât valoarea aleasă ca
bază de raportare, rezultatele se vor exprima în unităţi.
Dacă valoarea de comparat este mai mică decât valoarea aleasă ca bază de
raportare, rezultatele se vor exprima, cel mai des, în coeficienţi sau
procente. Se alege exprimarea în procente dacă se urmăreşte descrierea
structurii sau a dinamicii fenomenului studiat.
Iată câteva exemple interesante de utilizare a exprimării în procente:
- 51% este procentul pe care-l reprezintă componenta digitală în
cadrul industriei muzicale globale1;
- 55% din criptomonedele („CryptoCurrency”) Bitcoin sunt păstrate
la nivel global în doar 1% dintre „portofelele” („Bitcoin Wallets”)
existente2;
- 10% din clienții Toyota din 2011 au ales un autoturism cu
tehnologie hibridă. În prezent (2018), 47% din totalul de
autovehicule Toyota vândute au această tehnologie3;

1
Cf: Die Karke, 17 septembrie 2018, p. 3.

2
Cf: Kayla MATTHEWS. Research: 55% Of The Worlds Bitcoin Held in Just 1% of Wallets. Articol
online la adresa: https://usethebitcoin.com/55-percent-bitcoin-in-1-percent-wallets/ (accesat: 18
octombrie 2018).

3
Cf: Christian BART. Toyota a vândut mașina hibrid cu numărul 2.000.000 în Europa. Articol online la
adresa: https://www.auto-bild.ro/stiri/toyota-hibrid-2-000-000-europa-147985.html (accesat: 22
octombrie 2018).

65
- 62% dintre expați dețin o proprietate undeva în lume, în timp ce
doar 9% dețin o proprietate atât în țara lor de origine, cât și în țara
gazdă. De asemenea, 52% dintre expați se bucură de o calitate mai
bună a vieții, iar 53% de un echilibru îmbunătățit între viața
profesională și cea personală decât în țara de origine4;
- În 1981 aproape 90% dintre chinezi trăiau în sărăcie (acest procent
reprezenta atunci echivalentul unei cifre absolute de peste 800
milioane persoane); în 2016 procentul acestora a ajuns la doar 3%
(circa 43 milioane persoane)5 6;
- Potrivit unui raport al Consiliului ESRB7 (consiliu care are în
vedere riscurile financiare de sistem din UE), piețele financiare
europene sunt controlate în proporție de 40% de entități financiare
care nu dețin o licență bancară (denumite „Shadow Banks” în
engleză, respectiv „Schattenbanken” în germană). Acest procent
corespunde unei sume de 42 trilioane (!) Euro8;
- 84% dintre europenii care au răspuns la o consultare publică9
privind ora de vară s-au pronunțat în favoarea renunțării la
schimbarea orei de două ori pe an, conform rezultatelor preliminare

4
Cf: Expat Explorer: Broadening perspectives, Global Report, HSBC, 2017, p. 7,
https://www.expatexplorer.hsbc.com/survey/files/pdfs/overall-
reports/2017/YouGov_HSBC_Report_Final.pdf (accesat: 16 octombrie 2018).

5
Cf: Der Spiegel, Nr. 43 / 21 octombrie 2017, p. 52,
http://magazin.spiegel.de/EpubDelivery/spiegel/pdf/153888413 (accesat: 15 octombrie 2018).

6
Cifra absolută pentru 2016 (43 milioane persoane) poate fi verificată și la adresele:
- https://schillerinstitute.com/blog/2018/01/10/china-releases-new-poverty-statistics-30-million-remain-
lifted-poverty/ (accesat: 16 octombrie 2018);
- http://www.chinadaily.com.cn/china/2017-08/15/content_30641713.htm (accesat: 16 octombrie 2018).

7
ESRB sunt inițialele de la „European Systemic Risk Board”.

8
Cf: Neues Deutschland, 15 septembrie 2018, p. 8.

9
Este vorba despre o consultare online desfășurată în perioada 4 iulie - 16 august 2018, în cadrul căreia
au fost primite 4,6 milioane de răspunsuri din toate cele 28 de state membre, acesta fiind cel mai mare
număr de răspunsuri primite vreodată în cadrul unei consultări publice a Comisiei Europene.

66
publicate în 31 august de Comisia Europeană. Aceeași preferință a
fost înregistrată și în rândul a 78% dintre respondenții din România10;
- Potrivit Organizaţiei Mondiale a Sănătăţii (OMS), 4,4% din
populaţia globului (peste 300 de milioane de oameni) sunt afectaţi de
depresie. Cu peste 900.000 de cazuri diagnosticate anual, în
România se observă o incidenţă a acestei boli apropiată de 5%11;
- În 2017, 12,4% dintre belgieni au înghițit pastile de tip „Brain
Power”, procentul fiind de doar 3,6% în 2015; în Franța, procentul a
crescut în aceeași perioadă de la 0,6 la 4,6%, în timp ce în Marea
Britanie creșterea înregistrată a fost de de la 1,7 la 5,1%. În
Germania, procentul persoanelor cure au apelat la astfel de
medicamente s-a dublat în perioada considerată de la 1,5 la 3%12;
- Peste 11% dintre români suferă de diabet, conform rezultatelor
finale ale Studiul Naţional privind Prevalenţa Diabetului,
Prediabetului, Supraponderii, Obezităţii, Dislipidemiei,
Hiperuricemiei şi Bolii Cronice de Rinichi (PREDATORR) realizat
în 2017. Topul regiunilor cu cei mai mulţi diabetici este condus de
Sudul ţării, unde prevalenţa diabetului este de 13,39%, urmat de
regiunea Bucureşti-Ilfov, cu o prevalenţă a acestei boli de 12,79%.
Pe locul trei în acest top se află regiunea de Nord-Est (12,38%),
urmată îndeaproape de regiunile Sud-Vest (12,1%), Nord-Vest
(11,69%) şi Sud-Est (10,44%)13;

10
Cf:
https://ec.europa.eu/romania/news/20180831_rezultate_consultare_publica_renuntare_ora_de_vara_ro
(accesat: 23 septembrie 2018).

11
Cf: Oana DESPA. Studiu: Aproape un milion de români sunt diagnosticaţi anual cu depresie. Care
este incidenţa bolii la nivel mondial. Articol publicat în 6 aprilie 2017 la adresa:
https://www.mediafax.ro/social/studiu-aproape-un-milion-de-romani-sunt-diagnosticati-anual-cu-
depresie-care-este-incidenta-bolii-la-nivel-mondial-16224108 (accesat în 12 noiembrie 2018).

12
Cf: Christian HONEY. Auf dem Weg zum optimierten Hirn. În: Dresdner Neueste Nachrichten, 1
decembrie 2018, p. 34 (VI din suplimentul Sonntag).

13
Cf: Georgeta PETROVICI. Peste 11% dintre români suferă de diabet. Medicii cred că sunt încă mulți
care nu știu că sunt bolnavi. Articol publicat online în 17 noiembrie 2017 la adresa: https://evz.ro/peste-
11-dintre-romani-sufera-de-diabet-si-au-fost-diagnosticati.html (accesat în 15 noiembrie 2018).

67
- Doar 21% din români au o înţelegere destul de bună a produselor
financiare14, în condițiile în care valoarea acestui procent este de
52% la nivelul Uniunii Europene și de 65% pentru ţările nordice15;
- 32% dintre gospodăriile din România rămân în urmă în mod repetat
cu plata întreţinerii sau a utilităţilor. Cele mai frecvente întârzieri sunt
înregistrate la plata energiei electrice - este cazul a 51% dintre
restanţieri16;
- Potrivit unui studiu realizat în 2018 de către Institutul Național de
Statistică, 21,3% din totalul întreprinzătorilor din România
consideră că nu-şi permit să mănânce carne o dată la două zile, iar
23,5% admit că au probleme în a-și procura hrana de orice fel17;
- 19% dintre persoanele în vârstă de 18-24 ani din Regatul Unit sau
Suedia cheltuiesc mai mult de 40% din bugetul lor pentru plata
chiriei. În Franța, procentul tinerilor care sunt afectați de asemenea
ponderi în buget ale cheltuielilor cu plata chiriei este de doar
11,5%18;
- 70% dintre cei care au fost chestionați în cadrul unei anchete ale
cărei rezultate au fost publicate în cotidianul german Neue Presse
care apare în Hanovra au afirmat că pentru a face fotografii în
vacanțele lor își folosesc în primul rând smartphone-ul19;
- 29% din germani citesc cărți în mod regulat. Acum cinci ani, 35%
din germani făceau acest lucru20;

14
Acest procent este cunoscut sub numele de „rată de educaţie financiară”.

15
Cf: https://www.agerpres.ro/economic-intern/2018/05/08/appa-romania-pe-ultimul-loc-in-europa-in-
ceea-ce-priveste-educatia-financiara--104272 (accesat în 24 septembrie 2018).

16
Cf: https://www.digi24.ro/stiri/actualitate/social/romanii-isi-platesc-tot-mai-greu-facturile-curente-
1001491 (accesat în 27 septembrie 2018).

17
Cf: https://romanialibera.ro/economie/unul-din-5-patroni-din-romania-este-sub-nivelul-minim-de-
saracie-753556 (accesat în 13 octombrie 2018).

18
Cf: Le Monde, 26 octombrie 2018, p. 1.

19
Cf: Neue Presse, 11 august 2018, p. 1.

20
Cf: Frankfurter Allgemeine Zeitung, 6 septembrie 2018, p. 8.

68
- 58% dintre cei chestionați în cadrul unei cercetări Aktion Mensch se
implică activ în împlinirea viselor lor. 60% dintre cei care, în cadrul
cercetării, au afirmat că nu se angajează pentru a-și vedea visele
împlinite au identificat ca principal motiv pentru acest lucru faptul că
au „prea puțini bani” 21;
- Procentul ambalajelor de unică folosință pentru băuturi a crescut
considerabil în ultimii ani în Germania. În 2004, acesta era de
46,9%, pentru ca în 2016 să ajungă la 66,1%22;
- În tabelul 2.1 este prezentată situația ocupării posturilor de ucenici
în landul german Schleswig-Holstein, în perioada 2014-201823. În
ultima coloană a tabelului sunt redate valorile procentuale ale
posturilor de ucenici neocupate din total, iar în figurile 2.1 și 2.2 sunt
reprezentate grafic datele din acest tabel în valori absolute și,
respectiv, procentuale (în legătură cu posturile de ucenici neocupate
din total):

Tabel 2.1 Posturi ucenici în landul german Schleswig-Holstein, în


perioada 2014-2018
Posturi Procent posturi
Total
ucenici ucenici
Anul posturi
neocupate neocupate din
ucenici
din total total
2014 17347 5221 30,10%
2015 17323 5278 30,47%
2016 17531 5865 33,46%
2017 17853 6309 35,34%
2018 18882 7118 37,70%

21
Cf: Neue Presse, 31 august 2018, p. 1.

22
Cf: Die Welt (Berlin), 18 septembrie 2018, p. 20.

23
Cf: Kieler Nachrichten, 1 august 2018, p. 1.

69
Figura 2.1

Figura 2.2

- Potrivit unei cercetări realizate de McAfee pe un eșantion format din


1000 de părinți din S.U.A. cu copii având vârste între 6 și 16 ani care
se joacă online sau pe console de jocuri, 62%, din copiii din S.U.A.
obișnuiesc să se joace online cu alți jucători, crescând astfel riscul de
a deveni ținte pentru un conținut nepotrivit sau de a li se cere să
împărtășească date sensibile24;

24
Cf: USA Today, în Reno Gazette-Journal, 1 noiembrie 2018, p. 7.

70
- Studii realizate de Spitalul de copii din Boston în 2011 la nivelul
unui eșantion format din 2.044 de părinți și familiile lor arată că 25:
 79% dintre părinții copiilor cu Sindrom Down au o
perspectivă mult mai pozitivă asupra vieții datorită
acestora;
 94% dintre frații copiilor cu Sindrom Down îi iubesc și se
mândresc cu aceștia;
 99% dintre persoanele cu Sindrom Down se simt fericite;
 97% dintre persoanele cu Sindrom Down sunt mulțumite
de cine sunt;
 96% dintre persoanele cu Sindrom Down sunt mulțumite
de cum arată.
- La 10-11 săptămâni de la concepție copilul posedă deja 90% din
structurile prezente într-un adult26;
- Potrivit Biroului Federal de Statistică din Germania, în anul 2017 în
spitalele din această țară au fost efectuate 232.505 de operații
cezariene. Acest număr corespunde unui procent de 30,5% din
totalul nașterilor din Germania anului 2017, procent echivalent cu cel
din anul precedent27. Pentru România, valoarea acestui procent a fost
în 2004 de 19%, în creștere cu 8 puncte procentuale fațã de 1999,
când rata nașterilor prin cezarianã a fost de numai 11%28;
- În tabelul 2.2 este prezentată Evoluția statistică a avorturilor în
România, în perioada 1958-201529. Pe ultimele 2 coloane ale

25
Cf: revista Pentru Viață, nr. 4, Primăvara 2015, p. 1, http://stiripentruviata.ro/editorial-despre-sarah-
palin-frica-avort-adevar-si-cum-sa-salvezi-96-dintre-copiii-cu-sindrom-revista-pentru-viata-nr-4-
primavara-2015/ (accesat: 22 septembrie 2018).

26
Cf: revista Pentru Viață, nr. 7, Primăvara 2018, p. 11, http://stiripentruviata.ro/wp-
content/uploads/2018/03/Revista-PV-2018-v1.181-1.pdf (accesat: 21 septembrie 2018).

27
Cf: Die Welt (Berlin), 18 septembrie 2018, p. 20.

28
Cf: Studiului Sănătății Reproducerii: România 2004 (raport sintetic publicat de Ministerul Sănătății în
mai 2005), p. 44, https://www.unicef.org/romania/ro/Studiul_Sanatati_Reproducerii.pdf (accesat în 24
septembrie 2018).

29
Cf: revista Pentru Viață, nr. 6, Primăvara 2017, p. 3, http://stiripentruviata.ro/wp-
content/uploads/2017/03/RevistaPentruViata_nr6_mar2017_SPV_web.pdf (accesat: 22 septembrie
2018).

71
tabelului sunt redate valorile procentuale ale avorturilor și, respectiv,
nașterilor, din totalul numărului de sarcini:

Tabel 2.2 Evoluția statistică a avorturilor în România, în


perioada 1958-2015
Număr Număr Număr Procent Procent
An
avorturi născuți vii sarcini avorturi nașteri
1958 112.100 390.500 502.600 22% 78%
1959 578.000 368.007 946.007 61% 39%
1960 769.776 352.241 1.122.017 69% 31%
1961 859.533 324.859 1.184.392 73% 27%
1962 961.679 301.985 1.263.664 76% 24%
1963 1.034.987 294.886 1.329.873 78% 22%
1964 1.097.932 287.383 1.385.315 79% 21%
1965 1.112.704 278.362 1.391.066 80% 20%
1966 973.447 273.678 1.247.125 78% 22%
1967 205.783 527.764 733.547 28% 72%
1968 220.193 526.091 746.284 30% 70%
1969 257.496 465.764 723.260 36% 64%
1970 292.410 427.034 719.444 41% 59%
1971 341.740 400.146 741.886 46% 54%
1972 380.625 389.153 769.778 49% 51%
1973 375.572 378.696 754.268 50% 50%
1974 334.621 427.732 762.353 44% 56%
1975 359.417 418.185 777.602 46% 54%
1976 383.220 417.353 800.573 48% 52%
1977 378.990 423.958 802.948 47% 53%
1978 394.636 416.598 811.234 49% 51%
1979 403.776 410.603 814.379 50% 50%
1980 413.093 398.904 811.997 51% 49%
1981 427.081 381.101 808.182 53% 47%
1982 468.041 344.369 812.410 58% 42%
1983 421.486 321.498 742.884 57% 43%
1984 303.123 350.741 653.864 46% 54%

72
Număr Număr Număr Procent Procent
An
avorturi născuți vii sarcini avorturi nașteri
1985 302.838 358.797 661.635 46% 54%
1986 183.959 376.896 560.855 33% 67%
1987 182.442 383.199 565.641 32% 68%
1988 185.416 380.043 565.459 33% 67%
1989 193.084 369.544 562.628 34% 66%
1990 992.265 314.746 1.307.011 76% 24%
1991 866.934 275.275 1.142.209 76% 24%
1992 691.863 260.393 952.256 73% 27%
1993 585.761 249.994 835.755 70% 30%
1994 530.191 246.736 776.927 68% 32%
1995 502.840 236.640 739.480 68% 32%
1996 455.340 231.348 686.688 66% 34%
1997 346.468 236.891 583.359 59% 41%
1998 270.930 237.297 508.227 53% 47%
1999 259.266 234.600 493.866 53% 47%
2000 257.267 234.521 491.788 52% 48%
2001 253.426 220.368 473.794 54% 46%
2002 246.714 210.529 457.243 54% 46%
2003 223.914 212.459 436.373 51% 49%
2004 189.683 216.261 405.944 47% 53%
2005 162.087 221.020 383.107 43% 57%
2006 149.598 219.483 369.081 41% 59%
2007 136.647 214.728 351.375 39% 61%
2008 127.410 221.900 349.310 37% 63%
2009 115.457 222.388 337.845 34% 66%
2010 101.271 212.199 313.470 32% 68%
2011 102.896 196.242 299.138 34% 66%
2012 87.477 201.104 288.581 31% 69%
2013 85.742 214.932 300.674 30% 70%
2014 77.806 195.612 273.418 30% 70%
2015 70.447 201.023 271.470 26% 74%

Există alternative relativ mai comode, dar mai limitate la exprimarea în


procente. Iată niște exemple:

73
- Într-o scrisoare deschisă adresată în februarie 2018 primului
ministru de la vremea respectivă de către Asociația „Autism
România” s-a arătat că unul dintr-o sută de români are o tulburare din
spectrul autismului, ceea ce înseamnă că „există aproape 200.000 de
«autiști» (plus familiile lor), și ei tot cetățeni români, care așteaptă să
fie tratați cu respect de către reprezentanții statutului român” 30;
- Potrivit unui raport publicat în 2016 de Poliția Română, mai mult de
două treimi din mașinile înregistrate în România în acel an erau mai
vechi de 10 ani31;
- Aproximativ o treime dintre femei și un sfert din bărbații din
întreaga lume fac insuficientă mișcare32 33;
- Dacă li s-ar oferi un discount sau alt stimulent asociat unei asigurări
de viață, nouă din zece clienți americani pentru un astfel de produs ar
fi motivați să-și mențină un anumit nivel de greutate corporală,
conform unei cercetări realizate pe un eșantion format din 1003
adulți din S.U.A. de către Global Atlantic Financial Group 34;
- Potrivit unei cercetări realizate de The Physicians Foundation pe un
eșantion format din 8774 de medici din S.U.A., aproape unul din trei
pacienți americani nu respectă planul de tratament al medicului35;
- O statistică tristă: jumătate dintre copiii care se nasc în România
înainte de termen nu supraviețuiesc36 37;

30
Cf: Gabriel ANDREESCU. Deciziile politice ale CNCD. Cum se poate salva libertatea de exprimare?
În: Noua Revistă de Drepturile Omului, nr. 2, 2018, p. 31,
http://www.revistadrepturileomului.ro/assets/docs/2018_2/NRDO-2018_2-andreescu.pdf (accesat: 7
noiembrie 2018). Scrisoarea Asociației „Autism România” a făcut obiectul unui articol apărut în 16
februarie 2018 la adresa: https://www.euractiv.ro/social/asociatia-autism-romania-afirmatia-vioricai-
dancila-e-jignitoare-pentru-persoanele-cu-autism-10061 (accesat: 7 noiembrie 2018).

31
Cf: https://www.wall-street.ro/articol/Auto/234309/romania-primul-loc-din-uniunea-europeana-la-
mortalitatea-din-accidentele-rutiere.html (accesat: 16 octombrie 2018).

32
Cf: Frankfurter Allgemeine Zeitung, 6 septembrie 2018, p. 8 (pe baza unui studiu al Organizației
Mondiale a Sănătății).

33
Informația a apărut și la adresa: https://www.tagesspiegel.de/wissen/weltgesundheitsorganisation-mehr-
als-1-4-milliarden-menschen-bewegen-sich-zu-wenig/22996662.html (accesat: 20 septembrie 2018).

34
Cf: USA Today, în Press & Sun-Bulletin (Binghamton, New York State), 16 octombrie 2018, p. 13.

35
Cf: USA Today, în Reno Gazette-Journal, 1 octombrie 2018, p. 10.

74
- Un sfert din copiii din Germania petrec mai puțin timp jucându-se
afară decât o făceau părinții lor în timpul copilăriei38;
- Două din cinci gospodării din România suportă cu dificultate sau cu
mare dificultate cheltuielile curente39;
- Lipsa îndelungată a precipitațiilor s-a resimțit puternic în toamna
anului 2018 aproape în toată țară, compromițând până spre sfârșitul
lunii octombrie trei sferturi din cultura de rapiță40;
- Conform unui studiu realizat în 2018 de către Institutul Național de
Statistică, o treime din patronii din România nu-și pot plăti la timp
întreținerea, factura la energie și telefonul. Același studiu arată că
există și patroni români fără baie în casă, fără calculator și chiar fără
mașină de spălat. Aceștia sunt mai ales din mediul rural41;
- Una dintre concluziile unui studiu recent din Jama Internal
Medicine este că unul din zece medici are credința că medicamentele
generice sunt mai puțin efective decât cele de brand 42;
- În România, conform unui studiu reprezentativ, opt din zece adulți
dezvoltă o infecție parodontală43, jumătate dintre aceștia înaintea
vârstei de 45 de ani44.

36
Cf: https://www.digi24.ro/stiri/actualitate/sanatate/drama-copiilor-nascuti-prematur-medic-banul-face-
diferenta-1002120 (accesat: 25 septembrie 2018).

37
Cifrele absolute arată că anual se nasc prematur în România în jur de 20.000 de copii, iar circa 10.000
dintre aceștia nu supraviețuiesc (cf: https://www.digi24.ro/stiri/actualitate/sanatate/drama-copiilor-
nascuti-prematur-medic-banul-face-diferenta-1002120 - accesat: 25 septembrie 2018).

38
Cf: Neue Presse, 28 septembrie 2018, p. 1.

39
Cf: https://www.digi24.ro/stiri/actualitate/social/romanii-isi-platesc-tot-mai-greu-facturile-curente-
1001491 (accesat în 27 septembrie 2018).

40
Cf: Lidia TRUICĂ. Seceta a pus stăpânire pe România. 75% din cultura de rapiță, compromisă.
Revista Reporter Global, articol online la adresa: https://reporterglobal.ro/seceta-a-pus-stapanire-pe-
romania-75-din-cultura-de-rapita-compromisa/ (accesat în 22 octombrie 2018).

41
Cf: https://romanialibera.ro/economie/unul-din-5-patroni-din-romania-este-sub-nivelul-minim-de-
saracie-753556 (accesat în 13 octombrie 2018).

42
Cf: Robert PEARL. Health’s price perception paradox. Articol apărut în: Los Angeles Times, 10
septembrie 2018, p. 9.

43
La nivelul gingiilor („parodonțiu” = țesut care susține dintele).

75
Dacă valoarea de comparat este de mii, de zeci de mii sau de sute de mii
de ori mai mică decât valoarea fixată, exprimarea se va face în promile
(simbolizate cu 0/00), prodecimile (simbolizate cu 0/000) sau procentimile
(simbolizate cu 0/0000). Se obţin astfel comparaţii la 1000, 10.000 sau
100.000 de unităţi, rezultatele obţinându-se prin înmulţiri cu 1000,
10.000 sau 100.000.
De exemplu, se poate exprima în promile numărul de medici la 1000
locuitori. Din păcate, pentru România acest număr a ajuns în ultimii ani la
doar 2,4, o valoare care se află mult sub media Uniunii Europene45. O altă
statistică nefericită arată că în România anului 2010 mortalitatea infantilă
era de 10,9 la mie, adică cu mult peste media europeană, egală cu 4 la
mie46.
În prodecimile se poate exprima numărul studenţilor raportat la populaţia
dintr-o zonă geogratică (numărul studenţilor ce revin la 10000 de
locuitori). În sfârşit, se dovedeşte necesară exprimarea în procentimile a
dezvoltării comerciale în mediul rural, măsurată prin numărul de magazine
ce revin la 100000 de locuitori din mediul rural.
Uneori poate fi de preferat chiar exprimarea prin raportarea la cifra de 1
milion (cu rezultate indicate în texte științifice cu abrevierea „ppm” – „part
per million”47). De pildă, în 2017 rata mortalității din accidentele rutiere a
înregistrat în România un nivel de 99 de morți la un milion de locuitori,
ceea ce înseamnă, din nefericire, o valoare aproape dublă față de media
Uniunii Europene, egală cu 50 de morți la un milion de locuitori
(constituind astfel nivelul record între țările membre), conform datelor
publicate într-un raport realizat de European Transport Safety Council
(ETSC), citat într-un comunicat al Asociaţiei Pro Infrastructura (API)48.

44
Cf: Steluța INDREI. Parodontoza, boala de care suferă 8 din 10 români. Cum previi pierderea
dinților. Articol online la adresa: https://www.dcmedical.ro/parodontoza-boala-de-care-sufera-8-din-10-
romani-cum-previi-pierderea-din-ilor_604633.html (accesat în 24 octombrie 2018).

45
Cf: Alina PĂDURARU, Cristian DELCEA și Laurențiu UNGUREANU, Viața secretă a țărăncilor
noastre, https://recorder.ro/viata-secreta-a-tarancilor-noastre/ (accesat: 24 iulie 2018).

46
Cf: https://www.digi24.ro/stiri/actualitate/sanatate/drama-copiilor-nascuti-prematur-medic-banul-face-
diferenta-1002120 (accesat: 25 septembrie 2018).

47
Cf: https://www.rapidtables.com/math/number/PPM.html (accesat: 16 octombrie 2018).

48
Cf: https://romanialibera.ro/actualitate/romania-pe-primul-loc-in-uniunea-europeana-la-mortalitate-in-
accidente-rutiere-750722 (accesat: 16 octombrie 2018).

76
Înainte de efectuarea calculelor pe care le presupune evidenţierea, prin
folosirea mărimilor relative, a diferitelor relaţii cantitative care pot fi de
interes în demersul statistic, trebuie verificată îndeplinirea condiţiei de
comparabilitate a fenomenelor studiate.
Condiţia de comparabilitate se referă la timp, spaţiu, şi/sau alte criterii
specifice. Verificarea condiţiei de comparabilitate a fenomenelor studiate
constituie premisa alegerii corecte a bazei de raportare sau comparaţie.
Comparabilitatea se manifestă ca o legătură logică între fenomenele
studiate, legătură care poate fi de condiţionare, de corespondenţă, de
cauzalitate sau de altă natură.
Nerespectarea condiţiei de comparabilitate este cauzată cel mai des de:
 diferenţe privitoare la definirea noţiunilor din programul de
observare statistică;
 modificări neaşteptate de structură ale colectivităţilor supuse
studiului;
 modificări neplanificate în modul de culegere şi prelucrare a
datelor statistice;
 folosirea unor preţuri diferite în evaluări;
 folosirea unor surse de informaţii diferite.
Dacă nu se pot înlătura diferenţele de conţinut sau de formă de exprimare
ale valorilor de comparat, diferenţe care afectează comparabilitatea
acestora, poate fi necesară chiar renunţarea la folosirea mărimilor relative.
Mărimile relative se pot grupa în:
 mărimi relative de structură;
 mărimi relative de coordonare (sau de corespondenţă);
 mărimi relative de dinamică (înregistrată, planificată şi,
respectiv, realizată);
 mărimi relative de intensitate.

2.2. Mărimile relative de structură


Mărimile relative de structură acesteia descriu componenţa colectivităţii
studiate, ele fiind rezulate ale unor comparaţii între părţi şi întregul pe care
ele îl compun.
Atunci când sunt vizate frecvenţele de apariţie, rezultatele comparaţiilor
de tip parte-întreg constau în frecvenţele relative înregistrate. Atunci când
sunt vizate nivelurile înregistrate, rezultatele comparaţiilor de tip parte-
întreg constau în ponderi înregistrate.

77
În tabelul 2.3 sunt prezentate relaţiile pentru determinarea mărimilor
relative de structură la nivelul unei colectivităţi statistice, studiată după o
variabilă statistică X.

Tabelul 2.3 Relaţii pentru determinarea mărimilor relative de


structură
Pentru comparaţii
Pentru comparaţii
de volum la
Pentru comparaţii de volum la
nivelul unei
de frecvenţe nivelul unei serii
distribuţii
statistice
statistice

unde:
rj reprezintă frecvenţa relativă de apariţie a variantei j care defineşte
variabila statistică X;
nj = frecvenţa absolută de apariţie a variantei j care defineşte variabila
statistică X;
pi = ponderea unui nivel faţă de volumul total înregistrat pentru o
colectivitate statistică studiată după un criteriu cantitativ;
xi = nivelul i înregistrat de variabila statistică X;
gj = ponderea unui nivel faţă de volumul total înregistrat pentru o
colectivitate statistică distribuită după o variabilă cantitativă de nivel.
Pentru exemplificare, putem să ne referim la rezultatele unui studiu
realizat în anul 2014 de Institutul de Demoscopie din Allensbach,
Germania. În urma acestui studiu s-a constatat că circa 61% din est-
germani consideră că dezvoltarea Germaniei după căderea zidului
Berlinului poate fi apreciată ca o poveste de succes 49. Acest rezultat este
expresia numerică a unei comparaţii de tip parte-întreg (întregul
corespunde aici populaţiei est-germane care a făcut obiectul studiului).

49
Conform Frankfurter Allgemeine Sonntagszeitung din 9 noiembrie 2014.

78
Cel de-al doilea exemplu de mărime relativă de structură pe care l-am ales
este frecvența relativă (exprimată procentual) a bugetarilor în totalul
salariaților dintr-o țară sau dintr-o anumită regiune economică. În perioada
2000 – 2016, potrivit datelor Eurostat50, aceasta s-a menţinut la nivelul
Uniunii Europene între 15% şi 17%, în 2016 fiind de 16%. În ce privește
valorile înregistrate în 2016 la nivelul țărilor membre UE, cele mai ridicate
erau consemnate în Suedia (29% din totalul angajaţilor), Danemarca
(28%), Finlanda (25%), Estonia (23%), Lituania, Franţa şi Ungaria
(toate cu 22%), iar cele mai reduse în Germania (10%), Luxemburg
(12%), Olanda (13%), Italia (14%), Portugalia, Irlanda şi Spania (toate
cu 15%) şi România (puţin peste 15%)51.
Cel de-al treiilea exemplu de mărime relativă de structură este din
domeniul sănătății la nivel global și este obținut pe seama unui nou raport
al Organizației Națiunilor Unite (ONU), potrivit căruia aproximativ 6,3
milioane de copii mor înainte de a împlini vârsta de 15 ani, în special din
cauza lipsei de apă potabilă, a nutriției precare și a condițiilor sanitare
deficitare; cele mai multe dintre decese, respectiv 5,4 milioane au loc în
primii cinci ani de viață52. Din aceste cifre, rezultă că frecvența relativă
procentuală a copiilor care mor înainte de a împlini cinci ani în totalul
copiilor care mor înainte de a împlini vârsta de 15 ani este rj = 5,4 / 6,3 =
0,8571 = 85,71%.
Un alt exemplu privind determinarea frecvenţei statistice relative are în
vedere date recente privind numărul analfabeților la nivel mondial 53,
potrivit cărora din cei 750 milioane de analfabeți din întreaga lume, 102
milioane sunt tineri cu vârsta cuprinsă între 15 și 24 de ani. Frecvența
relativă a acestora din urmă este rj = 102 / 750 = 0,136 = 13,6%
(dintre cele 750 milioane de analfabeți din întreaga lume, 13,6% sunt
reprezentați de tineri cu vârsta cuprinsă între 15 și 24 de ani). Aceste
valori au o deosebită semnificație sociologică.

50
Trebuie precizat că potrivit Eurostat, în categoria angajaților din sectorul guvernamental intră atât
funcţionarii publici şi alţi angajaţi guvernamentali (la nivel naţional, regional şi local), cât şi forţele
armate.

51
Cf: http://cursdeguvernare.ro/eurostat-romania-si-evolutia-numarului-de-bugetari-context-
european.html (accesat: 25 iulie 2018)

52
Cf: Malnutriția ucide un copil la fiecare cinci secunde. În: Viața medicală, numărul 39 (1496), 28
septembrie 2018, http://www.viata-medicala.ro/*articleID_15023-dArt.html (accesat: 10 noiembrie
2018).

53
Cf.: Cellesche Zeitung, 7 septembrie 2018, p. 4.

79
Mărimi relative de structură cu însemnătate sociologică sunt și cele
privind participarea la referendumul național desfășurat în 6-7 octombrie
2018, pentru revizuirea Constituției (în legătură cu definirea căsătoriei).
După numărarea și centralizarea tuturor voturilor din cele 19.040 secţii de
votare, a reieșit faptul că la acest referendum ar fi participat 3.857.308
alegători din totalul celor 18.279.011 de cetățeni cu drept de vot, ceea ce
înseamnă un procent de 21,102% (3.857.308 / 18.279.011 =
0,22102)54. Conform Biroului Electoral Central, rezultatele finale,
obținute după luarea în calcul a contestațiilor, arată o prezență de
3.731.704 (din România) + 126.239 (din străinătate) = 3.857.943
alegători dintr-un total de 18.278.496 alegători înscriși pe liste
permanente55. Este o prezență puțin mai mare, care nu modifică însă
semnificativ procentul participării la vot (3.857.943 / 18.278.496 =
0,22106 = 22,106%).
Pentru a încheia exemplele privind mărimile relative de structură, să
revenim la Germania, arătând faptul îngrijorător că o cifră semnifcativă a
studenților din această țară (circa 1,8 milioane) suferă de dureri de cap.
Raportând această cifră la numărul total al studenților din Germania
(aproximativ 2,8 milioane) rezultă un procent de 1,8 / 2,8 = 0,64 = 64%.
Prin urmare este vorba despre o pondere semnificativă, echivalentă cu
aproape două treimi din studenții din Germania56.

2.3. Mărimile relative de coordonare (corespondenţă)


Mărimile relative de coordonare, denumite şi mărimi relative de
corespondenţă, se folosesc atunci când se compară între ele două grupe
diferite ale unei colectivităţi statistice.

54
Cf.: Lumea monahilor, nr. 136, octombrie 2018, p. 60. Aceste informații pot fi verificate și la adresa:
https://www.mediafax.ro/social/rezultate-finale-referendum-pentru-familie-prezenta-la-vot-21-10-bec-da-
91-56-nu-6-47-voturi-nule-1-9-17548777 (accesat în 24 octombrie 2018).

55
Cf.: http://prezenta.bec.ro/referendum/country (pentru prezența din România) și
http://prezenta.bec.ro/referendum/abroad (pentru prezența din străinătate). Paginile au fost accesate în 24
octombrie 2018.

56
Cf.: Etwa 64 Prozent der Studierenden leiden unter Kopfschmerzen, https://www.forschung-und-
lehre.de/lehre/etwa-64-prozent-der-studierenden-leiden-unter-kopfschmerzen-1161/ (accesat în 10
noiembrie 2018).

80
Prin urmare, mărimile relative de coordonare sunt expresii numerice ale
unor comparaţii de tip parte-parte, după o relaţie de tipul:

unde:
A şi B reprezintă nivelurile sau frecvenţele observate pentru grupele
comparate.
De exemplu, cunoscând că numărul de asigurați înregistrați în sistemul
public de sănătate din România se ridică la circa 20 milioane de
beneficiari, în timp ce numărul de contribuabili este de aproximativ 5
milioane57, rezultă că numărul celor care sunt asigurați fără a contribui în
sistem este de 15 milioane, ceea ce înseamnă că raportul estimat dintre
asigurații contribuabili (A) și asigurații care nu contribuie în sistem (B)
este: IA/B = A / B = 5 / 15 = 0,33 = 33,3%. Acest rezultat se poate citi
și astfel: „la 100 de asigurați care nu contribuie în sistem se înregistrează
doar 33 de asigurați contribuabili”. O altă variantă posibilă este: „la 10
asigurați care nu contribuie în sistem se înregistrează doar puțin mai mult
de 3 asigurați contribuabili”.
Un al doilea exemplu este în legătură cu un studiu publicat în jurnalul
„The Lancet Respiratory Medicine”, avându-i ca autori pe cercetătorii
Stanton Glantz şi Sara Kalhoran, specialişti în cadrul centrului „Tobacco
Control Research an Education” al Universităţii din California. Potrivit
acestui studiu, persoanele fumătoare care folosesc ţigările electronice ca o
metodă de renunţare la fumat au şanse de reușită în această întreprindere
cu 28% mai mici față de fumătorii care apelează la alte metode. La această
cifră s-a ajuns după analizarea a 38 de studii care deţineau datele a mii de
fumători, care au participat la cercetări de la perioade de câteva luni până
la câţiva ani, comparându-se rezultatele obținute în urma acestei analize
privintoare la cele două grupuri de fumători58.

57
Cf.: Ziarul Financiar, 18 septembrie 2018, https://www.pressreader.com/romania/ziarul-
financiar/20180918 (accesat în 25 septembrie 2018). Aceste datele estimate pot fi verificate și la adresa:
https://www.zf.ro/eveniment/dragos-damian-ceo-terapia-cluj-drama-din-sanatate-este-ca-20-de-milioane-
de-asigurati-sunt-sustinuti-de-doar-5-milioane-de-contribuabili-17523190 (accesat în 25 septembrie
2018).

58
Cf.: Metode de renunţare la fumat. Statistica nu recomandă ţigările electronice. Articol apărut online
în 27 ianuarie 2016 la adresa: https://adevarul.ro/sanatate/medicina/metode-renuntare-fumat-statistica-nu-
recomanda-tigarile-electronice-1_56a8bb755ab6550cb82a13af/index.html (accesat în 17 octombrie
2018). Un rezumat al rezultatelor studiului realizat de către cercetătorii Stanton Glantz şi Sara Kalhoran
se poate consulta la adresa: https://www.ncbi.nlm.nih.gov/pubmed/26776875 (accesat în 17 octombrie
2018). Textul integral al lucării publicate de către cei doi cercetători se poate accesa la adresa:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4752870/pdf/nihms752765.pdf (accesat în 17 octombrie
2018).

81
În acest caz, notând cu A șansele de a scăpa de dependenţa de nicotină
pentru grupul fumătorilor care folosesc ţigările electronice ca metodă de
renunţare la fumat și cu B șansele de a renunța la fumat pentru grupul
persoanelor fumătoare care folosesc în acest scop alte metode, se poate
scrie că: A = B – B · 0,28 = B / (1 – 0,28) = B · 0,72.
Aceasta înseamnă că: IA/B = A / B = (B · 0,72) / B = 0,72 = 72%.
Totodată, IB/A = B / A = B / (B · 0,72) = 1 / 0,72 = 1,39 = 139%. Prin
urmare, șansele de a renunța la fumat prin alte metode decât folosirea
ţigărilor electronice sunt cu 39% mai mari.
Este de notat faptul că, de această dată, A şi B nu reprezintă frecvenţe
înregistrate pentru grupele comparate, ci frecvențe probabile (șanse) de
reușită.

2.4. Mărimile relative de dinamică


Mărimile relative de dinamică se folosesc pentru descrierea evoluţiei
înregistrate sau dorite în timp pentru fenomenul studiat.
Mărimile relative de dinamică sunt expresii numerice ale comparaţiilor
pentru două momente sau perioade de timp diferite. Cel mai des, acestea
îmbracă forma indicilor de dinamică.
Comparându-se, de exemplu, mărimea populației globale de animale
pentru anii 1970 și 2014, s-a constatat, din nefericire, un declin al acesteia
de 60%59.
Comparaţiile se pot realiza şi faţă de valori planificate, obţinându-se astfel
mărimi relative ale dinamicii planificate. Prin comparaţii ale valorilor
realizate cu cele planificate se obţin mărimi relative ale dinamicii realizate,
care se pot dovedi foarte utile pentru aprecierea eficienţei managementului
diferitelor activităţi social-economice.
Relaţiile care se pot folosi pentru calculul indicilor de dinamică sunt
prezentate în tabelul 2.4.
În capitolul 9 al lucrării de faţă, capitol dedicat statisticii cronologice, sunt
prezentate în detaliu şi celelalte mărimi relative de dinamică (sporuri şi
rate).

59
Cf.: Living Planet Report - 2018: Aiming higher. WWF (World Wildlife Fund) International, 2018, p.
11, https://www.wwf.org.uk/sites/default/files/2018-10/wwfintl_livingplanet_full.pdf (accesat în 31
octombrie 2018). O prezentare sintetică a informațiilor cuprinse în acest raport este: Andrew MÜLLER.
Tiere bald nur noch in Stall und Zoo? În: Die Tageszeitung, 31 octombrie 2018, p. 9.

82
Tabelul 2.4 Relaţii de calcul folosite pentru calculul indicilor de
dinamică
Indici ai dinamicii Indici ai dinamicii Indici ai dinamicii
înregistrate planificate realizate

unde:
x1 reprezintă o valoare (nivel sau frecvenţă) înregistrată la momentul
sau pentru perioada curentă;
x0 = o valoare (nivel sau frecvenţă) înregistrată la momentul sau
pentru perioada care s-a ales ca bază de comparaţie/raportare;
xpl = o valoare (nivel sau frecvenţă) planificată pentru un moment sau
o perioadă de timp din viitor.

2.5. Mărimile relative de intensitate


Mărimile relative de intensitate sunt expresii ale comparaţiilor între valori
înregistrate pentru fenomene de natură diferită, dar între care există o
anumită relaţie de interdependenţă.
Natura diferită a fenomenelor pentru care se realizează aceste comparaţii
determină de obicei necesitatea exprimării mărimilor relative de intensitate
în unităţi de măsură complexe.
De exemplu, pentru descrierea „productivităţii orare a muncii” la nivelul
unei secţii productive, în condiţiile exprimării cantităţii de produse
obţinute în bucăţi şi a cantităţii de muncă în număr de ore, este necesară
exprimarea rezultatului cu ajutorul unităţii de măsură complexe
„bucăţi/oră”.
O mărime relativă de intensitate cu semnificație deosebită pentru
agricultură se poate obține prin raportarea numărului de hectare ale
suprafeței agricole totale la numărul de tractoare dintr-o anumită țară sau
zonă geografică. În figura 2.3 este reprezentată evoluția acestei statistici
pentru România în perioada 2007-201660.

60
Cf.: Senica MICU. Tractoare românești. În: New Money, nr 51, 22 octombrie 2018 – 4 noiembrie
2018, p. 42.

83
Figura 2.3 Evoluția numărului de hectare / tractor în România, 2007-
2016

În situația în care cele două fenomene se exprimă în aceeași unitate de


măsură, mărimile relative de intensitate se pot exprima, asemenea
celorlalte mărimi relative, în coeficienți, procente, promile etc. De pildă,
raportul dintre stocul creditelor acordate și stocul depozitelor băncilor
străine care activează în România a ajuns în anul 2018 la circa 75%61 62.
Fenomenele vizate în cadrul acestui exemplu sunt ambele fenomene
financiare (creditarea și, respectiv, atragerea de depozite), motiv pentru
care sunt exprimate în aceeași unitate de măsură (monetar-financiară).
Totuși, ele sunt în mod evident fenomene de natură diferită, chiar dacă se
află într-o strânsă relație de interdependență.

61
Cf: Ilie ȘERBĂNESCU. Băncile străine în România – colonialism la pătrat. Articol apărut în:
cotidianul România Liberă din 24 octombrie 2018, p. 9, https://romanialibera.ro/opinii/bancile-straine-in-
romania-colonialism-la-patrat-757872 (accesat în 25 octombrie 2018).

62
Această valoare pune în evidență un aspect neplăcut în legătură cu activitatea băncilor străine în
România: anume faptul că cetățenii români finanțează bancile străine, și nu băncile străine îi finanțează pe
români (cum ar fi fost firesc într-o presupusă economie de piață...).

84
DESCRIEREA STATISTICĂ
A TENDINŢEI CENTRALE:
STATISTICILE MEDII 3.

OBIECTIVELE CAPITOLULUI

În acest capitol sunt prezentate statisticile medii folosite pentru descrierea


statistică a tendinţei centrale, urmărindu-se:
 înţelegerea conţinutului informaţional al celor 4 statistici medii importante:
media aritmetică, media geometrică, media pătratică şi media armonică;
 conştientizarea limitelor statisticilor medii pentru caracterizarea tendinţei
statistice centrale;
 stăpânirea tehnicilor de calcul utilizate pentru determinarea statisticilor medii.

85
86
Prin tendinţă se poate înţelege un anunit fel de comportament, manifestare
etc., care se amplifică, devenind astfel comun unui număr tot mai mare de
cazuri înregistrate1.
Conturarea unei anumite tendințe în sânul unei colectivități statistice este
echivalentă de cele mai multe ori cu plasarea valorilor particulare
înregistrate la nivelul unităților statistice de-o parte și de alta unor anumite
valori mai des întâlnite, ceea ce face ca aceste valori să devină valori mai
mult sau mai puțin centrale pentru colectivitatea considerată. Acesta este
motivul pentru care un interes aparte în descrierea statistică se manifestă în
legătură cu tendința centrală a valorilor înregistrate.
Tendinţa centrală care se manifestă în comportamentul unităţilor unei
colectivităţi statistice se poate descrie cu ajutorul statisticilor:
 medii;
 de poziţie (a se vedea capitolul 4);
 de variație (în jurul statisticilor medii sau de poziție - a se vedea
capitolul 5).
Cele trei tipuri de statistici oferă informaţii complementare privitoare la
tendința centrală înregistrată în cadrul unei colectivități statistice.

Statisticile medii
Statisticile medii sunt valori reprezentative din punctul de vedere al
diferitelor rezultate algebrice semnificative pentru demersul de descriere
statistică: suma, produsul, suma pătratelor şi suma inverselor. Celor 4
rezultate algebrice le corespund următoarele statistici medii:
 media aritmetică;
 media geometrică;
 media pătratică;
 media armonică.

3.1. Media aritmetică


De departe cea mai importantă statistică medie este media aritmetică.
Importanța acestei statistici este reliefată în primul rând de gradul mare de

1
Tendency = „a way of behaving, proceeding, etc., that is developing and becoming more common”. În:
Merriam-Webster Dictionary, http://www.merriam-webster.com/dictionary/tendency (data ultimei
accesări: 29 octombrie 2014).

87
utilizare a ei în domenii a căror paletă de diversificare este una foarte
largă.
În continuare sunt prezentate câteva exemple interesante de statistici medii
aflate mai recent:
- Privitor la salariile din Romănia: Salariul mediu net în administrația
publică a ajuns în luna iunie 2018 la 4207 lei, adică cu 50% mai
mare decât salariul mediu net din învățământ, în valoare de de 2803
lei, sau cu 54,6% mai mare decât salariul mediu net la nivelul
întregii economii, în valoare de de 2721 lei2;
- În legătură cu pensiile din Romănia: pensia medie lunară (care se
determină luând în calcul sumele pentru pensiile tuturor categoriilor
de pensionari - de asigurări sociale, invaliditate, urmaș etc.- plătite de
diferitele case de pensii) a fost în trimestrul III din anul 2018 de
1122 lei, adică cu 82,14% mai mare decât pensia medie de
invaliditate, în valoare de 616 lei3;
- În legătură cu câștigurile expaților: 99.903$ era valoarea medie la
nivel mondial a veniturilor (brute) obținute de expați în anul 2017,
creșterea medie a acestora după expatriere fiind de 25%4;
- În domeniul auto: Potrivit datelor Asociației europene a
producătorilor de automobile ACEA, un automobil a avut în medie în
Europa, la nivelul anului 2016, o vechime de 11 ani, spre deosebire
de valoarea de 10,4 ani înregistrată cu trei ani mai devreme5. Pentru
România, conform acelorași date, vechimea medie a unui automobil
în 2016 a fost de 16,2 ani6.

2
Cf. datelor publicate de Institutul Național de Statistică (INS):
http://www.insse.ro/cms/files/statistici/comunicate/castiguri/a18/cs06r18.xls (data ultimei accesări: 21
septembrie 2018).
3
Cf. datelor publicate de Institutul Național de Statistică (INS):
http://www.insse.ro/cms/sites/default/files/com_presa/com_pdf/pensii_tr2r18.pdf (publicat în 12
septembrie 2018)

4
Cf: Expat Explorer: Broadening perspectives, Global Report, HSBC, 2017, p. 16,
https://www.expatexplorer.hsbc.com/survey/files/pdfs/overall-
reports/2017/YouGov_HSBC_Report_Final.pdf (accesat: 16 octombrie 2018).

5
Cf.: Rhein-Zeitung, 15 septembrie 2018, p. 1 din suplimentul Das Motor-Magazin.

6
Cf.: Ostsee-Zeitung (Rostock), 1 septembrie 2018, p. IX din suplimentul Sommermagazin.

88
- În domeniul securității cibernetice: Costul mediu al unei breșe de
securitate a datelor la nivelul companiilor din SUA este de 7,9
milioane $7.
- În domeniul financiar-bancar: Conform unui studiu anual realizat de
către AMCC (Asociaţia de Industrie a Colectorilor de Creanţe), în
România anului 2017 valoarea medie a creanţelor achizioționate a
fost de 930 de euro, în timp ce valoarea medie a creanţelor colectate
a fost de circa 150 de euro, ceea ce înseamnă 16% din valoarea
cumpărată8;
- În domeniul telecomunicațiilor: Conform raportului de piață pentru
anul 2017 realizat de către autoritatea de reglementare în comunicații
(ANCOM), un utilizator de internet mobil a consumat în medie, pe
parcursul anului menționat, peste 1,4 GB/lună, o valoarea aproape
dublă față de cea din anul precedent9. Pe de altă parte, românii
cheltuie în medie pentru achiziția de noi modele de telefon 1412
lei10.
- În domeniul consumului de conținut TV: Potrivit unui studiu
realizat de Mercury Research pentru SES Astra România în 2015,
românii consumau în medie în acel an 3,3 ore de conținut TV pe zi în
timpul săptămânii și de aproape 4 ore în weekend11. Mai recent, un
sondaj realizat la nivel internațional a arătat că românii sunt printre
cei mai mari „devoratori” de televiziune, petrecând zilnic în medie
peste 5 ore și jumătate în fața televizorului12;

7
Cf.: USA Today, 28 august 2018. În: Reno Gazette-Journal, 28 august 2018, p. 1B.

8
Cf.: Dimana Vlaeva, Managing director Debt Collection Agency (DCA), parte din grupul B2Holding în
cadrul unui interviu publicat în 28 august 2018 pe site-ul revistei Piața Financiară,
http://www.piatafinanciara.ro/debt-collection-agency-suntem-in-top-5-colectori-de-creante-din-romania/
(accesat: 10 septembrie 2018)

9
Cf.: Revista DeBizz, nr. 140, iunie 2018, p. 14.

10
Cf.: Revista New Money, nr. 48, 10-23 septembrie 2018, p. 8.

11
Cf.: https://economie.hotnews.ro/stiri-media_publicitate-20446772-obiceiuri-consum-romanii-
consuma-medie-3-3-ore-continut-canalele-stiri-topul-preferintelor.htm (accesat în 16 septembrie 2018).

12
Cf.: https://evz.ro/care-este-preferinta-romanilor-televiziunea-la-concurenta-cu-int.html și
https://www.antena3.ro/actualitate/media/romanii-mari-consumatori-de-televiziune-489538.html
(accesate în 17 octombrie 2018).

89
- În domeniul educației: Potrivit Eurostat, 30% dintre copiii români
de până la 18 ani renunță la studii, cu 7% peste media europeană13;
rezultă, așadar, că media europeană a procentului copiiilor de până la
18 ani care renunță la studii este de 23%;
- O altă statistică tristă privind copiii din România: 9 ani este vârsta
medie la care aceștia iau prima dată contact cu alcoolul. Această
concluzie nefericită se desprinde dintr-un raport făcut recent de către
Institutul Naţional de Sănătate Publică (INSP), document ce
evidenţiază totodată faptul că vârsta de debut la consumul de alcool
înregistrează de mai mulți ani o tendință continuă de scădere14;
- În domeniul alimentației: Conform WWF International 2015,
europenii consumă în medie 61 kg de soia pe an, din care 57 kg pe o
cale indirectă, adică provenind în principal din produse (precum
carnea, ouăle și laptele) obținute de la animalele hrănite cu soia15. În
ceea ce privește consumul de carne și produse din carne, statisticile
indică pentru România anului 2018 o cantitate medie de 64 kg/
locuitor, spre deosebire de Franța, Germania și Spania, unde
consumul depășește 85 kg/ locuitor. La consumul de iaurt România
este mult sub media UE cu doar 7 kg/ locuitor, față de 30 kg/ locuitor
în Franța, sau 23 kg/ locuitor în Bulgaria. Avem, pe de altă parte, un
consum anual foarte mare de pâine, media fiind de 95 kg/ locuitor,
adică mult peste media europeană, egală cu 60 kg/ locuitor16;
- În domeniul alimentației în Germania: Consumul mediu de legume
pe cap de locuitor a urcat de la 48,8 kg în anul agricol 1960/1961 la
93,8 kg în anul agricol 2015/201617;

13
Cf.: Revista Reporter Global, nr. 15, 14-20 septembrie 2018, p. 55.

14
Claudia SPRIDON. Românii încep să bea din clasa a patra. Articol apărut în 15 noiembrie 2018 la
adresa online: https://adevarul.ro/news/societate/romanii-incep-bea-clasa-patra-
1_5bed39d3df52022f757ca203/index.html (accesat în 19 noiembrie 2018).

15
Cf.: Revista Sciences et Avenir, nr. 858, august 2018, p. 76.

16
Cf.: https://jurnalul.antena3.ro/viata-sanatoasa/starea-de-sanatate/16-octombrie-ziua-mondiala-a-
alimentatiei-iata-cum-arata-statistic-comportamentul-alimentar-al-romanilor-mancam-prea-multa-paine-
iar-la-iaurt-peste-legume-si-fructe-suntem-deficitari-789641.html (accesat în 16 octombrie 2018).

17
Cf.: Revista Der Spiegel, nr. 46, 11 noiembrie 2017, p. 58..

90
- În domeniul alimentației în România: Asociaţia Producătorilor de
Salam de Sibiu (APSS) din care fac parte şase producători (Angst,
Aldis, Agricola Bacău, Scandia Food, Cris-Tim şi Reinert) a anunţat
în 31 octombrie, în cadrul târgului IndAgra 201818, că românii iubesc
acest produs de nișă, super premium, chiar dacă statisticile spun că,
pe cap de locuitor, consumul mediu este de doar 4 felii de Salam de
Sibiu (unicul produs românesc din categoria carne procesată
recunoscut în 2016 cu distincţia europeană a calităţii Indicaţie
Geografică Protejată, IGP) pe an, în condițiile unei producţii de 2100
de tone în anul 201719;
- În domeniul publicității: În cadrul unei anchete realizate de UFC –
Que Choisir s-a estimat o greutate medie a materialelor publicitare
neadresate plasate în cutiile poștale din Franța de 2,3 kg20;
- În legătură cu somnul: În anul 1942 numărul mediu de ore dormite
pe noapte era de aproape 8 ore, in timp ce în zilele noastre, din cauza
vieții tot mai agitate pe care o avem, această valoare a scăzut la circa
6,8 ore21;
- În domeniul serviciilor medicale de urgență: În medie, doar
aproximativ 30% din intervențiile de urgență din Germania se
dovedesc a fi solicitate în cazuri reale de urgență22 (în care un pacient

18
Este vorba despre un târg internațional de produse și echipamente în domeniul agriculturii,
horticulturii, viticulturii și zootehniei, considerat a fi cel mai mare și important eveniment agricol din
România. Ediția 2018 s-a desfășurat în perioada 31 octombrie - 4 noiembrie 2018 (cf.:
https://www.indagra.ro/ - accesat în 13 noiembrie 2018).

19
Cf.: Ionel VĂDUVA. Un român consumă doar patru felii de Salam de Sibiu pe an. Articol publicat în
1 noiembrie 2018 pe site-ul Revistei Fermierul, la adresa: https://www.revistafermierului.ro/romania-
agricola/stiri-interne/item/3588-un-roman-consuma-doar-patru-felii-de-salam-de-sibiu-pe-an.html
(accesat în 13 noiembrie 2018).

20
Cf.: Revista Science & Vie, nr. 1212, septembrie 2018, p. 113.

21
Cf.: https://adevarul.ro/sanatate/dormit/ce-probleme-sanatate-risti-nu-dormi-suficient-
1_52f6efb7c7b855ff563046a1/index.html (accesat în 25 septembrie 2018)

22
Cf.: Pia HEINEMANN. „Rettungswagen sind eine knappe Ressource“. În: Die Welt (Berlin), 29
octombrie 2018, p. 20.

91
este în pericol de moarte)23, restul solicitărilor putând fi rezolvate pe
altă cale24.
Media aritmetică este valoarea reprezentativă statistic din punctul de
vedere al sumei valorilor înregistrate. Concret, aceasta înseamnă că prin
înlocuirea tuturor valorilor înregistrate cu media lor aritmetică, suma lor
nu se modifică.
Să considerăm, de pildă, o firmă cu 5 angajaţi, ale căror salarii nete sunt,
în ordine crescătoare, de 2620, 2675, 2710, 2735 şi 2760 RON. Aceste
salarii determină un fond de salarii nete25 de 13500 RON. Întrucât din
acest fond cei 5 angajaţi ar putea fi retribuiţi în mod egal cu câte 2700
RON, înseamnă că acest nivel de salarizare reprezintă nivelul mediu al
salariilor nete din cadrul firmei. Aceasta înseamnă că înlocuirea tuturor
salariilor cu salariul mediu nu modifică mărimea fondului de salarii al
firmei. Similar, câştigul salarial mediu nominal net la nivel de economie
naţională26 reprezintă acel câştig salarial pe care dacă toţi salariaţii din
România l-ar obține fondul naţional de câștiguri salariale nominale ar
rămâne la același nivel cu cel înregistrat în realitate.
Pentru date statistice simple, adică negrupate, media aritmetică se
calculează ca o medie simplă. Pentru date statistice grupate în cadrul unei
distribuţii statistice de frecvenţe, media aritmetică se calculează ca o
medie ponderată (ponderile fiind frecvenţele absolute sau relative de
manifestare a variantelor care descriu variabila statistică în funcţie de care
se studiază colectivitatea statistică).

Calculul mediei aritmetice pentru un şir de valori


Din definiţia mediei aritmetice rezultă uşor relaţiile de calcul ale acesteia,
prin egalizarea sumei valorilor înregistrate cu suma care ar rezulta în urma
înlocuirii tuturor cu valoarea mediei lor aritmetice. Considerând, astfel, o
variabilă X pentru care s-a înregistrat şirul de valori x1, x2, … xi, ... xN,
media aritmetică () se poate determina pornind de la egalitatea:

23
Prin apelul la nr. 112.

24
Astfel de solicitări ar putea fi rezolvate în Germania prin apelul la nr. 116117.

25
Fondul de salarii este egal cu suma salariilor.

26
În luna iunie 2018, câştigul salarial mediu nominal net pentru salariaţii din România a fost de 2721 lei.
Acest nivel a fost precizat într-un comunicat emis de Institutul Naţional de Statistică
(http://www.insse.ro/cms/sites/default/files/com_presa/com_pdf/cs06r18.pdf - accesat în 10 august 2018).

92
Sumă (x1, x2, … xi, ... xN) = Sumă (,  … )
Folosind simbolurile matematice obişnuite:

Să calculăm, de exemplu, vechimea medie în muncă a celor 50 de angajaţi


ai firmei „ABC”, pentru care valorile individuale ale vechimii în muncă
sunt redate în tabelul 1.7:

Calculul mediei aritmetice pentru distribuţii statistice de frecvenţe după


variabile discrete
În calculul mediei aritmetice pentru distribuţii statistice discrete, se ţine
cont de frecvenţele (absolute sau relative) înregistrate pentru fiecare dintre
variantele discrete care definesc variabilele statistice:

unde:
xi reprezintă valoarea i înregistrată de variabila X;
xj = varianta discretă j care defineşte variabila X;

93
nj = frecvenţa absolută de apariţie a variantei discrete xj;
rj = frecvenţa relativă de manifestare a variantei discrete xj;
k = numărul de variante discrete care definesc variabila statistică X.
Să presupunem, de exemplu, că în urma unei cercetări statistice asupra
unui eşantion format din 20 de familii, s-au centralizat datele din tabelul
3.1, privitoare la variabila discretă „număr de copii / familie”:

Tabelul 3.1
Număr de copii (xj) 0 1 2 3 4 Total
Număr de familii 4 6 8 1 1 20
(Frecvenţe absolute, nj)
Frecvenţe relative,

0,20 0,30 0,40 0,05 0,05 1

Pentru a afla câţi copii revin în medie familiilor din eşantionul supus
observaţiei, trebuie împărţit numărul total de copii la numărul total de
familii care fac parte din eşantion.
Întrucât numărul total de copii al familiilor cuprinse în eşantionul ales se
obţine prin însumarea variantelor (xj) care definesc variabila discretă
„număr de copii / familie”, pomderate cu frecvenţele de apariţie ale
acestora (nj), media aritmetică se determină astfel:

Trebuie subliniat faptul că relaţia de calcul a mediei aritmetice ponderate,


folosită în cazul datelor grupate, nu produce un rezultat diferit de cel
obţinut prin folosirea relaţiei de calcul a mediei aritmetice pentru date
simple, negrupate. Astfel, pentru exemplul nostru:

94
Calculul mediei aritmetice pentru distribuţii statistice după o funcţie
continuă
Pentru distribuţii statistice după o funcţie continuă, media aritmetică se
poate calcula cu ajutorul relaţiei:

unde:
f(X) este funcţia care defineşte variabila continuă X;
xmax = limita superioară de variaţie a variabilei X;
xmin = limita inferioară de variaţie a variabilei X;
A(X) = amplitudinea de variaţie a variabilei X.
Valoarea astfel obţinută pentru media aritmetică este echivalentă cu
raportul dintre aria de sub curba funcţiei f(X) şi lungimea totală a
intervalului pe care variază variabila statistică (amplitudinea de variaţie a
variabilei X).

Estimarea mediei aritmetice pentru distribuţii statistice după variabile


continue definite pe intervale
Pentru distribuţii statistice după variabile continue definite pe intervale,
media aritmetică se poate aproxima cu media aritmetică a mediilor
convenţionale ale intervalelor, ponderate cu frecvenţele (absolute sau
relative) înregistrate.
95
Pornind de la premisa că valorile se distribuie omogen în interiorul
intervalelor de grupare, s-a convenit să se utilizeze, ca şi medii
reprezentative ale acestor intervale, mediile valorilor care le mărginesc,
echivalente cu valorile centrele ale lor:

unde cj reprezintă centrele intervalelor de grupare a datelor;


nj = frecvenţele absolute înregistrate pe intervalele de grupare;
rj = frecvenţele relative înregistrate pe intervalele de grupare.
Să calculăm, de exemplu, vechimea medie în muncă a celor 50 de angajaţi
ai firmei „ABC”, grupaţi pe intervale de vechime în muncă conform
distribuţiei statistice prezentate în tabelul 1.8.

Tabelul 3.2
Centre Centre
Intervale Centre ale ponderate ponderate
Frecvenţe Frecvenţe
de intervalelor cu cu
absolute relative
variaţie de variaţie frecvenţele frecvenţele
(nj) (rj) absolute relative
(xj, ani) (cj)
(cjnj) (cjrj)
[0-5] 2,5 14 0,28 35,0 0,70
(5-10] 7,5 9 0,18 67,5 1,35
(10-15] 12,5 3 0,06 37,5 0,75
(15-20] 17,5 13 0,26 227,5 4,55
(20-25] 22,5 6 0,12 135,0 2,70
(25-30] 27,5 3 0,06 82,5 1,65
(30-35] 32,5 2 0,04 65,0 1,30
Total 50 1,00 650,0 13,00

Pentru realizarea calculelor necesare este utilă realizarea tabelului 3.2. Pe


baza datelor din acest tabel se obţine o vechime medie de 13 ani:

96
Se constată o diferenţă de 0,6 ani între estimarea mediei aritmetice în
urma grupării datelor pe intervale (valoarea estimată = 13 ani) şi valoarea
reală a mediei aritmetice, calculată pentru cele 50 de valori cunoscute (=
13,6 ani; a se vedea paragraful privind „Calculul mediei aritmetice
pentru un şir de valori”). Concluzia este aceea că atunci când datele
statistice sunt grupate, statisticile nu se pot determina decât cu o anumită
aproximaţie.

Proprietăţi ale mediei aritmetice


Principalele proprietăţi ale mediei aritmetice sunt următoarele:
 Fiind o valoare numerică, media aritmetică se poate calcula doar pentru
date numerice, cantitative;
 Mărimea mediei aritmetice este unică, o colectivitate statistică
neputând fi caracterizată de două sau mai multe medii aritmetice;
 Media aritmetică a unui şir de valori egale cu o constantă (c) este egală
cu acea constantă:

 Media aritmetică a sumei/diferenţei dintre două variabile (X şi Y), este


egală cu suma/diferenţa mediilor aritmetice ale celor două variabile:

 O consecinţă a proprietăţilor anterioare constă în faptul că adăugarea


sau scăderea unei constante la toate valorile înregistrate pentru o
colectivitate statistică determină creşterea sau scăderea mediei
aritmetice cu aceeaşi constantă (media sumei dintre o variabilă şi o
constantă este egală cu suma dintre media variabilei şi valoarea
constantei):

97
 Multiplicarea (sau împărţirea) cu o constantă a tuturor valorilor
înregistrate de o variabilă statistică determină multiplicarea sau
împărţirea cu aceeaşi constantă a mediei sale aritmetice:

 Multiplicarea (sau divizarea) cu o constantă a tuturor frecvenţelor


absolute (nj) înregistrate pentru variantele care descriu variabila
statistica după care a fost construită o distribuţie statistică de frecvenţe
absolute nu produce modificări în ce priveşte mărimea mediei
aritmetice ponderate:

 Suma abaterilor individuale ale valorilor faţă de media lor aritmetică


este nulă. Această proprietate derivă din însăşi definiţia mediei
aritmetice27:

 Media aritmetică este sensibilă la aşa-numitele valori aberante sau


deplasate. Deoarece sunt prea diferite faţă de majoritatea celorlalte
valori, valorile aberante pot fi considerate ca fiind valori
nereprezentative pentru colectivitatea studiată. De exemplu, pentru
şirul de valori (1, 1, 2, 2, 2, 2, 3, 3, 3, 4, 4, 80) media aritmetică
este egală cu 8,92. Dacă s-ar elimina valoarea 80 (care este prea
diferită sau deplasată faţă de toate celelalte valori), media aritmetică a

27
Relaţia care defineşte matematic media aritmetică este, conform paragrafului privind „calculul mediei
aritmetice pentru un şir de valori”:

98
valorilor rămase ar fi egală doar cu 2,45, valoare mult mai
reprezentativă pentru şirul de valori considerat (fiind mult mai
apropiată faţă de aceste valori). Acest neajuns al mediei aritmetice face
necesară verificarea atentă a reprezentativităţii ei pentru colectivitatea
studiată. În cazul pierderii reprezentativităţii mediei aritmetice pentru o
anumită colectivitate, o soluţie poate fi împărţirea acesteia din urmă în
subcolectivităţi omogene, la nivelul cărora se poată fi astfel
determinate medii aritmetice (parţiale) reprezentative.

3.2. Media geometrică


Media geometrică este valoarea reprezentativă statistic din punctul de
vedere al produsului valorilor înregistrate. Aceasta înseamnă că prin
înlocuirea tuturor valorilor cu media lor geometrică, produsul lor nu se
modifică.
Media geometrică este utilă doar atunci când produsul valorilor
înregistrate are semnificaţie. De exemplu, să presupunem că un plasament
financiar a adus un profit de 10% în anul 2015, de 50% în anul 2016 şi de
30% în anul 2017. În condiţiile în care plasamentul financiar nu este
fructificat decât la sfârşitul celor 3 ani, profitabilitatea medie obţinută în
perioada 2015-2017 pe seama acestui plasament financiar nu se poate
calcula ca o medie aritmetică, ci ca o medie geometrică, întrucât valorile
procentuale anuale ale profitabilităţii (10%, 50% şi 30%) sunt valori
care arată multiplicarea de la un an la altul a investiţiei financiare
realizate. Astfel, suma de bani investită la început s-a multiplicat până la
sfârşitul anului 2015 de 1,10 ori, suma astfel obţinută s-a multiplicat în
2016 de 1,50 ori, iar ceea ce a rezultat după primii 2 ani s-a multiplicat în
2017 de 1,30 ori. Dacă notăm cu s suma de bani investită la începutul
perioadei 2015-2017, cu S suma de bani de la sfârşitul acestei perioadei
(sfârşitul anului 2017), şi cu X variabila multiplicărilor anuale ale sumei
investite, atunci este valabilă următoarea relaţie:

99
Se observă că valoarea de 1,2897 poate înlocui valorile individuale ale
multiplicărilor anuale, ea fiind media geometrică a acestora. O
profitabilitate anuală de 28,97% pentru fiecare an al perioadei
considerate, asigură obţinerea, în urma plasamentului financiar, a unei
sume finale egală cu cea obţinută în condiţiile în care profitabilitatea
înregistrează cele trei valori diferite (10%, 50% şi 30%). Acest fapt este
ilustrat, pentru o valoare a plasamentului financiar (s) de 2000 RON, în
tabelul 3.3.

Tabelul 3.3
Suma la
Profitabilitate diferită Profitabilitate identică de la
sfârşitul
de la un an la altul un an la altul
anului
2015 2000 x 1,10 = 2200 RON 2000,0 x 1,2897 = 2579,3 RON
2016 2200 x 1,50 = 3300 RON 2579,3 x 1,2897 = 3326,5 RON
2017 3300 x 1,30 = 4290 RON 3326,5 x 1,2897 = 4290,0 RON

Media geometrică este utilă în descrierea, pe baza indicilor de dinamică, a


tendinţei de evoluţie în timp a unui fenomen. Pentru aceasta se porneşte de
la relaţia existentă între indicii de dinamică cu bază fixă şi cei cu bază
mobilă.
Pentru a exemplifica, să considerăm evoluţia câştigului salarial mediu
nominal net lunar ăn România pe parcursul anului 2017, prezentată în
tabelul 3.4.
După cum se observă în acest tabel, produsul indicilor cu bază mobilă este
egal cu ultimul indice cu bază fixă (în exemplul nostru, fiecare dintre
aceste valori sunt egale cu 1,143).
Aceasta înseamnă că dacă toţi indicii cu bază mobilă ar fi egali cu media
lor geometrică, indicele de dinamică înregistrată pentru întreaga perioadă
considerată nu s-ar modifica. În exemplul ales, poate fi verificat acest
lucru cu ajutorul tabelului 3.5, în care pentru luna decembrie câştigul
salarial mediu nominal net (RON) este de 2629 lei, fiind egal cu câştigul
salarial mediu nominal net pentru această lună în ipoteza unei dinamici
lunare constante (RON) a acestuia pe toată perioada considerată (ultima
coloană a tabelului).

100
Tabelul 3.4
Câştigul Indici cu bază Indici cu bază
salarial mediu fixă (prin mobilă (prin
Luna
nominal net raportare la raportare la
(RON) 28 luna ianuarie) luna precedentă)
ianuarie 2300 1,0000 -
februarie 2236 0,9722 0,9722
martie 2342 1,0183 1,0474
aprilie 2366 1,0287 1,0102
mai 2363 1,0274 0,9987
iunie 2380 1,0348 1,0072
iulie 2391 1,0396 1,0046
august 2364 1,0278 0,9887
septembrie 2376 1,0330 1,0051
octombrie 2392 1,0400 1,0067
noiembrie 2464 1,0713 1,0301
decembrie 2629 1,1430 1,0670
Produs 1,1430

Calculul mediei geometrice pentru un şir de valori


Din definiţia mediei geometrice se pot deduce uşor relaţiile de calcul ale
acesteia. Concret, se porneşte de la egalitatea dintre produsul valorilor
înregistrate şi produsul care ar rezulta în urma înlocuirii tuturor acestor
valori cu media lor geometrică. Considerând, astfel, o variabilă X pentru
care s-a înregistrat şirul de valori x1, x2 … xN, media geometrică (g) se
poate determina pornind de la relaţia:
Produs (x1, x2 … xN) = Produs (g, g … g)
Folosind simbolurile matematice cunoscute:

Rezultă aşadar că media geometrică este:

28
Datele au fost preluate de pe site-ul Institutului Naţional de Statistică,
http://www.insse.ro/cms/ro/tags/comunicat-castig-salarial (accesat: 7 iulie 2018)

101
Tabelul 3.5
Câştigul
Câştigul salarial mediu
salarial Indici cu
nominal net în ipoteza unei
Luna mediu bază mobilă
dinamici lunare constante
nominal net (xi)
(RON)
(RON)
ianuarie 2300 – 2300,0
februarie 2236 0,9722 2300,0 ∙ 1,0122 = 2328,1
martie 2342 1,0474 2328,1 ∙ 1,0122 = 2356,6
aprilie 2366 1,0102 2356,6 ∙ 1,0122 = 2385,4
mai 2363 0,9987 2385,4 ∙ 1,0122 = 2414,6
iunie 2380 1,0072 2414,6 ∙ 1,0122 = 2444,1
iulie 2391 1,0046 2444,1 ∙ 1,0122 = 2474,0
august 2364 0,9887 2474,0 ∙ 1,0122 = 2504,2
septembrie 2376 1,0051 2504,2 ∙ 1,0122 = 2534,9
octombrie 2392 1,0067 2534,9 ∙ 1,0122 = 2565,9
noiembrie 2464 1,0301 2565,9 ∙ 1,0122 = 2597,2
decembrie 2629 1,0670 2597,2 ∙ 1,0122 = 2629.0
Produsul indicilor cu bază
= 1,1430
mobilă (xi)
Media geometrică a
indicilor cu bază mobilă = 1,0122
(xi)

Media geometrică poate fi exprimată și ca valoare exponențială a mediei


aritmetice a logaritmilor valorilor pentru care ea se determină. Relația de
calcul se poate obține pornind de la logaritmarea primei egalități a relației
anterioare:

102
Așadar:

În tabelul 3.5 este calculat indicele mediu de dinamică a salariului mediu


net lunar pentru anul 2017.
Cu ajutorul indicelui mediu de dinamică astfel calculat, se pot determina
nivelurile pe care le-ar fi înregistrat câştigul salarial mediu nominal net în
cele 12 luni, în ipoteza unei dinamici constante (ultima coloană din tabelul
3.5).

Tabelul 3.6
Câştigul
salarial Indici cu
Luna mediu bază mobilă ln xi
nominal net (xi)
(RON)
ianuarie 2300 – –
februarie 2236 0,9722 -0,0282
martie 2342 1,0474 0,0463
aprilie 2366 1,0102 0,0102
mai 2363 0,9987 -0,0013
iunie 2380 1,0072 0,0072
iulie 2391 1,0046 0,0046
august 2364 0,9887 -0,0114
septembrie 2376 1,0051 0,0051
octombrie 2392 1,0067 0,0067
noiembrie 2464 1,0301 0,0297
decembrie 2629 1,0670 0,0648
Sumă = 0,1337
Media aritmetică a valorilor ln xi = 0,1337 / 11 = 0,0122
Media geometrică a indicilor cu bază
= e0,0122 = 1,0122
mobilă (xi)

În tabelul 3.6 este recalculat indicele mediu de dinamică a salariului mediu


net lunar pentru anul 2017, determinat de această dată ca valoare
103
exponențială a mediei aritmetice a logaritmilor naturali ai indicilor cu bază
mobilă ai câştigului salarial mediu nominal net lunar obținut pe parcursul
acestui an:

Calculul mediei geometrice pentru distribuţii statistice ale unor variabile


discrete
În calculul mediei geometrice pentru distribuţii statistice ale unor variabile
discrete, se ţine cont de frecvenţele (absolute sau relative) înregistrate
pentru fiecare dintre variantele care definesc variabila statistică:

unde xi reprezintă valorile simple, negrupate, înregistrate de variabila


statistică X;
xj = variantele discrete înregistrate de variabila X;
k = numărul de variante discrete înregistrate de variabila X;
nj = frecvenţele absolute de apariţie a variantelor înregistrate de variabila
X;
rj = frecvenţele absolute de apariţie a variantelor înregistrate de variabila
X;
Să presupunem, de exemplu, o firmă al cărei profit a înregistrat dinamica
prezentată în tabelul 3.7.
În tabelul 3.8 este prezentată distribuţia celor 5 indici cu bază mobilă,
obţinută în urma grupării acestora în funcție de cele 3 variante înregistrate.
Pe baza acestei distribuţii, putem calcula indicele mediu de dinamică a
profitului ca o medie geometrică ponderată a indicilor de dinamică cu bază
mobilă:

104
Tabelul 3.7
Anul 2000 2001 2002 2003 2004 2005
Profit realizat
5 6 12 24 60 150
(mil. RON)
Indici de
dinamică cu - 1,2 2 2 2,5 2,5
bază mobilă

Tabelul 3.8
Indici de dinamică cu bază mobilă 1,2 2 2,5 Total
Frecvenţe absolute (nj) 1 2 2 5
Frecvenţe relative (rj) 0,2 0,4 0,4 1

Tabelul 3.9
Anul 2000 2001 2002 2003 2004 2005
Profit realizat
5 6 12 24 60 150
(mil. RON)
Profit care s-ar
fi obţinut în
urma unei
5,00 9,87 19,49 38,48 75,97 150,00
creşteri anuale
de 1,9744 ori
(mil. RON)

105
Profitul firmei creşte în medie, de la un an la altul, de 1,9744 ori, sau cu
97,44%, aşa cum se poate verifica şi cu ajutorul tabelului 3.9 (o astfel de
creştere ar fi asigurat aceeaşi dinamică la nivelul întregii perioade a celor 6
ani, adică o creştere de 30 de ori a profitului din 2005 faţă de cel din
2000).

Estimarea mediei geometrice pentru distribuţiile statistice ale unor


variabile continue definite pe intervale
Pentru distribuţiile statistice ale unor variabile continue definite pe
intervale, media geometrică se poate aproxima cu media geometrică a
centrelor intervalelor, în urma ponderării acestora cu frecvenţele absolute
sau relative înregistrate:

unde cj reprezintă centrele intervalelor de variaţie (j) ale variabilei X;


nj = frecvenţele absolute înregistrate la nivelul intervalelor de variaţie ale
variabilei X;
rj = frecvenţele relative înregistrate la nivelul intervalelor de variaţie ale
variabilei X.

Proprietăţi ale mediei geometrice


 Fiind o valoare numerică, media geometrică se poate calcula doar
pentru variabile numerice, cantitative;
 Mediei geometrică este unică, o mulțime de valori neputând fi
caracterizată de două sau mai multe medii geometrice;
 Calculul mediei geometrice pentru o colectivitate statistică are sens
doar atunci când multiplicarea valorilor înregistrate are semnificaţie
practică;
 Dacă cel puţin o valoare este nulă sau negativă, calculul mediei
geometrice este lipsit de sens;
 Media geometrică este mai mică sau egală cu media aritmetică a
aceloraşi valori:

106
Tabelul 3.10
Intervale de
variaţie (ani), xj
[0-5] 2,5 14 0,28 0,70 1,2925
(5-10] 7,5 9 0,18 1,35 1,4372
(10-15] 12,5 3 0,06 0,75 1,1636
(15-20] 17,5 13 0,26 4,55 2,1047
(20-25] 22,5 6 0,12 2,70 1,4530
(25-30] 27,5 3 0,06 1,65 1,2200
(30-35] 32,5 2 0,04 1,30 1,1494
Total 50 1,00 13,00
Produs 9,2691

Egalitatea are loc doar atunci când X este o constantă.


Această proprietate este exemplificată pentru datele din tabelul 3.2,
reluate în tabelul 3.10. Conform rezultatelor acestor calcule rezultă:

 Așa cum s-a menționat deja, media geometrică este egală cu valoarea
exponenţială a mediei aritmetice a logaritmilor valorilor pentru care ea
se determină:

Această proprietate este utilă pentru calculul simplificat al mediei


geometrice.
În cazul distribuţiilor statistice de frecvenţe se recurge, desigur, la
ponderarea cu frecvenţele absolute (nj) sau relative (rj):

107
Pentru distribuţiile statistice ale unor variabile continue cu valori
grupate pe intervale de variație, în relaţia de determinare a mediei
geoemtrice se ține cont de centrele intervalelor pe care se înregistrează
valorile variabilei statistice (cj):

Pentru exemplificarea acestei proprietăți în cazul unei variabile cu


valori grupate pe intervale de variație, în tabelul 3.11 au fost reluate
datele din tabelul 3.2, pentru calculele suplimentare de logaritmare.

Tabelul 3.11

Intervale de
variaţie (ani)

[0-5] 2,5 14 0,28 0,9163 0,2566


(5-10] 7,5 9 0,18 2,0149 0,3627
(10-15] 12,5 3 0,06 2,5257 0,1515
(15-20] 17,5 13 0,26 2,8622 0,7442
(20-25] 22,5 6 0,12 3,1135 0,3736
(25-30] 27,5 3 0,06 3,3142 0,1989
(30-35] 32,5 2 0,04 3,4812 0,1392
Total 50 1,00 2,2267

Aşadar, media geometrică este:

108
 Media geometrică se poate dovedi utilă atunci când fenomenul studiat
are o evoluţie aproximativ exponenţială. Cel mai des, media geometrică
se utilizează pentru determinarea indicilor şi ritmurilor medii de
dinamică;
 Produsul rapoartelor dintre valorile individuale înregistrate şi media lor
geometrică este egal cu 1. Această proprietate derivă din definiţia
mediei geometrice:

 Media geometrică a produsului/raportului dintre două variabile, este


egală cu produsul/raportul mediilor geometrice ale celor două
variabile29:

Această proprietate este exemplificată pentru două variabile (X şi Y) în


tabelul 3.12.

Tabelul 3.12
X Y XY X/Y
23 11,2 257,6 2,05
34 12,3 418,2 2,76
21 13,4 281,4 1,57
27 12,6 340,2 2,14
36 11,8 424,8 3,05

27,58 12,24 337,53 2,25

produs/raport medii geometrice 337,53 2,25

 O consecinţă a proprietăţii anterioare constă în faptul că multiplicarea


sau împărțirea cu o constantă a tuturor valorilor înregistrate pentru o

29
Pentru ca proprietatea să fie aplicabilă, se impune, desigur, condiţia ca cele 2 variabile să fie definite de
acelaşi număr de variante observate.

109
colectivitate statistică determină multiplicarea sau împărțirea cu aceeaşi
constantă a mediei lor geometrice30;
 Multiplicarea (sau împărţirea) cu o constantă a tuturor frecvenţelor
absolute (nj) ale unei distribuţii statistice nu produce modificări în ceea
ce priveşte mărimea mediei geometrice ponderate31:

unde c este o constantă;


 Media geometrică este mai sensibilă la valorile mai mici. În consecinţă,
media geometrică se calculează deseori pentru punerea în evidenţă a
valorilor mai mici;
 Ca şi media aritmetică, media geometrică este sensibilă la valorile
statistice aberante sau deplasate.

3.3. Media pătratică


Media pătratică este valoarea reprezentativă statistic din punctul de vedere
al sumei pătratelor valorilor înregistrate. Concret, aceasta înseamnă că prin
înlocuirea tuturor valorilor înregistrate cu media lor pătratică, suma
pătratelor acestora nu se modifică.
Utilitatea cea mai importantă a mediei pătratice este în legătură cu
determinarea varianţei sau dispersiei statistice (a se vedea capitolul 5).

Calculul mediei pătratice pentru valori simple, negrupate


Din definiţia mediei pătratice rezultă relaţiile de calcul ale acesteia.
Considerând, astfel, o variabilă X pentru care s-au înregistrat valorile x1,
x2 … xN, media pătratică (p) se poate determina pornind de la egalitatea:
Sumă de pătrate pentru (x1, x2 … xN) = Sumă de pătrate pentru (p, p …
p)
Folosind simbolurile matematice obişnuite, se obţine:

30
Proprietatea rezultă prin înlocuirea, în relaţiile proprietăţii anterioare, a variabilei Y cu o constantă.

31
În cazul distribuţiilor statistice definite pe intervale, sunt luate în considerare, desigur, cemtrele
intervalelor.

110
Rezultă, aşadar, că:

Ceea ce înseamnă că:

Calculul mediei pătratice pentru distribuţii statistice de frecvenţe după


variabile discrete
Pentru o distribuţie statistică de frecvenţe după o variabilă discretă, media
pătratică se determină ca o medie pătratică a variantelor discrete,
ponderate fie cu frecvenţele absolute, fie cu frecvenţele relative:

unde:
xi reprezintă valoarea i înregistrată de variabila X;
xj = varianta discretă j care defineşte variabila X;

111
nj = frecvenţa absolută de apariţie a variantei discrete xj;
rj = frecvenţa relativă de manifestare a variantei discrete xj;
k = numărul de variante discrete care definesc variabila statistică X.

Calculul mediei pătratice pentru distribuţii statistice după o funcţie


continuă
Pentru distribuţiile statistice după funcţii continue, media pătratică se
calculează cu ajutorul relaţiei:

unde:
f(X) este funcţia care defineşte variabila continuă X;
xmax = limita superioară de variaţie a variabilei X;
xmin = limita inferioară de variaţie a variabilei X;
A(X) = amplitudinea de variaţie a variabilei X.

Estimarea mediei pătratice pentru distribuţii statistice după variabile


continue definite pe intervale
Pentru distribuţiile statistice continue după variabile definite pe intervale,
media pătratică se poate aproxima cu media pătratică a centrelor
intervalelor, ponderate cu frecvenţele (absolute sau relative) înregistrate:

unde cj reprezintă centrele intervalelor de grupare a datelor;


nj = frecvenţele absolute înregistrate pe intervalele de grupare;
rj = frecvenţele relative înregistrate pe intervalele de grupare;
k = numărul de variante discrete care definesc variabila statistică X.

112
Proprietăţi ale mediei pătratice
 Fiind o valoare numerică, media pătratică se poate calcula doar pentru
variabile numerice;
 Pentru o colectivitate de valori, media pătratică este unică;
 Pătratul mediei pătratice pentru o colectivitate de valori este egal cu
media aritmetică a pătratelor acestor valori:

Această proprietate rezultă direct din definiţia mediei pătratice;


 Media pătratică este mai mare sau egală cu media aritmetică a aceloraşi
valori:

Această proprietate este exemplificată pentru datele din tabelul 3.2,


reluate în tabelul 3.13. Pentru distribuţia statistică din acest tabel, se
poate constata că media pătratică este mai mare decât media aritmetică:

 Multiplicarea sau împărţirea cu o constantă (c) a tuturor valorilor


înregistrate pentru o variabilă statistică determină multiplicarea sau
împărţirea cu aceeaşi constantă a mediei pătratice:

113
unde c este o constantă;

Tabelul 3.13
Intervale de
variaţie (ani)
[0-5] 2,5 6,25 14 0,28 87,50 1,750
(5-10] 7,5 56,25 9 0,18 506,25 10,125
(10-15] 12,5 156,25 3 0,06 468,75 9,375
(15-20] 17,5 306,25 13 0,26 3981,25 79,625
(20-25] 22,5 506,25 6 0,12 3037,50 60,750
(25-30] 27,5 756,25 3 0,06 2268,75 45,375
(30-35] 32,5 1056,3 2 0,04 2112,50 42,250
Total 50 1,00 12462,50 249,250

 Multiplicarea (sau împărţirea) cu o constantă a tuturor frecvenţelor


absolute care caracterizează o distribuţie statistică după o variabilă X,
nu produce modificări în ce priveşte mărimea mediei pătratice
(ponderate):

unde c este o constantă;


 Pătratul mediei pătratice este egal cu suma dintre pătratul mediei
aritmetice şi varianţa32 aceloraşi valori33:

32
Prin varianţă se înţelege media pătratelor abaterilor individuale ale valorilor de la media lor aritmetică
(a se vedea capitolul 6, „Descrierea statistică a variaţiei faţă de tendinţa centrală”).

33
Pătratul mediei pătratice a abaterilor înregistrate faţă de media aritmetică se numeşte dispersie sau
varianţă statistică (a se vedea capitolul 6, „Descrierea statistică a variaţiei”).

114
unde (X) reprezintă media pătratică a abaterilor faţă de media
aritmetică, denumită şi abatere standard, pătratul acesteia fiind
varianţa sau dispersia statistică.
Această proprietate poate fi folosită ca argument pentru cea de-a 4-a
proprietate, conform căreia media pătratică este mai mare sau egală
cu media aritmetică a aceloraşi valori;
 Media pătratică este influenţată într-o măsură foarte mare de valorile
mai mari. Din acest motiv, ea se calculează deseori atunci când se
doreşte punerea în evidenţă a valorilor mai mari;
 Ca şi celelalte medii statisitce, media pătratică este sensibilă la valorile
aberante din punct de vedere statistic.

115
3.4. Media armonică
Media armonică este valoarea reprezentativă statistic din punctul de
vedere al sumei inverselor valorilor înregistrate. Aceasta înseamnă că prin
înlocuirea tuturor valorilor înregistrate cu media lor armonică, suma
inverselor acestora nu se modifică.
Media armonică se foloseşte atunci când are sens însumarea inverselor
valorilor înregistrate. În economie, este utilizată, de exemplu, în calculul
indicelui mediu armonic al preţurilor (suma inverselor preţurilor,
ponderate conform coşului statistic de consum prezintă semnificaţie pentru
calculul indicelui mediu al preţurilor şi, astfel, pentru determinarea ratei
inflaţiei).

Calculul mediei armonice pentru un şir de valori


Din definiţia mediei armonice rezultă relaţiile de calcul ale acesteia.
Astfel, considerând, o variabilă X pentru care s-a înregistrat şirul de valori
x1, x2 … xN, media armonică (h) se poate determina pornind de la
egalitatea:
Sumă inverse (x1, x2 … xN) = Sumă inverse (h, h … h)
Folosind simbolurile matematice obişnuite, se poate scrie:

Aşadar,

Calculul mediei armonice pentru distribuţii statistice după variabile


discrete
Pentru o distribuţie statistică după o variabilă discretă, media armonică, la
fel ca toate celelalte medii statistice, se calculează ca medie armonică a
variantelor care definesc variabila statistică, ponderate fie cu frecvenţele
absolute, fie cu frecvenţele relative:

116
unde:
xi reprezintă valoarea i înregistrată de variabila X;
xj = varianta discretă j care defineşte variabila X;
nj = frecvenţa absolută de apariţie a variantei discrete xj;
rj = frecvenţa relativă de manifestare a variantei discrete xj;
k = numărul de variante discrete care definesc variabila statistică X.
Să presupunem, de exemplu, că o persoană parcurge distanţa de 10 km.
astfel:
 5 km cu viteza de 40 km./h.;
 3 km cu viteza de 20 km./h.;
 2 km cu viteza de 4 km./h.
Viteza medie cu care persoana parcurge întreaga distanţă de 10 km. trebuie
calculată ca o medie armonică ponderată:

Dacă toată distanţa ar fi fost parcursă cu această viteză medie, durata de


timp necesară pentru aceasta ar fi fost egală cu:

117
Această durată de timp este echivalentă cu durata de timp necesară pentru
parcurgerea distanţei cu cele 3 viteze diferite, aşa cum se poate observa în
tabelul 3.14.

Tabelul 3.14
Distanţă (km.) Viteză (km./h.) Durată de timp necesară (h.)
5 40 5/40 = 0,125
3 20 3/20 = 0,150
2 4 2/4 = 0,500
Total 0,775

Calculul mediei armonice pentru distribuţii statistice după o funcţie


continuă
Pentru distribuţii statistice după o funcţie continuă, media armonică se
poate calcula cu ajutorul relaţiei:

unde:
f(X) este funcţia care defineşte variabila continuă X;
xmax = limita superioară de variaţie a variabilei X;
xmin = limita inferioară de variaţie a variabilei X;
A(X) = amplitudinea de variaţie a variabilei X.

Estimarea mediei armonice pentru distribuţii statistice după variabile


continue definite pe intervale
Pentru distribuţii statistice după variabile continue definite pe intervale,
media armonică se poate aproxima cu media armonică a centrelor
intervalelor, ponderate cu frecvenţele (absolute sau relative) înregistrate:

118
unde cj reprezintă centrele intervalelor de grupare a datelor;
nj = frecvenţele absolute înregistrate pe intervalele de grupare;
rj = frecvenţele relative înregistrate pe intervalele de grupare.

Proprietăţi ale mediei armonice


 Fiind o valoare numerică, media armonică se poate calcula doar pentru
variabile statistice numerice;
 Pentru o colectivitate statistică, media armonică este unică;
 Pentru o aceeaşi colectivitate de valori, media armonică este cea mai
mică dintre cele 4 medii statistice calculate:

Această proprietate este exemplificată pentru datele din tabelul 3.2,


reluate în tabelul 3.15.
Pe baza calculelor din tabelul 3.15, rezultă că:

119
Se verifică, astfel, faptul că media armonică este cea mai mică dintre
cele 4 medii statistice:

Tabelul 3.15
Intervale de
variaţie (ani)
cj 1/cj nj rj (1/cj)nj (1/cj)rj

[0-5] 2,5 0,4000 14 0,28 5,6000 0,1120


(5-10] 7,5 0,1333 9 0,18 1,2000 0,0240
(10-15] 12,5 0,0800 3 0,06 0,2400 0,0048
(15-20] 17,5 0,0571 13 0,26 0,7429 0,0149
(20-25] 22,5 0,0444 6 0,12 0,2667 0,0053
(25-30] 27,5 0,0364 3 0,06 0,1091 0,0022
(30-35] 32,5 0,0308 2 0,04 0,0615 0,0012
Total 50 1,00 8,2202 0,1644

 Multiplicarea sau împărţirea cu o constantă a tuturor valorilor


înregistrate determină multiplicarea sau împărţirea cu aceeaşi constantă
a mediei lor armonice:

unde c este o constantă;


 Multiplicarea sau împărţirea cu o constantă a tuturor frecvenţelor
absolute ale unei distribuţii statistice nu produce modificări în ce
priveşte mărimea mediei armonice ponderate:

120
unde c este o constantă;

Tabelul 3.16
X Y = X –1 = 1/X
43 0,0233
25 0,0400
64 0,0156
76 0,0132
29 0,0345
suma 237 0,1265
media aritmetică 47,4 0,0253
media armonică 39,5189 0,0211
inversa mediei aritmetice 0,0211 39,5189
inversa mediei armonice 0,0253 47,4

 Suma abaterilor dintre inversele valorilor înregistrate pentru o


colectivitate statistică și inversa mediei lor armonice este egală cu 0:

Într-adevăr, se poate arăta că:

Să verificăm, de exemplu, această proprietate pentru o variabilă X care


înregistrează valorile 5; 8; 14 și 23. Media armonică este în acest caz:

121
Rezultă mai departe că:

Această proprietate poate fi pusă în corespundență cu proprietatea


potrivit căreia suma abaterilor dintre valorile înregistrate la nivelul unei
colectivități statistice și media lor aritmetică este nulă.
 Dacă pentru calculul mediei armonice ponderate se folosesc ca şi
ponderi valorile globale (xjnj) iar pentru calculul mediei aritmetice
ponderate se folosesc ca şi ponderi frecvenţele absolute (nj) atunci cele
două medii vor fi egale:

 Dacă între două variabile există o relaţie de inversă proporţionalitate,


atunci media aritmetică a uneia dintre ele este egală cu inversa mediei
armonice a celeilalte. Această proprietate este exemplificată pentru
variabilele X şi Y din tabelul 3.16.

122
 Ca şi celelalte medii, media armonică este sensibilă la valorile aberante
înregistrate.

3.5. Media generalizată sau media de ordinul "r"


Cele 4 medii statistice se pot calcula şi pe baza următoarei relaţii
generalizate:

unde r (X) este media generalizată sau media de ordinul „r”.


Astfel, pentru anumite valori ale lui r, se pot obţine cele 4 medii:
 pentru r = 1, se obţine media aritmetică, 
 pentru r = , un număr pozitiv foarte mic, se estimează destul de bine
media geometrică, g (X);
 pentru r = 2, se obţine media pătratică, p (X);
 pentru r = -1, se obţine media armonică, h (X)

123
124
DESCRIEREA STATISTICĂ
A TENDINŢEI CENTRALE:
STATISTICILE DE
POZIŢIE
4.

OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate statisticile de poziţie disponibile pentru descrierea
statistică a tendinţei centrale, contribuind la:
 înţelegerea conţinutului informaţional al celor mai importante statistici de
poziţie: valoarea mediană, cuartilele laterale, valoarea medială şi valorile
modale;
 stăpânirea tehnicilor de calcul utilizate pentru determinarea statisticilor de
poziţie;
 reţinerea utilității valorii mediane, respectiv a valorii mediale pentru
aprecierea reprezentativităţii mediei aritmetice la nivelul colectivităţii
statistice studiate;
 înţelegerea semnificaţiei relaţiei de ordine dintre media aritmetică, valoarea
mediană şi valoarea modală centrală pentru aprecierea globală a gradului de
simetrie al unei distribuţii statistice.

125
126
Informaţiile vizate în cadrul cercetărilor statistice impun deseori descrieri
statistice nu doar la nivelul întregii colectivităţi statistice studiate, ci şi la
nivelul unor subcolectivităţi semnificative din punct de vedere statistic.
Poate fi de interes, de exemplu, descrierea statistică a celor mai mari 10%
dintre valorile înregistrate. Pentru stabilirea unor asemenea
subcolectivităţi semnificative din punct de vedere statistic, se dovedesc
utile anumite valori reprezentative din punctul de vedere al relaţiei de
ordine după criteriul mărimii.
Aceste valori pot fi împărțite în următorele două categorii:
 valori extreme;
 cuantile.
Valorile extreme sunt valorile cele mai mici, respectiv cele mai mari care
se obțin în urma ordonării după criteriul mărimii (variabilei considerate)
aplicate la nivelul colectivității statistice studiate.
Dacă luăm în considerare, de pildă, variabila înălțimii în studierea
populației care trăia în anul 2014 pe glob, s-ar putea identifica următoarele
2 valori extreme1 2:
- 54,6 cm – înălțimea celei mai scunde persoane de pe glob în anul 20143;
- 2,51 m – înălțimea celei mai înalte persoane de pe glob în anul 20144.
Cuantilele sunt statistici care descriu poziţii specifice, semnificative pentru
analiza statistică a unui şir de valori înregistrate. Prin poziţiile ocupate în
urma ordonării valorilor observate după criteriul mărimii, cuantilele
împart şirul acestor valori într-un anumit număr de părţi egale. Prin
urmare, cuantilele sunt definite de numărul de părţi egale în care ele

1
Cf.: Lübecker Nachrichten (General Anzeiger) am Sonntag, 2 septembrie 2018, p. 22.

2
În 13 noiembrie 2014 s-au întâlnit la Londra, pentru a celebra cea de-a 60-a aniversare a Guinness World
Records, cel mai scund cu cel mai înalt om în viață. A se vedea:
https://adevarul.ro/locale/suceava/povestea-celuimai-scund-om-istorie-nepalezul-intrat-cartea-
recordurilor-cuinaltimea-doar-546-centimetri-1_585f9ff55ab6550cb8c07e3c/index.html și
https://eu.usatoday.com/story/news/nation-now/2014/11/13/tallest-man-meets-shortest-man/18975201/
(accesate în 28 septembrie 2018)

3
Este vorba despre o nepalezul Chandra Bahadur Dangi (1939 – 2015). A se vedea:
https://adevarul.ro/locale/suceava/povestea-celuimai-scund-om-istorie-nepalezul-intrat-cartea-
recordurilor-cuinaltimea-doar-546-centimetri-1_585f9ff55ab6550cb8c07e3c/index.html (accesat în 28
septembrie 2018)

4
Este vorba despre turcul Sultan Kösen. A se vedea: https://adevarul.ro/locale/suceava/povestea-
celuimai-scund-om-istorie-nepalezul-intrat-cartea-recordurilor-cuinaltimea-doar-546-centimetri-
1_585f9ff55ab6550cb8c07e3c/index.html sau https://www.historia.ro/sectiune/general/articol/cei-mai-
inalti-oameni-din-lume (accesate în 28 septembrie 2018)

127
împart şirul valorilor observate supuse ordonării după criteriul mărimii,
prin poziţiile pe care ele le ocupă în urma acestei ordonări. Astfel:
 mediana este cuantila care împarte şirul ordonat al valorilor observate
în două părţi egale;
 cuartilele sunt cele 3 cuantile care împart şirul ordonat al valorilor
observate în 4 părţi egale; a doua cuartilă este, astfel, chiar mediana;
 decilele sunt cele 9 cuantile care împart şirul ordonat al valorilor
observate în 10 părţi egale; a cincea decilă este, astfel, chiar mediana;
 centilele sunt cele 99 cuantile care împart şirul ordonat al valorilor
observate în 100 părţi egale; a 50-a centilă este, astfel, chiar mediana; a
25-a centilă este prima cuartilă etc.
Întrucât presupun ordonarea datelor, cuantilele nu sunt disponibile ca şi
statistici de caracterizare a tendinţei centrale pentru datele de tip nominal.

4.1. Valoarea mediană


Mediana este „cea mai centrală valoare”, având în vedere poziţia de mijloc
pe care o ocupă atunci când şirul de valori studiat este ordonat după
criteriul mărimii. Se poate spune, astfel, că reprezentativitatea ei pentru o
colectivitate statistică este dată de poziţia centrală pe care o ocupă.
Dependenţa poziţiei centrale doar de numărul de valori statistice şi nu de
diferenţele dintre acestea, face ca reprezentativitatea medianei, spre
deosebire de cea a mediei aritmetice, să fie mult mai puţin afectată de
eventualele valori aberante.
Poziţia centrală a medianei într-un set ordonat de valori este echivalent cu
faptul că ea este valoarea pentru care se este satisfăcută relaţia:

unde:
P (xi ≤ Me) reprezintă probabilitatea ca o valoare aleasă la întâmplare să
fie mai mică sau egală cu valoarea mediană;
P (xi ≥ Me) reprezintă probabilitatea ca o valoare aleasă la întâmplare să
fie mai mare sau egală cu valoarea mediană;

128
Determinarea medianei pentru un şir de valori
Dacă numărul valorilor şirului considerat este impar, atunci mediana se
determină după relaţia:

unde:
RMe reprezintă rangul (poziţia) valorii mediane;
N = volumul colectivităţii statistice.
De exemplu, pentru şirul de valori (2, 10, 15, 7, 23, 17, 9) mediana este
valoarea care cade la mijloc în urma ordonării crescătoare a şirului: (2, 7,
9, 10, 15, 17, 23), adică 10.
Folosind relaţia de mai sus: Me = X(N+1)/2 = X(7+1)/2 = X4, adică cea de-
a 4-a valoare în ordine crescătoare (sau descrescătoare), aceasta fiind, în
cadrul seriei de valori ordonate, egală cu 10.
Dacă numărul valorilor este par, atunci mediana se va calcula ca medie a
celor două valori care cad la mijloc în urma ordonării după criteriul
mărimii:

Pentru exemplificare, să adăugăm valoarea de 25 la şirul de valori


considerat: (2, 10, 15, 7, 23, 17, 9, 25). Ordonând crescător acest nou
şir de valori, obţinem şirul de 8 valori: (2, 7, 9, 10, 15, 17, 23, 25).
Cele două valori din mijlocul şirului ordonat sunt XN/2 = X4 = 10 şi
X(N/2)+1 = X5 = 15. Prin urmare, Me = (10 + 15)/2 = 12,5.
Având în vedere efectele exagerate pe care le are asupra mediei aritmetice
aşa-numitele valori statistice aberante, mediana ar trebui să fie preferată
mediei aritmetice ca mărime de pornire în negocierile de salarii ale
sindicatelor cu patronatele.
Să considerăm, de exemplu, şirul de salarii (în RON): (1550, 1920,
1600, 1800, 1750, 3500, 1740). Pentru a determina mediana acestui şir
de valori, este necesară întâi ordonarea lor după criteriul mărimii: (1550,
1600, 1740, 1750, 1800, 1920, 3500). Prin ordonare, se atribuie
ranguri de mărime valorilor înregistrate de către variabila considerată
(tabelul 4.1).

129
Tabelul 4.1
Valori înregistrate de Ranguri în
către variabila X, urma ordonării
ordonate după criteriul după criteriul
mărimii, mărimii,
xi
x1 = 1550 1
x2 = 1600 2
x3 = 1740 3
x4 = 1750 = Me 4 (= RMe)
x5 = 1800 5
x6 = 1920 6
x7 = 3500 7

Deoarece N = 7, adică o valoare impară, rangul valorii care cade la mijloc


în urma ordonării este RMe = (N + 1)/2 = (7 + 1)/2 = 4. Astfel,
mediana este egală cu cea de-a 4-a valoare a şirului ordonat, adică 1750.
Se observă că din punctul de vedere al intereselor sindicatelor salariul de
1750 RON este mult mai reprezentativ decât salariul mediu, μ = (1550 +
1600 + 1740 + 1750 + 1800 + 1920 + 3500)/7 = 13860/7 = 1980
RON. Diferenţa destul de mare dintre salariul median (1750 RON) şi cel
mediu (1980 RON) este determinată de influenţa foarte mare pe care o are
cel mai mare salariu (3500) asupra salariului mediu.
În tabelul 4.2 sunt prezentate valorile mediane ale câştigurilor salariale
orare brute în anul 2010, în ţările Uniunii Europene, la nivelul tuturor
angajaţilor (exclusiv ucenicii).
Pe baza datelor din tabelul 4.2, se poate afirma că în anul 2014 jumătate
din românii din întreprinderile cu cel puțin 10 angajați câştigau cel mult
2,03 € pe oră, cealaltă jumătate bucurându-se de un câștig mai mare. În
acelaşi an, jumătate dintre europenii din întreprinderile cu cel puțin 10
angajați ale celor 28 ţări membre ale Uniunii Europene câştigau cel mult
13,14 € pe oră, cealaltă jumătate a angajaților UE fiind remunerată cu un
câștig mai mare.

130
Tabelul 4.2 Câştiguri salariale orare brute mediane în anii 2010 și
2014, în ţările europene, la nivelul tuturor întreprinderilor cu cel
puțin 10 angajați (exclusiv ucenicii) – conform Eurostat5

2010 2014

Austria 12,96 14,02


Belgia 16,42 17,32
Bulgaria 1,52 1,67
Republica Cehă 4,59 4,56
Cipru 9,19 8,35
Croaţia 4,86 4,90
Danemarca 24,71 25,52
Elveţia 23,95 29,46
Estonia 4,09 4,91
Finlanda 15,96 17,24
Fosta Republică Iugoslavă a Macedoniei 2,49 2,20
Franţa 13,74 14,94
Germania 15,39 15,67
Grecia 9,06 8,00
Irlanda 18,25 20,16
Islanda 11,12 14,27
Italia 11,87 12,49
Letonia 2,85 3,35
Lituania 2,69 3,11
Luxemburg 17,83 18,38
Malta 7,46 8,48
Muntenegru - 3,42
Marea Britanie 12,99 14,81
Norvegia 25,53 27,99
Olanda 15,43 16,00
Polonia 4,02 4,29
Portugalia 5,06 5,12
România 1,94 2,03
Serbia - 2,63
Slovacia 3,93 4,40
Slovenia 7,20 7,32
Spania 9,41 9,83
Suedia 15,94 18,46
Turcia 2,22 2,41
Ungaria 3,36 3,59

Zona Euro (EA-17) 13,29 14,25


Zona Euro (EA-19) - 14,08
6
Uniunea Europeană, înainte de intrarea Croației la 1 iulie 2013 (EU-27) 12,12 13,20
Uniunea Europeană, după intrarea Croației (EU-28) 12,06 13,14

5
Eurostat: http://appsso.eurostat.ec.europa.eu/nui/show.do (ultima actualizare: 7 august 2017)

6
Cf.: https://europa.eu/european-union/about-eu/countries/member-countries_ro (ultima actualizare: 19
octombrie 2018)

131
În cadrul OECD (Organizaţia pentru Cooperare şi Dezvoltare Economică)
salariul median stă la baza determinării unui indicator important pentru
evidenţierea diferenţelor dintre ţările membre în ceea ce priveşte dispersia
câştigurilor salariale. Este vorba despre raportul dintre salariul minim pe
economie şi salariul median înregistrat într-o anumită perioadă (Ratio of
minimum wage to median wage).

Tabelul 4.3 Raportul dintre salariul minim pe economie şi salariul


median înregistrat pentru angajaţi full-time în anumite ţări membre
OECD (Ratio of minimum wage to median wage), în 2011-20177
2011 2012 2013 2014 2015 2016 2017

Australia 0,536 0,527 0,540 0,534 0,535 0,538 0,547


Belgia 0,507 0,507 0,513 0,492 0,493 0,493 0,472
Canada 0,446 0,454 0,444 0,451 0,445 0,458 0,458
Republica Cehă 0,371 0,364 0,369 0,372 0,388 0,397 0,410
Chile 0,674 0,671 0,672 0,676 0,662 0,689 0,709
Coreea de Sud 0,455 0,429 0,442 0,458 0,486 0,504 0,528
Estonia 0,388 0,383 0,396 0,399 0,413 0,413 0,413
Franţa 0,620 0,631 0,628 0,626 0,623 0,620 0,618
Grecia 0,524 0,438 0,459 0,468 0,479 0,484 0,483
Irlanda 0,433 0,433 0,428 0,446 0,433 0,462 0,458
Israel 0,560 0,561 0,574 0,549 0,571 0,580 0,594
Japonia 0,382 0,383 0,390 0,393 0,397 0,403 0,415
Letonia 0,506 0,488 0,467 0,492 0,518 0,507 0,483
Lituania 0,484 0,479 0,555 0,512 0,498 0,559 0,536
Luxemburg 0,563 0,563 0,563 0,557 0,548 0,544 0,526
Marea Britanie 0,469 0,474 0,471 0,479 0,487 0,490 0,536
Noua Zeelandă 0,588 0,595 0,591 0,599 0,601 0,605 0,604
Olanda 0,470 0,470 0,466 0,465 0,462 0,466 0,470
Polonia 0,452 0,482 0,496 0,510 0,513 0,527 0,540
România 0,455 0,453 0,477 0,514 0,549 0,557 0,597
Slovacia 0,457 0,451 0,455 0,451 0,473 0,477 0,480
Slovenia 0,606 0,620 0,638 0,600 0,598 0,587 0,582
Spania 0,382 0,380 0,379 0,370 0,368 0,373 0,402
SUA 0,383 0,377 0,374 0,367 0,358 0,349 0,337
Turcia 0,714 0,729 0,722 0,690 0,699 0,744 0,735

În tabelul 4.3 sunt prezentate valorile înregistrate de către indicatorul


Ratio of minimum wage to median wage pentru anumite ţări membre
OECD.
Cele mai mari valori ale acestui indicator se observă în cazul Turciei.
Valorile de peste 0,7 înregistrate în această ţară, indică faptul că salariul

7
http://stats.oecd.org/Index.aspx?DataSetCode=MIN2AVE

132
minim reprezenta aici, în anii 2011-2017, peste 70% din salariul median,
ceea ce înseamnă că salariaţii care primeau salariul minim câştigau cel
puţin 70% din salariul obţinut de jumătate din salariaţii din Turcia.
Cele mai mici valori ale acestui indicator se pot identifica în cazul SUA,
pentru care indicatorul s-a menținut în acești ani la un nivel de sub 0,4.

Determinarea medianei pentru date grupate


Dacă datele sunt grupate, acestea sunt implicit şi ordonate după criteriul
mărimii lor. În determinarea medianei pentru astfel de date, este necesar
însă calculul frecvenţelor statistice cumulate.
Astfel, pornind de la definiţia medianei (valoarea care împarte în două
părţi egale şirul ordonat al valorilor înregistrate), rezultă că în cazul
distribuţiilor statistice valoarea mediană este acea variantă a variabilei
statistice pentru care frecvenţa cumulată crescător este cea mai apropiată
de frecvenţa cumulată descrescător, situaţie echivalentă cu cea în care
diferenţa dintre cele două frecvenţe cumulate înregistrează valoarea cea
mai mică.
Trebuie analizate două situaţii posibile: cea a variabilelor statistice
discrete şi cea a variabilelor statistice continue, definite pe intervale.

Cazul unei variabile statistice discrete


Să considerăm datele înregistrate pentru variabila „număr de copii” la
nivelul unei populaţii statistice formate din 100 de familii, conform
tabelului 4.4.
Întrucât pentru varianta a treia a variabilei („2 copii”) diferenţa dintre
frecvenţa cumulată crescător şi frecvenţa cumulată descrescător
înregistrează valoarea cea mai mică, înseamnă că această variantă se
identifică cu valoarea mediană. Aşadar, Me = 2. Se verifică într-adevăr
faptul că jumătate din familii au cu cel mult 2 copii, în timp ce cealaltă
jumătate din familii au cel puţin 2 copii.
În tabelul 4.5 frecvenţele înregistrate de către variantele care definesc
variabila „număr de copii” au fost puţin modificate. De data aceasta,
diferenţa dintre frecvenţa cumulată crescător şi frecvenţa cumulată
descrescător la nivelul valorii mediane este egală cu 0. Se întâmplă aşa
deoarece frecvenţele cumulate de-o parte şi de cealaltă a variantei mediane
(în tabel, acestea sunt încadrate) sunt egale. Un caz aparte pentru astfel de
situaţii este cel al distribuţiilor statistice simetrice, pentru care frecvenţele
sunt etalate perfect simetric în jurul variantei mediane. Un exemplu de

133
distribuţie statistică simetrică pentru aceeaşi variabilă („număr de copii”)
este prezentat în tabelul 4.6.

Tabelul 4.4
Variabila Frecvenţe Frecvenţa
Frecvenţa
statistică absolute cumulată
cumulată
(număr (număr de des-
crescător
de copii) familii) crescător
nccj
xj nj ncdj
0 10 10 100 90
1 25 35 90 55
2 33 68 65 3
3 12 80 32 48
4 10 90 20 70
5 5 95 10 85
6 5 100 5 95
TOTAL N = 100

Tabelul 4.5
Variabila Frecvenţe Frecvenţ Frecvenţa
statistică absolute a cumulată
(număr de (număr de cumulată des-
copii) familii) crescător crescător
xj nj nccj ncdj
0 10 10 100 90
1 25 35 90 55
2 30 65 65 0
3 15 80 35 45
4 10 90 20 70
5 5 95 10 85
6 5 100 5 95
TOTAL N = 100

134
Tabelul 4.6
Variabila Frecvenţe Frecvenţ Frecvenţa
statistică absolute a cumulată
(număr de (număr de cumulată des-
copii) familii) crescător crescător
xj nj nccj ncdj
0 10 10 100 90
1 25 35 90 55
2 30 65 65 0
3 25 90 35 55
4 10 100 10 90
TOTAL N = 100

Analiza simetriei sau a gradului de asimetrie care caracterizează o


distribuţie statistică unimodală 8 face obiectul capitolului 7 al acestei
lucrări.

Cazul unei variabile statistice continue, definită pe intervale


Să considerăm distribuţia statistică din tabelul 4.7.
Deoarece numărul total de muncitori este 99, înseamnă că mediana trebuie
să fie cel de-al 50-lea salariu în ordinea mărimii:
RMe = (N + 1) / 2 = (99 + 1) / 2 = 50
Se observă că frecvenţa cumulată a primelor 3 grupe de salarii este de 37,
în timp ce frecvenţa cumulată a primelor 4 grupe depăşeşte rangul valorii
mediane (58  50).Prin urmare, mediana ar trebui să fie o valoare
cuprinsă în cel de-al patrulea interval (intervalul median), ea putând fi
estimată9 prin interpolare, presupunând că salariile celor 21 de muncitori
din acest grupă sunt repartizate uniform, adică la distanţe egale între ele,
în cadrul intervalului respectiv (de la 1200 la 1300 RON).
Această repartizare uniformă este redată în tabelul 4.8. Valorile salariilor
din tabel au fost obţinute pornind de la limita inferioară a intervalului

8
Distribuţie cu o singură valoare modală; a se vedea paragraful dedicat valorilor modale.

9
Mediana pentru date grupate pe intervale nu poate fi determinată cu exactitate, întrucât nu se cunosc
valorile exacte din interiorul intervalelor pe care au fost grupate datele.

135
median (1200 RON) la care s-au adăugat treptat distanţe egale cu raportul
dintre lungimea totală a intervalului median şi numărul de salarii
poziţionate în cadrul acestuia (echivalent cu frecvenţa absolută înregistrată
pentru acest interval, nMe):

Tabelul 4.7
Frecvenţe cumulate
Variabila X
Frecvenţe (număr cumulat de
definită prin muncitori)
absolute (număr
grupe de salarii
de muncitori)
(RON)
nj
xj

900 – 1000 3 3
1000 – 1100 15 18
1100 – 1200 19 37
1200 – 1300 21 = nMe 58 = (nc)Me > 50 = RMe
1300 – 1400 20 78
1400 – 1500 17 95
1500 – 1600 3 98
1600 – 1700 1 99
Total N = 99

Pentru fiecare salariu astfel estimat au fost calculate apoi câte două
frecvenţe cumulate: o frecvenţă cumulată la nivelul întregii distribuţii şi o
frecvenţă cumulată doar la nivelul intervalului median.
Procedând astfel, se poate estima salariul median ca fiind cel pentru care
rangul la nivelul întregii distribuţii este 50. Se poate observa că acesta are,
totodată, la nivelul intervalului median, rangul 13, fiind egal cu
1261,905 RON. La aceeaşi valoare se poate ajunge adăugând la limita
inferioară a intervalului median (lMe = 1200) raportul dintre lungimea
intervalului median şi frecvenţa intervalului median (dMe/nMe = 4,762
RON), ponderat cu rangul valorii mediane la nivelul intervalului median
(rMe = 50 – 37 = 13).

136
Tabelul 4.8
Frecvenţă cumulată Frecvenţă cumulată
la nivelul întregii la nivelul
Salariu
distribuţii, (nc)i intervalului median,
(nc)j
1200,000 37 0
1204,762 38 1
1209,524 39 2
1214,286 40 3
1219,048 41 4
1223,810 42 5
1228,571 43 6
1233,333 44 7
1238,095 45 8
1242,857 46 9
1247,619 47 10
1252,381 48 11
1257,143 49 12
1261,905 50 13
1266,667 51 14
1271,429 52 15
1276,190 53 16
1280,952 54 17
1285,714 55 18
1290,476 56 19
1295,238 57 20
1300,000 58 21

Prin urmare, salariul median se poate determina cu ajutorul relaţiilor:

137
Tabelul 4.9
Frecvenţe
Variabila X cumulate (număr
Frecvenţe
definită prin cumulat de
absolute (număr
grupe de salarii muncitori)
de muncitori)
(RON)
nj
xj

900 – 1000 3 3
1000 – 1100 15 18

1100 – 1200 19 37 = (nc)Me-1


1200 – 1261,905 13 (rMe) 50 = RMe
1261,905 – 1300 8 58 = (nc)Me
1300 – 1400 20 78

1400 – 1500 17 95

1500 – 1600 3 98

1600 – 1700 1 99
Total N = 99
RMe = (N+1)/2 = 50

Aceasta înseamnă că jumătate dintre muncitori câştigă până la 1261,905


RON, iar cealaltă jumătate câştigă cel puţin atât.
Poziţia valorii mediane astfel obţinute este ilustrată în tabelul 4.9.
Acelaşi procedeu de interpolare poate fi aplicat şi pentru determinarea
celorlalte cuantile pentru cazul variabilelor statistice continue definite pe
intervale.

138
Proprietăţi ale medianei
1. Mediana nu este o statistică adecvată pentru variabile calitative
nominale, întrucât pentru manifestările înregistrate pentru astfel de
variabile nu are sens operaţia de ordonare.
Determinarea medianei are însă sens pentru variabile calitative ordinale.
Pentru exemplificare să considerăm distribuţia statistică de frecvenţe din
tabelul 4.10.

Tabelul 4.10
Variabila X Frecvenţe cumulate
Frecvenţe
definită prin (număr cumulat de
absolute
variante de respondenţi)
Codificare (număr de
acord /
respondenţi)
dezacord
nj
xj
Puternic 1 12 12
dezacord
Dezacord 2 27 39
moderat
Neutru 3 25 64
Acord moderat 4 48 112 ( > RMe = 75,5)
Puternic acord 5 38 150
Total N = 150
RMe = (N + 1) / 2 = 75,5

Deoarece frecvenţa cumulată crescător depăşeşte pentru prima dată rangul


medianei pentru cea de-a patra variantă, adică „acord moderat”, se poate
spune că jumătate dintre respondenţi şi-au exprimat cel mult un acord
moderat faţă de opinia exprimată, în timp ce cealaltă jumătate dintre
respondenţi şi-au exprimat cel puţin un acord moderat.
Având însă în vedere faptul că variabila statistică este ordinală, se poate
face o analiză statistică mai aprofundată, recurgând pentru aceasta la
operaţia de codificare a variantelor care definesc scala de măsurare a
răspunsurilor înregistrate. Deoarece scala de măsurare folosită poate fi
considerată ca fiind o scală ordinală de tip „interval”, aceste coduri joacă
rolul unor centre de intervale. În aceste condiţii, se pot face estimări
valorice pentru statisticile de caracterizare a tendinţei centrale, folosind
metode similare celor utilizate în cazul variabilelor cantitative continue
definite pe intervale. Aceste estimări pot ajuta la aprecierea gradului de

139
asimetrie al distribuţiei, răspunzând astfel nevoii de cunoaştere mai precisă
a poziţionării respondenţilor faţă de opinia formulată 10.
Revenind la exemplul nostru, să determinăm mai întâi media aritmetică.
Pentru aceasta construim tabelul 4.11.

Tabelul 4.11
Variabila X
Frecvenţe
definită prin
absolute
variante de Codificare Sume parţiale,
(număr de
acord / cj respondenţi) si = cjnj
dezacord
nj
xj
Puternic 1 12 12
dezacord
Dezacord 2 27 54
moderat
Neutru 3 25 75
Acord moderat 4 48 192
Puternic acord 5 38 190
Total N = 150 S = 523

Să estimăm, mai departe, valoarea mediană. În acest scop, folosim tabelul


4.12, în care am adăugat la coloana de codificare şi coloana intervalelor de
variaţie corespunzătoare.
Valoarea estimată mai mare a medianei faţă de cea a mediei aritmetice
sugerează că avem de-a face cu o distribuţie cu o asimetrie negativă,
caracterizată prin deplasarea valorii medii spre stânga ca urmare a
înregistrării unor valori prea mici faţă de tendinţa generală (a se vedea
capitolul 7 al lucrării de faţă). Aceste valori corespund celor 12
respondenţi care şi-au manifestat un puternic dezacord faţă de opinia
considerată. Este utilă şi cunoaşterea procentului acestor respondenţi: 12 /
150 (%) = 8%. Aşadar, 8% din respondenţi şi-au manifestat faţă de

10
Cf.: Peter Zöfel, Statistik verstehen: ein Begleitbuch zur computergestützten Anwendung. Pearson
Deutschland GmbH, 2002, pp. 35-36.

140
opinia formulată un dezacord mult mai accentuat în raport cu tendinţa
generală.

Tabelul 4.12
Frecvenţe
Intervale Frecvenţ
cumulate:
de e
Variabila X cj variaţie absolute:
xj nj

Puternic dezacord 1 0,5 – 1,5 12 12


Dezacord moderat 2 1,5 – 2,5 27 39
Neutru 3 2,5 – 3,5 25 64
Acord moderat 4 3,5 – 4,5 48 112 ( > RMe = 75,5)
Puternic acord 5 4,5 – 5,5 38 150
Total N = 150

2. În cazul distribuţiei unei variabile definite ca o funcţie continuă,


ordonata valorii mediane împarte în două părţi egale aria de sub graficul
funcţiei care defineşte variabila statistică (a se vedea figura 4.1).
Egalitatea ariilor suprafeţelor S1 şi S2 din figura 4.1 este echivalentă cu
egalitatea:

unde:

141
Me reprezintă mediana repartiţiei statistice după variabila X;
f(x) = funcţia continuă care defineşte variabila statistică X;
[a, b] = câmpul de variaţie al variabilei statistice X.

S1 = S 2

S1 S2

a Me b


Figura 4.1

Tabelul 4.13
Variabila X,
număr de Număr de familii
Sume parţiale,
copii, definită (Frecvenţe absolute)
prin sj = xjnj
nj
variantele xj
0 10 0
1 25 25
2 30 60
3 15 45
4 10 40
5 5 25
6 5 30
TOTAL N = 100 S = 225

142
3. Întrucât media aritmetică este afectată de valorile extreme pe care le
înregistrează variabila statistică, rezultă că pentru o distribuţie statistică cu
o concentrare mai mare în jurul valorilor mai mici, mediana este mai mică
decât media aritmetică. Invers, pentru o distribuţie statistică cu o
concentrare mai mare în jurul valorilor mai mari, mediana este mai mare
decât media aritmetică.
Un exemplu pentru primul caz este cel al distribuţiei din figura 4.1, dar şi
al distribuţiei din tabelul 4.4, reluată, pentru efectuarea calculelor
suplimentare necesare, în tabelul 4.13. Se verifică relaţia: Me (= 2) < μ
(= 2,25);
4. Spre deosebire de media aritmetică, mediana prezintă avantajul că nu
este afectată de valorile aberante înregistrate de către variabila statistică.
Ca şi dezavantaje ale medianei menţionăm următoarele:
- ea poate să nu corespundă unei valori reale (atunci când numărul de
valori este par);
- are o putere redusă de reflectare a diferenţelor dintre două sau mai multe
serii de valori, ceea ce face ca erorile de inferenţiere de la eşantion la
populaţie statistică în cazul medianei să fie, de regulă, mari. Pentru
exemplificare, prezentăm în tabelul 4.14 două serii de valori foarte diferite
între ele, care sunt însă caracterizate de aceleaşi valori mediane (MeX =
MeY = 52).

Tabelul 4.14
Seria de Seria de valori
valori X Y
13 48
25 49
37 49
48 51
52 52
65 53
78 53
81 54
93 55

143
4.2. Cuartilele, Decilele şi Centilele (Procentilele)
Celelalte două cuartile, denumite şi cuartile laterale (cuartila din mijloc
este chiar valoarea mediană), se pot defini şi ele pe baza unor relaţii
probabilistice:
- pentru prima cuartilă (Q1):

- pentru cea de-a treia cuartilă cuartilă (Q3):

Relaţii asemănătoare se pot defini şi pentru celelalte cuantile (decile sau


centile). De pildă, relaţiile probabilistice care definesc centila sau
procentila11 40, echivalentă cu decila 4, sunt:

Este lesne de observat faptul că procentila 50 este identică cu valoarea


mediană, în timp ce procentilele 25 şi 75 sunt identice cu cuartilele laterale
(Q1 şi Q3).
Relaţii de determinare a centilelor sau procentilelor pot fi generalizate sub
forma:

unde:
Ck reprezintă centila sau procentila de ordinul k.
Pentru ilustrarea algoritmului de determinare a procentilelor, să
considerăm datele din tabelul 4.16. Să determinăm, de pildă, procentila 72,
adică valoarea care satisface relaţia:

Din această relaţie rezultă că:

11
Centilele se pot numi şi procentile, întrucât între două centile diferite, consecutive, se află 1 procent din
valorile înregistrate.

144
Tabelul 4.16
Variabila X
Frecvenţe absolute
definită prin
(număr de
grupe de
muncitori)
salarii (RON)
ni
xi
900 - 1000 40
1000 - 1200 110
1200 - 1500 210
1500 - 2000 120
peste 2000 20
Total 500

Întrucât în exemplul considerat colectivitatea statistică are un volum de


500, din prima relaţie rezultă că procentila 72 este mai mare sau egală faţă
de 72% din valori, i.e. 500 · 0,72 = 360 valori. Pe de altă parte, din cea
de-a doua relaţie rezultă că procentila 72 este mai mică sau egală faţă de
28% din valori, i.e. 500 · 0,28 = 140 valori.
Aceasta înseamnă că cea de-a 72-a procentilă se află pe intervalul închis
delimitat de cea de-a 360-a şi, respectiv, cea de 361-a valoare dintre cele
500 de valori ordonate crescător. Pentru a identifica aceste două valori,
este utilă cumularea frecvenţelor absolute înregistrate:
Conform datelor din tabelul 4.17, cel de-al 360-lea salariu este de
aproximativ 1500 RON (aceasta este limita superioară a intervalului
pentru care frecvenţa cumulată este egală chiar cu 360), iar cel de-al 361-
lea salariu se află pe intervalul 1500-2000 RON (intervalul pentru care
frecvenţa cumulată depăşeşte pentru prima dată valoarea de 361).
Întrucât pe acest interval, de lungime egală cu 500 RON, se află 120 de
salarii, rezultă că valoarea probabilă12 a celui de-al 361-lea salariu este:

12
Se presupune că variaţia este uniformă pe întinderea intervalului în care se află cuantila căutată.

145
Tabelul 4.17
Frecvenţe absolute
Variabila X cumulate (număr
Frecvenţe absolute
definită prin cumulat de
(număr de
grupe de muncitori)
muncitori)
salarii (RON)
nj
xj

900 - 1000 40 40
1000 - 1200 110 150
1200 - 1500 210 360
1500 - 2000 120 480
peste 2000 20 500
Total 500

În această situaţie, putem considera procentila 72 ca fiind media dintre


1500 şi 1504,16 RON, adică 1502,08 RON. Concluzia este, aşadar, că
72% din salarii sunt de cel mult 1502,08 RON, iar 28% din salarii sunt de
cel puţin 1502,08 RON.

4.3. Valorile modale


Valorile modale sunt variantele pe care o variabilă statistică le
înregistrează cel mai des. Ele se mai numesc şi valori dominante sau – în
termeni probabilistici – valorile cele mai probabile.
Să presupunem, de exemplu, că managerul unui magazin de îmbrăcăminte
a observat că cele 10 perechi de pantaloni vândute în ziua anterioară au
avut următoarele mărimi:
31, 36, 34, 29, 34, 32, 32, 30, 38, 34
Valoarea modală pentru acest şir de valori este egală cu 34, întrucât
această valoare s-a înregistrat cel mai des (din cele 10 perechi de pantaloni
vândute, 3 perechi au avut această mărime, celelalte mărimi înregistrându-
se fie doar de 2 ori, fie numai o singură dată).
146
În urma calculelor din tabelul 4.18, rezultă faptul că atât media aritmetică
a mărimilor vândute cât şi mediana sunt egale cu 33. Conform acestor
două statistici, valoarea de 33 este cea mai reprezentativă pentru şirul de
valori înregistrate. Totuşi, luarea deciziei de aprovizionare în viitor în
funcţie de acest rezultat ar putea fi o eroare (din cele 10 perechi de
pantaloni vândute, niciuna n-a avut mărimea 33).
Pentru o asemenea decizie, este necesară cunoaşterea mărimii sau
mărimilor celor mai bine vândute, adică a valorii sau valorilor modale.

Tabelul 4.18
Seria de Seria de
Nr.
valori X, valori X,
crt.
brute ordonate
1 31 29
2 36 30
3 34 31
4 29 32
5 34 32
6 32 34
7 32 34
8 30 34
9 38 36
10 34 38

 330

Determinarea valorilor modale pentru distribuţii statistice după


variabile calitative nominale
În cazul unei distribuţii statistice după o variabilă calitativă nominală,
calculul mediei aritmetice sau al medianei nu are sens. Într-o asemenea

147
situaţie se pot determina totuşi, ca şi statistici ale tendinţei centrale,
valorile modale.
Să considerăm, de exemplu, datele din tabelul 4.19, referitoare la
repartizarea pe domenii a celor 200 de angajaţi cu studii superioare ai unei
firme.
Variabila „domeniu” cu variantele sale – contabilitate, finanţe,
management, marketing şi „altele” – este o variabilă calitativă nominală.
Deoarece, pentru variantele „contabilitate” şi „finanţe” se înregistrează
cele mai mare frecvenţe (50, în cifre absolute și 25,00%, în cifre
relative), rezultă că aceste două variante constituie valorile modale ale
distribuţiei statistice considerate.

Tabelul 4.19
Numărul de angajaţi cu studii Frecvenţe
Domeniul
superioare (frecvenţe absolute) relative
Contabilitate 50 25,00%
Finanţe 50 25,00%
Management 42 21,00%
Marketing 33 16,50%
Altele 25 12,50%
TOTAL 200 100,00%

Pentru a oferi un al doilea exemplu în legătură cu valorile modale pentru


distribuţii statistice construite pentru variabile calitative nominale, ne vom
referi la faptul – deosebit de grăitor din punct de vedere sociologic și nu
numai – că țara din care a provenit cea mai mare migrație în Germania în
anul 2017 a fost România.
Această concluzie se poate obține pe baza tabelului 4.20, în care sunt
prezentate date privind primele 10 țări din lume în funcție de volumul
migrației în Germania în anul 2017.
În acest exemplu, variabila statistică studiată este țara de proveniență a
migrației în Germania în anul 2017, îrnregistrând ca variantă modală
„România”.

148
Tabelul 4.20 Primele 10 țări din lume în funcție de volumul migrației
în Germania în anul 201713
Nr. crt. Țara Sosiri Plecări Migrație
1 România 230603 157415 73188
2 Siria 76391 16456 59935
3 Polonia 149663 115419 34244
4 Croația 58603 25800 32803
5 Bulgaria 81627 51290 30337
6 Iraq 27574 11328 16246
7 Italia 51471 35364 16107
8 India 29535 15878 13657
9 Turcia 33655 21350 12305
10 Bosnia și Herțegovina 23980 11831 12149

Determinarea modei pentru repartiţii statistice după variabile cantitative


cu variaţie discretă
Pentru repartiţii statistice după variabile cantitative cu variaţie discretă,
valorile modale pot fi uşor determinate cu ajutorul diagramelor statistice.

40

35
37
30

25

20 24
15
17
10
11
5
5 3 2 1
0

x1 x2 = Mo ... xk ... xn

Figura 4.2

13
Cf.: https://www-
genesis.destatis.de/genesis/online;sid=13F98451D13CE8F6253D2E67C7350095.GO_1_4?operation=pre
vious&levelindex=3&levelid=1539912111672&step=3 (accesat în 19 octombrie 2018).
O selecție a informațiilor de mai sus se poate găsi la: Lavinia PITU. Anul trecut, în Germania au venit
mai mulți români decât sirieni. Articol online la adresa: https://www.dw.com/ro/anul-trecut-%C3%AEn-
germania-au-venit-mai-mul%C8%9Bi-rom%C3%A2ni-dec%C3%A2t-sirieni/a-45896884 (accesat în 19
octombrie 2018).

149
Să considerăm, de pildă, variabila „număr de copii / familie”, cu variantele
x1, x2, ..., xk (de exemplu, x1 = niciun copil, x2 = 1 copil ş.a.m.d.).
În figura 4.2 este reprezentată, cu ajutorul unei diagrame prin coloane, o
distribuţie statistică după această variabilă, la nivelul a 100 de familii
studiate. Valoarea modală, adică valoarea pentru care se înregistrează
frecvenţa maximă, este valoarea pe care am notat-o cu Mo.
Din diagramă rezultă că pentru grupul de familii studiat, valoarea modală
este Mo = x2 = 2 (copii), variantă pentru care s-au înregistrat cele mai
multe observaţii (37).
Dacă există două sau mai multe variante ale variabilei considerate pentru
care se înregistrează frecvenţa maximă, distribuţia statistică este
caracterizată de două (distribuţie bimodală; un exemplu este cel din figura
4.3) sau mai multe valori modale (distribuţie plurimodală).

35

30

25 29 29

20 23
15

10

5 9
4 3 2 1
0

x1 = Mo1 x2 x3 = Mo2 ... xk ... xn

Figura 4.3

Atunci când pentru toate variantele unei caracteristici se înregistrează


aceeaşi frecvenţă, niciuna nu poate fi considerată valoare modală,
distribuţia fiind una amodală.
Se poate vorbi şi despre valori modale secundare ale unei distribuţii
statistice. Prin valori modale secundare se înţeleg acele variante ale
variabilei pentru care frecvenţele de apariţie sunt foarte apropiate de
frecvenţa valorii modale principale. De exemplu, în diagrama din figura
4.4, variantele x4 şi x6 pot fi considerate ca şi valori modale secundare ale
distribuţiei statistice considerate.

150
16

14

12

10

x1 x2 x3 x4 x5 = Mo x6 x7 x8

Figura 4.4

Determinarea valorilor modale pentru distribuţii statistice după


variabile cantitative cu variaţie continuă, definite pe intervale
Trebuie considerate cele două situaţii posibile:
– când variabila este definită pe intervale egale;
– când variabila este definită pe intervale neegale.
Pentru distribuţiile după variabile cantitative cu variaţie continuă, definite
pe intervale egale, în determinarea valorii modale trebuie parcurse două
etape:
1. se determină intervalul modal, adică intervalul pentru care se
înregistrează cea mai mare frecvenţă statistică;
2. se determină valoarea modală, folosind una dintre următoarele trei
metode:
a. dacă se doreşte doar o valoare aproximativă a valorii modale,
aceasta se poate determina ca medie aritmetică a limitelor
intervalului modal:

unde:
Mo reprezintă valoarea modală a distribuţiei statistice studiate;
lMo, LMo = limita inferioară şi, respectiv, limita superioară a
intervalului modal.

151
b. având în vedere faptul că reprezentativitatea valorilor modale
este în legătură cu frecvenţa de manifestare a acestora, obţinerea
unei valori modale mai reprezentative reclamă analiza extinsă a
etalării frecvenţelor înregistrate de către variantele care definesc
variabila statistică.
Se justifică, astfel, determinarea valorii modale şi în funcţie de
frecvenţele înregistrate pentru intervalele vecine intervalului
modal:

unde:
lMo reprezintă limita inferioară a intervalului modal;
dMo = lungimea intervalului modal, adică distanţa dintre limita
inferioară şi cea superioară a acestuia (LMo – lMo);

Δ1 = diferenţa dintre frecvenţa intervalului modal şi frecvenţa


intervalului imediat anterior lui;

Δ2 = diferenţa dintre frecvenţa intervalului modal şi frecvenţa


intervalului imediat următor lui.

c. valoarea determinată prin relaţia anterioară se poate obţine şi


prin metoda grafică prezentată cu ajutorul figurii 4.5, folosindu-
se pentru aceasta o hârtie milimetrică.
În cadrul acestei metode grafice se parcurg următorii paşi:
- se reprezintă mai întâi histograma corespunzătoare
distribuţiei statistice studiate;
- se determină valoarea modală ca fiind egală cu lungimea
segmentului OI din figura 4.5, egală la rândul ei cu abscisa
punctului de intersecţie (I) dintre diagonalele trapezului
dreptunghic ABCD.
Din asemănarea triunghiurilor AID şi BIC, rezultă egalitatea:

Această egalitate este echivalentă cu:

152
Prin urmare, se obţine:

Ceea ce înseamnă că:

Sau:

Aşadar:

Se ajunge astfel la relaţia de determinare a valorii modale:

ni
A B

O E I F 1
lMo 2
D

xi
Mo

Figura 4.5
153
Să determinăm, de exemplu, valoarea modală pentru distribuţia statistică
din tabelul 4.21.

Tabelul 4.21
Variabila X, definită pe Frecvenţe
grupe de vârstă (ani) absolute, F
10 - 20 5
20 - 30 8
30 - 40 20
40 - 50 11
50 - 60 6
TOTAL 50

Intervalul modal pentru distribuţia din tabelul 4.21 este intervalul 30-40
ani, întrucât la nivelul acestuia se înregistrează cea mai mare frecvenţă
absolută.

În tabelul 4.22 este marcat acest interval şi sunt calculate valorile şi
.

Tabelul 4.22
Variabila
X, definită Frecvenţe
pe grupe absolute, 
de vârstă ni
(ani)
10 - 20 5
20 - 30 8 (nMo-1)

30 - 40 20 (nMo) Interval modal (IMo)


40 - 50 11 (nMo+1)
50 - 60 6
TOTAL 50

154
Folosind relaţia de determinare a valorii modală în cazul variabilelor
statistice continue definite pe intervale egale, obţinem:

Pentru distribuţiile după variabile cantitative cu variaţie continuă, definite


pe intervale neegale, în determinarea valorii modale trebuie să se ţină cont
de faptul că diferenţele dintre frecvenţele înregistrate pot fi explicate şi pe
seama diferenţelor dintre lungimile intervalelor. Din acest motiv, în
determinarea valorilor modale pentru astfel de distribuţii, este necesară
mai întâi o recalculare a frecvenţelor în funcţie de lungimile intervalelor.
Pentru exemplificare, să determinăm valoarea modală pentru distribuţia
statistică a 500 de librării după variabila „număr de cărţi vândute” într-o
anumită perioadă, conform tabelului 4.23.
Întrucât intervalele care definesc variabila statistică sunt inegale, pentru
identificarea intervalului modal este necesar ca în locul frecvenţelor
absolute, infleunţate de lungimea intervalelor considerate, să ţinem cont de
densitatea statistică înregistrată la nivelul acestor intervale. Am construit
pentru aceasta tabelul 4.24.
Deoarece cea mai mare densitate statistică se constată la nivelul celui de-al
doilea interval (20 - 30), acesta este intervalul care trebuie considerat ca
fiind intervalul modal.

Tabelul 4.23
Variabila X: Frecvenţe absolute
cărţi vândute (număr de librării),
(buc.) ni
10 - 20 40
20 - 30 110
30 - 50 210
50 - 80 120
80 - 100 20
Total 500

155
Tabelul 4.24
Variabil Densitate
Frecvenţe absolute Lungimi ale statistică,
a X: cărţi (număr de intervalelor,
vândute
librării), ni di
(buc.)
10 - 20 40 10 4,0 7,0
20 - 30 110 10 11,0 IMo
30 - 50 210 20 10,5 0,5
50 - 80 120 30 4,0
80 - 100 20 20 1,0
Total 500

Folosind o relaţie similară celei utilizate în cazul distribuţiilor pe intervale


egale, se poate determina acum valoarea modală:

unde:

Ceea ce înseamnă că:

Trebuie remarcat faptul că la acelaşi rezultat se ajunge şi dacă se


transformă distribuţia statistică considerată într-o distribuţie statistică după
o variabilă definită pe intervale egale, cu condiţia respectării densităţii
statistice iniţiale.
O astfel de distribuţie este, de exemplu, cea din tabelul 4.25. Aceasta a fost
obţinută prin împărţirea intervalelor iniţiale mai mari în subintervale cu
lungime egală cu 10.
La nivelul acestor subintervale, frecvenţele asociate au fost obţinute prin
distribuirea uniformă a efectivelor iniţiale la numărul de subintervale
obţinute (în acest fel este respectată densitatea statistică iniţială).

156
De exemplu, intervalul iniţial (30 - 50) a fost împărţit în două
subintervale egale. Acestea sunt subintervalele (30 - 40), respectiv (40 -
50),. Mai departe, la nivelul acestor subintervale, efectivul iniţial de
librării (210) a fost distribuit în mod uniform, rezultând două
subfrecvenţe de câte 105 libării.

Tabelul 4.25
Variabila
Frecvenţe absolute
X: cărţi
vândute
(număr de 
librării), ni
(buc.)
10 - 20 40 70
20 - 30 110 IMo
30 - 40 105 5
40 - 50 105
50 - 60 40
60 - 70 40
70 - 80 40
80 - 90 10
90 - 100 10
Total 500

Valorea modală se poate determina acum pe baza algoritmului utilizat în


cazul distribuţiilor statistice pe intervale egale:

Aşadar, putem estima că la nivelul celor mai multe libării s-au vândut 29
sau 30 de cărţi.
Aceste valori nu pot fi unele certe, ci doar estimări, deoarece nu se cunosc
valorile exacte înregistrate de către variabila statistică.

157
Proprietăţi ale valorilor modale
În decizia de alegere a valorilor modale ca şi statistici pentru
caracterizarea tendinţei centrale, precum şi în determinarea acestora, este
utilă cunoaşterea următoarelor proprietăţi ale valorilor modale:
1. Pentru o distribuţie statistică unimodală, valoarea modală, spre
deosebire de media aritmetică, nu este afectată de valorile aberante
înregistrate de către variabila statistică;
2. În cazul distribuţiilor bi- sau pluri-modale, cele două sau mai multe
valori modale nu pot fi sintetizate pentru obţinerea unei singure mode care
să fie repezentativă pentru întreaga colectivitate statistică;
3. Cunoaşterea valorii modale se dovedeşte utilă în caracterizarea gradului
de asimetrie al unei distribuţii statistice unimodale (a se vedea capitolul 7);

max f(X)

Mo μ X
Me

Figura 4.6

4. În cazul unei distribuţii teoretice după o variabilă definită de o funcţie


continuă, valoarea modală corespunde valorii variabilei pentru care se
înregistrează maximul acestei funcţii (figura 4.6). Aceasta înseamnă că
pentru X = Mo, derivata întâi a funcţiei este egală cu 0, iar derivata a
doua este negativă.

Relaţii între media aritmetică, mediană şi valoarea modală


Pentru o distribuţie statistică unimodală care este simetrică în raport cu
media aritmetică, valoarea modală este egală cu mediana şi cu media
aritmetică.
Egalitatea dintre cele trei statistici este, de altfel, chiar o condiţie a
simetriei distribuţiilor statistice analizate.

158
70

60

50

40

30

20

10

0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29

Figura 4.7 Distribuţie unimodală simetrică

Un exemplu este cel al distribuţiei reprezentate grafic în figura 4.7, pentru


care toate cele statistici principale folosite în caracterizarea tendinţei
centrale sunt egale, conform rezultatelor din tabelul 4.26, cu 15,5.
Majoritatea distribuţiilor de frecvenţe nu sunt însă simetrice, ele fiind
caracterizate de un grad mai mare sau mai mic de asimetrie.
Pentru distribuţiile de frecvenţe cu asimetrie pozitivă sau „cu coadă la
dreapta” (figura 4.8, a), se verifică relaţia Mo  Me  μ. Pentru
distribuţiile de frecvenţe cu asimetrie negativă sau „cu coadă la stânga”
(figura 4.8, b), se verifică relaţia Mo  Me  μ.
În cazul unei distribuţii unimodale cu o asimetrie moderată, se poate
verifica următoarea relaţie aproximativă între cele trei statistici ale
tendinţei centrale:

Această relație stă, de altfel, la baza celui de-al doilea coeficient de


asimetrie (oblicitate) propus de către statisticianul britanic Karl Pearson
pentru descrierea formei unor astfel de distribuții statistice (a se vedea
capitolul 7).

159
Tabelul 4.26
Valori (xi) Valori
Frecvenţe
care definesc ponderate cu
absolute (ni)
variabila X frecvenţe (xi·ni)
1 3 3
2 4 8
3 6 18
4 8 32
5 11 55
6 14 84
7 17 119
8 21 168
9 25 225
10 29 290
11 34 374
12 39 468
13 45 585
14 51 714
15 58 870
16 58 928
Mo = Me = 15,5
17 51 867
18 45 810
19 39 741
20 34 680
21 29 609
22 25 550
23 21 483
24 17 408
25 14 350
26 11 286
27 8 216
28 6 168
29 4 116
30 3 90

Total 730 11315


 = 11315 / 730 = 15,5

160
a. asimetrie b. asimetrie
pozitivă negativă

Valoarea Media Media Valoarea


modală, Mo aritmetică, μ aritmetică, μ modală, Mo
Mediana, Me Mediana, Me

Figura 4.8

4.4. Valoarea medială


Mediala (Ml) este valoarea reprezentativă prin poziţia centrală pe care o
ocupă în raport cu operaţia de însumare treptată a valorilor înregistrate,
dispuse în ordinea mărimii lor. Această valoare se identifică cu prima
valoare pentru care este satisfăcută relaţia:

unde:
RMl reprezintă rangul medialei;
i = rangurile celor n valori ordonate crescător.
Să considerăm din nou, pentru exemplificare, şirul de salarii (în RON):
(1550, 1920, 1600, 1800, 1750, 3500, 1740).
Pentru a determina mediala acestui şir de valori, este necesară mai întâi
ordonarea acestora după criteriul mărimii: (1550, 1600, 1740, 1750,
1800, 1920, 3500), urmată de însumarea lor treptată: (1550, 3150,
4890, 6640, 8440, 10360, 13860).
Jumătate din suma totală a valorilor considerate înseamnă 13860/2 =
6930. Întrucât la însumarea treptată a valorilor înregistrate, această
valoare este depăşită pentru prima dată după adăugarea celei de-a 5-a
valori ordonate crescător (8440 > 6930), rezultă că mediala are rangul
egal cu 5, valoarea sa fiind egală cu 1800 (figura 4.9).

161
Deoarece suma valorilor mai mari decât mediana nu poate fi decât mai
mare sau egală cu suma valorilor mai mici decât mediana, mediala este şi
ea mai mare sau egală cu mediana valorilor înregistrate. Pentru exemplul
nostru, se obţine: Ml = 1800 > Me = 1750.
Egalitatea între medială şi mediană are loc doar în cazul în care toate
valorile înregistrate sunt egale.
Abaterea dintre aceste două statistici reprezintă ea însăşi o nouă statistică,
a cărei utilitate este în legătură cu caracterizarea gradului de
concentrare/diversificare statistică, aşa cum se va vedea în detaliu pe
parcursul capitolului 6, dedicat statisticilor disponibile pentru descrierea
concentrării, respectiv diversificării statistice, adică a măsurii în care
valorile înregistrate se apropie sau nu între ele.

Figura 4.9

Determinarea medialei pentru date grupate


Dacă datele sunt grupate, determinarea medialei este, ca şi în cazul
medianei, puţin mai complexă.
Pentru exemplificare, vom considera din nou cele două situaţii posibile:
cea a variabilelor statistice discrete şi cea a variabilelor statistice continue,
definite pe intervale.

162
Cazul unei variabile statistice discrete
Să revenim la datele din tabelul 4.4, înregistrate în legătură cu variabila
„număr de copii” pentru o populaţie statistică formată din 100 de familii.
Pentru aflarea medialei este necesară însumarea treptată a valorilor
înregistrate de variabila statistică. Pentru aceasta, am construit tabelul
4.27.
Întrucât numărul cumulat de copii (Si) este pentru prima dată mai mare
decât jumătate din numărul total de copii (S/2) pentru varianta a patra a
variabilei („3 copii”), rezultă că mediala se identifică cu această variantă a
variabilei statistice. Aşadar, Ml = 3.

Tabelul 4.27
Număr de
Număr Număr de copii pe
familii Număr cumulat de
de copii grupe de familii (si =
(frecvenţe, copii (Si)
(xi)
fi) xi·fi)

0 10 0 0
1 25 25 25
2 30 60 85
3 15 45 130 > S/2 = 112,5
4 10 40 170
5 5 25 195
6 5 30 225 (= S)
TOTAL N = 100 S = si = 225
S/2 = 225/2 = 112,5

Cazul unei variabile statistice continue, definită pe intervale


Exemplificăm acest caz pornind de la distribuţia statistică din tabelul 4.28.
Întrucât suma totală a pensiilor (S) este egală cu 101200, înseamnă că
valoarea medială corespunde acelei pensii a cărei adăugare la suma
cumulată a pensiilor mai mici sau egale decât ea produce pentru prima
dată o sumă cumulată egală sau mai mare decât S/2 = 101200/2 =

163
50600. Conform datelor din tabelul 4.28, această pensie se află undeva pe
intervalul 950-1050 (intervalul medial al distribuţiei).
Valoarea medialei se poate afla prin interpolare. Astfel, ea se obţine
adunând la limita inferioară a intervalului medial (lMl = 950) distanţa
dintre capetele intervalului medial (dMl = LMl – lMl = 1050 – 950 =
100) ponderată cu raportul dintre partea pensiilor (sMl) de pe intervalul
medial, care mai trebuie adăugată la suma cumulată a pensiilor mai mici
decât cele din intervalul medial (sc) pentru obţinerea unei sume cumulate a
pensiilor egală cu jumătate din suma totală a acestora (sMl = S/2 – sc =
50600 – 31200 = 19400) şi, la numitor, suma pensiilor aflate pe
intervalul medial (SMl = 21000).

Tabelul 4.28
Pensii
Număr
repre- Valori
de
zentative Sume estimate cumulate ale
Grupe de pensio-
(centre ale pensiilor sumelor
pensii, RON nari
ale pe grupe estimate pe
(frec-
(xi) interva- grupe
venţe) (si = ci·fi)
lelor)
(Si)
(fi)
(ci)
650 - 750 700 3 2100 2100
750 - 850 800 15 12000 14100
850 - 950 900 19 17100 31200 (= sc)
52200 > S/2 =
950 - 1050 1000 21 21000 (= SMl) 101200/2 =
50600
1050 - 1150 1100 20 22000 74200
1150 - 1250 1200 17 20400 94600
1250 - 1350 1300 4 5200 99800
1350 - 1450 1400 1 1400 101200 (= S)
S = si =
Total N = 100
101200

Prin urmare, pensia medială este egală cu 950 + 100 · (19400/21000) 


950 + 92,3810  1042,3810 RON. Aceasta înseamnă că jumătate din
suma (fondul) de pensii corespunde pensiilor mai mici de 1042,3810
164
RON, iar cealaltă jumătate corespunde pensiilor mai mari de 1042,3810
RON. Poziţia valorii mediale astfel obţinute este ilustrată în tabelul 4.29.

Tabelul 4.29
Valori
Sume estimate ale cumulate ale
Grupe de pensii, pensiilor pe grupe sumelor
RON (xi)
(si = ci·fi) estimate pe
grupe (Si)
650 - 750 2100 2100
750 - 850 12000 14100
850 - 950 17100 31200 (= sc)
950 – 1042,3810 19400 (= S/2 – sc = sMl) 50600 (= S/2)
1042,3810 – 1050 1600 (= 52200 – 50600) 52200
1050 - 1150 22000 74200
1150 - 1250 20400 94600
1250 - 1350 5200 99800
1350 - 1450 1400 101200 (= S)
Total 101200

Generalizând, relaţia de calcul a valorii mediale în cazul unei variabile


statistice continue, definită pe intervale, este:

unde:
Ml reprezintă valoarea medială a unei distribuţii statistice continue,
definită pe intervale;
lMl = limita inferioară a intervalului medial;
LMl = limita superioară a intervalului medial;
dMl = amplitudinea intervalului medial, adică diferenţa dintre limita
superioară (LMl) şi limita inferioară (lMl) a intervalului medial;

165
sc = suma cumulată a valorilor mai mici decât limita inferioară a
intervalului medial;
SMl = suma valorilor de pe intervalul medial;
sMl = partea valorilor de pe intervalul medial, care mai trebuie adăugată la
suma cumulată a valorilor mai mici decât cele din intervalul medial ( sc)
pentru obţinerea unei sume cumulate a valorilor egală cu jumătate din
suma tuturor valorilor înregistrate (S/2);
S = suma tuturor valorilor înregistrate.
Acelaşi procedeu de interpolare poate fi aplicat în cazul variabilelor
statistice continue definite pe intervale şi pentru determinarea a altor
statistici care împart suma valorilor într-un număr specificat (4, 10, 100
...) de părţi egale.

Proprietăţi ale medialei


1. Întrucât semnificația medialei este și în legătură cu operația de însumare
a valorilor înregistrate, rezultă că mediala nu poate avea sens decât pentru
variabile cantitative;
2. Pentru o distribuţie statistică, mediala nu poate fi mai mică decât
mediana. Această proprietate se explică prin faptul că suma valorilor mai
mici decât mediana nu poate fi decât mai mică sau egală (egalitatea având
loc doar în cazul unei echirepartiţii) cu suma valorilor mai mari decât
mediana;
3. Cunoaşterea mărimii medialei în raport cu mărimea medianei este utilă
în aprecierea gradului de concentrare/diversificare statistică. Astfel, cu cât
mediala este mai deplasată faţă de mediană, cu atât gradul de concentrare
statistică este mai mare sau gradul de diversificare statistică este mai mic.
4. Spre deosebire de mediană, mediala prezintă dezavantajul că poate fi
afectată de valorile aberante înregistrate de către variabila statistică.
Această proprietate este o consecință a faptului că în determinarea
medialei este implicată și însumarea valorilor înregistrate.

166
DESCRIEREA STATISTICĂ
A VARIAŢIEI 5.

OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate statisticile disponibile pentru descrierea statistică
a variaţiei, răspunzând următoarelor obiective principale:
 stăpânirea tehnicilor de calcul utilizate pentru determinarea statisticilor de
variaţie în jurul mediei aritmetice, a valorii mediane sau a valorii modale;
 înţelegerea conţinutului informaţional al celor mai importante statistici de
variaţie: abaterea medie absolută, varianţa, abaterea standard şi coeficientul de
variaţie;
 reţinerea utilității coeficientului de variaţie în ceea ce priveşte aprecierea
reprezentativităţii mediei aritmetice pentru colectivitatea statistică studiată;
 înţelegerea conţinutului informaţional al covarianţei ca statistică de variaţie
simultană (co-variaţie) a două variabile statistice.

167
168
Pentru completarea tabloului descriptiv al tendinţei statistice centrale sunt
necesare, în afara informațiilor privind media aritmetică și principalele
statistici de poziție (valoarea mediană și valoarea / valorile modale), şi alte
caracterizări ale colectivităţilor statistice studiate.
Necesitatea completării acestor informații este evidențiată, de pildă, de
faptul că pot exista colectivităţi caracterizate de valori similare ale acestor
statistici, în ciuda faptului că ele sunt colectivități cu tendințe statistice
destul de diferite.
Pentru a ilustra această posibilitate, să presupunem două reţele de
magazine concurente, A şi B, formate din câte 7 magazine, la nivelul
cărora cifra de afaceri a înregistrat, pe parcursul anului 2017, valorile din
tabelul 5.1.

Tabelul 5.1
Cifra de afaceri înregistrată pe, Total
parcursul anului 2017, la nivelul
magazinelor din reţea, în mil. RON
Reţeaua de 4 15 12 4 8 12 4 59
magazine A
Reţeaua de 15 8 1 13 4 14 4 59
magazine B

Aceste două reţele de magazine sunt caracterizate de următoarele statistici


privind tendinţa centrală:

Aşadar, toate cele trei statistici ale tendinţei centrale sunt identice pentru
cele două serii de valori înregistrate de către variabila „cifra de afaceri”.
Cu toate acestea, cele două serii de valori sunt destul de diferite.
Deosebiri importante între cele două rețele de magazine în privința cifrei
de afaceri pot fi evidenţiate cu ajutorul statisticilor care descriu variaţia în
jurul mediei aritmetice, a valorii mediane sau a valorii / valorilor modale .

169
În figura 5.1 sunt reprezentate grafic perechi de distribuţii statistice care
deşi sunt caracterizate de valori identice ale mediei aritmetice, sunt totuși
diferite în ceea ce priveşte variaţia statistică înregistrată în jurul acesteia.

1. Variaţie mare în jurul 2. Variaţie mică în jurul


mediei aritmetice mediei aritmetice

a. distribuţii statistice simetrice

b. distribuţii statistice asimetrice

Figura 5.1

Statisticile de variaţie răspund unor probleme ca:


 verificarea gradului de omogenitate a unei colectivităţi statistice;
 verificarea sistematizării corespunzătoare a informaţiilor prin gruparea
statistică utilizată;
 măsurarea gradului de reprezentativitate a mediei aritmetice ca şi
statistică de tendinţă centrală; astfel, o variaţie mai mare a valorilor în
jurul mediei aritmetice determină scăderea gradului de
reprezentativitate a acesteia, întrucât o astfel de variaţie este expresia
sintetică unor diferenţe mai mari între media aritmetică şi valorile
înregistrate;
 caracterizarea gradului şi a formei de variaţie pentru o distribuţie
statistică unimodală;
 caracterizarea gradului şi a formei de variaţie în cadrul fiecărei grupe
de unităţi statistice şi calculul statisticilor de variaţie dintre grupe;

170
 cunoaşterea gradului de influenţă a factorilor/cauzelor după care s-a
făcut gruparea unităţilor statistice, fiind astfel posibilă evidenţierea
acţiunii cauzei esenţiale, precum şi separarea acesteia de acţiunea
cauzelor întâmplătoare; o utilitate semnificativă în această privinţă o
prezintă una dintre cele două relaţii de adunare a varianţelor la nivelul
unei distribuţii bivariate, anume relația potrivit căreia varianța
variabilei dependente se compune din varianța explicată pe seama
variabilei independente și din varianța determinată de alți factori
(necunoscuți), denumită varianță neexplicată (pe seama variabilei
independente considerate).

Statisticile simple disponibile pentru descrierea variaţiei


Statisticile simple ale variaţiei sunt uşor de determinat şi ele furnizează
primele informaţii cu privire la gradul de împrăştiere (dispersie) statistică
a valorilor înregistrate.

5.1. Amplitudinea variației statistice


În general, prin amplitudine se înţelege lungimea distanţei care uneşte
două poziţii extreme.
În consecinţă, pentru un grup de valori statistice, amplitudinea este dată de
diferenţa numerică dintre valorile sale extreme, fiind exprimată fie în cifre
absolute fie sub formă relativă (de exemplu, faţă de o statistică a tendinţei
centrale, procentual).
Nu doar amplitudinea totală poate fi de interes. Informaţii interesante se
pot obţine şi prin determinarea unei amplitudini parţiale, aşa cum este, de
pildă, amplitudinea intercuartilică, considerată a fi cea mai importantă
amplitudine intercuantilică.

Amplitudinea totală
a) amplitudinea totală absolută (A)
Amplitudinea absolută a variaţiei statistice se determină ca diferenţă
absolută între cea mai mare şi cea mai mică valoare observată:

Dezavantajul acestei statistici îl reprezintă, ca şi în cazul mediei aritmetice,


sensibilitatea ei prea mare la valorile aberante. Ca atare, amplitudinea este
reprezentativă, ca şi statistică a variaţiei, doar pentru colectivităţile
statistice cu un grad suficient de mare de omogenitate.

171
Astfel, de exemplu, singurul şir de valori reprezentate grafic în figura 5.2,
pentru care are relevanţă calculul amplitudinii, ca şi statistică a variaţiei,
este şirul A.
Amplitudinea absolută se exprimă prin aceeaşi unitate de măsură ca şi
variabila analizată.
Din această cauză, utilizarea ei pentru comparaţii se face numai repartiţii
după variabile statistice exprimate în unităţi de măsură identice.
Eliminarea acestui inconvenient se poate asigura prin calculul amplitudinii
relative a variaţiei.

şirul A

X min X max

X min X max X min X max


şirul B şirul C

Figura 5.2 Importanţa omogenităţii statistice pentru relevanţa


amplitudinii ca statistică de variaţie

b) amplitudinea totală relativă (A %)


Amplitudinea relativă a variaţiei se obţine prin raportarea amplitudinii
absolute la o statistică de tendinţă centrală, cel mai des la media aritmetică
sau la valoarea mediană a valorilor înregistrate:

Amplitudinea relativă se poate folosi şi pentru comparaţii între


colectivităţi statistice studiate după variabile de grupare exprimate în
unităţi de măsură diferite.
Valoarea amplitudinii statistice este folosită în alegerea numărului şi a
mărimii intervalelor de grupare a datelor înregistrate la nivelul unei
colectivităţi statistice.

172
Pentru o distribuţie statistică după o variabilă continuă definită pe
intervale, amplitudinea se calculează ca diferenţă între limita maximă a
intervalului superior şi limita minimă a intervalului inferior.

Amplitudini parţiale (intercuantilice)


Amplitudinile parţiale sau intercuantilice constau în diferenţele numerice
dintre diferitele cuantile extreme. Se pot menţiona astfel:
- amplitudinea intercuartilică;
- amplitudinea interdecilică;
- amplitudinea intercentilică.
Cea mai importantă este amplitudinea intercuartilică, egală cu distanţa
dintre cele două cuartile laterale:

Importanţa acestei statistici decurge din faptul că ea măsoară lungimea


intervalului intercuartilic, adică a intervalului în care se află jumătatea
centrală a valorilor observate. Aceste valori sunt importante deoarece ele
descriu detaliat tendinţa centrală înregistrată la nivelul colectivităţii
studiate.

Figura 5.3 Exemplu de interval intercuartilic

În figura 5.3 este reprezentată exemplificativ distribuţia frecvenţelor


relative ale valorilor înregistrate la nivelul unei colectivităţi statistice,
pentru care intervalul intercuartilic se află între valorile 2 şi 5 (acestui
interval îi corespunde zona haşurată din diagramă). Se observă faptul că în

173
acest interval se află peste jumătate din valorile înregistrate, acestea
descriind în mod evident tendinţa centrală manifestată la nivelul
colectivităţii studiate.
Amplitudinea intercuartilică poate fi folosită, de asemenea, la identificarea
eventualelor valori aberante din punct de vedere statistic (outliers), valori
care se abat semnificativ de la tendința statistică centrală. Astfel, sunt
considerate valori aberante (sau deplasate) acele valori care sunt plasate în
afara intervalului [Q1 – 1,5AQ; Q3 + 1,5AQ]. Pentru exemplificare, să
considerăm șirul de valori: 5; 7; 7; 9; 9; 10; 10 și 25. După cum se poate
ușor constata, cele două cuartile laterale pentru acest șir de valori sunt
egale cu 7, respectiv 10, ceea ce înseamnă că amplitudinea intercuartilică
este egală cu 3. Intervalul în afara căruia se plasează eventualele valori
aberante este în acest caz: [Q1 – 1,5AQ; Q1 + 1,5AQ] = [7 – 1,5∙3; 10
+ 1,5∙3] = [2,5; 14,5]. În afara acestui interval se află o singură valoare
dintre cele șapte ale șirului considerat, și anume 25, această valoare fiind
așadar una aberantă din punctul de vedere al tendinței statistice centrale
(ea este prea îndepărtată față de această tendință).

5.2. Abaterile individuale


Variaţia statistică în jurul tendinţei centrale se concretizează în abaterile
într-un sens sau altul ale valorilor individuale faţă de diferitele statistici
ale tendinţei centrale (media aritmetică, valoarea mediană și, mai rar,
valoarea sau valorile modale). Aceste abateri se pot exprima, de asemenea,
într-o formă absolută sau relativă (ca abateri procentuale faţă de statistica
tendinței centrale luată în considerare).

Abaterile individuale absolute


Abaterile individuale absolute sunt abaterile, în cifre absolute, ale valorilor
individuale faţă de media artimetică, valoarea mediană sau valoarea
modală (în cazul colectivităților unimodale):

O semnificaţie deosebită o au abaterile individuale ale valorilor extreme:

174
Abaterile individuale relative
Abaterile individuale relative se obţin prin raportarea abaterilor
individuale absolute la cele trei statistici ale tendinței centrale:

Statisticile sintetice ale variaţiei în jurul mediei aritmetice


Statisticile sintetice ale variaţiei în jurul mediei aritmetice oferă informaţii
privind variaţia înregistrată la nivelul colectivităţii statistice în ansamblul
ei.
Statisticile sintetice disponibile pentru descrierea variaţiei în jurul mediei
aritmetice sunt:
 abaterea medie absolută;
 varianţa sau dispersia;
 abaterea medie pătratică, cunoscută îndeosebi sub denumirea de abatere
standard;
 coeficientul de variaţie sau de omogenitate.
Aprecierea sintetică a variației în jurul celorlalte statistici ale tendinței
centrale (valoarea mediană sau valoarea / valorile modale) nu prezintă

175
interes ca urmare a potențialului scăzut de calcul în legătură cu celelalte
teme principale de descriere și analiză statistică1.

5.3. Abaterea medie absolută


Abaterea medie absolută este media aritmetică a abaterilor individuale
absolute faţă de media aritmetică:

Având în vedere faptul că suma abaterilor individuale pozitive este egală


cu suma abaterilor individuale negative, abaterea medie absolută se mai
poate obţine cu ajutorul relaţiilor:

Pentru o distribuţie statistică de frecvenţe, abaterea medie absolută se


poate calcula cu ajutorul relaţiei:

unde:
(|a|) reprezintă abaterea medie absolută;
ai = abateri individuale faţă de media aritmetică;
ni = frecvenţele absolute de manifestare a variantelor care definesc
variabila statistică;
N = volumul colectivităţii statistice studiate;
ri = frecvenţele relative de manifestare a variantelor care definesc variabila
statistică.
Pentru distribuţiile statistice după variabile continue, definite pe intervale,
în determinarea abaterii medii absolute se iau în considerare, convenţional,
ca valori reprezentative ale intervalelor, centrele acestora (ci):

1
De pildă, nu este disponibilă, în aceste cazuri, o relația de adunare a varianțelor, așa cum se întâmplă în
cazul variației sintetice în jurul mediei aritmetice (a se vedea paragrafele 6.5 și 8.6).

176
Este posibil ca în anumite situaţii să prezinte interes şi calculul abaterii
medii absolute faţă de mediană:

În tabelul 5.6 sunt calculate, pentru exemplificare, abaterile medii absolute


ale notelor acordate de către 5 experţi pentru calitatea a două produse.

5.4. Varianţa sau dispersia


Calculul varianţei
Varianţa sau dispersia este o statistică sintetică de variaţie în jurul mediei
aritmetice, a cărei utilitate se extinde în domeniul statisticii inferenţiale.
Varianţa este media aritmetică a pătratelor abaterilor valorilor individuale
faţă de media lor aritmetică. Ea se notează cu , iar relaţiile de calcul ale
ei sunt prezentate în tabelul 5.2:

Tabelul 5.2
pentru şiruri de valori
pentru distribuţii statistice de frecvenţe
(date simple, negrupate)

177
unde:
(X) varianţa sau dispersia statistică;
ai = abaterile individuale faţă de media aritmetică;
ni = frecvenţele absolute de manifestare a variantelor care definesc
variabila statistică;
N = volumul colectivităţii statistice studiate;
ri = frecvenţele relative de manifestare a variantelor care definesc
variabila statistică.

Proprietăţi ale varianţei


Cele mai importante proprietăţi ale varianţei sunt:
 pentru un şir de valori egale, varianţa este nulă;
 pentru orice variabilă X, varianţa este egală cu diferenţa dintre media
aritmetică a pătratelor valorilor înregistrate şi pătratul mediei aritmetice
a aceloraşi valori (media pătratelor minus pătratul mediei):

 dacă se adună sau se scade o constantă (c) la toate valorile înregistrate,


varianţa nu se modifică. Această proprietate este o consecinţă a faptului
că adunarea sau scăderea unei constante la toate valorile înregistrate
este echivalentă cu modificarea simultană şi în aceeaşi măsură atât a
valorilor înregistrate, cât şi a mediei acestora, ceea ce face ca abaterile

178
individuale ale valorilor faţă de media aritmetică să rămână
neschimbate (figura 5.4);
 dacă toate valorile înregistrate se multiplică sau se împart cu o
constantă (c), atunci varianţa se multiplică sau se împarte cu pătratul
acelei constante (figura 5.4). Se întâmplă aşa deoarece multiplicarea
sau împărţirea cu o constantă a valorilor înregistrate este însoţită de
multiplicarea sau împărţirea cu aceeaşi constantă a mediei lor
aritmetice, ceea ce face ca abaterile individuale ale valorilor faţă de
media aritmetică să se multiplice sau să se împartă şi ele cu aceeaşi
constantă:

X1 = X – c X X2 = X + c

X X1 = X · c

Figura 5.4

Pentru exemplificare, să considerăm două colectivităţi statistice mici,


studiate după o variabilă pentru care s-au înregistrat următoarele valori
individuale:
A: 7, 8, 9, 10, 11, 12, 13

B: 1, 4, 7, 10, 13, 16, 19

179
Media aritmetică la nivelul ambelor colectivităţi este 10.
Valorile individuale ale celor două populaţii sunt reprezentate pe axe
orizontale, în figura 5.5. Aşa cum se observă în această figură, valorile
înregistrate la nivelul colectivităţii B sunt mult mai dispersate faţă de
media lor aritmetică decât valorile înregistrate pentru colectivitatea A.
O primă măsură a variaţiei faţă de medie o obţinem determinând
abaterile individuale faţă de media aritmetică, reprezentate în figura 5.5
prin linii cu săgeţi.
Varianţele pentru cele două colectivităţi sunt:

Deoarece abaterile individuale înregistrate la nivelul colectivităţii B


sunt de 3 ori mai mari decât abaterile individuale înregistrate la nivelul
colectivităţii A, varianţa înregistrată la nivelul colectivităţii B este de
32 = 9 ori mai mare decât varianţa înregistrată la nivelul colectivităţii
A;

colectivitatea A μ

colectivitatea B μ

Figura 5.5
180
 pentru două constante a şi b, se verifică următoarea relaţie de calcul a
varianţei:

Iată demonstraţia:

În tabelul 5.3 este exemplificată această proprietate la nivelul unui şir


de valori, pentru a = 100 şi b = 5.

Tabel 5.3
X X-a (X-a)/b [(X-a)/b]2
125 25 5,0 25,00
78 -22 -4,4 19,36
99 -1 -0,2 0,04
113 13 2,6 6,76
101 1 0,2 0,04
136 36 7,2 51,84
80 -20 -4,0 16,00
95 -5 -1,0 1,00
127 27 5,4 29,16
Medie 106 6 1,2 16,58

181
 dacă toate frecvenţele absolute ale unei distribuţii statistice de
frecvenţe se multiplică sau se împart cu o constantă (c), atunci varianţa
nu se modifică:

 pentru distribuţiile statistice de frecvenţe după variabile definite pe


intervale, ca urmare a faptului că în calcul se folosesc centrele de
interval, varianţa calculată este una aproximativă şi nu exactă; de
asemenea, cu cât intervalele sunt mai largi cu atât varianţa este mai
puţin semnificativă;
 pentru distribuţiile statistice după variabile de tipul DA/NU, pentru
calculul varianţei se foloseşte relaţia:

unde p reprezintă ponderea înregistrărilor variantei de tipul „DA”;


 varianţa, fiind şi ea o medie aritmetică (media aritmetică a pătratelor
abaterilor individuale ale valorilor de la media lor aritmetică), este
sensibilă la valorile aberante întrucât abaterile individuale ale acestor
valori vor fi valori aberante în cadrul mulţimii de abateri individuale;
 varianţa nu poate fi folosită decât la comparaţii privind variaţia
statistică înregistrată la nivelul unor colectivităţi de dimensiuni egale şi
studiate după aceeaşi variabilă;
 varianţa este utilă în determinarea mai multor statistici necesare în
cadrul inferenţierii statistice;
 pentru o distribuţie bivariată (distribuţie statistică realizată simultan
după două variabile), se poate verifica relația de adunare a varianţelor:
varianţa la nivelul întregii distribuţii este egală cu suma dintre varianţa
mediilor aritmetice parţiale şi media aritmetică a varianţelor parţiale
(varianţa mediilor plus media varianţelor). Pentru înţelegerea acestei
proprietăţi importante, este util exemplul prezentat în paragraful care
urmează.

5.5. Relaţia de adunare a varianţelor pentru o distribuție bivariată


Să considerăm o colectivitate formată din 34 de studenţi pentru care s-a
obţinut distribuţia statistică bivariată din tabelul 5.4.

182
În urma analizei acestui tabel cu dublă intrare se poate observa că
frecvenţele din zona haşurată a tabelului sunt frecvenţe de manifestare
simultană a două variabile: X (participarea la cursurile disciplinei
„statistică”) Y (nota obţinută la examenul susţinut la aceeaşi disciplină).
De exemplu, perechea de variante xi = 9 şi yj = 7 se înregistrează de 5 ori,
adică valoarea frecvenţei din tabel aflată la intersecţia coloanei care
corespunde variantei xi = 9 cu rândul care corespunde variantei yj = 7.
Aceasta înseamnă că sunt 5 studenţi care au participat la 9 cursuri şi au
obţinut nota 7.
Să verificăm relaţiei de adunare a varianţelor pentru variabila Y
condiţionată sau dependentă de variabila X:

unde:
2 (Y) reprezintă varianţa înregistrată la nivelul variabilei Y;
(Y/X) = mediile aritmetice condiţionate (sau parţiale) înregistrate pentru
variabila Y la nivelul subcolectivităţilor corespunzătoare variantelor care
definesc variabila X;
2(Y/X) = varianţele condiţionate (sau parţiale) înregistrate pentru
variabila Y la nivelul subcolectivităţilor corespunzătoare variantelor care
definesc variabila X.

Tabelul 5.4
X Frecvenţe
7 8 9 10 11 marginale
Y (parţiale)
5 3 2 0 0 0 5
6 1 4 2 1 0 8
7 0 2 5 4 1 12
8 0 0 3 4 2 9
Frecvenţe
marginale 4 8 10 9 3 34
(parţiale)

183
Pentru verificarea relaţiei de adunare a varianţelor este utilă dezvoltarea
tabelului 5.4 prin adăugarea unor rânduri pentru calculele intermediare
necesare. Se obţine, astfel, tabelul 5.5:
Conform rezultatelor din tabelul 5.5, media aritmetică şi varianţa la nivelul
variabilei Y sunt:

Studenţii au obţinut o notă medie de 6,7353, cu o varianţă în jurul


acesteia de 1,0182.

Tabelul 5.5
X
7 8 9 10 11 ni
Y
5 3 2 0 0 0 5 25 125
6 1 4 2 1 0 8 48 288
7 0 2 5 4 1 12 84 588
8 0 0 3 4 2 9 72 576

nj 4 8 10 9 3 34

21 48 71 66 23

Medii
condiţionate
sau parţiale, 5,25 6,00 7,10 7,33 7,67
(Y|X)
Varianţe
condiţionate,
0,19 0,50 0,49 0,44 0,22

 (Y|X)

184
Mediile aritmetice condiţionate (sau parţiale) înregistrate pentru variabila
Y la nivelul subcolectivităţilor corespunzătoare variantelor care definesc
variabila X se obţin pe baza relaţiei:

De exemplu, cei 4 studenţi care au participat doar la 7 cursuri au obţinut


în medie o notă de 5,25. Această valoare este media a 3 note de 5 şi a unei
singure note de 6, aşa cum se vede pe coloana frecvenţelor asociate
notelor atunci când variabila participării la cursuri ( X) înregistrează
varianta „7 cursuri”):

Se poate observa creşterea acestor medii atunci când creşte variabila


participării la cursuri, ceea ce indică deja o legătură statistică directă sau
pozitivă între cele două variabile. Variaţia acestor medii se manifestă
simultan cu variaţia participării la cursuri, sugerând existenţa unei legături
statistice între cele două variabile. O măsură a variaţiei mediilor
condiţionate este varianţa lor, care „explică” variaţia notelor în funcţie de
participarea la cursuri, motiv pentru care se numeşte varianţă explicată:

În aceste calcule s-a folosit proprietatea mediei aritmetice potrivit căreia


media mediilor parţiale este egală cu media generală:

Varianţele condiţionate înregistrate pentru variabila Y la nivelul


subcolectivităţilor corespunzătoare variantelor care definesc variabila X se
obţin pe baza relaţiei:

De exemplu, varianţa notelor pentru studenţii care au participat la 7


cursuri este:
185
Această varianţă este o măsură a variaţiei notelor care nu poate fi în
legătură cu participarea la cursuri, deoarece aceasta este aceeaşi (egală aici
cu 7 cursuri). Din acest motiv, media varianţelor condiţionate, echivalentă
cu o varianţă condiţionată medie, se numeşte şi varianţă neexplicată. Ea
se determină ca o medie ponderată, ponderile fiind frecvenţele marginale
asociate variantelor care definesc variabila independentă (denumită şi
variabilă explicativă şi notată cu X).
În exemplul nostru, variabila explicativă este variabila participării la
cursuri, Aceasta implică faptul că varianţa explicată este varianţa mediilor
notelor manifestată atunci când variază participarea la cursuri (de la 7 la
11 participări), în timp ce varianţa neexplicată este varianţa medie a
notelor constatată în situaţiile în care participarea la cursuri nu variază.
Manifestarea unei astfel de variaţii a notelor nu poate fi pusă în legătură cu
participarea la cursuri, ci cu variabile care descriu acţiunea altor factori,
cum ar fi, de pildă: pregătirea individuală a studenţilor, apetenţa acestora
spre disicplina în cauză, inteligenţa lor cognitivă, inteligenţa lor
emoţională etc.

Coeficientul de determinare evidențiat de gruparea în funcție de


variabila independentă
Raportul dintre varianța explicată și varianța totală a variabilei dependente
din cadrul relației de adunare a varianțelor se numește coeficient de
determinare evidențiat de gruparea în funcție de variabila independentă:

Acest coeficient poate înregistra valori între 0 și 1. Cu cât valoarea sa se


apropie mai mult de 1, cu atât crește gradul în care variația variabilei
dependente este determinată de variația variabilei independente.

Analiza de varianţă (ANOVA) – metodă disponibilă pentru verificarea


semnificaţiei factorului/factorilor principal(i) de grupare
O aplicaţie foarte importantă care decurge din relaţia de adunare a
varianţelor o constituie analiza de varianţă (ANOVA = ANalysis Of

186
VArinace). ANOVA, denumită şi analiză dispersională constă în
determinarea gradului în care valorile reale ale unei variabile statistice se
abat de la valorile teoretice, calculate ca statistici medii sau pe baza
ecuaţiilor de regresie statistică.
Ceea ce face foarte utilă ANOVA este în legătură cu studirea preliminară a
legăturii statistice dintre două sau mai multe variabile statistice de grupare
a colectivităţii statistice studiate, constituindu-se astfel şi ca metodă de
verificare a reprezentativităţii unui eşantion statistic, etapă preliminară
deosebit de importantă pentru inferenţierea statistică. Acesta este motivul
pentru care ANOVA este abordată în detaliu cadrul temelor specifice
statisticii inferenţiale.

5.6. Abaterea medie pătratică sau abaterea standard


Abaterea medie pătratică sau abaterea standard este media pătratică a
abaterilor individuale pe care le înregistrează valorile statistice față de
media lor aritmetică.
Abaterea standard este totodată rădăcina pătrată a varianţei, adică a mediei
aritmetice a pătratelor abaterilor individuale:

Pentru exemplificare, în tabelul 5.6 sunt calculate alături de abaterile


medii absolute şi abaterile standard ale notelor acordate de către 5 experţi
pentru calitatea a două produse.
Se poate observa că acestea din urmă, fiind medii pătratice, sunt mai mari
decât cele dintâi, care sunt nişte medii aritmetice.

Proprietăţi ale abaterii standard


Principalele proprietăţi ale abaterii standard sunt:
 Abaterea standard se exprimă în unitatea de măsură în care se exprimă
şi valorile variabilei studiate, motiv pentru care ea nu poate fi folosită
pentru comparaţia variaţiilor înregistrate pentru colectivităţi statistice
studiate după variabile exprimate în unităţi de măsură diferite. De
asemenea, nu se pot compara, din punctul de vedere al abaterii
standard, două colectivităţi ale căror valori au ordine de mărime
diferite, rezultatul comparaţiei fiind unul deformat. Statistica cu
ajutorul căreia se pot înlătura aceste neajunsuri este coeficientul de

187
variaţie sau omogenitate, obţinut prin raportarea abaterii standard la
media aritmetică;

Tabelul 5.6

Produsul Note

4 0 0
3 -1 1
5 +1 1
A 4 4 0 4/7 = 0,57 0 4/7 = 0,57 0,756
5 +1 1
4 0 0
3 -1 1
2 -2 4
4 0 0
6 +2 4
B 4 4 0 6/7 = 0,86 0 10/7 = 1,43 1,195
4 0 0
3 -1 1
5 +1 1

 Abaterea medie pătratică este mai mare sau egală faţă de abaterea
medie absolută. Această proprietate, verificată deja pentru datele din
tabelul 5.6, rezultă din relaţia de mărime dintre media aritmetică şi cea
pătratică (a se vedea capitolul 3).
Pentru o distribuție statistică normală, între abaterea medie absolută și
abaterea medie pătratică se poate verifica existența următoarelor
rapoarte de mărime:

unde X este o variabilă statistică normală;


188
 Abaterea standard se foloseşte în calculele de corelaţie şi regresie
statistică, precum şi în inferenţierea statistică (la estimarea erorilor de
sondaj, la testarea semnificaţiei anumitor statistici etc.);
 Şi în cazul abaterii medii pătratice se păstrează neajunsul sensibilităţii
la valori aberante;
 Abaterea standard se foloseşte şi pentru alcătuirea de intervale
semnificative din punct de vedere statistic la nivelul colectivităţii
statistice studiate. Aceste intervale sunt construite în jurul mediei
aritmetice şi au o semnificaţie aparte în inferenţierea statistică.
Principalele asemenea intervale sunt: (– ; + ), (– 2 +
2şi (– 3 + 3.

5.7. Coeficientul de variaţie


Coeficientul de variaţie, denumit și coeficient de omogenitate, este
statistica propusă de Karl Pearson pentru a răspunde necesităţii de
comparaţie a două sau mai multe colectivităţi din punctul de vedere al
variaţiei statistice.
Coeficientul de variaţie este expresia relativă a abaterii standard în raport
cu media aritmetică înregistrată la nivelul colectivităţii statistice studiate:

unde:
V(X) repezintă coeficientul de variaţie pentru colectivitatea statistică
studiată după variabila X;
(X) = abaterea standard în jurul mediei aritmetice, constatată pentru
colectivitatea statistică studiată după variabila X;
(X) = media aritmetică înregistrată pentru colectivitatea statistică
studiată după variabila X.
Pentru o mai mare expresivitate, coeficientul de variaţie se exprimă în
procente:

Să considerăm, pentru exemplificare, datele din tabelul 5.7, referitoare la


vânzările înregistrate într-o perioadă de 5 luni pentru două produse diferite
(A şi B),.

189
Mediile aritmetice ale vânzărilor înregistrate pentru cele două produse
sunt:
 pentru produsul A: A = 41/5 = 8,2 tone;
 pentru produsul B: B = 47/5 = 9,4 mil. RON.

Tabelul 5.7
Luna 1 2 3 4 5 Total
Produsul A - tone 4 8 13 10 6 41
Produsul B - mil. RON 7 8 17 10 5 47

Tabelul 5.8
Pro- X
du-
sul
2 4,2 17,64
6 0,2 0,04
48,8/5 = 9,76
A 11 31/5 = 6,2 4,8 13,2/5 = 2,64 23,04
= 3,1241
8 1,8 3,24
4 2,2 4,84
 31 13,2 48,8
7 2,4 5,76
8 1,4 1,96
85,2/5 = 17,04
B 17 47/5 = 9,4 7,6 16,4/5 = 3,28 57,76
= 4,1279
10 0,6 0,36
5 4,4 19,36
 47 16,4 85,2

Statisticile de variaţie ale vânzărilor înregistrate pentru cele două produse


sunt determinate în tabelul 5.8.
Deşi valorile statisticilor de variaţie sunt mai mari la nivelul produsului B,
nu putem afirma că variaţia vânzărilor din acest produs este mai mare
decât variaţia vânzărilor din produsul A, deoarece unităţile de măsură ale

190
acestora sunt diferite (tone, pentru produsul A; milioane RON, pentru
produsul B). În calculul coeficienţilor de variaţie se anulează diferitele
unităţi de măsură, valorile procentuale obţinute fiind de această dată unele
comparabile:
 pentru produsul A: V(produs A)% = (3,1241/6,2) · 100 = 50,39%;
 pentru produsul B: V(produs B)% = (4,1279/9,4) · 100 = 43,91%.
Se poate observa că variaţia cea mai mare se înregistrează pentru vânzările
produsului A, în ciuda faptului că abaterea medie absolută, varianţa şi
abaterea standard au toate valori mai mari pentru vânzările produsului B.
Coeficientul de variație este denumit și coeficient de omogenitate, întrucât
cu ajutorul lui se poate aprecia cât de uniformă sau nediferențiată este
colectivitatea statistică.
Importanța gradului de omogenitate (sau eterogenitate) decurge din faptul
că ea determină mai departe gradul de reprezentativitate a mediei
aritmetice la nivelul colectivității considerate.
În practica fiecarui domeniu de cercetare se pot stabili reguli specifice de
interpretare a gradului de omogenitate-eterogenitate în funcție de valorile
posibile ale coeficientului de variație.
De exemplu, în majoritatea domeniilor legate de ştiinţele vieţii se
consideră că2:
 o valoare mai mică de 10% a coeficientului de variație atestă faptul că
avem de-a face cu o colectivitate statistică omogenă, media aritmetică
putând fi asumată ca fiind una foarte reprezentativă la nivelul acesteia;
 valori între 10% și 20% ale coeficientului de variație sunt
caracteristice pentru colectivități cu un grad moderat sau chiar slab de
omogenitate; diferențe de interpretare pot fi determinate de tipul
variabilei considerate (de pildă, se apreciază că în ceea ce privește
înălţimea oamenilor, o colectivitate nu poate fi considerată omogenă
decât pentru un coeficient de variație de cel mult 10%, în schimb
pentru variabila greutății corporale omogenitatea este asigurată și
pentru valori cuprinse între 10% și 20% ale colectivității);
 un coeficient de variație cuprins între 20%–30% indică o populaţie
mai degrabă eterogenă;

2
Liviu DRAGOMIRESCU. și J. Wanzer DRANE. Biostatisticã pentru începãtori. Editura Credis,
București, 2009, vol I: Biostatisticã descriptivã. Ediția a 6-a revãzutã, p. 70. Cartea este disponibilă
online la adresa:
https://www.researchgate.net/profile/Liviu_Dragomirescu/publication/313029401_Biostatistica_pentru_i
ncepatori_Vol_I_Biostatistica_descriptiva_Editia_6_revazuta/links/588d6b8f45851567c93e1e55/Biostati
stica-pentru-incepatori-Vol-I-Biostatistica-descriptiva-Editia-6-revazuta.pdf

191
 o valoare mai mare de 30% a coeficientului de variație indică un grad
mare de eterogenitate pentru colectivitatea supusă cercetării statistice,
media aritmetică neputând fi considerată reprezentativă pentru aceasta.
Pentru analizele economice, interpretarea coeficientului de variație este
următoarea3:
 pentru valori ale coeficientul mai mici de 17%, se poate considera că
media aritmetică este foarte reprezentativă pentru colectivitatea
studiată, aceasta fiind una caracterizată de omogenitate;
 valori ale coeficientului cuprinse între 17% şi 35% indică o
omogenitate redusă și, implicit, o medie aritmetică moderat
reprezentativă;
 valori ale coeficientului cuprinse între 35% şi 50% sunt înregistrate
pentru colectivități mai degrabă eterogene, media aritmetică fiind una
slab reprezentativă (abaterile individuale faţă de media aritmetică sunt
mari, ceea ce înseamnă că media aritmetică este deplasată faţă de
valorile înregistrate);
 dacă se înregistrează valori mai mari de 50% ale coeficientului de
variaţie, colectivitatea este una eterogenă, iar media aritmetică este
nereprezentativă. În astfel de situații, utilizarea mediei aritmetice ca şi
statistică de tendinţă centrală este nejustificată, întrucât ea este prea
diferită (deplasată) faţă de majoritatea valorilor înregistrate.

5.8. Alegerea statisticilor de variaţie


Alegerea statisticilor de variaţie trebuie să se facă în funcţie de tipul de
variabilă după care se realizează cercetarea statistică:
 dacă variabila statistică este una nominală (sau calitativă), analiza
variaţiei statistice în jurul tendinţei centrale nu are sens:
 dacă variabila este una de ordine (de exemplu calitatea având ca şi
variante: calitatea I, calitatea II, calitatea III etc.) variaţia statistică în
jurul tendinţei centrale se poate descrie cu ajutorul intervalelor
intercuantilice: Q3 – Q1 (intervalul intercuartilic); Q9 – Q1 (intervalul
interdecilic); Q99 – Q1 (intervalul intercentilic) etc. Dintre acestea, mai
important este intervalul intercuartilic, întrucât în cuprinsul acestui
interval se găsesc cele mai centrale valori, într-un pondere de cel puţin
50% din volumul colectivităţii statistice, aceste valori fiind cele mai
reprezentative pentru tendinţa centrală înregistrată;

3
Elisabeta JABA. Statistica. Ediţia a II-a, Editura Economică, Bucureşti, 2000, pp. 153-156.

192
 dacă variabila este una cantitativă, variaţia statistică în jurul tendinţei
centrale se poate descrie cu ajutorul abaterii medii absolute, al
varianţei, al abaterii standard sau al coeficientului de variaţie, în funcţie
de scopul analizei;

5.9. Momentele centrate


Media aritmetică şi varianţa sunt cazuri particulare de momente statistice
ale unei colectivităţi statistice.
Prin momente statistice de ordinul k se înţeleg valorile determinate cu
ajutorul relaţiei generale:

unde;
X reprezintă variabila statistică în funcţie de care este studiată
colectivitatea statistică;
c = constantă;
N = volumul colectivităţii statistice.
Atunci când constanta c este egală cu media aritmetică a valorilor
înregistrate de variabila X, momentele statistice se numesc momente
centrate.
Pentru valori simple, negrupate, momentele centrate se pot determina cu
ajutorul relaţiei:

unde:
k (X) reprezintă momentul centrat de ordinul k;
ai = abaterile individuale ale valorilor de la media aritmetică a
colectivităţii.
În cazul unei distribuţii statistice de frecvenţe (valori grupate), momentele
centrate se pot determina cu ajutorul relaţiilor:

193
unde:
ni sunt frecvenţele absolute de manifestare a variantelor care descriu
variabila statistică;
ri = frecvenţele relative cu care se înregistrează variantele care descriu
variabila statistică.
Se poate observa că momentul de ordinul 1 cu c = 0 se identifică cu media
aritmetică, iar momentul centrat de ordinul 2 este echivalent cu varianţa
statistică.
Momentele centrate de ordinul 3 şi 4 sunt, aşa cum se va arăta în capitolul
7, utile în caracterizarea formei (asimetrie şi kurtosis) disitribuţiilor
statistice unimodale.

5.10. Covarianţa
Atunci când se doreşte descrierea legăturii statistice dintre două variabile,
se dovedeşte utilă măsurarea covariaţiei acestora. O primă statistică utilă
pentru măsurarea covariaţiei este covarianţa, care poate fi definită ca
varianţa simultană a două variabile.
Pentru valori simple, negrupate, covarianţa se poate determina cu ajutorul
relaţiei:

unde:
cov (X, Y) reprezintă covarianţa înregistrată pentru perechea de variabile
(X, Y);
= abaterile individuale de la media aritmetică pentru valorile care
definesc variabila X;
= abaterile individuale de la media aritmetică pentru valorile care
definesc variabila Y.

194
Pentru valori grupate în distribuţii statistice de frecvenţe, covarianţa se
poate determina cu ajutorul relaţiilor:

unde:
ni sunt frecvenţele absolute de manifestare a variantelor care descriu
variabila statistică;
ri = frecvenţele relative cu care se înregistrează variantele care descriu
variabila statistică.
Se poate observa că în cazul a două variabile identice, covarianţa devine
echivalentă cu varianţa statistică:

Proprietăţi ale covarianţei


Principalele proprietăți ale covarianței, utile în interpretarea valorilor
obținute pentru această statistică, sunt următoarele:
 Covarianţa poate înregistra atât valori pozitive, cât şi valori negative.
Ea este pozitivă atunci când predomină tendinţa de variaţie în acelaşi
sens pentru cele două variabile, ceea ce face ca suma produselor
abaterilor lor individuale să fie pozitivă.
Covarianţa este negativă atunci când predomină tendinţa de variaţie în
sensuri opuse pentru cele două variabile, ceea ce face ca suma
produselor abaterilor lor individuale să fie negativă.
În tabelele 5.9-5.10 este detaliat calculul abaterilor individuale pentru
valorile înregistrate la nivelul a două perechi de variabile între care se
manifestă legături statistice liniare. Se poate observa faptul că în timp
ce produsele dintre abaterile înregistrate pentru valorile variabilelor X1
și Y1 sunt în marea lor parte pozitive, produsele dintre abaterile
înregistrate pentru valorile variabilelor X2 și Y2 sunt preponderent
negative. În primul caz este vorba despre o legatură pozitivă între cele
două variabile, reflectată și prin semnul pozitiv al mediei acestor
produse de abateri individuale, adică al covarianței (egală cu 3,52). În
cel de-al doilea caz, preponderența produselor negative dintre abateri
determină o covarianță negativă (egală cu -3,74), care reflectă
existența unei legături negative între cele două variabile.

195
Tabelul 5.9

Abateri Abateri
Valori ale Valori ale Produse
Nr. individuale individuale
variabilei variabilei de
crt. ale valorilor ale valorilor
X1 Y1 abateri
lui X1 lui Y1

1 5 12 -0,2 -1,4 0,28


2 7 15 1,8 1,6 2,88
3 4 10 -1,2 -3,4 4,08
4 6 14 0,8 0,6 0,48
5 8 18 2,8 4,6 12,88
6 6 17 0,8 3,6 2,88
7 5 15 -0,2 1,6 -0,32
8 3 10 -2,2 -3,4 7,48
9 4 11 -1,2 -2,4 2,88
10 4 12 -1,2 -1,4 1,68
Total 52 134 0,0 0,0 35,20
 5,2 13,4 3,52

Tabelul 5.10

Abateri Abateri
Valori ale Valori ale Produse
Nr. individuale individuale
variabilei variabilei de
crt. ale valorilor ale valorilor
X1 Y1 abateri
lui X1 lui Y1

1 5 12 -0,2 -1,7 0,34


2 7 10 1,8 -3,7 -6,66
3 4 15 -1,2 1,3 -1,56
4 6 11 0,8 -2,7 -2,16
5 8 9 2,8 -4,7 -13,16
6 6 14 0,8 0,3 0,24
7 5 15 -0,2 1,3 -0,26
8 3 16 -2,2 2,3 -5,06
9 4 17 -1,2 3,3 -3,96
10 4 18 -1,2 4,3 -5,16
Total 52 137 0,0 0,0 -37,40
 5,2 13,7 -3,74

196
Figura 5.6 Covarianță pozitivă

Figura 5.7 Covarianță negativă

În figurile 5.6-5.7 sunt reprezentate corelogramele corespunzătoare


celor două cazuri, împreună cu punctele care au ca și coordonate
mediile celor două perechi de variabile considerate (față de aceste
puncte centrale sunt înregistrate abaterile individuale ale punctelor care
compun cele două corelograme).
În primul caz, orientarea norului de puncte pe directția stânga-jos –
dreapta-sus face ca perechile de abateri față de medii să înregistreze de
regulă aceleași semne, ceea ce echivalează cu produse de abateri
preponderent pozitive.
În cel de-al doilea caz, orientarea norului de puncte pe directția stânga-
sus – dreapta-jos face ca perechile de abateri față de medii să
înregistreze de regulă semne opuse, ceea ce echivalează cu produse de
abateri preponderent negative;

197
 Covarianţa pentru o variabilă X şi o constantă (c) este nulă. Explicaţia
acestei proprietăţi constă în faptul că pentru o constantă toate abaterile
individuale sunt egale cu 0:

 Covarianţa este comutativă:

unde:
X, Y sunt două variabile statistice;
= abaterile individuale de la media aritmetică pentru valorile care
definesc variabila X;
= abaterile individuale de la media aritmetică pentru valorile care
definesc variabila Y.
 Pentru două variabile X şi Y, covarianţa este egală cu diferenţa dintre
media aritmetică a produselor valorilor simultane ale variabilelor şi
produsul mediilor aritmetice ale valorilor simultane ale variabilelor
(„media produselor minus produsul mediilor”):

Deoarece prin folosirea acestei relaţii nu mai este necesar calculul


abaterilor individuale pentru cele două variabile, ea se poate dovedi
utilă pentru calculul mai rapid al covarianţei.
 Covarianţa este distributivă în raport cu adunarea sau scăderea
variabilelor statistice:

198
unde X, Y şi Z sunt variabile statistice;
 În urma adunării sau scăderii unei constante (c) la toate valorile
înregistrate de una sau de ambele variabile considerate (X şi Y),
covarianţa acestora nu se modifică. Această proprietate este o
consecinţă a două dintre proprietăţile anterioare:

 Multiplicarea sau împărţirea cu o constantă (c) a tuturor valorilor


înregistrate de una dintre variabilele considerate (de exemplu, X),
determină multiplicarea sau împărţirea cu aceeaşi constantă a
covarianţei:

 Covarianţa este mai mică sau egală decât produsul abaterilor standard
ale colectivităţilor studiate:

Această proprietate face ca raportul dintre covarianţă şi produsul


abaterilor standard înregistrate pentru cele două variabile considerate
(X şi Y) să înregistreze valori cuprinse pe intervalul [-1, +1]. Acest
raport este coeficientul de corelaţie statistică liniară, coeficient folosit
în măsurarea intensităţii corelaţiei statistice liniare dintre cele două
variabile. Coeficientul de corelaţie statistică liniară va fi detaliat în
capitolul 8, dedicat descrierii legăturilor statistice.

5.11. Analiza statistică a tendinței centrale cu ajutorului programului


Excel
În utilizarea programului Excel pentru determinarea statisticilor prezentate
pe parcursul capitolelor 3-5 sunt disponibile următoarele funcții:
- AVERAGE, pentru media aritmetică;
- GEOMEAN, pentru media geometrică;
- HARMEAN, pentru media armonică;
- MEDIAN, pentru valoarea mediană;

199
- MODE, pentru valoarea modală;
- QUARTILE, pentru cuartile;
- PERCENTILE, pentru cuantile;
- AVEDEV, pentru abaterea medie absolută;
- STDEVP, pentru abaterea medie pătratică;
- VARP, pentru varianță;
- COVAR, pentru covarianță.
În afara acestor funcții, programul mai oferă posibilitatea determinării
celor mai multe dintre statistici descriptive pe baza instrumentelor grupate
în submeniul „Data Analysis”, din cadrul meniului „Data”.
Folosind, de pildă, instrumentul „Descriptive Statistics”, pentru analiza
datelor din tabelul 5.9, se poate obține rezultatul ilustrat în figura 5.8.

Figura 5.8

Se regăsesc, în cadrul acestui output, pentru fiecare dintre cele două seturi
de date (aferente variabilei X, respectiv Y), următoarele statistici ale
tendinței centrale:
- media aritmetică („Mean”);
- valoarea mediană („Median”);

200
- valoarea minimă („Minimum”);
- valoarea maximă („Maximum”);
- valoarea modală („Mode”);
- abaterea standard corectată la nivel de eșantion („Standard Deviation”);
- varianța corectată la nivel de eșantion („Sample Variance”);
- amplitudinea (Range).

201
202
CONCENTRAREA ŞI
DIVERSIFICAREA
STATISTICĂ 6.

OBIECTIVELE CAPITOLULUI
În acest capitol vor fi prezentate statisticile disponibile pentru descrierea
concentrării şi diversificării statistice, în scopul:
 înţelegerii utilității cunoaşterii gradului de concentrare / diversificare
statistică;
 reţinerii celor cinci statistici – raportul de concentrare; energia informaţională
Onicescu; diferenţa Hirschman; coeficientul de concentrare Gini şi
coeficientul de concentrare Gini-Strück – disponibile pentru descrierea
concentrării şi diversificării în cazul variabilelor statistice cantitative sau
calitative;
 reţinerii celor patru statistici – abaterea medială-mediană absolută; abaterea
medială-mediană relativă, coeficientul Hall-Tideman şi indicele de
concentrare Gini – disponibile pentru descrierea concentrării şi diversificării
doar în cazul variabilelor statistice cantitative cu valori pozitive;
 reţinerii statisticilor disponibile pentru caracterizarea diversificării statistice.

203
204
Concentrarea şi diversificarea statistică
Informaţii statistice suplimentare privind variabilitatea înregistrată la
nivelul unei colectivităţi statistice în funcţie de criteriul de studiu
(variabila considerată) pot fi obţinute pe baza statisticilor care evidenţiază
gradul de concentrare / diversificare statistică.
Statisticile de concentrare şi diversificare sunt expresii ale gradului de
diferenţiere dintre datele statistice observate. La nivelul unei distribuţii
statistice, ele pot evidenţia inegalităţile manifestate în legătură cu
variabila statistică aleasă ca şi criteriu de studiu statistic al colectivităţii
observate.
Dintre nevoile la care răspund statisticile de concentrare şi diversificare
sunt de menţionat mai ales cele privind:
 caracterizarea structurii pieţelor, necesară în orientarea strategică a
companiilor;
 descrierea distribuţiei sarcinilor de management, în scopul coordonării
eficiente a activităţilor desfăşurate în cadrul unei organizaţii;
 evidenţierea inegalităţilor sociale prin prisma veniturilor obţinute,
necesară în definirea politicii sociale.
Studirea statistică a concentrării şi diversificării este posibilă atunci când
variabila statistică este definită fie ca o variabilă calitativă, fie ca o
variabilă cantitativă cu valori cumulabile.
Concentrarea poate fi descrisă numeric, prin intermediul diferitelor
statistici de concentrare, sau grafic, prin intermediul aşa-numitelor curbe
de concentrare statistică.

Descrierea numerică a concentrării statistice


Pentru descrierea numerică a concentrării sunt disponibile următoarele
statistici:
a). pentru variabile statistice cantitative sau calitative:
 raportul de concentrare;
 energia informaţională Onicescu;
 diferenţa Hirschman;
 coeficientul de concentrare Gini;
 coeficientul de concentrare Gini-Strück.
b). doar pentru variabile statistice cantitative cu valori cumulabile:
 abaterea medială-mediană absolută;

205
 abaterea medială-mediană relativă;
 coeficientul de concentrare Hall-Tideman.
 indicele de concentrare Gini.

6.1. Descrierea concentrării pentru variabile statistice cantitative sau


calitative
Pentru descrierea numerică a concentrării pentru variabile cantitative sau
calitative sunt disponibile următoarele statistici:
 raportul de concentrare;
 energia informaţională Onicescu;
 diferenţa Hirschman;
 coeficientul de concentrare Gini;
 coeficientul de concentrare Gini-Strück.

Raportul de concentrare
Folosit deseori în cercetările de marketing, raportul de concentrare (Ca)
exprimă ponderea deţinută de primele „a” (un număr stabilit ca relevant)
cele mai frecvente variante înregistrate de variabila calitativă în funcție de
care este studiată colectivitatea statistică:

unde:
Ca reprezintă raportul de concentrare pentru primele „a” variante în
ordinea descrescătoare a frecvenţelor relative înregistrate;
a = un număr stabilit ca relevant în funcţie de scopul cercetării statistice şi
de proprietăţile colectivităţii statistice studiate;
ri = frecvenţa relativă (exprimată procentual) a variantei i a variabilei după
care este studiată colectivitatea statistică;
ni = frecvenţa absolută a variantei i a variabilei statistice;
k = numărul de variante care definesc variabila statistică;
N = volumul colectivităţii supuse cercetării statistice.
206
Pentru exemplificare, să considerăm distribuţia statistică a notelor obţinute
de o grupă de 15 studenţi la un examen, conform tabelului 6.1. În acest
caz, raportul de concentrare C3 (a = 3) este:

Tabelul 6.1
ri
Nota obţinută Număr studenţi
(% din total)
4 1 6,67
5 2 13,33
6 1 6,67
7 5 33,33
9 3 20,00
10 3 20,00
Total 15

Rezultatul obţinut arată că cele 3 note înregistrate mai frecvent, adică 7, 9


şi 10, au fost obţinute de 73,33% din studenţii grupei studiate.

Energia informaţională Onicescu (Es)


Energia informaţională Onicescu este o statistică sintetică a
concentrării/diversificării în a cărei definire se porneşte de la considerentul
că întreaga colectivitate statistică supusă studiului formează un sistem, ale
cărui stări sunt definite de variantele înregistrate de variabila statistică.
Fiecărei stări (i) a sistemului îi corespunde o anumită pondere, echivalentă
cu frecvenţa statistică relativă înregistrată pentru varianta corespunzătoare
acelei stări (i → ri). Energia informaţională Onicescu este dată de suma
pătratelor ponderilor tuturor variantelor (i.e. a stărilor sistemului astfel
definit) care definesc variabila statistică considerată:

unde:
Es reprezintă energia informaţională Onicescu;
207
ri = frecvenţa statistică relativă înregistrată pentru varianta i (Σri = 1);
s = numărul de variante şi, în consecinţă, de stări ale sistemului.
De exemplu, pentru colectivitatea de studenţi distribuită statistic în funcţie
de variabila notelor obţinute la un examen (tabelul 6.1), energia
informaţională Onicescu este egală, conform rezultatelor determinate în
tabelul 6.2, cu 0,2178.

Tabelul 6.2
xi ni ri
4 1 0,0667 0,0044
5 2 0,1333 0,0178
6 1 0,0667 0,0044
7 5 0,3333 0,1111
9 3 0,2000 0,0400
10 3 0,2000 0,0400

 15 1,0000 0,2178

În literatura de specialitate, energia informaţională Onicescu este deseori


întâlnită sub numele de indicele Hirschman-Herfindahl, indice
determinat în legătură cu cotele jucătorilor care activează într-o anumită
piaţă.
Întrucât Σri = 1, valoarea maximă a energiei informaţionale Onicescu este
1. Valoarea minimă a energiei informaţionale Onicescu se obţine în cazul
unei echirepartiţii, adică în cazul unei distribuţii sau repartiţii statistice
pentru care toate frecvenţele relative sunt egale între ele şi egale, în
consecinţă, cu 1/s (s fiind numărul de variante şi, totodată, de stări ale
sistemului de tip Onicescu). Aceasta înseamnă că valoarea minimă a
energiei informaţionale Onicescu (care se obţine în cazul unei
echirepartiţii), este:

208
Aşadar, energia informaţională Onicescu ia valori cuprinse pe intervalul
[1/s, 1] (s fiind numărul de variante şi, în consecinţă, de stări ale
sistemului). Cu cât valoarea energiei informaţionale Onicescu este mai
apropiată de valoarea raportului 1/s, cu atât concentrarea statistică a
colectivităţii studiate este mai redusă. Cu cât valoarea energiei
informaţionale Onicescu este mai apropiată de 1, cu atât concentrarea
statistică a colectivităţii studiate este mai puternică.
În marketing, energia informaţională Onicescu este egală cu 1 în cazul
unui monopol (sistemul se manifestă permanent într-o singură stare sau,
altfel spus, variabila statistică înregistrează de fiecare dată doar una şi
aceeaşi variantă dintre toate cele posibile).
Trebuie precizat că pentru o colectivitate de studenţi distribuită statistic
după variabila notelor obţinute la un examen, valoarea minimă pe care o
poate înregistra energia informaţională Onicescu este egală cu 1/10 = 0,1,
întrucât notele obţinute de către studenţi pot varia de la 1 la 10. Astfel,
pentru colectivitatea de studenţi care au obţinut notele din tabelul 6.1,
sistemul de tip Onicescu este definit de distribuţia prezentată în tabelul
6.3:

Tabelul 6.3
Nota obţinută (xi) Frecvenţe absolute (ni)
1 0
2 0
3 0
4 1
5 2
6 1
7 5
8 0
9 3
10 3
Total 15

Energia informaţională Onicescu corectată


Pentru eliminarea inconvenientului variabilităţii valorii minime posibile
(1/s) în funcţie de numărul de variante sau de stări ale sistemului (s), s-a
definit şi o formă corectată a energiei informaţionale Onicescu, conform
relaţiei:

209
În forma corectată, energia informaţională Onicescu poate înregistra valori
cuprinse pe intervalul [0, 1]. Cu cât valoarea energiei informaţionale
Onicescu în forma corectată este mai apropiată de 0, cu atât concentrarea
statistică a colectivităţii studiate este mai redusă. Cu cât valoarea energiei
informaţionale Onicescu în forma corectată este mai apropiată de 1, cu atât
concentrarea statistică a colectivităţii studiate este mai puternică.
De exemplu, pentru colectivitatea distribuită statistic conform tabelului 6.1
energia informaţională Onicescu în forma corectată este:

Valoarea destul de apropiată de 0 a energiei informaţionale Onicescu în


forma corectată arată o concentrare slabă a colectivităţii statistice studiate
după variabila definită de notele obţinute.

Diferenţa Hirschman (ΔH)


Diferenţa Hirschman (ΔH) este diferenţa dintre valoarea efectivă a
indicelui Hirschman-Herfindahl (H) obţinută pentru o distribuţie statistică
şi valoarea teoretică (He) pe care acest indice ar fi avut-o dacă distribuţia
studiată ar fi fost una egalitară (echirepartiţie). Această valoare teoretică
He este valoarea minimă pe care indicele Hirschman-Herfindahl o poate
înregistra pentru o variabilă statistică definită de un număr k de variante.
Întrucât pentru un număr k de variante valoarea minimă a indicelui
Hirschman-Herfindahl (He) este egală cu 1/k, rezultă că diferenţa
Hirschman se poate determina cu ajutorul relaţiei:

De exemplu, pentru colectivitatea distribuită statistic conform tabelelor


6.1-6.2 diferenţa Hirschman este:

210
După cum se poate observa, diferenţa Hirschman este echivalentă cu
numărătorul raportului pe baza căruia se determină indicele Hirschman-
Herfindahl în forma corectată.

Coeficienții de concentrare Gini și Gini-Strück


Pentru cazul variabilelor statistice calitative, Corrado Gini a propus ca şi
măsură a concentrării coeficientul obţinut ca rădăcină pătrată a sumei
pătratelor ponderilor înregistrate de variantele variabilei statistice:

unde:
CG reprezintă coeficientul de concentrare Gini;
ri = frecvenţa relativă (ponderea) înregistrată pentru varianta i (Σri = 1);
k = numărul de variante pe care le înregistrează variabila statistică.
Întrucât Σri = 1, valoarea maximă a coeficientului de concentrare Gini
este 1. Valoarea minimă a coeficientului de concentrare Gini se obţine, ca
şi în cazul indicelui Hirschman-Herfindahl, în cazul unei echirepartiţii,
adică atunci când toate frecvenţele relative înregistrate de cele n variante
statistice sunt egale între ele şi egale, în consecinţă, cu 1/n. Aceasta
înseamnă că valoarea minimă a coeficientului de concentrare Gini,
obţinută în cazul unei echirepartiţii, este:

Prin urmare, coeficientul de concentrare Gini ia valori cuprinse pe


intervalul:

211
unde k este numărul de variante care definesc variabila statistică.
Coeficientul de concentrare Gini, la fel ca şi energia informaţională
Onicescu, prezintă dezavantajul variabilităţii valorii sale minime în funcţie
de numărul de variante înregistrate de variabila statistică.
Acest inconvenient a fost înlăturat prin elaborarea unei forme îmbunătățite
a coeficientului de concentrare Gini, propusă de către Strück. Sub această
formă, coeficientul poartă numele Gini-Strück și se determină cu relația:

După cum se poate observa, coeficientul Gini-Strück (CGS) prezintă,


asemenea formei corectate a energiei informaţionale Onicescu, avantajul
unei interpretări mai elegante în privința gradului de concentrare a unei
distribuții, dat fiind faptul că ea poate lua valori pe intervalul [0, 1].

Tabelul 6.4
Regiunea de Număr șomeri înregistrați la agenţiile Frecvențe
dezvoltare pentru ocuparea forţei de muncă relative
Nord-vest 41046 0.0941
Centru 50232 0.1151
Nord-est 77786 0.1783
Sud-est 68896 0.1579
Sud-Muntenia 79267 0.1817
București-Ilfov 23021 0.0528
Sud-vest 70352 0.1613
Oltenia
Vest 25642 0.0588
Total 436242 1.0000

Pentru exemplificare, să considerăm distribuția numărului de șomeri


înregistrați la agenţiile pentru ocuparea forţei de muncă de la nivelul celor

212
8 regiuni de dezvoltare ale României în anul 20151, prezentată în tabelul
6.4.
Calculele necesare pentru determinarea coeficientului Gini-Strück sunt
efectuate în tabelul 6.5. Pe baza acestora, rezultă că valoarea acestui
coeficient pentru distribuția considerată este:

Tabelul 6.5
Regiunea de Frecvențe
dezvoltare, relative,
i ri
Nord-vest 0.0941 0.0089

Centru 0.1151 0.0133

Nord-est 0.1783 0.0318

Sud-est 0.1579 0.0249

Sud-Muntenia 0.1817 0.0330

București-Ilfov 0.0528 0.0028

Sud-vest 0.1613 0.0260


Oltenia
Vest 0.0588 0.0035

Total 1.0000 0.1441

Valoarea de 0,1478 obținută pentru coeficientul Gini-Strück indică o


oarecare concentrare a distribuției analizate.

1
Institutul Naţional de Statistică. Repere economice şi sociale regionale: Statistică teritorială. 2017, p.
206. Document disponibil online la adresa:
http://www.insse.ro/cms/files/Publicatii_2017/82.Repere_economice_si_sociale_regionale_Statistica_teri
toriala/Repere_economice_si_sociale_regionale_Statistica_teritoriala_2017.pdf

213
6.2. Descrierea concentrării statistice pentru variabile cantitative cu
valori cumulabile
Abaterea medială-mediană absolută
În capitolul 4, dedicat statisticilor de poziţie, am arătat că valoarea medială
a pentru o colectivitate de date statistice cantitative este întotdeauna egală
sau mai mare decât valoarea mediană a acesteia:

Atunci când există, diferenţa valorică dintre valoarea medială şi cea


mediană a unei colectivităti de date statistice cantitative este rezultatul
inegalităţilor care o caracterizează.
Această diferenţă se numeşte abatere medială-mediană absolută şi este
statistica cea mai simplă care poate fi folosită pentru descrierea
concentrării statistice a unei variabile cantitative cu valori pozitive:

unde:
MM reprezintă abaterea medială-mediană absolută care caracterizează
colectivitatea statistică studiată;
Ml = valoarea medială a colectivităţii statistice studiate;
Me = valoarea mediană a colectivităţii statistice studiate.
O valoare mai mare a abaterii medială-mediană înseamnă o concentrare
statistică mai puternică.
Ca exemplu să considerăm din nou colectivitatea statistică a grupei de 15
studenţi, distribuită statistic în funcţie de variabila notelor obţinute la un
examen, conform tabelului 6.1. În cazul acestei distribuţii, rangul valorii
mediane este egal cu (15 + 1) / 2 = 8, ceea ce înseamnă că valoarea
mediană este egală cu 7 (pentru această valoare, frecvenţa absolută
cumulată depăşeşte pentru prima dată rangul medianei; 9 > 8, tabelul 6.6).
Pentru a calcula valoarea medială, este necesară, mai întâi, cumularea
valorilor ponderate absolute, adică a produselor dintre notele obţinute şi
frecvenţele absolute înregistrate, conform calculelor din tabelul 6.7.
Întrucât jumătate din suma totală a notelor este egală cu 112 / 2 = 56,
înseamnă că valoarea medială este egală cu 9, deoarece pentru această
valoare produsele x·n cumulate depăşesc pentru prima dată jumătate din
suma totală a notelor; 82 > 56.
Prin urmare, MM = 9 – 7 = 2, ceea ce evidenţiază existenţa unei oarecare
concentrări statistice a notelor pe care le-au obţinut cei 15 studenţi.
214
Tabelul 6.6
Punctaj Număr cumulat de
Număr studenţi
obţinut studenţi
4 1 1
5 2 3
6 1 4
7 5 9 > 8 = (15 + 1)/2
9 3 12
10 3 15
Total 15

Tabelul 6.7
Nota obţinută Frecvenţe absolute
(xi·ni) (xi·ni), cumulat
(xi) (ni)
4 1 4 4
5 2 10 14
6 1 6 20
7 5 35 55
9 3 27 82 > 56 = 112/2
10 3 30 112
Total 15

Abaterea medială-mediană relativă


Pentru realizarea de comparaţii între diferite colectivităţi statistice în ceea
ce priveşte gradul de concentrare statistică, este necesară exprimarea
abaterii medială-mediană în formă relativă, prin raportarea ei la
amplitudinea statistică. Prin această operaţie, rezultă o nouă statistică de
concentrare statistică: abaterea medială-mediană relativă (CC):

unde:
CC reprezintă coeficientul de concentrare statistică;
A = amplitudinea statistică;
xmax = valoarea maximă a colectivităţii statistice;
215
xmin = valoarea minimă a colectivităţii statistice.
Întrucât abaterea medială-mediană a unei colectivităţi statistice ia valori
cuprinse între zero şi valoarea amplitudinii statistice a acesteia, rezultă că
valorile pe care le poate înregistra coeficientul de concentrare statistică
sunt cuprinse pe intervalul [0, 1]. Apropierea de 0 indică o slabă
concentrare statistică, iar apropierea de 1 arată o concentrare statistică
puternică. O valoare de 1 a coeficientului de concentrare pune în evidenţă
concentrarea unităţilor statistice în jurul valorii minime.
Pentru distribuţia statistică din tabelul 6.1, coeficientul de concentrare
este:

Coeficientul de concentrare statistică se poate exprima şi procentual.


Pentru exemplul nostru, valoarea procentuală a coeficientului de
concentrare statistică este de 33%, care indică o concentrare statistică
moderată.

Coeficientul de concentrare Hall-Tideman

unde:
CHT reprezintă coeficientul de concetrare Hall-Tideman;
r = rangurile ocupate de valorile înregistrate în urma ordonării lor
descrescătoare;
Pr = ponderea valorii cu rangul „r” în suma totală a valorilor înregistrate;
această pondere este exprimată ca și coeficient.
Valorile pe care le poate înregistra acest indicator sunt cuprinse pe
intervalul [1/N; 1].
Astfel, în cazul unei concentrări maxime coeficientul Hall-Tideman ia
valoarea 1, întrucât într-o astfel de situație o singură valoare este diferită
de 0, ponderea ei în suma totală a valorilor înregistrate fiind egală cu 1.
Concentrarea minimă este realizată atunci când toate valorile înregistrate
sunt diferite de 0 și egale între ele, ceea ce înseamnă că și ponderile lor

216
sunt egale între ele, și totodată egale cu 1/N. Într-o astfel de situație,
coeficientul Hall-Tideman ia, prin urmare, valoarea 1/N:

Indicele de concentrare Gini


Această statistică sintetică, folosită pentru descrierea concentrării unei
colectivităţi statistice, a fost propusă în lucrarea „Variabilitate şi
mutabilitate”, publicată în anul 1912 de către italianul Corrado Gini, cu
ocazia studierii distribuţiei salariilor şi veniturilor populaţiei.
Indicele de concentrare Gini se defineşte în strânsă legătură cu curba
(liniară) de concentrare Lorenz-Gini, care se obţine prin unirea punctelor
care au ca şi coordonate valorile frecvenţelor relative cumulate (valorile
P) şi, respectiv, variantele ponderate2 relative cumulate (valorile Q), care
caracterizează colectivitatea statistică studiată.

Tabelul 6.8
Compania Vânzări (mil. euro)
A 5.0
B 4.4
C 7.5
D 6.7
E 6.3
F 8.8
G 8.2
H 5.0

2
Variantele ponderate cu frecvențele lor de manifestare se numesc și volume statistice.

217
Pentru ilustrarea pașilor necesari în construirea curbei de concentrare
Lorenz-Gini în cazul unui șir de valori să considerăm datele din tabelul
6.8, privitoare la vânzările înregistrate într-o anumită perioadă de către
cele 8 companii dintr-un anumit sector de activitate:
Primul pas pe care-l presupune construirea curbei de concentrare Lorenz-
Gini constă în ordonarea crescătoare a valorilor înregistrate. Pentru
exemplul nostru, acest lucru este realizat cu ajutorul tabelului 6.9.

Tabelul 6.9
Compania Vânzări (mil. euro)
B 4.4
A 5.0
H 5.0
E 6.3
D 6.7
C 7.5
G 8.2
F 8.8

Tabelul 6.10
Frecvențe Frecvențe Valori Volume Volume Valori
Variante
absolute relative P absolute relative Q
4.4 1 0.125 0.125 4.4 0.0848 0.0848
5.0 1 0.125 0.250 5.0 0.0963 0.1811
5.0 1 0.125 0.375 5.0 0.0963 0.2775
6.3 1 0.125 0.500 6.3 0.1214 0.3988
6.7 1 0.125 0.625 6.7 0.1291 0.5279
7.5 1 0.125 0.750 7.5 0.1445 0.6724
8.2 1 0.125 0.875 8.2 0.1580 0.8304
8.8 1 0.125 1.000 8.8 0.1696 1.0000
Total 8 1.000 51.9 1.0000

218
Al doilea pas de urmat îl constituie determinarea valorilor P şi Q
corespunzătoare variantelor (ordonate) pe care le înregistrează variabila
statistică (în exemplul nostru acestea sunt date de nivelurile valorice
înregistrate de variabila vânzărilor). Pentru realizarea acestei etape pentru
datele considerate a fost construit tabelul 6.10.
Pe baza calculelor realizate cu ajutorul tabelului 6.10, se poate reprezenta
mai departe curba de concentrare Lorenz-Gini, prin unirea grafică a
punctelor care au ca şi coordonate perechile de valori P-Q obținute, așa
cum se poate vedea în diagrama din figura 6.1.
La adresa http://shlegeris.com/gini este disponibilă o aplicație cu ajutorul
căreia se poate reprezenta curba de concentrare Lorenz-Gini, fiind
calculată totodată valoarea indicelui Gini pentru un șir de valori.
În figura 6.2 este redată, pentru exemplificare, curba Lorenz pentru datele
din tabelul 6.9.

Figura 6.1 Exemplu de curbă (liniară) de concentrare Lorenz-Gini

Se poate observa faptul că una dintre valorile vânzărilor înregistrate în


exemplul nostru are o dublă apariție. Este vorba despre valoarea de 5,0
milioane. Acest fapt face posibilă rearanjarea datelor conform tabelului
6.11.

219
Figura 6.2 Exemplu de curbă (liniară) de concentrare Lorenz-Gini
obținută cu ajutorul aplicației existente la adresa
http://shlegeris.com/gini

Tabelul 6.11
Frecvențe Frecvențe Valori Volume Volume Valori
Variante
absolute relative P absolute relative Q
4.4 1 0.125 0.125 4.4 0.0848 0.0848
5.0 2 0.250 0.375 10.0 0.1927 0.2775
6.3 1 0.125 0.500 6.3 0.1214 0.3988
6.7 1 0.125 0.625 6.7 0.1291 0.5279
7.5 1 0.125 0.750 7.5 0.1445 0.6724
8.2 1 0.125 0.875 8.2 0.1580 0.8304
8.8 1 0.125 1.000 8.8 0.1696 1.0000
Total 8 1.000 51.9 1.0000

Curba de concentrare Lorenz-Gini obținută pe baza calculelor realizate cu


ajutorul tabelului 6.11, este reprezentată în diagrama din figura 6.3. Este
de notat însă că ea este puțin diferită față de curba de concentrare Lorenz-
Gini reprezentată în diagrama din figura 6.1, în sensul că de această dată

220
ea este obținută prin unirea unui număr mai mic de puncte corespunzătoare
coordonatelor date de perechile de valori P-Q obținute.

Figura 6.3 Exemplu de curbă (liniară) de concentrare Lorenz-Gini

Să revenim acum la figura 6.1. În această figură este reprezentată curba de


concentrare Lorenz-Gini pentru distribuţia statistică din tabelul 6.1, în
urma determinării, cu ajutorul tabelului 6.12, a frecvenţelor relative
cumulate (valorile P) şi a valorilor ponderate relative cumulate (valorile
Q).

Tabelul 6.12
Valori
ni ponderate
xi ni cumulate Pi xi·ni (xi·ni) Qi
= Ni cumulate =
Vi
4 1 1 0,0667 4 4 0,0357
5 2 3 0,2000 10 14 0,1250
6 1 4 0,2667 6 20 0,1786
7 5 9 0,6000 35 55 0,4911
9 3 12 0,8000 27 82 0,7321
10 3 15 1,0000 30 112 1,0000
Total 15 112

221
Valorile P şi Q, pe baza cărora se poate determina indicele Gini în cazul
unei distribuţii de frecvenţe, sunt şi ele statistici descriptive importante, cu
ajutorul cărora se pot descrie aspecte interesante privind structura
colectivităţii statistice studiate, precum şi structura valorilor observate în
la nivelul unităţilor statistice componente ale acesteia. De exemplu,
valoarea Q pentru nota 6, egală cu 0,1786, indică faptul că 17,86% din
punctajul total al grupei de studenţi examinaţi (punctaj egal cu 112),
corespunde celor 26,67% studenţi care au obţinut note mai mici sau egale
cu 6.
În particular, valorile P şi Q sunt folosite în descrierea inegalităţii în
distribuţia veniturilor sau a bogăţiei.
De pildă, la mijlocul anului 2014, conform celui de-al 5-lea raport anual
„Credit Suisse Global Wealth Report”, făcut public în octombrie 2014,
87% din bogăţia lumii era deţinută de cei 10% cei mai bogaţi oameni ai
lumii, în timp ce 48,2% din bogăţia lumii era deţinută de doar cei 1% cei
mai bogaţi oameni ai lumii (!)3. De asemenea, conform aceluiaşi raport, în
3 ţări ale lumii (Hong Kong, Elveţia şi SUA) peste 70% din totalul
bogăţiei lor era deţinută de cei mai bogaţi 10% din cetăţenii acestora4.
Aceste cifre se obţin în urma determinării valorilor particulare P şi Q care
interesează. Astfel, de exemplu, în tabelul 6.13 sunt redate valorile P şi Q
pe baza cărora s-a obţinut informaţia potrivit căreia 87% din bogăţia lumii
era deţinută la mijlocul anului 2014 de cei 10% cei mai bogaţi oameni ai
lumii.

Tabelul 6.13
ri Pi (%) xiri /  xiri Qi (%)
Oameni săraci sau
0,90 90% 0,13 13%
bogaţi
Oameni foarte bogaţi 0,10 100% 0,87 100%

3
Cf.: Credit Suisse Global Wealth Report, octombrie 2014, pag. 11, https://publications.credit-
suisse.com/tasks/render/file/?fileID=60931FDE-A2D2-F568-B041B58C5EA591A4

4
Cf.: Credit Suisse Global Wealth Report, octombrie 2014, pag. 30, https://publications.credit-
suisse.com/tasks/render/file/?fileID=60931FDE-A2D2-F568-B041B58C5EA591A4

222
Unor asemenea valori P şi Q le corespunde, în mod obişnuit, o
concentrare statistică foarte mare a bogăţiei, reflectată sintetic printr-un
indice Gini cu o valoare mare (foarte probabil peste 0,40).

Din punct de vedere grafic, indicele de concentrare Gini se obţine ca


rezultat al raportării ariilor a două suprafeţe:
 la numărător: aria suprafeţei de concentrare (Sc), adică a suprafeţei
cuprinse între curba de concentrare Lorenz-Gini şi diagonala care
uneşte perechile de valori [0, 0] şi [1, 1] în cadrul pătratului Gini
(pătratul Gini este pătratul cu laturile corespunzătoare variaţiei totale a
variabilelor P şi Q – adică de la 0 la 1 pe abscisa şi pe ordonata de
reprezentare grafică – a se vedea figurile 6.4 și 6.5);
 la numitor: aria triunghiului dreptunghic de sub diagonala pătratului
Gini, adică jumătate din aria pătratului Gini. Aceasta corespunde
valorii maxime pe care o poate înregistra aria suprafeţei de
concentrare.
Întrucât pătratul Gini are întotdeauna latura egală cu 1, rezultă că indicele
de concentrare Gini este egal cu dublul ariei suprafeţei de concentrare:

Metoda grafică de determinare a indicelui de concentrare Gini constă în


reprezentarea cât mai exactă a suprafeţei de concentrare pe hârtie
milimetrică, în aşa fel încât să poată fi calculată cât mai exact aria acesteia.
Se poate stabili, în acest scop, ca latura pătratului Gini să fie egală cu 100
de milimetri.
Indicele de concentrare Gini poate înregistra valori cuprinse în intervalul
[0, 1]. Cu cât valoarea coeficientului diferenţei medii Gini este mai
aproapiată de 0, cu atât concentrarea statistică este mai slabă. Cu cât
valoarea indicelui de concentrare Gini este mai apropiată de 1, cu atât
concentrarea statistică este mai puternică. Valorile indicelui Gini pot fi
exprimate şi în procente, acestea fiind cuprinse în intervalul [0, 100%].

223
Figura 6.4 Curba (liniară) de concentrare Lorenz-Gini

Figura 6.5 Determinarea grafică a indicelui de concentrare Gini

În afara metodei grafice, pentru determinarea indicelui de concentrare Gini


mai sunt disponibile următoarele trei metode:
 metoda trapezelor de sub curba Lorenz-Gini;
 metoda trapezelor de concentrare;

224
 metoda determinării indicelui de concentrare Gini ca expresie relativă a
diferenţei medii Gini.

Metoda trapezelor de sub curba Lorenz-Gini pentru determinarea


indicelui de concentrare Gini
Această metodă constă în calcularea ariei suprafeţei de concentrare prin
scăderea din aria triunghiului dreptunghic de sub diagonala pătratului Gini
a sumei ariilor trapezelor Pi – 1PiGiGi – 1, care au bazele (Bi şi bi) egale cu
valorile Qi şi Qi – 1 înregistrate de variabila valorilor ponderate relative
cumulate şi înălţimea (hi) egală cu (Pi – Pi – 1), unde Pi – 1 şi Pi sunt
valorile înregistrate de variabila frecvenţelor relative cumulate. Gi – 1 şi Gi
sunt punctele care corespund valorilor Pi şi Qi pe curba de concentrare
Lorenz-Gini (figura 6.6).

Figura 6.6 Metoda trapezelor de sub curba Lorenz-Gini pentru


determinarea indicelui de concentrare Gini

Întrucât aria pătratului Gini este egală cu 1, rezultă că aria triunghiului


dreptunghic de sub diagonala pătratului Gini este egală cu 1/2 = 0,5.
Prin urmare, ariei suprafeţei de concentrare (Sc) este:

225
unde s-a ţinut cont de relaţia de determinare a frecvenţelor relative
cumulate:

ri = frecvenţe statistice relative.


Pentru exemplificare, am realizat calculele necesare în determinarea
indicelui de concentrare Gini pentru colectivitatea distribuită statistic
conform tabelului 6.1. Rezultatele acestor calcule sunt redate în tabelul
6.14.

Tabelul 6.14
xi ni ri Pi xi·ni Vi Qi Qi + Qi – 1 (Qi + Qi – 1) ·ri
4 1 0,07 0,07 4 4 0,04 0,04 0,0024
5 2 0,13 0,20 10 14 0,13 0,16 0,0214
6 1 0,07 0,27 6 20 0,18 0,30 0,0202
7 5 0,33 0,60 35 55 0,49 0,67 0,2232
9 3 0,20 0,80 27 82 0,73 1,22 0,2446
10 3 0,20 1,00 30 112 1,00 1,73 0,3464
 15 1,00 112 0,8583

Conform rezultatelor din tabelul 6.14, indicele de concentrare Gini pentru


distribuţia statistică din tabelul 6.1 este:

226
Metoda trapezelor de concentrare pentru determinarea indicelui de
concentrare Gini
Această metodă constă în calcularea ariei suprafeţei de concentrare prin
însumarea ariilor trapezelor de concentrare DiGiGi – 1Di – 1 care compun
suprafaţa de concentrare (figura 6.7). Aria fiecărui trapez de concentrare
DiGiGi – 1Di – 1 se poate calcula prin scăderea din aria dreptunghiului T-
iGiQiQi – 1 a ariei triunghiului TiGiGi – 1 şi a ariei trapezului QiQi – 1Di –
1Di.

Se poate observa că suma ariilor trapezelor QiQi – 1Di – 1Di este egală cu
1/2, întrucât aceste trapeze compun împreună triunghiul de deasupra
diagonalei pătratului Gini. Prin urmare, aria suprafeţei de concentrare se
poate determina cu relaţia:

Aceasta înseamnă că indicele Gini se poate determina şi cu relaţia:

227
Tabelul 6.15
xi ni Pi Pi+Pi-1 Qi Qi-Qi-1 (Qi-Qi-1) ·(Pi+Pi-1)
4 1 0,0667 0,0667 0,0357 0,0357 0,0024
5 2 0,2000 0,2667 0,1250 0,0893 0,0238
6 1 0,2667 0,4667 0,1786 0,0536 0,0250
7 5 0,6000 0,8667 0,4911 0,3125 0,2708
9 3 0,8000 1,4000 0,7321 0,2411 0,3375
10 3 1,0000 1,8000 1,0000 0,2679 0,4821
 15 1,0000 1,1417

Pentru exemplificare, în tabelul 6.15 sunt efectuate calculele necesare în


determinarea indicelui de concentrare Gini prin metoda trapezelor de
concentrare pentru colectivitatea distribuită statistic conform datelor din
tabelul 6.1.
Conform rezultatelor din tabelul 6.15, indicele de concentrare Gini pentru
această colectivitate statistică este:

Figura 6.7 Metoda trapezelor de concentrare pentru determinarea


indicelui de concentrare Gini

228
Indicele de concentrare Gini ca expresie relativă a diferenţei medii Gini
Indicele de concentrare Gini este şi expresia relativă a diferenţei medii
Gini, adică a mediei aritmetice a tuturor diferenţelor dintre valorile
înregistrate, considerate două cât două. Astfel, indicele de concentrare
Gini se obţine prin raportarea diferenţei medii Gini la dublul mediei
aritmetice a valorilor statistice înregistrate:

unde:
reprezintă diferenţa medie Gini;
 = media aritmetică a valorilor înregistrate.
Trebuie subliniat că sub această formă indicele Gini se înrudeşte, ca
semnificaţie şi interpretare, cu coeficientul de variaţie (V), i.e. expresia
relativă a variaţiei statistice, măsurată în mod obişnuit ca şi abatere
standard. Diferenţa dintre cele două statistici constă în faptul că una
evidenţiază variaţia sintetică înregistrată între toate perechile de valori
observate, în timp ce cealaltă este o măsură sintetică a variaţiei tuturor
valorilor înregistrate faţă de tendinţa lor centrală, exprimată de media
aritmetică.
Diferenţa medie Gini se calculează ca medie a celor N2 diferenţe dintre
toate perechile posibile de valori [(Xi, Xj), i, j = 1→N] care se pot forma
cu cele N valori statistice înregistrate:

unde:
i şi j iau valori de la 1 la N.
Pentru exemplificare, să considerăm din nou datele din tabelul 6.1. Pentru
a recalcula indicele de concentrare Gini ca şi expresie relativă a diferenţei
medii Gini, am construit tabelul 6.16, în care sunt calculate toate
diferenţele posibile dintre cele 225 de perechi [(Xi, Xj), i, j = 1→15]
care se pot forma cu cele 15 valori (152 = 225).


Reamintim că:

229
O parte sunt din cele 225 de diferenţe sunt nule. În tabelul 6.16 acestea
sunt evidenţiate prin încadrarea zonelor în care apar. După cum se poate
observa, numărul diferenţelor nule este în strânsă legătură cu frecvenţele
de apariţie a variantelor pe care le înregistrează variabila statistică. Mai
exact, fiecărei variante pe care o înregistrează variabila statistică după care
este studiată colectivitatea statistică, îi corespunde un număr de diferenţe
nule egal cu pătratul frecvenţei absolute de manifestare a acelei variante.

Tabelul 6.16
n1 n2 n3 n4 n5 n6 n7
1 2 1 5 0 3 3
xi
4 5 5 6 7 7 7 7 7 8 9 9 9 10 10 10 Total
xj
n1 1 4 0 1 1 2 3 3 3 3 3 - 5 5 5 6 6 6 52
5 1 0 0 1 2 2 2 2 2 - 4 4 4 5 5 5 39
n2 2
5 1 0 0 1 2 2 2 2 2 - 4 4 4 5 5 5 39
n3 1 6 2 1 1 0 1 1 1 1 1 - 3 3 3 4 4 4 30
7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
n4 5 7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
n5 0 8 - - - - - - - - - - - - - - - - -
9 5 4 4 3 2 2 2 2 2 - 0 0 0 1 1 1 29
n6 3 9 5 4 4 3 2 2 2 2 2 - 0 0 0 1 1 1 29
9 5 4 4 3 2 2 2 2 2 - 0 0 0 1 1 1 29
10 6 5 5 4 3 3 3 3 3 - 1 1 1 0 0 0 38
n7 3 10 6 5 5 4 3 3 3 3 3 - 1 1 1 0 0 0 38
10 6 5 5 4 3 3 3 3 3 - 1 1 1 0 0 0 38
Total 476

Prin urmare, numărul total de diferenţe nule este egal cu suma pătratelor
frecvenţelor absolute de manifestare a variantelor statistice care definesc
variabila statistică aleasă pentru studierea colectivităţii statistice în cauză:

230
unde:
D0 reprezintă numărul total de diferenţe nule;
ni = frecvenţele absolute înregistrate de către variantele i care definesc
variabila statistică.
Pentru exemplul nostru, conform coloanei frecvenţelor absolute din
tabelul 6.1, rezultă:

În ce priveşte diferenţele nenule dintre valorile înregistrate, în tabelul 6.16


se poate observa că ele se distribuie simetric faţă de diagonala principală a
tabelului, ceea ce înseamnă că este suficientă cuantificarea diferenţelor din
partea aflată deasupra diagonalei principale a tabelului.
Aceasta înseamnă că pot fi restrânse calculele doar la aceste diferenţe,
urmând ca rezultatele să fie multiplicate cu 2.
Se mai poate observa, totodată, că şi frecvenţele absolute de apariţie ale
acestor diferenţe pot fi asociate cu frecvenţele absolute de manifestare a
variantelor variabilei statistice considerate. Condiţia necesară pentru
aceasta este ca distanţele dintre variantele care definesc variabila statistică
să fie egale între ele (şi egale cu o constantă d), motiv pentru care în
demonstraţia calculului indicelui Gini a fost considerată pentru exemplul
nostru şi varianta i = 8, deşi frecvenţa ei de manifestare este egală cu 0.
Astfel, suma diferenţelor din partea aflată deasupra diagonalei principale a
tabelului (DS) se poate determina strict în funcţie de frecvenţele absolute
de manifestare a variantelor care definesc variabila statistică:

231
unde Ni reprezintă frecvenţa absolută cumulată până la varianta i,
inclusiv.
Prin urmare, pentru determinarea sumei diferenţelor Gini putem folosi
următoarea relaţie generală:

unde:
N este numărul valorilor statistice înregistrate;
i, j = variante care definesc variabila statistice folosite în studiu;
Ni = frecvenţe absolute cumulate;
d = distanţa (constantă) dintre două variante succesive ale variabilei
statistice.
Aceasta înseamnă că diferenţa medie Gini se poate obţine cu ajutorul
relaţiei:

Această relaţie se poate folosi şi în cazul variabilelor cantitative continue


definite pe intervale egale, constanta d fiind, în acest caz, egală cu
mărimea intervalelor.
În scopul determinării diferenţei medii Gini pentru exemplul nostru
(tabelul 6.1), construim mai departe tabelul 6.17.
Conform rezultatelor obţinute în tabelul 6.17, diferenţa medie Gini este:

Pentru a determina indicele de concentrare Gini mai este necesară


determinarea mediei aritmetice la nivelul distribuţiei statistice, aceasta
fiind realizată cu ajutorul calculelor din tabelul 6.18.

232
Tabelul 6.17
Nota Frecvenţă Frecvenţă N - Ni Ni (N - Ni)
obţinută absolută absolută
(xi) (ni) cumulată
(Ni)
4 1 1 14 14
5 2 3 12 36
6 1 4 11 44
7 5 9 6 54
9 3 12 3 36
10 3 15 0 0
Total 15 238

Astfel, se obţine în cele din urmă valoarea indicelui de concentrare Gini:

Valoarea obţinută (destul de apropiată de 0) reflectă o concentrare destul


de slabă a notelor obţinute de către cei 15 studenţi.

Tabelul 6.18
Nota obţinută Frecvenţe absolute Valori ponderate
(xi) (ni) (xi·ni)
4 1 4
5 2 10
6 1 6
7 5 35
9 3 27
10 3 30
Total 15 112

Media aritmetică

233
Indicele de concentrare Gini ca măsură a inegalităţilor dintre venituri
Indicele de concentrare Gini este cel mai des folosit pentru măsurarea
inegalităţilor dintre veniturile obţinute la nivelul unei ţări, al unei regiuni
etc. Situaţiile extreme pe care le poate pune în evidenţă indicele Gini sunt:
a) Situaţia în care toate veniturile sunt egale, situaţie în care diferenţa
medie Gini este egală cu 0, ceea ce face ca şi indicele Gini să fie este egal
cu 0.
b) Situaţia inegalităţii maxime, situaţie în care o singură persoană obţine
tot venitul de la nivelul colectivităţii analizate, celelalte persoane neavând
nicio sursă de venit. Aşa se întâmplă, de exemplu, la nivelul colectivităţii
distribuite statistic ca în tabelul 6.19, pentru care indicele Gini
înregistrează valoarea de 0,9804. Se poate observa că în astfel de situaţii,
indicele Gini este egal cu diferenţa dintre 1 şi inversa volumului
colectivităţii statistice, ceea ce înseamnă că indicele Gini se apropie de
valoarea de 1 pe măsură ce volumul colectivităţii creşte.

Tabelul 6.19
Venit Număr Frecvenţe Valori Valori Qi (Qi + Qi – 1) ·ri
(xi) persoane relative ponde- ponderate
(ni) (ri) rate cumulate
0 50 0,9804 0 0 0,000 0,0000
16985 1 0,0196 1698 1698 1,000 0,0196
Total 51 1,0000 0,0196
G = 1 - 1/N = 1 - 1/51 = 1 - 0,0196 = 0,9804

Valori procentuale ale indicelui Gini privind inegalitățile dintre venituri


pentru diferite ţări ale lumii sunt estimate de către Banca Mondială într-un
tabel disponibil online la adresa: http://wdi.worldbank.org/table/1.3.
Printre cele mai mici valori ale indicelui Gini prezente în acest tabel se pot
enumera cele pentru: Ucraina (24,6% la nivelul anului 2013), Slovenia
(25,6% la nivelul anului 2012), Norvegia (25,9% la nivelul anului
2012), Republica Cehă (26,1% la nivelul anului 2012), Republica
Slovacă (26,1% la nivelul anului 2012), Kazahstan (26,3% la nivelul

5
Am ales ca valoare a acestui venit nivelul înregistrat în România, pentru luna septembrie 2014, de
câştigul salarial mediu nominal net. Data a fost comunicată în 6 noiembrie 2014 de către Institutul
Naţional de Statistică la adresa:
http://www.insse.ro/cms/files/statistici/comunicate/castiguri/a14/cs09r14.pdf (accesat: 26 noiembrie
2014).

234
anului 2013), Belarus (26,6% la nivelul anului 2013), Kosovo (26,7% la
nivelul anului 2013) şi Islanda (26,9% la nivelul anului 2012).
Printre cele mai mari valori ale indicelui Gini din tabelul menționat se pot
remarca cele pentru: Africa de Sud (63,4% la nivelul anului 2011),
Namibia (61% la nivelul anului 2009), Haiti (60,8% la nivelul anului
2012), Botswana (60,5% la nivelul anului 2009), Surinam (57,6% la
nivelul anului 1999), Republica Centrafricană (56,2% la nivelul anului
2008), Comore (55,9% la nivelul anului 2004), Zambia (55,6% la
nivelul anului 2010), Lesotho (54,2% la nivelul anului 2010) și Honduras
(53,7% la nivelul anului 2013).

Tabelul 6.20 Valorile indicelui Gini estimate pentru România de către


Banca Mondială în perioada 1998-20136
Anul Valoare estimată a indicelui Gini pentru România
1998 31,1%
1999 29,4%
2000 29,3%
2001 29,4%
2002 30,2%
2003 29,9%
2004 30,0%
2005 29,8%
2006 30,5%
2007 30,2%
2008 29,6%
2009 28,2%
2010 28,2%
2011 27,2%
2012 27,3%
2013 27,5%

6
Cf.: https://data.worldbank.org/indicator/SI.POV.GINI?locations=RO (accesat în 10 noiembrie 2017)

235
Pentru România, ultima valoare estimată și publicată de către Banca
Mondială pentru acest indice Gini este cea valabilă pentru anul 2013 7,
egală cu 27,5%. În tabelul 6.20 sunt prezentate valorile indicelui Gini
estimate pentru România de către Banca Mondială pentru perioada 1998-
2013.

Limite ale indicelui de concentrare Gini


Principalele neajunsuri ale acestui indice sunt următoarele:
a) O valoare particulară a indicelui Gini poate fi rezultatul mai multor
curbe de concentrare Lorenz, ceea ce afectează comparabilitatea acestei
statistici;
b) Fiind o statistică relativă, este posibil ca în cazul unei ţări în curs de
dezvoltare indicele Gini să crească în urma creşterii inegalităţii dintre
venituri în paralel cu scăderea numărului celor aflaţi într-o sărăcie reală.

6.3. Statistici ale diversificării


Statisticile diversificării sunt complementare statisticilor concentrării.
De pildă, se poate determina raportul de diversificare, ca o statistică cu o
valoare complementară la unitate pentru raportul de concentrare:

unde:
a reprezintă un număr stabilit ca relevant în funcţie de scopul cercetării
statistice şi de caracteristicile colectivităţii statistice studiate;
Da = reprezintă raportul de diversificare corespunzător valorii stabilite
pentru „a”;
Ca = raportul de concentrare pentru primele „a” variante în ordinea
descrescătoare a frecvenţelor relative înregistrate;
ri = frecvenţa relativă a variantei i a variabilei după care este studiată
colectivitatea statistică;
ni = frecvenţa absolută a variantei i a variabilei statistice;
k = numărul de variante care definesc variabila statistică;

7
Tabelul a fost consultat la data de 10 noiembrie 2017.

236
N = volumul colectivităţii supuse cercetării statistice.
Astfel, raportul de diversificare D3 (a = 3) pentru colectivitatea
distribuită statistic conform datelor din tabelul 6.1 este:

Aceasta înseamnă că 26,67% din studenţii grupei studiate au obţinut


notele cu cele mai mici frecvenţe de apariţie (i.e. notele 4, 5 şi 6).
În mod asemănător, se poate determina un indice de diversificare,
complementar indicelui de concentrare Hirschman-Herfindahl sau
energiei informaţionale Onicescu.
Acest indice de diversificare este cunoscut în literatura de specialitate şi
sub numele de valoarea Agresti şi se determină ca o valoare
complementară la unitate a indicelui de concentrare Hirschman-
Herfindahl:

unde:
D reprezintă indicele de diversificare;
H = indicele de concentrare Hirschman-Herfindahl;
ri = frecvenţa statistică relativă înregistrată pentru varianta i (Σri = 1);
k = numărul de variante care definesc variabila statistică.
Trebuie spus însă că în literatura de specialitate valoarea Agresti este
definită într-o manieră probabilistică. Astfel, valoarea Agresti este dată de
suma probabilităţilor ca două unităţi statistice dintr-o colectivitate
statistică să aparţină la variante diferite ale variabilei statistice după care
este studiată aceasta:

unde:
VA reprezintă valoarea Agresti;
pi = probabilitatea de înregistrare a variantei i a variabilei statistice;
qi = probabilitatea de înregistrare a unei variante diferite de varianta i a
variabilei statistice;
k = numărul de variante care definesc variabila statistică.
237
Pornind de la considerentul că probabilitatea de înregistrare a variantei i a
variabilei statistice poate fi estimată pe baza frecvenţei relative (ri) de
apariţie a acesteia, rezultă că valoarea Agresti se poate determina ca
valoare complementară a indicelui de concentrare Hirschman-Herfindahl:

Valorea Agresti este definită în literatura de specialitate ca o statistică a


varianţei unei distribuţii statistice după o variabilă calitativă, ceea ce pune
în evidenţă faptul că statisticile de concentrare sunt înrudite cu statisticile
folosite pentru descrierea variaţiei în jurul tendinţei centrale.
După cum se poate observa uşor, valoarea Agresti poate varia pe intervalul
[0, (1 –1/k)].
Conform rezultatelor din tabelul 6.2, valoarea Agresti pentru colectivitatea
distribuită statistic conform datelor din tabelul 6.1 este egală cu 1 –
0,2178 = 0,7822. Întrucât această valoare este destul de apropiată de
valoarea maximă Agresti pentru distribuţia în cauză (egală cu 1 – 1/k = 1
– 0,1 = 0,9), putem spune că avem de-a face, în acest caz, cu o distribuţie
statistică diversificată.

238
DESCRIEREA STATISTICĂ
A FORMEI
DISTRIBUŢIILOR
UNIMODALE:
OBLICITATEA ŞI
7.
KURTOSISUL

OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate statisticile disponibile pentru descrierea statistică
a formei distribuţiilor statistice unimodale, servind la:
 înţelegerea semnificaţiei conceptelor folosite în legătură cu descrierea
statistică a formei distribuţiilor statistice unimodale;
 reţinerea utilității cunoaşterii gradului de simetrie/asimetrie pentru aprecierea
reprezentativităţii mediei aritmetice pentru colectivitatea statistică;
 stăpânirea tehnicilor de calcul utilizate pentru determinarea statisticilor
disponibile pentru descrierea formei distribuţiilor statistice unimodale.

239
240
Statisticile de variaţie prezentate în capitolul 5 oferă doar informaţii în
legătură cu cantitatea de variaţie înregistrată în jurul unei valori centrale
(media aritmetică sau mediana). Deseori prezintă însă interes şi
cunoaşterea formei acestei variaţii, aceasta putând diferenţia distribuţii
statistice pentru care se înregistrează o cantitate echivalentă de variaţie
statistică. Forma variaţiei repartiţiilor statistice unimodale poate fi
descrisă cu ajutorul a 2 tipuri de statistici:
 statistici de oblicitate, care exprimă gradul de asimetrie al variaţiei în
jurul mediei aritmetice;
 statistici ale kurtosis-ului, care exprimă gradul în care valorile
extreme contribuie la cantitatea de variaţie înregistrată.

7.1. Statisticile de oblicitate (asimetrie)


Oblicitatea unei distribuţii statistice unimodale exprimă gradul de
asimetrie al variaţiei înregistrate în jurul tendinţei sale centrale,
exprimată prin media aritmetică, valoarea mediană şi valoarea modală,
cele 3 statistici care descriu cel mai sintetic tendinţa cea mai de mijloc a
valorilor înregistrate.

Frecvenţe

Variabila X
Me = μ = Mo

Figura 7.1 Distribuţie statistică simetrică

O distribuţie statistică unimodală este simetrică atunci când valorile


înregistrate sunt identic dispersate de o parte şi de alta a valorii modale a
acesteia. Pentru o astfel de distribuţie, cele trei statistici principale care
descriu tendinţa centrală, i.e. media aritmetică, valoarea mediană şi

241
valoarea modală, coincid. În figura 7.1 este reprezentată o astfel de
distribuţie.
Oblicitatea sau asimetria distribuţiilor statistice unimodale poate fi
pozitivă sau negativă, după cum prelungirea şirului de frecvenţe statistice
se constată predominant la dreapta (figura 7.2, a) sau la stânga valorii
modale (figura 7.2, b).

a. oblicitate sau asimetrie b. oblicitate sau asimetrie


pozitivă negativă

media media
valoarea aritmetică aritmetică valoarea
modală valoarea valoarea modală
mediană mediană

Figura 7.2 Distribuţii statistice asimetrice

Principalele statistici care au fost propuse pe parcursul timpului pentru


măsurarea gradului de oblicitate sunt:
 coeficientul cuartilic de oblicitate (OQ);
 coeficientul de oblicitate 1 propus de către Karl Pearson;
 coeficientul de oblicitate 1 propus de către Ronald Fisher.

Coeficientul cuartilic de oblicitate


Coeficientul cuartilic de oblicitate este calculat în funcţie de poziţiile
cuartilelor laterale faţă de cuartila mediană:

unde:

242
OQ reprezintă coeficientul cuartilic de oblicitate;
Q1 şi Q3 = cuartilele laterale (prima şi, respectiv, cea de-a treia cuartilă)
ale distribuţiei pentru care se determină gradul de oblicitate;
Q2 sau Me = cuartila mediană a distribuţiei pentru care se determină
gradul de oblicitate;
AQ = amplitudinea intercuartilică a distribuţiei pentru care se determină
gradul de oblicitate.
Pentru o distribuţie statistică simetrică cuartilele laterale se plasează la
distanţe egale faţă de valoarea mediană, ceea ce înseamnă că OQ = 0
(figura 7.3).

nj (Me – Q1) = (Q3 – Me)

OQ = 0

xj
Q1 Me Q3

Figura 7.3 Coeficientul cuartilic de oblicitate pentru o distribuţie


statistică simetrică

Pentru o distribuţie statistică cu oblicitate pozitivă, cuartila a treia se


plasează faţă de valoarea mediană la o distanţată mai mare decât prima
cuartilă, ceea ce înseamnă că OQ  0, (figura 7.4).
În cazul a două distribuţii comparabile din punctul de vedere al variabilei
şi al colectivităţii statistice, oblicitatea pozitivă este mai pronunţată
pentru cea al cărei coeficient OQ este mai mare.
Pentru o distribuţie statistică cu oblicitate negativă, prima cuartilă se află
faţă de valoarea mediană la o distanţă mai mare decât cea de-a treia
cuartilă, ceea ce înseamnă că OQ  0. Un exemplu de distribuţie cu
oblicitate negativă este ilustrat în figura 7.5.
În cazul a două distribuţii comparabile din punctul de vedere al variabilei
şi al colectivităţii statistice, oblicitatea negativă este mai pronunţată
pentru cea al cărei coeficient OQ are o valoare absolută mai mare.

243
Întrucât valoarea numitorului raportului care defineşte coeficientul
cuartilic de oblicitate este întotdeauna mai mare sau egală faţă de
valoarea numărătorului aceluiaşi raport1, înseamnă că acest coeficient de
oblicitate poate înregistra valori cuprinse pe intervalul [-1, +1].
Valorile de ±1 se înregistrează atunci când una dintre cuartilele laterale
este egală cu valoarea mediană, cealaltă cuartilă laterală fiind diferită de
valoarea mediană.
Un exemplu de distribuţie pentru care coeficientul înregistrează valoarea
de +1 este ilustrat în tabelul 7.1.

Tabelul 7.1
Frecvenţe
Frecvenţe Frecvenţe
Variabila X relative
absolute relative
cumulate
3 26 0,52 0,52
4 10 0,20 0,72
5 8 0,16 0,88
6 3 0,06 0,94
7 2 0,04 0,98
8 1 0,02 1,00
Total 50 1,00

Se observă că:

rezultă, prin urmare, că:

1
Se raportează diferenţa la suma a două valori identice.

244
Deoarece (Q3 – Me) > (Me – Q1),
OQ = +/+ = +
Cu cât OQ este mai mare, cu atât
nj oblicitatea pozitivă este mai
pronunţată (frecvenţele se etalează
mai mult la dreapta).

xj
Q1 Me Q3
Figura 7.4 Coeficientul cuartilic de oblicitate pentru o distribuţie cu
oblicitate pozitivă

nj

xj
Q1 Me Q3
Deoarece (Q3 – Me) < (Me – Q1),
OQ = -/+ = -
Cu cât OQ este mai mare, cu atât
oblicitatea negativă este mai
pronunţată (frecvenţele se etalează
mai mult la dreapta).

Figura 7.5 Coeficientul cuartilic de oblicitate pentru o distribuţie cu


oblicitate negativă

Pentru exemplificarea determinării coeficientului cuartilic de oblicitate în


cazul unei distribuţii după o variabilă continuă, definită pe intervale, să
considerăm distribuţia statistică din tabelul 7.2, privind pensiile
înregistrate în anul 2018 la nivelul unei colectivități formate din 100 de
pensionari. Pentru determinarea coeficientului cuartilic de oblicitate,
trebuie calculate valorile celor trei cuartile: Q1, Q2 (echivalentă cu
valoarea mediană, Me) și Q3.

245
Conform relaţiei generale de determinare a cuantilelor (prezentată în
capitolul 4) cele trei cuartile laterale se pot obţine pornind de la
următoarele egalităţi:

Intervalele în care se află cele trei cuartile sunt identificate cu ajutorul


tabelului 7.2.

Tabelul 7.2 Distribuţia statistică privind pensiile înregistrate în anul


2018 la nivelul unei colectivități formate din 100 de pensionari
Grupe de pensii Număr de Frecvenţe
(RON) pensionari cumulate
650 – 750 4 4
750 – 850 8 12
850 – 950 14 26 (> 25)
950 – 1050 20 46
1050 – 1150 23 69 (> 50)
1150 – 1250 17 86 (> 75)
1250 – 1350 10 96
1350 – 1450 3 99
1450 – 1550 1 100
Total N = 100

Astfel, prima cuartilă se află în intervalul (850 – 950), întrucât pentru


acest interval frecvenţa cumulată este pentru prima dată mai mare decât
valoarea de 25. Cea de-a doua cuartilă (echivalentă cu valoarea mediană)
se găseşte în intervalul (1050 – 1150), interval pentru care frecvenţa
cumulată este pentru prima dată mai mare decât valoarea de 50. În

246
sfârșit, cea de-a treia cuartilă nu poate fi decât în intervalul (1150 –
1250), deoarece pentru acest interval frecvenţa cumulată depășește
pentru prima dată valoarea de 75.
Presupunând existenţa unei variaţii uniforme pe întinderea acestor
intervale, valorile probabile ale celor trei cuartile se pot obţine astfel:

Putem determina acum coeficientul cuartilic de oblicitate:

Valoarea negativă, dar foarte apropiată de 0, obţinută pentru coeficientul


cuartilic de oblicitate, indică o asimetrie negativă slabă a distribuţiei
statistice, aşa cum se poate deduce şi prin vizualizarea figurii
corespunzătoare acestei distribuţii (figura 7.6).

247
Figura 7.6 Distribuţie cu oblicitate negativă slabă (pe baza datelor
din tabelul 7.2)

În cazul distribuţiilor statistice după variabile discrete, coeficientul


cuartilic de oblicitate trebuie folosit cu precauţie, întrucât poate conduce
la concluzii inexacte în ceea ce priveşte simetria acestora. Se întâmplă
aşa atunci când gradul mic de asimetrie determină distanţe egale între
cele două cuartile laterale şi valoarea mediană. Un exemplu în acest sens
poate fi prezentat pornind de la datele din tabelul 7.3, privind notele
obținute la un examen de un colectiv format din 30 de stundenți.

Tabelul 7.3 Distribuția notelor obținute la un examen de un colectiv


format din 30 de stundenți
Note obţinute la Număr de Procente din Procente
un examen studenţi total studenţi cumulate
6 3 10,00% 10,00%
7 6 20,00% 30,00%
8 10 33,33% 63,33%
9 9 30,00% 93,33%
10 2 6,67% 100,00%
Total 30 100,00%

Având în vedere valorile procentelor cumulate din ultima coloană a


tabelului, rezultă că cele 3 cuartile sunt, respectiv, 7, 8 şi 9. Aceste valori

248
determină un coeficient cuartilic de oblicitate egal cu 0. Cu toate acestea,
precum se poate constata prin simpla vizualizare a distribuției
frecvenţelor absolute înregistrate, redată în figura 7.7, nu se poate spune
că distribuţia este una cu adevărat simetrică.

Figura 7.7 Distribuție asimetrică, cu coeficient cuartilic de oblicitate


egal cu 0 (datele au fost prezentate și prelucrate în tabelul 7.3)

Coeficienţii de oblicitate ai lui Pearson


Primul coeficient de oblicitate propus de către statisticianul britanic Karl
Pearson (27 martie 1857 – 27 aprilie 1936) este rezultatul relativizării
distanţei dintre media aritmetică şi valoarea modală (nenulă în cazul
existenţei oblicităţii) la abaterea standard (ca măsură a variaţiei
statistice):

unde:
OP1 reprezintă primul coeficient de oblicitate al lui Pearson;
μ = media aritmetică a distribuţiei statistice studiate;
Mo = valoarea modală a distribuţiei statistice studiate;
 = abaterea standard a distribuţiei statistice studiate.
În cazul distribuţiilor statistice simetrice, acest coeficient de oblicitate
este egal cu zero, deoarece pentru astfel de distribuţii are loc egalitatea

249
dintre media aritmetică şi valoarea modală (figura 7.1). Aşadar, cu cât
primul coeficient de oblicitate al lui Pearson este mai apropiat de 0, cu
atât distribuţia statistică studiată este mai aproape de una simetrică.
Pentru distribuţiile statistice cu oblicitate pozitivă μ > Mo (figura 7.2, a).
Prin urmare, pentru asemenea distribuţii (μ – Mo) > 0. Cum abaterea
standard este întotdeauna nenulă, rezultă că o valoare pozitivă a celui
dintâi coeficient de oblicitate propus de Pearson indică existenţa unei
oblicităţi pozitive pentru distribuţia statistică studiată.
Pentru distribuţiile statistice cu oblicitate negativă μ < Mo (figura 7.2,
b). Prin urmare, pentru asemenea distribuţii (μ – Mo) < 0. Rezultă că o
valoare negativă a celui dintâi coeficient de oblicitate propus de Pearson
indică existenţa unei oblicităţi negative pentru distribuţia statistică
studiată.
Deoarece diferenţa, fie ea pozitivă sau negativă, dintre media aritmetică
şi valoarea modală nu poate fi mai mare decât abaterea standard 2,
coeficientul OP1 poate înregistra valori cuprinse pe intervalul [-1, +1].
Cu cât oblicitatea unei distribuţii statistice este mai pronunţată, cu atât
distanţa dintre media aritmetică şi valoarea modală se apropie mai mult
de valoarea abaterii standard. Prin urmare, o valoare apropiată de ± 1 a
celui dintâi coeficient de oblicitate propus de Pearson indică existenţa
unei asimetrii mai pronunţate pentru distribuţia statistică studiată.
Pornind de la constatarea că pentru distribuţiile statistice moderat oblice
distanţa dintre media aritmetică şi valoarea modală este de aproximativ
trei ori mai mare decât distanţa dintre media aritmetică şi valoarea
mediană3 (figura 7.2, a şi b), Karl Pearson a propus, pentru asemenea
distribuţii statistice, şi un al doilea coeficient de oblicitate:

unde:
OP2 reprezintă cel de-al doilea coeficient de oblicitate al lui Pearson;
2
Explicaţia constă în faptul că distanţa dintre media aritmetică şi valoarea modală este, de fapt,
abaterea individuală modală faţă de media aritmetică, adică abaterea individuală cea mai des întâlnită,
în timp ce abaterea standard este echivalentă cu media pătratică a abaterilor individuale faţă de media
aritmetică, aceasta fiind întotdeauna mai mare sau egală faţă de abaterea individuală modală. Se
întâmplă aşa deoarece abaterea medie pătratică creşte pe măsură ce media aritmetică este mai deplasată
din cauza valorilor extreme, ceea ce nu se petrece cu necesitate şi în cazul abaterii individuale modale.

3
Relația care exprimă această proprietate a fost prezentată în capitolul 4.

250
μ = media aritmetică a distribuţiei statistice studiate;
Me = valoarea mediană a distribuţiei statistice studiate;
 = abaterea standard a distribuţiei statistice studiate.
Interpretarea celui de-al doilea coeficient de oblicitate al lui Pearson este
similară interpretării celui dintâi coeficient de oblicitate al lui Pearson, cu
menţiunea că aplicabilitatea sa este restrânsă la cazul distribuţiilor
statistice caracterizate printr-o asimetrie moderată.

Coeficientul de oblicitate 1 al lui Pearson


Un alt coeficient de oblicitate propus de către Karl Pearson este
coeficientul 1, determinat ca raport între pătratul momentului centrat de
ordinul 3 şi cubul momentului centrat de ordinul 2:

unde:
2 (X) reprezintă momentul centrat de ordinul 2 al distribuţiei statistice
studiate;
3 (X) = momentul centrat de ordinul 3 al distribuţiei statistice studiate;
k = numărul de variante care definesc variabila statistică după care este
construită distribuţia statistică;

251
aj = abaterea individuală înregistrată pentru varianta j faţă de media
aritmetică a distribuţiei;
nj = frecvenţa absolută de manifestare a variantei j;
 (X) =abaterea standard a distribuţiei statistice studiate.

Coeficientul de oblicitate γ1 al lui Fisher


Statisticianul britanic Ronald Aylmer Fisher a propus ca şi coeficient de
oblicitate aşa-numitul coeficient γ1, determinat ca raport între momentul
centrat de ordinul 3 şi cubul abaterii standard:

Atunci când se folosesc aceşti coeficienţi de oblicitate, tipul de oblicitate


(pozitivă sau negativă) este determinat de semnul momentului centrat de
ordinul 3:
 dacă 3 > 0, înseamnă că suma cuburilor abaterilor individuale
pozitive faţă de medie este mai mare decât suma cuburilor abaterilor
individuale negative faţă de medie; aceasta se întâmplă atunci când
valorile abaterilor individuale pozitive mari tind să depăşească
valorile absolute ale abaterilor individuale negative mari, situaţie
caracteristică distribuţiilor statistice cu oblicitate pozitivă;
 dacă 3 < 0, atunci distribuţia statistică studiată este caracterizată de
oblicitate negativă;
 dacă 3 = 0, atunci distribuţia statistică studiată este una simetrică.
Intensitatea oblicităţii, dacă aceasta există, este cu atât mai mare cu cât
valoarea coeficienţilor 1 sau γ1 este mai depărtată de 0.

252
Pentru exemplificarea determinării oblicităţii cu ajutorul coeficienţilor 1
şi γ1, să considerăm şirul celor 15 valori (x) înregistrate de către variabila
X, din tabelul 7.4.

Tabelul 7.4
Număr
curent
x a=x– a2 a3
1 3 -5,2 27,04 -140,608
2 5 -3,2 10,24 -32,768
3 12 3,8 14,44 54,872
4 8 -0,2 0,04 -0,008
5 4 -4,2 17,64 -74,088
6 11 2,8 7,84 21,952
7 14 5,8 33,64 195,112
8 1 -7,2 51,84 -373,248
9 15 6,8 46,24 314,432
10 9 0,8 0,64 0,512
11 10 1,8 3,24 5,832
12 5 -3,2 10,24 -32,768
13 7 -1,2 1,44 -1,728
14 13 4,8 23,04 110,592
15 6 -2,2 4,84 -10,648
 123 252,4 37,44
N 8,2 (= )  16,8267 (= ) 2,496 (=)

Conform rezultatelor din tabelul 7.4, se poate constata existenţa unei


oarecare oblicităţi pozitive, indicată de semnul pozitiv al momentului

253
central de ordinul 3, iar pentru coeficienţii de oblicitate 1 şi γ1 se obţin
următoarele valori:

Valorile mici ale coeficienţilor de oblicitate 1 şi γ1 indică un grad redus


de asimetrie pentru şirul de valori considerat, fapt care poate fi evidenţiat
şi cu ajutorul reprezentării grafice a distribuţiei statistice a frecvenţelor
de manifestare a acestor valori (figura 7.8).

Figura 7.8

Cele mai importante pachete software de calcul statistic (SPSS, JMP4,


Excel5 etc.) oferă posibilitatea determinării gradului de asimetrie la
nivelul valorilor înregistrate pentru o colectivitate statistică pe baza unui
coefcient γ1 ajustat. Este vorba despre coeficientul de asimetrie G1,
determinat după relaţia:

4
Relația echivalentă, prezentată puțin mai jos poate fi găsită la: Peter GOOS, David MEINTRUP.
Statistics with JMP: Graphs, Descriptive Statistics and Probability. John Wiley & Sons, 2015, p. 77.

5
În Excel este vorba despre funcția SKEW.

254
unde:
N reprezintă mărimea colectivităţii statistice;
k = numărul de variante care definesc variabila statistică după care este
construită distribuţia statistică;
aj = abaterea individuală înregistrată pentru varianta j faţă de media
aritmetică a distribuţiei;
nj = frecvenţa absolută de manifestare a variantei j.
O relaţie echivalentă pentru coeficientul G1 este:

unde:
N reprezintă mărimea colectivităţii statistice;
ai = abaterile individuale ale valorilor de la media lor aritmetică;
s (X) = abaterea standard ajustată6, adică:

6
Ajustarea are ca scop diminuarea influenței valorilor extreme.

255
Pentru variabila statistică din tabelul 7.4 abaterea standard ajustată este:

Aceasta înseamnă că:

Valoarea pozitivă, foarte apropiată de 0, indică, asemenea coeficienţilor


1 şi γ1, o slabă oblicitate pozitivă.

Figura 7.9

256
Figura 7.10

În figurile 7.9 și 7.10 sunt reprezentate distribuțiile notelor obținute la


primele două examene dintr-o sesiune de examinare de către cei 50 de
studenți ai unei formații de studiu. Pentru primul examen, coeficientul
G1 ia valoarea de 0,1463. Pentru cel de-al doilea examen, valoarea de
0,2745 a coeficientului G1 indică o asimetrie pozitivă mai pronunțată
decât în cazul primului examen.

7.2. Statisticile de kurtosis (aplatizare / boltire)


Termenul statistic „kurtosis” provine din cuvântul grecesc „kurtos”, care
înseamnă umflat, bombat.
În funcţie de kurtosis se pot întâlni distribuţii statistice:
 mezocurtice (figura 7.11). Cele mai cunoscute repartiţii mezocurtice
sunt distribuţiile normale;
 leptocurtice7;
 platicurtice8.

7
Etimologic, „leptocurtic” înseamnă „cu umflătură sau cocoaşă subţire” („leptos” = gr. „subţire”).

8
Etimologic, „platicurtic” înseamnă „cu umflătură sau cocoaşă lată” („platus” = gr. „lat”).

257
nj

xj
Figura 7.11 Distribuţie mezocurtică

nj „vârf” nj
ascuţit

„vârf”
rotunjit „umăr”
„coadă” larg
plată

a. distributie b. distributie
leptocurtică xj platicurtică xj
Figura 7.12 Distribuţii lepto- (a) şi plati-curtice (b)

Din punct de vedere grafic, o distribuţie leptocurtică are un „vârf” mai


ascuţit şi „cozi” mai plate (figura 7.12, a), în timp ce o distribuţie
platicurtică are un „vârf” mai rotunjit şi „umeri” mai largi (figura 7.12,
b).
Din punctul de vedere al variaţiei statistice, o distribuţie statistică este
leptocurtică atunci când unei variaţii mici a variabilei după care este
construită îi corespunde o variaţie mare a frecvenţelor sale relative; la
polul opus, o distribuţie statistică este platicurtică atunci când unei
variaţii mari a variabilei după care este construită îi corespunde o variaţie
mică a frecvenţelor sale relative.

Coeficientul de kurtosis 2 al lui Pearson


Karl Pearson a propus ca şi statistică a kurtosis-ului aşa-numitul
coeficient 2, definit ca raport între momentul centrat de ordinul 4 şi
pătratul momentului centrat de ordinul 2:

258
unde:
4 (X) reprezintă momentul centrat de ordinul 4 al distribuţiei statistice
studiate;
2 (X) = momentul centrat de ordinul 2 al distribuţiei statistice studiate;
k = numărul de variante care definesc variabila statistică după care este
construită distribuţia statistică;
aj = abaterea individuală înregistrată pentru varianta j faţă de media
aritmetică a distribuţiei;
nj = frecvenţa absolută de manifestare a variantei j;
 (X) =abaterea standard a distribuţiei statistice studiate.
Interpretarea kurtosis-ului unei distribuţii statistice cu ajutorul acestui
coeficient este următoarea:
 o valoare cuprinsă între 1 şi 3 este caracteristică unei distribuţii
platicurtice;
 o valoare apropiată de 3 este caracteristică unei distribuţii
mezocurtice;
 o valoare mai mare decât 3 este caracteristică unei distribuţii
leptocurtice.

259
Coeficientul de kurtosis 2 al lui Fisher (coeficientul de exces de
kurtosis)
Cu ajutorul coeficientului de kurtosis 2 al lui Fisher se determină tipul
(distribuție lepto- sau plati-curtică) şi excesul de kurtosis al distribuţiei
statistice studiate:

Interpretarea coeficientului 2 este următoarea:


 o valoare mai mică decât 0 este caracteristică unei distribuţii
platicurtice9;

 o valoare apropiată de 0 este caracteristică unei distribuţii


mezocurtice;

 o valoare mai mare decât 0 este caracteristică unei distribuţii


leptocurtice10.
Pentru exemplificarea determinării kurtosis-ului să considerăm şirul celor
15 valori înregistrate de către variabila X, din tabelul 7.4. În tabelul 7.5
sunt realizate calculele suplimentare necesare.
Conform rezultatelor din tabelul 7.5, pentru coeficienţii de kurtosis se
obţin următoarele valori:

Valoarea coeficientului 2 arată că distribuţia statistică a celor 15 valori


este una platicurtică, aşa cum se poate constata şi pe baza reprezentării
grafice din figura 7.8.

9
Acesta este motivul pentru care unii autori le numesc distribuții cu un kurtosis negativ.

10
Acesta este motivul pentru care unii autori le numesc distribuții cu un kurtosis pozitiv.

260
Tabelul 7.5
Număr
x a=x– a2 a4
curent
1 3 -5,2 27,04 731,1616
2 5 -3,2 10,24 104,8576
3 12 3,8 14,44 208,5136
4 8 -0,2 0,04 0,0016
5 4 -4,2 17,64 311,1696
6 11 2,8 7,84 61,4656
7 14 5,8 33,64 1131,6496
8 1 -7,2 51,84 2687,3856
9 15 6,8 46,24 2138,1376
10 9 0,8 0,64 0,4096
11 10 1,8 3,24 10,4976
12 5 -3,2 10,24 104,8576
13 7 -1,2 1,44 2,0736
14 13 4,8 23,04 530,8416
15 6 -2,2 4,84 23,4256
 123 252,4 8046,448

N 8,2 (= )  16,8267 (= ) 536,4299 (=)

Principalele pachete software de calcul statistic (SPSS, JMP11, Excel12


etc.) oferă posibilitatea determinării gradului de kurtosis la nivelul
valorilor înregistrate pentru o colectivitate statistică pe baza unui

11
Cf.: Peter GOOS, David MEINTRUP. Statistics with JMP: Graphs, Descriptive Statistics and
Probability. John Wiley & Sons, 2015, p. 78.

12
În Excel este vorba despre funcția KURT.

261
coefcient γ2 ajustat. Este vorba despre coeficientul de kurtosis G2,
determinat după relaţia:

Pentru şirul celor 15 valori înregistrate de către variabila X din tabelul


7.4, coeficientul de kurtosis G2, determinat în urma calculelor efectuate
în paragraful precedent privind abaterea standard ajustată, s(X), precum
și a calculelor realizate în tabelul 7.5, este:

Valoarea negativă a coeficientului G2 confirmă încă o dată faptul că


distribuţia statistică a celor 15 valori este una platicurtică.

262
DESCRIEREA STATISTICĂ
A LEGĂTURILOR DINTRE
FENOMENE 8.

OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate statisticile utile în descrierea corelaţiei și a
modelelor de regresie dintre două sau mai multe variabile. Cele mai importante
obiective propuse sunt:
 stăpânirea tehnicilor de calcul utilizate pentru obţinerea statisticilor de
corelaţie şi regresie;
 înţelegerea conţinutului informaţional al celor mai importante statistici de
corelaţie şi regresie: coeficientul de corelaţie liniară Pearson, coeficienţii de
regresie liniară şi coeficientul de determinare;
 stăpânirea metodei celor mai mici pătrate de erori ca metodă de regresie
statistică.

263
264
8.1. Ce se înțelege prin corelaţia și regresia statistică?
Prin corelaţie statistică se înţelege intensitatea şi sensul legăturii statistice
dintre două sau mai multe variabile.
Este important de reţinut faptul că legătura sau corelaţia statistică dintre
două sau mai multe variabile nu implică în mod necesar şi legătura cauzală
dintre acestea.
Totuşi, de multe ori corelaţia statistică poate fi semnul exitenței unei
anumite legături cauzale între fenomenele studiate.
Un exemplu destul de cunoscut în economie este corelaţia statistică dintre
preţul petrolului şi rata inflaţiei, ea fiind semnul unei legături cauzale între
aceste două fenomene economice, o legătură explicată prin influenţa
deosebită a preţului petrolului asupra majorităţii celorlalte preţuri din
economie. Astfel, anul 2014 a fost, de pildă, anul în care scăderea
accentuată a ratei inflaţiei în România a urmat îndeaproape scăderii
preţului ţiţeiului pe pieţele internaţionale 1.
Regresia statistică are ca scop elaborarea de modele matematice pentru
descrierea legăturii statistice dintre două sau mai multe variabile, utilitatea
acestor modele fiind în principal în legătură cu ajustarea matematică a
valorilor înregistrate de variabila modelată (dependentă) sau cu prognoza
unor valori viitoare ale acesteia.

8.2. Coeficientul de corelaţie liniară Pearson


Karl Pearson a propus ca statistică de măsurare a intensităţii şi sensului
legăturii statistice liniare dintre două variabile coefcientul care-i poartă
numele, definit ca raport între covarianţa statistică şi produsul abaterilor
standard ale variabilelor considerate:

unde (X, Y) reprezintă coeficientul  (rho) de corelaţie liniară Pearson;

1
A se vedea, în acest sens: Banca Națională a României, Raport asupra inflației, Anul XI, nr. 39,
februarie 2015, pp. 24-26. Versiunea online este disponibilă la adresa:
https://www2.bnr.ro/DocumentInformation.aspx?idDocument=19412&idInfoClass=3922
În acest document, la pagina 25, se arată că:
“Aproximativ 17 la sută din modificarea preţului carburanţilor se transmite în preţurile de producţie ale
industriei bunurilor de consum pe un orizont de un an. Mai departe, modificarea acestor preţuri de
producţie este transferată în proporţie de 70 la sută în inflaţia de bază pe acelaşi orizont de timp.
Evaluarea unui scenariu de scădere a preţului petrolului cu 10 la sută indică un impact de aproximativ -
0,2 puncte procentuale (efect direct şi indirect) la rata anuală a inflaţiei IPC pe un orizont de un an.”

265
(X, Y) = covarianţa statistică a perechilor de valori înregistrate de către
variabilele X şi Y;
(X), (Y) = abaterile standard ale valorilor înregistrate pentru variabila
X, respectiv Y.
Având în vedere faptul că atât numărătorul, cât și numitorul relației de mai
sus se obțin pe baza unor medii aritmetice, se poate ușor deduce o relație
alternativă de calcul a acestui coeficient pe baza numărului de perechi de
valori existente (N) și a unor sume determinate pe baza acestor valori:

Proprietăţi ale coeficientului de corelaţie liniară Pearson


 deoarece covarianţa a două variabile este mai mică sau egală faţă de
produsul abaterilor lor standard, coeficientul de corelaţie liniară
Pearson poate înregistra valori cuprinse între –1 şi +1. Întrucât
abaterile standard nu pot fi negative, înseamnă că semnul coeficientului
de corelaţie liniară Pearson este dat de semnul covarianţei.
Deoarece covarianţa este pozitivă atunci când predomină tendinţa de
variaţie în acelaşi sens pentru variabilele studiate, înseamnă că o
valoare pozitivă a coeficientului de corelaţie liniară Pearson indică o
corelaţie statistică directă între variabile.
Invers, întrucât covarianţa este negativă atunci când predomină
tendinţa de variaţie în sensuri opuse pentru variabilele studiate,
înseamnă că o valoare negativă a coeficientului de corelaţie liniară
Pearson indică o corelaţie statistică inversă între variabile.
Interpretarea detaliată a valorilor absolute ale acestui coeficient se face
conform tabelului 8.1.

266
Tabelul 8.1

Valoare coeficient  Interpretare legătură statistică

Nu există legătură statistică liniară

Legătură liniară slabă

Legătură liniară de intensitate medie

Legătură liniară puternică

Legătură liniară foarte puternică

Legătură liniară deterministă

 coeficientul de corelaţie liniară Pearson este comutativ, această


proprietate fiind o consecinţă a comutativităţii covarianţei și a operației
de înmulțire a abaterilor standard ale celor două variabile:

 coeficientul de corelaţie liniară Pearson dintre valorile unei variabile X


şi o constantă (c) este egal cu 0:

Se întâmplă aşa deoarece, aşa cum s-a arătat în capitolul 5, covarianţa


dintre valorile unei variabile X și o constantă (c) este nulă;
 adăugarea sau scăderea unei constante (c) la toate valorile înregistrate
de o variabilă X nu determină modificarea coeficientului de corelaţie
liniară Pearson dintre valorile acestei variabile şi valorile unei alte
variabile Y. Această proprietate se explică prin faptul că adăugarea sau
scăderea unei constante (c) la toate valorile înregistrate de o variabilă
nu modifică nici abaterea ei standard, nici covarianţa 2 valorilor ei
împreună cu valorile unei alte variabile:

2
A se vedea capitolul 6.

267
 multiplicarea sau împărţirea cu o constantă (c) a tuturor valorilor
înregistrate de o variabilă X nu determină modificarea coeficientului de
corelaţie liniară Pearson dintre valorile acestei variabile şi valorile unei
alte variabile Y. Această proprietate se explică prin faptul că
multiplicarea sau împărţirea cu o constantă (c) a tuturor valorilor
înregistrate de o variabilă determină multiplicarea sau împărţirea cu
acea constantă atât a abaterii ei standard, cât şi a covarianţei 3 valorilor
ei cu valorile unei alte variabile:

 dacă între două variabile există o legătură liniară deterministă sau


funcţională, atunci coeficientul de corelaţie liniară Pearson
înregistrează valorile ±1:

unde relaţia Y = +·X exprimă legătura liniară deterministă sau


funcţională dintre cele două variabilele,  şi  fiind constantele care
definesc această legătură;
 aşa cum se poate observa analizând, de exemplu, datele din tabelul 8.2,
reprezentate în figura 8.1, coeficientul de corelaţie liniară Pearson este
invariant la schimbarea originii şi a unităţii de scară. Demonstraţia
matematică a acestui fapt este redată mai jos:

3
A se vedea capitolul 6.

268
Tabelul 8.2
X Y
0,1 0,4
0,3 0,8
0,2 0,5
0,7 0,1
0,9 0,2
0,6 0,9
0,5 0,7

Pornind de la datele din tabelul 8.2 şi alegând parametrii a = 2,3; b =


5,0; a' = 7,0 şi b' = 3,4, se obţin rezultatele din tabelul 8.3.
Rezultatele din acest tabel sunt reprezentate apoi grafic prin cei doi
nori de puncte din figura 8.1.

Tabelul 8.3
X Y aX + b a'Y + b'
0,1 0,4 5,23 6,20
0,3 0,8 5,69 9,00
0,2 0,5 5,46 6,90
0,7 0,1 6,61 4,10
0,9 0,2 7,07 4,31
0,6 0,9 6,38 9,70
0,5 0,7 6,15 8,30

269
Figura 8.1

Aşa cum se poate vedea în figura 8.1, pentru cele două perechi de
variabile corelaţia este identică, dat fiind faptul că norul de puncte nu-şi
schimbă forma în urma transformării valorilor din tabelul 8.2 în cele
din tabelul 8.3. Ceea ce diferă este doar scara de mărime. Acest fapt se
poate verifica şi pe baza calculelor de mai jos şi din tabelele 8.4 şi 8.5:

ceea ce înseamnă că:

respectiv,

270
Tabelul 8.4
X X2 Y Y2 XY
0,1 0,01 0,4 0,16 0,04
0,3 0,09 0,8 0,64 0,24
0,2 0,04 0,5 0,25 0,10
0,7 0,49 0,1 0,01 0,07
0,9 0,81 0,2 0,04 0,18
0,6 0,36 0,9 0,81 0,54
0,5 0,25 0,7 0,49 0,35
Totaluri 3,30 2,05 3,60 2,40 1,52
Medii 0,4714 0,2929 0,5143 0,3429 0,2171

Tabelul 8.5
aX + b (aX + b) 2 a'Y + b' (a'X + b') 2 (aX + b) (a'X + b')
5,23 27,35 6,20 38,44 32,4260
5,69 32,38 9,00 81,00 51,2100
5,46 29,81 6,90 47,61 37,6740
6,61 43,69 4,10 16,81 27,1010
7,07 49,98 4,80 23,04 33,9360
6,38 40,70 9,70 94,09 61,8860
6,15 37,82 8,30 68,89 51,0450
 42,59 261,74 49,00 369,88 295,2780
 6,0843 37,3921 7,0000 52,8400 42,1826

271
 coeficientul de corelație liniară se poate determina și pe baza unei
relații care exprimă raportul său cu coeficientul de regresie liniară, o
altă statistică mai importantă pentru analiza unei legături liniare dintre
două variabile:

unde:
(X,Y) reprezintă coeficientul de regresie liniară care caracterizează
legătura statistică liniară dintre variabila dependentă Y și variabila
indepedentă X.
Pe baza acestei relații se poate constata că între coeficientul de corelație
liniară și coeficientul de regresie liniară există un raport de directă
proporționalitate. Totodată, faptul că abaterile standard ale variabilelor X
și Y sunt pozitive determină ca cei doi coeficienți să aibă același semn.
Prin urmare, o legătură statistică pozitivă implică valori pozitive ale
acestor două importante statistici, în timp ce o legătură statistică negativă
este caracterizată prin valori negative pentru fiecare dintre acestea.

8.3. Coeficienţi neparametrici pentru descrierea legăturii statistice


dintre 2 variabile
În cazul variabilelor ordinale, variabile pentru care nu se poate folosi
coeficientul de corelaţie Pearson, pentru descrierea legăturii statistice
dintre acestea se poate recurge la folosirea unor coeficienţi neparametrici.
Dintre aceștia, îi vom prezenta mai departe doar pe cei mai cunoscuți:
coeficienții de asociere a rangurilor propuşi de către Charles Spearman şi
Maurice Kendall.
Aceşti coeficienţi măsoară gradul de asociere a rangurilor de ordine
corespunzătoare valorilor înregistrate de către cele 2 variabile. Ei se pot
folosi, desigur, şi în cazul variabilelor cantitative, întrucât acestea răspund
şi cerinţei de ordonare a valorilor înregistrate.

272
Coeficientul lui Spearman
Coeficientul lui Spearman este echivalent cu coeficientul de corelaţie
Pearson aplicat asupra rangurilor corespunzătoare valorilor înregistrate
de cele 2 variabile:

Dacă la nivelul oricăreia dintre cele 2 variabile nu se înregistrează valori


cu ranguri egale, atunci mediile şi abaterile standard ale celor 2 mulţimi de
ranguri sunt egale, fiind vorba despre 2 mulţimi identice (rangurile
constau în aceleaşi valori numerice, fiind doar ordonate diferit). Mai mult
decât atât, întrucât rangurile sunt echivalente cu numerele naturale de la 1
la N, unde N este mărimea colectivităţii perechilor de valori ale celor 2
variabile, sunt valabile următoarele relaţii:

unde:

Prin urmare, în asemenea situaţii, coeficientul lui Spearman devine:

273
unde:
d reprezintă diferenţele dintre rangurile celor două variabile;
N = mărimea colectivităţii perechilor de valori ale celor 2 variabile.

274
Coeficientul lui Kendall
Coeficientul neparametric  (tau) propus de către Kendall măsoară gradul
de concordanţă sau de discordanţă dintre rangurile corespunzătoare
valorilor înregistrate de cele 2 variabile.
Concordanţa dintre rangurile celor 2 şiruri de valori înregistrate pentru 2
variabile X şi Y, are loc atunci când pentru 2 ranguri rxj < rxk la nivelul
şirului de valori ale variabilei X, corespund 2 ranguri ryj < ryk la nivelul
şirului de valori ale variabilei Y, iar pentru 2 ranguri rxj > rxk la nivelul
şirului de valori ale variabilei X, corespund 2 ranguri ryj > ryk la nivelul
şirului de valori ale variabilei Y.
Prin urmare, concordanţa poate fi definită prin relaţia:

Discordanţa dintre rangurile celor 2 şiruri de valori înregistrate pentru 2


variabile X şi Y, are loc atunci când pentru 2 ranguri rxj < rxk la nivelul
şirului de valori ale variabilei X, corespund 2 ranguri ryj > ryk la nivelul
şirului de valori ale variabilei Y, iar pentru 2 ranguri rxj > rxk la nivelul
şirului de valori ale variabilei X, corespund 2 ranguri ryj < ryk la nivelul
şirului de valori ale variabilei Y.
Prin urmare, discordanţa poate fi definită prin relaţia:

Coeficientul  al lui Kendall se determină conform relaţiei:

unde:
C reprezintă numărul de perechi de ranguri concordante;
D = numărul de perechi de ranguri disconcordante;
S = diferenţa dintre numărul de perechi de ranguri concordante şi numărul
de perechi de ranguri disconcordante, C − D.
Ultima formă a relaţiei a fost obţinută pe seama faptului că numărul total
de perechi de ranguri (C + D) este egal cu numărul total de combinări de
N (numărul de perechi de ranguri rxi, ryi înregistrate pentru cele
variabilele X şi Y) luate câte 2.
Coeficientul  al lui Kendall tinde către 0 atunci când numărul de
concordanţe tinde să fie egal cu numărul de discordanţe, ceea ce înseamnă
275
că între cele 2 variabile nu există legătură statistică. O legătură puternică
de concordanţă între variabile are loc atunci când numărul de discordanţe
între cele 2 şiruri de ranguri tinde către 0, situaţie în care coeficientul  al
lui Kendall tinde către valoarea de +1. O legătură puternică de discordanţă
între variabile are loc atunci când numărul de concordanţe între cele 2
şiruri de ranguri tinde către 0, situaţie în care coeficientul  al lui Kendall
tinde către valoarea de −1.

Pentru exemplificarea calcului şi interpretării celor 2 coeficienţi


neparametrici, să considerăm datele din tabelul 8.6. În prima coloană a
acestui tabel sunt trecute rangurile preţurilor înregistrate pentru 7 produse
(preţului mai mic îi corespunde un rang mai mic). Cea de-a doua coloană a
tabelului cuprinde ordinea preferinţelor unei persoane în alegerea celor 7
produse (un rang mai mare corespunde unui produs mai puţin preferat).
Pentru a calcula cei doi coeficienţi neparametrici am construit tabelul 8.7.
În coloana a 4-a a acestui tabel sunt calculate diferenţele dintre ranguri
(di), iar în coloanele 5 şi 6 sunt trecute frecvenţele concordanţelor şi,
respectiv, discordanţelor constatate între ranguri. De exemplu, în rândul
corespunzător preţului cu rangul 1 şi preferinţei cu rangul 5, figurează 2
concordanţe (rangul 5 concordă cu rangurile 6 şi 7, adică apar în ordinea
corespunzătoare mărimii crescătoare a acestor ranguri) şi 4 discordanţe
(rangul 5 nu concordă cu rangurile 1, 2, 3 şi 4, deoarece figurează în tabel
înaintea acestor ranguri deşi este un rang mai mare decât oricare dintre
ele).

Tabelul 8.6
Ranguri Ranguri preferinţe
preţ produse
1 5
2 6
3 4
4 7
5 3
6 2
7 1

Conform rezultatelor din tabel, se obţin următoarele valori ale celor 2


coeficienţi neparametrici:

276
Valorile negative şi mai mici decât −0,5 ale acestor 2 coeficienţi arată că
legătura dintre cele două variabile este una inversă sau de discordanţă
destul de puternică.

Tabelul 8.7
Ranguri Ranguri preferinţe
preţ produse

1 5 -4 16 2 4
2 6 -4 16 1 4
3 4 -1 1 1 3
4 7 -3 9 0 3
5 3 2 4 0 2
6 2 4 16 0 1
7 1 6 36 0 0
Total 98 C D
= =
4 17

8.4. Regresia statistică simplă


Regresia statistică este folosită pentru modelarea legăturilor statistice
dintre variabile. Modelele construite prin regresie pot fi folosite apoi la
realizarea de predicţii statistice.
Prin regresia statistică se modelează legăturile statistice dintre una sau mai
multe variabile endogene (denumite şi variabile prezise, explicate sau
dependente, şi notate uzual cu Y) şi una sau mai multe variabile exogene
(denumite şi variabile predictoare, explicative sau independente, şi notate
uzual cu X).

Tipuri de regresie statistică


Pentru regresia statistică sunt disponibile modele liniare, construite pe
baza unor ecuaţii sau funcţii matematice liniare, şi modele neliniare,
277
construite pe baza unor ecuaţii sau funcţii matematice neliniare.
Modelele construite cu o singură variabilă explicată sunt modele de
regresie univariată, iar modelele construite cu mai multe variabile
explicate sunt modele de regresie multivariată. Modelele de regresie
univariată pot fi, la rândul lor, modele de regresie simplă, construite cu o
singură variabilă explicativă, şi modele de regresie multiplă, construite cu
mai multe variabile explicative în relaţie cu variabila explicată
considerată.
Dacă toate variabilele explicative considerate într-o cercetare sunt
variabile atributive, atunci analiza statistică a regresiei se rezumă la o
analiză de varianţă. Dacă doar o parte dintre variabilele explicative
considerate într-o cercetare sunt variabile atributive, celelalte fiind
variabile cantitative, atunci analiza statistică a regresiei îmbracă forma
unei analize de covarianţă.
Metoda cea mai des folosită pentru construcţia modelelor de regresie este
metoda celor mai mici pătrate de eroare statistică. Atunci cînd au la bază
această metodă, modelele de regresie liniară pot lua forma unor modele
total parametrice sau semi-parametrice. În cazul modelelor de regresie
total parametrice, se porneşte de la ipoteza că erorile de regresie sunt
distribuite normal. Dacă erorile de regresie nu sunt distribuite normal,
modelele vor fi unele semi-parametrice. În practică, deseori astfel de
modele sunt înlocuite cu modele diferite de cele construite pe baza
metodei celor mai mici pătrate. De exemplu, dacă erorile statistice
înregistrează valori aberante, regresia robustă va fi, de regulă, cea
preferată.
În afara acestor modele de regresie statistică, sunt disponibile şi alte
modele speciale, dintre care amintim modelul regresiei Poisson, modelul
învăţării supervizate etc.

Erorile şi valorile reziduale de regresie


Eroarea statistică de regresie pentru valoarea unei anumite unități statistice
extrasă aleator din populaţia statistică studiată, constă în abaterea acesteia
de la valoarea aşteptată în cadrul modelului de regresie aplicat. Atunci
când este observabil doar un eşantion din populaţia statistică studiată 4,
aceste erori nu vor putea fi determinate cu exactitate, ci doar estimate.
Erorile statistice de regresie pot fi confundate uşor cu valorile estimate ale
lor, denumite valori reziduale de regresie. Acestea din urmă sunt abateri
ale valorilor observate de la valorile aşteptate conform modelului de
regresie aplicat doar la nivelul unui eşantion observabil din populaţia

4
Este cazul, în general, al prognozelor realizate pe baza regresiei statistice.

278
statistică studiată. Cu alte cuvinte, valorile reziduale de regresie sunt
estimările observabile (simbolizate obişnuit cu ) ale erorilor statistice de
regresie (simbolizate obişnuit cu ).

Regresia liniară simplă pe baza metodei celor mai mici pătrate;


coeficientul de regresie liniară
Regresia liniară se numeşte aşa întrucât ea are la bază ipoteza că răspunsul
variabilei explicate la variabila explicativă îmbracă forma unei funcţii
liniare cu anumiţi parametri. Deseori se consideră, în mod eronat, că
motivul pentru care regresia se numeşte „liniară” constă în faptul că
graficul funcţiei variabilei explicate, Y =  + X, este o linie. De fapt, şi
în anumite situaţii în care modelul este, din punct de vedere grafic,
neliniar, regresia poate implica tot apelul la un model liniar. Astfel, de
exemplu, modelul Y =  + X + X2 poate fi considerat un model liniar
de regresie multiplă în care Y este variabila endogenă iar X şi X2 sunt
variabilele exogene.
Metoda celor mai mici pătrate constă în minimizarea sumei pătratelor
abaterilor de regresie. Abaterile de regresie sunt abateri ale valorilor reale
ale variabilei explicate (Y) de la valorile date (estimate) de modelul de
regresie liniară aplicat la nivelul observațiilor disponibile ( ). Ele pot lua
forma fie a erorilor statistice de regresie (dacă sunt observabile toate
răspunsurile variabilei explicate la variabila explicative), fie a valorilor
reziduale de regresie (dacă nu sunt observabile toate răspunsurile
variabilei explicate la variabila explicative, regresia fiind aplicată doar la
nivelul unui eşantion de observaţii).
Înainte de minimizarea sumei pătratelor erorilor statistice de regresie este
utilă observarea următoarelor echivalenţe:

unde:
S reprezintă suma pătratelor erorilor sau abaterilor statistice de regresie;
(yi)= eroarea sau abaterea statistică de regresie pentru valoarea yi a
variabilei statistice Y;

279
xi = valoarea variabilei statistice X pentru care s-a înregistrat valoarea yi a
variabilei dependente Y;
, parametrii de regresie liniară între variabilele X şi Y.
Minimizarea sumei pătratelor erorilor statistice de regresie înseamnă
îndeplinirea a 2 condiţii:
1. Condiţia ca derivatele parţiale de ordinul întâi în raport cu parametrii
,  să fie egale cu 0:

şi

2. Condiţia ca matricea derivatelor parţiale de ordinul doi în raport cu


parametrii ,  să fie definită strict pozitiv. Această condiţie se reduce
la cea a înregistrării unei varianţe strict pozitive, condiţie îndeplinită
pentru orice variabilă care înregistrează cel puţin 2 valori diferite:

Derivatele parţiale sunt:

Prin urmare,

280
Din prima condiţie necesară pentru minimizarea sumei pătratelor erorilor
statistice de regresie se obţine sistemul de ecuaţii

281
Folosind metoda determinanţilor pentru acest sistem de ecuaţii, se pot găsi
relaţiile de determinare a parametrilor de regresie  şi . Pentru aceasta,
se construieşte mai întâi matricea sistemului în funcţie de parametrii  şi
:

Determinanţii necesari sunt:

Relaţiile pentru determinarea parametrilor  şi sunt, aşadar:

282
Împărţind cu N2 atât numărătorul, cât şi numitorul fracţiei care defineşte
parametrul , se obţine mai departe:

Întrucât numărătorul ultimului raport este echivalent cu relaţia de calcul


rapid pentru covarianţa dintre variabilele X şi Y, iar numitorul aceluiaşi
raport este echivalent cu relaţia de calcul pentru varianţa variabilei X,
rezultă că:

283
Acest parametru se numeşte coeficient de regresie liniară şi este
echivalent, din punct de vedere grafic, cu tangenta unghiului pe care linia
de regresie reprezentată în sistemul de axe 0X şi 0Y îl formează cu abscisa
(0X), fiind astfel echivalent cu panta de regresie liniară (a se vedea
figura 8.2, precum şi prima proprietate a coeficientului de regresie liniară).
Pornind de la prima ecuaţie a sistemului format pe baza celor două
derivate parţiale se poate obţine, pentru parametrul , o a doua relaţie de
calcul, construită de această dată în funcţie de parametrul şi de mediile
aritmetice ale celor două variabile:

Din punct de vedere grafic, parametrul  este echivalent cu intercepţia


liniei de regresie cu ordonata 0Y (figura 8.2), fiind egal cu valoarea pe
care variabila teoretică Ŷ o înregistrează atunci când variabila explicativă
(X) înregistrează valoarea 0:

Proprietăţile coeficientului de regresie liniară ()


Principalele proprietăţi ale coeficientului de regresie liniară sunt:
 aşa cum s-a arătat deja, coeficientul de regresie liniară reprezintă, din
punct de vedere grafic, tangenta unghiului „ ” pe care linia de regresie
îl formează cu abscisa (figura 8.2):

284
unde:
∆ OAB reprezintă triunghiul dreptunghic format la creşterea cu o
unitate a variabilei explicative X (figura 8.2).

Y, Ŷ

B
panta regresiei:
φ  = (Ŷ) / (X) = tg (φ)

O A

intercepţia,
x0 x0 +  X

Figura 8.2 Regresia liniară

 este utilă considerarea simultană a regresiei liniare a variabilei Y în


funcţie de X şi a regresiei liniare a variabilei X în funcţie de Y, pentru a
se evidenţia reciprocitatea legăturii statistice dintre cele două variabile.
Astfel, dacă cele două linii de regresie sunt reprezentate în acelaşi plan,
ele formează între ele un unghi cu atât mai mic cu cât intensitatea

285
reciprocităţii legăturii statistice dintre cele două variabile este mai
mare. Cele două linii de regresie sunt determinate de ecuaţiile:

Prin urmare, tangenta unghiului „” format între cele două linii de
regresie este dată de relaţia:

Dacă reciprocitatea legăturii statistice dintre cele două variabile este


totală, cele două linii de regresie se vor confunda, unghiul dintre ele
fiind nul. Aceasta se întâmplă atunci când tg () = 0, ceea ce
înseamnă că produsul celor doi coeficienţi de regresie, ’, este egal
cu 1. În concluzie, reciprocitatea legăturii statistice liniare dintre două
variabile X şi Y este totală atunci când coeficientul de regresie liniară al
lui Y în funcţie de X este egal cu inversul coeficientului de regresie
liniară al lui X în funcţie de Y. Acest lucru se întâmplă atunci când
legătura dintre cele două variabile este una deterministă sau
funcţională, coeficientul de corelaţie liniară Pearson fiind egal în acest
caz cu 1. Proprietatea poate fi demonstrată şi pornind de la raportul
dintre cei doi coeficienţi de regresie liniară:

286
Aşadar:

ceea ce înseamnă că:

 întrucât numitorul fracţiei care defineşte coeficientul de regresie liniară


este întotdeauna pozitiv (fiind egal cu o varianţă statistică), coeficientul
de regresie liniară are semnul covarianţei variabilelor X şi Y. În
consecinţă, o valoare pozitivă a coeficientului de regresie liniară indică
o legătură statistică directă între cele două variabile, iar o valoare
negativă a acestuia indică o legătură statistică inversă între acestea.
Totodată, dacă valoarea coeficientului de regresie liniară este 0 sau
foarte apropiată de 0, înseamnă că între cele două variabile nu există
practic o legătură statistică liniară;
 coeficientul de regresie liniară este invariant la schimbarea originii:

 multiplicarea variabilei explicative cu o constantă echivalează cu


împărţirea cu aceeaşi constantă a coeficientului de regresie liniară:

287
Să considerăm, pentru exemplificare, datele statistice privind preţul
unui Big Mac şi produsul intern brut per capita pentru 54 de ţări ale
lumii5, conform tabelului 8.8. Conform ecuaţiei de regresie liniară
determinată cu ajutorul programului Excel, coeficientul de regresie
liniară a variabilei „produsul intern brut per capita, în dolari, în 2017”
în funcţie de variabila „preţul uuui Big Mac echivalent în dolari, în
ianuarie 2018” este egal cu 0,00004 (figura 8.3). Să vedem ce s-ar
întâmpla dacă produsul intern brut per capita la nivelul fiecărei ţări ar
scădea la jumătate faţă de nivelul real înregistrat.

Tabelul 8.8
Preţ Big Mac
PIB per capita
Ţara echivalent in dolari,
in dolari, 2017
ianuarie 2018
Africa de Sud 6160,73 2,45
Arabia Saudită 20760,91 3,20
Argentina 14401,97 3,96
Austria 47290,91 4,16
Australia 53799,94 4,71
Belgia 43323,81 5,02
Brazilia 9821,41 5,11
Canada 45032,12 5,26
Chile 15346,45 4,29
China 8826,99 3,17
Columbia 6301,59 3,83
Coreea de Sud 29742,84 4,12
Costa Rica 11630,67 4,03
Danemarca 56307,51 4,93
Egipt 2412,73 1,93
Elveţia 80189,70 6,76
Emiratele Arabe Unite 40698,85 3,81
Estonia 19704,66 3,86
Filipine 2988,95 2,64
Finlanda 45703,33 5,58

5
Datele au fost extrase din următoarele surse:
- http://infographics.economist.com/2018/databank/BMFile2000toJan2018.xls (pentru preţul unui
Big Mac)
- http://data.worldbank.org/indicator/NY.GDP.PCAP.CD (pentru produsul intern brut per capita)

288
Franţa 38476,66 5,14
Germania 44469,91 4,77
Grecia 18613,42 4,10
Hong Kong 46193,61 2,62
India 1939,61 2,82
Indonezia 3846,86 2,68
Irlanda 69330,69 4,98
Israel 40270,25 4,80
Italia 31952,98 5,14
Japonia 38428,10 3,43
Lituania 16680,68 3,43
Malaezia 9944,90 2,28
Marea Britanie 39720,44 4,41
Mexic 8902,83 2,57
Norvegia 75504,57 6,24
Noua Zeelandă 42940,58 4,51
Olanda 48223,16 4,54
Pakistan 1547,85 3,39
Peru 6571,93 3,27
Polonia 13811,66 2,97
Portugalia 21136,30 3,92
Republica Cehă 20368,14 3,81
Rusia 10743,10 2,29
Singapore 57714,30 4,39
Spania 28156,82 4,84
Sri Lanka 4065,22 3,77
Suedia 53442,01 6,12
SUA 59531,66 5,28
Thailanda 6593,82 3,72
Turcia 10540,62 2,83
Ucraina 2639,82 1,64
Ungaria 14224,85 3,43
Uruguay 16245,60 4,90
Vietnam 2343,12 2,86

Folosind acelaşi program (Excel), se observă că în urma acestei


modificări are loc o creştere a coeficientului de regresie liniară la
valoarea de 0,00008 (figura 8.4), verificându-se relaţia:

289
Figura 8.3

Figura 8.4

Trebuie observat faptul că figurile 8.3 şi 8.4 nu sunt identice, diferenţa


esenţială dintre ele fiind cea în legătură cu scara de reprezentare a
variabilei abscisei (X). Astfel, scara abscisei din figura 8.4 este de 2 (=
inversa constantei cu care au fost multiplicate valorile variabilei X) ori
mai mare decât cea din figura 8.3.
290
Figura 8.5

Pentru a sesiza corect modificarea coeficientului de regresie, deci a


pantei liniei ecuaţiei de regresie în urma înmulţirii tuturor valorilor
variabilei X cu o constantă (în exemplul nostru, în valoare de ½ =
0,5), este necesară reprezentarea noului nor de puncte la aceeaşi scară,
ca în figura 8.5. După cum se poate observa din această figură, panta
noii linii de regresie se obţine prin înmulţirea pantei vechii linii de
regresie cu inversa constantei alese (în exemplul nostru, aceasta este
egală cu 1/½ = 2).
 multiplicarea variabilei explicate sau dependente cu o constantă
determină multiplicarea cu aceeaşi constantă a coeficientului de
regresie liniară:

 combinând cele două proprietăţi anterioare, rezultă:

291
 coeficientul de regresie liniară se poate obține prin înmulțirea
coeficientului de corelație liniară cu raportul dintre abaterile standard
ale valorilor înregistrate de variabilele Y, respectiv X:

Regresia cuadratică (parabolică) simplă pe baza metodei celor mai mici


pătrate
Regresia cuadratică sau parabolică are la bază ipoteza că răspunsul
variabilei explicate la variabila explicativă îmbracă forma unei funcţii
cuadratice:

Suma pătratelor abaterilor de regresie este de această dată:

unde:
S reprezintă suma pătratelor erorilor sau abaterilor statistice de regresie;
(yi)= abaterea de regresie pentru valoarea yi a variabilei statistice Y;
xi = valoarea variabilei statistice independente X pentru care s-a înregistrat
valoarea yi a variabilei dependente Y;

292
, , parametrii de regresie liniară între variabilele X şi Y.
Minimizarea sumei pătratelor erorilor statistice de regresie înseamnă
îndeplinirea condiţiei ca derivatele parţiale de ordinul întâi în raport cu
parametrii ,  și să fie egale cu 0:

şi

Rezultă astfel următorul sistem de ecuații:

Este vorba despre un sistem format din trei ecuații cu trei necunoscute,
acestea din urmă constituind chiar parametrii funcției de regresie
cuadratică (,  și ):

293
Folosind metoda matriceală pentru rezolvarea acestui sistem, se obține mai
departe ecuația:

unde:

și

294
Parametrii ecuației de regresie cuadratică se pot obține așadar pe seama
relației:

unde:
A-1 este matricea inversă a matricii A.
Pentru a prezenta un exemplu vom folosi datele expuse în tabelul 8.9, care
descriu nivelurile obținute pentru o anumită producție agricolă în diferite
regimuri de temperatură (descrise prin mediile temperaturilor înregistrate
în perioadele considerate).
Norul de puncte corespunzător valorilor înregistrate pentru cele două
variabile (variabila temperaturii medii, variabilă independentă și variabila
nivelului de producție, variabilă dependentă) sugerează existența între
acestea a unei legături statistice cuadratice (a se vedea figura 8.6).

Tabelul 8.9
Temperatură medie Producție
Perioada înregistrată (tone/ha)
(i)
(xi) (yi)
1 24,8 2,5
2 24,6 2,8
3 31,9 2,1
4 30,1 2,7
5 31,3 2,8
6 31,4 2,4
7 30,3 2,5
8 27,6 2,7
9 27,4 3,1
10 25,6 2,7
11 24,0 2,2
12 26,4 2,9
13 28,9 3,0
14 26,3 2,8
15 26,3 2,6

295
Pentru a obține parametrii funcției de regresie cuadratică, trebuie
determinate pentru început matricile A și B. În acest scop, calculăm
elementele necesare în tabelul 8.10.

Figura 8.6

Tabelul 8.10

i xi yi
1 24,8 2,5 615,04 15252,99 378274,20 62,00 1537,60
2 24,6 2,8 605,16 14886,94 366218,63 68,88 1694,45
3 31,9 2,1 1017,61 32461,76 1035530,11 66,99 2136,98
4 30,1 2,7 906,01 27270,90 820854,12 81,27 2446,23
5 31,3 2,8 979,69 30664,30 959792,50 87,64 2743,13
6 31,4 2,4 985,96 30959,14 972117,12 75,36 2366,30
7 30,3 2,5 918,09 27818,13 842889,25 75,75 2295,23
8 27,6 2,7 761,76 21024,58 580278,30 74,52 2056,75
9 27,4 3,1 750,76 20570,82 563640,58 84,94 2327,36
10 25,6 2,7 655,36 16777,22 429496,73 69,12 1769,47
11 24,0 2,2 576,00 13824,00 331776,00 52,80 1267,20
12 26,4 2,9 696,96 18399,74 485753,24 76,56 2021,18
13 28,9 3,0 835,21 24137,57 697575,74 86,70 2505,63
14 26,3 2,8 691,69 18191,45 478435,06 73,64 1936,73
15 26,3 2,6 691,69 18191,45 478435,06 68,38 1798,39
Total 416.9 39.8 11686,99 330430,98 9421066,63 1104,55 30902,64

296
Conform rezultatelor calculelor din tabelul tabelul 8.10, se obțin
următoarele matrici A și B:

Determinăm mai departe matricea inversă a matricii A:

unde:
A-1 este matricea inversă a matricii A;
det (A) = determinantul matricii A. În urma calcului acestuia se obține că
valoarea sa este 609268,36;
A* = matricea adjunctă a matricii A. Această matrice se obţine prin
înlocuirea fiecărui element aij al matricii A cu determinantul obţinut din
matricea A după eliminarea liniei i şi coloanei j:

Se obține, prin urmare, că:

Așadar:

297
Conform acestui rezultat, funcția de regresie cuadratică pentru exemplul
nostru este:

Reprezentarea grafică a acestei funcții de regresie este redată în figura 8.7:

Figura 8.7

Alte modele de regresie neliniară simplă pe baza metodei celor mai mici
pătrate
Pe baza metodei celor mai mici pătrate se pot obține și alte modele de
regresie neliniară simplă. Dintre aceste enumerăm mai jos doar pe cele
întâlnite mai frecvent:
 funcție polinomială de gradul al 3-lea sau cubică:

 funcție logaritmică:

 funcție exponențială:

 funcție de tip putere:

298
 funcție hiperbolică:

Indiferent de tipul de model neliniar, construirea acestuia revine la


determinarea parametrilor a, b, c etc. care definesc funcția matematică de
regresie aleasă ca urmare a considerentelor de natură empirică formulate
pe baza prezentării grafice a datelor existente. Se poate observa faptul că
raportată la parametrii a, b, c etc., funcția matematică de regresie aleasă
este fie o funcție liniară (este de exemplu, cazul funcțiilor polinomiale -
cuadratice, cubice etc. sau a funcției logaritmice), fie o funcție care se
poate liniariza (cum este în cazul funcțiilor exponențiale sau de tip putere).
Aceasta înseamnă că modelele de regresie neliniară se pot construi tot prin
recursul la modele liniare.
De pildă, funcția exponențială se poate liniariza prin logaritmare,
obținându-se astfel un model liniar:

În mod asemănător se poate proceda în cazul funcției de tip putere,


rezultând modelul:

Să exemplificăm pentru funcția exponențială folosind datele din tabelul


8.11, privind evoluția cifrei de afaceri pentru o companie aflată într-o
perioadă de creștere deosebită6.

Tabelul 8.11
Anul Cifra de afaceri (mil. lei)
2011 1,12
2012 1,48
2013 1,78
2014 2,15
2015 3,03
2016 4,12
2017 5,33

6
Trebuie subliniat că modelul exponențial trebuie folosit în astfel de cazuri cu prudență, dat fiind faptul
că variabilele economice cresc exponențial doar pe perioade destul de limitate de timp.

299
Cronograma din figura 8.8, în care este prezentată grafic evoluția cifrei de
afaceri pentru compania considerată, sugerează într-adevăr o creștere
exponențială a acesteia.
Pentru a obține parametrii funcției exponențiale de regresie vom considera
forma liniarizată:

Întrucât în această formă variabila Y este înlocuită de variabila lnY, rezultă


că parametrul  trebuie calculat pe baza variabilei lnY. Pentru realizarea
calculelor necesare se construiește tabelul 8.12, în care sunt determinate
valorile variabilei lnY.

Figura 8.8

Tabelul 8.12
xi yi ln yi
2011 1,12 0,1133
2012 1,48 0,3920
2013 1,78 0,5766
2014 2,15 0,7655
2015 3,03 1,1086
2016 4,12 1,4159
2017 5,33 1,6734

300
Se poate verifica ușor faptul că pentru variabila dependentă lnY și
variabila independentă X coeficientul de regresie liniară este:

Această valoare este echivalentă cu valoarea parametrului  de regresie


exponențială pentru variabilele X și Y.
Se obține mai departe că intercepția pentru regresia liniară dintre aceste
variabile este:

Această valoare reprezintă logaritmul natural al parametrului  de regresie


exponențială pentru variabilele X și Y. Așadar, parametrul  de regresie
exponențială pentru variabilele X și Y este:

Prin urmare, modelul de regresie exponențială pentru variabile X și Y este:

Acest model este reprezentat grafic în figura 8.9.

Figura 8.9

301
În cazul funcției hiperbolice se poate observa că nu este nevoie de
liniarizarea acesteia, întrucât raportată la parametrii de regresie ( și ) ea
este o funcție liniară. Pentru construirea modelului de regresie în acest caz
este nevoie doar de transformarea variabilei X în variabila 1/X, urmând ca
parametrii de regresie să fie determinați ca în cazul regresiei liniare simple
pentru variabila dependentă Y și variabila independentă 1/X.
Pentru ilustrarea acestui caz, să considerăm datele din tabelul 8.13, privind
evoluția profitului pentru o companie care activează pe o nișă de piață în
curs de ocupare.

Tabelul 8.13
Anul Profitul (mil. lei)
1 7.97
2 3.95
3 2.52
4 1.88
5 1.49
6 1.22
7 1.03
8 1.01

Pentru realizarea calculelor necesare se construiește tabelul 8.14, în care


sunt determinate valorile variabilei 1/X.

Tabelul 8.14
xi 1/xi yi
1 1.0000 7.97
2 0.5000 3.95
3 0.3333 2.52
4 0.2500 1.88
5 0.2000 1.49
6 0.1667 1.22
7 0.1429 1.03
8 0.1250 1.01

302
Parametrul  de regresie liniară pentru variabila dependentă Y și variabila
independentă 1/X este:

Această valoare este echivalentă cu valoarea parametrului  de regresie


hiperbolică pentru variabilele X și Y.
Se află mai departe că intercepția modelului de regresie liniară pentru
variabila dependentă Y și variabila independentă 1/X este:

Această valoare este echivalentă cu valoarea parametrului  de regresie


hiperbolică pentru variabilele X și Y.
Așadar, modelul de regresie hiperbolică pentru variabilele X și Y este:

Acest model este reprezentat grafic în figura 8.10.

Figura 8.10

303
8.5. Regresia liniară univariată multiplă
Modelarea statistică a unui fenomen impune deseori considerarea unei
variabile explicate în relație cu mai multe variabile explicative. Folosirea
metodei celor mai mici pătrate de eroare statistică pentru construirea unui
model de regresie liniară in astfel de situații poate fi văzută ca o
generalizare a regresiei liniare simple pe baza acestei metode, prezentată
în paragraful anterior.
Regresia liniară univariată multiplă are la bază ipoteza că răspunsul
variabilei explicate la variabilele explicative îmbracă forma unei funcţii de
tipul:

Pentru un astfel de model, suma pătratelor abaterilor de regresie este:

unde:
S reprezintă suma pătratelor erorilor sau abaterilor statistice de regresie;
(yi)= abaterea de regresie pentru valoarea yi a variabilei statistice Y;
x1i = valoarea variabilei statistice explicative X1 pentru care s-a înregistrat
valoarea yi a variabilei explicate Y;
x2i = valoarea variabilei statistice explicative X2 pentru care s-a înregistrat
valoarea yi a variabilei explicate Y;
xpi = valoarea variabilei statistice explicative Xp pentru care s-a înregistrat
valoarea yi a variabilei explicate Y;
, , pparametrii de regresie liniară între variabilele
explicative X1, X2 ... Xp şi variabila explicată Y.

304
Minimizarea sumei pătratelor erorilor statistice de regresie înseamnă
îndeplinirea condiţiei ca derivatele parţiale de ordinul întâi în raport cu
parametrii , , psă fie egale cu 0:

...

Toate aceste ecuații formează următorul sistem:

Acest sistem este format din p + 1 ecuații cu tot atâtea necunoscute,


acestea din urmă fiind parametrii funcției de regresie multiplă (, ,
p):

305
Aplicând metoda matriceală pentru rezolvarea acestui sistem, se obține
mai departe ecuația:

unde:

306
și

Prin urmare, parametrii ecuației de regresie multiplă se pot obține așadar


pe seama relației:

unde:
A-1 este matricea inversă a matricii A.
Pentru a prezenta un exemplu de regresie liniară multiplă construit pe
seama a patru variabile explicative, vom folosi datele expuse în tabelul
8.15, care descriu notele obținute de către un grup de studenți (variabila
explicată Y) pentru care se cunosc:
- punctajele realizate la un test de inteligență emotională privind:
conștientizarea și cunoașterea în detaliu a propriilor emoții (variabila
explicativă X1);
- capacitatea de gestionare și control a acestora (variabila explicativă X2);
- conștientizarea și cunoașterea în detaliu a emoțiilor altora (variabila
explicativă X3);
- capacitatea de gestionare și control a emoțiilor altora (variabila
explicativă X4).
Regresia liniară univariată multiplă se bazează în acest caz pe ipoteza că
răspunsul variabilei explicate la variabilele explicative îmbracă forma unei
funcţii de tipul:

307
Tabelul 8.15
i X1 X2 X3 X4 Y
1 6 8 9 8 8
2 7 7 7 8 7
3 8 7 8 7 8
4 10 9 7 9 9
5 5 6 5 6 7
6 4 8 7 6 6
7 8 5 7 7 7
8 6 6 6 7 6
9 7 9 10 8 9
10 8 10 10 9 10

Minimizarea sumei pătratelor erorilor statistice de regresie conduce mai


departe la obținerea ecuației matriceale:

unde:

308
și

Valorile matricei A și a vectorului B au fost obținute pe baza calculelor


din tabelele 8.16-8.18 astfel:
- în tabelul 8.16 au fost determinate valorile de pe primul rând și prima
coloană ale matricei A, respectiv de pe diagonala stânga-sus – dreapta-jos
a acesteia;
- în tabelul 8.17 au fost determinate celelalte valori ale matricei A;
- în tabelul 8.18 au fost determinate valorile vectorului B.

309
Tabelul 8.16

i X1 X2 X3 X4
1 6 8 9 8 36 64 81 64
2 7 7 7 8 49 49 49 64
3 8 7 8 7 64 49 64 49
4 10 9 7 9 100 81 49 81
5 5 6 5 6 25 36 25 36
6 4 8 7 6 16 64 49 36
7 8 5 7 7 64 25 49 49
8 6 6 6 7 36 36 36 49
9 7 9 10 8 49 81 100 64
10 8 10 10 9 64 100 100 81
Total 69 75 76 75 503 585 602 573

Tabelul 8.17

i X1 X2 X1 X3 X1 X4 X2 X3 X2 X4 X3 X4
1 48 54 48 72 64 72
2 49 49 56 49 56 56
3 56 64 56 56 49 56
4 90 70 90 63 81 63
5 30 25 30 30 36 30
6 32 28 24 56 48 42
7 40 56 56 35 35 49
8 36 36 42 36 42 42
9 63 70 56 90 72 80
10 80 80 72 100 90 90
Total 524 532 530 587 573 580

310
Tabelul 8.18

i Y X1 Y X2 Y X3 Y X4 Y
1 8 48 64 72 64
2 7 49 49 49 56
3 8 64 56 64 56
4 9 90 81 63 81
5 7 35 42 35 42
6 6 24 48 42 36
7 7 56 35 49 49
8 6 36 36 36 42
9 9 63 81 90 72
10 10 80 100 100 90
Total 77 545 592 600 588

Se obține mai departe că:

311
Prin urmare, modelul de regresie pentru exemplul nostru este:

8.6. Coeficientul de determinare (R2)


Se poate arăta că varianţa variabilei dependente sau explicate (Y ) se poate
descompune în:
1. varianţa explicată de modelul de regresie, adică varianţa valorilor
estimate de model (Ŷ ) pentru variabila explicată în jurul mediei aritmetice
a acesteia din urmă;
2. varianţa reziduală, adică varianţa neexplicată de modelul de regresie,
dată de abaterile ( ) valorilor reale ale variabilei Y faţă de valorile
estimate (Ŷ ) de modelul de regresie.
Putem scrie, astfel, următoarea relaţie de adunare a varianțelor7:

Pe baza acestei relaţii, se poate obţine coeficientul de determinare (R2), ca


şi raport între varianţa explicată de modelul de regresie şi varianţa totală a
variabilei explicate Y, arătând care este ponderea în care această variabilă
este determinată sau explicată de către modelul de regresie, fiind, astfel, o
statistică de apreciere a calităţii modelului de regresie construit:

După cum se poate uşor observa, teoretic coeficientul de determinare


poate înregistra valori cuprinse între 0 şi 1, o apropiere mai mare de 1
indicând o calitate mai bună a modelului de regresie.
Pentru modelul de regresie cuadratică exemplificat în paragraful
precedent, valoarea coeficientului de determinare este egală cu 0,5835,
aceasta fiind obținută cu ajutorul calculelor realizate în tabelul 8.19:

7
A nu se confunda această relație cu cea prezentată în paragraful 6.5, în care este vorba despre adunarea
varianțelor implicate de gruparea bivariată a valorilor reale înregistrate. În ce privește relația de față, este
vorba despre varianțe implicate de modelul de regresie, model care generează valori ajustate sau estimate
și nu valori reale.

312
Concluzia care se poate desprinde pe baza acestei valori a raportului de
determinație este că deși legătura dintre cele două variabile corespunde
unui model parabolic, ea este insuficient de puternică pentru a putea fi
modelată fără mari reproșuri pe baza unui astfel de model matematic.

Tabelul 8.19
pătrate
pătrate y estimat erori de
i xi yi erori de
yi de model regresie
regresie
1 24,8 2,5 6,25 2,5505 -0,0505 0,0025
2 24,6 2,8 7,84 2,5019 0,2981 0,0889
3 31,9 2,1 4,41 2,2804 -0,1804 0,0326
4 30,1 2,7 7,29 2,7161 -0,0161 0,0003
5 31,3 2,8 7,84 2,4534 0,3466 0,1201
6 31,4 2,4 5,76 2,4265 -0,0265 0,0007
7 30,3 2,5 6,25 2,6800 -0,1800 0,0324
8 27,6 2,7 7,29 2,9075 -0,2075 0,0430
9 27,4 3,1 9,61 2,9020 0,1980 0,0392
10 25,6 2,7 7,29 2,7141 -0,0141 0,0002
11 24,0 2,2 4,84 2,3376 -0,1376 0,0189
12 26,4 2,9 8,41 2,8284 0,0716 0,0051
13 28,9 3,0 9,00 2,8680 0,1320 0,0174
14 26,3 2,8 7,84 2,8168 -0,0168 0,0003
15 26,3 2,6 6,76 2,8168 -0,2168 0,0470
Total 416,9 39,8 106,68 0,4487
Medii
27,7933 2,6533 7,112 0,0299
aritmetice

313
Același lucru se poate spune și despre modelele de regresie liniară din
figurile 8.3-8.5 sau 8.7.
Pentru norul de puncte din figura 8.11, care redă evoluția cifrei de afaceri
a S.C. Intelligent IT S.R.L. (Sibiu) în perioada 2012-20178, se pot alege
mai multe modele de regresie, patru dintre acestea fiind reprezentate în
figurile 8.12-8.15.

Figura 8.11 Evoluția cifrei de afaceri a S.C. Intelligent IT S.R.L. în


perioada 2012-2017

Pentru fiecare dintre cele patru modele de regresie a fost calculată valoarea
coeficientul de determinare9. Din compararea celor patru valori se poate
constata că cel mai bun model de regresie care se poate aplica datelor
considerate este modelul de regresie cubică, model pentru care valoarea
coeficientului de determinare este foarte apropiată de 1. Acest fapt este
evidențiat, de altfel, și de reprezentările grafice din figurile 8.12-8.15
(curba cea mai apropiată de punctele care au ca și coordonate datele
considerate este curba funcției de regresie cubică).
Coeficientul de determinare corespunzător modelului de regresie liniară
este egal cu pătratul coeficientului de corelație liniară, acesta fiind motivul
pentru care el se notează cu R2. Această proprietate este verificată mai jos
pentru datele privind evoluția cifrei de afaceri a S.C. Intelligent IT S.R.L.

8
Datele au fost preluate de pe site-ul ministerului de finanțe:
http://www.mfinante.gov.ro/agenticod.html?pagina=domenii

9
Pentru efectuarea calculelor necesare s-a folosit calculatorul online disponibil la adresa:
http://polynomialregression.drque.net/online.php

314
în perioada 2012-2017, folosind în acest scop calculele realizate în tabelul
8.20:

Se obține într-adevăr că:

Conform tabelului 8.1, un coeficient de corelație liniară a cărui valoare


este mai mică decât 0,95 indică o legătură statistică liniară care nu este
foarte puternică între cele două variabile. Aceasta este explicația faptului
că modelul de regresie liniară este caracterizat în acest caz de un coeficient
de determinare care nu este foarte mare.

Tabelul 8.20
# xi yi xi yi xi 2 yi 2
1 2012 1,337068 2690,1808 4048144 1,7878
2 2013 1,567750 3155,8808 4052169 2,4578
3 2014 1,786687 3598,3876 4056196 3,1923
4 2015 2,636602 5312,7530 4060225 6,9517
5 2016 4,498354 9068,6817 4064256 20,2352
6 2017 7,076849 14274,0044 4068289 50,0818
Total 12087 18,903310 38100,8883 24349279 84,7065

315
Figura 8.12 Modelul de regresie liniară aplicat datelor privind
evoluția cifrei de afaceri a S.C. Intelligent IT S.R.L. în perioada 2012-
2017

Figura 8.13 Modelul de regresie exponențială aplicat datelor privind


evoluția cifrei de afaceri a S.C. Intelligent IT S.R.L. în perioada 2012-
2017

316
Figura 8.14 Modelul de regresie cuadratică sau parabolică aplicat
datelor privind evoluția cifrei de afaceri a S.C. Intelligent IT S.R.L. în
perioada 2012-2017

Figura 8.15 Modelul de regresie cubică aplicat datelor privind


evoluția cifrei de afaceri a S.C. Intelligent IT S.R.L. în perioada 2012-
2017

Pentru exemplul de model de regresie liniară univariată multiplă prezentat


în paragraful 8.5, coeficientul de determinare, obținut pe baza calculelor
din tabelul 8.21, este:

317
sau:

Tabelul 8.21

i Y Y2 
 
1 8 64 7.8724 61.9744 0.1276 0.0163

2 7 49 7.3642 54.2319 -0.3642 0.1327

3 8 64 8.0652 65.0480 -0.0652 0.0043

4 9 81 9.1757 84.1928 -0.1757 0.0309

5 7 49 5.8561 34.2941 1.1439 1.3085

6 6 36 6.7367 45.3832 -0.7367 0.5427

7 7 49 7.0636 49.8951 -0.0636 0.0041

8 6 36 6.4240 41.2672 -0.4240 0.1797

9 9 81 8.8792 78.8410 0.1208 0.0146

10 10 100 9.5628 91.4474 0.4372 0.1911

Total 77,0 609,0 77,0 606.5752 0.0000 2.4248

Medii 7,7 60,9 7.7 60.6575 0.0000 0.2425

318
Rezultă că:

Valoarea coeficientului de determinare este și în cazul acestui exemplu


una destul de bună (ea depășește valoarea de 0,75, ceea ce înseamnă că
mai mult de trei sferturi din varianța totală a valorilor variabilei
dependente corespunde varianței valorilor estimate pentru această
variabilă de modelul de regresie obținut).

319
320
DESCRIEREA STATISTICĂ
A VARIAŢIEI ÎN TIMP
(CRONOLOGICE) 9.

OBIECTIVELE CAPITOLULUI
În acest capitol vor fi prezentate statisticile care se pot folosi pentru descrierea
statistică a variaţiei în timp, ajutând cititorul în efortul de:
 înţelegere a utilității cunoaşterii variaţiei în timp la nivelul fenomenelor
studiate statistic;
 stăpânire a metodelor disponibile pentru descrierea statistică a variaţiei în timp
sub forma nivelurilor, volumelor şi sporurilor absolute sau relative;
 înţelegere a modului în care se construiesc indicii cronologici agregaţi
ponderaţi şi cunoaşterea câtorva aplicaţii mai importante ale acestor indici.

321
322
Descrierea statistică a variaţiei în timp presupune culegerea de date pentru
un şir de momente sau de perioade/intervale de timp, rezultatele obţinute
astfel putând fi prezentate fie sub forma seriilor cronologice, în cazul
datelor simple, negrupate, fie sub forma distribuţiilor cronologice, în
cazul datelor grupate.
În figura 9.1 sunt reprezentate, pentru exemplificare, pe același grafic,
două serii cronologice: una privind importul, cealaltă exportul Germaniei
în relația sa comercială cu Iranul pe perioada anilor 2007-20171.

Figura 9.1

În descrierea statistică a variaţiei cronologice sunt avute în vedere:


 modificările de nivel (creşteri sau descreşteri) care au loc de la un
moment la altul sau de la o perioadă la alta. Asemenea modificări pot fi
evidenţiate sub forma sporurilor, a indicilor (ritmurilor) individuali,
a ratelor sau a indicilor agregaţi simpli;
 modificările de structură care au loc de la un moment la altul sau de la
o perioadă la alta. Asemenea modificări pot fi evidenţiate cu ajutorul
indicilor agregaţi ponderaţi.

1
Cf.: Hannoversche Allgemeine Zeitung, 9 august 2018, p. 9.

323
9.1. Descrierea statistică a variaţiei cronologice de nivel
Descrierea statistică a variaţiei cronologice de nivel se poate realiza în
cifre absolute, relative sau medii (evidenţiind tendinţa statistică centrală
manifestată în timp).

Descrierea statistică în cifre absolute a variaţiei cronologice de nivel


Descrierea statistică în cifre absolute a variaţiei cronologice de nivel se
poate face cu ajutorul nivelurilor, volumelor şi a sporurilor absolute.
Nivelurile absolute ale unei variabile cronologice sunt date de valorile pe
care aceasta le înregistrează la momentele sau în perioadele/intervalele de
timp considerate.
Volumele absolute care pot fi determinate la nivelul unei variabile
cronologice se obţin ca rezultate ale însumării nivelurilor absolute
înregistrate pentru un şir de momente sau perioade/intervale care definesc
această variabilă:

unde:
Vi reprezintă volumul absolut al primelor „i” momente sau perioade de
timp;
xt = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t”.
Sporurile absolute sunt diferenţe înregistrate în timp pentru o variabilă de
nivel absolut. Acestea se pot grupa în:
 sporuri cu bază fixă, obţinute ca diferenţe faţă de un prim nivel absolut
înregistrat:

unde:
t/1 reprezintă sporul absolut cu bază fixă al momentului sau perioadei
de timp „t”;
xt = nivelul absolut înregistrat de variabila X pentru momentul sau
perioada de timp „t”;

324
x1 = nivelul absolut înregistrat de variabila X pentru primul moment
sau pentru prima perioadă de timp („1”) care defineşte variabila
cronologică folosită;
 sporuri cu bază mobilă, obţinute ca diferenţe faţă de nivelurile absolute
înregistrate în momentele sau perioadele imediat anterioare:

unde:
t/t-1 reprezintă sporul absolut cu bază mobilă al momentului sau
perioadei de timp „t”;
xt = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t”;
xt-1 = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t-1”.

Relaţii existente între sporurile absolute


Între sporurile absolute cu bază fixă şi sporurile absolute cu bază mobilă
determinate la nivelul unei aceleiaşi serii statistice cronologice, se pot
evidenţia următoarele relaţii:

Aceasta înseamnă că suma tuturor sporurilor absolute cu bază mobilă este


egală cu ultimul spor absolut cu bază fixă.

Aceasta înseamnă că sporul absolut cu bază mobilă pentru momentul sau


perioada de timp „t” este egal cu diferenţa dintre sporul absolut cu bază
fixă pentru acelaşi moment sau perioadă de timp „t” şi sporul absolut cu
bază fixă pentru momentul sau perioada de timp imediat anterioară („t-1”).

Descrierea statistică în expresie relativă a variaţiei cronologice de nivel


Descrierea statistică în expresie relativă a variaţiei cronologice de nivel se
poate realiza cu ajutorul:
 indicilor sau ritmurilor individuale de variaţie;
 ratelor (ritmurilor sporurilor) de variaţie;

325
 coeficientului de elasticitate;
 sporului marginal;
 indicilor agregaţi de variaţie;
 valorilor absolute ale procentelor de creştere.
Indicii sau ritmurile individuale de variaţie arată de câte ori a crescut sau
a scăzut nivelul unei variabile la un moment sau într-o perioadă de timp
faţă de un moment sau o perioadă de timp anterioară (considerată ca şi
bază de raportare).
După baza de raportare, indicii sau ritmurile se împart, de asemenea, în
indici sau ritmuri cu bază fixă şi indici sau ritmuri cu bază mobilă, şi se
pot exprima sub formă de coeficienţi sau sub formă procentuală:

unde:
t/1 reprezintă indicele cu bază fixă al momentului sau perioadei de timp
„t”;
t/t-1 = indicele cu bază mobilă al momentului sau perioadei de timp „t”;
xt = nivelul absolut înregistrat de variabila X pentru momentul sau
perioada de timp „t”;
x1 = nivelul absolut înregistrat de variabila X pentru primul moment sau
pentru prima perioadă de timp („1”) care defineşte variabila cronologică
folosită;
xt-1 = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t-1”.
Pentru exemplificare ne putem referi la faptul că producţia industrială a
crescut în august 2018 cu 0,9% în zona euro şi cu 1,2% în Uniunea
Europeană, comparativ cu perioada similară din 2017, conform datelor
publicate de Oficiul European de Statistică (Eurostat) 2. Aceasta înseamnă
că indicele de variație a producţiei industriale pentru august 2018, având
ca bază (fixă) luna august 2017, a fost de 100,9% la nivelul zonei euro și
de 101,2% la nivelul UE.

2
Cf.: https://romanialibera.ro/economie/productia-industriala-a-crescut-mai-rapid-in-romania-decat-in-
ue-756389 (accesat în 13 octombrie 2018)

326
Relaţii existente între indici
Între ritmurile cu bază fixă şi ritmurile cu bază mobilă determinate la
nivelul unei aceleiaşi repartiţii statistice cronologice, se pot evidenţia
următoarele două relaţii:

Aceasta înseamnă că produsul tuturor indicilor cu bază mobilă este egal cu


ultimul indice cu bază fixă.

Aceasta înseamnă că indicele cu bază mobilă pentru momentul sau


perioada de timp „t” este egal cu raportul dintre indicele cu bază fixă
pentru acelaşi moment sau perioadă de timp „t” şi indicele cu bază fixă
pentru momentul sau perioada de timp imediat anterioară („t-1”).

Ratele sau ritmurile sporurilor


Ratele sau ritmurile sporurilor arată cu cât s-au modificat, în expresie
relativă, nivelurile înregistrate de o variabilă de la un moment sau perioadă
de timp la alt moment sau perioadă de timp. Şi ele se pot calcula folosind
ca bază de raportare fie o bază fixă fie o bază mobilă, putându-se exprima
ca şi coeficienţi sau, cel mai adesea, procentual:

unde:
Rt/1 reprezintă rata cu bază fixă pentru momentul sau perioada de timp „t”;
Rt/t-1 = rata cu bază mobilă pentru momentul sau perioada de timp „t”;

327
t/1 reprezintă sporul absolut cu bază fixă al momentului sau perioadei de
timp „t”;
xt = nivelul absolut înregistrat de variabila X pentru momentul sau
perioada de timp „t”;
x1 = nivelul absolut înregistrat de variabila X pentru primul moment sau
pentru prima perioadă de timp („1”) care defineşte variabila cronologică
folosită;
t/1 = indicele cu bază fixă al momentului sau perioadei de timp „t”;
t/t-1 = sporul absolut cu bază mobilă al momentului sau perioadei de timp
„t”;
xt-1 = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t-1”;
t/t-1 = indicele cu bază mobilă al momentului sau perioadei de timp „t”.

Coeficientul de elasticitate
Coeficientul de elasticitate descrie sporul, în expresie relativă, a nivelului
înregistrat de o variabilă (X) într-o anumită perioadă de timp în raport cu
sporul pe parcursul aceleiași perioade de timp a unei alte variabile
relevante din punct de vedere comparativ:

Pentru interpretarea acestui coeficient se au în vedere următoarele trei


situații posibile:
 o valoarea subunitară a coeficientului indică faptul că dinamica
fenomenului descris de variabila X a fost inferioară dinamicii
înregistrate de fenomenul descris de către variabila Y;
 valoarea de 1 a acestui coeficient pune în evidență o dinamică similară
pentru cele două fenomene;
 o valoarea supraunitară a coeficientului indică faptul că dinamica
fenomenului descris de variabila X a fost superioară dinamicii
înregistrate de fenomenul descris de către variabila Y.
O condiție importantă pentru relevanța acestui coeficient constă în
comparabilitatea variabilelor X și Y.

328
Sporul marginal
Sporul marginal este în strânsă legătură cu coeficientul de elasticitate. El
se obține prin raportarea, de această dată, a ritmurilor sporurilor
înregistrate la nivelul a două variabile cronologice:

Valoarea sporului marginal indică de câte ori diferă ritmul sporului


înregistrat la nivelul variabilei X față de ritmul sporului înregistrat la
nivelul variabilei Y.
Ca și în cazul coeficientului de elasticitate, asigurarea relevanței acestei
statistici impune condiția comparabilității variabilelor X și Y.
Coeficientul de elasticitate și sporul marginal sunt statistici folosite
deseori în analizele economice (de pildă, prezintă un deosebit interes
analiza elasticității cererii pentru un anumit produs față de dinamica
prețului cerut pentru acesta, a veniturilor consumatorilor etc.).

Indicii agregaţi
Operaţia de agregare constă în însumarea unor valori care caracterizează
într-o formă sau alta fenomenul statistic studiat. În funcţie de
caracteristicile descrise de acestor valori, se poate recurge la operaţii de:
 agregare simplă (atunci când valorile descriu aceeaşi caracteristică);
 agregare ponderată (atunci când valorile descriu caracteristici
diferite).
Indicii agregaţi simpli se obţin prin raportarea nivelurilor absolute
agregate simplu pentru două momente sau perioade diferite de timp:

unde:
X1/0 reprezintă indicele agregat simplu al momentului sau perioadei de
timp 1 (de obicei, momentul sau perioada de timp curentă) faţă de

329
momentul sau perioada de timp 0 (de obicei, momentul sau perioada de
timp aleasă ca şi referinţă sau bază de raportare);
xi1 = nivelul absolut înregistrat pentru caracteristica „i” la momentul sau în
perioada de timp 1;
xi0 = nivelul absolut înregistrat pentru caracteristica „i” la momentul sau în
perioada de timp 0.
Indicii agregaţi ponderaţi se obţin prin raportarea nivelurilor absolute
agregate ponderat. Modelul de bază pentru construirea acestor indici este:

unde:
XP1/0 reprezintă indicele agregat ponderat al momentului sau perioadei de
timp 1 (de obicei, momentul sau perioada de timp curentă) faţă de
momentul sau perioada de timp 0 (de obicei, momentul sau perioada de
timp aleasă ca şi referinţă sau bază de raportare);
pi = factor de ponderare pentru nivelul „xi” înregistrat de către
caracteristica „i”; de exemplu, el poate îmbrăca forma frecvenţelor
absolute sau relative înregistrate pentru nivelul „xi” în diferite momente
sau perioade de timp.

Teste utile pentru construcţia adecvată a indicilor agregaţi ponderaţi


În consutrucţia indicilor agregaţi ponderaţi structural trebuie să se asigure
în primul rând identificarea precisă a factorului calitativ şi, respectiv, a
factorului cantitativ (factorul de ponderare) care au fost luaţi în
considerare la construcţia indicilor agregaţi ponderaţi. Dacă această
condiţie esenţială este respectată, pentru construcţia adecvată a indicilor
agregaţi ponderaţi structural se recomandă folosirea, în plus, de teste
privind:
 proporţionalitatea – orice multiplicare / împărţire la nivelul factorului
calitativ trebuie să fie urmată de aceeaşi multiplicare / împărţire la
nivelul indicelui agregat ponderat ales;
 comensurabilitatea – indicele agregat ponderat ales trebuie să fie
invariant la modificările operate asupra unităţilor de măsură (de
exemplu, dacă preţurile considerate în determinarea unui indice de

330
preţuri sunt exprimate iniţial în RON, iar apoi în Euro, indicele de
preţuri ar trebui să înregistreze aceiaşi valoare în ambele situaţii);
 monotonia – dacă unul sau mai multe valori ale factorului calitativ (de
exemplu, unul sau mai multe preţuri) cresc în perioada curentă şi nici
unul nu scade, atunci indicele agregat ponderat (de exemplu, cel al
preţurilor) ar trebui să crească;
 reversibilitatea în timp – valoarea indicelui agregat ponderat calculat
ca raport între nivelul perioadei curente (perioada 1) şi cel al perioadei
de bază (perioada 0) trebuie să fie egală cu inversa valorii indicelui
agregat ponderat calculat ca raport între nivelul perioadei de bază şi cel
al perioadei curente:

Această condiţie se verifică în cazul indicilor calculaţi din valori direct


însumabile. În cazul valorilor care nu sunt însumabile direct, condiţia
poate fi respectată prin alegerea corespunzătoare a ponderilor;
 reversibilitatea factorilor – indicele agregat general, I1/0 (X · F),
trebuie să fie egal cu produsul indicilor agregaţi după factorii luaţi în
considerare (X, respectiv F) în construcţia acestuia:

 tranzitivitatea (circularitatea) – adică egalitatea dintre indicele cu bază


fixă al unei perioade şi produsul indicilor cu bază în lanţ construiţi
succesiv pentru un şir de subperioade egale ale perioadei considerate:

Tipuri de indici agregaţi ponderaţi structural


Variaţia de structură pentru înregistrările cronologice poate fi evidenţiată
cu ajutorul indicilor agregaţi ponderaţi structural.
În funcţie de sistemele de ponderare folosite, se pot construi diferiţi astfel
de indici:

331
- indicele Laspeyres;

- indicele Paasche;

- indicele Fisher;

- indicele Fisher;

- indicele Fisher;

1. Indicele Laspeyres (L1/0) a fost propus în 1864 de către economistul şi


statisticianul german de origine belgiană Etienne Laspeyres (1834-1913)3.
Indicele Laspeyres se determină conform relaţiei:

unde:
X reprezintă variabila calitativă pentru care se determină indicele (de
exemplu, variabila preţurilor practicate la nivelul unei grupe de produse);
xi1 = nivelul absolut înregistrat de către elementul „i” la momentul sau
pentru perioada de timp 1;
xi0 = nivelul absolut înregistrat de către elementul „i” la momentul sau
pentru perioada de timp 0;
F reprezintă variabila cantitativă (variabila factorului de ponderare) luată
în considerare la determinarea indicelui (de exemplu, variabila cantităţilor
vândute la preţurile practicate pentru produsele alese în definirea variabilei
X);
fi0 = factorul de ponderare Laspeyres, constând în valoarea variabilei
calitative F pentru elementul „i” la momentul sau pentru perioada de timp
0 (de exemplu, cantitatea vândută din produsul „i” în perioada de
referinţă).
Un neajuns important al acestui indice constă în faptul că el nu
îndeplineşte condiţia de reversibilitate a factorilor:
Astfel:

3
http://www.eumed.net/cursecon/economistas/Laspeyres.htm

332
unde:
I1/0 (X · F) reprezintă indicele agregat general;

L1/0 (X) = indicele Laspeyres atunci când factorul de ponderare este


variabila X;

L1/0 (F) = indicele Laspeyres atunci când factorul de ponderare este


variabila F;

2. Indicele Paasche (P1/0) a fost propus în 1874 de către economistul şi


statisticianul german Hermann Paasche (1851-1925)4, determinându-se
după relaţia:

unde:
X reprezintă variabila calitativă;
xi1 = nivelul absolut înregistrat de către elementul „i” la momentul sau
pentru perioada de timp 1;

4
http://www.eumed.net/cursecon/economistas/Paasche.htm

333
xi0 = nivelul absolut înregistrat de către elementul „i” la momentul sau
pentru perioada de timp 0;
F reprezintă variabila cantitativă;
fi1 = factorul de ponderare Paasche, constând în valoarea variabilei
calitative F pentru elementul „i” la momentul sau pentru perioada de timp
1 (de exemplu, cantitatea vândută din produsul „i” în perioada curentă).
Nici indicele Paasche nu îndeplineşte condiţia de reversibilitate a
factorilor:

unde:
I1/0 (X · F) reprezintă indicele agregat general;

P1/0 (X) = indicele Paasche atunci când factorul de ponderare este


variabila X;

P1/0 (F) = indicele Paasche atunci când factorul de ponderare este


variabila F;

3. Indicele Fisher (Fi1/0) a fost propus în 1922 de către economistul şi


statisticianul american Irving Fisher (1867-1947)5, fiind construit ca o
medie geometrică a indicilor Laspeyres şi Paasche::

5
http://www.eumed.net/cursecon/economistas/irving_fisher.htm şi
http://www.econlib.org/library/Enc/bios/Fisher.html

334
Aşadar:

Principalul avantaj al indicelui Fisher este acela că el satisface condiţia de


reversibilitate a factorilor. Se întâmplă aşa, deoarece:

4. Indicele Edgeworth (Ei1/0) este construit pe baza însmuării valorilor


înregistrate de factorul de ponderare în cele 2 momente sau perioade de
timp (perioada de referinţă şi, respectiv, perioada curentă).
Indicele Edgeworth poartă numele economistului irlandez Francis Ysidro
Edgeworth (1845-1926)6 care l-a construit astfel:

6
http://www.eumed.net/cursecon/economistas/Edgeworth.htm şi
http://www-history.mcs.st-andrews.ac.uk/Biographies/Edgeworth.html

335
Indicele Edgeworth nu îndeplineşte condiţia de reversibilitate a factorilor.

5. Indicele Drobisch (D1/0) a fost propus în 1871 de către Sidgwik


Drobisch, fiind construit ca o medie aritmetică a indicilor Laspeyres şi
Paasche:

Aşadar:

Nici indicele Drobisch nu îndeplineşte condiţia de reversibilitate a


factorilor.

Pentru exemplificare, să analizăm dinamica preţurilor agregate la nivelul a


2 produse (A şi B), pentru care se cunosc preţurile practicate şi, respectiv,
cantităţile vândute pentru 2 perioade succesive (0 şi 1), conform tabelului
9.1.

Tabelul 9.1
Preţuri practicate, p Cantităţi vândute, q
Perioada 0 1 0 1
Produsul A 100 120 3 4,5
Produsul B 250 500 2 5,0

336
Factorul de ponderare este descris aici de variabila cantităţilor vândute
(q), acestea exprimând frecvenţele de manifestare a preţurilor practicate
(p).
Pentru realizarea calculelor necesare, este utilă construirea tabelului 9.2, în
care preţurile celor 2 produse sunt ponderate cu cantităţile vândute în
fiecare dintre cele 2 perioade considerate.

Tabelul 9.2
Preţuri Cantităţi
practicate, p vândute, q p0q0 p1q0 p1q1 p0q1
Perioada 0 1 0 1
Produsul A 100 120 3 4,5 300 360 540 450
Produsul B 250 500 2 5,0 500 1000 2500 1250
Total 800 1360 3040 1700

Pe baza rezultatelor obţinute în tabelul 9.2, se pot determina indicii


agregaţi ponderaţi structural:
 indicele Laspeyres:

 indicele Paasche:

 indicele Fisher:

 indicele Edgeworth:

337
 indicele Drobisch:

Valorile absolute ale procentelor de creştere


Valorile absolute ale procentelor de creştere se obţin pornind de la relaţiile
de determinare a ratelor, considerând din nou fie o bază fixă, fie o bază
mobilă de raportare:

Descrierea statistică în valori medii a variaţiei cronologice de nivel


Statisticile medii ale variaţiei cronologice de nivel sunt:
 nivelul mediu;
 sporul mediu;
 indicele mediu.

338
Nivelul mediu
Nivelurile medii ale seriilor cronologice se determină în funcţie de tipul
variabilei de timp (T) după care sunt construite acestea.
Astfel, pentru seriile cronologice construite după o variabilă definită de
perioade sau intervale de timp, nivelul mediu se calculează ca o medie
aritmetică simplă a nivelurilor înregistrate pentru perioadele sau
intervalele de timp (t) considerate:

unde:
 (Xt) reprezintă nivelul mediu al seriei cronologice de valori înregistrate
pentru perioadele de timp „t”;
xt = nivelul înregistrat de variabila studiată cronologic X în perioada de
timp „t”;
N = numărul de perioade de timp care definesc variabila de timp T.
Pentru seriile cronologice după o variabilă definită de momente de timp,
nivelul mediu se calculează ca o medie cronologică a nivelurilor
înregistrate pentru momentele de timp considerate.
Dacă distanţele de timp dintre momentele considerate sunt egale, atunci
media cronologică se poate calcula ca o medie simplă:

Dacă intervalele de timp dintre momentele considerate nu sunt egale între


ele, atunci media cronologică trebuie calculată ca o medie ponderată,
ponderile folosite constând tocmai în intervalele inegale de timp dintre
momente:

339
Sporul mediu
Sporul mediu reflectă modificarea medie în cifre absolute care s-a
înregistrat pe parcursul perioadei de timp pentru care este construită
repartiţia cronologică studiată. Desigur, se pot determina şi sporuri medii
parţiale pentru subperioade de timp care interesează în demersul cercetării
realizate.
Sporurile medii se calculează ca medii aritmetice ale sporurilor cu bază
mobilă:

Indicele mediu
Denumit şi ritm mediu, indicele mediu reflectă modificarea medie în cifre
relative care a avut loc pe parcursul perioadei de timp pentru care s-a
construit seria cronologică studiată. Desigur, se pot determina şi indici
medii parţiali pentru perioade mai mici de timp care interesează în
demersul cercetării realizate.
Pentru determinarea indicelui mediu se pot folosi trei metode de calcul:
 metoda mediei geometrice;
 metoda mediei parabolice;
 metoda trendului exponenţial;

Determinarea indicelui mediu prin metoda mediei geometrice


Prin această metodă, indicele mediu se calculează ca medie geometrică a
indicilor cu bază mobilă:

340
După cum se observă, în determinarea indicelui mediu prin această metodă
se ţine cont doar de valorile de la începutul şi de la sfârşitul perioadei
studiate, ceea ce face ca gradul de reprezentativitate al acestei statistici să
fie unul foarte scăzut.
Pentru exemplificare, să considerăm seria cronologică a profitului net
obţinut de firma „ABC” în perioada 2012-2017, conform tabelului 9.3.

Tabelul 9.3
Profitul net obţinut de firma
Anul „ABC” (mil. RON)
xt
2012 3,1
2013 3,4
2014 3,6
2015 4,5
2016 5,2
2017 5,8

Pentru aplicarea metodei mediei geometrice în determinarea indicelui


mediu de creştere a profitului net pentru firma „ABC”, este necesară
construirea tabelului 9.4:
Indicele mediu de creştere a profitului net în perioada 2012-2017, pentru
firma „ABC”, determinat prin metoda mediei geometrice, este:

341
Tabelul 9.4
t xt It/t-1
1 3,1 -
2 3,4 1,0968
3 3,6 1,0588
4 4,5 1,2500
5 5,2 1,1556
6 5,8 1,1154

Verificarea rezultatului se poate face cu ajutorul tabelului 9.5:

Tabelul 9.5
i Xi Verificare
2012 3,1 3,1000
2013 3,4 3,1·1,1335 = 3,5139
2014 3,6 3, 5139·1,1335 = 3,9828
2015 4,5 3, 9828·1,1335 = 4,5144
2016 5,2 4, 5144·1,1335 = 5,1170
2017 5,8 5, 1170·1,1335 = 5,8000

Determinarea indicelui mediu prin metoda mediei parabolice


Metoda mediei parabolice pentru determinarea indicelui mediu a fost
propusă în 1949 de către matematicianul român Alexandru Froda şi
porneşte de la considerentul că orice valoare înregistrată pe parcursul
perioadei de timp pentru care se determină indicele mediu se poate obţine,
în cifre medii, pe baza relaţiei generale:

Prin însumarea celor doi termeni ai relaţiei de mai sus pentru toate valorile
seriei cronologice studiate, se obţine:

342
Rezultă, prin urmare, că:

Suma din partea dreaptă a relaţiei astfel obţinută este egală cu suma
celor N termeni ai unei progresii geometrice cu raţia  (It/t-1) şi primul
termen egal cu 1. Aşadar, relaţia se mai poate scrie:

Pe baza acestei relaţii, indicele mediu se poate calcula prin încercări


succesive.
Pentru exemplificare, să considerăm din nou seria cronologică a profitului
net pentru firma „ABC” din tabelul 9.3. Relaţia specifică metodei mediei
parabolice pentru determinarea indicelui mediu devine pentru acest
exemplu:

Aşadar:

Prin încercări succesive se obţine:

Verificarea rezultatului este posibilă cu ajutorul tabelului 9.6:

343
Tabelul 9.6
i Xi Verificare
2012 3,1 3,1
2013 3,4 3,1·1,1269 = 3,4934
2014 3,6 3,4934·1, 1269 = 3,9367
2015 4,5 3,9367·1, 1269 = 4,4364
2016 5,2 4,4364·1, 1269 = 4,9994
2017 5,8 4,9994·1, 1269 = 5,6339
Total 25,6 25,6000

După cum se poate observa, în determinarea ritmului mediu prin această


metodă se exagerează importanţa primei valori cronologice înregistrate
(x1), ceea ce îi imprimă, ca şi în cazul metodei anterioare, un caracter de
nereprezentativitate. Acesta este motivul pentru care în literatura de
specialitate s-a propus o a treia metodă de determinare a indicelui mediu.
Este vorba despre metoda trendului exponenţial.

Determinarea indicelui mediu prin metoda trendului exponenţial


Metoda trendului exponenţial pentru determinarea indicelui mediu
porneşte de la echivalarea acestuia cu parametrul  al funcţiei
exponenţiale de trend care descrie variabila de interes X după variabila de
timp „T”, definită de unităţile de timp „t”:

Valoarea parametrului şi deci a indicelui mediu, se poate obţine prin


aplicarea metodei celor mai mici pătrate de eroare:

unde t reprezintă erorile de modelare regresională a variabilei de interes


X după variabila definită de unităţile de timp „t”.
Pentru a face posibilă aplicarea metodei celor mai mici pătrate de eroare
este necesară mai întâi logaritmarea relaţiei care descrie funcţia
exponenţială de trend:

344
Se ajunge astfel la posibilitatea unei estimări pe baza unui model de
regresie liniară. Conform relaţiilor de estimare specifice modelului general
de regresie liniară, valoarea estimată pentru parametrul log  este:

Pentru simplificarea calculelor se poate face mai departe o transformare a


variabilei de timp prin scăderea din aceasta a valorii medii, astfel încât
suma noilor valori să fie egală cu 07, ceea ce face ca relaţia de mai sus să
devină:

unde:

Prin urmare, indicele mediu se poate determina pe baza relaţiei:

7
Se are în vedere faptul că pentru o colectivitate de valori suma abaterilor individuale faţă de media lor
aritmetică este egală cu 0 (a se vedea proprietăţile mediei aritmetice expuse în capitolul 3 al lucrării).

345
cu condiţia ca:

Pentru exemplificare, să ne întoarcem încă o dată la seria cronologică a


profitului net pentru firma „ABC” din tabelul 9.3.
Pentru aplicarea, de această dată, a metodei trendului exponenţial, este
necesară construirea tabelului 9.7:

Tabelul 9.7
Anul (t) i = t - 2004,5 i2 xi ln xi (ln xi) i
2012 -2,5 6,25 3,1 1,1314 -2,8285
2013 -1,5 2,25 3,4 1,2238 -1,8357
2014 -0,5 0,25 3,6 1,2809 -0,6405
2015 +0,5 0,25 4,5 1,5041 0,7520
2016 +1,5 2,25 5,2 1,6487 2,4730
2017 +2,5 6,25 5,8 1,7579 4,3946
Total 0,0 17,5 25,6 2,3150

Pe baza calculelor din tabelul 9.7 putem obţine valoarea indicelui mediu:

Pentru a analiza gradul de precizie al rezultatului este necesară şi


determinarea parametrului  al funcţiei exponenţiale de trend care descrie
variabila de interes X după variabila de timp definită de unităţile de timp
„t”.

346
Conform relaţiilor de estimare specifice modelului general de regresie
liniară, valoarea estimată pentru parametrul ln  este:

unde (i) este 0 deoarece i este 0.


Prin urmare, pentru exemplul nostru „” este:

Gradul de precizie al valorii obţinute pentru indicele mediu este redat cu


ajutorul tabelului 9.8.
Metoda trendului exponenţial prezintă avantajul reprezentativităţii
indicelui mediu, obţinută prin considerarea, în determinarea acestuia, a
tuturor valorilor seriei cronologice studiate.

Tabelul 9.8
Anul i Xi Xiestimat =·i = ·( )i
2012 -2,5 3,1 4,1556 · 1,1414 (-2,5) = 2,9854
2013 -1,5 3,4 4,1556 · 1,1414 (-1,5) = 3,4076
2014 -0,5 3,6 4,1556 · 1,1414 (-0,5) = 3,8896
2015 +0,5 4,5 4,1556 · 1,1414 (+0,5) = 4,4397
2016 +1,5 5,2 4,1556 · 1,1414 (+1,5) = 5,0677
2017 +2,5 5,8 4,1556 · 1,1414 (+2,5) = 5,7844
Total 0 25,6 25,5745

Mediile cronologice mobile (glisante)


În cazul manifestării unei variaţii cronologice oscilatorii pe intervale
aproximativ egale de timp (variaţie sezonieră) poate fi de interes
determinarea mediilor cronologice mobile sau glisante. Ele se numesc aşa
pentru faptul că în calculul lor se exclude întotdeauna primul termen al
mediei anterioare, introducându-se în schimb următorul termen al seriei
cronologice.
Numărul de termeni din care se calculează aceste medii se stabileşte în
funcţie de lungimea unei oscilaţii sezoniere. De exemplu, în cazul
variaţiilor sezoniere trimestriale, numărul de termeni este 4 (egal cu
numărul de trimestre dintr-un an).
347
Seriile cronologice de medii mobile astfel obţinute sunt serii de valori
netezite sau ajustate.
Un dezavantaj al ajustării valorilor prin calculul mediilor mobile este însă
acela al pierderii unui anumit număr de termeni.
Astfel, dacă numărul de termeni (k) din care se calculează mediile mobile
este un număr par, se vor pierde exact k termeni.
Dacă numărul de termeni (k) din care se calculează mediile mobile este un
număr impar, se vor pierde k – 1 termeni.
În tabelul 9.9 este exemplificat calculul mediilor mobile pentru variabila
vânzărilor (Y) unei firme.
Întrucât se constată o variaţie sezonieră trimestrială (o oscilaţie completă
se realizează pe parcursul celor patru trimestre ale unui an; a se vedea
figura 9.2), se stabileşte ca numărul de termeni din care se calculează
mediile mobile să fie egal cu 4.
O problemă suplimentară în cazul unui număr par de termeni este cea
privind centrarea mediilor mobile. Aceasta se obţine prin calculul unor
medii de medii. Într-o variantă simplificată, pentru centrarea mediilor
mobile se poate folosi relaţia:

unde:
mt reprezintă media mobilă calculată din câte k (număr par) termeni,
centrată la valoarea yt

N = numărul total de termeni ai seriei cronologice.


Dacă numărul de termeni din care trebuie calculate mediile mobile este
unul impar, acestea vor fi centrate chiar pe termenii în dreptul cărora se
calculează.
În tabelul 9.10 este exemplificată determinarea mediilor mobile pentru
câte 5 termeni în cazul unei serii cronologice formate din 10 valori. Se
observă că se pierd k – 1 = 4 termeni.

348
Tabelul 9.9
Anul Trimestrul Vânzări Medii mobile
( )
2014 1 652 -
2 546 -
(652 : 2 + 546 + 893 + 769 + 712 : 2) / 4
3 893
= 722,500
(546 : 2 + 893 + 769 + 712 + 654 : 2) / 4
4 769
= 743,500
2015 1 712 757,875
2 654 770,750
3 900 804,625
4 865 844,500
2016 1 887 870,625
2 798 885,875
3 965 907,500
4 922 931,750
2017 1 1003 948,750
2 876 960,750
3 1023 -
4 960 -

Tabelul 9.10
Medii mobile din
Valori
câte 5 termeni
435 -
567 -
565 486,4
442 488,4
423 490,2
445 468,4
576 466,4
456 -
432 -

349
Figura 9.2

9.2. Componente ale dinamicii reflectate în seriile cronologice


Dinamica reflectată printr-o serie cronologică poate fi rezultatul
compunerii următoarelor tipuri de variaţie în timp:
 variaţia de trend;
 variaţie oscilatorie;
 variaţie aleatoare.
Variaţia de trend este variaţia crescătoare sau descrescătoare care se
constată pe termen lung şi ea poate fi liniară (variaţie constantă, conform
unor modele aditive) sau neliniară (deseori în funcţie de o raţie constantă,
conform unor modele multiplicative).
Variaţia oscilatorie (creşteri şi descreşteri alternative) poate fi una
sezonieră, adică pe intervale aproximativ egale de timp sau una ciclică,
adică pe intervale diferite de timp. Variaţiile sezoniere corespund unor
intervale mai scurte de timp (mai mici de 1 an), în timp ce variaţiile ciclice
corespund unor intervale mari de timp (de exemplu, dezvoltarea
economică poate prezenta variaţii ciclice pe parcursul unor perioade de
câţiva ani sau chiar de câteva decenii).
Variaţia cronologică aleatoare este variaţia pentru care nu se poate descrie
vreo regularitate manifestată în timp, fiind urmarea unor manifestări
întâmplătoare.

350
Y

Trendul

Timpul
1.06.2014 5.06.2015 30.05.2016 5.06.2017 1.06.2018

Variaţii sezoniere

Figura 9.3

În figura 9.3 este reprezentată evoluţia în timp a unei variabile Y. Se poate


observa faptul că această variabilă înregistrează pe termen lung o tendinţă
de creştere, sugerată de o linie crescătoare întreruptă. Aceasta este variaţia
de trend. Pe parcursul celor 4 intervale de timp delimitate prin săgeţi se
poate observa însă şi o variaţie oscilatorie, care este una sezonieră întrucât
cele 4 perioade de timp sunt aproape egale. În cadrul celor 4 perioade de
timp se manifestă, de asemenea, şi o variaţie aleatoare, aşa cum arată
diferenţele de formă ale curbelor care descriu creşterile şi descreşterile
înregistrate de variabila analizată în timp.
Prin urmare, o valoare particulară a unei astfel de serii cronologice (yt)
poate fi descompusă astfel:
a) pe baza unui model aditiv, folosit atunci când oscilația înregistrată este
caracterizată printr-o amplitudine relativ constantă (cum este, de exemplu,
în figura 9.4):
yt = yT + yS + yA
b) pe baza unui model multiplicativ, necesar atunci când oscilația
înregistrată este caracterizată printr-o amplitudine variabilă (cum este, de
exemplu, în figura 9.5):
yt = yT · yS · yA
unde:
yT reprezintă componenta de trend;
351
yS = componenta sezonieră;
yA = componenta aleatoare.

Y Amplitudine
relativ
constantă a
oscilației

Timpul

Figura 9.4

Amplitudine
variabilă a
oscilației

Timpul

Figura 9.5

În figura 9.6 este reprezentată evoluţia în timp a unei variabile Y’. De


această dată, se poate observa o variaţie ciclică pe parcursul celor 2

352
perioade de timp considerate: 2010-2015 şi 2015-2017. Caracterul ciclic al
variaţiei decurge din inegalitatea celor 2 perioade, în cadrul cărora se
manifestă variaţia oscilatorie a variabilei. Se remarcă, de asemenea,
duratele mai mari de 1 an ale acestor perioade de timp.

Y’

Trendul

Anul
2010 2015 2017

Variaţie ciclică

Figura 9.6

9.3. Ajustarea variației cronologice prin eliminarea componentei


sezoniere (desezonalizarea)
Pentru fundamentarea deciziilor economice este deseori utilă ajustarea
variației cronologice prin eliminarea componentei sezoniere, operație care
poartă numele de desezonalizare.
Etapele de parcrus în cadrul desezonalizării sunt:
a) Reprezentarea grafică a evoluției fenomenului considerat;
b) Ajustarea trendului. Alegerea metodei de ajustare (ajustare
mecanică8, ajustare analitică9 sau ajustare pe baza mediilor

8
Ajustarea mecanică se face pe baza sporului mediu (în cadrul modelelor aditive) sau pe baza indicelui
mediu (în cadrul modelelor multiplicative). Metoda sporului mediu (prezentat în paragraful 9.1) este
aleasă atunci când se constată o progresie aritmetică a valorilor. Metoda indicelui mediu (prezentat, de
asemenea, în paragraful 9.1) este aleasă atunci când se constată o progresie geometrică a valorilor.

9
Ajustarea analitică se face pe baza unei funcții de regresie, variabila exogenă (independentă) fiind
variabila de timp.

353
mobile10) se face în funcție de observațiile reținute în urma analizei
grafice a evoluției fenomenului studiat;
c) Gruparea datelor într-o matrice corespunzătoare perioadelor de
sezonalitate;
d) Determinarea componentelor (aditive sau multiplicative) de
sezonalitate;
e) Eliminarea componentelor de sezonalitate.
Pentru exemplificare să considerăm datele din tabelul 9.11, privind
evoluția vânzărilor unei companii în perioada 2014-2017.

Tabelul 9.11
Vânzări ( )
Anul Trimestrul
- milioane lei -
2014 1 552
2 676
3 793
4 669
2015 1 573
2 721
3 828
4 692
2016 1 603
2 768
3 889
4 722
2017 1 642
2 809
3 934
4 763

Graficul evoluției vânzărilor companiei este prezentat în figura 9.7.

10
A se vedea paragraful 9.1.

354
Figura 9.7

Analizând graficul din figura 9.7, se poate constata că evoluția vânzărilor


este una crescătoare și sezonieră, amplitudinea sezonalității fiind una
relativ constantă, ceea ce impune folosirea considerare modelului aditiv de
descompunere a valorilor înregistrate.
Figura 9.7 evidențiază, de asemenea, existența unui trend liniar. Prin
urmare, pentru ajustarea trendului se poate recurge la metoda analitică a
regresiei liniare.
Pentru ușurarea calculelor necesare ajustării liniare a trendului, se
construiește tabelul 9.12, în care s-a introdus variabila de lucru t* = 2t –
17, unde t este variabila cronologică a trimestrelor.
Considerând t* ca variabilă exogenă și yt ca variabilă endogenă, rezultă
ușor11 parametrii intermediari de regresie:

11
Pe baza faptului că media variabilei t* este egală cu 0.

355
Tabelul 9.12

1 -15 225 552 -8280


2 -13 169 676 -8788
3 -11 121 793 -8723
4 -9 81 669 -6021
5 -7 49 573 -4011
6 -5 25 721 -3605
7 -3 9 828 -2484
8 -1 1 692 -692
9 1 1 603 603
10 3 9 768 2304
11 5 25 889 4445
12 7 49 722 5054
13 9 81 642 5778
14 11 121 809 8899
15 13 169 934 12142
16 15 225 763 11445
Medii
8,5 0,0 85,0 727,125 504,125
aritmetice

Pe baza parametrilor intermediari de regresie, se obțin mai departe


parametrii de regresie pentru variabila exogenă t și variabila endogenă
yt12:

12
Relația de calcul a coeficientului de regresie liniară se bazează pe proprietățile acestuia (a se vedea
capitolul 8).

356
Așadar, trendul vânzărilor este ajustat de funcția (a se vedea figura 9.8):

Figura 9.8

Gruparea datelor privind evoluția vânzărilor într-o matrice


corespunzătoare perioadelor de sezonalitate, precum și determinarea
mediilor componentelor aditive de sezonalitate sunt realizate cu ajutorul
tabelelor 9.13-9.15.

Tabelul 9.13 Gruparea datelor privind evoluția vânzărilor într-o


matrice corespunzătoare perioadelor de sezonalitate
Trimestre 1 2 3 4

Ani
2014 552 676 793 669
2015 573 721 828 692
2016 603 768 889 722
2017 642 809 934 763
Medii
592,5 743,5 861,0 711,5
aritmetice

357
Tabelul 9.14 Determinarea valorilor de trend și a abaterilor valorilor
reale de la acestea
Anul Trimestrul

1 1 552 638,1618 -86,1618


2 2 676 650,0235 25,9765
2014
3 3 793 661,8853 131,1147
4 4 669 673,7471 -4,7471
1 5 573 685,6088 -112,6088
2 6 721 697,4706 23,5294
2015
3 7 828 709,3324 118,6676
4 8 692 721,1941 -29,1941
1 9 603 733,0559 -130,0559
2 10 768 744,9176 23,0824
2016
3 11 889 756,7794 132,2206
4 12 722 768,6412 -46,6412
1 13 642 780,5029 -138,5029
2 14 809 792,3647 16,6353
2017
3 15 934 804,2265 129,7735
4 16 763 816,0882 -53,0882

Medii aritmetice 8,5 727,125 727,1250 0,0000

Tabelul 9.15 Determinarea componentelor aditive de sezonalitate


Trimestre 1 2 3 4

Ani
2014 -86,1618 25,9765 131,1147 -4,7471
2015 -112,6088 23,5294 118,6676 -29,1941
2016 -130,0559 23,0824 132,2206 -46,6412
2017 -138,5029 16,6353 129,7735 -53,0882
Medii
aritmetice
(componente -116,8324 22,3059 127,9441 -33,4176
aditive de
sezonalitate)
358
În tabelul 9.16 sunt determinate valorile desezonalizate ale vânzărilor, iar
în figura 9.9 este prezentată evoluția desezonalizată a acestora.
Se poate observa că:
- Media aritmetică a componentelor aditive de sezonalitate este egală cu 0,
ceea ce înseamnă că ele satisfac cerința de compensare între ele;
- O consecință a compensării componentelor aditive de sezonalitate este
constă în faptul că media aritmetică a valorilor desezonalizate ale
vânzărilor este egală cu media aritmetică a valorilor reale ale acestora
(727,125);
- Trendul valorilor desezonalizate este puțin diferit de trendul valorilor
reale ale vânzărilor. Se întâmplă așa deoarece variația cronologică este
explicată, așa cum s-a arătat deja, și de o componentă aleatoare (yA).

Tabelul 9.16 Determinarea valorilor desezonalizate ale vânzărilor


Valori
Anul Trimestrul desezonalizate,

1 1 552 -116,8324 668,8324


2 2 676 22,3059 653,6941
2014
3 3 793 127,9441 665,0559
4 4 669 -33,4176 702,4176
1 5 573 -116,8324 689,8324
2 6 721 22,3059 698,6941
2015
3 7 828 127,9441 700,0559
4 8 692 -33,4176 725,4176
1 9 603 -116,8324 719,8324
2 10 768 22,3059 745,6941
2016
3 11 889 127,9441 761,0559
4 12 722 -33,4176 755,4176
1 13 642 -116,8324 758,8324
2 14 809 22,3059 786,6941
2017
3 15 934 127,9441 806,0559
4 16 763 -33,4176 796,4176
Medii
8,5 727,125 0,0000 727,125
aritmetice

359
Figura 9.9 Evoluția desezonalizată a vânzărilor

360
DESCRIEREA
STATISTICĂ A
VARIAŢIEI
ÎN SPAȚIU 1 0.
(TERITORIALE)

OBIECTIVELE CAPITOLULUI
În acest capitol vor fi prezentate statisticile care se pot folosi pentru
descrierea variaţiei în spațiu sau teritoriale, ajutând la:
 înţelegerea utilității cunoaşterii variaţiei teritoriale la nivelul
fenomenelor studiate statistic;
 stăpânirea metodelor disponibile pentru descrierea statistică a variaţiei
în spațiu în forma nivelurilor, volumelor şi decalajelor absolute sau
relative;
 înţelegerea modului în care se construiesc indicii teritoriali agregaţi
ponderaţi şi cunoaşterea unor aplicaţii mai importante ale acestora.

361
362
Principalele particularităţi ale statisticii teritoriale izvorăsc din faptul că în
cadrul ei se operează, de regulă, cu unităţi de observare cu grade mari de
complexitate. Un judeţ sau o regiune sunt astfel, de exemplu, unităţi foarte
complexe, care sunt din anumite puncte de vedere independente în raport
cu celelalțe unități teritoriale similare, în timp ce se află totodată în
anumite relații de dependență în raport cu ansamblurile mai mari
(macroregiuni, țări etc.) din care fac parte structural după anumite criterii
administrativ-teritoriale.
Descrierea statistică teritorială poate fi realizată la nivel:
 naţional;

 internaţional.
Indiferent de nivelul la care se desfășoară, în descrierea statistică
teritorială se poate opta pentru o abordare a diviziunilor teritoriale ca
unități independente, rezultatele acestui tip de demers constând în anumite
studii monografice, sau pentru determinarea unor mărimi relative de
coordonare, cu ajutorul cărora se compară nivelurile înregistrate de
fenomenele studiate în spaţii diferite. În cel de-al doilea caz,
comparabilitatea, ca și legătură logică de condiţionare, corespondenţă,
cauzalitate sau de altă natură între fenomenele studiate (a se vedea
capitolul 2), trebuie să fie un criteriu de bază în selectarea datelor statistice
pe baza cărora se purcede la cercetarea descriptivă.
La nivel național, descrierea statistică poate avea în vedere o organizare
administrativă sau una reclamată de anumite exigențe (de pildă,
armonizarea statisticilor regionale la nivelul Uniunii Europene) a
teritoriului țării în cauză.
La nivel internaţional, descrierea statistică este chemată să răspundă în
primul rând nevoilor de realizare a unor analize comparative între ţări,
continente sau alte spaţii regionale.
Pentru ca diferitele niveluri înregistrate teritorial să poată fi comparabile,
trebuie îndeplinite următoarele două condiții:
 Omogenitatea – ceea ce se compară trebuie să aibă la bază o
metodologie unitară de determinare: aceeaşi definiţie şi aceeaşi sferă
teamtică de cuprindere;

 Simultaneitatea – toate valorile comparate trebuie să se refere la


acelaşi moment al observării sau la aceeaşi perioadă de înregistrare.

363
Organizarea administrativă a teritoriului României
Din punct de vedere administrativ, teritoriul României este împărţit în 1:
 Sate. Acestea constituie cele mai mici unități administrativ-teritoriale
ale României, având caracteristicile aşezărilor de tip rural;
 Comune. Ele sunt rezultate ale comunității de interese şi tradiţii ale
populaţiei rurale unite în cadrul lor. În componența lor poate intra unul
sau mai multe sate. Unul dintre aceste sate joacă rolul de reşedinţă de
comună;
 Oraşe. Reprezintă concentrări umane de tip urban, ceea ce înseamnă că
sunt caracterizate printr-o structură profesională a populaţiei în cadrul
căreia predomină componenta ocupată în ramuri neagricole;
 Municipii. Un municipiu este un oraş cu un rol economic, social,
politic şi cultural mai însemnat, motiv pentru care deține, de regulă și o
funcție administrativă deosebită;
 Judeţe. Acestea constituie unitățile administrativ-teritorială tradiţionale
din România, fiind alcătuite din oraşe şi comune, după criterii
geografice, economice, social-politice sau care țin de legăturile
culturale şi tradiţionale ale populaţiei acestora.
Conform Legii nr. 2 din 16 februarie 1968 cu modificările ulterioare,
organizarea administrativ-teritorială a României cuprinde în prezent 41 de
judeţe2 la care se adaugă municipiul Bucureşti.
Ca unităţi teritoriale fără funcție administrativă au fost create 8 regiuni de
dezvoltare, care cuprind fiecare mai multe judeţe. De asemenea, în scopul
asigurării colectării, elaborării şi difuzării statisticilor regionale
armonizate la nivelul Uniunii Europene au fost create 4 macroregiuni. Nici
aceste unități teritoriale nu au funcție administrativă.
Cele patru macroregiuni sunt constituite conform Legii privind stabilirea
nomenclatorului unităţilor teritoriale statistice din România şi cerinţelor

1
Cf.: Repere economice şi sociale regionale: Statistică teritorială Institutul Naţional de Statistică al
României, 2018, p. 7,
http://www.insse.ro/cms/files/Publicatii_2018/84.Repere_economice_si_sociale_Statistica_teritoriala/Rep
ere_economice_si_sociale_regionale_statistica_teritoriala.pdf (accesat în 19 noiembrie 2018).

2
Inițial, organizarea teritorial-administrativă a României cuprindea doar 39 de județe la care se adăuga
municipiul București (a se veeda: https://lege5.ro/Gratuit/he2daojs/legea-nr-2-1968-privind-organizarea-
administrativa-a-teritoriului-republicii-socialiste-romania - accesat în 19 noiembrie 2018). Judeţele
Călăraşi și Giurgiu au fost declarate ca unități teritorial-administrative abia în anul 1981 (cf.: Bogdan
VLADU. De la un sfânt la un cioban. Provenienţa numelui judeţului Giurgiu, învăluită în mister. Articol
publicat în 11 ianuarie 2013 la adresa online: https://adevarul.ro/locale/giurgiu/de-sfant-cioban-
provenienta-numelui-judetului-giurgiu-invaluita-mister-1_50efdf4356a0a6567e697cd7/index.html -
accesat în 19 noiembrie 2018).

364
Regulamentului CE nr. 1059 din 2003 al Parlamentului şi al Consiliului
European privind stabilirea unui nomenclator comun al unităţilor
teritoriale de statistică (NUTS), publicat în Jurnalul Oficial al Uniunii
Europene nr. L 154 din 2003.
Prin rectificarea apărută în Legea nr. 315 din 28 iunie 2004 privind
dezvoltarea regională în România, au fost redenumite trei regiuni, după
cum urmează:
 Regiunea de dezvoltare Sud a fost redenumită Sud – Muntenia;
 Regiunea de dezvoltare Sud – Vest a fost redenumită Sud – Vest
Oltenia;
 Regiunea de dezvoltare Bucureşti a fost redenumită Bucureşti – Ilfov.
În tabelul 10.1 sunt prezentate cele 4 macroregiuni, precum și cele 8
regiuni de dezvoltare ale României3, împreună cu județele lor componente.

Tabelul 10.1
Regiunea de
Macroregiunea Județe componente
dezvoltare
Bihor
Bistriţa-Năsăud
Nord – Vest Cluj
(șase județe) Maramureş
Satu Mare
Sălaj
Macroregiunea unu
Alba
Braşov
Centru Covasna
(șase județe) Harghita
Mureş
Sibiu

3
În acest tabel se poate observa faptul că fiecare macroregiune cuprinde câte două regiuni de dezvoltare.

365
Bacău
Botoşani
Nord – Est Iaşi
(șase județe) Neamţ
Suceava
Vaslui
Macroregiunea doi
Brăila
Buzău
Sud – Est Constanţa
(șase județe) Galaţi
Tulcea
Vrancea
Argeş
Călăraşi
Dâmboviţa
Sud – Muntenia
Giurgiu
(șapte județe)
Ialomiţa
Macroregiunea trei Prahova
Teleorman
Bucureşti – Ilfov
(un județ plus Ilfov
municipiul Municipiul Bucureşti
București)
Dolj
Gorj
Sud – Vest Oltenia
Mehedinţi
(cinci județe)
Olt
Macroregiunea patru Vâlcea
Arad
Vest Caraş-Severin
(patru județe) Hunedoara
Timiş

366
10.1. Seriile de spațiu sau teritoriale – instrumente de bază pentru
prezentarea datelor în cadrul statisticii teritoriale
O serie de spațiu sau teritorială este formată din două şiruri de date:
 un şir format din unităţile teritoriale avute în vedere;
 un şir de date cu valorile înregistrate de către variabila statistică la
nivelul acestor unități teritoriale.
În acest fel, o serie teritorială exprimă valorile înregistrate de către una sau
mai multe variabile statistice, de regulă ordonate în raport cu diviziunile
de spațiu considerate. Un exemplu este prezentat în tabelul 10.2, în care
sunt prezentate date privind populația înregistrată în anii 2000 și 2018 la
nivelul primelor 10 țări ale lumii în funcție de valorile anului 2018.

Tabelul 10.2
Primele 10 țări ale lumii în funcție de mărimea
populației4
Nivel
Creștere în
Populația în Populația în prognozat
# Țara perioada 2000 –
anul 2000 anul 2018 pentru anul
2018 (%)
2050

1 China 1,268,301,605 1,415,045,928 11.6 % 1,301,627,048

2 India 1,006,300,297 1,354,051,854 34.6 % 1,656,553,632

3 SUA 282,162,411 326,766,748 15.8 % 398,328,349

4 Indonesia 214,090,575 266,794,980 24.6 % 300,183,166

5 Brazilia 174,315,386 210,867,954 21.0 % 232,304,177

6 Pakistan 152,429,036 200,813,818 31.7 % 290,847,790

7 Nigeria 123,945,463 195,875,237 58.0 % 391,296,754

8 Bangladesh 128,734,672 166,368,149 29.2 % 193,092,763

9 Rusia 147,053,966 143,964,709 - 2.1 % 129,908,086

10 Mexic 99,775,434 130,759,074 31.1 % 150,567,503

Total 3,597,108,845 4,411,308,451 22.6 % 4,950,140,178

Restul lumii 2,547,898,144 3,223,449,481 29.6 % 4,329,774,957

Total general 6,145,006,989 7,634,757,932 25.5 % 9,374,484,225

4
https://www.internetworldstats.com/stats8.htm (accesat în 20 noiembrie 2018)

367
În descrierea statistică a variaţiei teritoriale sunt avute în vedere:
 diferențele de nivel care au loc de la o unitate teritorială la alta.
Asemenea diferențe pot fi evidenţiate sub forma decalajelor, a
indicilor teritoriali, a ratelor de decalaj sau a indicilor teritoriali
agregaţi simpli;
 diferențele de structură care se înregistrează de la o unitate teritorială
la alta. Asemenea diferențe pot fi evidenţiate cu ajutorul indicilor
teritoriali agregaţi ponderaţi.

10.2. Descrierea statistică a variaţiei teritoriale de nivel


Descrierea statistică a variaţiei teritoriale de nivel se poate realiza în cifre
absolute, relative sau medii.

Descrierea statistică în cifre absolute a variaţiei teritoriale de nivel


Descrierea statistică în cifre absolute a variaţiei teritoriale de nivel se
poate face cu ajutorul nivelurilor, volumelor şi a decalajelor absolute.
Nivelurile absolute ale unei variabile teritoriale sunt date de valorile pe
care aceasta le înregistrează pentru unitățile teritoriale considerate.
Volumele absolute care pot fi determinate la nivelul unei variabile
teritoriale se obţin ca rezultate ale însumării nivelurilor absolute
înregistrate pentru grupul de unități teritoriale avute în vedere:

unde:
Vi reprezintă volumul absolut al grupului celor „i” unități teritoriale
considerate;
xt = nivelul absolut al variabilei X, înregistrat pentru unitatea teritorială
„t”.
Decalajele absolute sunt diferenţele înregistrate între nivelurile absolute
care caracterizează două unități teritoriale.

368
Tabelul 10.35
Macroregiune Regiune Județ Număr licee
BIHOR 53
BISTRITA-NASAUD 28
CLUJ 67
NORD-VEST
MARAMURES 45
SATU MARE 32
SALAJ 22
Macroregiunea 1
ALBA 36
BRASOV 42
COVASNA 18
CENTRU
HARGHITA 39
MURES 38
SIBIU 35
BACAU 37
BOTOSANI 31
IASI 56
NORD-EST
NEAMT 38
SUCEAVA 42
VASLUI 25
Macroregiunea 2
BRAILA 23
BUZAU 33
CONSTANTA 67
SUD-EST
GALATI 35
TULCEA 19
VRANCEA 24
ARGES 44
CALARASI 17
DAMBOVITA 30
SUD MUNTENIA GIURGIU 14
Macroregiunea 3 IALOMITA 19
PRAHOVA 50
TELEORMAN 21
ILFOV 18
BUCURESTI
BUCURESTI 117
DOLJ 45
GORJ 34
SUD-VEST OLTENIA MEHEDINTI 20
OLT 31
Macroregiunea 4 VALCEA 27
ARAD 41
CARAS-SEVERIN 29
VEST
HUNEDOARA 33
TIMIS 59

5
Datele au fost obținute de pe portalul de statistici teritoriale ale Institului Național de Statistică al
României: http://edemos.insse.ro/portal

369
Decalajele absolute se determină după relația generală:

unde:
i/j reprezintă decalajul absolut al unități teritoriale „i” față de unitatea
teritorială „j”;
xi = nivelul absolut înregistrat de variabila X pentru unitatea teritorială „i”;
xj = nivelul absolut înregistrat de variabila X pentru unitatea teritorială „j”.
Aceste decalaje se pot determina și între două volume absolute.
Pentru exemplificarea descrierii statistice în cifre absolute a variaţiei
teritoriale de nivel să considerăm datele din tabelul 10.3, privind numărul
de licee înregistrate în anul 2016 la nivelul unităților administrativ-
teritoriale ale României.
Volumul absolut al acestei variabile statistice la nivelul celor două regiuni
ale macroregiunii 1 (cuprinzând fiecare câte 6 județe) este:

Decalajul absolut înregistrat între cele două volume absolute care


caracterizează cele două ansambluri de unități teritoriale este:

Regiunea nord-vest beneficia în 2016 de un număr de licee cu 39 mai


mare decât cel al regiunii centru.

Descrierea statistică în expresie relativă a variaţiei teritoriale de nivel


Descrierea statistică în expresie relativă a variaţiei teritoriale de nivel se
poate realiza cu ajutorul:
 indicilor de variaţie teritorială;
 ratelor decalajelor teritoriale;
 indicilor agregaţi de variaţie;

370
Indicii de variaţie teritorială
Un indice de variaţie teritorială arată de câte ori nivelul înregistrat de
variabila statistică pentru o unitate teritorială este mai mare decât nivelul
înregistrat de aceasta pentru o unitate teritorială considerată ca şi bază de
raportare:

unde:
i/b reprezintă de variație teritorială pentru unitatea „i”;
xi = nivelul absolut înregistrat de variabila X pentru unitatea teritorială „i”;
xb = nivelul absolut înregistrat de variabila X pentru unitatea teritorială
considerată ca şi bază de raportare („b”).
Pentru exemplificare este calculat mai jos indicele de variație teritorială a
regiunii nord-vest prin raportare la regiunea centru pentru datele din
tabelul 10.3:

În 2016 numărul de licee din regiunea nord-vest era mai mare de 1,1875
ori față de numărul de licee din regiunea centru.

Ratele decalajelor teritoriale


Rata decalajului teritorial arată cu cât este mai mare, în expresie relativă
(procentuală), nivelul înregistrat de variabila statistică pentru o unitate
teritorială față de nivelul înregistrat de aceasta pentru o unitate teritorială
considerată ca şi bază de raportare:

unde:
Ri/b reprezintă rata decalajului teritorial pentru pentru unitatea „i”;
xi = nivelul absolut înregistrat de variabila X pentru unitatea teritorială „i”;

371
xb = nivelul absolut înregistrat de variabila X pentru unitatea teritorială
considerată ca şi bază de raportare („b”).
i/b = decalajul absolut al unității teritoriale „i” față de unitatea teritorială
considerată ca şi bază de raportare („b”);
i/b = indicele de variație teritorială al unității teritoriale „i” față de unitatea
teritorială considerată ca şi bază de raportare („b”).
Pentru exemplificare este calculată mai jos rata decalajului regiunii nord-
vest prin raportare la regiunea centru pentru datele din tabelul 10.3:

În 2016 numărul de licee din regiunea nord-vest era mai mare cu 18,75%
față de numărul de licee din regiunea centru.

Indicii de variație teritorială, indiferent de forma lor de agregare (simplă


sau ponderată), se construiesc în mod asemănător indicilor de variație
cronologică.

372
BIBLIOGRAFIE
SELECTIVĂ

373
374
Tudorel ANDREI, Stelian STANCU, Statistica - Teorie şi aplicaţii,
Editura ALL, Bucureşti, 1995.
Constantin ANGHELACHE, Statistică teoretică şi economică – teorie şi
aplicaţii, Editura Economică, Bucureşti, 2004.
Mariana-Elena BALU, Bazele statisticii, Editura Fundaţiei „România de
Mâine”, Bucureşti, 2007.
Tudor BARON, Constantin ANGHELACHE, Emilia ŢIŢAN, Statistică,
Editura Economică, Bucureşti, 1996.
Maria BĂDIŢĂ, Silvia Elena CRISTACHE, Statistică – aplicaţii
practice, Editura Mondan, Bucureşti, 1998.
Peter C. BELL, Peter E. F. NEWSON, Statistics for Business with
Spreadsheets: Text and Cases, 2nd edition, Scientific Press, South San
Francisco, California, 1992.
Elena BIJI, Tudor BARON, Statistică teoretică şi economică, Editura
didactică şi pedagogică, Bucureşti, 1995.
Ken BLACK, Business statistics. An introductory course, West Publishing
Company, 1999.
Harvey J. BRIGHTMAN, Howard SCHNEIDER, Statistics for Business
Problem Solving, South-Western Publishing Company, 1992.
Remus BUTĂNESCU, Statistică în afaceri (manual pentru uzul
studenţilor), Editura „Mira Design” Sibiu, 2000.
Iosif Constantin DRĂGAN, Mihai C. DEMETRESCU, Practica
prospectării pieţii, Editura Europa Nova, Bucureşti, 1996.
Liliana DUGULEANĂ, Bazele statisticii economice, Editura C.H. Beck,
Bucureşti, 2012.
John E. FREUND, Ronald E. WALPOLE, Mathematical Statistics, 4th
edition, Prentice-Hall Inc., 1987.
Morris HAMBURG, Basic Statistics: A Modern Approach, 3rd edition,
Harcourt Brace Jovanovich, 1985.
Donald L. HARNETT, Introduction to Statistical Methods, 3rd edition,
Addison-Wesley Longman Publishing Company, 1982.
Dumitru IACOB, Statistica, Editura Universităţii „Ştefan cel Mare”,
Suceava, 2000.

375
Alexandru ISAIC-MANIU, Constantin MITRUŢ și Vergil VOINEAGU,
Statistica pentru managementul afacerilor. Ediţia a 2-a, Editura
Economică, Bucureşti, 1999.
Alexandru ISAIC-MANIU Constantin MITRUŢ și Vergil VOINEAGU,
Statistică. Ediţia a 2-a. Editura Universitară, Bucureşti, 2004.
Elisabeta JABA, Ana GRAMA, Analiza statistica cu SPSS sub Windows,
Editura Polirom, Iaşi, 2004.
Elisabeta JABA, Statistica. Ediţia a 2-a, Editura Economică, Bucureşti,
2000.
Gerald KELLER, Brian WARRACK, Henry BARTEL, Statistics for
management and economics, 3rd edition, Duxbury Press, 1994.
Daniel J. LEVITIN, A Field Guide to Lies and Statistics: A Neuroscientist
on How to Make Sense of a Complex World. Penguin Books, Penguin
Random House UK, 2018.
Ludwig von MISES, The Ultimate Foundation of Economic Science, Van
Nostrand Edition, 1962, http://www.mises.org
Neil J. SALKIND, Statistics for People who (think They) Hate Statistics,
2nd edition, Sage Publications, Inc., 2003,
http://books.google.com/books?id=naHRZCYkJ3sC
Doina Maria SIMION, Statistică descriptivă, Editura Universităţii
„Lucian Blaga” din Sibiu, 2002.
Murray R. SPIEGEL, David P. LINDSTROM, Statistics, McGraw-Hill
Professional, 2000, http://books.google.com/books?id=KdDzrQGAlnkC
Liliana SPIRCU, Mihai CALCIU, Tiberiu SPIRCU, Analiza Datelor de.
Marketing, Editura ALL, Bucureşti, 1994.
Vladimir TREBICI (coord.), Mică enciclopedie statistică, Editura
Stiinţifică şi Enciclopedică, Bucureşti, 1985.
Emilia ŢIŢAN, Simona GHIŢĂ, Angelica BĂCESCU-CĂRBUNARU,
Bazele statisticii, Editura Meteora Press, Bucureşti, 2002.
*** Anuarul statistic al Romaniei, Institutul Naţional de Statistică,
Bucureşti, http://www.insse.ro
*** Buletinul Statistic Lunar, Institutul Naţional de Statistică, Bucureşti,
http://www.insse.ro
*** Repere economice şi sociale regionale: Statistică teritorială,
Institutul Naţional de Statistică al României, 2018.

376
*** Eurostat Yearbook, Serviciul Eurostat al Comisiei Europene,
http://ec.europa.eu/eurostat/statistics-
explained/index.php/Europe_in_figures_-_Eurostat_yearbook

377
378