Documente Academic
Documente Profesional
Documente Cultură
Sibiu, 2018
Remus BUTĂNESCU-VOLANIN
STATISTICĂ
DESCRIPTIVĂ
Referenţi ştiinţifici:
Prof. dr. ec. Doina-Maria Simion, Universitatea „Lucian Blaga” din Sibiu
Prof. dr. în ec., ing. Dan Miricescu, Universitatea „Lucian Blaga” din
Sibiu
Prof. dr. ing. și ec. Viorel Bucur, Universitatea „Lucian Blaga” din Sibiu
519.22
Statistics: The only science that enables different experts using the same
figures to draw different conclusions
(Statistica: Singura ştiinţă care face creează posibilitatea ca, folosind
aceleaşi mijloace, mai mulţi experţi să ajungă la concluzii diferite)
Cuvânt înainte 11
7
2.4. Mărimile relative de dinamică 82
8
5.3. Abaterea medie absolută 176
9
CAPITOLUL 8. Descrierea statistică a legăturilor dintre
263
fenomene
8.1. Ce se înțelege prin corelaţia și regresia statistică? 265
10
Cuvânt înainte
OBIECTIVELE CAPITOLULUI
Obiectivul principal al acestui capitol este de a-l introduce pe cititor în lumea
statisticii, ajutându-l la:
înţelegerea rolului statisticii în cunoaşterea umană;
reţinerea principalelor concepte folosite în statistică;
conturarea distincţiei dintre preocupările statisticii descriptive şi cele ale
statisticii inferenţiale;
reţinerea celor 4 scale utilizate în identificarea și/sau măsurarea datelor
statistice, precum și a caracteristicilor fiecăreia dintre aceste scale în parte;
recunoaşterea cu ușurință a principalele tipuri de reprezentări grafice folosite
în statistică, precum și a situațiilor care le recomandă pe fiecare în parte.
13
14
1.1. Rolul statisticii în cunoaşterea umană.
Metodele statistice de cunoaștere sunt folosite astăzi pe scară foarte largă
și pentru o plajă de aplicabilitate aflată mereu în extindere: sunt supuse
investigației statistice atât fenomene ale naturii, cât și fenomene ale
activității umane, pornind de la cele economice până la cele sociale în
general, dar și la cele de natură tehnică sau psihologică.
Ce anume face ca aplicabilitatea statisticii să fie așa de impresionantă?
Răspunsul la această întrebare este în legătură cu faptul că atât conceptele,
cât şi metodele statistice pot fi aplicate de fiecare dată când este avută în
vedere o anumită generalizare în legătură cu fenomenul studiat.
În ce privește metodele statistice, B. N. Gupta arăta faptul că acestea „sunt
inductive1 prin natura lor, deoarece generalizările rezultă din observații
individuale. [...] Ele pun în evidență numai comportamentul tipic al tuturor
obiectelor luate în studiu, dar nu descriu comportamentul elementelor
luate separat, deoarece există o stabilitate mai mare în colectivitate decât
în individ.”2
Pentru ca investigația statistică să-și dovedească într-adevăr
aplicabilitatea, se impune existenţa următoarelor două condiţii în legătură
cu fenoemenele studiate:
1. Condiţia de volum: considerarea unui număr suficient de
mare de cazuri individuale;
2. Condiţia de justificare a analizei statistice: existenţa unei
variabilități de la un caz la altul, dată de acțiunea unuia sau a mai
multor factori de influență.
Fenomenele statistice, adică fenomenele care constituie obiectul de studiu
al statisticii, se mai numesc și „fenomene de masă”. Acestea sunt
fenomene descrise simultan de proprietăţi care decurg din cele două
condiții enumerate mai sus:
1. Esenţa lor nu poate fi evidenţiată decât pe baza considerării
unui număr suficient de mare de manifestări individuale. De
exemplu, opţiunile de vot ale unui electorat nu pot fi suficient de bine
cunoscute decât prin analiza unui număr suficient de mare de
alegători. De asemenea, preţurile pentru aceleași categorii de mărfuri
variază pe baza comportamentelor unui număr mare de producători şi,
1
Sublinierea noastră.
2
B. N. GUPTA. An Introduction to Modern Statistics. Brokland Private Ltd., Calcutta, 1962, p. 10.
Apud: Alexandru ISAIC-MANIU Constantin MITRUŢ și Vergil VOINEAGU. Statistică. Ediția a 2-a.
Editura Universitară, Bucureşti, 2004, pp. 15-16.
15
respectiv, de consumatori. Aceasta implică faptul că o analiză
serioasă a lor trebuie să fie una statistică. Două prețuri cheie în
economie sunt: cursul valutar, ca expresie a preţului unei monede în
altă monedă, respectiv dobânda pentru un anumit tip de credit, ca
expresie a preţului acestuia pe piaţa împrumuturilor. Din acest motiv,
statisticile privitoare la cursurile valutare și la dobânzi sunt esențiale
pentru analizele macroeconomice.
Legile de manifestare a fenomenelor de masă sunt legi probabilistice,
adică legi care pot fi verificate deplin doar la nivelul întregului
ansamblu de cazuri particulare. Absenţa din câmpul observaţional a
unui număr de cazuri particulare duce, de regulă, la apariţia erorilor
statistice, adică a erorilor cauzate de deficiențe în ce privește
reprezentativitatea statistică.
2. Aceste fenomene înregistrează o anumită variabilitate de la o
manifestare individuală la alta. Variabilitatea fenomenelor de masă se
poate manifesta fie în timp (la nivelul unei singure unităţi statistice),
fie în spaţiu (la acelaşi moment sau pentru aceeaşi perioadă de timp).
Proprietatea variabilităţii fenomenelor statistice rezultă din faptul că
ele sunt supuse influenţei unor factori care acţionează diferit la
nivelul cazurilor particulare ale acestora. De exemplu,
comportamentele producătorilor şi ale consumatorilor pe baza cărora
se formează preţurile diferitelor mărfuri, sunt influenţate de o
multitudine de factori, precum: vârsta, sexul, educaţia, venitul etc.
Această caracteristică a fenomenelor de masă face ca ele să fie
fenomene aleatorii, adică fenomene ale căror manifestări particulare
nu pot fi anticipate cu exactitate, ci doar în termeni de probabilităţi.
Având în vedere aceste proprietăţi ale fenomenelor statistice, se poate
spune că generalizările obţinute pe calea studiului statistic sunt
reprezentări nedeterministe sau de tip stocastic, luând forma aşa-
numitelor „legi statistice”, legi care descriu tendinţe predominante la
nivelul diferitelor cazuri înregistrate pentru fenomenul studiat.
Cea mai importantă lege statistică este legea numerelor mari, formulată
pentru prima dată de către Jacob Bernoulli (1654-1705) în celebra sa
lucrare Ars Conjectandi.
Legea numerelor mari a dobândit în timp rolul unui principiu fundamental
al cercetării statistice, care afirmă că într-un număr suficient de mare de
cazuri individuale, influenţele diverşilor factori se pot compensa, astfel
încât să se ajungă la o anumită valoare tipică, reprezentativă pentru întreg
ansamblul studiat.
Respectarea acestui principiu presupune ca în cercetarea statistică să fie
luat în considerare un număr atât de mare de cazuri individuale (condiţia
16
de volum la care ne-am referit şi mai sus) încât abaterile într-un sens sau
altul determinate de diferițíi factori de influență să se poată compensa.
Statistica nu trebuie confundată cu un simplu domeniu al matematicii, deşi
ea presupune folosirea, într-o proporţie covârşitoare, a instrumentarului
matematic. Acesta din urmă constituie, de altfel, obiectul unei discipline
distincte şi mult mai recente, şi anume cel al statisticii matematice,
„ramură a matematicii care elaborează noţiunile şi metodele folosite în
statistică”3.
3
Cf. Dicţionarului explicativ al limbii române, Academia Română, Institutul de Lingvistică "Iorgu
Iordan", Editura Univers Enciclopedic, ediţia 1998, http://dexonline.ro/
4
Conform studiului TrafficSTATS 2007, bărbații sunt cu 77% mai mult decât femeile implicați în
accidente. Studiul include informații FARS (Fatality Analysis Reporting System) și National Household
Travel Survey, având ca suport de analiză peste 100 de milioane de călătorii. Numărul bărbaților decedați
în urma unui accident de mașină, pe o perioadă de 6 ani, a fost dublu în comparație cu cel al femeilor.
Cf.: https://www.i-asigurare.ro/blog/sunt-barbatii-mai-buni-soferi-decat-femeile/ (accesat: 12 octombrie
2017)
5
http://www.psychologies.ro/cunoaste-te/femeile-sunt-mai-reticente-la-risc-decat-barbatii-2139736
(accesat: 12 octombrie 2017)
17
este posibil ca rata mai mare de accidente produse de bărbați să aibă ca și
cauză principală înclinația mai mare a acestora de a se expune la risc și nu
presupusa abilitate mai redusă a acestora de a conduce6.
6
În realitate, este un fapt binecunoscut acela că bărbații au o abilitate mai mare de a șofa întrucât se pot
orienta mai bine în spațiu. A se vedea, de pildă: http://www.descopera.ro/dnews/13577917-de-ce-
barbatii-se-orienteaza-in-spatiu-mai-bine-decat-femeile-motivul-e-cu-totul-altul-decat-se-credea (accesat:
13 octombrie 2017)
18
Tabelul 1.1 Exemple de colectivităţi statistice
Informaţia statistică dorită Colectivitatea statistică
Cele 378 de școli private
Numărul mediu de elevi al școlilor
care erau funcționale în
private din România la sfârșitul anului
România la sfârșitul anului
2016
20167
Câștigul salarial mediu (brut sau net) la Cei 4,902 milioane salariați
nivelul României în luna februarie înregistrați în România în
2018 luna februarie 20188
Ponderea Societăților cu Răspundere
Cele 98567 Societăți
Limitată (S.R.L.) în totalul Societăților
Comerciale înmatriculate în
Comerciale înmatriculate în România
România în 20179
în 2017
7
Cf.: Ziarul Financiar, 5 septembrie 2018, https://www.pressreader.com/romania/ziarul-
financiar/20180905 (accesat în 5 septembrie 2018).
8
Cf.: Ziarul Financiar, 1 mai 2018, https://www.pressreader.com/romania/ziarul-financiar/20180501
(accesat în 2 mai 2018).
9
A se vedea datele publicate de Oficiul Național al Registrului Comerțului,
https://www.onrc.ro/statistici/2017/decembrie/inmatriculari%20de%20persoane%20fizice%20si%20jurid
ice%202017.xls (accesat în 19 aprilie 2018).
10
Cf.: https://www.ziaruldeiasi.ro/stiri/anul-trecut-au-fost-mai-multe-casatorii-fata-de-2016--187335.html
(accesat în 18 aprilie 2018).
11
A se vedea: http://www.aci.aero/Data-Centre
19
Tabelul 1.1 Exemple de colectivităţi statistice (continuare)
Informaţia statistică dorită Colectivitatea statistică
Valoarea medie a despăgubirilor Cei 7785 de proprietari de
acordate proprietarilor de porci din porci despăgubiți în 2018
România în 2018 până la data de 1 până la data de 1 noiembrie
noiembrie pentru acoperirea pierderilor în urma deciziilor de
apărute în urma măsurilor adoptate sacrificare luate pentru
pentru oprirea extinderii pestei pornice stoparea extinderii pestei
în România pornice în România12
12
Cf.: Lidia TRUICĂ. Molimele animalelor bântuie România. În: Reporter Global, nr. 23, 9-15
noiembrie 2018, p. 42, https://reporterglobal.ro/molimele-animalelor-bantuie-romania/ (accesat în 9
noiembrie 2018) .
20
O problemă importantă în cercetarea statistică o reprezintă stabilirea listei
de variabile după care se studiază colectivitatea statistică. În această listă
trebuie să apară doar variabilele care răspund direct obiectivului propus.
În figura 1.1 este prezentată clasificarea variabilelor statistice în funcţie de
natura lor.
de timp (cronologice)
organizatorice binare sau dihotomice
de spaţiu (teritoriale) (cu 2 variante de tip
„atribut”); o categorie
aparte este cea a
nominale
variabilelor binare de
(au variante de tip
tipul DA / NU)
“atribut“, între care nu
calitative există o relaţie de
(nenumerice) ordine) multinominale (cu mai
Variabile
mult de 2 variante)
statistice ordinale
(cu variante aflate într-o
relaţie de ordine)
discontinue
(cu valori în salturi)
cantitative
(numerice) continue
(definite deseori pe
intervale)
13
Denumirea acestei scale vine de la numele psihologului social Rensis LIKERT (1903-1981), care a
conceput-o în 1932 (cf.: Ankur JOSHI, Saket KALE, Satish CHANDEL și D. K. PAL. Likert Scale:
Explored and Explained. British Journal of Applied Science & Technology 7(4): 396-403, 2015, p. 397,
http://www.journalrepository.org/media/journals/BJAST_5/2015/Feb/Joshi742014BJAST14975_1.pdf -
accesat în 31 octombrie 2018).
22
întregi (prin urmare, sunt valori în salturi): 0, 1, 2, 3 și 4. Astfel de
variabile cantitative discontinue sunt totodată și variabile numărabile.
Un exemplu de variabilă cantitativă discontinuă din cadrul celei de-a 2-a
categorii menționate este variabila „vârstă” definită în ani împliniți,
variabilă la care se poate apela atunci când colectivitatea statistică este una
la nivelul căreia vârsta nu înregistrează valori pe o plajă mare de variație.
Pentru ilustrarea variabilelor cantitative continue, definite pe intervale,
putem să ne oprim asupra variabilei „vechime în muncă” luată în
considerare în tabelul 1.7 și figurile 1.15 și 1.16. În acest exemplu,
intervalele prin care sunt definite variantele variabilei statistice sunt egale
între ele.
În situația în care criteriul de omogenitate/eterogenitate a valorilor
înregistrate impune acest lucru, variantele statistice pot fi construite sub
forma unor intervale neegale. Lungimile acestor intervale vor fi stabilite în
așa fel încât să se asigure, pe cât este posibil, un grad corespunzător de
omogenitate a valorilor înregistrate pentru fiecare dintre aceste intervale
(este de dorit ca valorile de pe fiecare interval să fie cât mai puțin
eterogene14).
Sunt situații în care o variabilă cantitativă este definită pe anumite
intervale de variație în ciuda faptului că fenomenul avut în vedere nu este
caracterizat prin continuitate. Se optează pentru această modalitate ca
urmare a reducerii considerabile a efortului de culegere și de prelucrare
statistică fără o pierdere semnificativă în ceea ce privește precizia
rezultatelor urmărite în cadrul investigației desfășurate. Un exemplu în
acest sens îl poate constitui variabila „număr de vizite medicale făcute la
medicul de familie pe parcursul unui an calendaristic”. Această variabilă
este una numărabilă, cu ajutorul căreia se caracterizează un fenomen cu o
variație discontinuă. Totuși, în scopul reducerii efortului de culegere și
prelucrare a datelor statistice se poate opta pentru definirea ei pe un
anumit număr de intervale (de la 0 la 4 vizite pe an; de la 5 la 9 vizite pe
an etc.).
În descrierea statistică a fenomenelor sau însușirilor caracterizate prin
continuitate nu se poate pretinde respectarea întocmai a criteriului de
precizie numerică (de pildă, înălțimea sau greutatea unei persoane sunt
mărimi continue, ale căror valori nu pot fi niciodată exprimate cu
exactitate absolută).
14
Dacă, de exemplu, pe un anumit interval se observă, în cadrul unei cercetări preliminare, o concentrare
a valorilor în două regiuni diferite ale acestuia, este de preferat ca intervalul să fie împărțit corespunzător
în două subintervale care vor constitui noi variante ale variabilei statistice în cauză. Pentru exemplul dat
(variabila „vechime în muncă” considerată în tabelul 1.7 și figurile 1.15 și 1.16), vor rezulta astfel în
locul unui interval de 5 ani două subintervale de câte 2,5 ani.
23
Frecvenţele statistice sunt măsuri ale intensităţii de manifestare a
varianteler care definesc variabilele statistice considerate. O frecvenţă
statistică se poate exprima fie într-o formă absolută, indicând numărul de
apariţii sau de manifestări pentru varianta considerată, fie într-o formă
relativă, prin raportarea mărimii ei absolute la alte mărimi de interes (cel
mai des la numărul total de apariţii sau manifestări considerate pentru
fenomenul studiat).
Șirul de variante pe care le înregistrează o variabilă statistică la nivelul
tuturor unităţilor statistice dintr-o colectivitate statistică, împreună cu şirul
de frecvenţe statistice înregistrate pentru fiecare dintre aceste variante se
numeşte distribuţie sau repartiţie statistică de frecvențe. Exemple de
astfel de distribuții sunt prezentate în tabelele 1.2 și 1.3 (este vorba despre
distribuțiile vânzărilor de autoturisme autohtone înregistrate în România în
anii 2013 și 2017).
15
Sursa datelor: APIA (Asociaţia Producătorilor şi Importatorilor de Automobile),
http://www.apia.ro/wp-content/uploads/2014/05/2013-12-Analize.pdf (accesat: 30 mai 2018)
24
Dacă nu se prevăd modificări esenţiale în evoluţia lunară a vânzărilor de
autoturisme autohtone pentru anul 2018, distribuţia frecvenţelor relative
înregistrate în anul 2017 poate fi considerată ca fiind totodată o distribuţie
probabilistică a vânzărilor de autoturisme autohtone pentru anul 2018.
16
Sursa datelor: APIA (Asociaţia Producătorilor şi Importatorilor de Automobile),
http://www.apia.ro/wp-content/uploads/2018/02/2018-01-Analize.pdf (accesat: 30 mai 2018)
25
statistici pentru caracterizarea formei distribuţiilor
unimodale (coeficienţii de oblicitate şi kurtosis propuși de Karl
Pearson (1857-1936), coeficienţii de oblicitate şi kurtosis propuși de
Ronald Aylmer Fisher (1890-1962) etc.);
statistici de corelaţie (covarianţa, coeficientul de corelaţie
liniară, coeficientul de determinare, coeficientul de corelaţie
neparametrică Kendall, coeficientul de corelaţie neparametrică
Spearman etc.).
Statistica descriptivă
Metodele statisticii descriptive răspund nevoilor de descriere a unei
colectivităţi de unităţi statistice prin valorile lor reprezentative, adică prin
statistici.
Fac obiectul descrierii statistice acele experienţe care sunt în legătură cu
fenomene care nu sunt caracterizate de o uniformitate sistematică.
În măsura în care se poate discerne o regularitate în derularea unui
fenomen, recursul la descrierea statistică a acestuia nu mai este necesar17.
De exemplu, scopul statisticii demografice privind durata medie de viaţă a
unei populaţii nu este acela de a evidenţia faptul că toţi oamenii sunt
muritori, ci de a informa în legătură cu lungimea vieţii umane, a cărei
magnitudine, nu este, conform observaţiilor statistice, uniformă.
Pentru obţinerea statisticilor prin care se pot descrie colectivităţile
statistice studiate este necesară parcurgerea următoarelor două etape:
centralizarea datelor obţinute în urma observărilor statistice;
prelucrarea datelor centralizate cu ajutorul tehnicilor de calcul
statistice.
În urma centralizării datelor statistice se obţin statisticile primare, iar prin
prelucrarea, cu ajutorul tehnicilor de calcul statistice, a statisticilor
primare, se obţin statisticile derivate.
Atât statisticile primare, cât şi statisticile derivate, sunt expresii numerice
ale fenomenelor studiate statistic.
Statisticile primare descriu în mărimi absolute fenomenele studiate,
exprimând direct nivelurile cantitative ale variabilelor studiate. Ele se pot
determina global sau prin cumulare treptată. Centralizarea la nivelul
întregii colectivităţi statistice este calea obţinerii statisticilor primare
globale, iar centralizarea la nivelul grupelor colectivităţii statistice asigură
obţinerea statisticilor primare cumulate.
17
Ludwig von Mises, The Ultimate Foundation of Economic Science, Van Nostrand Edition, 1962, p. 55.
26
Statisticile primare se exprimă în unităţile de măsură specifice variabilelor
studiate (bucăţi, kilograme, metri etc.). Cu ajutorul lor se pot face doar
aprecieri globale privind fenomenele studiate.
Statisticile derivate sunt necesare pentru evidenţierea tendinţelor specifice
(care interesează în cercetările întreprinse) manifestate la nivelul
colectivităţilor statistice studiate.
Pentru cunoaşterea multilaterală, din punct de vedere statistic, a
fenomenelor, este necesară utilizarea combinată a statisticilor absolute
(primare) şi a celor derivate.
Am ales pentru exemplificare statisticile primare privind natalitatea,
mortalitatea şi sporul natural pentru anii 2010-2016, centralizate la nivelul
Institului Naţional de Statistică din România. Acestea sunt prezentate în
tabelul 1.4.
Se poate observa că pe baza statisticilor primare din coloanele 2 (număr
născuți-vii) și 4 (număr decedați) ale acestui tabel au fost calculate în
coloanele 3 și 5 statisticile derivate privind variațiile anuale ale acestora.
De asemenea, în coloanele 6 și 7 au fost determinate statistici derivate
privind sporul natural (dat de diferența dintre numărul de născuți-vii și
numărul de decedați dintr-un anumit an).
În acest fel s-au putut obține, de pildă, următoarele informaţii
suplimentare:
- în anul 2015 s-a înregistrat un număr de născuţi-vii mai mic cu
1249 faţă de anul 2014 (197491 – 198740 = -1249);
- în anul 2015 s-a înregistrat un număr de decedaţi mai mare cu 6329
faţă de anul 2014 (261294 – 254965 = +6329);
- scăderea numărului de născuţi-vii în paralel cu creșterea numărului
de decedați în anul 2015 față de anul 2014, a determinat în această
perioadă o creştere a sporului natural negativ cu 7578 (de la -
56225 în 2014 acesta a ajuns la -63803 în 2015);
- în anul 2016 s-a înregistrat un număr de născuţi-vii mai mic cu
9076 faţă de anul 2015 (188415 – 197491 = -9076);
- în anul 2016 s-a înregistrat un număr de decedaţi mai mic cu 4818
faţă de anul 2015 (256476 – 261294 = -4818);
- scăderea mai accentuată a numărului de născuţi-vii față de scăderea
numărului de decedați în anul 2016 față de anul 2015, a determinat
în această perioadă o creştere a sporului natural negativ cu 4258
(de la -63803 în 2015 acesta a ajuns la -68061în 2016).
27
Tabelul 1.4 Statistici ale Institului Naţional de Statistică din România
privind natalitatea, mortalitatea şi sporul natural pentru anii 2010-
201618
Variaţie Variaţie Variaţie
Număr
față de Număr față de Spor față de
Anul născuţi-
anul decedaţi anul natural anul
vii
precedent precedent precedent
* Date revizuite
** Date semidefinitive
Statistica inferenţială
Statistica modernă s-a dezvoltat mai ales prin apariţia şi dezvoltarea
metodelor de investigare parţială. Metodele de investigare statistică
parţială sunt metode ale aşa-numitei statistici inferenţiale.
Statistica inferenţială îşi propune să caracterizeze colectivitatea statistică
studiată prin observarea doar a uneia sau mai multor părţi ale acesteia,
denumite eşantioane. Bineînţeles, o astfel de caracterizare nu poate fi
decât una estimativă, valorile statistice obţinute la nivel de eşantion
statistic fiind denumite estimatori statistici. Estimarea statisticilor la
nivelul unei colectivități prin intermediul unor astfel de metode se numeşte
inferenţiere statistică (figura 1.2).
18
Anuarul statistic al României pentru anul 2017, capitolul 2, „Populaţie”, tabelul 2.8, „Mișcarea naturală
a populației”, p. 70,
http://www.insse.ro/cms/sites/default/files/field/publicatii/anuarul_statistic_al_romaniei_carte_ro.pdf
(accesat în 29 august 2018)
28
Estimarea
statisticii
EŞANTION la
POPULAŢIE nivelul căruia se
descrisă de determină
statistica estimatorul
SELECŢIA
aleatoare a unui
eşantion şi
calculul unei
estimator al
statisticii
19
Cf: http://www.insse.ro/cms/sites/default/files/com_presa/com_pdf/cs08r18.pdf (comunicat de presă
publicat online în 9 octombrie 2018)
20
Cf.: http://www.insse.ro/cms/sites/default/files/com_presa/anexa_date/cs08r18.xls (accesat: 10
octombrie 2018)
29
evidenţia, de această dată, pentru aceeaşi noţiune (“salariul mediu nominal
net”), trei identificatori: unul de timp (“luna august, 2018”), unul de spaţiu
(“România”) şi unul organizatoric, de detaliere (“industria extractivă”).
Datele statistice sunt purtătoare de informaţii statistice, acestea din urmă
constând în mesajele semnificative oferite de datele statistice.
În funcție de posibilitatea de identificare și/sau măsurare a lor, datele
statistice se pot clasifica în:
date statistice nominale;
date statistice ordinale;
date statistice de tip interval;
date statistice raţionale.
30
După cum se observă, valorile numerice asociate variantelor pot fi folosite
atât pentru clasificarea datelor, cât şi pentru ordonarea acestora.
Raţional
Interval
Ordinal
Nominal
31
tehnici parametrice;
tehnici neparametrice.
Tehnicile parametrice cer ca datele să fie aflate pe nivelurile de
măsurare raţională sau pe intervale. Dacă datele se află pe niveluri de
măsurare inferioare – ordinală sau nominală – atunci sunt disponibile
doar tehnicile statistice neparametrice, care pot fi folosite şi pentru date
aflate pe nivelurile de măsurare superioare.
În figura 1.3 este sugerat potenţialul de analiză statistică pentru cele 4
niveluri de măsurare a datelor. Desigur, nivelul raţional este
caracterizat de potenţialul maxim de prelucrare şi analiză statistică.
33
raportarea statistică;
sondajul sau selecţia statistică;
ancheta statistică;
observarea părţii principale (panelul);
monografia statistică.
Recensământul
Recensământul este cea mai veche metodă de observare statistică,
constând în culegerea periodică de date statistice de la toate unităţile care
compun colectivitatea statistică ţintă.
Caracterul periodic (de exemplu, recensămintele demografice se
organizează, de regulă, din 10 în 10 ani) al recensământului este impus de
eforturile mari pe care acesta le presupune.
Primul recensământ demografic autentic din România a fost organizat în
anul 1838 şi a vizat totalitatea locuitorilor Ţării Româneşti, indiferent de
vârstă, sex, stare socială etc. Acest recensământ a întrunit majoritatea
cerinţelor impuse unei astfel de investigaţii (universalitate, înregistrare
prin dialog nemijlocit cu subiectul, caracterul individual al înregistrării,
iniţierea şi efectuarea acţiunii de către autoritatea de stat) 21.
După acest an au mai fost organizate în România următoarele
recensăminte demografice22:
Recensământul din 1859-1860
Recensământul general al populaţiei României din 1899
Recensământul general al populaţiei din 1912
Recensământul general al populaţiei din 1930
Recensământul general al populaţiei din 1941
Recensământul agricol şi al populaţiei din ianuarie 1948
Recensământul populaţiei din februarie 1956
Recensământul populaţiei şi locuinţelor din martie 1966
Recensământul populaţiei şi al locuinţelor din ianuarie 1977
Recensământul populaţiei şi locuinţelor din 1992
21
http://www.recensamantromania.ro/istoric/primele-cercetari-demografice/
22
http://www.recensamantromania.ro/istoric/lista-recensafmintelor-populaaiei/
34
Recensământul populaţiei şi al locuinţelor din 2002
Recensământul populaţiei şi al locuinţelor din octombrie 2011
Raportarea statistică
Prin intermediul unui sistem de raportare statistică se doreşte o observare
permanentă a tuturor unităţilor statistice componente ale colectivității
statistice ţintă.
În cadrul unui sistem de raportare statistică, unităţile statistice trebuie să
furnizeze permanent datele statistice solicitate, astfel încât să poată fi
surprinsă evoluţia în timp a fenomenelor cercetate.
Exemple de sisteme de raportare statistică sunt:
- Sistemul de raportare statistică INTRASTAT. Obligaţia de raportare în
sistemul statistic INTRASTAT revine tuturor operatorilor economici care
îndeplinesc simultan următoarele condiţii 23: 1. sunt înregistraţi în scopuri
de taxă pe valoare adăugată, adică au cod de identificare fiscală; 2.
realizează schimburi de bunuri cu alte state membre ale Uniunii Europene;
3. valoarea totală a schimburilor de bunuri cu alte state membre ale
Uniunii Europene, pentru fiecare dintre cele două fluxuri, introduceri şi,
respectiv, expedieri, depăşeşte pragul valoric INTRASTAT stabilit pentru
fiecare an;
- Sistemul de raportare statistică monetară a instituţiilor de credit către
Banca Naţională a României. În aceste sistem rapoartele se transmit lunar,
în format electronic, până cel târziu în data de 15 a lunii următoare şi ele
cuprind informaţii privind24: bilanţul monetar al instituţiilor financiare
monetare; ratele dobânzii practicate de instituţiile financiare monetare;
activele şi pasivele bilanţiere ale instituţiilor financiare nebancare; activele
şi pasivele fondurilor de investiţii; balanţa de plăţi; operaţiuni valutare de
capital de natura datoriei private externe pe termen mediu şi lung;
structura în profil teritorial a creditelor şi depozitelor clienţilor nebancari,
neguvernamentali; emisiunile şi deţinerile de titluri de valoare.
23
Cf. Ordinului Preşedintelui Institutului Naţional de Statistică nr. 1948, din 19 decembrie 2012, privind
aprobarea Normelor de completare a Declaraţiei statistice Intrastat,
http://www.intrastat.ro/doc/Ordin_1948_norme_2013.pdf (accesat: 26 august 2014)
24
Cf. Regulamentului BNR nr.3/2013 pentru modificarea şi completarea Regulamentului Băncii
Naţionale a României nr. 31/2011 privind raportarea de date şi informaţii statistice la Banca Naţională a
României, http://www.bnr.ro/apage.aspx?pid=404&actId=326255 (accesat: 26 august 2014)
35
Sondajul sau selecţia statistică
Sondajul sau selecţia statistică este o metodă de observare statistică
parţială a colectivității statistice ţintă.
O observare statistică parţială este motivată prin eforturile mai mici pe
care aceasta le presupune.
În cazul unei asemenea observări se cere însă rezolvată problema
reprezentativităţii eşantionului (partea din colectivitate care este selectată
pentru a fi supusă observării) ales pentru studiu.
Cerinţa de asigurare a reprezentativităţii face din alegerea eşantionului o
problemă destul de complexă.
Ancheta statistică
Ancheta statistică este metoda de observare statistică parţială în cadrul
căreia nu se ţine cont de problema reprezentativităţii eşantionului
constituit.
Ea se bazează, de regulă, pe distribuirea directă (cu ocazia unor târguri,
expoziţii etc.) sau indirectă (de exemplu, prin poştă) de chestionare a căror
completare este benevolă.
Avantajul acestei metode constă în economicitatea ei. În schimb,
neasigurarea condiţiei de reprezentativitate a eşantionului face dificil
controlul privind erorile statistice ale rezultatelor obţinute. În consecinţă,
rezultatele obţinute se pot extinde asupra întregii colectivităţi statistice
numai cu o aproximaţie necontrolabilă.
36
Monografia statistică
Monografia statistică este, propriu-zis, o metodă de cercetare statistică,
realizată cu scopul depistării de noi elementele care apar la nivelul
colectivității statistice studiate, ceea ce presupune o anumită aprofundare a
etapei de observare statistică.
Monografia statistică presupune nu numai culegerea datelor ci şi
interpretarea acestora. O ontribuţie importantă la dezvoltarea şcolii
statistice monografice a adus-o şi sociologul român Dimitrie Gusti.
38
sexe, pe categorii socio-profesionale etc., în funcţie de criteriile stabilite
pentru gruparea datelor.
Prin gruparea datelor statistice pot fi satisfăcute necesităţi ale analizei
statistice. De exemplu, prin gruparea datelor statistice se pot pune în
evidenţă efectele unei relaţii cauzale dintre două sau mai multe variabile.
Gruparea datelor trebuie realizată cu respectarea condiţiei de omogenitate.
Aceasta înseamnă că diferenţele înregistrate în interiorul grupei nu pot
depăşi anumite limite fixate anterior.
unde:
39
A reprezintă amplitudinea variaţiei statistice;
xmax = limita superioară de variaţie (varianta maximă pe care o poate
înregistra variabila statistică);
xmin = limita inferioară de variaţie (varianta minimă pe care o poate
înregistra variabila statistică).
2. Stabilirea mărimii intervalelor de grupare.
a. dacă numărul de grupe este anterior fixat, se foloseşte relaţia:
unde:
mj reprezintă mărimea intervalelor de grupare;
ng = numărul de grupe.
b. dacă nu se fixează anterior numărul de grupe, se foloseşte relaţia
propusă de H.A. Sturges:
Tabelele statistice
Tabelele statistice sunt folosite pentru prezentarea seriilor statistice şi se
construiesc în aşa fel încât să conţină următoarele elemente:
Titlul general, prin care este prezentat, într-o formă completă, dar şi
concisă, obiectul tabelului. Pentru a fi complet, titlul general trebuie să
40
definească colectivitatea statistică atât în spaţiu, cât şi în timp. Concizia
titlului general nu trebuie să afecteze, desigur, precizia şi claritatea sa;
Titlurile interioare, adică cele ale rândurilor şi coloanelor tabelului.
Titlurile interioare definesc gruparea sau grupările datelor statistice
prezentate;
Macheta tabelului, adică reţeaua de rânduri şi coloane (care formează
rubricile în care se înscriu datele);
Unităţile de măsură utilizate pentru exprimarea datelor;
Eventualele note explicative necesare pentru interpretarea corectă a
datelor;
Sursele datelor, a căror cunoaştere permite verificarea, de către cei
interesaţi, a exactităţii informaţiilor.
După numărul şi natura variabilelor statistice implicate, se întocmesc:
Tabele simple sau descriptive, prezentând distribuția colectivității
analizate după o singură variabilă statistică. Ele înlesnesc prezentarea
datelor statistice ordonate din punct de vedere cronologic, teritorial sau
organizatoric;
Tabele combinate, în care datele sunt prezentate în urma grupărilor
combinate după două sau mai multe variabile. Când există o
dependenţă între cele două variabile, tabelul este unul de corelaţie sau
de asociere statistică.
Diagramele statistice
Calea cea mai expresivă de reprezentare a datelor statistice este cea
grafică.
Prin reprezentarea grafică a datelor statistice se asociază acestora o
imagine spaţială, cu caracter convenţional, prin care se reliefează ceea ce
este esenţial pentru colectivitatea statistică studiată.
Pentru a fi completă, reprezentarea grafică trebuie să conţină următoarele
elemente:
Titlul graficului, care arată la ce se referă reprezentarea grafică, cu
specificarea locului şi perioadei pentru care sunt prezentate datele;
Axele de coordonate. Coordonatele pot fi rectangulare sau polare (în
cazul seriilor cronologice);
Titlurile interioare, care arată ce se măsoară pe fiecare axă de
coordonate.
41
Reţeaua graficului, formată din linii paralele, orizontale şi verticale,
trasate explicit sau subînţelese, servind la înscrierea simbolurilor şi
figurilor. Reţelele pot fi aritmetice, logaritmice, semilogaritmice sau
polare;
Scara de măsură, prin care este stabilită relaţia dintre unitatea grafică
de măsură şi unitatea de măsură a variabilei (de exemplu: 1 cm =
100.000 de lei). Se folosesc scări de măsură uniforme (scara aritmetică,
în care diviziunile sunt echidistante) sau neuniforme (scara logaritmică,
folosită, în special, pentru reprezentarea grafică a seriilor statistice
cronologice);
Legenda, care arată semnificaţia simbolurilor folosite în grafic;
Sursa datelor;
Una sau mai multe note explicative, indicând ipotezele de lucru avute
în vedere la construirea graficului.
Principalele tipuri de grafice statistice sunt:
Diagramele prin benzi;
Diagramele prin coloane;
Diagramele de structură;
Diagrama polară;
Histograma;
Poligonul de frecvenţe;
Ogiva;
Cartograma;
Cronograma;
Corelograma.
42
Tabelul 1.5. Numărul întreprinderilor mici (10-49 angajaţi) în
perioada 2012-201625
2012 57941
2013 57820
2014 57716
2015 58153
2016 58508
*Datele pentru anii 2012-2015 sunt revizuite față de cele publicate anterior
25
Datele au fost preluate din Anuarul statistic al României editat de Institutul Naţional de Statistică al
României (http://www.insse.ro).pentru anul 2017, pag. 536,
http://www.insse.ro/cms/sites/default/files/field/publicatii/anuarul_statistic_al_romaniei_carte_ro.pdf
(accesat în 25 aprilie 2018).
43
Ţările cu cele mai mari rezerve de gaze naturale
(mld. me tri cubi, 2012)
Rusia 45,955
Iran 33,620
Qatar 25,069
Turkmenistan 10,000
Venezuela 5,528
Nigeria 5,118
Algeria 4,504
SUA 4,291
Diagramele prin benzi se folosesc mai ales atunci în special atunci când se
doreşte evidenţierea diferenţelor dintre valori, deoarece ochiul omenesc
poate sesiza mai uşor variaţiile care apar pe orizontală.
Un prim exemplu este diagrama din figura 1.5, în care sunt reprezentate
ţările cu cele mai mari rezerve de gaze naturale, la nivelul anului 201226.
Un al doilea exemplu este diagrama din figura 1.6, în care se pot observa
ușor diferențele înregistrate în anul 2017 între anumite țări ale lumii în
ceea ce privește averea bănească brută, exprimată în euro per capita27.
Al treilea exemplu interesant este prezentat în figura 1.7, care constă în
diagrama top 5 mondial a veniturilor medii (brute) obținute de către expați
la nivelul anul 201728.
26
Conform: http://de.statista.com/statistik/daten/studie/37381/umfrage/laender-nach-konventionellen-
erdgasreserven
27
Cf.: Frankfurter Allgemeine Zeitung, 27 septembrie 2018, p. 23.
44
Figura 1.6 Diagramă prin benzi
28
Cf: Expat Explorer: Broadening perspectives, Global Report, HSBC, 2017, p. 16,
https://www.expatexplorer.hsbc.com/survey/files/pdfs/overall-
reports/2017/YouGov_HSBC_Report_Final.pdf (accesat: 16 octombrie 2018).
45
Diagramele prin coloane
Cu ajutorul diagramelor prin coloane, datele statistice sunt reprezentate tot
prin dreptunghiuri, construite însă pe verticală, cu bazele pe abscisă
(coloane).
Coloanele diferă între ele doar prin înălţime, aceasta fiind direct
proporţională cu mărimea valorilor reprezentate. Diagramele prin coloane
se folosesc cel mai des pentru reprezentarea evoluţiei în timp a
fenomenelor studiate.
În figura 1.8 sunt reprezentate grafic datele din tabelul 1.5, optându-se de
această dată pentru o diagramă prin coloane.
Diagramele de structură
Diagramele de structură se folosesc pentru reprezentarea distribuţiilor
statistice după variabilele considerate. Sunt puse, astfel, în evidenţă
ponderile principalelor părţi componente ale colectivităţii statistice
analizate.
Pentru reprezentarea grafică se folosesc diverse figuri geometrice: cercul,
pătratul, dreptunghiul etc. Suprafaţa totală a figurii corespunde volumului
întregii colectivități statistice, în timp ce suprafeţele diferitelor porţiuni ale
figurii corespund părţilor componente ale colectivității statistice studiate.
Pentru exemplificare, în figura 1.9 este reprezentată distribuţia populaţiei
Republicii Moldova pe medii de reşedinţă, conform rezultatelor
46
preliminare ale recensamântului populaţiei şi locuinţelor din 12-25 mai
201429.
Persoane în
mediul rural;
995227
Persoane în
mediul urban;
1918054
unde:
rj (%) reprezintă frecvenţa relativă de apariţie (exprimată procentual) a
variantei j care defineşte variabila statistică X;
nj = frecvenţa absolută de apariţie a variantei j care defineşte variabila
statistică X.
Pentru datele din exemplul nostru, frecvenţele relative, exprimate
procentual, sunt:
- pentru populaţia din mediul urban:
29
Cf:
http://www.statistica.md/public/files/Recensamint/Recensamint_pop_2014/Nota_informativa_Preliminare
_Recensamint_2014.pdf
47
- pentru populaţia din mediul rural:
Persoane în
mediul rural
34,16%
Persoane în
mediul urban
65,84%
48
Un alt exemplu de diagramă de tip „pie” (= „plăcintă”) este cel din figura
1.11, în care este reprezentată structura pe grupe de vârstă a emigranților
din România în anul 201730.
Tot ca diagrame de structură se pot folosi diagramele prin batoane sau
bare. Ele pot fi uşor confundate cu diagramele prin coloane. Se disting
însă prin faptul că valorile variabilei statistice se reprezintă prin batoane
sau bare verticale care au înălţimi care prin însumare dau valoarea 1 (dacă
frecvenţele relative iau forma coeficienţilor) sau 100 (dacă frecvenţele
relative se exprimă prin procente).
De exemplu, în figura 1.13 este reprezentată structura producției de
energie electrică a României în funcție de sursele de generare în data de 29
martie 2018, ora 18:45:0231, reprezentată printr-o diagramă prin bare, spre
deosebire de diagrama de tip plăcintă din figura 1.12, folosită pentru
reprezentarea acelorași date statistice.
30
Cf.: Ziarul financiar, 30 august 2018, p. 3 (sursa datelor: Institutul Național de Statistică).
31
Datele au fost preluate din ziarul Bursa apărut în 30 martie 2018, http://www.bursa.ro/oprirea-
reactorului-2-ieftineste-electricitatea-pe-bursa-cu-circa-35-procente-hidroelectrica-a-compensat-lipsa-
energiei-nucleare-343837&s=companii_afaceri&articol=343837.html (accesat în 2 mai 2018).
49
Figura 1.13 Structura producției de energie electrică a României în
funcție de sursele de generare în data de 29 martie 2018, ora 18:45:02
– Diagramă prin bare
Diagrama polară
Se mai numeşte şi diagramă radială şi se foloseşte pentru ilustrarea
sezonalităţii caracteristice anumitor fenomene statistice studiate.
Diagrama polară se construieşte folosind o reţea radială. În figura 1.14 este
reprezentată evoluţia vânzărilor de băuturi răcoritoare produse de firma
„ABC” pe parcursul celor 12 luni ale unui an, conform datelor din tabelul
1.6.
1
15,0
12 2
10,0
11 3
5,0
10 0,0 4
9 5
8 6
7
50
Tabel 1.6 Vânzări de băuturi răcoritoare produse de firma „ABC”
într-un anumit an (mil. lei)
Ianuarie 6,5
Februarie 6,7
Martie 7,4
Aprilie 8,3
Mai 10,0
Iunie 12,4
Iulie 12,5
August 13,1
Septembrie 12,5
Octombrie 10,2
Noiembrie 8,0
Decembrie 7,1
Histograma
Histograma se foloseşte pentru reprezentarea repartiţiilor variabilelor
statistice definite pe intervale.
Ea se construieşte într-un sistem rectangular de axe astfel:
pe abscisă se reprezintă prin segmente de dreaptă mărimile intervalelor
de grupare;
pe ordonată se reprezintă prin segmente de dreaptă frecvenţele
distribuţiei statistice;
se construiesc dreptunghiuri care au ca baze segmentele de dreaptă ce
reprezintă mărimile intervalelor de grupare şi înălţimi egale cu
segmentele de pe ordonată corespunzătoare frecvenţelor statistice.
Pentru exemplificare, să presupunem variabila "vechime în muncă", pentru
care au fost înregistrate, la nivelul unei firme, valorile din tabelul 1.7. Este
necesară mai întâi construirea distribuţiei statistice a frecvenţelor. Pentru
aceasta trebuie parcurse următoarele etape:
a) se calculează amplitudinea variaţiei statistice:
A = xmax – xmin = 35 – 1 = 34 ani
b) se alege lungimea intervalelor. Se opteauă pentru împărţirea pe
intervale egale de lungime L = 5;
c) se determină numărul de intervale:
51
k = A / L = 34 / 5 = 6,8 7 intervale
d) construim cele 7 intervale, considerând ca limită minimă valoarea de 0
şi ca limită maximă valoarea 35. Se obţine astfel distribuţia frecvenţelor
absolute din tabelul 1.8.
Histograma corespunzătoare distribuţiei din tabelul 1.8 este redată în
figura 1.15.
Poligonul frecvenţelor
Poligonul frecvenţelor este linia poligonală care uneşte, în cadrul unui
sistem rectangular de axe, punctele care corespund frecvenţelor absolute
ale căror valori sunt reprezentate pe ordonata graficului. Se poate construi,
de asemenea, pornind de la graficul histogramei, unind mijloacele bazelor
de sus ale dreptunghiurilor corespunzătoare intervalelor variabilei
statistice.
Poligonul frecvenţelor obţinut pe baza distribuţiei frecvenţelor absolute
din tabelul 1.8 este construit în figura 1.16.
Ogiva
Ogiva este linia poligonală care uneşte, în cadrul unui sistem rectangular
de axe, punctele care corespund frecvenţelor absolute sau relative
cumulate ale căror valori sunt reprezentate pe ordonata graficului.
Frecvenţe cumulate se obţin prin însumarea treptată a frecvenţelor
absolute sau relative.
52
Tabelul 1.8 Distribuţia variabilei "vechime în muncă" pentru cei 50
de angajaţi ai firmei „ABC”
Intervale de variaţie (ani) Frecvenţe absolute
[0-5] 14
(5-10] 9
(10-15] 3
(15-20] 13
(20-25] 6
(25-30] 3
(30-35] 2
Total 50
Frecvenţe absolute
15
14 13
10
9
5
6
3 3 2
0
[0-5] (5-10] (10-15] (15-20] (20-25] (25-30] (30-35] Ani
Frecvenţe absolute
15
14 Poligonul frecvenţelor
10 13
9
5
6 2
3 3
0
[0-5] (5-10] (10-15] (15-20] (20-25] (25-30] (30-35] Ani
53
În tabelul 1.9 sunt calculate frecvenţele absolute cumulate corespunzătoare
intervalelor care definesc variabila după care a fost construită distribuţia
statistică din tabelul 1.8. De exemplu, frecvenţa cumulată care corespunde
intervalului (15-20] este egală cu 39, reprezentând numărul muncitorilor
care au cel mult 20 ani vechime (frecvența cumulată a primelor 4 intervale
de vechime).
Tabelul 1.9
Intervale de variaţie Frecvenţe Frecvenţe absolute
(ani) absolute cumulate
[0-5] 14 14
(5-10] 9 23
(10-15] 3 26
(15-20] 13 39
(20-25] 6 45
(25-30] 3 48
(30-35] 2 50
Total 50
În figura 1.17 este reprezentată ogiva construită pe baza datelor din tabelul
1.9.
Frecvenţe cumulate
60
50
40 48 50
45
30 39
20
23 26
10
0 14
0 5 10 15 20 25 30 35 40
Intervale vechime în muncă (ani)
Cartograma
Cartograma este un grafic folosit pentru evidenţierea variaţiilor care apar
la nivelul diferitelor unităţi statistice teritoriale. Ea se reprezintă direct pe
54
o hartă şi se foloseşte în cazul variabilelor statistice teritoriale. Pentru
exemplificare, în figura 1.18 este prezentată cartograma construită pe baza
datelor din tabelul 1.10, privitoare la ponderea în venitul naţional a
cheltuielilor pentru educaţia publică, pe continente, la nivelul anului 1965.
Asia 4,0 %
Oceania 4,4 %
5,3%
4,1%
4,0%
4,3%
4,0%
4,4%
32
John SHEEHAN. The Economics of Education. Routledge - Taylor & Francis Group, 1973, 2012, p.
12.
55
Cronograma
Cronograma se foloseşte în cazul seriilor statistice cronologice. Ea este, de
fapt, o diagramă pentru care una dintre axe este axa timpului.
Cronogramele sunt utile în redarea evoluţiei fenomenelor foarte dinamice.
Astfel de fenomene sunt, de exemplu, preţurile (preţul aurului, cursul
valutar, cursul unei acţiuni, nivelul dobânzii etc.).
În cronograma din figura 1.19 este redată, de pildă, evoluţia preţului
benzinei Euro-super 95 (I) în România, în perioada 16 iulie – 3 septembrie
2018 (Euro / 1000 litri, fără considerarea taxelor)33.
33
Valorile au fost preluate din baza de date a Comisiei Europene, disponibilă la adresa:
http://ec.europa.eu/energy/observatory/reports/Oil_Bulletin_Prices_History.xls
34
Datele pe baza cărora a fost construită această cronogramă au fost preluate de pe site-ul Băncii
Naționale a României: http://www.bnr.ro/Baza-de-date-interactiva-604.aspx (accesat în 26 aprilie 2018).
56
Figura 1.20 Cronogramă
Corelograma
Corelograma se foloseşte pentru evidenţierea legăturilor statistice dintre
fenomenele studiate. Pe cele două axe ale unei corelograme sunt
reprezentate cele două variabile care fac obiectul studierii existenţei şi
intensităţii legăturii statistice. Cel mai des se foloseşte metoda grafică a
"norului de puncte". "Punctele" au ca şi coordonate perechile de valori pe
care le înregistrează cele două variabile studiate din punctul de vedere al
corelaţiei statistice.
57
Figura 1.21 Corelograma legăturii statistice dintre variabilele
"cheltuieli cu reclama" şi "vânzări" pentru 8 companii
58
anului să obțină o performanță mai bună decât prima compnaie (A), deși
realitatea este cu totul alta.
Figura 1.22
Figura 1.23
59
dintre cele două diametre ale cercurilor care reprezintă profiturile obținute
de către cele două companii.
Construit așa, graficul este unul înșelător, deoarece suprafața celui de-al
doilea cerc este de 4 ori mai mare decât a celuilalt35 și nu doar de 2 ori, așa
cum ar fi trebuit să fie pentru a corespunde raportului dintre nivelurile de
profit ale celor două companii.
Figura 1.24
Figura 1.25
35
Pentru un cerc, un diametru de două ori mai mare corespunde unei arii de patru ori mai mare.
60
- Omiterea reprezentării unor date. În figura 1.24 este reprezentată evoluția
lunară a prețului mediu pentru apartamente vechi cu 2 camere în Cluj-
Napoca, în perioada decembrie 2016 – septembrie 201736. Omiterea
reprezentării datelor pentru toată perioada considerată pe abscisă poate
avea ca scop inducerea în eroare a cititorului, care poate fi convins că se
află în fața unei evoluții mult mai abrupte a prețurilor decât este în
realitate. Acest fapt poate fi demonstrat, de exemplu, cu ajutorul figurii
1.25, în care sunt reprezentate aceleași date, eliminând însă părțile din
grafic pentru care au fost omise datele.
36
Datele pe baza cărora a fost construit graficul au fos preluate de la sursa online:
https://www.imobiliare.ro/indicele-imobiliare-ro/cluj-napoca#c2
61
62
EXPRIMAREA ÎN MĂRIMI
RELATIVE A
INFORMAŢIILOR
STATISTICE
2.
OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate mărimile relative cu ajutorul cărora se pot face
descrieri comparative la nivelul colectivităţilor statistice studiate. Principalele
obiective ale capitolului au în vedere prezentarea:
principalelor tipuri de mărimi relative care se pot folosi pentru descrieri
comparative;
de exemple necesare pentru înţelegerea utilităţii mărimilor relative în statistica
descriptivă;
unităţilor de măsură adecvate pentru mărimile relative folosite.
63
64
2.1. Mărimile relative – rezultate ale comparațiilor
În demersul statistic sunt necesare deseori comparaţii prin care se
evidenţiază:
relaţii cantitative manifestate între diferite variabile statistice;
relaţii cantitative manifestate între diferite părţi ale colectivităţilor
statistice studiate;
dinamica manifestată la nivelul colectivităţilor statistice studiate;
relaţii cantitative între diferite fenomene supuse studiului statistic.
Prin compararea sub formă de raport (cel mai des) sau diferenţă a două
valori, se exprimă proporţia uneia faţă de cealaltă (aceasta din urmă
constituindu-se, astfel, ca şi bază de raportare).
Forma de exprimare a rezultatelor obţinute în urma comparării trebuie
aleasă în funcţie de natura fenomenelor studiate, precum şi de diferenţele
de proporţie dintre valorile comparate.
Atunci când valoarea de comparat este mai mare decât valoarea aleasă ca
bază de raportare, rezultatele se vor exprima în unităţi.
Dacă valoarea de comparat este mai mică decât valoarea aleasă ca bază de
raportare, rezultatele se vor exprima, cel mai des, în coeficienţi sau
procente. Se alege exprimarea în procente dacă se urmăreşte descrierea
structurii sau a dinamicii fenomenului studiat.
Iată câteva exemple interesante de utilizare a exprimării în procente:
- 51% este procentul pe care-l reprezintă componenta digitală în
cadrul industriei muzicale globale1;
- 55% din criptomonedele („CryptoCurrency”) Bitcoin sunt păstrate
la nivel global în doar 1% dintre „portofelele” („Bitcoin Wallets”)
existente2;
- 10% din clienții Toyota din 2011 au ales un autoturism cu
tehnologie hibridă. În prezent (2018), 47% din totalul de
autovehicule Toyota vândute au această tehnologie3;
1
Cf: Die Karke, 17 septembrie 2018, p. 3.
2
Cf: Kayla MATTHEWS. Research: 55% Of The Worlds Bitcoin Held in Just 1% of Wallets. Articol
online la adresa: https://usethebitcoin.com/55-percent-bitcoin-in-1-percent-wallets/ (accesat: 18
octombrie 2018).
3
Cf: Christian BART. Toyota a vândut mașina hibrid cu numărul 2.000.000 în Europa. Articol online la
adresa: https://www.auto-bild.ro/stiri/toyota-hibrid-2-000-000-europa-147985.html (accesat: 22
octombrie 2018).
65
- 62% dintre expați dețin o proprietate undeva în lume, în timp ce
doar 9% dețin o proprietate atât în țara lor de origine, cât și în țara
gazdă. De asemenea, 52% dintre expați se bucură de o calitate mai
bună a vieții, iar 53% de un echilibru îmbunătățit între viața
profesională și cea personală decât în țara de origine4;
- În 1981 aproape 90% dintre chinezi trăiau în sărăcie (acest procent
reprezenta atunci echivalentul unei cifre absolute de peste 800
milioane persoane); în 2016 procentul acestora a ajuns la doar 3%
(circa 43 milioane persoane)5 6;
- Potrivit unui raport al Consiliului ESRB7 (consiliu care are în
vedere riscurile financiare de sistem din UE), piețele financiare
europene sunt controlate în proporție de 40% de entități financiare
care nu dețin o licență bancară (denumite „Shadow Banks” în
engleză, respectiv „Schattenbanken” în germană). Acest procent
corespunde unei sume de 42 trilioane (!) Euro8;
- 84% dintre europenii care au răspuns la o consultare publică9
privind ora de vară s-au pronunțat în favoarea renunțării la
schimbarea orei de două ori pe an, conform rezultatelor preliminare
4
Cf: Expat Explorer: Broadening perspectives, Global Report, HSBC, 2017, p. 7,
https://www.expatexplorer.hsbc.com/survey/files/pdfs/overall-
reports/2017/YouGov_HSBC_Report_Final.pdf (accesat: 16 octombrie 2018).
5
Cf: Der Spiegel, Nr. 43 / 21 octombrie 2017, p. 52,
http://magazin.spiegel.de/EpubDelivery/spiegel/pdf/153888413 (accesat: 15 octombrie 2018).
6
Cifra absolută pentru 2016 (43 milioane persoane) poate fi verificată și la adresele:
- https://schillerinstitute.com/blog/2018/01/10/china-releases-new-poverty-statistics-30-million-remain-
lifted-poverty/ (accesat: 16 octombrie 2018);
- http://www.chinadaily.com.cn/china/2017-08/15/content_30641713.htm (accesat: 16 octombrie 2018).
7
ESRB sunt inițialele de la „European Systemic Risk Board”.
8
Cf: Neues Deutschland, 15 septembrie 2018, p. 8.
9
Este vorba despre o consultare online desfășurată în perioada 4 iulie - 16 august 2018, în cadrul căreia
au fost primite 4,6 milioane de răspunsuri din toate cele 28 de state membre, acesta fiind cel mai mare
număr de răspunsuri primite vreodată în cadrul unei consultări publice a Comisiei Europene.
66
publicate în 31 august de Comisia Europeană. Aceeași preferință a
fost înregistrată și în rândul a 78% dintre respondenții din România10;
- Potrivit Organizaţiei Mondiale a Sănătăţii (OMS), 4,4% din
populaţia globului (peste 300 de milioane de oameni) sunt afectaţi de
depresie. Cu peste 900.000 de cazuri diagnosticate anual, în
România se observă o incidenţă a acestei boli apropiată de 5%11;
- În 2017, 12,4% dintre belgieni au înghițit pastile de tip „Brain
Power”, procentul fiind de doar 3,6% în 2015; în Franța, procentul a
crescut în aceeași perioadă de la 0,6 la 4,6%, în timp ce în Marea
Britanie creșterea înregistrată a fost de de la 1,7 la 5,1%. În
Germania, procentul persoanelor cure au apelat la astfel de
medicamente s-a dublat în perioada considerată de la 1,5 la 3%12;
- Peste 11% dintre români suferă de diabet, conform rezultatelor
finale ale Studiul Naţional privind Prevalenţa Diabetului,
Prediabetului, Supraponderii, Obezităţii, Dislipidemiei,
Hiperuricemiei şi Bolii Cronice de Rinichi (PREDATORR) realizat
în 2017. Topul regiunilor cu cei mai mulţi diabetici este condus de
Sudul ţării, unde prevalenţa diabetului este de 13,39%, urmat de
regiunea Bucureşti-Ilfov, cu o prevalenţă a acestei boli de 12,79%.
Pe locul trei în acest top se află regiunea de Nord-Est (12,38%),
urmată îndeaproape de regiunile Sud-Vest (12,1%), Nord-Vest
(11,69%) şi Sud-Est (10,44%)13;
10
Cf:
https://ec.europa.eu/romania/news/20180831_rezultate_consultare_publica_renuntare_ora_de_vara_ro
(accesat: 23 septembrie 2018).
11
Cf: Oana DESPA. Studiu: Aproape un milion de români sunt diagnosticaţi anual cu depresie. Care
este incidenţa bolii la nivel mondial. Articol publicat în 6 aprilie 2017 la adresa:
https://www.mediafax.ro/social/studiu-aproape-un-milion-de-romani-sunt-diagnosticati-anual-cu-
depresie-care-este-incidenta-bolii-la-nivel-mondial-16224108 (accesat în 12 noiembrie 2018).
12
Cf: Christian HONEY. Auf dem Weg zum optimierten Hirn. În: Dresdner Neueste Nachrichten, 1
decembrie 2018, p. 34 (VI din suplimentul Sonntag).
13
Cf: Georgeta PETROVICI. Peste 11% dintre români suferă de diabet. Medicii cred că sunt încă mulți
care nu știu că sunt bolnavi. Articol publicat online în 17 noiembrie 2017 la adresa: https://evz.ro/peste-
11-dintre-romani-sufera-de-diabet-si-au-fost-diagnosticati.html (accesat în 15 noiembrie 2018).
67
- Doar 21% din români au o înţelegere destul de bună a produselor
financiare14, în condițiile în care valoarea acestui procent este de
52% la nivelul Uniunii Europene și de 65% pentru ţările nordice15;
- 32% dintre gospodăriile din România rămân în urmă în mod repetat
cu plata întreţinerii sau a utilităţilor. Cele mai frecvente întârzieri sunt
înregistrate la plata energiei electrice - este cazul a 51% dintre
restanţieri16;
- Potrivit unui studiu realizat în 2018 de către Institutul Național de
Statistică, 21,3% din totalul întreprinzătorilor din România
consideră că nu-şi permit să mănânce carne o dată la două zile, iar
23,5% admit că au probleme în a-și procura hrana de orice fel17;
- 19% dintre persoanele în vârstă de 18-24 ani din Regatul Unit sau
Suedia cheltuiesc mai mult de 40% din bugetul lor pentru plata
chiriei. În Franța, procentul tinerilor care sunt afectați de asemenea
ponderi în buget ale cheltuielilor cu plata chiriei este de doar
11,5%18;
- 70% dintre cei care au fost chestionați în cadrul unei anchete ale
cărei rezultate au fost publicate în cotidianul german Neue Presse
care apare în Hanovra au afirmat că pentru a face fotografii în
vacanțele lor își folosesc în primul rând smartphone-ul19;
- 29% din germani citesc cărți în mod regulat. Acum cinci ani, 35%
din germani făceau acest lucru20;
14
Acest procent este cunoscut sub numele de „rată de educaţie financiară”.
15
Cf: https://www.agerpres.ro/economic-intern/2018/05/08/appa-romania-pe-ultimul-loc-in-europa-in-
ceea-ce-priveste-educatia-financiara--104272 (accesat în 24 septembrie 2018).
16
Cf: https://www.digi24.ro/stiri/actualitate/social/romanii-isi-platesc-tot-mai-greu-facturile-curente-
1001491 (accesat în 27 septembrie 2018).
17
Cf: https://romanialibera.ro/economie/unul-din-5-patroni-din-romania-este-sub-nivelul-minim-de-
saracie-753556 (accesat în 13 octombrie 2018).
18
Cf: Le Monde, 26 octombrie 2018, p. 1.
19
Cf: Neue Presse, 11 august 2018, p. 1.
20
Cf: Frankfurter Allgemeine Zeitung, 6 septembrie 2018, p. 8.
68
- 58% dintre cei chestionați în cadrul unei cercetări Aktion Mensch se
implică activ în împlinirea viselor lor. 60% dintre cei care, în cadrul
cercetării, au afirmat că nu se angajează pentru a-și vedea visele
împlinite au identificat ca principal motiv pentru acest lucru faptul că
au „prea puțini bani” 21;
- Procentul ambalajelor de unică folosință pentru băuturi a crescut
considerabil în ultimii ani în Germania. În 2004, acesta era de
46,9%, pentru ca în 2016 să ajungă la 66,1%22;
- În tabelul 2.1 este prezentată situația ocupării posturilor de ucenici
în landul german Schleswig-Holstein, în perioada 2014-201823. În
ultima coloană a tabelului sunt redate valorile procentuale ale
posturilor de ucenici neocupate din total, iar în figurile 2.1 și 2.2 sunt
reprezentate grafic datele din acest tabel în valori absolute și,
respectiv, procentuale (în legătură cu posturile de ucenici neocupate
din total):
21
Cf: Neue Presse, 31 august 2018, p. 1.
22
Cf: Die Welt (Berlin), 18 septembrie 2018, p. 20.
23
Cf: Kieler Nachrichten, 1 august 2018, p. 1.
69
Figura 2.1
Figura 2.2
24
Cf: USA Today, în Reno Gazette-Journal, 1 noiembrie 2018, p. 7.
70
- Studii realizate de Spitalul de copii din Boston în 2011 la nivelul
unui eșantion format din 2.044 de părinți și familiile lor arată că 25:
79% dintre părinții copiilor cu Sindrom Down au o
perspectivă mult mai pozitivă asupra vieții datorită
acestora;
94% dintre frații copiilor cu Sindrom Down îi iubesc și se
mândresc cu aceștia;
99% dintre persoanele cu Sindrom Down se simt fericite;
97% dintre persoanele cu Sindrom Down sunt mulțumite
de cine sunt;
96% dintre persoanele cu Sindrom Down sunt mulțumite
de cum arată.
- La 10-11 săptămâni de la concepție copilul posedă deja 90% din
structurile prezente într-un adult26;
- Potrivit Biroului Federal de Statistică din Germania, în anul 2017 în
spitalele din această țară au fost efectuate 232.505 de operații
cezariene. Acest număr corespunde unui procent de 30,5% din
totalul nașterilor din Germania anului 2017, procent echivalent cu cel
din anul precedent27. Pentru România, valoarea acestui procent a fost
în 2004 de 19%, în creștere cu 8 puncte procentuale fațã de 1999,
când rata nașterilor prin cezarianã a fost de numai 11%28;
- În tabelul 2.2 este prezentată Evoluția statistică a avorturilor în
România, în perioada 1958-201529. Pe ultimele 2 coloane ale
25
Cf: revista Pentru Viață, nr. 4, Primăvara 2015, p. 1, http://stiripentruviata.ro/editorial-despre-sarah-
palin-frica-avort-adevar-si-cum-sa-salvezi-96-dintre-copiii-cu-sindrom-revista-pentru-viata-nr-4-
primavara-2015/ (accesat: 22 septembrie 2018).
26
Cf: revista Pentru Viață, nr. 7, Primăvara 2018, p. 11, http://stiripentruviata.ro/wp-
content/uploads/2018/03/Revista-PV-2018-v1.181-1.pdf (accesat: 21 septembrie 2018).
27
Cf: Die Welt (Berlin), 18 septembrie 2018, p. 20.
28
Cf: Studiului Sănătății Reproducerii: România 2004 (raport sintetic publicat de Ministerul Sănătății în
mai 2005), p. 44, https://www.unicef.org/romania/ro/Studiul_Sanatati_Reproducerii.pdf (accesat în 24
septembrie 2018).
29
Cf: revista Pentru Viață, nr. 6, Primăvara 2017, p. 3, http://stiripentruviata.ro/wp-
content/uploads/2017/03/RevistaPentruViata_nr6_mar2017_SPV_web.pdf (accesat: 22 septembrie
2018).
71
tabelului sunt redate valorile procentuale ale avorturilor și, respectiv,
nașterilor, din totalul numărului de sarcini:
72
Număr Număr Număr Procent Procent
An
avorturi născuți vii sarcini avorturi nașteri
1985 302.838 358.797 661.635 46% 54%
1986 183.959 376.896 560.855 33% 67%
1987 182.442 383.199 565.641 32% 68%
1988 185.416 380.043 565.459 33% 67%
1989 193.084 369.544 562.628 34% 66%
1990 992.265 314.746 1.307.011 76% 24%
1991 866.934 275.275 1.142.209 76% 24%
1992 691.863 260.393 952.256 73% 27%
1993 585.761 249.994 835.755 70% 30%
1994 530.191 246.736 776.927 68% 32%
1995 502.840 236.640 739.480 68% 32%
1996 455.340 231.348 686.688 66% 34%
1997 346.468 236.891 583.359 59% 41%
1998 270.930 237.297 508.227 53% 47%
1999 259.266 234.600 493.866 53% 47%
2000 257.267 234.521 491.788 52% 48%
2001 253.426 220.368 473.794 54% 46%
2002 246.714 210.529 457.243 54% 46%
2003 223.914 212.459 436.373 51% 49%
2004 189.683 216.261 405.944 47% 53%
2005 162.087 221.020 383.107 43% 57%
2006 149.598 219.483 369.081 41% 59%
2007 136.647 214.728 351.375 39% 61%
2008 127.410 221.900 349.310 37% 63%
2009 115.457 222.388 337.845 34% 66%
2010 101.271 212.199 313.470 32% 68%
2011 102.896 196.242 299.138 34% 66%
2012 87.477 201.104 288.581 31% 69%
2013 85.742 214.932 300.674 30% 70%
2014 77.806 195.612 273.418 30% 70%
2015 70.447 201.023 271.470 26% 74%
73
- Într-o scrisoare deschisă adresată în februarie 2018 primului
ministru de la vremea respectivă de către Asociația „Autism
România” s-a arătat că unul dintr-o sută de români are o tulburare din
spectrul autismului, ceea ce înseamnă că „există aproape 200.000 de
«autiști» (plus familiile lor), și ei tot cetățeni români, care așteaptă să
fie tratați cu respect de către reprezentanții statutului român” 30;
- Potrivit unui raport publicat în 2016 de Poliția Română, mai mult de
două treimi din mașinile înregistrate în România în acel an erau mai
vechi de 10 ani31;
- Aproximativ o treime dintre femei și un sfert din bărbații din
întreaga lume fac insuficientă mișcare32 33;
- Dacă li s-ar oferi un discount sau alt stimulent asociat unei asigurări
de viață, nouă din zece clienți americani pentru un astfel de produs ar
fi motivați să-și mențină un anumit nivel de greutate corporală,
conform unei cercetări realizate pe un eșantion format din 1003
adulți din S.U.A. de către Global Atlantic Financial Group 34;
- Potrivit unei cercetări realizate de The Physicians Foundation pe un
eșantion format din 8774 de medici din S.U.A., aproape unul din trei
pacienți americani nu respectă planul de tratament al medicului35;
- O statistică tristă: jumătate dintre copiii care se nasc în România
înainte de termen nu supraviețuiesc36 37;
30
Cf: Gabriel ANDREESCU. Deciziile politice ale CNCD. Cum se poate salva libertatea de exprimare?
În: Noua Revistă de Drepturile Omului, nr. 2, 2018, p. 31,
http://www.revistadrepturileomului.ro/assets/docs/2018_2/NRDO-2018_2-andreescu.pdf (accesat: 7
noiembrie 2018). Scrisoarea Asociației „Autism România” a făcut obiectul unui articol apărut în 16
februarie 2018 la adresa: https://www.euractiv.ro/social/asociatia-autism-romania-afirmatia-vioricai-
dancila-e-jignitoare-pentru-persoanele-cu-autism-10061 (accesat: 7 noiembrie 2018).
31
Cf: https://www.wall-street.ro/articol/Auto/234309/romania-primul-loc-din-uniunea-europeana-la-
mortalitatea-din-accidentele-rutiere.html (accesat: 16 octombrie 2018).
32
Cf: Frankfurter Allgemeine Zeitung, 6 septembrie 2018, p. 8 (pe baza unui studiu al Organizației
Mondiale a Sănătății).
33
Informația a apărut și la adresa: https://www.tagesspiegel.de/wissen/weltgesundheitsorganisation-mehr-
als-1-4-milliarden-menschen-bewegen-sich-zu-wenig/22996662.html (accesat: 20 septembrie 2018).
34
Cf: USA Today, în Press & Sun-Bulletin (Binghamton, New York State), 16 octombrie 2018, p. 13.
35
Cf: USA Today, în Reno Gazette-Journal, 1 octombrie 2018, p. 10.
74
- Un sfert din copiii din Germania petrec mai puțin timp jucându-se
afară decât o făceau părinții lor în timpul copilăriei38;
- Două din cinci gospodării din România suportă cu dificultate sau cu
mare dificultate cheltuielile curente39;
- Lipsa îndelungată a precipitațiilor s-a resimțit puternic în toamna
anului 2018 aproape în toată țară, compromițând până spre sfârșitul
lunii octombrie trei sferturi din cultura de rapiță40;
- Conform unui studiu realizat în 2018 de către Institutul Național de
Statistică, o treime din patronii din România nu-și pot plăti la timp
întreținerea, factura la energie și telefonul. Același studiu arată că
există și patroni români fără baie în casă, fără calculator și chiar fără
mașină de spălat. Aceștia sunt mai ales din mediul rural41;
- Una dintre concluziile unui studiu recent din Jama Internal
Medicine este că unul din zece medici are credința că medicamentele
generice sunt mai puțin efective decât cele de brand 42;
- În România, conform unui studiu reprezentativ, opt din zece adulți
dezvoltă o infecție parodontală43, jumătate dintre aceștia înaintea
vârstei de 45 de ani44.
36
Cf: https://www.digi24.ro/stiri/actualitate/sanatate/drama-copiilor-nascuti-prematur-medic-banul-face-
diferenta-1002120 (accesat: 25 septembrie 2018).
37
Cifrele absolute arată că anual se nasc prematur în România în jur de 20.000 de copii, iar circa 10.000
dintre aceștia nu supraviețuiesc (cf: https://www.digi24.ro/stiri/actualitate/sanatate/drama-copiilor-
nascuti-prematur-medic-banul-face-diferenta-1002120 - accesat: 25 septembrie 2018).
38
Cf: Neue Presse, 28 septembrie 2018, p. 1.
39
Cf: https://www.digi24.ro/stiri/actualitate/social/romanii-isi-platesc-tot-mai-greu-facturile-curente-
1001491 (accesat în 27 septembrie 2018).
40
Cf: Lidia TRUICĂ. Seceta a pus stăpânire pe România. 75% din cultura de rapiță, compromisă.
Revista Reporter Global, articol online la adresa: https://reporterglobal.ro/seceta-a-pus-stapanire-pe-
romania-75-din-cultura-de-rapita-compromisa/ (accesat în 22 octombrie 2018).
41
Cf: https://romanialibera.ro/economie/unul-din-5-patroni-din-romania-este-sub-nivelul-minim-de-
saracie-753556 (accesat în 13 octombrie 2018).
42
Cf: Robert PEARL. Health’s price perception paradox. Articol apărut în: Los Angeles Times, 10
septembrie 2018, p. 9.
43
La nivelul gingiilor („parodonțiu” = țesut care susține dintele).
75
Dacă valoarea de comparat este de mii, de zeci de mii sau de sute de mii
de ori mai mică decât valoarea fixată, exprimarea se va face în promile
(simbolizate cu 0/00), prodecimile (simbolizate cu 0/000) sau procentimile
(simbolizate cu 0/0000). Se obţin astfel comparaţii la 1000, 10.000 sau
100.000 de unităţi, rezultatele obţinându-se prin înmulţiri cu 1000,
10.000 sau 100.000.
De exemplu, se poate exprima în promile numărul de medici la 1000
locuitori. Din păcate, pentru România acest număr a ajuns în ultimii ani la
doar 2,4, o valoare care se află mult sub media Uniunii Europene45. O altă
statistică nefericită arată că în România anului 2010 mortalitatea infantilă
era de 10,9 la mie, adică cu mult peste media europeană, egală cu 4 la
mie46.
În prodecimile se poate exprima numărul studenţilor raportat la populaţia
dintr-o zonă geogratică (numărul studenţilor ce revin la 10000 de
locuitori). În sfârşit, se dovedeşte necesară exprimarea în procentimile a
dezvoltării comerciale în mediul rural, măsurată prin numărul de magazine
ce revin la 100000 de locuitori din mediul rural.
Uneori poate fi de preferat chiar exprimarea prin raportarea la cifra de 1
milion (cu rezultate indicate în texte științifice cu abrevierea „ppm” – „part
per million”47). De pildă, în 2017 rata mortalității din accidentele rutiere a
înregistrat în România un nivel de 99 de morți la un milion de locuitori,
ceea ce înseamnă, din nefericire, o valoare aproape dublă față de media
Uniunii Europene, egală cu 50 de morți la un milion de locuitori
(constituind astfel nivelul record între țările membre), conform datelor
publicate într-un raport realizat de European Transport Safety Council
(ETSC), citat într-un comunicat al Asociaţiei Pro Infrastructura (API)48.
44
Cf: Steluța INDREI. Parodontoza, boala de care suferă 8 din 10 români. Cum previi pierderea
dinților. Articol online la adresa: https://www.dcmedical.ro/parodontoza-boala-de-care-sufera-8-din-10-
romani-cum-previi-pierderea-din-ilor_604633.html (accesat în 24 octombrie 2018).
45
Cf: Alina PĂDURARU, Cristian DELCEA și Laurențiu UNGUREANU, Viața secretă a țărăncilor
noastre, https://recorder.ro/viata-secreta-a-tarancilor-noastre/ (accesat: 24 iulie 2018).
46
Cf: https://www.digi24.ro/stiri/actualitate/sanatate/drama-copiilor-nascuti-prematur-medic-banul-face-
diferenta-1002120 (accesat: 25 septembrie 2018).
47
Cf: https://www.rapidtables.com/math/number/PPM.html (accesat: 16 octombrie 2018).
48
Cf: https://romanialibera.ro/actualitate/romania-pe-primul-loc-in-uniunea-europeana-la-mortalitate-in-
accidente-rutiere-750722 (accesat: 16 octombrie 2018).
76
Înainte de efectuarea calculelor pe care le presupune evidenţierea, prin
folosirea mărimilor relative, a diferitelor relaţii cantitative care pot fi de
interes în demersul statistic, trebuie verificată îndeplinirea condiţiei de
comparabilitate a fenomenelor studiate.
Condiţia de comparabilitate se referă la timp, spaţiu, şi/sau alte criterii
specifice. Verificarea condiţiei de comparabilitate a fenomenelor studiate
constituie premisa alegerii corecte a bazei de raportare sau comparaţie.
Comparabilitatea se manifestă ca o legătură logică între fenomenele
studiate, legătură care poate fi de condiţionare, de corespondenţă, de
cauzalitate sau de altă natură.
Nerespectarea condiţiei de comparabilitate este cauzată cel mai des de:
diferenţe privitoare la definirea noţiunilor din programul de
observare statistică;
modificări neaşteptate de structură ale colectivităţilor supuse
studiului;
modificări neplanificate în modul de culegere şi prelucrare a
datelor statistice;
folosirea unor preţuri diferite în evaluări;
folosirea unor surse de informaţii diferite.
Dacă nu se pot înlătura diferenţele de conţinut sau de formă de exprimare
ale valorilor de comparat, diferenţe care afectează comparabilitatea
acestora, poate fi necesară chiar renunţarea la folosirea mărimilor relative.
Mărimile relative se pot grupa în:
mărimi relative de structură;
mărimi relative de coordonare (sau de corespondenţă);
mărimi relative de dinamică (înregistrată, planificată şi,
respectiv, realizată);
mărimi relative de intensitate.
77
În tabelul 2.3 sunt prezentate relaţiile pentru determinarea mărimilor
relative de structură la nivelul unei colectivităţi statistice, studiată după o
variabilă statistică X.
unde:
rj reprezintă frecvenţa relativă de apariţie a variantei j care defineşte
variabila statistică X;
nj = frecvenţa absolută de apariţie a variantei j care defineşte variabila
statistică X;
pi = ponderea unui nivel faţă de volumul total înregistrat pentru o
colectivitate statistică studiată după un criteriu cantitativ;
xi = nivelul i înregistrat de variabila statistică X;
gj = ponderea unui nivel faţă de volumul total înregistrat pentru o
colectivitate statistică distribuită după o variabilă cantitativă de nivel.
Pentru exemplificare, putem să ne referim la rezultatele unui studiu
realizat în anul 2014 de Institutul de Demoscopie din Allensbach,
Germania. În urma acestui studiu s-a constatat că circa 61% din est-
germani consideră că dezvoltarea Germaniei după căderea zidului
Berlinului poate fi apreciată ca o poveste de succes 49. Acest rezultat este
expresia numerică a unei comparaţii de tip parte-întreg (întregul
corespunde aici populaţiei est-germane care a făcut obiectul studiului).
49
Conform Frankfurter Allgemeine Sonntagszeitung din 9 noiembrie 2014.
78
Cel de-al doilea exemplu de mărime relativă de structură pe care l-am ales
este frecvența relativă (exprimată procentual) a bugetarilor în totalul
salariaților dintr-o țară sau dintr-o anumită regiune economică. În perioada
2000 – 2016, potrivit datelor Eurostat50, aceasta s-a menţinut la nivelul
Uniunii Europene între 15% şi 17%, în 2016 fiind de 16%. În ce privește
valorile înregistrate în 2016 la nivelul țărilor membre UE, cele mai ridicate
erau consemnate în Suedia (29% din totalul angajaţilor), Danemarca
(28%), Finlanda (25%), Estonia (23%), Lituania, Franţa şi Ungaria
(toate cu 22%), iar cele mai reduse în Germania (10%), Luxemburg
(12%), Olanda (13%), Italia (14%), Portugalia, Irlanda şi Spania (toate
cu 15%) şi România (puţin peste 15%)51.
Cel de-al treiilea exemplu de mărime relativă de structură este din
domeniul sănătății la nivel global și este obținut pe seama unui nou raport
al Organizației Națiunilor Unite (ONU), potrivit căruia aproximativ 6,3
milioane de copii mor înainte de a împlini vârsta de 15 ani, în special din
cauza lipsei de apă potabilă, a nutriției precare și a condițiilor sanitare
deficitare; cele mai multe dintre decese, respectiv 5,4 milioane au loc în
primii cinci ani de viață52. Din aceste cifre, rezultă că frecvența relativă
procentuală a copiilor care mor înainte de a împlini cinci ani în totalul
copiilor care mor înainte de a împlini vârsta de 15 ani este rj = 5,4 / 6,3 =
0,8571 = 85,71%.
Un alt exemplu privind determinarea frecvenţei statistice relative are în
vedere date recente privind numărul analfabeților la nivel mondial 53,
potrivit cărora din cei 750 milioane de analfabeți din întreaga lume, 102
milioane sunt tineri cu vârsta cuprinsă între 15 și 24 de ani. Frecvența
relativă a acestora din urmă este rj = 102 / 750 = 0,136 = 13,6%
(dintre cele 750 milioane de analfabeți din întreaga lume, 13,6% sunt
reprezentați de tineri cu vârsta cuprinsă între 15 și 24 de ani). Aceste
valori au o deosebită semnificație sociologică.
50
Trebuie precizat că potrivit Eurostat, în categoria angajaților din sectorul guvernamental intră atât
funcţionarii publici şi alţi angajaţi guvernamentali (la nivel naţional, regional şi local), cât şi forţele
armate.
51
Cf: http://cursdeguvernare.ro/eurostat-romania-si-evolutia-numarului-de-bugetari-context-
european.html (accesat: 25 iulie 2018)
52
Cf: Malnutriția ucide un copil la fiecare cinci secunde. În: Viața medicală, numărul 39 (1496), 28
septembrie 2018, http://www.viata-medicala.ro/*articleID_15023-dArt.html (accesat: 10 noiembrie
2018).
53
Cf.: Cellesche Zeitung, 7 septembrie 2018, p. 4.
79
Mărimi relative de structură cu însemnătate sociologică sunt și cele
privind participarea la referendumul național desfășurat în 6-7 octombrie
2018, pentru revizuirea Constituției (în legătură cu definirea căsătoriei).
După numărarea și centralizarea tuturor voturilor din cele 19.040 secţii de
votare, a reieșit faptul că la acest referendum ar fi participat 3.857.308
alegători din totalul celor 18.279.011 de cetățeni cu drept de vot, ceea ce
înseamnă un procent de 21,102% (3.857.308 / 18.279.011 =
0,22102)54. Conform Biroului Electoral Central, rezultatele finale,
obținute după luarea în calcul a contestațiilor, arată o prezență de
3.731.704 (din România) + 126.239 (din străinătate) = 3.857.943
alegători dintr-un total de 18.278.496 alegători înscriși pe liste
permanente55. Este o prezență puțin mai mare, care nu modifică însă
semnificativ procentul participării la vot (3.857.943 / 18.278.496 =
0,22106 = 22,106%).
Pentru a încheia exemplele privind mărimile relative de structură, să
revenim la Germania, arătând faptul îngrijorător că o cifră semnifcativă a
studenților din această țară (circa 1,8 milioane) suferă de dureri de cap.
Raportând această cifră la numărul total al studenților din Germania
(aproximativ 2,8 milioane) rezultă un procent de 1,8 / 2,8 = 0,64 = 64%.
Prin urmare este vorba despre o pondere semnificativă, echivalentă cu
aproape două treimi din studenții din Germania56.
54
Cf.: Lumea monahilor, nr. 136, octombrie 2018, p. 60. Aceste informații pot fi verificate și la adresa:
https://www.mediafax.ro/social/rezultate-finale-referendum-pentru-familie-prezenta-la-vot-21-10-bec-da-
91-56-nu-6-47-voturi-nule-1-9-17548777 (accesat în 24 octombrie 2018).
55
Cf.: http://prezenta.bec.ro/referendum/country (pentru prezența din România) și
http://prezenta.bec.ro/referendum/abroad (pentru prezența din străinătate). Paginile au fost accesate în 24
octombrie 2018.
56
Cf.: Etwa 64 Prozent der Studierenden leiden unter Kopfschmerzen, https://www.forschung-und-
lehre.de/lehre/etwa-64-prozent-der-studierenden-leiden-unter-kopfschmerzen-1161/ (accesat în 10
noiembrie 2018).
80
Prin urmare, mărimile relative de coordonare sunt expresii numerice ale
unor comparaţii de tip parte-parte, după o relaţie de tipul:
unde:
A şi B reprezintă nivelurile sau frecvenţele observate pentru grupele
comparate.
De exemplu, cunoscând că numărul de asigurați înregistrați în sistemul
public de sănătate din România se ridică la circa 20 milioane de
beneficiari, în timp ce numărul de contribuabili este de aproximativ 5
milioane57, rezultă că numărul celor care sunt asigurați fără a contribui în
sistem este de 15 milioane, ceea ce înseamnă că raportul estimat dintre
asigurații contribuabili (A) și asigurații care nu contribuie în sistem (B)
este: IA/B = A / B = 5 / 15 = 0,33 = 33,3%. Acest rezultat se poate citi
și astfel: „la 100 de asigurați care nu contribuie în sistem se înregistrează
doar 33 de asigurați contribuabili”. O altă variantă posibilă este: „la 10
asigurați care nu contribuie în sistem se înregistrează doar puțin mai mult
de 3 asigurați contribuabili”.
Un al doilea exemplu este în legătură cu un studiu publicat în jurnalul
„The Lancet Respiratory Medicine”, avându-i ca autori pe cercetătorii
Stanton Glantz şi Sara Kalhoran, specialişti în cadrul centrului „Tobacco
Control Research an Education” al Universităţii din California. Potrivit
acestui studiu, persoanele fumătoare care folosesc ţigările electronice ca o
metodă de renunţare la fumat au şanse de reușită în această întreprindere
cu 28% mai mici față de fumătorii care apelează la alte metode. La această
cifră s-a ajuns după analizarea a 38 de studii care deţineau datele a mii de
fumători, care au participat la cercetări de la perioade de câteva luni până
la câţiva ani, comparându-se rezultatele obținute în urma acestei analize
privintoare la cele două grupuri de fumători58.
57
Cf.: Ziarul Financiar, 18 septembrie 2018, https://www.pressreader.com/romania/ziarul-
financiar/20180918 (accesat în 25 septembrie 2018). Aceste datele estimate pot fi verificate și la adresa:
https://www.zf.ro/eveniment/dragos-damian-ceo-terapia-cluj-drama-din-sanatate-este-ca-20-de-milioane-
de-asigurati-sunt-sustinuti-de-doar-5-milioane-de-contribuabili-17523190 (accesat în 25 septembrie
2018).
58
Cf.: Metode de renunţare la fumat. Statistica nu recomandă ţigările electronice. Articol apărut online
în 27 ianuarie 2016 la adresa: https://adevarul.ro/sanatate/medicina/metode-renuntare-fumat-statistica-nu-
recomanda-tigarile-electronice-1_56a8bb755ab6550cb82a13af/index.html (accesat în 17 octombrie
2018). Un rezumat al rezultatelor studiului realizat de către cercetătorii Stanton Glantz şi Sara Kalhoran
se poate consulta la adresa: https://www.ncbi.nlm.nih.gov/pubmed/26776875 (accesat în 17 octombrie
2018). Textul integral al lucării publicate de către cei doi cercetători se poate accesa la adresa:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4752870/pdf/nihms752765.pdf (accesat în 17 octombrie
2018).
81
În acest caz, notând cu A șansele de a scăpa de dependenţa de nicotină
pentru grupul fumătorilor care folosesc ţigările electronice ca metodă de
renunţare la fumat și cu B șansele de a renunța la fumat pentru grupul
persoanelor fumătoare care folosesc în acest scop alte metode, se poate
scrie că: A = B – B · 0,28 = B / (1 – 0,28) = B · 0,72.
Aceasta înseamnă că: IA/B = A / B = (B · 0,72) / B = 0,72 = 72%.
Totodată, IB/A = B / A = B / (B · 0,72) = 1 / 0,72 = 1,39 = 139%. Prin
urmare, șansele de a renunța la fumat prin alte metode decât folosirea
ţigărilor electronice sunt cu 39% mai mari.
Este de notat faptul că, de această dată, A şi B nu reprezintă frecvenţe
înregistrate pentru grupele comparate, ci frecvențe probabile (șanse) de
reușită.
59
Cf.: Living Planet Report - 2018: Aiming higher. WWF (World Wildlife Fund) International, 2018, p.
11, https://www.wwf.org.uk/sites/default/files/2018-10/wwfintl_livingplanet_full.pdf (accesat în 31
octombrie 2018). O prezentare sintetică a informațiilor cuprinse în acest raport este: Andrew MÜLLER.
Tiere bald nur noch in Stall und Zoo? În: Die Tageszeitung, 31 octombrie 2018, p. 9.
82
Tabelul 2.4 Relaţii de calcul folosite pentru calculul indicilor de
dinamică
Indici ai dinamicii Indici ai dinamicii Indici ai dinamicii
înregistrate planificate realizate
unde:
x1 reprezintă o valoare (nivel sau frecvenţă) înregistrată la momentul
sau pentru perioada curentă;
x0 = o valoare (nivel sau frecvenţă) înregistrată la momentul sau
pentru perioada care s-a ales ca bază de comparaţie/raportare;
xpl = o valoare (nivel sau frecvenţă) planificată pentru un moment sau
o perioadă de timp din viitor.
60
Cf.: Senica MICU. Tractoare românești. În: New Money, nr 51, 22 octombrie 2018 – 4 noiembrie
2018, p. 42.
83
Figura 2.3 Evoluția numărului de hectare / tractor în România, 2007-
2016
61
Cf: Ilie ȘERBĂNESCU. Băncile străine în România – colonialism la pătrat. Articol apărut în:
cotidianul România Liberă din 24 octombrie 2018, p. 9, https://romanialibera.ro/opinii/bancile-straine-in-
romania-colonialism-la-patrat-757872 (accesat în 25 octombrie 2018).
62
Această valoare pune în evidență un aspect neplăcut în legătură cu activitatea băncilor străine în
România: anume faptul că cetățenii români finanțează bancile străine, și nu băncile străine îi finanțează pe
români (cum ar fi fost firesc într-o presupusă economie de piață...).
84
DESCRIEREA STATISTICĂ
A TENDINŢEI CENTRALE:
STATISTICILE MEDII 3.
OBIECTIVELE CAPITOLULUI
85
86
Prin tendinţă se poate înţelege un anunit fel de comportament, manifestare
etc., care se amplifică, devenind astfel comun unui număr tot mai mare de
cazuri înregistrate1.
Conturarea unei anumite tendințe în sânul unei colectivități statistice este
echivalentă de cele mai multe ori cu plasarea valorilor particulare
înregistrate la nivelul unităților statistice de-o parte și de alta unor anumite
valori mai des întâlnite, ceea ce face ca aceste valori să devină valori mai
mult sau mai puțin centrale pentru colectivitatea considerată. Acesta este
motivul pentru care un interes aparte în descrierea statistică se manifestă în
legătură cu tendința centrală a valorilor înregistrate.
Tendinţa centrală care se manifestă în comportamentul unităţilor unei
colectivităţi statistice se poate descrie cu ajutorul statisticilor:
medii;
de poziţie (a se vedea capitolul 4);
de variație (în jurul statisticilor medii sau de poziție - a se vedea
capitolul 5).
Cele trei tipuri de statistici oferă informaţii complementare privitoare la
tendința centrală înregistrată în cadrul unei colectivități statistice.
Statisticile medii
Statisticile medii sunt valori reprezentative din punctul de vedere al
diferitelor rezultate algebrice semnificative pentru demersul de descriere
statistică: suma, produsul, suma pătratelor şi suma inverselor. Celor 4
rezultate algebrice le corespund următoarele statistici medii:
media aritmetică;
media geometrică;
media pătratică;
media armonică.
1
Tendency = „a way of behaving, proceeding, etc., that is developing and becoming more common”. În:
Merriam-Webster Dictionary, http://www.merriam-webster.com/dictionary/tendency (data ultimei
accesări: 29 octombrie 2014).
87
utilizare a ei în domenii a căror paletă de diversificare este una foarte
largă.
În continuare sunt prezentate câteva exemple interesante de statistici medii
aflate mai recent:
- Privitor la salariile din Romănia: Salariul mediu net în administrația
publică a ajuns în luna iunie 2018 la 4207 lei, adică cu 50% mai
mare decât salariul mediu net din învățământ, în valoare de de 2803
lei, sau cu 54,6% mai mare decât salariul mediu net la nivelul
întregii economii, în valoare de de 2721 lei2;
- În legătură cu pensiile din Romănia: pensia medie lunară (care se
determină luând în calcul sumele pentru pensiile tuturor categoriilor
de pensionari - de asigurări sociale, invaliditate, urmaș etc.- plătite de
diferitele case de pensii) a fost în trimestrul III din anul 2018 de
1122 lei, adică cu 82,14% mai mare decât pensia medie de
invaliditate, în valoare de 616 lei3;
- În legătură cu câștigurile expaților: 99.903$ era valoarea medie la
nivel mondial a veniturilor (brute) obținute de expați în anul 2017,
creșterea medie a acestora după expatriere fiind de 25%4;
- În domeniul auto: Potrivit datelor Asociației europene a
producătorilor de automobile ACEA, un automobil a avut în medie în
Europa, la nivelul anului 2016, o vechime de 11 ani, spre deosebire
de valoarea de 10,4 ani înregistrată cu trei ani mai devreme5. Pentru
România, conform acelorași date, vechimea medie a unui automobil
în 2016 a fost de 16,2 ani6.
2
Cf. datelor publicate de Institutul Național de Statistică (INS):
http://www.insse.ro/cms/files/statistici/comunicate/castiguri/a18/cs06r18.xls (data ultimei accesări: 21
septembrie 2018).
3
Cf. datelor publicate de Institutul Național de Statistică (INS):
http://www.insse.ro/cms/sites/default/files/com_presa/com_pdf/pensii_tr2r18.pdf (publicat în 12
septembrie 2018)
4
Cf: Expat Explorer: Broadening perspectives, Global Report, HSBC, 2017, p. 16,
https://www.expatexplorer.hsbc.com/survey/files/pdfs/overall-
reports/2017/YouGov_HSBC_Report_Final.pdf (accesat: 16 octombrie 2018).
5
Cf.: Rhein-Zeitung, 15 septembrie 2018, p. 1 din suplimentul Das Motor-Magazin.
6
Cf.: Ostsee-Zeitung (Rostock), 1 septembrie 2018, p. IX din suplimentul Sommermagazin.
88
- În domeniul securității cibernetice: Costul mediu al unei breșe de
securitate a datelor la nivelul companiilor din SUA este de 7,9
milioane $7.
- În domeniul financiar-bancar: Conform unui studiu anual realizat de
către AMCC (Asociaţia de Industrie a Colectorilor de Creanţe), în
România anului 2017 valoarea medie a creanţelor achizioționate a
fost de 930 de euro, în timp ce valoarea medie a creanţelor colectate
a fost de circa 150 de euro, ceea ce înseamnă 16% din valoarea
cumpărată8;
- În domeniul telecomunicațiilor: Conform raportului de piață pentru
anul 2017 realizat de către autoritatea de reglementare în comunicații
(ANCOM), un utilizator de internet mobil a consumat în medie, pe
parcursul anului menționat, peste 1,4 GB/lună, o valoarea aproape
dublă față de cea din anul precedent9. Pe de altă parte, românii
cheltuie în medie pentru achiziția de noi modele de telefon 1412
lei10.
- În domeniul consumului de conținut TV: Potrivit unui studiu
realizat de Mercury Research pentru SES Astra România în 2015,
românii consumau în medie în acel an 3,3 ore de conținut TV pe zi în
timpul săptămânii și de aproape 4 ore în weekend11. Mai recent, un
sondaj realizat la nivel internațional a arătat că românii sunt printre
cei mai mari „devoratori” de televiziune, petrecând zilnic în medie
peste 5 ore și jumătate în fața televizorului12;
7
Cf.: USA Today, 28 august 2018. În: Reno Gazette-Journal, 28 august 2018, p. 1B.
8
Cf.: Dimana Vlaeva, Managing director Debt Collection Agency (DCA), parte din grupul B2Holding în
cadrul unui interviu publicat în 28 august 2018 pe site-ul revistei Piața Financiară,
http://www.piatafinanciara.ro/debt-collection-agency-suntem-in-top-5-colectori-de-creante-din-romania/
(accesat: 10 septembrie 2018)
9
Cf.: Revista DeBizz, nr. 140, iunie 2018, p. 14.
10
Cf.: Revista New Money, nr. 48, 10-23 septembrie 2018, p. 8.
11
Cf.: https://economie.hotnews.ro/stiri-media_publicitate-20446772-obiceiuri-consum-romanii-
consuma-medie-3-3-ore-continut-canalele-stiri-topul-preferintelor.htm (accesat în 16 septembrie 2018).
12
Cf.: https://evz.ro/care-este-preferinta-romanilor-televiziunea-la-concurenta-cu-int.html și
https://www.antena3.ro/actualitate/media/romanii-mari-consumatori-de-televiziune-489538.html
(accesate în 17 octombrie 2018).
89
- În domeniul educației: Potrivit Eurostat, 30% dintre copiii români
de până la 18 ani renunță la studii, cu 7% peste media europeană13;
rezultă, așadar, că media europeană a procentului copiiilor de până la
18 ani care renunță la studii este de 23%;
- O altă statistică tristă privind copiii din România: 9 ani este vârsta
medie la care aceștia iau prima dată contact cu alcoolul. Această
concluzie nefericită se desprinde dintr-un raport făcut recent de către
Institutul Naţional de Sănătate Publică (INSP), document ce
evidenţiază totodată faptul că vârsta de debut la consumul de alcool
înregistrează de mai mulți ani o tendință continuă de scădere14;
- În domeniul alimentației: Conform WWF International 2015,
europenii consumă în medie 61 kg de soia pe an, din care 57 kg pe o
cale indirectă, adică provenind în principal din produse (precum
carnea, ouăle și laptele) obținute de la animalele hrănite cu soia15. În
ceea ce privește consumul de carne și produse din carne, statisticile
indică pentru România anului 2018 o cantitate medie de 64 kg/
locuitor, spre deosebire de Franța, Germania și Spania, unde
consumul depășește 85 kg/ locuitor. La consumul de iaurt România
este mult sub media UE cu doar 7 kg/ locuitor, față de 30 kg/ locuitor
în Franța, sau 23 kg/ locuitor în Bulgaria. Avem, pe de altă parte, un
consum anual foarte mare de pâine, media fiind de 95 kg/ locuitor,
adică mult peste media europeană, egală cu 60 kg/ locuitor16;
- În domeniul alimentației în Germania: Consumul mediu de legume
pe cap de locuitor a urcat de la 48,8 kg în anul agricol 1960/1961 la
93,8 kg în anul agricol 2015/201617;
13
Cf.: Revista Reporter Global, nr. 15, 14-20 septembrie 2018, p. 55.
14
Claudia SPRIDON. Românii încep să bea din clasa a patra. Articol apărut în 15 noiembrie 2018 la
adresa online: https://adevarul.ro/news/societate/romanii-incep-bea-clasa-patra-
1_5bed39d3df52022f757ca203/index.html (accesat în 19 noiembrie 2018).
15
Cf.: Revista Sciences et Avenir, nr. 858, august 2018, p. 76.
16
Cf.: https://jurnalul.antena3.ro/viata-sanatoasa/starea-de-sanatate/16-octombrie-ziua-mondiala-a-
alimentatiei-iata-cum-arata-statistic-comportamentul-alimentar-al-romanilor-mancam-prea-multa-paine-
iar-la-iaurt-peste-legume-si-fructe-suntem-deficitari-789641.html (accesat în 16 octombrie 2018).
17
Cf.: Revista Der Spiegel, nr. 46, 11 noiembrie 2017, p. 58..
90
- În domeniul alimentației în România: Asociaţia Producătorilor de
Salam de Sibiu (APSS) din care fac parte şase producători (Angst,
Aldis, Agricola Bacău, Scandia Food, Cris-Tim şi Reinert) a anunţat
în 31 octombrie, în cadrul târgului IndAgra 201818, că românii iubesc
acest produs de nișă, super premium, chiar dacă statisticile spun că,
pe cap de locuitor, consumul mediu este de doar 4 felii de Salam de
Sibiu (unicul produs românesc din categoria carne procesată
recunoscut în 2016 cu distincţia europeană a calităţii Indicaţie
Geografică Protejată, IGP) pe an, în condițiile unei producţii de 2100
de tone în anul 201719;
- În domeniul publicității: În cadrul unei anchete realizate de UFC –
Que Choisir s-a estimat o greutate medie a materialelor publicitare
neadresate plasate în cutiile poștale din Franța de 2,3 kg20;
- În legătură cu somnul: În anul 1942 numărul mediu de ore dormite
pe noapte era de aproape 8 ore, in timp ce în zilele noastre, din cauza
vieții tot mai agitate pe care o avem, această valoare a scăzut la circa
6,8 ore21;
- În domeniul serviciilor medicale de urgență: În medie, doar
aproximativ 30% din intervențiile de urgență din Germania se
dovedesc a fi solicitate în cazuri reale de urgență22 (în care un pacient
18
Este vorba despre un târg internațional de produse și echipamente în domeniul agriculturii,
horticulturii, viticulturii și zootehniei, considerat a fi cel mai mare și important eveniment agricol din
România. Ediția 2018 s-a desfășurat în perioada 31 octombrie - 4 noiembrie 2018 (cf.:
https://www.indagra.ro/ - accesat în 13 noiembrie 2018).
19
Cf.: Ionel VĂDUVA. Un român consumă doar patru felii de Salam de Sibiu pe an. Articol publicat în
1 noiembrie 2018 pe site-ul Revistei Fermierul, la adresa: https://www.revistafermierului.ro/romania-
agricola/stiri-interne/item/3588-un-roman-consuma-doar-patru-felii-de-salam-de-sibiu-pe-an.html
(accesat în 13 noiembrie 2018).
20
Cf.: Revista Science & Vie, nr. 1212, septembrie 2018, p. 113.
21
Cf.: https://adevarul.ro/sanatate/dormit/ce-probleme-sanatate-risti-nu-dormi-suficient-
1_52f6efb7c7b855ff563046a1/index.html (accesat în 25 septembrie 2018)
22
Cf.: Pia HEINEMANN. „Rettungswagen sind eine knappe Ressource“. În: Die Welt (Berlin), 29
octombrie 2018, p. 20.
91
este în pericol de moarte)23, restul solicitărilor putând fi rezolvate pe
altă cale24.
Media aritmetică este valoarea reprezentativă statistic din punctul de
vedere al sumei valorilor înregistrate. Concret, aceasta înseamnă că prin
înlocuirea tuturor valorilor înregistrate cu media lor aritmetică, suma lor
nu se modifică.
Să considerăm, de pildă, o firmă cu 5 angajaţi, ale căror salarii nete sunt,
în ordine crescătoare, de 2620, 2675, 2710, 2735 şi 2760 RON. Aceste
salarii determină un fond de salarii nete25 de 13500 RON. Întrucât din
acest fond cei 5 angajaţi ar putea fi retribuiţi în mod egal cu câte 2700
RON, înseamnă că acest nivel de salarizare reprezintă nivelul mediu al
salariilor nete din cadrul firmei. Aceasta înseamnă că înlocuirea tuturor
salariilor cu salariul mediu nu modifică mărimea fondului de salarii al
firmei. Similar, câştigul salarial mediu nominal net la nivel de economie
naţională26 reprezintă acel câştig salarial pe care dacă toţi salariaţii din
România l-ar obține fondul naţional de câștiguri salariale nominale ar
rămâne la același nivel cu cel înregistrat în realitate.
Pentru date statistice simple, adică negrupate, media aritmetică se
calculează ca o medie simplă. Pentru date statistice grupate în cadrul unei
distribuţii statistice de frecvenţe, media aritmetică se calculează ca o
medie ponderată (ponderile fiind frecvenţele absolute sau relative de
manifestare a variantelor care descriu variabila statistică în funcţie de care
se studiază colectivitatea statistică).
23
Prin apelul la nr. 112.
24
Astfel de solicitări ar putea fi rezolvate în Germania prin apelul la nr. 116117.
25
Fondul de salarii este egal cu suma salariilor.
26
În luna iunie 2018, câştigul salarial mediu nominal net pentru salariaţii din România a fost de 2721 lei.
Acest nivel a fost precizat într-un comunicat emis de Institutul Naţional de Statistică
(http://www.insse.ro/cms/sites/default/files/com_presa/com_pdf/cs06r18.pdf - accesat în 10 august 2018).
92
Sumă (x1, x2, … xi, ... xN) = Sumă (, … )
Folosind simbolurile matematice obişnuite:
unde:
xi reprezintă valoarea i înregistrată de variabila X;
xj = varianta discretă j care defineşte variabila X;
93
nj = frecvenţa absolută de apariţie a variantei discrete xj;
rj = frecvenţa relativă de manifestare a variantei discrete xj;
k = numărul de variante discrete care definesc variabila statistică X.
Să presupunem, de exemplu, că în urma unei cercetări statistice asupra
unui eşantion format din 20 de familii, s-au centralizat datele din tabelul
3.1, privitoare la variabila discretă „număr de copii / familie”:
Tabelul 3.1
Număr de copii (xj) 0 1 2 3 4 Total
Număr de familii 4 6 8 1 1 20
(Frecvenţe absolute, nj)
Frecvenţe relative,
Pentru a afla câţi copii revin în medie familiilor din eşantionul supus
observaţiei, trebuie împărţit numărul total de copii la numărul total de
familii care fac parte din eşantion.
Întrucât numărul total de copii al familiilor cuprinse în eşantionul ales se
obţine prin însumarea variantelor (xj) care definesc variabila discretă
„număr de copii / familie”, pomderate cu frecvenţele de apariţie ale
acestora (nj), media aritmetică se determină astfel:
94
Calculul mediei aritmetice pentru distribuţii statistice după o funcţie
continuă
Pentru distribuţii statistice după o funcţie continuă, media aritmetică se
poate calcula cu ajutorul relaţiei:
unde:
f(X) este funcţia care defineşte variabila continuă X;
xmax = limita superioară de variaţie a variabilei X;
xmin = limita inferioară de variaţie a variabilei X;
A(X) = amplitudinea de variaţie a variabilei X.
Valoarea astfel obţinută pentru media aritmetică este echivalentă cu
raportul dintre aria de sub curba funcţiei f(X) şi lungimea totală a
intervalului pe care variază variabila statistică (amplitudinea de variaţie a
variabilei X).
Tabelul 3.2
Centre Centre
Intervale Centre ale ponderate ponderate
Frecvenţe Frecvenţe
de intervalelor cu cu
absolute relative
variaţie de variaţie frecvenţele frecvenţele
(nj) (rj) absolute relative
(xj, ani) (cj)
(cjnj) (cjrj)
[0-5] 2,5 14 0,28 35,0 0,70
(5-10] 7,5 9 0,18 67,5 1,35
(10-15] 12,5 3 0,06 37,5 0,75
(15-20] 17,5 13 0,26 227,5 4,55
(20-25] 22,5 6 0,12 135,0 2,70
(25-30] 27,5 3 0,06 82,5 1,65
(30-35] 32,5 2 0,04 65,0 1,30
Total 50 1,00 650,0 13,00
96
Se constată o diferenţă de 0,6 ani între estimarea mediei aritmetice în
urma grupării datelor pe intervale (valoarea estimată = 13 ani) şi valoarea
reală a mediei aritmetice, calculată pentru cele 50 de valori cunoscute (=
13,6 ani; a se vedea paragraful privind „Calculul mediei aritmetice
pentru un şir de valori”). Concluzia este aceea că atunci când datele
statistice sunt grupate, statisticile nu se pot determina decât cu o anumită
aproximaţie.
97
Multiplicarea (sau împărţirea) cu o constantă a tuturor valorilor
înregistrate de o variabilă statistică determină multiplicarea sau
împărţirea cu aceeaşi constantă a mediei sale aritmetice:
27
Relaţia care defineşte matematic media aritmetică este, conform paragrafului privind „calculul mediei
aritmetice pentru un şir de valori”:
98
valorilor rămase ar fi egală doar cu 2,45, valoare mult mai
reprezentativă pentru şirul de valori considerat (fiind mult mai
apropiată faţă de aceste valori). Acest neajuns al mediei aritmetice face
necesară verificarea atentă a reprezentativităţii ei pentru colectivitatea
studiată. În cazul pierderii reprezentativităţii mediei aritmetice pentru o
anumită colectivitate, o soluţie poate fi împărţirea acesteia din urmă în
subcolectivităţi omogene, la nivelul cărora se poată fi astfel
determinate medii aritmetice (parţiale) reprezentative.
99
Se observă că valoarea de 1,2897 poate înlocui valorile individuale ale
multiplicărilor anuale, ea fiind media geometrică a acestora. O
profitabilitate anuală de 28,97% pentru fiecare an al perioadei
considerate, asigură obţinerea, în urma plasamentului financiar, a unei
sume finale egală cu cea obţinută în condiţiile în care profitabilitatea
înregistrează cele trei valori diferite (10%, 50% şi 30%). Acest fapt este
ilustrat, pentru o valoare a plasamentului financiar (s) de 2000 RON, în
tabelul 3.3.
Tabelul 3.3
Suma la
Profitabilitate diferită Profitabilitate identică de la
sfârşitul
de la un an la altul un an la altul
anului
2015 2000 x 1,10 = 2200 RON 2000,0 x 1,2897 = 2579,3 RON
2016 2200 x 1,50 = 3300 RON 2579,3 x 1,2897 = 3326,5 RON
2017 3300 x 1,30 = 4290 RON 3326,5 x 1,2897 = 4290,0 RON
100
Tabelul 3.4
Câştigul Indici cu bază Indici cu bază
salarial mediu fixă (prin mobilă (prin
Luna
nominal net raportare la raportare la
(RON) 28 luna ianuarie) luna precedentă)
ianuarie 2300 1,0000 -
februarie 2236 0,9722 0,9722
martie 2342 1,0183 1,0474
aprilie 2366 1,0287 1,0102
mai 2363 1,0274 0,9987
iunie 2380 1,0348 1,0072
iulie 2391 1,0396 1,0046
august 2364 1,0278 0,9887
septembrie 2376 1,0330 1,0051
octombrie 2392 1,0400 1,0067
noiembrie 2464 1,0713 1,0301
decembrie 2629 1,1430 1,0670
Produs 1,1430
28
Datele au fost preluate de pe site-ul Institutului Naţional de Statistică,
http://www.insse.ro/cms/ro/tags/comunicat-castig-salarial (accesat: 7 iulie 2018)
101
Tabelul 3.5
Câştigul
Câştigul salarial mediu
salarial Indici cu
nominal net în ipoteza unei
Luna mediu bază mobilă
dinamici lunare constante
nominal net (xi)
(RON)
(RON)
ianuarie 2300 – 2300,0
februarie 2236 0,9722 2300,0 ∙ 1,0122 = 2328,1
martie 2342 1,0474 2328,1 ∙ 1,0122 = 2356,6
aprilie 2366 1,0102 2356,6 ∙ 1,0122 = 2385,4
mai 2363 0,9987 2385,4 ∙ 1,0122 = 2414,6
iunie 2380 1,0072 2414,6 ∙ 1,0122 = 2444,1
iulie 2391 1,0046 2444,1 ∙ 1,0122 = 2474,0
august 2364 0,9887 2474,0 ∙ 1,0122 = 2504,2
septembrie 2376 1,0051 2504,2 ∙ 1,0122 = 2534,9
octombrie 2392 1,0067 2534,9 ∙ 1,0122 = 2565,9
noiembrie 2464 1,0301 2565,9 ∙ 1,0122 = 2597,2
decembrie 2629 1,0670 2597,2 ∙ 1,0122 = 2629.0
Produsul indicilor cu bază
= 1,1430
mobilă (xi)
Media geometrică a
indicilor cu bază mobilă = 1,0122
(xi)
102
Așadar:
Tabelul 3.6
Câştigul
salarial Indici cu
Luna mediu bază mobilă ln xi
nominal net (xi)
(RON)
ianuarie 2300 – –
februarie 2236 0,9722 -0,0282
martie 2342 1,0474 0,0463
aprilie 2366 1,0102 0,0102
mai 2363 0,9987 -0,0013
iunie 2380 1,0072 0,0072
iulie 2391 1,0046 0,0046
august 2364 0,9887 -0,0114
septembrie 2376 1,0051 0,0051
octombrie 2392 1,0067 0,0067
noiembrie 2464 1,0301 0,0297
decembrie 2629 1,0670 0,0648
Sumă = 0,1337
Media aritmetică a valorilor ln xi = 0,1337 / 11 = 0,0122
Media geometrică a indicilor cu bază
= e0,0122 = 1,0122
mobilă (xi)
104
Tabelul 3.7
Anul 2000 2001 2002 2003 2004 2005
Profit realizat
5 6 12 24 60 150
(mil. RON)
Indici de
dinamică cu - 1,2 2 2 2,5 2,5
bază mobilă
Tabelul 3.8
Indici de dinamică cu bază mobilă 1,2 2 2,5 Total
Frecvenţe absolute (nj) 1 2 2 5
Frecvenţe relative (rj) 0,2 0,4 0,4 1
Tabelul 3.9
Anul 2000 2001 2002 2003 2004 2005
Profit realizat
5 6 12 24 60 150
(mil. RON)
Profit care s-ar
fi obţinut în
urma unei
5,00 9,87 19,49 38,48 75,97 150,00
creşteri anuale
de 1,9744 ori
(mil. RON)
105
Profitul firmei creşte în medie, de la un an la altul, de 1,9744 ori, sau cu
97,44%, aşa cum se poate verifica şi cu ajutorul tabelului 3.9 (o astfel de
creştere ar fi asigurat aceeaşi dinamică la nivelul întregii perioade a celor 6
ani, adică o creştere de 30 de ori a profitului din 2005 faţă de cel din
2000).
106
Tabelul 3.10
Intervale de
variaţie (ani), xj
[0-5] 2,5 14 0,28 0,70 1,2925
(5-10] 7,5 9 0,18 1,35 1,4372
(10-15] 12,5 3 0,06 0,75 1,1636
(15-20] 17,5 13 0,26 4,55 2,1047
(20-25] 22,5 6 0,12 2,70 1,4530
(25-30] 27,5 3 0,06 1,65 1,2200
(30-35] 32,5 2 0,04 1,30 1,1494
Total 50 1,00 13,00
Produs 9,2691
Așa cum s-a menționat deja, media geometrică este egală cu valoarea
exponenţială a mediei aritmetice a logaritmilor valorilor pentru care ea
se determină:
107
Pentru distribuţiile statistice ale unor variabile continue cu valori
grupate pe intervale de variație, în relaţia de determinare a mediei
geoemtrice se ține cont de centrele intervalelor pe care se înregistrează
valorile variabilei statistice (cj):
Tabelul 3.11
Intervale de
variaţie (ani)
108
Media geometrică se poate dovedi utilă atunci când fenomenul studiat
are o evoluţie aproximativ exponenţială. Cel mai des, media geometrică
se utilizează pentru determinarea indicilor şi ritmurilor medii de
dinamică;
Produsul rapoartelor dintre valorile individuale înregistrate şi media lor
geometrică este egal cu 1. Această proprietate derivă din definiţia
mediei geometrice:
Tabelul 3.12
X Y XY X/Y
23 11,2 257,6 2,05
34 12,3 418,2 2,76
21 13,4 281,4 1,57
27 12,6 340,2 2,14
36 11,8 424,8 3,05
29
Pentru ca proprietatea să fie aplicabilă, se impune, desigur, condiţia ca cele 2 variabile să fie definite de
acelaşi număr de variante observate.
109
colectivitate statistică determină multiplicarea sau împărțirea cu aceeaşi
constantă a mediei lor geometrice30;
Multiplicarea (sau împărţirea) cu o constantă a tuturor frecvenţelor
absolute (nj) ale unei distribuţii statistice nu produce modificări în ceea
ce priveşte mărimea mediei geometrice ponderate31:
30
Proprietatea rezultă prin înlocuirea, în relaţiile proprietăţii anterioare, a variabilei Y cu o constantă.
31
În cazul distribuţiilor statistice definite pe intervale, sunt luate în considerare, desigur, cemtrele
intervalelor.
110
Rezultă, aşadar, că:
unde:
xi reprezintă valoarea i înregistrată de variabila X;
xj = varianta discretă j care defineşte variabila X;
111
nj = frecvenţa absolută de apariţie a variantei discrete xj;
rj = frecvenţa relativă de manifestare a variantei discrete xj;
k = numărul de variante discrete care definesc variabila statistică X.
unde:
f(X) este funcţia care defineşte variabila continuă X;
xmax = limita superioară de variaţie a variabilei X;
xmin = limita inferioară de variaţie a variabilei X;
A(X) = amplitudinea de variaţie a variabilei X.
112
Proprietăţi ale mediei pătratice
Fiind o valoare numerică, media pătratică se poate calcula doar pentru
variabile numerice;
Pentru o colectivitate de valori, media pătratică este unică;
Pătratul mediei pătratice pentru o colectivitate de valori este egal cu
media aritmetică a pătratelor acestor valori:
113
unde c este o constantă;
Tabelul 3.13
Intervale de
variaţie (ani)
[0-5] 2,5 6,25 14 0,28 87,50 1,750
(5-10] 7,5 56,25 9 0,18 506,25 10,125
(10-15] 12,5 156,25 3 0,06 468,75 9,375
(15-20] 17,5 306,25 13 0,26 3981,25 79,625
(20-25] 22,5 506,25 6 0,12 3037,50 60,750
(25-30] 27,5 756,25 3 0,06 2268,75 45,375
(30-35] 32,5 1056,3 2 0,04 2112,50 42,250
Total 50 1,00 12462,50 249,250
32
Prin varianţă se înţelege media pătratelor abaterilor individuale ale valorilor de la media lor aritmetică
(a se vedea capitolul 6, „Descrierea statistică a variaţiei faţă de tendinţa centrală”).
33
Pătratul mediei pătratice a abaterilor înregistrate faţă de media aritmetică se numeşte dispersie sau
varianţă statistică (a se vedea capitolul 6, „Descrierea statistică a variaţiei”).
114
unde (X) reprezintă media pătratică a abaterilor faţă de media
aritmetică, denumită şi abatere standard, pătratul acesteia fiind
varianţa sau dispersia statistică.
Această proprietate poate fi folosită ca argument pentru cea de-a 4-a
proprietate, conform căreia media pătratică este mai mare sau egală
cu media aritmetică a aceloraşi valori;
Media pătratică este influenţată într-o măsură foarte mare de valorile
mai mari. Din acest motiv, ea se calculează deseori atunci când se
doreşte punerea în evidenţă a valorilor mai mari;
Ca şi celelalte medii statisitce, media pătratică este sensibilă la valorile
aberante din punct de vedere statistic.
115
3.4. Media armonică
Media armonică este valoarea reprezentativă statistic din punctul de
vedere al sumei inverselor valorilor înregistrate. Aceasta înseamnă că prin
înlocuirea tuturor valorilor înregistrate cu media lor armonică, suma
inverselor acestora nu se modifică.
Media armonică se foloseşte atunci când are sens însumarea inverselor
valorilor înregistrate. În economie, este utilizată, de exemplu, în calculul
indicelui mediu armonic al preţurilor (suma inverselor preţurilor,
ponderate conform coşului statistic de consum prezintă semnificaţie pentru
calculul indicelui mediu al preţurilor şi, astfel, pentru determinarea ratei
inflaţiei).
Aşadar,
116
unde:
xi reprezintă valoarea i înregistrată de variabila X;
xj = varianta discretă j care defineşte variabila X;
nj = frecvenţa absolută de apariţie a variantei discrete xj;
rj = frecvenţa relativă de manifestare a variantei discrete xj;
k = numărul de variante discrete care definesc variabila statistică X.
Să presupunem, de exemplu, că o persoană parcurge distanţa de 10 km.
astfel:
5 km cu viteza de 40 km./h.;
3 km cu viteza de 20 km./h.;
2 km cu viteza de 4 km./h.
Viteza medie cu care persoana parcurge întreaga distanţă de 10 km. trebuie
calculată ca o medie armonică ponderată:
117
Această durată de timp este echivalentă cu durata de timp necesară pentru
parcurgerea distanţei cu cele 3 viteze diferite, aşa cum se poate observa în
tabelul 3.14.
Tabelul 3.14
Distanţă (km.) Viteză (km./h.) Durată de timp necesară (h.)
5 40 5/40 = 0,125
3 20 3/20 = 0,150
2 4 2/4 = 0,500
Total 0,775
unde:
f(X) este funcţia care defineşte variabila continuă X;
xmax = limita superioară de variaţie a variabilei X;
xmin = limita inferioară de variaţie a variabilei X;
A(X) = amplitudinea de variaţie a variabilei X.
118
unde cj reprezintă centrele intervalelor de grupare a datelor;
nj = frecvenţele absolute înregistrate pe intervalele de grupare;
rj = frecvenţele relative înregistrate pe intervalele de grupare.
119
Se verifică, astfel, faptul că media armonică este cea mai mică dintre
cele 4 medii statistice:
Tabelul 3.15
Intervale de
variaţie (ani)
cj 1/cj nj rj (1/cj)nj (1/cj)rj
120
unde c este o constantă;
Tabelul 3.16
X Y = X –1 = 1/X
43 0,0233
25 0,0400
64 0,0156
76 0,0132
29 0,0345
suma 237 0,1265
media aritmetică 47,4 0,0253
media armonică 39,5189 0,0211
inversa mediei aritmetice 0,0211 39,5189
inversa mediei armonice 0,0253 47,4
121
Rezultă mai departe că:
122
Ca şi celelalte medii, media armonică este sensibilă la valorile aberante
înregistrate.
123
124
DESCRIEREA STATISTICĂ
A TENDINŢEI CENTRALE:
STATISTICILE DE
POZIŢIE
4.
OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate statisticile de poziţie disponibile pentru descrierea
statistică a tendinţei centrale, contribuind la:
înţelegerea conţinutului informaţional al celor mai importante statistici de
poziţie: valoarea mediană, cuartilele laterale, valoarea medială şi valorile
modale;
stăpânirea tehnicilor de calcul utilizate pentru determinarea statisticilor de
poziţie;
reţinerea utilității valorii mediane, respectiv a valorii mediale pentru
aprecierea reprezentativităţii mediei aritmetice la nivelul colectivităţii
statistice studiate;
înţelegerea semnificaţiei relaţiei de ordine dintre media aritmetică, valoarea
mediană şi valoarea modală centrală pentru aprecierea globală a gradului de
simetrie al unei distribuţii statistice.
125
126
Informaţiile vizate în cadrul cercetărilor statistice impun deseori descrieri
statistice nu doar la nivelul întregii colectivităţi statistice studiate, ci şi la
nivelul unor subcolectivităţi semnificative din punct de vedere statistic.
Poate fi de interes, de exemplu, descrierea statistică a celor mai mari 10%
dintre valorile înregistrate. Pentru stabilirea unor asemenea
subcolectivităţi semnificative din punct de vedere statistic, se dovedesc
utile anumite valori reprezentative din punctul de vedere al relaţiei de
ordine după criteriul mărimii.
Aceste valori pot fi împărțite în următorele două categorii:
valori extreme;
cuantile.
Valorile extreme sunt valorile cele mai mici, respectiv cele mai mari care
se obțin în urma ordonării după criteriul mărimii (variabilei considerate)
aplicate la nivelul colectivității statistice studiate.
Dacă luăm în considerare, de pildă, variabila înălțimii în studierea
populației care trăia în anul 2014 pe glob, s-ar putea identifica următoarele
2 valori extreme1 2:
- 54,6 cm – înălțimea celei mai scunde persoane de pe glob în anul 20143;
- 2,51 m – înălțimea celei mai înalte persoane de pe glob în anul 20144.
Cuantilele sunt statistici care descriu poziţii specifice, semnificative pentru
analiza statistică a unui şir de valori înregistrate. Prin poziţiile ocupate în
urma ordonării valorilor observate după criteriul mărimii, cuantilele
împart şirul acestor valori într-un anumit număr de părţi egale. Prin
urmare, cuantilele sunt definite de numărul de părţi egale în care ele
1
Cf.: Lübecker Nachrichten (General Anzeiger) am Sonntag, 2 septembrie 2018, p. 22.
2
În 13 noiembrie 2014 s-au întâlnit la Londra, pentru a celebra cea de-a 60-a aniversare a Guinness World
Records, cel mai scund cu cel mai înalt om în viață. A se vedea:
https://adevarul.ro/locale/suceava/povestea-celuimai-scund-om-istorie-nepalezul-intrat-cartea-
recordurilor-cuinaltimea-doar-546-centimetri-1_585f9ff55ab6550cb8c07e3c/index.html și
https://eu.usatoday.com/story/news/nation-now/2014/11/13/tallest-man-meets-shortest-man/18975201/
(accesate în 28 septembrie 2018)
3
Este vorba despre o nepalezul Chandra Bahadur Dangi (1939 – 2015). A se vedea:
https://adevarul.ro/locale/suceava/povestea-celuimai-scund-om-istorie-nepalezul-intrat-cartea-
recordurilor-cuinaltimea-doar-546-centimetri-1_585f9ff55ab6550cb8c07e3c/index.html (accesat în 28
septembrie 2018)
4
Este vorba despre turcul Sultan Kösen. A se vedea: https://adevarul.ro/locale/suceava/povestea-
celuimai-scund-om-istorie-nepalezul-intrat-cartea-recordurilor-cuinaltimea-doar-546-centimetri-
1_585f9ff55ab6550cb8c07e3c/index.html sau https://www.historia.ro/sectiune/general/articol/cei-mai-
inalti-oameni-din-lume (accesate în 28 septembrie 2018)
127
împart şirul valorilor observate supuse ordonării după criteriul mărimii,
prin poziţiile pe care ele le ocupă în urma acestei ordonări. Astfel:
mediana este cuantila care împarte şirul ordonat al valorilor observate
în două părţi egale;
cuartilele sunt cele 3 cuantile care împart şirul ordonat al valorilor
observate în 4 părţi egale; a doua cuartilă este, astfel, chiar mediana;
decilele sunt cele 9 cuantile care împart şirul ordonat al valorilor
observate în 10 părţi egale; a cincea decilă este, astfel, chiar mediana;
centilele sunt cele 99 cuantile care împart şirul ordonat al valorilor
observate în 100 părţi egale; a 50-a centilă este, astfel, chiar mediana; a
25-a centilă este prima cuartilă etc.
Întrucât presupun ordonarea datelor, cuantilele nu sunt disponibile ca şi
statistici de caracterizare a tendinţei centrale pentru datele de tip nominal.
unde:
P (xi ≤ Me) reprezintă probabilitatea ca o valoare aleasă la întâmplare să
fie mai mică sau egală cu valoarea mediană;
P (xi ≥ Me) reprezintă probabilitatea ca o valoare aleasă la întâmplare să
fie mai mare sau egală cu valoarea mediană;
128
Determinarea medianei pentru un şir de valori
Dacă numărul valorilor şirului considerat este impar, atunci mediana se
determină după relaţia:
unde:
RMe reprezintă rangul (poziţia) valorii mediane;
N = volumul colectivităţii statistice.
De exemplu, pentru şirul de valori (2, 10, 15, 7, 23, 17, 9) mediana este
valoarea care cade la mijloc în urma ordonării crescătoare a şirului: (2, 7,
9, 10, 15, 17, 23), adică 10.
Folosind relaţia de mai sus: Me = X(N+1)/2 = X(7+1)/2 = X4, adică cea de-
a 4-a valoare în ordine crescătoare (sau descrescătoare), aceasta fiind, în
cadrul seriei de valori ordonate, egală cu 10.
Dacă numărul valorilor este par, atunci mediana se va calcula ca medie a
celor două valori care cad la mijloc în urma ordonării după criteriul
mărimii:
129
Tabelul 4.1
Valori înregistrate de Ranguri în
către variabila X, urma ordonării
ordonate după criteriul după criteriul
mărimii, mărimii,
xi
x1 = 1550 1
x2 = 1600 2
x3 = 1740 3
x4 = 1750 = Me 4 (= RMe)
x5 = 1800 5
x6 = 1920 6
x7 = 3500 7
130
Tabelul 4.2 Câştiguri salariale orare brute mediane în anii 2010 și
2014, în ţările europene, la nivelul tuturor întreprinderilor cu cel
puțin 10 angajați (exclusiv ucenicii) – conform Eurostat5
2010 2014
5
Eurostat: http://appsso.eurostat.ec.europa.eu/nui/show.do (ultima actualizare: 7 august 2017)
6
Cf.: https://europa.eu/european-union/about-eu/countries/member-countries_ro (ultima actualizare: 19
octombrie 2018)
131
În cadrul OECD (Organizaţia pentru Cooperare şi Dezvoltare Economică)
salariul median stă la baza determinării unui indicator important pentru
evidenţierea diferenţelor dintre ţările membre în ceea ce priveşte dispersia
câştigurilor salariale. Este vorba despre raportul dintre salariul minim pe
economie şi salariul median înregistrat într-o anumită perioadă (Ratio of
minimum wage to median wage).
7
http://stats.oecd.org/Index.aspx?DataSetCode=MIN2AVE
132
minim reprezenta aici, în anii 2011-2017, peste 70% din salariul median,
ceea ce înseamnă că salariaţii care primeau salariul minim câştigau cel
puţin 70% din salariul obţinut de jumătate din salariaţii din Turcia.
Cele mai mici valori ale acestui indicator se pot identifica în cazul SUA,
pentru care indicatorul s-a menținut în acești ani la un nivel de sub 0,4.
133
distribuţie statistică simetrică pentru aceeaşi variabilă („număr de copii”)
este prezentat în tabelul 4.6.
Tabelul 4.4
Variabila Frecvenţe Frecvenţa
Frecvenţa
statistică absolute cumulată
cumulată
(număr (număr de des-
crescător
de copii) familii) crescător
nccj
xj nj ncdj
0 10 10 100 90
1 25 35 90 55
2 33 68 65 3
3 12 80 32 48
4 10 90 20 70
5 5 95 10 85
6 5 100 5 95
TOTAL N = 100
Tabelul 4.5
Variabila Frecvenţe Frecvenţ Frecvenţa
statistică absolute a cumulată
(număr de (număr de cumulată des-
copii) familii) crescător crescător
xj nj nccj ncdj
0 10 10 100 90
1 25 35 90 55
2 30 65 65 0
3 15 80 35 45
4 10 90 20 70
5 5 95 10 85
6 5 100 5 95
TOTAL N = 100
134
Tabelul 4.6
Variabila Frecvenţe Frecvenţ Frecvenţa
statistică absolute a cumulată
(număr de (număr de cumulată des-
copii) familii) crescător crescător
xj nj nccj ncdj
0 10 10 100 90
1 25 35 90 55
2 30 65 65 0
3 25 90 35 55
4 10 100 10 90
TOTAL N = 100
8
Distribuţie cu o singură valoare modală; a se vedea paragraful dedicat valorilor modale.
9
Mediana pentru date grupate pe intervale nu poate fi determinată cu exactitate, întrucât nu se cunosc
valorile exacte din interiorul intervalelor pe care au fost grupate datele.
135
median (1200 RON) la care s-au adăugat treptat distanţe egale cu raportul
dintre lungimea totală a intervalului median şi numărul de salarii
poziţionate în cadrul acestuia (echivalent cu frecvenţa absolută înregistrată
pentru acest interval, nMe):
Tabelul 4.7
Frecvenţe cumulate
Variabila X
Frecvenţe (număr cumulat de
definită prin muncitori)
absolute (număr
grupe de salarii
de muncitori)
(RON)
nj
xj
900 – 1000 3 3
1000 – 1100 15 18
1100 – 1200 19 37
1200 – 1300 21 = nMe 58 = (nc)Me > 50 = RMe
1300 – 1400 20 78
1400 – 1500 17 95
1500 – 1600 3 98
1600 – 1700 1 99
Total N = 99
Pentru fiecare salariu astfel estimat au fost calculate apoi câte două
frecvenţe cumulate: o frecvenţă cumulată la nivelul întregii distribuţii şi o
frecvenţă cumulată doar la nivelul intervalului median.
Procedând astfel, se poate estima salariul median ca fiind cel pentru care
rangul la nivelul întregii distribuţii este 50. Se poate observa că acesta are,
totodată, la nivelul intervalului median, rangul 13, fiind egal cu
1261,905 RON. La aceeaşi valoare se poate ajunge adăugând la limita
inferioară a intervalului median (lMe = 1200) raportul dintre lungimea
intervalului median şi frecvenţa intervalului median (dMe/nMe = 4,762
RON), ponderat cu rangul valorii mediane la nivelul intervalului median
(rMe = 50 – 37 = 13).
136
Tabelul 4.8
Frecvenţă cumulată Frecvenţă cumulată
la nivelul întregii la nivelul
Salariu
distribuţii, (nc)i intervalului median,
(nc)j
1200,000 37 0
1204,762 38 1
1209,524 39 2
1214,286 40 3
1219,048 41 4
1223,810 42 5
1228,571 43 6
1233,333 44 7
1238,095 45 8
1242,857 46 9
1247,619 47 10
1252,381 48 11
1257,143 49 12
1261,905 50 13
1266,667 51 14
1271,429 52 15
1276,190 53 16
1280,952 54 17
1285,714 55 18
1290,476 56 19
1295,238 57 20
1300,000 58 21
137
Tabelul 4.9
Frecvenţe
Variabila X cumulate (număr
Frecvenţe
definită prin cumulat de
absolute (număr
grupe de salarii muncitori)
de muncitori)
(RON)
nj
xj
900 – 1000 3 3
1000 – 1100 15 18
1400 – 1500 17 95
1500 – 1600 3 98
1600 – 1700 1 99
Total N = 99
RMe = (N+1)/2 = 50
138
Proprietăţi ale medianei
1. Mediana nu este o statistică adecvată pentru variabile calitative
nominale, întrucât pentru manifestările înregistrate pentru astfel de
variabile nu are sens operaţia de ordonare.
Determinarea medianei are însă sens pentru variabile calitative ordinale.
Pentru exemplificare să considerăm distribuţia statistică de frecvenţe din
tabelul 4.10.
Tabelul 4.10
Variabila X Frecvenţe cumulate
Frecvenţe
definită prin (număr cumulat de
absolute
variante de respondenţi)
Codificare (număr de
acord /
respondenţi)
dezacord
nj
xj
Puternic 1 12 12
dezacord
Dezacord 2 27 39
moderat
Neutru 3 25 64
Acord moderat 4 48 112 ( > RMe = 75,5)
Puternic acord 5 38 150
Total N = 150
RMe = (N + 1) / 2 = 75,5
139
asimetrie al distribuţiei, răspunzând astfel nevoii de cunoaştere mai precisă
a poziţionării respondenţilor faţă de opinia formulată 10.
Revenind la exemplul nostru, să determinăm mai întâi media aritmetică.
Pentru aceasta construim tabelul 4.11.
Tabelul 4.11
Variabila X
Frecvenţe
definită prin
absolute
variante de Codificare Sume parţiale,
(număr de
acord / cj respondenţi) si = cjnj
dezacord
nj
xj
Puternic 1 12 12
dezacord
Dezacord 2 27 54
moderat
Neutru 3 25 75
Acord moderat 4 48 192
Puternic acord 5 38 190
Total N = 150 S = 523
10
Cf.: Peter Zöfel, Statistik verstehen: ein Begleitbuch zur computergestützten Anwendung. Pearson
Deutschland GmbH, 2002, pp. 35-36.
140
opinia formulată un dezacord mult mai accentuat în raport cu tendinţa
generală.
Tabelul 4.12
Frecvenţe
Intervale Frecvenţ
cumulate:
de e
Variabila X cj variaţie absolute:
xj nj
unde:
141
Me reprezintă mediana repartiţiei statistice după variabila X;
f(x) = funcţia continuă care defineşte variabila statistică X;
[a, b] = câmpul de variaţie al variabilei statistice X.
S1 = S 2
S1 S2
a Me b
Figura 4.1
Tabelul 4.13
Variabila X,
număr de Număr de familii
Sume parţiale,
copii, definită (Frecvenţe absolute)
prin sj = xjnj
nj
variantele xj
0 10 0
1 25 25
2 30 60
3 15 45
4 10 40
5 5 25
6 5 30
TOTAL N = 100 S = 225
142
3. Întrucât media aritmetică este afectată de valorile extreme pe care le
înregistrează variabila statistică, rezultă că pentru o distribuţie statistică cu
o concentrare mai mare în jurul valorilor mai mici, mediana este mai mică
decât media aritmetică. Invers, pentru o distribuţie statistică cu o
concentrare mai mare în jurul valorilor mai mari, mediana este mai mare
decât media aritmetică.
Un exemplu pentru primul caz este cel al distribuţiei din figura 4.1, dar şi
al distribuţiei din tabelul 4.4, reluată, pentru efectuarea calculelor
suplimentare necesare, în tabelul 4.13. Se verifică relaţia: Me (= 2) < μ
(= 2,25);
4. Spre deosebire de media aritmetică, mediana prezintă avantajul că nu
este afectată de valorile aberante înregistrate de către variabila statistică.
Ca şi dezavantaje ale medianei menţionăm următoarele:
- ea poate să nu corespundă unei valori reale (atunci când numărul de
valori este par);
- are o putere redusă de reflectare a diferenţelor dintre două sau mai multe
serii de valori, ceea ce face ca erorile de inferenţiere de la eşantion la
populaţie statistică în cazul medianei să fie, de regulă, mari. Pentru
exemplificare, prezentăm în tabelul 4.14 două serii de valori foarte diferite
între ele, care sunt însă caracterizate de aceleaşi valori mediane (MeX =
MeY = 52).
Tabelul 4.14
Seria de Seria de valori
valori X Y
13 48
25 49
37 49
48 51
52 52
65 53
78 53
81 54
93 55
143
4.2. Cuartilele, Decilele şi Centilele (Procentilele)
Celelalte două cuartile, denumite şi cuartile laterale (cuartila din mijloc
este chiar valoarea mediană), se pot defini şi ele pe baza unor relaţii
probabilistice:
- pentru prima cuartilă (Q1):
unde:
Ck reprezintă centila sau procentila de ordinul k.
Pentru ilustrarea algoritmului de determinare a procentilelor, să
considerăm datele din tabelul 4.16. Să determinăm, de pildă, procentila 72,
adică valoarea care satisface relaţia:
11
Centilele se pot numi şi procentile, întrucât între două centile diferite, consecutive, se află 1 procent din
valorile înregistrate.
144
Tabelul 4.16
Variabila X
Frecvenţe absolute
definită prin
(număr de
grupe de
muncitori)
salarii (RON)
ni
xi
900 - 1000 40
1000 - 1200 110
1200 - 1500 210
1500 - 2000 120
peste 2000 20
Total 500
12
Se presupune că variaţia este uniformă pe întinderea intervalului în care se află cuantila căutată.
145
Tabelul 4.17
Frecvenţe absolute
Variabila X cumulate (număr
Frecvenţe absolute
definită prin cumulat de
(număr de
grupe de muncitori)
muncitori)
salarii (RON)
nj
xj
900 - 1000 40 40
1000 - 1200 110 150
1200 - 1500 210 360
1500 - 2000 120 480
peste 2000 20 500
Total 500
Tabelul 4.18
Seria de Seria de
Nr.
valori X, valori X,
crt.
brute ordonate
1 31 29
2 36 30
3 34 31
4 29 32
5 34 32
6 32 34
7 32 34
8 30 34
9 38 36
10 34 38
330
147
situaţie se pot determina totuşi, ca şi statistici ale tendinţei centrale,
valorile modale.
Să considerăm, de exemplu, datele din tabelul 4.19, referitoare la
repartizarea pe domenii a celor 200 de angajaţi cu studii superioare ai unei
firme.
Variabila „domeniu” cu variantele sale – contabilitate, finanţe,
management, marketing şi „altele” – este o variabilă calitativă nominală.
Deoarece, pentru variantele „contabilitate” şi „finanţe” se înregistrează
cele mai mare frecvenţe (50, în cifre absolute și 25,00%, în cifre
relative), rezultă că aceste două variante constituie valorile modale ale
distribuţiei statistice considerate.
Tabelul 4.19
Numărul de angajaţi cu studii Frecvenţe
Domeniul
superioare (frecvenţe absolute) relative
Contabilitate 50 25,00%
Finanţe 50 25,00%
Management 42 21,00%
Marketing 33 16,50%
Altele 25 12,50%
TOTAL 200 100,00%
148
Tabelul 4.20 Primele 10 țări din lume în funcție de volumul migrației
în Germania în anul 201713
Nr. crt. Țara Sosiri Plecări Migrație
1 România 230603 157415 73188
2 Siria 76391 16456 59935
3 Polonia 149663 115419 34244
4 Croația 58603 25800 32803
5 Bulgaria 81627 51290 30337
6 Iraq 27574 11328 16246
7 Italia 51471 35364 16107
8 India 29535 15878 13657
9 Turcia 33655 21350 12305
10 Bosnia și Herțegovina 23980 11831 12149
40
35
37
30
25
20 24
15
17
10
11
5
5 3 2 1
0
x1 x2 = Mo ... xk ... xn
Figura 4.2
13
Cf.: https://www-
genesis.destatis.de/genesis/online;sid=13F98451D13CE8F6253D2E67C7350095.GO_1_4?operation=pre
vious&levelindex=3&levelid=1539912111672&step=3 (accesat în 19 octombrie 2018).
O selecție a informațiilor de mai sus se poate găsi la: Lavinia PITU. Anul trecut, în Germania au venit
mai mulți români decât sirieni. Articol online la adresa: https://www.dw.com/ro/anul-trecut-%C3%AEn-
germania-au-venit-mai-mul%C8%9Bi-rom%C3%A2ni-dec%C3%A2t-sirieni/a-45896884 (accesat în 19
octombrie 2018).
149
Să considerăm, de pildă, variabila „număr de copii / familie”, cu variantele
x1, x2, ..., xk (de exemplu, x1 = niciun copil, x2 = 1 copil ş.a.m.d.).
În figura 4.2 este reprezentată, cu ajutorul unei diagrame prin coloane, o
distribuţie statistică după această variabilă, la nivelul a 100 de familii
studiate. Valoarea modală, adică valoarea pentru care se înregistrează
frecvenţa maximă, este valoarea pe care am notat-o cu Mo.
Din diagramă rezultă că pentru grupul de familii studiat, valoarea modală
este Mo = x2 = 2 (copii), variantă pentru care s-au înregistrat cele mai
multe observaţii (37).
Dacă există două sau mai multe variante ale variabilei considerate pentru
care se înregistrează frecvenţa maximă, distribuţia statistică este
caracterizată de două (distribuţie bimodală; un exemplu este cel din figura
4.3) sau mai multe valori modale (distribuţie plurimodală).
35
30
25 29 29
20 23
15
10
5 9
4 3 2 1
0
Figura 4.3
150
16
14
12
10
x1 x2 x3 x4 x5 = Mo x6 x7 x8
Figura 4.4
unde:
Mo reprezintă valoarea modală a distribuţiei statistice studiate;
lMo, LMo = limita inferioară şi, respectiv, limita superioară a
intervalului modal.
151
b. având în vedere faptul că reprezentativitatea valorilor modale
este în legătură cu frecvenţa de manifestare a acestora, obţinerea
unei valori modale mai reprezentative reclamă analiza extinsă a
etalării frecvenţelor înregistrate de către variantele care definesc
variabila statistică.
Se justifică, astfel, determinarea valorii modale şi în funcţie de
frecvenţele înregistrate pentru intervalele vecine intervalului
modal:
unde:
lMo reprezintă limita inferioară a intervalului modal;
dMo = lungimea intervalului modal, adică distanţa dintre limita
inferioară şi cea superioară a acestuia (LMo – lMo);
152
Prin urmare, se obţine:
Sau:
Aşadar:
ni
A B
O E I F 1
lMo 2
D
xi
Mo
Figura 4.5
153
Să determinăm, de exemplu, valoarea modală pentru distribuţia statistică
din tabelul 4.21.
Tabelul 4.21
Variabila X, definită pe Frecvenţe
grupe de vârstă (ani) absolute, F
10 - 20 5
20 - 30 8
30 - 40 20
40 - 50 11
50 - 60 6
TOTAL 50
Intervalul modal pentru distribuţia din tabelul 4.21 este intervalul 30-40
ani, întrucât la nivelul acestuia se înregistrează cea mai mare frecvenţă
absolută.
În tabelul 4.22 este marcat acest interval şi sunt calculate valorile şi
.
Tabelul 4.22
Variabila
X, definită Frecvenţe
pe grupe absolute,
de vârstă ni
(ani)
10 - 20 5
20 - 30 8 (nMo-1)
154
Folosind relaţia de determinare a valorii modală în cazul variabilelor
statistice continue definite pe intervale egale, obţinem:
Tabelul 4.23
Variabila X: Frecvenţe absolute
cărţi vândute (număr de librării),
(buc.) ni
10 - 20 40
20 - 30 110
30 - 50 210
50 - 80 120
80 - 100 20
Total 500
155
Tabelul 4.24
Variabil Densitate
Frecvenţe absolute Lungimi ale statistică,
a X: cărţi (număr de intervalelor,
vândute
librării), ni di
(buc.)
10 - 20 40 10 4,0 7,0
20 - 30 110 10 11,0 IMo
30 - 50 210 20 10,5 0,5
50 - 80 120 30 4,0
80 - 100 20 20 1,0
Total 500
unde:
156
De exemplu, intervalul iniţial (30 - 50) a fost împărţit în două
subintervale egale. Acestea sunt subintervalele (30 - 40), respectiv (40 -
50),. Mai departe, la nivelul acestor subintervale, efectivul iniţial de
librării (210) a fost distribuit în mod uniform, rezultând două
subfrecvenţe de câte 105 libării.
Tabelul 4.25
Variabila
Frecvenţe absolute
X: cărţi
vândute
(număr de
librării), ni
(buc.)
10 - 20 40 70
20 - 30 110 IMo
30 - 40 105 5
40 - 50 105
50 - 60 40
60 - 70 40
70 - 80 40
80 - 90 10
90 - 100 10
Total 500
Aşadar, putem estima că la nivelul celor mai multe libării s-au vândut 29
sau 30 de cărţi.
Aceste valori nu pot fi unele certe, ci doar estimări, deoarece nu se cunosc
valorile exacte înregistrate de către variabila statistică.
157
Proprietăţi ale valorilor modale
În decizia de alegere a valorilor modale ca şi statistici pentru
caracterizarea tendinţei centrale, precum şi în determinarea acestora, este
utilă cunoaşterea următoarelor proprietăţi ale valorilor modale:
1. Pentru o distribuţie statistică unimodală, valoarea modală, spre
deosebire de media aritmetică, nu este afectată de valorile aberante
înregistrate de către variabila statistică;
2. În cazul distribuţiilor bi- sau pluri-modale, cele două sau mai multe
valori modale nu pot fi sintetizate pentru obţinerea unei singure mode care
să fie repezentativă pentru întreaga colectivitate statistică;
3. Cunoaşterea valorii modale se dovedeşte utilă în caracterizarea gradului
de asimetrie al unei distribuţii statistice unimodale (a se vedea capitolul 7);
max f(X)
Mo μ X
Me
Figura 4.6
158
70
60
50
40
30
20
10
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29
159
Tabelul 4.26
Valori (xi) Valori
Frecvenţe
care definesc ponderate cu
absolute (ni)
variabila X frecvenţe (xi·ni)
1 3 3
2 4 8
3 6 18
4 8 32
5 11 55
6 14 84
7 17 119
8 21 168
9 25 225
10 29 290
11 34 374
12 39 468
13 45 585
14 51 714
15 58 870
16 58 928
Mo = Me = 15,5
17 51 867
18 45 810
19 39 741
20 34 680
21 29 609
22 25 550
23 21 483
24 17 408
25 14 350
26 11 286
27 8 216
28 6 168
29 4 116
30 3 90
160
a. asimetrie b. asimetrie
pozitivă negativă
Figura 4.8
unde:
RMl reprezintă rangul medialei;
i = rangurile celor n valori ordonate crescător.
Să considerăm din nou, pentru exemplificare, şirul de salarii (în RON):
(1550, 1920, 1600, 1800, 1750, 3500, 1740).
Pentru a determina mediala acestui şir de valori, este necesară mai întâi
ordonarea acestora după criteriul mărimii: (1550, 1600, 1740, 1750,
1800, 1920, 3500), urmată de însumarea lor treptată: (1550, 3150,
4890, 6640, 8440, 10360, 13860).
Jumătate din suma totală a valorilor considerate înseamnă 13860/2 =
6930. Întrucât la însumarea treptată a valorilor înregistrate, această
valoare este depăşită pentru prima dată după adăugarea celei de-a 5-a
valori ordonate crescător (8440 > 6930), rezultă că mediala are rangul
egal cu 5, valoarea sa fiind egală cu 1800 (figura 4.9).
161
Deoarece suma valorilor mai mari decât mediana nu poate fi decât mai
mare sau egală cu suma valorilor mai mici decât mediana, mediala este şi
ea mai mare sau egală cu mediana valorilor înregistrate. Pentru exemplul
nostru, se obţine: Ml = 1800 > Me = 1750.
Egalitatea între medială şi mediană are loc doar în cazul în care toate
valorile înregistrate sunt egale.
Abaterea dintre aceste două statistici reprezintă ea însăşi o nouă statistică,
a cărei utilitate este în legătură cu caracterizarea gradului de
concentrare/diversificare statistică, aşa cum se va vedea în detaliu pe
parcursul capitolului 6, dedicat statisticilor disponibile pentru descrierea
concentrării, respectiv diversificării statistice, adică a măsurii în care
valorile înregistrate se apropie sau nu între ele.
Figura 4.9
162
Cazul unei variabile statistice discrete
Să revenim la datele din tabelul 4.4, înregistrate în legătură cu variabila
„număr de copii” pentru o populaţie statistică formată din 100 de familii.
Pentru aflarea medialei este necesară însumarea treptată a valorilor
înregistrate de variabila statistică. Pentru aceasta, am construit tabelul
4.27.
Întrucât numărul cumulat de copii (Si) este pentru prima dată mai mare
decât jumătate din numărul total de copii (S/2) pentru varianta a patra a
variabilei („3 copii”), rezultă că mediala se identifică cu această variantă a
variabilei statistice. Aşadar, Ml = 3.
Tabelul 4.27
Număr de
Număr Număr de copii pe
familii Număr cumulat de
de copii grupe de familii (si =
(frecvenţe, copii (Si)
(xi)
fi) xi·fi)
0 10 0 0
1 25 25 25
2 30 60 85
3 15 45 130 > S/2 = 112,5
4 10 40 170
5 5 25 195
6 5 30 225 (= S)
TOTAL N = 100 S = si = 225
S/2 = 225/2 = 112,5
163
50600. Conform datelor din tabelul 4.28, această pensie se află undeva pe
intervalul 950-1050 (intervalul medial al distribuţiei).
Valoarea medialei se poate afla prin interpolare. Astfel, ea se obţine
adunând la limita inferioară a intervalului medial (lMl = 950) distanţa
dintre capetele intervalului medial (dMl = LMl – lMl = 1050 – 950 =
100) ponderată cu raportul dintre partea pensiilor (sMl) de pe intervalul
medial, care mai trebuie adăugată la suma cumulată a pensiilor mai mici
decât cele din intervalul medial (sc) pentru obţinerea unei sume cumulate a
pensiilor egală cu jumătate din suma totală a acestora (sMl = S/2 – sc =
50600 – 31200 = 19400) şi, la numitor, suma pensiilor aflate pe
intervalul medial (SMl = 21000).
Tabelul 4.28
Pensii
Număr
repre- Valori
de
zentative Sume estimate cumulate ale
Grupe de pensio-
(centre ale pensiilor sumelor
pensii, RON nari
ale pe grupe estimate pe
(frec-
(xi) interva- grupe
venţe) (si = ci·fi)
lelor)
(Si)
(fi)
(ci)
650 - 750 700 3 2100 2100
750 - 850 800 15 12000 14100
850 - 950 900 19 17100 31200 (= sc)
52200 > S/2 =
950 - 1050 1000 21 21000 (= SMl) 101200/2 =
50600
1050 - 1150 1100 20 22000 74200
1150 - 1250 1200 17 20400 94600
1250 - 1350 1300 4 5200 99800
1350 - 1450 1400 1 1400 101200 (= S)
S = si =
Total N = 100
101200
Tabelul 4.29
Valori
Sume estimate ale cumulate ale
Grupe de pensii, pensiilor pe grupe sumelor
RON (xi)
(si = ci·fi) estimate pe
grupe (Si)
650 - 750 2100 2100
750 - 850 12000 14100
850 - 950 17100 31200 (= sc)
950 – 1042,3810 19400 (= S/2 – sc = sMl) 50600 (= S/2)
1042,3810 – 1050 1600 (= 52200 – 50600) 52200
1050 - 1150 22000 74200
1150 - 1250 20400 94600
1250 - 1350 5200 99800
1350 - 1450 1400 101200 (= S)
Total 101200
unde:
Ml reprezintă valoarea medială a unei distribuţii statistice continue,
definită pe intervale;
lMl = limita inferioară a intervalului medial;
LMl = limita superioară a intervalului medial;
dMl = amplitudinea intervalului medial, adică diferenţa dintre limita
superioară (LMl) şi limita inferioară (lMl) a intervalului medial;
165
sc = suma cumulată a valorilor mai mici decât limita inferioară a
intervalului medial;
SMl = suma valorilor de pe intervalul medial;
sMl = partea valorilor de pe intervalul medial, care mai trebuie adăugată la
suma cumulată a valorilor mai mici decât cele din intervalul medial ( sc)
pentru obţinerea unei sume cumulate a valorilor egală cu jumătate din
suma tuturor valorilor înregistrate (S/2);
S = suma tuturor valorilor înregistrate.
Acelaşi procedeu de interpolare poate fi aplicat în cazul variabilelor
statistice continue definite pe intervale şi pentru determinarea a altor
statistici care împart suma valorilor într-un număr specificat (4, 10, 100
...) de părţi egale.
166
DESCRIEREA STATISTICĂ
A VARIAŢIEI 5.
OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate statisticile disponibile pentru descrierea statistică
a variaţiei, răspunzând următoarelor obiective principale:
stăpânirea tehnicilor de calcul utilizate pentru determinarea statisticilor de
variaţie în jurul mediei aritmetice, a valorii mediane sau a valorii modale;
înţelegerea conţinutului informaţional al celor mai importante statistici de
variaţie: abaterea medie absolută, varianţa, abaterea standard şi coeficientul de
variaţie;
reţinerea utilității coeficientului de variaţie în ceea ce priveşte aprecierea
reprezentativităţii mediei aritmetice pentru colectivitatea statistică studiată;
înţelegerea conţinutului informaţional al covarianţei ca statistică de variaţie
simultană (co-variaţie) a două variabile statistice.
167
168
Pentru completarea tabloului descriptiv al tendinţei statistice centrale sunt
necesare, în afara informațiilor privind media aritmetică și principalele
statistici de poziție (valoarea mediană și valoarea / valorile modale), şi alte
caracterizări ale colectivităţilor statistice studiate.
Necesitatea completării acestor informații este evidențiată, de pildă, de
faptul că pot exista colectivităţi caracterizate de valori similare ale acestor
statistici, în ciuda faptului că ele sunt colectivități cu tendințe statistice
destul de diferite.
Pentru a ilustra această posibilitate, să presupunem două reţele de
magazine concurente, A şi B, formate din câte 7 magazine, la nivelul
cărora cifra de afaceri a înregistrat, pe parcursul anului 2017, valorile din
tabelul 5.1.
Tabelul 5.1
Cifra de afaceri înregistrată pe, Total
parcursul anului 2017, la nivelul
magazinelor din reţea, în mil. RON
Reţeaua de 4 15 12 4 8 12 4 59
magazine A
Reţeaua de 15 8 1 13 4 14 4 59
magazine B
Aşadar, toate cele trei statistici ale tendinţei centrale sunt identice pentru
cele două serii de valori înregistrate de către variabila „cifra de afaceri”.
Cu toate acestea, cele două serii de valori sunt destul de diferite.
Deosebiri importante între cele două rețele de magazine în privința cifrei
de afaceri pot fi evidenţiate cu ajutorul statisticilor care descriu variaţia în
jurul mediei aritmetice, a valorii mediane sau a valorii / valorilor modale .
169
În figura 5.1 sunt reprezentate grafic perechi de distribuţii statistice care
deşi sunt caracterizate de valori identice ale mediei aritmetice, sunt totuși
diferite în ceea ce priveşte variaţia statistică înregistrată în jurul acesteia.
Figura 5.1
170
cunoaşterea gradului de influenţă a factorilor/cauzelor după care s-a
făcut gruparea unităţilor statistice, fiind astfel posibilă evidenţierea
acţiunii cauzei esenţiale, precum şi separarea acesteia de acţiunea
cauzelor întâmplătoare; o utilitate semnificativă în această privinţă o
prezintă una dintre cele două relaţii de adunare a varianţelor la nivelul
unei distribuţii bivariate, anume relația potrivit căreia varianța
variabilei dependente se compune din varianța explicată pe seama
variabilei independente și din varianța determinată de alți factori
(necunoscuți), denumită varianță neexplicată (pe seama variabilei
independente considerate).
Amplitudinea totală
a) amplitudinea totală absolută (A)
Amplitudinea absolută a variaţiei statistice se determină ca diferenţă
absolută între cea mai mare şi cea mai mică valoare observată:
171
Astfel, de exemplu, singurul şir de valori reprezentate grafic în figura 5.2,
pentru care are relevanţă calculul amplitudinii, ca şi statistică a variaţiei,
este şirul A.
Amplitudinea absolută se exprimă prin aceeaşi unitate de măsură ca şi
variabila analizată.
Din această cauză, utilizarea ei pentru comparaţii se face numai repartiţii
după variabile statistice exprimate în unităţi de măsură identice.
Eliminarea acestui inconvenient se poate asigura prin calculul amplitudinii
relative a variaţiei.
şirul A
X min X max
172
Pentru o distribuţie statistică după o variabilă continuă definită pe
intervale, amplitudinea se calculează ca diferenţă între limita maximă a
intervalului superior şi limita minimă a intervalului inferior.
173
acest interval se află peste jumătate din valorile înregistrate, acestea
descriind în mod evident tendinţa centrală manifestată la nivelul
colectivităţii studiate.
Amplitudinea intercuartilică poate fi folosită, de asemenea, la identificarea
eventualelor valori aberante din punct de vedere statistic (outliers), valori
care se abat semnificativ de la tendința statistică centrală. Astfel, sunt
considerate valori aberante (sau deplasate) acele valori care sunt plasate în
afara intervalului [Q1 – 1,5AQ; Q3 + 1,5AQ]. Pentru exemplificare, să
considerăm șirul de valori: 5; 7; 7; 9; 9; 10; 10 și 25. După cum se poate
ușor constata, cele două cuartile laterale pentru acest șir de valori sunt
egale cu 7, respectiv 10, ceea ce înseamnă că amplitudinea intercuartilică
este egală cu 3. Intervalul în afara căruia se plasează eventualele valori
aberante este în acest caz: [Q1 – 1,5AQ; Q1 + 1,5AQ] = [7 – 1,5∙3; 10
+ 1,5∙3] = [2,5; 14,5]. În afara acestui interval se află o singură valoare
dintre cele șapte ale șirului considerat, și anume 25, această valoare fiind
așadar una aberantă din punctul de vedere al tendinței statistice centrale
(ea este prea îndepărtată față de această tendință).
174
Abaterile individuale relative
Abaterile individuale relative se obţin prin raportarea abaterilor
individuale absolute la cele trei statistici ale tendinței centrale:
175
interes ca urmare a potențialului scăzut de calcul în legătură cu celelalte
teme principale de descriere și analiză statistică1.
unde:
(|a|) reprezintă abaterea medie absolută;
ai = abateri individuale faţă de media aritmetică;
ni = frecvenţele absolute de manifestare a variantelor care definesc
variabila statistică;
N = volumul colectivităţii statistice studiate;
ri = frecvenţele relative de manifestare a variantelor care definesc variabila
statistică.
Pentru distribuţiile statistice după variabile continue, definite pe intervale,
în determinarea abaterii medii absolute se iau în considerare, convenţional,
ca valori reprezentative ale intervalelor, centrele acestora (ci):
1
De pildă, nu este disponibilă, în aceste cazuri, o relația de adunare a varianțelor, așa cum se întâmplă în
cazul variației sintetice în jurul mediei aritmetice (a se vedea paragrafele 6.5 și 8.6).
176
Este posibil ca în anumite situaţii să prezinte interes şi calculul abaterii
medii absolute faţă de mediană:
Tabelul 5.2
pentru şiruri de valori
pentru distribuţii statistice de frecvenţe
(date simple, negrupate)
177
unde:
(X) varianţa sau dispersia statistică;
ai = abaterile individuale faţă de media aritmetică;
ni = frecvenţele absolute de manifestare a variantelor care definesc
variabila statistică;
N = volumul colectivităţii statistice studiate;
ri = frecvenţele relative de manifestare a variantelor care definesc
variabila statistică.
178
individuale ale valorilor faţă de media aritmetică să rămână
neschimbate (figura 5.4);
dacă toate valorile înregistrate se multiplică sau se împart cu o
constantă (c), atunci varianţa se multiplică sau se împarte cu pătratul
acelei constante (figura 5.4). Se întâmplă aşa deoarece multiplicarea
sau împărţirea cu o constantă a valorilor înregistrate este însoţită de
multiplicarea sau împărţirea cu aceeaşi constantă a mediei lor
aritmetice, ceea ce face ca abaterile individuale ale valorilor faţă de
media aritmetică să se multiplice sau să se împartă şi ele cu aceeaşi
constantă:
X1 = X – c X X2 = X + c
X X1 = X · c
Figura 5.4
179
Media aritmetică la nivelul ambelor colectivităţi este 10.
Valorile individuale ale celor două populaţii sunt reprezentate pe axe
orizontale, în figura 5.5. Aşa cum se observă în această figură, valorile
înregistrate la nivelul colectivităţii B sunt mult mai dispersate faţă de
media lor aritmetică decât valorile înregistrate pentru colectivitatea A.
O primă măsură a variaţiei faţă de medie o obţinem determinând
abaterile individuale faţă de media aritmetică, reprezentate în figura 5.5
prin linii cu săgeţi.
Varianţele pentru cele două colectivităţi sunt:
colectivitatea A μ
colectivitatea B μ
Figura 5.5
180
pentru două constante a şi b, se verifică următoarea relaţie de calcul a
varianţei:
Iată demonstraţia:
Tabel 5.3
X X-a (X-a)/b [(X-a)/b]2
125 25 5,0 25,00
78 -22 -4,4 19,36
99 -1 -0,2 0,04
113 13 2,6 6,76
101 1 0,2 0,04
136 36 7,2 51,84
80 -20 -4,0 16,00
95 -5 -1,0 1,00
127 27 5,4 29,16
Medie 106 6 1,2 16,58
181
dacă toate frecvenţele absolute ale unei distribuţii statistice de
frecvenţe se multiplică sau se împart cu o constantă (c), atunci varianţa
nu se modifică:
182
În urma analizei acestui tabel cu dublă intrare se poate observa că
frecvenţele din zona haşurată a tabelului sunt frecvenţe de manifestare
simultană a două variabile: X (participarea la cursurile disciplinei
„statistică”) Y (nota obţinută la examenul susţinut la aceeaşi disciplină).
De exemplu, perechea de variante xi = 9 şi yj = 7 se înregistrează de 5 ori,
adică valoarea frecvenţei din tabel aflată la intersecţia coloanei care
corespunde variantei xi = 9 cu rândul care corespunde variantei yj = 7.
Aceasta înseamnă că sunt 5 studenţi care au participat la 9 cursuri şi au
obţinut nota 7.
Să verificăm relaţiei de adunare a varianţelor pentru variabila Y
condiţionată sau dependentă de variabila X:
unde:
2 (Y) reprezintă varianţa înregistrată la nivelul variabilei Y;
(Y/X) = mediile aritmetice condiţionate (sau parţiale) înregistrate pentru
variabila Y la nivelul subcolectivităţilor corespunzătoare variantelor care
definesc variabila X;
2(Y/X) = varianţele condiţionate (sau parţiale) înregistrate pentru
variabila Y la nivelul subcolectivităţilor corespunzătoare variantelor care
definesc variabila X.
Tabelul 5.4
X Frecvenţe
7 8 9 10 11 marginale
Y (parţiale)
5 3 2 0 0 0 5
6 1 4 2 1 0 8
7 0 2 5 4 1 12
8 0 0 3 4 2 9
Frecvenţe
marginale 4 8 10 9 3 34
(parţiale)
183
Pentru verificarea relaţiei de adunare a varianţelor este utilă dezvoltarea
tabelului 5.4 prin adăugarea unor rânduri pentru calculele intermediare
necesare. Se obţine, astfel, tabelul 5.5:
Conform rezultatelor din tabelul 5.5, media aritmetică şi varianţa la nivelul
variabilei Y sunt:
Tabelul 5.5
X
7 8 9 10 11 ni
Y
5 3 2 0 0 0 5 25 125
6 1 4 2 1 0 8 48 288
7 0 2 5 4 1 12 84 588
8 0 0 3 4 2 9 72 576
nj 4 8 10 9 3 34
21 48 71 66 23
Medii
condiţionate
sau parţiale, 5,25 6,00 7,10 7,33 7,67
(Y|X)
Varianţe
condiţionate,
0,19 0,50 0,49 0,44 0,22
(Y|X)
184
Mediile aritmetice condiţionate (sau parţiale) înregistrate pentru variabila
Y la nivelul subcolectivităţilor corespunzătoare variantelor care definesc
variabila X se obţin pe baza relaţiei:
186
VArinace). ANOVA, denumită şi analiză dispersională constă în
determinarea gradului în care valorile reale ale unei variabile statistice se
abat de la valorile teoretice, calculate ca statistici medii sau pe baza
ecuaţiilor de regresie statistică.
Ceea ce face foarte utilă ANOVA este în legătură cu studirea preliminară a
legăturii statistice dintre două sau mai multe variabile statistice de grupare
a colectivităţii statistice studiate, constituindu-se astfel şi ca metodă de
verificare a reprezentativităţii unui eşantion statistic, etapă preliminară
deosebit de importantă pentru inferenţierea statistică. Acesta este motivul
pentru care ANOVA este abordată în detaliu cadrul temelor specifice
statisticii inferenţiale.
187
variaţie sau omogenitate, obţinut prin raportarea abaterii standard la
media aritmetică;
Tabelul 5.6
Produsul Note
4 0 0
3 -1 1
5 +1 1
A 4 4 0 4/7 = 0,57 0 4/7 = 0,57 0,756
5 +1 1
4 0 0
3 -1 1
2 -2 4
4 0 0
6 +2 4
B 4 4 0 6/7 = 0,86 0 10/7 = 1,43 1,195
4 0 0
3 -1 1
5 +1 1
Abaterea medie pătratică este mai mare sau egală faţă de abaterea
medie absolută. Această proprietate, verificată deja pentru datele din
tabelul 5.6, rezultă din relaţia de mărime dintre media aritmetică şi cea
pătratică (a se vedea capitolul 3).
Pentru o distribuție statistică normală, între abaterea medie absolută și
abaterea medie pătratică se poate verifica existența următoarelor
rapoarte de mărime:
unde:
V(X) repezintă coeficientul de variaţie pentru colectivitatea statistică
studiată după variabila X;
(X) = abaterea standard în jurul mediei aritmetice, constatată pentru
colectivitatea statistică studiată după variabila X;
(X) = media aritmetică înregistrată pentru colectivitatea statistică
studiată după variabila X.
Pentru o mai mare expresivitate, coeficientul de variaţie se exprimă în
procente:
189
Mediile aritmetice ale vânzărilor înregistrate pentru cele două produse
sunt:
pentru produsul A: A = 41/5 = 8,2 tone;
pentru produsul B: B = 47/5 = 9,4 mil. RON.
Tabelul 5.7
Luna 1 2 3 4 5 Total
Produsul A - tone 4 8 13 10 6 41
Produsul B - mil. RON 7 8 17 10 5 47
Tabelul 5.8
Pro- X
du-
sul
2 4,2 17,64
6 0,2 0,04
48,8/5 = 9,76
A 11 31/5 = 6,2 4,8 13,2/5 = 2,64 23,04
= 3,1241
8 1,8 3,24
4 2,2 4,84
31 13,2 48,8
7 2,4 5,76
8 1,4 1,96
85,2/5 = 17,04
B 17 47/5 = 9,4 7,6 16,4/5 = 3,28 57,76
= 4,1279
10 0,6 0,36
5 4,4 19,36
47 16,4 85,2
190
acestora sunt diferite (tone, pentru produsul A; milioane RON, pentru
produsul B). În calculul coeficienţilor de variaţie se anulează diferitele
unităţi de măsură, valorile procentuale obţinute fiind de această dată unele
comparabile:
pentru produsul A: V(produs A)% = (3,1241/6,2) · 100 = 50,39%;
pentru produsul B: V(produs B)% = (4,1279/9,4) · 100 = 43,91%.
Se poate observa că variaţia cea mai mare se înregistrează pentru vânzările
produsului A, în ciuda faptului că abaterea medie absolută, varianţa şi
abaterea standard au toate valori mai mari pentru vânzările produsului B.
Coeficientul de variație este denumit și coeficient de omogenitate, întrucât
cu ajutorul lui se poate aprecia cât de uniformă sau nediferențiată este
colectivitatea statistică.
Importanța gradului de omogenitate (sau eterogenitate) decurge din faptul
că ea determină mai departe gradul de reprezentativitate a mediei
aritmetice la nivelul colectivității considerate.
În practica fiecarui domeniu de cercetare se pot stabili reguli specifice de
interpretare a gradului de omogenitate-eterogenitate în funcție de valorile
posibile ale coeficientului de variație.
De exemplu, în majoritatea domeniilor legate de ştiinţele vieţii se
consideră că2:
o valoare mai mică de 10% a coeficientului de variație atestă faptul că
avem de-a face cu o colectivitate statistică omogenă, media aritmetică
putând fi asumată ca fiind una foarte reprezentativă la nivelul acesteia;
valori între 10% și 20% ale coeficientului de variație sunt
caracteristice pentru colectivități cu un grad moderat sau chiar slab de
omogenitate; diferențe de interpretare pot fi determinate de tipul
variabilei considerate (de pildă, se apreciază că în ceea ce privește
înălţimea oamenilor, o colectivitate nu poate fi considerată omogenă
decât pentru un coeficient de variație de cel mult 10%, în schimb
pentru variabila greutății corporale omogenitatea este asigurată și
pentru valori cuprinse între 10% și 20% ale colectivității);
un coeficient de variație cuprins între 20%–30% indică o populaţie
mai degrabă eterogenă;
2
Liviu DRAGOMIRESCU. și J. Wanzer DRANE. Biostatisticã pentru începãtori. Editura Credis,
București, 2009, vol I: Biostatisticã descriptivã. Ediția a 6-a revãzutã, p. 70. Cartea este disponibilă
online la adresa:
https://www.researchgate.net/profile/Liviu_Dragomirescu/publication/313029401_Biostatistica_pentru_i
ncepatori_Vol_I_Biostatistica_descriptiva_Editia_6_revazuta/links/588d6b8f45851567c93e1e55/Biostati
stica-pentru-incepatori-Vol-I-Biostatistica-descriptiva-Editia-6-revazuta.pdf
191
o valoare mai mare de 30% a coeficientului de variație indică un grad
mare de eterogenitate pentru colectivitatea supusă cercetării statistice,
media aritmetică neputând fi considerată reprezentativă pentru aceasta.
Pentru analizele economice, interpretarea coeficientului de variație este
următoarea3:
pentru valori ale coeficientul mai mici de 17%, se poate considera că
media aritmetică este foarte reprezentativă pentru colectivitatea
studiată, aceasta fiind una caracterizată de omogenitate;
valori ale coeficientului cuprinse între 17% şi 35% indică o
omogenitate redusă și, implicit, o medie aritmetică moderat
reprezentativă;
valori ale coeficientului cuprinse între 35% şi 50% sunt înregistrate
pentru colectivități mai degrabă eterogene, media aritmetică fiind una
slab reprezentativă (abaterile individuale faţă de media aritmetică sunt
mari, ceea ce înseamnă că media aritmetică este deplasată faţă de
valorile înregistrate);
dacă se înregistrează valori mai mari de 50% ale coeficientului de
variaţie, colectivitatea este una eterogenă, iar media aritmetică este
nereprezentativă. În astfel de situații, utilizarea mediei aritmetice ca şi
statistică de tendinţă centrală este nejustificată, întrucât ea este prea
diferită (deplasată) faţă de majoritatea valorilor înregistrate.
3
Elisabeta JABA. Statistica. Ediţia a II-a, Editura Economică, Bucureşti, 2000, pp. 153-156.
192
dacă variabila este una cantitativă, variaţia statistică în jurul tendinţei
centrale se poate descrie cu ajutorul abaterii medii absolute, al
varianţei, al abaterii standard sau al coeficientului de variaţie, în funcţie
de scopul analizei;
unde;
X reprezintă variabila statistică în funcţie de care este studiată
colectivitatea statistică;
c = constantă;
N = volumul colectivităţii statistice.
Atunci când constanta c este egală cu media aritmetică a valorilor
înregistrate de variabila X, momentele statistice se numesc momente
centrate.
Pentru valori simple, negrupate, momentele centrate se pot determina cu
ajutorul relaţiei:
unde:
k (X) reprezintă momentul centrat de ordinul k;
ai = abaterile individuale ale valorilor de la media aritmetică a
colectivităţii.
În cazul unei distribuţii statistice de frecvenţe (valori grupate), momentele
centrate se pot determina cu ajutorul relaţiilor:
193
unde:
ni sunt frecvenţele absolute de manifestare a variantelor care descriu
variabila statistică;
ri = frecvenţele relative cu care se înregistrează variantele care descriu
variabila statistică.
Se poate observa că momentul de ordinul 1 cu c = 0 se identifică cu media
aritmetică, iar momentul centrat de ordinul 2 este echivalent cu varianţa
statistică.
Momentele centrate de ordinul 3 şi 4 sunt, aşa cum se va arăta în capitolul
7, utile în caracterizarea formei (asimetrie şi kurtosis) disitribuţiilor
statistice unimodale.
5.10. Covarianţa
Atunci când se doreşte descrierea legăturii statistice dintre două variabile,
se dovedeşte utilă măsurarea covariaţiei acestora. O primă statistică utilă
pentru măsurarea covariaţiei este covarianţa, care poate fi definită ca
varianţa simultană a două variabile.
Pentru valori simple, negrupate, covarianţa se poate determina cu ajutorul
relaţiei:
unde:
cov (X, Y) reprezintă covarianţa înregistrată pentru perechea de variabile
(X, Y);
= abaterile individuale de la media aritmetică pentru valorile care
definesc variabila X;
= abaterile individuale de la media aritmetică pentru valorile care
definesc variabila Y.
194
Pentru valori grupate în distribuţii statistice de frecvenţe, covarianţa se
poate determina cu ajutorul relaţiilor:
unde:
ni sunt frecvenţele absolute de manifestare a variantelor care descriu
variabila statistică;
ri = frecvenţele relative cu care se înregistrează variantele care descriu
variabila statistică.
Se poate observa că în cazul a două variabile identice, covarianţa devine
echivalentă cu varianţa statistică:
195
Tabelul 5.9
Abateri Abateri
Valori ale Valori ale Produse
Nr. individuale individuale
variabilei variabilei de
crt. ale valorilor ale valorilor
X1 Y1 abateri
lui X1 lui Y1
Tabelul 5.10
Abateri Abateri
Valori ale Valori ale Produse
Nr. individuale individuale
variabilei variabilei de
crt. ale valorilor ale valorilor
X1 Y1 abateri
lui X1 lui Y1
196
Figura 5.6 Covarianță pozitivă
197
Covarianţa pentru o variabilă X şi o constantă (c) este nulă. Explicaţia
acestei proprietăţi constă în faptul că pentru o constantă toate abaterile
individuale sunt egale cu 0:
unde:
X, Y sunt două variabile statistice;
= abaterile individuale de la media aritmetică pentru valorile care
definesc variabila X;
= abaterile individuale de la media aritmetică pentru valorile care
definesc variabila Y.
Pentru două variabile X şi Y, covarianţa este egală cu diferenţa dintre
media aritmetică a produselor valorilor simultane ale variabilelor şi
produsul mediilor aritmetice ale valorilor simultane ale variabilelor
(„media produselor minus produsul mediilor”):
198
unde X, Y şi Z sunt variabile statistice;
În urma adunării sau scăderii unei constante (c) la toate valorile
înregistrate de una sau de ambele variabile considerate (X şi Y),
covarianţa acestora nu se modifică. Această proprietate este o
consecinţă a două dintre proprietăţile anterioare:
Covarianţa este mai mică sau egală decât produsul abaterilor standard
ale colectivităţilor studiate:
199
- MODE, pentru valoarea modală;
- QUARTILE, pentru cuartile;
- PERCENTILE, pentru cuantile;
- AVEDEV, pentru abaterea medie absolută;
- STDEVP, pentru abaterea medie pătratică;
- VARP, pentru varianță;
- COVAR, pentru covarianță.
În afara acestor funcții, programul mai oferă posibilitatea determinării
celor mai multe dintre statistici descriptive pe baza instrumentelor grupate
în submeniul „Data Analysis”, din cadrul meniului „Data”.
Folosind, de pildă, instrumentul „Descriptive Statistics”, pentru analiza
datelor din tabelul 5.9, se poate obține rezultatul ilustrat în figura 5.8.
Figura 5.8
Se regăsesc, în cadrul acestui output, pentru fiecare dintre cele două seturi
de date (aferente variabilei X, respectiv Y), următoarele statistici ale
tendinței centrale:
- media aritmetică („Mean”);
- valoarea mediană („Median”);
200
- valoarea minimă („Minimum”);
- valoarea maximă („Maximum”);
- valoarea modală („Mode”);
- abaterea standard corectată la nivel de eșantion („Standard Deviation”);
- varianța corectată la nivel de eșantion („Sample Variance”);
- amplitudinea (Range).
201
202
CONCENTRAREA ŞI
DIVERSIFICAREA
STATISTICĂ 6.
OBIECTIVELE CAPITOLULUI
În acest capitol vor fi prezentate statisticile disponibile pentru descrierea
concentrării şi diversificării statistice, în scopul:
înţelegerii utilității cunoaşterii gradului de concentrare / diversificare
statistică;
reţinerii celor cinci statistici – raportul de concentrare; energia informaţională
Onicescu; diferenţa Hirschman; coeficientul de concentrare Gini şi
coeficientul de concentrare Gini-Strück – disponibile pentru descrierea
concentrării şi diversificării în cazul variabilelor statistice cantitative sau
calitative;
reţinerii celor patru statistici – abaterea medială-mediană absolută; abaterea
medială-mediană relativă, coeficientul Hall-Tideman şi indicele de
concentrare Gini – disponibile pentru descrierea concentrării şi diversificării
doar în cazul variabilelor statistice cantitative cu valori pozitive;
reţinerii statisticilor disponibile pentru caracterizarea diversificării statistice.
203
204
Concentrarea şi diversificarea statistică
Informaţii statistice suplimentare privind variabilitatea înregistrată la
nivelul unei colectivităţi statistice în funcţie de criteriul de studiu
(variabila considerată) pot fi obţinute pe baza statisticilor care evidenţiază
gradul de concentrare / diversificare statistică.
Statisticile de concentrare şi diversificare sunt expresii ale gradului de
diferenţiere dintre datele statistice observate. La nivelul unei distribuţii
statistice, ele pot evidenţia inegalităţile manifestate în legătură cu
variabila statistică aleasă ca şi criteriu de studiu statistic al colectivităţii
observate.
Dintre nevoile la care răspund statisticile de concentrare şi diversificare
sunt de menţionat mai ales cele privind:
caracterizarea structurii pieţelor, necesară în orientarea strategică a
companiilor;
descrierea distribuţiei sarcinilor de management, în scopul coordonării
eficiente a activităţilor desfăşurate în cadrul unei organizaţii;
evidenţierea inegalităţilor sociale prin prisma veniturilor obţinute,
necesară în definirea politicii sociale.
Studirea statistică a concentrării şi diversificării este posibilă atunci când
variabila statistică este definită fie ca o variabilă calitativă, fie ca o
variabilă cantitativă cu valori cumulabile.
Concentrarea poate fi descrisă numeric, prin intermediul diferitelor
statistici de concentrare, sau grafic, prin intermediul aşa-numitelor curbe
de concentrare statistică.
205
abaterea medială-mediană relativă;
coeficientul de concentrare Hall-Tideman.
indicele de concentrare Gini.
Raportul de concentrare
Folosit deseori în cercetările de marketing, raportul de concentrare (Ca)
exprimă ponderea deţinută de primele „a” (un număr stabilit ca relevant)
cele mai frecvente variante înregistrate de variabila calitativă în funcție de
care este studiată colectivitatea statistică:
unde:
Ca reprezintă raportul de concentrare pentru primele „a” variante în
ordinea descrescătoare a frecvenţelor relative înregistrate;
a = un număr stabilit ca relevant în funcţie de scopul cercetării statistice şi
de proprietăţile colectivităţii statistice studiate;
ri = frecvenţa relativă (exprimată procentual) a variantei i a variabilei după
care este studiată colectivitatea statistică;
ni = frecvenţa absolută a variantei i a variabilei statistice;
k = numărul de variante care definesc variabila statistică;
N = volumul colectivităţii supuse cercetării statistice.
206
Pentru exemplificare, să considerăm distribuţia statistică a notelor obţinute
de o grupă de 15 studenţi la un examen, conform tabelului 6.1. În acest
caz, raportul de concentrare C3 (a = 3) este:
Tabelul 6.1
ri
Nota obţinută Număr studenţi
(% din total)
4 1 6,67
5 2 13,33
6 1 6,67
7 5 33,33
9 3 20,00
10 3 20,00
Total 15
unde:
Es reprezintă energia informaţională Onicescu;
207
ri = frecvenţa statistică relativă înregistrată pentru varianta i (Σri = 1);
s = numărul de variante şi, în consecinţă, de stări ale sistemului.
De exemplu, pentru colectivitatea de studenţi distribuită statistic în funcţie
de variabila notelor obţinute la un examen (tabelul 6.1), energia
informaţională Onicescu este egală, conform rezultatelor determinate în
tabelul 6.2, cu 0,2178.
Tabelul 6.2
xi ni ri
4 1 0,0667 0,0044
5 2 0,1333 0,0178
6 1 0,0667 0,0044
7 5 0,3333 0,1111
9 3 0,2000 0,0400
10 3 0,2000 0,0400
15 1,0000 0,2178
208
Aşadar, energia informaţională Onicescu ia valori cuprinse pe intervalul
[1/s, 1] (s fiind numărul de variante şi, în consecinţă, de stări ale
sistemului). Cu cât valoarea energiei informaţionale Onicescu este mai
apropiată de valoarea raportului 1/s, cu atât concentrarea statistică a
colectivităţii studiate este mai redusă. Cu cât valoarea energiei
informaţionale Onicescu este mai apropiată de 1, cu atât concentrarea
statistică a colectivităţii studiate este mai puternică.
În marketing, energia informaţională Onicescu este egală cu 1 în cazul
unui monopol (sistemul se manifestă permanent într-o singură stare sau,
altfel spus, variabila statistică înregistrează de fiecare dată doar una şi
aceeaşi variantă dintre toate cele posibile).
Trebuie precizat că pentru o colectivitate de studenţi distribuită statistic
după variabila notelor obţinute la un examen, valoarea minimă pe care o
poate înregistra energia informaţională Onicescu este egală cu 1/10 = 0,1,
întrucât notele obţinute de către studenţi pot varia de la 1 la 10. Astfel,
pentru colectivitatea de studenţi care au obţinut notele din tabelul 6.1,
sistemul de tip Onicescu este definit de distribuţia prezentată în tabelul
6.3:
Tabelul 6.3
Nota obţinută (xi) Frecvenţe absolute (ni)
1 0
2 0
3 0
4 1
5 2
6 1
7 5
8 0
9 3
10 3
Total 15
209
În forma corectată, energia informaţională Onicescu poate înregistra valori
cuprinse pe intervalul [0, 1]. Cu cât valoarea energiei informaţionale
Onicescu în forma corectată este mai apropiată de 0, cu atât concentrarea
statistică a colectivităţii studiate este mai redusă. Cu cât valoarea energiei
informaţionale Onicescu în forma corectată este mai apropiată de 1, cu atât
concentrarea statistică a colectivităţii studiate este mai puternică.
De exemplu, pentru colectivitatea distribuită statistic conform tabelului 6.1
energia informaţională Onicescu în forma corectată este:
210
După cum se poate observa, diferenţa Hirschman este echivalentă cu
numărătorul raportului pe baza căruia se determină indicele Hirschman-
Herfindahl în forma corectată.
unde:
CG reprezintă coeficientul de concentrare Gini;
ri = frecvenţa relativă (ponderea) înregistrată pentru varianta i (Σri = 1);
k = numărul de variante pe care le înregistrează variabila statistică.
Întrucât Σri = 1, valoarea maximă a coeficientului de concentrare Gini
este 1. Valoarea minimă a coeficientului de concentrare Gini se obţine, ca
şi în cazul indicelui Hirschman-Herfindahl, în cazul unei echirepartiţii,
adică atunci când toate frecvenţele relative înregistrate de cele n variante
statistice sunt egale între ele şi egale, în consecinţă, cu 1/n. Aceasta
înseamnă că valoarea minimă a coeficientului de concentrare Gini,
obţinută în cazul unei echirepartiţii, este:
211
unde k este numărul de variante care definesc variabila statistică.
Coeficientul de concentrare Gini, la fel ca şi energia informaţională
Onicescu, prezintă dezavantajul variabilităţii valorii sale minime în funcţie
de numărul de variante înregistrate de variabila statistică.
Acest inconvenient a fost înlăturat prin elaborarea unei forme îmbunătățite
a coeficientului de concentrare Gini, propusă de către Strück. Sub această
formă, coeficientul poartă numele Gini-Strück și se determină cu relația:
Tabelul 6.4
Regiunea de Număr șomeri înregistrați la agenţiile Frecvențe
dezvoltare pentru ocuparea forţei de muncă relative
Nord-vest 41046 0.0941
Centru 50232 0.1151
Nord-est 77786 0.1783
Sud-est 68896 0.1579
Sud-Muntenia 79267 0.1817
București-Ilfov 23021 0.0528
Sud-vest 70352 0.1613
Oltenia
Vest 25642 0.0588
Total 436242 1.0000
212
8 regiuni de dezvoltare ale României în anul 20151, prezentată în tabelul
6.4.
Calculele necesare pentru determinarea coeficientului Gini-Strück sunt
efectuate în tabelul 6.5. Pe baza acestora, rezultă că valoarea acestui
coeficient pentru distribuția considerată este:
Tabelul 6.5
Regiunea de Frecvențe
dezvoltare, relative,
i ri
Nord-vest 0.0941 0.0089
1
Institutul Naţional de Statistică. Repere economice şi sociale regionale: Statistică teritorială. 2017, p.
206. Document disponibil online la adresa:
http://www.insse.ro/cms/files/Publicatii_2017/82.Repere_economice_si_sociale_regionale_Statistica_teri
toriala/Repere_economice_si_sociale_regionale_Statistica_teritoriala_2017.pdf
213
6.2. Descrierea concentrării statistice pentru variabile cantitative cu
valori cumulabile
Abaterea medială-mediană absolută
În capitolul 4, dedicat statisticilor de poziţie, am arătat că valoarea medială
a pentru o colectivitate de date statistice cantitative este întotdeauna egală
sau mai mare decât valoarea mediană a acesteia:
unde:
MM reprezintă abaterea medială-mediană absolută care caracterizează
colectivitatea statistică studiată;
Ml = valoarea medială a colectivităţii statistice studiate;
Me = valoarea mediană a colectivităţii statistice studiate.
O valoare mai mare a abaterii medială-mediană înseamnă o concentrare
statistică mai puternică.
Ca exemplu să considerăm din nou colectivitatea statistică a grupei de 15
studenţi, distribuită statistic în funcţie de variabila notelor obţinute la un
examen, conform tabelului 6.1. În cazul acestei distribuţii, rangul valorii
mediane este egal cu (15 + 1) / 2 = 8, ceea ce înseamnă că valoarea
mediană este egală cu 7 (pentru această valoare, frecvenţa absolută
cumulată depăşeşte pentru prima dată rangul medianei; 9 > 8, tabelul 6.6).
Pentru a calcula valoarea medială, este necesară, mai întâi, cumularea
valorilor ponderate absolute, adică a produselor dintre notele obţinute şi
frecvenţele absolute înregistrate, conform calculelor din tabelul 6.7.
Întrucât jumătate din suma totală a notelor este egală cu 112 / 2 = 56,
înseamnă că valoarea medială este egală cu 9, deoarece pentru această
valoare produsele x·n cumulate depăşesc pentru prima dată jumătate din
suma totală a notelor; 82 > 56.
Prin urmare, MM = 9 – 7 = 2, ceea ce evidenţiază existenţa unei oarecare
concentrări statistice a notelor pe care le-au obţinut cei 15 studenţi.
214
Tabelul 6.6
Punctaj Număr cumulat de
Număr studenţi
obţinut studenţi
4 1 1
5 2 3
6 1 4
7 5 9 > 8 = (15 + 1)/2
9 3 12
10 3 15
Total 15
Tabelul 6.7
Nota obţinută Frecvenţe absolute
(xi·ni) (xi·ni), cumulat
(xi) (ni)
4 1 4 4
5 2 10 14
6 1 6 20
7 5 35 55
9 3 27 82 > 56 = 112/2
10 3 30 112
Total 15
unde:
CC reprezintă coeficientul de concentrare statistică;
A = amplitudinea statistică;
xmax = valoarea maximă a colectivităţii statistice;
215
xmin = valoarea minimă a colectivităţii statistice.
Întrucât abaterea medială-mediană a unei colectivităţi statistice ia valori
cuprinse între zero şi valoarea amplitudinii statistice a acesteia, rezultă că
valorile pe care le poate înregistra coeficientul de concentrare statistică
sunt cuprinse pe intervalul [0, 1]. Apropierea de 0 indică o slabă
concentrare statistică, iar apropierea de 1 arată o concentrare statistică
puternică. O valoare de 1 a coeficientului de concentrare pune în evidenţă
concentrarea unităţilor statistice în jurul valorii minime.
Pentru distribuţia statistică din tabelul 6.1, coeficientul de concentrare
este:
unde:
CHT reprezintă coeficientul de concetrare Hall-Tideman;
r = rangurile ocupate de valorile înregistrate în urma ordonării lor
descrescătoare;
Pr = ponderea valorii cu rangul „r” în suma totală a valorilor înregistrate;
această pondere este exprimată ca și coeficient.
Valorile pe care le poate înregistra acest indicator sunt cuprinse pe
intervalul [1/N; 1].
Astfel, în cazul unei concentrări maxime coeficientul Hall-Tideman ia
valoarea 1, întrucât într-o astfel de situație o singură valoare este diferită
de 0, ponderea ei în suma totală a valorilor înregistrate fiind egală cu 1.
Concentrarea minimă este realizată atunci când toate valorile înregistrate
sunt diferite de 0 și egale între ele, ceea ce înseamnă că și ponderile lor
216
sunt egale între ele, și totodată egale cu 1/N. Într-o astfel de situație,
coeficientul Hall-Tideman ia, prin urmare, valoarea 1/N:
Tabelul 6.8
Compania Vânzări (mil. euro)
A 5.0
B 4.4
C 7.5
D 6.7
E 6.3
F 8.8
G 8.2
H 5.0
2
Variantele ponderate cu frecvențele lor de manifestare se numesc și volume statistice.
217
Pentru ilustrarea pașilor necesari în construirea curbei de concentrare
Lorenz-Gini în cazul unui șir de valori să considerăm datele din tabelul
6.8, privitoare la vânzările înregistrate într-o anumită perioadă de către
cele 8 companii dintr-un anumit sector de activitate:
Primul pas pe care-l presupune construirea curbei de concentrare Lorenz-
Gini constă în ordonarea crescătoare a valorilor înregistrate. Pentru
exemplul nostru, acest lucru este realizat cu ajutorul tabelului 6.9.
Tabelul 6.9
Compania Vânzări (mil. euro)
B 4.4
A 5.0
H 5.0
E 6.3
D 6.7
C 7.5
G 8.2
F 8.8
Tabelul 6.10
Frecvențe Frecvențe Valori Volume Volume Valori
Variante
absolute relative P absolute relative Q
4.4 1 0.125 0.125 4.4 0.0848 0.0848
5.0 1 0.125 0.250 5.0 0.0963 0.1811
5.0 1 0.125 0.375 5.0 0.0963 0.2775
6.3 1 0.125 0.500 6.3 0.1214 0.3988
6.7 1 0.125 0.625 6.7 0.1291 0.5279
7.5 1 0.125 0.750 7.5 0.1445 0.6724
8.2 1 0.125 0.875 8.2 0.1580 0.8304
8.8 1 0.125 1.000 8.8 0.1696 1.0000
Total 8 1.000 51.9 1.0000
218
Al doilea pas de urmat îl constituie determinarea valorilor P şi Q
corespunzătoare variantelor (ordonate) pe care le înregistrează variabila
statistică (în exemplul nostru acestea sunt date de nivelurile valorice
înregistrate de variabila vânzărilor). Pentru realizarea acestei etape pentru
datele considerate a fost construit tabelul 6.10.
Pe baza calculelor realizate cu ajutorul tabelului 6.10, se poate reprezenta
mai departe curba de concentrare Lorenz-Gini, prin unirea grafică a
punctelor care au ca şi coordonate perechile de valori P-Q obținute, așa
cum se poate vedea în diagrama din figura 6.1.
La adresa http://shlegeris.com/gini este disponibilă o aplicație cu ajutorul
căreia se poate reprezenta curba de concentrare Lorenz-Gini, fiind
calculată totodată valoarea indicelui Gini pentru un șir de valori.
În figura 6.2 este redată, pentru exemplificare, curba Lorenz pentru datele
din tabelul 6.9.
219
Figura 6.2 Exemplu de curbă (liniară) de concentrare Lorenz-Gini
obținută cu ajutorul aplicației existente la adresa
http://shlegeris.com/gini
Tabelul 6.11
Frecvențe Frecvențe Valori Volume Volume Valori
Variante
absolute relative P absolute relative Q
4.4 1 0.125 0.125 4.4 0.0848 0.0848
5.0 2 0.250 0.375 10.0 0.1927 0.2775
6.3 1 0.125 0.500 6.3 0.1214 0.3988
6.7 1 0.125 0.625 6.7 0.1291 0.5279
7.5 1 0.125 0.750 7.5 0.1445 0.6724
8.2 1 0.125 0.875 8.2 0.1580 0.8304
8.8 1 0.125 1.000 8.8 0.1696 1.0000
Total 8 1.000 51.9 1.0000
220
ea este obținută prin unirea unui număr mai mic de puncte corespunzătoare
coordonatelor date de perechile de valori P-Q obținute.
Tabelul 6.12
Valori
ni ponderate
xi ni cumulate Pi xi·ni (xi·ni) Qi
= Ni cumulate =
Vi
4 1 1 0,0667 4 4 0,0357
5 2 3 0,2000 10 14 0,1250
6 1 4 0,2667 6 20 0,1786
7 5 9 0,6000 35 55 0,4911
9 3 12 0,8000 27 82 0,7321
10 3 15 1,0000 30 112 1,0000
Total 15 112
221
Valorile P şi Q, pe baza cărora se poate determina indicele Gini în cazul
unei distribuţii de frecvenţe, sunt şi ele statistici descriptive importante, cu
ajutorul cărora se pot descrie aspecte interesante privind structura
colectivităţii statistice studiate, precum şi structura valorilor observate în
la nivelul unităţilor statistice componente ale acesteia. De exemplu,
valoarea Q pentru nota 6, egală cu 0,1786, indică faptul că 17,86% din
punctajul total al grupei de studenţi examinaţi (punctaj egal cu 112),
corespunde celor 26,67% studenţi care au obţinut note mai mici sau egale
cu 6.
În particular, valorile P şi Q sunt folosite în descrierea inegalităţii în
distribuţia veniturilor sau a bogăţiei.
De pildă, la mijlocul anului 2014, conform celui de-al 5-lea raport anual
„Credit Suisse Global Wealth Report”, făcut public în octombrie 2014,
87% din bogăţia lumii era deţinută de cei 10% cei mai bogaţi oameni ai
lumii, în timp ce 48,2% din bogăţia lumii era deţinută de doar cei 1% cei
mai bogaţi oameni ai lumii (!)3. De asemenea, conform aceluiaşi raport, în
3 ţări ale lumii (Hong Kong, Elveţia şi SUA) peste 70% din totalul
bogăţiei lor era deţinută de cei mai bogaţi 10% din cetăţenii acestora4.
Aceste cifre se obţin în urma determinării valorilor particulare P şi Q care
interesează. Astfel, de exemplu, în tabelul 6.13 sunt redate valorile P şi Q
pe baza cărora s-a obţinut informaţia potrivit căreia 87% din bogăţia lumii
era deţinută la mijlocul anului 2014 de cei 10% cei mai bogaţi oameni ai
lumii.
Tabelul 6.13
ri Pi (%) xiri / xiri Qi (%)
Oameni săraci sau
0,90 90% 0,13 13%
bogaţi
Oameni foarte bogaţi 0,10 100% 0,87 100%
3
Cf.: Credit Suisse Global Wealth Report, octombrie 2014, pag. 11, https://publications.credit-
suisse.com/tasks/render/file/?fileID=60931FDE-A2D2-F568-B041B58C5EA591A4
4
Cf.: Credit Suisse Global Wealth Report, octombrie 2014, pag. 30, https://publications.credit-
suisse.com/tasks/render/file/?fileID=60931FDE-A2D2-F568-B041B58C5EA591A4
222
Unor asemenea valori P şi Q le corespunde, în mod obişnuit, o
concentrare statistică foarte mare a bogăţiei, reflectată sintetic printr-un
indice Gini cu o valoare mare (foarte probabil peste 0,40).
223
Figura 6.4 Curba (liniară) de concentrare Lorenz-Gini
224
metoda determinării indicelui de concentrare Gini ca expresie relativă a
diferenţei medii Gini.
225
unde s-a ţinut cont de relaţia de determinare a frecvenţelor relative
cumulate:
Tabelul 6.14
xi ni ri Pi xi·ni Vi Qi Qi + Qi – 1 (Qi + Qi – 1) ·ri
4 1 0,07 0,07 4 4 0,04 0,04 0,0024
5 2 0,13 0,20 10 14 0,13 0,16 0,0214
6 1 0,07 0,27 6 20 0,18 0,30 0,0202
7 5 0,33 0,60 35 55 0,49 0,67 0,2232
9 3 0,20 0,80 27 82 0,73 1,22 0,2446
10 3 0,20 1,00 30 112 1,00 1,73 0,3464
15 1,00 112 0,8583
226
Metoda trapezelor de concentrare pentru determinarea indicelui de
concentrare Gini
Această metodă constă în calcularea ariei suprafeţei de concentrare prin
însumarea ariilor trapezelor de concentrare DiGiGi – 1Di – 1 care compun
suprafaţa de concentrare (figura 6.7). Aria fiecărui trapez de concentrare
DiGiGi – 1Di – 1 se poate calcula prin scăderea din aria dreptunghiului T-
iGiQiQi – 1 a ariei triunghiului TiGiGi – 1 şi a ariei trapezului QiQi – 1Di –
1Di.
Se poate observa că suma ariilor trapezelor QiQi – 1Di – 1Di este egală cu
1/2, întrucât aceste trapeze compun împreună triunghiul de deasupra
diagonalei pătratului Gini. Prin urmare, aria suprafeţei de concentrare se
poate determina cu relaţia:
227
Tabelul 6.15
xi ni Pi Pi+Pi-1 Qi Qi-Qi-1 (Qi-Qi-1) ·(Pi+Pi-1)
4 1 0,0667 0,0667 0,0357 0,0357 0,0024
5 2 0,2000 0,2667 0,1250 0,0893 0,0238
6 1 0,2667 0,4667 0,1786 0,0536 0,0250
7 5 0,6000 0,8667 0,4911 0,3125 0,2708
9 3 0,8000 1,4000 0,7321 0,2411 0,3375
10 3 1,0000 1,8000 1,0000 0,2679 0,4821
15 1,0000 1,1417
228
Indicele de concentrare Gini ca expresie relativă a diferenţei medii Gini
Indicele de concentrare Gini este şi expresia relativă a diferenţei medii
Gini, adică a mediei aritmetice a tuturor diferenţelor dintre valorile
înregistrate, considerate două cât două. Astfel, indicele de concentrare
Gini se obţine prin raportarea diferenţei medii Gini la dublul mediei
aritmetice a valorilor statistice înregistrate:
unde:
reprezintă diferenţa medie Gini;
= media aritmetică a valorilor înregistrate.
Trebuie subliniat că sub această formă indicele Gini se înrudeşte, ca
semnificaţie şi interpretare, cu coeficientul de variaţie (V), i.e. expresia
relativă a variaţiei statistice, măsurată în mod obişnuit ca şi abatere
standard. Diferenţa dintre cele două statistici constă în faptul că una
evidenţiază variaţia sintetică înregistrată între toate perechile de valori
observate, în timp ce cealaltă este o măsură sintetică a variaţiei tuturor
valorilor înregistrate faţă de tendinţa lor centrală, exprimată de media
aritmetică.
Diferenţa medie Gini se calculează ca medie a celor N2 diferenţe dintre
toate perechile posibile de valori [(Xi, Xj), i, j = 1→N] care se pot forma
cu cele N valori statistice înregistrate:
unde:
i şi j iau valori de la 1 la N.
Pentru exemplificare, să considerăm din nou datele din tabelul 6.1. Pentru
a recalcula indicele de concentrare Gini ca şi expresie relativă a diferenţei
medii Gini, am construit tabelul 6.16, în care sunt calculate toate
diferenţele posibile dintre cele 225 de perechi [(Xi, Xj), i, j = 1→15]
care se pot forma cu cele 15 valori (152 = 225).
Reamintim că:
229
O parte sunt din cele 225 de diferenţe sunt nule. În tabelul 6.16 acestea
sunt evidenţiate prin încadrarea zonelor în care apar. După cum se poate
observa, numărul diferenţelor nule este în strânsă legătură cu frecvenţele
de apariţie a variantelor pe care le înregistrează variabila statistică. Mai
exact, fiecărei variante pe care o înregistrează variabila statistică după care
este studiată colectivitatea statistică, îi corespunde un număr de diferenţe
nule egal cu pătratul frecvenţei absolute de manifestare a acelei variante.
Tabelul 6.16
n1 n2 n3 n4 n5 n6 n7
1 2 1 5 0 3 3
xi
4 5 5 6 7 7 7 7 7 8 9 9 9 10 10 10 Total
xj
n1 1 4 0 1 1 2 3 3 3 3 3 - 5 5 5 6 6 6 52
5 1 0 0 1 2 2 2 2 2 - 4 4 4 5 5 5 39
n2 2
5 1 0 0 1 2 2 2 2 2 - 4 4 4 5 5 5 39
n3 1 6 2 1 1 0 1 1 1 1 1 - 3 3 3 4 4 4 30
7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
n4 5 7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
7 3 2 2 1 0 0 0 0 0 - 2 2 2 3 3 3 23
n5 0 8 - - - - - - - - - - - - - - - - -
9 5 4 4 3 2 2 2 2 2 - 0 0 0 1 1 1 29
n6 3 9 5 4 4 3 2 2 2 2 2 - 0 0 0 1 1 1 29
9 5 4 4 3 2 2 2 2 2 - 0 0 0 1 1 1 29
10 6 5 5 4 3 3 3 3 3 - 1 1 1 0 0 0 38
n7 3 10 6 5 5 4 3 3 3 3 3 - 1 1 1 0 0 0 38
10 6 5 5 4 3 3 3 3 3 - 1 1 1 0 0 0 38
Total 476
Prin urmare, numărul total de diferenţe nule este egal cu suma pătratelor
frecvenţelor absolute de manifestare a variantelor statistice care definesc
variabila statistică aleasă pentru studierea colectivităţii statistice în cauză:
230
unde:
D0 reprezintă numărul total de diferenţe nule;
ni = frecvenţele absolute înregistrate de către variantele i care definesc
variabila statistică.
Pentru exemplul nostru, conform coloanei frecvenţelor absolute din
tabelul 6.1, rezultă:
231
unde Ni reprezintă frecvenţa absolută cumulată până la varianta i,
inclusiv.
Prin urmare, pentru determinarea sumei diferenţelor Gini putem folosi
următoarea relaţie generală:
unde:
N este numărul valorilor statistice înregistrate;
i, j = variante care definesc variabila statistice folosite în studiu;
Ni = frecvenţe absolute cumulate;
d = distanţa (constantă) dintre două variante succesive ale variabilei
statistice.
Aceasta înseamnă că diferenţa medie Gini se poate obţine cu ajutorul
relaţiei:
232
Tabelul 6.17
Nota Frecvenţă Frecvenţă N - Ni Ni (N - Ni)
obţinută absolută absolută
(xi) (ni) cumulată
(Ni)
4 1 1 14 14
5 2 3 12 36
6 1 4 11 44
7 5 9 6 54
9 3 12 3 36
10 3 15 0 0
Total 15 238
Tabelul 6.18
Nota obţinută Frecvenţe absolute Valori ponderate
(xi) (ni) (xi·ni)
4 1 4
5 2 10
6 1 6
7 5 35
9 3 27
10 3 30
Total 15 112
Media aritmetică
233
Indicele de concentrare Gini ca măsură a inegalităţilor dintre venituri
Indicele de concentrare Gini este cel mai des folosit pentru măsurarea
inegalităţilor dintre veniturile obţinute la nivelul unei ţări, al unei regiuni
etc. Situaţiile extreme pe care le poate pune în evidenţă indicele Gini sunt:
a) Situaţia în care toate veniturile sunt egale, situaţie în care diferenţa
medie Gini este egală cu 0, ceea ce face ca şi indicele Gini să fie este egal
cu 0.
b) Situaţia inegalităţii maxime, situaţie în care o singură persoană obţine
tot venitul de la nivelul colectivităţii analizate, celelalte persoane neavând
nicio sursă de venit. Aşa se întâmplă, de exemplu, la nivelul colectivităţii
distribuite statistic ca în tabelul 6.19, pentru care indicele Gini
înregistrează valoarea de 0,9804. Se poate observa că în astfel de situaţii,
indicele Gini este egal cu diferenţa dintre 1 şi inversa volumului
colectivităţii statistice, ceea ce înseamnă că indicele Gini se apropie de
valoarea de 1 pe măsură ce volumul colectivităţii creşte.
Tabelul 6.19
Venit Număr Frecvenţe Valori Valori Qi (Qi + Qi – 1) ·ri
(xi) persoane relative ponde- ponderate
(ni) (ri) rate cumulate
0 50 0,9804 0 0 0,000 0,0000
16985 1 0,0196 1698 1698 1,000 0,0196
Total 51 1,0000 0,0196
G = 1 - 1/N = 1 - 1/51 = 1 - 0,0196 = 0,9804
5
Am ales ca valoare a acestui venit nivelul înregistrat în România, pentru luna septembrie 2014, de
câştigul salarial mediu nominal net. Data a fost comunicată în 6 noiembrie 2014 de către Institutul
Naţional de Statistică la adresa:
http://www.insse.ro/cms/files/statistici/comunicate/castiguri/a14/cs09r14.pdf (accesat: 26 noiembrie
2014).
234
anului 2013), Belarus (26,6% la nivelul anului 2013), Kosovo (26,7% la
nivelul anului 2013) şi Islanda (26,9% la nivelul anului 2012).
Printre cele mai mari valori ale indicelui Gini din tabelul menționat se pot
remarca cele pentru: Africa de Sud (63,4% la nivelul anului 2011),
Namibia (61% la nivelul anului 2009), Haiti (60,8% la nivelul anului
2012), Botswana (60,5% la nivelul anului 2009), Surinam (57,6% la
nivelul anului 1999), Republica Centrafricană (56,2% la nivelul anului
2008), Comore (55,9% la nivelul anului 2004), Zambia (55,6% la
nivelul anului 2010), Lesotho (54,2% la nivelul anului 2010) și Honduras
(53,7% la nivelul anului 2013).
6
Cf.: https://data.worldbank.org/indicator/SI.POV.GINI?locations=RO (accesat în 10 noiembrie 2017)
235
Pentru România, ultima valoare estimată și publicată de către Banca
Mondială pentru acest indice Gini este cea valabilă pentru anul 2013 7,
egală cu 27,5%. În tabelul 6.20 sunt prezentate valorile indicelui Gini
estimate pentru România de către Banca Mondială pentru perioada 1998-
2013.
unde:
a reprezintă un număr stabilit ca relevant în funcţie de scopul cercetării
statistice şi de caracteristicile colectivităţii statistice studiate;
Da = reprezintă raportul de diversificare corespunzător valorii stabilite
pentru „a”;
Ca = raportul de concentrare pentru primele „a” variante în ordinea
descrescătoare a frecvenţelor relative înregistrate;
ri = frecvenţa relativă a variantei i a variabilei după care este studiată
colectivitatea statistică;
ni = frecvenţa absolută a variantei i a variabilei statistice;
k = numărul de variante care definesc variabila statistică;
7
Tabelul a fost consultat la data de 10 noiembrie 2017.
236
N = volumul colectivităţii supuse cercetării statistice.
Astfel, raportul de diversificare D3 (a = 3) pentru colectivitatea
distribuită statistic conform datelor din tabelul 6.1 este:
unde:
D reprezintă indicele de diversificare;
H = indicele de concentrare Hirschman-Herfindahl;
ri = frecvenţa statistică relativă înregistrată pentru varianta i (Σri = 1);
k = numărul de variante care definesc variabila statistică.
Trebuie spus însă că în literatura de specialitate valoarea Agresti este
definită într-o manieră probabilistică. Astfel, valoarea Agresti este dată de
suma probabilităţilor ca două unităţi statistice dintr-o colectivitate
statistică să aparţină la variante diferite ale variabilei statistice după care
este studiată aceasta:
unde:
VA reprezintă valoarea Agresti;
pi = probabilitatea de înregistrare a variantei i a variabilei statistice;
qi = probabilitatea de înregistrare a unei variante diferite de varianta i a
variabilei statistice;
k = numărul de variante care definesc variabila statistică.
237
Pornind de la considerentul că probabilitatea de înregistrare a variantei i a
variabilei statistice poate fi estimată pe baza frecvenţei relative (ri) de
apariţie a acesteia, rezultă că valoarea Agresti se poate determina ca
valoare complementară a indicelui de concentrare Hirschman-Herfindahl:
238
DESCRIEREA STATISTICĂ
A FORMEI
DISTRIBUŢIILOR
UNIMODALE:
OBLICITATEA ŞI
7.
KURTOSISUL
OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate statisticile disponibile pentru descrierea statistică
a formei distribuţiilor statistice unimodale, servind la:
înţelegerea semnificaţiei conceptelor folosite în legătură cu descrierea
statistică a formei distribuţiilor statistice unimodale;
reţinerea utilității cunoaşterii gradului de simetrie/asimetrie pentru aprecierea
reprezentativităţii mediei aritmetice pentru colectivitatea statistică;
stăpânirea tehnicilor de calcul utilizate pentru determinarea statisticilor
disponibile pentru descrierea formei distribuţiilor statistice unimodale.
239
240
Statisticile de variaţie prezentate în capitolul 5 oferă doar informaţii în
legătură cu cantitatea de variaţie înregistrată în jurul unei valori centrale
(media aritmetică sau mediana). Deseori prezintă însă interes şi
cunoaşterea formei acestei variaţii, aceasta putând diferenţia distribuţii
statistice pentru care se înregistrează o cantitate echivalentă de variaţie
statistică. Forma variaţiei repartiţiilor statistice unimodale poate fi
descrisă cu ajutorul a 2 tipuri de statistici:
statistici de oblicitate, care exprimă gradul de asimetrie al variaţiei în
jurul mediei aritmetice;
statistici ale kurtosis-ului, care exprimă gradul în care valorile
extreme contribuie la cantitatea de variaţie înregistrată.
Frecvenţe
Variabila X
Me = μ = Mo
241
valoarea modală, coincid. În figura 7.1 este reprezentată o astfel de
distribuţie.
Oblicitatea sau asimetria distribuţiilor statistice unimodale poate fi
pozitivă sau negativă, după cum prelungirea şirului de frecvenţe statistice
se constată predominant la dreapta (figura 7.2, a) sau la stânga valorii
modale (figura 7.2, b).
media media
valoarea aritmetică aritmetică valoarea
modală valoarea valoarea modală
mediană mediană
unde:
242
OQ reprezintă coeficientul cuartilic de oblicitate;
Q1 şi Q3 = cuartilele laterale (prima şi, respectiv, cea de-a treia cuartilă)
ale distribuţiei pentru care se determină gradul de oblicitate;
Q2 sau Me = cuartila mediană a distribuţiei pentru care se determină
gradul de oblicitate;
AQ = amplitudinea intercuartilică a distribuţiei pentru care se determină
gradul de oblicitate.
Pentru o distribuţie statistică simetrică cuartilele laterale se plasează la
distanţe egale faţă de valoarea mediană, ceea ce înseamnă că OQ = 0
(figura 7.3).
OQ = 0
xj
Q1 Me Q3
243
Întrucât valoarea numitorului raportului care defineşte coeficientul
cuartilic de oblicitate este întotdeauna mai mare sau egală faţă de
valoarea numărătorului aceluiaşi raport1, înseamnă că acest coeficient de
oblicitate poate înregistra valori cuprinse pe intervalul [-1, +1].
Valorile de ±1 se înregistrează atunci când una dintre cuartilele laterale
este egală cu valoarea mediană, cealaltă cuartilă laterală fiind diferită de
valoarea mediană.
Un exemplu de distribuţie pentru care coeficientul înregistrează valoarea
de +1 este ilustrat în tabelul 7.1.
Tabelul 7.1
Frecvenţe
Frecvenţe Frecvenţe
Variabila X relative
absolute relative
cumulate
3 26 0,52 0,52
4 10 0,20 0,72
5 8 0,16 0,88
6 3 0,06 0,94
7 2 0,04 0,98
8 1 0,02 1,00
Total 50 1,00
Se observă că:
1
Se raportează diferenţa la suma a două valori identice.
244
Deoarece (Q3 – Me) > (Me – Q1),
OQ = +/+ = +
Cu cât OQ este mai mare, cu atât
nj oblicitatea pozitivă este mai
pronunţată (frecvenţele se etalează
mai mult la dreapta).
xj
Q1 Me Q3
Figura 7.4 Coeficientul cuartilic de oblicitate pentru o distribuţie cu
oblicitate pozitivă
nj
xj
Q1 Me Q3
Deoarece (Q3 – Me) < (Me – Q1),
OQ = -/+ = -
Cu cât OQ este mai mare, cu atât
oblicitatea negativă este mai
pronunţată (frecvenţele se etalează
mai mult la dreapta).
245
Conform relaţiei generale de determinare a cuantilelor (prezentată în
capitolul 4) cele trei cuartile laterale se pot obţine pornind de la
următoarele egalităţi:
246
sfârșit, cea de-a treia cuartilă nu poate fi decât în intervalul (1150 –
1250), deoarece pentru acest interval frecvenţa cumulată depășește
pentru prima dată valoarea de 75.
Presupunând existenţa unei variaţii uniforme pe întinderea acestor
intervale, valorile probabile ale celor trei cuartile se pot obţine astfel:
247
Figura 7.6 Distribuţie cu oblicitate negativă slabă (pe baza datelor
din tabelul 7.2)
248
determină un coeficient cuartilic de oblicitate egal cu 0. Cu toate acestea,
precum se poate constata prin simpla vizualizare a distribuției
frecvenţelor absolute înregistrate, redată în figura 7.7, nu se poate spune
că distribuţia este una cu adevărat simetrică.
unde:
OP1 reprezintă primul coeficient de oblicitate al lui Pearson;
μ = media aritmetică a distribuţiei statistice studiate;
Mo = valoarea modală a distribuţiei statistice studiate;
= abaterea standard a distribuţiei statistice studiate.
În cazul distribuţiilor statistice simetrice, acest coeficient de oblicitate
este egal cu zero, deoarece pentru astfel de distribuţii are loc egalitatea
249
dintre media aritmetică şi valoarea modală (figura 7.1). Aşadar, cu cât
primul coeficient de oblicitate al lui Pearson este mai apropiat de 0, cu
atât distribuţia statistică studiată este mai aproape de una simetrică.
Pentru distribuţiile statistice cu oblicitate pozitivă μ > Mo (figura 7.2, a).
Prin urmare, pentru asemenea distribuţii (μ – Mo) > 0. Cum abaterea
standard este întotdeauna nenulă, rezultă că o valoare pozitivă a celui
dintâi coeficient de oblicitate propus de Pearson indică existenţa unei
oblicităţi pozitive pentru distribuţia statistică studiată.
Pentru distribuţiile statistice cu oblicitate negativă μ < Mo (figura 7.2,
b). Prin urmare, pentru asemenea distribuţii (μ – Mo) < 0. Rezultă că o
valoare negativă a celui dintâi coeficient de oblicitate propus de Pearson
indică existenţa unei oblicităţi negative pentru distribuţia statistică
studiată.
Deoarece diferenţa, fie ea pozitivă sau negativă, dintre media aritmetică
şi valoarea modală nu poate fi mai mare decât abaterea standard 2,
coeficientul OP1 poate înregistra valori cuprinse pe intervalul [-1, +1].
Cu cât oblicitatea unei distribuţii statistice este mai pronunţată, cu atât
distanţa dintre media aritmetică şi valoarea modală se apropie mai mult
de valoarea abaterii standard. Prin urmare, o valoare apropiată de ± 1 a
celui dintâi coeficient de oblicitate propus de Pearson indică existenţa
unei asimetrii mai pronunţate pentru distribuţia statistică studiată.
Pornind de la constatarea că pentru distribuţiile statistice moderat oblice
distanţa dintre media aritmetică şi valoarea modală este de aproximativ
trei ori mai mare decât distanţa dintre media aritmetică şi valoarea
mediană3 (figura 7.2, a şi b), Karl Pearson a propus, pentru asemenea
distribuţii statistice, şi un al doilea coeficient de oblicitate:
unde:
OP2 reprezintă cel de-al doilea coeficient de oblicitate al lui Pearson;
2
Explicaţia constă în faptul că distanţa dintre media aritmetică şi valoarea modală este, de fapt,
abaterea individuală modală faţă de media aritmetică, adică abaterea individuală cea mai des întâlnită,
în timp ce abaterea standard este echivalentă cu media pătratică a abaterilor individuale faţă de media
aritmetică, aceasta fiind întotdeauna mai mare sau egală faţă de abaterea individuală modală. Se
întâmplă aşa deoarece abaterea medie pătratică creşte pe măsură ce media aritmetică este mai deplasată
din cauza valorilor extreme, ceea ce nu se petrece cu necesitate şi în cazul abaterii individuale modale.
3
Relația care exprimă această proprietate a fost prezentată în capitolul 4.
250
μ = media aritmetică a distribuţiei statistice studiate;
Me = valoarea mediană a distribuţiei statistice studiate;
= abaterea standard a distribuţiei statistice studiate.
Interpretarea celui de-al doilea coeficient de oblicitate al lui Pearson este
similară interpretării celui dintâi coeficient de oblicitate al lui Pearson, cu
menţiunea că aplicabilitatea sa este restrânsă la cazul distribuţiilor
statistice caracterizate printr-o asimetrie moderată.
unde:
2 (X) reprezintă momentul centrat de ordinul 2 al distribuţiei statistice
studiate;
3 (X) = momentul centrat de ordinul 3 al distribuţiei statistice studiate;
k = numărul de variante care definesc variabila statistică după care este
construită distribuţia statistică;
251
aj = abaterea individuală înregistrată pentru varianta j faţă de media
aritmetică a distribuţiei;
nj = frecvenţa absolută de manifestare a variantei j;
(X) =abaterea standard a distribuţiei statistice studiate.
252
Pentru exemplificarea determinării oblicităţii cu ajutorul coeficienţilor 1
şi γ1, să considerăm şirul celor 15 valori (x) înregistrate de către variabila
X, din tabelul 7.4.
Tabelul 7.4
Număr
curent
x a=x– a2 a3
1 3 -5,2 27,04 -140,608
2 5 -3,2 10,24 -32,768
3 12 3,8 14,44 54,872
4 8 -0,2 0,04 -0,008
5 4 -4,2 17,64 -74,088
6 11 2,8 7,84 21,952
7 14 5,8 33,64 195,112
8 1 -7,2 51,84 -373,248
9 15 6,8 46,24 314,432
10 9 0,8 0,64 0,512
11 10 1,8 3,24 5,832
12 5 -3,2 10,24 -32,768
13 7 -1,2 1,44 -1,728
14 13 4,8 23,04 110,592
15 6 -2,2 4,84 -10,648
123 252,4 37,44
N 8,2 (= ) 16,8267 (= ) 2,496 (=)
253
central de ordinul 3, iar pentru coeficienţii de oblicitate 1 şi γ1 se obţin
următoarele valori:
Figura 7.8
4
Relația echivalentă, prezentată puțin mai jos poate fi găsită la: Peter GOOS, David MEINTRUP.
Statistics with JMP: Graphs, Descriptive Statistics and Probability. John Wiley & Sons, 2015, p. 77.
5
În Excel este vorba despre funcția SKEW.
254
unde:
N reprezintă mărimea colectivităţii statistice;
k = numărul de variante care definesc variabila statistică după care este
construită distribuţia statistică;
aj = abaterea individuală înregistrată pentru varianta j faţă de media
aritmetică a distribuţiei;
nj = frecvenţa absolută de manifestare a variantei j.
O relaţie echivalentă pentru coeficientul G1 este:
unde:
N reprezintă mărimea colectivităţii statistice;
ai = abaterile individuale ale valorilor de la media lor aritmetică;
s (X) = abaterea standard ajustată6, adică:
6
Ajustarea are ca scop diminuarea influenței valorilor extreme.
255
Pentru variabila statistică din tabelul 7.4 abaterea standard ajustată este:
Figura 7.9
256
Figura 7.10
7
Etimologic, „leptocurtic” înseamnă „cu umflătură sau cocoaşă subţire” („leptos” = gr. „subţire”).
8
Etimologic, „platicurtic” înseamnă „cu umflătură sau cocoaşă lată” („platus” = gr. „lat”).
257
nj
xj
Figura 7.11 Distribuţie mezocurtică
nj „vârf” nj
ascuţit
„vârf”
rotunjit „umăr”
„coadă” larg
plată
a. distributie b. distributie
leptocurtică xj platicurtică xj
Figura 7.12 Distribuţii lepto- (a) şi plati-curtice (b)
258
unde:
4 (X) reprezintă momentul centrat de ordinul 4 al distribuţiei statistice
studiate;
2 (X) = momentul centrat de ordinul 2 al distribuţiei statistice studiate;
k = numărul de variante care definesc variabila statistică după care este
construită distribuţia statistică;
aj = abaterea individuală înregistrată pentru varianta j faţă de media
aritmetică a distribuţiei;
nj = frecvenţa absolută de manifestare a variantei j;
(X) =abaterea standard a distribuţiei statistice studiate.
Interpretarea kurtosis-ului unei distribuţii statistice cu ajutorul acestui
coeficient este următoarea:
o valoare cuprinsă între 1 şi 3 este caracteristică unei distribuţii
platicurtice;
o valoare apropiată de 3 este caracteristică unei distribuţii
mezocurtice;
o valoare mai mare decât 3 este caracteristică unei distribuţii
leptocurtice.
259
Coeficientul de kurtosis 2 al lui Fisher (coeficientul de exces de
kurtosis)
Cu ajutorul coeficientului de kurtosis 2 al lui Fisher se determină tipul
(distribuție lepto- sau plati-curtică) şi excesul de kurtosis al distribuţiei
statistice studiate:
9
Acesta este motivul pentru care unii autori le numesc distribuții cu un kurtosis negativ.
10
Acesta este motivul pentru care unii autori le numesc distribuții cu un kurtosis pozitiv.
260
Tabelul 7.5
Număr
x a=x– a2 a4
curent
1 3 -5,2 27,04 731,1616
2 5 -3,2 10,24 104,8576
3 12 3,8 14,44 208,5136
4 8 -0,2 0,04 0,0016
5 4 -4,2 17,64 311,1696
6 11 2,8 7,84 61,4656
7 14 5,8 33,64 1131,6496
8 1 -7,2 51,84 2687,3856
9 15 6,8 46,24 2138,1376
10 9 0,8 0,64 0,4096
11 10 1,8 3,24 10,4976
12 5 -3,2 10,24 104,8576
13 7 -1,2 1,44 2,0736
14 13 4,8 23,04 530,8416
15 6 -2,2 4,84 23,4256
123 252,4 8046,448
11
Cf.: Peter GOOS, David MEINTRUP. Statistics with JMP: Graphs, Descriptive Statistics and
Probability. John Wiley & Sons, 2015, p. 78.
12
În Excel este vorba despre funcția KURT.
261
coefcient γ2 ajustat. Este vorba despre coeficientul de kurtosis G2,
determinat după relaţia:
262
DESCRIEREA STATISTICĂ
A LEGĂTURILOR DINTRE
FENOMENE 8.
OBIECTIVELE CAPITOLULUI
În acest capitol sunt prezentate statisticile utile în descrierea corelaţiei și a
modelelor de regresie dintre două sau mai multe variabile. Cele mai importante
obiective propuse sunt:
stăpânirea tehnicilor de calcul utilizate pentru obţinerea statisticilor de
corelaţie şi regresie;
înţelegerea conţinutului informaţional al celor mai importante statistici de
corelaţie şi regresie: coeficientul de corelaţie liniară Pearson, coeficienţii de
regresie liniară şi coeficientul de determinare;
stăpânirea metodei celor mai mici pătrate de erori ca metodă de regresie
statistică.
263
264
8.1. Ce se înțelege prin corelaţia și regresia statistică?
Prin corelaţie statistică se înţelege intensitatea şi sensul legăturii statistice
dintre două sau mai multe variabile.
Este important de reţinut faptul că legătura sau corelaţia statistică dintre
două sau mai multe variabile nu implică în mod necesar şi legătura cauzală
dintre acestea.
Totuşi, de multe ori corelaţia statistică poate fi semnul exitenței unei
anumite legături cauzale între fenomenele studiate.
Un exemplu destul de cunoscut în economie este corelaţia statistică dintre
preţul petrolului şi rata inflaţiei, ea fiind semnul unei legături cauzale între
aceste două fenomene economice, o legătură explicată prin influenţa
deosebită a preţului petrolului asupra majorităţii celorlalte preţuri din
economie. Astfel, anul 2014 a fost, de pildă, anul în care scăderea
accentuată a ratei inflaţiei în România a urmat îndeaproape scăderii
preţului ţiţeiului pe pieţele internaţionale 1.
Regresia statistică are ca scop elaborarea de modele matematice pentru
descrierea legăturii statistice dintre două sau mai multe variabile, utilitatea
acestor modele fiind în principal în legătură cu ajustarea matematică a
valorilor înregistrate de variabila modelată (dependentă) sau cu prognoza
unor valori viitoare ale acesteia.
1
A se vedea, în acest sens: Banca Națională a României, Raport asupra inflației, Anul XI, nr. 39,
februarie 2015, pp. 24-26. Versiunea online este disponibilă la adresa:
https://www2.bnr.ro/DocumentInformation.aspx?idDocument=19412&idInfoClass=3922
În acest document, la pagina 25, se arată că:
“Aproximativ 17 la sută din modificarea preţului carburanţilor se transmite în preţurile de producţie ale
industriei bunurilor de consum pe un orizont de un an. Mai departe, modificarea acestor preţuri de
producţie este transferată în proporţie de 70 la sută în inflaţia de bază pe acelaşi orizont de timp.
Evaluarea unui scenariu de scădere a preţului petrolului cu 10 la sută indică un impact de aproximativ -
0,2 puncte procentuale (efect direct şi indirect) la rata anuală a inflaţiei IPC pe un orizont de un an.”
265
(X, Y) = covarianţa statistică a perechilor de valori înregistrate de către
variabilele X şi Y;
(X), (Y) = abaterile standard ale valorilor înregistrate pentru variabila
X, respectiv Y.
Având în vedere faptul că atât numărătorul, cât și numitorul relației de mai
sus se obțin pe baza unor medii aritmetice, se poate ușor deduce o relație
alternativă de calcul a acestui coeficient pe baza numărului de perechi de
valori existente (N) și a unor sume determinate pe baza acestor valori:
266
Tabelul 8.1
2
A se vedea capitolul 6.
267
multiplicarea sau împărţirea cu o constantă (c) a tuturor valorilor
înregistrate de o variabilă X nu determină modificarea coeficientului de
corelaţie liniară Pearson dintre valorile acestei variabile şi valorile unei
alte variabile Y. Această proprietate se explică prin faptul că
multiplicarea sau împărţirea cu o constantă (c) a tuturor valorilor
înregistrate de o variabilă determină multiplicarea sau împărţirea cu
acea constantă atât a abaterii ei standard, cât şi a covarianţei 3 valorilor
ei cu valorile unei alte variabile:
3
A se vedea capitolul 6.
268
Tabelul 8.2
X Y
0,1 0,4
0,3 0,8
0,2 0,5
0,7 0,1
0,9 0,2
0,6 0,9
0,5 0,7
Tabelul 8.3
X Y aX + b a'Y + b'
0,1 0,4 5,23 6,20
0,3 0,8 5,69 9,00
0,2 0,5 5,46 6,90
0,7 0,1 6,61 4,10
0,9 0,2 7,07 4,31
0,6 0,9 6,38 9,70
0,5 0,7 6,15 8,30
269
Figura 8.1
Aşa cum se poate vedea în figura 8.1, pentru cele două perechi de
variabile corelaţia este identică, dat fiind faptul că norul de puncte nu-şi
schimbă forma în urma transformării valorilor din tabelul 8.2 în cele
din tabelul 8.3. Ceea ce diferă este doar scara de mărime. Acest fapt se
poate verifica şi pe baza calculelor de mai jos şi din tabelele 8.4 şi 8.5:
respectiv,
270
Tabelul 8.4
X X2 Y Y2 XY
0,1 0,01 0,4 0,16 0,04
0,3 0,09 0,8 0,64 0,24
0,2 0,04 0,5 0,25 0,10
0,7 0,49 0,1 0,01 0,07
0,9 0,81 0,2 0,04 0,18
0,6 0,36 0,9 0,81 0,54
0,5 0,25 0,7 0,49 0,35
Totaluri 3,30 2,05 3,60 2,40 1,52
Medii 0,4714 0,2929 0,5143 0,3429 0,2171
Tabelul 8.5
aX + b (aX + b) 2 a'Y + b' (a'X + b') 2 (aX + b) (a'X + b')
5,23 27,35 6,20 38,44 32,4260
5,69 32,38 9,00 81,00 51,2100
5,46 29,81 6,90 47,61 37,6740
6,61 43,69 4,10 16,81 27,1010
7,07 49,98 4,80 23,04 33,9360
6,38 40,70 9,70 94,09 61,8860
6,15 37,82 8,30 68,89 51,0450
42,59 261,74 49,00 369,88 295,2780
6,0843 37,3921 7,0000 52,8400 42,1826
271
coeficientul de corelație liniară se poate determina și pe baza unei
relații care exprimă raportul său cu coeficientul de regresie liniară, o
altă statistică mai importantă pentru analiza unei legături liniare dintre
două variabile:
unde:
(X,Y) reprezintă coeficientul de regresie liniară care caracterizează
legătura statistică liniară dintre variabila dependentă Y și variabila
indepedentă X.
Pe baza acestei relații se poate constata că între coeficientul de corelație
liniară și coeficientul de regresie liniară există un raport de directă
proporționalitate. Totodată, faptul că abaterile standard ale variabilelor X
și Y sunt pozitive determină ca cei doi coeficienți să aibă același semn.
Prin urmare, o legătură statistică pozitivă implică valori pozitive ale
acestor două importante statistici, în timp ce o legătură statistică negativă
este caracterizată prin valori negative pentru fiecare dintre acestea.
272
Coeficientul lui Spearman
Coeficientul lui Spearman este echivalent cu coeficientul de corelaţie
Pearson aplicat asupra rangurilor corespunzătoare valorilor înregistrate
de cele 2 variabile:
unde:
273
unde:
d reprezintă diferenţele dintre rangurile celor două variabile;
N = mărimea colectivităţii perechilor de valori ale celor 2 variabile.
274
Coeficientul lui Kendall
Coeficientul neparametric (tau) propus de către Kendall măsoară gradul
de concordanţă sau de discordanţă dintre rangurile corespunzătoare
valorilor înregistrate de cele 2 variabile.
Concordanţa dintre rangurile celor 2 şiruri de valori înregistrate pentru 2
variabile X şi Y, are loc atunci când pentru 2 ranguri rxj < rxk la nivelul
şirului de valori ale variabilei X, corespund 2 ranguri ryj < ryk la nivelul
şirului de valori ale variabilei Y, iar pentru 2 ranguri rxj > rxk la nivelul
şirului de valori ale variabilei X, corespund 2 ranguri ryj > ryk la nivelul
şirului de valori ale variabilei Y.
Prin urmare, concordanţa poate fi definită prin relaţia:
unde:
C reprezintă numărul de perechi de ranguri concordante;
D = numărul de perechi de ranguri disconcordante;
S = diferenţa dintre numărul de perechi de ranguri concordante şi numărul
de perechi de ranguri disconcordante, C − D.
Ultima formă a relaţiei a fost obţinută pe seama faptului că numărul total
de perechi de ranguri (C + D) este egal cu numărul total de combinări de
N (numărul de perechi de ranguri rxi, ryi înregistrate pentru cele
variabilele X şi Y) luate câte 2.
Coeficientul al lui Kendall tinde către 0 atunci când numărul de
concordanţe tinde să fie egal cu numărul de discordanţe, ceea ce înseamnă
275
că între cele 2 variabile nu există legătură statistică. O legătură puternică
de concordanţă între variabile are loc atunci când numărul de discordanţe
între cele 2 şiruri de ranguri tinde către 0, situaţie în care coeficientul al
lui Kendall tinde către valoarea de +1. O legătură puternică de discordanţă
între variabile are loc atunci când numărul de concordanţe între cele 2
şiruri de ranguri tinde către 0, situaţie în care coeficientul al lui Kendall
tinde către valoarea de −1.
Tabelul 8.6
Ranguri Ranguri preferinţe
preţ produse
1 5
2 6
3 4
4 7
5 3
6 2
7 1
276
Valorile negative şi mai mici decât −0,5 ale acestor 2 coeficienţi arată că
legătura dintre cele două variabile este una inversă sau de discordanţă
destul de puternică.
Tabelul 8.7
Ranguri Ranguri preferinţe
preţ produse
1 5 -4 16 2 4
2 6 -4 16 1 4
3 4 -1 1 1 3
4 7 -3 9 0 3
5 3 2 4 0 2
6 2 4 16 0 1
7 1 6 36 0 0
Total 98 C D
= =
4 17
4
Este cazul, în general, al prognozelor realizate pe baza regresiei statistice.
278
statistică studiată. Cu alte cuvinte, valorile reziduale de regresie sunt
estimările observabile (simbolizate obişnuit cu ) ale erorilor statistice de
regresie (simbolizate obişnuit cu ).
unde:
S reprezintă suma pătratelor erorilor sau abaterilor statistice de regresie;
(yi)= eroarea sau abaterea statistică de regresie pentru valoarea yi a
variabilei statistice Y;
279
xi = valoarea variabilei statistice X pentru care s-a înregistrat valoarea yi a
variabilei dependente Y;
, parametrii de regresie liniară între variabilele X şi Y.
Minimizarea sumei pătratelor erorilor statistice de regresie înseamnă
îndeplinirea a 2 condiţii:
1. Condiţia ca derivatele parţiale de ordinul întâi în raport cu parametrii
, să fie egale cu 0:
şi
Prin urmare,
280
Din prima condiţie necesară pentru minimizarea sumei pătratelor erorilor
statistice de regresie se obţine sistemul de ecuaţii
281
Folosind metoda determinanţilor pentru acest sistem de ecuaţii, se pot găsi
relaţiile de determinare a parametrilor de regresie şi . Pentru aceasta,
se construieşte mai întâi matricea sistemului în funcţie de parametrii şi
:
282
Împărţind cu N2 atât numărătorul, cât şi numitorul fracţiei care defineşte
parametrul , se obţine mai departe:
283
Acest parametru se numeşte coeficient de regresie liniară şi este
echivalent, din punct de vedere grafic, cu tangenta unghiului pe care linia
de regresie reprezentată în sistemul de axe 0X şi 0Y îl formează cu abscisa
(0X), fiind astfel echivalent cu panta de regresie liniară (a se vedea
figura 8.2, precum şi prima proprietate a coeficientului de regresie liniară).
Pornind de la prima ecuaţie a sistemului format pe baza celor două
derivate parţiale se poate obţine, pentru parametrul , o a doua relaţie de
calcul, construită de această dată în funcţie de parametrul şi de mediile
aritmetice ale celor două variabile:
284
unde:
∆ OAB reprezintă triunghiul dreptunghic format la creşterea cu o
unitate a variabilei explicative X (figura 8.2).
Y, Ŷ
B
panta regresiei:
φ = (Ŷ) / (X) = tg (φ)
O A
intercepţia,
x0 x0 + X
285
reciprocităţii legăturii statistice dintre cele două variabile este mai
mare. Cele două linii de regresie sunt determinate de ecuaţiile:
Prin urmare, tangenta unghiului „” format între cele două linii de
regresie este dată de relaţia:
286
Aşadar:
287
Să considerăm, pentru exemplificare, datele statistice privind preţul
unui Big Mac şi produsul intern brut per capita pentru 54 de ţări ale
lumii5, conform tabelului 8.8. Conform ecuaţiei de regresie liniară
determinată cu ajutorul programului Excel, coeficientul de regresie
liniară a variabilei „produsul intern brut per capita, în dolari, în 2017”
în funcţie de variabila „preţul uuui Big Mac echivalent în dolari, în
ianuarie 2018” este egal cu 0,00004 (figura 8.3). Să vedem ce s-ar
întâmpla dacă produsul intern brut per capita la nivelul fiecărei ţări ar
scădea la jumătate faţă de nivelul real înregistrat.
Tabelul 8.8
Preţ Big Mac
PIB per capita
Ţara echivalent in dolari,
in dolari, 2017
ianuarie 2018
Africa de Sud 6160,73 2,45
Arabia Saudită 20760,91 3,20
Argentina 14401,97 3,96
Austria 47290,91 4,16
Australia 53799,94 4,71
Belgia 43323,81 5,02
Brazilia 9821,41 5,11
Canada 45032,12 5,26
Chile 15346,45 4,29
China 8826,99 3,17
Columbia 6301,59 3,83
Coreea de Sud 29742,84 4,12
Costa Rica 11630,67 4,03
Danemarca 56307,51 4,93
Egipt 2412,73 1,93
Elveţia 80189,70 6,76
Emiratele Arabe Unite 40698,85 3,81
Estonia 19704,66 3,86
Filipine 2988,95 2,64
Finlanda 45703,33 5,58
5
Datele au fost extrase din următoarele surse:
- http://infographics.economist.com/2018/databank/BMFile2000toJan2018.xls (pentru preţul unui
Big Mac)
- http://data.worldbank.org/indicator/NY.GDP.PCAP.CD (pentru produsul intern brut per capita)
288
Franţa 38476,66 5,14
Germania 44469,91 4,77
Grecia 18613,42 4,10
Hong Kong 46193,61 2,62
India 1939,61 2,82
Indonezia 3846,86 2,68
Irlanda 69330,69 4,98
Israel 40270,25 4,80
Italia 31952,98 5,14
Japonia 38428,10 3,43
Lituania 16680,68 3,43
Malaezia 9944,90 2,28
Marea Britanie 39720,44 4,41
Mexic 8902,83 2,57
Norvegia 75504,57 6,24
Noua Zeelandă 42940,58 4,51
Olanda 48223,16 4,54
Pakistan 1547,85 3,39
Peru 6571,93 3,27
Polonia 13811,66 2,97
Portugalia 21136,30 3,92
Republica Cehă 20368,14 3,81
Rusia 10743,10 2,29
Singapore 57714,30 4,39
Spania 28156,82 4,84
Sri Lanka 4065,22 3,77
Suedia 53442,01 6,12
SUA 59531,66 5,28
Thailanda 6593,82 3,72
Turcia 10540,62 2,83
Ucraina 2639,82 1,64
Ungaria 14224,85 3,43
Uruguay 16245,60 4,90
Vietnam 2343,12 2,86
289
Figura 8.3
Figura 8.4
291
coeficientul de regresie liniară se poate obține prin înmulțirea
coeficientului de corelație liniară cu raportul dintre abaterile standard
ale valorilor înregistrate de variabilele Y, respectiv X:
unde:
S reprezintă suma pătratelor erorilor sau abaterilor statistice de regresie;
(yi)= abaterea de regresie pentru valoarea yi a variabilei statistice Y;
xi = valoarea variabilei statistice independente X pentru care s-a înregistrat
valoarea yi a variabilei dependente Y;
292
, , parametrii de regresie liniară între variabilele X şi Y.
Minimizarea sumei pătratelor erorilor statistice de regresie înseamnă
îndeplinirea condiţiei ca derivatele parţiale de ordinul întâi în raport cu
parametrii , și să fie egale cu 0:
şi
Este vorba despre un sistem format din trei ecuații cu trei necunoscute,
acestea din urmă constituind chiar parametrii funcției de regresie
cuadratică (, și ):
293
Folosind metoda matriceală pentru rezolvarea acestui sistem, se obține mai
departe ecuația:
unde:
și
294
Parametrii ecuației de regresie cuadratică se pot obține așadar pe seama
relației:
unde:
A-1 este matricea inversă a matricii A.
Pentru a prezenta un exemplu vom folosi datele expuse în tabelul 8.9, care
descriu nivelurile obținute pentru o anumită producție agricolă în diferite
regimuri de temperatură (descrise prin mediile temperaturilor înregistrate
în perioadele considerate).
Norul de puncte corespunzător valorilor înregistrate pentru cele două
variabile (variabila temperaturii medii, variabilă independentă și variabila
nivelului de producție, variabilă dependentă) sugerează existența între
acestea a unei legături statistice cuadratice (a se vedea figura 8.6).
Tabelul 8.9
Temperatură medie Producție
Perioada înregistrată (tone/ha)
(i)
(xi) (yi)
1 24,8 2,5
2 24,6 2,8
3 31,9 2,1
4 30,1 2,7
5 31,3 2,8
6 31,4 2,4
7 30,3 2,5
8 27,6 2,7
9 27,4 3,1
10 25,6 2,7
11 24,0 2,2
12 26,4 2,9
13 28,9 3,0
14 26,3 2,8
15 26,3 2,6
295
Pentru a obține parametrii funcției de regresie cuadratică, trebuie
determinate pentru început matricile A și B. În acest scop, calculăm
elementele necesare în tabelul 8.10.
Figura 8.6
Tabelul 8.10
i xi yi
1 24,8 2,5 615,04 15252,99 378274,20 62,00 1537,60
2 24,6 2,8 605,16 14886,94 366218,63 68,88 1694,45
3 31,9 2,1 1017,61 32461,76 1035530,11 66,99 2136,98
4 30,1 2,7 906,01 27270,90 820854,12 81,27 2446,23
5 31,3 2,8 979,69 30664,30 959792,50 87,64 2743,13
6 31,4 2,4 985,96 30959,14 972117,12 75,36 2366,30
7 30,3 2,5 918,09 27818,13 842889,25 75,75 2295,23
8 27,6 2,7 761,76 21024,58 580278,30 74,52 2056,75
9 27,4 3,1 750,76 20570,82 563640,58 84,94 2327,36
10 25,6 2,7 655,36 16777,22 429496,73 69,12 1769,47
11 24,0 2,2 576,00 13824,00 331776,00 52,80 1267,20
12 26,4 2,9 696,96 18399,74 485753,24 76,56 2021,18
13 28,9 3,0 835,21 24137,57 697575,74 86,70 2505,63
14 26,3 2,8 691,69 18191,45 478435,06 73,64 1936,73
15 26,3 2,6 691,69 18191,45 478435,06 68,38 1798,39
Total 416.9 39.8 11686,99 330430,98 9421066,63 1104,55 30902,64
296
Conform rezultatelor calculelor din tabelul tabelul 8.10, se obțin
următoarele matrici A și B:
unde:
A-1 este matricea inversă a matricii A;
det (A) = determinantul matricii A. În urma calcului acestuia se obține că
valoarea sa este 609268,36;
A* = matricea adjunctă a matricii A. Această matrice se obţine prin
înlocuirea fiecărui element aij al matricii A cu determinantul obţinut din
matricea A după eliminarea liniei i şi coloanei j:
Așadar:
297
Conform acestui rezultat, funcția de regresie cuadratică pentru exemplul
nostru este:
Figura 8.7
Alte modele de regresie neliniară simplă pe baza metodei celor mai mici
pătrate
Pe baza metodei celor mai mici pătrate se pot obține și alte modele de
regresie neliniară simplă. Dintre aceste enumerăm mai jos doar pe cele
întâlnite mai frecvent:
funcție polinomială de gradul al 3-lea sau cubică:
funcție logaritmică:
funcție exponențială:
298
funcție hiperbolică:
Tabelul 8.11
Anul Cifra de afaceri (mil. lei)
2011 1,12
2012 1,48
2013 1,78
2014 2,15
2015 3,03
2016 4,12
2017 5,33
6
Trebuie subliniat că modelul exponențial trebuie folosit în astfel de cazuri cu prudență, dat fiind faptul
că variabilele economice cresc exponențial doar pe perioade destul de limitate de timp.
299
Cronograma din figura 8.8, în care este prezentată grafic evoluția cifrei de
afaceri pentru compania considerată, sugerează într-adevăr o creștere
exponențială a acesteia.
Pentru a obține parametrii funcției exponențiale de regresie vom considera
forma liniarizată:
Figura 8.8
Tabelul 8.12
xi yi ln yi
2011 1,12 0,1133
2012 1,48 0,3920
2013 1,78 0,5766
2014 2,15 0,7655
2015 3,03 1,1086
2016 4,12 1,4159
2017 5,33 1,6734
300
Se poate verifica ușor faptul că pentru variabila dependentă lnY și
variabila independentă X coeficientul de regresie liniară este:
Figura 8.9
301
În cazul funcției hiperbolice se poate observa că nu este nevoie de
liniarizarea acesteia, întrucât raportată la parametrii de regresie ( și ) ea
este o funcție liniară. Pentru construirea modelului de regresie în acest caz
este nevoie doar de transformarea variabilei X în variabila 1/X, urmând ca
parametrii de regresie să fie determinați ca în cazul regresiei liniare simple
pentru variabila dependentă Y și variabila independentă 1/X.
Pentru ilustrarea acestui caz, să considerăm datele din tabelul 8.13, privind
evoluția profitului pentru o companie care activează pe o nișă de piață în
curs de ocupare.
Tabelul 8.13
Anul Profitul (mil. lei)
1 7.97
2 3.95
3 2.52
4 1.88
5 1.49
6 1.22
7 1.03
8 1.01
Tabelul 8.14
xi 1/xi yi
1 1.0000 7.97
2 0.5000 3.95
3 0.3333 2.52
4 0.2500 1.88
5 0.2000 1.49
6 0.1667 1.22
7 0.1429 1.03
8 0.1250 1.01
302
Parametrul de regresie liniară pentru variabila dependentă Y și variabila
independentă 1/X este:
Figura 8.10
303
8.5. Regresia liniară univariată multiplă
Modelarea statistică a unui fenomen impune deseori considerarea unei
variabile explicate în relație cu mai multe variabile explicative. Folosirea
metodei celor mai mici pătrate de eroare statistică pentru construirea unui
model de regresie liniară in astfel de situații poate fi văzută ca o
generalizare a regresiei liniare simple pe baza acestei metode, prezentată
în paragraful anterior.
Regresia liniară univariată multiplă are la bază ipoteza că răspunsul
variabilei explicate la variabilele explicative îmbracă forma unei funcţii de
tipul:
unde:
S reprezintă suma pătratelor erorilor sau abaterilor statistice de regresie;
(yi)= abaterea de regresie pentru valoarea yi a variabilei statistice Y;
x1i = valoarea variabilei statistice explicative X1 pentru care s-a înregistrat
valoarea yi a variabilei explicate Y;
x2i = valoarea variabilei statistice explicative X2 pentru care s-a înregistrat
valoarea yi a variabilei explicate Y;
xpi = valoarea variabilei statistice explicative Xp pentru care s-a înregistrat
valoarea yi a variabilei explicate Y;
, , pparametrii de regresie liniară între variabilele
explicative X1, X2 ... Xp şi variabila explicată Y.
304
Minimizarea sumei pătratelor erorilor statistice de regresie înseamnă
îndeplinirea condiţiei ca derivatele parţiale de ordinul întâi în raport cu
parametrii , , psă fie egale cu 0:
...
305
Aplicând metoda matriceală pentru rezolvarea acestui sistem, se obține
mai departe ecuația:
unde:
306
și
unde:
A-1 este matricea inversă a matricii A.
Pentru a prezenta un exemplu de regresie liniară multiplă construit pe
seama a patru variabile explicative, vom folosi datele expuse în tabelul
8.15, care descriu notele obținute de către un grup de studenți (variabila
explicată Y) pentru care se cunosc:
- punctajele realizate la un test de inteligență emotională privind:
conștientizarea și cunoașterea în detaliu a propriilor emoții (variabila
explicativă X1);
- capacitatea de gestionare și control a acestora (variabila explicativă X2);
- conștientizarea și cunoașterea în detaliu a emoțiilor altora (variabila
explicativă X3);
- capacitatea de gestionare și control a emoțiilor altora (variabila
explicativă X4).
Regresia liniară univariată multiplă se bazează în acest caz pe ipoteza că
răspunsul variabilei explicate la variabilele explicative îmbracă forma unei
funcţii de tipul:
307
Tabelul 8.15
i X1 X2 X3 X4 Y
1 6 8 9 8 8
2 7 7 7 8 7
3 8 7 8 7 8
4 10 9 7 9 9
5 5 6 5 6 7
6 4 8 7 6 6
7 8 5 7 7 7
8 6 6 6 7 6
9 7 9 10 8 9
10 8 10 10 9 10
unde:
308
și
309
Tabelul 8.16
i X1 X2 X3 X4
1 6 8 9 8 36 64 81 64
2 7 7 7 8 49 49 49 64
3 8 7 8 7 64 49 64 49
4 10 9 7 9 100 81 49 81
5 5 6 5 6 25 36 25 36
6 4 8 7 6 16 64 49 36
7 8 5 7 7 64 25 49 49
8 6 6 6 7 36 36 36 49
9 7 9 10 8 49 81 100 64
10 8 10 10 9 64 100 100 81
Total 69 75 76 75 503 585 602 573
Tabelul 8.17
i X1 X2 X1 X3 X1 X4 X2 X3 X2 X4 X3 X4
1 48 54 48 72 64 72
2 49 49 56 49 56 56
3 56 64 56 56 49 56
4 90 70 90 63 81 63
5 30 25 30 30 36 30
6 32 28 24 56 48 42
7 40 56 56 35 35 49
8 36 36 42 36 42 42
9 63 70 56 90 72 80
10 80 80 72 100 90 90
Total 524 532 530 587 573 580
310
Tabelul 8.18
i Y X1 Y X2 Y X3 Y X4 Y
1 8 48 64 72 64
2 7 49 49 49 56
3 8 64 56 64 56
4 9 90 81 63 81
5 7 35 42 35 42
6 6 24 48 42 36
7 7 56 35 49 49
8 6 36 36 36 42
9 9 63 81 90 72
10 10 80 100 100 90
Total 77 545 592 600 588
311
Prin urmare, modelul de regresie pentru exemplul nostru este:
7
A nu se confunda această relație cu cea prezentată în paragraful 6.5, în care este vorba despre adunarea
varianțelor implicate de gruparea bivariată a valorilor reale înregistrate. În ce privește relația de față, este
vorba despre varianțe implicate de modelul de regresie, model care generează valori ajustate sau estimate
și nu valori reale.
312
Concluzia care se poate desprinde pe baza acestei valori a raportului de
determinație este că deși legătura dintre cele două variabile corespunde
unui model parabolic, ea este insuficient de puternică pentru a putea fi
modelată fără mari reproșuri pe baza unui astfel de model matematic.
Tabelul 8.19
pătrate
pătrate y estimat erori de
i xi yi erori de
yi de model regresie
regresie
1 24,8 2,5 6,25 2,5505 -0,0505 0,0025
2 24,6 2,8 7,84 2,5019 0,2981 0,0889
3 31,9 2,1 4,41 2,2804 -0,1804 0,0326
4 30,1 2,7 7,29 2,7161 -0,0161 0,0003
5 31,3 2,8 7,84 2,4534 0,3466 0,1201
6 31,4 2,4 5,76 2,4265 -0,0265 0,0007
7 30,3 2,5 6,25 2,6800 -0,1800 0,0324
8 27,6 2,7 7,29 2,9075 -0,2075 0,0430
9 27,4 3,1 9,61 2,9020 0,1980 0,0392
10 25,6 2,7 7,29 2,7141 -0,0141 0,0002
11 24,0 2,2 4,84 2,3376 -0,1376 0,0189
12 26,4 2,9 8,41 2,8284 0,0716 0,0051
13 28,9 3,0 9,00 2,8680 0,1320 0,0174
14 26,3 2,8 7,84 2,8168 -0,0168 0,0003
15 26,3 2,6 6,76 2,8168 -0,2168 0,0470
Total 416,9 39,8 106,68 0,4487
Medii
27,7933 2,6533 7,112 0,0299
aritmetice
313
Același lucru se poate spune și despre modelele de regresie liniară din
figurile 8.3-8.5 sau 8.7.
Pentru norul de puncte din figura 8.11, care redă evoluția cifrei de afaceri
a S.C. Intelligent IT S.R.L. (Sibiu) în perioada 2012-20178, se pot alege
mai multe modele de regresie, patru dintre acestea fiind reprezentate în
figurile 8.12-8.15.
Pentru fiecare dintre cele patru modele de regresie a fost calculată valoarea
coeficientul de determinare9. Din compararea celor patru valori se poate
constata că cel mai bun model de regresie care se poate aplica datelor
considerate este modelul de regresie cubică, model pentru care valoarea
coeficientului de determinare este foarte apropiată de 1. Acest fapt este
evidențiat, de altfel, și de reprezentările grafice din figurile 8.12-8.15
(curba cea mai apropiată de punctele care au ca și coordonate datele
considerate este curba funcției de regresie cubică).
Coeficientul de determinare corespunzător modelului de regresie liniară
este egal cu pătratul coeficientului de corelație liniară, acesta fiind motivul
pentru care el se notează cu R2. Această proprietate este verificată mai jos
pentru datele privind evoluția cifrei de afaceri a S.C. Intelligent IT S.R.L.
8
Datele au fost preluate de pe site-ul ministerului de finanțe:
http://www.mfinante.gov.ro/agenticod.html?pagina=domenii
9
Pentru efectuarea calculelor necesare s-a folosit calculatorul online disponibil la adresa:
http://polynomialregression.drque.net/online.php
314
în perioada 2012-2017, folosind în acest scop calculele realizate în tabelul
8.20:
Tabelul 8.20
# xi yi xi yi xi 2 yi 2
1 2012 1,337068 2690,1808 4048144 1,7878
2 2013 1,567750 3155,8808 4052169 2,4578
3 2014 1,786687 3598,3876 4056196 3,1923
4 2015 2,636602 5312,7530 4060225 6,9517
5 2016 4,498354 9068,6817 4064256 20,2352
6 2017 7,076849 14274,0044 4068289 50,0818
Total 12087 18,903310 38100,8883 24349279 84,7065
315
Figura 8.12 Modelul de regresie liniară aplicat datelor privind
evoluția cifrei de afaceri a S.C. Intelligent IT S.R.L. în perioada 2012-
2017
316
Figura 8.14 Modelul de regresie cuadratică sau parabolică aplicat
datelor privind evoluția cifrei de afaceri a S.C. Intelligent IT S.R.L. în
perioada 2012-2017
317
sau:
Tabelul 8.21
i Y Y2
1 8 64 7.8724 61.9744 0.1276 0.0163
318
Rezultă că:
319
320
DESCRIEREA STATISTICĂ
A VARIAŢIEI ÎN TIMP
(CRONOLOGICE) 9.
OBIECTIVELE CAPITOLULUI
În acest capitol vor fi prezentate statisticile care se pot folosi pentru descrierea
statistică a variaţiei în timp, ajutând cititorul în efortul de:
înţelegere a utilității cunoaşterii variaţiei în timp la nivelul fenomenelor
studiate statistic;
stăpânire a metodelor disponibile pentru descrierea statistică a variaţiei în timp
sub forma nivelurilor, volumelor şi sporurilor absolute sau relative;
înţelegere a modului în care se construiesc indicii cronologici agregaţi
ponderaţi şi cunoaşterea câtorva aplicaţii mai importante ale acestor indici.
321
322
Descrierea statistică a variaţiei în timp presupune culegerea de date pentru
un şir de momente sau de perioade/intervale de timp, rezultatele obţinute
astfel putând fi prezentate fie sub forma seriilor cronologice, în cazul
datelor simple, negrupate, fie sub forma distribuţiilor cronologice, în
cazul datelor grupate.
În figura 9.1 sunt reprezentate, pentru exemplificare, pe același grafic,
două serii cronologice: una privind importul, cealaltă exportul Germaniei
în relația sa comercială cu Iranul pe perioada anilor 2007-20171.
Figura 9.1
1
Cf.: Hannoversche Allgemeine Zeitung, 9 august 2018, p. 9.
323
9.1. Descrierea statistică a variaţiei cronologice de nivel
Descrierea statistică a variaţiei cronologice de nivel se poate realiza în
cifre absolute, relative sau medii (evidenţiind tendinţa statistică centrală
manifestată în timp).
unde:
Vi reprezintă volumul absolut al primelor „i” momente sau perioade de
timp;
xt = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t”.
Sporurile absolute sunt diferenţe înregistrate în timp pentru o variabilă de
nivel absolut. Acestea se pot grupa în:
sporuri cu bază fixă, obţinute ca diferenţe faţă de un prim nivel absolut
înregistrat:
unde:
t/1 reprezintă sporul absolut cu bază fixă al momentului sau perioadei
de timp „t”;
xt = nivelul absolut înregistrat de variabila X pentru momentul sau
perioada de timp „t”;
324
x1 = nivelul absolut înregistrat de variabila X pentru primul moment
sau pentru prima perioadă de timp („1”) care defineşte variabila
cronologică folosită;
sporuri cu bază mobilă, obţinute ca diferenţe faţă de nivelurile absolute
înregistrate în momentele sau perioadele imediat anterioare:
unde:
t/t-1 reprezintă sporul absolut cu bază mobilă al momentului sau
perioadei de timp „t”;
xt = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t”;
xt-1 = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t-1”.
325
coeficientului de elasticitate;
sporului marginal;
indicilor agregaţi de variaţie;
valorilor absolute ale procentelor de creştere.
Indicii sau ritmurile individuale de variaţie arată de câte ori a crescut sau
a scăzut nivelul unei variabile la un moment sau într-o perioadă de timp
faţă de un moment sau o perioadă de timp anterioară (considerată ca şi
bază de raportare).
După baza de raportare, indicii sau ritmurile se împart, de asemenea, în
indici sau ritmuri cu bază fixă şi indici sau ritmuri cu bază mobilă, şi se
pot exprima sub formă de coeficienţi sau sub formă procentuală:
unde:
t/1 reprezintă indicele cu bază fixă al momentului sau perioadei de timp
„t”;
t/t-1 = indicele cu bază mobilă al momentului sau perioadei de timp „t”;
xt = nivelul absolut înregistrat de variabila X pentru momentul sau
perioada de timp „t”;
x1 = nivelul absolut înregistrat de variabila X pentru primul moment sau
pentru prima perioadă de timp („1”) care defineşte variabila cronologică
folosită;
xt-1 = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t-1”.
Pentru exemplificare ne putem referi la faptul că producţia industrială a
crescut în august 2018 cu 0,9% în zona euro şi cu 1,2% în Uniunea
Europeană, comparativ cu perioada similară din 2017, conform datelor
publicate de Oficiul European de Statistică (Eurostat) 2. Aceasta înseamnă
că indicele de variație a producţiei industriale pentru august 2018, având
ca bază (fixă) luna august 2017, a fost de 100,9% la nivelul zonei euro și
de 101,2% la nivelul UE.
2
Cf.: https://romanialibera.ro/economie/productia-industriala-a-crescut-mai-rapid-in-romania-decat-in-
ue-756389 (accesat în 13 octombrie 2018)
326
Relaţii existente între indici
Între ritmurile cu bază fixă şi ritmurile cu bază mobilă determinate la
nivelul unei aceleiaşi repartiţii statistice cronologice, se pot evidenţia
următoarele două relaţii:
unde:
Rt/1 reprezintă rata cu bază fixă pentru momentul sau perioada de timp „t”;
Rt/t-1 = rata cu bază mobilă pentru momentul sau perioada de timp „t”;
327
t/1 reprezintă sporul absolut cu bază fixă al momentului sau perioadei de
timp „t”;
xt = nivelul absolut înregistrat de variabila X pentru momentul sau
perioada de timp „t”;
x1 = nivelul absolut înregistrat de variabila X pentru primul moment sau
pentru prima perioadă de timp („1”) care defineşte variabila cronologică
folosită;
t/1 = indicele cu bază fixă al momentului sau perioadei de timp „t”;
t/t-1 = sporul absolut cu bază mobilă al momentului sau perioadei de timp
„t”;
xt-1 = nivelul absolut al variabilei X, înregistrat pentru momentul sau
perioada de timp „t-1”;
t/t-1 = indicele cu bază mobilă al momentului sau perioadei de timp „t”.
Coeficientul de elasticitate
Coeficientul de elasticitate descrie sporul, în expresie relativă, a nivelului
înregistrat de o variabilă (X) într-o anumită perioadă de timp în raport cu
sporul pe parcursul aceleiași perioade de timp a unei alte variabile
relevante din punct de vedere comparativ:
328
Sporul marginal
Sporul marginal este în strânsă legătură cu coeficientul de elasticitate. El
se obține prin raportarea, de această dată, a ritmurilor sporurilor
înregistrate la nivelul a două variabile cronologice:
Indicii agregaţi
Operaţia de agregare constă în însumarea unor valori care caracterizează
într-o formă sau alta fenomenul statistic studiat. În funcţie de
caracteristicile descrise de acestor valori, se poate recurge la operaţii de:
agregare simplă (atunci când valorile descriu aceeaşi caracteristică);
agregare ponderată (atunci când valorile descriu caracteristici
diferite).
Indicii agregaţi simpli se obţin prin raportarea nivelurilor absolute
agregate simplu pentru două momente sau perioade diferite de timp:
unde:
X1/0 reprezintă indicele agregat simplu al momentului sau perioadei de
timp 1 (de obicei, momentul sau perioada de timp curentă) faţă de
329
momentul sau perioada de timp 0 (de obicei, momentul sau perioada de
timp aleasă ca şi referinţă sau bază de raportare);
xi1 = nivelul absolut înregistrat pentru caracteristica „i” la momentul sau în
perioada de timp 1;
xi0 = nivelul absolut înregistrat pentru caracteristica „i” la momentul sau în
perioada de timp 0.
Indicii agregaţi ponderaţi se obţin prin raportarea nivelurilor absolute
agregate ponderat. Modelul de bază pentru construirea acestor indici este:
unde:
XP1/0 reprezintă indicele agregat ponderat al momentului sau perioadei de
timp 1 (de obicei, momentul sau perioada de timp curentă) faţă de
momentul sau perioada de timp 0 (de obicei, momentul sau perioada de
timp aleasă ca şi referinţă sau bază de raportare);
pi = factor de ponderare pentru nivelul „xi” înregistrat de către
caracteristica „i”; de exemplu, el poate îmbrăca forma frecvenţelor
absolute sau relative înregistrate pentru nivelul „xi” în diferite momente
sau perioade de timp.
330
preţuri sunt exprimate iniţial în RON, iar apoi în Euro, indicele de
preţuri ar trebui să înregistreze aceiaşi valoare în ambele situaţii);
monotonia – dacă unul sau mai multe valori ale factorului calitativ (de
exemplu, unul sau mai multe preţuri) cresc în perioada curentă şi nici
unul nu scade, atunci indicele agregat ponderat (de exemplu, cel al
preţurilor) ar trebui să crească;
reversibilitatea în timp – valoarea indicelui agregat ponderat calculat
ca raport între nivelul perioadei curente (perioada 1) şi cel al perioadei
de bază (perioada 0) trebuie să fie egală cu inversa valorii indicelui
agregat ponderat calculat ca raport între nivelul perioadei de bază şi cel
al perioadei curente:
331
- indicele Laspeyres;
- indicele Paasche;
- indicele Fisher;
- indicele Fisher;
- indicele Fisher;
unde:
X reprezintă variabila calitativă pentru care se determină indicele (de
exemplu, variabila preţurilor practicate la nivelul unei grupe de produse);
xi1 = nivelul absolut înregistrat de către elementul „i” la momentul sau
pentru perioada de timp 1;
xi0 = nivelul absolut înregistrat de către elementul „i” la momentul sau
pentru perioada de timp 0;
F reprezintă variabila cantitativă (variabila factorului de ponderare) luată
în considerare la determinarea indicelui (de exemplu, variabila cantităţilor
vândute la preţurile practicate pentru produsele alese în definirea variabilei
X);
fi0 = factorul de ponderare Laspeyres, constând în valoarea variabilei
calitative F pentru elementul „i” la momentul sau pentru perioada de timp
0 (de exemplu, cantitatea vândută din produsul „i” în perioada de
referinţă).
Un neajuns important al acestui indice constă în faptul că el nu
îndeplineşte condiţia de reversibilitate a factorilor:
Astfel:
3
http://www.eumed.net/cursecon/economistas/Laspeyres.htm
332
unde:
I1/0 (X · F) reprezintă indicele agregat general;
unde:
X reprezintă variabila calitativă;
xi1 = nivelul absolut înregistrat de către elementul „i” la momentul sau
pentru perioada de timp 1;
4
http://www.eumed.net/cursecon/economistas/Paasche.htm
333
xi0 = nivelul absolut înregistrat de către elementul „i” la momentul sau
pentru perioada de timp 0;
F reprezintă variabila cantitativă;
fi1 = factorul de ponderare Paasche, constând în valoarea variabilei
calitative F pentru elementul „i” la momentul sau pentru perioada de timp
1 (de exemplu, cantitatea vândută din produsul „i” în perioada curentă).
Nici indicele Paasche nu îndeplineşte condiţia de reversibilitate a
factorilor:
unde:
I1/0 (X · F) reprezintă indicele agregat general;
5
http://www.eumed.net/cursecon/economistas/irving_fisher.htm şi
http://www.econlib.org/library/Enc/bios/Fisher.html
334
Aşadar:
6
http://www.eumed.net/cursecon/economistas/Edgeworth.htm şi
http://www-history.mcs.st-andrews.ac.uk/Biographies/Edgeworth.html
335
Indicele Edgeworth nu îndeplineşte condiţia de reversibilitate a factorilor.
Aşadar:
Tabelul 9.1
Preţuri practicate, p Cantităţi vândute, q
Perioada 0 1 0 1
Produsul A 100 120 3 4,5
Produsul B 250 500 2 5,0
336
Factorul de ponderare este descris aici de variabila cantităţilor vândute
(q), acestea exprimând frecvenţele de manifestare a preţurilor practicate
(p).
Pentru realizarea calculelor necesare, este utilă construirea tabelului 9.2, în
care preţurile celor 2 produse sunt ponderate cu cantităţile vândute în
fiecare dintre cele 2 perioade considerate.
Tabelul 9.2
Preţuri Cantităţi
practicate, p vândute, q p0q0 p1q0 p1q1 p0q1
Perioada 0 1 0 1
Produsul A 100 120 3 4,5 300 360 540 450
Produsul B 250 500 2 5,0 500 1000 2500 1250
Total 800 1360 3040 1700
indicele Paasche:
indicele Fisher:
indicele Edgeworth:
337
indicele Drobisch:
338
Nivelul mediu
Nivelurile medii ale seriilor cronologice se determină în funcţie de tipul
variabilei de timp (T) după care sunt construite acestea.
Astfel, pentru seriile cronologice construite după o variabilă definită de
perioade sau intervale de timp, nivelul mediu se calculează ca o medie
aritmetică simplă a nivelurilor înregistrate pentru perioadele sau
intervalele de timp (t) considerate:
unde:
(Xt) reprezintă nivelul mediu al seriei cronologice de valori înregistrate
pentru perioadele de timp „t”;
xt = nivelul înregistrat de variabila studiată cronologic X în perioada de
timp „t”;
N = numărul de perioade de timp care definesc variabila de timp T.
Pentru seriile cronologice după o variabilă definită de momente de timp,
nivelul mediu se calculează ca o medie cronologică a nivelurilor
înregistrate pentru momentele de timp considerate.
Dacă distanţele de timp dintre momentele considerate sunt egale, atunci
media cronologică se poate calcula ca o medie simplă:
339
Sporul mediu
Sporul mediu reflectă modificarea medie în cifre absolute care s-a
înregistrat pe parcursul perioadei de timp pentru care este construită
repartiţia cronologică studiată. Desigur, se pot determina şi sporuri medii
parţiale pentru subperioade de timp care interesează în demersul cercetării
realizate.
Sporurile medii se calculează ca medii aritmetice ale sporurilor cu bază
mobilă:
Indicele mediu
Denumit şi ritm mediu, indicele mediu reflectă modificarea medie în cifre
relative care a avut loc pe parcursul perioadei de timp pentru care s-a
construit seria cronologică studiată. Desigur, se pot determina şi indici
medii parţiali pentru perioade mai mici de timp care interesează în
demersul cercetării realizate.
Pentru determinarea indicelui mediu se pot folosi trei metode de calcul:
metoda mediei geometrice;
metoda mediei parabolice;
metoda trendului exponenţial;
340
După cum se observă, în determinarea indicelui mediu prin această metodă
se ţine cont doar de valorile de la începutul şi de la sfârşitul perioadei
studiate, ceea ce face ca gradul de reprezentativitate al acestei statistici să
fie unul foarte scăzut.
Pentru exemplificare, să considerăm seria cronologică a profitului net
obţinut de firma „ABC” în perioada 2012-2017, conform tabelului 9.3.
Tabelul 9.3
Profitul net obţinut de firma
Anul „ABC” (mil. RON)
xt
2012 3,1
2013 3,4
2014 3,6
2015 4,5
2016 5,2
2017 5,8
341
Tabelul 9.4
t xt It/t-1
1 3,1 -
2 3,4 1,0968
3 3,6 1,0588
4 4,5 1,2500
5 5,2 1,1556
6 5,8 1,1154
Tabelul 9.5
i Xi Verificare
2012 3,1 3,1000
2013 3,4 3,1·1,1335 = 3,5139
2014 3,6 3, 5139·1,1335 = 3,9828
2015 4,5 3, 9828·1,1335 = 4,5144
2016 5,2 4, 5144·1,1335 = 5,1170
2017 5,8 5, 1170·1,1335 = 5,8000
Prin însumarea celor doi termeni ai relaţiei de mai sus pentru toate valorile
seriei cronologice studiate, se obţine:
342
Rezultă, prin urmare, că:
Suma din partea dreaptă a relaţiei astfel obţinută este egală cu suma
celor N termeni ai unei progresii geometrice cu raţia (It/t-1) şi primul
termen egal cu 1. Aşadar, relaţia se mai poate scrie:
Aşadar:
343
Tabelul 9.6
i Xi Verificare
2012 3,1 3,1
2013 3,4 3,1·1,1269 = 3,4934
2014 3,6 3,4934·1, 1269 = 3,9367
2015 4,5 3,9367·1, 1269 = 4,4364
2016 5,2 4,4364·1, 1269 = 4,9994
2017 5,8 4,9994·1, 1269 = 5,6339
Total 25,6 25,6000
344
Se ajunge astfel la posibilitatea unei estimări pe baza unui model de
regresie liniară. Conform relaţiilor de estimare specifice modelului general
de regresie liniară, valoarea estimată pentru parametrul log este:
unde:
7
Se are în vedere faptul că pentru o colectivitate de valori suma abaterilor individuale faţă de media lor
aritmetică este egală cu 0 (a se vedea proprietăţile mediei aritmetice expuse în capitolul 3 al lucrării).
345
cu condiţia ca:
Tabelul 9.7
Anul (t) i = t - 2004,5 i2 xi ln xi (ln xi) i
2012 -2,5 6,25 3,1 1,1314 -2,8285
2013 -1,5 2,25 3,4 1,2238 -1,8357
2014 -0,5 0,25 3,6 1,2809 -0,6405
2015 +0,5 0,25 4,5 1,5041 0,7520
2016 +1,5 2,25 5,2 1,6487 2,4730
2017 +2,5 6,25 5,8 1,7579 4,3946
Total 0,0 17,5 25,6 2,3150
Pe baza calculelor din tabelul 9.7 putem obţine valoarea indicelui mediu:
346
Conform relaţiilor de estimare specifice modelului general de regresie
liniară, valoarea estimată pentru parametrul ln este:
Tabelul 9.8
Anul i Xi Xiestimat =·i = ·( )i
2012 -2,5 3,1 4,1556 · 1,1414 (-2,5) = 2,9854
2013 -1,5 3,4 4,1556 · 1,1414 (-1,5) = 3,4076
2014 -0,5 3,6 4,1556 · 1,1414 (-0,5) = 3,8896
2015 +0,5 4,5 4,1556 · 1,1414 (+0,5) = 4,4397
2016 +1,5 5,2 4,1556 · 1,1414 (+1,5) = 5,0677
2017 +2,5 5,8 4,1556 · 1,1414 (+2,5) = 5,7844
Total 0 25,6 25,5745
unde:
mt reprezintă media mobilă calculată din câte k (număr par) termeni,
centrată la valoarea yt
348
Tabelul 9.9
Anul Trimestrul Vânzări Medii mobile
( )
2014 1 652 -
2 546 -
(652 : 2 + 546 + 893 + 769 + 712 : 2) / 4
3 893
= 722,500
(546 : 2 + 893 + 769 + 712 + 654 : 2) / 4
4 769
= 743,500
2015 1 712 757,875
2 654 770,750
3 900 804,625
4 865 844,500
2016 1 887 870,625
2 798 885,875
3 965 907,500
4 922 931,750
2017 1 1003 948,750
2 876 960,750
3 1023 -
4 960 -
Tabelul 9.10
Medii mobile din
Valori
câte 5 termeni
435 -
567 -
565 486,4
442 488,4
423 490,2
445 468,4
576 466,4
456 -
432 -
349
Figura 9.2
350
Y
Trendul
Timpul
1.06.2014 5.06.2015 30.05.2016 5.06.2017 1.06.2018
Variaţii sezoniere
Figura 9.3
Y Amplitudine
relativ
constantă a
oscilației
Timpul
Figura 9.4
Amplitudine
variabilă a
oscilației
Timpul
Figura 9.5
352
perioade de timp considerate: 2010-2015 şi 2015-2017. Caracterul ciclic al
variaţiei decurge din inegalitatea celor 2 perioade, în cadrul cărora se
manifestă variaţia oscilatorie a variabilei. Se remarcă, de asemenea,
duratele mai mari de 1 an ale acestor perioade de timp.
Y’
Trendul
Anul
2010 2015 2017
Variaţie ciclică
Figura 9.6
8
Ajustarea mecanică se face pe baza sporului mediu (în cadrul modelelor aditive) sau pe baza indicelui
mediu (în cadrul modelelor multiplicative). Metoda sporului mediu (prezentat în paragraful 9.1) este
aleasă atunci când se constată o progresie aritmetică a valorilor. Metoda indicelui mediu (prezentat, de
asemenea, în paragraful 9.1) este aleasă atunci când se constată o progresie geometrică a valorilor.
9
Ajustarea analitică se face pe baza unei funcții de regresie, variabila exogenă (independentă) fiind
variabila de timp.
353
mobile10) se face în funcție de observațiile reținute în urma analizei
grafice a evoluției fenomenului studiat;
c) Gruparea datelor într-o matrice corespunzătoare perioadelor de
sezonalitate;
d) Determinarea componentelor (aditive sau multiplicative) de
sezonalitate;
e) Eliminarea componentelor de sezonalitate.
Pentru exemplificare să considerăm datele din tabelul 9.11, privind
evoluția vânzărilor unei companii în perioada 2014-2017.
Tabelul 9.11
Vânzări ( )
Anul Trimestrul
- milioane lei -
2014 1 552
2 676
3 793
4 669
2015 1 573
2 721
3 828
4 692
2016 1 603
2 768
3 889
4 722
2017 1 642
2 809
3 934
4 763
10
A se vedea paragraful 9.1.
354
Figura 9.7
11
Pe baza faptului că media variabilei t* este egală cu 0.
355
Tabelul 9.12
12
Relația de calcul a coeficientului de regresie liniară se bazează pe proprietățile acestuia (a se vedea
capitolul 8).
356
Așadar, trendul vânzărilor este ajustat de funcția (a se vedea figura 9.8):
Figura 9.8
Ani
2014 552 676 793 669
2015 573 721 828 692
2016 603 768 889 722
2017 642 809 934 763
Medii
592,5 743,5 861,0 711,5
aritmetice
357
Tabelul 9.14 Determinarea valorilor de trend și a abaterilor valorilor
reale de la acestea
Anul Trimestrul
Ani
2014 -86,1618 25,9765 131,1147 -4,7471
2015 -112,6088 23,5294 118,6676 -29,1941
2016 -130,0559 23,0824 132,2206 -46,6412
2017 -138,5029 16,6353 129,7735 -53,0882
Medii
aritmetice
(componente -116,8324 22,3059 127,9441 -33,4176
aditive de
sezonalitate)
358
În tabelul 9.16 sunt determinate valorile desezonalizate ale vânzărilor, iar
în figura 9.9 este prezentată evoluția desezonalizată a acestora.
Se poate observa că:
- Media aritmetică a componentelor aditive de sezonalitate este egală cu 0,
ceea ce înseamnă că ele satisfac cerința de compensare între ele;
- O consecință a compensării componentelor aditive de sezonalitate este
constă în faptul că media aritmetică a valorilor desezonalizate ale
vânzărilor este egală cu media aritmetică a valorilor reale ale acestora
(727,125);
- Trendul valorilor desezonalizate este puțin diferit de trendul valorilor
reale ale vânzărilor. Se întâmplă așa deoarece variația cronologică este
explicată, așa cum s-a arătat deja, și de o componentă aleatoare (yA).
359
Figura 9.9 Evoluția desezonalizată a vânzărilor
360
DESCRIEREA
STATISTICĂ A
VARIAŢIEI
ÎN SPAȚIU 1 0.
(TERITORIALE)
OBIECTIVELE CAPITOLULUI
În acest capitol vor fi prezentate statisticile care se pot folosi pentru
descrierea variaţiei în spațiu sau teritoriale, ajutând la:
înţelegerea utilității cunoaşterii variaţiei teritoriale la nivelul
fenomenelor studiate statistic;
stăpânirea metodelor disponibile pentru descrierea statistică a variaţiei
în spațiu în forma nivelurilor, volumelor şi decalajelor absolute sau
relative;
înţelegerea modului în care se construiesc indicii teritoriali agregaţi
ponderaţi şi cunoaşterea unor aplicaţii mai importante ale acestora.
361
362
Principalele particularităţi ale statisticii teritoriale izvorăsc din faptul că în
cadrul ei se operează, de regulă, cu unităţi de observare cu grade mari de
complexitate. Un judeţ sau o regiune sunt astfel, de exemplu, unităţi foarte
complexe, care sunt din anumite puncte de vedere independente în raport
cu celelalțe unități teritoriale similare, în timp ce se află totodată în
anumite relații de dependență în raport cu ansamblurile mai mari
(macroregiuni, țări etc.) din care fac parte structural după anumite criterii
administrativ-teritoriale.
Descrierea statistică teritorială poate fi realizată la nivel:
naţional;
internaţional.
Indiferent de nivelul la care se desfășoară, în descrierea statistică
teritorială se poate opta pentru o abordare a diviziunilor teritoriale ca
unități independente, rezultatele acestui tip de demers constând în anumite
studii monografice, sau pentru determinarea unor mărimi relative de
coordonare, cu ajutorul cărora se compară nivelurile înregistrate de
fenomenele studiate în spaţii diferite. În cel de-al doilea caz,
comparabilitatea, ca și legătură logică de condiţionare, corespondenţă,
cauzalitate sau de altă natură între fenomenele studiate (a se vedea
capitolul 2), trebuie să fie un criteriu de bază în selectarea datelor statistice
pe baza cărora se purcede la cercetarea descriptivă.
La nivel național, descrierea statistică poate avea în vedere o organizare
administrativă sau una reclamată de anumite exigențe (de pildă,
armonizarea statisticilor regionale la nivelul Uniunii Europene) a
teritoriului țării în cauză.
La nivel internaţional, descrierea statistică este chemată să răspundă în
primul rând nevoilor de realizare a unor analize comparative între ţări,
continente sau alte spaţii regionale.
Pentru ca diferitele niveluri înregistrate teritorial să poată fi comparabile,
trebuie îndeplinite următoarele două condiții:
Omogenitatea – ceea ce se compară trebuie să aibă la bază o
metodologie unitară de determinare: aceeaşi definiţie şi aceeaşi sferă
teamtică de cuprindere;
363
Organizarea administrativă a teritoriului României
Din punct de vedere administrativ, teritoriul României este împărţit în 1:
Sate. Acestea constituie cele mai mici unități administrativ-teritoriale
ale României, având caracteristicile aşezărilor de tip rural;
Comune. Ele sunt rezultate ale comunității de interese şi tradiţii ale
populaţiei rurale unite în cadrul lor. În componența lor poate intra unul
sau mai multe sate. Unul dintre aceste sate joacă rolul de reşedinţă de
comună;
Oraşe. Reprezintă concentrări umane de tip urban, ceea ce înseamnă că
sunt caracterizate printr-o structură profesională a populaţiei în cadrul
căreia predomină componenta ocupată în ramuri neagricole;
Municipii. Un municipiu este un oraş cu un rol economic, social,
politic şi cultural mai însemnat, motiv pentru care deține, de regulă și o
funcție administrativă deosebită;
Judeţe. Acestea constituie unitățile administrativ-teritorială tradiţionale
din România, fiind alcătuite din oraşe şi comune, după criterii
geografice, economice, social-politice sau care țin de legăturile
culturale şi tradiţionale ale populaţiei acestora.
Conform Legii nr. 2 din 16 februarie 1968 cu modificările ulterioare,
organizarea administrativ-teritorială a României cuprinde în prezent 41 de
judeţe2 la care se adaugă municipiul Bucureşti.
Ca unităţi teritoriale fără funcție administrativă au fost create 8 regiuni de
dezvoltare, care cuprind fiecare mai multe judeţe. De asemenea, în scopul
asigurării colectării, elaborării şi difuzării statisticilor regionale
armonizate la nivelul Uniunii Europene au fost create 4 macroregiuni. Nici
aceste unități teritoriale nu au funcție administrativă.
Cele patru macroregiuni sunt constituite conform Legii privind stabilirea
nomenclatorului unităţilor teritoriale statistice din România şi cerinţelor
1
Cf.: Repere economice şi sociale regionale: Statistică teritorială Institutul Naţional de Statistică al
României, 2018, p. 7,
http://www.insse.ro/cms/files/Publicatii_2018/84.Repere_economice_si_sociale_Statistica_teritoriala/Rep
ere_economice_si_sociale_regionale_statistica_teritoriala.pdf (accesat în 19 noiembrie 2018).
2
Inițial, organizarea teritorial-administrativă a României cuprindea doar 39 de județe la care se adăuga
municipiul București (a se veeda: https://lege5.ro/Gratuit/he2daojs/legea-nr-2-1968-privind-organizarea-
administrativa-a-teritoriului-republicii-socialiste-romania - accesat în 19 noiembrie 2018). Judeţele
Călăraşi și Giurgiu au fost declarate ca unități teritorial-administrative abia în anul 1981 (cf.: Bogdan
VLADU. De la un sfânt la un cioban. Provenienţa numelui judeţului Giurgiu, învăluită în mister. Articol
publicat în 11 ianuarie 2013 la adresa online: https://adevarul.ro/locale/giurgiu/de-sfant-cioban-
provenienta-numelui-judetului-giurgiu-invaluita-mister-1_50efdf4356a0a6567e697cd7/index.html -
accesat în 19 noiembrie 2018).
364
Regulamentului CE nr. 1059 din 2003 al Parlamentului şi al Consiliului
European privind stabilirea unui nomenclator comun al unităţilor
teritoriale de statistică (NUTS), publicat în Jurnalul Oficial al Uniunii
Europene nr. L 154 din 2003.
Prin rectificarea apărută în Legea nr. 315 din 28 iunie 2004 privind
dezvoltarea regională în România, au fost redenumite trei regiuni, după
cum urmează:
Regiunea de dezvoltare Sud a fost redenumită Sud – Muntenia;
Regiunea de dezvoltare Sud – Vest a fost redenumită Sud – Vest
Oltenia;
Regiunea de dezvoltare Bucureşti a fost redenumită Bucureşti – Ilfov.
În tabelul 10.1 sunt prezentate cele 4 macroregiuni, precum și cele 8
regiuni de dezvoltare ale României3, împreună cu județele lor componente.
Tabelul 10.1
Regiunea de
Macroregiunea Județe componente
dezvoltare
Bihor
Bistriţa-Năsăud
Nord – Vest Cluj
(șase județe) Maramureş
Satu Mare
Sălaj
Macroregiunea unu
Alba
Braşov
Centru Covasna
(șase județe) Harghita
Mureş
Sibiu
3
În acest tabel se poate observa faptul că fiecare macroregiune cuprinde câte două regiuni de dezvoltare.
365
Bacău
Botoşani
Nord – Est Iaşi
(șase județe) Neamţ
Suceava
Vaslui
Macroregiunea doi
Brăila
Buzău
Sud – Est Constanţa
(șase județe) Galaţi
Tulcea
Vrancea
Argeş
Călăraşi
Dâmboviţa
Sud – Muntenia
Giurgiu
(șapte județe)
Ialomiţa
Macroregiunea trei Prahova
Teleorman
Bucureşti – Ilfov
(un județ plus Ilfov
municipiul Municipiul Bucureşti
București)
Dolj
Gorj
Sud – Vest Oltenia
Mehedinţi
(cinci județe)
Olt
Macroregiunea patru Vâlcea
Arad
Vest Caraş-Severin
(patru județe) Hunedoara
Timiş
366
10.1. Seriile de spațiu sau teritoriale – instrumente de bază pentru
prezentarea datelor în cadrul statisticii teritoriale
O serie de spațiu sau teritorială este formată din două şiruri de date:
un şir format din unităţile teritoriale avute în vedere;
un şir de date cu valorile înregistrate de către variabila statistică la
nivelul acestor unități teritoriale.
În acest fel, o serie teritorială exprimă valorile înregistrate de către una sau
mai multe variabile statistice, de regulă ordonate în raport cu diviziunile
de spațiu considerate. Un exemplu este prezentat în tabelul 10.2, în care
sunt prezentate date privind populația înregistrată în anii 2000 și 2018 la
nivelul primelor 10 țări ale lumii în funcție de valorile anului 2018.
Tabelul 10.2
Primele 10 țări ale lumii în funcție de mărimea
populației4
Nivel
Creștere în
Populația în Populația în prognozat
# Țara perioada 2000 –
anul 2000 anul 2018 pentru anul
2018 (%)
2050
4
https://www.internetworldstats.com/stats8.htm (accesat în 20 noiembrie 2018)
367
În descrierea statistică a variaţiei teritoriale sunt avute în vedere:
diferențele de nivel care au loc de la o unitate teritorială la alta.
Asemenea diferențe pot fi evidenţiate sub forma decalajelor, a
indicilor teritoriali, a ratelor de decalaj sau a indicilor teritoriali
agregaţi simpli;
diferențele de structură care se înregistrează de la o unitate teritorială
la alta. Asemenea diferențe pot fi evidenţiate cu ajutorul indicilor
teritoriali agregaţi ponderaţi.
unde:
Vi reprezintă volumul absolut al grupului celor „i” unități teritoriale
considerate;
xt = nivelul absolut al variabilei X, înregistrat pentru unitatea teritorială
„t”.
Decalajele absolute sunt diferenţele înregistrate între nivelurile absolute
care caracterizează două unități teritoriale.
368
Tabelul 10.35
Macroregiune Regiune Județ Număr licee
BIHOR 53
BISTRITA-NASAUD 28
CLUJ 67
NORD-VEST
MARAMURES 45
SATU MARE 32
SALAJ 22
Macroregiunea 1
ALBA 36
BRASOV 42
COVASNA 18
CENTRU
HARGHITA 39
MURES 38
SIBIU 35
BACAU 37
BOTOSANI 31
IASI 56
NORD-EST
NEAMT 38
SUCEAVA 42
VASLUI 25
Macroregiunea 2
BRAILA 23
BUZAU 33
CONSTANTA 67
SUD-EST
GALATI 35
TULCEA 19
VRANCEA 24
ARGES 44
CALARASI 17
DAMBOVITA 30
SUD MUNTENIA GIURGIU 14
Macroregiunea 3 IALOMITA 19
PRAHOVA 50
TELEORMAN 21
ILFOV 18
BUCURESTI
BUCURESTI 117
DOLJ 45
GORJ 34
SUD-VEST OLTENIA MEHEDINTI 20
OLT 31
Macroregiunea 4 VALCEA 27
ARAD 41
CARAS-SEVERIN 29
VEST
HUNEDOARA 33
TIMIS 59
5
Datele au fost obținute de pe portalul de statistici teritoriale ale Institului Național de Statistică al
României: http://edemos.insse.ro/portal
369
Decalajele absolute se determină după relația generală:
unde:
i/j reprezintă decalajul absolut al unități teritoriale „i” față de unitatea
teritorială „j”;
xi = nivelul absolut înregistrat de variabila X pentru unitatea teritorială „i”;
xj = nivelul absolut înregistrat de variabila X pentru unitatea teritorială „j”.
Aceste decalaje se pot determina și între două volume absolute.
Pentru exemplificarea descrierii statistice în cifre absolute a variaţiei
teritoriale de nivel să considerăm datele din tabelul 10.3, privind numărul
de licee înregistrate în anul 2016 la nivelul unităților administrativ-
teritoriale ale României.
Volumul absolut al acestei variabile statistice la nivelul celor două regiuni
ale macroregiunii 1 (cuprinzând fiecare câte 6 județe) este:
370
Indicii de variaţie teritorială
Un indice de variaţie teritorială arată de câte ori nivelul înregistrat de
variabila statistică pentru o unitate teritorială este mai mare decât nivelul
înregistrat de aceasta pentru o unitate teritorială considerată ca şi bază de
raportare:
unde:
i/b reprezintă de variație teritorială pentru unitatea „i”;
xi = nivelul absolut înregistrat de variabila X pentru unitatea teritorială „i”;
xb = nivelul absolut înregistrat de variabila X pentru unitatea teritorială
considerată ca şi bază de raportare („b”).
Pentru exemplificare este calculat mai jos indicele de variație teritorială a
regiunii nord-vest prin raportare la regiunea centru pentru datele din
tabelul 10.3:
În 2016 numărul de licee din regiunea nord-vest era mai mare de 1,1875
ori față de numărul de licee din regiunea centru.
unde:
Ri/b reprezintă rata decalajului teritorial pentru pentru unitatea „i”;
xi = nivelul absolut înregistrat de variabila X pentru unitatea teritorială „i”;
371
xb = nivelul absolut înregistrat de variabila X pentru unitatea teritorială
considerată ca şi bază de raportare („b”).
i/b = decalajul absolut al unității teritoriale „i” față de unitatea teritorială
considerată ca şi bază de raportare („b”);
i/b = indicele de variație teritorială al unității teritoriale „i” față de unitatea
teritorială considerată ca şi bază de raportare („b”).
Pentru exemplificare este calculată mai jos rata decalajului regiunii nord-
vest prin raportare la regiunea centru pentru datele din tabelul 10.3:
În 2016 numărul de licee din regiunea nord-vest era mai mare cu 18,75%
față de numărul de licee din regiunea centru.
372
BIBLIOGRAFIE
SELECTIVĂ
373
374
Tudorel ANDREI, Stelian STANCU, Statistica - Teorie şi aplicaţii,
Editura ALL, Bucureşti, 1995.
Constantin ANGHELACHE, Statistică teoretică şi economică – teorie şi
aplicaţii, Editura Economică, Bucureşti, 2004.
Mariana-Elena BALU, Bazele statisticii, Editura Fundaţiei „România de
Mâine”, Bucureşti, 2007.
Tudor BARON, Constantin ANGHELACHE, Emilia ŢIŢAN, Statistică,
Editura Economică, Bucureşti, 1996.
Maria BĂDIŢĂ, Silvia Elena CRISTACHE, Statistică – aplicaţii
practice, Editura Mondan, Bucureşti, 1998.
Peter C. BELL, Peter E. F. NEWSON, Statistics for Business with
Spreadsheets: Text and Cases, 2nd edition, Scientific Press, South San
Francisco, California, 1992.
Elena BIJI, Tudor BARON, Statistică teoretică şi economică, Editura
didactică şi pedagogică, Bucureşti, 1995.
Ken BLACK, Business statistics. An introductory course, West Publishing
Company, 1999.
Harvey J. BRIGHTMAN, Howard SCHNEIDER, Statistics for Business
Problem Solving, South-Western Publishing Company, 1992.
Remus BUTĂNESCU, Statistică în afaceri (manual pentru uzul
studenţilor), Editura „Mira Design” Sibiu, 2000.
Iosif Constantin DRĂGAN, Mihai C. DEMETRESCU, Practica
prospectării pieţii, Editura Europa Nova, Bucureşti, 1996.
Liliana DUGULEANĂ, Bazele statisticii economice, Editura C.H. Beck,
Bucureşti, 2012.
John E. FREUND, Ronald E. WALPOLE, Mathematical Statistics, 4th
edition, Prentice-Hall Inc., 1987.
Morris HAMBURG, Basic Statistics: A Modern Approach, 3rd edition,
Harcourt Brace Jovanovich, 1985.
Donald L. HARNETT, Introduction to Statistical Methods, 3rd edition,
Addison-Wesley Longman Publishing Company, 1982.
Dumitru IACOB, Statistica, Editura Universităţii „Ştefan cel Mare”,
Suceava, 2000.
375
Alexandru ISAIC-MANIU, Constantin MITRUŢ și Vergil VOINEAGU,
Statistica pentru managementul afacerilor. Ediţia a 2-a, Editura
Economică, Bucureşti, 1999.
Alexandru ISAIC-MANIU Constantin MITRUŢ și Vergil VOINEAGU,
Statistică. Ediţia a 2-a. Editura Universitară, Bucureşti, 2004.
Elisabeta JABA, Ana GRAMA, Analiza statistica cu SPSS sub Windows,
Editura Polirom, Iaşi, 2004.
Elisabeta JABA, Statistica. Ediţia a 2-a, Editura Economică, Bucureşti,
2000.
Gerald KELLER, Brian WARRACK, Henry BARTEL, Statistics for
management and economics, 3rd edition, Duxbury Press, 1994.
Daniel J. LEVITIN, A Field Guide to Lies and Statistics: A Neuroscientist
on How to Make Sense of a Complex World. Penguin Books, Penguin
Random House UK, 2018.
Ludwig von MISES, The Ultimate Foundation of Economic Science, Van
Nostrand Edition, 1962, http://www.mises.org
Neil J. SALKIND, Statistics for People who (think They) Hate Statistics,
2nd edition, Sage Publications, Inc., 2003,
http://books.google.com/books?id=naHRZCYkJ3sC
Doina Maria SIMION, Statistică descriptivă, Editura Universităţii
„Lucian Blaga” din Sibiu, 2002.
Murray R. SPIEGEL, David P. LINDSTROM, Statistics, McGraw-Hill
Professional, 2000, http://books.google.com/books?id=KdDzrQGAlnkC
Liliana SPIRCU, Mihai CALCIU, Tiberiu SPIRCU, Analiza Datelor de.
Marketing, Editura ALL, Bucureşti, 1994.
Vladimir TREBICI (coord.), Mică enciclopedie statistică, Editura
Stiinţifică şi Enciclopedică, Bucureşti, 1985.
Emilia ŢIŢAN, Simona GHIŢĂ, Angelica BĂCESCU-CĂRBUNARU,
Bazele statisticii, Editura Meteora Press, Bucureşti, 2002.
*** Anuarul statistic al Romaniei, Institutul Naţional de Statistică,
Bucureşti, http://www.insse.ro
*** Buletinul Statistic Lunar, Institutul Naţional de Statistică, Bucureşti,
http://www.insse.ro
*** Repere economice şi sociale regionale: Statistică teritorială,
Institutul Naţional de Statistică al României, 2018.
376
*** Eurostat Yearbook, Serviciul Eurostat al Comisiei Europene,
http://ec.europa.eu/eurostat/statistics-
explained/index.php/Europe_in_figures_-_Eurostat_yearbook
377
378