Sunteți pe pagina 1din 31

Statistică şi Econometrie

– suport de curs –

Radu A. Păun

1
Cuprins
Cap. 1 – Introducere în statistică ............................................................................................... 3
Cap. 2 – Descrierea numerică şi grafică a datelor ..................................................................... 9
Indicatori pentru caracterizarea tendinţei centrale a seriilor de distribuţie ...................... 13
Mărimi medii ................................................................................................................... 14
Indicatori medii de poziţie ............................................................................................... 17
Indicatori pentru caracterizarea dispersării unei serii de distribuţie .................................. 20
Indicatori pentru caracterizarea formei distribuţiei............................................................ 26
Indicatori ai asimetriei ..................................................................................................... 26
Indicatori ai aplatizării ..................................................................................................... 28
Teste grilă ................................................................................................................................ 29
Cap. 3 – Probabilităţi şi distribuţii ........................................................................................... 32
Conceptele de experiment, eveniment şi probabilitate...................................................... 32
Variabile aleatoare .............................................................................................................. 35
Legea normală: N(m, σ2) ...................................................................................................... 37
Elemente suplimentare ....................................................................................................... 41
Cap. 4 – Sondajul statistic........................................................................................................ 42
Noţiuni generale .................................................................................................................. 42
Tipuri de sondaj ................................................................................................................... 45
Procesul de estimare ........................................................................................................... 51
Determinarea volumului eşantionului ................................................................................ 54
Cap. 5 – Analiza corelaţiei dintre variabile ............................................................................. 59
Testul χ2 (hi pătrat) .............................................................................................................. 60
Metoda tabelului frecvenţelor (a tabelului de corelaţie sau de contingenţă) .................... 65
Metoda grafică .................................................................................................................... 66
Covarianţa ........................................................................................................................... 67
Coeficientul corelaţiei liniare .............................................................................................. 68
Cap. 6 – Analiza de regresie .................................................................................................... 72
Modelul simplu de regresie (cu o singură variabilă independentă) .................................... 75

Principalele două surse pe care este bazat acest suport de curs sunt Statistică, Teorie şi AplicaŃii de Tudorel
Andrei, Stelian Stancu şi Daniel Traian Pele, Editura Economică, ed. 2, 2002 şi Statistică de Alexandru Isaic-
Maniu, Constantin MitruŃ şi Vergil Voineagu, Editura Universitară, 2003. Alte surse pentru acest curs le-au
constituit Statistică, de Eugenia Lilea, Mihaela Vatui, Doina Boldeanu şi Zizi Goschin, Principles of Statistics de
M.G. Bulmer, Dover Publications, 1979 şi A Guide to Econometrics de Peter Kennedy, The MIT Press, ed. 5, 2003

2
Cap. 1 – Introducere în statistică

Obiectul de studiu al statisticii îl reprezintă fenomenele de masă – fenomene


complexe, atipice, rezultate din acţiunea combinată şi reperată a unui număr mare de factori
de influenţă. Statistica studiază fenomenele de masă din punct de vedere cantitativ şi le
interpretează ca fenomene probabile folosind raţionamente de tip inductiv şi utilizând
detaliul individual pentru a propune caracterizări de ansamblu. Prin urmare, generalizările
deduse dintr-o investigaţie statistică sunt adevărate doar în medie, fiind pus în evidenţă doar
comportamentul tipic al tuturor obiectelor luate în studiu, nu comportamentul elementelor
individuale, luate separat.

Noţiuni fundamentale ale statisticii


o Colectivitatea statistică
Colectivitatea statistică, denumită în mod frecvent şi populaţia statistică, reprezintă
principala formă sub care se delimitează şi se definesc fenomenele de masă, desemnând
totalitatea elementelor de aceeaşi natură care sunt supuse studiului statistic. Dat fiind
modul de definire al populaţiei statistice, elementele care formează colectivitatea sunt (sau
ar trebui să fie) omogene. Astfel, chiar dacă populaţia statistică prezintă variabilitate iar
unităţile statistice sunt diferite, informaţiile culese de la aceste unităţi trebuie să fie
comparabile. De aceea, una dintre problemele esenţiale ale unei cercetări statistice o
reprezintă delimitarea colectivităţii statistice în timp şi spaţiu.

Exemplu: Dacă scopul unui sondaj îl reprezintă măsurarea preferinţelor electorale la nivelul
unui oraş la un anumit moment, atunci colectivitatea statistică va fi reprezentată doar de
persoanele cu drept de vot din acel oraş (rezidenţi ai oraşului cu vârsta peste 18 ani). Prin
urmare, persoanele minore sau cu domiciliul în afara localităţii respective, care nu au drept
de vot, ar trebui excluse din populaţia statistică.

Exemplu: Dacă dorim să colectăm opinii ale consumatorilor privind calitatea unui anumit tip
de telefon mobil, atunci populaţia statistică va trebui probabil să cuprindă acele persoane
care au folosit sau folosesc acel tip de telefon, nu toţi utilizatorii de telefoane mobile. Dacă
însă se are în vedere lansarea unui nou tip de telefon, un sondaj care să încerce măsurarea
aşteptărilor consumatorilor ar trebui să se adreseze atât celor care posedă un telefon mobil
(indiferent de model, producător etc.), cât şi clienţilor potenţiali.

o Unitatea statistică
Unitatea statistică este entitatea (persoana, obiectul, evenimentul, agentul
economic etc.) purtătoare a informaţiei. Unităţile statistice pot fi simple (de exemplu,
persoana fizică, angajatul, produsul etc.) sau complexe, formate din mai multe unităţi
simple, organizate în funcţie de anumite criterii (de exemplu, gospodăria, grupa de studenţi,
firma, judeţul etc.).

o Caracteristica statistică
Denumită şi variabila statistică, caractestistica statistică desemnează însuşirea,
trăsătura sau proprietatea comună tuturor unităţilor statistice dintr-o populaţie, care capătă
valori diferite de la o unitate la alta şi care este măsurată prin investigaţia statistică.

3
Exemple: Vârsta, greutatea, înălţimea, nivelul studiilor sau nivelul venitului unei perdoane,
cifra de afaceri a unei întreprinderi.

Caracteristicile statistice se mai numesc variabile statistice întrucât au proprietatea


de a-şi modifica valoarea de la o unitate la alta. Variabilele statistice se pot clasifica după
anumite o serie de criterii.
Astfel, după modul de exprimare putem distinge variabile calitative, exprimate prin
cuvinte care desemnează apartenenţa la o categorie, şi variabile cantitative, exprimate
numeri). La rândul lor, variabilele calitative pot fi nominale sau ordinale. Variabilele calitative
nominale nu implică o anumită ordine între valori, în timp ce variabilele calitative ordinale
presupun existenţa unei relaţii de ordine, a unei ierarhii.
Exemplu: Starea civilă este o variabilă calitativă, care poate lua valorile “celibatar”,
“căsătorit”, “văduv”, “divorţat”. Întrucât între aceste valori nu există o ordine anume,
variabila stare civilă este o variabilă calitativă nominală. Un alt exemplu de variabilă
calitativă nominală îl reprezintă culoarea ochilor, sexul, ocupaţia.

Exemplu: Nivelul studiilor poate fi exprimat prin numărul de ani petrecuţi în sistemul de
învăţământ, caz în care avem de-a face cu o variabilă cantitativă, sau prin alegerea unuia din
posibilele răspusuri: „studii primare”, „studii gimnaziale”, „studii liceale”, „studii postliceale”,
„studii universitare”, „studii postuniversitare – masterat” şi „studii postuniversitare –
doctorat”, caz în care avem de-a face cu o variabilă calitativă ordinală.

Atenţie însă, este de dorit să se evite atribuirea unor valori numerice variabilelor
calitative, fie ele şi ordinale. De exemplu, pentru nivelul studiilor unei persoane, dacă
atribuim studiilor liceale valoarea 3 şi celor universitare valoarea 5, putem afirma că
facultatea oferă un nivel de studii cu 67% mai ridicat decât liceul? În aceeaşi ordine de idei,
dacă atribuim studiilor doctorale valoarea 7, înseamnă acest lucru că diferenţa de instruire
dintre aceste studii şi cele universitare (valoare numerică a diferenţei 2) este egală cu
diferenţa de pregătire dintre studiile universitare şi cele liceale (valoarea diferenţei tot 2)?
Evident, nu. Concluzia care se poate trage de aici este aceea că variabilele calitative ordinale
implică existenţa unei ierarhii, dar că pe aceste scale nu are sens definirea distanţei între
valorile variabilei calitative ordinale.
După cardinalul mulţimii observaţiilor, există variabile statistice binare (alternative),
când spaţiul de observaţii e compus din două valori (0/1, masculin/feminin, rural/urban),
variabile statistice cu un număr finit de valori numerice (aici se încadrează variabilele
calitative şi cele cantitative discrete) şi variabile cantitative continue, când mulţimea
specifică a valorilor individuale este un interval de numere reale. Acest ultim tip de variabile
statistice este rar folosit din raţionamente practice şi datorită impreciziei măsurării.

Exemplu: Teoretic vorbind, înălţimea unei persoane este o variabilă cantitativă continuă. În
practică se va aplica însă o aproximare suficient de bună, de exemplu în centimetri, şi se va
folosi ca o variabilă cantitativă discretă (să zicem, între 140cm şi 230cm).

o Variabilele aleatoare
Variabilele aleatoare reprezintă o clasă distinctă de variabile întâlnită în cercetările
statistice, prin intermediul cărora evenimentele pot fi descrise cu ajutorul unor valori

4
numerice reale. În general, prin variabilă aleatoare se înţelege o funcţie reală de evenimente
elementare care, în raport cu rezultatul unui eveniment, poate lua o valoare reală dintr-o
mulţime bine definită. Din cauza factorilor întâmplători care influenţează evenimentul,
valoarea variabilei aleatoare nu poate fi cunoscută înaintea realizării experimentului.

Exemplu: Să presupunem că experimentul este reprezentat de aruncarea unui zar. Cu toate


că avem de-a face cu un experiment relativ simplu, nu putem şti dinainte ce număr apare în
urma aruncării pentru că rezultatul depinde de factori întâmplători. Ce ştim însă este că
mulţimea valorilor posibile pentru această variabilă aleatoare este 1, 2, 3, 4, 5 sau 6. Mai
ştim că (pentru un zar nemăsluit) probabilitatea de apariţie a fiecăreia dintre aceste valori
este 1/6.

Datorită celor de mai sus, reprezentarea unei variabile aleatoare se poate face sub
 x1 x 2 ... xn 
forma X   , unde pi reprezintă probabilitatea ca variabila X să ia valoarea xi.
 p1 p 2 ... p n 
pi=1 este probabilitatea evenimentului sigur, pi=0 este probabilitatea evenimentului
imposibil. Pentru exemplul zarului de mai sus, variabila aleatoare este complet determinată
(se numeşte astfel când se cunosc toate valorile şi toate probabilităţile), dar acest lucru nu
este foarte întâlnit în practică.

Culegerea datelor statistice


Orice investigaţie statistică se bazează pe date, iar culegerea acestor date se
realizează prin diverse metode: observări totale, numite şi exhaustive, care cuprind în
cercetarea statistică toate unităţile colectivităţii statistice, sau observări parţiale, care
presupun culegerea de date de la un număr redus de unităţi din populaţie, dar numărul este
stabilit după criterii precise.
Culegerea datelor se poate realiza prin observări directe, când înregistrarea datelor
se face de către operator de la unităţile colectivităţii, sau indirecte, când datele se preiau de
la surse care au consemnat anterior fenomenul studiat.
Principalele metode de culegere a datelor sunt:
- Recensământul: Cea mai veche metodă de observare statistică, prin intermediul
căreia se culeg date de la toate unităţile colectivităţii. Date fiind costurile ridicate,
recensămintele au un caracter periodic. De exemplu, recensământul populaţiei se
realizează din 10 în 10 ani. Documentele istorice arată că primele recensăminte au
fost organizate în antichitate (Egipt, 3000 IC, China 2238 IC). În România, primul
recensământ modern a avut loc în anul 1838, ultimul recensământ al populaţiei şi
locuinţelor a avut loc în martie 2002, iar următorul astfel de recensământ va fi
organizat în martie 2011.
- Rapoartele statistice: Observări totale, permanente, prin intermediul cărora se culeg
date referitoare la anumite procese şi fenomene economice din domeniile de
activitate ale agenţilor economici. Este vorba, de exemplu, de raportările pe care
firmele trebuie să le depună cu privire la capitalul fix, forţa de muncă, materii prime
şi materiale.
- Sondajul statistic: Metodă de culegere a datelor prin completarea unui chestionar de
către un eşantion reprezentativ extras din populaţia de interes. Sondajul statistic
este caracterizat de costuri mult reduse faţă de recensământ, dar utilitatea
informaţiilor obţinute depinde de gradul de reprezentativitate al eşantionului.

5
- Ancheta statistică: Formă de observare parţială care, spre deosebire de sondaj, nu
presupune reprezentativitatea eşantionului. De exemplu, chestionarul este
completat în cadrul târgurilor şi expoziţiilor.
- Observarea părţii principale (a masivului principal): Metodă operativă de culegere
parţială a datelor doar de la cele mai semnificative unităţi ale colectivităţii (masivul
principal). Evident, subiectivitatea criteriilor după care este ales masivul principal,
cât şi subiectivitatea unităţilor din acest masiv, pot constitui impedimente majore în
alegerea acestei metode. Pe de altă parte, avantajul principal îl constituie
operativitatea şi rapiditatea observării.
- Monografia: Metodă de observare aprofundată a fenomenelor şi progreselor care
au loc în activitatea unui agent economic sau grup de agenţi economici. Monografia
presupune nu doar culegerea, ci şi interpretarea datelor.

Cercetarea statistică
Cercetarea statistică reprezintă un ansamblu complex de activităţi. Paşii ce sunt
urmaţi, în general, în cercetările statistice pot fi rezumaţi după cum urmează:
- Observarea statistică a fenomenului studiat (culegerea datelor). Aceasta este o
etapă fundamentală în procesul cercetării statistice, deoarece calitatea cercetării
depinde într-o mare măsură de cantitatea şi calitatea informaţiilor culese.
- Prelucrarea şi modelarea statistică a datelor culese, pe baza unei teorii adecvate
fenomenului studiat. Astfel, asupra datelor pot fi aplicate metode din categoria
statisticii descriptive şi analizei primare a datelor sau a statisticii inferenţiale.
- Analiza şi interpretarea rezultatelor obţinute.

Statistica descriptivă şi analiza primară a datelor: sintetizează masivele de date


printr-un număr restrâns de indicatori, pentru caracterizarea diverselor aspecte ale
populaţiei sau eşantionului. Se realizează astfel clasificarea şi gruparea unităţilor statistice
după diverse criterii, caracterizarea nivelului mediu şi a tendinţei centrale, analiza dispersării
unităţilor statistice, măsurarea dependenţei dintre diverse caracteristici etc. Rolul statisticii
descriptive şi al analizei datelor este de a reduce masivele de date la un număr restrâns de
indicatori, de a pune în evidenţă anumite proprietăţi ale fenomenului analizat, de a formula
anumite ipoteze în aplicarea statisticii inferenţiale.
Statistica inferenţială: asigură caracterizarea populaţiilor totale prin extinderea la
nivelul acestora a rezultatelor obţinute la nivelul subpopulaţiilor/eşantioanelor. Prin urmare,
principalele etape ale statisticii inferenţiale sunt:
- estimarea parametrilor populaţiei pe baza rezultatelor obţinute prin prelucrarea
datelor de la nivelul unei subpopulaţii sau a eşantionului prelevat;
- verificarea ipotezelor statistice;
- efectuarea de previziuni, luând în considerare dependenţele dintre variabile şi seriile
de date disponibile.

Serii de date
Seriile de date pot fi de mai multe feluri, în funcţie de cercetarea statistică efectuată.
Astfel, statisticianul poate lucra cu:
- Date cronologice, numite şi serii de timp (eng. time series data) – Culese, în general,
din aria macroeconomică, acestea reprezintă evoluţia unor caracteristici (variabile)
în timp. Forma uzuală a seriilor de timp este:

6
Timp t 1 t2 … tj … tm
Variabila x x1 x2 … xj … xm
Variabila y y1 y2 … yj … ym

Frecvenţa datelor depinde de variabila măsurată, datele putând reprezenta serii


zilnice, săptămânale, lunare, trimestriale, anuale etc. De exemplu, cursul de schimb
interbancar se publică zilnic, inflaţia se calculează cu frecvenţă lunară, în timp ce PIB-
ul este un indicator ce se publică anual.

- Date longitudinale (eng. cross-section data) – Culese prin diverse modalităţi, una
dintre acestea fiind sondajul statistic, aceste serii ilustrează situaţia la un moment
dat pentru un anumit număr de unităţi statistice (observaţii). Forma uzuală a seriilor
longitudinale este:

Variabila x Variabila y
Unitatea 1 x1 y1
Unitatea 2 x2 y2
… … …
Unitatea i xi yi
… … …
Unitatea n xn yn

Exemplu: La un anumit moment dat, un grup de 50 de indivizi este chestionat şi se


culeg date privind înălţimea (variabila x) si greutatea (variabila y) fiecărui
respondent. Organizate sub forma unui tabel ca cel de mai sus, aceste date vor
forma un set de date longitudinale.

- Date de tip panel (eng. panel data) – Sunt structuri complexe de date, care combină
avantajele seriilor cronologice cu cele ale datelor longitudinale, oferind spre analiză
o cantitate suplimentară de informaţii. Astfel, valorile variabilelor statistice sunt
măsurate pentru fiecare unitate statistică repetat, pentru o anumită perioadă de
timp. În Statele Unite, unul din cele mai elaborate proiecte care a condus la
realizarea unui panel uriaş îl reprezintă PSID (Panel Study of Income Dynamics) al
University of Michigan. Acest studiu a început în 1968, eşantionul fiind reprezentativ
atât pentru populaţia SUA (bărbaţi, femei şi copii), cât şi la nivel de gospodărie.
Sondajul a fost repetat asupra aceloraşi indivizi, PSID colectând astfel informaţii de la
aproximativ 65.000 de indivizi pe parcursul a 36 de ani. Studiul s-a axat asupra
aspectelor economice (în principal urmărirea dinamicii veniturilor), dar şi sociale
(mobilitatea populaţiei, educaţie, formarea familiei).
Tabelul de mai jos ilustrează un set de date de tip panel, cu precizarea că acesta este
un panel echilibrat (fiecarea unitate statistică este observată pe aceeaşi perioadă,
deci lungimea seriei cronologice este egală pentru fiecare unitate).

timp Variabila x Variabila y


Unitatea 1 t1 x11 y11
Unitatea 1 t2 x12 y12

7
Unitatea 1 t3 x13 y13
Unitatea 2 t1 x21 y21
Unitatea 2 t2 x22 y22
Unitatea 2 t3 x23 y23

Tabelul de mai jos reprezintă un panel neechilibrat. Un astfel de set de date se obţine atunci
când lungimea seriei de timp este diferită pentru diverse unităţi statistice. Astfel, în tabelul
de mai jos, prima unitate este observată pentru două momente de timp, a doua unitate
statistică este observată pentru trei momente de timp, în vreme ce a treia unitate statistică
este observată doar o dată.

timp Variabila x Variabila y


Unitatea 1 t1 x11 y11
Unitatea 1 t2 x12 y12
Unitatea 2 t1 x21 y21
Unitatea 2 t2 x22 y22
Unitatea 2 t3 x23 y23
Unitatea 3 t1 x31 y31

8
Cap. 2 – Descrierea numerică şi grafică a datelor

Pe parcursul acestui curs voi face referire în mod repetat la un proiect de statistică
ce poate fi găsit în cadrul Bibliotecii Digitale de pe site-ul Academiei de Studii Economice,
secţiunea Finanţe, Asigurări, Bănci şi Burse de Valori. Este vorba de unul dintre ultimele
capitole ale cărţii Statistică, de E. Lilea, M. Vatui, D. Boldeanu şi Z. Goschin1. Cred că ar fi util
să descărcaţi acest proiect pentru că vom acoperi o parte semnificativă a lui.

Procesul prelucrării seriilor de date începe cu analiza prestatistică a datelor, urmată


de sistematizarea datelor statistice.
• Analiza prestatistică a datelor urmăreşte depistarea eventualelor valori aberante şi
surprinderea unor caracteristici ale seriei, fapt pentru care în această fază a analizei
se utilizează, în principal, reprezentarea grafică a seriei.
• Sistematizarea datelor statistice presupune clasificări şi grupări ale datelor pentru
formarea de clase sau grupe cât mai omogene de unităţi statistice.

Clasificarea datelor (gruparea unităţilor elementare ale unei populaţii după anumite
criterii) ocupă un loc important în cadrul statisticii descriptive. În funcţie de modul de
constituire al claselor, avem de-a face cu:
• Clasificări artificiale, atunci când, pentru sistematizarea informaţiilor disponibile,
clasele sunt definite pe baza unor criterii pragmatice. De cele mai multe ori, criteriile
alese nu sunt esenţiale, putând fi considerate chiar arbitrare. Un exemplu de
clasificare artificială este cel al prezentării locuitorilor cu drept de vot dintr-o
localitate prin liste zonale (în ideea că această grupare nu are nimic în comun cu
intenţiile de vot).
• Clasificări naturale, care permit definirea claselor în funcţie de criterii esenţiale. În
acest caz se asigură atât sistematizarea datelor statistice, cât şi surprinderea unor
caracteristici esenţiale ale populaţiei statistice. Un exemplu de clasificare naturală îl
reprezintă clasificarea firmelor din economie (sau dintr-un eşantion) pe ramuri de
activitate sau după dimensiunea acestora, după forma de proprietate etc.

În cazul unei clasificări, grupele trebuie să satisfacă următoarele principii de bază:


• Principiul completitudinii, în virtutea căruia fiecare valoare din cadrul seriei iniţiale
de valori se încadrează într-o anumită o grupă.
• Principiul unicităţii, potrivit căruia o unitate din cadrul seriei de valori va fi inclusă
doar într-o singură grupă de valori.
• Principiul omogenităţii, care postulează faptul că grupele sunt astfel definite încât
unităţile din fiecare grupă să fie omogene (se mai spune că unităţile ce aparţin unei
anumite grupe sunt echivalente).
• Principiul organizării ierarhice a grupelor, ce recomandă acea formă de organizare a
datelor astfel încât să fie permise agregări succesive de clase adiacente pentru
creşterea gradului de generalitate a grupării.

Cea mai comună metodă de grupare este cea pe intervale de variaţie egale, în acest
sens trebuind parcurşi următorii doi paşi:

1
Link: http://www.biblioteca-digitala.ase.ro/biblioteca/model/index2.asp Pe 14.02.2011, această
carte era la numărul 33 în listă.

9
1. Definirea grupelor – Se consideră că fiecare grupă este complet definită dacă sunt
precizate limita inferioară (xinf) şi limita superioară (xsup). Diferenţa dintre valoarea
minimă şi maximă a unei serii de date poartă numele de amplitudine a acelei serii
(As), fapt pentru care, în mod similar, în cazul grupelor vorbim de amplitudinea
grupei (Ag). Întrucât discutăm acum cazul intervalelor de variaţie egale, amplitudinea
tuturor grupelor va fi aceeaşi.
În teoria statistică s-au propus mai multe formule de calcul pentru determinarea
amplitudinii grupelor. Menţionăm aici doar câteva din aceste propuneri:
• Propunerea lui D. V. Huntsberger (alte surse atribuie această propunere lui
H. A. Sturges), potrivit căreia Ag = As/p, unde p = 1 + 3,3 lg n iar n reprezintă
numărul de observaţii al seriei.
De exemplu, pentru n = 40, lg 40 = 1,6, fapt pentru care p = 6,28. Cum
numărul de grupe (p) nu poate fi decât un număr întreg, alegem p = 6.
Dacă avem în vedere datele din proiectul de statistică menţionat mai sus,
pentru variabila vechime, Ag = As/6 = 35/6 = 5,83 ≈ 6. Atenţie: dacă este
cazul, rotunjirea trebuie făcută prin adaos. Altfel, riscăm ca cea mai mare
valoare a seriei de date să nu fie inclusă în ultimul interval definit, ceea ce ar
contraveni primului dintre cele patru principii enunţate mai sus.

Exerciţiu: Determinaţi amplitudinea grupelor pentru variabila producţie din acelaşi proiect
de statistică.

• Propunerea lui Brooks şi Carruthers, potrivit căreia Ag = As/p, unde p trebuie


să satisfacă relaţia p < 5 * lg n. Pentru n = 40, p < 8. Astfel, dacă alegem p =
7, atunci pentru variabila vechime în muncă din proiectul de statistică vom
avea Ag = 35/7 = 5.
• Propunerea lui Croxton şi Cowden, potrivit căreia numărul de intervale, p,
se recomandă a fi cuprins între şase şi şaisprezece.

2. Alocarea valorilor individuale grupelor definite anterior şi calcularea frecvenţelor


fiecărei grupe – Ca şi în proiectul de statistică pe care îl folosim în acest curs, în urma
acestui pas se obţine un tabel ce conţine frecvenţele absolute ale grupelor.
Reprezentarea grafică uzuală a acestui tip de tabel se face prin intermediul
histogramelor, dar mai pot fi folosite şi alte reprezentări, cum ar fi poligonul
frecvenţelor (vezi modelul de proiect pentru exemple de astfel de reprezentări
grafice).
În plus, după calcularea frecvenţelor absolute, se pot calcula frecvenţele cumulate
crescător sau descrescător, aceste date putând fi apoi reprezentate prin intermediul
curbelor cumulative ale frecvenţelor. Care este semnificaţia frecvenţelor cumulate
crescător pentru un anumit interval? Dar descrescător?

Am văzut mai sus cum o serie de date poate fi grupată pe intervale egale, existând
mai multe propuneri pentru determinarea numărului de grupe şi, implicit, a amplitudinii
acestora. Pe lângă aceasta metodă uzuală de prezentare a datelor observate, se pot folosi şi
alte criterii pentru formarea grupelor, criterii care nu decurg dintr-o aplicare mecanică a
unor reguli de calcul, ci apar ca urmare a anumitor moduri de organizare din economie.

Exemplu: Dacă seria de observaţii reprezintă mărimea firmelor dintr-un anumit sector de
activitate, exprimată prin numărul de angajaţi, statisticianul poate grupa aceste observaţii în

10
mai multe modalităţi. Aşa cum am văzut, acesta poate folosi diverse propuneri pentru
determinarea numărului de grupe egale, dar mărimea acestor grupe va fi determinată în
mod oarecum artificial. Pe de altă parte, se pot folosi clasificări deja existente şi uzuale în
economie pentru descrierea numerică şi grafică a datelor. Astfel, din punct de vedere al
numărului de angajaţi, EUROSTAT, biroul de statistică al Uniunii Europene, defineşte:
- microîntreprinderile: acele firme cu până la 9 angajaţi (inclusiv);
- întreprinderile mici: acele firme care au între 10 şi 99 de angajaţi (inclusiv);
- întreprinderile mijlocii: acele firme care au între 100 şi 249 de angajaţi (inclusiv);
- întreprinderile mari: firmele cu peste 250 de angajaţi.
Prin urmare, putem folosi aceste grupe (inegale), care însă conduc la o grupare uzuală (chiar
naturală) a datelor. Prezentarea acestei grupări se realizează similar cu cea a grupărilor în
intervale egale: prin intermediul tabelelor de repartiţie sau prin grafice adecvate (diagrama
prin bare sau prin coloane inegale, asemănătoare histogramei).

Mărimi relative de intensitate


Datele obţinute în urma observării (totale sau parţiale) sunt prelucrate pentru a
obţine indicatori folosiţi pentru a caracteriza o anumită proprietate a seriei de date. Cea mai
simplă formă de prelucrare constă în compararea de valori numerice. Cu toate că au o formă
simplă de calcul, mărimile relative asigură o bună valorificare a datelor statistice obţinute în
urma observării statistice.
Mărimile relative se obţin ca raport a două valori numerice. Într-o formă generală, mărimea
relativă va fi calculată dupa relaţia:

MC
MR = 10 k , k = 0,1,2,K
MBC

unde MR este mărimea relativă, MC mărimea comparată, iar MBC defineşte mărimea bază
de comparaţie.
Rezultatul obţinut în urma raportării poate fi un număr întreg sau un număr
fracţionar, care exprimă câte unităţi din indicatorul raportat (mărimea comparată) revin la o
unitate a indicatorului bază de raportare (mărimea bază de comparaţie). Atunci când cei doi
termeni ai raportului sunt de aceeaşi natură (valori ale aceleiaşi măsuri economice),
mărimea relativă obţinută este adimensională, reprezentând în esenţă un coeficient. În
situaţia contrară, când cei doi termeni ai raportului au unităţi de măsură diferite, mărimea
relativă obţinută va avea o unitate de măsură compusă. Astfel, exprimarea densităţii
populaţiei României (locuitori/km2), a productivităţii muncii (cantitatea de produse/oră), a
vitezei de circulaţie a banilor (numărul de rotaţii/an) etc. sunt doar câteva exemple de
mărimi relative.

Exerciţiu: Tabelul de mai jos conţine datele cu privire la producţia (Q) şi numărul de angajaţi
(T) din doi ani diferiţi, de la trei filiale ale unei întreprinderi. Determinaţi mărimile relative
posibile şi interpretaţi rezultatele.
Se pot calcula ponderea Q şi T pentru fiecare filială în totalul întregii firme în cei doi ani
(mărime relativă adimensională), evoluţia Q şi T între anul 1 şi 2 (creştere sau scădere
exprimată în procente) şi productivitatea angajaţilor din fiecare filială (mărime relativă cu
unitate de măsură compusă, unităţi/angajat) în cei doi ani.

11
Volum producţie (Q) Număr angajaţi (T)
Filiale Anul 1 Anul 2 Anul 1 Anul 2
F1 600 1000 130 150
F2 700 500 200 250
F3 500 500 250 200
Total firmă 1800 2000 580 600

Serii statistice
Seriile statistice reprezintă o modalitate frecventă de prezentare a datelor, care
rezultă din sistematizarea şi/sau gruparea datelor primare. Aceste serii definesc
corespondenţa dintre două şiruri de date statistice, în care primul reprezintă variaţia
caracteristicii urmărite, iar al doilea şir cuprinde frecvenţele de apariţie a variantelor
caracteristicii (frecvenţele putând fi absolute sau relative). Astfel, o serie statistică cu o
singură caracteristică are următoarea formă:

x x2 K x p 
x 1 
 n1 n2 K n p 

unde x1, x2, ..., xp sunt variantele înregistrate pentru caracteristica X, iar n1, n2, …, np sunt
frecvenţele de apariţie ale variantelor caracteristicii X. Aşa cum spuneam mai sus, aceste
frecvenţe pot fi absolute, reprezentând numărul efectiv de observaţii pentru fiecare valoare
xi, sau relative, reprezentând ponderea observaţiilor care au valoarea xi în numărul total de
observaţii.
Seriile statistice sunt clasificate în:
- serii de distribuţie, pentru care caracteristica urmărită este numerică;
- serii cronologice, care prezintă evoluţia în timp a unui fenomen;
- serii teritoriale, care prezintă variaţia în spaţiu a caracteristicii analizate, valorile
caracteristicii referindu-se la unităţile teritoriale din care fac parte;
- serii enumerative, care se prezintă sub forme de liste a unităţilor după o anumită
caracteristică.
Cel mai frecvent întâlnite în practică sunt seriile de distribuţie, în particular cele
unidimensionale (când este urmărită o singură caracteristică). Cu toate acestea, vom trece
succint în revistă câteva caracteristici ale seriilor de distribuţie bidimensionale.
În mod uzual, seriile de distribuţie bidimensionale sunt prezentate prin intermediul
tabelelor de contingenţă precum cel de mai jos.

Y
y1 y2 ... yj ... yp Total
X
x1 n11 n12 ... n1j ... n1p n1.
x2 n21 n22 ... n2j ... n2p n2.
... ... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... nip ni.
... ... ... ... ... ... ... ...
xk nk1 nk2 ... nkj ... nkp nk.
Total n.1 n.2 ... n.j ... n.p n..

12
În acest tabel, x1, x2, ..., xi, ...,xk reprezintă variantele înregistrate după caracteristica
X, y1, y2, ..., yj, ..., yp reprezintă variantele înregistrate după caracteristica Y, nij reprezintă
frecvenţa absolută a observaţiilor pentru care X = xi şi Y = yj, ni. reprezintă numărul total de
observaţii pentru care X = xi, indiferent de valorile lui Y, în timp ce n.j reprezintă numărul
total de observaţii pentru care Y = yj, indiferent de valorile lui X.
Tabelul de mai sus conţine p + k + 3 distribuţii, după cum urmează:
- o distribuţie bidimensională de frecvenţe absolute;
- p + k distribuţii condiţionate, unidimensionale, de frecvenţe absolute. Acestea sunt
reprezentate de cele k linii şi p coloane ale tabelului de mai sus (n1j, n2j, ..., nij, ..., nkj
reprezintă distribuţia valorilor lui X condiţionată de yj, j=1, 2,..., p, iar ni1, ni2, ..., nij, ...,
nip reprezintă distribuţia valorilor lui Y condiţionată de xi, i=1, 2, ..., k);
- două distribuţii marginale, unidimensionale, de frecvenţe absolute. Acestea sunt
reprezentate de ultimul rând şi ultima coloană din tabelul de mai sus. n1., n2., ..., ni.,
..., nk. reprezintă distribuţia marginală a valorilor lui X, iar n.1, n.2, ..., n.j, ..., n.p
reprezintă distribuţia marginală a valorilor lui Y.
Exerciţiu: Pentru datele din proiectul de statistică, construiţi un tabel care să evidenţieze
distribuţia bidimensională a vechimii în muncă şi a producţiei, folosind gruparea pe 6
intervale egale realizată anterior. Reprezentaţi grafic distribuţia bidimensională astfel
determinată prin graficul norului de puncte şi trageţi eventualele concluzii.

Aşa cum spuneam mai sus, seriile de distribuţie unidimensionale sunt printre cele
mai frecvente în practică, fapt pentru care în continuare ne vom concentra asupra
caracterizării acestora. Astfel, analiza primară (grafică şi numerică) a datelor cuprinde
calcularea mai multor indicatori:
- Indicatori pentru caracterizarea tendinţei centrale a unei serii de distribuţie:
o mărimi medii (media aritmetică, pătratică, geometrică, armonică),
o indicatori medii de poziţie (mediana, valoarea modală, cuartilele);
- Indicatori pentru caracterizarea gradului de dispersare a unei serii de distribuţie faţă
de tendinţa centrală: abaterea medie absolută, dispersia, abaterea medie pătratică,
coeficientul de variaţie;
- Indicatori pentru caracterizarea asimetriei şi aplatizării unei serii de distribuţie.

Indicatori pentru caracterizarea tendinţei centrale a seriilor de distribuţie

Indicatorii folosiţi pentru caracterizarea aspectelor esenţiale ale tendinţei centrale a


unei serii statistice univariate (unidimensionale) sunt clasificaţi, în raport cu valorile utilizate
pentru calculare, în două clase:
- Mărimi medii, calculate pe baza valorilor numerice ale seriei de distribuţie;
- Indicatori medii de poziţie, calculaţi pe baza rangurilor sau a statisticilor de ordine
(aceşti indicatori se pot calcula şi pentru caracteristici calitative).

În 1945, statisticianul britanic George Udny Yule a definit şase proprietăţi pe care ar
trebui să le aibă un indicator al tendinţei centrale:
a) Să fie o măsură definită obiectiv, independent de dorinţa utilizatorului şi, în
acelaşi timp, invariabilă în timp şi spaţiu.
b) Să ţină seama de toate valorile înregistrate.

13
c) Să aibă o semnificaţie concretă şi uşor de înţeles chiar şi de nespecialişti.
d) Să aibă o formulă de calcul simplă şi rapidă.
e) Să fie o măsură puţin sensibilă la fluctuaţia eşantionului (să nu prezinte valori
semnificativ diferite dacă se calculează pe baza mai multor eşantioane de acelaşi
volum, extrase prin acelaşi procedeu din aceeaşi colectivitate).
f) Să se preteze la calcule algebrice, care să asigure comparabilitatea mai multor serii
statistice.
Din păcate, în statistica descriptivă nu există o măsură a tendinţei centrale care să
satisfacă simultan toate cele şase proprietăţi. De aceea, orice rezultat va fi interpretat cu
precauţie, luând în considerare caracteristicile valorilor observate.

Mărimi medii

Pentru calcularea indicatorilor medii va trebui să avem în vedere că:


1. Calcularea mărimilor medii este utilă atunci când seria de distribuţie include un
număr suficient de mare de valori.
Exemplu: Să presupunem că dispunem de datele privind venitul lunar a două persoane: 500
RON şi 10.000 RON. Indiferent de tipul ales al mediei, acest indicator nu va fi reprezentativ
pentru această serie de date întrucât avem de-a face cu doar două valori, şi acelea puternic
disparate.

2. Dacă în cadrul seriei sunt observate două sau mai multe grupe de valori ce au
caracteristici diferite, atunci se recomandă calcularea indicatorilor medii la nivelul
fiecărei grupe, aceşti indicatori fiind mai aproape de trăsătura seriei, decât o singură
mărime, ce nu caracterizează niciuna dintre grupele de valori.
Altfel spus, mediile se calculează numai atunci când există o valoare centrală în jurul
căreia gravitează valorile individuale ale seriei. Dacă în urma reprezentării grafice (de
exemplu, prin histogramă) se observă mai multe “centre” în jurul cărora se grupează
valorile, se recomandă calcularea mediei pentru fiecare subgrupă şi, numai dacă
este cazul, se calculează un indicator mediu pentru întreaga serie.
Exemplu: Reţeaua de distribuţie carburanţi a unei companii petroliere conţine staţii
(benzinării) mai bune şi unele mai puţin performante. Staţiile mai bune sunt, în mod evident,
cele localizate în zone cu potenţial economic ridicat, cu trafic intens (atât autoturisme, cât şi
utilitare şi camioane), cu acces facil şi benficiind de o bună vizibilitate din trafic. Alte staţii
însă nu întrunesc toate aceste conditţii, rezultatul observându-se în vânzările de carburanţi.
Presupunând că o companie are o reţea polarizată, în care un grup de staţii sunt
performante, cu vânzări ridicate, în timp ce un grup distinct sunt localizate mai prost sau mai
greu accesibile, care au vânzări reduse, atunci calcularea vânzării medii zilnice pe staţie nu
are o mare semnificaţie. Aceasta pentru că valoarea medie obţinută nu va reprezenta în mod
real performanţa medie a reţelei, niciuna dintre staţiile existente nefiind reprezentată de
media calculată. Calcularea a două medii, una pentru grupul de staţii performante şi una
pentru grupul de staţii cu vânzări reduse ar putea oferi informaţii mai valoroase
managementului companiei, care ar putea adopta decizii adecvate pentru creşterea
vânzărilor reţelei prin impulsionarea vânzărilor unora dintre staţiile mai puţin performante.

14
3. Indicatorii medii sunt sensibili în ceea ce priveşte existenţa valorilor aberante (acele
valori care se îndepărtează în mare măsură de ansamblul seriei de date). De aceea,
înainte de calcularea acestor indicatori, valorile aberante trebuie eliminate, dar
această eliminare trebuie făcută cu mare precauţie şi doar pentru acele valori pentru
care există certitudinea că sunt într-adevăr aberante. Continuând exemplul de mai
sus, unele condiţii speciale şi/sau temporare pot face ca una sau mai multe staţii să
aibă vânzări extraordinare pe o anumită perioadă de timp. O astfel de staţie, cu o
valoare foarte mare a vânzărilor, ar trebui probabil lăsată în afara calculului mediei
celorlalte staţii. Cu toate acestea, decizia privind excluderea uneia sau mai multor
staţii din calculul mediei trebuie să ţină cont de caracteristicile particulare ale
acesteia şi de valorile înregistrate efectiv – până la urmă, decizia de excludere este
subiectivă şi bazată pe cunoaşterea fenomenului studiat.

4. Nu este obligatoriu ca valoarea calculată a mediei să se regăsească printre valorile


seriei de distribuţie (de fapt, acest lucru poate fi considerat chiar întâmplător). Cu
toate acestea, în mod ideal, seria de distribuţie ar trebui să conţină valori apropiate
mediei, altfel ne-am putea găsi în situaţia descrisă la punctul 2.

Media aritmetică (momentul iniţial de ordinul 1)


Este cel mai des calculată mărime medie, prezentând ceea ce este tipic, comun, în
evoluţia fenomenului cercetat.
Pentru o serie simplă de valori x1, x2, ..., xn, media aritmetică, notată x a , se
1 n
calculează prin intermediul relaţiei x a = ∑ xi .
n i =1
Pentru o serie de distribuţie, unde x1, x2, ..., xp reprezintă variantele înregistrate
pentru caracteristica X, iar n1, n2, ..., np reprezintă frecvenţele de apariţie ale acestor
1 p
variante, pentru calcularea mediei aritmetice se aplică relaţia x a = ∑ xi ni . Aceasta mai
n i=1
poartă numele de medie aritmetică ponderată, ni reprezentând ponderile (sau greutăţile)
valorilor xi.

Exemplu: Se cunosc următoarele date reprezentând notele unei grupe de studenţi la cursul
de statistică. Să se calculeze media artimetică a acestei serii de distribuţie.
Note (xi): 4 5 6 7 8 9 10
Frecvenţe (ni): 6 8 16 17 8 3 0

Observaţie: Dacă seria de valori a caracteristicii X este prezentată pe intervale (serie de


distribuţie pe intervale, nu de frecvenţe), fără a exista posibilitatea analizei datelor primare,
atunci, prin convenţie, pentru calcularea mediei aritmetice va fi folosit mijlocul fiecărui
interval. În acest caz, însă, valoarea calculată va fi doar apropiată de valoarea reală a mediei.

Media aritmetică a caracteristicilor alternative


În general, unităţile unei populaţii statistice pot fi împărţite în două grupe
complementare. Astfel, prezenţa sau absenţa unui anumit fenomen va fi reprezentată prin
intermediul unei variabile binare (numită şi variabilă alternativă, dihotomică sau booleană).

15
Exemplu: Starea civilă curentă a persoanelor dintr-un eşantion poate fi încadrată în categoria
“căsătorit” sau “necăsătorit” (fără a ţine deci cont de diversele categorii în care o persoană
necăsătorită se poate afla: nicioadată căsătorit, văduv, divorţat).
Presupunem că avem următoarele date:
Stare civilă (xi): Căsătorit (x1=1) Necăsătorit (x2=0)
Frecvenţe (ni): n1=50 n2=100
Media aritmetică a acestei caracteristici va fi calculată folosind formula prezentată mai sus,
fapt pentru care media este (1*50+0*100)/150=50/150=0,33.

În cazul general, se consideră o populaţie de mărime N, din care P unităţi posedă o


proprietate, iar Q=N-P unităţi nu posedă acea proprietate. Caracteristica binară va lua
valoarea 1 pentru acele unităţi care posedă proprietatea şi valoarea 0 pentru cele care nu
posedă acea proprietate. Media caracteristicii binare este (1*P+0*Q)/(P+Q)=P/N,
reprezentând ponderea unităţilor care posedă proprietatea în totalul unităţilor populaţiei.

Media pătratică (momentul iniţial de ordinul 2)


1 n 2
Pentru o serie simplă, media pătratică se calculează pe baza relaţiei x p = ∑ xi
n i=1
 x1 x2 K x p 
Pentru o serie de distribuţie x  , formula de calcul a mediei
 n1 n2 K n p 

1 p 2
pătratice este x p = ∑ x i ni
n i=1
Media pătratică se foloseşte atunci când se doreşte acordarea unei importanţe mai
mari valorilor mari absolute din cadrul unei serii. În calcularea mediei pătratice, valorile
pozitive şi cele negative din cadrul seriei nu se compensează (aşa cum se întâmplă în calculul
mediei aritmetice). De fapt, întrucât ridicarea la pătrat a valorilor caracteristicii elimină
semnul acestora, calcularea mediei pătratice are sens doar pentru serii de distribuţie cu
valori pozitive.

Exerciţiu: Calculaţi media pătratică pentru datele din exemplul de pe pagina anterioară
(notele unei grupe de studenţi la cursul de statistică).

Media armonică
n
Pentru o serie simplă de valori, media armonică se determină astfel: x h = n
1
∑x
i =1 i

n
Pentru o serie de distribuţie, media armonică se calculează astfel: x h = p
1

i =1 xi
ni

Media armonică se aplică pentru cazuri speciale de serii de date, înlocuind media
aritmetică, în special în domeniul indicilor statistici. În plus, media armonică este egală cu
media aritmetică, calculată din valorile inverse ale termenilor seriei de distribuţie.

16
Datorită metodei de calcul, în determinarea mediei armonice valorile pozitive se
compensează cu cele negative.

Exerciţiu: Calculaţi media armonică pentru aceleaşi date folosite mai sus.

Media geometrică
n
Formula de calcul a mediei geometrice pentru o serie simplă este x g = n ∏x
i =1
i

p
În cazul unei serii de distribuţie, formula de calcul este x g = n ∏x
i =1
ni
i

Această măsură statistică se utilizează mai rar pentru caracterizarea tendinţei


centrale pentru o serie de distribuţie, fiind recomandată doar atunci când seria prezintă
variaţii foarte mari între termeni sau se caracterizează printr-un pronunţat caracter de
asimetrie.

Inegalitatea mediilor
Între mediile prezentate mai sus există următoarea relaţie de ordine: x h ≤ x g ≤ x a ≤ x p .

Media de ordinul k (momentul iniţial de ordinul k)


Pentru o serie de distribuţie, media de ordinul k se calculează conform formulei:
1
1 p k
x =  ∑ xik ni 
k

 n i =1 
În funcţie de valorile parametrului k se obţin o serie de cazuri particulare:
- pentru k=1 se obţine formula de calcul a mediei aritmetice;
- pentru k=2 se obţine formula mediei pătratice;
- pentru k=-1 se obţine relaţia de calcul a mediei armonice;
- pentru k→0 se obţine formula de calcul a mediei geometrice.

Indicatori medii de poziţie

Avantajul indicatorilor medii de poziţie este oferit de faptul că aceştia ţin seama nu
numai de valorile seriei de date, dar şi de forma de distribuţie a acestora. În plus, indicatorii
medii de poziţie se pot determina şi pentru variabile nenumerice.

Valoarea modală (valoarea dominantă)


Valoarea modală (Mo) a unei serii de distribuţie este acea valoare a caracteristicii cu
cea mai mare frecvenţă de apariţie, fapt pentru care se mai numeşte valoarea dominantă a
seriei.
În cazul în care k variante înregistrate (k>1) au frecvenţă de apariţie egală şi maximă,
atunci seria de distribuţie are k valori modale. Cu toate acestea, determinarea Mo nu are
sens pentru seriile de distribuţie pentru care toate variantele înregistrează aceeaşi frecvenţă
de apariţie.
Pentru seriile de distribuţie pe intervale, Mo se determină în doi paşi:

17
- În primul rând, se determină intervalul modal ca fiind cel cu frecvenţa cea mai
ridicată. Notăm acest interval prin IMo=[xiinf, xisup).
- Apoi, Mo se calculează folosind diverse formule de interpolare, bazate pe anumite
presupuneri. Cele mai uzitate sunt:
i) Mo =(xiinf+xisup)/2, dacă se consideră că în cadrul tuturor intervalelor, deci şi al
intervalului modal, frecvenţele sunt distribuite uniform. Prin urmare, în acest caz Mo
coincide cu centrul intervalului modal;
ii) Mo=xiinf + li∆1/(∆1+∆2), unde li=xisup-xiinf reprezintă mărimea intervalului modal,
∆1=ni-ni-1 reprezintă diferenţa dintre frecvenţa intervalului modal şi frecvenţa
intervalului precedent, iar ∆2=ni-ni+1 reprezintă diferenţa dintre frecvenţa intervalului
modal şi cea a intervalului următor. Această formulă de interpolare se aplică atunci
când se presupune că valorile din distribuţia iniţială urmează o repartiţie normală.

Exemplu: Să presupunem că distribuţia notelor la un examen se


prezintă conform datelor din tabelul alăturat. Grupe de note ni
Pentru determinarea Mo, primul pas constă în determinarea [2, 4) 10
intervalului modal. Acesta este intervalul [6, 8). [4, 6) 30
Dacă presupunem că notele sunt distribuite uniform în cadrul [6, 8) 45
acestui interval, atunci Mo=(6+8)/2=7. [8, 10] 15
Dacă însă avem indicii potrivit cărora valorile sunt distribuite Total 100
normal în cadrul intervalelor, atunci Mo va fi determinată pe baza
formulei prezentate mai sus, respectiv Mo=6+(8-6)*(45-30)/[(45-30)+(45-15)]=6,67.

Observaţie: Dacă nu avem indicii privind distribuţia valorilor în cadrul intervalelor, aplicarea
uneia dintre metodele de interpolare de mai sus poate duce la rezultate eronate. De
exemplu, date fiind datele din tabel, este posibil ca valoarea 5 să apară de 28 de ori în cadrul
seriei iniţiale de date, în timp ce valorile 6 şi 7 să apară de 20, respectiv 25 ori. Calculele
precedente indică Mo ca fiind 7 sau 6,67, nu 5. Această eroare apare datorită faptului că nu
beneficiem de observaţiile originale, ci de datele agregate. Lipsa de informaţie este suplinită
de ipoteze, care pot fi adevărate sau nu.

Valoarea mediană (cuantila de ordinul 2)


Mediana seriei de distribuţie (Me) este acea valoare care împarte seria în două
grupuri egale din punct de vedere al numărului elementelor existente de cele două părţi ale
acestei valori. Altfel spus, numărul valorilor individuale mai mari decât mediana va fi egal cu
numărul valorilor individuale mai mici decât mediana.
Me se determină pentru seriile de distribuţie ale căror valori sunt ordonabile
crescător sau descrescător, fapt pentru care acest indicator mediu de poziţie nu se
calculează pentru caracteristici nominale (ale căror valori nu pot fi ordonate).
Pentru o serie simplă de valori, determinarea Me presupune, în primul rând,
ordonarea crescătoare sau descrescătoare a valorilor individuale ale caracteristicii. După
ordonare, mediana se identifică astfel:
- Dacă seria ordonată are un număr impar de termeni, n, Me corespunde valorii de
rang (n+1)/2;
Exemplu: În seria (5, 6, 13, 20, 34, 40, 61), Me=20.

18
- Dacă seria ordonată crescător este formată dintr-un număr par de termeni atunci, în
mod convenţional, Me se determină ca medie aritmetică între valoarea individuală
de rang n/2 şi cea de rang n/2+1.
Exemplu: În seria (13, 28, 34, 40, 58, 61), Me=(34+40)/2=37.

Observaţie: În cazul seriei simple cu număr impar de valori, mediana determinată respectă
pe deplin definiţia de mai sus, în timp ce în cazul seriei cu număr par de valori, mediana se
determină în mod convenţional şi nu respectă pe deplin definiţia dată.

În cazul unei serii de distribuţie de frecvenţe, semnificaţia Me este afectată de


metoda de calcul. În această situaţie, Me este considerată a fi acea valoare individuală a
caracteristicii corespunzătoare primei frecvenţe cumulate care depăşeşte (n+1)/2.

Exemplu: Tabelul alăturat cuprinde Număr de Număr de Număr cumulat


informaţii cu privire la numărul de aparate loturi de crescător de
aparate defecte (xi) dintr-o sută de loturi cu defecte aparate (ni) loturi de
de aparate. într-un lot (xi) aparate
Din tabel se observă că prima frecvenţă 0 10 10
cumulată crescător ce depăşeşte 1 20 30
(100+1)/2=50,5 este 70, aceasta 2 40 70
corespunzând numărului median de 3 15 85
aparate defecte 2.
4 10 95
Me astfel determinată nu respectă întru
5 5 100
totul definiţia dată, deoarece observăm
Total 100
că valoarea 2 nu împarte seria în două
părţi egale: numai 30% din loturi au un număr de defecte mai mic decât 2 şi nu 50%, cum
cere definiţia. Din această cauză, în asemenea situaţii, folosirea medianei ca indicator mediu
de poziţie nu este cea mai bună practică.

În cazul unei serii de distribuţie pe intervale (când datele îşi pierd individualitatea),
Me se determină în mod aproximativ printr-un procedeu de interpolare liniară bazat pe
ipoteza repartizării uniforme a frecvenţelor în intervalul median. Procedeul de determinare a
valorii mediane se desfăşoară în următoarele etape:
- Se identifică intervalul median, cel care corespunde primei frecvenţe cumulate
crescător care depăşeşte (n+1)/2. Notăm acest interval prin IMe=[xiinf, xisup).
n + 1 i −1
− ∑nj
2 j =1
- Me se determină cu ajutorul relaţiei Me = xiinf + li , unde li=xisup-xiinf
ni
reprezintă mărimea intervalului median, ni este frecvenţa intervalului median, iar
i −1

∑n
j =1
j este suma frecvenţelor precedente intervalului median.

Vom determina valoarea mediană pentru datele din exemplul de la pagina 19 (date privind
notele obţinute la un examen). Pentru aceasta, trebuie mai întâi să calculăm frecvenţele
absolute cumulate crescător.

19
Intervalul median este [6, 8), întrucât frecvenţa cumulată Grupe ni Frecvenţe
crescător pentru acesta este prima care depăşeşte valoarea de note cumulate
(100+1)/2=50,5. Apoi, folosind relaţia de mai sus, Me=6+(8-
[2-4) 10 10
6)*(50,5-40)/45=6+2*10,5/45=6,47.
[4-6) 30 40
[6-8) 45 85
Cuartilele (cuantilele de ordinul 4)
[8-10] 15 100
Cuartilele sunt valori localizate într-o serie ordonată,
Total 100
care împart această serie în patru părţi egale, astfel încât
fiecare diviziune conţine 25% din valorile individuale
înregistrate pentru acea variabilă numerică. Procedeul de determinare a celor 3 cuartile (Q1,
Q2, Q3) este asemănător cu cel de determinare a valorii mediane.

Observaţie: Q2=Me

Mult mai rar folosite sunt decilele (cuantilele de ordinul 10) şi centilele (cuantilele de
ordinul 100). Cele 9 decile împart seria de distribuţie în 10 grupe, fiecare dintre acestea
cuprinzând 10% din numărul de observaţii, iar cele 99 de centile împart seria în 100 de
grupe, fiecare dintre acestea cuprinzând 1% din numărul de observaţii.

Observaţii privind indicatorii tendinţei centrale


Atunci când caracteristica pe baza căreia s-a definit seria de valori este una
nominală, se poate determina doar Mo.
Pentru o serie de date a unei caracteristici ordinale se recomandă determinarea Me
sau Mo, calcularea mediei nefiind posibilă. Dacă seria este numerică, dintre aceşti doi
indicatori va fi aleasă Me, aceasta fiind o măsură mai stabilă faţă de Mo.
Media aritmetică este cel mai frecvent folosit indicator al tendinţei centrale, dar
această medie este sensibilă la existenţa valorilor aberante şi nu este potrivită pentru o
distribuţie multimodală sau cu o asimetrie pronunţată. Pentru astfel de serii de distribuţie se
recomandă folosirea Me sau Mo, care sunt mai robuste la prezenţa valorilor extreme.

Indicatori pentru caracterizarea dispersării unei serii de distribuţie

Indicatorii tendinţei centrale, în special valoarea calculată a mediei, sunt


reprezentativi numai în măsura în care seria de date este omogenă (seria are, într-adevăr, o
tendinţă centrală). Verificarea omogenităţii valorilor individuale necesită măsurarea şi
analiza împrăştierii/concentrării faţă de valorile tipice calculate.

Exemplu: Să presupunem că, în două populaţii, aceeaşi variabilă înregistrează valorile:


(2,2,2,10,18,18,18) şi (9,9,9,9,10,11,11,11,11).
Cele două serii au aceeaşi medie aritmetică şi aceeaşi valoare mediană, ambele egale cu 10,
dar împrăştierea valorilor individuale este diferită, a doua serie fiind mai omogenă.

Indicatorii împrăştierii utilizaţi în analizele statistice sunt de mai multe feluri. Astfel,
în funcţie de numărul de variante luate în calcul (sau după gradul lor de sinteză) există
indicatori simpli şi indicatori sintetici.

20
Indicatorii simpli ai dispersării sunt măsuri statistice obţinute dintr-un număr redus
de valori individuale, în general prin compararea sub formă de diferenţă cu indicatorul
tendinţei centrale, fapt pentru care se exprimă în unitatea de măsură a variabilei observate.
Un exemplu de indicator simplu al dispersării este amplitudinea seriei, calculată în valoare
absolută (xmax-xmin) sau în procente, relativ la media seriei de distribuţie. Un alt exemplu îl
reprezintă abaterea intercuantilică, calculată ca diferenţă între cuantila superioară şi cea
inferioară, ambele având acelaşi ordin. Întrucât informaţiile despre variabilitate oferite sunt
relativ reduse, indicatorii simpli ai împrăştierii sunt folosiţi destul de rar.
Spre deosebire de indicatorii simpli, indicatorii sintetici ai împrăştierii exprimă printr-
o singură valoare numerică variaţia tuturor valorilor individuale faţă de tendinţa centrală. La
baza determinării indicatorilor sintetici stau abaterile individuale dar, pentru a se evita
compensarea celor cu valori pozitive cu cele cu valori negative, abaterile vor fi luate în
modul sau se va opera cu pătratele acestora. Principalii indicatori sintetici ai împrăştierii faţă
de tendinţa centrală sunt abaterea medie absolută, dispersia, abaterea medie pătratică şi
coeficientul de variaţie.

Abaterea medie absolută (abaterea medie liniară)


Abaterea medie absolută reprezintă media aritmetică (simplă sau ponderată) a
abaterilor absolute ale termenilor seriei de la tendinţa lor centrală, caracterizată cu ajutorul
mediei sau medianei. Dacă notăm prin c valoarea tipică a tendinţei centrale faţă de care se
analizează dispersia seriei (valoarea medie sau mediană), atunci se folosesc următoarele
relaţii:
1 n
pentru o serie simplă d c = ∑ xi − c
n i =1
1 p
pentru o serie de distribuţie pe frecvenţe d c = ∑ xi − c ni
n i =1
În cazul seriilor de distribuţie pe intervale, pentru calculul abaterii medii liniare se
iau în considerare centrele intervalelor. Prin urmare, calculul se face folosind formula
enunţată mai sus, valabilă şi în cazul seriilor de distribuţie pe frecvenţe.
Abaterea medie absolută se exprimă în aceeaşi unitate de măsură cu cea a
caracteristicii, fapt pentru care acest indicator nu se poate utiliza pentru a compara
dispersarea seriilor de date pentru caracteristici diferite (exprimate în unităţi de măsură
diferite).

Exemplu: Se consideră seria simplă (1,2,4,5,7,8,9,10,11,13). Media acestei serii este 7, iar
mediana este 7,5. Tabelul de mai jos conţine abaterile absolute faţă de medie şi mediană,
precum şi sumele corespunzătoare.

xi 1 2 4 5 7 8 9 10 11 13 Total
|xi-7| 6 5 3 2 0 1 2 3 4 6 32
|xi-7,5| 6,5 5,5 3,5 2,5 0,5 0,5 1,5 2,5 3,5 5,5 32

Potrivit formulelor de mai sus, d x = d Me = 3,2 . Această egalitate nu are loc foarte
frecvent, în general cei doi indicatori având valori distincte. De fapt, d Me ≤ d x .

21
Dispersia (varianţa)
Varianţa unei serii de distribuţie se calculează ca medie aritmetică a pătratelor
abaterilor valorilor individuale de la media aritmetică a acesteia.
Prin urmare, pentru o serie simplă de repartiţie, formula de calcul a dispersiei este
n p

2
∑ (x
i =1
i − x) 2
2
∑ (x
i =1
i − x ) 2 ni
σ = , iar pentru o serie de distribuţie de frecvenţe σ = .
n n

Date fiind aceste formule, se poate observa că, la fel ca în cazul mediei, dispersia
este sensibilă la prezenţa valorilor aberante.
Varianţa este un indicator intermediar pentru aprecierea gradului de dispersare al
unei serii de distribuţie. Acest indicator sintetic al împrăştierii nu se exprimă într-o unitate
concretă de măsură (se exprimă în pătratul unităţii de măsură a seriei), iar mărimea varianţei
este influenţată direct de ordinul de mărime al valorilor seriei de distribuţie (varianţa nu este
o măsură normalizată). De exemplu, dacă valorile individuale ale unei serii sunt multiplicate
cu 10, valoarea calculată a varianţei va fi de 100 de ori mai mare decât cea obţinută din
datele originale.
Pentru o serie de distribuţie simplă sau de frecvenţe, cu cât valoarea varianţei este
mai apropiată de zero, cu atât dispersarea acestei serii în jurul mediei este mai redusă
(varianţa unei serii de valori constante este egală cu zero).

Temă: Calculaţi valoarea varianţei pentru datele din exemplul de pe pagina precedentă.

Pentru o populaţie împărţită în p grupe, dacă σ2x reprezintă varianţa totală, calculată
pentru ansamblul seriei, σ2xi, cu i=1, 2, ..., p reprezintă varianţele la nivelul grupelor, ni
reprezintă numărul de valori din cadrul fiecărei grupe i, iar x i media caracteristicilor la
nivelul grupei i, atunci
p p

∑ σ xi2 ni ∑ (x i − x) 2 ni
σ x2 = i =1
+ i =1 2
= σ int 2
+ σ ext
n n
σ2int reprezintă media varianţelor grupelor. Aceasta cuantifică dispersia din interiorul
grupelor, deci dispersia datorată acţiunii factorilor locali, ce au impact la nivelul grupelor.
σ2ext, varianţa mediilor de grupă, este un indicator al dispersării acestor medii în jurul mediei
seriei de date. σ2ext cuantifică deci dispersarea datorată factorului de grupare, prin
intermediul acestui factor măsurându-se disimilarităţile dintre grupe.
Pe baza egalităţii de mai sus a fost enunţată regula de adunare a dispersiilor, care
spune că dispersia totală este egală cu suma dintre media dispersiilor şi dispersia mediilor.
Următorii indicatori relativi sunt calculaţi şi interpretaţi în practica statistică:
o Coeficientul de determinare, k1=σ2ext/σ2x. Acest indicator măsoară influenţa
factorului de grupare, în funcţie de care s-a structurat colectivitatea generală, asupra
varianţei caracteristicii urmărite.
o Coeficientul de nedeterminare, k2=σ2int/σ2x=1-k1. Acest indicator exprimă măsura în
care variaţia caracteristicii urmărite (dispersia totală) este influenţată de variaţia
factorilor aleatori, care acţionează în interiorul subcolectivităţilor.

22
Exemplu: Considerăm valorile variabilei X (productivitatea muncii) pentru două grupe (două
secţii ale unei întreprinderi), sub forma seriilor următoare:
Grupa A (20, 30, 27, 9, 6, 40, 50, 32, 39, 43, 26, 15, 18), n1=13
Grupa B (10, 20, 31, 37, 39, 40, 20, 6, 8, 25, 31, 10, 10, 22, 21, 30, 5), n2=17

Aplicând formulele de până acum, obţinem următoarele rezultate:

La nivelul grupei A, x1 = 355 / 13 = 27,31 iar σ x21 = 166,85 .


La nivelul grupei B, x 2 = 365 / 17 = 21,47 iar σ x22 = 132,39 .

La nivelul întregii serii de distribuţie, x = 720 / 30 = 24 iar σ x2 = 155,69 .


2 166,85 ⋅13 + 132,39 ⋅17
Varianţa la nivelul grupelor este σ int = = 147,32 .
30
2 ( 27,31 − 24) 2 ⋅13 + ( 21,47 − 24) 2 ⋅17
Varianţa dintre grupe este σ ext = = 8,37 .
30
Regula de adunare a dispersiilor enunţată mai sus este verificată, întrucât
2 2
σ int + σ ext = 147,32 + 8,37 = 155,69 = σ x2 .
Nu în ultimul rând, coeficienţii pentru măsurarea influenţei celor două categorii de
factori în cadrul dispersiei totale a seriei de distribuţie sunt k1=8,37/155,69=0,054, iar
k2=147,32/155,69=0,946.
Aceste rezultate arată că cele două grupe nu se deosebesc prea mult în ceea ce
priveşte dispersia valorilor în jurul mediilor din grupă, întrucât dispersia productivităţii la
nivelul întregii întreprinderi este explicată într-o măsură covârşitoare (94,6%) de variaţia
productivităţii ca urmare a factorilor specifici şi aleatori care acţionează în cadrul fiecărei
secţii A şi B. Calculele de mai sus arată că dispersia productivităţii generale este explicată
doar într-o mică măsură (5,4%) de împrăştierea productivităţilor medii ale secţiilor faţă de
productivitatea medie a întreprinderii. Altfel spus, influenţa factorului de grupare asupra
varianţei productivităţii este foarte redusă.

Dispersia caracteristicilor alternative


După cum am văzut deja, prezenţa sau absenţa unui anumit fenomen este
reprezentată prin intermediul unei variabile binare (numită şi variabilă alternativă,
dihotomică sau booleană).
În cazul general, se consideră o populaţie de mărime N, din care P unităţi posedă o
proprietate, iar Q=N-P unităţi nu posedă acea proprietate. Prin convenţie, caracteristica
binară va lua valoarea 1 pentru acele unităţi care posedă proprietatea şi valoarea 0 pentru
cele care nu posedă acea proprietate. De aceea, media caracteristicii binare este
(1*P+0*Q)/(P+Q)=P/N, reprezentând ponderea unităţilor care posedă proprietatea în totalul
unităţilor populaţiei.
Varianţa caracteristicii binare este
(1 − P / N ) 2 ⋅ P + (0 − P / N ) 2 ⋅ Q (Q / N ) 2 ⋅ P + ( P / N ) 2 ⋅ Q PQ / N 2 ⋅ (Q + P) P Q
= = = ⋅
( P + Q) ( P + Q) ( P + Q) N N

23
Dacă notăm p=P/N, atunci dispersia variabilei binare poate fi scrisă ca p(1-p), reprezentând
produsul dintre ponderea în totalul unităţilor populaţiei a unităţilor care posedă
proprietatea şi ponderea unităţilor care nu posedă acea proprietate.

Exerciţiu: Considerăm o populaţie caracterizată printr-o variabilă binară 0/1 reprezentând,


de exemplu, mediul urban/rural, sexul masculin/feminin, firme mici/mari etc.
Care este media celei mai eterogene astfel de populaţii? Pentru a răspunde acestei
întrebări, să ne gândim mai întâi care ar putea fi cea mai omogenă populaţie caracterizată de
o variabilă binară. Este acea populaţie în care toate unităţile posedă proprietatea urmărită
sau, din contră, nicio unitate nu posedă acea proprietate. De exemplu, dacă variabila binară
reprezintă mediul de reşedinţă urban/rural, cea mai omogenă populaţie este cea în care toţi
indivizii provin din mediul urban sau toţi provin din mediul rural. Prin comparaţie, o
populaţie în care 99% din indivizi provin din mediul urban, în timp ce 1% provin din mediul
rural este tot o populaţie cu o omogenitate ridicată, dar totuşi uşor inferioară celei în care
absolut toţi indivizii aparţin unui mediu de reşedinţă. Continuând în acest sens, acea
populaţie în care 50% din indivizi provin din mediul urban şi 50% provin din mediul rural este
cea mai eterogenă populaţie caracterizată prin această variabilă binară. Dacă notăm cu 1
apartenenţa la mediul urban şi cu 0 pe cea la mediul rural, media va fi p=P/N=0,5.
Care este dispersia celei mai eterogene astfel de populaţii? Cu alte cuvinte, care este
valoarea maximă a dispersiei pentru o variabilă alternativă? După cum spuneam mai sus,
media celei mai eterogene populaţii este p=P/N=0,5, ceea ce înseamnă că dispersia este p(1-
p)=0,5*0,5=0,25.

Abaterea medie pătratică (abaterea standard)


Abaterea standard se calculează ca rădăcină pătrată din dispersie, σ = σ 2 .
Aceasta este o măsură statistică utilizată frecvent pentru caracterizarea gradului de
dispersare a valorilor seriei în jurul mediei, indicatorul fiind recomandat, în principal,
datorită faptului că se calculează pe baza unei relaţii simple.
Faptul că acest indicator se exprimă într-o unitate concretă de măsură (în unitatea
seriei de date) poate fi văzut drept un avantaj, întrucât interpretarea rezultatelor este
facilitată de această trăsătură, dar şi drept un dezavantaj, întrucât acest indicator nu poate fi
folosit pentru compararea dispersării unor serii de date diferite.
De regulă, abaterea standard este folosită pentru caracterizarea distribuţiilor
teoretice. Întrucât detalii despre aceste aspecte vor fi prezentate ulterior, menţionăm doar
că dacă distribuţia unităţilor din colectivitatea investigată, după caracteristica urmărită, este
(
sub formă de “clopot” (fie şi uşor asimetric), atunci intervalul x − σ , x + σ conţine )
( )
aproximativ 68% din observaţii, intervalul x − 2σ , x + 2σ conţine puţin peste 95% din
observaţii iar aproape toate observaţiile (99,74% din acestea) sunt situate în intervalul
(x − 3σ , x + 3σ ) .
Coeficientul de variaţie (de omogenitate)
Întrucât atât media, cât şi abaterea standard sunt indicatori exprimaţi în unitatea de
măsură a caracteristicii analizate, aceşti indicatori nu pot fi folosiţi pentru a compara două
serii de date ce sunt exprimate în unităţi de măsură diferite. De exemplu, nu putem compara

24
media şi abaterea standard calculate pentru o serie ce se referă la vânzarea unui produs, cu
valori exprimate fizic, cu măsurile similare ale altei serii exprimate în unităţi monetare.
Coeficientul de variaţie înlătură acest inconvenient, întrucât este o mărime
adimensională ce se calculează prin raportarea abaterii standard la nivelul mediu al seriei de
distribuţie: CV = σ / x ⋅100.
Datorită modului de calcul, o valoare mai mică a coeficientului de variaţie va indica o
omogenitate ridicată a seriei supuse analizei. În practică se consideră că CV<30-35%
reprezintă o colectivitate omogenă, în timp ce CV<17% reprezintă o populaţie foarte
omogenă.
Coeficientul de variaţie este şi un indicator al reprezentativităţii mediei. Astfel, dacă
valoarea acestui coeficient este sub pragul de 30-35% (în mod ideal sub 17%), caz în care
colectivitatea este apreciată drept omogenă (foarte omogenă), acest lucru indică existenţa
unei singure tendinţe în cadrul seriei, ceea ce înseamnă că media calculată are semnificaţia
dorită (este o măsură reprezentativă pentru tendinţa centrală a seriei de distribuţie).

Exerciţiu: Se cunosc datele privind depunerile populaţiei Grupe de intrări Număr de


pe parcursul unei săptămâni în conturile de economii în cont (mii lei) intrări (ni)
deschise la o sucursală a unei unităţi bancare. Tabelul [3, 4) 26
alăturat indică aceste date.
[4, 5) 33
[5, 6) 64
Calculaţi şi interpretaţi indicatorii gradului de dispersare a
[6, 7) 7
acestei serii de distribuţie pe intervale.
[7, 8] 10
Total 140

Grupe de Număr Frecvenţe


intrări în de xi xini cumulate xi − x xi − x ni ( xi − x) 2 ( xi − x) 2 ni
cont intrări crescător
(mii lei) (ni)
(1) (2) (3) (4) (5) (6) (7) (8) (9)
[3, 4) 26 3,5 91 26 -1,59 41,34 2,528 65,728
[4, 5) 33 4,5 148,5 59 -0,59 19,47 0,349 11,517
[5, 6) 64 5,5 352 123 0,41 26,24 0,168 10,752
[6, 7) 7 6,5 45,5 130 1,41 9,87 1,988 13,916
[7, 8] 10 7,5 75 140 2,41 24,1 5,808 58,08
Total 140 712 121,02 159,993
1 p
Abaterea medie absolută d c = ∑ xi − c ni , unde d reprezintă media aritmetică sau
n i =1
mediana seriei de distribuţie, fapt pentru care trebuie să determinăm aceşti indicatori ai
tendinţei centrale.
Din tabelul de mai sus reiese că x = 712 / 140 = 5,09 (mii lei).
Apoi, dat fiind că (n+1)/2=141/2=70,5 (intrări), prima frecvenţă cumulată ce depăşeşte acest
prag corespunde intervalului [5, 6), acesta fiind deci intervalul median.

25
n + 1 i −1
− ∑nj
2 j =1
Formula pentru determinarea medianei este Me = xiinf + li , fapt pentru care
ni
Me=5+(70,5-59)/64=5+11,5/64=5,18 (mii lei).
Abaterea medie absolută faţă de media aritmetică este 121,02/140=0,864 (mii lei).
(Nu am mai calculat abaterea medie absolută faţă de mediană, dar aceasta se poate
determina în mod similar.)
1 p
Formula de calcul a dispersiei este σ 2 = ∑
n i =1
( xi − x) 2 ni = 159,993 / 140 = 1,143 .

Abaterea medie pătratică se calculează ca radical din dispersie, deci σ=1,069 (mii lei).
Coeficientul de variaţie se calculează conform formulei CV = σ / x ⋅100, fapt pentru care
CV=1,069/5,09*100=21%.
Întrucât coeficientul de variaţie este inferior pragului de 30%, populaţia care a produs seria
de distribuţie de mai sus poate fi considerată drept omogenă. Prin urmare, media aritmetică
determinată anterior (5,09 mii lei) poate fi folosită cu încredere drept o măsură a tendinţei
centrale a seriei de distribuţie.

Indicatori pentru caracterizarea formei distribuţiei

Pentru caracterizarea asimetriei şi aplatizării seriei de distribuţie se poate recurge la


reprezentarea grafică a acestei serii sau la un ansamblu de indicatori. Metoda grafică se
poate utiliza pentru orice fel de variabile (calitative şi cantitative), seria de distribuţie fiind
reprezentată prin intermediul histogramei sau a poligonului frecvenţelor. Indicatorii pe care
îi vom prezenta în continuare, utilizaţi pentru verificarea caracterului normal al distribuţiei
seriei de valori, se pot calcula doar pentru caracteristici numerice.

Indicatori ai asimetriei

O distribuţie este simetrică dacă valorile sale, reprezentate prin frecvenţe (absolute
sau relative), sunt egal dispersate de o parte şi de alta a valorii centrale. Într-o distribuţie
simetrică, cele trei valori cu care se exprimă tendinţa centrală, valoarea modală (Mo),
mediană (Me) şi medie ( x ), sunt egale. Distribuţiile mai pot fi asimetrice spre dreapta, caz în
care x < Me < Mo , sau asimetrice spre stânga, caz în care Mo < Me < x.

Asimetrie spre dreapta Asimetrie spre stânga

26
Coeficientul de asimetrie Yulle-Kendall, definit pe baza celor trei cuartile ale seriei
(Q3 − Me) − ( Me − Q1 )
de date. Relaţia de calcul este C asYK = .
(Q3 − Me) + ( Me − Q1 )
Valoarea CasYK este cuprinsă în intervalul [-1, 1]. Semnul coeficientului indică direcţia
asimetriei. Astfel, CasYK>0 indică asimetrie spre stânga, respectiv etalarea frecvenţelor în
partea dreaptă a distribuţiei (altfel spus “coada” din dreapta a distribuţiei este mai lungă
decât “coada” din stânga), în timp ce CasYK<0 indică asimetrie spre dreapta, respectiv etalarea
frecvenţelor în partea stângă a distribuţiei. CasYK=0 este caracteristică unei serii simetrice
(pentru care cuartilele sunt echidistante).
În afara semnului CasYK, mărimea acestui coeficient indică intensitatea asimetriei.
Astfel, o valoare absolută a acestui coeficient sub 0,1 corespunde unei serii moderat
asimetrice, în timp ce |CasYK|>0,3 indică o serie cu un pronunţat caracter asimetric.
Coeficientul de asimetrie Yulle-Kendall nu poate fi utilizat în compararea asimetriei
mai multor serii de distribuţie de frecvenţe.

Coeficientul lui Pearson pentru asimetrie, recomandat a fi calculat în cazul seriilor


de distribuţie slab asimetrice. Acest indicator este calculat pe baza mediei, a valorii modale şi
a abaterii standard, relaţia de calcul fiind C asP = ( x − Mo) / σ .
Cu cât valorile acestui indicator sunt mai apropiate de zero, cu atât seria este mai
simetrică (simetria există când CasP=0). CasP<0 indică faptul că seria prezintă asimetrie spre
dreapta, iar CasP>0 este caracteristică unei serii asimetrice spre stânga.
Întrucât în cazul unei serii de distribuţie cu asimetrie redusă se verifică relaţia
Mo − x ≈ 3( Me − x), pentru caracterizarea asimetriei unei astfel de serii se poate folosi
indicatorul calculat potrivit relaţiei C asP = 3( x − Me) / σ .
Fiind un indicator adimensional, coeficientul de asimetrie propus de Pearson se
utilizează şi în analiza comparativă a asimetriei pentru mai multe serii de distribuţie.

Coeficientul lui Fisher pentru asimetrie, determinat pe baza relaţiei dintre


momentele centrate de ordinul 2 şi 3.
Pentru o serie de distribuţie de frecvenţe, momentul centrat de ordinul k se
1 p
calculează pe baza relaţiei µ k = ∑
n i =1
( xi − x) k ni . După cum se poate observa, momentul

centrat de ordinul 1 reprezintă media abaterilor valorilor individuale de la media seriei de


distribuţie, în timp ce momentul centrat de ordinul 2 este dispersia seriei de distribuţie.
Momentul centrat de ordinul 3 (notat μ3) este un indicator al asimetriei, fără ca
acesta să pună însă în evidenţă intensitatea asimetriei. Astfel, dacă μ3<0, atunci distribuţia
prezintă o asimetrie spre dreapta, pentru μ3=0 se apreciază că seria este simetrică, iar
pentru μ3>0, distribuţia este asimetrică spre stânga.
Propunerea lui Fisher a fost de a calcula un indicator pe baza relaţiei CasF=μ3/σ3.
Informaţiile oferite de acest indicator permit atât caracterizarea sensului, cât şi a
intensităţii asimetriei. De remarcat că, întrucât σ>0, semnul CasF este dat de semnul
momentului centrat de ordinul 3, fapt pentru care interpretarea este similară cu a celor de
mai sus: CasF<0 indică asimetrie spre dreapta, CasF>0 indică asimetrie spre stânga, iar CasF=0

27
indică faptul că seria de distribuţie este simetrică. Intensitatea asimetriei seriei de distribuţie
este indicată de mărimea coeficientului CasF.

Indicatori ai aplatizării

O serie de distribuţie este aplatizată dacă la variaţii mari ale valorii caracteristicii
observăm variaţii limitate ale frecvenţelor. Aprecierea gradului de aplatizare (de boltire) a
seriei se face, într-o primă etapă, prin compararea curbei frecvenţelor acesteia cu cea a
repartiţiei normale (Gauss-Laplace) ce are aceeaşi medie şi abatere standard cu a seriei de
date investigate. Acest raţionament este vizualizat în figura de mai jos, unde curba indicată
prin linia roşie continuă este curba normală (denumită şi mezocurtică), cea indicată prin linia
albastră punctată este o curbă leptocurtică, iar cea indicată de linia mov punctată fin este o
curbă platicurtică. Rădăcinile etimologice ale denumirilor utilizate sunt greceşti: kurtos =
cocoşat, platys = larg, lat, leptos = îngust, subţire.

Analitic, pentru caracterizarea aplatizării (boltirii) seriei de distribuţie se calculează


coeficienţii lui Pearson şi lui Fisher pentru aplatizare.

Coeficientul lui Pearson pentru aplatizare, determinat pe baza momentelor


centrate de ordinul 2 şi 4. Relaţia de calcul este CapP=μ4/μ22= μ4/σ4.
Pentru repartiţia normală, valoarea acestui indicator este egală cu 3. Prin urmare,
pentru a aprecia boltirea unei serii, valoarea indicatorului calculat va fi comparată cu 3
(pentru majoritatea seriilor economice, valoarea indicatorului se situează între 2 şi 6). Astfel,
dacă valoarea calculată a CapP≈3, atunci seria de distribuţie urmează o repartiţie aproximativ
normală (este mezocurtică). Dacă CapP>3, atunci curba frecvenţelor este leptocurtică,
distribuţia fiind mai “ascuţită” decât cea normală. În fine, dacă CapP<3, atunci curba prezintă
o aplatizare pronunţată (este platicurtică).

28
Coeficientul lui Fisher pentru aplatizare, o transformare a coeficientului lui Pearson.
Astfel, CapF= μ4/μ22-3=CapP-3, interpretarea acestui indicator fiind evidentă.

Temă: Caracterizaţi asimetria şi aplatizarea distribuţiei punctelor obţinute de 60 de studenţi


(atenţie, va trebui să calculaţi cuartilele, într-un mod similar calculului Me).

Punctajul 0-20 20-40 40-60 60-80 80-100 100-120 Total


Nr. studenţi (ni) 4 8 11 19 12 6 60

Teste grilă

Graficul alăturat va fi folosit pentru întrebările 1 şi 2.

1. Care este semnificaţia lui I, II şi III în graficul alăturat?


a) I – valoarea modală, II – valoarea mediană, III – media
b) I – valoarea modală, II – media, III – valoarea mediană
c) I – valoarea mediană, II – valoarea modală, III – media
d) I – valoarea mediană, II – media, III – valoarea modală
e) I – media, II – valoarea mediană, III – valoarea modală

2. Graficul alăturat ilustrează o distribuţie… a) simetrică b) leptocurtică c) platicurtică


d) asimetrică spre dreapta e) asimetrică spre stânga

3. Care dintre următorii indicatori împart seria de date în patru subgrupe?


a) cuartilele b) decilele c) deviaţia standard d) valoarea mediană e) centilele

4. Dacă abaterea standard (abaterea medie pătratică) a unei populaţii în funcţie de o


anumită caracteristică este egală cu 9, atunci dispersia (varianţa) populaţiei este:
a) 3 b) 9 c) 21,35 d) 81 e) 4,5

5. Care dintre următorii indicatori nu caracterizează tendinţa centrală a unei serii de


distribuţie? a) centilele b) cuartilele c) abaterea standard d) valoarea modală e) decilele

Se cunosc datele din tabelul alăturat, care vor fi folosite pentru Grupe de Număr de
întrebările 6, 7 şi 8. vârstă observaţii
6. Valoarea modală a acestor date este… [10-20) 16
[20-30) 12
a) 15 b) 20 c) 35 d) 45 e) 55
[30-40) 7
[40-50) 13
7. Media aritmetică a acestor date este... [50-60] 8
a) 11,2 b) 32,3 c) 35 d) 56 e) 16

8. Dispersia acestor date este... a) 212,69 b) 208,89 c) 14,4 d) 14,58 e) 0

29
9. Valoarea mediană se poate determina pentru variabile calitative nominale? a) Da b) Nu

10. Valoarea modală se poate determina pentru variabile calitative nominale? a) Da b) Nu

11. Valoarea medie se poate determina pentru variabile calitative nominale? a) Da b) Nu

12. Valoarea medie se poate determina pentru variabile calitative ordinale? a) Da b) Nu

13. Dacă o distribuţie este anormal de înaltă şi îngustă, atunci această distribuţie se spune că
este… a) mezocurtică b) platicurtică c) leptocurtică d) pirocurtică e) simetrică

14. Dacă o serie de date este caracterizată de o medie egală cu 14 şi de o abatere standard
egală cu 5, care este valoarea coeficientului de variaţie?
a) 2,8% b) 60,4% c) 48,3% d) 35,7% e)27,8%

15. Care dintre următoarele măsuri nu reprezintă indicatori ai dispersării unei serii de date?
a) abaterea medie absolută b) amplitudinea c) varianţa d) abaterea medie pătratică
e) cuartilele

16. Care este valoarea mediană în seria (40, 61, 13, 20, 6, 5, 34, 18, 2, 19, 10)?
a) 13 b) 18 c) 19 d) 19,5 e) acest indicator nu se poate calcula pentru seria dată

17. Care este valoarea modală în seria (40, 61, 13, 20, 6, 5, 34, 18, 2, 19, 10)?
a) 13 b) 18 c) 19 d) 19,5 e) acest indicator nu se poate calcula pentru seria dată

Se cunosc datele din tabelul alăturat, care vor fi folosite pentru întrebarea X Y
18. 12 31
17 47
18. Care este abaterea standard a lui X, respectiv a lui Y? 24 39
a) 70,24, respectiv 28,16 b) 8,38 respectiv 5,31 c) 23,4 respectiv 39,2 28 42
d) 24, respectiv 16 e) aceşti indicatori nu se pot calcula pentru aceste date 36 37

19. Care este valoarea maximă a dispersiei unei variabile binare?


a) 0,25 b) 0,025 c) 0,5 d) 0,05 e) 1

20. Abaterea standard este: a) numită şi abatere medie pătratică b) o măsură a împrăştierii
c) un indicator aproximativ al felului în care valorile individuale variază în jurul mediei
d) rădăcină pătrată din dispersie e) toate cele de mai sus

21. Care din următoarele afirmaţii este falsă?


a) Media este afectată mai puternic decât mediana de prezenţa valorilor extreme.
b) Amplitudinea este mai sensibilă decât abaterea standard la prezenţa valorilor extreme.
c) Abaterea standard este un indicator al împrăştierii în jurul mediei.
d) Abaterea standard este un indicator al tendinţei centrale în jurul medianei.
e) Pentru o distribuţie simetrică, media este egală cu valoarea mediană.

30
Datele din tabelul alăturat vor fi folosite pentru întrebările 22 şi
Frecvenţe
23. Intervale relative
22. Care este frecvenţa relativă pentru cel de-al treilea interval? cumulate
[0, 5) 0,23
a) 0,41 b) 0,59 c) 0,11 d) 1 e) 0,07
[5, 10) 0,34
[10, 15) 0,41
23. Dacă aceste date sunt calculate pe baza a 800 de observaţii, [15, 20] 1
care este frecvenţa absolută pentru cel de-al doilea interval?
a) 34 b) 272 c) 80 d) 88 e) 456

24. Un eşantion de 99 de distanţe are o medie de 24km şi o mediană de 24,5km. Din păcate,
s-a descoperit ulterior măsurătorilor că o observaţie care fusese în mod eronat înregistrată
drept “30km” avea în realitate o valoare de 35km. Dacă se face această corectură asupra
datelor, atunci:
a) media rămâne neschimbată, dar mediana va creşte
b) atât media, cât şi mediana rămân neschimbate
c) mediana rămâne neschimbată, dar media creşte
d) atât media, cât şi mediana vor creşte
e) nu putem aprecia cum vor fi afectate media şi mediana, dar sigur dispersia va creşte

25. Scorurile la un test de statistică pentru o grupă de 17 studenţi au fost: 4, 6, 7, 7, 9, 10, 11,
13, 14, 15, 15, 15, 17, 17, 19, 19, 20. După ce s-au calculat media, mediana şi valoarea
modală, s-a descoperit o eroare: un student despre care se ştia că obţinuse un scor egal cu
15 obţinuse de fapt un scor egal cu 17. Indicatorii tendinţei centrale care vor fi afectaţi de
această modificare sunt: a) doar media b) doar valoarea modală c) doar mediana d)
mediana şi valoarea modală e) toţi trei indicatorii

26. Care din următoarele afirmaţii este falsă?


a) Numerele 3, 3, 3 au o abatere standard egală cu zero
b) Numerele 3, 4, 5 au aceeaşi abatere standard ca şi 1003, 1004, 1005
c) Abaterea standard este o măsură a împrăştierii în jurul mediei datelor
d) Numerele 1, 5, 9 au o dispersie mai mică decât 101, 105, 109
e) Abaterea standard este egală cu rădăcină pătrată din dispersie.

27. În cadrul unui studiu, un om de ştiinţă a cântărit 30 de peşti, obţinând o medie de 30g şi
o abatere standard de 2g. După efectuarea acestor măsurători, cercetătorul şi-a dat seama
că folosise un cântar descentrat, care indica greutăţi mai mici cu 2g faţă de realitate (de
exemplu, pentru un peşte care cântărea în realitate 26g, cântarul a indicat 24g). Date fiind
aceste informaţii, care sunt valorile mediei şi abaterii standard după ce s-a corectat eroarea
de cântărire? a) 28g, 2g b) 30g, 4g c) 32g, 2g d) 32g, 4g e) 28g, 4g

Răspunsuri:
1. a, 2. e, 3. a, 4. d, 5. c, 6. a, 7. b, 8. b, 9. b, 10. a,
11. b, 12. b, 13. c, 14. d, 15. e, 16. b, 17. e, 18. b, 19. a, 20. e,
21. d, 22. e, 23. d, 24. c, 25. a, 26. d, 27. c.

31

S-ar putea să vă placă și