Sunteți pe pagina 1din 38

CAPITOLUL 1. INTRODUCERE ÎN STATISTICĂ.

VARIABILE
ALEATOARE ȘI REPARTIȚII STATISTICE

Statistica a apărut ca o necesitate obiectivă legată de măsurarea,


cuantificarea unor fenomene sociale şi economice. Primele metode de cercetare
statistică au apărut în studiul populaţiei, practicată sub formă de numărătoare a
populaţiei şi evidenţă a bunurilor materiale. De-a lungul timpului, metodele de
analiză statistică au evoluat, au apărut diverse modele statistice, unele mai simple,
altele mai complexe, orientate către evidențierea a numeroase aspecte ale vieţii
social – economice.
Obiectul fundamental de studiu al statisticii îl reprezintă o mulţime de
individualităţi ale căror caracteristici sunt supuse analizei şi care poartă numele
de populaţie statistică.

Populaţia (colectivitatea) statistică reprezintă totalitatea manifestărilor


sau a elementelor de aceeaşi natură, de aceeaşi esenţă calitativă ce compun un
fenomen ori proces economic bine individualizat. Populaţia statistică specifică
vieţii social – economice are un caracter obiectiv, concret şi finit, strict determinat
în timp şi în spaţiu.
Populaţia statistică este compusă din ansamblul unităţilor statistice.
Unitatea statistică reprezintă forma individuală de manifestare obiectivă a
fenomenelor şi proceselor supuse cercetării. Definiţia unităţilor statistice trebuie
să conţină cel puţin caracteristicile de identificare referitoare la concretizarea
obiectivă a unităţii (obiect, fenomen etc.), precum şi la localizarea temporală şi
spaţială a acesteia.
De exemplu, dacă o unitate statistică se defineşte ca fiind o persoană care
în data de 1 ianuarie 2021 locuieşte în Timişoara, atunci înseamnă că au fost fixate
caracteristicile de identificare: concret – persoana, temporal – 1 ianuarie 2021, iar
spaţial – oraşul Timişoara.

Fiecare din unităţile unei populaţii statistice are anumite trăsături, însuşiri
sau proprietăţi, numite caracteristici statistice. În general, unităţile statistice
posedă un număr foarte mare de însuşiri, dar în cadrul analizei statistice se reţin
numai acelea care prezintă interes pentru cercetarea întreprinsă.
După modul de exprimare, caracteristicile statistice pot fi cantitative
(numerice) sau calitative (atributive). Caracteristicile cantitative se măsoară
(cifra de afaceri, producţia, consumul etc.), se numără (numărul de muncitori,
numărul de utilaje etc.) sau se calculează, în timp ce caracteristicilor calitative li
1
se observă frecvenţa realizării (starea socială, profesia, calitatea produselor etc.).
Distincţia dintre o caracteristică exprimată cantitativ şi o caracteristică atributivă
este, uneori, convenţională. Unei caracteristici numerice i se pot atribui, dacă se
doreşte, expresii calitative, precum şi caracteristicile calitative pot fi cuantificate
numeric, pe baza unor convenţii.
După numărul valorilor posibile pe care unităţile statistice le pot
înregistra, caracteristicile sunt alternative şi nealternative. Caracteristicile
nealternative pot lua diferite valori diferite pentru fiecare unitate în parte, în timp
ce caracteristicile alternative (binomiale sau bernoulliene) au caracter dihotomic,
pot lua numai două valori (admis – respins, da – nu etc.).

Partea din populaţia statistică care face de cele mai multe ori obiectul
cercetării statisticii se numeşte selecţie sau eşantion şi este o submulţime
reprezentativă a populaţiei.
Eşantionul reprezintă ansamblul unităţilor statistice ale căror caracteristici
sunt înregistrate în cercetarea statistică, al cărui volum este, de regulă,
considerabil mai mic decât cel al populaţiei studiate. Procesul de obţinere a
eşantionului poartă numele de selecţie sau sondaj statistic şi trebuie să
îndeplinească o serie de condiţii care să asigure reprezentativitatea acestuia, adică
la o scară mai mică, eşantionul trebuie să reproducă trăsăturile populaţiei din care
provine. Acest proces are la bază conceptele de experiență aleatoare, respectiv,
de variabilă aleatoare.

Cel mai simplu mod de a defini o experienţă aleatoare este prin a spune
că aceasta este acea experienţă al cărei rezultat nu poate fi cunoscut decât după
încheierea ei. Cuvântul „aleator” semnifică faptul că nu se poate preciza dinainte
valoarea pe care o va lua variabila respectivă la un moment dat.
O experienţă aleatoare are mai multe rezultate posibile, cu o anumită
probabilitate teoretică de apariție. Având în vedere că fiecare eveniment este
caracterizat de o anumită probabilitate de apariţie, valorile variabilei aleatoare vor
fi însoţite de probabilităţile asociate apariţiei lor.
Din punct de vedere practic, pentru a descrie o experienţă aleatoare în
termeni de rezultate posibile şi probabilităţi de apariţie se foloseşte un tablou
format din două linii, pe prima linie înscriindu-se rezultatele posibile ale
experienţei şi pe linia a doua probabilităţile teoretice corespunzătoare.

2
De exemplu, experienţa aleatoare care corespunde obținerii unei note după
prezentarea la un examen se poate descrie prin intermediul următorului tablou:

1 2 3 4 5 6 7 8 9 10
𝑋: ( )
1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10 1/10

Pe prima linie sunt înscrise notele de la 1 la 10, care sunt toate rezultatele
posibile după prezentarea la un examen, iar pe linia a doua s-a pus în evidenţă
faptul că fiecare rezultat are o şansă din 10 să apară.

Tabloul care descrie o experienţă aleatoare se numeşte variabilă aleatoare


şi de obicei se notează cu litere mari cum ar fi X, Y, Z etc.
Există două feluri de variabile aleatoare, unele pentru care putem enumera
rezultatele iar altele pentru care putem preciza doar intervalul, sau intervalele
cărora le aparţin aceste rezultate.
În teoria probabilităţilor, variabilele aleatoare de cele două tipuri sunt
denumite în mod distinct: variabilele aleatoare discrete sunt acelea pentru care
enumerarea rezultatelor este posibilă, iar variabilele aleatoare continue sunt cele
pentru care nu putem enumera rezultatele pentru că ele aparţin unui interval, sau
unei reuniuni de mai multe intervale – dar putem preciza intervalele în cauză.

Metoda clasică de calcul al probabilităţii unui eveniment este determinarea


raportului dintre numărul de cazuri favorabile şi numărul cazurilor posibile:

𝑎
P (eveniment A)=
𝑏

Unde a este numărul de cazuri favorabile producerii evenimentului, iar b


este numărul de cazuri posibile. Pe baza acestei metode de calcul a probabilităţii
unui eveniment este evident că o valoare de probabilitate este situată întotdeauna
în intervalul [0, 1].
Valoarea probabilității nu poate fi mai mică decât zero, deoarece atât
numărul de cazuri favorabile, cât şi numărul de cazuri posibile sunt mărimi mai
mari decât zero. De asemenea, probabilitatea este cel mult egală cu 1, deoarece
numărul cazurilor favorabile nu poate fi niciodată mai mare decât numărul
cazurilor posibile, deci raportul lor nu poate fi mai mare decât 1.

Mulţimea tuturor valorilor de probabilitate pentru variabila aleatoare, fie


ea discretă sau continuă, poartă numele de densitate de probabilitate, sau densitate
de repartiţie, iar ansamblul de valori posibile și probabilitățile lor de apariție
3
poartă numele de distribuţie sau repartiție de probabilitate pentru variabila
aleatoare X.
Pornind de la aceste noțiuni, prin ordonarea şi gruparea datelor statistice
după una sau mai multe caracteristici, se obţin seriile statistice de date.
După conţinutul caracteristicii de grupare, seriile statistice sunt de trei
tipuri: serii de repartiţie (de distribuţie sau de frecvenţă), serii de timp (dinamice
sau cronologice) şi serii de spaţiu (teritoriale).

Seria de repartiţie după variaţia unei caracteristici numerice poate fi


discretă (pe variante) sau continuă (pe intervale).

Principalele repartiții de probabilitate discrete sunt repartiția binomială,


repartiția Poisson, distribuția hipergeometrică.

Principalele repartiții de probabilitate continue sunt: repartiția uniformă,


repartiția exponențială și repartiția normală.

Seria de timp, dinamică sau cronologică prezintă variaţia unei


caracteristici în funcţie de timp. După timpul la care se referă datele prezentate,
pot fi serii dinamice de intervale şi serii dinamice de momente.

Seria de spaţiu este aceea în care centralizarea frecvenţelor sau a valorii


individuale ale caracteristicii studiate se face în funcţie de variaţia teritorială.

Cunoaşterea statistică a evoluţiei fenomenelor şi proceselor economice


depinde de existenţa unor informaţii pe baza cărora se face o analiză a situaţiei
reale şi se fundamentează strategiile de urmat de către factorii de decizie.

Culegerea datelor şi valorificarea informaţiilor rezultate din prelucrarea şi


analiza statistică a acestora poartă numele de cercetare statistică şi reprezintă un
proces de cunoaştere a fenomenelor de masă cu ajutorul metodelor şi tehnicilor
statistice.
Cercetarea statistică se desfăşoară de-a lungul a trei etape succesive:
1. Observarea statistică sau culegerea datelor;
2. Prelucrarea primară a datelor şi obţinerea principalilor indicatori statistici;
3. Analiza şi interpretarea economică a rezultatelor prelucrării.
Aceste etape reprezintă un ansamblu unitar de activităţi, sintetizate într-un
program de cercetare statistică, ce cuprinde principiile şi problemele care trebuie
rezolvate în fiecare etapă.

4
CAPITOLUL 2. OBȚINEREA ȘI PRELUCRAREA PRIMARĂ A
DATELOR STATISTICE

Obținerea și prelucrarea primară a datelor statistice reprezintă primele


etape în culegerea datelor şi valorificarea informaţiilor rezultate din prelucrarea
statistică a acestora.
Astfel, primul pas al demersului unei analize statistice îl reprezintă
culegerea datelor conform unor principii bine stabilite, proces cunoscut sub
numele de observare statistică.

2.1. Observarea statistică

Ansamblul activităţilor de culegere a datelor referitoare la caracteristicile


unei populaţii statistice poartă numele de observare statistică.
Datele culese trebuie să îndeplinească anumite condiţii de volum şi calitate,
pentru a asigura un grad ridicat de relevanţă procesului ulterior de prelucrare a
acestora.

Astfel, principiul de bază al observării statistice îl reprezintă asigurarea


autenticităţii datelor, de a cărui respectare depinde calitatea analizei statistice ce
urmează a fi derulată pe baza informaţiilor culese. Acest principiu presupune
realizarea concordanţei dintre datele înregistrate şi dimensiunea reală a
fenomenului observat şi presupune îndeplinirea a două condiţii:

o condiţia de volum, care constă în culegerea datelor de la cât mai multe


unităţi ale populaţiei statistice studiate. Volumul datelor culese trebuie să fie
suficient de mare astfel încât să permită manifestarea legii numerelor mari
(conform căreia, rezultatul mediu obținut se apropie tot mai mult de valoarea
așteptată, cu cât experimentul se repetă de mai multe ori, datorită faptului că
abaterile întâmplătoare într-un sens sau altul se compensează reciproc). Astfel, cu
cât volumul datelor culese este mai mare, cu atât șansele de compensare și anulare
reciprocă a factorilor aleatori (neesenţiali, întâmplători) sunt mai mari.

o condiţia de calitate, care impune înregistrarea unor date reale, fără erori.
Îndeplinirea acestei condiții depinde foarte mult de măsurile prin care se asigură
logistica desfăşurării observării statistice: elaborarea coerentă și omogenă a
formularelor de înregistrare a datelor şi a instrucţiunilor de completare a acestora,
1
recrutarea şi instruirea temeinică a personalului de înregistrare, optimizarea
timpului necesar culegerii datelor, stabilirea locurilor concrete de unde se vor
obține informațiile etc.

Un alt principiu important al observării statistice îl constituie eficienţa


procesului de observare, care presupune culegerea doar a acelor date care conduc
la obţinerea informaţiei de care este nevoie în cercetarea populaţiei statistice.
Având în vedere diversitatea de caracteristici specifice unităților statistice
componente ale fenomenelor și proceselor economice, datele care nu fac obiectul
cercetării statistice trebuie selectate şi eliminate, deoarece solicită costuri umane
şi materiale mari, care nu se regăsesc în informaţia finală.

Observarea statistică poate fi clasificată în funcție de numeroase criterii,


dintre care cele mai importante sunt:

Astfel, în funcţie de continuitatea obţinerii datelor, există observări


permanente şi observări speciale.

Observările permanente se realizează pe tot parcursul timpului, de obicei


de către instituţii specializate în cercetare statistică, precum Institutul Naţional de
Statistică (https://insse.ro/cms/) sau la nivelul Uniunii Europene, Eurostat
(https://ec.europa.eu/eurostat), de către instituţii financiar – bancare, precum
Banca Naţională a României (https://www.bnr.ro/Home.aspx) sau la nivel global,
Banca Mondială (https://data.worldbank.org/), ori de către alte diverse organisme
guvernamentale din România sau europene, care colectează şi prelucrează date
referitoare la principalii indicatori economici şi financiari, atât la nivel
microeconomic, cât și la nivel macroeconomic.
Rezultatele observărilor permanente se concretizează în diverse rapoarte
sau publicaţii statistice (anuare, reviste, studii, baze de date statistice), care au de
obicei un caracter general, de informare publică.

Observările speciale se organizează doar în anumite momente de timp, în


vederea acoperirii necesităţilor legate de situaţii specifice, de tipul anchetelor sau
sondajelor statistice și au de obicei un caracter privat, pentru a deservi scopurilor
particulare ale entității care are nevoie de aceste sondaje.
De regulă, răspunsurile la acestea se consemnează în diverse tipuri de
chestionare de către personal special instruit sau se pot realiza prin
autoînregistrare, prin poştă, telefon, internet. Ele pot fi făcute publice de către
entitățile beneficiare în anumite situații.

2
După volumul de date obţinute în urma observării statistice, observarea
poate fi totală sau parţială.

Observarea totală presupune culegerea datelor de la toate unităţile


statistice care compun populaţia studiată, adică se înregistrează fiecare unitate în
parte cu nivelul caracteristicilor cuprinse în programul observării. Pe baza datelor
obţinute în urma observării totale se calculează cu exactitate indicatori statistici
referitori la întreaga populaţie statistică.
Cea mai cunoscută formă de observare totală este recensământul.
Dezavantajul major al observării totale constă în resursele mari de timp, umane
și financiare consumate.

Observarea parţială constă în înregistrarea doar a unei părţi din totalul


unităţilor statistice ale populaţiei studiate, numită eşantion sau selecţie. Datorită
desfăşurării ample în timp şi spaţiu a majorităţii fenomenelor şi proceselor
economice, observarea parțială are o largă utilizare în statistica economică.
Pentru ca datele obţinute prin intermediul observării parțiale să permită
cunoaşterea cât mai exactă a realităţii cercetate, este necesar ca eşantionul să fie
reprezentativ, adică să reflecte cât mai fidel structura şi principalele trăsături ale
populației statistice din care a fost extras.
Observarea parţială prezintă numeroase avantaje faţă de cea totală, dintre
care amintim: reducerea cheltuielilor de înregistrare şi de prelucrare a datelor,
reducerea timpului necesar efectuării cercetării statistice, posibilitatea studierii
populaţiilor statistice ale căror unităţi se distrug prin observare, existenţa unor
şanse sporite de cercetare în profunzime a fenomenului etc.
Cu toate acestea, observarea parţială nu poate substitui în întregime
observarea totală, deoarece o serie de indicatori statistici de volum sau de
structură nu pot fi determinaţi decât pe baza unor înregistrări totale, cum e în
cazul recensământului populației unei țări.

După momentul efectuării observării, se pot întâlni observări statice sau


dinamice.

În cazul observărilor statice, datele referitoare la fenomenul cercetat se


limitează la un moment dat al evoluţiei acestuia, în timp ce în cazul observărilor
dinamice, aceeaşi caracteristică a fenomenului este urmărită la momente de timp
succesive.

3
În funcție de modul de culegere a datelor, observarea statistică poate fi
indirectă sau directă.

Observarea indirectă cunoscută și sub numele de observare documentară


presupune preluarea datelor înregistrate în diferite documente (contabile,
financiare, baze de date etc.) sau în lucrări publicate anterior (cărţi, studii, pagini
de internet etc.).
Observarea indirectă are două avantaje principale, constând în costurile
reduse şi rapiditatea obţinerii datelor. Dezavantajul constă în faptul că eventualele
erori înregistrate în sursele primare de informații vor fi preluate și în cercetarea
proprie.
Datele obținute în urma observării indirecte trebuie să fie compatibile cu
metodologia proprie, astfel încât datele preluate din diferite surse să fie omogene
și să corespundă scopului urmărit.

Observarea directă cunoscută și sub numele de observare în teren apare în


cazul înregistrărilor special organizate, când se înregistrează date pentru toate
caracteristicile programului observării.
Cel mai adesea, observarea directă se realizează prin metoda interviului
(scris şi/sau oral). Interviul în scris presupune ca persoanele intervievate să
răspundă în scris la întrebările cuprinse în chestionar. O variantă des întâlnită la
ora actuală a interviului scris este interviul on-line.
Interviul oral (verbal) se realizează în prezenţa unei persoane care
consemnează răspunsurile persoanelor intervievate în chestionar. Poate fi realizat
și telefonic. Un exemplu clasic de interviu oral este recensământul populaţiei.
Pe lângă interviu, metode directe de observare mai sunt și măsurarea/
numărarea directă a unor caracteristici (de exemplu, inventarul tuturor
mărfurilor existente într-un depozit) sau experimentul, utilizat mai ales în științele
naturii (chimie, fizică, biologie).

În procesul obţinerii datelor statistice pot apare situaţii în care datele


înregistrate nu concordă cu realitatea. Aceste neconcordanţe ale rezultatelor
observării statistice cu datele reale poartă numele de erori de observare
(înregistrare). Ele se clasifică, de regulă, în erori întâmplătoare şi erori
sistematice.

Erorile de observare întâmplătoare sunt destul de numeroase şi nu pot fi


evitate. Ele se produc în ambele sensuri şi survin nepremeditat, în majoritatea
cazurilor datorită neatenţiei operatorului. Așa cum s-a arătat mai sus, conform

4
legii numerelor mari, aceste erori se compensează și se anulează reciproc, dacă
numărul de observații este suficient de mare.

Erorile de observare sistematice produc abateri substanţiale de la realitatea


observată, deoarece se produc repetat şi în acelaşi sens. În majoritatea cazurilor,
erorile sistematice au la origine neînţelegerea corectă a procedeelor de culegere a
datelor sau aplicarea eronată a acestora. Ele trebuie urmărite cu atenţie şi
eliminate, pentru a nu denatura concluziile rezultate în urma procesului de
prelucrare şi analiză statistică a datelor culese.

O categorie aparte, rar întâlnită, de erori sistematice o reprezintă erorile


premeditate, cauzate fie de către cei care culeg datele, fie de către cei care le
prelucrează şi care au efecte negative semnificative asupra concluziilor cercetării.
Pe lângă acestea, în cazul observărilor parţiale, mai poate apare şi un alt tip
de eroare sistematică, şi anume, eroarea de reprezentativitate, care se produce
atunci când eşantionul studiat nu a fost bine ales şi, ca atare, nu este reprezentativ,
fie ca volum, fie ca structură, pentru populaţia statistică din care provine.

Pentru a evita apariţia tuturor acestor genuri de erori, este necesară


efectuarea unui control riguros în scopul asigurării autenticităţii datelor şi a unor
informaţii cât mai apropiate de realitate. În funcţie de specificul modalităţii de
verificare a informaţiilor rezultate în urma observării statistice, controlul poate fi
cantitativ sau calitativ.

Controlul cantitativ este realizat prin verificarea transmiterii datelor de către


toate unităţile statistice înregistrate sau dacă au fost completate toate informaţiile
cerute de cercetarea statistică. De asemenea, mai poate fi realizat prin verificarea
calculelor aritmetice care au stat la baza obținerii unor indicatori sau a
documentelor de evidenţă primară care au stat la baza completării formularelor.

Controlul calitativ poate fi realizat cel mai adesea cu ajutorul metodelor


logice, prin aprecierea realităţii datelor din punct de vedere al concordanţei cu
limitele admisibile ale valorilor înregistrate sau prin compararea cu înregistrări
efectuate la unităţi similare ori la aceeaşi unitate în perioadele anterioare.

5
CAPITOLUL 2. OBȚINEREA ȘI PRELUCRAREA PRIMARĂ A
DATELOR STATISTICE

2.2. Prelucrarea primară a datelor statistice

Faza ulterioară observării statistice, în urma căreia s-au obţinut toate datele
necesare, o reprezintă prelucrarea primară a datelor, care constă în operaţiuni de
centralizare, ordonare, grupare şi reprezentare a datelor sub formă de serii, tabele
sau grafice.

1. Centralizarea datelor constă în totalizarea valorilor individuale pe


întreaga populaţie statistică studiată şi, dacă este necesar, pe subgrupe omogene.
Totalizarea valorilor unei caracteristici se face prin însumarea directă sau prin
intermediul unor coeficienţi de echivalenţă. Pentru a realiza operaţiunea de
centralizare, datele trebuie să fie reale, fără erori de înregistrare şi comparabile,
adică să se refere la aceeaşi caracteristică, observată în condiţii unitare şi
exprimată în aceeaşi unitate de măsură.

2. Gruparea datelor este o metodă fundamentală utilizată în prelucrarea


primară a datelor statistice şi constă în separarea unităţilor unei populaţii în sub-
grupe omogene în raport cu una sau mai multe caracteristici. Realizarea acestei
operaţiuni este posibilă numai atunci când volumul populaţiei sau eşantionului
studiat este suficient de mare. Gruparea trebuie realizată astfel încât să nu se
denatureze în nici un fel concluziile rezultate în urma procesului de prelucrare.

Astfel, se determină un şir de intervale de lungimi, de regulă, egale, care


cuprind date omogene şi care sunt despărţite de restul populaţiei statistice prin
cele două limite ale intervalului, una inferioară şi una superioară. În vederea
grupării datelor pe intervale de frecvenţă, în primul rând se stabileşte
amplitudinea variaţiei datelor studiate (A), după relaţia:

A = xmax – xmin

în care, xmax reprezintă nivelul maxim al caracteristicii, iar xmin este nivelul minim
al acesteia.
Următoarea etapă o reprezintă stabilirea dimensiunii optime a intervalului
de grupare h.
1
În cazul populaţiilor de volum mare, grupate după caracteristici cu tendinţe
de variaţie sistematică şi cu o amplitudine de variaţie mare, dimensiunea optimă
a intervalelor de grupare (h) se poate determina conform formulei lui H. Sturges:

xmax  xmin
h
1  3,322  lg n

unde n reprezintă volumul eşantionului studiat.


Dimensiunea optimă a intervalului de grupare se alege în mod convenabil,
ca număr întreg, rotunjindu-se, de regulă, în sus.
În continuare, se formează intervalele de grupare în funcţie de variaţia
caracteristicii, continuă sau discretă.

În cazul în care caracteristica studiată este continuă, formarea


intervalelor se realizează pornind de la valoarea minimă (xmin) sau de la o valoare
puţin mai mică decât cea minimă, la care se adaugă dimensiunea intervalului de
grupare.
Limita superioară a intervalului astfel creat devine limită inferioară pentru
următorul interval, la care se adaugă din nou dimensiunea h şi se continuă în acest
mod până când ultimul interval de grupare include valoarea maximă (xmax).
Pentru a se evita includerea unei valori egale cu limita în ambele intervale
pe care aceasta le mărgineşte, se stabileşte o convenţie care precizează care din
limite este inclusă în interval (de exemplu, interval închis la dreapta şi deschis la
stânga, care înseamnă că în intervalul respectiv se include limita inferioară, sau
invers, deschis la dreapta şi închis la stânga, adică se include limita superioară).
Pentru a nu apare distorsiuni, convenţia trebuie păstrată pentru toate intervalele
de grupare formate.

În cazul în care caracteristica studiată este discretă, limita inferioară a


intervalului următor nu mai coincide cu limita superioară a intervalului anterior,
ci se deplasează cu o unitate în sus, modalitatea de formare rămânând, în rest,
aceeaşi.
După formarea intervalelor de grupare, se separă unităţile statistice pe grupe
de variaţie, respectiv, se determină frecvenţa de distribuţie, care constă în
calcularea frecvențelor absolute, relative și cumulate.
Frecvențele absolute (ni) constau în cuantificarea numărului de unităţi
statistice care se situează în fiecare interval.

2
Frecvenţele relative (fi) sunt determinate fie sub formă de coeficient, fie
ni
procentual, ca raport între frecvențele absolute și volumul eșantionului: f i 
n
Suma frecvenţelor relative este fie 1, dacă sunt exprimate sub formă de
coeficient, fie 100%, dacă se exprimă procentual:

 fi  1 ,
k

i 1
f
i 1
i  100%

Frecvenţa de apariţie poate fi cumulată, atât în formă absolută (Cni), cât şi


în formă relativă (Cfi), ca sumă a frecvenței intervalului curent cu frecvențele
intervalelor anterioare, conform relaţiilor:

i i
Cni   nm ; Cfi   f m
m 1 m 1

Întotdeauna frecvenţa absolută cumulată a ultimului interval este egală cu


volumul eşantionului, iar frecvenţa relativă cumulată a ultimului interval este 1
sau 100%, dacă este exprimată procentual.

3
Exemple curs Statistică 17.03.2021:

Pe baza unui eşantion format din 10 date referitoare la profiturile lunare realizate de o
companie, se cere gruparea acestora pe intervale de frecvenţă.
Valorile înregistrate sunt [mii lei]:

9,3 5,2 11,5 4,8 8,2 6,8 9,1 12,7 6,3 10,2

h = (12,7 – 4,8) / (1 + 3,322 * lg(10)) = 7,9 / 4,322 = 1,827

Valoarea obținută din calcul se rotunjește în sus către cea mai apropiată valoare întreagă.
h = 2.

Deoarece caracteristica Profit este continuă, vom construi intervalele de grupare după
următorul algoritm:

Primul interval va include valoarea minimă dintre datele analizate (cel mai adesea, în
practică, limitele intervalelor sunt valori întregi):

4–6
6–8
8 – 10
10 – 12
12 – 14

Limita superioară a primului interval (6) devine limita inferioară a intervalului al doilea, și
se continuă cu același algoritm până se include valoarea maximă în intervalele construite.

Pasul următor e să stabilim în ce interval includem limitele care apar în două intervale
succesive. Există două variante:
1. Includem limitele inferioare în fiecare interval și le excludem pe cele superioare:
[4 – 6)
[6 – 8)
[8 – 10)
[10 – 12)
[12 – 14)

2. Includem limitele superioare în fiecare interval și le excludem pe cele inferioare:


(4 – 6]
(6 – 8]
(8 – 10]
(10 – 12]
(12 – 14]
Dacă studiem o caracteristică discretă (valori întregi), atunci formarea intervalelor se
realizează în felul următor:
De exemplu, notele obținute la un examen: 1 – 10

Intervale propuse:
1 – 4 (includem notele de 1, 2, 3 și 4 reprezentând studenții nepromovați la examen)
5 – 7 (includem notele de 5, 6 și 7 reprezentând studenții care au promovat examenul cu
note mici și medii)
8 – 10 (includem notele de 8, 9 și 10 reprezentând studenții care au promovat examenul cu
note mari și foarte mari)

Distribuția de frecvență pe date continue, în varianta 1:

9,3 5,2 11,5 4,8 8,2 6,8 9,1 12,7 6,3 10,2

[4 – 6)
[6 – 8)
[8 – 10)
[10 – 12)
[12 – 14)

Frecvențele absolute (ni) reprezintă numărul de valori care se includ în fiecare interval în
parte:
xi ni
[4 – 6) 2
[6 – 8) 2
[8 – 10) 3
[10 – 12) 2
[12 – 14) 1
Total 10
Suma frecvențelor absolute este întotdeauna egală cu volumul eșantionului (numărul de date
analizate – n).

Frecvențele relative (fi) calculate ca raport între frecvențele absolute și volumul


eșantionului:
xi ni fi
[4 – 6) 2 = 2 / 10 = 0,2 (20%)
[6 – 8) 2 = 2 / 10 = 0,2 (20%)
[8 – 10) 3 = 3 / 10 = 0,3 (30%)
[10 – 12) 2 = 2 / 10 = 0,2 (20%)
[12 – 14) 1 = 1 / 10 = 0,1 (10%)
Total 10 1 (100%)

Frecvențele relative ne arată ponderea fiecărui interval în totalul eșantionului analizat:


În intervalul 4 – 6 mii lei, se regăsesc 20% din profiturile realizate
În intervalul 6 – 8 mii lei, se regăsesc alte 20% din profiturile realizate
În intervalul 8 – 10 mii lei se regăsesc 30% din profiturile realizate (acest interval are
ponderea cea mai mare din total) – considerăm că în acest interval se regăsesc valorile
normale ale profitului companiei analizate
În intervalul 10 – 12 mii lei, se regăsesc alte 20% din profiturile realizate
În intervalul 12 – 14 mii lei, se regăsesc doar 10% din profiturile realizate

Frecvențele cumulate absolute (Cni) și relative (Cfi):


xi ni fi Cni Cfi
[4 – 6) 2 = 2 / 10 = 0,2 (20%) =2+0=2 = 0,2 + 0 = 0,2
[6 – 8) 2 = 2 / 10 = 0,2 (20%) =2+2=4 = 0,2 + 0,2 = 0,4
[8 – 10) 3 = 3 / 10 = 0,3 (30%) =3+2+2=7 = 0,3 + 0,2 + 0,2 = 0,7
[10 – 12) 2 = 2 / 10 = 0,2 (20%) =2+3+2+2=9 = 0,2 + 0,3 + 0,2 + 0,2 = 0,9
[12 – 14) 1 = 1 / 10 = 0,1 (10%) =1+2+3+2+2 = 0,1 + 0,2 + 0,3 + 0,2 + 0,2
= 10 =1
Total 10 1 (100%)

Frecvența cumulată absolută a ultimului interval este întotdeauna egală cu volumul


eșantionului (în cazul nostru, 10).

Frecvența cumulată relativă a ultimului interval este întotdeauna egală cu 1 (100%).

Frecvențele cumulate ne arată câte valori (sau ce procent din ele) se regăsesc sub un anumit
nivel.

De exemplu, sub nivelul de 10 mii lei avem 7 valori ale profitului, reprezentând 70% din
totalul profiturilor analizate.

Sub nivelul de 8 mii lei avem 4 valori ale profitului, reprezentând doar 40% din total.
CAPITOLUL 2. OBȚINEREA ȘI PRELUCRAREA PRIMARĂ A
DATELOR STATISTICE

2.2. Prelucrarea primară a datelor statistice - continuare

3. Prezentarea datelor sub formă de serii se realizează, de regulă, atunci


când este vorba despre observarea dinamică, seria respectivă fiind un şir dublu,
dintre care un şir se referă la variaţia caracteristicii studiate (grupată sau nu pe
intervale de frecvență), iar celălalt şir reprezintă frecvenţa de apariţie absolută (ni)
corespunzătoare, asfel:

𝑥1 𝑥2 … … 𝑥𝑖 … … 𝑥𝑘
𝑋: ( 𝑛 𝑛 … … 𝑛 … … 𝑛 )
1 2 𝑖 𝑘

4. Prezentarea datelor sub formă de tabele statistice are drept scop


ordonarea datelor în vederea aplicării metodelor de calcul şi de interpretare
statistică şi trebuie să cuprindă următoarele elemente de bază:
 titlul general, care redă într-o formă concisă populaţia statistică studiată

şi componentele sale şi care, de regulă, se notează deasupra tabelului;

 titlurile interioare, care reprezintă titulaturile coloanelor ce definesc


populaţia studiată şi caracteristicile de grupare luate în considerare;

 unitatea de măsură, care e specificată în titlul general, atunci când este


aceeaşi pentru toate elementele tabelului, sau în titlurile interioare, atunci când în
tabel sunt cuprinse elemente exprimate în unităţi de măsură diferite;

 notele tabelului servesc la interpretarea corectă a datelor din acesta, sunt


indicate, de regulă, prin asterisc şi se înscriu imediat sub tabel;

 sursele datelor, care trebuie riguros citate, deoarece acest lucru permite
verificarea exactităţii şi corectitudinii datelor înregistrate în tabel.

În general, între modalitatea de grupare a datelor şi tabelul statistic ce


serveşte la prezentarea acestora trebuie să existe o corespondenţă.

5. Reprezentarea grafică a seriilor statistice este o metodă larg întâlnită de


prezentare a datelor unei serii, sub forma unei imagini spaţiale, într-un sistem de
coordonate specificat.
1
Elementele de bază ale unei reprezentări grafice sunt:
 titlul graficului, care, similar cu tabelele statistice, indică populaţia

statistică studiată, locul şi perioada cercetării şi care trebuie să fie clar şi concis;

 axele de coordonate, care sunt, de regulă, coordonate rectangulare şi


servesc la reprezentarea punctelor graficului în sisteme bidimensionale (Ox, Oy)
ori tridimensionale (Ox, Oy, Oz);

 scara graficului, care reprezintă diviziunile graficului, şi poate fi


uniformă (aritmetică) sau neuniformă (progresivă, regresivă, logaritmică etc.);

 reţeaua graficului, care este opțională și este formată din linii paralele,
orizontale şi verticale, ce servesc la determinarea locului unor puncte, simboluri
sau figuri, fără a îngreuna citirea graficului;

 legenda, care explică semnificaţia notaţiilor folosite în grafic. Se


amplasează alături sau sub figură şi reproduce la scară redusă elementele utilizate
în reprezentarea grafică;

 notele şi sursele datelor.

Cele mai des întâlnite tipuri de grafice în reprezentarea seriilor statistice sunt
diagramele. Acestea pot fi reprezentate prin benzi sau prin coloane.
În cazul diagramelor prin benzi, se utilizează un sistem de axe
bidimensional. Benzile sunt de fapt dreptunghiuri, ale căror baze se reprezintă pe
axa Oy, în timp ce, pe axa Ox se reprezintă nivelul valoric al caracteristicii
studiate.
Diagramele prin coloane sunt, de asemenea, dreptunghiuri, cu diferenţa că,
de această dată, bazele dreptunghiurilor se reprezintă pe axa Ox, iar nivelul
valoric al caracteristicii studiate se reprezintă pe axa Oy.

Histograma este o reprezentare grafică sub formă de dreptunghiuri, similară


diagramelor prin coloane, cu deosebirea că bazele reprezentate pe axa Ox sunt
formate din intervalele de grupare, iar înălţimile reprezentate pe axa Oy sunt
formate din frecvenţele absolute sau relative de apariţie.

Poligonul frecvenţelor se poate uşor construi după ce a fost realizată


histograma, prin unirea cu segmente de dreaptă, în mod succesiv, a mijloacelor
bazelor superioare ale dreptunghiurilor histogramei.

2
CAPITOLUL 3. PARAMETRII REPARTIȚIILOR STATISTICE

Analiza seriilor de distribuţie cu ajutorul frecvenţelor de apariţie, a tabelelor


şi a reprezentărilor grafice, specifică prelucrării primare a datelor, oferă o imagine
destul de concisă asupra modului în care se comportă caracteristicile unui
fenomen sau proces economic.
Această imagine trebuie completată, generalizată şi reprezentată într-o
formă sintetică, astfel încât întreaga ei esenţă să fie concentrată în calcularea și
interpretarea unui set de parametri statistici.
Cei mai cunoscuți parametri statistici ce caracterizează o variabilă
economică sunt grupați în două mari categorii: parametrii tendinţei centrale,
respectiv, parametrii variaţiei.

3.1. Parametrii tendinţei centrale

În cadrul oricărui fenomen economic, valorile observate manifestă tendinţa


de grupare în jurul unor valori centrale, caracterizate cu ajutorul unor parametri
sau indicatori medii, cunoscuţi sub numele generic de mărimi medii.
Mărimile medii exprimă în mod sintetic şi generalizant ceea ce este esenţial
pentru unităţile unei populaţii statistice.
După rolul lor, mărimile medii sunt mărimi medii utilizate pentru calcul
(media aritmetică, media geometrică, media pătratică etc.), respectiv, mărimi
medii de poziţie (mediana, modul, etc.).

Media

Media este principalul indicator care arată tendinţa centrală a seriei, şi de


obicei este valoarea către care datele tind să se aglomereze.
Cea mai cunoscută și mai utilizată în practica economică este media
aritmetică. Aceasta este simbolizată, de regulă, prin x , când se determină la
nivel de eşantion şi prin m, atunci când este determinată la nivelul întregii
populaţii statistice. Media artimetică are mai multe forme de calcul.
Ca medie aritmetică simplă, se calculează ca sumă a tuturor datelor,
împărțită la numărul lor:
n

x i
x i 1
n

3
Ca medie aritmetică ponderată:
k

x i  ni
x i 1
k

n
i 1
i

Ca medie aritmetică pe date grupate pe intervale de frecvență:

x i
*
 ni
x i 1
k

n
i 1
i

unde xi reprezintă valorile individuale ale caracteristicii studiate;


ni reprezintă frecvenţele absolute;
n este volumul eşantionului studiat;
xi* reprezintă mijlocul intervalului (xi-1, xi), calculat astfel: xi* = (xi-1 + xi)/2.
k este numărul de intervale de grupare

Media aritmetică are o serie de proprietăţi, dintre care amintim: este


omogenă şi aditivă; media unei constante este egală cu constanta însăşi; media se
situează întotdeauna între valorile extreme ale variabilei.

Mai există și alte variante de medie, mai rar utilizate în economie, precum:

x i
2

o media pătratică: x p  i 1
n

n
o media armonică: xh  n
1
x
i 1 i

n
o media geometrică: xg  n xi 1
i

4
Mediana

Mediana (Me) unei serii de date este valoarea centrală a unei serii de date
ordonate crescător sau descrescător care împarte seria respectivă în două părţi
egale.

Pentru date negrupate, mediana se determină în două variante:


 dacă numărul unităţilor observate este impar, de forma n = 2p + 1, atunci
mediana este egală cu valoarea unităţii situate în mijlocul seriei de date (de rang
p + 1): Me = xp+1
 dacă numărul unităţilor observate este par, de forma n = 2p, atunci
mediana este egală cu media aritmetică simplă a celor două valori situate în
mijlocul seriei de date (de rang p, respectiv, p + 1), conform relaţiei:
x p  x p 1
Me  .
2

Pentru date grupate pe intervale de frecvenţă, calculul medianei presupune


parcurgerea următoarelor etape:
1. Se determină frecvenţele absolute cumulate ale intervalelor de grupare
(Ni);
2. Se stabileşte intervalul median (în interiorul căruia se află mediana), ca
fiind intervalul corespunzător primei frecvenţe absolute cumulate mai mare decât
locul medianei în serie (n/2);
3. Se calculează mediana, prin interpolare, conform relaţiei:

n
 N e1
Me  le  he  2
ne

unde: le este limita inferioară a intervalului median;


he reprezintă dimensiunea intervalului median;
Ne-1 este frecvenţa absolută cumulată a intervalului anterior celui median;
ne reprezintă frecvenţa intervalului median.

5
Modul

Modul (Mo) sau valoarea modală a unei variabile economice este valoarea
caracteristicii cu frecvenţa maximă de apariţie, adică valoarea cea mai des
întâlnită în repartiţia de date analizate.

Pe date negrupate, modul se determină, conform definiţiei sale, ca fiind


valoarea cu cea mai mare frecvenţă sau probabilitate de apariţie.

Pe date grupate pe intervale de frecvenţă, modul este valoarea


corespunzătoare vârfului curbei de frecvenţă.
În acest caz, determinarea lui presupune parcurgerea următoarelor etape:
1. Se determină intervalul cu frecvenţa maximă de apariţie, care devine,
astfel, interval modal (intervalul care conţine modul);
2. Se calculează modul, prin interpolare, conform relaţiei:

1
Mo  lo  h0 
1  2

unde: lo este limita inferioară a intervalului modal;


ho reprezintă dimensiunea intervalului modal;
Δ1 este diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului
anterior acestuia;
Δ2 este diferenţa dintre frecvenţa intervalului modal şi frecvenţa intervalului
următor acestuia.

Dacă există mai multe intervale cu frecvenţa maximă de apariţie, atunci


modul nu poate fi determinat ca valoare unică a seriei de date, adică seria
respectivă este plurimodală.
Ca aplicabilitate practică, modul poate înlocui media, atunci când aceasta nu
poate fi calculată, sau determinarea ei nu are sens.
Într-o repartiţie de date perfect simetrică, cei trei parametri fundamentali ai
tendinţei centrale – media, mediana şi modul – au aceeaşi valoare, între ei
existând relaţia de egalitate: x = Me = Mo. În cazul repartiţiilor asimetrice, cele
trei valori centrale sunt diferite.
Alegerea celui mai semnificativ parametru central al unei serii de date diferă
de la o situaţie concretă la alta.

6
Exemple curs Statistică 24.03.2021:

Exemplu de serie de date statistice:


Pe prima linie sunt înșirate notele de la 1 la 10 (notele posibil de a fi primite la un examen de
către un student).
Pe linia a doua sunt înșirate frecvențele de apariție a notelor (numărul studenților care au primit
nota respectivă).

1 2 3 4 5 6 7 8 9 10
( )
0 2 5 10 15 20 15 20 15 10

Total studenți: 112


Total studenți nepromovați: 17
Total studenți promovați: 95

Histograma:
Pe datele din exemplul de mai sus, se construiesc dreptunghiuri care au drept bază notele (sau
intervalele de grupare, dacă datele sunt grupate), iar drept înălțime frecvențele absolute, în cazul
nostru, numărul de studenți care a primit notele respective.

Linia neagră care unește bazele superioare ale dreptunghiurilor histogramelor reprezintă
poligonul frecvențelor.

O serie de studenți cu rezultate medii la disciplina respectivă:

Oy
(nr. stud)
20
15
10
5
2

1 2 3 4 5 6 7 8 9 10 Ox (notele)
O serie de studenți cu rezultate foarte bune la disciplina respectivă:

Oy
(nr. stud)
20
15
10
5
2

1 2 3 4 5 6 7 8 9 10 Ox (notele)

O serie de studenți cu rezultate foarte slabe la disciplina respectivă:

Oy
(nr. stud)
20
15
10
5
2

1 2 3 4 5 6 7 8 9 10 Ox (notele)

MEDIA
Media aritmetică simplă:

Notele unui student în sesiune: 6 7 10 8 10


Media artimetică simplă = (6+7+10+8+10)/5 = 41/5 = 8,20

Media aritmetică ponderată:

Notele unui student în sesiune: 6 7 10 8 10


Nr. de credite aferent disciplinei: 5 6 4 5 4

Media arimetică ponderată = (6*5 + 7*6 + 10*4 + 8*5 + 10*4)/(5+6+4+5+4) =


= (30+42+40+40+40)/24 = 192/24 = 8,00
Media aritmetică pe date grupate pe intervale de frecvență:
Revenim exemplul de la început cu distribuția notelor studenților sub formă de serie:

1 2 3 4 5 6 7 8 9 10
( )
0 2 5 10 15 20 15 20 15 10

Grupăm datele pe intervale de frecvență:

Nota Nr. studenți Mijloacele


xi (frecvențe abs.) intervalelor
1–4 17 (1+4)/2 = 2,5
5–7 50 (5+7)/2 = 6
8 – 10 45 (8+10)/2 = 9
Total: 112

Media aritmetică pe date grupate pe intervale = (2,5 * 17 + 6 * 50 + 9 * 45) / (17+50+45) =


= (42,5 + 300 + 405) / 112 = 747,7 / 112 = 6,67

MEDIANA
Mediana pe date grupate pe intervale:

Nota Nr. studenți Mijloacele Frecvențe


xi (frecvențe abs.) intervalelor cumulate
1–4 17 (1+4)/2 = 2,5 17
5–7 50 (5+7)/2 = 6 67
8 – 10 45 (8+10)/2 = 9 112
Total: 112

Intervalul median: primul interval a cărui frecvență cumulată depășește pentru prima dată n/2
= 112 / 2 = 56
În cazul nostru, 67 depășește pentru prima dată valoarea 56, deci intervalul median este
intervalul între 5 – 7:

Mediana = 5 + 2 * (56 – 17) / 50 = 5 + 2 * 39 / 50 = 5 + 2 * 0,78 = 5 + 1, 56 = 6,56


CAPITOLUL 3. PARAMETRII REPARTIȚIILOR STATISTICE

3.2. Parametrii variației

Necesitatea determinării altor parametri decât cei ai tendinţei centrale a


apărut datorită faptului că aceştia nu dau nici o informaţie referitoare la
dispersarea, împrăştierea valorilor repartiţiei de date, unele faţă de altele sau în
raport cu un centru de grupare. Astfel, valorile centrale pot fi aceleaşi pentru mai
multe repartiţii de date, în timp ce gradul de dispersare al termenilor seriilor în
jurul centrului de grupare să fie diferit.
Din acest motiv, nu este suficientă determinarea valorilor centrale ale unei
repartiţii de date, ci este necesar să se reflecte structura pe grupe omogene a
acesteia şi abaterile termenilor faţă de media lor, datorate acţiunii unor factori
cunoscuţi sau întâmplători.
Cei mai cunoscuți și mai utilizați în practica economică sunt parametrii
sintetici ai variației.

Parametrii sintetici ai variaţiei exprimă dispersarea tuturor valorilor


individuale în jurul centrului de grupare, reprezentat, de regulă, de media
aritmetică.
Ei pot fi determinaţi ca mărimi medii sau relative (coeficienţi) şi sunt
următorii:
 abaterea medie liniară;
 varianţa (dispersia);
 abaterea standard (abaterea medie pătratică);
 coeficientul de variaţie.

Abaterea medie liniară ( d ) pe date negrupate se determină ca o medie


aritmetică simplă a abaterilor individuale, luate în valoare absolută, astfel:

Pentru date grupate pe intervale de frecvenţă, abaterea medie liniară se


determină după relaţia:

1
Abaterea medie liniară este un parametru concludent al variaţiei numai
pentru populaţiile statistice omogene. Neajunsurile abaterii medii liniare sunt
înlăturate prin calcularea varianţei.

Varianţa (σ2) sau dispersia unei populații statistice este cel mai cunoscut
parametru teoretic al variației şi se determină ca o medie aritmetică a pătratelor
abaterilor valorilor studiate de la media lor. Cel mai adesea în practica economică
ea este calculată la nivelul eșantionului de date avut la dispoziție.

Astfel, relaţia de calcul a varianței la nivelul unui eșantion pentru date


negrupate este:

Pentru date grupate pe k intervale de frecvenţă, varianţa la nivelul


eșantionului se determină după relaţia:

Varianţa are anumite proprietăţi, dintre care mai importante sunt:

 varianța unei constante este nulă: VAR(c) = 0;


 varianţa sumei a două sau mai multe variabile independente Xi este
egală cu suma varianţelor variabilelor respective:
VAR(X1 + X2 + … + Xk) = VAR(X1) + VAR(X2) + … + VAR(Xk);
 varianţa produsului dintre o constantă c şi o variabilă X este egală cu
produsul dintre pătratul constantei şi varianţa variabilei:
VAR(cX) = c2 VAR(X).

Varianţa, fiind de ordinul pătratului valorilor studiate, este un parametru


teoretic, abstract, fără unitate de măsură şi cuantifică variaţia totală a
caracteristicii datorită cauzelor esenţiale şi întâmplătoare.

Ea este utilă în verificarea unor ipoteze statistice şi stă la baza determinării


altor parametrii ai variaţiei, cu aplicabilitate practică mai largă, cum sunt abaterea
standard şi coeficientul de variaţie.

2
Abaterea standard () sau abaterea medie pătratică a unei populații
statistice se determină ca o medie pătratică a abaterilor valorilor seriei faţă de
media lor, respectiv, ca rădăcină pătrată din varianţă (  2 ).
La nivelul eșationului, se determină după relația generală .

Astfel, pe date negrupate, relaţia de calcul a abaterii medii pătratice la nivel


de eșantion este:

Pentru date grupate pe k intervale de frecvenţă, abaterea medie pătratică la


nivel de eșantion este:

Avantajele abaterii standard constau în aceea că acordă fiecărei abateri de la


medie importanţa cuvenită şi că poate fi utilizată în interpretările economice
datorită faptului că, spre deosebire de varianţă, este de acelaşi ordin de mărime cu
valorile studiate. Abaterea standard este utilizată îndeosebi la estimarea erorilor
de sondaj, în calculele referitoare la regresie şi corelaţie, precum şi în verificarea
semnificaţiei anumitor indicatori statistici.

Dezavantajul utilizării acestui parametru constă în faptul că, datorită


exprimării sale în aceleaşi unităţi de măsură ca şi valorile caracteristicii studiate,
nu permite compararea a două colectivităţi care se exprimă în unităţi de măsură
diferite. Acest dezavantaj poate fi înlăturat prin calcularea ultimului parametru al
variaţiei, coeficientul de variaţie.

Coeficientul de variaţie (CV), atât pe date negrupate, cât și pentru date


grupate pe intervale de frecvență, este raportul procentual dintre abaterea standard
şi media aritmetică, conform relaţiei:

3
Fiind un parametru relativ al împrăştierii, coeficientul de variaţie permite
compararea variaţiei mai multor caracteristici diferite, atât ca ordin de mărime,
cât şi ca natură.

Coeficientul de variaţie poate lua valori între 0 şi 100% şi are următoarele


interpretări:

 dacă V = 0%, înseamnă că toate valorile caracteristicii sunt egale între


ele, respectiv, egale cu media aritmetică, variaţia lor fiind nulă;

 dacă V  0%, înseamnă că variaţia caracteristicii este mică, adică


populaţia statistică studiată este omogenă, iar media este reprezentativă pentru
aceasta. Se consideră că o populaţie statistică are un grad ridicat de omogenitate
atunci când V  35%;

 dacă V  70%, atunci variaţia caracteristicii este foarte mare, media nu


este reprezentativă şi structura populaţiei studiate este eterogenă. În aceste
condiţii, se impune regruparea datelor, cu respectarea riguroasă a principiilor
teoretice de omogenizare a grupelor. De cele mai multe ori, în asemenea cazuri
este necesară separarea populaţiei statistice în mai multe grupe omogene, care vor
fi studiate separat.

Datorită posibilităţilor multiple de interpretare pe care le prezintă,


coeficientul de variaţie poate fi considerat cel mai sintetic parametru al variaţiei.

4
Exemple curs Statistică 31.03.2021:

Luăm exemplul a doi studenți diferiți care au primit note la două discipline. Presupunem că
numărul de credite la cele două discipline sunt egale, astfel încât ponderile acestora în nota finală
sunt identice și nu influențează rezultatul final.

Note student 1: 6 8
Note student 2: 4 10

Media aritmetică simplă student 1 = (6+8)/2 = 7


Media aritmetică simplă student 2 = (4+10)/2 = 7

Observăm că diferența dintre cei doi studenți nu poate fi evidențiată cu ajutorul mediei
aritmetice.
Astfel, e nevoie de calcularea și interpretarea parametrilor variației pentru a diferenția cele
două situații.
Abaterea medie liniară:

xi - 𝑋̅ = diferențele dintre valorile analizate și media lor

Pentru studentul nr. 1: prima diferență = 6 – 7 = -1


a doua diferență = 8 – 7 = +1

Pentru studentul nr. 2: prima diferență = 4 – 7 = -3


a doua diferență = 10 – 7 = +3

Observăm că, atât în cazul studentului 1, cât și în cazul studentului 2, suma celor două
diferențe este egală cu 0. Aceasta e o proprietate fundamentală a mediei aritmetice.
Pentru a putea însuma aceste diferențe, fără ca rezultatul final să fie 0, e necesar ca diferențele
negative să fie transformate în diferențe pozitive.
Abaterea medie liniară realizează acest deziderat prin punerea în modul a diferențelor față de
medie:
Pe date negrupate:

Pentru studentul nr. 1: d = 1/2(|6 − 7| + |8 − 7|) = 1/2*2 = 1


Putem spune că notele studentului 1 se abat în medie față de media lor cu 1 punct.
Studentul 1 are media 7 +/- 1
Pentru studentul nr. 2: d = 1/2(|4 − 7| + |10 − 7|) = 1/2*6 = 3
Putem spune că notele studentului 2 se abat în medie față de media lor cu 3 puncte.
Studentul 2 are media 7 +/- 3

Cu cât abaterea medie liniară este mai mare, cu atât variațiile fenomenului analizat în raport
cu media sunt mai mari (adică fenomenul este mai fluctuant). În economie, cu cât fenomenele sunt
mai fluctuante, cu atât ele sunt mai greu de previzionat și de ținut sub control.

Varianța
Pe date negrupate:
Variața realizează dezideratul de a însuma diferențele față de medie fără ca rezultatul final să
fie 0 prin ridicarea la pătrat a acestora:

Pentru studentul nr. 1: s2 = 1/1((6 − 7)2 + (8 − 7)2 ) = 1/1*2 = 2


Pentru studentul nr. 2: s2 = 1/1((4 − 7)2 + (10 − 7)2 ) = 1/1*18 = 18

Varianța are valori mult mai mari deoarece prin ridicare la pătrat, valoarea obținută este mult
mai mare decât valorile inițiale de la care s-a pornit.
Drept urmare, varianța este un indicator teoretic al variației, ea este rar utilizată în practică.

Pentru a aduce valoarea obținută la nivelul valorilor de la care s-a pornit, se extrage radicalul
din varianță și se obține abaterea medie pătratică (abaterea standard).

Pentru studentul nr. 1: s = √1/1((6 − 7)2 + (8 − 7)2 ) = √2 = 1,41

Pentru studentul nr. 2: s = √1/1((4 − 7)2 + (10 − 7)2 ) = √18 = 4,24

Datorită modului său de calcul (prin ridicare la pătrat și apoi extragerea radicalului) abaterea
medie pătratică are întotdeauna valori mai mari decât abaterea medie liniară, calculată prin punerea
în modul.

În practica economică, se consideră că abaterea medie pătratică reflectă cel mai corect
variațiile unui fenomen.

Abaterea medie pătratică are dezavantajul că nu permite compararea unor fenomene exprimate
în unități de măsură diferite.
Acest dezavantaj este eliminat prin calcularea coeficientului de variație:

1,41
Pentru studentul nr. 1: 𝐶𝑉 = ∗ 100 = 20,14% e mai mic de 35%, ceea ce arată o situație
7
normală

4,24
Pentru studentul nr. 2: 𝐶𝑉 = ∗ 100 = 60,57% e între 35% și 70%, ceea ce arată o
7
variabilitate crescută, care necesită luarea unor măsuri de reglare a situației.
CAPITOLUL 4. CERCETAREA PRIN SONDAJ
(ESTIMAȚII, ESTIMATORI, INTERVALE DE ÎNCREDERE)

4.1. Noţiuni specifice cercetării prin sondaj

Obţinerea datelor cu ajutorul observării totale face obiectul statisticii


clasice, în timp ce obţinerea informaţiilor pe baza observărilor parţiale, adică prin
utilizarea unui eşantion din populaţia statistică, este studiată de către statistica
inferenţială sau cercetarea prin sondaj.
Cercetarea prin sondaj vizează cunoaşterea unei populaţii statistice pe baza
observaţiilor făcute asupra unuia sau mai multor eşantioane reprezentative extrase
din aceasta, în scopul estimării unor caracteristici ale repartiţiei statistice ori al
verificării unor ipoteze privind legăturile dintre fenomene sau pentru a previziona
evoluţia viitoare a acestora.
Cercetarea prin sondaj are drept scop estimarea parametrilor necunoscuți ai
populaţiei statistice studiate, pe baza rezultatelor prelucrării datelor obţinute la
nivel de eşantion, folosind principiile teoriei probabilităţilor.

În acest sens, se culeg şi se prelucrează datele aferente unităţilor statistice


incluse în eşantionul studiat, obţinându-se diverşi indicatori sau parametri
statistici, care descriu în detaliu respectivul eşantion.
Apoi, parametrii respectivi, obţinuţi la nivel de eşantion se extrapolează, cu
o anumită probabilitate, la nivelul întregii populaţii statistice, în scopul
caracterizării acesteia.
Într-o cercetare prin sondaj, deoarece există două categorii studiate, pe de
o parte, populaţia statistică care se doreşte a fi cunoscută, iar pe de altă parte,
eşantionul observat în vederea obţinerii unor estimaţii ale parametrilor populaţiei,
se întâlnesc o serie de noţiuni similare, care au acelaşi conţinut, dar diferă din
punct de vedere al informaţiei pe care o cuprind.

Astfel, așa cum s-a arătat și în capitolul introductiv, populaţia statistică este
alcătuită din totalitatea unităţilor ce compun fenomenul supus cercetării, iar
volumul său se notează, de regulă, cu N.
Eșantionul cunoscut și sub denumirile de colectivitate parţială,
colectivitate de selecţie, probă, mostră etc., reprezintă subansamblul de unităţi
extrase din populația statistică în vederea culegerii datelor şi a generalizării la
nivelul întregii populaţii statistice a rezultatelor obţinute din prelucrarea acestora.
Volumul eşantionului se notează cu n.

1
Întotdeauna, în cazul cercetării parţiale va fi valabilă relaţia: n  N, iar în
cazul cercetării totale n = N. Dintr-o anumită populaţie statistică pot fi prelevate
mai multe eşantioane, care să difere între ele ca volum şi structură.

Media şi varianţa, ca valori ce definesc o populaţie statistică, respectiv, un


eşantion, se notează şi se determină diferit, în funcţie de nivelul la care se referă,
conform tabelului de mai jos:

Parametrul La nivel de La nivel de


statistic populaţie statistică eşantion (selecţie)
N n

Media
 xi x i
m i 1
x i 1
aritmetică N n
N n

Varianţa
 xi  m2  x  x  i
2

2  i 1
s2  i 1

N n 1

4.2. Estimații și estimatori

Estimarea reprezintă procesul prin care se determină cu o anumită


probabilitate, fie sub formă de estimare punctuală (o valoare unică), fie sub formă
de interval de încredere, valorile necunoscute ale parametrilor unei populaţii
statistice, pe baza datelor înregistrate la nivelul unui eşantion extras din aceasta.

Estimarea punctuală reprezintă procedeul de determinare a unei singure


valori posibile şi probabile a parametrului căutat, pe baza datelor aferente
unităţilor din eşantion. Estimarea punctuală a parametrilor populaţiei statistice
este eficientă numai pentru eşantioane de volum foarte mare, fapt pentru care, în
practica economică se preferă estimarea parametrilor pe baza unui interval de
valori, numit interval de încredere, care se poate determina şi pe baza unor
eşantioane de volum mai redus.

Estimarea prin interval de încredere presupune determinarea limitelor


unui interval probabil în care se încadrează valoarea reală a parametrului
populaţiei statistice studiat. Este cel mai des întâlnită în practica economică.

2
Estimatorul reprezintă o funcţie statistică utilizată pentru a estima un
parametru necunoscut al populaţiei statistice. Acesta este rezultatul procesului de
inferenţă sau inducţie statistică şi are asociată o probabilitate ce caracterizează
gradul său de acurateţe (încredere).

Estimaţia reprezintă valoarea unui estimator al parametrului analizat,


obţinută pe baza unui eşantion. Estimaţia se determină astfel încât, pentru diferite
eşantioane prelevate, valorile estimate să fie cât mai apropiate de valoarea
parametrului necunoscut al populaţiei statistice.

4.3. Estimarea mediei şi varianţei prin interval de încredere

Estimarea prin interval de încredere constă în determinarea, cu o anumită


probabilitate, a unui interval de valori în interiorul căruia se situează parametrul
necunoscut al populaţiei statistice.
Probabilitatea ca parametrul populaţiei statistice să se situeze în interiorul
intervalului de încredere se notează, de regulă, cu p şi poartă numele de coeficient
sau nivel de încredere.
Probabilitatea inversă – ca parametrul necunoscut al populaţiei statistice să
se situeze în afara limitelor intervalului de încredere – se notează, de obicei, cu 
( = 1 – p) şi se numeşte nivel de semnificaţie.

În general, limitele intervalului de încredere sunt definite ca limită


inferioară (Li) şi limită superioară a acestuia (Ls).
Probabilitatea ca un parametru necunoscut al populaţiei statistice (notat
generic cu  ) să se situeze în interiorul intervalului de încredere se defineşte
astfel:
P(Li    Ls) = 1 – 

Estimarea mediei unei populaţii statistice (m) prin interval de încredere


se realizează cel mai adesea în practica economică astfel: dacă volumul
eşantionului este mai mic de 30 de unităţi (n  30), iar varianţa la nivelul
populaţiei statistice (2) este necunoscută, atunci intervalul de încredere pentru
medie se determină cu ajutorul repartiţiei Student cu  = n – 1 grade de libertate,
astfel:

3
 s s 
P x  t   m x t   1 
 n n

în care: x reprezintă media calculată la nivel de eşantion (media de selecţie);


s reprezintă estimatorul abaterii standard la nivel de eşantion;
t este o valoare tabelară, care se ia din tabelele repartiţiei Student în
funcţie de probabilitatea /2 şi n – 1 grade de libertate.

Estimarea varianţei unei populaţii statistice (2) prin interval de


încredere se realizează cu ajutorul repartiţiei 2 astfel:

 
 n  1  s 2 n  1  s 2 
P  
2
  1
  2 2  
1
 2 2 

unde: n este volumul eşantionului;


s2 reprezintă estimatorul varianţei, calculat pe baza datelor din eşantion;
2 este varianţa necunoscută a populaţiei statistice.
 2 și  2  sunt două valori tabelare ale repartiției 2 pentru n –1 grade de
1
2 2

libertate

Pentru abaterea medie pătratică, limitele intervalului de încredere se


determină prin extragerea rădăcinii pătrate din limitele intervalului de încredere
al varianţei, conform relaţiei:

 
 n  1  s 2
n  1  s   1  
2
P  
  2 2  
1
 2 2 

4
Exemple curs Statistică 07.04.2021:

Managerul unei companii dorește să estimeze nivelul profitului în firma sa.


Pentru aceasta a înregistrat datele din ultimele 4 luni (mii lei):

2 3 6 5

Se cere să se determine cu probabilitatea de 95% (coeficient de încredere p) un interval de


încredere pentru media profitului, respectiv, pentru varianța și abaterea medie pătratică a profitului.

Interval de încredere pentru media profitului:

Se calculează media aritmetică la nivelul eșantionului:

2 + 3 + 6 + 5 16
𝑥̅ = = = 4 mii lei
4 4

Se calculează varianța eșantionului:

1 1
𝑠2 = ∙ [(2 − 4)2 + (3 − 4)2 + (6 − 4)2 + (5 − 4)2 ] = ∙ (4 + 1 + 4 + 1) =
(4 − 1) 3
10
= = 3,33
3
Se calculează abaterea medie pătratică: 𝑠 = √𝑠 2 = √3,33 = 1,82
Se determină valoarea tabelară t tabelar aferentă testului Student. Ea se culege din tabelele statistice
în funcție de probabilitatea α / 2 și n – 1 grade de libertate.
p = 95% (0,95) de unde rezultă că α = 5% (0,05)
Probabilitatea α / 2 = 0,05 / 2 = 0,025
n = 4, rezultă gradele de libertate n – 1 = 3

Tabelul statistic aferent repartiției Student:

A rezultat un t tabelar de 5,392


Calculăm limitele intervalului de încredere pentru medie:

1,82 1,82
Limita inferioară = = 4 − 5,392 ∙ = 4 − 5,392 ∙ = 4 − 5,392 ∙ 0,91 =
√4 2

= 4 – 4,90 = - 0,90

1,82
Limita superioară = = 4 + 5,392 ∙ = 4 + 4,90 = 8,90
√4

Putem spune cu probabilitatea de 95% (sau coeficientul de încredere p) că profitul firmei analizate
se va situa în intervalul (- 0,90; 8,90). Observăm că limitele intervalului sunt foarte largi, deoarece
am lucrat pe un eșantion foarte mic, de doar 4 valori. Drept urmare, valoarea tabelară din tabelele
repartiției Student a fost foarte mare.

Interval de încredere pentru varianța profitului:

Determinăm valorile tabelare din tabelul statistic aferent repartiției hi pătrat (𝜒 2 ):

2
Pentru 𝜒𝛼 : α / 2 = 0,025; n – 1 = 3
2

2
Din tabelul statistic aferent repartiției hi pătrat rezultă : 𝜒𝛼 : = 9,348
2

2
Pentru 𝜒1− 𝛼 : 1 – α /2 = 1 – 0,05 / 2 = 1 – 0,025 = 0,975; n – 1 = 3
2

2
Din tabelul statistic aferent repartăției hi pătrat: 𝜒1− 𝛼 = 0,216
2

Limita inferioară interval de încredere varianță =


3 ∙ 3,33 9,99
= = = 1, 06
9,348 9,348
Limita superioară interval de încredere varianță =
3 ∙ 3,33 9,99
= = = 46,25
0,216 0,216

Putem spune cu probabilitatea de 95% că varianța profitului va fi între 1,06 și 46,25

Pentru abaterea medie pătratică, extragem radical din limitele intervalului pentru varianță:

Limita inferioară interval de încredere abatere medie pătratică = √1,06 = 1,02


Limita superioară interval de încredere abatere medie pătratică = √46,25 = 6,80

Putem spune cu probabilitatea de 95% că abaterea medie pătratică (variația medie a profitului)
va fi între 1,02 și 6,80 mii lei

S-ar putea să vă placă și