Sunteți pe pagina 1din 228

UNITATEA DE ÎNVĂŢARE 1

OBSERVAREA, SISTEMATIZAREA ŞI
PREZENTAREA DATELOR STATISTICE

Cuprinsul capitolului
Obiectivele capitolului 1
1.1. Noţiuni fundamentale
1.2. Etapele unei cercetări statistice
1.3. Variabila de grupare
1.4. Clasificarea și gruparea statistică
1.5. Reprezentări grafice
Rezumat
Termeni cheie
Bibliografie

Obiectivele capitolului 1
În cadrul acestei unităţi de învăţare, structurată în
cinci secţiuni şi mai multe subsecţiuni, sunt definite noţiunile
fundamentale ale statisticii şi principalele metode şi tehnici
de prezentare a datelor statistice utilizate în economie și
administrarea afacerilor.
După parcurgerea primelor secțiuni și la sfârșitul
unității de învățare, studentul va avea de rezolvat două teste de autoevaluare.
Testele sunt construite gradual, ca mărime şi complexitate, din întrebări
deschise, teste grilă și aplicații practice. Încadrarea în parametrii specificaţi
(timp, variante) îi va confirma fiecărui student dezvoltarea competenţelor
necesare pentru trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
Š descrierea corectă şi completă, din punct de vedere al conţinutului, spaţiului
şi timpului, a populaţiei sau eşantionului supus studiului statistic;
Š identificarea şi descrierea corectă a variabilelor (caracteristicile unităţilor
care compun populaţia sau eşantionul) investigate;
Š alegerea şi utilizarea metodelor adecvate de prezentare a datelor statistice
(tabele, serii, grafice) pentru un studiu de caz concret din domeniul
economic;
Š formularea unor concluzii pertinente despre datele analizate, pe baza
regularităţilor relevate prin folosirea acestor instrumente statistice.

Durata medie de parcurgere a unității de învățare: 4 ore

9
Statistică

1.1 Noţiuni fundamentale


Statistica nu îşi propune să studieze entităţi individuale. Scopul său este
acela de a extrage informaţia reprezentativă, tipică, pentru largi colectivităţi de
entităţi.
Exemplu: În industrie când se studiază calitatea unui lot de produse,
statistica se interesează de procentul produselor cu defecte de fabricaţie şi nu
de defectul apărut la o anumită piesă aşa cum o face ingineria.
În demografie,când se studiază mortalitatea, statistica se concentrează
pe structura deceselor pe cauze şi nu pe cauza particulară a decesului unei
anumite persoane, aşa cum o face medicina.
În domeniul Statisticii se operează cu o serie de noţiuni specifice, cum
ar fi: date statistice, variabile de grupare, unitate statistică, populaţie, eşantion.
Populaţie statistică (colectivitate statistică) - mulţime de elemente de
aceeaşi natură care au o serie de caracteristici esenţiale comune şi
sunt generate de acelaşi complex de cauze.
Populaţiile statistice au caracter obiectiv şi finit. În orice
cercetare statistică se impune delimitarea acestora din punct de
vedere al conţinutului, respectiv spaţial şi temporal.
Se poate realiza o distincţie între populaţiile:
o statice – care exprimă o stare, formează un stoc, un
existent la un moment dat. Exemple: efectivul
salariaţilor unei societăţi comerciale la 1 martie 2009;
valoarea imobilizărilor corporale ale unei firme la 31
decembrie 2008
o dinamice – care exprimă un flux, caracterizarea lor
presupunând înregistrarea elementelor componente pe
un interval de timp.
Exemple: producţia (agricolă, industrială) a unei regiuni,
a unei firme, într-o anumită perioadă .
Unitate statistică - element fundamental al populaţiei statistice, care poate
fi caracterizat printr-un set de trăsături specifice ce fac obiectul unei
cercetări;
Unităţile statistice pot fi:
o simple - persoana, produsul
o complexe - sunt un rezultat al organizării economice şi
teritoriale a colectivităţii; sunt formate din unităţi simple.
Exemple: gospodăria, echipa, secţia, grupa.
Eşantion - numărul de unităţi statistice ce urmează a fi extrase şi
cercetate, dintr-un populaţie statistică.
Variabilă statistică – caracteristică, trăsătură, proprietate, însuşire comună
tuturor unităţilor statistice dintr-o populaţie, ale cărei valori variază de
la o unitate statistică la alta.
Variante/valori - valori aferente variabilelor statistice, determinate pe
baza unei scale de măsurare, la nivelul fiecărei unităţi statistice dintr-
o populaţie.
Frecvenţa de apariţie a unei variante - numărul de repetări al acestei
variante în populaţia supusă studiului.
Variabila de grupare - variabilă statistică care permite realizarea grupării în
clase omogene a unităţilor statistice dintr-o colectivitate dată sau
permite urmărirea în timp sau în spaţiu a modificării unei alte
variabile.
Date statistice - caracterizări numerice ale unităţilor, grupelor şi
colectivităţii, obţinute prin observare şi prelucrare.
10
Observarea, sistematizarea şi prezentarea datelor statistice

În practica statistică, datele sunt întotdeauna mărimi concrete


caracterizate prin conţinut calitativ, respectiv valoare.
În urma extragerii mesajului din datele statistice se obţine informaţia.
Indicatori statistici - expresia numerică a unei determinări calitative
obiective, obţinută în urma unei cercetări statistice, raportată la
condiţii specifice de timp şi spaţiu.
În practică, datorită complexităţii aspectelor ce trebuie caracterizate
se utilizează sisteme de indicatori statistici.

1.2 Etapele unei cercetări statistice


Statistica ilustrează pregnant caracterul trivalent al cunoaşterii ştiinţifice,
integrând:
o o componentă factuală – obiectul investigaţiei este delimitat ca fiind
un domeniu concret al realităţii fizice, sociale sau economice;
o o componentă conceptuală – asumată prin grefarea sa pe edificiul
teoretic al ştiinţei factuale, căreia îi serveşte ca instrument. Exemplu:
statistica socială operează cu sistemul de noţiuni şi concepte ale
sociologiei.
o o componentă logico-formală – datorită instrumentalizării
matematice a disciplinei, mai precis prin utilizarea calculului
probabilităţilor, tehnicilor de inferenţă statistică etc.
Demersul statistic urmează, în linii generale, etapele tipice ale oricărui
demers ştiinţific:
1. Observarea unui segment determinat al realităţii.
2. Emiterea de ipoteze (pe baza unui raţionament inductiv sau deductiv).
3. Verificarea ipotezelor:
ƒ sub aspectul consistenţei lor logico-formale
ƒ din perspectiva confirmării empirice a validităţii acestora.
Mai concret, etapele unei cercetări statistice sunt:
1. Etapa descriptivă, în care se realizează următoarele:
o culegerea (observarea sau măsurarea) datelor referitoare la un anumit
fenomen de masă;
o verificarea, sistematizarea (clasificarea, gruparea, ordonarea) şi
reprezentarea datelor culese, cu ajutorul graficelor şi tabelelor;
o prelucrarea statistică şi obţinerea indicatorilor sintetici şi derivaţi.
2. Etapa analitică, în care sunt utilizate metode specifice de analiză-sinteză,
inducţie-deducţie, generalizare, abstractizare, comparare se identifică
regularităţi cu caracter de legitate
3. Etapa previzională sau estimativă, în care rezultatele obţinute în etapa
precedentă sunt folosite în calcule de previziune sau în estimarea unor
indicatori sintetici ai populaţiei.

După gradul de cuprindere în cercetare a populaţiei statistice,


cercetările statistice se pot împărţi în două categorii:
o cercetări totale (exhaustive), caz în care sunt culese date privitoare la
fiecare unitate statistică a populaţiei. Cercetarea se încheie după etapa
analitică iar concluziile extrase în această etapă se aplică direct populaţiei
studiate. Datorită volumului şi/sau specificului populaţiei statistice, acest
tip de cercetare este costisitoare din punct de vedere al resurselor
umane, de timp, materiale şi financiare necesare realizării, iar uneori este
chiar imposibilă.
Exemple: Recensământul populaţiei şi locuinţelor; Recensământul
agricol

11
Statistică

o cercetări parţiale (selective), caz în care doar pentru o parte a


populaţiei statistice se culeg date.
Din această categorie fac parte cercetările de tip:
ƒ panel1, care se bazează pe un eşantion fix pentru care se
culeg date la diferite intervale de timp;
ƒ monografii, prin care se realizează caracterizarea cât mai
completă a unei singure unităţi statistice din toată populaţia
statistică;
ƒ anchetă, prin care se realizează o cercetare în teren ce nu
presupune utilizarea unui eşantion reprezentativ;
ƒ sondaj, cercetare în teren care se realizează pe baza unui
eşantion reprezentativ.
În cazul sondajului se impune generalizarea rezultatelor deduse pe
baza eşantionului analizat la nivelul întregii populaţii, ceea ce implică, în
mod inevitabil, utilizarea metodelor de inferenţă statistică.
Concluziile cercetării se fundamentează pe observarea sistematică a
unui număr relativ restrâns de unităţi, iar trecerea de la particular la
general se asigură şi se validează pe baza unor criterii matematice cu
ajutorul metodelor de tip inductiv.
Acest tip de cercetare se finalizează prin parcurgerea tuturor etapelor
cercetării.

1.3 Variabila de grupare


Orice demers statistic, înainte de a trece efectiv la calculul indicatorilor
utilizaţi în analiza datelor, conţine un set de metode pentru o prelucrarea şi
organizare primară a datelor brute culese.
Una dintre acestea este organizarea datelor în serii statistice.
Pentru a putea construi o serie statistică trebuie mai întâi clarificate
tipurile variabilelor urmărite în studiul statistic.
Tipuri: Variabilele de grupare pot fi clasificate în mai multe categorii după
următoarele criterii:
• După conţinut:
• variabile atributive - sunt atribute, însuşiri ale unităţilor
statistice dintr-o colectivitate dată, în funcţie de care se face
gruparea în clase omogene.
Exemple: sexul, vârsta, profesia, productivitatea, vechimea
în muncă, salariul etc.
• variabile de timp - acestea permit cunoaşterea
tendinţelor evolutive ale unui fenomen oarecare.
Exemple: ziua, luna, trimestrul, semestrul, anul etc.

Variabilele de timp, dat fiind modalitatea în care sunt folosite


în domeniul economic, mai pot fi împărţite convenţional în
două categorii: variabile de momente de timp şi variabile de
intervale de timp.
Variabilele de momente de timp vizează durate de timp mai
mici sau egale cu ziua, iar cele de intervale de timp, vizează
durate de timp mai mari decât o zi.
• variabile de spaţiu - oferă posibilitatea cunoaşterii
variabilităţii unui fenomen în profil teritorial (în spaţiu).
Exemple: secţia, întreprinderea, localitatea, judeţul, ţara etc.
1
Conform DEX cercetarea de tip panel reprezintă o metodã de investigaţie repetitivă pentru
urmãrirea evoluţiei unui fenomen prin solicitări de informaţii, la intervale stabilite în prealabil,
de la aceleaşi grupuri de persoane, unităţi de desfacere etc.
12
Observarea, sistematizarea şi prezentarea datelor statistice

• După forma de exprimare:


• variabile cantitative - au variantele exprimate prin cifre,
sunt variabile numerice.
Pentru acest tip de variabile operaţiile aritmetice trebuie să
aibă sens.
Exemple: productivitatea, greutatea, înălţimea, salariul,
vârsta etc.

Variabilele cantitative pot fi grupate în două categorii, dacă


ţinem cont de valorile pe care le pot lua:
ƒ discrete - pot lua decât anumite valori, de obicei
întregi.
Exemple: populaţia unei localităţi, numărul de
muncitori, productivitatea muncii exprimată în bucăţi
etc.
ƒ continue - pot lua orice valoare dintr-un anumit
interval.
Exemple: greutatea, salariul, productivitatea muncii
exprimată valoric etc.
• variabile calitative - au variantele exprimate numai
prin cuvinte. Sunt folosite pentru a realiza distincţia între mai
multe categorii.
Exemple: sexul, profesia, culoarea ochilor, nivelul de
instruire, naţionalitatea etc.
• După numărul de variante pe care le pot lua:
• variabile alternative (binare sau dihotomice) – acele
variabile atributive, calitative, care au doar două variante care se
exclud reciproc.
Exemple: sexul (masculin/feminin), rebut/non-rebut, perisabil
/neperisabil etc.
• variabile nealternative - acele variabile care prezintă
mai mult de două variante. Dacă pentru acest tip de variabilă se
utilizează o variantă ca reprezentativă, ea se poate transforma
într-o variabilă alternativă.
În statistică, pentru orice variabile studiate, se înregistrează valori care
pot fi cantitative sau calitative, în funcţie de tipul acestora; aceste valori pot fi
determinate utilizând diferite scale de măsurare. Există patru astfel de tipuri de
scale de măsurare care sunt descrise în continuare pornind de la cea mai
simplă către cea mai complexă.
a) Scala nominală – valorile determinate cu ajutorul aceste scale permit doar
încadrarea elementele unei populaţii în categorii. Cu ajutorul valorilor
astfel determinate nu se pot realiza ierarhii între elementele populaţiei
studiate.
Exemple: profesia sau ocupaţia (inginer, economist, medic, jurist etc.),
starea civilă (căsătorit, necăsătorit, văduv etc.), modul de transport
(aerian, rutier, feroviar, naval etc.), structura de primire turistică (hotel,
pensiune etc.)
b) Scala ordinală – valorile determinate cu ajutorul său permit realizarea de
ierarhii (variantele pot fi ordonate); scala ordinală nu permite
determinarea cu exactitate a distanţei dintre două valori.
Exemple: nivelul de educaţie (studii primare, gimnaziale, liceale,
universitare); categorii de hoteluri; clase de salarizare; categorii de
calificare; nivel de apreciere faţă de o persoană, obiect, eveniment;

13
Statistică

c) Scala de interval – valorile determinate cu ajutorul său pot fi utilizate în


calculul proporţiilor pentru intervale determinate între valoarea 0
(origine) pe scală şi acestea. Valorile nu pot fi utilizate direct în calculul
proporţiilor deoarece valoarea 0 este aleasă convenţional şi nu
semnifică absenţa fenomenului studiat.
Exemple: măsurarea timpului calendaristic pe o scală al cărei punct de
origine (ales convenţional) desemnează începutul erei creştine;
măsurarea temperaturii cu ajutorul diverselor scale (Celsius,
Fahrenheit), pentru care atât punctul de origine, cât şi unitatea de
măsură sunt alese în mod diferit.
d) Scala proporţională (de raport) – este cel mai complet tip de scală,
valorile determinate cu ajutorul ei putând fi utilizate pentru toate tipurile
de operaţii aritmetice. În cazul acestei scale valoarea 0 este 0 absolut şi
înseamnă absenţa fenomenului studiat; este aleasă arbitrar doar
unitatea de măsură.
Exemple: cantitatea fabricată dintr-un produs, greutatea sau înălţimea
unei persoane, preţul unui produs, salariul etc.

Tabelul 1.1
Indicatori ai tendinţei
Tipuri de Relaţii matematice care au
centrale
scale sens
posibil de calculat
Nominală - echivalenţă dominanta
- echivalenţă
Ordinală mediana
- ordine
- echivalenţă
Interval - ordine media aritmetică
- raport între două intervale
- echivalenţă
- ordine
Proporţională - raport între două intervale media geometrică
- raport între două valori de
pe scală

Tipul variabilei de grupare determină tipul seriei statistice ce va fi


obţinut, implicit modul de reprezentare grafică şi de analiză a datelor.

discretă
atributivă cantitativă
continuă
calitativă

Variabila de de timp de momente


grupare de intervale

de spaţiu

Figura 1.1.Tipuri de variabile de grupare

14
Observarea, sistematizarea şi prezentarea datelor statistice

Test de autoevaluare 1
1. Ce reprezintă o populație (colectivitate) statistică?

2. Ce reprezintă o variabilă ( caracteristică) de grupare?

3. Care sunt etapele unui demers statistic?

4. După gradul de cuprindere în cercetare a populaţiei statistice, câte tipuri de


cercetări statistice există?

5. După conţinut, ce tipuri de variabile statistice există?

6. Alegeți tipul variabilei de grupare profesia?


a) de timp b) atributivă c) calitativă d) de spaţiu e) cantitativă

7. Alegeți tipul variabilei de grupare câștigul salarial lunar?


a) de timp b) atributivă c) calitativă d) de spaţiu e) cantitativă

8. Care este cel mai complet tip de scală de măsurare?


a) ordinală b) nominală c) proporțională (de raport) d) de interval
e) nici una dintre cele enunțate anterior

9. Pentru fiecare dintre exemplele următoare de studii statistice, identificaţi:


populaţia studiată; eşantionul prelevat pentru a efectua acest studiu (dacă este
cazul); caracteristica (variabila) studiată; tipul caracteristicii.
a) În scopul cunoaşterii numărului de copii pe familie pentru ansamblul
familiilor din regiunea Sud-Vest Oltenia, o echipă de demografi culege
informaţii despre numărul de copii pentru 750 de familii alese la
întâmplare.
b) Pentru un studiu care încearcă să determine care este detergentul de
vase preferat de către locuitorii din regiunea Oltenia care folosesc o
maşină de spălat vase, se culeg informaţii de la un ansamblu de 500 de
locuitori ai regiunii, aleşi la întâmplare.
c) Pentru a cunoaşte rezistenţa unui nou aliaj, tehnicienii vor supune 200
de tije de 1 cm diametru compuse din acest nou material unor greutăţi
crescătoare, până la ruperea acestor tije.
d) Pentru a cunoaşte concentraţia de fier a apei dintr-o reţea dată, se
analizează 50 de sticle de apă de 250 ml, prelevate în diferite puncte
alese la întâmplare din această reţea.

10. Determinaţi tipul următoarelor variabile statistice:


o numărul de vehicule motorizate pe care îl regăsim în fiecare
locuinţă din regiunea Sud-Vest Oltenia
o emisiunea radio matinală preferată de ascultătorii din Craiova
o numărul de automobile vândute săptămânal de către un
concesionar
o talia unei anumite plante hibride la maturitate
o temperaturile maximale înregistrate pe aeroportul din Craiova în
fiecare zi din luna septembrie
o nivelul de instruire al salariaţilor unei firme (primar, gimnazial,
liceal, superior)

15
Statistică

Răspunsurile la toate întrebările testului de autoevaluare 1 se


regăsesc în Unitatea de învățare 1, paginile 9– 14. Pentru aplicațiile
practice și întrebările tip grilă, rezolvarea se regăsește și la sfârșitul
manualului.

1.4 Clasificarea şi gruparea statistică


Pentru a putea extrage informaţia din datele culese de la unităţile
statistice ale populaţiei supuse studiului, acestea trebuie mai întâi organizate
după anumite reguli. Organizarea datelor poate presupune o succesiune de
operaţii printre care şi clasificări, grupări etc.

Clasificarea reprezintă o operaţie complexă de sistematizare a


unui ansamblu de obiecte sau noţiuni, pe baza caracteristicilor lor
comune, în clase de obiecte, în clase de clase de obiecte etc.
Locul fiecărei clase trebuie să fie bine stabilit.
La baza acestei operaţii stau trei elemente:
- mulţimea obiectelor de clasificat;
- criteriile după care se face clasificarea;
- clasele rezultante prin clasificare.
Operaţia de clasificare presupune respectarea anumitor reguli:
• completitudinea, conform căreia toate elementele mulţimii asupra căreia
se realizează operaţia trebuie repartizate;
• unicitatea, fiecare element trebuie să aparţină unei singure clase;
• omogenitatea, conform acesteia numai elementele asemănătoare
(omogene) sunt incluse în fiecare clasă;
• organizarea ierarhică a claselor, conform acestei reguli pe fiecare nivel
ierarhic al claselor operează un singur criteriu de clasificare.
Clasificarea se poate realiza în două faze:
o gruparea pe orizontală – în urma căreia se obţin clase;
o ierarhizarea pe verticală – în urma căreia se obţin clase de clase.
După natura criteriilor utilizate, clasificările pot fi:
- naturale – exemplu: clasificarea populaţiei unei localităţi
după sex.
- artificiale (convenţionale) – exemplu: clasificarea agenţilor
economici după volumul impozitului plătit către stat, folosind
grila impusă de lege.

În practica statistică se utilizează sisteme standardizate de clasificări şi


nomenclatoare2: CAEN, COR, COICOP etc.
Gruparea reprezintă operaţia de împărţire a unei populaţii sau eşantion
în grupe omogene de unităţi, după una sau mai multe caracteristici de grupare

2
Conform DEX reprezintă listã sau culegere care cuprinde nomenclatura unui domeniu de
activitate, sistematizatã dupã anumite criterii.
16
Observarea, sistematizarea şi prezentarea datelor statistice

Dacă se utilizează o singură variabilă de grupare se obţin grupări


simple, iar dacă se utilizează mai mult de o variabilă se obţin grupări
combinate.
Un caz des întâlnit în statistică este organizarea datelor în serii
statistice.

Seria statistică, reprezintă o paralelă între două sau mai multe


şiruri de date dintre care cel puţin unul vizează variabila de grupare.
Seriile statistice pot fi:
• serii simple - atunci când sunt construite dintr-o paralelă între
două şiruri de date şi conţin o singură variabilă de grupare;
• serii complexe - atunci când sunt construite dintr-o paralelă între
trei sau mai multe şiruri de date şi conţin cel puţin o variabilă de
grupare;
Seriile complexe sunt constituite, în general, din mai multe serii simple.
Având în vedere tipurile de variabile de grupare şi dependenţa tipului de
serie de tipul variabilei de grupare se pot distinge următoarele tipuri de serii
statistice:
o serii de distribuţie (repartiţii);
o serii cronologice (de timp);
o serii de spaţiu (teritoriale).
1.4.1. Serii de distribuţie

Condiţii: Se pot construi numai pe baza variabilelor de grupare


atributive.

Tipuri: Ca serie simplă (unidimensională), seria de distribuţie


este o paralelă între şirul variantelor sau intervalelor de variaţie ale variabilei de
grupare atributive şi cel al frecvenţelor corespunzătoare.
Ca serie complexă (bidimensională, tridimensională etc.), seria de
distribuţie este constituită din cel puţin două şiruri de date care vizează
variabilele de grupare atributive alături de şirul frecvenţelor corespunzătoare.

Exemplul 1.1:
Distribuţia angajaţilor Firmei A după Distribuţia muncitorilor din Firma B după
salariul lunar categoria de calificare
Salariul Numărul de Categoria de Numărul de
lunar (lei) angajaţi calificare muncitori
850-900 3 I 3
900-950 12 II 22
950-1000 25 III 35
1000-1050 30 IV 20
1050-1100 10 V 10
Total 80 Total 90
Notă. Limita inferioară se include
în interval. Figura 1.3. Serie de distribuţie
Figura 1.2. Serie de simplă, după variante
distribuţie simplă, după
intervale.

17
Statistică

Distribuţia muncitorilor unei firme după vârstă şi vechime Tabelul 1.2


vechimea (ani) 1 5 10 15 20 25
- - - - - - Total
vârsta (ani) 5 10 15 20 25 30
18-25 1 1
25-32 2 2
32-39 3 2 5
39-46 3 1 4
46-53 1 2 3 6
53-60 2 2 4
Total 1 2 3 6 5 5 22
Notă. Limita inferioară se include în interval.

Mod de construcţie:
Serie de distribuţie simplă
Dacă variabila de grupare atributivă este şi calitativă, seria de distribuţie
care se obţine este una după variante.
Dacă variabila de grupare atributivă este cantitativă şi continuă, seria de
distribuţie care se obţine este una după intervale de variaţie.
Dacă variabila de grupare atributivă este cantitativă, discretă şi are un
domeniu redus de variaţie, seria de distribuţie care se obţine este una după
variante, iar dacă are un domeniu larg de variaţie atunci este recomandată
construirea unei serii de distribuţie după intervale de variaţie.
În cazul construcţiei unei serii de distribuţie după variante (figura 1.3) nu
se ridică probleme deosebite. După ce se determină variantele caracteristicii de
grupare, se trece la construirea frecvenţelor, prin simpla numărare a unităţilor
statistice din colectivitatea studiată care se încadrează pentru fiecare variantă
în parte.
În cazul construcţiei unei serii de distribuţie după intervale de variaţie se
cer clarificate câteva elemente:
1. Câte intervale ar trebui construite?
2. Care ar trebui să fie mărimea unui interval?
Numărul şi mărimea intervalelor sunt factori care influenţează direct modul
în care unităţile statistice din colectivitatea studiată se vor repartiza în cadrul
intervalelor de variaţie, altfel spus influenţează forma distribuţiei şi implicit
mărimea şi semnificaţia indicatorilor sintetici ce vor fi calculaţi pe baza acesteia.
Pentru construirea unui asemenea tip de serie mai frecvent se utilizează
următoarele variante:
• se stabileşte empiric un anumit număr de intervale (n), pornind de la
ideea că cel care urmează să construiască seria beneficiază de o
bogată experienţă teoretică şi practică în domeniu, caz în care rămâne
de determinat doar mărimea intervalelor. Aceasta se poate determina
cu ajutorul relaţiei:
x max − x min
k=
n
Unde x max , x min - valoarea maximă, respectiv minimă a
caracteristicii de grupare studiate
• se determină numărul intervalelor folosind relaţia determinată
experimental de statisticianul american H.A. Sturges
n = 1 + 3.322 log N
unde log N - logaritmul în baza 10 din numărul total de unităţi
statistice din populaţia studiată
18
Observarea, sistematizarea şi prezentarea datelor statistice

În acest caz va fi necesară rotunjirea la un număr întreg a valorii lui (n)


determinate prin relaţia lui Sturges şi apoi se determină mărimea
intervalelor (k) folosind relaţia anterioară.
După determinarea numărului şi mărimii intervalelor de variaţie se trece
la determinarea limitelor fiecărui interval.
Se porneşte de la valoarea minimă a caracteristicii de grupare ( x min )
care va constitui limita inferioară a primului interval. Limita superioară a
intervalului va fi determinată adăugând mărimea intervalului (k) la limita
anterioară. Limita superioară a intervalului precedent se preia ca limită
inferioară pentru intervalul următor şi se continuă până la determinarea tuturor
limitelor celor (n) intervale.
Exemplul 1.2: Pentru xmin = 10, xmax = 85 şi k =15 putem construi
următoarele intervale:
Tabelul 1.3
xi
10 – 25
25 – 40
40 – 55
55 – 70
70 – 85

După construirea intervalelor se trece la determinarea numărului de


unităţi statistice ce se încadrează pe fiecare interval.
Se are în vedere faptul că o limită de interval poate apare la două
intervale adiacente, caz în care, dacă se întâlneşte printre datele brute o
valoare egală cu valoarea limitei respective, se pune problema în care din cele
două intervale va fi încadrată. Pentru eliminarea acestei situaţii intervalele
anterior determinate vor fi închise la unul din capete şi deschise la celălalt, iar
printr-o notă sub tabelul distribuţiei va fi precizat care dintre limite este inclusă
în interval.
Numărul de unităţi statistice ce se încadrează pe fiecare interval poartă
numele de frecvenţă de apariţie sau frecvenţă absolută (f).
La finalul operaţiei de determinare a frecvenţelor de absolute se poate
face o verificare:
n

∑f
i =1
i =N

unde i - intervalul pentru care s-a determinat frecvenţa absolută fi .


Exemplul 1.3: Se consideră următoarele date referitoare la muncitorii unei
secţii de fabricaţie dintr-o firmă:
Tabelul 1.4
productivitatea productivitatea
salariul
Nr. orară muncii Nr. orară muncii salariul (s)
(s)
crt (wh) crt (wh) -mii lei-
-mii lei-
- lei- - lei-
1 105 1,7 10 131 2,8
2 100 1,9 11 133 2,8
3 103 2,1 12 122 2,2
4 111 2,2 13 138 2,4
5 119 2,1 14 129 2,8
6 150 3,2 15 124 2,7
7 148 3 16 122 2,4
8 141 3 17 125 2,5
9 115 2,5 18 128 2,5
19
Statistică

Construim seria de distribuţie numai după variabila salariu.


Variabila de grupare salariul este de tip atributiv, cantitativă, cu variaţie
continuă, deci tipul de serie care se poate construi cu ajutorul său este : serie
de distribuţie după intervale de variaţie.
Calculăm numărul şi mărimea intervalelor :
n = 1 + 3.322 log 18 = 5.170015 ≈ 5 intervale
3.2 − 1.7
k= = 0.30 mil. lei
5
Construim intervalele şi apoi distribuţia incluzând în interval limita
inferioară:
Tabelul 1.5
Salariul (s) Nr. de
-mii lei- muncitori
1,7-2,0 2
2,0-2,3 4
2,3-2,6 5
2,6-2,9 4
2,9-3,2 3
Total 18
Notă: Limita inferioară este inclusă în interval.

Serie de distribuţie bidimensională


Principiile folosite pentru construcţia unei serii de distribuţie
bidimensionale sunt aceleaşi ca şi pentru seriile de distribuţie simple,
diferenţieri apar doar datorită faptului că în acest caz se lucrează simultan cu
două variabile de grupare.
Vom exemplifica modul de construcţie pentru o serie de distribuţie
bidimensională folosind datele de la exemplul anterior.
Dacă între cele două variabile de grupare există o relaţie de
dependenţă (aşa cum se întâmplă în cazul de faţă - salariul depinde de
productivitate), atunci variabila independentă va fi plasată în prima coloană a
tabelului iar cea dependentă în prima linie a tabelului seriei de distribuţie.
Seria de distribuţie va fi construită după intervale de variaţie pentru
ambele variabile de grupare (atât salariul, cât şi productivitatea, exprimată
valoric, sunt caracteristici atributive, cantitative, cu variaţie continuă).
Se determină numărul de intervale pentru prima variabilă de grupare –
productivitatea orară a muncii (X):
n = 1 + 3.322 log18 = 5.170015 ≈ 5 intervale

Este acelaşi număr de intervale determinat şi în cazul salariului.

150 − 100
k= = 10 lei
5

Pentru salariu (Y) valorile privind mărimea şi numărul de intervale au


fost determinate în exemplul precedent:

n ≈ 5 intervale; k = 0.30 mii lei

20
Observarea, sistematizarea şi prezentarea datelor statistice

Construim tabelul seriei de distribuţie bidimensională :

Tabelul 1.6.
1,7 2,0 2,3 2,6 2,9
Y
- - - - - fx
X
2,0 2,3 2,6 2,9 3,2
100-110 2 1 0 0 3
110-120 0 2 1 0 0 3
120-130 0 1 3 2 0 6
130-140 0 0 1 2 0 3
140-150 0 0 0 0 3 3
fy 2 4 5 4 3 18
Notă: Limita inferioară este inclusă în interval.

Pentru determinarea frecvenţelor absolute după ambele variabile –


zona gri din tabel – se procedează la gruparea fiecărei perechi de valori (x,y)
în caseta corespunzătoare din tabel:
ƒ muncitorul nr. 1 x=105, y=1,7 va fi încadrat în caseta de la intersecţia
rândului 100-110, cu coloana 1,7-2,0;
ƒ muncitorul nr. 2 x=100, y=1,9 va fi încadrat în caseta de la intersecţia
rândului 100-110, cu coloana 1,7-2,0;
………
Se continuă până la terminarea perechilor de valori (x,y), în casete la
final regăsindu-se frecvenţa de apariţie a cazurilor.
Şi în cazul seriei de distribuţie bidimensionale se pot face câteva
verificări:
n n n n


i =1
f xi = ∑ f y j = ∑∑ f ij = N
j =1 i =1 j =1
unde:
f xi - frecvenţe absolute determinate numai după variabila X, ignorând
variabila Y;
f yj - frecvenţe absolute determinate numai după variabila Y, ignorând
variabila X;
f ij - frecvenţe absolute duble determinate simultan după ambele variabile
X şi Y (se află poziţionate în zona gri din tabel);
Tabelul unei serii de distribuţie bidimensionale conţine de fapt trei
distribuţii:
1. Distribuţia unităţilor statistice numai după prima variabilă de grupare (X),
dacă din tabel se separă prima şi ultima coloană – serie de distribuţie
simplă numai după variabila X, ignorând variabila Y.
Tabelul 1.7.
Productivitatea Nr. de
orară a muncii (wh) muncitori
- lei-
100-110 3
110-120 3
120-130 6
130-140 3
140-150 3
Total 18
21
Statistică

2. Distribuţia unităţilor statistice numai după a doua variabilă de grupare


(Y), dacă din tabel se separă prima şi ultima linie – serie de distribuţie
simplă numai după variabila Y, ignorând variabila X (tabelul 1.5)
3. Distribuţia bidimensională - după ambele variabile X şi Y (tabelul 1.6).

În cadrul seriilor de distribuţie se pot utiliza mai multe tipuri de frecvenţe.


Cel mai des întâlnite sunt:

ƒ frecvenţele absolute (fi) - arată numărul de cazuri ce corespunde unui


interval de variaţie sau variante;
ƒ frecvenţele relative (pi) - arată proporţia cazurilor ce se încadrează pe un
interval sau o variantă, în total cazuri;
ƒ frecvenţele cumulate - arată numărul (fci) sau proporţia (pci) cazurilor
sub sau peste o anumită valoare a variabilei de grupare. Dacă s-au
construit pe baza frecvenţelor absolute se numesc frecvenţe absolute
cumulate. Dacă s-au construit pe baza frecvenţelor relative se numesc
frecvenţe relative cumulate. Pot fi cumulate crescător sau descrescător.
Pentru calculul acestor tipuri de frecvenţe vom folosi datele din exemplul 1.3:

Tabelul 1.8.
Salariul fi pi fcci fcdi pcci pcdi
(xi) (cumulate (cumulate (cumulate (cumulate
-mii lei- crescător) descrescător) crescător) descrescător)
1,7-2,0 2 2/18=0,111 2 18 0,111 1,000
2,0-2,3 4 4/18=0,222 6 16 0,333 0,889
2,3-2,6 5 5/18=0,278 11 12 0,611 0,667
2,6-2,9 4 4/18=0,222 15 7 0,833 0,389
2,9-3,2 3 3/18=0,167 18 3 1,000 0,167
Total 18 1 * * * *

1.4.2. Serii cronologice

Condiţii:
1. Se pot construi numai pe baza variabilelor de grupare de timp.
2. Valorile variabilei de grupare de timp trebuie să ordonate
cronologic.
3. Trebuie să conţină un număr suficient de mare de valori pentru a
permite surprinderea tendinţelor evolutive ale variabilelor urmărite în timp.
4. Valorile variabilelor a căror tendinţă se studiază, cuprinse în serie, trebuie
să se refere la aceeaşi unitate spaţială.
Tipuri:
Ca serie simplă, seria cronologică este o paralelă între şirul momentelor
sau intervalelor de timp, care vizează variabila de grupare, şi cel al valorilor
altei variabile, a cărei tendinţă evolutivă se urmăreşte.
Ca serie complexă, seria cronologică este o paralelă între şirul
momentelor sau intervalelor de timp, care vizează variabila de grupare, şi cele
ale valorilor altor variabile a căror tendinţă evolutivă se urmăreşte.
Seriile cronologice nu pun probleme deosebite în ceea ce priveşte
construcţia, atât timp cât sunt îndeplinite condiţiile de bază.

22
Observarea, sistematizarea şi prezentarea datelor statistice

Exemplul 1.4:
Situaţia stocului de piese tip A şi de combustibili la firma
Evoluţia cifrei de afaceri a firmei C. Autotransport.
Cifra de Stocul de Stocul de
Anul Data
afaceri piese tip A combustibil
-mii lei- -buc- -tone-
2007 600 1.01.13 80 100
2008 850 1.02.13 120 *
2009 748 1.03.13 100 248
2010 805 1.04.13 115 305
2011 983 1.05.13 125 *
2012 1005 1.06.13 150 305
2013 1300 1.07.13 260 300
Figura 1.4. Serie cronologică Figura 1.5. Serie cronologică complexă,
simplă, după intervale de timp după momente de timp.

1.4.3. Serii de spaţiu

Condiţii:
1. Se pot construi numai pe baza variabilelor de grupare de spaţiu.
2. Trebuie să conţină un număr suficient de mare de valori pentru a
permite surprinderea variaţiilor variabilelor urmărite în profil
teritorial.
3. Valorile variabilelor a căror variaţie se studiază, cuprinse în serie, trebuie să
se refere la aceeaşi perioadă de timp.

Tipuri:
Ca serie simplă, seria de spaţiu este o paralelă între şirul variantelor
variabilei de grupare, şi cel al valorilor altei variabile, a cărei variabilitate
teritorială se urmăreşte.
Ca serie complexă, seria de spaţiu este o paralelă între şirul variantelor
variabilei de grupare, şi cele ale valorilor altor variabile a căror variabilitate
teritorială se urmăreşte.

Exemplul 1.5:
Populaţia la data de 1 iulie 2011 Durata medie de viaţă a populaţiei din sud-vestul
României, 2011
Judeţul Populaţia Durata medie de viaţă
Dolj 697813 Judeţul - ani-
Gorj 375147 Masculin Feminin
Mehedinţi 288775 Dolj 69,69 77,12
Olt 458380 Gorj 70,83 76,97
Vâlcea 404993 Mehedinţi 69,55 75,75
Sursa: Anuarul statistic al României Olt 69,57 76,88
2012 Vâlcea 72,62 79,39
Figura 1.6. Serie de spaţiu Sursa: Anuarul statistic al României 2012
simplă. Figura 1.7. Serie de spaţiu complexă.

Legătura dintre variabilele de grupare şi tipul seriei statistice care se


poate obţine din acestea este ilustrată în figura următoare:

23
Statistică

serie de distribuţie
după variante
discretă
cantitativă serie de distribuţie
atributivă după intervale
continuă
calitativă serie de distribuţie
după variante

de momente serie cronologică


Variabila de de timp
de momente
grupare de intervale serie cronologică
după intervale

de spaţiu
serie de spaţiu

Figura 1.8.Tipuri de variabile de grupare – tipuri de serii statistice

1.5. Reprezentări grafice


Ori de câte ori se vehiculează informaţii statistice, apare necesitatea
prezentării lor într-o formă care să permită înţelegerea cât mai simplă şi mai
corectă a fenomenului pe care îl descriu. De foarte multe ori o reprezentare
grafică realizată corect a condus la descoperirea în timp util a soluţiilor
necesare pentru rezolvarea anumitor probleme critice.
Cea mai des întâlnită formă de prezentare a informaţiei este cea
grafică. Utilizată corect şi cu discernământ această formă de prezentare
reuşeşte să redea complet şi intuitiv informaţiile statistice.
Pentru a putea ilustreze cu fidelitate informaţiile, reprezentarea grafică –
pe scurt graficul – trebuie să respecte condiţiile constructive impuse de
principiile metodologice.

1.5.1. Elemente constructive ale unui grafic statistic


1. Titlul graficul - sintetizează foarte clar, printr-un text scurt şi
concis conţinutul graficului.
Dacă graficul urmează să fie prezentat integrat într-un text, titlul graficului
va fi trecut sub acesta, iar dacă graficul va fi prezentat independent, titlul va
fi trecut deasupra sa.
2. Scara de reprezentare - este unul dintre elementele esenţiale, dat fiind
faptul că el asigură proporţionalitatea indicatorilor reprezentaţi grafic.
În funcţie de indicatorii ce urmează a fi reprezentaţi grafic se poate alege
între mai multe tipuri de scări de reprezentare, astfel încât să se
evidenţieze comod şi complet pe grafic fenomenul urmărit.
După formă, există două tipuri de scări de reprezentare:
- liniară - cu diviziunile plasate pe o linie dreaptă.
Exemplu: rigla, metrul etc.

Figura 1.9

24
Observarea, sistematizarea şi prezentarea datelor statistice

- neliniară - cu diviziunile plasate pe o linie curbă.


Exemplu: kilometrajul auto, scara aparatelor de măsură etc.

Figura 1.10

După mărimea intervalelor dintre diviziuni:


ƒ scară uniformă - cu intervale
egale;
ƒ scară logaritmică - cu
dimensiunea intervalelor
proporţională cu logaritmii
zecimali ai indicatorilor reprezentaţi grafic.
Figura 1.11

3. Reţeaua graficului - este compusă din mulţimea segmentelor de


dreaptă duse din dreptul diviziunilor scării de reprezentare.Ţinând cont de
tipurile de scări de reprezentare determinate după mărimea intervalelor
dintre diviziuni, se pot distinge mai multe variante de reţele, în sistemul
axelor rectangulare:simplă uniformă, dublă uniformă, logaritmică etc.
4. Figura propriu-zisă - elementul esenţial, de conţinut al graficului.
Forma şi dimensiunile sale sunt determinate exclusiv de nivelurile şi
tendinţele variaţionale ale indicatorilor reprezentaţi grafic, prin intermediul
scării de reprezentare.
Cel mai frecvent sunt utilizate următoarele figuri geometrice: cercul,
pătratul, dreptunghiul, paralelipipedul, cilindrul etc.
Alegerea uneia sau alteia se realizează în funcţie de graficul ce urmează a
fi construit, de legăturile funcţionale existente între indicatorii reprezentaţi,
de scopul urmărit etc.
5. Legenda şi nota explicativă.
Legenda - apare de obicei, atunci când în cadrul aceluiaşi grafic
sunt reprezentaţi mai mulţi indicatori. Prin legendă se realizează practic
identificarea fiecărui indicator reprezentat.
Nota explicativă - apare atunci când trebuie prezentate anumite
particularităţi ale indicatorilor reprezentaţi: perioada de referinţă, lipsa de
date, sursa datelor etc.

Pentru reprezentarea corectă a datelor statistice trebuie mai


întâi să stabilim dacă acestea constituie o serie statistică, reprezintă
o comparaţie sau o structură. După această identificare se poate
trece la alegerea tipului de grafic adecvat pentru reprezentarea lor.

1.5.1. Reprezentarea grafică a seriilor statistice


1.5.1.1. Grafica seriilor de distribuţie

Pentru acest tip de serie, se folosesc mai frecvent următoarele tipuri de


reprezentări grafice: histograma, poligonul frecvenţelor, curba frecvenţelor
cumulate.

25
Statistică

Histograma - prin batoane – specifică seriilor construite după variante ale


caracteristicii atributive;
- prin dreptunghiuri - specifică seriilor construite după intervale
de variaţie.

Metodologia de construcţie
Se foloseşte drept suport sistemul axelor rectangulare.
Pe abscisă (axa Ox) se trec valorile scării de reprezentare
aferente variabilei de grupare (x).
Pe ordonată (axa Oy) se trec valorile scării de reprezentare
aferentă frecvenţelor (fi).
Din dreptul diviziunilor, pentru seriile construite pe bază de variabile
discrete, se ridică batoane a căror înălţime este proporţională cu frecvenţa
corespunzătoare fiecărei variante.
Din dreptul intervalului, pentru seriile construite pe bază de variabile
continue, se ridică dreptunghiuri a căror înălţime este proporţională cu
frecvenţa fiecărui interval

Exemplul 1.6:
Tabelul 1.9.
Distribuţia după greutate a coletelor poştale transportate pe
calea ferată, ianuarie 2013
Greutatea Număr
(kg) de colete
40 – 45 7
45 – 50 26
50 – 55 27
55 – 60 37
60 – 65 43
65 – 70 34
70 – 75 27
75 – 80 11
Total 212

55 55
50 50
45 45
40 40
35 35
30 30
25 25
20 20
15 15
10 10
5 5

0 0
40 45 50 55 60 65 70 75 80 40 45 50 55 60 65 70 75 80

Figura 1.12. Histograma prin Figura 1.13. Histograma prin


batoane (pentru variabilă dreptunghiuri (pentru variabilă
continuă) continuă)
26
Observarea, sistematizarea şi prezentarea datelor statistice

Exemplul 1.7:

Tabelul 1.10
Distribuţia după categoria de calificare a
muncitorilor din firma Y martie 2013
Categoria de Număr de
calificare muncitori
I 5
II 15
III 50
IV 55
V 23
VI 2
Total 150

55 55
50 50
45 45
40 40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
I II III IV V VI I II III IV V VI

Figura 1.14. Histograma prin Figura 1.15. Histograma prin


dreptunghiuri (pentru variabilă batoane (pentru variabilă discretă)
discretă)

Poligonul frecvenţelor - se obţine prin unirea vârfurilor batoanelor din


histograma prin batoane sau a mijloacelor bazelor superioare ale
dreptunghiurilor, din histograma prin dreptunghiuri.

Exemplul 1.8:
55 55
50 50
45 45
40 40
35 35
30 30
25 25
20 20
15 15
10 10
5 5
0 0
27
40 45 50 55 60 65 70 75 80 40 45 50 55 60 65 70 75 80

Figura 1.16 Poligonul Figura 1.17. Poligonul


frecvenţelor construit pe baza frecvenţelor construit pe baza
histogramei prin batoane histogramei prin dreptunghiuri
Statistică

Curba frecvenţelor cumulate (ogiva sau curba lui Galton)


Are acelaşi principiu de construcţie ca cel al histogramei prin
dreptunghiuri cu deosebirea că pe ordonată se folosesc frecvenţele cumulate.
Dacă se utilizează frecvenţele cumulate crescător se obţine partea ascendentă,
iar dacă se utilizează frecvenţele cumulate descrescător se obţine partea
descendentă.
Este folosită de obicei în cazul seriilor de distribuţie după intervale de
variaţie.

Metodologie de construcţie
Se ridică, de pe abscisă, din dreptul fiecărui interval, dreptunghiuri a
căror înălţime este proporţională cu frecvenţa cumulată crescătoare
corespunzătoare intervalului. Se porneşte din colţul stânga-jos al
primului dreptunghi şi se unesc, prin segmente de dreaptă, colţurile
din dreapta sus ale dreptunghiurilor, obţinându-se astfel ogiva.

Exemplul 1.9:

Distribuţia după greutate a coletelor poştale transportate pe


calea ferată, ianuarie 2013
Tabelul 1.11.
Greutatea (kg) fi fci
40 – 45 7 7
45 – 50 26 33
50 – 55 27 60
55 – 60 37 97
60 – 65 43 140
65 – 70 34 174
70 – 75 27 201
75 – 80 11 212
Total 212 *

220
200

180
160
140
120
100
80
60
40
20

0
40 45 50 55 60 65 70 75 80

Figura 1.18. Curba frecvenţelor cumulate


28
Observarea, sistematizarea şi prezentarea datelor statistice

Grafica seriilor de distribuţie bidimensionale


Se realizează în sistemul axelor rectangulare tridimensionale:
- pe axa Ox se reprezintă variantele sau intervalele de variaţie pentru
variabila principală.
- pe axa Oy se reprezintă variantele sau intervalele de variaţie pentru
variabila secundară.
- pe axa Oz (axa verticală) se reprezintă valorile corespunzătoare
frecvenţelor duble (fij).
Se folosesc aceleaşi tipuri de reprezentări grafice ca la seriile
unidimensionale cu diferenţa că în acest caz se vor chema:
- stereograma prin batoane (dreptunghiuri etc.)
- reţea poligonală

Exemplul 1.10: Folosim datele din distribuţia următoare, pentru construcţia


unei reţele poligonale, respectiv unei stereograme prin paralelipipede (figurile
1.19,1.20).

Tabelul 1.12.
Y 1,7 2,0 2,3 2,6 2,9
- - - - - fx
X 2,0 2,3 2,6 2,9 3,2
100-110 2 1 0 0 0 3
110-120 0 2 1 0 0 3
120-130 0 1 3 2 0 6
130-140 0 0 1 2 0 3
140-150 0 0 0 0 3 3
fy 2 4 5 4 3 18

2,5

1,5

0,5
-3 ,2
2, 9 9
-2 , 0
2, 6 6
2,
, 3-
0

2
15
0

3
-2 ,
0-
14

2, 0
14
0

0-
13

13
0

0-

0
12

-2,
12
0

1, 7
0-
11

11
0-
10

Figura 1.19. Reţeaua


29 poligonală
Statistică

2,5

1,5

0,5
10
0- 1
10 0
20
0- 1
11 0
3 2,9-
0-1
12 2,6- 3,2
40
0- 1 2,3- 2,9
13
0 2,0- 2,6
0 -15
14 1,7- 2,3
2,0

Figura 1.20. Stereograma prin paralelipipede


Începuturile utilizării stereogramei sunt ilustrate în figura 1.23.
1.5.1.1. Grafica seriilor cronologice
Se deosebesc două cazuri în care se utilizează frecvent reprezentarea
grafică a seriilor cronologice:
a) pentru evidenţierea evoluţiei unor indicatori care nu sunt influenţaţi de
factori naturali sau sezonieri;
b) pentru evidenţierea evoluţiei unor indicatori care sunt influenţaţi de
factori naturali sau sezonieri;
În cazul a) se utilizează de obicei următoarele tipuri de reprezentări:
cronograma, historiograma, diagrama prin coloane.
În cazul b) se utilizează des graficele: diagrama polară radială sau
diagrama polară sectorială.

Cronograma
Se construieşte în sistemul axelor rectangulare XOY.
Pe abscisă se trec variantele caracteristicii timp: în dreptul
diviziunilor, pentru seriile cronologice de momente; în dreptul
intervalelor dintre diviziuni, pentru seriile cronologice după intervale
de timp.
Pe ordonată se trec valorile scării de reprezentare aferente
variabilei/variabilelor a căror evoluţie se urmăreşte.
De pe abscisă din dreptul diviziunilor, pentru seria de momente, sau din
dreptul centrelor intervalelor, pentru seria de intervale, se ridică perpendiculare
de înălţime proporţională cu mărimea indicatorilor ce trebuie reprezentaţi. Prin

30
Observarea, sistematizarea şi prezentarea datelor statistice

unirea vârfurilor perpendicularelor prin segmente de dreaptă se obţine


cronograma.

Exemplul 1.11: Se cunosc datele:


Tabelul 1.13.
Anul 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
Rata Masculin 7.5 6.3 5.7 6.5 7.4 7.7 7.1 8.9 7.5 9 7.7 8
şomajului
(%) Feminin 8.6 7.3 6.4 6.1 6.2 6.4 5.9 7.7 6.4 6.9 6.4 5.7

10
9
8
7
6
5
4
3
2
1
0
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006
Masculin Feminin

Figura 1.21 Cronograma. Dinamica ratei şomajului, 1995-2006

Historiograma
Se construieşte similar cu cronograma, cu deosebirea că, fie pe
orizontală, fie pe verticală, are un canal de întrerupere care
simbolizează renunţarea la unele porţiuni din scara de reprezentare.

Canalul de întrerupere vertical apare atunci când seria cronologică prezintă o


întrerupere – lipsesc valori corespunzătoare variabilei de reprezentat, pentru
unele variante ale caracteristicii timp.
Canalul de întrerupere orizontal apare când seria cronologică prezintă valori
mari ale indicatorilor conţinuţi, dar diferenţele dintre acestea sunt mici, caz în
care o porţiune a graficului (dintre origine şi valoarea minimă de reprezentat)
rămâne neutilizată.
În cazul în care graficul conţine evoluţia a mai mult de un indicator atunci
devine necesară legenda.

Exemplul 1.12: Folosind datele de la exemplul anterior construim


historiograma:

31
Statistică

Figura 1.22 Historiograma. Dinamica ratei şomajului, 1995-2006

Diagrama prin coloane


Se construieşte similar cu cronograma, cu deosebirea că din dreptul
diviziunilor – pentru serii după momente de timp – sau din dreptul intervalelor –
pentru serii după intervale de timp – se construiesc coloane de înălţime
proporţională cu mărimea indicatorilor ce trebuie reprezentaţi. Pe rol de
coloane pot fi folosite figuri geometrice (dreptunghi, paralelipiped, cilindru, con,
piramidă etc) sau figuri simbolice.

În cazul reprezentării evoluţiilor sezoniere sau ciclice se recomandă


utilizarea diagramelor polare.

Diagrama polară
Diagramele polare se construiesc în sistemul axelor polare, având ca
suport un cerc a cărui rază, pentru a păstra proporţionalitatea nivelurilor
reprezentate, se determină ca medie a valorii termenilor seriei de reprezentat
sau:
x max + x min
r=
2

unde xmax, xmin - valorile maximă, respectiv minimă pentru variabila ce se


doreşte a fi reprezentată.

După determinarea mărimii cercului, acesta se împarte într-un număr de


sectoare egal cu cel al termenilor seriei. Pe una din razele cercului se
marchează diviziunile şi valorile scării de reprezentare.
Până în acest punct construcţia ambelor tipuri de diagrame polare –
sectorială şi radială – este identică.

Diagrama polară radială


În cazul diagramei polare radiale, variantele caracteristicii timp se
plasează în dreptul razelor cercului iar nivelurile seriei se reprezintă prin
puncte, pe raze - pentru valori mai mici sau egale cu media lor simbolizată prin
raza cercului - sau pe prelungirea razelor - pentru valori mai mari decât media.
Centrul cercului reprezintă originea (valoarea zero).

32
Observarea, sistematizarea şi prezentarea datelor statistice

Punctele obţinute anterior se unesc cu segmente de dreaptă,


obţinându-se diagrama polară radială (figura 1.23).

Diagrama polară sectorială


În cazul diagramei polare sectoriale variantele caracteristicii timp se trec
în dreptul sectoarelor de cerc. Pentru nivelurile termenilor seriei din dreptul
punctelor, care simbolizează mărimea lor, se trasează sectoare de cerc.
Sectoarele de cerc astfel obţinute se unesc cu segmente de dreaptă, excepţie
făcând şi în acest caz primul şi ultimul (figura 1.24).

Exemplul 1.13: Pentru vânzările de îngheţată, pe o piaţă oarecare, se


cunosc datele:
Tabelul 1.14
Luna Valoarea
Valoarea vânzărilor
Luna vânzărilor de
de îngheţată
îngheţată
-mii lei-
-mii lei-
ianuarie 5 iulie 35
februarie 6 august 18
martie 9 septembrie 10
aprilie 10 octombrie 8
mai 16 noiembrie 7
iunie 30 decembrie 6

35 + 5
r= = 20 mil. lei; 1cm ≈10 mil. lei
2

Ian Dec Ian


Dec
Feb
Noi Feb
Noi
Mar
Oct Mar
Oct Apr
Sep
Apr
Sep Mai
Aug Mai
Iun
Aug Iul Iul Iun

Figura 1.23. Diagrama polară Figura 1.24. Diagrama polară


radială sectorială

33
Statistică

1.5.1.3. Grafica seriilor de spaţiu

Pentru reprezentarea grafică a seriilor de spaţiu se utilizează mai frecvent


următoarele tipuri de grafice:
- diagrama prin coloane
- diagrama prin benzi
- cartodiagrama

Diagrama prin coloane


Are aceeaşi metodologie de construcţie ca la seria cronologică,
deosebirea constând în faptul că pe axa Ox se reprezintă de data aceasta
variabila de spaţiu (figura 1.25).

Exemplul 1.14:
Populaţia la data de 1 iulie 2011 Tabelul 1.15
Judeţul Populaţia
Dolj 697813
Gorj 375147
Mehedinţi 288775
Olt 458380
Vâlcea 404993
Sursa: Anuarul statistic al României 2012
Populaţia
700000
600000
500000
400000
300000
200000
100000
0
Dolj Gorj Mehedinţi Olt Vâlcea

Figura 1.25. Diagrama prin coloane. Populaţia judeţelor din sud-vestul


României la 1 iulie 2011

Diagrama prin benzi


Metodologia de construcţie este similară cu cea de la diagrama prin
coloane pentru serii de spaţiu, cu deosebirea că rolul axelor este inversat:
variantele variabilei de spaţiu se reprezintă pe axa Oy iar valorile variabilei a
cărei variabilitate se urmăreşte, pe axa Ox (figura 1.26). Folosind aceleaşi date
de la exemplul anterior obţinem:
Vâlcea Populaţia

Olt

Mehedinţi

Gorj

Dolj

0 100000 200000 300000 400000 500000 600000 700000

Figura 1.26. Diagrama prin benzi. Populaţia judeţelor din sud-vestul


României la 1 iulie 2011
34
Observarea, sistematizarea şi prezentarea datelor statistice

Cartograma
Se construieşte având ca suport harta fizică, pe care valorile
indicatorilor se reprezintă la nivelul fiecărei zone prin haşuri diferite (figura 1.27
a).
Cartodiagrama
Se construieşte având ca suport harta fizică, pe care, în dreptul fiecărei
zone, se construiesc figuri geometrice ale căror dimensiuni sunt proporţionale
cu valorile indicatorilor de reprezentat (figura 1.27 b).
Legendă
sub medie
Crişana Maramureş peste medie
7 Media = 9%

Moldova
Transilvania 7
8

Banat
11 Muntenia
Dobrogea
Oltenia 10
15
13

Bucureşti
9
a). Excluderea socială prin disponibilizare şi concediere, 1990-2007, pe regiuni (%)

Legendă
sub medie
Nord-Vest
peste medie
92,3 Nord-Est Media naţională =
92,4 91,6%
Centru
91,6

Vest
92,8 Sud-Est
89,6
Sud
90,1
Sud-Vest
93,1

Bucureşti
91,2

b). Ponderea populaţiei ocupate (% faţă de populaţia activă), pe regiuni de dezvoltare


– 2007.
Sursa: Analiza statistică a nevoilor de instruire la nivelul Regiunii Oltenia, C. Radu., C.
Ionaşcu, și colectiv, Editura Sitech, Craiova, 2009, p. 143.
Figura 1.27

35
Statistică

1.5.3. Reprezentarea grafică a comparaţiilor


În multe situaţii datele care trebuie reprezentate grafic constituie de fapt o
comparaţie şi nu o serie statistică. În asemenea situaţii se utilizează
reprezentări grafice specializate care se bazează pe folosirea figurilor
geometrice plane sau tridimensionale sau a figurilor simbolice pentru
evidenţierea comparaţiei.
În cazul utilizării figurilor geometrice plane în comparaţii, aria acestora
trebuie să fie construită proporţional cu mărimea indicatorilor de comparat.
Dacă se folosesc figuri tridimensionale, volumul figurilor construite va fi
proporţional cu valoarea indicatorilor comparaţi.
Cele mai des utilizate figuri geometrice sunt:dreptunghiul, cercul, pătratul,
paralelipipedul, cilindrul, sfera.

Dreptunghiul
Se cunoaşte faptul că aria dreptunghiului depinde de cele două
dimensiuni ale sale:
A=L.l
Pornind de la aceasta, un dreptunghi a cărui arie să fie proporţională cu
mărimea indicatorilor de comparat, poate fi construit în două variante:
a) pe baza unei singure dimensiuni, cealaltă se menţinându-se constantă;
b) pe baza ambelor dimensiuni.
Prima variantă se foloseşte în cazul în care se reprezintă indicatori
monofactoriali, a doua, mai rar, pentru reprezentarea indicatorilor bifactoriali.

Exemplul 1.15: Se compară producţia a două firme de acelaşi profil.


Tabelul 1.16
Anul 2013
Firma Producţia (P)
- mil. lei - A P=350 mil lei
A 350
B 250
B P=250 mil lei

Figura 1.28

Cercul
Pentru cerc elementul de proporţionalitate îl constituie raza. Pornind de la
faptul că aria cercului (A) va fi proporţională cu mărimea indicatorului de
reprezentat (Q - element cunoscut), se poate determina raza cu ajutorul relaţiei
următoare :
A Q
r= =
π π
În practică, pentru uşurarea construcţiei grafice şi fără a afecta
proporţionalitatea ariei cercului cu mărimea indicatorului de reprezentat, π
poate fi neglijat
r= A
Folosind datele din exemplul anterior, în cazul reprezentării producţiei vom
avea:
rA = Q A = 350 = 18.7 ; rB = QB = 250 = 15.8
Stabilim scara de reprezentare 1cm≈10mil.lei, deci cercul pentru firma A va
avea o rază de 1.87 cm iar cel pentru firma B de 1.58 cm.

36
Observarea, sistematizarea şi prezentarea datelor statistice

Q=350 mil. lei Q=250 mil. lei

A B
Figura 1.29
Pătratul
Metodologia de construcţie este similară cu cea de la cerc.
A = l2 ⇒ l = A

Q=350 mil. lei Q=250 mil. lei

A B
Figura 1.30

1.5.4. Reprezentarea grafică a structurilor


În cazul în care indicatorii ce trebuie reprezentaţi constituie părţi
dintr-un întreg, se recomandă utilizarea reprezentărilor grafice pentru
structuri.
Şi în cazul graficelor pentru structuri se utilizează aceleaşi figuri
geometrice ca şi în cazul comparaţiilor, deosebirea fiind că în această situaţie
se construieşte, într-o primă fază, o singură figură a cărei arie (pentru figurile
plane) sau al cărei volum (pentru figurile tridimensionale) este proporţional cu
suma indicatorilor structurali şi care apoi, într-o a doua fază, se împarte în
sectoare de dimensiune proporţională cu nivelurile acestora, haşurate diferit.
Modul de sectorizare al figurilor geometrice folosite poate fi particularizat
în funcţie de caracteristicile fiecăreia. Astfel pentru dreptunghi, paralelipiped,
cilindru se procedează de obicei la sectorizare folosind o singură dimensiune,
de obicei lungimea.

Exemplul 1.16: Structura valorică a vânzărilor de produse de la unitatea


comercială A în luna martie 2013 a fost următoarea:
Tabelul 1.17.
Categoria de produse Valoarea vânzărilor
(mii lei) %
Total, din care: 1100 100,00
- alimentare 300 27,27
- electrocasnice 600 54,54
- îmbrăcăminte 150 13,64
- alte produse 50 4,55
37
Statistică

- alte produse

- îmbracaminte

- electrocasnice

- alimentare

Diagramă de structură prin


a) dreptunghi b) paralelipiped
Figura 1.31

În cazul pătratului, acesta se împarte în 100 de pătrăţele egale, prin


împărţirea fiecărei laturi în 10 părţi egale, fiecare pătrăţel reprezentând un
procent. Indicatorii de reprezentat se exprimă mai întâi procentual şi apoi se
reprezintă pe figură prin haşurarea unui număr de pătrăţele egal cu cel al valorii
procentuale determinate pentru fiecare.

Folosind datele de la reprezentarea anterioară vom obţine:


l = 1100 = 33.1 mil. lei; 1 cm≈1 mil. lei

- alimentare

- electrocasnice

- îmbrăcăminte

- alte produse

Figura 1.32. Diagramă de structură prin pătrat

În cazul cercului, se consideră că acesta reprezintă 100%, 1% fiind


echivalent cu un sector de cerc construit pe baza unu unghi la centru de 3,6o.

Folosind aceleaşi date vom obţine:


r = 1100 = 33.1 mil. lei; 1 cm≈1 mil. lei
Tabelul 1.18.
Categoria de produse Vânzări Grafic
% (grade)
Total,din care: 100,00 360
- alimentare 27,27 98,18
- electrocasnice 54,54 196,34
- îmbrăcăminte 13,64 49,10
- alte produse 4,55 16,38

38
Observarea, sistematizarea şi prezentarea datelor statistice

4,55%

13,64%
27,27%

- alimentare
- electrocasnice
- îmbrăcăminte
- alte produse

54,54%

Figura 1.33. Diagramă de structură prin cerc


O caracteristică a graficelor pentru structuri este prezenţa obligatorie a
legendei, având în vedere că pe acelaşi grafice se reprezintă mai mulţi
indicatori diferiţi.

1.5.5. Alte tipuri de reprezentări grafice


În anumite situaţii, pentru evidenţierea unor aspecte particulare ale
indicatorilor de reprezentat, practica a impus construirea unor reprezentări
grafice speciale. Aceste reprezentări sunt dedicate numai cazurilor particulare
pentru care au fost concepute şi nu este recomandată utilizarea lor în alte
situaţii.
Din această categorie de reprezentări fac parte: piramida vârstelor,
diagrama scatter plot etc.

Piramida vârstelor
Este un tip de reprezentare grafică utilizat pentru a compara volumul
populaţiei pe grupe de vârstă şi sexe corespunzătoare unei anumite perioade.

Populaţia activă
Şomeri

Masculin Feminin

Figura 1.34 Piramida vârstelor pentru populaţia activă din România.

39
Statistică

Diagrama scatter plot (diagrama de dispersie)


Se foloseşte pentru identificarea vizuală a existenţei şi caracteristicilor
legăturii cauzale dintre două variabile. Se construieşte pe baza sistemului de
axe rectangulare XOY. Pe axa Ox se reprezintă valorile variabilei cauză (X) iar
pe axa Oy valorile variabilei efect (Y). Se marchează pe grafic punctele ale
căror coordonate (x,y) sunt perechile de valori pentru variabila cauză, respectiv
efect. Se obţine un nor de puncte.

Exemplul 1.17. Pentru cei 77 de angajaţi ai unei firme s-au înregistrat


următoarele date:
Tabelul 1.19.
Greutatea (kg)

Greutatea (kg)

Greutatea (kg)

Greutatea (kg)

Greutatea (kg)

Greutatea (kg)

Greutatea (kg)
Înălţimea (m)

Înălţimea (m)

Înălţimea (m)

Înălţimea (m)

Înălţimea (m)

Înălţimea (m)

Înălţimea (m)
Nr. Crt.

Nr. Crt.

Nr. Crt.

Nr. Crt.

Nr. Crt.

Nr. Crt.

Nr. Crt.
1 1,76 50 12 1,63 53 23 1,65 47 34 1,68 63 45 1,79 76 56 1,67 52 67 1,56 50
2 1,7 77 13 1,6 43 24 1,68 58 35 1,66 64 46 1,8 70 57 1,68 58 68 1,68 67
3 1,67 46 14 1,57 55 25 1,67 50 36 1,6 57 47 1,83 60 58 1,67 54 69 1,76 85
4 1,7 54 15 1,75 65 26 1,72 50 37 1,6 53 48 1,72 60 59 1,7 57 70 1,64 58
5 1,7 53 16 1,72 58 27 1,64 54 38 1,6 50 49 1,65 50 60 1,7 50 71 1,6 49
6 1,72 55 17 1,67 53 28 1,67 54 39 1,59 50 50 1,6 52 61 1,65 45 72 1,65 80
7 1,71 48 18 1,73 54 29 1,74 53 40 1,62 58 51 1,65 60 62 1,77 75 73 1,67 61
8 1,57 45 19 1,68 52 30 1,6 58 41 1,61 53 52 1,63 55 63 1,62 45 74 1,7 52
9 1,67 70 20 1,78 74 31 1,7 54 42 1,62 52 53 1,67 62 64 1,69 58 75 1,58 49
10 1,73 47 21 1,68 63 32 1,69 54 43 1,75 65 54 1,6 49 65 1,62 58 76 1,66 50
11 1,7 58 22 1,68 59 33 1,59 50 44 1,79 70 55 1,74 60 66 1,72 70 77 1,67 54

Dependenţa dintre cele două variabile (înălţime şi greutate) poate fi


vizualizată în figura următoare:

90

80

70

60

50

40

30

20

10

0
1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85

Figura 1.

40
Observarea, sistematizarea şi prezentarea datelor statistice

Test de autoevaluare 2

1. Alegeţi şi construiţi seria posibilă folosind datele următoare:

Nr. crt. Profesia Nr. crt. Profesia Nr. crt. Profesia


1 frezor 6 matriţer 11 turnător
2 strungar 7 strungar 12 strungar
3 strungar 8 strungar 13 turnător
4 matriţer 9 strungar 14 sudor
5 sudor 10 sudor 15 strungar
a) serie de distribuţie bidimensională;
b) serie de distribuţie simplă;
c) serie de timp;
d) serie de spaţiu;
e) nu se poate construi nici o serie;

2. Alegeţi şi construiţi tipul adecvat de serie statistică pentru setul de date


prezentat în tabelul următor:

Colete transportate prin curierat rapid în regim urgent, prin SC Cargo SRL
Număr curent 1 2 3 4 5 6 7 8
Greutatea (kg) 1 0,5 5,9 1,5 0,8 5 7 2,1
Număr curent 9 10 11 12 13 14 15 16
Greutatea (kg) 1 3 2,4 9 5,2 3,4 10,5 0,5
a) serie de spaţiu simplă
b) serie de distribuţie bidimensională
c) serie de spaţiu complexă
d) serie de distribuţie simplă
e) nu se poate construi nici un tip de serie statistică

3. În urma unui studiu privind firmele care au ca obiect de activitate realizarea


de produse de papetărie cu sediul în Craiova, s-au determinat datele :

Firma Numărul angajaților CA (mii lei) Profit (mii lei)


A 100 105 10
B 110 185 16
C 50 70 2
D 20 68 4
a. Să se stabilească tipul variabilelor de grupare din tabelul anterior.
b. Câte serii statistice conţine tabelul şi care este tipul lor?

4. Se cunosc următoarele date referitoare la rezultatele obţinute de o echipă de


muncitori la un test profesional:
Muncitorul 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14.
Nota 4 3 6 7 7 5 6 6 4 7 5 8 5 8
Muncitorul 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28.
Nota 8 6 8 9 6 5 7 9 5 6 6 9 5 10
Muncitorul 29. 30. 31. 32. 33. 34. 35. 36. 37. - - - - -
Nota 6 5 6 8 10 7 6 7 5 - - - - -

41
Statistică

Alegeţi şi construiţi tipul de serie statistică adecvată.


a) serie de distribuţie după intervale
b) serie de distribuţie după variante
c) serie de spaţiu
d) seria de distribuţie bidimensională
e) serie de timp

5. Frecvenţa relativă cumulată crescător a ultimei grupe este egală cu:


a) numărul de unităţi din colectivitate;
b) numărul de unităţi din ultima grupă;
c) 100%;
d) 1;
e) frecvenţa relativă cumulată descrescător a ultimei grupe.

6. Ce tipuri de grafice pot fi utilizate pentru reprezentarea seriilor cronologice?

7. Se cunosc următoarele date:


Societatea comercială A B
Valoarea totală a mărfurilor vândute (mii lei), din care: 800 1200
- produse alimentare 400 900
- cosmetice 300 150
- produse de papetărie 100 150

Alegeţi şi construiţi graficul corespunzător:


a) histograma;
b) diagrama de structură prin cercuri;
c) diagrama polară radială;
d) cronograma;
e) diagrama polară sectorială
8. Alegeţi graficul adecvat reprezentării datelor următoare:
Firma A B C D E
Producţia - mld. lei 40 30 50 60 80
a) histograma;
b) diagrama polară radială;
c) diagrama prin coloane;
d) poligonul frecvenţelor;
e) diagrama de balanţă;
9. Se cunosc următoarele date referitoare la o firmă de turism:
Anul 1 2
Trimestrul 1 2 3 4 1 2 3 4
Numărul de turişti 100 150 600 110 120 200 900 140
Alegeţi şi construiţi graficul corespunzător:
a) poligonul frecvențelor;
b) histograma;
c) diagrama prin benzi;
d) diagrama polară radială;
e) diagrama polară sectorială.
10. Se cunosc următoarele date:
Societatea comercială A B
Valoarea totală a mărfurilor vândute (mii lei) 800 1200
Alegeţi graficul corespunzător reprezentării datelor din tabel:
a) histograma;
b) diagrama de structură prin cercuri;
c) diagrama polară radială;
d) diagrama de comparaţie prin cilindru;
e) diagrama polară sectorială;
42
Observarea, sistematizarea şi prezentarea datelor statistice

Răspunsurile la toate întrebările testului de autoevaluare 2


se regăsesc în Unitatea de învățare 1, paginile 16 – 40. Pentru
aplicațiile practice și întrebările tip grilă, rezolvarea se regăsește și la
sfârșitul manualului.

Rezumat
Scopul Statisticii este acela de a extrage informaţia reprezentativă,
tipică, pentru largi colectivităţi de entităţi. Ea operează cu o serie de noţiuni
fundamentale specifice dintre care cele mai importante sunt: populaţie
statistică, unitate statistică, eşantion, variabilă statistică, variabilă de grupare.
Pentru a putea realiza extragerea informaţiei reprezentative este
necesară organizarea unei cercetări statistice care cuprinde de obicei trei
etape: etapa descriptivă, etapa analitică şi etapa previzională.
Având în vedere modul de includere în cerecetare a elementelor
populaţiei statistice supuse studiului există două categorii de cercetări statistice:
totale şi parţiale.
Cercetarea statistică a unei populaţii se realizează prin intermediul
variabilelor ce pot fi asociate unităţilor statistice din populaţia respectivă. Privite
prin prisma conţinutului aceste variabile pot fi: atributive, de timp sau de spaţiu.
Privite din punct de vedere al modului de exprimare variabilele pot fi cantitative
sau calitative. Cele cantitative pot fi grupate în funcţie de modul în care pot lua
valori în variabile cu variaţie continuă şi variabile cu variaţie discretă. Privite din
punct de vedere al posibilităţilor de măsurare, variabilele pot fi măsurate pe una
din cele patru scale de măsurare: scala nominală, scala ordinală, scala interval
şi scala proporţională.
Prelucrarea datelor în cadrul unei cercetări statistice conduce
organizarea datelor ce vor fi prelucrate, de cele mai multe ori, în serii statistice.
În funcţie de tipul variabilelor ce se prelucrează se pot obţine următoarele tipuri
de serii statistice: de distribuţie (construite pe baza variabilelor atributive), de
timp (construite pe seama variabilelor de timp) sau de spaţiu (construite pe
seama variabilelor de spatiu).
Tipul variabilei de grupare determină tipul seriei ce poate fi obţinută pe
baza sa.
Pentru fiecare tip de serie statistică există un set de condiţii ce trebuie
îndeplinite pentru a putea fi construite.
Pentru înţelegerea rapidă a conţinutului informaţional este necesară de
cele mai multe ori reprezentarea grafică a datelor statistice.
În funcţie de conţinutul acestora şi de modul de organizare se pot utiliza
mai multe tipuri de grafice statistice pentru reprezentarea lor. Dacă datele
statistice sunt organizate în serii statistice se poate alege unul din graficele
dedicate fiecărui tip de serie statistică. Dacă datele statistice nu constituie o
serie statistică, atunci acestea pot exprima o comparaţie - caz în care se poate
alege între tipurile de diagrame de comparaţie existente, pot exprima o
structură - caz în care se poate alege între diagramele de structură existente,
sau pot exprima anumite situaţii speciale caz în care este posibil să existe
tipuri de grafice speciale ce pot fi utilizate numai în acele cazuri.
Fiecare tip de grafic statistic prezintă un mod de construcţie dedicat
care trebuie respectat întocmai altfel, acesta nu-şi mai poate îndeplini funcţia
de a transmite vizual nedistorsionat conţinutul datelor.
43
Statistică

Termeni cheie
Populație statistică, eșantion, cercetare totală, cercetare selectivă, variabilă de
grupare: atributivă, de timp și de spațiu, calitativă și cantitativă, scală de
măsurare, clasificare și grupare statistică, serie statistică: de distribuție, de
timp, de spațiu, grafice statistice: histograma, ogiva sau curba frecvențelor
cumulate, poligonul frecvențelor, rețea poligonală, stereograma, cronograma,
historiograma, diagrama prin coloane sau benzi, diagrama polară, cartgrama,
cartodiagrama, diagrama de structură.

Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
3. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
4. Georgescu, V., Statistică descriptivă şi inferenţiala, Editura Universitaria,
Craiova, 2006;
5. Georgescu, V., Radu, C., Statistică, Editura Reprograph, Craiova, 1999;
6. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
7. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
8. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009;
9. Voineagu, V., Ţiţan, E., Ghiţă, S., Boboc, C., Todose, D., Statistică. Baze
teoretice şi aplicaţii, Editura Economică, Bucureşti, 2007
10. *** Anuarul Statistic al României 2012.

44
UNITATEA DE ÎNVĂŢARE 2
INDICATORII NUMERICI AI SERIILOR DE
DISTRIBUȚIE

Cuprinsul capitolului
Obiectivele capitolului 1
2.1. Indicatorii tendinței centrale
2.2. Indicatorii variației
2.3. Indicatorii formei
Rezumat
Termeni cheie
Bibliografie

Obiectivele capitolului 1
În cadrul acestei unităţi de învăţare, structurată în trei
secţiuni şi mai multe subsecţiuni, sunt definiţi principalii
indicatori ai tendinţei centrale, ai variației, asimetriei și
excesului unei distribuții statistice.
După parcurgerea primei secțiuni și la sfârșitul unității de
învățare, studentul va avea de rezolvat două teste de autoevaluare. Testele
sunt construite gradual, ca mărime şi complexitate, din întrebări deschise,
teste grilă și aplicații practice. Încadrarea în parametrii specificaţi (timp,
variante) îi va confirma fiecărui student dezvoltarea competenţelor necesare
pentru trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi fiecărui
student următoarele competenţe specifice:
Š descrierea corectă şi completă, din punct de vedere al conţinutului,
metodologiei şi utilităţii în domeniul economic a principalilor indicatori ai
tendinţei centrale: media, cuantilele, dominanta (modul);
Š descrierea corectă şi completă, din punct de vedere al conţinutului,
metodologiei şi utilităţii în domeniul economic a principalilor indicatori ai
variaţiei, asimetriei şi excesului;
Š identificarea sau alegerea corectă a indicatorului numeric adecvat unei
situaţii reale;
Š utilizarea indicatorilor numerici ai tendinţei centrale, ai variației sau formei
unei distribuții statistice pentru un studiu de caz concret din domeniul
economic;
Š formularea unor concluzii pertinente despre datele analizate, pe baza
regularităţilor relevate prin folosirea acestor instrumente statistice.

Durata medie de parcurgere a unității de învățare: 6 ore

45
Statistică

2.1. Indicatorii tendinței centrale

Luarea unei decizii, în orice tip de activitate, implică necesitatea


cunoaşterii acelui domeniu, respectiv a fenomenelor de masă manifestate în
acel domeniu. Cu cât această cunoaştere este mai profundă, cu atât riscurile
acţiunilor întreprinse sunt mai mici. Fenomenele de masă prezintă o
variabilitate însemnată la nivelul formelor de manifestare, variabilitate
determinată de acţiunea combinată a unui complex de factori, esenţiali sau
neesenţiali, obiectivi sau subiectivi, sistematici sau întâmplători. Însă,
importantă în cunoaşterea fenomenelor de masă nu este situaţia fiecărei unităţi
din colectivitate, ci tendinţa manifestată de întreaga colectivitate. O posibilitate
de cunoaştere a mediului economico-social o reprezintă determinarea diferiţilor
indicatori statistici, dintre care un rol de seamă îl au indicatorii tendinţei
centrale.
Indicatorii tendinţei centrale se determină ca indicatori medii sau
indicatori de poziţie, în funcţie de natura variabilelor urmărite în colectivitatea
analizată, de scopul analizei etc. Indicatorii tendinţei centrale folosiţi mai
frecvent sunt:
ƒ mărimile medii: media aritmetică, media armonică, media pătratică, media
geometrică;
ƒ indicatorii de poziţie: cuantilele (mediana, cuartilele, decilele, percentilele) şi
modul (dominanta).
Utilizarea corectă a indicatorilor sintetici este determinantă pentru
cunoaşterea obiectivă a tendinţei centrale. În acest sens statisticianul englez
G.A. Yule consideră necesară îndeplinirea unor anumite condiţii de către un
indicator, şi anume:
ƒ să fie definit în mod obiectiv, independent de dorinţa utilizatorului;
ƒ să depindă de toate valorile individuale înregistrate;
ƒ să aibă o semnificaţie concretă, uşor de înţeles chiar şi de nespecialişti;
ƒ să fie simplu şi rapid de calculat;
ƒ să fie puţin sensibil la fluctuaţiile de selecţie (să nu prezinte valori cu
diferenţe foarte mari pentru diferite eşantioane);
ƒ să se preteze la calcule algebrice (să poată fi folosit în operaţii de agregare
/ dezagregare, sau în operaţii de comparare a mai multor serii statistice).
În general, indicatorii tendinţei centrale calculaţi ca mărimi medii sau ca
medii de structură nu satisfac toate condiţiile de mai sus, însă esenţial este ca
utilizatorul să cunoască condiţiile nesatisfăcute, precum şi importanţa acestora
în fundamentarea deciziilor.
Problematica acestui capitol ne va introduce, practic, în metodologia de
calcul a indicatorilor sintetici, cu ajutorul cărora pot fi evidenţiate însuşirile cu
caracter de legitate care determină tendinţele esenţiale ale variabilităţii unui
fenomen sau proces.

2.1.1. Mărimile medii


Primul contact îl vom avea cu mărimile medii care sunt utilizate frecvent
atât în activitatea de planificare şi conducere, cât şi în diversele cercetări
statistice. Mărimile medii au un mare grad de aplicabilitate în activitatea
practică, reprezentând, totodată, şi principale instrumente de cunoaştere a
fenomenelor de masă. Aceste mărimi redau ceea ce este tipic, comun şi
general, în evoluţia fenomenelor. În ceea ce priveşte condiţiile lui Yule, acestea
sunt îndeplinite în mod satisfăcător.
Aplicarea corectă a metodei mediilor necesită respectarea următoarelor
condiţii:

46
Indicatorii numerici ai seriilor de distribuție

ƒ calcularea mediilor trebuie să se bazeze pe folosirea unui număr mare de


cazuri individuale diferite sub care s-a înregistrat caracteristica, a căror
variaţie este întâmplătoare în raport cu fenomenul în totalitatea lui;
ƒ valorile din care se va calcula media să fie omogene;
ƒ alegerea acelui tip de medie care corespunde cel mai bine formei de
variaţie a caracteristicii cercetate şi informaţiilor de care dispunem.
Spre exemplu, dacă am avea următoarea situaţie a notelor studenţilor
unei grupe la un examen:

Nota 4 5 6 7 8 9 10
Număr studenţi 9 10 10 2 2 1 1

Dacă am calcula media obţinută de studenţi la acest examen folosind


metodologia mediei aritmetice simple am obţine următorul rezultat:
4 + 5 + 6 + 7 + 8 + 9 + 10
m= =7 .
7
Rezultatul acesta ar fi corect în situaţia în care pentru fiecare notă am fi
avut acelaşi număr de studenţi (5). Având în vedere că realitatea este alta,
calculul corect al mediei notelor obţinute de studenţi este următorul:
4 ⋅ 9 + 5 ⋅ 10 + 6 ⋅ 10 + 7 ⋅ 2 + 8 ⋅ 2 + 9 ⋅ 1 + 10 ⋅ 1
m= = 5 ,57 .
35
Astfel, în primul caz am putea spune că nivelul de pregătire al
studenţilor la acest examen a fost mediu (media este 7), în timp ce în realitate
acest nivel a fost foarte scăzut (puţin peste nota de promovare – 5,57).
Dacă distribuţia notelor obţinute de studenţi ar fi fost următoarea:

Nota 4 5 6 7 8 9 10
Număr studenţi 1 1 2 2 10 10 9

atunci media, corect calculată, ar fi fost:


4 ⋅ 1 + 5 ⋅ 1 + 6 ⋅ 2 + 7 ⋅ 2 + 8 ⋅ 10 + 9 ⋅ 10 + 10 ⋅ 9
m= = 8 ,42
35
În acest caz, media este, dimpotrivă mai bună decât cea calculată după
relaţia mediei aritmetice simple, conducându-ne la concluzia că pregătirea
studenţilor pentru acest examen o putem aprecia ca fiind bună.
Din acest exemplu ne putem da seama, destul de uşor, de importanţa
alegerii corecte a tipului de medie.

Media nivelurilor individuale ale unei variabile (caracteristici)


statistice este expresia sintetizării într-un singur nivel reprezentativ
a tot ceea ce este esenţial, tipic şi obiectiv în apariţia, manifestarea
şi dezvoltarea acesteia.

Având în vedere că media este o valoare reprezentativă pentru toate


nivelurile pe care le sintetizează, înseamnă că ea le poate substitui. Această
substituire poate fi privită sub două aspecte:
ƒ unul cantitativ, care constă în faptul că nivelul total al caracteristicii supuse
cercetării, calculat prin totalizarea nivelurilor individuale nu trebuie să se
schimbe atunci când aceste niveluri sunt substituite cu media lor;

47
Statistică

ƒ unul calitativ, legat de semnificaţia şi conţinutul mediei calculate, conţinut


care este asigurat atunci când unităţile statistice au un grad înalt de
omogenitate.
Rezultă că media cuantifică influenţa cauzelor esenţiale, făcând
abstracţie de cauzele întâmplătoare. În statistică, media poate fi interpretată ca
nivelul la care ar fi ajuns caracteristica înregistrată, dacă, în toate cazurile, toţi
factorii esenţiali şi neesenţiali ar fi acţionat constant, deci s-ar fi obţinut o
valoare identică. Ca atare, putem aprecia că media este „speranţa matematică”
spre care tind toate valorile, variaţia dintre ele nefiind altceva decât influenţa
factorilor aleatori. Într-adevăr, dacă fenomenele sunt de acelaşi tip calitativ,
variaţia dintre ele este minimă şi ar putea fi considerată aleatoare, iar dacă sunt
de tipuri diferite, atunci colectivitatea se împarte pe grupe omogene. Atunci se
operează cu două tipuri de variaţie: variaţia din interiorul grupelor, care este
influenţa factorilor aleatori (neesenţiali), şi variaţia dintre grupe, care este
influenţa unor factori esenţiali / sistematici care structurează obiectiv întregul
ansamblu pe tipuri calitative. În primul caz este o singură medie, în al doilea
caz, pe lângă media ansamblului, sunt şi medii condiţionate de factorii esenţiali
care structurează colectivitatea. Pentru a verifica gradul de semnificaţie a
mediei este necesar să se continue cu studiul variaţiei.
Dată fiind marea diversitate a fenomenelor economico-sociale, precum
şi complexitatea variabilităţii acestor fenomene, în practică trebuie să se aleagă
tipul de medie adecvat. Mediile cel mai frecvent întâlnite sunt: aritmetică,
armonică, pătratică şi geometrică, calculate ca medii simple sau ponderate în
funcţie de tipul de serie asupra căreia se aplică.

Media aritmetică
Media aritmetică se foloseşte atunci când fenomenul supus cercetării
înregistrează modificări aproximativ constante, în progresie aritmetică,
prezentând, deci, o tendinţă liniară.
Media aritmetică simplă se foloseşte pentru seriile simple, adică în
cazul în care numărul variantelor caracteristicii studiate este egal cu numărul
unităţilor sau când se cunoaşte nivelul totalizat al caracteristicii şi numărul
unităţilor. Pentru o caracteristică statistică X, cu valorile x1, x2, …, xn, şi ţinând
cont că funcţia determinantă pentru media aritmetică simplă este de tip
adiţional, adică:
x1 + x 2 + ... + x n = ∑ xi ,

înlocuind variantele caracteristicii cu media lor, atunci:

x + x + ... + x = ∑ xi ⇒ n ⋅ x = ∑ xi ⇒ x=
∑ xi ; i = 1, n .
n
Exemplul 2.1.
Producţia obţinută de 5 firme din oraşul Craiova, în luna decembrie
2006, se prezintă astfel (tabelul 2.1.):
Tabelul 2.1.
Firma 1 2 3 4 5
Producţia realizată (mil. lei) 50 65 42 74 87
Să se determine producţia medie a celor 5 firme.
Rezolvare

x=
∑ xi =
50 + 65 + 42 + 74 + 87 318
= = 63 ,6 mil. lei
n 5 5

48
Indicatorii numerici ai seriilor de distribuție

Media aritmetică ponderată este întâlnită în cazul seriilor de


distribuţie, când unele variante ale caracteristicii se înregistrează de mai multe
ori. Dacă fiecare variantă xi a caracteristicii are o frecvenţă de apariţie fi în
colectivitate, atunci suma simplă este înlocuită cu suma produsului xi · fi,
rezultând:
x1 ⋅ f 1 + x 2 ⋅ f 2 + ... + x n ⋅ f n = ∑ xi ⋅ f i ⎫
⎬⇒
x ⋅ f 1 + x ⋅ f 2 + ... + x ⋅ f n = x ⋅ ∑ f i ⎭

x ⋅ ∑ f i = ∑ xi ⋅ f i ⇒ x=
∑ xi ⋅ f i ; i = 1, n.
∑ fi
Observaţie: în cazul seriilor de distribuţie după intervale, variantele xi
vor fi date de centrele intervalelor.
Dacă în locul frecvenţelor absolute (fi) se folosesc frecvenţele relative
(pi), relaţia de calcul devine:

x= ∑ xi ⋅ pi
∑ pi
şi se poate scrie în următoarele două variante:

x= ∑ xi ⋅ pi - dacă pi este exprimat în procente ( ∑ pi = 100 );


100
x = ∑ xi ⋅ pi - dacă pi este exprimat în coeficienţi ( ∑ pi = 1 ).

Exemplul 2.2.
Situaţia salariului lunar obţinut de angajaţii unei firme este prezentată în
tabelul următor:

Tabelul 2.2.
Salariul lunar realizat (u.m.) Numărul de muncitori (fi) xi
350 - 450 50 400
450 – 550 150 500
550 – 650 350 600
650 – 750 300 700
750 – 850 100 800
850 - 950 50 900
Total 1000 -

Să se determine salariul mediu realizat de cei 1000 angajaţi ai acestei


firme.
Rezolvare

x= ∑ xi ⋅ f i =
400 ⋅ 50 + 500 ⋅ 150 + 600 ⋅ 350 + 700 ⋅ 300 + 800 ⋅ 100 + 900 ⋅ 50
∑ fi 1000
x = 640 u.m.

Proprietăţile mediei aritmetice


ƒ Media aritmetică este cuprinsă între varianta minimă şi varianta maximă,
adică:
xmin < x < xmax;

49
Statistică

ƒ Suma abaterilor variantelor caracteristicii de la media lor este egală cu zero:


ƒ ∑ ( xi − x ) = 0 - pentru media aritmetică simplă;

ƒ ∑ ( xi − x ) f i = 0 - pentru media aritmetică ponderată;

ƒ Media aritmetică a unei variabile aleatoare X care are valorile individuale


egale între ele este egală cu valoarea lor:
x = x1 = x2 = ... = xn ;
ƒ Dacă dintr-o serie X (x1 , x2 , … xn ) construim seria X * prin adăugarea sau
scăderea unei constante a (x1 ± a, x2 ± a, … xn ± a), atunci media seriei X *
va fi:
x* = x ± a ;
ƒ Dacă dintr-o serie X (x1 , x2 , … xn ) construim seria X * prin mărirea sau
⎛ x ⎞
micşorarea de k ori ⎜ xi ⋅ k sau i ⎟ , atunci media seriei X * se va mări sau
⎝ k⎠
micşora de k ori:
x
x * = x ⋅ k sau x * = ;
k
Combinând ultimele două proprietăţi, se obţine formula de calcul
simplificat a mediei aritmetice:
xi − a
∑ k
⋅ fi
x= ⋅k + a.
∑ fi
Evident, la prima vedere pare mai complicată această nouă relaţie de
calcul a mediei aritmetice, însă dacă pentru o serie de distribuţie vom considera
constanta a ca fiind varianta caracteristicii cu frecvenţa cea mai mare şi
x −a
constanta k mărimea intervalului de variaţie, atunci valorile raportului i vor
k
fi 0 pentru varianta corespunzătoare lui a, -1, -2, -3 … deasupra lui a şi 1, 2, 3
... sub a.
ƒ Dacă dintr-o serie X (x1 , x2 , … xn ) construim seria X * prin mărirea sau
micşorarea de k ori a frecvenţelor corespunzătoare valorilor individuale,
atunci media seriei X * va fi egală cu cea a seriei X:
x* = x ;
ƒ Pentru o serie de distribuţie X (x1 , x2 , … xn ) dacă frecvenţele sunt
constante (f1 = f2 = … = fn = r ) avem:

x= ∑ xi f i = ∑ xi r = r ∑ xi = ∑ xi ;
∑ fi ∑r n⋅r n
ƒ Media aritmetică a unei variabile Z, definită ca sumă a două variabile
aleatoare independente X şi Y (Z = X + Y), este egală cu suma mediilor
celor două variabile:
x+ y = x+ y ;
ƒ Media aritmetică a unei variabile Z, definită ca produs a două variabile
aleatoare independente X şi Y (Z = X · Y), este egală cu produsul mediilor
celor două variabile:
50
Indicatorii numerici ai seriilor de distribuție

x⋅ y = x ⋅ y ;
ƒ În cazul în care colectivitatea generală este structurată, valoarea medie a
caracteristicii studiate se calculează ca medie aritmetică ponderată a
mediilor parţiale. Astfel, pentru o serie X (x1 , x2 , … xr , xr+1 ... xn ) împărţită în
⎛ r
⎞ ⎛ n

două clase omogene de mărime fa ⎜ f a = ∑ f i ⎟ şi fb ⎜ f b = ∑ f i ⎟ , pentru
⎝ i =1 ⎠ ⎝ i = r +1 ⎠

care vom avea mediile parţiale xa şi xb , media va fi:


f a xa + fb xb
x= ;
f a + fb

Exemplul 2.3.
Considerăm datele de la exemplul 2.2. Pentru determinarea mediei
aritmetice, pe baza calculului simplificat, vom construi tabelul 2.3.
Tabelul 2.3.
Salariul lunar realizat Numărul de xi xi − a xi − a
(u.m.) muncitori (fi) ⋅ fi
k k
350 - 450 50 400 -2 -100
450 – 550 150 500 -1 -150
550 – 650 350 600 0 0
650 – 750 300 700 1 300
750 – 850 100 800 2 200
850 - 950 50 900 3 150
Total 1000 - - 400
a=600; k=100
Rezolvare
400
x= ⋅ 100 + 600 = 640 u.m.
1000
Principalul dezavantaj al folosirii mediei aritmetice îl constituie
sensibilitatea sa faţă de valorile extreme. Ea devine nereprezentativă dacă
termenii seriei sunt prea dispersaţi, iar dacă în colectivitatea statistică se
observă manifestări distincte, din punct de vedere calitativ, media riscă să
devină o mărime lipsită de conţinut. În acest caz, este indicat să se calculeze
medii parţiale pentru fiecare tip calitativ al colectivităţii şi, în final, să se
determine media generală. Omogenitatea colectivităţii pentru care se
calculează media este, de fapt, o condiţie a reprezentativităţii pentru orice tip
de mărime medie.

Media aritmetică a variabilei alternative


Variabila alternativă sau binară, cunoscută şi sub denumirea de
variabilă aleatoare a lui Bernoulli, admite doar două variante posibile, variante
care se exclud reciproc. În realitate există diverse astfel de situaţii: admis /
respins (candidaţii la un concurs), rebut / nonrebut (piesele realizate într-o
întreprindere), calificat / necalificat (sportivii într-o anumită competiţie) etc. Deci,
avem două situaţii ce nu pot apărea concomitent (un candidat ori este admis ori
este respins, nu poate să fie în acelaşi timp şi admis, şi respins).
Pentru prelucrarea şi analiza statistică se consideră următoarele
convenţii şi notaţii:

51
Statistică

ƒ situaţiilor corespunzătoare răspunsurilor afirmative, cele care constituie


varianta x1, li se atribuie cifra 1, având frecvenţa absolută f1 şi frecvenţa
relativă p;
ƒ situaţiilor corespunzătoare răspunsurilor negative, cele care constituie
varianta x2, li se atribuie cifra 0, având frecvenţa absolută f2 şi frecvenţa
relativă q.
Astfel, dacă vom însuma frecvenţele absolute f1 şi f2 vom obţine
volumul colectivităţii generale. În plus, cunoscând modul de determinare al
frecvenţelor relative, rezultă că:
p + q = 1 ⇒ p = 1 – q şi q = 1 – p.
Media aritmetică în acest caz va fi:

x= ∑ xi ⋅ f i =
x1 ⋅ f 1 + x2 ⋅ f 2
= x1 ⋅
f1
+ x2 ⋅
f2
= 1⋅ p + 0 ⋅ q = p
∑ fi f1 + f 2 f1 + f 2 f1 + f 2
x = p.
Exemplul 2.4.
Dacă analizăm salariul muncitorilor din această unitate prin prisma
nivelului de trai şi considerăm că un salariu sub 550 u.m. este necorespunzător
din acest punct de vedere, iar unul peste 550 u.m. corespunzător, putem
regrupa datele din exemplul 2.2. ca în tabelul 2.4.
Tabelul 2.4.
Salariul lunar Numărul de Frecvenţe
realizat muncitori (fi) relative (pi)
necorespunzător 200 0,2
corespunzător 800 0,8
Total 1000 1

Să se determine media salariilor „necorespunzătoare”.


Rezolvare
x = p = 0,2 (20%).
Media armonică
Media armonică se determină doar pentru variabile cantitative şi se
aplică numai în cazuri speciale. În general, utilizarea acestui tip de medie este
recomandat atunci când două variabile interdependente se află în raport de
inversă proporţionalitate.
Media armonică are, în principiu, aceeaşi metodologie de calcul ca
media aritmetică, funcţia determinantă fiind tot de tip adiţional; deosebirea
constă în aceea că nu se folosesc variantele x1, x2, …, xn , ci inversul acestora,
1 1 1
adică , ,..., .
x1 x2 xn
Media armonică simplă este specifică seriilor simple, determinându-se
astfel:
1 1 1 1⎫
+ + ... + =∑ ⎪
x1 x2 xn xi ⎪ n 1 n
⎬⇒ =∑ ⇒ xh =
1 1 1 n ⎪ xh xi 1
+ + ... + = ∑x
xh xh xh xh ⎪⎭ i

52
Indicatorii numerici ai seriilor de distribuție

Media armonică ponderată se utilizează în cazul seriilor de frecvenţe,


determinându-se astfel:
1 1 1 1 ⎫
⋅ f 1 + ⋅ f 2 + ... + ⋅ f n = ∑ ⋅ f i ⎪
x1 x2 xn xi ⎪ ∑ fi = 1 ⋅ f ⇒ x = ∑ fi
⎬⇒ ∑x i

h
1 1 1 fi ⎪ xh 1
⋅ f 1 + ⋅ f 2 + ... + ⋅ f n = i
∑x ⋅ fi
xh xh xh xh ⎪⎭ i

Exemplul 2.5.
Considerăm datele de la exemplul 2.2. Să se determine salariul mediu
aplicând media armonică. Pentru aceasta, vom construi tabelul următor:
Tabelul 2.5.
Salariul lunar Numărul de xi 1 1
realizat (u.m.) muncitori (fi) ⋅ fi
xi xi
350 - 450 50 400 0,002500 0,125000
450 – 550 150 500 0,002000 0,300000
550 – 650 350 600 0,001667 0,583333
650 – 750 300 700 0,001429 0,428571
750 – 850 100 800 0,001250 0,125000
850 - 950 50 900 0,001111 0,055556
Total 1000 - 1,617460

xh = ∑ fi =
1000
= 618,25 u.m..
1 1,61746
∑x ⋅ fi
i

Media armonică este mai rar folosită în practică. Serveşte, însă, ca


model matematic în calculul unor indicatori statistici de largă circulaţie cum sunt
indicii de grup ai preţurilor de vânzare aferente mărfurilor şi serviciilor de pe
piaţa liberă.
În schimb, mult mai frecvent utilizată este forma transformată a mediei
aritmetice ponderate, care ia forma unei medii armonice cu ponderi compuse.
Se foloseşte atunci când nu se cunosc frecvenţele. De asemenea, mai este
folosită şi ca model matematic în calculul unor indicatori statistici, cum ar fi
indicele mediu armonic al preţurilor (cazul tipic îl constituie determinarea
preţului mediu al bunurilor de consum ce compun coşul zilnic, determinat pe
baza bugetelor de familie ale unui eşantion reprezentativ de consumatori; de
regulă, aceştia nu declară cantităţile cumpărate din fiecare produs, ci doar
valoarea bunurilor consumate).
În cazul mediei armonice ca formă transformată a mediei aritmetice
ponderate, relaţiile de calcul se obţin prin substituirea frecvenţelor din numitorul
1
relaţiei mediei aritmetice ponderate astfel fi = ⋅ xi fi , datorită faptului că xi şi xi
xi
fi sunt cunoscute. Dacă xi fi sunt egale (x1 f1 = x2 f2 = … = xn fn ), se obţine media
armonică simplă:

x= ∑ xi f i = ∑ xi f i =
n ⋅ xi f i
=
n
= xh
∑ fi 1
∑ x xi f i xi f i ⋅ ∑
1 1
∑x
i xi i

Dacă xi fi sunt diferite (x1 f1 ≠ x2 f2 ≠ … ≠ xn fn ), se obţine media


armonică ponderată:

53
Statistică

x= ∑ xi f i = ∑ xi f i = xh
∑ fi 1
∑ x xi f i
i

Proprietăţile mediei armonice


ƒ Pentru aceeaşi serie de valori, între media aritmetică şi media armonică se
verifică relaţia de ordine:
xh ≤ x .

y
ƒ Dacă între două variabile există raportul de inversă proporţionalitate, = 1,
x
atunci acelaşi raport se păstrează şi între mediile calculate pentru cele două
variabile. Dacă în cazul primei variabile utilizăm media aritmetică, atunci
pentru cealaltă variabilă se impune folosirea mediei armonice. Un exemplu
ar fi raportul de inversă proporţionalitate ce există între productivitatea
muncii (w) şi consumul de timp de muncă pe unitatea de produs (t). Cum
între w şi t există relaţia de inversă proporţionalitate:
qi 1
wi = = ,
Ti t i
unde Ti – consumul total de timp de muncă;
qi – producţia obţinută;
1
t=
w
ƒ Dacă pentru o caracteristică numerică se cunoaşte seria de valori (xi, fi),
i=1,n, atunci pentru determinarea nivelului mediu se va utiliza media
aritmetică, iar dacă avem valorile (xi, xi · fi), i=1,n, se va utiliza media
armonică. Mediile calculate în cele două cazuri sunt egale:

x= ∑ xi f i = ∑ xi f i = xh .
∑ fi 1
∑ x xi f i
i

Media pătratică
Media pătratică se foloseşte în cazul în care fenomenele înregistrează
creşteri, aproximativ, în progresie exponenţială, adică atunci când creşterea
este mai lentă la începutul seriei şi din ce în ce mai pronunţată spre sfârşitul
acesteia, fiind utilizată, deci, în analiza tendinţelor neliniare, de tip exponenţial.
Este folosită şi ca model matematic în calculul indicatorilor sintetici ai variaţiei
(abaterea standard).
Media pătratică se determină în mod asemănător mediei aritmetice,
funcţia determinantă fiind tot de tip adiţional, cu deosebirea că, în cazul mediei
pătratice, se foloseşte pătratul caracteristicii.
Media pătratică simplă este utilizată pentru seriile simple şi se
determină astfel:

x12 + x22 + ... + xn2 = ∑ xi2 ⎫⎪ ∑ xi2


⎬⇒ n ⋅ x p2 = ∑ xi2 ⇒ xp = .
x p2 + x p2 + ... + x p2 = n ⋅ x p2 ⎪⎭ n

54
Indicatorii numerici ai seriilor de distribuție

Media pătratică ponderată se utilizează pentru seriile de frecvenţe,


obţinându-se astfel:

x12 ⋅ f1 + x22 ⋅ f 2 + ... + xn2 ⋅ f n = ∑ xi2 ⋅ f i ⎫⎪


⎬⇒ x p2 ⋅ ∑ f i = ∑ xi2 ⋅ f i ⇒
x p2 ⋅ f1 + x p2 ⋅ f 2 + ... + x p2 ⋅ f n = x p2 ⋅ ∑ f i ⎪⎭

xp = ∑ xi2 ⋅ fi .
∑ fi
Dacă pentru aceeaşi serie se calculează media aritmetică şi media
pătratică, întotdeauna:
x < xp .

Această proprietate este determinată de faptul că, în cazul mediei


pătratice, variantele caracteristicii participă, prin ridicare la pătrat, la calculul
mediei în mod diferenţiat, pătratul lor îndeplinind rolul de frecvenţă. Acesta este
şi motivul pentru care această medie este indicată pentru analiza fenomenelor
ce înregistrează tendinţe exponenţiale.

Exemplul 2.6.
Considerăm datele de la exemplul 2.2. Să se determine salariul mediu
aplicând media pătratică. Pentru aceasta, vom construi tabelul următor:
Tabelul 2.6.
Salariul lunar Numărul de xi
realizat (u.m.) muncitori (fi) xi2 ∑ xi2 ⋅ fi
350 - 450 50 400 160000 8000000
450 – 550 150 500 250000 37500000
550 – 650 350 600 360000 126000000
650 – 750 300 700 490000 147000000
750 – 850 100 800 640000 64000000
850 - 950 50 900 810000 40500000
- 423000000
Total 1000 -

Rezolvare

xp = ∑ xi2 ⋅ fi =
423000000
= 423000 = 650 ,38 u.m.
∑ fi 1000

Media geometrică
Media geometrică se foloseşte în cazurile în care fenomenele
înregistrează modificări, aproximativ, în progresie geometrică. Se utilizează mai
frecvent în situaţia în care diferenţele dintre variantele caracteristicii sunt mai
mari la începutul seriei şi din ce în ce mai mici către sfârşitul acesteia. Rezultă
că, media geometrică este recomandată pentru analiza tendinţelor neliniare
care evidenţiază creşteri la început şi o atenuare a acestora spre sfârşitul
seriei.
Este folosită ca model matematic în calculul unuia dintre indicatorii
sintetici ai seriilor cronologice (indicele mediu al dinamicii).
În cazul mediei geometrice funcţia determinantă este de tipul
produsului.
Media geometrică simplă este specifică seriilor simple, determinându-se
astfel:
55
Statistică

x1 ⋅ x2 ⋅ ... ⋅ xn = Πxi ⎫⎪
⎬ ⇒ xg = Πxi ⇒ xg = n Πxi .
n
xg ⋅ xg ⋅ ... ⋅ xg = xgn ⎪⎭

Media geometrică ponderată se determină pentru seriile de frecvenţe,


astfel:

x 1f 1 ⋅ x2f 2 ⋅ ... ⋅ xnf n = Π xif i ⎫⎪


⎬⇒ xg∑ f i = Π xif i ⇒ xg = ∑ i Π xif i .
f

xgf 1 ⋅ xgf 2 ⋅ ... ⋅ xgf n = xg∑ f i ⎪⎭

Dacă pentru aceleaşi date se calculează media aritmetică, pătratică şi


geometrică, întotdeauna:
xg < x < x p .

Din acest motiv media geometrică este recomandată pentru analiza


seriilor în cadrul cărora se manifestă tendinţe de reducere a ritmului de
creştere.

Exemplul 2.7.
Considerăm datele de la exemplul 2.2. Să se determine salariul mediu
aplicând media geometrică.
Rezolvare

xg = 1000 400 50 ⋅ 500 150 ⋅ 600 350 ⋅ 700 300 ⋅ 800100 ⋅ 900 50 ⇒ x g = 629,29 u.m.

Constatăm că x g < x < x p .

Proprietăţile mediei geometrice


ƒ Dacă cel puţin o valoare individuală este nulă sau negativă, calculul mediei
geometrice este lipsit de sens;
ƒ Într-o colectivitate structurată în mai multe grupe, media geometrică se
calculează în funcţie de mediile geometrice parţiale şi de volumul grupelor;
ƒ Media geometrică a raportului sau a produsului dintre două caracteristici
independente este egală cu raportul sau produsul mediilor geometrice ale
celor două caracteristici;
ƒ Produsul abaterilor termenilor seriei de la media geometrică este egal cu 1,
astfel:
n xi
Π
i =1 xg
= 1.

Media de ordinul t
Relaţia de calcul a acestei medii este:
ƒ pentru serii simple:
1
⎛ n t ⎞t
⎜ ∑ xi ⎟
xt = ⎜ i =1 ⎟ ;
⎜ n ⎟
⎜ ⎟
⎝ ⎠
ƒ pentru serii de frecvenţe:

56
Indicatorii numerici ai seriilor de distribuție

1
⎛ n t ⎞t
⎜ ∑ xi f i ⎟
- absolute: xt = ⎜ i =1n ⎟ ;
⎜ ⎟
⎜ ∑ fi ⎟
⎝ i =1 ⎠
1
⎛ n ⎞t
- relative: xt = ⎜ ∑ xit pi ⎟ .
⎝ i =1 ⎠

Rezultă, pentru diferite valori ale lui t, următoarele cazuri particulare:


` t = 1 ⇒ x1 = x - media aritmetică;
` t = -1 ⇒ x −1 = x h - media armonică;
` t = 2 ⇒ x2 = x p - media pătratică;
` t → 0 ⇒ xt →0 = x g - media geometrică.
Observaţie: media geometrică nu se obţine direct din media de ordinul t,
ci printr-un proces de trecere la limită când t → 0.
Dacă t parcurge întreaga axă reală, atunci media de ordinul t variază
continuu de la xinf la xsup , aşa cum se observă şi în figura 2.1.

xt

xsup
x2

x t →0 x1

x −1
xinf

-1 0 1 2
Figura 2.1. Curba reprezentativă a mediei de ordinul t.

Dacă pentru aceeaşi serie de date calculăm cele patru tipuri de medie
prezentate, între ele există următoarea relaţie de ordine (aşa cum rezultă şi din
figura 2.1.):
xh ≤ x g ≤ xa ≤ x p .

Egalitatea dintre medii are loc numai atunci când valorile din cadrul
seriei sunt constante.

57
Statistică

2.1.2. Cuantilele

Cuantilele sunt indicatori de poziţie care împart seria de


distribuţie într-un anumit număr de părţi cu efective egale.

k
Fie n volumul unităţilor statistice analizate şi z =
un număr
n
raţional (z∈(0,1), deci k<n). Se numeşte cuantila de ordinul z, valoarea xz a
variabilei aleatoare X, cu proprietatea: Fn(xz ) = z,
unde Fn(xz ) este funcţia empirică de repartiţie (funcţia frecvenţelor relative
cumulate). În mod uzual, z are una din valorile:
1
ƒ z = ⇒ cuantila x 1 = Me se numeşte mediană şi împarte seria de variaţie
2 2
n
în două părţi de efective egale cu ;
2
⎧1 2 3⎫
ƒ z ∈ ⎨ , , ⎬ ⇒ cuantilele x 1 = xQ1 , x 2 = xQ2 , x 3 = xQ3 se numesc cuartile şi
⎩4 4 4 ⎭ 4 4 4
n
împart seria de variaţie în patru părţi de efective egale cu ;
4
⎧1 2 9⎫
ƒ z ∈ ⎨ , ,..., ⎬ ⇒ cuantilele x 1 = xD1 , x 2 = xD2 ,..., x 9 = xD9 se numesc
⎩ 10 10 10 ⎭ 10 10 10
n
decile şi împart seria de variaţie în zece părţi de efective egale cu ;
10
⎧ 1 2 99 ⎫
ƒ z∈⎨ , ,..., ⎬ ⇒ cuantilele x 1 = xP1 , x 2 = xP2 ,..., x 99 = xP99 se
⎩ 100 100 100 ⎭ 100 100 100
numesc percentile şi împart seria de variaţie în o sută părţi de efective
n
egale cu .
100

Mediana

Mediana reprezintă acea valoare care împarte seria


(ordonată crescător sau descrescător) în două părţi egale.

Cum seria de date trebuie să fie ordonată, rezultă că această măsură a


tendinţei centrale nu poate fi definită decât pentru serii ale căror valori sunt
mărimi cantitative sau ordinale, neavând sens pentru o caracteristică nominală.
Metodologia de calcul a medianei diferă după cum seria este simplă sau de
frecvenţe.
• Pentru o serie simplă vom parcurge etapele:
- se ordonează crescător sau descrescător elementele seriei;
- se calculează valoarea mediană într-una din următoarele două variante:
- dacă seria are un număr impar de termeni, atunci:
Me = x n +1 ;
2

58
Indicatorii numerici ai seriilor de distribuție

- dacă seria este formată dintr-un număr par de termeni, atunci mediana
este semisuma termenilor de rang n/2 şi n/2 +1, adică:
xn + xn
+1
Me = 2 2
.
2
Exemplul 2.8.
Fie seria de date X = {18, 27, 16, 35, 38, 44, 13}, reprezentând numărul
de puncte obţinute de 7 candidaţi la un examen. Să se determine mediana.
Rezolvare
Mai întâi ordonăm crescător seria: X = {13, 16, 18, 27, 35, 38, 44}. Cum
seria este formată dintr-un număr impar de termeni, vom avea:
Me = 27.
Dacă la seria iniţială mai adăugăm o valoare: X = {18, 27, 16, 35, 38,
44, 13, 30}, atunci numărul termenilor seriei va deveni par şi vom avea o altă
mediană. Seria ordonată crescător va fi: X = {13, 16, 18, 27, 30, 35, 38, 44}. În
acest caz mediana va fi:
x n + x n +1
27 + 30
Me = 2 2
= = 28 ,5
2 2
• Pentru seriile de distribuţie se deosebesc două posibilităţi de calcul:
A. Calculul algebric
Pentru o serie de distribuţie după variante, determinarea medianei
presupune parcurgerea următoarelor etape:
- se determină frecvenţele cumulate crescător sau descrescător (Fci );
n
- determinăm unitatea mediană după relaţia: U Me = ;
2
- stabilim mediana, care este egală cu prima valoare din cadrul seriei de
valori pentru care: UMe ≤ Fci .
Exemplul 2.9.
Considerăm notele obţinute de studenţii unei grupe la un examen:
Tabelul 2.7.
Nota obţinută (xi) Număr de studenţi (fi) Fci
3 5 5
4 4 9
5 2 11
6 3 14
7 6 20
8 4 24
9 2 26
10 2 28
Total 28 -

n 28
U Me = = = 14 ⇒ Me = 6.
2 2

59
Statistică

• Pentru o serie de distribuţie pe intervale, determinarea medianei se face


parcurgând etapele următoare:
- se determină frecvenţele cumulate crescător sau descrescător (Fci );
n
- determinăm unitatea mediană după relaţia: U Me = ;
2
- se stabileşte intervalul median I Me = ( xMe , xMe ) , respectiv intervalul
inf sup

pentru care este respectată relaţia: UMe ≤ Fci ;


- se calculează mediana cu ajutorul relaţiei:
⎛n ⎞ k
Me = xMe
inf
+ ⎜ − Sn ⎟ ⋅ ,
⎝2 ⎠ f Me
inf
unde: x Me – reprezintă limita inferioară a intervalului median;
Sn – reprezintă suma frecvenţelor care preced intervalul median;
k – mărimea intervalului în care se plasează median;
fMe – frecvenţa intervalului median.
Această relaţie are la bază ipoteza că, în interiorul intervalului de
variaţie unităţile statistice sunt uniform distribuite.

Exemplul 2.10.
Considerăm datele de la exemplul 2.2. Să se determine nivelul mediu
cu ajutorul medianei. La tabelul iniţial mai adăugăm o coloană cu frecvenţele
cumulate.
Tabelul 2.8.
Salariul lunar Numărul de Frecvenţe
realizat (u.m.) muncitori (fi) cumulate (Fci )
350 − 450 50 50
450 – 550 150 200
550 – 650 350 550
650 – 750 300 850
750 – 850 100 950
850 − 950 50 1000
Total 1000 -

Rezolvare
n 1000
U Me = = = 500
2 2
Primul interval pentru care UMe ≤ Fci este IMe =[550, 650].
⎛ 1000 ⎞ 100
Me = 550 + ⎜ − 200 ⎟ ⋅ = 550 + 85 ,71 = 635 ,71 u.m.
⎝ 2 ⎠ 350
Rezultă că jumătate din angajaţi obţine salarii de până la 635,71 u.m.,
în timp ce jumătatea cealaltă obţine salarii de peste 635,71 u.m.

60
Indicatorii numerici ai seriilor de distribuție

B. Calculul grafic
Pentru determinarea medianei pe cale grafică se foloseşte ogiva (curba
n
frecvenţelor cumulate). De pe ordonată, din dreptul lui , se duce o paralelă la
2
abscisă şi din intersecţia acesteia cu ogiva, se coboară o perpendiculară pe
abscisă; punctul de întâlnire a perpendicularei cu abscisa corespunde valorii
medianei.

Exemplul 2.11.
Considerăm datele de la exemplul 2.2. Să se determine grafic mediana.
Acest lucru este realizat în figura 2.2. Se observă că mediana se plasează pe
intervalul [70, 90].
Frecvenţe cumulate
1000
900
800
n 700
2 600
500
400
300
Me
200

350 450 550 650 750 850 950 xi


Figura 2.2. Calculul grafic al medianei.

Principalele utilizări ale medianei sunt:


ƒ poate fi folosită în locul mediei în aprecierea nivelului mediu al unor serii
statistice;
ƒ este folosită ca bază de calcul în determinarea unor indicatori ai
asimetriei;
ƒ este folosită ca etalon în aprecierea gradului de semnificaţie a mediei.
Mediana satisface cel mai bine condiţiile lui Yule, cu excepţia celei de-a
şasea, respectiv nu se pretează calculelor algebrice în cazul în care seria este
structurată în grupe omogene, situaţie în care se preferă media aritmetică.
Valoarea medianei nu este afectată de valorile extreme ale seriei.

Cuartilele

Există trei cuartile (x


Q1 , xQ2 , xQ3 ) care împart seria de
distribuţie în patru părţi cu efective egale. Cele trei cuartile sunt: xQ1
- cuartila inferioară, xQ2 - mediana şi xQ3 - cuartila superioară.

Metodologia determinării cuartilelor este asemănătoare celei a


medianei. Metoda de calcul algebric a cuartilelor presupune parcurgerea
următoarelor etape:
- se stabileşte intervalul cuartilic I Qh corespunzător cuartilei xQh . Acest
interval conţine unitatea cuartilică U Qh , unitate care se obţine astfel:

61
Statistică

h⋅n
U Qh = , h=1,2,3;
4
- se calculează cuartilele pe baza relaţiei:
⎛ h⋅n ⎞ k
xQh = xQinfh + ⎜ − S Qh − 1 ⎟ ⋅ ,
⎝ 4 ⎠ f Qh

unde: xQinfh – reprezintă limita inferioară a intervalului în care se


plasează cuartila xQh ;
S Qh −1 – reprezintă suma frecvenţelor care preced intervalul în care se
plasează cuartila xQh : SQh −1 = f1 + ... + fQh −1 ;
k – mărimea intervalului în care se plasează cuartila xQh ;
f Qh – frecvenţa intervalului în care se plasează cuartila xQh .

Exemplul 2.12.
Considerând datele de la exemplul 2.2, să se determine cuartilele.
Rezolvare
Unităţile cuartilice sunt:
1 ⋅ 1000 2 ⋅ 1000 3 ⋅ 1000
U Q1 = = 250 ; U Q2 = = 500 ; U Q3 = = 750 .
4 4 4
Corespunzător acestor unităţi cuartilice vom avea intervalele:
I Q1 =[550, 650]; I Q2 =[550, 650]; I Q3 =[650, 750].

Cele trei cuartile vor fi:


⎛ 1 ⋅ 1000 ⎞ 100
xQ1 = 550 + ⎜ − 200 ⎟ ⋅ = 550 + 14 ,28 = 564 ,28 u.m.;
⎝ 4 ⎠ 350
⎛ 2 ⋅ 1000 ⎞ 100
xQ2 = 550 + ⎜ − 200 ⎟ ⋅ = 550 + 85 ,71 = 635 ,71 u.m.;
⎝ 4 ⎠ 350
⎛ 3 ⋅ 1000 ⎞ 100
xQ3 = 650 + ⎜ − 550 ⎟ ⋅ = 650 + 66 ,67 = 716 ,67 u.m..
⎝ 4 ⎠ 300
În concluzie, 25% dintre angajaţi au salarii sub 564,28 u.m., 25% au
avut salarii între 564,28 şi 635,71 u.m., 25% între 635,71 şi 716,67 u.m. şi
ceilalţi 25% au obţinut salarii peste 716,67 u.m.

Decilele

Decilele sunt în număr de nouă ( x D1 , x D2 ,..., x D9 ) şi


reprezintă acele valori care împart o serie de distribuţie în zece părţi
cu efective egale.

Observăm că decila xD5 este chiar mediana, datorită faptului că


xD5 = x 5 = x 1 = Me .
10 2
Metodologia de calcul a decilelor este similară cu cea pe care am
întâlnit-o în cazul medianei şi cuartilelor, astfel:
62
Indicatorii numerici ai seriilor de distribuție

- se stabileşte intervalul decilic I Dh corespunzător decilei x Dh . Acest


interval conţine unitatea decilică U Dh , unitate care se obţine astfel:

h⋅n
U Dh = ;
10
- se calculează decilele pe baza relaţiei:
⎛ h⋅n ⎞ k
xDh = xDinfh + ⎜ − S Dh −1 ⎟ ⋅ , h = 1,9 ,
⎝ 10 ⎠ f Dh

unde: x Dinfh - reprezintă limita inferioară a intervalului în care se


plasează decila x Dh ;
S Dh −1 – reprezintă suma frecvenţelor care preced intervalul în care se
plasează decila x Dh : S Dh −1 = f1 + ... + f Dh −1 ;
k – mărimea intervalului corespunzător decilei x Dh ;
f Dh – frecvenţa intervalului în care se plasează decila x Dh .

Exemplul 2.13.
Considerând datele de la exemplul 2.2, să se determine decilele.
Rezolvare
Unităţile decilice sunt:
1 ⋅ 1000 2 ⋅ 1000 9 ⋅ 1000
U D1 = = 100 ; U D2 = = 200 ; … U D9 = = 900 .
10 10 10
Corespunzător acestor unităţi decilice vom avea intervalele:
I D1 = I D2 =[450, 550]; I D3 = I D4 = I D5 =[550, 650]; I D6 = I D7 = I D8 =[650, 750];

I D9 =[750, 850].

Decilele vor fi:


⎛ 1 ⋅ 1000 ⎞ 100
xD1 = 450 + ⎜ − 50 ⎟ ⋅ = 450 + 33 ,33 = 483 ,33 u.m.;
⎝ 10 ⎠ 150
⎛ 2 ⋅ 1000 ⎞ 100
xD2 = 450 + ⎜ − 50 ⎟ ⋅ = 450 + 100 = 550 u.m.;
⎝ 10 ⎠ 150
xD3 = 578 ,57 ; xD4 = 607 ,14 ;

xD5 = 635 ,71 ; xD6 = 666 ,67 ;

xD7 = 700 ; xD8 = 733,33 ; xD9 = 800 u.m.

Percentilele

Percentilele reprezintă acele valori care împart repartiţia în


o sută de părţi cu efective egale şi sunt în număr de 99
( xP1 , xP2 ,..., xP99 ). Ele se folosesc numai pentru serii formate dintr-un
număr foarte mare de unităţi statistice.

Referitor la percentile putem să facem următoarele observaţii:


63
Statistică

ƒ percentilele xP25 , xP50 , xP100 coincid cu cuartilele xQ1 , xQ2 , xQ3 , deoarece
xP25 = x 25 = x 1 = xQ1 , xP50 = x 50 = x 2 = xQ2 şi xP75 = x 75 = x 3 = xQ3 ;
100 4 100 4 100 4
ƒ percentilele xP10 , xP20 , xP30 , xP40 , xP50 , xP60 , xP70 , xP80 , xP90 coincid cu decilele
xD1 , xD2 , xD3 , xD4 , xD5 , xD6 , xD7 , xD8 , xD9 , deoarece xP10 = x 10 = x 1 = xD1 , …
100 10
xP90 = x 90 = x 9 = xD9 ;
100 10
ƒ percentila x P50 coincide cu decila x D5 , cu cuartila xQ2 , respectiv cu
mediana, deoarece xP50 = x 50 = x 5 = x 2 = x 1 .
100 10 4 2
Metodologia de calcul a percentilelor este asemănătoare cu a celorlalte
cuantile:
- se stabilesc intervalele repartiţiei în care se găsesc variantele de rang
n 2n 99 n
, , …, pentru percentilele x P1 , xD2 , …, x D9 ;
100 100 100
- se calculează percentilele pe baza relaţiei:
⎛ h⋅n ⎞ k
xPh = xPinfh + ⎜ − S Ph −1 ⎟ ⋅ , h = 1,99 ,
⎝ 100 ⎠ f Ph

unde: xPinfh – limita inferioară a intervalului în care se plasează


percentila x Ph ;
S Ph −1 – suma frecvenţelor care preced intervalul în care se plasează
percentila x Ph : S Ph −1 = f1 + ... + f Ph −1 ;
k – mărimea intervalului în care se plasează percentila x Ph ;
f Ph – frecvenţa intervalului în care se plasează percentila x Ph .

În cazul distribuţiilor simetrice, între medie şi cuantile se verifică


următoarele egalităţi:
x = Me ;
x − xQ1 = xQ3 − x ;

x − xD1 = xD9 − x , x − xD2 = xD8 − x ,..., x − xD4 = xD6 − x ;

x − xP1 = xP99 − x , x − xP2 = xP98 − x ,..., x − xP44 = xP46 − x .

2.1.3. Modul

Modul (dominanta) reprezintă valoarea caracteristicii care


are frecvenţa cea mai mare. Din această definiţie rezultă că modul
este un indicator specific seriilor de distribuţie.

Pentru o serie de distribuţie putem avea una din următoarele situaţii:


ƒ seria de date are o singură valoare modală – cazul în care există o
singură valoare care are frecvenţa cea mai mare, iar seria se va numi
unimodală (figura 2.3.a);

64
Indicatorii numerici ai seriilor de distribuție

ƒ seria de date are mai multe valori modale – există două sau mai multe
valori dominante, adică frecvenţa cea mai mare corespunde la două sau
mai multe variante din cadrul seriei. Seria se va numi multimodală
(figura 2.3.b);
ƒ seria de date nu conţine valori modale – cazul în care toate variantele
au aceeaşi frecvenţă de apariţie.

fi fi

xi xi
a) b)

Figura 2.3. Tipuri de serii de repartiţie: a) unimodală; b)


multimodală.

O serie de distribuţie poate avea una sau mai multe valori modale
absolute, cât şi valori modale relative (valori dominante pe anumite intervale de
valori) – figura 2.4. Numim mod relativ al seriei ((xifi), i = 1,n) valoarea xi pentru
care:
fi ≥ fi-1 şi fi ≥ fi+1 ,
egalitatea având loc numai într-un singur caz.

fi

xi

Mod relativ Mod absolut Mod relativ


Figura 2.4. Serie plurimodală (mod absolut şi mod relativ).

Dacă în ceea ce priveşte determinarea modului pentru seriile de


distribuţie după variante lucrurile sunt clare (conform definiţiei, modul este dat
de valoarea caracteristicii care are frecvenţa cea mai mare), pentru obţinerea în
cazul seriilor de distribuţie după intervale trebuie să luăm în calcul şi alte
elemente. Astfel, pentru seriile de intervale există mai multe posibilităţi de
determinare a modului:
65
Statistică

• pentru seriile de distribuţie cu intervale egale parcurgem etapele:


ƒ determinarea intervalului modal, respectiv intervalul cu frecvenţa cea
(
mai mare: I Mo = xMoinf
) sup
, xMo ;
ƒ determinarea modului.
Determinarea modului poate fi făcută în mai multe variante:
` Varianta 1. Valoarea modală se alege ca fiind centrul intervalului modal,
astfel:
inf
xMo + xMo
sup
Mo = ;
2
Deşi modul se obţine mai rapid astfel, rezultatul obţinut este
aproximativ, motiv pentru care această variantă este mai rar utilizată;
` Varianta 2. Dacă valorile intervalului modal sunt uniform repartizate, atunci
modul se determină pe baza relaţiei:
Δ1
Mo = xMo
inf
+k ,
Δ1 + Δ 2
unde: k – reprezintă mărimea intervalului modal;
Δ1 – reprezintă diferenţa dintre frecvenţa maximă şi frecvenţa
intervalului precedent: Δ1 = fMo – fMo-1;
Δ2 – reprezintă diferenţa dintre frecvenţa maximă şi frecvenţa
intervalului următor: Δ2 = fMo – fMo+1;
Această variantă este cea mai des utilizată dintre variantele de calcul
algebric (primele 3 prezentate);
` Varianta 3. În cazul distribuţiilor unimodale simetrice, cei trei indicatori ai
tendinţei centrale (media, mediana şi modul) coincid. În absenţa simetriei,
însă, aceste trei valori sunt distincte. Totuşi, dacă asimetria nu este mare,
cele trei puncte se găsesc într-un raport relativ constant. Distanţa dintre
mod şi media aritmetică este relativ mare, în timp ce mediana se
depărtează de medie cu a treia parte din distanţa care desparte media de
mod (în cazul în care asimetria este pronunţată, acest raport nu se mai
păstrează). Rezultă că, în cazul unei distribuţii uşor asimetrice, în care se
cunosc valorile a două din cele trei mărimi, cealaltă se poate determina cu o
oarecare aproximaţie. Desigur, determinarea modului pe această cale se
face numai atunci când nici o altă metodă nu se poate aplica. Relaţia care
există între medie, mediană şi mod este următoarea:

x − Me =
1
(x − Mo ) ,
3
iar relaţia pe baza căreia se determină modul este:
Mo = 3Me − 2 x ;
` Varianta 4. Constă în metoda grafică, respectiv utilizarea histogramei prin
dreptunghiuri. Se unesc vârfurile coloanei maxime cu punctele de incidenţă
ale acesteia cu coloanele adiacente şi din intersecţia segmentelor
respective, se coboară o perpendiculară pe abscisă; valoarea
corespunzătoare punctului de intersecţie al acestei perpendiculare cu
abscisa reprezintă nivelul modului.
• dacă seriile de distribuţie au intervale inegale, trebuie să parcurgem
următoarele etape:
( )
- se calculează mărimea fiecărui interval: I i = xiinf , xisup . Se va alege un
interval etalon pentru seria de date, având lungimea intervalului de
valori h;
66
Indicatorii numerici ai seriilor de distribuție

hi
- se calculează pentru fiecare interval factorul de ajustare: ki = ;
h
fi
- se determină seria frecvenţelor ajustate: ; f i* =
ki
- se determină modul prin diferite metode, precum în cazul seriei cu
intervale egale.

Exemplul 2.14.
Considerăm datele de la exemplul 2.2. Să se determine, pentru aceste
date, modul.
Rezolvare
Intervalul modal va fi IMo =[550, 650], iar modul:
350 − 150 200
Mo = 550 + 100 ⋅ = 550 + 100 ⋅ = 630 u.m..
( 350 − 150 ) + ( 350 − 300 ) 250
Aplicând varianta grafică se obţine figura 2.5.

fi
400

300

200

100

350 450 550 650 750 850 950 xi


Mo
Figura 2.5. Calculul grafic al modului.

Determinarea valorii antimodale (cu cea mai mică frecvenţă) se face în


acelaşi fel ca în cazul valorii modale. Modul satisface condiţiile 1, 3 şi 4 ale lui
Yule, şi mai puţin pe celelalte. Avantajul principal faţă de medie şi cuantile îl
constituie faptul că se determină rapid şi are o semnificaţie simplă.
Există în practică şi serii de distribuţii multimodale. În aceste situaţii se
determină mai multe valori modale, însă ele nu pot fi sintetizate pentru a se
obţine o singură valoare modală pentru întreaga colectivitate.

Proprietăţile modului
ƒ Valoarea modului este cuprinsă între varianta minimă şi varianta maximă a
seriei de date observate:
xmin < Mo < xmax ;
ƒ Dacă se măreşte sau se micşorează fiecare valoare individuală a
caracteristicii unei serii cu o constantă a, atunci şi valoarea modală se
măreşte sau se micşorează cu aceeaşi constantă a;
ƒ Dacă se multiplică sau se simplifică fiecare valoare individuală cu o
constantă k, atunci şi valoarea modală se multiplică de acelaşi număr de ori
k.

67
Statistică

Din combinarea ultimelor două proprietăţi rezultă relaţia dintre valoarea


modală a seriei iniţiale şi valoarea modală a seriei transformate:
Mo = k ⋅ Mo* ± a ,
unde Mo* reprezintă valoarea modală a seriei transformate.

Modul are aceleaşi utilizări ca şi mediana; este folosit mai mult decât
mediana în calculul unor indicatori ai asimetriei. Modul poate înlocui media
atunci când aceasta nu se poate calcula sau nu are sens a fi calculată, ca de
exemplu: numărul mediu la încălţăminte, talia medie în industria confecţiilor etc.
În aceste cazuri se stabilesc ca valori modale numărul la pantofi cel mai căutat
şi talia cea mai des solicitată. De asemenea modul este util când seria de date
este asimetrică.
***
Alegerea celui mai adecvat indicator al tendinţei centrale este
determinată atât de natura şi caracteristicile seriei de date, cât şi de scopul
urmărit prin analiză.
În alegerea dintre medie, mediană şi mod, pentru caracterizarea
tendinţei centrale, este necesar să se ţină seama de o serie de elemente, cum
ar fi:
ƒ în cazul caracteristicilor nominale nu putem preciza decât varianta cu
frecvenţa cea mai mare;
ƒ pentru seriile de date ale unor caracteristici ordinale se recomandă
determinarea medianei şi a modului. Dacă valorile sunt numerice, dintre
cei doi indicatori este preferată mediana, care este o măsură mai stabilă
spre deosebire de mod, care poate înregistra mai multe valori pentru o
serie de date;
ƒ media este singurul indicator care ţine seama de toate valorile din
cadrul seriei de date. Din acest motiv ea este preferată de cele mai
multe ori în analizele economice;
ƒ în cazul distribuţiilor cu o asimetrie pronunţată sau care prezintă valori
extreme, media este o măsură nepotrivită, fiind recomandată folosirea
medianei, modului sau a altei măsuri rezistente la prezenţa valorilor
extreme;
ƒ pentru seriile de date cu caracter ciclic, mediana şi modul sunt măsuri
semnificative, spre deosebire de medie, care, în astfel de cazuri, are o
relevanţă foarte redusă.
Pentru analiza statistică sunt importante şi următoarele constatări:
ƒ distribuţie unidimensională este simetrică dacă media, mediana şi
modul sunt egale, precum şi dacă este îndeplinită condiţia repartizării
frecvenţelor, două câte două egale de o parte şi de alta a frecvenţei
maxime;
ƒ pentru o serie simetrică, gradul de semnificaţie a mediei este egal cu cel
al medianei şi al modului;
ƒ în general, dacă media este diferită, ca valoare, de mediană, atunci
mediana se va plasa între nivelul mediei şi cel al modului;
ƒ dacă mediile mai multor distribuţii simetrice sunt egale aceasta nu
înseamnă că, în mod obligatoriu, aceste medii au şi aceeaşi
semnificaţie.

68
Indicatorii numerici ai seriilor de distribuție

Test de autoevaluare 1
1.Ce reprezintă media?

2. Care dintre relaţiile de mai jos sunt utilizate pentru calculul simplificat al
mediei aritmetice ponderate?
a) ∑ (x i − x a ) = 0 ;
⎛ xi ⎞
∑⎜ ⎟f i
⎝ k ⎠ k=x
b)
∑ fi
a

c) x min < x a < x max

d)
∑ (x i − a )f i + a = x
∑ fi
a

e) ∑ (x i − x a )f i = 0 ;
3. Se cunosc următoarele date referitoare la activitatea unei firme în luna mai
2013:
Productivitatea muncii 100- 120- 140- 160- 180- 200-
(u.m.) 120 140 160 180 200 220
Ponderea muncitorilor 5 10 20 30 20 15
(%)
Determinaţi productivitatea medie ( x ) şi cea mediană (Me) la nivelul firmei în
luna mai 2013 şi alegeţi varianta corectă de răspuns:
a) x − Me = 1 u.m.;
b) x = Me ;
c) Me − x = 10 u.m.;
d) Me − x = 1 u.m.;
e) x − Me = 10 u.m.

4. Între decila a noua şi xmax se află:


a) 100% din termenii seriei;
b) 50% din termenii seriei;
c) 90% din termenii seriei;
d) 25% din termenii seriei;
e) 10% din termenii seriei

5. Mediana reprezintă:
a) un indicator de poziţie care împarte seria de variaţie în două părţi de
efective egale cu n/2;
b) tipul de medie cel mai des întâlnit în practică;
c) indicatorul de poziţie care desemnează valoarea caracteristicii cu cea mai
mare frecvenţă;
d) un indicator al variaţiei;
e) un indicator al tendinţei centrale.

6. Distribuţia angajaţilor unei firme după numărul zilelor nelucrate într-o lună
este:
Număr zile nelucrate 0 1 2 3 4 5
Număr angajaţi 20 65 70 30 10 5
Valoarea mediană a seriei este:
a) 1zi; b) 5zile; c) 70 angajaţi; d) 3 zile; e) 2 zile.
69
Statistică

7. Distribuţia angajaţilor unei firme după numărul zilelor nelucrate într-o lună
este:
Număr zile nelucrate 0 1 2 3 4 5
Număr angajaţi 20 65 70 30 10 5
Valoarea modală a seriei este:
a) 1zi; b) 5zile; c) 70 angajaţi; d) 3 zile; e) 2 zile.

8. Se cunosc următoarele date:


Centrele intervalelor de variaţie 30 50 70 90 110 130
Frecvenţele relative (%) 10 15 20 40 10 5
Determinaţi mediana şi dominanta seriei şi alegeţi rezultatul corect:
a) Do – Me = 5,5;
b) Do = Me;
c) Do – Me = 10;
d) Me – Do = 10;
e) Me – Do = 5,5.

9. Dominanta reprezintă:
a) un indicator de poziţie care împarte seria de variaţie în două părţi de
efective egale cu n/2;
b) tipul de medie cel mai des întâlnit în practică;
c) indicatorul de poziţie care desemnează valoarea caracteristicii cu cea mai
mare frecvenţă;
d) un indicator al variaţiei;
e) un indicator al tendinţei centrale.

10. Se cunosc următoarele date:


Productivitatea muncii
100-300 300-500 500-700 700-900 900-1100
(mii lei)
Numărul de muncitori 5 18 24 20 9
Să se calculeze media, mediana şi dominanta pentru datele din tabelul anterior
şi să se interpreteze rezultatele obținute.

Răspunsurile la toate întrebările testului de autoevaluare 1 se


regăsesc în Unitatea de învățare 2, paginile 45– 68. Pentru aplicațiile
practice și întrebările tip grilă, rezolvarea se regăsește și la sfârșitul
manualului.

70
Indicatorii numerici ai seriilor de distribuție

2.2. Indicatorii variaţiei

Studiul variaţiei fenomenelor economico-sociale ocupă un loc foarte


important în cadrul analizei statistice. Indicatorii tendinţei centrale nu dau nici
o indicaţie asupra împrăştierii, respectiv a modului în care termenii seriei se
abat între ei sau de la medie (poziţia centrului de grupare). Centrul de grupare
poate fi acelaşi pentru două sau mai multe serii de date, dar gradul de
împrăştiere să fie diferit în jurul centrului de grupare. Spre exemplu, dacă am
avea trei serii de repartiţie simetrice X, Y şi Z (figura 2.6.), ele pot avea
aceeaşi medie, însă repartiţiile lor sunt diferite. Astfel, variabila X are o
împrăştiere mai mică decât variabila Y, iar variabila Y are o împrăştiere mai
mică decât variabila Z.

X
Y
Z

Figura 2.6. Variabile cu medie identică, dar împrăştiere diferită.

Media, prin modul său de determinare, ascunde structura colectivităţii


pe grupe şi nu permite cunoaşterea abaterilor termenilor seriei (datorate
cauzelor întâmplătoare) faţă de media lor. Nu este suficient să calculăm valorile
tipice (indicatorii tendinţei centrale) ale unei serii, ci este necesar să verificăm şi
gradul lor de reprezentativitate. Din cele prezentate rezultă necesitatea studierii
variaţiei fenomenelor social-economice.
Prin studiul variaţiei şi calculul indicatorilor de variaţie se rezolvă
probleme precum:
ƒ verificarea reprezentativităţii mediei ca valoare tipică a unei serii de
repartiţie;
ƒ verificarea gradului de omogenitate a seriei;
ƒ compararea în timp şi spaţiu a mai multor serii de repartiţie, după
caracteristici independente sau interdependente;
ƒ verificarea sistematizării informaţiilor prin gruparea statistică;
ƒ caracterizarea gradului şi a formei de variaţie a unei variabile statistice;
ƒ cunoaşterea gradului de influenţă a cauzelor după care s-a făcut
gruparea unităţilor statistice înregistrate. Indicatorii de variaţie permit
separarea acţiunii cauzelor esenţiale de cea a cauzelor întâmplătoare şi
dau posibilitatea identificării modului în care acţionează factorii esenţiali
de la o grupă la alta.
Indicatorii variaţiei utilizaţi în analizele statistice pot fi grupaţi după mai
multe criterii:
` după numărul variantelor luate în calcul (sau după gradul lor de
sinteză) avem indicatori simpli şi indicatori sintetici;
` după modul de sistematizare a datelor primare, există indicatori ai
variaţiei calculaţi pentru serii de distribuţie unidimensionale şi
indicatori ai variaţiei calculaţi pentru serii multidimensionale;
` după modul de calcul şi exprimare, există indicatori ai variaţiei
calculaţi ca mărimi absolute şi ca mărimi relative.
71
Statistică

Indiferent de natura lor, indicatorii variaţiei oferă informaţii necesare nu


numai pentru cunoaşterea variabilităţii seriilor statistice analizate, ci şi pentru
aprecierea „calităţii” (sub aspectul reprezentativităţii, al încărcăturii
informaţionale) valorilor tipice utilizate în procesul decizional.
Pentru caracterizarea variaţiei există o mare diversitate de indicatori,
fiecare dintre aceştia prezentând o semnificaţie şi o metodologie de calcul
specifice.

2.2.1. Indicatorii simpli ai variaţiei

Indicatorii simpli sunt folosiţi pentru caracterizarea gradului de


împrăştiere a unităţilor colectivităţii cercetate faţă de medie sau faţă de o
anumită valoare din serie. Se pot exprima atât în unităţi absolute, aceleaşi ca şi
cele ale caracteristicii studiate, cât şi în mărimi relative, calculate în raport cu
media. Aceşti indicatori sunt amplitudinea variaţiei şi abaterile individuale ale
fiecărui termen de la media lor.
` Amplitudinea variaţiei (A)
Amplitudinea variaţiei oferă posibilitatea delimitării câmpului de variaţie
a unui fenomen şi se prezintă sub două forme:
ƒ amplitudinea absolută (Aa ) – se obţine ca diferenţă între valoarea maximă
(Xmax) şi valoarea minimă (Xmin) a seriei, adică:
Aa = Xmax – Xmin .
În cazul unor serii de distribuţie pe intervale, amplitudinea se determină
ca diferenţă între limita superioară a ultimului interval şi limita inferioară a
primului interval;
ƒ amplitudinea relativă (Ar ) – se calculează ca raport între amplitudinea
absolută şi media aritmetică, exprimându-se procentual, astfel:
Aa X − X min
Ar = ⋅ 100 = max ⋅ 100 .
x x
Amplitudinea relativă permite aprecierea şi compararea gradului de
variaţie pentru două colectivităţi statistice în care caracteristica de grupare se
exprimă în unităţi de măsură diferite.
Amplitudinea, fiind calculată numai pe baza valori extreme (Xmax şi Xmin )
ale seriei, nu oferă posibilitatea cunoaşterii structurii interioare a colectivităţii
(figura 2.7.). În plus, în cazul în care valorile extreme sunt neobişnuite,
rezultatul la care ajungem conduce la concluzii greşite. Practic, acest indicator
este folosit în prelucrarea informaţiilor – la alegerea numărului de grupe şi a
mărimii intervalului de grupare (vezi unitatea de învățare 1).

Xmin Xmax Xmin Xmax Xmin Xmax


Figura 2.7. Exemple de serii cu aceeaşi amplitudine, dar cu o
structură internă diferită.

` Abaterile individuale (di )


Abaterile individuale permit cunoaşterea structurii variaţiei la nivelul
fiecărei unităţi statistice. Se prezintă sub două forme:
72
Indicatorii numerici ai seriilor de distribuție

ƒ abaterile individuale absolute (dai ) – se calculează ca diferenţă între


fiecare valoare înregistrată şi media aritmetică a seriei:
⎧ x1 − x
⎪x − x

dai = xi − x → ⎨ 2
⎪...
⎪⎩ xn − x

ƒ abaterile individuale relative (dri ) – se calculează ca raport între abaterile


individuale absolute şi media aritmetică a caracteristicii studiate,
exprimându-se procentual, astfel:
dai x −x
dri = ⋅ 100 = i ⋅ 100 .
x x
Abaterile individuale pot fi negative sau pozitive în funcţie de mărimea
fiecărui termen faţă de media lor. În analizele statistice se urmăresc în mod
deosebit abaterea individuală minimă şi abaterea individuală maximă, calculate
în cifre absolute şi relative astfel:
damax −
damax − = xmin − x sau drmax − = ⋅ 100 .
x
damax +
damax + = xmax − x sau drmax + = ⋅ 100 .
x
În cazul unei distribuţii simetrice damax + = damax − , iar în interiorul seriei
la abateri egale dar de semne contrare, le corespund frecvenţe egale de
apariţie. Aceasta conduce la compensarea pe total (la nivelul întregului
ansamblu) a abaterilor individuale.
Pentru determinarea abaterilor individuale în locul mediei se folosesc,
mai rar, şi ceilalţi indicatori ai tendinţei centrale (mediana, modul).

Exemplul 2.15.
Considerăm datele de la exemplul 2.2. Să se determine, pentru aceste
date, indicatorii simpli ai variaţiei.
Rezolvare
a) Amplitudinea variaţiei:
Amplitudinea absolută:
Aa = Xmax – Xmin = 950 – 350 = 600 u.m.
Amplitudinea relativă:
Aa 600
Ar = ⋅ 100 = ⋅ 100 = 93 ,75%
x 640
Câmpul de variaţie al salariului muncitorilor este de 600 u.m., aceasta
reprezentând 93,75% din salariul mediu al muncitorilor.
b) Abaterile individuale:
Abaterile individuale absolute:

73
Statistică

⎧ x1 − x = 400 − 640 = −240



⎪ x2 − x = 500 − 640 = −140
⎪⎪ x3 − x = 600 − 640 = −40
dai = xi − x → ⎨
⎪ x4 − x = 700 − 640 = 60
⎪ x5 − x = 800 − 640 = 160

⎪⎩ x6 − x = 900 − 640 = 260

Abaterile individuale relative:


dai x −x
dri = ⋅ 100 = i ⋅ 100 ⇒
x x
da1 − 240
dr1 = ⋅ 100 = ⋅ 100 = −37 ,5% ;
x 640
da2 − 140
dr2 = ⋅ 100 = ⋅ 100 = −21,87% ;
x 640
dr3 = - 6,25%;
dr4 = 9,37%;
dr5 = 25%;
dr6 = 40,62%.
Remarcăm situaţia muncitorilor cu salarii mici (sub 450 u.m.) şi a celor
cu salarii mari (peste 850 u.m.) care înregistrează cele mai mari abateri de la
medie.

2.2.2. Indicatorii sintetici ai variaţiei

Indicatorii simpli ai variaţiei nu pot exprima şi caracteriza întreaga


variaţie a caracteristicii studiate, fiind necesară calcularea indicatorilor
sintetici. Aceşti indicatori caracterizează gradul de variaţie, luând în
considerare toţi termenii seriei. Indicatorii sintetici sunt: abaterea medie liniară,
dispersia, abaterea standard şi coeficientul de variaţie.

` Abaterea medie liniară ( d )


Abaterea medie liniară se calculează ca o medie aritmetică simplă sau
ponderată a abaterilor absolute ale termenilor seriei de la media lor, luate sub
formă de modul, astfel:

ƒ d=
∑ xi − x - pentru o serie simplă;
n

ƒ d=
∑ i − x fi - pentru o serie de frecvenţe;
x
∑ fi
∑ xi − x pi
ƒ d = - pentru o serie de frecvenţe relative - procentual;
100
ƒ d =∑ xi − x ⋅ p i - pentru o serie de frecvenţe relative - ∑ p i = 1 .

74
Indicatorii numerici ai seriilor de distribuție

Abaterea medie liniară arată, în medie, cu cât se abat termenii seriei de


la media lor. Prezintă dezavantajul că nu ţine seama de semnul algebric
(abaterea fiind calculată în modul), acordând aceeaşi importanţă atât abaterilor
pozitive cât şi abaterilor negative. Abaterea medie liniară poate fi un indicator
concludent numai dacă seria prezintă un grad mare de omogenitate. Aceste
neajunsuri se înlătură prin calculul dispersiei.
Abaterea medie liniară se calculează şi se analizează nu numai pentru
seriile de distribuţie, ci şi pentru seriile cronologice sau teritoriale.
Se foloseşte la determinarea intervalului mediu de variaţie:
⎧⎪ x + d
x±d ⇒⎨
⎪⎩ x − d

Se poate face, însă, o distincţie între abaterile pozitive şi cele negative,


astfel:

d1 = ∑ (xi − x ) - abateri pozitive şi d2 =


∑ (x j − x ) - abateri negative,
n1 n2
unde: n1 – numărul termenilor mai mari decât media;
n2 – numărul termenilor mai mici decât media;
n = n1 + n2 ;
xi - termeni mai mari decât media; i=1,2,…,n1;
xj - termeni mai mici decât media; j=1,2,…,n2.
Abaterea medie liniară generală va fi:

d=
n1d1 ⎛ n2 d 2 ⎞
+ ⎜⎜ − ⎟=
∑ (xi − x ) − ∑ (x j − x ) .
n ⎝ n ⎟⎠ n

Acest indicator are o valoare informaţională importantă, deoarece


nivelul său avertizează asupra tendinţei evolutive a fenomenului supus analizei.
Această metodă poate fi folosită pentru analiza variabilităţii unor indicatori,
precum: producţia fabricată, volumul vânzărilor, volumul stocurilor etc.

Exemplul 2.16.
Considerăm datele de la exemplul 2.2. Să se determine abaterea medie
liniară. Calculele intermediare necesare determinării abaterii medii liniare sunt
prezentate în tabelul 2.9.

Tabelul 2.9.
Salariul lunar Numărul de
realizat (u.m.) muncitori (fi) xi − x xi − x f i
350 - 450 50 240 12000
450 – 550 150 140 21000
550 – 650 350 40 14000
650 – 750 300 60 18000
750 – 850 100 160 16000
850 - 950 50 260 13000
900 94000
Total 1000

Rezolvare

d=
∑ xi − x fi
=
94000
= 94
∑ fi 1000

75
Statistică

Determinarea intervalului mediu de variaţie:


⎧⎪ x + d = 640 + 94 = 734
x±d ⇒⎨
⎪⎩ x − d = 640 − 94 = 546

Putem aprecia că, în medie, salariile acestor muncitori se plasează pe


intervalul (546, 734) u.m. De asemenea, pornind de la acest interval, putem
determina un interval mediu al fondului de salarii, astfel încât conducerea
acestei societăţi să ştie la ce nivel al cheltuielilor cu salariile să se aştepte.

` Dispersia ( σ 2 )
Cunoscută şi sub denumirea de varianţă, dispersia se calculează ca o
medie aritmetică simplă sau ponderată a pătratelor abaterilor termenilor seriei
de la tendinţa lor centrală. Aceasta înseamnă că în calculul dispersiei poate fi
luată în considerare media sau alt indicator al tendinţei centrale (mediana,
modul).
Relaţiile de calcul ale dispersiei sunt următoarele:

ƒ σ2 = ∑ i
(x − x )2 - pentru o serie simplă;
n

ƒ σ2 = ∑ i
(x − x )2 fi - pentru o serie de frecvenţe;
∑ fi
∑ ( xi − x )
2
pi
ƒ σ2 = - pentru o serie de frecvenţe relative – procentual.
100
Dispersia este un indicator abstract, nu are formă concretă de
exprimare şi arată modul în care valorile caracteristicii gravitează în jurul
mediei. Măsoară variaţia totală a caracteristicii studiate datorită cauzelor
esenţiale şi întâmplătoare. Este un indicator util în verificări de ipoteze
statistice, în calculul altor indicatori statistici etc.
Dispersia, ca şi media, calculată pe baza seriilor de repartiţie după
intervale, este mai puţin exactă decât în cazul folosirii datelor individuale
negrupate, deoarece se calculează pe baza centrelor intervalelor, în baza
ipotezei că frecvenţele sunt repartizate uniform în cadrul fiecărui interval. În
practică, însă, această ipoteză este verificată foarte rar, motiv pentru care
valoarea dispersiei în această situaţie este afectată de erori.
Pentru a înlătura această eroare sistematică, W.F.Sheppard a propus
ca valoarea calculată a dispersiei să fie diminuată cu a douăsprezecea parte
k2
din pătratul mărimii intervalului de grupare, astfel: σ c = σ −
2 2
,
12
unde σ c2 - reprezintă valoarea corectată a dispersiei;
k - reprezintă mărimea intervalului de grupare.
Corecţia lui W.F.Sheppard prezintă, însă, o serie de limite:
ƒ este utilizabilă numai în cazul seriilor statistice unimodale;
ƒ intervalele de grupare trebuie să fie egale;
ƒ frecvenţele intervalelor de grupare trebuie să tindă către zero în ambele
direcţii.

Proprietăţile dispersiei
ƒ Dispersia este egală cu diferenţa dintre media pătratelor şi pătratul mediei:

σ 2 = x2 − x 2 .
Acest mod de calcul este recomandat mai ales atunci când media este
un număr zecimal.
76
Indicatorii numerici ai seriilor de distribuție

ƒ Dispersia unei caracteristici X, pentru care x1 = x2 = … = xn este σ 2 ( x ) = 0 ,


deoarece x = xi ;
ƒ Dispersia calculată din abaterile variantelor xi de la o constantă a, este mai
mare decât dispersia reală cu pătratul diferenţei dintre medie şi constanta a,
astfel:

σ2 = ∑
(xi − a )2 fi − (x − a )2 .
∑ fi
ƒ Dispersia calculată din abaterile variantelor xi de la media lor, micşorate în
prealabil prin împărţire la o constantă k, este mai mică decât dispersia reală
de k2 ori, astfel:
2
⎛ xi − x ⎞
∑⎜ ⎟ fi
σ2 = ⎝ k ⎠ ⋅ k2 .
∑ fi
Din combinarea ultimelor două proprietăţi rezultă relaţia de calcul
simplificat a dispersiei:
2
⎛ x −a⎞
∑ ⎜ i k ⎟ fi
σ2 = ⎝ ⎠ ⋅ k 2 − ( x − a )2 .
∑ fi
Această nouă relaţie de calcul a dispersiei pare mai complicată, dar, la
fel ca în cazul mediei aritmetice (cu a – centrul intervalului cu frecvenţa cea mai
mare şi k – mărimea intervalului de grupare), are loc o reducere a timpului şi
calculelor necesare obţinerii dispersiei.
ƒ Dacă dintr-o serie X (x1 , x2 , … xn ) construim seria X * prin micşorarea de k
ori a frecvenţelor, atunci dispersia seriei X * va fi egală cu cea a seriei X:
σ X2 * = σ 2 .

ƒ În cazul în care colectivitatea generală X (x1 , x2 , … xr , xr+1 … xn ) este


⎛ r
⎞ ⎛ n

împărţită în două clase omogene de mărime fa ⎜ f a = ∑ f i ⎟ şi fb ⎜ fb = ∑ fi ⎟ ,
⎝ i =1 ⎠ ⎝ i = r +1 ⎠

dispersia generală este determinată în funcţie de media dispersiilor grupelor


σ a2 şi σ b2 şi de dispersia mediilor parţiale xa şi xb de la media generală x .
Prin urmare, se determină mediile parţiale xa şi xb , media generală
f x + f b xb
x= a a şi dispersiile parţiale σ a2 şi σ b2 . Dispersia generală va fi:
f a + fb

f aσ a2 + f bσ b2 f a ( xa − x ) + f b (xb − x )
2 2
σ2 = + .
f a + fb f a + fb

unde: σ 2 - sintetizează împrăştierea tuturor valorilor individuale din


colectivitatea generală cauzată atât de influenţa factorilor aleatori, care
acţionează în interiorul grupelor, cât şi de influenţa factorului esenţial în funcţie
de care s-a structurat colectivitatea generală.
ƒ Pentru colectivităţi de volum redus, dispersia se determină după relaţia:

σ2 = ∑
(xi − x )2 .
n −1

77
Statistică

Dispersia variabilei alternative


Se foloseşte relaţia de calcul obişnuit a dispersiei, introducându-se
elementele specifice variabilei alternative. Vom folosi notaţiile şi convenţiile
utilizate la media aritmetică pentru variabila alternativă. De asemenea, luăm în
considerare şi rezultatul obţinut pentru media aritmetică, x = p . Dispersia va fi:

σ2 = ∑
(xi − x )2 fi = (x1 − x )2 f1 + (x2 − x )2 f 2 = (x1 − x )2 f1 + (x2 − x )2 f 2 =
∑ fi f1 + f 2 f1 + f 2 f1 + f 2

= (1 − p ) p + (0 − p ) q = pq ( p + q )
2 2 2

σ 2 = pq .

Exemplul 2.17.
Considerând datele de la exemplul 2.2, să se determine dispersia
utilizând atât relaţia de calcul obişnuit, cât şi relaţia de calcul simplificat. Datele
necesare calculelor sunt:

Tabelul 2.10.
xi − a ⎛ xi − a ⎞
2
⎛ xi − a ⎞
2

xi fi xi − x (xi − x )
2
⋅ fi ⎜ ⎟ ⎜ ⎟ ⋅ fi
k ⎝ k ⎠ ⎝ k ⎠

400 50 -240 2880000 -2 4 200


500 150 -140 2940000 -1 1 150
600 350 -40 560000 0 0 0
700 300 60 1080000 1 1 300
800 100 160 2560000 2 4 400
900 50 260 3380000 3 9 450
- 1000 - 13400000 - - 1500

Pentru calculul obişnuit, avem:

σ2 = ∑
(xi − x )2 fi =
13400000
= 13400
∑ fi 1000
Pe baza calculului simplificat, avem:
2
⎛x −a⎞
∑ ⎜ i k ⎟ fi
σ2 = ⎝ ⎠ ⋅ k 2 − (x − a ) =
2 1500
⋅ 10000 − (640 − 600 ) =
2

∑ fi 1000
= 15000 – 1600 = 13400.
Se observă acelaşi nivel al dispersiei pentru ambele procedee (calcul
obişnuit şi calcul simplificat).
Dacă analizăm salariul muncitorilor din această unitate prin prisma
nivelului de trai şi considerăm că un salariu sub 550 u.m. este necorespunzător
din acest punct de vedere, iar unul peste 550 u.m. corespunzător, putem
regrupa datele din exemplul 2.2. ca în tabelul 2.4. În acest caz, dispersia se
determină ţinând cont de caracteristicile variabilei alternative a lui Bernoulli.
Astfel, dispersia va fi:
σ 2 = pq = 0 ,2 ⋅ 0 ,8 = 0 ,16 .
78
Indicatorii numerici ai seriilor de distribuție

` Abaterea standard (σ)


Denumită şi abatere medie pătratică, abaterea standard se calculează
ca o medie pătratică simplă sau ponderată a abaterilor valorilor seriei faţă de
media lor, respectiv rădăcina pătrată din dispersie:
∑ (xi − x )
2
ƒ σ = σ2 = - pentru serii simple;
n
∑ (xi − x )
2
fi
ƒ σ = σ2 = - pentru serii de frecvenţe.
∑ fi
Abaterea standard este indicatorul cel mai frecvent folosit pentru analiza
variaţiei unei serii statistice. O serie de date prezintă o omogenitate mare dacă
σ este mic.
La fel ca şi abaterea medie liniară, abaterea standard poate fi folosită
⎧x + σ
pentru determinarea intervalului mediu de variaţie: x ± σ ⇒ ⎨
⎩x − σ
În analiza variaţiei fenomenelor economico-sociale, pentru aceeaşi serie
de date abaterea standard este mai mare decât abaterea medie liniară ( σ > d ),
rezultând un interval mediu de variaţie mai mare pentru abaterea standard,
motiv pentru care este preferat acest indicator.
Dezavantajul abaterii standard constă în faptul că se exprimă în aceeaşi
unitate de măsură ca şi variantele caracteristicii. Ea nu permite compararea
variaţiei a două colectivităţi în care caracteristica se exprimă în unităţi de
măsură diferite. De asemenea, oferă o imagine deformată asupra mărimii
variaţiei atunci când se compară două colectivităţi de acelaşi fel în care diferă
ordinul de mărime al caracteristicii studiate.

Abaterea standard a variabilei alternative


Abaterea standard pentru variabila alternativă este: σ = σ 2 = pq .
Frecvenţele relative p şi q sunt mărimi complementare şi, ca atare,
atunci când p creşte q scade cu aceeaşi valoare cu care p a crescut. Datorită
acestui lucru, dispersia şi abaterea standard capătă o serie de însuşiri
importante şi deosebit de utile pentru folosirea acestor indicatori în analiza
statistică, mai ales în practica sondajelor sociologice şi în studiul şi controlul
calităţii produselor.
Pornind de la constatarea anterioară (p şi q sunt mărimi
complementare), precum şi de la faptul că atât dispersia, cât şi abaterea
standard se calculează doar cu ajutorul acestor frecvenţe, se pot foarte uşor
reprezenta grafic ambii indicatori ai variaţiei pentru variabila alternativă (figura
2.8.).
Abaterea standard
Dispersia
0,5
0,4
0,3
0,2
0,1

0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 p

Figura 2.8. Dispersia şi abaterea standard a caracteristicii


alternative.
79
Statistică

Exemplul 2.18.
Pentru datele de la exemplul 2.2. abaterea standard se determină foarte
simplu:

σ = σ 2 = 13400 = 115,76 .
Intervalul mediu calculat pe baza abaterii standard este:
⎧ x + σ = 640 + 115,76 = 755 ,76
x ±σ ⇒ ⎨
⎩ x − σ = 640 − 115,76 = 524,24
Se observă că intervalul obţinut prin utilizarea abaterii standard (524,24;
755,76) este mai larg decât intervalul rezultat în urma utilizării abaterii medii
liniare (546, 734).
Pentru cazul variabilei alternative considerate la exemplul anterior,
abaterea standard va fi:

σ = σ 2 = pq = 0 ,16 = 0 ,4 .

` Coeficientul de variaţie (Cv)


Deoarece atât media, cât şi abaterea standard sunt indicatori exprimaţi
în unităţi de măsură concrete, ei nu pot fi folosiţi pentru compararea a două
serii de date exprimate în unităţi de măsură diferite. Spre exemplu, nu putem
compara mediile şi abaterile standard calculate pentru două serii referitoare la
vânzarea unor produse pe o piaţă, cu valori exprimate fizic, dacă aceste
produse se exprimă în unităţi de măsură diferite. Pentru înlăturarea acestui
inconvenient se calculează parametrul adimensional denumit coeficient de
variaţie.
Coeficientul de variaţie, propus de Pearson, se calculează ca raport
între abaterea standard şi nivelul mediu, adică:
σ
Cv = ⋅ 100 .
x
Coeficientul de variaţie arată câte unităţi din abaterea standard revin la
100 unităţi de medie. Coeficientul de variaţie ia valori între 0 - 100%. Dacă Cv =
0, înseamnă că avem de-a face cu o lipsă de variaţie, toate valorile
caracteristicii fiind egale între ele şi, respectiv, egale cu media. Dacă Cv → 0
înseamnă că variaţia caracteristicii este mică, colectivitatea cercetată este
omogenă, media este reprezentativă, iar gruparea este bine executată. În
general, se admite că seria prezintă un grad de omogenitate ridicat dacă Cv <
35%, iar dacă Cv > 70-75%, se afirmă că variaţia este foarte mare, media nu
este semnificativă şi ascunde o structură eterogenă a colectivităţii care necesită
repetarea operaţiei de grupare cu respectarea strictă a principiilor teoretice
care condiţionează reuşita operaţiei de omogenizare a grupelor. De cele mai
multe ori, în asemenea cazuri este necesară împărţirea seriei iniţiale în serii
componente pentru a spori gradul de omogenitate a datelor.
Acest indicator urmăreşte, în principal, următoarele:
- verificarea reprezentativităţii mediei variabilei analizate;
- compararea omogenităţii seriilor de date. Astfel, ierarhia coeficienţilor
de variaţie ai seriilor de date defineşte ordinea acestora după gradul
de omogenitate.

80
Indicatorii numerici ai seriilor de distribuție

Exemplul 2.19.
Pentru datele de la exemplul 2.2. coeficientul de variaţie se determină
imediat:
σ 115,76
Cv = ⋅ 100 = ⋅ 100 = 18 ,09%
x 640 .

Cum Cv < 35%, rezultă că seria analizată prezintă un grad de


omogenitate ridicat, iar indicatorii tendinţei centrale sunt reprezentativi pentru
această serie.
Utilizarea coeficientului de variaţie se face, însă, cu multă precauţie,
întrucât valoarea lui este determinată nu numai de nivelul abaterii standard, ci
şi de nivelul mediei. Prezentăm, în acest sens, graficul a două distribuţii X1 şi X2
(figura 2.9.), în care a doua distribuţie este obţinută din prima prin translarea
termenilor acesteia, astfel încât media celei de-a doua să fie x2 = 2 x1 . Datorită
translării, abaterile standard rămân egale: σ 1 = σ 2 .

fi
X1 X2

x1 x2 = 2 x1 xi

Figura 2.9. Variabile cu medii diferite, dar împrăştiere identică.

Coeficienţii de variaţie, pentru cele două serii, sunt:


σ1
Cv1 = ⋅ 100 ,
x1

σ2 σ1 Cv1
Cv2 = ⋅ 100 = ⋅ 100 = .
x2 2 x1 2

Deci, la grade identice de dispersare ( σ 1 = σ 2 ) corespund valori diferite


ale coeficienţilor de variaţie, primul coeficient fiind de două ori mai mare decât
al doilea, deoarece media pentru a doua serie este de două ori mai mare decât
prima medie.
În statistică se consideră că prin valori mici ale coeficientului de variaţie
se asigură validarea reprezentativităţii mediei. Pe baza observaţiei de mai sus
se arată caracterul relativ al acestei afirmaţii. Pentru o mai bună înţelegere,
considerăm relevant exemplul următor.

Exemplul 2.20.
Producţia realizată de 100 de firme din oraşul Craiova în luna ianuarie
2013 este redată în tabelul 2.11.

81
Statistică

Tabelul 2.11.
2
⎛ xi − a ⎞
Producția Numărul de xi − a xi − a 2 ⎜ ⎟ ⋅ fi
⋅ fi ⎛ xi − a ⎞ ⎜ k ⎟
realizată (mil. firme (fi) xi ⎜ ⎟ ⎝ ⎠
k k ⎜ k ⎟
⎝ ⎠
lei)
5 - 15 5 10 -2 -10 4 20
15 – 25 15 20 -1 -15 1 15
25 – 35 35 30 0 0 0 0
35 – 45 30 40 1 30 1 30
45 – 55 10 50 2 20 4 40
55 - 65 5 60 3 15 9 45
Total 100 - - 40 - 150
a = 30; k = 10.
xi − a
∑ k
⋅ fi
40
x1 = ⋅k + a = ⋅ 10 + 30 = 34 milioane lei
∑ fi 100
2
⎛ x −a⎞
∑ ⎜ i k ⎟ fi
σ 12 = ⎝ ⎠ ⋅ k 2 − (x − a ) = ⋅ 100 − (34 − 30 ) = 134
2 150 2

∑ fi 100

σ1 = 11,57 milioane lei


σ1 11,57
Cv1 = ⋅ 100 = ⋅ 100 = 34 ,02%
x1 34
În tabelul 2.12. avem tot producţia realizată de cele 100 de firme din
Craiova, însă din luna ianuarie 2010.

Tabelul 2.12.
Producţia realizată Numărul de xi xi − a ⎛ xi − a ⎞
2
⋅ fi ⎜ ⎟ ⋅ fi
(milioane lei) firme (fi) k ⎜ k ⎟
⎝ ⎠
95 - 105 5 100 -10 20
105 – 115 15 110 -15 15
115 – 125 35 120 0 0
125 – 135 30 130 30 30
135 – 145 10 140 20 40
145 - 155 5 150 15 45
Total 100 - 40 150
a = 120; k = 10.
xi − a
∑ k
⋅ fi
40
x2 = ⋅k + a = ⋅ 10 + 120 = 124 milioane lei
∑ fi 100
2
⎛ x −a⎞
∑ ⎜ i k ⎟ fi
σ 22 = ⎝ ⎠ ⋅ k 2 − (x − a ) = ⋅ 100 − (124 − 120 ) = 134
2 150 2

∑ fi 100

82
Indicatorii numerici ai seriilor de distribuție

σ2 = 11,57 milioane lei


σ2 11,57
Cv 2 = ⋅ 100 = ⋅ 100 = 9 ,33%
x2 124
Observăm că avem aceeaşi dispersie şi, implicit, aceeaşi abatere
standard pentru ambele serii. În plus, creşterea cu 90 milioane a fiecărui
interval conduce la o creştere a mediei x2 cu 90 milioane faţă de media 1.
Remarca esenţială este legată de faptul că, deşi avem aceeaşi
repartizare a celor 100 de firme, obţinem un coeficient de variaţie mare pentru
prima serie şi unul rezonabil pentru a doua.

2.2.3. Abaterile intercuantilice

O altă categorie de indicatori ai variaţiei o reprezintă abaterile


intercuantilice. Aceste abateri pot fi definite pentru variabile cantitative sau
ordinale.
Într-o serie perfect simetrică, cuantilele se distribuie în mod simetric în
ambele sensuri faţă de valoarea tendinţei centrale a seriei, calculată ca valoare
mediană. Calculând abaterile dintre valorile mediilor de poziţie şi valoarea
mediană se poate interpreta tendinţa de distribuţie a frecvenţelor de repartiţie
ale variantelor caracteristicii.
Indicatorii de variaţie intercuantilică se calculează în mărimi absolute şi
în mărimi relative. Indicatorii intercuantilici cel mai frecvent utilizaţi sunt:
abaterea intercuartilică, coeficientul de variaţie intercuartilică, abaterea
interdecilică, coeficientul de variaţie interdecilică.

` Abaterea intercuartilică (Qc )


În seriile simetrice abaterea dintre cuartila inferioară şi mediană este
egală cu abaterea dintre cuartila superioară şi mediană, iar în interiorul lor se
găsesc 50% din numărul cazurilor înregistrate. Ţinând seama de ordinea de
creştere a valorilor celor trei cuartile pentru o serie perfect simetrică, putem
scrie:
Me − xQ1 = xQ3 − Me .

În acest caz, media aritmetică a celor două cuartile extreme este egală
cu valoarea cuartilei a doua, adică cu mediana seriei:
xQ1 + xQ3
Q= = xQ2 = Me .
2
Dacă ultimele două relaţii nu sunt verificate, adică Me − xQ1 ≠ xQ3 − Me şi
Q ≠ Me , înseamnă că seria prezintă un anumit grad de variaţie intercuartilică,
grad care poate şi trebuie să fie măsurată statistic.
Abaterea intercuartilică se calculează ca o medie a celor două abateri
ale cuartilelor extreme faţă de cuartila centrală:

Qc =
(Me − x ) + (x
Q1 Q3 − Me )= x
Q3 − xQ1
.
2 2

83
Statistică

Datorită faptului că se bazează numai pe relaţia dintre cele două


cuartile extreme, abaterea intercuartilică s-ar mai putea numi şi amplitudine
semi-intercuartilică.
Ca orice indicator absolut, şi abaterea intercuartilică se exprimă în
unităţile de măsură ale caracteristicii studiate şi nu poate fi supusă direct
comparaţiei statistice a mai multor serii. De aceea, se calculează coeficientul
de variaţie intercuartilică, ca raport între abaterea intercuantilică şi valoarea
mediană, astfel:
Qc xQ − xQ1
VQ = ⋅ 100 = 3 ⋅ 100 .
Me 2 Me
Dacă seria prezintă un grad mai mare de asimetrie este necesar să se
calculeze şi variaţia interdecilică.

` Abaterea interdecilică (Qd )


Abaterea interdecilică se bazează pe aceleaşi considerente întâlnite
anterior, adică într-o serie perfect simetrică distanţele dintre decilele extreme şi
mediană sunt egale:
Me − xD1 = xD9 − Me ,

şi este egală cu media aritmetică a abaterilor decilelor extreme faţă de


cuartila centrală a seriei, astfel:

Qd =
(Me − x ) + (x
D1 D9 − Me )= x D9 − xD1
.
2 2
Nici acest indicator nu permite comparaţia statistică a mai multor serii,
motiv pentru care a fost introdus coeficientul de variaţie interdecilică. Acesta
se calculează ca raport între abaterea interdecilică şi valoarea mediană, astfel:
Qd xD − xD1
VQ = ⋅ 100 = 9 ⋅ 100 .
Me 2 Me
De regulă, calculul variaţiei interdecilice se face pentru serii statistice cu
un număr foarte mare de grupe şi cu tendinţă evidentă de asimetrie.
Avantajul major al acestor indicatori îl reprezintă faptul că nu sunt
sensibili la existenţa valorilor aberante.

Exemplul 2.21.
Pornind de la exemplul 2.2. şi ţinând cont şi de rezultatele de la
exemplele 2.12. ( xQ1 = 564 ,28 u.m.; xQ2 = 635 ,71 u.m.; xQ3 = 716 ,67 lei) şi 2.13.
( xD1 = 483,33 u.m.; xD9 = 800 u.m.), să se determine abaterile intercuantilice.
Rezolvare
Abaterea intercuartilică este:
xQ3 − xQ1 716 ,67 − 564 ,28
Qc = = = 76 ,19 u.m.
2 2
Coeficientul de variaţie intercuartilică este:
Qc 76 ,19
VQ = ⋅ 100 = ⋅ 100 = 11,98% .
Me 635 ,71
Abaterea interdecilică este:

84
Indicatorii numerici ai seriilor de distribuție

xD9 − xD1 800 − 483 ,33


Qd = = = 158 ,33 u.m.
2 2
Coeficientul de variaţie interdecilică este:
Qd 158 ,33
VD = ⋅ 100 = ⋅ 100 = 24 ,91% .
Me 635 ,71
Cum valorile coeficienţilor de variaţie intercuantilică (VQ şi VD ) sunt mici
(ambele mai mici de 35%) putem trage concluzia că seria prezintă un grad de
omogenitate ridicat, iar media este reprezentativă.

Alegerea indicatorilor de variaţie


Alegerea tipului de indicator care să caracterizeze cât mai fidel gradul
de împrăştiere (dispersare) a elementelor populaţiei observate – atât pentru
seriile simple, cât şi pentru seriile de distribuţie de frecvenţe – se face în funcţie
de tipul variabilei supusă analizei.
Analiza variaţiei în cazul seriilor a căror caracteristică este nominală nu
are sens.
Atunci când variabila este ordinală gradul de împrăştiere se măsoară cu
ajutorul abaterilor intercuantilice.
Dacă valorile analizate sunt numerice, atunci se recomandă, pentru
aprecierea variaţiei, a se determina dispersia, abaterea standard şi coeficientul
de variaţie. În situaţia în care seria de date ar conţine valori aberante este
recomandat să se apeleze la abaterile intercuantilice, abateri care nu sunt
sensibile la existenţa acestor valori.

2.2.4. Momentele

Vom arăta în continuare că indicatorii media şi dispersia nu


reprezintă altceva decât cazuri particulare de valori ce semnifică momentele
unei serii statistice.
Numim moment de ordinul t în raport cu o valoare cunoscută a,
parametrul:

mt ( a ) = ∑ ( xi − a )t fi .
∑ fi
În funcţie de valorile pe care le ia a putem avea următoarele tipuri de
momente:
• momente iniţiale ( mt0 ) – în acest caz a=0, iar relaţia de calcul a momentelor
este:

∑ xi f i
t
mt0 = ;
∑ fi
• momente centrate (μt ) – în această situaţie a = x şi se determină pe baza
relaţiei:

85
Statistică

μt = ∑
( xi − x )t f i
;
∑ fi
• momente obişnuite sau ordinare (mt ) – sunt cele în care a ≠ 0 şi a ≠ x , iar
relaţia de calcul este cea descrisă iniţial.
Între momentele centrate şi cele obişnuite pot fi stabilite o serie de
relaţii. Pentru determinarea acestor relaţii vom face următoarele notaţii:
xi − a = p ⎫

xi − x = r ⎬ ⇒ (xi − a ) = (xi − x ) + (x − a ); p = r + s .
x − a = s ⎪⎭

Momentul obişnuit de ordinul t va fi:

mt = ∑ pt fi = ∑ ( r + s )t fi = ∑ r t fi +
Ct1s ∑ r t −1 fi Ct2 s 2 ∑ r t − 2 fi
+ + ... + s t =
∑ fi ∑ fi ∑ fi ∑ fi ∑ fi
mt = μ t + Ct1 sμ t −1 + Ct2 s 2 μ t − 2 + ... + s t .
În mod asemănător, momentul centrat de ordinul t va fi:

μt = ∑ ∑ ( p − s )t fi ∑ pt fi
r t fi Ct1s ∑ p t −1 fi
= = − +
∑ fi ∑ fi ∑ fi ∑ fi
Ct2 s 2 ∑ p t − 2 f i
+ + ... + (− 1) s t =
t

∑ i
f

μ t = mt − Ct1 smt −1 + Ct2 s 2 mt − 2 + ... + (− 1)t s t .


Momentele iniţiale pentru diferite valori ale lui t sunt:

t=0 → m00 = ∑ i i = ∑ i = 1 ;
0
x f f
ƒ
∑ fi ∑ fi
∑ xi f i = x ;
1
ƒ t=1 → m10 =
∑ fi

2
xi f i
ƒ t=2 → m2 =
0
=σ 2 + x2 .
∑ fi
Momentele obişnuite pentru diferite valori ale lui t sunt:

ƒ t=0 → m0 =
∑ ( xi − a )0 f i = ∑ p 0 f i = ∑ f i = 1 ;
∑ fi ∑ fi ∑ fi
ƒ t=1 → m1 =
∑ ( xi − a )1 f i = ∑ xi f i − a ∑ f i = x − a ;
∑ fi ∑ fi ∑ fi
ƒ t=2 → m2 =
∑ ( xi − a ) f i = ∑ ( r + s ) 2 f i = μ + 2 sμ + s 2 ⇒ m = σ 2 + s 2 ;
2

∑ fi ∑ fi
2 1 2

ƒ t=3 → m3 =
∑ ( xi − a )3 f i = ∑ ( r + s )3 f i = μ + 3sμ + 3s 2 μ + s 3 ⇒
∑ fi ∑ fi
3 2 1

m3 = μ 3 + 3sμ 2 + s 3 .
Pentru diferite valori ale lui t momentele centrate sunt:

t=0 → μ0 = ∑ i
( x − x )0 fi ∑ r 0 fi ∑ fi
ƒ = = =1;
∑ fi ∑ fi ∑ fi

86
Indicatorii numerici ai seriilor de distribuție

ƒ t=1 → μ 1 =
∑ ( xi − x )1 f i =
∑ ( p − s )1 f i = 0 , deoarece suma abaterilor de la
∑ fi ∑ fi
medie este nulă (a se vedea, în acest sens, proprietăţile mediei aritmetice);

t=2 → μ 2 = ∑ i
( x − x )2 f i
ƒ = σ 2 (din definiţia dispersiei);
∑ fi
ƒ t=3 → μ 3 =
∑ ( xi − x )3 f i =
∑ ( p − s )3 f i = m3 − 3sm2 + 3 s 2 m1 − s 3 ⇒
∑ fi ∑ fi
μ 3 = m3 − 3 sm2 + 2 s 3 .
Momentele prezentate sunt folosite foarte frecvent în statistică, atât ca
bază de calcul în determinarea unor indicatori specifici seriilor de distribuţie
(excesul), cât şi ca modalitate practică de simplificare a calculului unuia dintre
indicatorii sintetici utilizaţi în analiza statistică (coeficientul de corelaţie liniară).
La rândul lor, momentele pot fi determinate cu ajutorul procedeului de calcul
simplificat. Acest procedeu nu diferă, în principiu, de cel prezentat la calculul
mediei aritmetice ponderate şi dispersiei, astfel:
t
⎛ x −a⎞
∑ ⎜ i k ⎟ fi
mt = ⎝ ⎠ ⋅kt .
∑ i
f

2.2.5. Dispersia în analiza distribuţiilor bidimensionale

Analiza variabilităţii în cazul distribuţiilor bidimensionale de


frecvenţe este un proces mai complex ce necesită o atenţie suplimentară,
întrucât variabilitatea, de această dată, este provocată de două categorii de
factori: esenţiali şi întâmplători. Ca atare, variaţia trebuie descompusă pe cele
două surse de factori care o generează, fiind necesar ca studiul acesteia pe
întreaga colectivitate să fie completat cu studiul ei în cadrul fiecărei grupe şi
între grupe.
Presupunem că avem două caracteristici Xi şi Yj şi unităţile au fost
împărţite în n grupe după variaţia lui Xi , obţinându-se următoarele distribuţii
condiţionate de factorul de grupare (tabelul 2.13.):
Tabelul 2.13.
Grupare Grupare după Y Total Medii de Dispersii de
după X y1 y2 … yj … ym fx grupă grupă
yi σ i2

x1
f11 f12 … f1j … f1m f1 y1 σ 12
x2
f21 f22 … f2j … f2m f2 y2 σ 22
M M … M … M M M M
M
xi
fi1 fi2 … fij … fim fi yi σ i2
M M … M … M M M M
M
xn
fn1 fn2 … fni … fnm fn yn σ n2

Total fy
f1 f2 … fi … fm n y0 σ 02

87
Statistică

Tabelul poate fi considerat cu dublă intrare, în care prima intrare se


referă la frecvenţele variabilei principale Xi , iar cea de-a doua intrare la
frecvenţele variabilei secundare Yj . Din întretăierea celor două variabile rezultă
frecvenţele fij .
Pentru analiza variaţiei caracteristicii Yj , în funcţie de variaţia
caracteristicii de grupare Xi , precum şi a interdependenţei dintre ele, se pot
calcula medii şi dispersii condiţionate pentru fiecare grupă. Frecvenţele pe
fiecare grupă se obţin prin însumarea frecvenţelor din interiorul grupelor, pentru
grupa i având:
m
∑ fij = fi 1 + fi 2 + ... + fij + ... + fim = fi .
j =1

Se poate calcula, în acest caz, o medie generală ( y0 ) care sintetizează


variaţia valorilor individuale ale colectivităţii totale şi valorile mediilor de grupă.
Pentru caracteristica Yj se pot calcula 3 feluri de indicatori, care să descrie:
ƒ variaţia valorilor yj în jurul mediei lor de grupă y j − yi datorată acţiunii ( )
cauzelor întâmplătoare (pe fiecare grupă);
ƒ variaţia mediilor de grupă în jurul mediei colectivităţii totale ( yi − y0 )
datorată acţiunii cauzelor esenţiale (factorul principal de grupare);
ƒ variaţia valorilor yj în jurul mediei colectivităţii totale y j − y0 datorată atât ( )
influenţei cauzelor esenţiale, cât şi influenţei cauzelor întâmplătoare.
Având în vedere cei 3 indicatori de mai sus (inclusiv modul lor de
definire), se poate scrie:
(y j ) (
− y0 = y j − yi + ( yi − y0 ) . )
Pornind de la această relaţie se pot determina dispersiile caracteristice
distribuţiilor bidimensionale, dispersii pe baza cărora se face analiza variaţiei în
cadrul acestor serii. Aceste dispersii sunt:
ƒ dispersia de grupă;
ƒ media dispersiilor de grupă;
ƒ dispersia dintre grupe;
ƒ dispersia generală.

• ( )
Dispersia de grupă σ i2 – cunoscută şi sub denumirea de dispersie
parţială, se determină ca o medie aritmetică ponderată a pătratelor
abaterilor variantelor caracteristicii de la media grupei, pe baza relaţiei
următoare:

∑ (y j − yi ) ∑ (y j − yi )
m m
2 2
f ij f ij
j =1 j =1
σ =
i
2
m
= ,
fi
∑ fij
j =1

unde: yi – mediile de grupă determinate ca medii aritmetice ponderate,


astfel:
m m
∑ y j fij ∑ y j fij
j =1 j =1
yi = m
= .
fi
∑ f ij
j =1

88
Indicatorii numerici ai seriilor de distribuție

Dispersia de grupă măsoară variaţia caracteristicii Yj determinată de


acţiunea cauzelor întâmplătoare la nivelul fiecărei grupe. Se vor calcula atâtea
dispersii de grupă câte grupe are colectivitatea cercetată, cu valori mai mici sau
mai mari în funcţie de gradul de omogenitate sau eterogenitate a grupelor.
Spre exemplu, considerăm o distribuţie bidimensională a unei echipe de
muncitori în funcţie de vechimea în muncă şi salariul realizat de muncitori.
Dacă vechimea în muncă ar fi unicul factor de influenţă asupra salariului, atunci
pentru fiecare grupă de vechime am avea un singur nivel al salariului. Cum, în
general, avem mai multe niveluri ale salariului pentru o grupă de vechime în
muncă, deducem că la nivelul fiecărei grupe îşi exercită influenţa şi alţi factori.
Într-adevăr, în realitate, salariul este condiţionat şi de alţi factori, cum ar fi:
productivitatea muncii, nivelul de calificare al muncitorilor, dotarea tehnică etc.
Toţi ceilalţi factori, în afara vechimii în muncă, sunt consideraţi factori
întâmplători, şi, ca atare, dispersia de grupă va cuantifica influenţa acestor
factori la nivelul fiecărei grupe.

• Media dispersiilor de grupă (σ ) 2


– sintetizează influenţa factorilor
întâmplători la nivelul întregii colectivităţi şi se calculează ca o medie
aritmetică ponderată a dispersiilor de grupă, cu ajutorul relaţiei:
n
∑σ i2 fi
σ2 = i =1
n
.
∑ fi
i =1

• ( )
Dispersia dintre grupe δ 2 – reflectă variaţia caracteristicii secundare
datorată acţiunii cauzelor esenţiale la nivelul întregii colectivităţi şi se
calculează ca o medie aritmetică ponderată a pătratelor abaterilor mediilor
de grupă de la media generală, pe baza relaţiei:
n
∑ ( yi − y0 )
2
fi
δ2 = i =1
n
,
∑ fi
i =1

unde: y0 – media generală şi se determină fie ca o medie aritmetică


ponderată a distribuţiei marginale, fie ca o medie generală a mediilor de grupă,
astfel:
m n
∑ yj f j ∑ yi f i
j =1 i =1
y0 = m
= n
.
∑ fj ∑ fi
j =1 i =1

În exemplul considerat la dispersia de grupă, dacă presupunem că


variaţia vechimii în muncă nu ar avea nici o influenţă asupra salariului, atunci
mediile de grupă ar trebui să fie egale. Într-o astfel de situaţie, media generală
ar fi egală cu mediile de grupă, iar dispersia dintre grupe ar fi nulă. Însă,
vechimea în muncă este unul din factorii importanţi de influenţă asupra
salariului, iar această influenţă este cuantificată de către indicatorul dispersia
dintre grupe. Nivelul acestui indicator este cu atât mai mare cu cât influenţa
vechimii în muncă este mai consistentă.
Din cele trei tipuri de dispersii prezentate, reţinem faptul că media
dispersiilor de grupă şi dispersia dintre grupe pot fi comparate (pentru că ele
caracterizează întreaga colectivitate). Putem, astfel, determina care dintre
89
Statistică

factori (esenţiali sau întâmplători) au avut o influenţă mai puternică asupra


caracteristicii studiate.
O atenţie deosebită se cuvine să acordăm influenţei factorilor
întâmplători pentru a cunoaşte cauzele care au condus la dispersarea unităţilor
statistice din cadrul grupelor. Putem determina în acest fel cauzele obiective,
dar şi subiective, care au determinat deplasarea frecvenţelor fij din cadrul
grupei i.

• ( )
Dispersia generală σ 02 – se calculează ca o medie aritmetică ponderată
a pătratelor abaterilor termenilor faţă de media generală, pe baza relaţiei
următoare:

∑ (y j − y0 )
m
2
fj
j =1
σ =
2
0 m
.
∑ fj
j =1

Dispersia generală măsoară variaţia totală a caracteristicii secundare


(Yj ), variaţie determinată atât de acţiunea factorilor întâmplători, cât şi de cea a
factorilor esenţiali, la nivelul colectivităţii generale. Această dispersie va avea o
valoare mai mare în colectivităţile eterogene influenţate de un număr mare de
factori (întâmplători sau esenţiali) şi o valoare mai mică în cazul colectivităţilor
omogene.
Având în vedere conţinutul dispersiilor calculate, rezultă regula de
adunare a dispersiilor:
σ 02 = σ 2 + δ 2 .
Regula de adunare a dispersiilor mai este utilă şi pentru a calcula o
dispersie atunci când se cunosc celelalte două dispersii.
În seriile statistice formate pe baza frecvenţelor relative, indicatorii de
variaţiei se calculează cu ajutorul formulelor în care frecvenţa se prezintă sub
formă de ponderi exprimate procentual, iar suma lor este egală cu 100.
Dispersia generală, în acest caz, va fi:

∑ (y j − y0 )
m
2
pj
j =1
σ =
2
0 ,
100
unde p j reprezintă frecvenţele relative în colectivitatea totală a
variantelor înregistrate independent de factorul de grupare.
Dispersia dintre grupe se va calcula astfel:
n
∑ ( y i − y0 )
2
pi
δ =
2 i =1
,
100
unde pi reprezintă ponderea fiecărei grupe faţă de total.
Media dispersiilor de grupă va fi:
n
∑ σ i2 pi
σ2 = i =1
.
100
În cazul folosirii frecvenţelor relative este necesară cunoaşterea atât a
structurii seriilor componente cât şi a structurii pe grupe a colectivităţii totale.

90
Indicatorii numerici ai seriilor de distribuție

De asemenea, indicatorii de variaţie se pot calcula pe baza frecvenţelor


relative, cu condiţia să se respecte relaţiile calitative între frecvenţele absolute
şi cele relative, să se ţină seama ca valoarea absolută a unui procent al
ponderii folosite să fie acelaşi pentru toate elementele componente ale
colectivităţii.

Exemplul 2.22.
Distribuţia muncitorilor unei societăţi comerciale din oraşul Craiova după
salariu (lei) şi vechime (ani) în luna decembrie 2006 este redată în tabelul 2.14.

Tabelul 2.14.
- 450 – 550 – 650 – 750 – 850 - Total
Salariul
450 550 650 750 850 fx
Y
X 5 6 7 8 9
Vechime 400 500 600 700 800 900
- 15 10 20 30 30 20 - - 100
15-25 20 30 80 100 90 30 - 330
25-35 30 - 40 140 120 50 30 380
35 - 40 - - 80 70 20 20 190
Total fy 50 150 350 300 100 50 1000

Să se determine indicatorii variaţiei pentru această serie.


Rezolvare
a) Dispersia de grupă
Pentru determinarea dispersiilor de grupă vom avea nevoie de mediile
de grupă:
m
∑ y j f1 j 400 ⋅ 20 + 500 ⋅ 30 + 600 ⋅ 30 + 700 ⋅ 20 55000
j =1
y1 = m
= = = 550
100 100
∑ f1 j
j =1

m
∑ y j f2 j 400 ⋅ 30 + 500 ⋅ 80 + 600 ⋅ 100 + 700 ⋅ 90 + 800 ⋅ 30 199000
j =1
y2 = = = = 603,03
f2 330 330

m
∑ y j f3 j 500 ⋅ 40 + 600 ⋅ 140 + 700 ⋅ 120 + 800 ⋅ 50 + 900 ⋅ 30 255000
j =1
y3 = = = = 671,05
f3 380 380

m
∑ y j f4 j 600 ⋅ 80 + 700 ⋅ 70 + 800 ⋅ 20 + 900 ⋅ 20 131000
j =1
y4 = = = = 689,47
f4 190 190
Dispersiile de grupă vor fi:

91
Statistică

∑ (y j − y1 )
m
2
f1 j
σ = 2 j =1
=
(400 − 550 )2 20 + (500 − 550 )2 30 + (600 − 550 )2 30 +
1
f1 12
+ (700 − 550 ) 20 1050000
2
= = 10500
100 100
σ 22 = 12415,06 ;

σ 32 = 11530,47 ;

σ 42 = 9362,88
Dispersie mai mică apare pentru grupa 4, respectiv grupa de vechime
de peste 35 ani. Urmează grupele 1, 3 şi 2 (în grupa 2 dispersia fiind maximă).
Deci, pentru ultimele două grupe factorii întâmplători au influenţat puternic
nivelul salariului.
b) Media dispersiilor de grupă
n
∑ σ i2 f i 10500,00 ⋅ 100 + 12415,06 ⋅ 330 + 11530,47 ⋅ 380 + 9362,88 ⋅ 190
i =1
σ2= n
= ⇒
1000
∑ fi
i =1

σ 2 = 11307,5

c) Dispersia dintre grupe


Pentru determinarea acestui indicator avem nevoie de media generală:
m
∑ yj fj
j =1 400 ⋅ 50 + 500 ⋅ 150 + 600 ⋅ 350 + 700 ⋅ 300 + 800 ⋅ 100 + 900 ⋅ 50
y0 = m
= = 640
100
∑ fj
j =1

n
∑ ( yi − y0 )
2

δ = 2 i =1
fi
=
(550 − 640 )2 100 + (603,03 − 640 )2 330 +
n
1000
∑ fi
i =1

+ (671,05 − 640 ) 380 + (689,47 − 640 ) 190 2092503,99


2 2
= = 2092,5
1000 1000
Comparând nivelul dispersiei dintre grupe cu nivelul mediei dispersiilor
de grupă constatăm faptul că factorii întâmplători, la nivelul întregii colectivităţi,
au exercitat o influenţă mai puternică decât factorii consideraţi esenţiali
(vechimea în muncă).
d) Dispersia generală

∑ (y j − y0 )
m
2
fj
σ =2 j =1
=
(400 − 640 )2 50 + (500 − 640 )2 150 + (600 − 640 )2 350 +
0 m
1000
∑ fj
j =1

+ (700 − 640 ) 300 + (800 − 640 ) 100 + (900 − 640 ) 50


2 2 2

1000

92
Indicatorii numerici ai seriilor de distribuție

13400000
σ 02 = = 13400 .
1000
Regula adunării dispersiilor este verificată:
σ 02 = σ 2 + δ 2 ⇒ 13400 = 11307,50 + 2092,50.

2.3. Indicatorii formei


Pentru caracterizarea seriilor de distribuţie se utilizează, alături de
indicatorii tendinţei centrale şi ai gradului de dispersare, şi măsuri pentru
asimetrie şi boltire. Măsurarea asimetriei şi a boltirii unei serii de distribuţie
poate fi făcută atât prin intermediul unor parametri specifici, cât şi pe cale
grafică. Dacă metoda grafică poate fi utilizată şi în cazul variabilelor calitative,
indicatorii de asimetrie şi boltire sunt calculaţi numai pentru caracteristici
numerice. Ambele metode au, însă, ca scop verificarea caracterului normal al
distribuţiei.

2.3.1. Asimetria

În urma prelucrării primare a datelor, se obţin repartiţii de frecvenţe


empirice, care se pot compara cu repartiţiile teoretice, pentru care s-au
calculat indicatorii tendinţei centrale şi variaţiei, şi este cunoscută forma lor de
repartiţie. Cea mai frecventă repartiţie teoretică cu care se compară seriile
empirice este distribuţia normală sau funcţia Gauss-Laplace, ale cărei
frecvenţe se distribuie simetric de o parte şi de alta a frecvenţei maxime
plasate în centrul seriei, iar graficul acesteia are forma de clopot (clopotul
Gauss-Laplace).
În practica statisticii economico-sociale se pot întâlni serii de repartiţie
de frecvenţe simetrice, uşor asimetrice sau cu tendinţă pronunţată de asimetrie.
O serie perfect simetrică va corespunde acelei forme de variaţie
statistică în care şi influenţa factorilor întâmplători urmează o anumită
regularitate, astfel încât are loc o repartiţie uniformă în ambele sensuri.
• Pentru determinarea tipului de asimetrie se poate recurge la metode
elementare, precum: metoda grafică, momentul centrat de ordinul 3 şi
densitatea de repartiţie a frecvenţelor.
` Metoda grafică – la interpretarea gradului de asimetrie se porneşte de
la poziţia şi valoarea pe care le au cei trei indicatori ai tendinţei centrale:
media, mediana şi modul. Astfel, în funcţie de raportul dintre aceşti
indicatori, putem avea una din următoarele situaţii:
ƒ x = Me = Mo - serie simetrică (figura 2.10.a);
ƒ x < Me < Mo - serie cu asimetrie spre stânga (negativă) – figura
2.10.b;
ƒ x > Me > Mo - serie cu asimetrie spre dreapta (pozitivă) – figura
2.10.c.

fi fi Me fi Mo Me
Mo
x x

93

x = Me = Mo xi x < Me < Mo xi Mo < Me < x xi


Statistică

Figura 2.10. Tipuri de serii de repartiţie: a) simetrică; b) cu


asimetrie spre stânga (negativă); c) cu asimetrie spre dreapta (pozitivă) .

` Momentul centrat de ordinul 3:

μ3 = ∑
( xi − x )3 fi
.
∑ fi
Interpretarea acestui indicator porneşte de la observaţia că
momentele centrate de ordin impar ale seriilor de distribuţie perfect
simetrice sunt egale cu zero (deci şi μ3=0). Pentru seriile în care
predomină termenii cu abateri negative faţă de medie ( xi − x < 0 ), vom
avea μ3<0, iar pentru seriile în care predomină termenii cu abateri
pozitive faţă de medie ( xi − x > 0 ), vom avea μ3>0. Ca atare, în funcţie
de valoarea lui μ3 vom avea:
- serie simetrică – pentru μ 3 = 0 ;
- serie cu asimetrie spre stânga (negativă) – pentru μ 3 < 0 ;
- serie cu asimetrie spre dreapta (pozitivă) – pentru μ 3 > 0 .
` Densitatea de repartiţie a frecvenţelor – se calculează ca raport
între fiecare frecvenţă (absolută sau relativă) şi mărimea intervalului,
astfel:
fi p
da = sau d r = i ,
k k
unde: fi – frecvenţele absolute;
pi – frecvenţele relative;
k – mărimea intervalului.
Dacă valorile acestor indicatori au tendinţă de creştere către
valoarea centrală a caracteristicii, înseamnă că seria de distribuţie are
tendinţa de normalitate. Densităţile de repartiţie a frecvenţelor se
calculează în special pentru seriile cu intervale de grupare mari sau
neegale.

• Pentru măsurarea statistică a asimetriei se folosesc coeficientul de


asimetrie al lui Pearson, coeficientul lui Fisher şi coeficientul lui Yule şi
Kendall.
` Coeficientul de asimetrie al lui Pearson – este cel mai frecvent folosit
indicator pentru determinarea asimetriei şi se obţine pe baza relaţiei
x − Mo
următoare: Cas = .
σ
Acest indicator are o valoare abstractă, dar nu şi lipsită de
semnificaţie. El oferă informaţii atât asupra sensului asimetriei, cât şi
asupra intensităţii acesteia. Valorile pe care le ia sunt cuprinse în
intervalul (–1,1). Pentru seriile de repartiţie moderat asimetrice,
coeficientul de asimetrie ia valori în intervalul [-0,3;0,3]. Semnul
indicatorului arată sensul asimetriei, astfel:
- Cas < 0 - serie cu asimetrie spre stânga (negativă);
94
Indicatorii numerici ai seriilor de distribuție

- Cas = 0 - serie simetrică;


- Cas > 0 - serie cu asimetrie spre dreapta (pozitivă).
În cazul seriilor uşor asimetrice bazate pe un număr mare de
cazuri observate, când se verifică relaţia Mo ≈ x − 3( x − Me ) , se poate
folosi un alt coeficient de asimetrie, calculat după relaţia:
3( x − Me )
Cas* ≈ .
σ
Acest coeficient ia valori în intervalul (–3,3) şi va arăta un grad
mai mare de simetrie cu cât se va apropia mai mult de 0.
Pentru caracterizarea asimetriei, Pearson a mai propus şi un al
doilea coeficient de asimetrie bazat pe momentele centrate de ordinul 2 şi
3:

(μ )2
2
1 ⎛ μ3 ⎞
β1 = 3 3 = ⋅⎜ ⎟ .
(μ2 ) μ2 ⎜⎝ μ2 ⎟⎠

Din această formulă se observă că β 1 ≥ 0 . Deci, acest indicator


nu poate fi folosit în aprecierea sensului asimetriei. Interpretarea
coeficientului este următoarea:
- β 1 = 0 - serie simetrică;
- β 1 > 0 - serie cu asimetrie (spre dreapta sau spre stânga).
Imposibilitatea furnizării de informaţii asupra sensului asimetriei a
condus la redefinirea acestui coeficient de către Fisher în forma
prezentată în continuare.

` Coeficientul lui Fisher – se determină astfel:


μ3
γ 1 = β1 = .
(μ2 )3 2
Deoarece numitorul va fi întotdeauna pozitiv (neinfluenţând
semnul indicatorului), interpretarea coeficientului lui Fisher este
asemănătoare cu cea a momentului centrat de ordinul 3 (μ3 ).
` Coeficientul lui Yule şi Kendall. Coeficienţii de asimetrie anteriori se
bazează pe relaţia care există între cele trei valori ale tendinţei centrale.
Dar, asupra asimetriei acţionează şi celelalte valori medii de poziţie.
Pentru a ţine seama şi de influenţa cuartilelor se foloseşte coeficientul
lui Yule şi Kendall, care se calculează astfel:
q2 − q1
As = ,
q2 + q1

unde: q2 = xQ3 − Me şi q1 = Me − xQ1 .


Rezultă că în cazul acestui coeficient se raportează diferenţa
dintre abaterile celor două cuartile de la mediană, la suma acestora.
Coeficientul de asimetrie al lui Yule şi Kendall ia valori în
intervalul [-1;+1], cu interpretările următoare:
ƒ dacă As=0 – distribuţia este simetrică, cuartilele fiind echidistante;
ƒ dacă As>0 – distribuţia este asimetrică spre dreapta;
ƒ dacă As<0 – distribuţia este asimetrică spre stânga.
Dacă As se apropie de ±0,1 seria este moderat asimetrică, iar
dacă depăşesc ±0,3 seria este pronunţat asimetrică.
Acest coeficient de asimetrie nu poate fi utilizat în compararea
asimetriei mai multor repartiţii de frecvenţe.
95
Statistică

Exemplul 2.23.
Pornind de la exemplul 2.2., să se analizeze asimetria seriei.
Rezolvare
x − Mo 640 − 630
Cas = = = 0,086 .
σ 115 ,76
Rezultă că avem o asimetrie moderată spre dreapta sau pozitivă.
2.3.2. Excesul

Excesul (boltirea / aplatizarea) apare atunci când


distribuţia prezintă o variaţie slabă a variabilei X şi o variaţie
puternică a frecvenţei absolute (şi invers), în comparaţie cu o
distribuţie normală, de aceeaşi medie şi dispersie.

Deci, boltirea unei serii de repartiţie se defineşte prin raportarea la


repartiţia normală sub aspectul variaţiei variabilei X şi a frecvenţelor absolute fi .
Boltirea se poate evalua fie pe cale grafică, fie pe calea calculelor algebrice.
Pe cale grafică, boltirea se apreciază comparând curba frecvenţelor
unei distribuţii empirice cu modelul corespunzător distribuţiei normale. Curba
frecvenţelor poate să apară în una din următoarele trei situaţii1 (figura 2.11.):
ƒ curbă mezocurtică – coincide modelului (curba normală);
ƒ curbă platicurtică – prezintă o variaţie puternică a variabilei X în paralel cu o
variaţie slabă a frecvenţelor;
ƒ curbă leptocurtică - prezintă o variaţie slabă a variabilei X în paralel cu o
variaţie puternică a frecvenţelor.

curba leptocurtică
curba mezocurtică

curba platicurtică

Figura 2.11. Boltirea.

Pe calea calculelor algebrice boltirea se determină pe baza unor


coeficienţi.

` coeficientul de boltire Pearson (β2 ) – se calculează pe baza


momentelor centrate de ordinul 2 şi 4, cu ajutorul relaţiei:
μ 4 μ4
β2 = = .
μ22 σ 4

unde μ2 şi μ4 reprezintă momentele centrate de ordinul 2 şi 4.


1
Denumirile folosite în continuare îşi regăsesc rădăcinile etimologice în limba greacă: kurtos =
cocoşat; platos = larg, lat; leptos = îngust, subţire.
96
Indicatorii numerici ai seriilor de distribuție

Acest coeficient ia valoarea 3 (β2 = 3) pentru o distribuţie normală –


curba mezocurtică. Pentru β2 > 3 avem o curbă leptocurtică, iar pentru β2 < 3
avem o curbă platicurtică.

` coeficientul de boltire Fisher (γ2 ) – mai este cunoscut şi sub


denumirea de coeficient al excesului, deoarece măsoară excesul faţă
de boltirea unei distribuţii normale Gauss-Laplace. Se determină
pornind de la coeficientul de boltire al lui Pearson, ţinând cont şi de
faptul că acest indicator pentru distribuţia normală ia valoarea 3, astfel:
γ2 = β2 – 3.
Pentru γ2 = 0 avem o curbă mezocurtică, pentru γ2 > 0 (avem un exces
de frecvenţe în zona centrală) curba este leptocurtică, iar pentru γ2 < 0 avem o
curbă platicurtică.

Exemplul 2.24.
Considerând datele de la exemplul 2.2., să se analizeze boltirea
(aplatizarea) seriei.
Rezolvare
a) Coeficientul de boltire Pearson:
Mai întâi vom determina momentul centrat de ordinul 4:

∑ (xi − x )
4
fi 522320000000
μ4 = = = 522320000 .
∑ fi 1000
Coeficientul va fi:
μ4 522320000
β2 = = = 2 ,91 < 3 ⇒ avem o curbă platicurtică.
μ22 179560000
b) Coeficientul de boltire Fisher:
γ2 = β2 – 3= – 0,09 < 0 ⇒ avem o curbă platicurtică.

Test de autoevaluare 2

1.Care este scopul calculului indicatorilor sintetici ai variației?

2. Care este interpretarea coeficientului de asimetrie al lui Pearson?

3. Pentru o serie de distribuţie s-au determinat următoarele valori ale mediei,


xa = 400 şi dispersiei, σ 2 = 25600 . În funcţie de nivelul coeficientului de variaţie
(cv), alegeţi afirmaţia corectă:
a) cv = 40%, deci media distribuţiei are un grad scăzut de semnificaţie;
b) cv < 35%, deci media distribuţiei este semnificativă;
c) cv > 35%, deci populaţia observată este eterogenă;
d) cv < 35%, deci populaţia observată este omogenă;
e) cv = 40%, deci populaţia observată este omogenă.
4. Se cunosc următoarele date:

Salariul (u.m.) 2-4 4-6 6-8 8-10 10-12


97
Statistică

Numărul de muncitori 5 23 37 17 13
a) Să se calculeze toţi indicatorii simpli şi sintetici ai variaţiei.
b) Să se determine dacă media este semnificativă.

5. Dacă kas∈(0, 0.3], seria de distribuţie prezintă:


a) asimetrie moderată spre stânga; b) asimetrie extremă spre stînga;
c) asimetrie extremă spre dreapta; d) asimetrie moderată spre dreapta;
e) simetrie .

6. Se cunosc următoarele date:


Centrele intervalelor de variație 30 50 70 90 110
Frecvenţele absolute 100 300 400 100 100
Caracterizaţi asimetria şi boltirea seriei folosind indicatorii cunoscuţi.

7. Să se calculeze coeficientul de variaţie pentru o serie de distribuţie simplă


care vizează producţia lunară a firmelor cu profil specific producerii foliei de
polietilenă din România, la nivelul căreia s-au determinat: media = 310 mil. lei;
dominanta (modul) = 300 mil. lei; coeficientul de asimetrie = 0.20;
a) coeficientul de variaţie = 50,00%
b) coeficientul de variaţie = 20,00%
c) coeficientul de variaţie = -17,00%
d) coeficientul de variaţie = 10,00%
e) coeficientul de variaţie = 16,13%

8. Să se determine ce tip de asimetrie prezintă o serie de distribuţie pentru care


media = 150, dispersia = 625 iar dominanta = 145 şi să se aleagă răspunsul
corect.
a) serie simetrică b) serie moderat asimetrică stânga
c) serie moderat asimetrică dreapta d) serie extrem asimetrică stânga
e) serie extrem asimetrică dreapta

9. Să se determine amplitudinea relativă pentru o serie statistică ce vizează


cifra de afaceri a unei firme cunoscându-se următoarele elemente:
- cifra de afaceri minimă = 500 mil. lei;
- cifra de afaceri maximă = 800 mil. lei;
- coeficientul de variaţie = 20%;
- abaterea standard = 120 mil. lei;
a) 50%; b) 600 mil .lei; c) 20%; d) 300 mil. lei; e)120 %.

10. Să se determine dispersia distribuţiei angajaților unei firme de IT după


salariul lunar, cunoscându-se:
- salariul mediu = 4,5 mii lei;
- coeficientul de variaţie al salariului = 20%.
Interpretaţi rezultatul obţinut.
a) 0,9
b) 4,44
c) 90
d) 0,81
e) nu se poate calcula

11. Să se determine coeficientul de asimetrie al distribuţiei angajaților unei


firme de IT după salariul lunar, cunoscându-se:
- salariul mediu = 6 mii lei;
- coeficientul de variaţie al salariului = 20%;
- salariul dominant =5 mii lei.
98
Indicatorii numerici ai seriilor de distribuție

Interpretaţi rezultatul obţinut.


a) 0,81
b) 0,9
c) 1,90
d) 0,83
e) nu se poate calcula

99
Statistică

Răspunsurile la toate întrebările testului de autoevaluare 2


se regăsesc în Unitatea de învățare 2, paginile 71 – 97. Pentru
aplicațiile practice și întrebările tip grilă, rezolvarea se regăsește și la
sfârșitul manualului.

Rezumat
Luarea unei decizii, în orice tip de activitate, implică necesitatea
cunoaşterii acelui domeniu, respectiv a fenomenelor de masă manifestate în
acel domeniu. Cu cât această cunoaştere este mai profundă, cu atât riscurile
acţiunilor întreprinse sunt mai mici.
Pentru a realiza acest lucru este necesară calcularea indicatorilor
numerici ai seriilor statistice de distribuție. Aceştia se împart în:
- indicatori ai tendinţei centrale
- indicatori ai variaţiei
- indicatori ai formei
Indicatorii principali ai tendinţei centrale sunt:
` Media – este expresia sintetizării într-un singur nivel reprezentativ a tot
ceea ce este esenţial, tipic şi obiectiv în apariţia, manifestarea şi
dezvoltarea acesteia.
` Cuantilele - indicatori de poziţie care împart seria de distribuţie într-un
anumit număr de părţi cu efective egale.
` Modul - valoarea caracteristicii care are frecvenţa cea mai mare. Este
un indicator specific seriilor de distribuţie.
Media prezintă mai multe tipuri şi este necesară cunoaşterea condiţiilor
de aplicare pentru fiecare dintre acestea pentru a putea să fi utilizată corect.
Dintre cuantile cele mai des utilizate sunt cuartilele şi mai ales cuartila a
doua (mediana) care împarte o serie în două părţi egale.
În cazul seriilor de distribuţie, devine necesară compararea formei
acestora întâlnită în realitate cu distribuiţii teoretice ale căror proprietăţi sunt
cunoscute. Pentru a realiza acest lucru sunt necesari indicatorii formei.
De reţinut că avantajul utilizării mediei este reuşita de a sintetiza într-o
singură valoare esenţa unui set de date. Acesta este în acelaşi timp şi
principalul dezavantaj. Reţinând doar esenţa în manifestarea unui fenomen,
media nu reţine variaţiile din manifestarea acestuia. Acest dezavantaj este
eliminat prin calculul indicatorilor variaţiei.
Principalii indicatori ai variaţiei sunt grupaţi în două categorii:
¾ indicatori simpli: amplitudinea variaţiei (absolută şi relativă),
abaterile individuale (absolute şi relative). Au dezavantajul că nu
pot concentra într-o singură valoare variaţia unui întreg set de
date. Din acest motiv se calculează indicatorii sintetici.
¾ indicatori sintetici: abaterea medie liniară, dispersia (are
dezavantajul că nu poate fi utilizată direct în practică, rezultatul
ei nefiind uşor de utilizat direct), abaterea standard (înlătura
dezavantajul dispersiei şi este indicatorul cel mai des utilizat în
practică direct), coeficientul de variaţie (este forma de exprimare
relativă a abaterii standard).

100
Indicatorii numerici ai seriilor de distribuție

Interpretarea acestora se poate rezuma în următoarea explicaţie: cu cât


valorile lor sunt mai mari cu atât variaţia fenomenului studiat este mai
accentuată.
În cazul unei variabile care poate lua doar două stări, calculul mediei şi
al indicatorilor variaţiei se poate particulariza.
În cazul seriilor de distribuţie bidimensionale se poate utiliza direct
dispersia în caracterizarea variaţiei. Se pot calcula patru tipuri de dispersii care
ajută la caracterizarea variaţiei seriilor bidimensionale.

Termeni cheie
Tendința centrală, mărimi medii: media aritmetică, media armonică, media
pătratică, media geometrică, cuantile, cuartile, mediana, decile, percentile, mod
(dominantă), amplitudine, abaterea medie liniară, dispersie, abaterea medie
pătratică, coeficient de variație, momente, abateri intercuartilice, asimetrie,
exces.

Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
3. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
4. Georgescu, V., Statistică descriptivă şi inferenţiala, Editura Universitaria,
Craiova, 2006;
5. Georgescu, V., Radu, C., Statistică, Editura Reprograph, Craiova, 1999;
6. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
7. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
8. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009;
9. Voineagu, V., Ţiţan, E., Ghiţă, S., Boboc, C., Todose, D., Statistică. Baze
teoretice şi aplicaţii, Editura Economică, Bucureşti, 2007
10. *** Anuarul Statistic al României 2012.

101
UNITATEA DE ÎNVĂŢARE 3
ANALIZA STATISTICĂ A
SERIILOR CRONOLOGICE
Cuprinsul capitolului
Obiectivele capitolului 3
3.1. Indicatorii dinamicii
3.2. Metode elementare de ajustare a seriilor cronologice
3.3. Definirea, clasificarea și proprietățile indicilor statistici
3.4. Sisteme de ponderare utilizate în construcția indicilor
factoriali de prețuri
Rezumat
Termeni cheie
Bibliografie

Obiectivele capitolului 3
În cadrul acestei unităţi de învăţare, structurată în
patru secţiuni şi mai multe subsecţiuni, sunt definite şi
analizate componentele seriilor cronologice şi utilizarea
acestora ca instrumente de ajustare şi predicţie în domeniul
economic.
După parcurgerea primelor două secțiuni și la sfârșitul unității de învățare,
studentul va avea de rezolvat două teste de autoevaluare. Testele sunt
construite gradual, ca mărime şi complexitate, din întrebări deschise, teste
grilă și aplicații practice. Încadrarea în parametrii specificaţi (timp, variante)
îi va confirma fiecărui student dezvoltarea competenţelor necesare pentru
trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
Š descrierea corectă şi completă a tuturor componentelor unei serii de timp;
Š analiza componentelor seriei de timp cu ajutorul indicatorilor absoluţi,
relativi şi medii ai dinamicii;
Š utilizarea sistemelor de ponderare adecvate pentru construirea indicilor de
prețuri din țara noastră;
Š utilizarea indicatorilor specifici seriilor cronologice, dar şi a altor indicatori
statistici numerici ca instrumente de ajustare şi predicţie a fenomenelor
economice;
Š formularea unor concluzii pertinente despre datele analizate, pe baza
regularităţilor relevate prin folosirea acestor instrumente statistice.

Durata medie de parcurgere a unității de învățare: 4 ore

101
Statistică

3.1. Indicatorii dinamicii

Orice fenomen sau proces al activităţii umane poate fi studiat atât în


timp, cât şi în spaţiu. Analiza în timp presupune, în principal, o cercetare cu
ajutorul unor indicatori statistici specifici de-a lungul diferitelor perioade. De
exemplu, putem urmări evoluţia vânzărilor zilnice dintr-un magazin, evoluţia
lunară a producţiei de cărbune, evoluţia productivităţii muncii, evoluţia ratei
inflaţiei etc. În urma măsurătorilor periodice, la momente sau intervale de timp
(egale sau inegale), asupra unei colectivităţi în ansamblul său sau a unei părţi
din colectivitate rezultă seriile cronologice.
La construirea şi analiza seriilor cronologice trebuie avute în vedere
proprietăţile acestora, şi anume:
` variabilitatea termenilor – rezultă din faptul că fiecare termen este
obţinut prin centralizarea unor date individuale. Acest lucru se întâmplă
în condiţiile existenţei unor diferenţieri între termenii seriei, fie ca urmare
a acţiunii factorilor întâmplători, fie ca urmare a faptului că în viaţa
economico-socială legile se manifestă ca tendinţă generală, imprimând
fenomenelor şi proceselor diferite forme de variaţie;
` omogenitatea termenilor – o serie nu cuprinde decât fenomene şi
procese de acelaşi gen, care sunt efecte ale aceluiaşi tip de cauze.
Pentru asigurarea omogenităţii termenilor trebuie utilizată aceeaşi
metodologie de evaluare şi calcul a indicatorilor, precum şi aceleaşi
criterii de clasificare privind mărimea intervalului de timp şi a unităţii
statistice etc.;
` periodicitatea termenilor – constă în asigurarea continuităţii datelor din
punct de vedere al timpului, chiar dacă variabila timp poate cunoaşte
periodicităţi diferite;
` interdependenţa termenilor – rezultă ca urmare a respectării principiului
unităţii de timp, spaţiu şi a structurii organizatorice. Având în vedere
relaţiile de cauzalitate, fiecare indicator depinde într-o anumită măsură
de valoarea indicatorului precedent.

Pentru a caracteriza dinamica fenomenelor economico-sociale,


prelucrarea unor serii dinamice conduce la obţinerea unei varietăţi de indicatori.
După modul de calcul şi exprimare aceştia pot fi grupaţi în trei categorii:
- indicatori absoluţi;
- indicatori relativi;
- indicatori medii.

• Indicatorii absoluţi – se exprimă în aceeaşi unitate de măsură


cu fenomenul supus cercetării. În cadrul lor întâlnim două
categorii:

` nivelul absolut – este dat de şirul nivelurilor fenomenului a cărui


evoluţie se urmăreşte. Dacă seria este simplă, atunci nivelurile absolute
pentru variabila Y sunt y1 , y2 , …, yn ;
` modificarea absolută – se determină ca diferenţă între nivelurile
absolute ale uneia dintre variabilele seriei, luate succesiv, şi un nivel
oarecare considerat bază de comparaţie (această bază trebuie să fie un
moment sau interval de timp considerat reprezentativ pentru seria
supusă cercetării). Modificarea absolută exprimă, în valori absolute, cu
cât a crescut sau a scăzut nivelul fenomenului cercetat în perioada de
timp considerată. Baza de comparaţie poate să fie fixă, atunci când
102
Analiza statistică a seriilor cronologice

rămâne aceeaşi pentru toţi termenii seriei, sau variabilă, când se


modifică odată cu modificarea indicatorului de comparat. În funcţie de
baza de comparaţie aleasă, modificarea absolută poate fi:
- cu baza fixă – arată cu cât a crescut sau a scăzut nivelul
indicatorului y faţă de perioada de bază. Relaţia de calcul este
următoarea: Δ t / 1 = yt − y1 ;
- cu baza în lanţ – arată cu cât a crescut sau a scăzut nivelul
indicatorului y de la o perioadă la alta. Relaţia de calcul este
următoarea: Δ t / t − 1 = y t − y t −1 ,
unde: y1 - nivelul indicatorului în perioada de referinţă;
yt - nivelul indicatorului în perioada t;
yt-1 - nivelul indicatorului în perioada t-1.
Comparând relaţiile de calcul ale celor două variante, rezultă că:
Δ t / 1 = ∑ Δ t / t −1 .

• Indicatorii relativi – se calculează ca raport între doi indicatori


absoluţi ai aceluiaşi fenomen şi se exprimă, de regulă, sub
formă de coeficienţi sau în procente. În cadrul lor întâlnim
indicele dinamicii, ritmul dinamicii şi valoarea absolută a unui
procent de creştere (reducere).

` Indicele dinamicii – se calculează ca raport între nivelul indicatorului


de comparat şi nivelul indicatorului folosit ca bază de comparaţie.
Acesta exprimă de câte ori sau în ce proporţie s-a modificat fenomenul
y în perioada considerată. În funcţie de baza de comparaţie aleasă,
indicele dinamicii poate fi de două feluri:
- cu baza fixă – când arată proporţia existentă între nivelul
indicatorului de comparat şi nivelul indicatorului din perioada de bază.
y
Relaţia de calcul este: It / 1 = t ;
y1
- cu baza în lanţ – când arată proporţia existentă între nivelul
indicatorului de comparat şi nivelul indicatorului din perioada
y
precedentă. Relaţia de calcul este: I t / t −1 = t .
y t −1
Comparând relaţiile celor două variante de indici, rezultă că:
I t / 1 = ∏ I t / t −1 .

Indicii dinamicii se pot exprima şi în procente.


` Ritmul dinamicii – exprimă, în mărimi relative, cu cât a crescut sau a
scăzut nivelul fenomenului cercetat în perioada de timp considerată. Se
poate calcula în trei moduri: pe baza nivelurilor absolute, pe baza
modificărilor absolute sau pe baza indicilor. În funcţie de baza de
comparaţie aleasă, ritmul dinamicii poate fi:
- cu baza fixă – reflectă creşterea sau scăderea relativă a
fenomenului cercetat în fiecare perioadă faţă de perioada de
comparaţie. Se calculează folosind relaţiile:

Rt / 1 =
yt − y1
y1
Δ
( )
⋅ 100 = t / 1 ⋅ 100 = I t / 1 − 1 ⋅ 100 ;
y1

103
Statistică

- cu baza în lanţ – reflectă creşterea sau scăderea relativă a


fenomenului cercetat dintr-o perioadă faţă de perioada anterioară. Se
calculează cu relaţiile:

Rt / t −1 =
yt − yt −1
yt −1
Δ
( )
⋅ 100 = t / t −1 ⋅ 100 = I t / t −1 − 1 ⋅ 100 .
yt −1
Ritmul dinamicii se exprimă numai în procente.
` Valoarea absolută a unui procent de creştere (reducere) – exprimă
cât din modificarea absolută a unui fenomen revine la un procent din
ritmul dinamicii. Ca şi ceilalţi indicatori, acesta se poate calcula cu bază
fixă sau cu baza în lanţ, raportând modificarea absolută la ritmul
dinamicii:
Δ yt − y1 y
- cu baza fixă: At / 1 = t / 1 = = 1 ;
Rt / 1 yt − y1 100
⋅ 100
y1
Δ t / t −1 yt − yt −1 y
- cu baza în lanţ: At / t −1 = = = t −1 .
Rt / t −1 yt − yt −1 100
⋅ 100
yt −1

•Indicatorii medii – sunt indicatori calculaţi pe baza tuturor


termenilor seriei cronologice. Astfel, în timp ce indicatorii
absoluţi şi relativi ne arată nivelurile individuale înregistrate de-a
lungul perioadei, indicatorii medii reunesc aceste valori
individuale într-una singură. În această categorie de indicatori
regăsim: nivelul mediu, modificarea medie, indicele mediu, ritmul mediu şi
valoarea medie absolută a unui procent de creştere.

` nivelul mediu – se calculează în mod diferit după cum seria dinamică


este de intervale sau de momente:
ƒ dacă seria cronologică este de intervale, nivelul mediu se calculează
folosind:
- media aritmetică – dacă valorile Δ t / t −1 sunt aproximativ
constante;
- media pătratică – dacă valorile Δ t / t −1 sunt mai mici la începutul
seriei şi din ce în ce mai mari spre sfârşitul acesteia;
- media geometrică – dacă valorile Δ t / t −1 sunt mai mari la
începutul seriei şi din ce în ce mai mici spre sfârşitul acesteia.
ƒ dacă seria cronologică este de momente, nivelul mediu se
determină ca o medie cronologică. Media cronologică este, în
principiu, o medie aritmetică, şi se determină în două etape: a)
calculul mediilor mobile – acum are loc transformarea seriei de
momente în serie de intervale, mediile mobile nefiind altceva decât
medii aritmetice simple calculate din câte doi, trei sau mai mulţi
termeni ai seriei, în cadrul cărora unul sau mai mulţi termeni se
repetă; b) calculul mediei cronologice – se obţine ca medie
aritmetică a mediilor mobile. Intervalele dintre momentele seriei pot
fi egale sau inegale, rezultând medii cronologice simple sau
ponderate.
Media cronologică simplă este utilizată în cazul în care
intervalele dintre momente sunt egale (t1 = t2 = … = tk , unde k –
numărul mediilor mobile sau numărul intervalelor dintre momente,

104
Analiza statistică a seriilor cronologice

k = n – 1). Determinarea mediei cronologice simple se face după


etapele precizate anterior, astfel:
x + xi +1
- calculul mediilor mobile: xi = i ;
2
k
∑ xi
i =1
- calculul mediei cronologice simple: xc = .
k
Media cronologică ponderată se foloseşte atunci când
intervalele dintre momente sunt inegale (t1 ≠ t2 ≠ … ≠ tk). Ca şi în
cazul mediei cronologice simple, media cronologică ponderată se
determină urmând cele două etape:
x + xi +1
- calculul mediilor mobile: xi = i ;
2
k
∑ xi t i
i =1
- calculul mediei cronologice ponderate: xc = k
.
∑ ti
i =1

` modificarea medie – exprimă, sub formă de medie, modificarea


înregistrată în fiecare perioadă a seriei cronologice. Se calculează ca o
medie aritmetică simplă a modificărilor cu baza în lanţ, pe baza relaţiei

Δ=∑
Δt / t −1 Δ
următoare: = t/1 .
n −1 n−1
Modificarea medie prezintă importanţă pentru stabilirea tendinţei
(trendului) unui fenomen, astfel:
- dacă Δ > 0 ⇒ tendinţă evolutivă (crescătoare);
- dacă Δ < 0 ⇒ tendinţă involutivă (descrescătoare).
De asemenea, acest indicator permite ajustarea seriei dinamice
şi elaborarea de prognoze privind evoluţia viitoare a fenomenului
analizat.
` indicele mediu – reuneşte într-un singur indicator nivelurile individuale
ale indicilor cu baza în lanţ calculaţi pentru o serie dinamică. Se
determină ca o medie geometrică simplă a indicilor cu baza în lanţ, pe
baza relaţiei: I = n −1 ∏ I t / t −1 = n −1 I t / 1 .
Indicele mediu se foloseşte la ajustarea seriei dinamice, precum
şi la determinarea ritmului mediu.
` ritmul mediu – arată cu cât a crescut sau a scăzut în medie, pe fiecare
perioadă, fenomenul analizat şi se exprimă în procente. Se calculează
pe baza relaţiei: R = I − 1 ⋅ 100 . ( )
` valoarea medie absolută a unui procent de creştere – exprimă cât
din modificarea medie a unui fenomen revine la un procent din ritmul
Δ
mediu şi se determină pe baza relaţiei: A= .
R

Exemplul 3.1.
Volumul vânzărilor unui magazin, în primele 8 luni ale anului trecut este
redat în tabelul 3.1. Indicatorii dinamicii sunt calculaţi, de asemenea, în acelaşi
tabel.

105
Statistică

Tabelul 3.1.

Vânzări Modificarea Indicele Ritmul Valoarea


Luna (buc.) absolută dinamicii dinamicii (%) absolută a 1%
yt Δt/1 Δ t / t −1 It / 1 I t / t −1 Rt / 1 Rt / t −1 At / 1 At / t −1

1 100 - - 1,00 - - - - -
2 90 -10 -10 0,90 0,90 -10 -10 1 1,0
3 110 10 20 1,10 1,22 10 22 1 0,9
4 120 20 10 1,20 1,09 20 9 1 1,1
5 140 40 20 1,40 1,16 40 16 1 1,2
6 150 50 10 1,50 1,07 50 7 1 1,4
7 110 10 -40 1,10 0,73 10 -27 1 1,5
8 130 30 20 1,30 1,18 30 18 1 1,1

Rezolvare
Indicatorii medii ai dinamicii sunt:
nivelul mediu: y = ∑ i =
y 950
ƒ = 118 ,75 bucăţi;
n 8
Δ 30
ƒ modificarea medie: Δ = t / 1 = = 4 ,28 bucăţi;
n −1 7
ƒ indicele mediu: I = n −1 I t / 1 = 7 1,30 = 1,0382 ;
ƒ ( )
ritmul mediu: R = I − 1 ⋅ 100 = (1,038 − 1) ⋅ 100 = 3 ,8% ;
ƒ abaterea medie absolută a unui procent de creştere:
Δ 4 ,28
A= = = 1,12 bucăţi.
R 3,8
Volumul mediu lunar al vânzărilor acestui magazin a fost de 118,75
bucăţi. Observăm că vânzările au înregistrat o creştere, în primele 8 luni ale
anului, în medie (pe lună) cu 4,28 bucăţi, ritmul mediu a înregistrat o creştere
de 3,8% lunar, iar la un procent de creştere a revenit un volum al vânzărilor de
1,12 bucăţi.
În funcţie de semnificaţia şi importanţa economico-socială, indicatorii se
împart în două mari categorii:
- indicatori al căror nivel firmele şi, în general, societatea îl
doresc cât mai ridicat (de exemplu: cantitatea de produse fabricate,
productivitatea muncii etc.);
- indicatori al căror nivel se doreşte cât mai mic (de exemplu:
costul de fabricaţie pe unitatea de produs, consumurile de materiale etc.).
Tabelul 3.2.
Situaţia favorabilă nefavorabilă
Nivel dorit al indicatorilor
cât mai ridicat I > 1; R > 0; Δ > 0 I < 1; R < 0; Δ < 0
cât mai scăzut I < 1; R < 0; Δ < 0 I > 1; R > 0; Δ > 0

106
Analiza statistică a seriilor cronologice

3.2. Metode elementare de ajustare a seriilor cronologice

Ajustarea seriilor cronologice constă în aplicarea unor metode statistico-


matematice adecvate asupra unor serii de timp în dorinţa de a extrage ceea ce
este esenţial şi tipic în evoluţia fenomenului sau procesului analizat şi care
prezintă caracter de lege. Ajustarea unei serii cronologice este necesară în
următoarele cazuri:
ƒ pentru a obţine o imagine clară asupra tendinţei fenomenelor şi
proceselor economico-sociale pe o perioadă de timp, atunci când
această tendinţă nu poate fi sesizată cu ochiul liber;
ƒ în cazul în care pentru unii ani din cadrul perioadei lipsesc indicatorii de
nivel, singura modalitate de a-i reconstitui este reprezentată de
interpolarea seriei;
ƒ elaborarea prognozelor, a estimării nivelului unui indicator pentru
perioadele viitoare.
În teoria şi practica statistică sunt utilizate următoarele metode
elementare de ajustare a seriilor de timp:
ƒ ajustarea grafică;
ƒ ajustarea mecanică;
• Ajustarea grafică – acest procedeu presupune trasarea liberă şi
aproximativă a unei drepte sau curbe asupra unei serii cronologice
empirice. O asemenea ajustare are un caracter orientativ şi oferă informaţii
asupra tendinţei generale a evoluţiei fenomenului sau procesului supus
cercetării. Ajustarea grafică este, însă, subiectivă putând conduce la
determinări diferite. Acesta este şi motivul pentru care este folosită mai rar.
• Ajustarea mecanică – acest procedeu constă în aplicarea succesivă, în
mod mecanic, a unor formule de calcul stabilite dinainte, pentru toţi termenii
seriei. În cadrul ajustării mecanice întâlnim următoarele metode: metoda
mediilor eşalonate, metoda mediilor mobile, metoda sporului mediu şi
metoda indicelui mediu.
` Metoda mediilor eşalonate – constă în calculul mediilor eşalonate, ca
medii aritmetice simple din câte doi, trei sau mai mulţi termeni (în cadrul
cărora nu se repetă nici un termen) şi aprecierea tendinţei evolutive cu
ajutorul seriei formate din aceste medii. Considerând y1 , y2 , …, yn
nivelurile absolute dintr-o serie dată, mediile eşalonate, calculate din
câte doi termeni, sunt:
y1 + y2 y + y4 y + yn
y1 = , y2 = 3 , ..., yn / 2 = n −1 .
2 2 2
Seria mediilor eşalonate va fi: y1 , y2 , ..., yn / 2 .
Pentru seriile cu un număr mare de termeni se poate continua
calculul mediilor eşalonate, folosindu-se ca bază de calcul mediile deja
calculate. Se obţin astfel medii de rang superior, putându-se aprecia
mai exact tendinţa evolutivă. Deşi prin determinarea mediilor de rang
superior sunt atenuate într-o anumită măsură fluctuaţiile evolutive
generate de acţiunea factorilor întâmplători, nu este posibilă înlăturarea
lor în totalitate.
` Metoda mediilor mobile – constă în determinarea tendinţei evolutive
după procedeul prezentat la metoda anterioară, cu deosebirea că, în
calculul mediilor, unul, doi sau mai mulţi termeni se repetă. Mediile
mobile, calculate din câte doi termeni, sunt:
y1 + y2 y + y3 y + yn
y1 = , y2 = 2 , ... yn −1 = n −1 .
2 2 2

107
Statistică

Seria mediilor mobile va fi: y1 , y2 , ..., yn −1 .


Şi în acest caz pot fi determinate medii de rang superior. Nici prin
această metodă nu sunt eliminate în totalitate fluctuaţiile întâmplătoare.

Exemplul 3.2.
Considerând datele de la exemplul 3.1., valorile ajustate prin metoda
mediilor eşalonate şi cea a mediilor mobile sunt redate în tabelul 3.3..

Tabelul 3.3.
Luna Vânzări (buc.) Mediile eşalonate Mediile mobile
1 100 95 95
2 90 115 100
3 110 145 115
4 120 120 130
5 140 - 145
6 150 - 130
7 110 - 120
8 130 - -

` Metoda sporului mediu – este o metodă mecanică de ajustare care


are la bază relaţia dintre primul termen al seriei, sporul mediu şi un
termen oarecare al seriei. Se foloseşte, de regulă, atunci când se obţin
sporuri cu baza în lanţ cu valori apropiate. Aceasta corespunde unei
creşteri a nivelurilor caracteristicii studiate sub forma unei progresii
aritmetice cu raţia egală cu modificarea medie absolută. Relaţia care stă
la baza ajustării prin procedeul modificării medii absolute este:
Yi = y1 + k ⋅ Δ ,
unde i = 1, 2, 3, …, n;
k = 0, 1, 2, …, n-1;
y1 – reprezintă termenul luat ca bază de ajustare.
Observăm că:
Y1 = y1 + 0 ⋅ Δ = y1 ;
Y2 = y1 + 1 ⋅ Δ ;
Y3 = y1 + 2 ⋅ Δ ;
………………..
Yn = y1 + ( n − 1 ) ⋅ Δ = yn .
În cadrul acestei metode, primul şi ultimul termen ai seriei
teoretice, respectiv Y1 şi Yn sunt identici cu primul şi ultimul termen ai
seriei empirice, adică y1 şi yn ; această proprietate este folosită ca mijloc
de control (Y1 = y1 , Yn = yn ).
Cu ajutorul acestei metode sunt eliminate toate fluctuaţiile
evolutive întâmplătoare, valorile teoretice Yi înscriindu-se pe o linie
dreaptă.

Exemplul 3.3.
Considerând datele de la exemplul 3.1., valorile ajustate prin metoda
sporului mediu ( Δ = 4 ,28 ) sunt cele din tabelul 3.4.:
108
Analiza statistică a seriilor cronologice

Tabelul 3.4.
Luna Vânzări (buc.) - yt Yi
1 100 100,00
2 90 104,28
3 110 108,56
4 120 112,84
5 140 117,12
6 150 121,40
7 110 125,68
8 130 130,00

` Metoda indicelui mediu – este tot o metodă mecanică, uşor de aplicat,


care se bazează pe relaţia existentă între primul termen al seriei,
indicele mediu şi un termen oarecare al seriei. Se foloseşte atunci când
termenii seriei au tendinţa unei progresii geometrice, în care raţia poate
fi considerată egală cu indicele mediu al dinamicii. Relaţia care stă la
baza ajustării prin procedeul modificării medii absolute este:
Yi = y1 ⋅ I k .
În acest caz vom avea:
Y1 = y1 ⋅ I 0 = y1 ;
Y2 = y1 ⋅ I 1 ;
Y3 = y1 ⋅ I 2 ;
……………
Yn = y1 ⋅ I n −1 = yn .
Şi în cadrul acestei metode Y1 = y1 şi Yn = yn . Şi cu ajutorul
acestei metode sunt eliminate toate fluctuaţiile evolutive întâmplătoare,
valorile teoretice Yi înscriindu-se pe o linie curbă.

Exemplul 3.4.
Considerând datele de la exemplul 3.1., valorile ajustate prin metoda
indicelui mediu ( I = 1,0382 ) sunt cele din tabelul 3.5.:

Tabelul 3.5.
Luna Vânzări (buc.) - yt Yi
1 100 100,00
2 90 103,82
3 110 107,78
4 120 111,90
5 140 116,17
6 150 120,61
7 110 125,22
8 130 130,00

109
Statistică

Test de autoevaluare 1
1. Care sunt indicatorii utilizaţi cel mai frecvent pentru caracterizarea dinamicii
seriilor cronologice?

2. Producţia realizată în luna mai din anul curent a crescut cu 106 % faţă de
nivelul realizat în luna decembrie din anul precedent, iar în luna octombrie
nivelul său a fost de 3,18 ori mai mare decât cel din decembrie.
Determinaţi, interpretaţi şi alegeţi rezultatul corect, care vizează ritmul mediu
lunar pentru perioada iunie - octombrie, din anul curent :
a) -6,5%; b) 9,07%; c) 14%; d) 118%; e) – 9,07%.

3. Se cunosc următoarele date :


Luna 1 2 3 4 5 6
Producţia – mii lei - 40 30 50 60 50 50
Determinaţi, interpretaţi şi alegeţi rezultatul corect ce vizează diferenţa medie
absolută ( sporul mediu lunar) :
a) 2 mii lei; b) 7 mii lei; c) 4,5%.; d) 1,67 mii lei; e) – 2 mii lei.

4. Se cunosc următoarele date :


Luna 1 2 3 4 5
Producţia - tone - 40 30 50 60 80
Determinaţi, interpretaţi şi alegeţi rezultatul corect ce vizează ritmul mediu
lunar:
a) 7,4%; b) 18,9%; c) – 18,9%; d) - 5,4%; e) 20 tone.

5. Volumul vânzărilor la o societate comercială a crescut în anul 2005 faţă de


anul 2000 cu 50%, iar în anul 2010 cu 200% faţă de anul 2000. Care a fost
indicele dinamicii vânzărilor în anul 2010 faţă de anul 2005?
a) 2,5; b) 15%; c) 200%; d) 250%; e) 1,5.

6. Despre evoluţia fondului de salarii la o societate comercială se cunosc


următoarele date:
Anii 2010 2011 2012 2013
Ritmul general cu baza în lanţ (%) +4 +7,3 +4,4 -6,3
Determinaţi şi alegeţi ritmul mediu anual în perioada 2010-2013:
a) 0,09%; b) 102%; c) 201,3%; d) 2,21%; e) 4,35%.

7. O evoluţie favorabilă a costurilor de producţie ale unei firme este evidenţiată


de următoarele valori ale indicatorilor dinamicii:
a) I 1 / 0 < 1; Δ 1 / 0 > 0 ; R1 / 0 < 0 ;
b) I 1 / 0 < 1; Δ 1 / 0 < 0 ; R1 / 0 < 0 ;
c) I 1 / 0 > 1; Δ 1 / 0 < 0 ; R1 / 0 < 0 ;
d) I 1 / 0 > 1; Δ 1 / 0 > 0 ; R1 / 0 > 0 ;
e) I 1 / 0 < 1; Δ 1 / 0 < 0 ; R1 / 0 > 0.

8. La o firmă, numărul mediu anual de muncitori a crescut în anul 2005 faţă de


anul 2000 cu 25%, iar în anul 2010 faţă de anul 2005 a crescut cu 20%. Care a
fost indicele dinamicii indicatorului în anul 2010 faţă de anul 2000?
a) 200%; b) 1,45; c) 45%; d) 145%; e) 150%.

110
Analiza statistică a seriilor cronologice

9. O evoluţie favorabilă a productivităţii muncii la o firmă este evidenţiată de


următoarele valori ale indicatorilor dinamicii:
a) I1 / 0 < 1; Δ1 / 0 > 0; R1 / 0 < 0;
b) I1/ 0 < 1; Δ1/ 0 < 0; R1/ 0 < 0;
c) I1 / 0 > 1; Δ1 / 0 < 0; R1 / 0 < 0;
d) I1 / 0 > 1; Δ1 / 0 > 0; R1 / 0 > 0;
e) I1/ 0 < 1; Δ1/ 0 < 0; R1 / 0 > 0.

10. Producţia unei firme a evoluat de-a lungul unui an după cum urmează:

Luna Producţia
(t) (mii lei)
1 100
2 110
3 125
4 115
5 150
6 175
7 200
8 180
9 190
10 210
11 200
12 225

a) Calculaţi şi interpretaţi indicatorii absoluţi, relativi şi medii ai


dinamicii.
b) Determinaţi tendinţa producţiei în perioada studiată, folosind metode
de ajustare mecanice.

Răspunsurile la toate întrebările testului de autoevaluare 1 se


regăsesc în Unitatea de învățare 3, paginile 101- 109. Pentru aplicațiile
practice și întrebările tip grilă, rezolvarea se regăsește și la sfârșitul
manualului.

111
Statistică

3.3 Definirea, clasificarea și proprietățile indicilor


statistici
3.3.1. Definirea și rolul indicilor în cercetarea statistică.

Datorită formei simple de calcul şi a expresivităţii cu care reflectă


modificările din toate domeniile vieţii economice şi sociale, indicii statistici sunt
utilizaţi în mod curent în majoritatea analizelor în timp şi spaţiu a fenomenelor
economico sociale: inflaţie, şomaj, evoluţia agregatelor macroeconomice, a
datoriei externe, a salariului real etc.
Indicele statistic este o măsură adimensională, obţinută prin raportarea a
două valori ale aceleiaşi variabile. Altfel spus, indicele statistic este o mărime
relativă, calculată ca raport între două niveluri ale unui indicator simplu sau
complex, corespunzătoare la două unităţi diferite de timp sau spaţiu.
Indicele sintetizează într-o expresie numerică nivelul relativ al
caracteristicii unui ansamblu de elemente care formează fenomenul economic
sau social studiat; produsele fabricate sau comercializate de o societate
comercială, salariaţii unei regiuni de dezvoltare, capitalul fix al unei ramuri
economice etc., formează astfel de ansambluri de elemente. Nivelul absolut al
caracteristicilor unor astfel de colectivităţi statistice fiind insuficient de
concludent pentru aprecierea dimensiunii şi evoluţiei activităţii desfăşurate, se
impune comparaţia în timp sau spaţiu şi, implicit, completarea exprimării în
mărime absolută cu cea în mărime relativă a nivelului colectivităţii studiate; de
exemplu, cu ajutorul indicilor statistici putem analiza dinamica preţurilor
produselor şi tarifelor serviciilor din economie, a salariaţilor sau a câştigului lor
salarial, putem analiza comparativ intensitatea fenomenelor demografice
(natalitatea, mortalitatea etc.) pentru regiunile de dezvoltare sau judeţele ţărilor
noastre sau putem ierarhiza ţările membre UE în funcţie de amploarea unor
fenomene economico – sociale (inflaţie, şomaj etc.).
Metoda de calcul a indicilor statistici, ca raport a două numere, este
simplu de realizat; aplicarea ei trebuie să ţină cont totuşi de dificultăţile care
apar în definirea şi interpretarea indicilor statistici:
• asigurarea compatibilităţii celor doi termeni ai raportului, între care
trebuie să existe o legătură logică de corespondenţă, de condiţionare,
de cauzalitate sau de altă natură; nu orice raport numeric este un indice
statistic; de exemplu, au sens comparaţiile între indicii de creştere ai
PIB din România cu cei ai celorlalte ţări din sud-estul Europei dar sunt
mai puţin (sau deloc) semnificative comparaţiile între datoria externă a
ţării noastre şi cele ale unor ţări sud-americane sau africane;
• alegerea bazei de comparaţie, operaţie esenţială în constituirea seriilor
de indici ai dinamicii sau în determinarea indicilor teritoriali; pentru
definirea indicilor din prima categorie se utilizează ca bază de
comparaţie valoarea indicatorului la un anumit moment (pentru seriile
de momente de timp) sau dintr-o anumită perioadă (pentru seriile de
intervale de timp), considerată semnificativă pentru evoluţia
fenomenului în decursul perioadei analizate; un exemplu în acest sens îl
constituie analiza dinamicii preţurilor de consum din ţara noastră care
utilizează ca bază de comparaţie preţurile din luna octombrie 1990
(prima etapă de liberalizare a preţurilor din România); pentru calculul
indicilor teritoriali se poate utiliza ca bază de comparaţie fie valoarea
maximă sau minimă a indicatorului dintr-o unitate spaţială, fie valoarea

112
Analiza statistică a seriilor cronologice

mediei a acestuia; de exemplu, analiza spaţială a intensităţii unor


fenomene demografice (rata mortalităţii, rata fertilităţii) în ţara noastră,
la nivel de regiuni sau judeţe, se poate realiza folosind ca bază de
comparaţie judeţul (regiunea) cu cel mai scăzut sau ridicat nivel al
fenomenului sau folosind media naţională a indicatorului ca bază de
comparaţie;
• asigurarea comparabilităţii termenilor raportului, în privinţa sferei de
cuprindere, a metodologiei de calcul dar şi a păstrării constante a
comăsurătorului, dacă este cazul; probleme deosebite se întâlnesc în
cadrul seriilor lungi de indici ai dinamicii (constituite pentru perioade
mari de timp) sau în cadrul comparaţiilor internaţionale ale indicatorilor
macroeconomici exprimaţi valoric.
Indicii se pot exprima sub formă de coeficient adimensional sau în
precente, semnificaţia lor fiind tributară celor două moduri de exprimare.

3.3.2. Tipuri de indici statistici

Datorită varietăţii indicilor folosiţi în practica statisticii social-


economice, se impune clasificarea lor după mai multe criterii.
` Dupa natura fenomenului studiat, distingem: indici ai preţurilor, indici ai
volumului fizic, indici ai valorii producţiei, indici ai productivităţii muncii, indici
ai câştigului salarial nominal sau real etc.
` În funcţie de aspectele evidenţiate în cadrul comparaţiei sau de destinaţia
lor în analiza economică şi socială, cele mai importante categorii sunt:
ƒ Indici ai dinamicii (cronologici) – sunt mărimi relative ale dinamicii
şi se calculează ca raport între nivelurile realizate ale unui
fenomen în două perioade sau momente de timp:
y1
I 1y/ 0 = (100)
y0
În general, notăm cu t = 0, n unităţile de timp (zi, lună, trimestru,
semestru, an, etc); în practică, notăm cu 0 perioada (momentul) de bază sau
de referinţă (faţă de care dorim să studiem evoluţia variabilei) şi cu 1 perioada
(momentul) în care realizăm analiza (perioada curentă); întotdeauna, perioada
de bază este anterioară perioadei curente; indicii cronologici compară
întotdeauna prezentul cu trecutul (niciodată invers). Cele două niveluri ale
variabilei studiate, y, reprezintă :
y0 = nivelul (bază de comparaţie) înregistrat în perioada sau momentul de
bază;
y1 = nivelul (comparat) înregistrat în perioada (momentul) pentru care
facem analiza.
Indicele statistic al dinamicii permite caracterizarea atât a sensului
evoluţiei fenomenului analizat cât şi a intensităţii modificării nivelului
caracteristicii în fiecare perioadă în raport cu baza de comparaţie;
exprimat sub formă de coeficient, indicele ne arată câte unităţi ale
indicatorului din perioada curentă revin la o unitate a indicatorului
din perioada de bază; exprimat procentual, el ne arată câte
procente reprezintă nivelul indicatorului din perioada curentă faţă de
nivelul acestuia din perioada de bază;

113
Statistică

• dacă I 1y/ 0 > 1 ⇔ y1 > y 0 , tendinţa fenomenului este crescătoare,


nivelul său din perioada curentă fiind mai mare decât cel din
perioada de bază;
• dacă I 1y/ 0 = 1 ⇔ y1 = y 0 , fenomenul stagnează, nivelurile
indicatorului pentru cele două perioade fiind egale;
• dacă I 1y/ 0 < 1 ⇔ y1 < y 0 , tendinţa fenomenului este
descrescătoare, nivelul atins în periada curentă fiind inferior celui
din perioada trecută.
Valorile apropiate de 1 (sau 100%) ale indicelui semnifică o variaţie slabă
în timp a fenomenului; cu cât valorile indicelui dinamicii se îndepărtează de 1
(sau 100%), într-un sens sau altul, cu atât variaţia în timp a fenomenului este
mai pronunţată.
Interpretarea indicelui dinamicii trebuie să ţină cont de natura şi
particularităţile fenomenului studiat: o tendinţă crescătoare poate fi atât
pozitivă, pentru indicatori precum: volumul fizic al producţiei, productivitatea
muncii, durata medie de viaţă, câştigul salarial real, cât şi nagativă, pentru
indicatori precum: preţurile de consum, costul de producţie, consumul de
materiale, rata mortalităţii, rata divorţialităţii etc.
În funcţie de alegera bazei de raportare (a nivelului de referinţă), indicii
cronologici se calculează sub una dintre următoarele două forme: indici cu
bază fixă și indici cu bază mobilă (cu baza în lanţ).
Pentru caracterizarea corectă a dinamicii unei variabile prin intermediul
indicilor statistici trebuie respectate anumite condiţii: alegerea bazei de
comparaţie ţinând cont de argumente viabile; asigurarea echidistanţei între
valorile numerice ale unei serii de indici; interpretarea indicilor în contextul
specific variabilei analizate.
ƒ Indici teritoriali – sunt mărimi relative de coordonare, calculate ca
raport între termenii unei serii de spaţiu; măsoară variaţia
fenomenelor social-economice observate în colectivităţi
coexistente în timp, dar situate în spaţii diferite (spaţii geografice
yA
sau organizatorice): I Ay / B = (100)
yB
unde A, B,...= unităţi de spaţiu (unităţi administrativ teritoriale: localităţi,
judeţe, regiuni, tări etc. sau unităţi organizatorice: societăţi
comerciale, instituţii, ramuri sau sectoare economice,
centre universitare etc.)
iar yA,yB = nivelurile fenomenului înregistrate în unitatea teritorială A,
respectiv B.
Cele mai multe aplicaţii ale indicilor se referă la compararea sub formă de
raport a nivelurilor înregistrate de un fenomen în diferite unităţi de timp; de
aceea, atât în practica statistică, cât şi în această lucrare, locul central îl ocupă
indicii dinamicii (cronologici).
` După nivelul de agregare a datelor, sau sfera de cuprindere a
fenomenului, distingem:
ƒ Indici individuali (elementari, simpli), notaţi, de regulă, cu i şi
calculaţi ca raport a două valori numerice ale unui indicator
înregistrate la nivelul unităţilor elementare ale unei populaţii:
yt yA
ity/ 0 = (100) i Ay / B = (100)
y0 yB
De exemplu, dacă studiem evoluţia preţurilor din România, nivelul
elementar îl constituie preţul fiecărui produs; dacă studiem dinamica cifrei de
afaceri dintr-o ramură economică, nivelul elementar îl reprezintă fiecare agent
114
Analiza statistică a seriilor cronologice

economic din acea ramură; în analiza evoluţiei populaţiei ocupate din ţara
nostră, nivelul individual poate fi reprezentat de ramurile economiei naţionale
sau de unităţile administrativ teritoriale (judeţe, regiuni).

ƒ Indici de grup (sintetici), notaţi cu I şi calculaţi la nivel de grup (de


colectivitate); ei sintetizează modificările înregistrate la nivelul
unităţilor elementare componente. În exemplele prezentate
anterior la indicii elementari, nivelul de grup este reprezentat de
preţurile tuturor produselor, cifra de afaceri a ramurii economice,
populaţia ocupată din economia românească.

I 1Y/ 0 =
∑ y (100)
1

∑y 0

I AY B =
∑ y (100)
A

∑y B

` În funcţie de metoda lor de calcul , indicii de grup pot fi:


• Indici agregaţi – sunt obţinuţi prin compararea sumelor
elementelor de agregare. Pentru o grupă de unităţi sau pentru
întreaga colectivitate, nivelul absolut al caracteristicii complexe
rezultă din însumarea (agregarea) nivelurilor observate pentru
fiecare unitate a ansamblului ( ∑ ∑
y1 , y 0 ).
Dar, în majoritatea cazurilor, fenomenele social-economice sunt alcătuite
din fenomene eterogene a căror însumare în expresie naturală nu este posibilă
sau nu are sens: cantităţile produse cau comercializate ale diferitelor mărfuri nu
se pot aduna, iar cumularea preţurilor acestora nu are sens (valorile de
întrebuinţare fiind distincte). Deoarece logica economică respinge sumele
simple de tipul ∑ x sau ∑
f , pentru a stabili nivelurile totalizatoare ale
factorilor ce determină variaţia în timp sau spaţiu a unui ansamblu de elemente
eterogene, este necesară introducerea în calcul a unui comăsurător (numit şi
pondere sau frecvenţă ) care să facă posibilă însumarea.
Contribuţia fiecărui factor (x, f) la modificarea nivelului fenomenului
complex pentru ansamblul unităţilor studiate, se obţine lăsând liberă variaţia
acestuia şi menţinând comăsurătorul constant la nivelul fiecărui element al
colectivităţii; indicii de grup care se bazează pe determinarea prealabilă a unor
astfel de agregate se numesc tot indici agregaţi şi se obţin pe baza relaţiilor:

I 1x/ 0 =
∑x f 1
- măsoară influenţa factorului calitativ
∑x f 0

I 1f/ 0 =
∑ xf 1
- măsoară influenţa factorului cantitativ
∑ xf 0

• Indici medii aritmetici – se calculează ca o medie aritmetică


ponderată a indicilor individuali, cunoscând nivelurile de bază ale
factorului de ponderare. Dacă ne referim la fenomenul complex
(y), cunoscând:

115
Statistică

⎧∑ y

⎨ y y1
⎪i1 / 0 = y ⇒ y1 = i1 / 0 ⋅ y 0
y

⎩ 0

obţinem relaţia: I 1y/ 0 =


∑y 1
=
∑i y
1/ 0 ⋅ y0
∑y 0 ∑ y0

Indicele de grup calculat ca medie aritmetică a indiclor individuali se


aplică în practica statistică în special pentru evidenţierea influenţei factorului

cantitativ: I y( f )
=
∑i ⋅ x
f
1/ 0 0 f0
∑x f
1/ 0
0 0

unde x0 f 0 - nivelul individual al fenomenului complex în perioada de


bază;
i1f/ 0 - indicii individuali ai factorului cantitativ.
• Indici medii armonici – se calculează ca o medie armonică
ponderată a indicilor individuali, cunoscând nivelurile curente (din
perioada analizată) ale factorului de poderare. Pentru variabila
complexă,cunoscând:

⎧∑ y1

⎨ y y1 1
⎪i1 / 0 = y ⇒ y 0 = i y ⋅ y1
⎩ 0 1/ 0

obţinem relaţia: I 1y/ 0 =


∑y 1
=
∑y 1

∑y o
1
∑i ⋅ y y 1
1/ 0
Indicele de grup calculat ca medie armonică a indicilor individuali se
aplică în practica statistică, de regulă, pentru determinarea influenţei factorului
calitativ:

I 1y/(0x ) =
∑x f 1 1

1
∑i ⋅x x 1 1f
1/ 0

unde x1 , f 1 - nivelul individual al fenomenului complex în perioada


curentă;
i1x/ 0 - indicii individuali ai factorului calitativ.
Indicii calculaţi sub formă de medie se aplică atunci când nu se cunosc
toate elementele necesare determinării indicilor agregaţi; de aceea, indicii medii
– aritmetici sau armonici – trebuie să îndeplinească două condiţii: să fie o
medie a indicilor individuali ai fenomenului studiat şi să fie egali ca valoare cu
indicele agregat substituit.
• Indici calculaţi ca raport a două mărimi medii – folosiţi pentru
măsurarea variaţiei unor caracteristici derivate ce se formează ca
mărime medie – de obicei, medie aritmetică ponderată – la nivelul
unei grupe sau al colectivităţii. Este vorba de colectivităţi alcătuite
din elemente asemănătoare, omogene din punct de vedere
statistic (de exemplu: produse de acelaşi fel, număr de muncitori),
caz în care agregarea elementelor se poate face atât pentru
116
Analiza statistică a seriilor cronologice

variabila complexă ( ∑y - care poate fi: consum de materiale,


fond de salarii) cât şi pentru variabila factorială de ordin cantitativ
(∑ f - volumul fizic al producţiei, număr total de muncitori), iar
variabila factorilă de ordin calitativ se determină ca o mărime
medie la nivelul colectivităţii studiate:

∑ y = ∑ xf = x ⋅ f = x ⋅ S
x= ∑ ∑
∑f f ∑f
unde: x - nivelul mediu al factorului calitativ (de exemplu: consum
specific individual de materiale, salariu mediu realizat);
x - nivelurile individuale ale caracteristicii calitative derivate
(acestea au caracter de mărime relativă de intensitate, fiind
rezultat al raportului dintre două caracteristici de natură diferită);
f - frecvenţa de apariţie a nivelurilor individuale;
f
S= - ponderea fiecărui element sau
∑ f
structura colectivităţii cercetate.
Deoarece nivelul mediu al factorului calitativ astfel construit depinde de
nivelurile individuale observate la fiecare element al colectivităţii (x) şi de
structura acesteia (S), forma generală a indicelui de grup calculat ca raport de
medii este:

I 1x/ 0 =
x1
=
∑x f 1 1
÷
∑x f
0 0
=
∑x S 1 1

x0 ∑f 1 ∑f 0 ∑x S 0 0

El reflectă modificarea medie a caracteristicii ( x ) sub acţiunea


conjugată a factorilor calitativi (x) şi cantitativi – structurali (f sau S).
` În funcţie de complexitatea informaţiilor pe care le sintetizează,
indicii pot fi:
ƒ Indici generali – exprimă variabilitatea globală a unui fenomen
determinată de modificarea concomitentă a tuturor factorilor de
influenţă. Se determină la nivelul unei unităţi statistice (ca indice
individual) sau la nivelul întregii colectivităţi (ca indice de grup):

i1y/(0x , f ) =
y1 x f
= 1 1 I1/ 0 =
∑y 1
=
∑x
1 1 f
y0 x0 f 0 ∑y 0 ∑x
0 f0
ƒ Indici factoriali – exprimă variabilitatea fenomenului general
determinată de influenţa fiecăruia dintre factori. Pentru separarea
influenţei unui factor, nivelurile celorlalţi factori se menţin
constante (joacă rol de pondere).
Pentru evidenţierea influenţei factorului calitativ (x) asupra variaţiei unui
fenomen general (y) există două posibilităţi:
x1 f1 x x1 f 0 x
i1y/(0x ) = = 1 = i1x/ 0 sau i1y/(0x ) = = 1 = i1x/ 0
x0 f 0 x0 x0 f 0 x0

I 1y/(0x ) =
∑x f
1 1
sau I 1y/(0x ) =
∑x 1 f0
∑x f
0 1 ∑x 0 f0

117
Statistică

Pentru evidenţierea influenţei factorului cantitativ (f) avem, de


asemenea, două posibilităţi de ponderare:
x1 f 1 f x0 f1 f
i1y/(0f ) = = 1 = i1f/ 0 sau i1y/(0f ) = = 1 = i1f/ 0
x1 f 0 f0 x0 f 0 f0

I 1y/(0f ) =
∑x f 1 1
sau I 1y/(0f ) =
∑x 0 1 f
∑x f 1 0 ∑x 0 f0
Se observă că în cazul indicilor individuali, metoda de ponderare aleasă
nu influenţează rezultatul: indicii factoriali individuali sunt egali cu indicii
individuali ai factorului respectiv:
i1y/(0x ) = i1x/ 0 şi i1y/(0f ) = i1f/ 0
În cazul indicilor de grup, nivelurile indicilor factoriali diferă în funcţie de
metoda de ponderare aleasă. Explicaţia constă în aceea că indicii de grup fiind
– cum am demostrat anterior – medii (aritmetice sau armonice) ale indicilor
individuali, nivelurile lor depind şi de frecvenţe (ponderi).
3.3.3. Proprietățile indicilor. Teste de verificare

Indicii, atât cei elementari cât şi cei de grup, au anumite proprietăţi


numite şi teste de verificare , însă nu toate proprietăţile pe care le îndeplinesc
indicii elementari sunt satisfăcute de toţi indicii de grup. Dintre proprietăţile
indicilor elementari se disting:
• identitatea – semnifică faptul că prin raportarea mărimii
indicatorului, corespunzătoare acealeiaşi perioade (t) sau unităţi
spaţiale (A), indicele va fi egal cu unitatea (sau cu 100, dacă este
exprimat procentual):
yt yA
it / t = (100) = 1 (100%) iA/ A = (100) = 1 (100%)
yt yA
• reversibilitatea în timp şi spaţiu – presupune că, pornind de la
indicii elementari cunoscuţi imy / n şi iny/ m (unde m şi n sunt două
unităţi de timp sau spaţiu), vom avea
1 1
imy / n ⋅ iny/ m = 1 ⇒ imy / n = y
sau iny/ m = y
i n/m i m/n

• circularitatea – presupune că, pornind de la indicii elementari


cunoscuţi - iny/ m şi iny/ p - unde m, n şi p sunt trei perioade de timp
sau unităţi de spaţiu diferite, se poate determina indicele:
imy / p = imy / n ⋅ iny/ p

imy / p imy / p
Relaţiile derivate sunt: imy / n = sau iny/ p =
iny/ p imy / n

118
Analiza statistică a seriilor cronologice

• proporţionalitatea – dacă mărimea indicatorului simplu, din


unitatea de timp sau spaţiu m este un multiplu de k al mărimii
indicatorului din unitatetea n, atunci indicele elementar im / n este şi
el un multiplu de k:
xm k ⋅ xn
x m = kx n ⇒ imx / n = = =k
xn xn

3.4. Sisteme de ponderare utilizate în construcţia


indicilor factoriali de prețuri
Valorile variabilelor statistice înregistrate pot fi însumate sau calculate
sub formă de mărime medie pentru a obţine nivelul ansamblului. În primul caz
se obţin valori agregate care trebuie, prin metoda indicilor, să fie comparate în
timp şi spaţiu, obţinându-se indicii agregaţi.
În practica statistică, o problemă dificilă este alegerea şi folosirea
ponderilor atunci când valorile individuale ale agregatului nu sunt direct
însumabile şi este necesară folosirea unui element etalon, denumit pondere.
Alegerea sistemului de ponderare, aşa cum am mai menţionat, pentru
construirea indicilor de grup factoriali, se face în mod diferenţiat, ţinând cont de:
• conţinutul indicatorilor comparaţi;
• natura datelor existente în evidenţa curentă;
• posibilitatea de a stabili o analogie între descompunerea pe factori
de influenţă a modificării absolute şi relative (testul reversibilităţii
factorilor).
De-a lungul timpului au fost concepute câteva sute de sisteme de
ponderare a indicilor factoriali de grup; dintre acestea, teoria şi practica
statistică au reţinut doar o parte, cele mai importante fiind prezentate în
continuare.
3.4.1. Sistemul de ponderare Laspeyres

În cadrul acestui sistem – propus în 1864 de către Etienne


Laspeyres (1834 - 1913), economist şi statistician german, pentru calculul
unui indice de grup al preţurilor – variaţia fiecărui factor este ponderată cu
nivelurile de bază ale celorlalţi factori, indiferent de natura şi conţinutul
factorilor a căror influenţă se determină.
Indicii factoriali se determină cu ajutorul următoarelor relaţii:
• pentru factorul calitativ:

I 1y/(0x ) =
∑x1 0 f
∑x0 f0
• pentru factorul cantitativ:

I 1y/(0f ) =
∑x 0 1 f
∑x 0 f0
Indicii factoriali ai dinamicii valorii, propuşi de Laspeyres pot fi
determinaţi după mai multe relaţii echivalente:
• indicele preţurilor poate fi calculat:
o sub formă de indice agregat:
119
Statistică

I 1p/ 0 =
∑pq 1 0

∑p q 0 0

o ca medie aritmetică a indicilor individuali ai preţurilor,


ponderaţi cu valoarea din perioada de bază:
p1
∑p pq 0 0
∑i p q
p

I1p/ 0 = 0
= 1/ 0 0 0
= ∑ i1p/ 0 ⋅ S 0
∑pq 0 0 ∑p q 0 0

p0 q0
unde S 0 = - structura valorii din perioada de bază.
∑ p0 q0
o ca medie armonică a indicilor elementari ai preţurilor,
ponderaţi cu valoarea obţinută pe baza cantităţilor din
perioada trecută şi a preţurilor din perioada curentă:

I 1p/ 0 =
∑pq 1 0
=
∑pq 1 0

p 1
∑p pq 0
1 0 ∑i p q p 1 0
1 1/ 0

• indicele cantităţilor (volumului fizic) poate fi calculat:


o sub formă de indice agregat:

I 1q/ 0 =
∑p q 0 1

∑p q 0 0

o ca medie aritmetică a indicilor individuali ai cantităţilor,


ponderaţi cu valoarea din perioada de bază:
q1
∑q p q 0 0
∑i p qq

= = = ∑ i1q/ 0 ⋅ S 0
q 0 1/ 0 0 0
I
∑p q ∑p q
1/ 0
0 0 0 0

o ca medie armonică a indicilor elementari ai cantităţilor,


ponderaţi cu valoarea obţinută pe baza cantităţilor curente
şi a preţurilor din perioada de bază:

I 1q/ 0 =
∑p q 0 1
=
∑p q 0 1

q 1
∑q p q 0
0 1 ∑i p q q 0 1
1 1/ 0

Dintre aceste relaţii, cel mai frecvent se utilizează a doua variantă,


atunci când se cunosc indicii elementari ai produselor (ai preţurilor sau
cantităţilor) şi valoarea producţiei sau desfacerilor din perioada de bază (sau
structura acestora din aceeaşi peioadă).
Sistemul de ponderare Laspeyres se utilizează, de regulă, pentru
analiza în dinamică a variabilei cantitative, dar în practica statistică se utilizează
pentru cercetarea evoluţiei în timp sau spaţiu a variabilei calitative (calculul
indicelui preţurilor de consum).

120
Analiza statistică a seriilor cronologice

3.4.2. Sistemul de ponderare Paasche

În cadrul acestui sistem – propus în 1874 de Hermann Paasche


(1851 - 1925), economist şi statistician german, tot pentru calculul unui indice
de grup al preţurilor (mai exact, pentru cotaţii la bursă) – variaţia fiecărui factor
este ponderată cu nivelurile curente ale celorlalţi factori, indiferent de natura şi
conţinutul factorilor a căror influenţă se cuantifică; relaţiile care stau la baza
indicilor factoriali de tip Paasche sunt:

I 1y/(0x ) =
∑x f 1 1
- pentru factorul calitativ
∑x f 0 1

I 1y/(0f ) =
∑x f 1 1
- pentru factorul cantitativ
∑x f 1 0

Formulele echivalente de calcul al indicilor factoriali Paasche ai valorii


sunt următoarele:
• pentru indicele de preţuri Paasche
o forma agregată:

I 1p/ 0 =
∑pq 1 1

∑p q 0 1

o ca medie aritmetică a indicilor individuali ai preţurilor,


ponderaţi cu valoarea obţinută pe baza cantităţilor curente
şi preţurilor din perioada de bază:
p1
∑p pq 0 1
∑i p q p

= =
p 0 1/ 0 0 1
I
∑p q ∑p q
1/ 0
0 1 0 1

o ca medie armonică a indicilor elementari ai preţurilor,


ponderaţi cu valoarea curentă:

I 1p/ 0 =
∑pq 1 1
=
∑pq 1 1

p 1
∑p pq 0
1 1 ∑i p q p 1 1
1 1/ 0

• pentru indicele volumului fizic:


o forma agregată:

I 1q/ 0 =
∑pq 1 1

∑pq 1 0

o ca medie aritmetică ponderată a indicilor elementari ai


cantităţilor:
q1
∑q p q 1 0
∑i p q q

= =
q 0 1/ 0 1 0
I
∑pq ∑pq
1/ 0
1 0 1 0

121
Statistică

o ca medie armonică ponderată a indicilor individuali ai


volumului fizic:

I 1q/ 0 =
∑pq 1 1
=
∑pq 1 1

q 1
∑q pq 0
1 1 ∑i p q
q 1 1
1 1/ 0

În practica statistică, acest sistem de ponderare este utilizat, în special,


pentru analiza variaţiei variabilei calitative (indicele preţurilor produsului intern
brut).

3.4.3. Sistemul de ponderare Fisher

În cadrul acestui sistem, indicii factoriali se calculează ca o medie


geometrică a indicilor de tip Laspeyres şi Paasche:

I 1y/(0x ) =
∑x 1 f0

∑x 1 1 f
∑x 0 f0 ∑x 0 1 f

I 1y/(0f ) =
∑x 0 1 f

∑x f 1 1

∑x 0 f0 ∑x f 1 0

Relaţiile de mai sus mai sunt cunoscute şi sub denumirea de formule


ideale, deoarece satisfac majoritatea testelor de verificare a indicilor. De aceea,
de multe ori, formulele indicilor Fisher au constituit modele teoretice ale altor
sisteme de ponderare.
Cu toate acestea, idicele Fisher este puţin utilizat în practica statistică,
datorită volumului mare şi a diversităţii informaţiilor necesare calculului. El se
foloseşte la construirea indicilor teritoriali în comparaţiile internaţionale ale
indicatorilor sintetici de rezultate ai economiei naţionale.

3.4.4. Proprietăţi ale indicilor Laspeyres, Paasche şi Fisher

• indentitatea – este îndeplinită de toţi cei trei indici:

Laspeyres: I tp/ t =
∑ p q = 1; I
t t q
=
∑ p q =1
t t

∑pq ∑pq
t /t
t t t t

Paasche: I tp/ t =
∑ p q = 1;
t t
I tq/ t =
∑ p q =1
t t

∑pq t t ∑pq t t

Fisher: I tp/ t = 1 ⋅ 1 = 1; I tq/ t = 1 ⋅ 1 = 1

• circularitatea – nu este îndeplinită de nici unul din cei trei indici.


Pentru indicii de preţ de tip Laseyres:

122
Analiza statistică a seriilor cronologice

I ap/ b =
∑p q a b ∑p q ; I =∑p q
; I bp/ c =
b c p a c
;
∑p q ∑p q ∑p q
a/c
b b c c c c

⇒ I ap/ b ⋅ I bp/ c =
∑p q ⋅∑p q ≠ ∑p q
a b b c a c

∑p q ∑p q ∑p qb b c c c c

⇒ I ap/ b ⋅ I bp/ c ≠ I ap/ c


unde a, b, c sunt trei unităţi de timp sau spaţiu.
Demonstraţia este asemănătoare pentru celelalte tipuri de indici.
• reversibilitatea în timp sau spaţiu – este îndeplinită doar de
indicii de tip Fisher.
Pentru indicii Laspeyres de preţuri:

I ap/ b =
∑p q a b
⇒ I ap/ b ⋅ I bp/ a =
∑p q ⋅∑p q
a b b a
≠1
∑p q b b ∑p q ∑p q
b b a a

I bp/ a =
∑p q b a

∑p q a a

Pentru indicii Paasche de preţuri:

I ap/ b =
∑p q a a
⇒ I ap/ b ⋅ I bp/ a =
∑p q ⋅∑p q
a a b b
≠1
∑p q b a ∑p q ∑p q
b a a b

I bp/ a =
∑p q b b

∑p q a b

Pentru indicii Fisher de preţuri:

I ap/ b ⋅ I bp/ a =
∑p q ⋅∑p q ⋅∑p q ⋅∑p q
a b a a b a b b
=1
∑p q ∑p q ∑p q ∑p q
b b b a a a a b

• reversibilitatea factorilor – este şi ea, după cum am văzut din


exemplul 4.3, îndeplinită doar de indicii de tip Fisher.
Pentru indicii de tip Laspeyres:

I1v/ 0 =
∑pq ; I = ∑p q ; I = ∑p q
1 1 v( p) 1 0 v(q) 0 1

∑pq ∑p q ∑p q
1/ 0 1/ 0
0 0 0 0 0 0


∑pq ⋅∑p q ≠ ∑pq 1 0 0 1 1 1

∑p q ∑p q ∑p q 0 0 0 0 0 0

⇒ I 1v/ 0 ≠ I 1v/(0p ) ⋅ I 1v/(0q )


Demonstraţia este asemănătoare şi pentru indicii de tip Paasche.
În sistemul de ponderare Fisher, testul se verifică:

123
Statistică

I 1v/(0p ) ⋅ I 1v/(0q ) =
∑pq ⋅∑pq
1 0 1 1

∑p q ⋅∑pq
0 1 1 1
=
∑pq 1 1
= I 1v/ 0
∑p q ∑p q
0 0 0 1 ∑p q ∑pq0 0 1 0 ∑p q 0 0

Exemplul 3.5. Din evidenţa unei firme comerciale se cunosc


următoarele date privind evoluţia preţurilor şi a cantităţilor vândute pe piaţă din
trei produse diferite (tabelul 3.6.)
Tabelul 3.6.
Produsul U.M. Cantitatea Preţul unitar de
vândută – q – în vânzare – p –
perioada : în perioada:
0 1 0 1
A buc 100 150 10 20
B kg 300 500 20 30
C l 200 150 5 10

Să se determine indicii de grup factoriali de tip Laspeyres, Paasche şi


Fisher şi să se verifice testul reversibilităţii factorilor.
Rezolvare
Indicii de grup factoriali, ai preţurilor şi ai cantităţilor, calculaţi conform
relaţiilor anterioare, specifice celor trei sisteme principale de ponderare, sunt
prezentaţi în tabelul 3.7.
Tabelul 3.7
Sistemul de Indici de grup ai:
ponderare
preţurilor ( I 1v/(0p ) ) cantităţilor ( I 1v/(0q ) )

Laspeyres 1.625 1.531

Paasche 1.592 1.500

Fisher 1.608 1.515

Comparând nivelurile indicilor factoriali calculaţi pe baza color trei


sisteme de ponderare, se observă că aceştia resprectă urmatoarea relaţie:
IPaasche<IFisher<ILaspeyres
1.592<1.608<1.625
1.500<1.505<1.531
Indicele general al valorii desfacerilor pentru cele trei produse este:

I 1v/(0p ,q ) =
∑pq 1 1
= 2.4375
∑p q 0 0

Aplicând testul reversibilităţii factorilor, se observă că doar sistemul


Fisher îl respectă:
Laspeyres: I Lp ⋅ I Lq = 1.625 ⋅ 1.531 = 2.48 ≠ 2.43
Paasche: I Pp ⋅ I Pq = 1.592 ⋅ 1.500 = 2.38 ≠ 2.43
Fisher: I Fp ⋅ I Fq = 1.608 ⋅ 1.515 = 2.43 = 2.43
124
Analiza statistică a seriilor cronologice

3.4.5. Indicii de prețuri din România

În cazul analizei economice şi sociale, pentru fundamentarea


deciziilor de politică economică, sunt necesare comparaţiile în timp sau în
profil teritorial (pe plan naţional sau internaţional) ale principalilor indicatori
macroeconomici de rezultate – produs intern brut, consum privat, formarea
brută a capitalului, etc. Deoarece toate aceste agregate macroeconomice sunt
exprimate valoric – modificarea lor în timp se produce ca urmare a acţiunii
conjugate a doi factori: cantitate (q) şi preţ (p) – pentru a cunoaşte evoluţia lor
reală în timp este necesar să se elimine influenţa variaţiei preţurilor.
Alegerea unei formule de calcul a indicelui care să sintetizeze cât mai
corect modificarea preţurilor a fos amplu dezbătută de către specialişti în
secolul trecut; un singur exemplu este concludent: în 1922 Irving Fisher a
examinat utilitatea a 134 de formule matematice pentru construirea unui indice
de preţuri, apelând la testele de verificare a indicilor.
Din punct de vedere teoretic există numeroase posibilităţi pentru a
construi un indice de preţuri, dar în practica statistică şi-au găsit pe larg
aplicarea un număr restrâns de formule de calcul ale indicilor preţurilor; un loc
aparte îl ocupă indicele Laspeyres ( I LP ) şi indicele Paasche ( I PP ) .
Pornind de la relaţiile lor de calcul, opţiunea pentru un anumit tip de
indice se poate face luând în considerare următoarele aspecte:
• posibilitatea de obţinere a datelor necesare construirii lor;
• facilitatea intrepretării rezultatelor obţinute;
• comparabilitatea în timp şi spaţiu.
Alegerea corectă a tipului de indice folosit în fiecare caz în parte se
realizează prin stabilirea avantajelor şi dezavantajelor fiecăruia.
• Indicele Laspeyres. Relaţii de calcul.

I P
=
∑pq
1 0
sau I P
=
∑i p q
p
1/ 0 0 0
; unde i1p/ 0 =
p1
∑p q ∑p q
L L
0 0 0 0 p0
Avantaje şi limite.
o Costurile necesare determinării acestui indice sunt scăzute
(se înregistrează doar preţurile, cantităţile şi structura lor
fiind cele determinate pentru perioada de bază).
o Are o largă aplicabilitate în practică, majoritatea indicilor de
preţuri calculându-se astfel (indicele preţurilor de consum,
indicele preţurilor producţiei industriale).
o Fiind un indice cu pondere constantă, într-o serie de astfel
de indici, aceştia sunt comparabili între ei.
o Nu cuprinde în calcul modificarea preţurilor produselor noi
(apărute în cursul perioadei analizate).
o Indică limita superioară a modificării relative a preţurilor;
bazându-se pe structura produselor din perioada de bază,
nu ţine cont de faptul că aceasta se modifică în favoarea
înlocuirii produselor scumpe cu altele mai ieftine, dar care
satisfac aceleaşi necesităţi.
⇒ supraestimează nivelul modificării preţurilor.

125
Statistică

• Indicele Paasche. Relaţii de calcul.

I PP =
∑pq
1 1
sau I PP =
∑pq 1 1

∑p q
0 1
1
∑ i ⋅p q
p 1 1
1/ 0

Avantaje şi limite.
o Costurile necesare determinării acestui indice sunt ridicate
(se înregistrează atât preţurile cât şi cantităţile din perioada
curentă).
o Se aplică mai rar în practică, în general pentru calculul
indicilor anuali de preţuri (deflatorul PIB).
o Fiind un indice cu pondere variabilă, într-o serie de astfel
de indici, aceştia nu sunt comparabili între ei.
o Nu surprinde modificarea preţurilor produselor vechi (care
s-au produs în perioada de bază dar nu mai sunt produse
sau solicitate în perioada curentă).
o Indică limita inferioară a modificării relative a preţurilor; nu
ţine cont de faptul că în structura produselor din perioada
curentă, bunurile cu creşteri mari de preţuri vor avea o
pondere mică, iar cele cu creşteri mai mici de preţuri, vor
avea o pondere mare.
⇒ subestimează nivelul modificării preţurilor.
Principalii indici de preţuri calculaţi şi publicaţi în ţara noastră – utilizaţi,
de altfel, în majoritatea ţărilor, ca şi în statistica internaţională sunt:
• Indicele preţurilor consumatorului (indicele preţurilor de consum);
• Indicele preţurilor produselor industriale.
• Indicele preţurilor produsului intern brut (deflatorul PIB);

Indicele preţurilor de consum (indicele preţurilor


consumatorului) - IPC
Indicele preţurilor de consum (IPC) măsoară evoluţia de ansamblu a
preţurilor mărfurilor cumpărate şi a tarifelor serviciilor utilizate de către populaţie
într-o anumită perioadă de timp (perioadă curentă), faţă de o perioadă
anterioară (perioadă de bază sau de referinţă). Indicele preţurilor de consum se
calculează numai pentru elementele care intră în consumul direct al populaţiei,
fiind excluse: consumul din resurse proprii, cheltuielile cu caracter de investiţii
şi acumulare, dobânzile plătite la credite, ratele de asigurare, amenzile,
impozitele etc. precum şi cheltuielile aferente plăţii muncii pentru producţia
agricolă a gospodăriilor individuale.
Cercetările statistice selective organizate de Institutul Naţional de
Statistică (INS), prin care se culeg datele necesare calculării acestui indice,
utilizează urmatoarele eşantioane, reprezentative la nivel național: eşantionul
de localităţi, eşantionul unităţilor de observare, eşantionul de mărfuri şi servicii.
Informaţiile colectate prin această cercetare sunt completate cu cele
provenite din cercetarea privind preţurile produselor vândute de producătorii
agricoli particulari în pieţele agroalimentare urbane, asigurându-se astfel
acoperirea principalelor surse de aprovizionare a populaţiei.
Preţurile/tarifele unice pe ţară stabilite prin acte normative sau note de
negociere (energie electrică şi termică, gaz metan, transport pe calea ferată,
aeriană şi fluvială, servicii de corespondenţă şi curierat, abonamente radio-tv)
sunt înregistrate pe baza informaţiilor primite de la unităţile care le practică.

126
Analiza statistică a seriilor cronologice

Ponderile utilizate pentru calculul indicilor preţurilor de consum sunt


obţinute din Cercetarea statistică a bugetelor de familie şi rezultă din structura
cheltuielilor medii lunare efectuate de o gospodărie pentru cumpărarea
bunurilor şi plata serviciilor necesare satisfacerii nevoilor de trai. Anual se
analizează structura cheltuielilor efectuate de populaţie şi, dacă mutaţiile
intervenite sunt semnificative, ponderile se actualizează.
Indicele preţurilor de consum se calculează ca un indice de tip
Laspeyres cu bază fixă:

IPC1 / 0 =
∑i ⋅ p q
p
1/ 0 0 0

∑p q 0 0

Indicele preţurilor de consum se determină prin agregări succesive, pe


baza preţurilor/tarifelor înregistrate pentru bunurile care fac obiectul consumului
direct al populaţiei. Indicii preţurilor calculaţi pentru fiecare sortiment (pe baza
mediei geometrice a indicilor la nivel de varietate) se agregă la nivel de post de
cheltuieli, grupe de mărfuri şi servicii şi la nivel de indice general, prin aplicarea
ponderilor constante corespunzătoare anului de bază. Utilizarea ponderilor
constante permite măsurarea evoluţiei preţurilor în timp, evitându-se influenţa
modificărilor structurale, sporeşte operativitatea cercetării statistice şi reduce
costurile acesteia.
Metodologia de calcul al IPC în România este armonizată cu
metodologia utilizată de Oficiul de Statistică al Uniunii Europene (Eurostat) la
nivel de clasificări, nomenclatoare, metode de eşantionare şi de calcul.
Clasificarea COICOP (Clasificarea Consumului Individual pe Destinaţii
convenită de CEE/Eurostat/OECD asigură comparabilitatea indicilor la nivel
european. Ultima versiune a acestei clasificări cuprinde 12 diviziuni, detaliate în
39 de grupe şi 93 de clase de mărfuri şi servicii. Indicii preţurilor de consum pe
grupe de mărfuri şi servicii, conform clasificării Eurostat, rezultă prin regruparea
sortimentelor şi a posturilor cuprinse în Nomenclatorul utilizat pentru calculul
IPC la nivel naţional, potrivit conţinutului şi structurii prevăzute în COICOP.
Utilitatea practică deosebită a acestui indice rezultă din varietatea şi
importanţa domeniilor în care este folosit.
™ Măsurarea nivelului inflaţiei, prin intermediul următorilor indicatori
derivaţi ai IPC (ritmuri statistice):
• rata lunară a inflaţiei – exprimă creşterea preţurilor de consum într-o
lună faţă de luna precendentă ;
• rata medie lunară a inflaţiei – exprimă media creşterilor lunare ale
preţurilor;
• rata anuală a inflaţiei - exprimă creşterea medie a preţurilor de
consum într-un an faţă de anul precedent;
• rata inflaţiei la sfârşitul anului – exprimă creşterea preţurilor de
consum în luna decembrie a unui an faţă de luna decembrie a anului
precedent.
™ Reevaluarea capitalului fix, realizată periodic, pentru a corela
valoarea elementelor componente ale acestei categorii de capital
productiv cu preţurile existente la momentul reevaluării ; valorile
astfel calculate poartă numele de valori de înlocuire ale capitalului
fix (indiferent de nivelul de analiză, micro sau macroeconomic).
™ Determinarea câştigului salarial real şi a veniturilor reale, ca
principali indicatori ai calităţii vieţii şi stabilirea nivelului indexărilor
pentru diferitele categorii de venituri care revin populaţiei, condiţie
esenţială pentru menţinerea sau creşterea puterii de cumpărare a
populaţiei.

127
Statistică

Ca oricare stat membru al Uniunii Europene, şi România calculează doi


indici ai preţurilor de consum, fiecare având un rol distinct:
• IPC este utilizat pentru fundamentarea pe plan naţional a politicilor
monetare, sociale, economice, bugetare şi fiscale;
• IAPC serveşte exclusiv scopurilor de comparare internaţională a
nivelului inflaţiei între ţările membre şi pentru stabilirea politicii monetare la
nivelul Uniunii Europene.
Între cei doi indici nu există diferenţe motodologice; metodologia lor de
calcul este în conformitate cu Regulamentul Consiliului (CE) referitor la indicii
armonizaţi ai preţurilor de consum. Pentru ambii indici, INS realizează
colectarea unică a preţurilor şi tarifelor, iar agregarea preţurilor la nivel
elementar este unică; agregarea la nivel superior se realizează pe baza
aceluiaşi sistem de ponderare, Laspeyres, ce reflectă specificitatea şi structura
consumului populaţiei României, obţinute prin cercetarea statistică asupra
bugetelor de familie.
Diferenţele între cei doi indici apar la nivelul următoarelor elemente:
• forma de prezentare a posturilor de agregare – în sistemul naţional,
la calculul IPC se utilizează un nomenclator de mărfuri şi servicii structurat pe
54 de posturi de produse alimentare, 112 posturi de produse nealimentare şi 50
de posturi de servicii, semnificative pentru consumul populaţiei României; în
sistemul european se utilizează o clasificare a cheltuielilor după destinaţia de
consum (COICOP), care regrupează posturile din sistemul naţional, potrivit
acestei clasificări;
• populaţiile de referinţă – IPC acoperă cheltuielile de consum efectiv
al populaţiei României, adică preţurile şi tarifele plătite de rezidenţii români
pentru cumpărarea produselor şi serviciilor în ţara noastră; IAPC ia în calcul şi
cheltuielile efectuate de turiştii străini pe teritoriul României, pe baza datelor
estimate din balanţa de plăţi (separat pentru transport, cazare, alimentaţie
publică, recreere).
• perioada de referinţă a indicilor – IAPC este calculat lunar faţă de
media anului anterior; tot din raţiuni de comparabilitate, ponderile utilizate de
fiecare ţară la calculul IAPC sunt exprimate în preţurile lunii decembrie a anului
anterior; IPC se calculează lunar, în trei variante corespunzătoare unor baze de
referinţă diferite;
o fată de luna anterioară a aceluiaşi an, indicele evidenţiind
evoluţia preţurilor de la o lună la alta şi având cea mai mare
utilitate;
o faţă de luna decembrie a anului anterior, indicele reflectând
evoluţia preţurilor de la începutul anului;
o faţă de luna corespunzătoare a anului precedent, indicele
evidenţiind evoluţia preţurilor prin eliminarea influenţei
sezoniere asupra acesteia.
Ambii indici ai preţurilor de consum calculaţi în ţara noastră măsoară
evoluţia preţurilor şi tarifelor din România (inflaţia), IPC pentru necesităţi interne
şi IAPC pentru comparabilitate internaţională.

128
Analiza statistică a seriilor cronologice

Test de autoevaluare 2

1. În cadrul sistemului de ponderare Laspeyres:


a) variaţia fiecărui factor este ponderată cu nivelurile de bază ale celorlalţi
factori;
b) indicii factoriali nu respectă testul reversibilităţii factorilor;
c) variaţia fiecărui factor este ponderată cu nivelurile curente ale celorlalţi
factori;
d) indicii factoriali se calculează ca o medie geometrică a indicilor de tip
Paasche şi Fisher;
e) indicii factoriali se calculează ca o medie pătratică a indicilor de tip Paasche
şi Fisher.

2. Se cunosc următoarele date referitoare la activitatea de comercializare a


două produse ale unei firme:
Produsul Prețul (lei) Cantitatea (kg)
0 1 0 1
A 7 8 1500 1600
B 10 9 1000 1100
Determinați indicele de grup al prețurilor de tip Paasche și alegeți rezultatul
corect:
a) 1,0235 ; b) 1,0225; c) 1,081; d) 1,0244; e) 1,0829.

3. Dacă un fenomen economic înregistrează ritmuri ale dinamicii, cu baza în


lanţ, negative, din ce în ce mai mari în mărime absolută, atunci ultimul nivel
observat al fenomenului, comparativ cu primul, va fi:
a) mai mare sau egal; b) egal; c) mai mic;
d) mai mic sau egal; e) mai mare.

4. În cadrul sistemului de ponderare Paasche:


a) variaţia fiecărui factor este ponderată cu nivelurile de bază ale celorlalţi
factori;
b) indicii factoriali nu respectă testul reversibilităţii factorilor;
c) variaţia fiecărui factor este ponderată cu nivelurile curente ale celorlalţi
factori;
d) indicii factoriali se calculează ca o medie geometrică a indicilor de tip
Laspeyres şi Fisher;
e) indicii factoriali se calculează ca o medie pătratică a indicilor de tip
Laspeyres şi Fisher.

5. Se cunosc următoarele date referitoare la activitatea de comercializare a


două produse ale unei firme:
Produsul Prețul (lei) Cantitatea (kg)
0 1 0 1
A 7 8 1500 1600
B 10 9 1000 1100
Determinați indicele de grup al prețurilor de tip Laspeyres și alegeți rezultatul
corect:
a) 1,0235 ; b) 1,0225; c) 1,081; d) 1,0244; e) 1,0829.

129
Statistică

6. În cadrul sistemului de ponderare Fisher:


a) variaţia fiecărui factor este ponderată cu nivelurile de bază ale celorlalţi
factori;
b) indicii factoriali nu respectă testul reversibilităţii factorilor;
c) variaţia fiecărui factor este ponderată cu nivelurile curente ale celorlalţi
factori;
d) indicii factoriali se calculează ca o medie geometrică a indicilor de tip
Paasche şi Laspeyres;
e) indicii factoriali respectă testul reversibilităţii factorilor.

7. Se cunosc următoarele date referitoare la activitatea de comercializare a


două produse ale unei firme:
Produsul Prețul (lei) Cantitatea (kg)
0 1 0 1
A 7 8 1500 1600
B 10 9 1000 1100
Determinați indicele de grup al cantităților de tip Laspeyres și alegeți rezultatul
corect:
a) 1,0235 ; b) 1,0225; c) 1,081; d) 1,0244; e) 1,0829.

8. Se cunosc următoarele date referitoare la activitatea de comercializare a


două produse ale unei firme:
Produsul Prețul (lei) Cantitatea (kg)
0 1 0 1
A 7 8 1500 1600
B 10 9 1000 1100
Determinați indicele de grup al cantităților de tip Paasche și alegeți rezultatul
corect:
a) 1,0235 ; b) 1,0225; c) 1,081; d) 1,0244; e) 1,0829.

9. Dacă un fenomen economic înregistrează modificări absolute cu baza în lanţ


negative, din ce în ce mai mari în mărime absolută, atunci ultimul nivel observat
al fenomenului comparativ cu primul va fi:
a) mai mare; b) mai mic; c) egal;
d) mai mic sau egal; e) mai mare sau egal.

10. Se cunosc următoarele informații referitoare la prețurile și cantitățile


consumate în doi ani pentru trei articole:

Articolul Prețul (u.m.) Cantitatea


t1 t5 t1 t5
unt (kg) 14 19 1 1,2
carne de porc 20 26 2,5 3
(kg)
vin (l) 2 3 8 12
a) Calculați indicii de tip Laspeyres, Paasche și Fisher pentru prețuri,
cantități și valoare globală ale acestui ansamblu de articole.
b) Testați reversibilitatea factorilor pentru fiecare sistem de ponderare.

130
Analiza statistică a seriilor cronologice

Răspunsurile la toate întrebările testului de autoevaluare 2


se regăsesc în Unitatea de învățare 3, paginile 112 – 128. Pentru
aplicațiile practice și întrebările tip grilă, rezolvarea se regăsește și la
sfârșitul manualului.

Rezumat

Necesitatea analizei modificării în timp a unui fenomen apare foarte


frecvent în practică. Cunoașterea bună a variabilității în timp a unui fenomen
creează premisa estimării variabilității sale viitoare.
Pentru a putea cunoaște modificarea în timp a unui fenomen este
nevoie să facem apel la indicatori și metode specifice. Foarte des în practică se
utilizează indicatorii dinamicii pentru a cunoaște modificările de la o perioadă la
alta a unui fenomen. Aceștia se împart în trei categorii:
™ indicatori absoluți – nivelul absolut al termenilor seriei cronologice,
modificarea absolută (cu bază fixă sau în lanț)
™ indicatori relativi – indicele dinamicii și ritmul dinamicii (ambii cu bază
fixă sau în lanț)
™ indicatori medii – media nivelurilor termenilor seriei cronologice, indicele
mediu, ritmul mediu.
Indicatorii dinamicii creează premisa cunoașterii modificării în timp a
unui fenomen din aproape în aproape, de la o perioadă de timp la o alta; nu
permit determinarea unui posibil model de modificare în timp a respectivului
fenomen. Pentru a putea determina un astfel de model este necesară utilizarea
metodologiei de ajustare a seriilor cronologice. Din categoria modelelor
elementare de ajustare a seriilor cronologice fac parte: metoda grafică, metoda
mediiilor mobile, metoda mediilor eșalonate, metoda modificării medii absolute,
metoda indicelui mediu.
Datorită formei simple de calcul şi a expresivităţii cu care reflectă
modificările din toate domeniile vieţii economice şi sociale, indicii statistici sunt
utilizaţi în mod curent în majoritatea analizelor în timp şi spaţiu a fenomenelor
economico sociale: inflaţie, şomaj, evoluţia agregatelor macroeconomice, a
datoriei externe, a salariului real etc.
Pentru caracterizarea corectă a dinamicii unei variabile prin intermediul
indicilor statistici trebuie respectate anumite condiţii: alegerea bazei de
comparaţie ţinând cont de argumente viabile; asigurarea echidistanţei între
valorile numerice ale unei serii de indici; interpretarea indicilor în contextul
specific variabilei analizate.
Valorile variabilelor statistice înregistrate pot fi însumate sau calculate
sub formă de mărime medie pentru a obţine nivelul ansamblului. În primul caz
se obţin valori agregate care trebuie, prin metoda indicilor, să fie comparate în
timp şi spaţiu, obţinându-se indicii agregaţi.
De-a lungul timpului au fost concepute câteva sute de sisteme de
ponderare a indicilor factoriali de grup; dintre acestea, teoria şi practica
statistică a reţinut doar trei, Laspeyres, Paasche și Fisher, utilizate ca model
pentru construirea indicilor factoriali de grup ai prețurilor.

131
Statistică

Termeni cheie

Indicatori absoluți, relativi șu medii ai seriilor de timp, nivelul seriei cronologice,


modificarea absolută, indicele dinamicii, ritmul dinamicii, media cronologică,
medii eșalonate, medii mobile, metoda sporului mediu, metoda indicelui mediu,
indici individuali și de grup, indici generali și factoriali, sisteme de ponderare,
indici de prețuri.

Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
3. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
4. Georgescu, V., Statistică descriptivă şi inferenţiala, Editura Universitaria,
Craiova, 2006;
5. Georgescu, V., Radu, C., Statistică, Editura Reprograph, Craiova, 1999;
6. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
7. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
8. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009;
9. Voineagu, V., Ţiţan, E., Ghiţă, S., Boboc, C., Todose, D., Statistică. Baze
teoretice şi aplicaţii, Editura Economică, Bucureşti, 2007;
10. *** Buletin statistic de prețuri, 2012 - 2013
11. *** Anuarul Statistic al României 2012.

132
Probabilități și distribuții clasice de probabilitate

UNITATEA DE ÎNVĂŢARE4
PROBABILITĂȚI ȘI DISTRIBUȚII
CLASICE DE PROBABILITATE
Cuprinsul capitolului
Obiectivele capitolului 4
4.1. Definirea probabilității, reguli și arbori de probabilitate
4.2. Variabila aleatoare
4.3. Distribuții de probabilitate ale variabilelor aleatoare discrete
4.4. Distribuții de probabilitate ale variabilelor aleatoare continue
Rezumat
Termeni cheie
Bibliografie

Obiectivelecapitolului 4
În cadrul acestei unităţi de învăţare, structurată în
patru secţiuni şi mai multe subsecţiuni, sunt definite
principalele noțiuni de statistică matematică utile pentru
înțelegerea conceptelor statisticii inferențiale și aplicarea
corectă a metodologiei specifice acesteia în domeniul
economic: experiment aleator, eveniment, probabilitate, variabilă aleatoare,
distribuții clasice de probabilitate.
La sfârșitul unității de învățare, studentul va avea de rezolvat un test de
autoevaluare,construit gradual, ca mărime şi complexitate, din întrebări
deschise, teste grilă și aplicații practice. Încadrarea în parametrii specificaţi
(timp, variante) îi va confirma fiecărui student dezvoltarea competenţelor
necesare pentru trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
Š descrierea corectă şi completă a conceptelor de statistică matematică:
probabilități, variabile aleatoare, distribuții de probabilitate;
Š aplicarea corectă a metodelor și instrumentelor de statistică matematică
într-o cercetare economică;
Š completarea teoriei și metodologiei statistice cu bazele logice și rigoarea
necesare care conferă abilități calculatorii și criterii de validitate pentru
orizontul de competență propriu domeniului economic.

Durata medie de parcurgere a unității de învățare: 4 ore

133
Statistică

4.1. Definirea probabilității, reguli și arbori de


probabilitate

Teoria probabilităţilor este o parte integrantă a statisticii în general, dar


este,în particular, esenţială pentru teoria inferenţei statistice, care asigură
decidenţilor (oameni de afaceri, economişti) un grup de metode care îi ajută în
procesul de luare a deciziilor în condiţii de incertitudine. Incertitudinea provine
din cauză că, în situaţiile din viaţa reală avem rareori informaţii perfecte
referitoare la variatele input-uri ale unei decizii. Indiferent dacă incertitudinile se
referă la cererea pentru produsul nostru, la nivelul viitor al ratelor dobânzii sau
la posibilitatea unei greve de muncă, teoria probabilităţilor este utilă pentru
măsurarea gradului de incertitudine pe care îl presupune o astfel de situaţie.
Teoria probabilităţilor ne permite să evităm ignorarea incertitudinii sau
considerarea acesteia într-un mod întâmplător, oferindu-ne o bază pentru a
trata incertitudinea într-o manieră consistentă şi raţională.

4.1.1. Experiment aleator. Evenimente


În timp ce în statistica descriptivă studiul vizează date concrete dintr-o
observare (culegere) anterioară, în domeniul probabilităţilor încercăm mai
degrabă să prevedem, înaintea realizării unui experiment, amsamblul
rezultatelor posibile, ca şi şansele sau probabilităţile cu care se produce fiecare
dintre aceste rezultate. Studiul nostru se îndepărtează deci de contextul real
pentru a se ocupa de data aceasta de un context teoretic.
O dezvoltare logică a probabilităţilor începe prin considerarea unui
experiment aleator, deoarece acest proces generează rezultate (output-uri)
incerte cărora le atribuim probabilităţi.
Un experiment aleator este orice acţiune care, efectuată ori de câte ori se
doreşte, în aceleaşi condiţii, are un rezultat aleator. Ea se caracterizează prin
faptul că se cunoaşte ansamblul rezultatelor posibile dar nu se poate face o
predicţie certă asupra rezultatului care se va produce în momentul realizării
sale.
Prezentăm câteva exemple de experimente aleatoare şi rezultatele lor
pobile: aruncarea unei monede: cap si pajură; aruncarea unui zar: număr par,
număr impar; solicitarea preferinţei unui consumator pentru produsul A sau
produsul B: prefer produsul A, prefer produsul B, îmi este indiferent; observarea
modificării preţului la bursă al acţiunilor unei companii în decurs de o
săptămână: cresc, scad, nu se modifică.
Pentru a determina, înaintea unui experiment, probabilităţile cu care
diferite rezultate vor apărea, trebuie să ştim în primul rând ce rezultate sunt
posibile. Rezultatele posibile ale unui experiment aleator, prezentate într-o listă
ca în exemplele anterioare, trebuie să fie exhaustive - fiecare încercare (probă)
a experimentului trebuie să aibă corespondent într-un rezultat din listă - să se
excudă reciproc - două rezultate din listă nu pot apărea împreună la nici o
probă a experimentului. O astfel de înşiruire a rezultatelor posibile se numeşte
câmp de evenimente.
Mulţimea rezultatelor(câmp de evenimente sau spaţiu de selecţie), notată
cu S este ansamblul rezultatelor posibile ale unui experiment aleator.
Pentru calculul probabilităţilor este important să distingem dacă mulţimea
rezultatelor este fundamentală sau nu. Un câmp de evenimente este numit
fundamental dacă fiecare dintre rezultatele sale posibile are aceleaşi şanse de
apariţie ca şi celelalte. Un exemplu îl constituie mulţimea rezultatelor posibile la
aruncarea unui zar: S = {1,2,3,4,5,6}. Orice rezultat posibil al unui experiment

134
Probabilități și distribuții clasice de probabilitate

aleator se numeşte eveniment elementar. Un astfel de eveniment trebuie clar


definit, pentru a nu putea fi descompus în două sau mai multe rezultate.
Un eveniment este orice colecţie de evenimente elementare; el este un
subansamblu al mulţimii S. Evenimentele se notează cu majuscule şi pot fi
definite prin cuvinte sau prin lista evenimentelor elementare componente.
Dacă notăm cu Ei (i=1,6) evenimentul constând în apariţia feţei cu i
puncte a unui zar, este natural să considerăm realizarea evenimentului Ei sau a
evenimentului Ej(apariţia feţei cu i puncte sau a feţei cu j puncte) tot un
eveniment, pe care îl numim reuniunea celor două evenimente şi îl notămEi U
Ej.
Evenimentul Ω = E1 U E2 U E3 U E4 U E5 U E6, care se realizează
întotdeauna când aruncăm zarul (la orice aruncare a zarului apare una dintre
cele 6 feţe), îl numin eveniment sigur.
Evenimentul care nu se realizează în nicio probă a experimentului se
numeşte eveniment imposibil, îl notăm cu Φ şi este complementarul
evenimentului sigur (în exemplul nostru, corespunde situaţiei în care zarul s-ar
aşeza pe o muchie, deci niciuna din cele 6 feţe nu apare).
Evenimentul E1 U…U Ei-1UEi+1U… U E6, care se realizează atunci şi
numai atunci când nu se realizează evenimentul Ei, îl numim eveniment
complementar al lui Eişi îl notăm CEi sau Ei . Evenimentul sigur este
complementarul evenimentului imposibil.
Considerând două evenimente A şi B, vom spune că:
• evenimentul care implică realizarea atât a lui A cât şi a lui B
reprezintă intersecţia celor două evenimente şi îl notăm A ∩ B;
• evenimentul A implică evenimentul B(A ⊂ B), dacă în orice probă
în care se realizează evenimentul A se realizează şi evenimentul
B;
• evenimentele A şi B sunt echivalente (A=B), dacă şi numai dacă
A ⊂ B şi B ⊂ A;
• diferenţa evenimentelor A şi B (A-B) este evenimentul care se
realizează într-o probă, dacă se realizează evenimentul A şi nu se
realizează evenimentul B; A – B = A ∩ B ;
• evenimentele A şi B se numesc compatibile, dacă în cel puţin o
probă a experimentului se realizează şi A şi B (A ∩ B ≠ Ø);
• evenimentele A şi B se numesc incompatibile,dacă producerea
unuia dintre ele intr-o probă, atrage după sine imposibilitatea
producerii celuilalt eveniment în aceeaşi probă (A ∩ B = Ø).

4.1.2. Definirea probabilității

Cuvântul probabilitate nu are o definiţie precisă. Există trei interpretări


distincte ale probabilităţii care oferă trei moduri de abordare în determinarea
probabilităţii cu care un rezultat particular se va produce.
Abordarea clasicăîncearcă să deducă probabilitatea unui rezultat în mod
logic din natura simetrică a experimentului. Dacă o monedă perfect echilibrată
este aruncată, de exemplu, este logic să ne aşteptăm ca rezultatul cap şi
rezultatul pajură să fie egal probabile; putem afirma că probabilitatea să
observăm o apariţie a pajurei este 1/2 . În general, dacă un experiment are n
posibile rezultate, fiecare fiind egal probabile, probabilitatea apariţiei oricărui
rezultat particular este 1/n. O astfel de probabilitate o numim teoretică,
deoarece este calculată fără efectuarea experimentului, folosind doar informaţia
care se cunoaşte despre situaţia fizică.

135
Statistică

Abordarea empirică presupune exprimarea probabilităţii unui rezultat ca o


măsură a frecvenţei relative de apariţie. Presupunem că un experiment aleator
este repetat de n ori (n fiind un număr mare). Dacă x reprezintă numărul de
cazuri în care un rezultat particular a apărut în cele n încercări (probe), raportul
x/n constituie o bună estimare pentru probabilitatea cu care acest rezultat
particular va apărea. De exemplu, dacă 700 dintre ultimii 1000 de clienţi care
au intrat într-un magazin, au cumpărat ceva, probablitatea ca orice client care
va intra in magazin să cumpere este de 0.7. Cu cât n este mai mare, cu atât va
fi mai bună estimarea probabilităţii dorite. Probabilitatea determinată folosind
rezultatele unui experiment efecuat de un anumit număr de ori, se numeşte
probabilitate empirică, sau frecvenţă relativă.
În multe situaţii practice, rezultatele experimentale nu sunt probabil egale
şi nu există un istoric al repetărilor experimentului; de exemplu, dacă dorim să
estimăm probabilitatea ca vânzările unei firme să atingă valoare de 1 milion de
euro într-un an. În astfel de cazuri apelăm la o abordare subiectivă, în care
probabilitatea asociată unui rezultat particular reflectă doar gradul nostru de
încredere că acest rezultat va apărea; altfel spus, ea reflectă o evaluare
personală a situaţiei şi se poate baza doar pe intuiţie. În multe cazuri, totuşi,
intuiţia ori evaluarea subiectivă a unui om de afaceri este probabil influenţată de
rezultatele obţinute în situaţii similare; astfel, abordarea prin intermediul
frecvenţei relative joacă adesea un rol important în formarea probabilităţilor
subiective.
Fiecărui eveniment elementar Ei dintr-un câmp de evenimente
fundamental (evenimentele au probabilităţi egale de apariţie) îi ataşăm un
număr P(Ei), numit probabilitatea lui Ei , care să reprezinte probabilitatea
obţinerii acestui rezultat particular; ea se calculează după formula:
număr de cazuri favorabile lui E i
P(Ei)=
număr de cazuri posibile
Pentru orice câmp de evenimente S = {E1,E2,…,En}, probabilităţile
asociate evenimentelor elementare Ei trebuie să îndeplinească următoarele
cerinţe de bază:
1. 0 ≤ P(Ei) ≤ 1, pentru fiecare i
n
2. ∑ P (E ) = 1 .
i =1
i

Probabilitatea unui eveniment A este egală cu suma probabilităţilor


asociate evenimentelor elementare conţinute în A:
card ( A)
P(A) = .
card ( S )
Probabilitatea producerii unui eveniment este deci, după formularea lui
Laplace, egală cu raportul dintre numărul rezultatelor favorabile producerii
evenimentului şi numărul total al rezultatelor egal posibile.
Prezentăm câteva exemple:
• la aruncarea unui zar, probabilitatea de a obţine un număr impar
este :
card{1,3,5} 3 1
P(impar) = = = .
card{1,2,3,4,5,6} 6 2
• la extragerea unei cărţi dintr-un pachet de 52 de cărţi de joc,
probabilitatea de a extrage un as este:
4 1
P(as) = = .
52 13
136
Probabilități și distribuții clasice de probabilitate

• la extragerea unei bile dintr-o urnă care conţine 200 de bile


colorate, dintre care 15 sunt de culoare roşie, probabilitatea de a
extrage o bilă roşie este :
15
P(roşu) = .
200
Numim probabilitateo funcţie numerică P, definită pe câmpul de
evenimente, care are următoarele proprietăţi:
1. 0 ≤ P(A) ≤ 1, oricare ar fi evenimentul A;
2. P( Ω ) = 1, Ω = evenimentul sigur;
3. P(A1UA2U...UAn) = P(A1)+P(A2)+...+P(An), dacă evenimentele A1, ..., An
sunt incompatibile Ai ∩ Aj≠Ø, i ≠ j.
Revenind la definirea anterioară a unor tipuri de evenimente, numim:
• eveniment imposibil, evenimentul A pentru care P(A) = 0;
• eveniment sigur, evenimentul A pentru care P(A) = 1 ;
• evenimente disjuncte, incompatibile sau exclusive, evenimentele
A şi B pentru care A I B ≠ 0 => P(A I B) = 0.
Considerând două evenimente A şi B, cu P(B) > 0, definim probabilitatea
condiţionatăca evenimentul A să se producă numai dacă evenimentul B s-a
P( A ∩ B)
produs deja, astfel: P(A/B) = .
P( B)
În exemplul aruncării zarului considerăm următoarele evenimente:
A: numărul observat este cel mult egal cu 2;
B: numărul observat este par.
Pentru a calcula cele două probabilităţi condiţionate, P(A/B) şi P(B/A),
definim cele două evenimente:
A = {1,2}
B = {2,4,6}
şi reprezentăm printr-o diagramă Venn intersecţia celor două mulţimi
(figura 4.1)

Figura 4.1 – Diagrama Venn pentru A ∩ B (A şi B)

P( A ∩ B) 1 / 6 1
P(A/B) = = =
P( B) 3/ 6 3
P( A ∩ B) 1 / 6 1
P(B/A) = = =
P( A) 2/6 2

Două evenimente A şi B sunt independente dacă:


P(A/B) = P(A) sau P(B/A) = P(B).
Dacă nu este îndeplinită această condiţie, cele două evenimente sunt
dependente.
În exemplul anterior, observăm că cele două evenimente sunt
1 1
independente: P(A/B) = = P(A) P(B/A) = = P(B)
3 2
137
Statistică

4.1.3. Regulile probabilităţilor şi arbori de probabilitate


Uneori este necesar să calculăm probabilităţi ale unor evenimente mai
complexe, corelate; pentru aceasta, folosim regulile probabilităţilor.
• Regula complementului– rezultă din cerinţa de bază potrivit căreia
suma probabilităţilor asociate evenimentelor simple ale unui câmp de
evenimente trebuie să fie 1. Considerând orice eveniment A şi complementul
său A , fiecare eveniment simplu trebuie să aparţină fie lui A, fie lui A :

P(A) + P( A ) = 1.
Regula complementului, pentru orice eveniment A, este:

P(A) = 1 – P( A ).
Deşi simplă, regula este foarte folositoare: uneori este mai uşor să
calculăm probabilitatea producerii unui eveniment, calculând doar probabilitatea
ca acesta să nu se producă şi scăzând rezultatul din 1.
• Regula adunării– ne permite determinarea probabilităţii unei reuniuni
de evenimente pe baza probabilităţilor altor evenimente. Pentru oricare două
evenimente A şi B, regula adunării lor este:
P(A U B) = P(A) + P(B) – P(A ∩ B).
Dacă cele două evenimente sunt reciproc exclusive, atunci P(A ∩ B) =
0, iar regula adunării se simplifică:
P(A U B) = P(A) + P(B).
• Regula înmulţirii– ne permite să determinăm probabilitatea unor
evenimente combinate; ea este, practic, o altă modalitate de calcul a
probabilităţilor condiţionate. Pentru oricare două evenimente A şi B, regula
înmulţirii lor este:
P(A ∩ B) = P(A) × P(B/A)
= P(B) × P(A/B).
Cele două formule sunt echivalente; utilizarea uneia sau alteia într-o
situaţie concretă depinde de informaţiile pe care le deţinem.
Pentru cazul particular în care cele două evenimente A şi B sunt
independente:
P(A/B) = P(A) şi P(B/A) = P(B)
regula înmulţirii se simplifică:
P(A ∩ B) = P(A) × P(B).
O metodă foarte utilă pentru calculul probabilităţilor este arborele de
probabilitate, în care diferitele evenimente posibile ale unui experiment sunt
reprezentate prin linii sau ramuri ale acestuia; metoda este utilă în special
pentru a ne asigura că am identificat toate evenimentele elementare si am
atribuit corect probabilităţile asociate.
Exemplul 4.1. Considerând experimentul aruncării unei monede
(rezultate posibile Cap şi Pajură) de două ori, câmpul de evenimente asociat
este:
S = { CC, CP, PC, PP }.
Arborele de probabilitate al acestui experiment este prezentat în figura
4.2.

138
Probabilități și distribuții clasice de probabilitate

Figura 4.2. Arborele de probabilitate pentru aruncarea unei


monede de două ori.

Metoda se poate aplica orcărui experiment aleator care poate fi


descompus în mai multe etape (în exemplul nostru, prima şi a doua aruncare a
monedei). Punctele din figură sunt numite noduriiar ramurile care pornesc din
fiecare nod particular reprezintă rezultatele alternative care pot apărea din acel
punct. Nodul iniţial este numit origine. Orice rută a arborelui de la origine până
la un nod terminal corespunde unui eveniment elementar posibil. În exemplul
nostru, avem patru evenimente simple cu probabilităţi egale de apariţie.
Folosind cunoştinţele despre probabilităţile condiţionate şi regulile
probabilităţilor, putem reprezenta alternativ mulţimea rezultatelor astfel:
S = { C1 ∩ C2 , C1 ∩ P2, P1 ∩ C2,P1 ∩ P2 }.
unde evenimentele sunt definite astfel:
• C1 = capul a fost observat la prima aruncare;
• C2 = capul a fost observat la a doua aruncare;
• P1 = pajura a fost observată la prima aruncare;
• P2 = pajura a fost observată la a doua aruncare;
Arborele probabilităţii acestui experiment, folosind noile notaţii, este
prezentat în figura 4.3.

Figura 4.3. Arborele probabilităţii pentru aruncarea unei monede de


două ori.

139
Statistică

4.2. Variabila aleatoare.


În cadrul multor experimente, putem fi interesaţi doar de un anumit aspect
al rezultatelor acestora. Să presupunem că în cadrul experimentului din
exemplul 5.1 ne interesează de câte ori apare pajura . Dacă notăm cu X
numărul total de apariţii ale pajurei, valoarea lui X va varia aleator de la o probă
la alta a experimentului; X este numită variabilă aleatoare, sau variabilă supusă
hazardului, deoarece nu îi cunoaştem decât valorile posibile(spre deosebire de
variabilele statisticestudiate în prima parte a aceste lucrări, ale căror valori erau
cunoscute dintr-o observare sau culegere anterioară studiului). De fapt, X este
o funcţie care asociază o valoare numerică fiecărui eveniment elementar din
câmpul de evenimente S = { CC, CP, PC, PP }; valorile posibile ale lui X sunt
0,1 sau 2 (figura 4.4.)
S = {CC, CP, PC, PP }

Figura 4.4. Valorile asociate evenimentelor elementare de variabila


aleatoare X.

O variabilă aleatoare este o funcţie care asociază o valoare numerică


fiecărui eveniment elementar dintr-un câmp de evenimente. Mai puţin formal,
putem spune că o variabilă aleatoare este o variabilă a cărei valoare numerică
este determinată de rezultatul unui experiment aleator.
În mod uzual, variabilele aleatoare sunt notate cu majuscule de la sfârşitul
alfabetului (X, Y, W,...) iar valorile acestora cu litere mici (x,y,w,...).
În funcţie de numărul de valori posibile pe care şi le pot asuma, variabilele
aleatoare sunt de două tipuri: discrete şi continue. O variabilă aleatoare
discretă poate lua o mulţime numărabilă de valori; o variabilă aleatoare
continuăpoate lua o mulţime nenumărabilă de valori. Mai simplu, o variabilă
aleatoare este discretă dacă putem identifica prima valoare, a doua valoare etc.
În majoritatea situaţiilor practice, o variabilă discretă reprezintă numărul de ori
în care un atribut particular este observat: numărul de produse defecte dintr-un
lot, numărul de apeluri telefonice primite într-o anumită oră la o centrală
telefonică, numărul de cumpărători, observaţi într-o perioadă, care preferă un
anumit produs.
Observaţie. O muţime numărabilă de valori posibile nu înseamnă în mod
necesar o mulţime finită; este posibilă numărarea valorilor unei variabile
aleatoare fără o limită superioară. O astfel de variabilă nu are limită superioară
a valorii sale, dar, fiind numărabilă (putem identifica toate valorile posibile ), ea
este discretă.
Mulţimea valorilor posibile ale unei variabile aleatoare continue este un
interval al dreptei reale (nu neapărat mărginit) sau chiar axa reală; altfel spus,
este o mulţime nenumărabilă infinită de valori posibile. În mod specific, astfel de
variabile înregistrează valoarea unor măsurători cum ar fi timpul, greutatea,
lungimea.

140
Probabilități și distribuții clasice de probabilitate

4.2.1. Variabila aleatoare discretă.


Atunci când cunoaştem valorile posibile ale unei variabile aleatoare şi
probabilităţile asociate acestor valori, putem spune că avem repartiţia variabilei
aleatoare ( sau distribuiţia sa de probabilitate).
Un tabel, matrice, formulă sau grafic ce conţine toate valorile posibile ale
unei variabile aleatoare discrete împreună cu probabilităţile asociate acestora
poartă denumirea de repartiţie a variabilei aleatoare discrete (distribuiţie
discretă de probabilitate ).
Fie X, o variabilă aleatoare discretă asociată unui anumit experiment
aleator. Funcţia de probabilitatea acestei variabile este funcţia p, definită astfel:
p: R→[0,1]
x a p(x) = P( X=x ),
unde P( X=x ) este probabilitatea ca variabila X să ia valoarea
particulară x în momentul realizării experimentului; ea este suma proabilităţilor
asociate evenimentelor elementare pentru care X ia valoarea x.
În experimentul aruncării unei monede de două ori (exemplul4.1.),
considerăm că variabila aleatoare X reprezintă numărul de apariţii ale pajurei; X
poate lua deci oricare din cele trei valori: 0,1 sau 2. Probabilităţile pot fi asociate
valorilor lui X cu ajutorul datelor din tabelul 4.1, care cuprinde fiecare eveniment
elementar şi probabilităţile acestora, calculate anterior prin intermediul arborelui
de probabilitate.
Tabelul 4.1.
Eveniment elementar x Probabilitate

CC 0 1/4
CP 1 1/4
PC 1 1/4
PP 2 1/4

Valorile distincte ale variabilei X si probabilităţile sale asociate – repartiţia


variabilei X sau distribuţia sa de probabilitate – pot fi prezentate în mai multe
moduri:
• cu ajutorul unei formule:
1/4, dacă x = 0 sau 2
p(x) =
1/2, dacă x = 1

• sub formă tabelară ( tabelul 4.2. )


Tabelul4.2.
Distribuţia de probabilitate a lui X
x p(x)

0 1/4
1 1/2
2 1/4

141
Statistică

• sub formă grafică ( figura 4.5. )

Figura 4.5. Reprezentarea grafică a distribuţiei de probabilitate a lui


X

Indiferent de modalitatea de reprezentare, o repartiţie a variabilei


aleatoare discrete trebuie să satisfacă două condiţii. Dacă o variabilă aleatoare
X poate lua valorile xi , atunci, următoarele relaţii trebuie să fie adevărate:
1. 0 ≤p(xi)≤ 1, pentru toate valorile xi
2. ∑ P( X = xi ) = p( xi ) = 1.
xi ∈X

După definirea distribuţiei de probabilitate pentru o variabilă aleatoare


discretă, putem calcula şi probabilitatea ca X să ia o valoare cuprinsă între a şi
b, inclusiv, notată P(a ≤ x ≤ b), ca sumă a probabilităţilor p(x) pentru fiecare
valoare a lui x astfel încât a ≤ x ≤ b. Pentru exemplul nostru, probabilitatea ca
numărul total de apariţii ale pajurei sa fie 1 sau 2 este:
P( 1 ≤ x ≤ 2 ) = p(1) + p(2) = 1/2 + 1/4 = 3/4
Pe lângă funcţia de probabilitate simplă, putem asocia unei variabile
aleatoare discrete şi o funcţie de probabilitate cumulată, numită funcţie de
repartiţie. Dacă X este o variabilă aleatoare discretă, atunci funcţia sa de
repartiţieeste F, definită astfel: F: R→[0,1]
x a F(x) = P (X ≤ x) = ∑ p( x ) .
xi ∈ X
i

Caracteristicile numerice ale variabilei aleatoare discrete

În Unitatea de învățare 2 , am definit media distribuţiei unei variabile


statistice. În cazul probabilităţilor, deoarece valorile distribuţiei nu sunt decât
valori posibile, putem să ne gândim la o medie de valori în funcţie de
probabilitatea lor de apariţie. Această caracteristică o numim speranţă
matematică sau valoare medie sau valoare asteptată a variabilei aleatoare.
Pentru o variabilă aleatoare discretă X cu xi valori care apar cu probabilităţile
p(xi), definim media acesteia astfel:
E( X ) = μ = ∑x
xi ∈X
i ⋅ p ( xi )

Dispersia(varianţa) unei variabile aleatoare discrete X, cu xi valori posibile


care apar cu probabilităţile p(xi) şi a cărei medie este E(x) = μ, o definim astfel:
V (X ) = σ 2 = ∑ (x
xi ∈X
i − μ ) 2 ⋅ p ( xi ) .

142
Probabilități și distribuții clasice de probabilitate

Abaterea tip (abaterea medie pătratică) a lui X este:

σ = V (X ).
Exemplul 4.2. Presupunem următorul joc: după ce mizăm 1 euro,
aruncăm un zar şi primim un număr de monede de 20 eurocenţi egal cu
numărul de puncte obţinute la aruncarea zarului. Dacă notăm cu x numărul
obţinut la aruncarea zarului, putem defini variabila aleatoare discretă X astfel:

x 1 2 3 4 5 6
p(x) 1/6 1/6 1/6 1/6 1/6 1/6

Media, dispersia şi abaterea standard pentru această caracteristică sunt:


• E(X) = 21/6 = 3.
• V(X) = 105/36 = 2.916
• σ = 1.718.

Dacă notăm cu Y câştigul net, exprimat în eurocenţi, pe care îl obţinem la


acest joc, Y este tot o variabilă aleatoare discretă pe care o putem defini astfel:
Y = 20 ⋅ X − 100
Ţinând cont de proprietăţile mediei şi dispersiei, putem calcula cei trei
indicatori ai variabilei Y, fără a descrie funcţia sa de probabilitate, astfel:
E (Y ) = 20 ⋅ E ( X ) − 100 = 20 ⋅ (21 / 6) − 100 = −30 eurocenţi

V (Y ) = 20 2 ⋅ V ( X ) = 400 ⋅ 105 / 36 = 1166.67

σ y = V (Y ) = 34 .16 .
Numim moment teoretic niţial de ordinul kal variabilei aleatoare discrete X
expresia: M k = E( X k ) = ∑
xik pi ; k ∈ Ν
x∈X i

Momentul teoretic centrat de ordinul kal variabilei X este:


μ k ( X ) = M k ( X − μ ) = E (( x − μ ) k ); k ∈ Ν
unde E(X)=μ.
Momentul centrat de ordinul doi este dispersia variabilei aleatoare X, iar
momentul iniţial de ordinul întâi este media.

4.2.2. Variabila aleatoare continuă

Spre deosebire de variabilele aleatoare discrete care au un număr finit de


valori posibile (de exemplu, x = 0,1,2,... ,n) sau un număr infinit numărabil de
valori (x = 0,1,2,...), variabilele aleatoare continue au un număr infinit
nenumărabil de valori posibile si pot lua orice valoare într-un interval cuprins
între două puncte a şi b ( a < x < b ). În timp ce pentru o variabilă aleatoare
discretă este specific procesul de numărare, pentru o variabilă aleatoare
continuă este specifică măsurarea unor atribute, cum ar fi: lungimea, greutatea,
timpul, temperatura.
Putem enumera toate valorile posibile ale unei variabile aleatoare discrete
şi este semnificativă considerarea probabilităţii ca o valoare particulară
(individuală) pe care aceasta o poate lua; nu putem însă enumera toate valorile
unei variabile aleatoare continue, deoarece există întotdeauna o altă valoare
143
Statistică

posibilă între oricare două dintre aceste valori – de aceea doar intervalele sunt
semnificative pentru această variabilă. Probabilitatea ca o variabilă aleatoare
continuă X să ia o anumită valoare particulară este zero. Nu este practic posibil
să asociezi o probabilitate pozitivă fiecărei valori din mulţimea infinită
(nenumărabilă) a acestora iar suma acestor probabilităţi să ramână egală cu 1.
Pentru o astfel de variabilă are semnificaţie doar probabilitatea ca valoarea
luată de X să fie cuprinsă într-un anumit interval de valori.
O variabilă aleatoare este continuădacă ansamblul valorilor sale posibile
corespunde celor dintr-un interval dat, finit sau infinit.
Exemplul 4.3. Un experiment aleator poate fi considerat observarea
duratei convorbirilor telefonice pentru un eşantion reprezentativ de angajaţi ai
unei companii într-o zi de lucru. Dacă notăm cu X durata convorbirilor
(măsurată în minute), deoarece angajaţii au fost selactaţi întâmplător (şi în
număr suficient de mare), iar ansamblul valorilor posibile corespunde unui
interval de timp, atunci X este o variabilă aleatoare continuă. Reprezentarea
grafică a datelor astfel culese se poate realiza printr-o histogramă prin
dreptunghiuri (figura 4.6.) ale cărei frecvenţe relative pot fi reduse proporţional
cu mărimea intervalului de variaţie, astfel încât suprafaţa histogramei să fie
egală cu 1, iar suprafaţa fiecărui dreptunghi să reprezinte proporţia în care
rezultatele măsurătorilor aparţin acestei clase (interval).

frecvenţe relative
0,3

0,25

0,2

0,15

0,1

0,05

0
2 2 5 5 8 8 11 11 14 14 17 17 20

durata convorbirilor (minute)

Figura 4.6. Histograma frecvenţelor relative.

Dacă realizăm un număr foarte mare de măsurători, frecvenţele relative


rezultate pot aproxima distribuţia frecvenţelor relative pentru întreaga populaţie
a duratelor convorbirilor telefonice, iar proporţia pe care o reprezintă aria unui
dreptunghi ar putea fi o bună aproximaţie a adevăratei probabilităţi de a obţine
o mărime plasată în acest interval. Experienţa a arătat că, cu cât volumul
eşantionului de măsurători devine mai mare iar dimensiunea intervalelor mai
mică, poligonul frecvenţelor pentru o astfel de distribuţie (ajustat pentru a avea
o suprafaţă totală egală cu 1) devine o curbă.
Pentru o variabilă aleatoare continuă X, definim funcţia de repartiţie astfel:
F : R → [0,1], F ( x ) = P ( X < x ) .
Funcţia de repartiţie are următoarele proprietăţi:
• F (∞ ) = 1
• F ( −∞ ) = 0
• 0 ≤ F ( x ) < 1; ∀x ∈ R
• P ( a ≤ X < b) = F (b) − F ( a ); a , b ∈ R , a < b

144
Probabilități și distribuții clasice de probabilitate

• F ( a ) ≤ F (b) dacă a < b


Numim densitate de probabilitate(de repartiţie) a variabilei aleatoare X
funcţia: f : R → [o, ∞ ], integrabilă pe R, astfel încât:
x
F ( x) =
−∞
∫ f (t )dt
Densitatea de probabilitate are următoarele proprietăţi:
• f ( x ) ≥ 0, ∀x ∈ R;

• ∫ f ( x)dx = 1 - aria totală a suprafaţei cuprinsă între curba lui f(x)
−∞
şi
axa orizontală este egală cu 1;
• F ( x) = f ( x);
'

b
• P(a < X < b) = ∫ f ( x)dx, a < b
a
Este importantă precizarea că f(x) nu este o probabilitate:
f ( x ) ≠ P ( X = x). Aşa cum am menţionat anterior, probabilitatea ca X să ia o
anumită valoare specifică este zero: P ( X = x ) = 0 . Fiind dată o funcţie a
densităţii probabilităţii f(x), suprafaţa cuprinsă între graficul funcţiei şi două
valori a şi b ale lui x (de pe abcisă) reprezintă probabilitatea ca X să ia o
valoare cuprinsă între a şi b, conform proprietăţilor densităţii de repartiţie
prezentate mai sus (figura 4.7.)

Figura 4.7. Funcţia de densitate a probabilităţii f(x)

Caracteristicile numerice ale unei variabile aleatoare continue

• media (speranţa matematică) este:



E( X ) = ∫ x ⋅ f ( x)dx
−∞

• dispersia – formula de definiţie:

145
Statistică


V (X ) = ∫ (x − μ) ⋅ f ( x)dx, unde E (x ) = μ
2

−∞

- formula simplificată:

V ( x) = ∫x f ( x)dx − μ 2
2

−∞

• abaterea medie pătratică:

σ = V (X ) = σ 2
• momentul iniţial de ordinul k (k ∈ N)

M k (X ) = ∫x ⋅ f ( x)dx
k

−∞

• momentul centrat de ordinul k (k ∈ N)



μ k ( X ) = ∫ ( x − μ ) k ⋅ f ( x)dx
−∞

Reluând definirea funcţiei de repartiţie a unei variabile aleatoare continue,


x
F : R → [0,1] , F ( x) = P[ X < x] = ∫ f (t )dt , o reprezentăm grafic în figura 4.8.
−∞

F(x)

Figura 4.8. Funcţia de repartiţie a unei variabile aleatoare continue.

Putem spune că funcţia de repartiţie reprezintă aria suprafaţei situată între


curba lui f şi axa orizontală şi la stânga lui x; aria acestei suprafeţe, pentru
X = x, este nulă.

4.3Distribuții de probabilitate ale variabilelor aleatoare


discrete
Cel mai utilizat tip de cercetare statistică este, fară îndoială, sondajul
statistic; scopul său este de a cunoaşte numărul de unităţi statistice de un
anumit tip particular din interiorul unei populaţii date. În domeniul probabilităţilor
există, în acelaşi timp, o variabilă aleatoare discretă definită ca numărul de
rezultate de un anumit tip care este posibil de obţinut în urma realizării unei
experienţe aleatoare specifice. Funcţia de probabilitate a unei astfel de variabile
se numeşte legea binomială sau, în anumite cazuri, legea lui Poisson.

146
Probabilități și distribuții clasice de probabilitate

4.3.1 Distribuţia binomială


Distribuţia binomială este poate cea mai importantă distribuţie discretă.
Înaintea descrierii componentelor unui context binomial considerăm necesară
definirea unei noţiuni preliminare, direct corelată cu repartiţia binomială şi,
poate, mai bine cunoscută, schema lui Bernoulli (sau schema bilei revenite a lui
Bernoulli);aceasta este o experienţa aleatoare al cărei ansamblu de rezultate
se poate rezuma prin două stări: succes şi eşec. Prezentăm câteva exemple
ale unor experiemente de acest tip:
• aruncarea unui zar cu dorinţa de a obţine un 6; în acest caz,
schema lui Bernoulli este aruncarea zarului, succesul constă în
evenimentul obţinerea unui 6 iar eşecul constă în evenimentul
obţinerea unui număr diferit de 6; probabilitatea unui succes,
notată cu p este p=1/6 iar probabilitatea eşecului, notată cu q este
q = 5/6 = 1 - p;
• extragerea unei bile dintr-o urnă care conţine 10 bile albe şi 20 de
bile negre, cu dorinţa de a extrage o bilă albă; schema lui Bernoulli
este extragerea unei bile; succesul, definit prin evenimentul
extragerea unei bile albe are probabilitatea p=10/30=1/3 iar
eşecul, definit prin evenimentul extragerea unei bile negre are
probabilitatea q = 20/30 = 2/3 = 1 - p.
Cea mai importantă caracteristică a unui experiment aleator binomial este
faptul că există doar două rezultate posibile. Exemple de experienţe aleatoare
cu o astfel de dihotomie a rezultatelor sunt numeroase: la aruncarea unei
monede rezultă cap sau pajură; un candidat electoral este votat sau nu, un
produs fabricat este corespunzător sau rebut; un angajat este bărbat sau
femeie, la revizia contabilă o factură este corectă sau incorectă. Convenţional,
cele două rezultate posibile sunt calificate prin succes sau eşec.
Experimentele binomiale care prezintă interes implică, de obicei, mai
multe încercări (probe) ale experimentului de bază; în definirea unui experiment
binomial, aceste încercări trebuie să satisfacă o serie de condiţii sau, altfel
spus, un experiment binomial posedă următoarele proprietăţi:
• experimentul constă într-un număr fix n de încercări;
• rezultatul fiecărei încercări poate fi clasificat în una din cele două
categorii: succes sau eşec;
• probabilitatea p a succesului rămâne constantă pentru fiecare
încercare;
• fiecare probă a experimentului este independentă de celelalte
probe ale acestuia.
Câteva exemple de experimente binomiale:
♦ Aruncarea de 10 ori a unei monede şi observarea rezultatului
fiecărei aruncări. Desemnarea uneia dintre cele două posibile
rezultate ale fiecărei probe (aruncări) ca succes este arbitrară.
Să presupunem că apariţia capului(banului) reprezintă un
succes; dacă moneda este echilibrată corect, probabilitatea
succesului este p=0.5 pentru fiecare dintre cele 10 aruncări,
independente între ele. Într-un astfel de experiment binomial,
punctul maxim de interes îl reprezintă numărul de succese (de
apariţii ale capului monedei) observate in cele 10 probe.
Variabila aleatoare care înregistrează numărul de succese
observate în cele n=10 încercări este numită variabilă
aleatoare binomială.

147
Statistică

♦ Testarea a 500 de produse selectate aleator dintr-un lot de


produse fabricate de o firmă pentru a stabili dacă au defecte
(sunt rebuturi) sau nu. Numărul de încercări ale experimentului
este 500; fiecare încercare (testarea unui produs selectat) are
două rezultate posibile: rebut sau nonrebut. Presupunând că
rata rebuturilor este de 1% şi calificând apariţia unui rebut ca
succes, probabilitatea succesului este p=0.01 şi cea a eşecului
q=0.99. Deoarece produsele au fost selectate aleator pentru
testare, cele 500 de încercări sunt independente.
♦ Intervievarea unui eşantion aleator de 1000 de persoane cu
privire la preferinţa pentru un anumit canal de televiziune, A, în
defavoarea celorlalte. Experimentul este compus din 1000 de
încercări; fiecare încercare (interogarea unei persoane
selectate) are două rezultate posibile: repondentul preferă
canalul de televiziune A sau nu. Dacă presupunem că 30% din
populaţie preferă canalul A, atunci p=0.3, iar q=0.7 (încercările
sunt independente).
Observaţii
• în fiecare dintre exemplele anterioare am făcut o
presupunere care ne-a permis să asociem o valoare lui p;
• în general, succesul este definit în mod arbitrar în cadrul
unui experiment binomial (şi nu este întotdeauna ceea ce
ne-am dori să se întâmple - definim ca succes găsirea unui
rebut);
• variabila aleatoare care ne interesează într-un astfel de
experiment este numărul de succese.

Variabila aleatoare binomială indică numărul de succese în n încercări


independente ale unui experiment binomial; spunem că o astfel de variabilă
aleatoare discretă se supune unei legi de probabilitate binomială, de parametrii
n si p, unde n este numărul de probe iar p este probabilitatea de succes pentru
fiecare dintre probe, si o notăm cu X : B(n;p).
Exemplul4.4 Să presupunem că aruncăm de trei ori un zar si calculăm
numărul de încercări la care obţinem faţa cu 6 puncte; cele trei aruncări sunt
independente între ele şi la fiecare încercare probabilitatea de succes este
p=1/6 şi q=5/6=1-p. Dacă X este numărul de succese obţinute pe parcursul
experimentului, atunci X este o variabilă supusă unei legi binomiale pentru care
n=3 şi p=1/6, deci X : B(3; 1/6).
Putem spune că o variabilă aleatoare binomială este o variabilă discretă
aleatoare care poate lua orice valoare dintre 0,1,2,...n. Distribuţia de
probabilitate a acestei variabile aleatoare, numită distribuţie de probabilitate
binomială, ne dă probabilitatea ca un succes să apară de x ori în n încercări,
pentru x = 0,1,2,...,n.
Pentru a explica formula generală de calcul al probabilităţilor asociate
unui experiment binomial, construim arborele de probabilitate pentru exemplul
6.1 parţial generalizat (oricare ar fi p şi 1-p şi oricare ar fi cele două
evenimente: succes şi eşec) în figura 4.9.

148
Probabilități și distribuții clasice de probabilitate

Proba 1 Proba 2 Proba 3 Evenimente Probabilităţile


X
elementare evenimentelor
elementare
S SSS p3 3
p
S
E SSE p2(1-p) 2
p (1-p)
S S SES 2
p (1-p) 2
p E p
(1-p)
(1-p) E SEE p (1-p)2 1

S ESS p2(1-p) 2
S p
(1-p) E p
(1-p) E ESE p (1-p)2 1
E p
(1-p) S EES p (1-p)2 1

(1-p)
F EEE (1-p)3 0

Figura 4.9. Arborele de probabilitate pentru un experiment binomial


cu trei probe

Deoarece încercările unui experiment binomial sunt independente,


probabilitatea condiţionată cu care fiecare ramură a arborelui poate apărea este
aceeaşi cu probabilitatea necondiţionată cu care va apărea. Probabilităţile
evenimentelor elementare sunt obţinute aplicând regula multiplicării (înmulţirii)
pentru evenimente independente; probabilităţile binomiale sunt determinate prin
însumarea probabilităţilor evenimentelor simple asociate cu o valoare dată a lui
x (tabelul 4.3).
Tabelul 4.3
x p(x)

0 (1-p)3
1 3p(1-p)2
2 3p2(1-p)
3 p3

Pentru a obţine formula generală de calcul a probabilităţii p(x) de a obţine


x succese în n încercări, când probabilitatea succesului este p, pornim de la un
evenimentsimplu:

SS......SEE...........E

x ori (n-x) ori

Aplicând şi în acest caz regula înmulţirii pentru evenimente elementare şi


ţinând cont de datele din tabelul 4.3, observăm că probabilitatea ca un astfel de
eveniment simplu să apară este px(1-p)n-x; pentru a determina şi coeficienţii
acestor evenimente simple, studiem din nou arborele de probabilitate: numărul
de evenimente cu x succese este egal cu numărul de rute (ramuri ale arborelui)

149
Statistică

în care succesul apare de x ori, altfel spus cu numărul de posibilităţi de a alege


x obiecte dintr-un total de n obiecte, cunoscut din matematică drept Cnx:
n!
C nx =
x!(n − x)!
Pentru experimentul cu trei încercări din exemplul 4.4, calculăm aceşti
coeficienţi în tabelul 4.4
Tabelul 4.4
x C3x

0 C30=1

1 C31=3

2 C32=3

3 C33=1

Dacă variabila aleatoare X reprezintă numărul de succese în cele n


încercări independente ale unui experiment binomial, fiecare încercare având
aceeaşi probabilitate p a succesului, atunci distribuţia de probabilitate binomială
a lui X : B(n;p) este:
⎧C x p x ⋅ (1 − p ) n − x , ∀x ∈ {0,...,1,.....n}
P ( X = x) = p ( x) = ⎨ n
⎩0, pentru oricare alta valoare a lui x
Formula lui p(x) descrie corect o funcţiei de probabilitate:
1. ∀ x ∈ R , p ≥ 0, deoarece

⎧C nx p x ⋅ (1 − p) n − x ≥ 0, daca. x ∈ {0,...,1,.....n}
p ( x) = ⎨
⎩0, pentru oricare alta valoare a lui x
2. ∑ε C
xi X
x
n p x (1 − p ) n − x =1

Deoarece pentru demostrarea acestei egalităţi se foloseşte formula


binomului lui Newton, această distribuţie particulară de probabilitate a primit
numele binomială.
Pentru a exemplifica aplicarea formulei generale a lui p(x), revenim la
exemplul 4.4, unde X : B(3;1/6):
3! 3!
p(x=0)=p(0)= (1/6) 0 (5/6) 3 =0.5788 p(x=1)=p(1)= =0.3472
0!2! 1!2!
3! 3!
p(x=2)=p(2)= =0.0694 p(x=3)=p(3)= =0.0046
2!1! 3!0!
Distribuţia binomială în acest caz este prezentată în tabelul 4.5 iar
reprezentarea sa grafică este realizată în figura 4.10.
Tabelul 4.5
x p(x)
0 0.5788
1 0.3472
2 0.0694
3 0.0046
150
Probabilități și distribuții clasice de probabilitate

Figura 4.10 Reprezentarea distribuţiei binomiale din exemplul 6.1

Prin intermediul figurii 4.11 prezentăm câteva particularităţi ale


reprezentării grafice a unei distribuţii binomiale:
• daca p → 0, distribuţia este asimetrică spre dreapta (figura 4.11a);
• dacă p → 1 distribuţia este asimetrică spre stânga (figura 4.11b);
• dacă p=0.5, distribuţia este simetrică (figura 4.11c);

Figura 6.3. Grafice ale unor dist

Figura 4.11. Grafice ale unor distribuţii binomiale

151
Statistică

În orice lucrare de specialitate, numeroase valori numerice ale lui


p(x) = C nx p x (1-p) n− x
sunt calculate pentru un număr reprezentativ de valori ale lui n,p şi x şi
prezentate în anexă (în lucrarea de faţă, anexa 1)
Un mod alternativ de a prezenta o distribuţie binomială utilizează
probabilităţile cumulate care reprezintă suma probabilităţilor binomiale de la x =
0 până la x = k. De exemplu, dacă k = 2
2
P(X ≤ 2)= ∑ p( x) =p(0)+p(1)+p(2).
x=2
Avantajul utilizării unui tabel al probabilităţilor binomiale cumulate este
acela că ne permite uşor aflarea probabilităţii cu care x va lua o valoare până la
un anumit rang al valorilor (anexa 2).
Pentru exemplul 4.4, distribuţia binomială cumulativă este prezentată în
tabelul 4.5
Tabelul 4.5
k
k ∑ p ( x)
x =0

0 0.5788
1 0.9260
2 0.9954
3 1.0000

Caracteristicile numerice ale unei variabile aleatoare binomiale X : B(n,p)


sunt:
• media E(X)=np
• dispersia V(X)=np(1-p)

4.3.2 Distribuţia Poisson (Legea evenimentelor rare)


A doua distribuţie discretă ca importanţă este distribuţia Poisson. Dacă o
variabilă aleatoare binomială reprezintă numărul de succese care apar într-un
număr fix de încercări, o variabilă aleatoare Poisson reprezintă numărul de
evenimente rare (succese) care apar într-un interval de timp sau o regiune
specificate. Prezentăm câteva exemple de activităţi la care se poate aplica cu
succes distribuţia Poisson: înregistrarea numărului de convorbiri telefonice
primite de la un pupitru (tablou de comandă) într-o perioadă specificată de timp;
înregistrarea numărului de sosiri la o locaţie service într-o perioadă dată de
timp; înregistrarea numărului de bacterii dintr-o cultură specificată. Pentru ca
distribuţia Poisson să poată fi aplicată corect unor astfel de situaţii practice,
trebuie să fie îndeplinite trei condiţii care reprezintă proprietăţile unui
experiment Poisson:
• numărul de succese care apar în oricare interval este independent
de numărul de succese care apar în oricare alt interval;
• probabilitatea ca un succes să apară într-un interval este aceeaşi
pentru toate intervalele de mărime egală şi este proporţională cu
mărimea intervalului;

152
Probabilități și distribuții clasice de probabilitate

• probabilitatea ca două sau mai multe succese să apară într-un


interval tinde spre zero pe măsură ce intervalul devine mai mic.
În descrierea anterioară a experimentului Poisson, succesul se referă la
apariţia unui eveniment de interes (dorit, asteptat) iar intervalul se referă fie la
un interval de timp fie la un interval de spaţiu (arie sau regiune). Modelul
Poisson se poate deci aplica atunci când evenimentele de interes apar aleator,
în mod independent unul faţă de celălalt şi rareori.
Variabila aleatoare Poisson indică numărul de succese care apar pe
durata unui interval de timp dat sau într-o regiune specificată, într-un
experiment Poisson.
Fie λ > 0, dacă x este o variabilă aleatoare astfel încât
e −λ λx
∀ x ∈ N,
x!
p(x)=P(X=x)=
0 pentru oricare altă
valoare a lui x
atunci X este o variabilă aleatoare discretă supusă unei legi Poisson de
parametru λ , notată X : P0( λ ).
În formula distribiţiei de probabilitate a unei variabile aleatoare Poisson
e −λ λx
P(X=x) = p(x)= , x=0,1,...
x!
λ reprezintă numărul mediu de succese apărute într-un interval dat de
timp sau spaţiu iar e = 2.71828... este baza logaritmilor naturali.
e −λ λx
Pentru λ > 0, funcţia f : R → R dacă x ∈ R
x!
f(x)=

0 pentru oricare alte valori


ale lui x
posedă caracteristicile unei funcţii de probabilitate:
• ∀ x ∈ R, f(x) ≥ 0
• ∑ f ( x) = 1
x∈N

Pentru a utiliza în practică formula distribuţiei de probabilitate Poisson,


trebuie să obţinem o estimaţie a lui λ , de obicei dintr-o serie de date anterioară
(istorică). Pentru a facilita calcului probabilităţilor Poisson, valorile tabelare ale
probabilităţilor Poisson cumulative sunt prezentate în anexa 3.
Numărul de valori pe care o varibilă aleatoare Poisson şi le poate asuma
este nelimitat; variabila aleatoare Poisson este o variabilă discretă cu infinit de
multe valori posibile – spre deosebile de variabila aleatoare binomială, care are
un număr finit de valori posibile.
Dacă X este o variabilă aleatoare Poisson pentru care λ este numărul
mediu de succese apărute într-un anumit interval, media şi dispersia acesteia
au aceeaşi valoare: E(X) = V(X) = λ .
Contextul utilizării practice a unei variabile supuse legii lui Poisson se
poate defini astfel: Fie X : B(n;p)
dacă n → ∞ (n este mare)
şi p → 0 (p este mic)
atunci X: ≅ P0( λ ) unde λ = np

153
Statistică

Acest enunţ ne permite să considerăm o lege Poisson ca o aproximare a


legii binomiale pentru care, în acelaşi timp, n este mare şi p este mic şi lui λ îi
atribuim valoarea produsului np. Cu cât valoarea lui n este mai mare şi cea a lui
p este mai mică, cu atât această aproximare este mai corectă; în practică se
consideră valabilă aproximarea dacă n ≥ 50 şi np ≤ 10 sau p <0.05.
Exemplul 4.5. Considerăm că într-o populaţie umană 0.2% dintre
persoanele acesteia suferă de o anumită boală M. Selectăm întâmplător şi cu
revenire un eşantion de 500 de persoane şi ne propunem să răspundem
următoarelor întrebări:
a) care este probabilitatea să numărăm exact trei persoane care suferă de
maladia M?
n = 500 încercări; la fiecare încercare, probabilitatea de succes este
p = 0.002 iar cea de eşec este 1-p=0.998.
Daca x = numărul de bolnavi din cele 500 de încercări, atunci X :
B(500;0.002).
Observăm că n ≥ 50 iar np = 500*0.002 = 1 ≤ 10 (p=0.002<0.05); putem
considera:
e −1 * 13
X:B(500;0.002) ≅ P0(500*0.002)*(0.998)497 ≅ 3! =0.06131
b) care este probabilitatea să găsim mai mullt de două persoane bolnave în
interiorul eşantionului?
Considerând X: ≅ P0(1), obţinem:
P(X>2)=P(X=3)+P(X=4)+...+P(X=500)
=1-[P(x = 0) + P(x = 1) + P(x = 2)] ≅ 1-(0.3679+0.3679+0.1839) ≅ 0.0803

4.4Distribuții de probabilitate ale variabilelor aleatoare


continue

4.4.1 Distribuţia normală


Legea normală de probabilitate, numită şi legea Gauss-Laplace este fără
îndoială cea mai importantă lege de probabilitate. Principalele motive pentru
care distribuţia normală este importantă sunt:
• modelează şi descrie într-un mod folositor numeroase
variabile aleatoare pe care le întâlnim în practică: înălţimea şi
greutatea unui grup de persoane, vânzările anuale ale unei
firme, notele elevilor dintr-o clasă, măsurarea erorilor care
apar la realizarea unui experiment; în astfel de cazuri,
valorile observate tind să se aglomereze într-un mod simetric
în jurul valorii centrale, dând naştere unei curbe în formă de
clopot;
• asigură o aproximare utilă pentru numeroase alte distribuţii,
inclusiv distribuţii discrete (de exemplu, distribuţia binomială);
• este distribuţia fundamentală a inferenţei statistice,
reprezentând distribuţia posibilelor estimări ale unui
parametru al populaţiei care pot apărea în diferite eşantioane
- principala raţiune, de altfel, pentru care distribuţia normală
este considerată cea mai importantă distribuţie.
O variabilă aleatoare X cu media μ şi dispersia σ 2 este normal
distribuită dacă funcţia sa de densitate a probabilităţii este:

154
Probabilități și distribuții clasice de probabilitate
2
1 ⎛ x−μ ⎞
1 − ⎜
2⎝ σ ⎠

f ( x) = ⋅e ; ∀x ∈ R
σ 2π
unde μ = E ( X ) , σ 2 = V ( X ) , π = 3.14159.. , e = 2.71828...
O variabilă aleatoare care este normal distribuită (sau este supusă unei
legi normale de probabilitate) se numeşte variabilă aleatoare normală, se
notează cu X : N( μ ; σ 2 ) - unde μ şi σ 2 reprezintă valorile mediei şi dispersiei
acestei variabile - şi are o reprezentare grafică precum cea din figura 4.12.

Figura 4.12. Distribuţia normală (clopotul lui Gauss)

Se observă că variabila normală poate lua orice valoare pe axa reală (de
la - ∞ la + ∞ ) iar funcţia normală de densitate a probabilităţii f(x) este continuă;
are valori pozitive pentru toate valorile lui x, este simetrică în raport cu x = μ ,
1
posedă un punct de maximum pentru x = μ (şi y = ) şi două puncte de
σ 2π
inflexiune (unul în x = μ − σ şi altul în x = μ + σ ) . Fiind vorba de o funcţie de
densitate de probabilitate, aria suprafeţei delimitată de curba funcţiei şi axa
orizontală este egală cu 1 şi, din cauza simetriei, aria fiecărei suprafeţei de o
parte si alta a axei x = μ este egală cu 0.5. Ca în cazul oricărei alte funcţii de
densitate de probabilitate, valoarea lui f(x) nu este probabilitatea cu care X ia
valoarea x, ci o expresie a înălţimii curbei la valoarea x.
Cu toate că, aparent, o distribuţie normală este complet determinată
odată cu specificarea celor doi parametri μ şi σ 2 , în realitate, există o
întreagă familie de distribuţii normale care au aceeaşi formă (clopotul lui
Gauss) dar diferă una de cealaltă prin localizarea mediei şi dispersia valorilor.
În figura 4.13 sunt prezentate trei distribuţii normale cu aceeaşi dispersie dar cu
medii diferite, iar în figura 4.14 sunt reprezentate trei distribuţii normale cu
aceeaşi medie şi dispersii diferite.

155
Statistică

Figura 4.13. Distribuţii normale cu aceeaşi dispersie şi medii


diferite.

Figura 4.14. Distribuţii normale cu aceeaşi medie şi dispersii


diferite.

Din infinitatea de distribuţii normale, una dintre acestea este utilizată ca


model de referinţă pentru toate celelalte: distribuţia normală standard, care
are media μ = 0 şi dispersia σ 2 = 1. Variabila aleatoare normală
corespunzătoare, cu media zero şi abaterea standard egală cu unitatea, se
numeşte variabilă aleatoare normală standard, notată cu Z : N(0,1) .
Calculul probabilităţilor pentru o variabilă supusă unei legi normale se
efectuează cu ajutorul tabelului de distribuţie a probabilităţilor variabileiZ :
N(0,1) prezentat în anexa 4. Acest tabel cuprinde valorile lui P(0 ≤ Z ≤ z) pentru
valori ale lui z pozitiv precizate la două zecimale; valoarea lui P(0 ≤ Z ≤ z) se
găseşte la intersecţia liniei corespunzătoare întregului şi primei zecimale cu
coloana corespunzătoare celei de a doua zecimale.
Exemplul 4.6.Presupunem că durata timpului în care studenţii rezolvă un
test grilă este cunoscută ca fiind normal distribuită, cu o medie de 60 de minute
şi o abatere standard de 8 minute. Dacă înregistrăm (observăm) timpul necesar
156
Probabilități și distribuții clasice de probabilitate

pentru un anumit student, care este probabilitatea ca timpul acestuia să fie


cuprins între 60 şi 70 de minute?
Notăm cu X timpul necesar pentru rezolvarea testului; probabilitatea pe
care ne-am propus să o aflăm este: P(60 ≤ X ≤ 70) - zona haşurată din figura
4.15a.

Figura 4.15. Variabila normală şi standard din exemplul 6.3.

Reamintim că probalilitatea ca o variabilă aleatoare continuă X să ia o


valoare particulară este zero; de aceea:
P(60 ≤ X ≤ 70) = P(60 <X <70).
Pentru a putea utiliza tabelul distribuţiei normale (anexa 4) trebuie să
transformăm variabila normală X din exemplul nostru în variabila normală
standard Z. Standardizarea unei variabile normale se realizează astfel:
x−μ
Z=
σ
Interpretarea lui Z este foarte importantă: o valoare a lui Z: semnifică (este
egală cu) distanţa de la valoarea corespunzătoare a lui X până la medie,
măsurată în număr de abateri standard ale lui X.
Pentru a afla probabilitatea dorită: P(60 <X <70), trebuie să determinăm
intervalul valorilor lui z corespunzător intervalului de valori ale lui x care ne
interesează:
60 − 60 x − 60 70 − 60
60 < X < 70 ⇒ < <
8 8 8
⇒ P(60 < X < 70) = P(0 < Z < 1.25) zona haşurată din figura 6.9b
O astfel de probabilitate, care are formula generală P(0 <Z <z0) se poate
determina cu ajutorul tabelului distribuţiei normale standard: localizăm rândul
pe care se plasează 1.2 şi apoi căutăm intersecţia acestuia cu coloana 0.05;
P (60 < X < 70) = P (0 < Z < 1.25) = 0.3944
Probabilitatea ca un anumit student să rezolve testul în intervalul de timp
cuprins între 60 şi 70 de minute este deci 0.3944.
Am precizat anterior că valoarea z corespunzătoare unei valori x0 date are
o interpretare foarte importantă. Deoarece x0 - μ exprimă distanţa dintre x0 şi
medie, valoarea z corespunzătoare exprimă aceeaşi distanţă în număr de
abateri standard:
157
Statistică

x0 − μ
z0 =
σ
Probabilitatea ca o variabilă să ia o valoare în cadrul intervalului definit de
z0 abateri standard de la medie, rămâne constantă pentru orice variabilă
aleatoare normală. Cu alte cuvinte, pentru oricare variabilă aleatoare normală
X, cu media μ şi abaterea medie pătratică σ , avem:

P ( μ − z 0σ < X < μ + z 0σ ) = P ( − z 0 < Z < z 0 )


Deoarece o distribuţie normală este simetrică, este suficient să
prezentăm în tabel valorile probabilităţilor pentru P(0 ≤ Z ≤ z0); aria totală a
suprafeţei delimitată de curba normală şi abscisă fiind egală cu 1, orice
probabilitate dorită poate fi obţinută prin adunări sau scăderi de la valorile de
această formă ale probabilităţilor.
Reluând exemplul 4.6, să presupunem că dorim calculul următoarelor
probalilităţi:
a) probabilitatea ca un student să rezolve testul în mai mult de 70 de
minute;
b) probabilitatea ca un student să rezolve testul într-un interval cuprins
între 50 şi 70 de minute;
c) probabilitatea ce un student să rezolve testul într-un interval cuprins
între 65 şi 70 de minute;
Rezolvarea acestor cerinţe se bazează pe datele din anexa 4 şi
propietăţile distribuţiei normale.
a) X ≥ 70
x − 60 70 − 60
≥ Z ≥ 1.25
8 8
În figura 4.16 sunt prezentate grafic cele două suprafeţe de interes situate
sub curba normală: A1 corespunde probabilităţii dorite iar A2 corespunde
probabilităţii ca 0 ≤ Z ≤ 1.25; aria totală fiind egală cu unitatea, datorită simetriei
curbei faţă de z=0, întreaga suprafaţă din partea dreaptă este egală cu 0,5:
A1+A2 = 0.5.

Figura 4.16. Suprafaţa corespunzătoare probabilităţii P ( Z ≥ 1.25)

Valoarea din tabel corespunzătoare suprafeţei A2 am găsit-o anterior, este


0.3944; probabilitatea dorită în acest caz este:
P ( Z ≥ 1.25) = A1 = 0.5 − A2 = 0.5 − 0.3944 = 0.1056
158
Probabilități și distribuții clasice de probabilitate

b) 50 ≤ X ≤ 70
50 − 60 x − 60 70 − 60
≤ ≤ ⇔ − 1.25 ≤ Z ≤ 1.25
8 8 8
De fiecare dată când aria de interes include media, ca în acest caz (figura
4.17), ea trebuie determinată ca sumă a celor două suprafeţe situate de o parte
şi de alta a mediei.

Figura 4.17. Suprafaţa corespunzătoare probabilităţii


P ( −1.25 ≤ Z ≤ 1.25)

Probabilitatea dorită este:


P ( −1.25 ≤ Z ≤ 1.25) = A1 + A2 ;
valoarea lui A2 o cunoaştem deja şi, datorită simetriei distribuţiei normale,
putem calcula şi valoarea lui A1 :

A1 = P(−1.25 ≤ Z ≤ 1.25) = P(0 ≤ Z ≤ 1.25) = A2 ⇒


⇒ P(−1.25 ≤ Z ≤ 1.25) = A1 + A2 = 0.3944 + 0.3944 = 0.7888
c) 65 ≤ X ≤ 70
65 − 60 x − 60 70 − 60
≤ ≤ 0.63 ≤ Z ≤ 1.25
8 8 8

Probabilitatea dorită corespunde suprafeţei haşurate din figura 4.18; ea


se poate determina ca diferenţă între ariile a două suprafeţe ale căror
probabilităţii se găsesc în anexa 4.

159
Statistică

Figura 4.18. Suprafaţa corespunzătoare probabilităţii P(0.63 ≤ Z ≤


1.25)

P (0.63 ≤ Z ≤ 1.25) = A = A1 − A2
Unde: A1 = P (0 ≤ Z ≤ 1.25) A2 = P (0 ≤ Z ≤ 0.63)
Rezultă: P (0.63 ≤ Z ≤ 1.25) = P (0 ≤ Z ≤ 1.25) − P (0 ≤ Z ≤ 0.63) =
= 0.3944 − 0.2357 = 0.1587
Aşa cum am văzut din exemplul prezentat, în viaţa reală multe
caracteristici cantitative continue sunt în mod natural distribuite după un model
normal. Din punct de vedere statstic, frecvenţa lor relativă este distribuită în
aceeaşi manieră ca şi densitatea de probabilitate a unei legi normale: înălţimea
sau greutatea persoanelor dintr-o populaţie dată, rezistenţa tijelor de metal în
cadrul unei producţii industriale, volumul conţinutului sticlelor dintr-o firmă de
îmbuteliere, notele obţinute la un examen de către studenţii unui an de studiu
etc.
Un alt exemplu al utilităţii legii normale îl constituie furnizarea unui
instrument de comparare între valori aparţinând unor distribuţii normale diferite.
Exemplu 4.7.Notele obţinute la un test naţional de către elevii unui
colegiu A sunt distribuite după o lege normală N(7.2;0.81) iar notele obţinute la
acelaşi test de către elevii unui alt colegiu B sunt normal distribuite N(6.9;1).
Considerând un elev care a obţinut nota 7.4 la colegiul A şi alt elev care a
obţinut nota 7.3 la colegiul B, ne propunem să determinăm care dintre cei doi
elevi este mai bine clasat în raport cu ceilalţi elevi din colegiul său.
Pentru a stabili acest lucru, standardizăm nota fiecărui elev, altfel spus
calculăm echivalentul notei sale într-o distribuţie N(0;1).
• Pentru elevul de la colegiul A nota sa de 7.4 într-o distribuţie
N(7.2;0.81) devine:
7.4 − 7.2
= 0.2
0.9
• Pentru elevul de la colegiul B, nota sa de 7.3 într-o distrubuţie
N(6.9;1) devine:
7.3 − 6.9
= 0.4
1
Se observă că elevul de la colegiul B, chiar dacă a obţinut o notă brută
inferioară celei a elevului de la colegiul A, este mai bine clasat decât acesta,
deoarece pe scara comună a variabilei Z nota sa este superioară.

160
Probabilități și distribuții clasice de probabilitate

Vom prezenta în continuare câteva proprietăţi ale variabilelor aleatoare


normale.
Dacă X este o variabilă aleatoare normală iar a este o constantă, atunci
variabilele: X+a, X-a şi aX sunt şi ele normal distribuite. În cazul special în care
X şi Y sunt două variabile aleatoare normale şi independente, atunci şi
variabilele X+Y şi X-Y sunt normal distribuite. Prin generalizare, putem enunţa
următoarea teoremă referitoare la suma unor varibile supuse unor legi normale.
Fie X1, X2...Xnn variabile aleatoare independente unele faţă de altele,
astfel: X i : N ( μ i ; σ 2 ), ∀i ∈ {1,...n}

şi fie Y = ∑X
i
i

Atunci Y : N ( μ ; σ 2 )
Unde μ = μ1 + ... + μ n = ∑μ i
i

σ 2 = σ 12 + ... + σ n2 = ∑ σ i
2

Teorema limită centrală


Fie X1,X2.......Xn n variabile aleatoare independente între ele şi
identicdistribuite(aceeaşi lege de probabilitate, aceeaşi medie şi dispersie).
Şi fie:
Y= ∑i
Xi

Atunci, dacă n este mare (teoretic, dacă n → ∞ ):


Y: ≅ N( μ ; σ 2 )
Unde: μ = E ( X 1 ) + E ( X 2 ) + ... + E ( X n ) = n ⋅ E ( X 1 )
σ 2 = V ( X 1 ) + V ( X 2 ) + ...... + V ( X n ) = n ⋅ V ( X 1 )
Cum această teoremă se aplică oricărei sume de variabile aleatoare
independente între ele şi identic distribuite, este important să precizăm că ea
permite şi aproximarea unei sume de variabile discrete printr-o variabilă
continuă.
Pornind de la această teoremă, numită şi regula aproximării normale, se
poate enunţa un corolar a cărui aplicare este foarte utilă în studiul unei
distribuţii binomiale:
Fie X : B(n;p)
Dacă n este mare, atunci X: ≅ N ( np; npq )
Analiza realizată a permis descoperirea condiţiilor de aplicare a unei astfel
de aproximări:
• cu cât n este mai mare, cu atât aproximarea este mai corectă;
• dacă n este moderat de mare, aproximarea este:
- foarte bună dacă p → 0.5;
- mai puţin bună dacă p → 0 sau p → 1 .
În practică se consideră că: B (n; p ) ≅ N ( np; npq )
dacă, în acelaşi timp: n ≥ 30
np ≥ 5 şi nq ≥ 5

161
Statistică

4.4.2 Distribuţia χ
2

O distribuţie derivată din distribuţia normală, care are un rol foarte


important în inferenţa statistică este distribuţia χ 2 (numită şi repartiţia Helmert-
Pearson):
Fie X1, X2,.....Xn n variabile aleatoare independente astfel încât ∀ i ∈
{1,2,...., n} ⇒ Xi : N(0;1),
Dacă X = X 12 + X 22 + ....... + X n2 , atunci X este o variabilă aleatoare
continuă supusă unei funcţii de densitate de probabilitate numită χ 2 cu n grade
de libertate şi o notăm:
X: χ 2 n (n, numărul de grade de libertate, reprezintă parametrul specific al
acestei distribuţii, aşa cum n şi p sunt pentru o distribuţie binomială, λ pentru o
distribuţie Poisson şi n şi σ 2 pentru o distribuţie normală).
Dacă X : χ n2 , valorile corespunzătoare mediei şi dispersiei acestei
variabile sunt:
E( X ) = n
V ( X ) = 2n
Reprezentarea grafică a funcţiei de densitate de probabilitate a unei
variabile X supusă unei legi χ n2 , pentru trei valori ale lui n, se regăseşte în
figura 4.19;

Figura 4.19. Funcţia de densitate de probabilitate a unei variabile X


supusă unei legi χ n2

Pe baza acestui grafic se pot formula următoarele caracteristici:


• orice variabilă aleatoare supusă unei legi χ 2 nu poate lua decât
valori pozitive (fiind definită ca suma pătratelor unor variabile);
• pentru n foarte mic, curba unei χ 2 este total asimetrică (n=1, în
graficul 4.19);
• pentru n ≥ 3, curba ia forma unui clopot:

162
Probabilități și distribuții clasice de probabilitate

o asimetrică întâi, pentru valori mai mici ale lui n (n = 3, în


graficul 4.19);
o din ce în ce mai simetrică, pe măsură ce n creşte(n = 10,
în graficul 4.19);
• atunci când n este suficient de mare, forma graficului se apropie
de curba unei legi normale N(n;2n).
În timp ce tabelul distribuţiei unei variabile Z : N(0;1) prezintă valorile
probabilităţilor de la intersecţia unei linii şi unei coloane ca definind o valoare a
lui Z (anexa 4), tabelul distribuţiei X : χ n2 (prezentat în anexa 5) procedează
invers: el indică, pentru valori ale lui n de la 1 la 30, diferite valori ale lui x,
pentru o variabilă X : χ n2 , la dreapta cărora aria suprafeţei delimitată de curbă,
P [ X > x ] , corespunde unei valori α .
Astfel, pentru o variabilă X: χ 152 , dacă dorim să aflăm pentru care valoare
a lui x, P [ X > x ] = 0.05, găsim această valoare la intersecţia liniei n=15 şi a
coloanei α = 0.05 :
x = 24.996 (figura 4.20a)

a) b)
Figura 4.20. Determinarea valorilor critice ale funcţiei χ 2

Pentru o variabilă X: χ 102 , dacă dorim să aflăm pentru care valoare a lui x,
P [ X > x ] =0.05, deducem mai întâi că dacă P [ X > x ] = 0.05, atunci P [ X > x ]
=0.95 şi căutăm la intersecţia liniei n = 10 cu coloana α = 0.95 pentru a găsi
valoarea dorită:
x = 3.940
Atunci când am analizat reprezentarea grafică a diferitelor legi χ n2 , am
menţionat că pe măsură ce n creşte, repartiţia χ n2 tinde lent, conform teoremei
limită centrală, spre repartiţia normală N(n;2n). Datorită acestei tendinţe, există
o formulă care permite, pentru n>30, estimarea unei valori particulare x supusă
unei legi χ n2 , plecând de la o valoare z supusă unei legi N(0;1):
Fie X : χ n2
1
Dacă n>30, atunci x ≅ ( z + 2 n − 1) 2
2
Unde z = o valoare particulară pe axa lui Z:N(0;1),echivalentă celei
căutate pentru x, pe axa X : χ n2 .

163
Statistică

Cu cât valoarea lui n este mai mare, cu atât formula aproximării este mai
corectă.

4.4.3 Distribuţia student (t)

Fie Z: N(0;1) şi X : χ n2 , două variabile aleatoare independente; dacă:

Z
T= ,
X
n
Atunci T este o variabilă aleatoare continuă supusă unei funcţii de
densitate de probabilitate numită t a lui student cu n grade de libertate, pe care
o notăm: T : tn
Reprezentarea grafică a unei astfel de variabile are aspectul unei
distribuţii normale N(0;1) aplatizate, incluzând şi proprietăţile de simetrie ale
acesteia (figura 4.21).

Figura 4.21. Densitatea de repartiţie a unei variabile Student pentru


diferite valori ale lui n

Se observă că, pe măsură ce n are valori mai mici, forma clopotului este
mai largă şi plată, iar pe măsură ce valorile lui n sunt mai mari, forma clopotului
este mai îngustă şi mai înaltă, tinzând progresiv către cea a lui N(0;1), atunci
când n → ∞ .
Valorile mediei şi dispersiei pentru o astfel de variabilă sunt:
n
E(T)=0 V (T ) = , dacă n >2
n−2
Obsevaţie: conform analizei reprezentării grafice, pentru valori mari ale
lui n:

164
Probabilități și distribuții clasice de probabilitate

E(T)=0 V (T ) → 1
Tabelul cu valorile specifice acestei distribuţii este prezentat în anexa 6;
valorile unei variabile se regăsesc la intersecţia unei linii care precizează
numărul gradelor de libertate ale lui tn cu o coloană care precizează aria α a
suprafeţei situată la dreapta acestei valori, sub curbă.
Astfel, pentru o variabilă T : t21, găsim valoarea t pentru care P[T > t ]
este 0.05 (figura 4.22), la intersecţia liniei n = 21 şi a coloanei α = 0.05 :
t = 1.721.

Figura 4.22. Probabilitatea P[T >t]=0.05 pentru o varibilă T : t21

Dacă dorim o valoare negativă a variabilei, folosim proprietatea de


simetrie, ca şi în cazul ditribuţiei normale N(0;1).

Test de autoevaluare 1

1.Probabilitatea teoretică:
a) este calculată fără efectuarea experimentului, folosind doar informaţia care
se cunoaşte despre situaţia fizică;
b) este determinată folosind rezultatele unui experiment efectuat de un anumit
număr de ori;
c) este probabilitatea unui rezultat al experimentului dedusă în mod logic din
natura simetrică a acestuia;
d) se numeşte şi frecvenţă relativă;
e) reflectă o evaluare personală a situaţiei.

2. Repartiţia personalului unei companii, după statutul profesional şi sex, este


următoarea:
Statut profesional Masculin Feminin
Angajaţi cu funcţii de conducere 12 5
Muncitori calificaţi 48 20
În cadrul unui studiu statistic vizând eficienţa şi acurateţea operaţiunilor legate
de salarii, analistul alege la întâmplare un angajat al acestei companii; care
este probabilitatea să fie vorba de o femeie cu funcţie de conducere?
a) 9%; b)1/17;c) 14,1%; d) 23,5%; e) 6%.

3. Variabila aleatoare binomială:


a) indică numărul de succese care apar pe durata unui interval de timp dat sau
într-o regiune specificată, într-un experiment Poisson;
165
Statistică

b) indică numărul de succese în n încercări independente ale unui experiment


binomial;
c) este o variabilă aleatoare care este normal distribuită (sau este supusă unei
legi normale de probabilitate);
d) este o variabilă aleatoare discretă;
e) este o variabilă aleatoare continuă.

4. Probabilitatea empirică:
a) este calculată fără efectuarea experimentului, folosind doar informaţia care
se cunoaşte despre situaţia fizică;
b) este determinată folosind rezultatele unui experiment efectuat de un anumit
număr de ori;
c) este probabilitatea unui rezultat al experimentului dedusă în mod logic din
natura simetrică a acestuia;
d) se numeşte şi frecvenţă relativă;
e) reflectă o evaluare personală a situaţiei.

5. Repartiţia personalului unei companii, după statutul profesional şi sex, este


următoarea:
Statut profesional Masculin Feminin
Angajaţi cu funcţii de conducere 12 5
Muncitori calificaţi 48 20

În cadrul unui studiu vizând eficienţa şi acurateţea operaţiunilor legate de


salarii, analistul alege la întâmplare un angajat al acestei companii; care este
probabilitatea să fie vorba de un bărbat fără funcţie de conducere?
a) 0,06; b)1/17;c) 56,5%;d) 48/85;e) 14,1%.

6. Variabila aleatoare normală:


a) indică numărul de succese care apar pe durata unui interval de timp dat sau
într-o regiune specificată, într-un experiment Poisson;
b) indică numărul de succese în n încercări independente ale unui experiment
binomial;
c) este o variabilă aleatoare care este normal distribuită (sau este supusă unei
legi normale de probabilitate);
d) este o variabilă aleatoare discretă;
e) este o variabilă aleatoare continuă.

7. Probabilitatea subiectivă:
a) este calculată fără efectuarea experimentului, folosind doar informaţia care
se cunoaşte despre situaţia fizică;
b) este determinată folosind rezultatele unui experiment efectuat de un anumit
număr de ori;
c) este probabilitatea unui rezultat al experimentului dedusă în mod logic din
natura simetrică a acestuia;
d) se numeşte şi frecvenţă relativă;
e) reflectă o evaluare personală a situaţiei.

8.Repartiţia personalului unei companii, după statutul profesional şi sex, este


următoarea:
Statut profesional Masculin Feminin
Angajaţi cu funcţii de 12 5
conducere
Muncitori calificaţi 48 20

166
Probabilități și distribuții clasice de probabilitate

În cadrul unui studiu statistic vizând eficienţa şi acurateţea operaţiunilor legate


de salarii, analistul alege la întâmplare un angajat al acestei companii; care
este probabilitatea să fie vorba de o femeie fără funcţie de conducere?
a) 20/85; b)1/17; c) 14,1%;d) 23,5%; e) 6%.

9.Variabila aleatoare:
a) este o variabilă a cărei valoare numerică este determinată de rezultatul unui
experiment aleator;
b) este o variabilă ale cărei valori sunt cunoscute dintr-o observare sau
culegere anterioară studiului;
c) nu este supusă hazardului;
d) este o funcţie care asociază o valoare numerică fiecărui eveniment
elementar dintr-un câmp de evenimente;
e) este ansamblul rezultatelor posibile ale unui experiment aleator.

10.Standardizarea unei variabile aleatoare normale (x) se realizează cu ajutorul


formulei (z = variabila normală standard; σ = abaterea standard; μ = media
variabilei aleatoare normale):
σ x −σ μ
a) z = b) z = c) z =
μ μ σ
σ x−μ
d) z = e) z =
x−μ σ

11. Repartiţia personalului unei companii, după statutul profesional şi sex, este
următoarea:
Statut profesional Masculin Feminin
Angajaţi cu funcţii de conducere 12 5
Muncitori calificaţi 48 20
În cadrul unui studiu vizând eficienţa şi acurateţea operaţiunilor legate de
salarii, analistul alege la întâmplare un angajat al acestei companii; care este
probabilitatea să fie vorba de un bărbat cu funcţie de conducere?
a) 0,15; b) 1/17;c) 56,5%;d) 12/85; e) 14,1%.

12. Se cunosc următoarele date referitoare la situația ocupării populației de


vârstă activă:
Frecvențe absolute
Șomeri Ocupați Total
Femei 15600 88400 104000
Bărbați 14400 81600 96000
Total 30000 170000 200000
Probabilități (frecvențe relative)
Șomeri Ocupați Total
Femei 0.078 0.442 0.52
Bărbați 0.072 0.408 0.48
Total 0.150 0.850 1.00
a) Care este probabilitatea ca o persoană extrasă la întâmplare din p-
opulația de vârstă activă să fie șomer?
b) Care este probabilitatea ca o persoană să fie șomer, atunci când este
femeie?
c) Este probabilitatea de a fi șomer afectată de faptul că o persoană este
femeie?
13. Managerul unei companii estimează că 85% dintre produsele fabricate sunt
corespunzătoare şi 15% sunt cu defecte; dintre acestea din urmă, el
167
Statistică

consideră că 70% sunt recuperabile iar restul sunt rebuturi. Dacă se


alege la întâmplare un produs fabricat de această companie, care este
probabilitatea:
a) Să fie vorba de un produs cu defecte, dar recuperabil?
b) Să fie vorba de un produs cu defecte nerecuperabil (rebut)?

14. Un contabil aproape de vârsta de pensionare acceptă să lucreze cu timp


parţial pentru o firmă. Contractul său stipulează că trebuie să fie
disponibil pentru firmă de luni până vineri (inclusiv) şi că i se poate
solicita să lucreze una sau mai multe zile din acest interval, în funcţie de
necesităţile firmei.
a) Dacă tabelul următor reprezintă distribuţia de probabilitate a
numărului de zile pe săptămână în care el va lucra, să se
calculeze media, dispersia şi abaterea standard a acestei
variabile.
X 0 1 2 3
P(x) 1/5 1/5 2/5 1/5
b) Să se calculeze aceiaşi indicatori pentru numărul total de zile pe
care contabilul le va lucra într-o lună (4 săptămâni).
c) Dacă el primeşte un salariu de bază de 100 euro pe săptămână,
pentru a fi la dispoziţia firmei şi încă 200 euro pe ziua de lucru,
calculaţi indicatorii numerici ai salariului lunar al acestui contabil.

Răspunsurile la toate întrebările testului de autoevaluare 1 se


regăsesc în Unitatea de învățare 4, paginile 133– 165. Pentru aplicațiile
practice și întrebările tip grilă, rezolvarea se regăsește și la sfârșitul
manualului.

Rezumat
Elementele de statistică matematică, calculul probabilităţilor şi distribuţii
clasice de probabilitate, prezentate în această unitate de învățare, au rolul de a
furniza teoriei statisticii bazele logice şi rigoarea necesare, conferind abilităţi
calculatorii şi criterii de validitate pentru orizontul de competenţă propriu
sectorului din realitatea concretă supus investigaţiei. Cunoaşterea lumii reale –
a fenomenelor social-economice în special -, deşi ghidată de teorie, este
întotdeauna factuală. Statistica teoretică are menirea să realizeze o punte de
legătură între statistica matematică (cu statutul său de ştiinţă logico-formală) şi
statisticile aplicate, destinate (asemenea oricăror ştiinţe factuale) investigării
materialului faptic dintr-o zonă bine delimitată a realităţii.
Teoria probabilităţilor este o parte integrantă a statisticii în general, dar
este,în particular, esenţială pentru teoria inferenţei statistice, care asigură
decidenţilor (oameni de afaceri, economişti) un grup de metode care îi ajută în
procesul de luare a deciziilor în condiţii de incertitudine. Incertitudinea provine
din cauză că, în situaţiile din viaţa reală avem rareori informaţii perfecte
referitoare la variatele input-uri ale unei decizii. Indiferent dacă incertitudinile se
referă la cererea pentru produsul nostru, la nivelul viitor al ratelor dobânzii sau
la posibilitatea unei greve de muncă, teoria probabilităţilor este utilă pentru

168
Probabilități și distribuții clasice de probabilitate

măsurarea gradului de incertitudine pe care îl presupune o astfel de situaţie.


Teoria probabilităţilor ne permite să evităm ignorarea incertitudinii sau
considerarea acesteia într-un mod întâmplător, oferindu-ne o bază pentru a
trata incertitudinea într-o manieră consistentă şi raţională.

Termeni cheie
Experiment aleator, eveniment, probabilitate empirică, probabilitate teoretică,
probabilitate subiectivă, regulile probabilităților (complementului, adunării,
înmulțirii), arbori de probabilitate, variabilă aleatoare discretă și continuă,
distribuții de probabilitate ale variabilelor aleatoare discrete și continue,
distribuția binomială, distribuția Poisson, distribuția normală, distribuția standard
normală, distribuția student și distribuția χ 2

Bibliografie

1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Andrei, T., Statistică şi econometrie, Editura Economică, Bucureşti, 2003;
3. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
4. Beganu Gabriela, Elemente de teoria probabilităților și statistică matematică,
Meteor Press, București, 2007;
5. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
6. Francis A., Statistică şi matematică pentru managementul afacerilor, Editura
Tehnică, Bucureşti, 2005;
7. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
8. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
9. Groebner, D., Shannon, P., Fry, P., Smith, K., Business Statistics. A
Decision-Making; Approach, Pearson Prentice Hall, 2008;
10. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009.

169
Statistică

UNITATEA DE ÎNVĂŢARE 5
INTRODUCERE ÎN INFERENŢA
STATISTICĂ

Cuprinsul capitolului
Obiectivele capitolului 5
5.1. Eșantionare aleatoare
5.2. Distribuții de sondaj
5.3. Utilizarea distribuțiilor de sondaj în inferența statistică
5.4. Estimarea parametrilor
5.5. Testarea ipotezelor statistice
Rezumat
Termeni cheie
Bibliografie

Obiectivele capitolului 5
În cadrul acestei unităţi de învăţare, structurată în
cinci secţiuni şi mai multe subsecţiuni, sunt definite noţiunile
fundamentale ale inferenţei statistice şi principalele metode
ale statisticii inferenţiale utilizate în domeniul economic:
distribuţii de sondaj, estimarea parametrilor, testarea
ipotezelor statistice.
După parcurgerea primelor trei secțiuni și la sfârșitul unității de învățare,
studentul va avea de rezolvat două teste de autoevaluare. Testele au un grad
mai mare de complexitate şi necesită cunoştinţele şi competenţele dobândite prin
parcurgerea tuturor unităţilor de învăţare precedente; ele sunt construite gradual,
din întrebări deschise, teste grilă și aplicații practice. Încadrarea în parametrii
specificaţi (timp, variante) îi va confirma fiecărui student dezvoltarea
competenţelor necesare pentru trecerea la o nouă unitate de învăţare.
Parcurgerea logică a tuturor elementelor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
Š definirea corectă a principalelor concepte ale inferenţei statistice: variabilă
aleatoare, eşantionare aleatoare, distribuţii de sondaj;
Š utilizarea procedeelor probabiliste pentru formarea unui eşantion
reprezentativ;
Š alegerea şi utilizarea metodelor adecvate ale statisticii inferenţiale
(estimarea parametrilor, testarea ipotezelor) pentru un studiu de caz
concret din domeniul afacerilor;
Š măsurarea gradului de încredere (siguranţă) pentru inferenţa realizată.

Durata medie de parcurgere a unității de învățare: 6 ore

170
Introducere în inferența statistică

5.1 Eşantionare aleatoare


La începutul acestei lucrări am definit statistica şi principalele
componente ale statisticii teoretice: statistica descriptivă şi statistica
inferenţială. Prezentând etapele unui demers statistic, am evidenţiat faptul că,
având un caracter complex, cercetarea statistică nu se limitează doar la
aspectele descriptive şi exploratorii implicate de sistematizarea, reprezentarea
şi prelucrarea sumară a datelor de observaţie (detaliate în prima parte a acestei
lucrări); cercetarea statistică presupune deopotrivă şi o latură inferenţială,
bazată pe raţionamente specifice, generalizări şi decizii.
Inferenţa statistică este o metodă de cercetare inductivă,
ce permite extinderea proprietăţilor constatate în cazul eşantionului
la întreaga populaţie şi testarea ipotezelor formulate înainte sau
după o fază exploratorie; orice inferenţă asupra populaţiei este
însoţită de o marjă de incertitudine, specificată în termeni
probabilistici.

Înaintea efectuării unui experiment aleator, este posibil să ne imaginăm


ansamblul valorilor pe care le poate lua o variabilă aleatoare şi să calculăm
distribuţia sa de probabilitate şi caracteristicile specifice, ca media şi dispersia.
În mod similar, putem prevedea ansamblul tuturor eşantioanelor de o mărime
dată care se pot extrage dintr-o populaţie originară şi calcula probabilitatea
fiecăruia de a apărea; urmând tehnica prezentată pentru un experiment aleator,
ne putem imagina diferitele medii de eşantioane posibile, diferitele varianţe sau
diferitele proporţii ale succeselor posibile în interiorul unui eşantion. Şi pentru
aceste variabile vom putea preciza legile de probabilitate şi valorile
caracteristicilor specifice.
Analiza este mai complexă decât cea efectuată pentru o variabilă
aleatoare simplă, dar ea ne permite realizarea unor comparaţii interesante între
populaţie şi diferitele eşantioane care pot fi extrase din aceasta. Legile deduse
pe baza acestor comparaţii ne permit dezvoltarea de inferenţe statistice, altfel
spus, formularea concluziilor asupra ansamblului populaţiei pornind de la
rezultatele obţinute dintr-un eşantion unic, extras la întâmplare din baza de
selecţie.
Am definit, tot în prima parte a lucrării, un eşantion ca fiind un ansamblu
de elemente (unităţi) extrase din populaţie, întâmplător, pe care le supunem
studiului statistic exhaustiv pentru a formula ulterior concluzii asupra
ansamblului populaţiei. Diferenţe, mai mult sau mai puţin semnificative, între
eşantion şi populaţia din care a fost extras sunt, aproape întotdeauna,
inevitabile.
Extragerea eşantionului se realizează printr-un procedeu numit
eşantionare, bazat pe reguli bine definite, menite să-i asigure
reprezentativitatea. În practica statistică se utilizează o paletă largă de metode
de eşantionare; pentru studiul teoretic al diferenţelor dintre eşantion şi populaţie
vom prezenta în continuare cea mai importantă dintre aceste metode,
eşantionarea aleatoare sau probabilistă. În funcţie de mărimea şi tipul
populaţiei studiate şi de mărimea eşantionului extras, există diferite tipuri de
eşantionare aleatoare: simplă, sistematică, stratificată.
Eşantionarea aleatoare simplă cu probabilităţi egale este
fundamentală, deoarece pe ea se sprijină elaborarea conceptelor de bază ale
teoriei selecţiei. Principalele caracteristici ale acestei metode sunt:
• fiecăreia dintre unităţile populaţiei i se rezervă o probabilitate cunoscută a
priori şi diferită de zero de a fi inclusă în eşantion;

171
Statistică

• unităţile populaţiei au şanse egale de apariţie în eşantion (principiul


echiprobabilităţii).
Dintr-o populaţie de volum N, în funcţie de procedeul de eşantionare
ales şi de fracţia de sondaj f = n/N, se poate forma un anumit număr de
eşantioane de volum n. Cele n extrageri succesive prin care se alcătuieşte un
eşantion pot avea ca model probabilistic:
ƒ schema bilei revenite (urna lui Bernoulli);
ƒ schema bilei nerevenite.
În eşantionarea aleatoare după schema bilei revenite (sondajul realizat
după acest procedeu se numeşte repetat sau non-exhaustiv), extragerile
constituie evenimente independente şi echiprobabile; şansa fiecărei unităţi din
populaţie de a fi selectată în cadrul unei extrageri oarecare, din cele n extrageri
succesive, rămâne constantă şi egală cu:
P=1/N.
Numărul total al eşantioanelor de volum n posibil de generat prin acest
procedeu este dat de formula aranjamentelor cu repetiţie:
ANn = N n .
La sfârşitul celor n extrageri ale unui eşantion, probabilitatea ca o
unitate să figureze cel puţin o dată în eşantion este:
n
⎛ 1⎞
P = 1 − ⎜1 − ⎟ .
⎝ N ⎠
În eşantionarea aleatoare după schema bilei nerevenite (sondajul
realizat după acest procedeu se numeşte nerepetat sau exhaustiv), unităţile
deja incluse în eşantion nu mai participă la extragerile ulterioare; astfel, şansele
unei unităţi oarecare de a fi inclusă în eşantion la o anumită extragere depind
atât de evenimentul curent cât şi de întreaga succesiune de realizări care l-au
precedat. Extragerile consecutive nu sunt, în acest caz, independente, iar
probabilităţile corespunzătoare se calculează nu pe baza evenimentelor simple,
ci pe baza conjuncţiilor de evenimente. Dacă la prima extragere, probabilitatea
fiecărei unităţi este:
P=1/N
la a doua extragere, probabilitatea este:
P=[1 / (N-1)] · [1-1/N]=1/N.
Rezultatul, care ilustrează lipsa independenţei dintre extragerile
succesive, se poate generaliza, demonstrând egalitatea şanselor la fiecare
extragere. Numărul total al eşantioanelor distincte fără repetiţie de volum n, ce
se pot forma prin acest procedeu este dat de formula:
N!
C Nn =
n! (N − n )!
La sfârşitul celor n extrageri, probabilitatea ca o unitate să fie selectată
în eşantion este:
n
P=
N
Prezentarea în continuare a conceptelor şi metodelor specifice inferenţei
statistice se bazează pe procedeul de eşantionare aleatoare simplă cu revenire
(schema bilei revenite sau urna lui Bernoulli); acest procedeu asigură atât
aceeaşi lege de probabilitate a variabilei pentru fiecare dintre elementele alese
cât şi independenţa dintre diversele elemente. Altfel spus, prin termenul de
172
Introducere în inferența statistică

eşantion vom desemna o suită de n prelevări succesive, efectuate aleator,


simplu şi cu revenire, din populaţia analizată.
Chiar dacă în practica vieţii cotidiene un astfel de procedeu nu este
întotdeauna aplicabil, studiul său ne permite formularea mai multor reguli ale
aplicaţiilor statistice, reguli cărora o teorie mai avansată le aduce doar anumiţi
factori de corecţie, uşor de aplicat şi care le lărgeşte considerabil sfera de
aplicabilitate (pentru alte procedee de eşantionare). În plus, în cazul unei
populaţii de mărime infinită sau în cazurile în care mărimea eşantionului (n)
este mai mică decât 5% din mărimea populaţiei (N), factorii de corecţie sunt
consideraţi neglijabili.

5.2 Distribuţii de sondaj

Inferenţa statistică este procesul prin care obţinem informaţii despre o


populaţie pornind de la un eşantion al acesteia. Deoarece informaţiile despre
populaţie pot fi, în mod uzual, descrise prin parametri, tehnica statistică utilizată
în general realizează inferenţe asupra parametrilor populaţiei pe baza
statisticilor de eşantion (noţiuni definite sumar în capitolul doi al lucrării –
parametrul este o măsurare asupra populaţiei, iar statistica este o măsurare
asupra unui eşantion – şi pe care le vom detalia în continuare).
În viaţa reală, de cele mai multe ori, calculul parametrilor devine
imposibil datorită mărimii populaţiei studiate; de aceea, majoritatea parametrilor
populaţiei sunt necunoscuţi.
Un rol foarte important în inferenţa statistică îl deţin distribuţiile de
sondaj (ale mediei, ale unei ponderi etc.).
5.2.1. Distribuţia de sondaj a mediei
Exemplu 5.1 Pentru a înţelege mai uşor ideea de distribuţie de sondaj,
considerăm o populaţie creată din bile, numerotate de la 1 la 5, aşezate într-o
urnă; dacă extragem aleator cu revenire câte o bilă de un număr foarte mare de
ori, variabila aleatoare x indică numărul extras la oricare dintre extrageri;
distribuţia de probabilitate a acestei variabile aleatoare este:

x 1 2 3 4 5
P(x) 1/5 1/5 1/5 1/5 1/5

Populaţia este infinit de mare, deoarece putem extrage de un număr


infinit de ori câte o bilă (sau, cel puţin, ne putem uşor imagina acest lucru).
Folosind formulele de calcul ale speranţei matematice (media) μ şi
varianţei σ (dispersia) putem calcula pentru populaţie:
μ = E ( X ) = ∑ p( x ) ⋅ x = 1 / 5 ⋅ 1 + 1 / 5 ⋅ 2 + ...... + 1 / 5 ⋅ 5 = 3

σ 2 = V ( X ) = ∑(x − μ )2 ⋅ p(x ) = (1 − 3)2 ⋅ 1 / 5 + (2 − 3)2 ⋅ 1 / 5 + .... + (5 − 3 )2 ⋅ 1 / 5 = 2

Presupunând că nu cunoaştem media populaţiei ( μ necunoscut), dorim


să estimăm valoarea acesteia utilizând media de eşantion xs , calculată pe
baza unui eşantion de mărime n=2. Pentru a aprecia cât de corectă este
estimarea lui μ prin intermediul lui xs , vom dezvolta distribuţia de sondaj a lui
xs prin evaluarea tuturor eşantioanelor posibile formate din două unităţi; pentru
fiecare eşantion calculăm valoarea mediei (tabelul 5.1).

173
Statistică

Deoarece valoarea mediei de eşantion variază aleator de la un eşantion


la altul, putem considera xs ca pe o nouă variabilă aleatore creată prin sondaj.
Sunt 25 de eşantioane posibile diferite de mărime n=2; probabilitatea
fiecăruia de a fi selectat este 1/25; cu toate acestea, xs poate lua doar 9 valori
diferite: 1,0; 1,5; ...; 5.0. Frecvenţele de apariţie ale acestor valori sunt diferite:
xs =1,0 apare o singură dată, deci probabilitatea sa este 1/25; xs =1,5 poate
apărea de două ori, probabilitatea sa fiind 2/25.
Tabel 5.1
Eşantioanele de volum n=2 şi mediile lor (pentru exemplul 5.1)

Eşantion Media (xs ) Eşantion Media (xs )


1,1 1.0 3,4 3.5
1,2 1.5 3,5 4.0
1,3 2.0 4,1 2.5
1,4 2.5 4,2 3.0
1,5 3.0 4,3 3.5
2,1 1.5 4,4 4.0
2,2 2.0 4,5 4.5
2,3 2.5 5,1 3.0
2,4 3.0 5,2 3.5
2,5 3.5 5,3 4.0
3,1 2.0 5,4 4.5
3,2 2.5 5,5 5.0
3,3 3.0

Probabilităţile de apariţie ale celorlalte valori ale lui xs sunt determinate


în acelaşi mod, iar întreaga distribuţie de sondaj a mediei xs care rezultă este
prezentată în tabelul 5.2. Cel mai interesant aspect referitor la distribuţia mediei
de sondaj xs îl reprezintă diferenţa dintre aceasta şi distribuţia variabilei x
(figura 5.1).
Tabelul 5.2
Distribuţia de sondaj a lui xs

xs p(xs ) xs p(xs )
1,0 1/25 3,5 4/25
1,5 2/25 4,0 3/25
2,0 3/25 4,5 2/25
2,5 4/25 5,0 1/25
3,0 5/25

174
Introducere în inferența statistică

p(x) p ( xs )
1/5 5/25

4/25

3/25

2/25

1/25

x xs
1 2 3 4 5 1 1,5 2 2,5 3 3,5 4 4,5 5

Figura 5.1 Distribuţiile lui x şi xs .

Putem calcula media şi varianţa variabilei aleatoare xs :

μ xs = E (X s ) = ∑ xs ⋅ p(xs ) = 1.0 ⋅ 1 / 25 + 1.5 ⋅ 2 / 25 + .... + 5.0 ⋅ 1 / 25 = 75 / 25 = 3


.
σ x2s = V ( X s ) = ∑( xs − μ xs )2 ⋅ p( xs ) = ( 1.0 − 3 )2 ⋅ 1 / 25 + ( 1.5 − 3 )2 ⋅ 2 / 25 + .... +

+ ( 5.0 − 3 )2 ⋅ 1 / 25 = 1
Se observă că media distribuţiei lui xs este egală cu media distribuţiei
lui x ( μ = μ xs ); cu toate acestea, varianţa lui xs este de două ori mai mică decât
cea a lui x.
Dacă se repetă procesul de sondaj pentru aceeaşi populaţie, dar cu alte
valori ale lui n, se obţin distribuţii diferite ale lui x; pentru fiecare dintre acestea,
μ xs = μ şi σ x2s = σ 2 / n . Cu cât valoarea lui n este mai mare, cu atât curba
distribuţiei lui xs devine mai îngustă, mai concentrată în jurul mediei şi mai
apropiată ca formă de clopotul lui Gauss (forma distribuţiei normale). Acest
fenomen este exprimat prin teorema limită centrală.
Dacă dintr-o populaţie este extras un eşantion aleator, distribuţia de
sondaj a mediei eşantionului este aproximativ normală pentru un număr
suficient de mare n al unităţilor eşantionului; cu cât mărimea eşantionului
creşte, cu atât mai mult distribuţia mediei sale ( xs ) se apropie de cea normală.
Precizia aproximării la care face referire teorema limită centrală depinde
atât de distribuţia de probabilitate a populaţiei originare cât şi de mărimea
eşantionului:
ƒ dacă populaţia este normală, atunci xs este normal distribuită pentru oricare
valoare a lui n;
ƒ dacă populaţia este non-normală, atunci xs este aproximativ normal
distribuită doar pentru valori mari ale lui n; în multe situaţii practice, o
mărime a eşantionului de n > 30 este suficientă pentru a permite
aproximarea distribuţiei lui xs printr-o distribuţie normală;
ƒ dacă populaţia are o distribuţie extrem non-normală (distribuţie bimodală
sau extrem asimetrică),distribuţia de sondaj va fi de asemenea non-
normală, chiar pentru valori moderat de mari ale lui n.
Rezumând, putem defini distribuţia de sondaj a mediei de selecţie prin
intermediul următoarelor elemente:

175
Statistică

ƒ media distribuţiei de sondaj a lui xs este egală cu media distribuţiei


variabilei analizate (x): μ xs = μ ;
ƒ varianţa distribuţiei de sondaj a lui xs este egală cu raportul dintre varianţa
variabilei analizate (x) şi mărimea eşantionului (n): σ x2s = σ 2 / n ;
ƒ abaterea standard a distribuţiei de sondaj, numită şi eroare standard a
mediei, se calculează astfel: σ x2s = σ 2 / n ;
ƒ dacă x este normal distribuită şi xs este normal distribuită; dacă x este non-
normal distribuită, xs este aproximativ normal distribuită pentru mărimi
suficient de mari ale eşantionului.
Observaţie: Varianţa lui xs este σ 2 / n dacă populaţia din care
extragem eşantioanele este infinită; dacă populaţia este finită varianţa lui xs
este:
⎛ σ 2 ⎞⎛ N − n ⎞
σ x2s = ⎜⎜ ⎟⎟⎜ ⎟,
⎝ n ⎠⎝ N − 1 ⎠
unde: N = volumul populaţiei
N −n
= factorul de corecţie al populaţiei finite.
N −1
În cele mai multe situaţii practice (inclusiv în exemplele prezentate în
această lucrare), populaţia ţintă este finită dar foarte mare comparativ cu
mărimea eşantioanelor extrase; în astfel de cazuri, valoarea factorului de
corecţie se apropie atât de mult de 1 încât poate fi ignorată. Ca regulă
generală, factorul de corecţie se utilizează doar dacă mărimea eşantionului
reprezintă peste 1% din mărimea populaţiei originare.
Exemplul 5.2. Decanul unei facultăţi economice susţine că venitul
mediu lunar al absolvenţilor săi după un an de la terminarea studiilor este de
400 euro.
a) Dacă afirmaţia decanului este corectă şi distribuţia veniturilor lunare ale
absolvenţilor are o abatere standard de 75 euro, să se determine
probabilitatea ca 25 de studenţi selectaţi aleator să aibă un venit mediu
lunar mai mic de 350 euro.
b) Dacă pentru un eşantion aleator de 25 de absolvenţi se obţine o medie
a venitului lunar de 350 euro, ce concluzie putem formula privind
validitatea afirmaţiei decanului?
Rezolvare:
a) Dorim să aflăm probabilitatea:
P(xs < 350 ) .
Teorema limită centrală ne spune că xs este aproximativ normal
distribuită (în condiţiile în care variabila x, venitul lunar, este moderat asimetrică
în general). Ştiind că:
μ xs = 400 ,

σ x s = 75 / 25

⎛ x s − μ x s 350 − 400 ⎞
⇒ P ( x s < 350 ) = P ⎜ < ⎟
⎜ σx 15 ⎟
⎝ s ⎠
P( Z < − 3 .33 ) = P (Z > 3 .33 ) = 0 .0004

176
Introducere în inferența statistică

b) Probabilitatea să observăm o medie de eşantion a venitului lunar de


doar 350 euro, în condiţiile în care media populaţiei este de 400 euro, este
extrem de mică aşa cum o demonstrează rezultatul obţinut la punctul anterior.
Deoarece acest eveniment este atât de rar şi astfel, atât de improbabil, putem
să concluzionăm că afirmaţia decanului este probabil nejustificată.
Această ultimă concluzie ilustrează modul în care distribuţia de sondaj
poate fi utilizată pentru a face inferenţe asupra parametrilor populaţiei. Înainte
de a introduce noţiunea de estimare, prima formă a inferenţei (în paragraful
următor) vom prezenta un alt mod de exprimare a probabilităţii asociate cu
distribuţia de sondaj.
În capitolul 6 am definit zA ca fiind valoarea lui z astfel încât aria din
dreapta valorii zA , de sub curba standard normală să fie egală cu A. Din anexa
8 putem afla uşor că z0.025 = 1.96; aria cuprinsă între -1.96 şi 1.96 este 0.95
(figura 5.2) şi poate fi exprimată algebric astfel:
P(–1.96 < Z < 1.96) = 0.95.

0.025 0.95 0.025

-1.96 1.96 z

Figura 5.2 Distribuţia normală standard.

Xs − μ
Ştim că: Z= .
σ/ n
este standard normal distribuită.
⎛ X −μ ⎞
⇒ P⎜⎜ − 1.96 < s < 1.96 ⎟⎟ = 0.95
⎝ σ/ n ⎠

Dacă adunăm μ la toţi termenii inecuaţiei şi îi multiplicăm de σ / n ori,


obţinem:
⎛ σ σ ⎞
P⎜⎜ μ − 1.96 < X s < μ + 1.96 ⎟⎟ = 0.95 .
⎝ n n⎠
Înlocuind în această formulă parametrii μ şi σ cu cei din exemplul 5.2,
obţinem:
⎛ 75 75 ⎞
P⎜⎜ 400 − 1.96 < X s < 400 + 1.96 ⎟⎟ = 0.95
⎝ 25 25 ⎠

⇒ P( 370.6 < X s < 429.4 ) = 0.95


Ultima relaţie ne arată că probabilitatea ca media de eşantion să fie
cuprinsă între 370.6 euro şi 429.4 euro este de 95% (0.95). Deoarece media de
eşantion calculată a fost de 350 euro, trebuie să concluzionăm că afirmaţia
decanului nu este susţinută de această statistică.
177
Statistică

O formă generală a acestei afirmaţii este:


⎛ σ σ ⎞
P⎜⎜ μ − zα / 2 < X s < μ + zα / 2 ⎟⎟ = 1 − α
⎝ n n⎠

unde: α = probabilitatea ca X s să nu aparţină intervalului.


Folosind datele din exemplul nostru şi considerând α = 0.01, obţinem:
⎛ σ σ ⎞
P⎜⎜ μ − z0.005 < X s < μ + z0.005 ⎟⎟ = 1 − 0.1
⎝ n n⎠

⎛ 75 75 ⎞
P⎜⎜ 400 − 2.575 ⋅ < X s < 400 + 2.575 ⎟⎟ = 0.99
⎝ 25 25 ⎠

P (361.375 < X s < 438.625 ) = 0.99

Această relaţie reprezintă o altă specificare de probabilitate despre X s ,


utilizată pentru realizarea inferenţei statistice.
Înţelegerea corectă a modului de creare şi utilizare a distribuţiilor de
sondaj, prin intermediul conceptelor critice dezvoltate în acest paragraf, este un
factor foarte important în studiul statisticilor:
ƒ distribuţia de sondaj este distribuţia unei statistici de eşantion, creată prin
extragerea şi studierea mai multor eşantioane dintr-o populaţie dată;
ƒ parametrii (media şi abaterea standard) distribuţiei de sondaj sunt corelaţi
cu parametrii populaţiei originare;
ƒ legătura dintre distribuţia de sondaj şi populaţia originară constituie un
element cheie al inferenţei statistice

5.2.2. Distribuţia de sondaj a unei proporţii


Dacă datele cu care ne întâlnim într-o problemă particulară sunt
calitative, parametrul de interes este proporţia numărului de cazuri în care un
anumit rezultat apare. Utilizând terminologia utilizată în partea a doua a acestei
lucrări, numim aceste rezultate succese. Estimatorul proporţiei succeselor într-o
populaţie este proporţia de eşantion:
X
ps =
n
unde: X = numărul de succese din eşantion
n = mărimea eşantionului.
Reamintim că X este binomial distribuită şi astfel probabilitatea oricărei
valori a lui ps poate fi calculată pornind de la valoarea sa pentru x.
Exemplul 5.3 Presupunând un experiment binomial cu n = 20 şi p = 0.5,
dorim să aflăm probabilitatea ca proporţia de eşantion ps să fie mai mică sau
egală cu 0.6. Pentru aceasta, căutăm probabilitatea ca X să fie mai mică sau
egală cu 12, deoarece 12/20 = 0.6. În anexa 6, pentru n = 20 şi p = 0.5, găsim:
P( pS ≤ 0.6 ) = P( X ≤ 12 ) = 0.868
Distribuţiile discrete, cum este cea binomială, nu permit, ele însele,
genul de calcule necesare inferenţei statistice; din fericire, putem aproxima
distribuţia binominală utilizând distribuţia normală.
Aproximarea normală a distribuţiei binomiale este corectă atunci când
numărul experimentelor (mărimea eşantionului) este mare şi atunci când
distribuţia binominală este simetrică, ca şi distribuţia normală (p = 0.5). Cu cât p
este mai îndepărtat de 0.5, cu atât n trebuie să fie mai mare pentru a obţine o

178
Introducere în inferența statistică

aproximare mai corectă. Valoare lui n trebuie să fie suficient de mare astfel
încât np şi n(1-p) să fie mai mare decât 5.
Pentru experimentul binomial considerat anterior, cu n = 20 şi p = 0.5,
putem aproxima probabilităţile binominale utilizând o distribuţie normală ale
cărei medie şi abatere standard sunt egale cu cele ale distribuţiei binominale:
μ = np = 20( 0.5 ) = 10

σ = np( 1 − p ) = 20( 0.5 )( 1 − 0.5 ) = 2.24


În figura 5.3 este reprezentată grafic această distribuţie, prin
histogramă.

p(x)
0.20

0.15

0.10

0.05

0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 x

Figura 5.3. Distribuţia binomială cu n = 20 şi p = 0.5 şi aproximarea


normală.

Dacă dorim să determinăm probabilitatea ca X = 10, putem folosi tabelul


distribuţiei binominale din anexa 6:
P(X = 10) = 0.588 – 0.412 = 0.176
Aria dreptunghiului cu baza cuprinsă între 9.5 şi 10.5 este exact
probabilitatea binomială (reamintim că pentru a reprezenta grafic o distribuţie
binomială, care este discretă, este necesar să construim dreptunghiuri ale căror
baze le obţinem adunând şi scăzând 0.5 din valorile lui X, altfel spus adunând
şi scăzând valoarea factorului de corecţie a continuităţii.
În figura 5.3, peste distribuţia binomială este trasată o curbă normală
care o aproximează. Pentru a calcula probabilitatea ca X=10 folosind distribuţia
normală, trebuie să determinăm aria de sub această curbă, cuprinsă între 9.5 şi
10.5:
P( X = 10 ) ≈ P( 9.5 < Y < 10.5 )
unde Y este o variabilă aleatoare normală care aproximează variabila
aleatoare X. Dacă standardizăm variabila Y, putem folosi anexa 8 pentru a
calcula probabilitatea dorită:
⎛ 9.5 − 10 Y − μ 10.5 − 10 ⎞
P( 9.5 < Y < 10.5 ) = P⎜ < < ⎟=
⎝ 2.24 σ 2.24 ⎠
= P( −0.22 < Z < 0.22 ) = 2 P( 0 ≤ Z ≤ 0.22 ) = 2( 0.0871 ) = 0.1742
Observăm uşor că cele două valori ale probabilităţii de interes, obţinute
în cele două moduri, sunt apropiate (0.176 şi 0.1742).
179
Statistică

Generalizând, probabilitatea binomială P(X=x) este aproximată prin aria


de sub curba normală cuprinsă între x – 0.5 şi x+0.5.
Pentru valori mari ale lui n efectul factorului de corecţie este neglijabil
(din moment ce fiecare dreptunghi reprezentând distribuţia binomială este
foarte mic) şi poate fi, efectiv, omis; numai în astfel de cazuri putem utiliza
aproximarea normală a distribuţiei binomiale în statistica inferenţială.
În concluzie, pentru un n suficient de mare, o distribuţie binomială poate
fi aproximată printr-o distribuţie normală. Astfel, numărul de succese X obţinute
în n încercări identice şi independente ale unui experiment este aproximativ
normal distribuit cu media np şi abaterea tip np( 1 − p ) . Pentru a determina
distribuţia de sondaj aproximată a unei proporţii de eşantion a succeselor ps ,
putem calcula media, varianţa şi abaterea medie pătratică a lui ps (ultima
numită şi eroarea standard a lui ps ):

⎛ X ⎞ E ( X ) np
E ( ps ) = E ⎜ ⎟ = = =p
⎝n⎠ n n

⎛ X ⎞ V ( X ) np(1 − p ) p(1 − p )
V ( ps ) = σ 2p s = V ⎜ ⎟ = 2 = =
⎝n⎠ n n2 n

σ ps = p(1 − p ) / n

ps − p
Dacă np > 5 şi np (1 − p ) > 5 , atunci variabila: Z=
p( 1 − p ) / n
este aproximativ standard normal distribuită.

5.2.3. Distribuţia de sondaj a diferenţei dintre două medii


O altă distribuţie de sondaj frecvent utilizată în statistica inferenţială este
cea a diferenţei dintre două medii de eşantion, în condiţiile în care cele două
eşantioane sunt independente şi extrase din două populaţii normale;
eşantioanele sunt independente dacă selecţia unităţilor unui eşantion este
independentă de selecţia unităţilor celui de al doilea eşantion.
Teorema limită centrală afirmă că în cazul unui proces de sondaj repetat
dintr-o populaţie normală a cărei medie este μ şi abatere standard σ ,
distribuţia de sondaj a mediei de eşantion este normală, cu media μ şi
abaterea tip σ / n . În capitolul 5 am evidenţiat, de asemenea, faptul că
diferenţa dintre două variabile aleatoare normale este şi ea o variabilă
aleatoare normal distribuită:
X1 − X 2
dacă cele două populaţii sunt normale. Valorile caracteristice ale unei
astfel de variabile sunt:
( ) ( ) ( )
E X 1 − X 2 = E X 1 − E X 2 = μ1 − μ 2

σ 12 σ 22
( ) ( ) ( )
V X1 − X 2 = V X1 + V X 2 =
n1
+
n2
dacă X1 şi X2 sunt independente.
În concluzie, în cazul unui proces de sondaj realizat repetitiv şi
independent pentru două populaţii normale ale căror medii sunt μ1 şi μ 2 şi ale

180
Introducere în inferența statistică

căror abateri tip sunt σ 1 şi σ 2 , distribuţia de sondaj a variabilei X 1 − X 2 este


normală, de medie μ1 − μ 2 şi abatere standard:

σ 12 / n1 + σ 22 / n2
Reprezentarea grafică a acestei distribuţii este realizată în figura 5.4.
P( x1 − x2 )

μ1 − μ 2 x1 − x2
Figura 5.4. Distribuţia de sondaj a lui X 1 − X 2 .

Dacă cele două populaţii nu sunt normal distribuite, atunci această


distribuţie de sondaj este doar aproximativ normală pentru mărimi foarte mari
ale eşantioanelor; pentru majoritatea populaţiilor, un volum al eşantionului mai
mare sau egal cu 30 unităţi este suficient.

5.3. Utilizarea distribuţiilor de sondaj în inferenţa


statistică

Pentru o explicare corectă şi coerentă a rolului distribuţiilor de sondaj în


inferenţa statistică, considerăm necesară reluarea şi reformularea concluziilor
primelor două subcapitole.
Exemplul 5.4 Studiul statistic efectuat în cadrul unei asociaţii de locatari
formată din 50 familii, a oferit următoarele informaţii:
ƒ 10 dintre familii nu au copii;
ƒ 25 dintre familii au un copil;
ƒ 15 dintre familii au 3 copii.
Trebuie să precizăm că ansamblul descris aici este cel al unei populaţii
statistice. Distribuţia numărului de copii pe familie, pentru această populaţie,
poate fi prezentată prin seria de distribuţie unidimensională:

xi fi
0 10
1 25
2 15
Total 50

Indicatorii numerici ai acestei serii sunt:


ƒ media:

181
Statistică

∑ xi fi ( 0 ⋅ 10 ) + ( 1 ⋅ 25 ) + ( 2 ⋅ 15 )
x= = = 1.1 copii
∑ fi 50

∑( xi − x )2 fi
ƒ dispersia: σ2 = = 0.49
∑ fi
Dacă vom considera un succes faptul că o familie nu are copii, putem
defini prin p proporţia succeselor în interiorul acestei populaţii (reamintim că
variabila statistică studiată, numărul de copii – atributivă, cantitativă, cu variaţie
discretă – se poate transforma într-o variabilă binară, cu două stări: o familie
poate să nu aibă copii – prima variantă – sau poate să aibă copii – a doua
variantă; media unei astfel de variabile este chiar frecvenţa relativă
corespunzătoare primei stări a variabilei):
10
p= = 0 ,2
50
Să ne imaginăm că vrem să alegem la întâmplare o familie din această
asociaţie. Dacă definim variabila aleatoare X=numărul de copii al familiei alese,
distribuţia de probabilitate a lui X este următoarea:

xi 0 1 2
p(xi) 10/50 25/50 15/50

Speranţa matematică a acestei variabile este:


E(X) = 0 ·10/50+1·25/50+2·15/50 = 0.5+0.6 = 1.1 = media populaţiei
Varianţa acestei variabile este:
V(X) = 02·10/50+12·25/50+22·15/50 – (1.4)2 = 0.49 = dispersia populaţiei
Dacă ne propuneam să extragem toate eşantioanele formate din câte
două familii (aleator cu revenire), observând numărul de copii obţinut în fiecare
caz, fiecare rezultat devine o variabilă aleatoare independentă de celelalte, a
cărei funcţie de probabilitate este descrisă în tabelul 5.3
Tabelul 5.3
Distribuţia probabilităţilor pentru diferitele eşantioane posibile

Eşantioane Probabilitatea Media de Dispersia de Proporţia


posibile asociată fiecărui eşantion eşantion succeselor în
eşantion interiorul fiecărui
(x1, x2) xs = ∑ x / 2 ∑ xi2
p(x1, x2) σ s2 = − xs2 eşantion - ps
2
(0,0) 100/2500 0 0 1
(0,1) 250/2500 0.5 0.25 0.5
(0,2) 150/2500 1 1 0.5
(1,0) 250/2500 0.5 0.25 0.5
(1,1) 625/2500 1 0 0
(1,2) 375/2500 1.5 0.25 0
(2,0) 180/2500 1 1 0.5
(2,1) 375/2500 1.5 0.25 0
(2,2) 225/2500 2 0 0

182
Introducere în inferența statistică

De exemplu, probabilitatea asociată primului eşantion este calculată


astfel:
p(0,0)=P[(X1 = 0) şi (X2 = 0)] = P(X1 = 0)·P(X2 = 0) = p(0) ·p(0) =
= 10/50·10/50=100/2500.
Fiecărui eşantion posibil (x1, x2) îi corespunde:
∑ xi
• o medie xs = ;
2
∑ xi2
• o dispersie σ s2 = − xs2 ;
2
• o abatere tip σ s = σ s2 ;
• o proporţie a succeselor ps = numărul de familii care nu au copii / 2.
Valorile acestor indicatori, calculate pentru fiecare eşantion aleator
posibil format din două familii sunt prezentate în tabelul 5.3.
Deoarece avem mai multe medii, dispersii şi proporţii ale succeselor de
eşantion posibile, le putem considera pe fiecare variabile aleatoare, cu funcţiile
de probabilitate şi caracteristicile respective:
• distribuţia de probabilitate a variabilei X s , media de eşantion aleatoare:
xs 0 0.5 1 1.5 2
P (X s = xs ) 100/2500 500/2500 925/2800 750/2500 225/2500

cu media sa:
E( X s ) = 0·(100/2500) + 0.5· (500/2500) + 1· (925/2500) + 1.5·
(750/2500) + 2· (225/2500) = 1.1
şi varianţa:
V( X s ) = 02(100/2500) + (0.5)2(500/2500)+12(925/2500) =
(1.5)2(750/2500) + 22(225/25000) – (1,1)2 = 0.245.
• distribuţia de probabilitate a variabilei S2, varianţa de eşantion aleatoare:
σ2 s
0 0.25 1

(
P S 2 = σ s2 ) 950/2500 1250/2500 300/2500

cu media sa:
E(S2) = 0·(950/2500) + 0.250.25 (1250/2500) + 10.25 (300/2500) =
0.245
şi varianţa:
V(S2) = 02(950/2500) + (0.25)2(1250/2500) + 12(300/2500) – (0.2452 ) =
= 0.091225
• distribuţia de probabilitate a variabilei Ps , proporţia de succes aleatoare, în
interiorul eşantionului:
ps 0 0.5 1
P(Ps = ps) 1600/2500 800/2500 100/2500

cu media sa: E(Ps) = 0.2


şi varianţa: V(Ps) = 0.08
Pornind de la acest exemplu, putem defini diferitele componente ale
fiecărei extrageri de eşantion dintr-o populaţie dată.

183
Statistică

În primul rând, populaţia este unică; pentru o caracteristică dată a


acesteia, X, se pot determina:
ƒ o distribuţie proprie;
ƒ o medie – μ ;
ƒ o varianţă – σ 2 ;
ƒ o proporţie a succeselor – p.
Un eşantion al acestei populaţii poate avea mărimi diferite şi poate fi
extras în maniere diferite. Ansamblul diferitelor eşantioane se numeşte eşantion
aleator şi este notat: (X1,X2...Xn).
Un ansamblu de eşantioane posibile aduce un ansamblu de medii de
eşantion posibile, un ansamblu de varianţe de eşantion posibile, un ansamblu
de proporţii de succes posibile în interiorul eşantionului:
ƒ ansamblul diferitelor medii de eşantion posibile este numit media de
eşantion aleatoare şi se notează cu X s ; această variabilă posedă o
distribuţie de probabilitate, o speranţă E( X s ) şi o varianţă V( X s );
ƒ ansamblul diferitelor varianţe de eşantion posibile este numit varianţa de
eşantion aleatoare şi se notează cu S2; această variabilă posedă o
distribuţie de probabilitate, o speranţă E(S2) şi o varianţă V(S2).
ƒ ansamblul diferitelor proporţii de succes posibile în interiorul eşantionului
este numit proporţia de succes aleatoare în interiorul eşantionului şi se
notează cu Ps; şi această variabilă aleatoare posedă o distribuţie proprie de
probabilitate, o medie E(Ps) şi o dispersie V(Ps).
Un eşantion particular extras din această populaţie este unic; se
notează cu (x1, x2,...,xn) şi posedă:
ƒ o medie unică: xs ;
ƒ o dispersie unică: σ s2 ;
ƒ o proporţie unică de succes: ps.
Un studiu mai detaliat al acestor ansambluri de medii, dispersii şi
proporţii de succes rezultate în urma unor operaţii repetate de eşantionare în
cadrul unei populaţii date, vizează atât centrul de gravitate şi gradul de
concentrare sau dispersare al acestor valori posibile în jurul parametrilor
populaţiei, cât şi legile de probabilitate particulare ale mediei de eşantion
aleator (pentru o caracteristică obişnuită şi pentru caracteristica alternativă).
 Fie μ , media unei caracteristici date în cadrul unei populaţii şi σ 2
dispersia acestei caracteristici; dacă X s este media de eşantion aleatoare
a acestei caracteristici, atunci:
σ2
E (X s ) = μ ( )
V Xs =
n
unde n = mărimea eşantionului.
Prima parte a enunţului anterior arată că, deşi există o multitudine de
medii de eşantion posibile ( xs ), ansamblul acestor valori posibile gravitează în
jurul lui μ , media reală a populaţiei.
De exemplu, să ne imaginăm o facultate unde media de vârstă a
studenţilor este μ = 21 ani. Un eşantion extras din populaţia studenţilor acestei
facultăţi ar putea avea o medie de vârstă x1 = 20.75 ani, un altul o medie de
vârstă x2 =21.25 ani, un al treilea o medie x3 = 20.85 ani etc. Anumite
eşantioane posedă o medie x s inferioară lui μ , altele o medie superioară
acesteia; dar media probabilă a acestor medii posibile, E( X s ) corespunde
precis lui μ = 21 ani, media de vârstă reală a studenţilor facultăţii.

184
Introducere în inferența statistică

A doua parte a enunţului arată că diferitele medii de eşantion posibile


oscilează în jurul mediei reale a populaţiei μ , cu o dispersie care depinde de
mărimea eşantionului, n; cu cât n este mai mare, cu atât V( X s ) este mai mică,
iar dispersia diferitelor medii de eşantion xs este mai redusă şi concentrarea
acestora în jurul mediei reale μ este mai mare.
Reluând exemplul anterior, referitor la vârsta studenţilor unei facultăţi,
dacă extragem un singur eşantion format din doi studenţi, este posibil ca acest
eşantion să fie format din doi studenţi foarte tineri (sau foarte vârstnici) în raport
cu întreaga populaţie; în aceste caz obţinem o medie de eşantion mult mai
mică sau mult mai mare în raport cu media reală μ . O mărime redusă a
eşantionul oferă posibilitatea unor diferenţe semnificative între diversele medii
de eşantion posibile. Dimpotrivă, dacă extragem un eşantion de 500 de
studenţi, devine foarte puţin probabil (chiar dacă rămâne posibil) ca media
acestui eşantion xs să fie cu mult mai mică sau mai mare decât media reală a
populaţiei.
Astfel, cu cât volumul eşantionului este mai mare, cu atât mai mult
diferitele medii de eşantion posibile ( xs ) au şanse mai mari de a fi apropiate de
media reală a populaţiei ( μ ).
 Fie σ 2 , dispersia unei caracteristici date în interiorul unei populaţii şi S2
varianţa de eşantion aleator al acestei caracteristici; atunci:

( )
E S2 =
n −1 2
n
σ

V(S2) = o formulă care conţine pe n la numitor,


unde n = mărimea eşantionului.
Acest enunţ arată că diferitele varianţe de eşantion posibile ( σ s2 ) nu
gravitează în jurul dispersiei reale a populaţiei ( σ 2 ), ci în jurul unei valori uşor
n −1 2
inferioare acesteia: σ ; din cauza acestei particularităţi, spunem că
n
diferitele variante de eşantion σ s2 sunt deplasate în raport cu σ 2 , deplasarea
provenind din coeficientul:
n −1
.
n
Se observă că, pe măsură ce volumul eşantionului creşte, deplasarea
varianţei de eşantion se reduce:
n −1
→ 1.
n
Pe de altă parte, datorită existenţei lui n la numitorul relaţiei lui V(S2), se
poate deduce uşor că, pe măsură ce volumul eşantionului creşte, concentrarea
n −1 2
diferitelor varianţe de eşantion ( σ s2 ) în jurul valorii σ este mai mare.
n
 Fie p, proporţia succeselor în interiorul unei populaţii şi Ps, proporţia de
succes aleatoare în interiorul unui eşantion de mărime n extras din această
populaţie; atunci:
E(Ps) = p

V (Ps ) =
pq
n

185
Statistică

Sensul acestui enunţ este foarte asemănător cu cel referitor la X s :


diferitele proporţii ale succesului posibile în interiorul unui eşantion (ps)
gravitează în jurul proporţiei succesului în interiorul populaţiei (p), cu o
concentrare cu atât mai puternică, cu cât volumul eşantionului este mai mare.
 Fie X, variabila studiată pentru ansamblul populaţiei şi X s , media de
eşantion aleator a acestei variabile.
ƒ dacă X: N(μ; σ2)
atunci X s : N(μ; σ2/n)
ƒ dacă X urmează o lege de probabilitate oarecare, astfel încât:
E(X) = µ
V(X) = σ2
şi volumul eşantionului (n) este mare,
Atunci: X s : ≈ N ( μ ; σ 2 / n )
Cu cât n este mai mare, cu atât aproximarea din a doua parte a acestui
enunţ este mai corectă. În practică, se consideră în general valabilă afirmaţia
pentru n ≥ 30 .
Exemplul 5.5 Dintr-o cercetare totală realizată la nivelul regiunii de
dezvoltare Sud – Vest Oltenia s-a stabilit că lungimea (în centimetri) a noilor
născuţi de sex masculin este distribuită după o lege N(49; 1.5).
Deoarece într-o distribuţie normală, marea majoritate a valorilor
caracteristicii se situează în intervalul (μ - 3σ; μ + 3σ), putem afirma că în
regiunea studiată, majoritatea născuţilor vii de sex masculin măsoară la naştere
între 49 – 3 1.5 şi 49 + 3 1.5 , adică între 45.33 cm şi 52.67 cm.
Dacă notăm cu X lungimea la naştere a unui băiat, putem calcula
probabilitatea ca un nou născut ales la întâmplare, să măsoare între 48.5 şi
49.5 cm:
P( 48.5 ≤ X ≤ 49.5 ) = P( −0.41 ≤ Z ≤ 0.41 ) = 0.3182 .
Dacă extragem, la întâmplare, eşantioane de volum n = 5 şi notăm cu
X s lungimea medie a nou născuţilor de sex masculin din aceste eşantioane,
atunci:
X s :N(49; 1.5/5) = N(49; 0.3)
Putem determina intervalul în care se vor situa majoritatea mediilor
posibile pentru eşantioane de acest volum:
( 49 − 3 0.3 ; 49 + 3 0.3 ) = (47.56; 50.64) cm
şi probabilitatea, pentru un astfel de eşantion, ca lungimea medie a nou
născuţilor să se situeze între 48.5 şi 49.5 cm:

P (48.5 ≤ X s ≤ 49.5) = P(−0.91 ≤ Z ≤ 0.91) = 0.6372 .


Dacă extragem aleator eşantioane de volum n = 50 nou născuţi de sex
masculin, atunci:
X s :N(49; 1·5/50) = N(49; 0.03)
Marea majoritate a mediilor posibile ale eşantioanelor de acest volum
vor fi incluse în intervalul: (49 – 3 0.03 ; 49 + 3 0.03 ) = (48.48; 49.52) cm.
Probabilitatea căutată de noi va fi:
P( 48.5 ≤ X s ≤ 49.5 ) = P( −2.89 ≤ Z ≤ 2.89 ) = 0.9962

186
Introducere în inferența statistică

În concluzie, pentru variabila X distribuită în cadrul populaţiei după o


lege normală N(49; 1.5), în timp ce valorile sale posibile se distribuie normal
între 45.33 şi 52.67 cm, mediile de eşantion de volum n posibile se distribuie de
asemenea normal în jurul mediei reale μ = 49 cm, cu o concentrare direct
proporţională cu mărimea eşantionului.
Exemplul 5.6 Dintr-un studiu statistic efectuat într-un spital regional, s-a
stabilit că numărul de naşteri zilnice variază într-o anumită manieră care a
permis estimarea mediei zilnice de 7 naşteri şi a unei abateri tip de 2. Dorim să
determinăm probabilitatea ca numărul mediu zilnic de naşteri să se situeze
între 6.5 şi 7.5, pentru eşantioane aleatoare de volum:
a) n = 10 zile
b) n = 125 zile
a) Dacă notăm cu X numărul zilnic de naşteri, legea de probabilitate a
acestei variabile este necunoscută. Deoarece n = 10 zile, volumul eşantionului
este prea mic pentru a se putea aplica a doua parte a enunţului. În concluzie, în
acest caz nu cunoaştem legea de probabilitate a lui X s şi nu putem determina
probabilitatea dorită.
b) Dacă n = 125 zile (n ≥ 30) , atunci putem aproxima legea de
probabilitate a lui
X s : X s : ≈ N ( μ ;σ 2 / n ) = N(7; 4/125)
şi putem determina probabilitatea dorită:
P( 6.5 ≤ X s ≤ 7.5 ) = P( −2.8 ≤ Z ≤ 2.8 ) = 0.9948
 Fie p, proporţia succeselor în interiorul unei populaţii şi Ps proporţia
succeselor aleatoare în interiorul unui eşantion de volum n, extras din
această populaţie; dacă, în acelaşi timp, n ≥ 30, np ≥ 5 şi nq ≥ 5 (unde q =
1- p), atunci:
Ps: ≈ N (p; pq/n)
Exemplul 5.7 Considerând o companie în care ponderea personalului
de sex feminin este de 35% dorim să determinăm:
a) intervalul în care se va situa ponderea personalului de sex feminin într-
un eşantion de 100 angajaţi ai acestei companii;
b) probabilitatea ca, într-un eşantion de acest volum, ponderea
personalului feminin să se situeze în intervalul: (33.5%; 36.5%).
a) Dacă notăm cu p = 35%, proporţia succesului în populaţia dată şi cu
Ps proporţia succesului în interiorul unui eşantion de volum n =100, atunci se
verifică toate condiţiile pentru ca enunţul anterior să poată fi aplicat.
n = 100 ≥ 30
np = 100 ⋅ 0.35 = 35 ≥ 5
nq = 100 ⋅ 0.65 = 65 ≥ 5
⇒ Ps: ≈ N (p; pq/n) = N(0.35; 0.002275)
⇒ ps ∈≈ (0.35 − 3 0.00275 ; 0.35 + 3 0.002275 ) = (0.2069; 0.4931)

b) P (0.335 ≤ Ps ≤ 0.365) ≈ P (−0.31 ≤ Z ≤ 0.31) = 0.2434


Funcţia principală a distribuţiei de sondaj este inferenţa statistică. Modul
în care distribuţiile de sondaj contribuie la dezvoltarea metodelor inferenţiale
este prezentat, într-o manieră sugestivă, în diagrama din figura 5.5.

187
Statistică

Populaţie Distribuţii de Unitate a


Parametri – probabilitate – populaţiei
Populaţie Distribuţii de
Statistică
Parametri – sondaj –
Distribuţii de
Statistici Parametri
– sondaj –

Figura 5.5 Utilizarea distribuţiei de sondaj în inferenţa statistică.

Informaţiile despre populaţie şi parametrii săi ne permit să utilizăm


distribuţiile de probabilitate pentru a face afirmaţii probabilistice despre fiecare
unitate a populaţiei statistice. Cunoaşterea parametrilor şi anumite informaţii
despre distribuţie ne permit afirmaţii probabilistice despre statisticile de
eşantion (de sondaj). În aplicarea atât a distribuţiilor de probabilitate cât şi a
celor de sondaj, trebuie să cunoaştem valoarea parametrilor relevanţi,
circumstanţă puţin probabilă, deoarece, în viaţa reală, parametrii sunt aproape
întotdeauna necunoscuţi, ei reprezentând indicatori descriptivi ai unor populaţii
extrem de mari. Inferenţa statistică se adresează acestor situaţii, inversând
direcţia fluxului informaţional: dacă majoritatea parametrilor populaţiei sunt
necunoscuţi dar statisticile de eşantion sunt cunoscute, distribuţia de sondaj ne
va permite realizarea de inferenţe statistice asupra parametrilor populaţiei pe
baza statisticilor de eşantion.

TEST DE AUTOEVALUARE 1
1.Definiți inferența statistică.

2. Cum se realizează eșantionarea simplă cu probabilități egale?

3. Consumul de benzină (în litri/100km) al unui anumit tip de automobil se


supune unei legi normale N (9;0.5625). Care este probabilitatea, atunci când
extragem aleator un eşantion de 20 de maşini de acest tip, de a obţine un
consum mediu mai mic de 8.5 l/100km pentru ansamblul automobilelor din
eşantion?
a) 0,14%; b) 2,98%; c) 99,86%.; d) 14%; e) 0,028%.

4. Se estimează că într-o regiune dată, 45% dintre salariaţi (declaraţi)


beneficiază de un regim de pensii inclus în contractul colectiv de muncă. Dacă
se prelevează aleator un eşantion de 200 de salariaţi din această regiune, care
va fi probabilitatea de a număra mai puţin de 44% sau mai mult de 46% de
salariaţi care beneficiază de un astfel de regim?
a) 22,06%; b) 0,28%; c) 0,3897 d) 77,94%; e) 38,97%.

5. Dintr-o populaţie formată din 6 unităţi se extrag toate eşantioanele formate


din câte trei unităţi, prin procedeul bilei revenite. Care este probabilitatea ca o
unitate să figureze cel puţin o dată în eşantion la sfârşitul extragerilor?
a) 11/36; b) 23.44%; c) 15/64; d)42.13%; e) 50%

6. Angajaţii unui serviciu municipal estimează că în localitatea lor, consumul


zilnic de apă potabilă (în litri), pe gospodărie, se supune unei legi normale N
(1500;3002). Dacă se extrage aleator un eşantion de 225 de gospodării din

188
Introducere în inferența statistică

această localitate şi se observă, pentru fiecare, consumul de apă potabilă


pentru o zi oarecare, aleasă la întâmplare, care va fi probabilitatea:
a) ca media consumului acestui eşantion să se situeze între 1475 litri şi
1525 litri?
b) ca în acest eşantion ponderea unui consum zilnic cuprins între 1200 litri
şi 1800 litri să fie peste 70%?

7. Un studiu statistic efectuat în rândul tinerilor români (cu vârsta cuprinsă între
15 şi 25 de ani) precizează că 17% dintre ei nu iau masa de prânz. Într-un
eşantion de 250 de tineri români, care este probabilitatea ca ponderea celor
care nu mănâncă la prânz să fie peste 20%?
a) 56,44%; b) 89,62%; c) 10,38% d) 42,50%; e) 0,20%.

8. Dintr-o populaţie formată din 6 unităţi se extrag toate eşantioanele formate


din câte trei unităţi, prin procedeul bilei nerevenite. Câte eşantioane sunt posibil
de generat?
a) 36; b) 64; c) 20; d) 216; e) 15.

9. Dintr-o populaţie formată din 6 unităţi se extrag toate eşantioanele formate


din câte trei unităţi, prin procedeul bilei nerevenite. Care este probabilitatea ca
o unitate să figureze cel puţin o dată în eşantion la sfârşitul extragerilor?
a) 50%; b) 23.44%; c) 15/64; d)91/216; e) 42,13%

10 Dintr-o populaţie formată din 6 unităţi se extrag toate eşantioanele formate


din câte trei unităţi, prin procedeul bilei revenite. Câte eşantioane sunt posibil
de generat?
a) 36; b) 64; c) 20; d) 216; e) 15.

Răspunsurile la toate întrebările testului de autoevaluare 1 se


regăsesc în Unitatea de învățare 5, paginile 170- 188. Pentru aplicațiile
practice și întrebările tip grilă, rezolvarea se regăsește și la sfârșitul
manualului.

5.4. Estimarea parametrilor

O primă modalitate de efectuare a inferenţei statistice – formularea unor


concluzii referitoare la ansamblul unei populaţii plecând de la observaţiile
realizate asupra unui eşantion unic extras din aceasta – o reprezintă estimarea
valorilor necunoscute ale parametrilor µ, σ2 şi p ale unei populaţii date pe baza
celor cunoscute ale lui xs , σ s2 şi ps dintr-un eşantion. Pentru a realiza acest
lucru, există două tehnici diferite:
ƒ estimarea punctuală – care evaluează parametrul necunoscut cu
ajutorul unui număr unic, fără a preciza valoarea acestei estimaţii;

189
Statistică

ƒ estimarea prin intervale de încredere – care determină un interval de


valori în interiorul căruia ar trebui să se situeze parametrul căutat,
precizând gradul de certitudine al acestei estimări.

5.4.1. Estimarea punctuală


Estimarea punctuală este o modalitate de estimare prin intermediul
căreia evaluăm un parametru al populaţiei cu ajutorul unui număr unic care
apare ca cel mai verosimil pentru a estima parametrul necunoscut.
Pentru facilitarea alegerii acestui număr, cel mai verosimil, pentru a
evalua un parametru, vom prezenta şi exemplifica definirea unor noţiuni utile.
Fie θ, un parametru al populaţiei care trebuie estimat şi Θ, o variabilă
aleatoare; dacă Θ constă într-un ansamblu de valori posibile pentru estimarea
lui θ, spunem că Θ este un estimator pentru θ.
Fie Θ, un estimator al lui θ; dacă E(Θ) = θ, atunci Θ este un estimator
nedeplasat al lui θ.
Pe baza acestor definiţii şi a informaţiilor prezentate în paragrafele
precedente, putem formula următoarele concluzii:
ƒ X s este un estimator nedeplasat pentru μ;
ƒ Ps este un estimator nedeplasat pentru p;
ƒ S2 este un estimator deplasat pentru σ2, deoarece E(S2) ≠ σ2.
Fie Θ, un estimator al lui θ; dacă:
V(Θ) → 0, atunci când n → ∞ , atunci Θ este un estimator convergent
către E(Θ) sau un estimator consistent. Putem afirma că:
ƒ X s este un estimator convergent către μ(=E( X s ));
ƒ S2 este un estimator convergent către
n −1 2
n
( ( ))
σ = E S2 ;

ƒ Ps este un estimator convergent către p(=E(Ps )).


Fie Θ, un estimator al lui θ; dacă Θ este atât nedeplasat pentru θ cât şi
convergent către θ, el este considerat ca un bun estimator al lui θ sau un
estimator eficient al lui θ.
Un estimator va fi cu atât mai eficient, cu cât n, mărimea eşantionului,
va fi mai mare; într-adevăr, cu cât n este mai mare, cu atât estimatorul
converge mai puternic către parametrul de evaluat şi cu atât mai puţin abaterea
între parametru şi o valoare particulară a acestui estimator are şanse să fie
importantă. O altă calitate dorită a unui estimator este eficienţa relativă, care
compară doi estimatori nedeplasaţi ai unui parametru: dacă există doi
estimatori nedeplasaţi ai unui parametru, cel a cărei varianţă este mai mică
este considerat mai eficient (sau relativ eficient).
Deoarece E( X s ) = µ şi V( X s ) = σ2/n, X s este atât un estimator
nedeplasat pentru μ cât şi convergent către acest parametru; X s este deci
considerat un estimator eficient al lui μ (cu atât mai bun cu cât mărimea
eşantionului este mai mare).
În aceeaşi manieră, putem considera că Ps este un bun estimator al lui
n −1 2
p, dar S2 este un bun estimator al lui σ , dar nu al lui σ2.
n
∑( xi − x s )2
Am definit anterior dispersia unui eşantion ca fiind: σ s2 =
n
Pentru a găsi un estimator eficient al lui σ , vom introduce o nouă
2

caracteristică de eşantion: varianţa corectată:

190
Introducere în inferența statistică

∑( xi − x s )2 n
σ s2n −1 = = σ s2 .
n −1 n −1
În consecinţă, dacă un eşantion aleator (un ansamblu de eşantioane
posibile) presupune un ansamblu S2 de varianţe de eşantion posibile, (varianţa
de eşantion aleatoare), el presupune de asemenea şi un ansamblu de varianţe
corectate de eşantion posibile, o nouă variabilă aleatoare putând fi definită –
varianta corectată de eşantion:
n 2
S n2−1 = S
n −1
Această variabilă este un estimator nedeplasat şi consistent al lui σ2 şi,
deci, un estimator eficient al acestui parametru.
Pentru a estima punctual un parametru al unei populaţii cu ajutorul unui
eşantion unic extras din aceasta, utilizăm valoarea particulară pe care un
estimator eficient al acestui parametru o are în interiorul eşantionului; astfel, pe
baza estimatorilor eficienţi pe care i-am descris anterior pentru μ, σ2 şi p,
utilizăm:
ƒ xs ca estimaţie punctuală a lui μ;
ƒ σ s2n −1 ca estimaţie punctuala a lui σ2;
ƒ ps ca estimaţie punctuală a lui p.
Vom nota cu θ̂ estimaţia punctuală asupra unui parametru θ. Enunţurile
anterioare pot fi reformulate astfel:
μˆ = x s
n
σˆ 2 = σ sn2 −1 = σ 2s
n −1
p̂ = ps
Exemplul 5.8 Numărul mediu de cărţi de credit utilizate de un eşantion
de 50 de persoane extras dintre clienţii unui hipermarket este de 2.28 şi
dispersia de 4.362; 28% dintre clienţii din eşantion utilizează mai mult de două
cărţi de credit. Să se estimeze punctual principalii parametri ai ansamblului
clienţilor hipermarketului: media, dispersia şi abaterea tip ale numărului cărţilor
de credit utilizate dar şi media variabilei alternative, ponderea clienţilor care
utilizează mai mult de două cărţi de credit.
ƒ μˆ = xs = 2.28 cărţi de credit
n 2 50
ƒ σˆ 2 = σ s= 4.362 = 4.451
n−1 49
ƒ σ = 4 ⋅ 451 = 2.11 cărţi de credit
ˆ
ƒ p̂ = p = 0.28 = 28%

5.4.2 Estimarea prin intervale de încredere


Estimarea prin intervale de încredere este un mod de estimare care
permite definirea unui interval de valori în interiorul căruia un parametru al
populaţiei are o probabilitate bine determinată de a se situa.
Orice interval de încredere se bazează pe legea de probabilitate a unui
estimator; prezentăm în continuare principalele distribuţii de sondaj utilizate în
estimarea prin intervale de încredere:
ƒ dacă X: N(μ; σ2) sau n este mare, atunci

191
Statistică

X s :N(μ; σ 2/n)
ƒşi dacă, în acelaşi timp, n ≥ 30 , np ≥ 5 şi nq ≥ 5 , atunci Ps: N(P; pq/n)
Utilizând standardizarea acestor variabile, obţinem următoarele
distribuţii:
ƒ dacă X: N(μ; σ2) sau n este mare, atunci:
Xs − μ
: N ( 0 ;1 )
σ/ n
ƒ şi dacă, în acelaşi timp, n ≥ 30 , np ≥ 5 şi nq ≥ 5 , atunci:
Ps − p
: N ( 0;1 )
pq / n

Alte legi de probabilitate particulare asociate variabilelor X s , Xi, Sn – 1 şi


2
S (unde variabila Xi corespunde ansamblului de posibilităţi ale lui xi, data cu
n −1
rangul i din eşantion) se adaugă celor enunţate anterior pentru a furniza,
conform diferitelor contexte ale studiilor statistice, distribuţiile de probabilităţi
necesare construcţiei diverselor intervale de încredere (tabelul 5.4).

Tabelul 5.4
Distribuţii de sondaj utilizate pentru construirea intervalelor de încredere

Parametrul de Distribuţia de probabilitate Condiţii de aplicare


estimat utilizată
Xs − μ σ 2 cunoscută
: N ( 0 ;1 )
μ σ/ n şi X: normal distribuită
sau n ≥ 30
Xs − μ σ 2 necunoscută
: tn −1
S n −1 / n şi X: normal distribuită
Xs − μ σ 2 necunoscută
: N ( 0 ;1 )
S n −1 şi n≥100 (foarte mare)

∑( X i − μ ) μ cunoscută
2
n
:χ 2
şi X: normal distribuită
σ2 σ2
n

(n − 1)S n2−1 : χ 2 μ necunoscută şi


n −1
σ 2
X: normal distribuită
Ps − p n ≥ 3( mare )
: N ( 0;1 )
p pq / n np ≥ 5
şi
nq ≥ 5

În tabelul 5.4, legile de probabilitate ale distribuţiilor ale căror condiţii de


aplicare precizează valorile minimale ale lui n nu sunt, în realitate, decât
aproximări ale legilor reale, care vor fi cu atât mai corecte cu cât valoarea lui n
va fi mai mare.

192
Introducere în inferența statistică

 Intervale de încredere pentru estimarea lui μ (media populaţiei) se pot


construi diferit, în funcţie de informaţiile referitoare la parametrul σ2
(dispersia populaţiei).
• Dispersia populaţiei este cunoscută
Dacă σ2, varianţa populaţiei este cunoscută, se ştie că: dacă X: N(μ; σ2)
sau n este mare atunci:
Xs − μ
: N ( 0 ;1 )
σ/ n
⎛ X −μ ⎞
⇒ P⎜⎜ − ∞ < s < ∞ ⎟⎟ = 1 - pentru un grad absolut de certitudine
⎝ σ/ n ⎠
⎛ X −μ ⎞
⇒ P⎜⎜ − 1.96 ≤ s < 1.96 ⎟⎟ = 0.95 - pentru un grad de certitudine de
⎝ σ/ n ⎠
95%
Această ultimă relaţie mai poate fi scrisă:
⎛ 1.96σ 1.96σ ⎞
P⎜⎜ X s − ≤ μ ≤ Xs + ⎟⎟ = 0.95
⎝ n n ⎠
şi semnifică faptul că, în condiţiile definite anterior, media de eşantion
aleatoare X s are 95% şanse de a lua o valoare xs astfel încât:
1.96σ 1.96σ
xs − ≤ μ ≤ xs +
n n
În aceste condiţii, dacă avem informaţii despre media unui eşantion
particular ( xs ) , putem afirma cu o certitudine de 95% că media populaţiei μ se
va situa în intervalul:
⎡ 1.96σ 1.96σ ⎤
μ ∈ ⎢ xs − ; xs + ⎥
⎣ n n ⎦
Estimăm astfel media populaţiei (μ) printr-un interval de valori, numit
interval de încredere, iar probabilitatea 0.95 asociată acestui interval poartă
numele de grad de certitudine sau grad de încredere; în general, gradul de
încredere este fixat la 90%, 95% sau 99%.
Exemplul 5.9 Cunoaştem că durata de funcţionare a unui anumit tip de
baterie, exprimată în ore, este distribuită normal, cu o abatere tip de 2 ore. Nu
cunoaştem media acestei distribuţii şi, în scopul estimării sale, extragem un
eşantion de 20 de baterii de acest tip pentru care observăm durata de
funcţionare; durata medie de funcţionare a celor 20 de baterii din eşantion este
de 10 ore.
Cu ajutorul acestor informaţii dorim să determinăm intervalul de
încredere pentru a estima durata medie de funcţionare a tuturor bateriilor, cu un
grad de certitudine de 95%.
ƒ populaţia: X = durata de funcţionare a bateriilor (în ore)
X: N(μ; 4)
ƒ eşantionul: n = 20
xs = 10

193
Statistică

Dorind să estimăm media populaţiei, în condiţiile în care este cunoscută


dispersia acesteia iar variabila studiată este normal distribuită, putem folosi
prima distribuţie de sondaj din tabelul 5.4.
Xs − μ
: N ( 0 ;1 )
σ/ n
⎡ 1.96σ 1.96σ ⎤
⇒ μ ∈ ⎢ xs − ; xs + ⎥
⎣ n n ⎦

⎡ 1.96 ⋅ 2 1.96 ⋅ 2 ⎤
⇒ μ ∈ ⎢10 − ;10 + ⎥
⎣ 20 20 ⎦
⇒ μ ∈ [9.12;10.88] cu 95% certitudine
Cu un grad de certitudine de 95%, durata medie de funcţionare a tuturor
bateriilor se va încadra în intervalul [9.12; 10.88].
• Dispersia populaţiei este necunoscută
Tehnica utilizată în acest caz pentru a estima printr-un interval de
încredere media populaţiei este asemănătoare cu cea din modelul precedent,
singura diferenţă fiind punctul de plecare – o distribuţie diferită (a doua din
tabelul 5.4).
Exemplul 5.10 Dorim să estimăm printr-un interval de încredere de 90%
certitudine consumul mediu de benzină pentru un anumit tip de automobil
(litri/100 km), ştiind că acesta este normal distribuit şi cunoscând media şi
abaterea tip corectată pentru un eşantion de 25 de automobile:
xs = 8 ,7 l şi σsn – 1 = 0.09 l.
ƒ populaţia: X = consumul de benzină în litri la 100/km.
X: N(μ; σ2).
ƒ eşantionul: n = 25 xs = 8 ,7 l σ sn −1 = 0.09
Pentru a estima parametrul μ cu 90% certitudine, utilizăm a doua
distribuţie din tabelul 5.4.

⎛ Xs −μ ⎞
P⎜ − 1.711 ≤ ≤ 1.711⎟ = 0.90
⎜ ⎟
⎝ S n −1 / n ⎠

t24
unde: - 1.711 şi + 1.711 corespund celor două valori simetrice – t şi t ale
variabilei T:t24, între care vom regăsi o arie de 0.90 sub curba t24 (anexa 10).
⎛ 1.711S n −1 1.711S n −1 ⎞
⇒ P⎜⎜ X s − ≤ μ ≤ Xs + ⎟⎟ = 0.90
⎝ n n ⎠
⎡ 1.711 ⋅ σ sn −1 1.711σ sn −1 ⎤
⇒ μ ∈ ⎢ xs − ; xs + ⎥
⎣ n n ⎦

⎡ 1.711 ⋅ 0,09 1.711 ⋅ 0.09 ⎤


⇒ μ ∈ ⎢8.7 − ;8.7 + ⎥⎦
⎣ 5 5
⇒ μ ∈ [8.67;8.73] cu 90% certitudine.

194
Introducere în inferența statistică

 Intervale de încredere pentru estimarea lui p (proporţia succeselor în


interiorul unei populaţii).
Metodologia utilizată pentru estimarea pe baza unui interval de
încredere a mediei caracteristicii alternative (ponderea primei variante sau
proporţia succeselor) în cadrul populaţiei, asemănătoare cu cea folosită pentru
estimarea mediei sau dispersiei populaţiei va fi ilustrată prin exemplul următor.
Exemplul 5.11 O anchetă efectuată asupra unui eşantion reprezentativ
format din 1000 de persoane cu vârsta peste 15 ani dintr-o regiune dată a
arătat că 110 dintre aceştia sunt şomeri.
Dorim să estimăm, cu ajutorul unui interval de încredere (95% grad de
certitudine), proporţia şomerilor în ansamblul populaţiei regiunii.
ƒ eşantionul n = 1000
ps = 110/1000 = 0.11
Pentru a putea utiliza unica distribuţie prezentată în tabelul 5.4 pentru
evaluarea lui p, trebuie să verificăm respectarea condiţiilor necesare:
n ≥ 30; np ≥ 5; nq ≥ 5 .
Volumul eşantionului este n = 1000 ≥ 30 , deci prima condiţie este
respectată; în ceea ce priveşte valorile lui p şi q, ele sunt necunoscute; totuşi,
cum ps este deseori utilizat ca estimator punctual pentru p (în aceeaşi măsură,
qs este un estimator punctual al lui q), şi cum np s = 110 ≥ 5 iar nqs = 890 ≥ 5 ,
este rezonabil să presupunem că np ≥ 5 şi nq ≥ 5 şi să utilizăm distribuţia
normală propusă în tabel.
⎛ ⎞
⎜ ⎟
P−p
P⎜ − 1.96 ≤ s ≤ 1.96 ⎟ = 0.95
⎜ pq ⎟
⎜ ⎟
⎝ n ⎠

N ( 0 ;1 )

⎡ pq pq ⎤
⇒ p ∈ ⎢ ps − 1.96 ; ps + 1.96 ⎥ cu 95% siguranţă.
⎢⎣ n n ⎥⎦

Această formulă propune estimarea lui p prin intermediul unui interval


definit pornind de la propria valoare (necunoscută) a acestui parametru; pentru
a elimina acest inconvenient, apelăm la estimarea punctuală a produsului pq
prin produsul ps·qs; estimarea acestui produs are şanse mai mari decât
estimarea fiecărui parametru în parte de a fi corectă, deoarece:
ƒ cu cât n este mai mare, cu atât estimarea punctuală este mai corectă (în
cazul nostru n este foarte mare);
ƒ dacă ps diferă de p în sens pozitiv (supraestimându-l), atunci qs va diferi
în mod obligatoriu de q în sens negativ (subestimând valoarea
acestuia), deoarece p+q = 1 şi ps+qs = 1; raţionamentul este valabil şi în
sens invers;
ƒ deoarece ps şi qs sunt considerate estimaţii valabile ale lui p şi q, ps·qs
are mai multe şanse de a fi o estimare valabilă a lui pq.
⎡ 0.11 ⋅ 0.89 0.11 ⋅ 0.89 ⎤
⇒ p ∈ ⎢0.11 − 1.96 ;0.11 + 1.96 ⎥
⎢⎣ 1000 1000 ⎥⎦

⇒ p ∈ [ 0.09 ;0.13 ] cu un grad de certitudine de 95%.

195
Statistică

Cu un grad de siguranţă de 95% putem afirma că ponderea şomerilor


din regiune este cuprinsă între 9% şi 13% .
Utilizarea diferitelor distribuţii de probabilitate pentru construirea
intervalelor de încredere în vederea estimării principalilor parametri ai populaţiei
este sintetizată în tabelul 5.5. (z, t, x1 şi x2 sunt valorile particulare ale
variabilelor distribuţiilor utilizate pentru construirea acestor intervale, în funcţie
de gradul de certitudine al acestora).
Prima estimaţie din tabel (de altfel, cel mai frecvent utilizată în cazul
inferenţelor statistice realizate în domeniul social – economic):
⎡ z ⋅σ z ⋅σ ⎤
μ ∈ ⎢ xs − ; xs + ⎥ cu un anumit grad de siguranţă
⎣ n n ⎦
evaluează parametrul μ cu ajutorul unei estimaţii punctuale a acestuia ( xs ) la
⎛ z ⋅σ ⎞
care se adaugă o marjă de eroare ⎜⎜ ± ⎟⎟ ; formula acestei marje de eroare
⎝ n ⎠
arată clar faptul că ea descreşte pe măsură ce volumul eşantionului creşte.
Tabelul 5.5
Estimarea prin intervale de încredere
Nr. Distribuţia de probabilitate Estimarea asociată (cu un anumit grad de
utilizată încredere)
crt.
1. Xs − μ ⎡ z ⋅σ z ⋅σ ⎤
: N ( 0 ;1 ) μ ∈ ⎢ xs − ; xs + ⎥
σ/ n ⎣ n n ⎦
2. Xs − μ ⎡ t ⋅ σ sn −1 t ⋅ σ sn −1 ⎤
: tn −1 μ ∈ ⎢ xs − ; xs + ⎥
S n −1 / n ⎣ n n ⎦
3. Xs − μ ⎡ z ⋅ σ sn −1 z ⋅ σ sn −1 ⎤
: N ( 0;1 ) μ ∈ ⎢ xs ; xs + ⎥
S n −1 / n ⎣ n n ⎦
4. ∑(xi − μ ) ⎡ ∑( xi − μ )2 ∑(xi − μ )2 ⎤
2

:χ σ ∈⎢ n ⎥
n 2 2
;n
σ2
n
⎢ x2 x2 ⎥
⎢⎣ ⎥⎦
5. (n − 1)Sn2−1 : χ 2 ⎡ (n − 1)σ sn
2
(n − 1)σ sn2 −1 ⎤
n −1 σ2 ∈⎢ −1
; ⎥
σ2 ⎣ x2 x1 ⎦
6. Ps − p
: N ( 0;1 )
⎡ z ps (1 − ps ) z ps (1 − ps ) ⎤
p ∈ ⎢ ps − ; ps + ⎥
pq
⎣⎢ n n ⎥⎦
n

Pentru un anumit grad de certitudine este deci posibil să stabilim o


marjă de eroare maximală ce nu poate fi depăşită şi apoi să determinăm
volumul minim al eşantionului necesar respectării acesteia.
Dacă notăm cu e marja de eroare admisă, atunci:
z ⋅σ z ⋅σ
≤e⇒ n ≥
n e
Altfel spus, în cazul estimării mediei populaţiei printr-un interval de
încredere pe baza unei distribuţii normale standard (prima distribuţie din tabelul
5.5), această estimare are, pentru un anumit grad de certitudine, o marjă de

196
Introducere în inferența statistică

eroare admisă (maximală) e, atunci când volumul eşantionului respectă


z ⋅σ
următoarea inegalitate: n≥
e
unde z = valoarea particulară a lui Z care asigură gradul de siguranţă
dorit pentru estimare.
Ultima estimaţie din tabelul 5.5, de asemenea pe baza distribuţiei
standard normale, a mediei variabilei alternative:
⎡ z ps ( 1 − ps ) z ps ( 1 − ps ) ⎤
p ∈ ⎢ ps − ; ps + ⎥
⎢⎣ n n ⎥⎦

⎛ z ps ( 1 − ps ) ⎞
cu un anumit grad de certitudine, are o marjă de eroare ⎜ ⎟ care
⎜ n ⎟
⎝ ⎠
pare, la prima vedere, dependentă de un rezultat experimental (ps ) – ca şi
distribuţiile 2 – 5 din tabelul 5.5 pentru care este imposibil de a preciza înaintea
extragerii unui eşantion mărimea marjei de eroare admise şi de a stabili
volumul minim necesar al eşantionului; cu toate acestea, din primele capitole
ale acestei lucrări (de statistică descriptivă) cunoaştem faptul că produsul ps(1 –
ps) este întotdeauna mai mic sau egal cu 0.25 (1/4) – valoarea maximă a
dispersiei pentru o variabilă binară este 0.25
z p s ( 1 − ps ) z 0.25 z
⇒ ≤ =
n n 2 n
Pentru ca e să devină marja de eroare maximală a unei astfel de
z z
estimaţii, este suficient ca: ≤e⇒ n ≥
2 n 2e
Altfel spus, în cazul estimării lui p printr-un interval de încredere pe baza
unei distribuţii standard normale (ultima distribuţie din tabelul 5.5), această
estimare are, pentru un anumit grad de certitudine, o marjă de eroare maximală
z
e, atunci când volumul eşantionului respectă inegalitatea: n≥
2e
unde z = valoarea particulară a lui Z care asigură gradul de certitudine dorit
pentru estimare.

5.5 Testarea ipotezelor statistice


Testarea ipotezelor constituie, după estimare, a doua formă de inferenţă
statistică, altfel spus, de formulare a unor concluzii referitoare la populaţie
pornind de la un eşantion unic al acesteia.
În timp ce estimarea are drept scop delimitarea cât mai precis posibil a
valorii necunoscute a unui parametru al populaţiei, testarea ipotezelor are drept
scop confruntarea a două ipoteze exprimând două tendinţe diferite referitoare la
acest parametru şi determinarea, în comparaţie cu eşantionul observat, care
dintre cele două ipoteze este mai veridică.
5.5.1 Construirea unui test de ipoteze statistice
Structura de bază a unui test de ipoteze:

197
Statistică

` punctul de plecare: două ipoteze sunt confruntate, cu privire la un


parametru al unei populaţii date;
` principiul testului: de a decide, pe baza unui eşantion extras din această
populaţie, pe care dintre cele două ipoteze o acceptăm şi pe care o
respingem;
` caracteristicile de eşantion utilizate: dacă ipotezele testului se referă la
media populaţiei (μ), concluziile se vor formula în comparaţie cu media
de eşantion ( xs ); dacă ipotezele se referă la dispersia populaţiei ( σ 2 ),
concluziile se vor fundamenta pe dispersia corectată de eşantion
( σ sn
2
−1 ); dacă ipotezele se referă la proporţia succesului în interiorul unei
populaţii (p), decizia va fi ghidată de proporţia succesului în interiorul
eşantionului cercetat (ps).
Tipurile de ipoteze ale unui test sunt:
` ipoteza nulă, notată H0, care prezintă o propoziţie simplă;
` ipoteza alternativă, notată H1, care prezintă o propoziţie compusă (care
cuprinde un interval de valori posibile).
Exemplul 5.12 Referitor la studenţii din anul I ai unei facultăţi,
considerăm următoarele ipoteze cu privire la numărul mediu de credite obţinut
la sfârşitul anului universitar:
ƒ prima ipoteză: numărul mediu de credite obţinut de studenţi este de 30;
ƒ a doua ipoteză: numărul mediu de credite obţinut de studenţi este mai
mare de 30.
Un test de verificare a acestor două ipoteze, se prezintă astfel:
H0 : μ = 30 – ipoteza nulă (simplă)
H1 : μ > 30 – ipoteza alternativă (compusă)
În tabelul 5.6 sunt prezentate diferitele cupluri de ipoteze pe care le
putem confrunta, în funcţie de parametrul vizat.

Tabelul 5.6
Parametrul μ σ2 p
Ipotezele statistice
ƒ primul caz (test H0 : μ = μ0 H0 : σ 2 = σ 02 H0 : p = p0
unilateral)
H1 : μ > μ0 H1 : p > p0
H1 : σ 2 > σ 02

ƒ al doilea caz (test H0 : μ = μ0 H0 : σ 2 = σ 02 H0 : p = p0


unilateral)
H1 : μ < μ0 H1 : p < p0
H1 : σ 2 < σ 02

ƒ al treilea caz (test H0 : μ = μ0 H0 : σ 2 = σ 02 H0 : p = p0


bilateral)
H1 : μ ≠ μ0 H1 : p ≠ p0
H1 : σ 2 ≠ σ 02

Exemplul 5.13 Managerul unei firme pretinde că noul procedeu


tehnologic utilizat va duce la prelungirea duratei de viaţă a pneurilor fabricate,
care este în prezent, în medie, de 5000 km rulaj. În acest caz, verificarea
eficacităţii noului procedeu constă în verificarea, printre altele, a validităţii
următoarei ipoteze: μ > 5000.
Totuşi, deoarece un test trebuie, pe de o parte, să confrunte două
ipoteze şi, pe de altă parte, să pornească de la o ipoteză simplă care va servi

198
Introducere în inferența statistică

ca punct de referinţă, acest studiu ne obligă la confruntarea următoarelor


propoziţii (ipoteze):

H0 : μ = 5000
H1 : μ > 5000
Respectând regula anunţată anterior, conform căreia un test va fi
întotdeauna aplicat unei ipoteze simple, contextul problemei va decide alegerea
ipotezelor care se confruntă (vezi tabelul 5.6).
Procedeul de bază al unui test de ipoteze este simplu: extragem din
populaţie un eşantion şi calculăm după caz, una dintre caracteristicile sale
numerice, xs , σ sn
2
−1 sau ps; după cum această valoare de eşantion pare să
confirme mai mult ipoteza H0 sau ipoteza H1 decidem să o acceptăm pe cea
mai plauzibilă dintre cele două şi astfel să o respingem pe cealaltă.
Revenind la exemplul 5.13, referitor la durata de viaţă a pneurilor
fabricate de o firmă (exprimată în număr de kilometri), dorim să efectuăm testul
care confruntă cele două ipoteze:

H0 : μ = 5000
H1 : μ > 5000
Pentru a efectua acest test, va trebui să extragem un eşantion de pneuri
fabricate prin noul procedeu tehnologic şi să calculăm numărul mediu de
kilometri parcurşi ( xs ). Dacă această medie de eşantion se situează în jurul
valorii de 5000 km, vom accepta ipoteza H0 şi vom respinge ipoteza H1. În caz
contrar, dacă media de eşantion se situează cu mult peste această valoare de
5000, vom respinge ipoteza H0 pentru a accepta ipoteza H1, validând astfel
afirmaţia conform căreia modificarea tehnologică a sporit eficienţa firmei.
Aşa cum am menţionat deja, ipoteza simplă, propunând o valoare
precisă pentru parametru, este cea care serveşte ca referinţă pentru un studiu
dat. În comparaţie cu valoarea propusă în această ipoteză, se fixează o bornă,
o valoare critică, astfel încât:
• de o parte a acesteia, decidem să acceptăm ipoteza H0;
• de cealaltă parte a acesteia, decidem să respingem ipoteza H0 şi să
acceptăm ipoteza H1.
Intervalul situat de acea parte a valorii critice pentru care decidem să
respingem ipoteza H0 poartă numele de regiune critică sau zonă de
respingere a ipotezei H0. Forma ipotezei alternative H1 determină zona de
respingere a lui H0:
a) H0 : μ = μ0
H1 : μ > μ0
În acest caz, dacă media de eşantion xs este mai mică sau egală cu
valoarea critică xc , considerăm că eşantionul confirmă ipoteza H0 (μ = μ0) şi
decidem să acceptăm această ipoteză (figura 5.6.a)
Dacă valoarea lui xs este mai mare decât xc , considerăm că eşantionul
confirmă ipoteza H1 (μ > μ0) şi decidem să respingem ipoteza H0 şi să
acceptăm ipoteza H1.
b) H0 : μ = μ0
H1 : μ < μ0
Dacă media de eşantion xs este mai mare sau egală cu xc , considerăm
că eşantionul confirmă ipoteza H0 (μ = μ0) şi decidem acceptarea acesteia.
Dacă, dimpotrivă, media de eşantion este mai mică decât valoarea critică,
considerăm că eşantionul confirmă mai degrabă ipoteza H1 (μ < μ0) şi decidem
respingerea ipotezei H0 şi acceptarea ipotezei H1 (figura 5.6.b).
c) H0 : μ = μ0
H0 : μ ≠ μ0
199
Statistică

μ0 xc
xs
a)
Regiunea critică
xs
Zona de acceptare Zona de respingere
a lui H0 a lui H0

xc μ0
xs
b)
Regiunea critică
Zona de respingere Zona de acceptare
xs
a lui H0 a lui H0

xc1 μ0 xc 2
xs
c)
Regiune critică Regiune critică
xs
Zonă de Zona de Zonă de
respingere a lui H0 acceptare a lui H0 respingere a lui H0

Figura 5.6 Reguli de stabilire a regiunii critice.

Dacă media de eşantion este mai mare sau egală cu valoarea critică
xc1 , şi mai mică sau egală cu valoarea critică xc 2 , considerăm că eşantionul
confirmă ipoteza H0 (μ = μ0) şi decidem să acceptăm această ipoteză.
Dacă media de eşantion xs este inferioară valorii xc1 sau superioară
valorii xc 2 , considerăm că eşantionul confirmă mai degrabă ipoteza H1 (μ ≠ μ0)
şi decidem să respingem ipoteza H0 (figura 5.6.c).
Primele două modele de teste descrise anterior sunt calificate drept
teste unilaterale, deoarece regiunea lor critică este compusă dintr-un singur
interval continuu. Al treilea model de test este calificat drept test bilateral, zona
sa de respingere a ipotezei H0 fiind formată din două sub-intervale.
Observaţii. Metodologia de stabilire a regiunii critice este aceeaşi
pentru ipotezele asupra varianţei σ2 sau mediei variabilei alternative p
(proporţiei succesului într-o populaţie).
Reluând exemplul 5.13:
H0 : μ = 5000
H1 : μ > 5000
putem fixa, de exemplu, valoarea critică a mediilor de eşantion la 5075
km (figura 5.7).

Zona de acceptare a Zona de respingere a lui


lui H0 şi de H0 şi de acceptare a lui
respingere a lui H1 H1 (regiunea critică)
xs
μ0=5000 xc = 5075
Figura 5.7 Regiunea critică pentru exemplul 5.13

Dacă durata medie de viaţă a pneurilor din eşantionul extras este mai
mică sau egală cu valoarea critică 5075 km, vom considera că eşantionul
200
Introducere în inferența statistică

confirmă ipoteza H0 şi vom respinge ipoteza managerului; dacă media


eşantionului este superioară valorii critice stabilite, vom considera că diferenţa
este suficient de semnificativă pentru a admite că eşantionul provine dintr-o
populaţie având o medie superioară lui 5000 km. În acest ultim caz, vom decide
să respingem ipoteza H0 şi să acceptăm ipoteza H1, confirmând opinia
managerului.
5.5.2. Analiza unui test de ipoteze
Luarea unei decizii în cazul unui test de ipoteze comportă întotdeauna
un risc de eroare mai mult sau mai puţin important.
La nivelul unei populaţii, două situaţii pot fi reale, una prezentată prin
ipoteza H0 şi cealaltă prin ipoteza H1.
• Dacă H0 este adevărată, testarea ipotezelor poate să conducă:
` fie la acceptarea lui H0, ceea ce constituie o decizie corectă;
` fie la respingerea lui H0 (şi acceptarea lui H1) ceea ce constituie o
eroare calificată drept eroare de primă speţă (eroare de tip I);
• Dacă H1 este adevărată, testarea ipotezelor poate să conducă:
` fie la acceptarea lui H1 (şi respingerea lui H0), ceea ce constituie o
decizie corectă;
` fie la respingerea lui H1 (şi acceptarea lui H0) ceea ce constituie o
eroare calificată drept eroare de a doua speţă (eroare de tip II).
Probabilitatea de a efectua o eroare de tipul I se numeşte risc de prima
speţă şi se notează cu α; probabilitatea de a efectua o eroare de tipul II se
numeşte risc de a doua speţă şi se notează cu β. În tabelul 5.7. sunt prezentate
situaţiile posibile şi probabilităţile corespunzătoare.
Altfel spus, α reprezintă probabilitatea unei erori de tipul I sau
probabilitatea de a lua o decizie greşită în situaţia în care ipoteza H0 este
adevărată sau probabilitatea de a respinge ipoteza H0 atunci când ea este
adevărată:
α = P[erori de tipul I]
= P[decizie greşită / H0 este adevărată]
= P[de a respinge H0 / H0 este adevărată]
În aceeaşi manieră, putem prezenta pe β:
β = P[erori de tipul II]
= P[decizie greşită / H1 este adevărată]
= P[de a respinge H1 / H1 este adevărată]
= P[de a accepta pe H0 / H1 este adevărată]
Tabelul 5.7
Tipuri de erori în testarea ipotezelor statistice
Realitate H0 este adevărată H1 este adevărată
Decizie
Respingerea lui Decizie greşită: Decizie corectă (1-β)
H0
ƒ eroare de tipul I
ƒ risc de prima speţă (α)
Acceptarea lui Decizie corectă (1-α) Decizie greşită:
H0
ƒ eroare de tipul II
ƒ risc de a doua speţă (β)

201
Statistică

Pentru a prezenta modul de calcul al celor două riscuri (α şi β), revenim


la exemplul 5.13 şi presupunem că un studiu statistic realizat înaintea
modificării procedeului tehnologic a demonstrat că durata de viaţă a pneurilor
era normal distribuită, cu media 5000 km şi abaterea tip 525 km.
Considerând că noul procedeu tehnologic nu a influenţat distribuţia
normală şi nici varianţa duratei de viaţă a produsului, putem afirma că durata de
viaţă a noului produs, X, este normal distribuită:
X: N(μ; 5252)
iar media sa (μ) este supusă celor două ipoteze ale testului:
H0 : μ = 5000
H1 : μ > 5000
Dacă X: N(μ; 5252), atunci:
X s : N(μ; 5252/n)
unde: n = mărimea eşantionului;
X s = ansamblul diferitelor medii de eşantion (de volum n)
posibile.Astfel,
H0 presupune că X s : N(μ0; 5252/n) = N(5000; 5252/n)
iar H1 presupune că X s : N(μ1; 5252/n) = N(>5000; 5252/n)
În cazul în care H0 este adevărată (figura 5.8) putem afirma:
` dacă xs aparţine zonei nehaşurate a graficului acceptăm ipoteza H0 ⇒
decizie corectă;
` dacă xs aparţine zonei haşurate a graficului respingem ipoteza H0 ⇒
decizie greşită (eroare de prima speţă).

Probabilitatea unei
decizii corecte (1-α)
Probabilitatea unei
erori de tipul I (α)

5000 5075
Figura 5.8 Curba distribuţiei lui X s , dacă H0 este adevărată.

În cazul în care H1 este adevărată (figura 5.9), putem afirma:


` dacă xs aparţine zonei haşurate acceptăm ipoteza H0 (respingem
ipoteza H1) ⇒ decizie greşită (eroare de a doua speţă);
` dacă xs aparţine zonei nehaşurate respingem ipoteza H0 (acceptăm
ipoteza H1) ⇒ decizie corectă.

Probabilitatea unei
erori de tipul II (β)
Probabilitatea unei
decizii corecte (1-β)

>5000 5075
Figura 5.9 Curba distribuţiei lui X s , dacă H1 este adevărată.

202
Introducere în inferența statistică

Pentru a calcula efectiv cele două riscuri (α şi β), considerăm volumul


eşantionului extras n=100.
α = P[de a ne înşela / H0 este adevărată]
= P[de a respinge H0 / H0 este adevărată]
= P[ X s > x0 / H0 este adevărată]
= P[ X s > 5075 / μ = μ0 = 5000]
⎡ X s − μ0 5075 − 5000 ⎤
>
525 / 10 ⎥⎦
= P⎢ =
⎣σ/ n
= P[z > 1.43] = 0.0764
Stabilind valoarea critică xc = 5075 , suntem supuşi unui risc de 3.64%
de a respinge ipoteza H0 atunci când ea este adevărată.
β = P[de a ne înşela / H1 este adevărată]
= P[de a respinge H1 / H1 este adevărată]
= P[de a accepta H0 / H1 este adevărată]
= P[ X s ≤ 5075 / μ = μ1 > μ0]
În acest caz, μ1 nefiind determinată, va trebui să luăm în considerare
diferite valori posibile pentru acest parametru şi să calculăm, pentru fiecare
dintre acestea, valoarea lui β.
Astfel, dacă μ1 = 5010
⇒ β = P[ X s ≤ 5075 / μ = μ1 = 5010]
⎡ X s − μ1 5075 − 5010 ⎤

525 / 10 ⎥⎦
= P⎢ =
⎣σ/ n
= P[z ≤ 1.24] = 0.8925
În acelaşi mod, determinăm valorile lui β pentru alte niveluri ale
parametrului:
μ1 = 5020 ⇒ β = 0.8531
μ1 = 5100 ⇒ β = 0.3156
μ1 = 5200 ⇒ β = 0.0087
Se observă că, pentru o anumită valoare critică şi un volum dat al
eşantionului, obţinem:
` un risc de prima speţă (α) unic;
` un risc de a doua speţă (β) variabil în funcţie de abaterea dintre μ0 şi μ1;
cu cât ipoteza alternativă presupune o medie μ1 mai îndepărtată de μ0,
cu atât riscul de a doua speţă (de a respinge ipoteza H1 atunci când ea
este adevărată), scade.
Riscul de prima speţă α (probabilitatea de a respinge ipoteza H0 atunci
când ea este adevărată) poartă şi numele de nivel de semnificaţie al testului
sau, mai simplu, de nivel al testului. Complementul riscului de a doua speţă
(1-β) poartă denumirea de putere a testului.
Puterea testului din exemplul 5.13, pentru diferite valori ale parametrului
μ1 este:
μ1 = 5010 ⇒ 1-β = 0.1075
μ1 = 5020 ⇒ 1-β = 0.1469
μ1 = 5100 ⇒ 1-β = 0.6844
μ1 = 5200 ⇒ 1-β = 0.9913
În general, în studiul unui test de ipoteze, prezintă o importanţă mai
mare variaţia puterii testului, în funcţie de diferitele valori posibile ale lui μ1,
decât variaţia riscului de a doua speţă: cu cât valoarea lui μ1 este mai
îndepărtată de μ0, cu atât puterea testului este mai mare.

203
Statistică

5.5.3. Distribuţii de probabilitate utilizate pentru testarea


ipotezelor asupra lui μ, σ2 şi p

În paragraful precedent, pentru calculul indicatorilor α, β şi (1-β) am


utilizat distribuţia normală de probabilitate:
X s : N(μ; σ2/n) şi forma sa standardizată:
Xs − μ
: N ( 0;1 )
σ/ n
În practica statistică, pentru testarea ipotezelor se utilizează şi alte
modele de distribuţii de probabilitate, prezentate în capitolele şi paragrafele
precedente.
Astfel, în cazul unei ipoteze H0 referitoare la unul dintre parametrii μ, σ2
sau p, se utilizează, în funcţie de condiţiile concrete ale studiului statistic,
distribuţiile de probabilitate prezentate în tabelul 5.8.
Tabelul 5.8
Distribuţii de probabilitate utilizate dacă ipoteza H0 este adevărată
Ipoteza Ho Distribuţia de probabilitate Condiţii de aplicare
utilizată
X s − μ0 σ 2 cunoscută
: N ( 0;1 )
μ = μ0 σ/ n şi
X: normal distribuită sau n ≥ 30
X s − μ0 σ 2 necunoscută
: tn −1
S n −1 / n şi
X: normal distribuită
X s − μ0 σ 2 necunoscută
: N ( 0;1 )
S n −1 şi
n foarte mare (n≥100)

∑( X i − μ ) μ cunoscută
2
n
: χ n2 şi
σ =σ
2 2
0 σ 02
X: normal distribuită
(n − 1)Sn2−1 : χ 2 μ necunoscută
n −1
σ 2
0 şi
X: normal distribuită
Ps − p0 n mare (n≥30)
: N ( 0 ;1 )
p=p0 p0 q0 np0 ≥ 5
n şi
nq0 ≥ 5

Dacă presupunem adevărată ipoteza H1, vom utiliza aceleaşi modele de


distribuţii, înlocuind parametrii μ0 ,σ 02 , p0 şi q0 cu μ1 ,σ 12 , p1 şi q1.

204
Introducere în inferența statistică

Test de autoevaluare 2
1. Pentru a estima punctual un parametru al unei populaţii cu ajutorul unui
eşantion unic extras din aceasta, utilizăm valoarea particulară pe care un
estimator eficient al acestui parametru o are în interiorul eşantionului. Care
dintre afirmaţiile următoare este corectă?
a) pentru estimarea punctuală a mediei ( μ ) se foloseşte media de selecţie
( x s );
b) pentru estimarea punctuală a dispersiei ( σ 2 ) se foloseşte dispersia de
selecţie ( σ s2 );
c) pentru estimarea punctuală a proporţiei succeselor (p) se foloseşte proporţia
corectată a succeselor din eşantion ( p sn −1 );
d) pentru estimarea punctuală a proporţiei succeselor (p) se foloseşte proporţia
succeselor din eşantion ( p s );
e) pentru estimarea punctuală a dispersiei ( σ 2 ) se foloseşte abaterea tip
corectată de selecţie ( σ sn −1 ).

2. Se cunoaşte faptul că timpul necesar (în minute) muncitorilor unei secţii


pentru a efectua o anumită operaţie tehnologică este distribuit după o lege
normală. În scopul cunoaşterii mediei acestei caracteristici, supunem un
eşantion de 20 de muncitori acestei experienţe. Obţinem, pentru aceste
încercări, un timp mediu de 8 minute şi o dispersie necorectată de 1.368. Pe
baza acestor rezultate, se cere să se estimeze acest parametru cu ajutorul unui
interval de încredere de 95% certitudine.
a) [7,44; 8,56]; b) [7,30; 8,46]; c) [8,56; 8,64];
d)[7,48; 7,52]; e) [8,47; 8,53];

3. În scopul cunoaşterii numărului de anunţuri publicitare pe care un locuitor


dintr-o regiune dată le primeşte zilnic, se observă o zi completă pentru un
eşantion de 100 de locuitori adulţi ai acestei regiuni şi se notează că, în medie,
aceste persoane au primit 275 de mesaje publicitare, cu o dispersie corectată
de 5625. Cu ajutorul acestor rezultate estimaţi acest parametru cu ajutorul unui
interval de încredere de 95% certitudine.
a) [275;300]; b) [273,53; 276,47]; c)[160,5;190,3]
d)[260,3; 289,7]; e) [200,5; 223,8];

4. Se ştie că abaterea tip a distanţei între domiciliul şi locul de muncă al


rezidenţilor unei regiuni date este de 6 km. În scopul cunoaşterii mediei acestei
distanţe, ne propunem să prelevăm un eşantion format din rezidenţii acestei
regiuni. Care trebuie să fie volumul minim al acestui eşantion dacă vrem să ne
asigurăm că un interval de încredere cu un grad de 95% certitudine, pentru
estimarea acestei medii, va avea o marjă de eroare maximă de 1km?
a) 12; b) 54; c) 24; d) 144; e) 139

5. Ce cupluri de ipoteze statistice ar trebui confruntate în fiecare dintre cazurile


următoare?
a) În scopul verificării eficacităţii unei campanii publicitare, asociaţia
producătorilor de lapte dintr-o regiune decide să compare cantitatea medie

205
Statistică

actuală de lapte pe care un adolescent din regiune o consumă zilnic, cu cea


consumată înainte de campania publicitară.
b) Se doreşte să se verifice dacă administrarea unui vaccin antigripal la
persoanele în vârstă diminuează efectiv ponderea persoanelor bolnave în
cadrul acestei populaţii.
c) La controlul de calitate al unei fabrici de roţi de bicicletă, trebuie să se
asigure că diametrul mediu al roţilor de un anumit tip rămâne constant şi că
dispersia acestei caracteristici nu creşte pe parcursul unei zile de producţie.

6. Care dintre cuplurile de ipoteze statistice de mai jos descrie corect un test
unilateral?
a) H 0 : μ = μ 0 ; H 1 : μ > μ 0 ;
b) H 0 : μ = μ 0 ; H 1 : μ ≠ μ 0 ;
c) H 0 : p = p 0 ; H 1 : p < p 0 ;
d) H 0 : p = p 0 ; H 1 : p ≠ p 0 ;
e) H 0 : σ 2 = σ 02 ; H 1 : σ 2 ≠ σ 02 .

7. Care dintre enunţurile de mai jos se referă la riscul de prima speţă ( α ):


a) P [ decizie greşită/ H1 este adevărată ];
b) P [ decizie greşită/ H0 este adevărată ];
c) P [ de a respinge H0 / H0 este adevărată ];
d) P [ de a accepta H0 / H1 este adevărată ];
e) P [ erori de tipul II ].

8. Care dintre cuplurile de ipoteze statistice de mai jos descrie corect un test
bilateral?
a) H 0 : μ = μ 0 ; H 1 : μ > μ 0 ;
b) H 0 : μ = μ 0 ; H 1 : μ ≠ μ 0 ;
c) H 0 : p = p 0 ; H 1 : p < p 0 ;
d) H 0 : p = p 0 ; H 1 : p ≠ p 0 ;
e) H 0 : σ 2 = σ 02 ; H 1 : σ 2 < σ 02 .

9. Care dintre enunţurile de mai jos se referă la riscul de a doua speţă ( β ):


a) P [ decizie greşită/ H1 este adevărată ];
b) P [ decizie greşită/ H0 este adevărată ];
c) P [ de a respinge H0 / H0 este adevărată ];
d) P [ de a accepta H0 / H1 este adevărată ];
e) P [ erori de tipul I ].

10. Într-o companie, timpul de fabricaţie (în ore) al unui anumit aparat era
distribuit, până de curând, după o lege normală N: (6;0.36). În scopul accelerării
procesului de fabricaţie, s-a procedat recent la reamenajarea aparatelor pe linia
de montaj. Pentru a verifica dacă această schimbare este eficientă, s-a decis
efectuarea următorului test:
- întâi, se admite că reamenajarea nu a afectat nici aspectul normal al
timpilor de fabricaţie, nici dispersia acestei distribuţii;
- apoi, se extrage un eşantion de 125 de aparate, pentru care se notează
timpul de fabricaţie;
- dacă timpul mediu al acestui eşantion este sub 5.9 ore, se consideră că
reamenajarea a fost eficientă, dacă nu, se concluzionează că ea a fost
inutilă.
a) Prezentaţi schema acestui test de ipoteze.
206
Introducere în inferența statistică

b) Descrieţi, în termeni de consecinţe practice, în ce constă o eroare de tipul 1


(de primă speţă) pentru acest test.
c) Calculaţi riscul de a face o asemenea eroare.
d) Descrieţi, în termeni de consecinţe practice, în ce constă o eroare de tipul 2
(de a doua speţă) pentru acest test.
e) Calculaţi riscul de a face o astfel de eroare pentru cazul în care timpul mediu
de fabricaţie ar fi acum de 5.85 ore.
f) Dacă timpul mediu al eşantionului prelevat era de 5.95 ore, la ce concluzii
privind rearanjarea am fi ajuns?

Răspunsurile la toate întrebările testului de autoevaluare 2 se


regăsesc în Unitatea de învățare 5, paginile 190- 204. Pentru aplicațiile
practice și întrebările tip grilă, rezolvarea se regăsește și la sfârșitul
manualului.

Rezumat

Inferenţa statistică este o metodă de cercetare inductivă, ce permite


extinderea proprietăţilor constatate în cazul eşantionului la întreaga populaţie şi
testarea ipotezelor formulate înainte sau după o fază exploratorie; orice
inferenţă asupra populaţiei este însoţită de o marjă de incertitudine, specificată
în termeni probabilistici.
Un eşantion este un ansamblu de elemente (unităţi) extrase din
populaţie, întâmplător, pe care le supunem studiului statistic exhaustiv pentru a
formula ulterior concluzii asupra ansamblului populaţiei.
Extragerea eşantionului se realizează printr-un procedeu numit
eşantionare, bazat pe reguli bine definite, menite să-i asigure
reprezentativitatea. În practica statistică se utilizează o paletă largă de metode
de eşantionare, cea mai importantă fiind eşantionarea aleatoare sau
probabilistă; eşantionarea aleatoare simplă cu probabilităţi egale este
fundamentală, deoarece pe ea se sprijină elaborarea conceptelor de bază ale
teoriei selecţiei. Principalele caracteristici ale acestei metode sunt: fiecăreia
dintre unităţile populaţiei i se rezervă o probabilitate cunoscută a priori şi diferită
de zero de a fi inclusă în eşantion; unităţile populaţiei au şanse egale de
apariţie în eşantion (principiul echiprobabilităţii). Cele n extrageri succesive prin
care se alcătuieşte un eşantion pot avea ca model probabilistic: schema bilei
revenite (urna lui Bernoulli); schema bilei nerevenite.
Deoarece informaţiile despre populaţie pot fi, în mod uzual, descrise prin
parametri, tehnica statistică utilizată în general realizează inferenţe asupra
parametrilor populaţiei pe baza statisticilor de eşantion. Un rol foarte important
în inferenţa statistică îl deţin distribuţiile de sondaj: ale mediei, ale unei
proporţii, ale diferenţei dintre două medii.
Dacă dintr-o populaţie este extras un eşantion aleator, distribuţia de
sondaj a mediei eşantionului este aproximativ normală pentru un număr
suficient de mare n al unităţilor eşantionului; cu cât mărimea eşantionului
creşte, cu atât mai mult distribuţia mediei sale ( xs ) se apropie de cea normală.

207
Statistică

Precizia aproximării la care face referire teorema limită centrală depinde atât de
distribuţia de probabilitate a populaţiei originare cât şi de mărimea eşantionului.
O populaţie statistică este unică; un eşantion al acestei populaţii poate
avea mărimi diferite şi poate fi extras în maniere diferite; ansamblul diferitelor
eşantioane se numeşte eşantion aleator.
Un ansamblu de eşantioane posibile aduce un ansamblu de medii de
eşantion posibile - media de eşantion aleatoare; un ansamblu de varianţe de
eşantion posibile - varianţa de eşantion aleatoare; un ansamblu de proporţii de
succes posibile în interiorul eşantionului - proporţia de succes aleatoare în
interiorul eşantionului.
Un eşantion particular extras din această populaţie este unic şi posedă
o medie unică, o dispersie unică şi o proporţie unică de succes.
Diferitele medii de eşantion posibile oscilează în jurul mediei reale a
populaţiei cu o dispersie care depinde de mărimea eşantionului; diferitele
varianţe de eşantion posibile nu gravitează în jurul dispersiei reale a populaţiei,
ci în jurul unei valori uşor inferioare acesteia (sunt deplasate în raport cu
dispersia reală); diferitele proporţii ale succesului posibile în interiorul unui
eşantion gravitează în jurul proporţiei succesului în interiorul populaţiei cu o
concentrare cu atât mai puternică, cu cât volumul eşantionului este mai mare.
Informaţiile despre populaţie şi parametrii săi ne permit să utilizăm
distribuţiile de probabilitate pentru a face afirmaţii probabilistice despre fiecare
unitate a populaţiei statistice. Cunoaşterea parametrilor şi anumite informaţii
despre distribuţie ne permit afirmaţii probabilistice despre statisticile de
eşantion (de sondaj). În aplicarea atât a distribuţiilor de probabilitate cât şi a
celor de sondaj, trebuie să cunoaştem valoarea parametrilor relevanţi,
circumstanţă puţin probabilă, deoarece, în viaţa reală, parametrii sunt aproape
întotdeauna necunoscuţi, ei reprezentând indicatori descriptivi ai unor populaţii
extrem de mari. Inferenţa statistică se adresează acestor situaţii, inversând
direcţia fluxului informaţional: dacă majoritatea parametrilor populaţiei sunt
necunoscuţi dar statisticile de eşantion sunt cunoscute, distribuţia de sondaj ne
va permite realizarea de inferenţe statistice asupra parametrilor populaţiei pe
baza statisticilor de eşantion.
™ O primă modalitate de efectuare a inferenţei statistice – formularea unor
concluzii referitoare la ansamblul unei populaţii plecând de la
observaţiile realizate asupra unui eşantion unic extras din aceasta – o
reprezintă estimarea valorilor necunoscute ale parametrilor µ, σ2 şi p ale
unei populaţii date pe baza celor cunoscute ale lui xs , σ s2 şi ps dintr-un
eşantion. Pentru a realiza acest lucru, există două tehnici diferite:
estimarea punctuală – care evaluează parametrul necunoscut cu
ajutorul unui număr unic, fără a preciza valoarea acestei estimaţii;
estimarea prin intervale de încredere – care determină un interval de
valori în interiorul căruia ar trebui să se situeze parametrul căutat,
™ Testarea ipotezelor constituie, după estimare, a doua formă de inferenţă
statistică. În timp ce estimarea are drept scop delimitarea cât mai precis
posibil a valorii necunoscute a unui parametru al populaţiei, testarea
ipotezelor are drept scop confruntarea a două ipoteze exprimând două
tendinţe diferite referitoare la acest parametru şi determinarea, în
comparaţie cu eşantionul observat, care dintre cele două ipoteze este
mai veridică.
Tipurile de ipoteze ale unui test sunt: ipoteza nulă, notată H0, care
prezintă o propoziţie simplă; ipoteza alternativă, notată H1, care prezintă o
propoziţie compusă (care cuprinde un interval de valori posibile).
Ipoteza simplă, propunând o valoare precisă pentru parametru, este cea
care serveşte ca referinţă pentru un studiu dat. În comparaţie cu valoarea
propusă în această ipoteză, se fixează o bornă, o valoare critică, astfel încât,

208
Introducere în inferența statistică

de o parte a acesteia, decidem să acceptăm ipoteza H0, de cealaltă parte a


acesteia, decidem să respingem ipoteza H0 şi să acceptăm ipoteza H1.
Intervalul situat de acea parte a valorii critice pentru care decidem să
respingem ipoteza H0 poartă numele de regiune critică sau zonă de respingere
a ipotezei H0. Forma ipotezei alternative H1 determină zona de respingere a lui
H0.
Luarea unei decizii în cazul unui test de ipoteze comportă întotdeauna
un risc de eroare mai mult sau mai puţin important. Dacă H0 este adevărată,
testarea ipotezelor poate să conducă: fie la acceptarea lui H0, ceea ce
constituie o decizie corectă, fie la respingerea lui H0 (şi acceptarea lui H1) ceea
ce constituie o eroare calificată drept eroare de primă speţă (eroare de tip I).
Dacă H1 este adevărată, testarea ipotezelor poate să conducă: fie la
acceptarea lui H1 (şi respingerea lui H0), ceea ce constituie o decizie corectă,
fie la respingerea lui H1 (şi acceptarea lui H0) ceea ce constituie o eroare
calificată drept eroare de a doua speţă (eroare de tip II). Probabilitatea de a
efectua o eroare de tipul I se numeşte risc de prima speţă iar probabilitatea de
a efectua o eroare de tipul II se numeşte risc de a doua speţă.

Termeni cheie

Inferență statistică, eșantionare aleatoare, distribuții de sondaj ale mediei,


dispersiei și proporției succeselor, parametru, estimator punctual, estimare prin
intervale de încredere, testarea ipotezelor statistice, test unilateral și bilateral,
regiune critică, eroare de prima speță, eroare de a doua speță, nivel de
semnificație al testului, puterea testului.

Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Andrei, T., Statistică şi econometrie, Editura Economică, Bucureşti, 2003;
3. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
4. Beganu Gabriela, Elemente de teoria probabilităților și statistică matematică,
Meteor Press, București, 2007;
5. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
6. Francis A., Statistică şi matematică pentru managementul afacerilor, Editura
Tehnică, Bucureşti, 2005;
7. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
8. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
9. Groebner, D., Shannon, P., Fry, P., Smith, K., Business Statistics. A
Decision-Making; Approach, Pearson Prentice Hall, 2008;
10. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009.

209
Statistică

UNITATEA DE ÎNVĂŢARE 6
SONDAJUL STATISTIC
Cuprinsul capitolului
Obiectivele capitolului 6
6.1. Noțiuni introductive
6.2. Procedee de eșantionare. Tipuri de sondaje
6.3. Sondajul aleator simplu
6.4. Sondajul tipic (stratificat)
6.5. Sondajul de serii
Rezumat
Termeni cheie
Bibliografie

Obiectivele capitolului 6
În cadrul acestei unităţi de învăţare, structurată în
cinci secţiuni şi mai multe subsecţiuni, sunt definite
principalele tipuri de sondaj statistic ca metode de cercetare
selectivă în domeniul economic: sondaj întâmplător (aleator)
simplu, sondaj stratificat (tipic), sondaj de serii.
După parcurgerea acestei unități de învățare, studentul va avea de
rezolvat un test de autoevaluare, care are un grad mai mare de complexitate şi
necesită cunoştinţele şi competenţele dobândite prin parcurgerea tuturor unităţilor de
învăţare precedente. Încadrarea în parametrii specificaţi îi va confirma fiecărui
student dezvoltarea competenţelor necesare pentru trecerea la o nouă unitate
de învăţare.
Parcurgerea logică a tuturor secțiunilor acestei unităţi îi va conferi
fiecărui student următoarele competenţe specifice:
Š descrierea corectă şi completă a populaţiei vizate;
Š identificarea şi descrierea corectă a variabilelor (caracteristicile unităţilor
care compun populaţia) care vor fi investigate;
Š utilizarea procedeelor probabilistice pentru formarea unui eşantion
reprezentativ;
Š alegerea şi utilizarea tipului de sondaj adecvat pentru un studiu de caz
concret din domeniul afacerilor;
Š măsurarea gradului de încredere (siguranţă) pentru inferenţa realizată.
Š estimarea parametrilor populaţiei şi testarea ipotezelor statistice.

Durata medie de parcurgere a unității de învățare: 4 ore

210
Sondajul statistic

6.1. Noţiuni introductive


Având caracter complex, demersul statistic nu se limitează doar la
aspectele descriptive şi exploratorii, implicate de sistematizarea,
reprezentarea şi prelucrarea sumară a datelor de observare; el presupune
deopotrivă o latură inferenţială, bazată pe raţionamente specifice, generalizări
şi decizii. Rareori cercetarea statistică se desfăşoară exhaustiv; de aceea, de
obicei, concluziile se fundamentează pe observarea sistematică a unui număr
relativ restrâns de unităţi statistice, iar trecerea de la particular la general se
asigură şi se validează după criterii matematice, cu ajutorul metodelor de tip
inductiv.
Sondajul statistic este o metodă de cercetare parţială care
are ca obiectiv extinderea proprietăţilor constatate în cazul
particular al unui eşantion la întreaga populaţie statistică şi
confirmarea sau infirmarea ipotezelor formulate înainte sau după o
fază exploratorie. Orice inferenţă statistică asupra populaţiei este
însoţită de o marjă de incertitudine specificată în termeni probabilistici.
În cadrul sondajului statistic se operează cu noţiuni specifice:
ƒ Populaţia (colectivitatea statistică generală sau originară, baza
de selecţie) – totalitatea unităţilor statistice supuse studiului;
volumul său este notat cu N;
ƒ Eşantionul (colectivitatea de sondaj sau de selecţie, probă,
mostră) – format din unităţile statistice extrase din baza de
selecţie pentru a fi supuse studiului selectiv; volumul său este
notat cu n;
ƒ Parametrii (indicatori generali) – indicatorii sintetici ai colectivităţii
generale care pot fi calculaţi direct în cazul unei cercetări totale
sau pot fi estimaţi cu ajutorul indicatorilor de sondaj în cazul unei
cercetări parţiale:
o media generală - x0 sau μ ;
o dispersia generală - σ 02 ;
o abaterea standard generală - σ 0 .
ƒ Estimatorii (indicatori de selecţie) – indicatorii sintetici ai
sondajului, calculaţi pentru un eşantion oarecare:
o media de selecţie - x s ;
o dispersia de selecţie - σ s2 ;
o abaterea standard de selecţie - σ s .
Succesul unei cercetări prin sondaj depinde în mare măsură de
alegerea unui eşantion reprezentativ; principalele condiţii pentru asigurarea
reprezentativităţii eşantionului sunt:
• colectivitatea generală să fie cât mai omogenă;
• unităţile din eşantion să fie extrase la întâmplare (aleatoriu); fiecare
unitate să aibă şanse egale de apariţie în eşantion;
• extragerea fiecărei unităţi să fie independentă (necondiţionată de
extragerea altei unităţi);
• eşantionul să fie suficient de mare pentru ca în el să se regăsească
trăsăturile populaţiei originare.
Teoria sondajului îşi propune să furnizeze un cadru metodologic
adecvat pentru colectarea informaţiei statistice în condiţii de selectivitate, deci

211
Statistică

în condiţiile unei sfere de cuprindere restrânse şi unui efort moderat,


concretizate însă cu maximă eficienţă.
În comparaţie cu o observare exhaustivă, de tipul unui recensământ,
observarea parţială implicată de sondajul statistic are evidente avantaje, legate
de costul scăzut al obţinerii şi prelucrării datelor, de rapiditatea şi operativitatea
cu care sunt furnizate rezultatele, dar şi de exactitatea şi calitatea predictivă,
comparabilă sau chiar superioară celei obţinute prin cercetarea totală. Prin
restrângerea câmpului observaţiilor şi sporul de competenţă datorat recurgerii
la un personal calificat, sondajul poate asigura un control mai riguros al
procesului de colectare a informaţiilor şi deci o mai bună acurateţe a
înregistrărilor. De altfel, o anumită marjă de eroare însoţeşte orice studiu
statistic, exhaustiv sau parţial. Principalele surse de erori ale unei cercetări
statistice prin sondaj sunt:
• erorile de observare (de înregistrare), datorate unor cauze foarte variate
– răspunsuri absente, eronate, incomplete, greşit transmise sau
codificate etc. – care, deşi inerente oricărei cercetări statistice,
afectează în mai mare măsură o cercetare totală decât un sondaj;
• erorile de eşantionare (de reprezentativitate), proprii doar cercetărilor
selective şi datorate extrapolării rezultatelor de la o parte (eşantionul) la
întreg (populaţia în ansamblul său).
Un sondaj condus cu profesionalism poate fi mai fiabil decât un
recensământ masiv, cu organizare rigidă, greoaie, deoarece numărul scăzut al
erorilor de observare poate compensa existenţa erorilor de eşantionare. În plus,
sondajul permite calculul cu anticipaţie al mărimii erorii de reprezentativitate şi a
gradului de siguranţă cu care se pot extinde rezultatele cercetării selective
asupra întregii colectivităţi statistice (respectând principiile enunţate anterior).
Prgătirea şi executarea unui sondaj presupune o serie de lucrări
complexe, organizate într-un plan de sondaj, care cuprinde:
• obiectivele sondajului - explicitarea scopului urmărit şi modalităţile de
utilizare a rezultatelor;
o definirea clară a obiectivelor ce vor fi urmărite în cadrul cercetării
prin sondaj
o identificarea şi delimitarea spaţio-temporală a populaţiei ce va fi
supusă studiului
o identificarea principalelor surse de date aferente populaţiei de
bază, posibil de utilizat în cercetare
o stabilirea variabilelor (caracteristicilor) ce vor fi supuse observării
şi a modalităţii de observare şi înregistrare a acestora
o estimarea costurilor şi stabilirea bugetului cercetării
o stabilirea necesarului de personal şi alcătuirea echipei ce va
realiza cercetarea
• baza de sondaj – mulţimea unităţilor statistice din care se face selecţia;
ea trebuie să fie exhaustivă, iar elementele să poată fi univoc
identificate; în plus, este necesar ca toate unităţile să beneficieze de o
şansă nenulă, cunoscută a priori şi controlabilă de a fi incluse în
eşantion;
• eşantionul - obiectul nemijlocit al cercetării prin sondaj, necesar
generalizărilor inductive (inferenţei statistice cu privire la populaţie);
• procedeul (schema) de extragere a eşantionului – poate fi aleator
(probabilist) sau empiric (nealeator); atunci când selecţia elementelor se
face în mod aleatoriu, se recurge la două scheme probabiliste de bază
(capitolul 7): schema bilei revenite – urna lui Bernoulli – caz în care
extragerile constituie evenimente independente şi echiprobabile şi
schema bilei nerevenite, caz în care evenimentul ce se realizează la o
extragere depinde de fiecare dintre evenimentele anterioare;

212
Sondajul statistic

• forma de colectare a informaţiilor – prin interviu, prin completarea de


chestionare, prin telefon, prin corespondenţă etc.;
• urmărirea modului de desfăşurare – presupune asigurarea corectitudinii
procedurale prin supervizarea întregului proces de către persoane care
oferă garanţii de probitate profesională şi morală;
• perioada de colectare – aleasă astfel încât să conserve şansele
naturale ale unităţilor de a fi incluse în eşantion (trebuie neutralizat
efectul variaţiilor sezoniere, al factorilor conjuncturali etc.);
• perioada de referinţă – permite specificarea exactă a momentului (sau
intervalului de timp) la care se referă înregistrările;
• informaţia colectată – se alege în funcţie de scopul urmărit, dar odată
stabilită, trebuie riguros specificată în formularele sau chestionarele ce
se completează.
• codificarea şi prelucrarea primară a datelor – se identifică şi se elimină
datele eronate;
• prelucrarea propriu-zisă a datelor - calculul indicatorilor sintetici la
nivelul eşantionului şi estimarea parametrilor la nivelul populaţiei de
bază; ameliorarea estimatorilor obţinuţi prin utilizarea de date şi
informaţii auxiliare;
• analiza şi interpretarea rezultatelor.

În raport cu cercetarea totală, sondajul prezintă o serie de avantaje:


• este mult mai rapid şi eficient, costurile (umane şi financiare) generate
de organizarea şi desfăşurarea acestui tip de cercetare fiind mai reduse;
• erorile de înregistrare sunt mai puţin numeroase, deoarece
colectivitatea studiată este mai redusă iar personalul implicat în
cecetare este mai bine calificat;
• programul cecetării este mai bogat, cuprinzând mai multe caracteristici
statistice ale colectivităţii;
• este singura posibilitate de cecetare statistică atunci când:
ƒ înregistrarea şi cercetarea caracteristicilor duce la distrugerea
unităţilor statistice (controlul distructiv al calităţii produselor);
ƒ se evaluează rezervele subterane (cărbune, petrol, minereuri);
ƒ se estimează recolta în agricultură.
• este foarte util pentru testarea programului unei cercetări totale dar şi
pentru verificarea datelor culese printr-o observare totală
(microrecensământ pilot)

Domeniile în care sondajul îşi găseşte aplicabilitate sunt numeroase şi


variate:
o industrie - studiul calităţii produselor, în cadrul procesului de
fabricaţie sau la recepţia loturilor de produse finite; analiza
cauzelor fluctuaţiei forţei de muncă;
o comerţ - la recepţia calitativă a loturilor de produse livrate de
către furnizori;
o agricultură - estimarea recoltei probabile; studiul calităţii
produselor; selecţionarea soiurilor deplante;
o demografie – evaluarea indicatorilor morbidităţii, fertilităţii,
calităţii vieţii;
o marketing – prospectarea pieţei; testarea opiniei cumpărătorilor;
analiza raporturilor cerere-ofertă; urmărirea ciclului de viaţă al
unui produs pe piaţă;
o medicină – analiza corelaţiilor dintre diverse afecţiuni şi factorii
generatori; studiul evoluţiei diferitelor boli şi al eficacităţii
tratamentelor; starea de sănătate a populaţiei;

213
Statistică

o politică – testarea opiniei populaţiei în probleme economice,


sociale, politice, militare; campanii electorale.
Datorită rolului din ce în ce mai pregnant pe care îl joacă sondajele în
elaborarea strategiilor decizionale la nivel micro şi macro economic, în ultimii
ani s-au conturat noi concepte privind constituirea unui tezaur comun de
informaţii statistice, care să poată fi exploatat în aplicaţii diverse, cu procedee
diferite şi potrivit unor finalităţi variate; această direcţie de cecetare a condus la
constituirea unor sisteme de eşantionare cu utilizări multiple.
În ţara noastră a fost creat în anul 1993 un eşantion multifuncţional de
zone teritoriale bine delimitate în teritoriu, EMZOT, folosit ca bază de
eşantionare pentru alte anchete complexe; pe baza rezultatelor
Recensământului Populaţiei şi Locuinţelor din 2002 această bază de sondaj de
tip master a fost actualizată în concordanţă cu necesitatea realizării cercetărilor
statistice prin sondaj conform standardelor Uniunii Europene; eşantionul a fost
proiectat astfel încât să asigure informaţiile necesare constituirii eşantioanelor
pentru cercetările prin sondaj în gospodăriile populaţiei, realizate de către
Institutul Naţional de Statistică: Ancheta integrată în gospodării (AIG), Ancheta
asupra forţei de muncă în gospodării (AMIGO), Ancheta bugetelor de familie
(ABF), Ancheta europeană asupra veniturilor şi condiţiilor de viaţă ale
gospodăriilor (EU-SILC).

6.2. Procedee de eșantionare. Tipuri de sondaje


Procedeele de eşantionare se împart în două mari clase:
¾ Procedeele nealeatoare (empirice) – au drept caracteristică
alegerea raţională a unităţilor din eşantion, utilizând anumite informaţii
cunoscute cu privire la populaţie; arbitrariul alegerii unităţilor statistice
din eşantion are consecinţe negative asupra reprezentativităţii acestuia:
modifică şansele naturale ale unităţilor de a fi alese în eşantion; nu
permite estimarea probabilităţilor de realizare ale evenimentelor
respective; nu asigură şanse nenule de a fi incluse în eşantion fiecărei
unităţi; nu permite estimarea dispersiei şi a calităţii estimatorilor prin
care se aproximează parametrii populaţiei. Din această clasă fac parte
următoarele metode de eşantionare: metoda cotelor, metoda
itinerariilor, metoda unităţilor tip etc.
¾ Procedeele aleatoare (probabiliste) – sunt proiectate pentru
obţinerea unui eşantion reprezentativ: este asigurată, pentru fiecare
unitate, o probabilitate nenulă de extragere, care este cunoscută a
priori; se poate calcula efectiv eroarea de eşantionare (care este mai
mică decât în cazul eşantionării nealeatoare) şi se poate aprecia
calitatea estimaţiilor.
ƒ folosirea tabelelor cu numere întâmplătoare – atunci când se
cunoaţte în detaliu componenţa şi structura bazei de selecţie.
ƒ procedeul tragerii la sorţi – are la bază principiul urnei lui
Bernoulli şi se poate realiza în două variante:
- cu repetare (schema bilei revenite)
- fără repetare (schema bilei nerevenite.

În cadrul procedeului tragerii la sorţi în varianta cu repetare


(schema bilei revenite), extragerile constituie evenimente independente şi
echiprobabile; şansa fiecărei unităţi din populaţie de a fi selectată în cadrul unei
extrageri oarecare, din cele n extrageri succesive, rămâne constantă şi egală
cu:
214
Sondajul statistic

P=1/N.
Numărul total al eşantioanelor de volum n posibil de generat prin acest
procedeu este dat de formula aranjamentelor cu repetiţie:
ANn = N n .
La sfârşitul celor n extrageri ale unui eşantion, probabilitatea ca o
unitate să figureze cel puţin o dată în eşantion este:
n
⎛ 1⎞
P = 1 − ⎜1 − ⎟ .
⎝ N⎠

1
5
2 3 4 5
6 7 8 9 1 9 5

Populaţia de bază Eşantionul

Figura 6.1. Schema bilei revenite

În cadrul procedeului tragerii la sorţi în varianta fără repetare


(schema bilei nerevenite), unităţile deja incluse în eşantion nu mai participă la
extragerile ulterioare; astfel, şansele unei unităţi oarecare de a fi inclusă în
eşantion la o anumită extragere depind atât de evenimentul curent cât şi de
întreaga succesiune de realizări care l-au precedat. Extragerile consecutive nu
sunt, în acest caz, independente, iar probabilităţile corespunzătoare se
calculează nu pe baza evenimentelor simple, ci pe baza conjuncţiilor de
evenimente. Dacă la prima extragere, probabilitatea fiecărei unităţi este:
P=1/N
la a doua extragere, probabilitatea este:
P=[1 / (N-1)] · [1-1/N]=1/N.
Rezultatul, care ilustrează lipsa independenţei dintre extragerile
succesive, se poate generaliza, demonstrând egalitatea şanselor la fiecare
extragere. Numărul total al eşantioanelor distincte fără repetiţie de volum n, ce
se pot forma prin acest procedeu este dat de formula:
N!
C Nn =
n! (N − n )!
La sfârşitul celor n extrageri, probabilitatea ca o unitate să fie selectată
n
în eşantion este: P=
N
Datorită faptului că o unitate statistică nu poate fi extrasă de mai multe
ori în eşantion, prin folosirea acestui procedeu se obţin erori mai mici decât în
cazul anterior.

1
5
2 3 4 2
6 7 8 9 1 9 5

Populaţia de bază Eşantionul

Figura 6.2. Schema bilei nerevenite

215
Statistică

ƒ procedeul mecanic (sistematic)


Se utilizează în cazul în care populaţia de bază este deja organizată
(ordonată) după un anumit criteriu (de exemplu: studenţii unei facultăţi ordonaţi
după numărul matricol, pomii dintr-o livadă plantaţi după un anumit model).
Utilizarea acestui procedeu presupune extragerea aleatoare doar a
primei unităţi care va fi inclusă în eşantion; restul unităţilor ce vor forma
eşantionul se determină mecanic (sistematic) cu ajutorul pasului de numărare:
N
k= , n - volumul eşantionului; N – volumul bazei de selecţie.
n

Se introduc într-o urnă bilete (sau jetoane, cartonaşe, etc.) numerotate


de la 1 la k, din care se extrage unul singur. Numărul înscris pe biletul extras va
indica numărul de ordine al primei unităţi statistice din eşantion. Restul unităţilor
care intră în eşantion se determină adăugând pasul de numărare la numărul de
ordine al ultimei unităţi extrase din lotul de bază.
1 2 3 4 5 6 7 8 9 Unităţi statistice incluse în eşantion
10 11 12 13 14 15 16 17 18

19 20 21 22 23 24 25 26 27

28 29 30 31 32 33 34 35 36

37 38 39 40 41 42 43 44 45

46 47 48 49 50 51 52 53 54

55 56 57 58 59 60 61 62 63

64 65 66 67 68 69 70 71 72

Figura 6.3. Procedeul mecanic

Datorită faptului că nu se realizează o extragere a eşantionului complet


întâmplătoare, rezultatele acestui tip de sondaj sunt mai puţin exacte decât în
cazul utilizării procedeului tragerii la sorţi pe baza schemei bilei nerevenite.

Tipul sondajului este determinat de mai multe criterii:

¾ procedeul (aleator) de eşantionare folosit:


ƒ sondaj întâmplător (aleator) repetat;
ƒ sondaj întâmplător (aleator) nerepetat;
ƒ sondaj mecanic.
¾ gradul de prelucrare a bazei de selecţie înaintea efectuării
sondajului:
ƒ sondaj cu baza neprelucrată (simplu) – când baza de selecţie este
omogenă;
ƒ sondaj cu baza prelucrată (tipic, stratificat) – când baza de selecţie
este eterogenă.
¾ numărul şi tipul unităţilor extrase de fiecare dată în eşantion:
ƒ sondaj simplu (individual) – când se extrage câte o singură unitate
statistică simplă;
ƒ sondaj complex (de serii) – când se extrag câte două sau mai multe
unităţi simple sau câte o unitate complexă.

216
Sondajul statistic

6.3. Sondajul simplu întâmplător

Obiectivul fundamental al cercetării prin sondaj îl constituie estimarea


unor parametri ai populaţiei cu ajutorul unor statistici calculabile plecând de la
datele unui eşantion; cele mai simple cazuri sunt acelea în care parametrul
desemnează caracteristici numerice, precum media sau dispersia populaţiei.
Există două modalităţi de a estima un parametru:
ƒ cu ajutorul unei singure valori – estimaţie punctuală;
ƒ cu ajutorul unui interval (regiune) de estimaţie sau de încredere.
Sondajul aleator simplu este fundamental, deoarece reprezintă modelul
teoretic de bază pentru celelalte metode de sondaj. El vizează cel mai
elementar nivel de reprezentare, acela al unei populaţii omogene şi se
caracterizează prin faptul că unităţile populaţiei au probabilităţi cunoscute a
priori, egale şi implicit nenule de a fi incluse în eşantion, probabilităţi care
depind de schema de extragere.

6.3.1. Sondajul simplu întâmplător repetat

Sondajul întâmplător repetat se organizează pentru populaţii omogene


(baza de selecţie neprelucrată), prin extragerea unităţilor care vor compune
eşantionul pe rând (câte o unitate simplă), prin procedeul bilei revenite.
Principalii parametri ai populaţiei ce trebuie estimaţi sunt media x0 şi
dispersia σ 02 .
Media de selecţie x s , obţinută prin sondaj simplu repetat, este un
estimator absolut corect al mediei populaţiei x0 , adică este nedeplasat (fără
distorsiune) şi are dispersie asimptotic nulă.
Diferenţa (x s − x 0 ) , ce caracterizează fiecare eşantion de volum n,
desemnează eroarea de reprezentativitate asociată acestuia şi constituie
element de definiţie pentru dispersia mediilor de selecţie în raport cu media
generală:
m

∑ (x − x0 )
2

σ x2 (μ r2 ) =
sk
k =1
unde k = numărul mediilor de
s
m
selecţie (numărul eşantioanelor
de volum n)
Abaterea standard a mediilor de selecţie faţă de media generală are, în
cazul sondajului simplu repetat, expresia:
σ 02 σ0
σ x (μ r ) = =
s
n n
şi se numeşte eroare medie de reprezentativitate, sau eroare standard a
selecţiei; ea constituie o măsură a fluctuaţiei mediilor de selecţie faţă de
valoarea reală a parametrului estimat. În cadrul acestei relaţii se poate folosi
dispersia generală σ 02 , atunci când aceasta s-a calculat cu ocazia unei
cercetări totale anterioare (dispersia de selecţie este cunoscută) sau se poate
folosi dispersia de selecţie σ s2 . Deoarece dispersia de selecţie este un
estimator deplasat (cu distorsiune) al dispersiei generale, un estimator
217
Statistică

nedeplasat al acesteia se calculează cu ajutorul unui factor de corecţie (absolut


necesar în cazul eşantioanelor de volum redus):
n
σ s2 ⋅
n −1
În acest caz, eroarea medie de reprezentativitate se calculează astfel:
σ s2
μr =
n −1
Media de selecţie ( x s ) este un estimator nedeplasat al mediei generale
( x0 ); în eşantioanele de volum mare, distribuţia sa se concentrează în jurul
parametrului estimat conform regulii aproximării normale (mediile de selecţie
generează o variabilă aleatoare care are ca distribuţie asimptotică distribuţia
normală, indiferent de legea de distribuţie a variabilei teoretice X ce
caracterizează populaţia originară).
Chiar dacă, în medie, variabila x s se apropie de x0 , coincidenţa reală
dintre o variabilă particulară x s şi media generală x0 nu se produce decât prin
excepţie şi nu poate fi garantată. Pentru a realiza o estimare cu un grad de
încredere convenabil, este necesar să asociem estimatorului x s un interval ce
delimitează probabilistic zona de siguranţă, denumit interval de încredere:
x0 = x s ± eroarea de estimaţie
Mărimea marjei de eroare depinde de:
ƒ amploarea fluctuaţiilor lui x s ( μ r );
ƒ importanţa garanţiilor pe care le oferim sau nivelul de încredere cu care
dorim ca intervalul de estimare centrat în x s să încadreze valoarea
adevărată a lui x0 , altfel spus, probabilitatea cu care intervalul de
încredere este acoperitor pentru parametru (z).
Eroarea limită admisă se calculează ca produs între coeficientul z
(valoarea corespunzătoare probabilităţii Φ ( z ) din tabelul funcţiei Gauss-
Laplace) şi eroarea medie de reprezentativitate, exprimându-se în aceeaşi
unitate de măsură cu caracteristica studiată:
σ 02 σ s2
Δ x = z ⋅ μr = z ⋅ = z⋅
n n −1
z2
1 −
Φ(z ) =
z
⋅∫ e dz 2

2π − z
⎡ σ σ ⎤
Φ( z ) = P ⎢ x s − z ⋅ 0 < x0 < x s + z ⋅ 0 ⎥
⎣ n n⎦
Notă: valorile lui z şi Φ ( z ) se găsesc calculate în tabele speciale şi, în
funcţie de condiţiile de precizie impuse sondajului statistic, se preiau valorile
corespunzătoare.
Dacă eşantioanele sunt de volum redus, distribuţia mediilor de
selecţie este mai bine aproximată de repartiţia Student. Apelul la această
repartiţie se impune şi mai acut atunci când în calculul lui μ r s-a utilizat
estimaţia σ s a abaterii standard σ 0 . Statistica:
X s − x0
t=
σs / n
se compară cu valoarea teoretică asociată celor n-1 grade de libertate cu care
s-a efectuat calcului estimaţiei nedeplasate a lui σ 0 . Această concluzie se
218
Sondajul statistic

bazează pe convergenţa în distribuţie a legii lui student către legea normală;


pentru fiecare volum n al eşantionului, deci corespunzător fiecărui număr al
gradelor de libertate, există câte o distribuţie t, având acelaşi centru cu cea
normală (de care se apropie asimptotic pe măsură ce n → ∞ ), dar prezentând
o variabilitate mai mare.
Formula erorii limită admise prezentată mai sus este valabilă în cazul în
care σ 0 este cunoscută sau în cazul în care acest parametru este necunoscut,
2

dar volumul eşantionului este foarte mare ( n ≥ 100 ). În cazul în care dispersia
generală nu este cunoscută iar volumul eşantionului este sub 100 de unităţi
statistice, variabila standardizată a mediei de selecţie urmează o distribuţie
Student cu (n-1) grade de libertate:
X s − x0
≅ t n −1
σs / n
Iar formula erorii limită admise devine:
σs
Δ x = t n −1;α / 2 ⋅
n
Eroarea limită admisă este folosită pentru estimarea:
ƒ mediei generale
σ0 σs
x0 = x s ± Δ x = x s ± z ⋅ sau x0 = x s ± t ⋅
n n
Pe baza acestor relaţii este posibilă analiza factorilor ce influenţează
amplitudinea intervalului de încredere; abaterea standard ( σ 0 , respectiv σ s )
reflectă caracteristicile de variabilitate intrinseci ale fenomenului, fiind deci un
factor de influenţă cu un nivel dat, nesupus controlului; în schimb, volumul
eşantionului şi argumentul (z sau t) constituie parametri importanţi: o mărire a
lui n produce diminuarea erorii medii de reprezentativitate şi, implicit, reducerea
intervalului de încredere, respectiv creşterea preciziei, iar mărirea probabilităţii
de garantare a unui rezultat conduce la limite mai largi ale intervalului de
încredere.
ƒ nivelului totalizator al variabilei X (atunci când acesta are
semnificaţie):
N
X 0 = ∑ xi = x 0 ⋅ N = ( x s ± Δ s ) ⋅ N ⇒ X 0 ∈ N ⋅ ( x s − Δ x , x s + Δ x )
i =1
Volumul necesar al eşantionului pentru un nivel impus al erorii limită
admise şi o valoare precizată a probabilităţii Φ ( z ) se determină pornind de la
relaţia de calcul a erorii limită admise:
z 2 ⋅ σ 02 t 2 ⋅ σ s2
n= respectiv n=
Δ2x Δ2x
Rezultatele obţinute în cazul sondajului simplu întâmplător repetat se
pot particulariza cu uşurinţă pentru variabila alternativă (binară). Dacă notăm
cu p media populaţiei, şi cu w media de selecţie, atunci dispersia populaţiei
are următoarea expresie:
σ 02 = p(1 − p)
Iar estimatorul său nedeplasat, obţinut din statistici de eşantion, va fi definit
prin:
n
σ sn2 −1 = w(1 − w)
n −1
Eroarea medie de reprezentativitate (eroarea standard a selecţiei)
se calculează utilizând fie abaterea standard a populaţiei (dacă este cunoscută

219
Statistică

sau volumul eşantionului este foarte mare), fie o estimaţie nedeplasată a


acesteia:
σ0 p(1 − p) σs w(1 − w)
μr = = ; μr = =
n n n n −1
Fiind cunoscute eroarea standard a estimaţiei şi o probabilitate ce
exprimă gradul de încredere asociat estimaţiei, se determină eroarea limită
admisă (calculată în raport cu argumentele z sau t ale funcţiilor de probabilitate
ce definesc distribuţiile Gauss-Laplace sau Student, după cum volumul
eşantionului este mic sau mare):
Δ x = z ⋅ μ r (volum mare al eşantionului); Δ x = t ⋅ μ r (volum mic al
eşantionului)
Intervalul de încredere acoperitor pentru media populaţiei este:
p = w ± Δx
Iar intervalul de încredere ce încadrează nivelul totalizator al variabilei
alternative, relativ la întreaga populaţie (care are întotdeauna semnificaţie), are
forma:
X 0 ∈ N ⋅ (w − Δ x , w + Δ x )
Volumul minim al eşantionului necesar pentru asigurarea unui anumit
nivel al erorii limită şi unui grad specificat de încredere se calculează astfel:
z 2 ⋅ p(1 − p) t 2 ⋅ w(1 − w)
n= ≈ +1
Δ2x Δ2x
Dezavantajele acestui tip de sondaj:
ƒ având la bază procedeul bilei revenite de eşantionare, preia toate
neajunsurile acestuia;
ƒ foloseşte dispersia totală (suma dispersiilor factoriale), care este mare.
⇒ acest tip de sondaj se foloseşte mai rar, deoarece are rezultate mai
slabe, concretizate în erori de reprezentativitate mari şi volum necesar al
eşantionului mai mare decât în cazul altor tipuri de sondaj.

6.3.2. Sondajul simplu întâmplător nerepetat

Se aplică în aceleaşi condiţii ca şi sondajul simplu repetat, numai că


extragerea eşantionului se realizează prin procedeul bilei nerevenite.
Pe baza caracteristicilor eşantionării aleatoare prin procedeul bilei
nerevenite, se poate uşor demonstra că, în acest caz, relaţia de calcul a erorii
medii de reprezentativitate este:
σ 02 ⎛ N − n ⎞ σ 02 ⎛ n⎞
μn = ⎜ ⎟≈ ⎜1 − ⎟ - atunci când volumul populaţiei totale
n ⎝ N −1 ⎠ n ⎝ N⎠
este foarte mare.
Factorul subunitar:
N −n n
≈ 1−
N −1 N
se numeşte factor de exhaustivitate şi arată că dispersia mediilor de selecţie
în sondajul nerepetat este mai mică decât în sondajul repetat. Pornind de la
această relaţie, se deduc relaţiile de calcul ale celorlalţi indicatori ai sondajului
simplu nerepetat:
ƒ eroarea limită admisă şi intervalul de încredere pentru estimarea
mediei generale:
Δ x = z ⋅ μn ⇒ x0 = x s ± Δ x = x s ± z ⋅ μ n

220
Sondajul statistic

ƒ volumul necesar al eşantionului pentru nivele precizate ale erorii


limită şi gradului de încredere:
z 2 ⋅ σ 02
n=
z 2 ⋅ σ 02
Δ2x +
N
Particularizarea relaţiilor de mai sus la cazul variabilei alternative, conduce
la următoarele rezultate:
p (1 − p ) ⎛ n⎞
μn = ⎜1 − ⎟
n ⎝ N⎠
Δ x = z ⋅ μn ⇒ p = w ± Δ x = w ± z ⋅ μ n ⇒ X 0 = p ⋅ N = N (w ± Δ x )
z 2 ⋅ p (1 − p )
n=
z 2 ⋅ p (1 − p )
Δ2x +
N
Atunci când dispersia σ 02 a populaţiei este necunoscută, se pune
problema determinării unui estimator nedeplasat al acesteia, adaptat
condiţiilor de eşantionare ale sondajului simplu nerepetat; acest estimator se
calculează pe baza dispersiei de selecţie, cu ajutorul relaţiei:

σ 2
=
∑ (x − xs ) ⎛
i
2
1⎞
⎜1 − ⎟ = σ s ⋅
2 n ⎛ 1⎞
⎜1 − ⎟
sn −1
n −1 ⎝ N⎠ n −1⎝ N ⎠
Particularizând, estimatorul nedeplasat al dispersiei pentru variabila
alternativă, în sondajul simplu nerepetat, se defineşte astfel:
n ⎛ 1⎞
σ sn2 −1 = w(1 − w) ⋅ ⎜1 − ⎟
n −1⎝ N ⎠
Acest tip de sondaj are o serie de avantaje:
ƒ foloseşte procedeul bilei nerevenite, preluând toate aspectele pozitive
ale acestui tip de eşantionare;
ƒ formulele indicatorilor sondajului sunt corectate cu un factor subunitar,
ceea ce conduce la o eroare standard a estimaţiei şi un volum necesar
al eşantionului mai mici decât în cazul sondajului repetat:
⇒ acest tip de sondaj se foloseşte mai frecvent decât cel repetat.
Conform metodologiei prezentate, indicatorii sondajului simplu
întâmplător (repetat şi nerepetat) sunt prezentaţi în tabelul 6.1.
Tabelul 6.1
Tip sondaj
repetat nerepetat
Indicatori
Eroarea medie de σ 02 σ 02 ⎛ n⎞
reprezentativitate
μr = μn = ⋅ ⎜1 − ⎟
n n ⎝ N⎠
σ 02 σ 02 ⎛ n⎞
Eroarea limită ± Δ x = z ⋅ μr = z ⋅ ± Δ x = z ⋅ μn = z ⋅ ⎜1 − ⎟
admisă n n ⎝ N⎠

z 2 ⋅ σ 02 z 2 ⋅ σ 02
n= n=
Volumul eşantionului Δ2x z 2 ⋅ σ 02
Δx +
2

Pentru a ilustra modul de utilizare al metodologiei aferente sondajului


simplu prezentăm în continuare un exemplu.
221
Statistică

Observație: Facem precizarea că modelele prezentate în continuare


sunt pur didactice. În practică, pentru situaţiile în care în urma cercetării
diferitelor caracteristici ale unităţilor statistice acestea sunt compromise (cum
este cazul studiului duratei de funcţionare a bateriilor care presupune
consumarea lor şi imposibilitatea reincluderii lor în eşantion pentru sondajul
repetat), se organizează cercetare prin sondaj numai în varianta nerepetată.

Exemplul 6.1: Dintr-un lot de 5000 de baterii de 9 V s-a extras un


eşantion de 10% pe baza căruia se doreşte estimarea duratei medii de
funcţionare a acestora, rezultatele cerându-se a fi garantate cu o precizie de
99,73% (z=3,0).
După durata de funcţionare, eşantionul prezintă distribuţia din tabelul
următor.

Tabelul 6.2.
Durata de funcţionare (ore) Numărul de baterii
→200 20
200-400 60
400-600 280
600-800 120
800→ 20
Total 500

Se calculează:
xs = 524 ore
σ s2 = 26624 ore
Presupunând că la extragerea eşantionului s-a utilizat varianta cu
revenire vom putea determina:
- eroarea medie de reprezentativitate ( μ ):
26624
μrep = = 7.29 ore
500
- eroarea-limită admisă ( Δx ):
± Δx rep = 7.29 × 3.0 = 2187
. ore
- estimarea duratei medii de funcţionare pentru lotul de bază:
524 − 2187
. ≤ x0 ≤ 524 + 2187
.
. ≤ x0 ≤ 54587
50313 . ore

Dacă presupunem că acelaşi eşantion a fost extras pe baza variantei


fără revenire atunci:
- eroarea medie de reprezentativitate ( μ ):
26624 ⎛ 500 ⎞
μ nrep = ⎜1 − ⎟ = 6.29 ore
500 ⎝ 5000 ⎠
- eroarea-limită admisă ( Δx ):
± Δx nrep = 6.29 × 3.0 = 20.76 ore
- estimarea duratei medii de funcţionare pentru lotul de bază:

524 − 20.76 ≤ x0 ≤ 524 + 20.76


503.23 ≤ x0 ≤ 544.76 ore

222
Sondajul statistic

Se poate observa că în cazul organizării unui sondaj simplu în varianta


cu revenire pe baza unui eşantion de 500 de baterii, durata medie de
funcţionare a lotului de bază se situează în intervalul [502.13;54587 . ] ore,
rezultate garantate cu probabilitatea de 99.73%, faţă de [502.23;544.76] ore,
interval obţinut prin organizarea unui sondaj simplu în varianta fără revenire în
aceleaşi condiţii.

Dacă interesează volumul eşantionului pe baza căruia să estimăm


durata medie de funcţionare la acelaşi lot de 5000 baterii, astfel încât cu
probabilitatea de 99.73% eroarea limită admisă să nu fie mai mare de ±10 ore:
-pentru sondajul repetat:

2 2 2
t σ0 3 × 26624
n rep = 2
= = 2396 baterii, adică 47,9% din total
Δx 100
-pentru sondaj nerepetat:
2 2 2
t σ0 3 × 26624
n nrep = 2 2
= 2
= 1620 baterii, adică 32,4% din totalul
2 t σ0 3 × 26624
Δx + 100 +
N 5000
celor 5000.

Pentru a estima intervalul de încredere care include durata medie de


funcţionare a lotului de bază cu o eroare limită admisă de ±10 ore, volumul
eşantionului ce ar trebui extras creşte considerabil de la 500 baterii (10%) la
1620 (32.4%) în cazul organizării unui sondaj simplu nerepetat (sau 2396
(47.9%) în cazul sondajului simplu repetat).

Aceeaşi metodologie de calcul pentru indicatorii sondajului se poate


utiliza şi pentru cazul în care variabila studiată prin sondaj este de tip alternativ
ţinând cont de modul de determinare al mediei şi dispersiei pentru acest tip de
variabilă.
Se folosesc notaţiile:
- pentru lotul de bază:
p - media generală;
σp2
- dispersia generală ( σ p2 = p 1 − p ); ( )
- pentru eşantion:
w -media ;
σw2
- dispersia ( σ w2 = w(1 − w) ).

Exemplul 6.2: Considerând rebuturi bateriile care au o durată de


funcţionare sub 200 de ore (20 baterii din eşantionul de 500 observat) să se
estimeze procentul de rebuturi pentru întregul lot de 5000 de baterii.
Rezultatele sondajului anterior se pot scrie într-o altă formă în tabelul
care urmează:
Tabelul 6.3.
Calitatea bateriilor Nr. de baterii Frecvenţele relative
rebut 20 0.04
bune 480 0.96
Total 500 1

- media rebuturilor din eşantion: w=0.04 (4%)


- dispersia eşantionului: σ w2 = 0.04 ⋅ 0.96 = 0.0384
223
Statistică

Presupunând că la extragerea eşantionului s-a utilizat varianta cu


revenire, atunci se determină:
- eroarea medie de reprezentativitate ( μ )
σ w2 0.0384
μwrep = = = 0.00876
n 500

- eroarea-limită admisă
± Δw rep = t ⋅ μ wrep = 3.0 × 0 .00876 = 0 .0262 (2.62%)
- estimarea procentului de rebuturi pentru lotul de bază
4% − 2.62% ≤ p ≤ 4% + 2.62%
138%
. ≤ p ≤ 6.62%
Presupunând că la extragerea eşantionului s-a utilizat varianta fără
revenire, atunci se determină:
- eroarea medie de reprezentativitate ( μ )
σ w2 ⎛ n⎞
μwnrep = ⎜ 1 − ⎟ = 0.00831
n ⎝ N⎠
- eroarea-limită admisă
± Δw nrep = t ⋅ μ wnrep = 3.0 × 0 .00831 = 0 .0249 (2.49%)
- estimarea procentului de rebuturi pentru lotul de bază
4% − 2.49% ≤ p ≤ 4% + 2.49%
151%
. ≤ p ≤ 6.49%
Se poate observa că în lotul de bază se estimează că procentul de
rebuturi va încadrat în intervalul [138
. ;6.62] % conform rezultatelor sondajului
simplu cu revenire sau [151
. ;6.49] % conform rezultatelor sondajului simplu fără
revenire, care este mai precis.

6.4. Sondajul tipic (stratificat)

Atunci când populaţia originară este eterogenă în raport cu fenomenul


studiat, gradul sporit de variabilitate poate influenţa negativ precizia estimaţiilor;
în acest caz este necesară identificarea unui criteriu de grupare corelat cu
variabila supusă analizei, care să conducă la structurarea colectivităţii generale
în clase omogene (cu variabilitate internă redusă), numite şi straturi.
Pentru ca erorile de reprezentativitate să fie minime, structura
eşantionului (de volum n) trebuie să fie identică cu cea a bazei de selecţie (de
volum N); acest lucru se poate realiza prin asigurarea proporţiilor identice
dintre: eşantioanele parţiale (n1, …,nk) în raport cu eşantionul general (n) şi
straturile sau clasele omogene din baza de selecţie (N1,…Nk) în raport cu
volumul acesteia (N).
n1 N 1 n 2 N 2 n N
⇒ = ; = ;... k = k unde k = numărul de straturi (clase
n N n N n N
omogene)

În determinarea eşantioanelor parţiale (n1,…,nk), în practică se foloseşte


frecvent fracţia de sondaj de nivel constant; în acest caz sondajul este de tip
proporţional (reprezentativ):
224
Sondajul statistic

n
fs = ⇒ n1 = f s ⋅ N 1 ; n2 = f s ⋅ N 2 ;...nk = f s ⋅ N k
N
În cadrul acestui tip de sondaj se utilizează analiza dispersională:
dispersia totală = media dispersiilor de grupă sau strat (componentă intra clase)
+ dispersia dintre grupe sau straturi (componentă inter clase):
σ 02 = σ 2 + δ 2 - pentru baza de selecţie
σ s2 = σ s2 + δ s2 - pentru eşantion
În cadrul acestor relaţii, σ 2 sau σ s2 reprezintă variaţia întâmplătoare,
iar δ 2 sau δ s2 reprezintă variaţia sistematică.
Deoarece diferenţele din interiorul straturilor sunt generate de factorii
întâmplători, în sondajul tipic se utilizează dispersia care sintetizează această
variaţie ( σ 2 sau σ s2 ). Cu cât straturile sunt mai omogene, cu atât dispersiile lor
interne sunt mai mici şi, prin urmare, raportul de corelaţie inter-straturi se
apropie mai mult de valoarea limită 1:
δ2 σ2
R2 = = 1 −
σ 02 σ 02

Principalii indicatori ai sondajului stratificat proporţional se calculează


astfel:

¾ eroarea medie de reprezentativitate:


σ2
ƒ în sondajul repetat: μr =
n
σ2⎛ n⎞
ƒ în sondajul nerepetat: μn = ⎜1 − ⎟
n ⎝ N⎠
¾ eroarea limită admisă:
σ2
ƒ în sondajul repetat: Δx = z ⋅
n
σ2⎛ n⎞
ƒ în sondajul nerepetat: Δx = z ⋅ ⎜1 − ⎟
n ⎝ N⎠
¾ volumul eşantionului:
z 2 ⋅σ 2
ƒ în sondajul repetat: n=
Δ2x
z 2 ⋅σ 2
ƒ în sondajul nerepetat: n=
z 2 ⋅σ 2
Δ2x +
N
Doarece în cazul acestui tip de sondaj se utilizează media dispersiilor de
grupă ( σ 2 sau σ s2 ), care este întotdeauna mai mică sau egală cu dispersia
generală ( σ 2 sau σ s2 ) – cu cât straturile sunt mai omogene, cu atât dispersiile
lor interne sunt mai mici şi, implicit, media lor – rezultatele sale sunt superioare
celor ale sondajului simplu întâmplător; sondajul tipic nerepetat are rezultate
mai bune decât cel repetat.

225
Statistică

Exemplul 6.3: La nivelul unei firme se cunosc următoarele date:

Tabelul 6.5.
Grupe omogene după Nr. de Salariul mediu Coeficientul de
nivelul salariilor lunare muncitori lunar (u.m.) variaţie
N xi vi %
nivel mic al salariului 160 373 3.7
nivel mijlociu al salariului 840 626 6.3
nivel mare al salariului 400 914 9.5
nivel foarte mare al 100 1.285 3.2
salariului
Total 1500 * *
Se cere determinarea volumului eşantionului astfel încât pe baza lui să
se poată estima salariul mediu la nivelul firmei care să nu se abată faţă de
salariul mediu calculat la nivelul eşantionului cu mai mult de ±5 u.m., rezultatele
trebuind garantate cu o precizie de 99.73% (z = 3.0).

σ 2
=
∑ σ2i f i
= 3014.556 u.m.
∑ fi
σ2i = vi2 ⋅ x i2

vi - coeficientul de variaţie aferent grupei i;


xi - salariul mediu aferent grupei i.
Presupunând că extragerea eşantionului s-a realizat în varianta cu revenire,
atunci:
2
3 × 3014.556
n rep = 2
= 1085 muncitori, adică 72,3% din total
5

Presupunând că extragerea eşantionului s-a realizat în varianta fără revenire,


atunci:
2
3 × 3014.556
n nrep = 2
= 630 muncitori, adică 42% din total
2 3 × 3014 .556
5 +
1500

Deci pentru a obţine rezultatele dorite în condiţiile respectării preciziei


cerute trebuie extras un eşantion de 1085 muncitori (mai mult de 2/3 din lotul
de bază) în varianta sondajului tipic cu revenire sau 630 (42%) în varianta fără
revenire.

Dacă variabila urmărită este de tip Bernoulli, atunci indicatorii sondajului


se vor determina ţinând cont de modul de calcul al mediei şi dispersiei pentru
acest tip de variabilă:
În varianta cu revenire:
- eroarea medie de reprezentativitate ( μ ):

p(1 − p) σp 2

μrep = =
n n
- eroarea-limită admisă ( Δx ):
± Δx rep = tμrep
- volumul eşantionului (n):
226
Sondajul statistic

t 2 σ p2
nrep =
Δx rep
2

În varianta fără revenire:


- eroarea medie de reprezentativitate ( μ ):

p(1 − p) ⎛ n⎞ σ p2 ⎛ n⎞
μnrep = ⎜1 − ⎟ = ⎜1 − ⎟
n ⎝ N⎠ n ⎝ N⎠
- eroarea-limită admisă ( Δx ):
± Δx nrep = tμnrep
- volumul eşantionului (n):
t 2σ p2
nnrep =
t 2σ p2
Δx 2
nrep +
N

Exemplul 6.4: Pentru aprecierea calităţii unui lot de 7000 produse,


fabricate în secţiile A şi B se controlează un eşantion de 10% extras la
întâmplare şi fără revenire. Se consideră indicatorii:

Tabelul 6.6.
Secţiile Producţia Eşantioane extrase din care,
fizică (buc) (buc) produse cu
defecte
A: uzura utilajelor < 50% N1=5000 n1=500 12
B: uzura utilajelor > 50% N2=2000 n2=200 7
Total 7000 700 19

Să se determine eroarea-limită admisă pentru probabilitatea de 0.9960


(z=2.88), intervalul de încredere care include media produselor defecte în lot şi
să se estimeze numărul total de produse defecte:

12 7
wA = = 0.024 şi wB = = 0.035
500 200
iar
19
w= = 0.0271
700

deoarece n > 100, vom opera cu media dispersiilor de grupă în eşantion

σ w2 =
∑σ f 2
wi i

∑f i
unde
σ wi2 = wi (1 − wi )
vom avea:
σ wA
2
= 0.024(1 − 0.024) = 0.023424
σ wB = 0.035(1 − 0.035) = 0.033775
2

0.023424 × 500 + 0.33775 × 200


σ w2 = = 0.026381
700
227
Statistică

0.026381 ⎛ 700 ⎞
± Δw = 2.88 ⎜1 − ⎟ = ±0.0167
700 ⎝ 7000 ⎠

Intervalul de încredere care conţine media produselor defecte în lotul


fabricat:

w − Δw ≤ p ≤ w + Δw
(104%
. ) 0.0104 ≤ p ≤ 0.0438( 4.38% )

Numărul de produse defecte în lot:


N ( w − Δw) ≤ Qdef ≤ N ( w + Δw)
7000 × 0.0104 ≤ Qdef ≤ 7000 × 0.0438
73 produse ≤ Qdef ≤ 307 produse

Cu probabilitatea de 99.6% se estimează că intervalul de încredere are


limitele 1.04% - 4.38%. Ne aşteptăm în aceleaşi condiţii de precizie ca lotul
fabricat să conţină între 73 şi 307 produse defecte.
Dacă pentru un lot de 10000 produse, fabricat în aceleaşi condiţii de
producţie, ni se cere să determinăm volumul eşantionului astfel ca eroarea să
fie cu 20% mai mică decât în cazul precedent şi asta cu probabilitatea de
0.9986 (t=3.2), se obţine:
( 3.2) 2 × 0.026381
n= = 1315 produse, adică 13,15% din total
( 3.2) 2 × 0.026381
( 0.0167 × 0.8) +
2

10000
Prin urmare, pentru a obţine precizia cerută în noul sondaj este suficient
să controlăm un eşantion de 1315 produse (13.15%) faţă de 10% în sondajul
precedent.

6.5 Sondajul de serii

Atunci când populaţia este eterogenă şi nu există posibilitatea


structurării sale în clase omogene sau atunci când populaţia nu se compune
din unităţi simple, ci din unităţi complexe, extragerea de pachete sau serii
compacte de unităţi (unităţi complexe) reprezintă o tehnică de eşantionare cu
utilitate practică deosebită.
Seriile pot fi:
ƒ de volume egale (cazul cel mai frecvent întâlnit în practică) sau de
volume inegale;
ƒ mărimea lor poate fi cunoscută (cazul cel mai frecvent) sau
necunoscută.
În cazul acestui tip de sondaj:
• presupunem că cele N unităţi simple ale populaţiei originare sunt
repartizate în R submulţimi, numite serii;

228
Sondajul statistic

• eşantionul va fi format din r ( r < R ) serii, care vor fi explorate complet


(se vor analiza toate unităţile simple componente);
• spre deosebire de sondajul tipic, la baza construcţiilor seriilor nu stă un
criteriu structural de omogenizare, de aceea seria preia, în principiu,
caracteristicile de eterogenitate ale populaţiei; sursa de variaţie
nemaifiind percepută la nivelul unităţii statistice primare, ci la nivelul
agregat al seriei, problema reprezentativităţii se va pune în legătură cu
seria însăşi; în acest caz eroarea standard a selecţiei ( μ ) va fi definită
exclusiv în funcţie de componenta inter-serii a dispersiei ( δ 2 ).
Sondajul de serii repetat este posibil, dar costisitor şi ineficient
(reinspectarea unei serii nu aduce informaţii suplimentare, de aceea este foarte
rar folosit; cel mai frecvent se foloseşte sondajul de serii nerepetat.
Principalii indicatori ai sondajului de serii nerepetat, pentru cazul seriilor de
volume egale, se calculează astfel:
ƒ eroarea medie de reprezentativitate:
δ2 ⎛R−r⎞ δ s2 ⎛ R − r ⎞
μn = ⎜ ⎟= ⎜ ⎟
r ⎝ R −1 ⎠ r ⎝ R −1 ⎠

Unde dispersia mediilor de grupă de la media generală, dacă este


cunoscută, se determină astfel:

∑ (x − x0 )
R
2
g
g =1
δ2 =
R
Iar dacă nu este cunoscută, se poate folosi estimatorul său nedeplasat:

∑ (x − xs )
r
2
g
g =1 ⎛ 1⎞
δ s2 = ⎜1 − ⎟ unde g = numărul de serii
r −1 ⎝ R⎠
ƒ eroarea limită admisă:
Δ x = z ⋅ μn
ƒ volumul eşantionului (numărul de serii):
R ⋅ z2 ⋅δ 2 R ⋅ z 2 ⋅ δ s2
r= =
(R − 1)Δ2x + z 2 ⋅ δ 2 (R − 1)Δ2x + z 2 ⋅ δ s2
Sondajul de serii nerepetat are rezultate mai bune decât sondajul simplu
întâmplător, având erori de reprezentativitate mai mici şi volum necesar al
eşantionului mai mic decât acesta

Exemplul 6.5: La nivelul unei firme cu 400 de muncitori organizaţi în


echipe de câte 8 muncitori, se organizează un sondaj prin care sunt studiate 5
echipe, extrase la întâmplare şi fără revenire. Rezultatele obţinute în urma
extragerii eşantionului sunt înscrise în tabelul următor:

Tabelul 6.8.
Numărul curent al echipei extrase Producţia medie decadală (u.m.)
13 2800
48 3000
9 2890
21 3250
28 2900

Să se determine:
229
Statistică

a) eroarea-limită admisă pentru o probabilitate de 99.31% (t=2.7);


b) intervalul în care se va încadra producţia medie decadală a celor 400
de muncitori;
c) să se estimeze producţia totală relizată de cei 400 de muncitori la
nivelul unei decade;
d) ce eşantion va trebui extras dacă probabilitatea cu care garantăm
rezultatele va fi 99.49% (t = 2.8), iar eroarea să nu fie mai mare de ±150 u.m..
Se obţin:
400
R= = 50 echipe
8
r = 5 echipe (10%)

xs =
∑x i
=
2410 + 3600+...+2900
= 2968 u.m.
r 5
∑ (x − xs )
2

δ = = 23896 u.m.
2 i
s
r
23896 ⎛ 50 − 5⎞
± Δx = 2.7 ⎜ ⎟ = 199.988 u.m.
5 − 1 ⎝ 50 − 1⎠
x s − Δx ≤ x 0 ≤ x s + Δx
2968 − 199.988 ≤ x 0 ≤ 2968 + 199.988
2768.012 ≤ x 0 ≤ 3167.988
Producţia medie decadală la nivelul firmei se va încadra, cu o precizie
de 99.49% în intervalul [2768.012;3167.988] .
Producţia totală realizată la nivelul firmei în decursul unei decade va fi:
Q = N ( x s ± Δx )
400 × 2768.012 ≤ Q ≤ 400 × 3167.988 u.m.
1107204.8 mii lei ≤ Q ≤ 1267195.2 mii lei
50 ⋅ ( 2.8) ⋅ 23896
2

r= ≈ 7 echipe
( 50 − 1) ⋅ 150 2 + ( 2.8) 2 ⋅ 23896
Deci, în condiţiile unui sondaj de precizie mai mare (probabilitate de
99.49% în loc de 99.31% şi o eroare în scădere de la 199.988 u.m. la 150 u.m.)
trebuie să studiem 7 echipe din cele 50 (14%) în loc de 5 (10%).

Dacă variabila studiată prin sondaj este de tip Bernoulli, indicatorii


sondajului se vor calcula cu relaţiile:
- eroarea medie de reprezentativitate ( μw ):

δw2 ⎛ R − r ⎞
μwnrep = ⎜ ⎟
r − 1 ⎝ R − 1⎠

- eroarea-limită admisă ( Δw )

± Δwnrep = tμwnrep

- numărul de serii ce formează eşantionul (r)

230
Sondajul statistic

Rt 2 δw2
rnrep =
( R − 1) Δwnrep
2
+ t 2 δw2

Exemplul 6.6: Pentru aprecierea calităţii unui lot de 50000 de becuri de


60 W, ambalate în cutii de câte 100 becuri, se controlează un eşantion de 10
cutii extrase la întâmplare şi fără revenire. Rezultatele observării eşantionului
se prezintă în tabelul următor.
Tabelul 6.9
Numărul de ordine al cutiei Numărul de becuri Media rebuturilor în
extrase defecte din cutie eşantion (wi)
240 3 0.03 (3/100)
31 5 0.05(5/100)
300 2 0.02(2/100)
405 4 0.04(4/100)
12 3 0.03 (3/100)
44 2 0.02(2/100)
56 4 0.04(4/100)
9 3 0.03 (3/100)
212 3 0.03 (3/100)
188 2 0.02(2/100)
Total 31 *

Să se determine eroarea-limită admisă în condiţiile unei probabilităţi


0.9986 (t=3.2), limitele intervalului de încredere şi să se estimeze numărul
becurilor defecte din lotul de bază.

50000 31
R= = 500 ; w = = 0.031( 31%
. ) ; r = 10
100 1000

∑ ( w − w)
2
( 0.03 − 0.031) 2 + ( 0.05 − 0.031) 2 +...+( 0.02 − 0.031) 2
δ2
= =
i
w
r 10

δw2 = 0.000077

0.000077 ⎛ 500 − 10 ⎞
± Δw = 3.2 ⎜ ⎟ = 0.00927
10 − 1 ⎝ 500 − 1 ⎠

- procentul de rebuturi din lotul de bază

w − Δw ≤ p ≤ w + Δw
( 2.173% ) 0.02173 ≤ p ≤ 0.04027 ( 4.027% )

- numărul de becuri defecte din lotul de bază

N ( w − Δw) ≤ Qdef ≤ N ( w + Δw)

50000 × 0 .02173 ≤ Qdef ≤ 50000 × 0.04027

1087 becuri ≤ Qdef ≤ 2014 becuri

231
Statistică

Procentul de rebuturi estimat la nivelul lotului de bază cu o precizie de


99.86% este cuprins în intervalul [2.173%;4.027% ] .
Ne aşteptăm ca lotul de bază să conţină cel puţin 1087 şi cel mult 2014
becuri defecte.

Test de autoevaluare 1
1. Dintr-o populaţie formată din 8 unităţi se extrag toate eşantioanele formate
din câte două unităţi, prin procedeul bilei nerevenite. Care este probabilitatea
ca o unitate să figureze cel puţin o dată în eşantion la sfârşitul extragerilor?
a) 25%; b) 23.43%; c) 15/64; d)28%; e) 1/2.

2. În cadrul unui studiu, o parte dintre angajaţii unei companii, care compun un
eşantion aleator, au fost interogaţi în privinţa încrederii acordate
managementului companiei; 37,5 % dintre aceştia au răspuns afirmativ; marja
de eroare (eroarea limită admisă) este de 7 % iar rezultatele sunt garantate cu
o precizie de 95% (z = 1,96). Care a fost volumul eşantionului necesar pentru a
obţine aceste rezultate?
a) 196 angajaţi; b) 267 angajați; c) 246 angajați; d) 184 angajați;
e) 163 angajați

3. În cadrul unei firme de 3000 de angajaţi s-a efectuat un sondaj întâmplător


nerepetat pentru estimarea salariului mediu şi a fondului de salarii; în urma
cercetării unui eşantion de 10%, s-au obţinut următoarele rezultate: salariul
mediu de eşantion, x s =140 u.m. şi abaterea standard din eşantion, σ s =12.
Pentru o probabilitate de 95.45% (z=2), care este intervalul în care se va
încadra salariul mediu la nivelul firmei?
a) [138,5;141,5]; b) [148,7;151,3]; c) [138,7;141,3];
d) [148,5;151,5]; e) [140,86;139,14].

4. Dintr-o populaţie formată din 8 unităţi se extrag toate eşantioanele formate


din câte două unităţi, prin procedeul bilei revenite. Care este probabilitatea ca o
unitate să figureze cel puţin o dată în eşantion la sfârşitul extragerilor?
a) 25%; b) 23.43%; c) 15/30; d) 28%; e) 1/4.

5. În cadrul unui studiu statistic, verificarea prin sondaj a facturilor unei


companii a relevat faptul că 12% dintre acestea prezintă neconcordanţe; marja
de eroare (eroarea limită admisă) este de 5%; aceste rezultate sunt garantate
cu o probabilitate de 95% (z = 1,96). Care a fost volumul eşantionului necesar
pentru a obţine aceste rezultate?
a) 196 facturi; b) 120 facturi; c) 184 facturi;
d) 163 facturi e) 306 facturi.

6. În cadrul unei firme cu 4000 de angajaţi s-a efectuat un sondaj întâmplător


nerepetat pentru estimarea salariului mediu şi a fondului de salarii; în urma
cercetării unui eşantion de 10%, s-au obţinut următoarele rezultate: salariul
mediu din eşantion x s =150 u.m. şi dispersia de selecţie σ s2 = 250. Pentru o
probabilitate de 95.45% (z=2), care este intervalul în care se va încadra fondul
de salarii al celor 4000 de angajaţi?
a) [743400;756600]; b) [594000;606000]; c) [592800;604800];
d) [446100;453900]; e) [416100;423900].

232
Sondajul statistic

7. Să se determine numărul total al eşantioanelor distincte formate din câte


două unităţi, generate prin procedeul bilei nerevenite, dintr-o populaţie statistică
formată din 8 unităţi.
a) 36; b) 15; c) 56; d) 64; e) 28.

8. În cadrul unui studiu statistic, verificarea prin sondaj a facturilor unei


companii a relevat faptul că 10 % dintre acestea prezintă neconcordanţe; marja
de eroare (eroarea limită admisă) este de 4 %; aceste rezultate sunt garantate
cu o probabilitate de 95% (z = 1,96). Care a fost volumul eşantionului necesar
pentru a obţine aceste rezultate?
a) 267 facturi; b) 217 facturi; c) 184 facturi;
d) 163 facturi; e) 306 facturi.

9. În cadrul sondajului aleator simplu repetat, pentru calculul indicatorului de


sondaj eroarea medie de reprezentativitate ( μ n ) se folosește:
a) dispersia totală a populației - σ 02
b) dispersia totală a eșantionului - σ s2
c) media dispersiilor de grupă în cadrul populației - σ 2
d) media dispersiilor de grupă în cadrul eșantionului - σ s2
e) dispersia dintre grupe în cadrul populației - δ 2

10. În cadrul sondajului tipic repetat, pentru calculul indicatorului de sondaj


eroarea medie de reprezentativitate ( μ n ) se folosește:
a) dispersia totală a eșantionului - σ s2
b) media dispersiilor de grupă în cadrul populației - σ 2
c) media dispersiilor de grupă în cadrul eșantionului - σ s2
d) dispersia dintre grupe în cadrul populației - δ 2
e) dispersia totală a populației - σ 02

11. Să se determine numărul total al eşantioanelor distincte formate din câte


două unităţi, generate prin procedeul bilei nerevenite, dintr-o populaţie statistică
formată din 8 unităţi.
a) 36; b) 15; c) 56; d) 64; e) 28.

12. În cadrul unui studiu statistic, o parte dintre angajaţii unei companii, care
compun un eşantion aleator, au fost interogaţi în privinţa încrederii acordate
politicii salariale a companiei; 50% dintre aceştia au răspuns afirmativ; marja de
eroare (eroarea limită admisă) este de 6 % iar rezultatele sunt garantate cu o
precizie de 95% (z = 1,96). Care a fost volumul eşantionului necesar pentru a
obţine aceste rezultate?
a) 196 angajaţi; b) 267 angajaţi; c) 246 angajaţi;
d) 163 angajaţi; e)306 angajaţi.

233
Statistică

Răspunsurile la toate întrebările testului de autoevaluare 1 se


regăsesc în Unitatea de învățare 6, paginile 210 - 231. Pentru aplicațiile
practice și întrebările tip grilă, rezolvarea se regăsește și la sfârșitul
manualului.

Rezumat

Cercetarea prin sondaj, face parte din categoria cercetărilor parţiale. Are
o arie de aplicabilitate foarte largă şi o serie de avantaje care impun utilizarea
sa în practică. Se poate aplica şi acolo unde cercetarea statistică totală nu
poate fi aplicată sau necesită cheltuieli prea mari. Principalele etape ale
cercetării prin sondaj sunt:
` Stabilirea obiectivelor cercetării
` Extragerea eşantionului.
` Elaborarea chestionarului.
` Culegerea datelor.
` Codificarea şi prelucrarea primară a datelor.
` Prelucrarea propriu-zisă a datelor.
` Analiza şi interpretarea rezultatelor.

Faţă de cercetarea statistică totală, în cadrul sondajului se studiază un


eşantion (o parte din mulţimea vizată de cercetare) iar rezultatele studiului se
pot extinde prin metode specifice asupra întregii mulţimi vizate de cercetarea
statistică. Pentru aceasta, formarea eşantionului trebuie să asigure îndeplinirea
condiţiei de reprezentativitate, adică eşantionul să reprezinte pe cât posibil în
aceeaşi măsură toate elementele din mulţimea supusă studiului. Această
condiţie a condus la experimentarea mai multor procedee de formare
(extragere) a eşantionului. Cele mai des utilizate procedee de eşantionare
sunt:
¾ procedee aleatoare (procedeul tragerii la sorţi în varianta „cu repetare”,
procedeul tragerii la sorţi în varianta „fără repetare”, procedeul mecanic)
¾ procedee subiective
Caracteristicile populaţiei de bază, ale unităţilor statistice care o
formează, respectiv procedeul de eşantionare utilizat, au condus la conturarea
mai multor tipuri de sondaje statistice. Cele mai importante tipuri de sondaj
întâlnite frecvent în practică sunt:
™ sondajul simplu întâmplător repetat sau nerepetat
™ sondajul tipic (stratificat) repetat sau nerepetat
™ sondajul de serii, se organizat în practică numai în
varianta nerepetat, pentru că se operează cu un număr
mic de serii.
Fiecare dintre tipurile de sondaj enumerate mai sus permite
determinarea unor indicatori specifici numiţi indicatori ai sondajului. Aceştia
sunt :
9 Eroarea medie de reprezentativitate
9 Eroarea limită admisă
9 Volumul eșantionului
234
Sondajul statistic

Termeni cheie

Sondaj statistic, eșantion reprezentativ, erori de observare, erori de eșantionare


(de reprezentativitate), procedee aleatoare și nealeatore de eșantionare,
schema bilei revenite, schema bilei nerevenite, procedeul mecanic de
eșantionare, sondaj simplu întâmplător, sondaj tipic sau stratificat, sondaj de
serii, eroarea medie de reprezentativitate, eroarea limită admisă, volumul
eșantionului, sondaj repetat și nerepetat.

Bibliografie
1. Anderson, D., Sweeney, D., Williams, Th., Freeman, J., Shoesmith, E.,
Statistics for business and economics, Cengage Learning EMEA, 2010;
2. Andrei, T., Statistică şi econometrie, Editura Economică, Bucureşti, 2003;
3. Amiot, E., Introduction aux probabilites et a la statistique, Gaetan Marin
Editeur, Montreal, 2004;
4. Beganu Gabriela, Elemente de teoria probabilităților și statistică matematică,
Meteor Press, București, 2007;
5. McClave, J. T., Benson, P., G., Sincich, T., Statistics for Business and
Economics, 10th Edition, Pearson Prentice Hall, 2008;
6. Francis A., Statistică şi matematică pentru managementul afacerilor, Editura
Tehnică, Bucureşti, 2005;
7. Giard, V., Statistique appliquée à la gestion, Ed. Economica, Paris, 2007;
8. Goldfarb, B., Pardoux, C., Introduction a la methode statistique. Economie.
Gestion, Dunod, Paris, 2007;
9. Groebner, D., Shannon, P., Fry, P., Smith, K., Business Statistics. A
Decision-Making; Approach, Pearson Prentice Hall, 2008;
10. Radu, C., Ionaşcu, C., M., Murăriţa, I., Statistică teoretică, Editura
Universitaria, Craiova, 2009.

235

S-ar putea să vă placă și