Sunteți pe pagina 1din 133

CURS STATISTICĂ ECONOMICĂ - Lecţia 1

Cuprins:

1. Prezentarea disciplinei. Adresabilitate. Competenţe dobândite de studenţi.


2. Evaluarea cunoştinţelor.
3. Structura notei finale.
4. Structura cursului.

1. Prezentarea disciplinei. Adresabilitate. Competenţe dobândite de


studenţi

Titlul cursului: STATISTICĂ ECONOMICĂ

Introducere
Cursul de “Statistică” se adresează tuturor studenţilor înscrişi la programul de
studiu CU FRECVENŢĂ, organizat de toate facultăţile Academiei de Studii
Economice şi face parte din planul de învăţământ aferent anului I sau II, după caz.
Dacă unii dintre voi aţi venit cu temerea că veţi avea de înfruntat o disciplină
dificilă şi prea puţin prietenoasă, e timpul să va eliberaţi de astfel de temeri. Şi –
mergând cu gândul la final, sunt convins că atunci veţi fi bucuroşi că aţi parcurs
cursul de Statistică, pentru că:
 ceea ce vă învaţă statistica vă va fi foarte util, chiar necesar în practicarea
profesiei pe care v-aţi ales-o;
 veţi deprinde “modul de gândire statistic”, care vă va ajuta să rezolvaţi în
mod eficient diferite sarcini profesionale;
 veţi primi un bagaj de cunoştinţe de bază în statistică, a căror aplicare este
absolut necesară şi utilă în întâmpinarea aspiraţiilor voastre de înaintare pe
scara ierarhiei profesionale;
 deprinderea metodelor statistice de bază vă va fi utilă şi în plan personal,
în viaţa de zi cu zi, vă va ajuta să vă extindeţi orizontul intelectual, să
elaboraţi analize critice ale informaţiilor statistice pe care le veţi găsi în
ziare sau reviste de medicină, sănătate, finanţe şi alte domenii;
 veţi realiza că a cunoaşte statistica a devenit, în zilele noastre, o parte
integrantă a unei persoane cu o educaţie completă;
 şi, nu în ultimul rând, veţi găsi, poate, ceva captivant în provocările pe care
vi le adresează autorii cursului sub forma testelor de autoevaluare şi de
verificare a cunoştinţelor, ca şi prin indicaţiile primite în aplicarea softurilor
statistice (Excel – Modulul Data Analysis).

2. Evaluarea cunoştinţelor

Evaluarea cunoştinţelor se va realiza sub două forme:


• evaluare continuă, pe baza lucrărilor de verificare regăsite la sfarşitul fiecărei
lecţii;
• evaluare finală, realizată prin examenul susţinut în perioada de sesiune.

3. Structura notei finale.

Structura notei finale


 50% Evaluare continuă pe baza notelor obtinute la verificarile saptamanale
scrise si totodata pe baza răspunsurilor studenţilor la cursuri si seminarii;
 50% Evaluare finală (pe baza examenului din sesiunea de verificare a
cunoştinţelor).

4. Structura cursului

Cuprinsul cursului:

 Lecţia nr. 1: Să facem cunoştinţă cu ... statistica.


 Lecţia nr. 2: Noţiuni introductive în statistică.
 Lecţia nr. 3: Culegerea datelor. Observarea statistică.
 Lecţia nr. 4: Sistematizarea, prezentarea şi reprezentarea datelor statistice.
 Lecţia nr. 5-6: Analiza statistică a distribuţiilor de frecvenţe. Indicatorii tendinţei
centrale.
 Lecţia nr. 7: Analiza statistică a distribuţiilor de frecvenţe. Indicatorii variaţiei şi
asimetriei.
 Lecţia nr. 8: Introducere în teoria sondajului.
 Lecţia nr. 9: Legături statistice dintre variabile.
 Lecţia nr. 10-11: Analiza statistică a seriilor cronologice.
 Lecţia nr. 12: Indicii statistici.

Software statistic
 EXCEL - Modulul Data Analysis.

Fiecare unitate de învăţare cuprinde prezentarea competenţelor pe care le veţi


dobândi în urma studierii temeinice a acesteia, numerose exemple, teste de
autoevaluare însoţite de soluţii şi comentarii, precum şi teste de verificare (teme de
control) ce vor contribui la evaluarea voastră continuă şi vă vor pregăti pentru
evaluarea finală.
CURS STATISTICĂ - Lecţia nr. 2
NOŢIUNI INTRODUCTIVE ÎN STATISTICĂ

Cuprins:

1. Obiectivele unităţii de învăţare.


2. De ce trebuie să cunoaştem statistica.
3. Obiect şi metodă în statistică.
4. Concepte de bază utilizate în statistică.
5. Scale de măsurare a datelor statistice.
6. Etapele procesului de investigaţie statistică.
7. Rezumatul unităţii de învăţare.

1. Obiectivele unităţii de învăţare

Cu un secol în urmă, H.G.Wells afirma că „modul de gândire statistic va deveni, într-o


zi, la fel de necesar precum abilitatea de a citi ori de a scrie”. În noul mileniu, în care tocmai
am intrat, problemele cu care se vor confrunta managerii, oamenii de afaceri în general, nu
vor fi cele referitoare la disponibilitatea ori la lipsa informaţiilor ci, mai degrabă, cele legate
de modul în care să folosească informaţiile în scopul de a lua decizii mai bune. În drumul
vostru spre a deveni buni economişti, însuşirea instrumentarului statistic este doar un pas din
mulţi alţii pe care-i veţi avea de parcurs, însă acest lucru vă va ajuta în:
- a descrie şi a prezenta în modul cel mai potrivit informaţiile cu care veţi
lucra;
- a obţine previziuni credibile privind variabilele de interes;
- a îmbunătăţi desfăşurarea activităţilor de care sunteţi răspunzători;
- a trage concluzii privind colectivităţi numeroase, având la dispoziţie date
obţinute din eşantioane.

2. De ce trebuie să cunoştem statistica

Statistica este un “numitor comun” al tuturor ştiinţelor, un limbaj comun al acestora,


este, deopotrivă, un set de instrumente ce poate fi aplicat în toate domeniile cercetării, dar şi

1
“arta” de mânuire corectă a acestor instrumente. În viaţa de zi cu zi, statistica ne oferă o paletă
largă de tehnici cu aplicabilitate în cele mai variate câmpuri de interes care ne ajută să
rezolvăm problemele practice şi ne învaţă să raţionăm corect. Pentru unii, statistica înseamnă
numărul de goluri, de lovituri libere sau de kornere înscrise într-un meci de fotbal, pentru alţii
înseamnă nivelul Produsului Intern Brut, numărul şomerilor, rata de ocupare a forţei de
muncă, indicele preţurilor sau rata inflaţiei, alături de alte asemenea date regăsite într-o
publicaţie de specialitate, aşa cum pentru alţii statistica poate însemna o ramură a ştiinţei, o
ştiinţă de sine stătătoare sau o disciplină de învăţământ. “Instrumentarul” acestei ştiinţe se
poate aplica, practic în toate celelalte ştiinţe, fie că este vorba de psihologie, de medicină,
fizică, chimie, meteorologie sau istorie.

Aşadar, statistica reprezintă ştiinţa colectării datelor, a prezentării lor într-o formă
sistematică, a analizării acestora şi a interpretării informaţiilor numerice obţinute.

Rolul ei nu este acela de a emite decizii, ci de a orienta decidentul pe o bază


fundamentată asupra deciziei optime pe care o va adopta.
Necesitatea cuantificării, a exprimării numerice a fenomenelor şi proceselor se
manifestă în toate domeniile vieţii economico-sociale şi acest lucru îl face şi statistica, dar nu
numai atât. Ea permite caracterizarea, prin doar câteva niveluri numerice, a unor largi grupuri
de date, fără a fi necesar să investigăm fiecare caz în parte. Acest lucru asigură o economie de
resurse materiale, financiare, umane şi temporale. Mai mult, în urma investigării şi prelucrării
setului de date există posibilitatea efectuării unor inferenţe statistice.

Etimologia cuvântului “statistică” este de origine latină, de la termenul “status”, ce


desemnează o stare, o situaţie, un fapt. Astăzi, statistica reprezintă un ansamblu de
principii şi metode cu ajutorul cărora putem obţine informaţii utile despre un set de date.

Domeniul statisticii poate fi subdivizat în două arii: statistica descriptivă şi statistica


inferenţială. De obiecei, statistica descriptivă este sensul mai cunoscut, mai uzual al
colectării, organizării, sintetizării, prezentării şi descrierii datelor numerice şi nenumerice,
într-o formă convenabilă, în timp ce termenul de “inferenţă” se referă la tehnicile de
interpretare a rezultatelor obţinute prin metodele statisticii descriptive, utilizate apoi la luarea
deciziilor. Deseori, decidenţii sunt nevoiţi să adopte decizii pe baza datelor care nu provin de
la toate unităţile colectivităţii investigate, ci de la o parte a acestora şi, cu ajutorul statisticii

2
inferenţiale, ei pot formula concluzii valabile, în anumiţi termeni probabilistici, pentru
întreaga colectivitate.

3. Obiect şi metodă în statistică.

Statistica studiază fenomenele şi procesele care prezintă următoarele particularităţi:


- se întâlnesc la un număr mare de unităţi;
- variază ca nivel de la o unitate la alta;
- sunt definite, circumscrise în timp, în spaţiu şi ca structură organizatorică (adică sunt
entităţi distincte circumscrise în timp, spaţiu şi organizatoric);
Aceste fenomene se numesc fenomene de masă şi constituie obiectul de studiu al
statisticii.
Pentru a putea cunoaşte aceste fenomene, nu este de ajuns să studiem câteva unităţi
purtătoare a acestor fenomene, ci este necesar să avem viziunea ansamblului, a întregului, să
studiem un număr suficient de mare de cazuri pentru ca ele să fie sub incidenţa legii
numerelor mari.
Fenomenele studiate de statistică (fenomene stochastice sau statistice) sunt fenomene
nedeterministe, influenţate, de regulă, de un număr mare de factori cu acţiune sistematică sau
aleatoare, esenţială sau neesenţială, cu acţiune într-un acelaşi sens sau în sensuri diferite.
Acest tip de fenomene sunt guvernate de legi statistice, care se manifestă ca tendinţă şi care
pot fi cunoscute, identificate şi studiate doar prin cercetare ansamblului unităţilor la care se
produc.
În antiteză cu fenomenele stochastice, există fenomene deterministe, univoc
determinate, care apar sub influenţa unui număr restrâns de cauze şi care se manifestă cu
aceeaşi valoare/nivel, dacă şi cauzele care le-au generat sunt aceleaşi. Spre deosebire de
fenomenele de masă, fenomenele deterministe pot fi cunoscute, identificate şi cercetate pe
cale experimentală. Totodată, valabilitatea lor poate fi probată la nivelul fiecărui caz
individual în parte (aşa se întâmplă, de regulă, cu fenomenele din ştiinţele naturii – fizică,
chimie etc.).
Urmărind etapele oricărui proces de cunoaştere, pentru rezolvarea problemelor care
fac obiectul său de studiu, statistica, ca orice ştiinţă şi-a elaborat procedee şi metode speciale
de cercetare, cum sunt cele ale observării de masă, ale centralizării şi grupării, procedee şi
modele de analiză şi de interpretare statistică.

3
Putem spune că metoda statisticii este constituită din „totalitatea operaţiilor, tehnicilor,
procedeelor şi metodelor de investigare statistică a fenomenelor ce aparţin unor procese
de tip stochastic”.

4. Concepte de bază utilizate în statistică

Pentru a efectua o cercetare statistică asupra unui fenomen şi pentru a comunica şi


altora rezultatele şi concluziile studiului, sau pentru a înţelege concluziile la care au ajuns alţi
specialişti în cercetările lor, trebuie să avem cu toţii un limbaj statistic comun. Vocabularul de
bază al statisticii cuprinde următorii termeni:

a. Populaţia statistică (colectivitatea statistică)

Reprezintă totalitatea elementelor de acelaşi fel, cu trăsături observabile comune,


studiate atunci când vrem să iniţiem un demers statistic.

În ideea obţinerii tuturor informaţiilor de care avem nevoie şi a realizării unei economii
de resurse materiale, financiare şi umane este foarte importantă definirea corectă a populaţiei
statistice de interes, cu specificarea dimensiunii temporale, spaţiale şi organizatorice în care se
înscrie populaţia. În trecut, prin populaţie se înţelegea o mulţime (o colectivitate) de persoane
(indivizi), astăzi, însă, ea şi-a extins sensul, sfera de cuprindere, putându-se vorbi de populaţii
de animale, obiecte, opinii, păreri, evenimente, măsurători etc. O populaţie se consideră
integral definită, specificată dacă s-a elaborat lista completă a unităţilor care o compun. Unele
populaţii statistice, având foarte multe elemente şi fiind, deci, foarte numeroase, pot fi
considerate cu caracter infinit.
Cu cât este mai numeroasă o colectivitate, cu atât devine mai dificilă cercetarea tuturor
elementelor ei. O astfel de cercetare poate fi consumatoare de timp şi costisitoare. În acest caz,
soluţia poate fi extragerea unei subcolectivităţi din colectivitatea generală (numită şi colectivitate
parţială, eşantion sau colectivitate de selecţie).

Eşantionul reprezintă un subset de elemente selectate dintr-o colectivitate statistică.

b. Unitatea statistică

Este elementul, entitatea de sine stătătoare a unei populaţii statistice, care posedă o serie
de trăsături caracteristice ce-i conferă apartenenţa la populaţia studiată.

4
Se pot întâlni două tipuri de unităţi statistice:
- simple (un salariat, un agent economic, un obiect, o părere);
- complexe (o grupă de studenţi sau o echipă de salariaţi, o familie sau o gospodărie, o
categorie de mărfuri)

c. Variabila statistică (caracteristică statistică)

Reprezintă o însuşire, o proprietate măsurabilă a unei unităţi statistice, întâlnită la toate


unităţile care aparţin aceleiaşi colectivităţi şi care prezintă variabilitate (variază ca
nivel) de la o unitate statistică la alta.

Variabilele statistice sunt de numeroase tipuri, putând fi clasificate după următoarele


criterii:
I. după dimensiunea în care sunt definite, avem:
 de timp (care se referă la dimensiunea temporală, de tipul anului înfiinţării unor
firme sau al duratei necesare pentru completarea unui formular);
 de spaţiu (care se referă la loc, la spaţiu, de tipul localităţii de reşedinţă a unor
persoane sau al zonei de amplasare a sediului unor firme)
 atributive (care se referă la un atribut, altul decât timpul sau spaţiul, de tipul
greutăţii corporale, sexului sau profesiei unor persoane, cifrei de afaceri a unor
agenţi economici).

II. după natura variabilelor şi modul lor de exprimare, avem:

 variabile cantitative sau numerice (exprimate prin numere, adică descriu prin
numere rezultatul unei numărători sau măsurători; de exemplu: profitul unor firme,
vârsta în ani împliniţi a unor persoane etc.);
 variabile calitative sau nenumerice (exprimate prin cuvinte, care descriu prin
cuvinte un anumit tip calitativ al unităţii de la care s-a înregistrat; de exemplu:
liceul absolvit, limba străină cunoscută cel mai bine de nişte persoane etc.)
III. după tipul variaţiei, variabilele numerice pot fi:

5
 cu variaţie continuă, atunci când pot lua, practic, orice valoare într-un interval din
domeniul lor de valori;
 cu variaţie discontinuă (discrete), atunci când pot lua doar anumite valori, strict
determinate într-un interval din domeniul lor de valori.
În cele mai multe cazuri, deosebirea, diferenţa între variabilele cu variaţie continuă şi
cele cu variaţie discretă se poate face stabilind dacă datele provin dintr-o numărătoare sau
dintr-o măsurătoare (primele sunt discrete, cele din urmă continue).
Multe variabile continue pot lua valori aparent discrete (de exemplu: vârsta se
exprimă, de regulă, în ani împliniţi), dar acest lucru se întâmplă deoarece în practică se
limitează, uneori, precizia datelor înregistrate.

IV. după numărul de variante pe care-l poate avea o variabilă, întâlnim:

 variabile alternative, binare sau dihotomice, de tipul variabilelor logice


(„adevărat/fals”), care pot avea doar două variante de răspuns (exemplu: stagiul
militar – satisfăcut/nesatisfăcut, starea civilă – căsătorit/necăsătorit, genul –
masculin/feminin etc.)
 variabile nealternative, sunt cele care pot avea cel puţin trei variante de răspuns,
de manifestare (exemplu: salariul – 500 lei, 700 lei, 1000 lei).

Variabilele nealternative se pot transforma în variabile alternative printr-un proces de


dihotomizare (prin impunerea unei limite, a unui prag – în cazul variabilelor numerice, sau
prin regrupări ale variantelor – în cazul variabilelor nenumerice). Exemplu: salariul: mai mic
sau egal cu 500 RON şi mai mare de 500 RON; profesia: economist şi alte profesii).

V. după modul de obţinere, pot exista:

 variabile primare (sunt variabilele care se obţin, de obicei, direct din procesul de
culegere a datelor, de la unităţile colectivităţii statistice);
 variabile derivate (sunt variabilele rezultate în urma aplicării unui model de calcul
asupra caracteristicilor primare).

VI. după relaţia de cauzalitate, putem avea:

6
 variabile independente – reprezintă variabile ce pot fi utilizate pentru a descrie sau
a explica variaţiile, diferenţele (modificările) survenite în alte variabile, pe care le
influenţează;
 variabile dependente – un rezultat ce prezintă un anumit interes, observat şi
măsurat pentru a evalua efectele unei variabile independente (exemplu: dacă
pentru 30 de magazine s-au înregistrat: suprafaţa comercială şi valoarea vânzărilor,
atunci suprafaţa comercială este variabila independentă, cauzală, iar valoarea
vânzărilor reprezintă variabila dependentă, rezultativă).

d. Varianta statistică

Nivelul sau valoarea unei variabile, indiferent de natura/tipul acestei variabile, întâlnită
la o anumită unitate se numeşte variantă.

e. Frecvenţa unei variante

Este numărul de apariţii al acelei variante, la toate unităţile unei colectivităţi.

f. Date statistice

Reprezintă observaţiile rezultate dintr-o cercetare statistică, sau ansamblul valorilor


colectate în urma unei cercetări statistice.

Conţinutul, esenţa datelor statistice formează informaţia statistică.


În funcţie de tipul variabilelor ale căror valori le reprezintă şi datele statistice se pot
clasifica în:
- temporale, spaţiale sau atributive (dacă se referă la o caracteristică de spaţiu, de timp
sau atributivă);
- cantitative sau calitative (dacă se referă la o variabilă numerică sau nenumerică);
- datele cantitative (numerice) pot fi: continue sau discrete. Uneori şi datele calitative
(sau categoriale) pot fi exprimate numeric, atunci când, de exemplu, li se acordă
coduri numerice, ce permit prelucrarea mai facilă cu ajutorul metodelor statistice şi a
tehnicii moderne de calcul. Exemplu: codificarea numerică a preferinţelor
consumatorilor pentru un produs alimentar, pe o scară de la (1) = deloc gustos, până la
(10) = foarte gustos.
În plus, în funcţie de numărul variabilelor la care se referă, datele statistice pot fi:

7
 date univariate, atunci când datele statistice analizate se referă la o singură
variabilă sau caracteristică statistică (exemplu: profitul fiecărui agent economic
dintr-o ramură de activitate);
 date bivariate, atunci când datele statistice se referă la două variabile; în acest caz,
se poate studia separat fiecare caracteristică în parte, sau se poate analiza una
dintre variabile, în relaţie cu cealaltă variabilă, punându-se în evidenţă posibila
legătură dintre ele (exemplu: profitul şi forma de proprietate a fiecărui agent
economic dintr-o ramură de activitate);
 date multivariate, atuci când datele statistice se referă la trei sau mai multe
variabile statistice; şi în acest caz se pot analiza separat datele, pentru fiecare
variabilă statistică în parte, sau interdependenţa dintre mai multe caracteristici
(exemplu: profitul, forma de proprietate, numărul de ani de activitate, numărul de
angajaţi, numărul de oraşe în care au filiale fiecare dintre agenţii economici ce
activează într-o ramură). În acest ultim exemplu, întâlnim date cantitative (profitul,
numărul de ani de activitate etc. şi date calitative (forma de proprietate); cele
numerice pot fi continue (profitul) sau discrete (numărul de angajaţi, sau numărul
oraşelor în care agenţii economici au filiale).
După momentul sau perioada de timp la care se referă datele înregistrate, putem
întâlni:
 date dinamice, atunci când datele se referă la mai multe momente sau perioade de
timp succesive (exemplu: profitul trimestrial şi numărul mediu trimestrial al
angajaţilor unui agent economic din construcţii, înregistrate pentru opt trimestre
consecutive );
 date statice, atunci când ele se referă la acelaşi moment / perioadă de timp
(exemplu: profitul şi numărul angajaţilor pentru 10 agenţi economici, la sfârşitul
semestrului I 2005).

5. Scale de măsurare a datelor statistice

Pentru ca datele statistice să poată fi supuse prelucrării prin metode statistice, ele
trebuie măsurate, adică exprimate cantitativ, cu ajutorul numerelor.

Măsurarea este operaţia prin care fiecărei observaţii, fiecărui aspect cantitativ sau
calitativ al unităţilor statistice (obiectelor, evenimentelor etc.) li se atribuie în mod
sistematic numere.
8
Modalitatea prin care se atribuie această valoare numerică, precum şi semnificaţia ei
depinde de nivelul de măsurare. Fiecărui nivel de măsurare îi corespunde o anumită scală de
măsurare, care poate fi identificată în funcţie de operaţiile matematice ce pot fi efectuate cu
datele statistice. Toate operaţiile matematice permise pentru o anumită scală sunt valabile şi
pentru toate scalele inferioare ei, dar nu şi pentru cele următoare.
Cele patru scale de măsurare, în ordinea crescătoare a preciziei, sunt:
a. Scala nominală (categorială)

Este scala cu cel mai scăzut nivel al preciziei, utilizată pentru a atribui variantelor
caracteristicii măsurate „însuşiri”, cu scopul de a stabili diferenţe calitative între
observaţii.

Altfel spus, „numerele” atribuite pe această scală au rolul de a identifica, de a


reprezenta diferitele clase sau categorii, fără a impune o anumită relaţie de ordine între ele,
fără ca aceste „numere” (însuşiri) să aibă vreo semnificaţie cantitativă.
Rolul scalei nominale: de a încadra unităţile statistice în grupe/clase/categorii
diferite, după un anumit criteriu, fără a indica dacă o categorie este mai bună sau mai puţin
bună decât alta, dacă o categorie este mai largă sau mai restrânsă decât alta.
Operaţii admise pe scala nominală: singurele relaţii matematice permise pe scala
nominală sunt echivalenţa şi non-echivalenţa. Astfel, o unitate statistică poate avea
caracteristica definitorie pentru o anumită clasă (=) sau nu (≠). Putem spune, de exemplu,
„masculin” (≠) „feminin”, dar nu şi „masculin” > „feminin”.

b. Scala ordinală (categorială)

Oferă un plus de precizie în „măsurare”, faţă de scala nominală, deoarece ea nu numai


că împarte unităţile colectivităţii studiate în clase/grupe omogene diferite, din punct de
vedere al unei caracteristici, ci permite şi stabilirea unei relaţii de ordine între aceste
clase/grupe.

În acest caz, valorile numerice atribuite pe această scală pot avea nişte numere de
ordine (numite şi „ranguri”), între care se pot scrie relaţii în termenii unor „inegalităţi”: a<b
sau a>b. Astfel, relaţiile de ordine întâlnite între categoriile acestei scale pot fi: mai mare sau
mai mic, mai rapid sau mai lent, mai mult sau mai puţin inteligent, mai mult sau mai puţin
important etc.

9
Aceste expresii numerice sau nenumerice, ce constituie categoriile scalei conţin mai
multă informaţie cantitativă decât în cazul scalei nominale, dar mai puţină decât informaţia
numerică inclusă în cazul scalelor următoare. Scala ordinală indică poziţia unui element într-o
serie ordonată, nu şi magnitudinea sau mărimea diferenţei existente între două poziţii ale
scalei (această scală nu ne permite să afirmăm cu câte „unităţi de măsură” diferă o categorie
de categoria învecinată).
c. Scala de interval (cardinală)

Caracteristici:
- este prima scală numerică (se aplică variabilelor numerice);
- permite, pe lângă stabilirea unei relaţii de ordine între variantele numerice ale
acestei scale şi determinarea şi interpretarea diferenţelor dintre acestea;
- valorile numerice acordate pe această scală au semnificaţie cantitativă, de aceea
este permisă însumarea sau scăderea lor;
- fixarea punctului de origine (zero) poate fi făcută arbitrar (originea nu este fixă);
- unitatea de măsură poate fi aleasă arbitrar.

Am văzut că o altă trăsătură caracteristică a scalei de interval derivă din posibilitatea


alegerii arbitrare a punctului de origine. Rezultă, de aici, că punctul „zero” nu înseamnă,
neapărat, şi absenţa caracteristicii, ci este doar o stare, un nivel al acesteia, ca oricare altul.

d. Scala de raport (proporţională)

Caracteristici:
- se aplică variabilelor numerice, având cel mai înalt nivel de precizie;
- două valori, măsurate pe această scală se află, indiferent de unitatea de măsură
folosită, în acelaşi raport una faţă de alta;
- pe această scală sunt permise şi operaţiile de multiplicare şi de divizare;
- punctul de origine (zero) este unul fix, rigid, este zero absolut, matematic şi
reprezintă absenţa caracteristicii;
- unitatea de măsură poate fi aleasă arbitrar.

În practică este posibil ca o aceeaşi variabilă să se măsoare cu ajutorul mai multor


scale de măsurare. Alegerea scalei adecvate se face, în funcţie de variantele acelei
caracteristici. Dacă avem caracteristica „salariu”, ne gândim imediat la o scală numerică
(scala de raport, de exemplu). Într-adevăr, dacă variantele sunt: 750 RON, 1200 RON, 500
RON etc. vom utiliza pentru măsurare scala de raport. Dacă însă variantele sunt: „sub salariul

10
mediu”, „egal cu salariul mediu”, „peste salariul mediu”, atunci vom utiliza o scală calitativă:
scala ordinală.

DENUMIREA CARACTERISTICI ALE EXEMPLE DE UTILIZARE


SCALEI SCALEI
NOMINALĂ Absenţa relaţiei de ordine Sex, stare civilă, stagiul militar,
profesia, culoarea părului,
ORDINALĂ Relaţie de ordine Calificative pentru activitatea
şcolară, ordinea sosirii alergătorilor
dintr-o cursă, preferinţele
consumatorilor pentru un produs,
INTERVAL Relaţie de ordine Temperatura
(CARDINALĂ) Diferenţe (intervale) Timpul calendaristic
semnificative Punctajul obţinut la un test de
Origine arbitrară verificare a cunoştinţelor
Valoarea 0 nu înseamnă absenţă
RAPORT Relaţie de ordine Vârsta, greutatea corporală, salariul,
(PROPORŢIONA Diferenţe (intervale) profitul, cifra de afaceri, număr de
LĂ) semnificative angajaţi
Origine fixă, valoarea 0
înseamnă absenţă
Operaţii de multiplicare /
divizare

6. Etapele procesului de investigaţie statistică

Produsul final al oricărui proces de cercetare statistică îl reprezintă ansamblul de


informaţii rezultate. Aşa cum am văzut, dacă aceste informaţii îmbracă o formă numerică,
atunci ele constituie date statistice. Cercetătorul trebuie să sistematizeze, să centralizeze, să
interpreteze aceste date, astfel încât, după prelucrarea lor, să obţinem soluţii valide şi sigure la
problemele apărute. Aici intervine rolul statisticii, prin analiza datelor şi obţinerea de
concluzii pertinente, prin deducerea unor inferenţe pe baza acestor date.

Identificarea Transpunerea Organizarea şi


şi formularea problemei în desfăşurarea
problemei termeni procesului de
reale statistici investigaţie
statistică

Fundamentarea Adoptarea deciziei


deciziilor pe baza pentru soluţionarea
rezultatelor problemei
cercetării statistice

Figura 1. Locul cercetării statistice în cadrul procesului decizional

11
Procesul de cercetare statistică presupune parcurgerea următoarelor etape, succesive şi
distincte, în funcţie de scopul şi obiectivele urmărite:

 culegerea şi înregistrarea datelor (observarea statistică);


 prelucrarea datelor;
 analiza şi interpretarea rezultatelor,

astfel încât să se obţină un volum suficient de informaţii, cu un grad de exactitate acceptabil,


utilizându-se, totodată, un minim de resurse materiale, financiare şi umane.

În etapa de observare statistică are loc culegerea şi înregistrarea datelor de la unităţile


colectivităţii, referitoare la toate variabilele studiate, pe baza unui program riguros şi
sistematic.
În etapa de prelucrare datele sunt sistematizate, centralizate şi sunt calculaţi indicatori
statistici ce caracterizează toate laturile fenomenului urmărit.
În etapa de analiză şi interpretare are loc compararea rezultatelor obţinute, verificarea
ipotezelor, formularea concluziilor şi fundamentarea calculelor de prognoză, cu alte cuvinte se
construieşte fundamentul ştiinţific pe baza căruia se vor adopta deciziile manageriale care să
ducă la soluţionarea problemei reale.

7. Rezumatul Unităţii de învăţare

În această unitate de învăţare aţi făcut cunoştinţă cu ceea ce înseamnă STATISTICA, adică
ştiinţa colectării datelor, a prezentării lor într-o formă sistematică, a analizării acestora şi a
interpretării informaţiilor numerice obţinute.
Obiectul de studiu al statisticii îl reprezintă fenomenele de masă – adică fenomenele şi procesele care
prezintă următoarele particularităţi:
- se întâlnesc la un număr mare de unităţi;
- variază ca nivel de la o unitate la alta;
- sunt definite, circumscrise în timp, în spaţiu şi ca structură organizatorică (adică sunt entităţi
distincte circumscrise în timp, spaţiu şi organizatoric);
Principalele concepte de bază cu care opereză statistica sunt:
- populaţia statistică - totalitatea elementelor de acelaşi fel, cu trăsături esenţiale comune,
supuse studiului statistic;
- unitatea statistică – elementul unei populaţii statistice;
- variabila statistică – o trăsătură, o însuşire a unităţii statistice;
- varianta unei variabile – nivelul pe care-l înregistrează variabila la o unitate statistică;
- frecvenţa unei variante – numărul de apariţii al unei variante;
- date statistice – ansamblul valorilor colectate în urma unei cercetări statistice.
Pentru măsurarea datelor statistice se folosesc patru scale de măsurare:

12
- scala nominală – destinată variabilelor calitative
- scala ordinală - destinată variabilelor calitative
- scala de inverval - destinată variabilelor numerice
- scala de raport - destinată variabilelor numerice
Efectuarea unui proces de investigaţie statistică presupune parcurgerea a trei etape distincte,
succesive:
- etapa de culege şi înregistrare a datelor (observarea statistică);
- etapa de prelucrare a datelor;
- etapa de analiză şi interpretare a rezultatelor.

13
CURS STATISTICĂ - Lecţia nr. 3

CULEGEREA DATELOR. OBSERVAREA STATISTICĂ

Cuprins:

1. Obiectivele Lecţiei.
2. Surse de date statistice.
3. Observarea statistică: conţinut, necesitate, obiective.
4. Planul observării statistice.
5. Metode de observare statistică
5.1. Recensământul statistic.
5.2. Sondajul statistic.
5.3. Ancheta statistică.
5.4. Alte metode de observare statistică.
6. Erori de observare.
7. Rezumatul Lecţiei.

1. Obiectivele lecţiei

În urma parcurgerii acestei unităţi de învăţare studentul va înţelege:


- cum se pot culege date statistice corecte, cu conţinut veridic;
- cum se pot elimina eventualele erori în colectarea datelor;
- care sunt principalele surse de obţinere a datelor;
- cum ne putem asigura că procesul de culegere a datelor se desfăşoară corect
şi obiectiv
- care sunt principalele metode de culegere a datelor.

2. Surse de date statistice

În vederea cunoaşterii şi conducerii fenomenelor şi proceselor economico-sociale cu


ajutorul metodelor şi tehnicilor statistice, este necesară întâi caracterizarea, descrierea cât mai

1
fidelă a situaţiei existente. Acest lucru se realizează prin strângerea, colectarea datelor care să
exprime starea de fapt, adică prin observarea statistică.
Datele necesare se pot obţine din diferite surse:
a) din investigaţii statistice special organizate, atunci când datele nu există iniţial sub forma
necesară – acestea sunt datele primare (de exemplu prin recensământ statistic sau sondaj
statistic);
b) din sistemul informaţional existent (de exemplu: din evidenţele curente ale agenţilor
economici, bănci şi baze de date pe suport de hârtie sau electronic al unor instituţii ale
administraţiei centrale şi locale etc.) şi se numesc date secundare.

3. Observarea statistică: conţinut, necesitate, obiective.

Datele statistice sunt necesare pentru a face posibilă desfăşurarea procesului cercetării
statistice, pentru a măsura performanţele proceselor social-economice, pentru a formula căi
alternative de acţiune într-un proces de luare a deciziilor etc. Datele pot fi privite, astfel, ca
informaţii necesare pentru a conferi rigoare ştiinţifică deciziilor, în situaţii specifice. Pentru ca
analiza statistică să fie utilă şi folositoare actului decizional, datele de intrare trebuie să fie
corecte şi adecvate scopului. De aceea, identificarea datelor necesare şi modul de colectare a
acestora sunt extrem de importante. Dacă datele sunt afectate de erori, dacă sunt ambigue şi
denaturate, chiar şi cele mai rafinate şi sofisticate metode de prelucrare sunt ineficiente pentru
a compensa deficienţele; rezultatele, evident, nu vor fi corecte şi utile.

Orice proces de investigaţie statistică începe cu observarea statistică, modul în care


este ea organizată şi realizată influenţează, în continuare celelalte etape ale procesului de
cercetare statistică, deoarece obţinerea unor date autentice, reale, exacte determină calitatea
etapelor de prelucrare, analiză şi intepretare a rezultatelor.

Observarea statistică este prima etapă a investigaţiei statistice, care constă în culegerea
şi înregistrarea în mod sistematic şi unitar a datelor statistice, de la unităţile
colectivităţii, referitoare la toate caracteristicile incluse în programul cercetării.

Observarea trebuie fie corespunzătoare sub aspect cantitativ şi calitativ.


- îndeplinirea condiţiei de cantitate (de volum) înseamnă obţinerea în timpul prestabilit
a întregului volum de date necesar pentru atingerea tuturor obiectivelor investigaţiei
statistice;

2
- îndeplinirea condiţiei de calitate presupune asigurarea autenticităţii, a caracterului real
al datelor, astfel încât rezultatele obţinute prin prelucrarea acestor date să fie cât mai
exacte şi să ducă la adoptarea unor decizii cât mai pertinente.
În cazul în care pentru obţinerea datelor statistice este necesară organizarea unei
investigaţii statistice, atunci ea trebuie făcută în conformitate cu un anumit plan, pentru a ne
asigura că obţinem, cu un minim de resurse materiale şi financiare, rezultate cât mai exacte şi
mai pertinente.

4. Planul observării statistice

Observarea statistică nu se desfăşoară la întâmplare, deoarece culegerea datelor


implică anumite costuri, dacă vrem să obţinem date autentice. Ea se desfăşoară pe baza unui
plan (program), elaborat în funcţie de scopul cercetării statistice.
Planul sau Programul observării (în accepţiune mai largă) cuprinde următoarele
elemente:
- scopul observării;
- colectivitatea observată;
- unitatea de observare;
- timpul şi locul observării;
- lista caracteristicilor urmărite;
- formularele de înregistrare a datelor;
- măsuri organizatorice.

Programul observării, într-o accepţiune restrânsă, cuprinde doar o listă a tuturor


caracteristicilor ce vor fi înregistrate, a indicatorilor necesari etc.
A. Scopul observării este subordonat scopului general al cercetării statistice şi
influenţează în continuare toate celelalte elemente din programul observării. Stabilirea
obiectivelor ce trebuie atinse prin investigarea organizată este punctul de pornire al elaborării
programului.
B. Delimitarea populaţiei studiate

Presupune identificarea, stabilirea tuturor unităţilor statistice ce vor fi incluse în


cercetare şi de la care se vor înregistra valorile caracteristicilor.

3
Acest lucru se realizează cu ajutorul nomenclatoarelor, al clasificărilor existente, sau
se apelează la studiile anterioare efectuate în domeniul de interes (dacă există). Gradul de
întindere a colectivităţii de observare este în funcţie de metoda de observare ce va fi utilizată:
- dacă este vorba de o metodă de observare totală, atunci obiectul observării va fi
format din toate unităţile colectivităţii,
- dacă va fi aplicată o metodă de observare parţială, vor fi înregistrate date doar de la
o parte a unităţilor colectivităţii şi doar ele vor forma obiectul observării.
În ambele cazuri însă, pentru identificarea corectă şi completă a colectivităţii ce va fi
supusă observării este necesară determinarea coordonatelor de spaţiu, timp şi de organizare
ale colectivităţii de interes.
C. Unitatea de observare

Este unitatea la care se referă caracteristicile înregistrate, simplă (dacă este vorba de un
salariat, un obiect etc.) sau complexă (dacă se are în vedere o echipă sau o familie).

Uneori, unitatea de observare nu este totdată şi unitate raportoare. De exemplu, în


cazul unei cercetări efectuate în cadrul unui agent economic, unitatea raportoare va fi agentul
economic, iar unitatea de observare poate fi angajatul,un departament, o echipă sau un produs.

D. Timpul şi locul observării

Stabilirea timpului observării impune precizarea a două aspecte:


- timpul la care se referă datele înregistrate (care poate fi un moment, numit
„moment critic”, sau o perioadă, un interval de timp; în primul caz fenomenul este
surprins static, iar în cel de-al doilea caz - dinamic).
- timpul când se efectuează înregistrarea datelor – care este, de regulă, un interval
de timp, bine precizat; este de dorit ca acesta să fie cât mai scurt, astfel încât înregistrarea
datelor să se realizeze cu o cât mai mare operativitate.

Locul observării este, de regulă, locul unde se produce, unde are loc fenomenul
urmărit şi studiat.
E. Lista caracteristicilor urmărite,

Formează, aşa cum am văzut, programul (planul) observării în sens restrâns; presupune
stabilirea tuturor variabilelor care trebuie înregistrate, astfel încât să se asigure
studierea fenomenului de interes sub toate aspectele prevăzute în scopul cercetării,
evitând, în acelaşi timp, redundanţa informaţiilor.
4
Caracteristicile pot apare sub diferite forme:
- sub forma unor indicatori – în raportările statistice pe care le completează agenţii
economici;
- sub forma răspunsurilor la întrebările dintr-un chestionar – în cazul investigaţiilor
statistice special organizate.
Pentru a obţine toate datele necesare cercetării şi a îndeplini cu succes scopul
observării, proiectarea chestionarelor trebuie făcută astfel încât să se asigure o structură logică
şi o formulare bine gândită a întrebărilor. Prin structura sa, chestionarul trebuie să realizeze o
trecere firească, o succesiune logică de la o întrebare la alta, de la un subiect de discuţie la
altul, deoarece dacă s-ar trece brusc şi în mod contrar logicii fireşti de la un subiect la altul,
intervievatul (respondentul) ar fi dezorientat şi ar fi influenţat în acordarea răspunsului.
Deseori, se foloseşte ca tehnică generală trecerea de la întrebările generale către cele specifice
sau referitoare la un anumit subiect.
Într-un chestionar putem întâlni întrebări deschise (în care respondentul poate da orice
răspuns, de tipul: “Ce profesie aveţi?”) sau întrebări închise (în care respondentului îi sunt
indicate o serie de posibile răspunsuri, din care poate alege unul sau mai multe, de genul:
“Câte persoane are familia dumneavoastră?” cu variantele: 1, 2, 3, 4, 5 sau mai multe).
Întrebările mai pot fi, de asemenea, factuale (de tipul: “Ce număr purtaţi la pantofi?”)
sau de opinie (de tipul: “ce părere aveţi de intenţia Guvernului de a majora TVA-ul?”, cu
variantele de răspuns: “Nu sunt de acord”, “Sunt de acord”, “Nu ştiu”).
F. Formularele de înregistrare

Reprezintă suportul material pe care vor fi înregistrate datele culese.

Formularele pot fi de două tipuri: formulare tip fişă sau formulare tip listă.
În formularul tip fişă:
- se înregistrează datele referitoare la o singură unitate statistică (de aceea fişa
este un formular individual);
- se utilizează atunci când unităţile statistice de la care se înregistrează sunt mai
răspândite, mai dispersate în profil teritorial,
- se utilizează atunci când programul observării este mai bogat (cuprinde mai
multe caracteristici ce vor fi înregistrate de la fiecare unitate statistică);
În formularul tip listă :

5
- se vor înregistra date pentru mai multe unităţi de observare (formular
colectiv);
- se foloseşte cu precădere atunci când unităţile statistice sunt mai concentrate
teritorial (când se regăsesc multe unităţi statistice într-o arie teritorială restrânsă)
- se utilizează atunci când programul observării este mai sumar (cuprinde mai
puţine caracteristici ce trebuie înregistrate de la fiecare unitate statistică).
Pentru asigurarea clarităţii întrebărilor dintr-un formular, acesta poate fi însoţit de
instrucţiuni (tipărite direct pe formular sau într-o anexă a acestuia), astfel încât respondenţii să
completeze formularul cu răspunsuri cât mai reale şi mai fidele realităţii. Pentru ca datele
oferite ca răspuns să fie prelucrate în mod automat, se utilizează formulare tipizate, iar
răspunsurile vor fi codificate.

G. Măsuri organizatorice.

Se referă la totalitatea măsurilor ce trebuie luate pentru a se asigura desfăşurarea în


bune condiţii, conform programului stabilit, a observării statistice.

Cu ajutorul lor, se pot preîntâmpina şi rezolva diversele obstacole, dificultăţi ce s-ar


putea ivi în realizarea observării. Aceste măsuri pot cuprinde:
o întocmirea unor liste ale unităţilor ce vor fi supuse observării,
o folosirea hărţilor şi planurilor cu localizarea unităţilor statistice,
o sectorizarea teritoriului,
o recrutarea şi instruirea personalului participant la colectarea datelor,
o proiectarea, elaborarea şi tipărirea formularelor de înregistrare,
o popularizarea cercetării statistice (prin mass-media, presă, afişe etc.).

5. Metode de observare statistică

Există o gamă variată de metode de observare, utilizate împreună sau separat, pentru a
obţine o informaţie statistică cât mai reală, completă şi neredundantă. Metodele de observare
se clasifică după următoarele criterii:
I. după frecvenţa înregistrării în timp a datelor despre fenomenele şi procesele
economico-sociale, putem avea:

6
a. observări curente, atunci când fenomenele şi procesele sunt urmăriate în mod
continuu, iar datele ce le caracterizează sunt înregistrate permanent (de
exemplu: fenomenele demografice: natalitatea, mortalitatea, nupţialitatea,
divorţialitatea care se regăsesc în „statistica stării civile”; rezultatele obţinute
de agenţii economici etc.);
b. observări periodice, atunci când datele referitoare la fenomene sau procese
economico-sociale se înregistrează cu o frecvenţă aproximativ regulată, la
intervale egale de timp (de exemplu: recensăminte ale populaţiei, recensăminte
agricole etc.);
c. observări ocazionale, atunci când datele referitoare la fenomenele sau
procesele economico-sociale se înregistrează discontinuu, ocazional, cu un
prilej sau scop special, în mod unic, motiv pentru care se mai numesc „special
organizate” (de exemplu: o anchetă de opinie privind atitudinea cetăţenilor
referitoare la un nou act normativ recent intrat în vigoare; o anchetă de opinie
privind preferinţele participanţilor la o expoziţie de modă etc.).
II. după gradul de cuprindere a populaţiei de observare delimitate, întâlnim:
a. observări totale, atunci când vor fi supuse observării toate unităţile populaţiei
statistice (de exemplu: recensământul populaţiei şi locuinţelor);
b. observări parţiale – atunci când vor fi supuse observării doar o parte a
unităţilor populaţiei statistice (de exemplu: anchete, sondaje statistice);
III. după modul de obţinere a datelor, avem:
a. observări primare (directe), în care datele se obţin prin culegerea,
înregistrarea lor direct de la unităţile statistice (de exemplu: recensământul
populaţiei, o anchetă de opinie);
b. observări secundare (indirecte) – în care se obţin datele secundare, care se
preiau din documentele existente (de exemplu: datele preluate din evidenţele
contabile).
5.1. Recensământul statistic

Recensământul statistic, este o metodă de observare totală, periodică, prin care un


fenomen este surprins în mod static, înregistrându-se valorile caracteristicilor din
programul observării referitoare la un moment de referinţă numit „moment critic”, de la
toate unităţile populaţiei statistice.

7
Recensământul este întâlnit din timpuri străvechi, încă din antichitate, când romanii,
egiptenii efectuau recensăminte ale populaţiei; din sfera populaţiei, recensământul s-a extins
şi în sfera locuinţelor, animalelor, unităţilor din industrie, agricultură, comerţ („recensământ
economic”). În domeniul populaţiei recensământul are o periodicitate de 10 ani, iar în
domeniul economic de 5 ani. Recensământul este un tip de înregistrare foarte laborios,
necesitând un volum mare de cheltuieli, personal numeros, măsuri organizatorice detaliate,
precum şi o prelucrare complexă a informaţiilor înregistrate.
Recensământul populaţiei este una din principalele surse de date în statistica
demografică şi asigură informaţii privind numărul şi structura populaţiei de pe teritoriul unei
ţări la un moment dat. El este iniţiat de către stat, fiind reglementat printr-un act normativ,
însă responsabilitatea pentru organizarea şi punerea sa în practică revine Institutului Naţional
de Statistică, care asigură şi prelucrarea datelor înregistrate. Recensământul populaţiei se
efectuează în baza respectării principiilor universalităţii, simultaneităţii şi comparabilităţii.
Respectarea principiului universalităţii presupune înregistrarea, cu ocazia
Recensământului populaţiei, în mod obligatoriu, a tuturor persoanelor aflate în jurisdicţia
statului respectiv. Astfel, la Recensământul populaţiei şi locuinţelor din martie 2002 au fost
înregistraţi toţi cetăţenii români cu domiciliul în ţară, indiferent dacă la momentul de referinţă
se aflau pe teritoriul ţării sau erau plecaţi temporar în străinătate, precum şi persoanele de altă
cetăţenie sau fără cetăţenie, care aveau domiciliul sau reşedinţa temporară în România.
Conform principiului simultaneităţii, informaţiile culese reflectă situaţia existentă la
un acelaşi moment de timp pentru toate persoanele recenzate (momentul critic), deşi
înregistrarea datelor durează un anumit interval de timp. Momentul critic este ales, de obicei,
iarna, atunci când populaţia observată se află într-un moment de stabilitate, uniformitate, nu
este supusă unor fluctuaţii, unor mişcări accidentale (în acest sens, se evită vacanţele şcolare
sau concediile de odihnă).
Pe baza Recensământului populaţiei obţinem indicatori de volum şi structură statici,
aferenţi momentului critic. O cercetare în domeniul populaţiei are însă, ca obiectiv şi
surprinderea, determinarea modificărilor de volum şi a mutaţiilor de structură de la un
Recensământ la altul, impunându-se a fi respectat principiul comparabilităţii datelor atât în
plan temporal, cât şi în plan teritorial (armonizarea sferei de cuprindere a indicatorilor, a
definiţiilor, nomenclatoarelor, clasificărilor utilizate la mai multe recensăminte succesive,
precum şi între ţări, ţinându-se seama şi de recomandările organismelor internaţionale de
specialitate).

8
Perioada de pregătire a recensământului este de mare amploare şi răspundere, fiind
necesară o investigare a modalităţilor de pregătire a recensămintelor din perioadele trecute,
atât în România, cât şi în alte ţări, o mediatizare puternică a acţiunii, uneori chiar şi
organizarea unui recensământ de probă.

5.2. Sondajul statistic

Sondajul statistic (selecţia statistică) este o metodă de observare parţială, special


organizată, una din cele mai des utilizate metode de observare statistice moderne,
deoarece realizează o economie de resurse materiale, financiare şi umane, înlocuind o
observare totală, de mare extindere, mai dificil de organizat şi efectuat, cu cheltuieli
considerabile.

În cazul cercetării statistice prin sondaj, se selectează un eşantion, format dintr-o parte
a unităţilor populaţiei totale. Eşantionul poate fi selectat aleator sau non-aleator.
Selectarea aleatoare a unităţilor în eşantion presupune că fiecare unitate statistică are
o şansă determinabilă (calculabilă), egală şi nenulă de a fi inclusă în eşantion, că nu există
deci nici o unitate care să nu poată fi supusă procedeului de selecţie şi că nici o unitate nu
poate fi aleasă preferenţial. Eşantioanele alese aleator sunt reprezentative pentru întreaga
populaţie, adică întrunesc aceleaşi trăsături esenţiale ca şi populaţia totală.
Selectarea non-aleatoare (dirijată) se referă la orice metodă de alegere, pe baza unui
criteriu preferenţial, a unităţilor statistice în eşantion. O dată format eşantionul, se
înregistrează nivelurile tuturor caracteristicilor incluse în programul observării, de la toate
unităţile acestuia, se prelucrează şi se obţin indicatori statistici la nivelul eşantionului (etapa
descriptivă), pentru ca apoi să se extindă, cu o anumită probabilitate, rezultatele de la nivelul
eşantionului pentru întreaga colectivitate (etapa inferenţială). Diferenţa între nivelul estimat la
indicatorului în urma sondajului şi nivelul real (eroarea de sondaj) va fi cu atât mai mică cu
cât eşantionul este mai reprezentativ, iar reprezentativitatea, la rândul ei, va fi asigurată dacă
se respectă principiile selecţiei aleatoare în formarea eşantionului.

5.3. Ancheta statistică

Ancheta statistică este o metodă de observare parţială, cu caracter mai mult ocazional.

Este asemănătoare sondajului statistic, însă diferă de acesta prin:

9
- neobligativitatea îndeplinirii condiţiei de reprezentativitate a eşantionului.
- admiterea unei rate mai mari a non-răspunsurilor la formularele înmânate direct,
telefonic, prin e-mail sau prin poştă, întrucât completarea chestionarelor este benevolă.
Ancheta statistică va conduce, din aceste motive, la erori mai mari decât sondajul
statistic. În cazul acestuia din urmă, neobţinerea datelor solicitate de la unităţile incluse în
eşantion (persoane, de regulă), din diferite motive, precum: nu cunosc limba oficială, şi-au
schimbat domiciliul, nu sunt acasă atunci când sunt căutaţi, refuză să coopereze etc. – pot
duce la afectarea reprezentativităţii eşantionului.
O categorie deosebit de întâlnită a anchetelor statistice o formează anchetele de
opinie, ce au drept scop studierea preferinţelor, atitudinii oamenilor faţă de diferite probleme
(anchete în sfera sociologiei, marketingului, politicii, culturii etc.).

5.4. Alte metode de observare statistică.

Panelul

Panelul este o metodă de observare parţială, realizată pe baza unui eşantion fix, stabil,
format din aceleaşi unităţi care răspund la aceleaşi întrebări, la mai multe momente
succesive, diferite de timp (tehnica longitudinală). În acest fel cercetarea se concentrează
pe identificarea, pe determinarea modificărilor survenite de-a lungul timpului asupra
fenomenului studiat.

Această metodă prezintă însă, şi unele dezavantaje, precum:


- respondenţii se implică, treptat, în cercetare şi, ştiindu-se vizaţi, sub observaţie, şi-ar
putea schimba comportamentul şi răspunsurile lor ar putea fi influenţate;
- odată cu trecerea timpului, o parte dintre respondenţi părăsesc panelul (mortalitate),
iar cei rămaşi sunt mai puţin reprezentativi în populaţia totală.

Observarea părţii principale (metoda masivului principal de date)

Este o metodă de observare parţială, special organizată (cu caracter ocazional), ce


presupune formarea unui eşantion nereprezentativ, prin selectarea, dintr-o populaţie
împărţită pe grupe de importanţă diferită, a unităţilor mai semnificative (din grupele cu
pondere mai însemnată).

Înregistrând şi prelucrând datele de la unităţile incluse în masivul principal de date se


pot estima suficient de corect valorile unor indicatori pentru întreaga colectivitate statistică.
Monografia

Este o metodă de observare parţială, special organizată, care presupune caracterizarea


detaliată, sub multiple aspecte, ale unei singure unităţi statistice complexe (se elaborează
10
monografia unui unei întreprinderi, a unui judeţ, a unei localităţi etc.).
Monografia include, pe lângă culegerea şi înregistrarea datelor şi aspecte legate de
prelucrarea lor şi de analiză şi intepretare a rezultatelor, toate cele trei etape ale investigaţiei
statistice putând fi realizate de o echipă complexă de specialişti.

6. Erori de observare

Deoarece statistica operează cu seturi mari de date, este posibilă apariţia, după fiecare
etapă a procesului de investigaţie statistică, a unor erori. Putem întâlni, aşadar, erori de
observare (de înregistrare), erori de prelucrare, erori de analiză şi de interpretare.

În accepţiune largă, eroarea statistică reprezintă diferenţa dintre nivelul real al unui
indicator şi nivelul
Eroarea obţinut
statistică în urma
se poate procesului
determina de investigaţie
în expresie absolutăstatistică.
sau relativă.
a) Eroarea în expresie absolută se determină în sensul definit mai sus, conform
relaţiei:
ex  x  x0 ,

unde e x este mărimea absolută a erorii statistice;


x este nivelul indicatorului determinat în urma investigaţiei statistice;
x0 este nivelul real al indicatorului.
De cele mai multe ori, însă, nivelul real al indicatorului nu este cunoscut, deci nu se
poate calcula eroarea absolută. Ea se poate interpreta, însă, cu ajutorul teoriei probabilităţilor.
Eroarea în expresie absolută are unitate de măsură concretă, aceeaşi cu cea a
indicatorului/caracteristicii pentru care se calculează, de aceea nu este permisă compararea
mai multor erori absolute, decât dacă ele sunt determinate pentru un acelaşi
indicator/caracteristică. Pentru a elimina dependenţa de unitatea de măsură, se calculează
eroarea în expresie relativă.
b) Eroarea în expresie relativă se determină ca raport între eroarea absolută şi nivelul
real al indicatorului şi se măsoară în procente:
e x x  x0
e x%    100
x0 x0
Principalele tipuri de erori statistice sunt:

11
a) Erori de observare (sau de înregistrare).
Apar în etapa de observare statistică şi sunt definite ca diferenţele care apar între
valorile reale ale caracteristicilor urmărite (studiate) şi cele înregistrate (culese). Erorile de
observare sunt de două tipuri:
a1) erori întâmplătoare – sunt, în general, erorile produse din neatenţie, sau din alte
cauze accidentale, independent de voinţa anchetatorului sau a respondentului. Ele determină,
de regulă, abateri în ambele sensuri faţă de valorile reale ale fenomenului şi se pot compensa
reciproc.
a2) erori sistematice - au caracter premeditat, se realizează, de regulă, cu bună ştiinţă,
uneori chiar cu voinţa anchetatorului sau a respondentului. Provoacă devieri faţă de valorile
reale într-un singur sens.

b) Erori de reprezentativitate.
Se întâlnesc în cazul utilizării sondajului statistic, atunci când selectarea unităţilor în
eşantion nu se face în mod aleator, ci după un criteriu subiectiv, preferenţial şi, la rândul lor,
se împart în sistematice şi aleatoare. Ele nu pot fi total eliminate, ci doar diminuate şi
controlate.
c) Erori de prelucrare
Apar în etapa de prelucrare a datelor statistice, datorită utilizării greşite a unor
metodolgii -erori metodologice, (de exemplu: reprezentarea datelor statistice cu ajutorul unor
tipuri neadecvate de grafice, gruparea sau clasificarea greşită, utilizarea unor formule de
calcul nepotrivite, care vor duce la obţinerea unor rezultate eronate etc.), utilizarea greşită a
unor modele statistice (erori de modelare – apar în procesul de elaborare, de alegerea greşită a
modelelor).
Pentru obţinerea unor rezultate corecte ale cercetării, este bine ca după fiecare etapă a
investigaţiei statistice, datele statistice să fie supuse unor operaţii de control, în vederea
identificării şi eliminării (sau măcar a minimizării) unor eventuale erori. În etapa de
observare, se poate aplica asupra datelor culese un control cantitativ şi calitativ.
Controlul cantitativ al datelor presupune verificarea completitudinii datelor culese şi
înregistrate, prin:
- verificarea primirii tuturor chestionarelor la centrul de prelucrare;
- verificarea completării tuturor rubricilor din chestionare.

12
Controlul calitativ al datelor se referă la asigurarea unui nivel calitativ corespunzător
al datelor culese. Poate îmbrăca două forme:
- controlul aritmetic, care presupune aplicarea prin sondaj, a unor relaţii de calcul între
diferiţii indicatori înscrişi în chestionare, de tipul egalităţilor de balanţă sau a altor chei
de verificare;
- controlul logic presupune verificarea corectitudinii datelor înregistrate pe baza unor
legături, identităţi logice între mai multe valori ale aceleiaşi caracteristici sau între
valorile unor caracteristici diferite.

7. Rezumatul Lecţiei

În această unitate de învăţare aţi demarat procesul de investigaţie statistică, cu prima etapă a
acestuia: etapa de observare. Această etapă presupune culegerea şi înregistrarea în mod sistematic şi
unitar a datelor statistice.
Observarea statistică nu se desfăşoară la întâmplare, întrucât de modul în care ea este
organizată depinde în continuare calitatea celorlalte etape ale procesului de cercetare statistică.
Observarea se desfăşoară după un plan (program), ce cuprinde următoarele elemente:
- scopul observării;
- colectivitatea observată;
- unitatea de observare;
- timpul şi locul observării;
- lista caracteristicilor urmărite;
- formularele de înregistrare a datelor;
- măsuri organizatorice.
Există o gamă variată de metode de observare, utilizate împreună sau separat, pentru a
obţine o informaţie statistică cât mai reală, completă şi neredundantă. Metodele de observare pot fi:
- observări curente/periodice/ocazionale;
- observări totale/parţiale;
- observări primare/secundare.
Principalele metode de observare sunt:
- recensământul (ca metodă totală de observare)
- sondajul şi ancheta statistică (metode parţiale)

13
CURS STATISTICĂ - Lecţia nr. 4

SISTEMATIZAREA, PREZENTAREA ŞI REPREZENTAREA


DATELOR STATISTICE

Cuprins:

1. Obiectivele Lecţiei.
2. Sistematizarea datelor statistice (gruparea/clasificarea).
2.1. Clasificarea datelor statistice.
2.2. Gruparea datelor statistice
3. Modalităţi de prezentare şi reprezentare a datelor statistice.
3.1. Serii statistice.
3.2. Tabele statistice.
3.3. Grafice statistice.
4. Rezumatul Lecţiei.

1. Obiectivele lecţiei

În urma parcurgerii acestei unităţi de învăţare studentul va înţelege:


- cum se poate face trecerea de la etapa de culegere a datelor la cea de
prelucrare propriuzisă a lor;
- cum se pot transpune seturile mari de date colectate dintr-o formă aleatoare,
neregulată, într-o formă ordonată, organizată;
- cum se efectuează sistematizarea seturilor largi de date statistice, după o
variabilă calitativă sau după o variabilă cantitativă;
- care sunt principalele tipuri de serii statistice;
- cum să alegem tipul cel mai potrivit de grafic necesar pentru reprezentarea
datelor statistice.

2. Sistematizarea datelor statistice (gruparea/clasificarea).

1
Am văzut că statistica operează cu volume mari de date. Dacă aceste date sunt
prezentate într-o formă aleatoare neregulată, este dificil, investigând vizual setul de date, să-l
caracterizăm prin trăsăturile sale esenţiale, prin valorile extreme, tendinţa centrală sau gradul
de dispersare. De aceea, putem întâi supune setul de date unor operaţii de prezentare
sistematică, de organizare, de ordonare a acestor date după unul sau mai multe criterii, într-
un cuvânt de sistematizare.

Sistematizarea datelor statistice cuprinde operaţiile de prezentare sistematică, de


organizare, de ordonare a acestor date după unul sau mai multe criterii.

Această operaţie face trecerea de la observarea statistică (în urma căreia s-au obţinut
datele necesare realizării obiectivelor investigaţiei statistice, verificate sub aspectul volumului
şi calităţii) şi prelucrarea propriuzisă.
Sistematizarea este parte a prelucrării primare a datelor statistice.
Sistematizarea datelor se realizează prin gruparea şi clasificarea datelor statistice.

Gruparea/clasificarea datelor statistice presupune împărţirea unităţilor populaţiei


statistice observate în grupe sau clase distincte omogene, după unul sau mai multe
criterii.

Atunci când criteriul (caracteristica) după care se realizează această operaţie este unul
numeric, cantitativ, ea se numeşte grupare, iar când operaţia se realizează după un criteriu
(caracteristic) calitativ, nenumeric, ea se numeşte clasificare.
La realizarea unei grupări/clasificări, trebuie, pe cât posibil, să îndeplinim următoarele
condiţii:
a) omogenitate (în sensul că unităţile statistice care au aceeaşi valoare sau valori
apropiate, asemănătoare, ale caracteristicii după care se efectuează sistematizarea vor
fi incluse în aceeaşi clasă; în felul acesta, se doreşte ca variaţia valorilor caracteristicii
incluse în aceeaşi grupă/clasă să fie cât mai mică);
b) unicitate (în sensul că o unitate statistică trebuie inclusă într-o singură clasă sau grupă,
ea nu se poate regăsi simultan în două sau mai multe clase/grupe);
c) completitudine (în sensul că toate unităţile statistice să fie incluse în grupe/clase, să nu
fie exclusă vreo unitate din operaţia de sistematizare).
Sunt cazuri în care nu este posibilă îndeplinirea simultană a tuturor acestor condiţii (de
exemplu: dacă sunt unităţi la care s-au înregistrat valori extreme, aberante, ale caracteristicii
după care se face sistematizarea, este de dorit, uneori, să se evidenţieze separat aceste cazuri,

2
să se scoată în afara grupării aceste unităţi şi să se sistematizeze restul unităţilor, la care s-au
înregistrat valori mai apropiate ale variabilei).

2.1. Clasificarea datelor statistice.

Sistematizarea datelor efectuată după o variabilă ne-numerică se numeşte clasificare. Ea


presupune împărţirea unităţilor în clasele/categoriile variabilei nenumerice considerate.

Se construieşte un număr de clase egal cu numărul categoriilor existente, iar prin


numărarea unităţilor statistice incluse în fiecare clasă obţinem frecvenţa acelei clase (volumul
ei).
Unele clasificări au caracter oficial, altele au caracter neoficial.
Dacă datele sunt sistematizate după o variabilă categorială (nominală), ordinea
claselor este lăsată la îndemâna cercetătorului.
Dacă datele se referă la variabile ordinale, clasele vor respecta criteriul de ordine.

2.2. Gruparea datelor statistice.

Gruparea reprezintă sistematizarea datelor după o variabilă (caracteristică)


numerică.

În funcţie de tipul variabilei de grupare (discretă sau continuă) şi de plaja valorilor pe


care le poate caracteristica, gruparea se poate face:

- pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja
valorilor pe care le poate lua caracteristica nu este foarte mare);

- pe intervale de variaţie (atunci când sistematizăm datele după o variabilă


continuă, care are o plajă largă de valori.

A). Gruparea datelor statistice pe variante.

În acest caz, se va forma un număr de grupe egal cu numărul de variante. Prin


numărarea unităţilor incluse în fiecare grupă se obţine frecvenţa grupei (numită şi frecvenţă
absolută).

3
B). Gruparea pe intervale de variaţie.
Se poate efectua pe intervale de mărime egală sau diferită. În continuare vom trata
numai cazul grupării datelor statistice pe intervale egale de variaţie.
Pentru realizarea grupării pe intervale egale de variaţie se recomandă parcurgerea
următorilor paşi:
a) se determină amplitudinea variaţiei caracteristicii, ca diferenţă între valoarea
maximă şi valoarea minimă a caracteristicii.
A  xmax  xmin
b) se stabileşte numărul de grupe. În acest caz pot exista două situaţii:
- numărul de grupe (r) este prestabilit, pe baza experienţei căpătate din studii anterioare
asupra domeniului de interes.
- numărul de grupe (r) nu este prestabilit; în acest caz, dacă unităţile se repartizează
aproximati normal după caracteristica studiată, se poate utiliza pentru determinarea
numărul de grupe relaţia lui Sturges:
r  1  3,322  lg n
unde n este numărul total de unităţi ale colectivităţii.
Este recomandat a se folosi un număr potrivit de grupe (de regulă între 4 şi 10).
Utilizarea unui număr prea mare de grupe ar duce la fărâmiţarea excesivă a colectivităţii
(putând apare, în acest caz şi grupe cu frecvenţe nule, iar gruparea ar trebui refăcută);
utilizarea, dimpotrivă, a unui număr prea mic de grupe ar putea să nu pună în evidenţă
principalele tipuri calitative ale populaţiei după variabila urmărită).
c) se determină mărimea intervalului de grupare (h), ca raport între amplitudinea
caracteristicii şi numărul de grupe:
A
h
r
Pentru uşurarea calculelor, se recomandă a se folosi mărimi rotunjite de interval, de
aceea, dacă valoarea reieşită din calcul este fracţionară, cu mai multe zecimale, ea se poate
rotunji prin adaos la o valoare imediat superioară, aleasă în mod convenabil.
De exemplu: dacă h = 4,4225, se poate rotunji valoarea la h = 4,5 sau chiar la h = 5.
d) se formează intervalele de grupare, prin precizarea limitelor exacte ale acestora.
xmin  xmin+h
xmin+h  xmin+2h
.....................................................
xmin + (r — 1).h  xmin + r h

4
Limitele intervalelor vor avea acelaşi grad de precizie ca şi datele grupate (acelaşi
număr de zecimale), primul interval putând începe chiar de la valoarea minimă a
caracteristicii, sau de la o valoare uşor inferioară acesteia, aleasă în mod convenabil. Este bine
să nu existe suprapuneri de limite, astfel încât la efectuarea grupării să poată fi respectată
condiţia de unicitate.
- Dacă limita superioară a unui interval coincide cu limita inferioară a intervalului
următor, intervalele se numesc continue;
- Dacă între limita superioară a unui interval şi limita inferioară a intervalului următor
există o diferenţă de o unitate întreagă sau zecimală, intervalele se numesc
discontinue sau discrete.

3. Modalităţi de prezentare şi reprezentare a datelor statistice.

Rezultatul sistematizării datelor prin grupare/clasificare se prezintă sub formă de:


- serii statistice;
- tabele statistice;
- grafice statistice.
3.1. Serii statistice.

Seria statistică reprezintă un mod organizat de prezentare a datelor, sub forma a două
şiruri: primul se referă la criteriul de sistematizare iar al doilea cuprinde datele numerice
sau frecvenţele de apariţie şi depinde de ordinea de apariţie din primul şir.

Seriile statistice se pot clasifica după următoarele criterii:


a) în funcţie de conţinutul variabilei după care se face sistematizarea, avem:
i. serii cronologice (se referă la o variabilă de timp);
ii. serii teritoriale (se referă la o variabilă de spaţiu);
iii. serii de distribuţie de frecvenţe (sau repartiţii de frecvenţe, care se referă la o
variabilă atributivă).

b) după natura variabilei, seriile de distribuţie pot fi.


i. distribuţii heterograde (după o variabilă cantitativă);
ii. distribuţii homograde (după o variabilă calitativă);

5
c) după numărul variantelor, distribuţiile pot fi:
i. distribuţii pe variante sau valori;
ii. distribuţii pe grupe de variante (în cazul distribuţiilor homograde) sau pe
intervale de valori (în cazul distribuţiilor heterograde).

d) în funcţie de numărul variabilelor după care se face sistematizarea, întâlnim:


i. distribuţii de frecvenţe unidimensionale (când sistematizarea datelor s-a
efectuat după o singură variabilă);
ii. distribuţii de frecvenţe bidimensionale (când sistematizarea datelor s-a efectuat
în funcţie de două variabile);
iii. distribuţii multidimensionale (când sistematizarea datelor s-a efectuat în
funcţie de trei sau mai multe variabile);

Serii de distribuţie de frecvenţe (repartiţii de frecvenţe)


A. Serii de distribuţie de frecvenţe unidimensionale

Seria de distribuţie de frecvenţe unidimensională reprezintă o serie în care primul şir


cuprinde variantele/valorile sau intervalele de variaţie ale unei variabile, iar al doilea şir
– frecvenţele de apariţie ale variantelor sau volumul grupelor.

A1. Distribuţii heterograde (după o variabilă numerică).


Se pot reprezenta sub forma:
- pentru o caracteristică discretă (repartiţii de frecvenţe pe variante/valori):
 x1 x2 ... xi ... x r 
X :  ,
 n1 n2 ... ni ... nr 

unde ni ( i  1, r ) sunt frecvenţele de apariţie ale variantei xi.

- pentru o caracteristică continuă (repartiţie de frecvenţe pe intervale de valori):


 x inf  X  x sup x2inf  X  x sup ... xiinf  X  xisup ... x rinf  X  x rsup 
X : 1 1 2 
 
 n1 n 2 ... ni ... n r 
sau
 x1 x2 ... xi ... x r 
X :  
 n1 n2 ... ni ... nr 

unde xi , i  1, r sunt centrele intervelor de variaţie.

6
Serii de repartiţie de frecvenţe pe intervale de variaţie
Se prezintă sub forma:
Intervale de variaţie ale caracteristicii de grupare Număr de unităţi statistice (ni)
x1inf  x1sup n1

x2inf  x2sup n2
... ...
xiinf  xisup ni
... ...
x rinf  x rsup nr
r
Total n   ni
i 1

unde: xiinf , xisup reprezintă limita inferioară, respectiv superioară, a intervalului de variaţie „i”.
Vom considera doar cazul intervalelor egale şi continue.
Centrul intervalului este determinat ca medie aritmetică simplă a limitelor intervalului
şi este considerat reprezentativ pentru datele din acel interval. Se determină cu una din
relaţiile:

xiinf  xisup hi
xi  sau xi  xiinf  , unde hi este mărimea intervalului.
2 2
Frecvenţa absolută a grupei (ni) este egală cu numărul de unităţi statistice care au
valoarea caracteristicii mai mare (sau egală) cu limita inferioară a intervalului şi mai mică
(sau egală) cu limita superioară a acesteia. Suma frecvenţelor absolute este notată cu n şi
r
reprezintă numărul total de unităţi sau volumul eşantionului. n   ni
i 1

Frecvenţa relativă a unei grupe ( ni* ) reprezintă ponderea unităţilor statistice în


volumul total al colectivităţii care au valoarea caracteristicii cuprinsă între limita inferioară şi
cea superioară a grupei respective. Se determină ca raport între frecvenţa absolută a grupei şi
volumul eşantionului (eventual înmulţit cu 100).
ni ni
ni*  r
 şi se exprimă în coeficienţi,
n
 ni
i 1

sau
ni ni
ni*%  r
 100   100 şi se exprimă în procente.
n
 ni
i 1

7
Suma frecvenţelor relative este 1 sau 100, după cum sunt exprimate în coeficienţi sau
în procente.
r r
 ni*  1 sau  ni*%  100
i 1 i 1

Frecvenţele cumulate.
Sunt de două tipuri: cumulate crescător şi cumulate descrescător.
Frecvenţa absolută cumulată crescător a unei grupe este egală cu numărul unităţilor
care au valoarea variabilei mai mică (sau egală) cu limita superioară a grupei (mai exact între

x1inf şi xisup ).
i
Fci   nk
k 1

Frecvenţa absolută cumulată crescător a ultimei grupe este egală cu volumul colectivităţii (cu
n).
Frecvenţa absolută cumulată descrescător a unei grupe este egală cu numărul
unităţilor pentru care valoarea caracteristicii este mai mare (sau egală) cu limita inferioară a

grupei (mai exact între xiinf şi x rsup ):


r
Fd i   nk
k i

Frecvenţa absolută cumulată descrescător a primei grupe este egală cu numărul total de unităţi
statistice (cu n):
Asemănător se determină şi frecvenţele relative cumulate crescător şi descrescător,
conform relaţiilor:
i r
Fci*   nk* , Fd i*   nk*
k 1 k i

Frecvenţele absolute, relative şi cumulate oferă o imagine de ansamblu asupra tendinţei de


distribuţie a valorilor în colectivitate, asupra normalităţii, simetriei ori asimetriei repartiţiei de
frecvenţe.

Serii de repartiţie de frecvenţe pe variante (discrete)


Se prezintă astfel:
Variantele/valorile caracteristicii de grupare (xi) Număr de unităţi statistice (ni)
x1 n1
x2 n2
... ...

8
xi ni
... ...
xr nr
r
Total n   ni
i 1

unde: ni reprezintă numărul unităţilor care prezintă valoarea xi a caracteristicii de grupare (se
mai numesc frecvenţe absolute);
Prin însumarea frecvenţelor grupelor (ni) se obţine volumul total al colectivităţii (n).
Şi pentru această serie se determină toate tipurile de frecvenţe prezentate anterior.

A2. Distribuţii homograde (după o variabilă nenumerică).


Şi pentru distribuţiile homograde, în care sistematizarea datelor este realizată după o
variabilă calitativă, se pot calcula frecvenţe absolute şi relative (vezi exemplul 1).
Dacă sistematizarea s-a efectuat după o variabilă ordinală, se pot calcula şi frecvenţe
cumulate.

B. Serii de distribuţie de frecvenţe bidimensionale.

Forma generală a unei distribuţii de frecvenţe bidimensionale, în care s-au luat în


considerare două variabile statistice X şi Y este prezentată în tabelul următor.

Distribuţia de frecvenţe bidimensională


Variante sau centre de Variante sau centre de interval pt. variabila Y Total
interval pt. variabila X y1 y2 ... yj ... yp unităţi
x1 n11 n12 ... n1j ... n1p n1.
x2 n21 n22 ... n2j ... n2p n2.
... ... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... nip ni.
... ... ... ... ... ... ... ...
xr nr1 nr2 ... nrj ... nrp nr.
Total unităţi n.1 n.2 ... n.j ... n.p n..

Tabelul de mai sus reprezintă un tabel de corelaţie, în care avem:


xi, i  1, r este varianta sau centrul de interval pentru grupa „i”, formată după valorile
variabilei X;

9
yj, j  1, p este varianta sau centrul de interval al grupei „j”, formată după valorile variabilei
Y;
nij, i  1, r ; j  1, p reprezintă numărul unităţilor statistice la care întâlnim simultan valoarea
xi a caracteristicii X şi valoarea yj a caracteristicii Y;
p
ni.   nij este numărul de unităţi statistice care au valoarea xi a caracteristicii X, indiferent
j 1

de valoarea caracteristicii Y;
r
n. j   nij este numărul de unităţi statistice care au valoarea yj a caracteristicii Y, indiferent
i 1

de valoarea caracteristicii X;
r p r p
n..  n   nij   ni.   n. j este volumul total al colectivităţii.
i 1 j 1 i 1 j 1

3.2. Tabele statistice.

Aşa cum am arătat, alături de grafice, şi tabelele statistice joacă un rol important în
prezentarea dateor, căci ele pot releva anumite aspecte pe care graficele nu le pot pune în
valoare. În unele situaţii, este mai importantă prezentarea valorilor numerice ale datelor, decât
o vizualizare grafică a acestora. În felul acesta, tabelele reprezintă un instrument
complementar graficelor, de prezentare rapidă şi eficientă a datelor, dar şi de sistematizare a
acestora.

Tabelul statistic cuprinde una sau mai multe serii statistice, ai căror termeni sunt înscrişi
într-o reţea de linii şi coloane.

Pentru ca un tabel statistic să fie corect elaborat şi să-şi atingă scopul, trebuie să
conţină un set de elemente obligatorii sau opţionale şi să respecte unele reguli:
- titlul tabelului este un element obligatoriu plasat înaintea tabelului, care descrie clar şi
concis conţinutul datelor pe care le cuprinde;
- macheta tabelului este o reţea de linii ce alcătuiesc rubricile tabelului;
- subiectul tabelului este format din populaţia la care se referă datele înscrise în tabel;
- predicatul tabelului este format din sistemul de indicatori redaţi în tabel;
- rubricile tabelului sunt spaţiile create la întretăierea liniilor orizontale cu cele verticale,
în care sunt înscrise datele;

10
- datele statistice înscrise în tabel pot fi sub formă numerică sau textuală;
- unitatea de măsură trebuie precizată pentru fiecare din indicatorii înscrişi în tabel; dacă
toţi sunt exprimaţi în aceeaşi unitate de măsură, atunci aceasta se poate trece deasupra
tabelului;
- sursa datelor;
- numărul tabelului – este necesar mai ales atunci când se folosesc mai multe tabele,
pentru identificarea lor;
- note explicative, metodologice

3.3. Grafice statistice.

Alegerea tipului de grafic depinde de tipologia datelor pe care vrem să le reprezentăm.


Astfel, putem utiliza:
- grafice într-un sistem de coordonate;
- grafice cu ajutorul unor figuri geometrice;
- grafice cu ajutorul hărţior sau al altor figuri naturale sau simbolice.
Pentru ca un grafic să-şi atingă scopul pentru care a fost proiectat, el trebuie să fie
corect întocmit, să respecte anumite reguli generale, să cuprindă o serie de elemente
obligatorii sau opţionale şi anume:
 titlul graficului;
 sistemul de coordonate;
 scara de reprezentare;
 reţeaua graficului;
 legenda;
 note explicative, sursa datelor etc.

Tipuri de reprezentări grafice utilizate în cazul seriilor de distribuţie de frecvenţe

1. Histograma:
Histograma conţine o succesiune de dreptunghiuri, cu bazele corespunzătoare lungimii
in-tervalelor şi înălţimile egale cu numărul de observaţii din fiecare interval (sau cu ponderea
lor). Dacă intervalele au mărime egală, atunci şi coloanele vor avea lăţime egală.
Permite vizualizarea distribuţiei de frecvenţe absolute sau relative, după o variabilă
numerică continuă (pe intervale).

11
2. Poligonul frecvenţelor:
Poligonul frecvenţelor este şi el utilizat pentru reprezentarea grafică a distribuţiilor de
frecvenţe absolute sau relative, atunci când sistematizarea datelor s-a făcut după o
caracteristică numerică continuă sau discontinuă. Pentru construirea lui, din fiecare valoare a
caracteristicii sau din fiecare centru de interval se ridică câte o perpendiculară şi se marchează
pe ea punctul aflat la o distanţă egală cu frecvenţa variantei sau intervalului respectiv. Unind
toate punctele astfel găsite rezultă un poligon numit „poligonul frecvenţelor”.
Poligonul frecvenţelor se poate suprapune peste histogramă în cadrul aceluiaşi grafic,
sau se poate trasa într-un grafic separat.

3. Curbele frecvenţelor cumulate:


Curbele frecvenţelor cumulate (ogivele), numite şi „curbele cumulative ale
frecvenţelor”, reprezintă o a treia modalitate de reprezentare grafică a distribuţiilor de
frecvenţe pe intervale de variaţie sau pe variante. Ele se trasează atât pentru distribuţii de
frecvenţe absolute, cât şi pentru distribuţii de frecvenţe relative.
În cazul distribuţiilor de frecvenţe după o variabilă continuă:
- reprezentarea grafică a frecvenţelor cumulate crescător: pe axa Ox se reprezintă
limitele superioare ale intervalelor, iar pe axa Oy – frecvenţele cumulate crescător;
prin unirea punctelor astfel obţinute se trasează o curbă ascendentă.
- reprezentarea grafică a frecvenţelor cumulate descrescător: pe axa Ox se reprezintă
limitele inferioare ale intervalelor, iar pe axa Oy – frecvenţele cumulate descrescător;
prin unirea punctelor astfel obţinute se trasează o curbă descendentă.
În cazul distribuţiilor de frecvenţe după o variabilă discretă reprezentarea grafică a
frecvenţelor cumulate crescător va avea, de această dată, aspectul unei scări, pentru că nici o
unitate statistică nu poate avea valoarea caracteristicii situată între variantele stabilite
4. Graficul (diagrama) prin coloane sau benzi (bare)
Este folosit pentru reprezentarea distribuţiilor de frecvenţe absolute sau relative, în
care sistematizarea s-a făcut după o variabilă categorială, calitativă, măsurată pe scală
nominală. Graficul se trasează în sistemul de axe ortogonale Ox şi Oy, pe Ox se reprezintă
categoriile variabilei calitative, iar pe Oy frecvenţele (absolute sau relative) sau nivelul
indicatorului. Aşadar, graficul constă dintr-o succesiune de coloane de lăţime egală, câte o
coloană pentru fiecare categorie/variantă a variabilei nominale, egal distanţate între ele (la
distanţe, de regulă, mai mici decât grosimea coloanelor) şi cu înălţimea proporţională cu
frecvenţele sau nivelul indicatorului corespunzător categoriei respective. Dacă dreptunghiurile

12
sunt răsturnate cu 90% (şi au baza situată pe axa verticală) atunci reprezentarea grafică este o
diagramă prin benzi, cu axele inversate faţă de diagrama prin coloane.
Pentru o distribuţie de frecvenţe, obţinută după o variabilă calitativă, diagrama prin
coloane şi cea prin benzi se prezintă astfel:

Distributia absolventilor dupa domeniul de


ocupare Altele

100 Manag.

Domeniu
80
Finanţe
Persoane

60

40 Market.
20
Contab.
0
Contabilitate Marketing Finanţe Management Altele
ec. 0 20 40 60 80 100

Domeniul Persoane

a) Diagrama prin coloane b)Diagrama prin benzi

5. Diagrama de structură.

Diagrama de structură este folosită pentru a reprezenta grafic structura unei


colectivităţi, sistematizate după valorile unei variabile cantitative sau calitative. Graficul arată,
aşadar, modul în care întregul se subdivide în părţi componente. De obicei, diagrama se
trasează cu ajutorul cercului, a cărui arie reprezintă întregul; acesta se împarte în mai multe
bucăţi („felii”), unghiul la centru corespunzător acestei părţi de cerc este proporţional cu
raportul dintre frecvenţa absolută şi volumul total al colectivităţii (adică cu frecvenţa relativă)
a acelei clase/grupe.
Pentru o distribuţie de frecvenţe, diagrama de structură se prezintă astfel:

13
Structura magazinelor dupa valoarea facturilor
Structura absolvenţilor după domeniul de ocupare emise zilnic

5,0 – 6,0
11,0 – 12,0 8%
6,0 – 7,0
12% 8%
18%

32% 10,0 – 11,0


10%
14% Contab.
Market.
Finanţe
Manag. 9,0 – 10,0 7,0 – 8,0
Altele 16% 22%

18%

8,0 – 9,0
24% 18%

4. Rezumatul Lecţiei

În acest capitol am învăţat să supunem setul de date unor operaţii de prezentare sistematică,
de organizare, de ordonare după unul sau mai multe criterii, într-un cuvânt de sistematizare.
Includem aici operaţiile de grpare/clasificare.
Gruparea / clasificarea datelor statistice presupune împărţirea unităţilor populaţiei statistice
observate în grupe sau clase distincte omogene, după unul sau mai multe criterii. Dacă efectuăm
sistematizarea datelor după o variabilă nenumerică, spunem că efectuăm o clasificare, iar dacă
sistematizăm datele după o variabilă numerică, spunem că realizăm o grupare.
Clasificarea datelor se poate face:
- pe variante (dacă sunt puţine variante)
- pe grupe de variante (în cazul existenţei mai multor variante).
Gruparea după o variabilă numerică se poate face:
- pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja
valorilor pe care le poate lua caracteristica nu este foarte mare);
- pe intervale de variaţie (atunci când sistematizăm datele după o variabilă continuă,
care are o plajă largă de valori). Intervalele de variaţie pot fi egale sau neegale.
Modalităţile de prezentare şi reprezentare a datelor statistice sunt:
- seriile statistice.
- tabelele statistice
- graficele statistice.

14
CURS STATISTICĂ - Lecţia nr. 5

ANALIZA STATISTICĂ A DISTRIBUŢIILOR DE FRECVENŢE.


INDICATORII TENDINŢEI CENTRALE

Cuprins:

1.Obiectivele unităţii de învăţare.


2. Noţiuni generale privind indicatorii tendinţei centrale
3.Mărimile medii
3.1. Media aritmetică
3.2.Media armonică
3.3. Media geometrică
3.4. Media pătratică
4. Rezumatul unităţii de învăţare.

1. Obiectivele unităţii de învăţare

În urma parcurgerii acestei unităţi de învăţare studentul va înţelege care este tipul de
medie adecvat în fiecare situaţie, precum şi modalitatea de calcul a acesteia.

2. Noţiuni generale privind indicatorii tendinţei centrale

Indicatorul statistic reprezintă expresia numerică concretă sau dimensiunea


unei colectivităţi sau fenomen. Poate fi definit ca „rezultat numeric al unei
numărări, al unei măsuri statistice a fenomenelor şi proceselor de masă sau al
unui model de calcul statistic pe baza datelor înregistrate”.
Într-un studiu statistic, indicatorul poate apărea în dublă ipostază:
- purtător de informaţii, reflectând în expresie numerică un fenomen real;
- mijloc de calcul constituind o modalitate de obţinere a informaţiei statistice
Clasificarea indicatorilor statistici:

1
1. După modul de determinare distingem:
 Indicatorii primari – se obţin în etapa de sistematizare a datelor statistice
prin centralizarea acestora.
Ex.: - numărul total al studenţilor unei facultăţi, numărul studenţilor pe fiecare an
de studiu (volumul total sau pe grupe al unei colectivităţi).
- veniturile salariaţilor unei firme (nivelul total al valorilor individuale al unei
caracteristici)
 Indicatori derivaţi – reprezintă rezultatul prelucrării indicatorilor
primari prin diferite modele de calcul statistic. În categoria indicatorilor derivaţi pac
parte: mărimile relative, indicatorii tendinţei centrale, indicatorii variaţiei şi asimetriei,
indicatorii de concentrare, etc.
Pentru caracterizarea fenomenelor de masă se utilizează atât indicatori primari cât şi
derivaţi.
2. După gradul de cuprindere se disting:
 Indicatori sintetici care reprezintă expresii numerice ale
categoriilor economice de sinteză ce caracterizează rezultatele economice la nivel
macroeconomic.
Ex.: Produsul intern brut. Modelul de calcul al acestor indicatori se bazează pe
Sistemul Conturilor Naţionale.
 Indicatorii analitici – care exprimă structura unei colectivităţi şi influenţa
factorilor care acţionează asupra acesteia.
3. După forma de exprimare se disting:
 Indicatori exprimaţi în mărimi absolute adică în unităţi concrete de
măsură aceleaşi cu ale caracteristicii analizate şi cu acelaşi conţinut ca şi
caracteristica analizată.
 Indicatori exprimaţi sub formă de mărimi relative adică exprimaţi în
coeficienţi, procente, promile, prodecimile, etc. şi care s-au obţinut prin raportarea a
doi indicatori cu acelaşi conţinut sau cu conţinut diferit, dar aflaţi în relaţie de
interdependenţă.

Indicatorii tendinţei centrale reprezintă o categorie deosebit de importantă de


indicatori statistici utilizaţi în analiza variabilelor numerice. Aceşti indicatori sintetici
redau într-o singură măsură ceea ce este tipic, esenţial, caracteristic, obiectiv şi stabil
pentru o serie de date numerice.

2
Indicatorii tendinţei centrale sunt:
 mărimile medii;
 indicatorii medii de poziţie.
Toţi indicatorii tendinţei centrale au unitatea de măsură a caracteristicii studiate.
Indicatorii tendinţei centrale, pentru a reda corect nivelul în jurul căruia tind
valorile individuale, trebuie să îndeplinească următoarele condiţii:
 să fie definiţi în mod precis printr-o definiţie sau formulă;
 să poată fi calculaţi cu uşurinţă şi rapiditate şi să se preteze calculelor
algebrice;
 să nu fie afectaţi prea tare de fluctuaţiile de selecţie în cazul în care datele
provin dintr-un sondaj statistic (adică mediile diferitelor eşantioane de volum
egal provenite din aceeaşi colectivitate să nu fie sensibil diferite);
 să nu aibă caracter matematic prea abstract;
 să fie expresia tuturor observaţiilor făcute.
Cei mai importanţi şi mai utilizaţi indicatori ai tendinţei centrale sunt: media,
mediana, modul.

3. Marimile medii

Mărimile medii utilizate în analiza seriilor de distribuţie de frecvenţe sunt:


 media aritmetică x;
 media armonică x h  ;
 media pătratică x p ;
 media geometrică x g .
Fiecare dintre cele patru medii poate fi calculată atât ca medie simplă (în cazul
datelor negrupate) sau ca medie ponderată (în cazul datelor grupate pe variante sau
intervale de variaţie).

3.1. Media aritmetică


Media aritmetică x , numită adeseori “medie” este indicatorul cel mai utilizat
pentru caracterizarea tendinţei centrale.
Media se calculează însumând toate valorile individuale şi împărţind suma la

3
numărul lor, ea reprezentând acea valoare care înlocuind toţi termenii unei serii nu
modifică nivelul lor totalizator.
Media aritmetică calculată pentru o colectivitate statistică este acea valoare
care s-ar fi obţinut dacă toţi factorii ar fi exercitat o influenţă constantă asupra tuturor
unităţilor înregistrate.
Media aritmetică simplă se calculează raportând nivelul totalizat al caracteristicii
la numărul total al unităţilor:
n
 xi
x  i 1
n
xi = valorile individuale ale caracteristicii;
n = numărul unităţilor;
n
 x i = valoarea centralizată (nivelul totalizat) al caracteristicii.
i 1

☺ Exemplul 1
Pentru 5 sucursale ale unei bănci comerciale au fost înregistrate valorile creditelor în
luna decembrie 2006 şi anume: 200.000 Euro; 240.000 Euro; 250.000 Euro; 180.000
Euro; 160.000 Euro. Care este valoarea medie a creditelor acordate în luna
decembrie 2019?

5
 xi
i 1 200.000  240.000  250.000  180.000  160.000
x   206.000 Euro/sucursală
5 5

Într-o colectivitate statistică se întâlnesc foarte rar cazuri în care numărul


valorilor caracteristicii coincide cu numărul unităţilor, în colectivităţile statistice de
obicei se înregistrează de mai multe ori aceiaşi valoare a caracteristicii pentru mai
multe unităţi şi în acest caz media se va calcula ca o medie aritmetică ponderată:
k
 xi  ni
x  i1
k
 ni
i 1

k = numărul de grupe (intervale);


= numărul de variante (valori ale caracteristicii).
Dacă avem serie de distribuţie de frecvenţe pe intervale, atunci xi reprezintă

4
mijlocul (centrul) de interval:
k
x   x i  n *i
i 1

☺ Exemplul 2
Media aritmetică ponderată pentru o serie de repartiţie pe variante.
Repartiţia gospodăriilor dintr-o localitate în funcţie de numărul de copii este
prezentată în tabelul următor:
Nr. copii (xi) 0 1 2 3 4 5 6 7 8
Nr. gospodării (ni) 286 380 416 258 112 62 47 12 7
k
 xi  ni
i 1 0  286  1  380  ...  8  7 3166
Media =   1580  2,00 copii/gospodărie
k 286  380  ...  7
 ni
i 1

☺ Exemplul 3
Repartiţia salariaţilor unei firme în funcţie de valoarea primei acordate la sfârşitul
anului 2006 este:

Prima (euro) Nr. salariaţi (ni) Centrul de interval (xi) xi ni


0 – 100 5 50 250
100 – 200 10 150 1.500
200 – 300 20 250 5.000
300 – 400 16 350 5.600
400 – 500 9 450 4.050
5
Total 60 -  xi  ni  16.400
i 1
5
 xi  ni
x  i 1  1660
.400  273,33 euro/salariat
5
 ni
i 1

Media:
 poate să nu aibă o valoare egală cu o valoare individuală înregistrată;
 se poate determina cunoscând doar valoarea totală centralizată a caracteristicii
(nivelul totalizator) şi numărul unităţilor;

5
 are unitatea de măsură a caracteristicii analizate.

Proprietăţile mediei aritmetice:


1) Dacă pentru toate unităţile se înregistrează aceeaşi valoare a caracteristicii atunci
media este egală cu acea valoare:
x1 = x2 = … = x n = x
n
 xi
nx
x  i 1  x
n n
2) Media aritmetică are întotdeauna valoare cuprinsă între valoarea minimă a
caracteristicii (xmin) şi valoarea maximă (xmax):
x min  x  x max

În cazul seriilor de distribuţie pe intervale, media este cuprinsă între limita


inferioară a primului interval şi limita superioară a ultimului interval.
3) Suma abaterilor valorilor individuale ale caracteristicii de la media lor este nulă,
adică distanţele faţă de centru se compensează reciproc:
- pentru seria simplă:
n
 xi
n
  n n
 xi  x   xi  n  x   xi  n  i 1  0
i 1 i 1 i 1 n
- pentru seria de frecvenţe:
k
 xi  ni
 x i  x  n i   x i  n i   n i   x i  n i 
k k k k k
i 1
  ni  0
k
i 1 i 1 i 1 i 1 i 1
 ni
i 1

4) În cazul seriilor de frecvenţă, media oscilează în jurul termenului căruia îi


corespunde frecvenţa maximă;
5) Dacă toţi termenii unei serii statistice se măresc sau se micşorează cu o constantă
“a”, atunci şi media se va mări sau se va micşora cu respectiva constantă “a”:
- pentru serii simple:
n n
 x i  a   x i  n  a
x '  i 1  i 1 xa a0
n n
- pentru serii de frecvenţe:

6
k k
 x i  a   n i  xi  ni  a
x '  i1  i1 xa
k k
 ni  ni
i 1 i 1

6) Dacă toţi termenii unei serii statistice se înmulţesc sau se împart cu o constantă “h”,
atunci şi media se va multiplica sau se va reduce de “h” ori:
- pentru o serie simplă:
n n
 xi  h  xi
x '  i 1  h  i 1 hx h  0,1
n n
- pentru o serie de frecvenţe:
k k
 xi  ni  h h   xi  ni
x '  i 1  i 1
hx
k k
 ni  ni
i 1 i 1

7) Dacă frecvenţele unei serii de repartiţie se multiplică sau se împart cu o constantă


“a”, atunci media nu se va modifica:
k ni 1 k
 xi  a
  xi  ni
a i 1
x '  i 1  x
k n 1 k
 ai   ni
a i 1
i 1

k
Dacă a   n i adică este volumul total al colectivităţii, atunci:
i 1

k ni
 xi  k k
i 1
 ni  x i  n *i k
i 1
x  i 1   x i  n *i
k ni k
i 1
 k  n *i
i 1 i 1
 ni
i 1

n *i = frecvenţele relative

sau
k
 x i  n *i
x  i 1 ,
100
dacă frecvenţele relative sunt exprimate în procente.
8) Media aritmetică este sensibilă la valorile extreme, care pot afecta semnificaţia şi

7
reprezentativitatea mediei ca valoare centrală. Pentru ca media să fie reprezentativă
trebuie ca datele din care se calculează să fie cât mai omogene;
9) Media generală calculată pentru o serie de repartiţie de frecvenţă corespunzătoare
colectivităţii generale este egală cu media aritmetică ponderată a mediilor parţiale
calculate pe baza seriilor de repartiţie componente:
m
xj nj
j1
x
m
n j
j1

x j = media seriei de repartiţie componentă j;

nj = volumul seriei componente j.

☺ Exemplul 4
Sucursala din Alba a unei bănci comerciale are 40 de angajaţi, dintre care 15 sunt femei, iar
25 bărbaţi. Salariul mediu al femeilor este de 1.370 RON, iar al bărbaţilor de 1.520 RON.
Care este salariul mediu al unui angajat al sucursalei?

m
x j n j
j 1 1.370  15  1.520  25
x   1.463,75 RON
m 40
n j
j 1

10) Media aritmetică calculată pentru o serie simplă şi media aritmetică calculată pentru
aceeaşi serie cu datele grupate pe intervale (utilizând centrul de interval), pot să fie
sau nu egale. Cele două medii sunt egale dacă frecvenţele din seria de repartiţie de
frecvenţe sunt normal distribuite pe fiecare interval.
11) Pentru o variabilă alternativă (binară) media aritmetică se calculează astfel:
Varianta de răspuns xi Frecvenţa (ni) Frecvenţe relative (ni*)
DA 1 m m
w
n
NU 0 n–m 1–w
Total - n 1
2
 xi  ni
i 1 1  m  0  n  m  m
x   w
2 n n
 ni
i 1

8
3.2. Media armonică
Media armonică se calculează împărţind frecvenţa absolută totală (numărul
total al unităţilor) la suma inverselor valorilor caracteristicii:
- media armonică simplă:
n
xh  pentru o serie simplă
n 1
x
i 1 i

- media armonică ponderată:


k
 ni
i 1
xh  pentru o serie de frecvenţe
k 1
 x  ni
i 1 i

Dacă termenii seriei sunt pozitivi, atunci x h  x .

3.3. Media geometrică

Media geometrică se bazează pe relaţia de produs între termenii seriei:


- pentru o serie simplă:
n
xg  n  xi
i 1

- pentru o serie de frecvenţe:


k
 ni k
x g  i 1  x i ni
i 1

3.4. Media pătratică

Media pătratică se calculează ca radical din media aritmetică a pătratelor


termenilor seriei:
- pentru o serie simplă:

9
n
 x i2
x p  i1
n
- pentru o serie de frecvenţe:
k
 x i2  n i
x p  i 1
k
 ni
i 1

Media pătratică se utilizează în cazul în care într-o serie de repartiţie predomină


valorile mari ale caracteristicilor sau dacă dorim să le acordăm acestora o importanţă
mai mare.

4. Rezumatul temei

Indicatorii tendinţei centrale reprezintă o categorie deosebit de importantă de indicatori


statistici utilizaţi în analiza variabilelor numerice. Aceşti indicatori sintetici redau într-o singură
măsură ceea ce este tipic, esenţial, caracteristic, obiectiv şi stabil pentru o serie de date
numerice.
Indicatorii tendinţei centrale sunt:
 mărimile medii care pot fi calculate atăt ca medii simple (pentru date
negrupate), căt şi ca medii ponderate (pentru date grupate pe variante sau pe
intervale)
- media aritmetică
- media geometrică
- media pătratică
- media armonică
 indicatorii medii de poziţie
- mediana
- modul
Aceşti indicatori caracterizează cu atât mai bine tendinţa centrală cu cât datele pe
baza cărora se determină sunt mai omogene.
Cei mai importanţi şi mai utilizaţi indicatori ai tendinţei centrale sunt: media, mediana,
modul.

10
Lecţia nr. 6

ANALIZA STATISTICĂ A DISTRIBUŢIILOR DE FRECVENŢE.


INDICATORII TENDINŢEI CENTRALE (2).

Cuprins:

1.Obiectivele unităţii de învăţare.


2.Indicatorii medii de poziţie.
2.1 Mediana
2.2. Modul
3.Abordări comparative între principalii indicatori ai tendinţei centrale.
4. Rezumatul lecţiei.

1. Obiectivele unităţii de învăţare

În urma parcurgerii acestei unităţi de învăţare studentul:


 va înţelege când este indicat să se utilizeze mediana şi modul
 îşi va însuşi metodologia de calcul a celor doi indicatori (mediana şi modul) pentru toate
tipurile de serii

2. Indicatorii medii de pozitie

Indicatorii medii de poziţie evidenţiază tendinţele de mijloc sau de concentrare a unităţilor.


Dintre indicatorii medii de poziţie, cei mai frecvenţi utilizaţi sunt: mediana şi modul.
2.1. Mediana

Mediana face parte din categoria cuantilelor alături de quartile, decile. Cuvântul mediană
provine din cuvântul latin “medius” care înseamnă “mijloc”.
Mediana reprezintă acea valoare a unei serii ordonate crescător sau descrescător care
împarte seria în două părţi egale, aşa încât 50% din termenii seriei au valori mai mici decât
mediana, iar 50% mai mari decât mediana.
Un avantaj al medianei faţă de medie este acela că poate fi utilizată în caracterizarea
tendinţei centrale pentru o serie de date măsurate pe o scară ordinală. Mediana ia în consideraţie
doar poziţia termenilor în serie, nu şi mărimea acestor valori, deci mediana nu este supusă
influenţei valorilor foarte mari sau foarte mici care sunt lăsate în afara seriei.
Valoarea medianei este invariabilă faţă de convenţia cu care se închid intervalele extreme,
spre deosebire de medie care este influenţată atât de valori cât şi de frecvenţa lor.
Dacă seria prezintă o repartiţie normală atunci mediana poate să înlocuiască valoarea
medie deoarece se calculează mai uşor.
Mediana este un indicator utilizat în cercetările medicale, în studiul mortalităţii, la
determinarea duratei medii de viaţă, la determinarea duratei medii de funcţionare a unui produs.
Calculul medianei:
 pentru o serie simplă (pentru date negrupate), întâlnim două situaţii:
- seria are un număr impar de termeni – atunci mediana este egală cu termenul central
al seriei ordonate crescător sau descrescător.
Se cunoaşte următorul set de valori ale unei caracteristici:
5 7 4 9 12 3 10
Ordonăm seria crescător:
3 4 5 7 9 10 12


Me
Pentru date ordinale mediana este varianta situată în centrul seriei.
- seria are un număr par de termeni, atunci mediana este egală cu media aritmetică
simplă a celor 2 termeni centrali ai seriei ordonate crescător sau descrescător.
Fie următorul set de valori:
3 1 5 7 9 4
1 3 4 5 7 9
45
Me   4,5
2
Pentru un şir de date ordinale format din număr par de termeni, mediana este egală cu una
din cele două variante din centrul seriei dacă aceste variante sunt egale, iar dacă variantele nu
sunt egale mediana ia 2 valori deoarece nu se poate face media lor.
 pentru o serie de distribuţie de frecvenţe pe variante calculul medianei comportă
următoarele etape:
Etapa 1: se determină locul medianei în cadrul seriei:
1  k 
L Me    n i  1
2  i1 
Etapa 2: se cumulează crescător frecvenţele absolute şi se determină acea frecvenţă
cumulată crescător care este imediat mai mare sau egală cu locul medianei (LMe). Varianta care
corespunde frecvenţei absolute cumulate ce îndeplineşte condiţia de mai sus este mediana.
 pentru o serie de frecvenţe pe intervale de variaţie, mediana se poate determina
numai în ipoteza în care valorile sunt distribuite uniform în cadrul intervalului de
grupare.
Etape:
- se determină locul medianei în cadrul seriei:
1  k 

L Me  
2  i1
n i  1

- se cumulează crescător frecvenţele absolute şi se determină acea frecvenţă cumulată
crescător care este imediat mai mare sau egală cu Lme. Intervalul care corespunde frecvenţei
absolute cumulate ce îndeplineşte condiţia de mai sus este intervalul median.
- se calculează mediana cu relaţia:
L Me  n pMe
Me  x 0  h 
n Me

x0 = limita inferioară a intervalului median;


h = mărimea intervalului median;
npMe = suma frecvenţelor absolute până la intervalul median;
nMe = frecvenţa absolută a intervalului median.
Calculul grafic al medianei se poate realiza în două moduri:
 mediana este corespondenta pe abscisă a punctului de intersecţie al ogivei crescătoare
cu ogiva descrescătoare;
 se trasează doar ogiva crescătoare, iar de pe axa OY din punctul corespunzător locului
medianei se duce o paralelă cu axa OX ce intersectează ogiva crescătoare într-un punct.
Corespondenta pe abscisă a acestui punct este mediana.
Dezavantajele medianei:
 mediana este mai puţin stabilă decât media;
 nu poate fi supusă cu aşa uşurinţă calculelor algebrice;
 media este preferată în statistica inferenţială.

2.2. Modul

Modul (dominanta unei serii) este valoarea cea mai des întâlnită sau căreia îi corespunde
cea mai mare frecvenţă de apariţie.
Calculul algebric al modului:
- pentru o serie simplă:

☺ Exemplul 1
La un magazin de pantofi s-au vândut într-o oră pantofi având următoarele mărimi:
Caz 1: 35 37 39 40 42
Această serie nu are mod.
Caz 2: 35 37 35 40 42
Mo = 35 deoarece este valoarea cea mai des întâlnită
Caz 3: 35 37 35 40 40
Mo1 = 35 Mo2 = 40
Această serie este bimodală.
Există şi serii plurimodale.

- pentru o serie de distribuţie pe variante, modul este egal cu varianta căreia îi


corespunde frecvenţa absolută sau relativă maximă.

☺ Exemplu 2
Nr. camere (xi) Nr. apartamente(ni)
1 13
2 25
3 28
4 14
Mo = 3 camere deoarece variantei 3 îi corespunde frecvenţa absolută maximă.

- pentru o serie de distribuţie de frecvenţe pe intervale de variaţie modul se calculează


cu relaţia:
1
Mo  x 0  h 
1   2

x0 = limita inferioară a intervalului modal;


h = mărimea intervalului modal;
1 = diferenţa dintre frecvenţa intervalului modal şi a celui anterior;
2 = diferenţa dintre frecvenţa intervalului modal şi a celui următor.
Intervalul modal este intervalul căruia îi corespunde frecvenţa absolută maximă.

Calculul grafic al modului:


 în cazul seriilor de distribuţie pe variante, determinarea grafică a modului se face cu
ajutorul diagramei prin bare sau prin bastoane, modul fiind acea valoare de pe abscisă
căreia îi corespunde ordonata maximă:

ni
xi
 în cazul seriilor de distribuţie
Mo pe intervale de variaţie, determinarea grafică a
modului se face cu ajutorul histogramei. Se determină punctul de intersecţie al
segmentului ce uneşte capătul din stânga al blocului cel mai înalt cu capătul din stânga
blocului următor cu segmentul ce uneşte capătul din dreapta al blocului cel mai înalt cu
capătul din dreapta al blocului anterior. Corespondenţa pe abscisă a acestui punct de
intersecţie este modul.

ni

xi
Mo

Analog cu modul se poate determina, în cazul distribuţiilor în formă de U şi valoarea


antimodală căreia îi corespunde frecvenţa minimă.
Modul nu este un indicator al tendinţei centrale foarte stabil şi poate fi afectat de modul în
care au fost construite intervalele de variaţie. În plus, modul nu se pretează aşa uşor la clacule
algebrice ca şi mediana.
Cu toate aceste dezavantaje, modul este un indicator util în analiza seriilor de dimensiuni
mari în care ne interesează valoarea cea mai des întâlnită.

3. Abordarea comparativă a principalilor indicatori ai tendinţei centrale

Media este indicatorul cel mai utilizat în analiza tendinţei centrale. Calculul mediei se
bazează pe ansamblul valorilor caracteristicii xi, de aceea ea este influenţată de valorile extreme.
Mediana este un indicator care, spre deosebire de medie, se calculează în funcţie de poziţia
termenilor în serie şi nu este influenţată de valorile termenilor.
Modul se determină foarte uşor, dar este indicatorul cel mai sensibil la modul de grupare a
datelor. Două grupări diferite ale aceleiaşi serii vor conduce la două valori modale diferite.
Pentru o serie perfect simetrică cei trei indicatori ai tendinţei centrale sunt egali:
x  Me  Mo
4. Rezumatul Lecţiei

Indicatorii tendinţei centrale reprezintă o categorie deosebit de importantă de indicatori statistici


utilizaţi în analiza variabilelor numerice. Aceşti indicatori sintetici redau într-o singură măsură ceea ce
este tipic, esenţial, caracteristic, obiectiv şi stabil pentru o serie de date numerice.
Indicatorii tendinţei centrale sunt:
 mărimile medii care pot fi calculate atăt ca medii simple (pentru date negrupate), căt şi
ca medii ponderate (pentru date grupate pe variante sau pe intervale)
- media aritmetică
- media geometrică
- media pătratică
- media armonică
 indicatorii medii de poziţie
- mediana
- modul
Aceşti indicatori caracterizează cu atât mai bine tendinţa centrală cu cât datele pe baza cărora
se determină sunt mai omogene.
Cei mai importanţi şi mai utilizaţi indicatori ai tendinţei centrale sunt: media, mediana, modul.
Lecţia nr. 7

ANALIZA STATISTICĂ A DISTRIBUŢIILOR DE FRECVENŢE.


INDICATORII VARIAŢIEI ŞI ASIMETRIEI

Cuprins:

1.Obiectivele temei.
2.Clasificarea indicatorilor variatiei.
2.1. Indicatorii simpli ai variaţiei.
2.2. Indicatorii sintetici ai variaţiei.
3.Indicatorii asimetriei.
4. Rezumatul lecţiei.

1. Obiectivele unităţii de învăţare

În analiza unei serii statistice ne interesează, pe lângă analiza tendinţei centrale


şi analiza variaţiei sau a variabilităţii, precum şi analiza formei distribuţiei.
Fenomenele şi procesele economico-sociale sunt complexe, aflându-se sub
influenţa unui număr mare de factori esenţiali şi întâmplători, ceea ce face ca media,
cel mai utilizat indicator al tendinţei centrale, să nu fie suficientă pentru analiza
acestor fenomene.

☺ Exemplul 1
Fie următoarele seturi de date:
2 4 6 8 10 12 14

x1  Me1
5 6 7 8 9 10 11

x 2  Me 2
Se observă că deşi cele două serii au aceeaşi medie şi mediană
x1  x 2  Me1  Me2  , ele diferă prin modul de împrăştiere a valorilor. De aceea, pe
lângă indicatorii tendinţei centrale se impune şi calculul indicatorilor de variaţie.

In urma parcurgerii acestui capitol, studenţii vor putea :


 studia reprezentativitatea mediei pentru o serie de date;
 aprecia gradul de omogenitate a seriei;
 caracteriza gradului de variaţie a unei serii;
 compara în timp şi spaţiu variaţia mai multor serii de repartiţie pentru
aceeaşi caracteristică sau pentru caracteristici diferite care au fost
înregistrate pentru aceeaşi colectivitate;
 cunoaşte forma distribuţiei (repartiţiei) de frecvenţe prin comparaţie cu
distribuţia normală

2. Clasificarea indicatorilor variaţiei

Indicatorii variaţiei pentru o serie statistică se clasifică în:


 indicatori simpli ai variaţiei – sunt acei indicatori care arată împrăştierea
valorilor una faţă de alta sau împrăştierea valorilor faţă de o anumită
valoare;
 indicatori sintetici ai variaţiei – care iau în considerare toţi termenii seriei în
calculul lor, sintetizând într-o singură valoare întreaga împrăştiere din serie.

2.1. Indicatorii simpli ai variaţiei

Indicatorii simpli ai variaţiei se exprimă atât în mărimi absolute (având aceleaşi


unităţi de măsură ca şi caracteristica studiată), cât şi în mărimi relative (obţinute prin
raportarea mărimii absolute la medie).
Indicatorii simpli ai variaţiei sunt:
 amplitudinea absolută a variaţiei;
 amplitudinea relativă a variaţiei;
 abaterile individuale absolute;
 abaterile individuale relative.
Amplitudinea absolută a variaţiei (Ax) se determină ca diferenţă între
valoarea maximă (xmax) şi valoarea minimă (xmin) a caracteristicii şi arată câmpul
maxim de împrăştiere a valorilor caracteristicii.
Ax = xmax - xmin
Are unitatea de măsură a valorilor caracteristicii şi din acest motiv nu poate fi
folosită la compararea seriilor după caracteristici exprimate în unităţi de măsură
diferite.
Se utilizează în etapa de grupare a datelor, mai precis la construirea intervalelor
de variaţie şi se mai utilizează şi la construirea graficelor.
Amplitudinea este foarte sensibilă la valorile extreme. Cu cât acestea sunt mai
îndepărtate cu atât câmpul de împrăştiere a valorilor este mai mare.
Amplitudinea relativă a variaţiei (Ax(%)) se obţine prin raportarea amplitudinii
absolute la medie. Se exprimă în coeficient sau procente, deci pot fi comparate serii
după caracteristici exprimate în unităţi de măsură diferite:
Ax
A x (%)   100
x
Abaterile individuale absolute care ne arată împrăştierea fiecărei valori de la
valoarea medie:
di  x i  x

În practică se utilizează mai mult abaterea absolută maximă şi abaterea


absolută minimă:
d max  x max  x  0

d min  x min  x  0

Abaterile individuale absolute se exprimă prin aceeaşi unitate de măsură ca şi


caracteristica studiată şi pot lua valori negative sau pozitive după cum valoarea
individuală este mai mică sau mai mare ca media.
Dacă di în valoare absolută au valori mari putem concluziona că datele sunt
împrăştiate, adică există o variaţie mare în interiorul seriei.
Suma valorilor abaterilor individuale absolute este nulă:

 d i   x i  x   0
n n

i 1 i 1

Suma abaterilor maxime şi minime luate în modul este egală cu amplitudinea


absolută a variaţiei:
d max  d min  A x

Dacă în cazul unei serii, abaterea maximă absolută diferă mult de valoarea
abaterii minime absolute luată în modul, atunci pentru seria respectivă trebuie
calculaţi pe lângă indicatorii variaţiei şi indicatorii de asimetrie.
Într-o serie simetrică:
d min  d max

Abaterile individuale relative se exprimă în coeficienţi sau procente şi se


calculează raportând abaterile individuale absolute la medie:
 d max
di d max(%)   100
d i(%)   100  x
d
x  d min(%)  min  100
 x
Toţi aceşti indicatori simpli prezintă dezavantajul că nu sintetizează, într-o
singură valoare, împrăştierea tuturor termenilor din seria analizată.
Pentru a elimina acest dezavantaj calculăm indicatorii sintetici ai variaţiei.

2.2. Indicatorii sintetici ai variaţiei

Indicatorii sintetici ai variaţiei sunt:


 abaterea medie liniară d ; 
 dispersia (varianţa);
 abaterea medie pătratică (abatere medie standard sau tip);
 coeficientul de variaţie.

Abaterea medie liniară d se calculează ca o medie aritmetică simplă (în
cazul seriilor simple) sau ponderată (în cazul seriilor de distribuţie de frecvenţe) a
abaterilor termenilor seriei de la media lor în valoare absolută.
- pentru o serie simplă:
n
 xi  x
d  i 1
n
- pentru o serie de distribuţie de frecvenţe absolute:
k
 xi  x  ni
d  i 1
k
 ni
i 1

În cazul în care seria de distribuţie de frecvenţe este pe intervale, atunci x i este


centrul intervalului.
- pentru o serie de distribuţie de frecvenţe relative:
k
 x i  x  n *i
d  i 1 - dacă n *i sunt exprimate în procente
100
k
d   x i  x  n *i - dacă n *i sunt exprimate în coeficienţi
i 1

În locul mediei, pot fi folosiţi şi alţi indicatori ai tendinţei centrale.


Dezavantaje ale abaterii medii liniare:
 se exprimă în aceeaşi unitate de măsură ca şi caracteristica analizată, deci
nu poate fi utilizată la compararea a două sau mai multe serii după
caracteristici exprimate în unităţi de măsură diferite;
 nu ţine seama de semnul algebric;
 nu ţine seama de faptul că abaterile mai mari în valoare absolută
influenţează în mai mare măsură gradul de variaţie al unei caracteristici
comparativ cu abaterile mici.
Pentru a înlătura aceste dezavantaje se calculează şi alţi indicatori sintetici ai
variaţiei.

Dispersia se calculează ca medie aritmetică simplă (în cazul seriilor simple)


sau ponderată (în cazul seriilor de distribuţie de frecvenţă) a pătratelor abaterilor
termenilor seriei de la tendinţa centrală (cel mai adesea media aritmetică).
- pentru o serie simplă:

 x i  x 
n 2

 2  i 1
n
- pentru o serie de frecvenţe absolute:
 x i  x 
k 2
 ni
i 1
 
2
k
 ni
i 1

- pentru o serie de frecvenţe relative:

 x i  x 
k 2
 n *i
 2  i 1
100
sau

 2  n *i
k
2   xi  x
i 1

Dacă datele provin din eşantioane de volum redus şi le folosim pentru extinderea
rezultatelor la nivelul colectivităţii generale (le folosim pentru o inferenţă statistică),
atunci în calculul dispersiei la numitor se va folosi (n-1) şi nu “n” fiind astfel dispersia
eşantionului un estimator mai bun al dispersiei în colectivitatea generală:

 x i  x 
n 2

s 2  i 1
n 1
Dispersia prezintă dezavantajul că este un indicator abstract care nu are o
unitate concretă de măsură. Ea arată modul în care gravitează termenii seriei în jurul
tendinţei centrale (de obicei media). Dacă dispersia unei serii este egală cu 0, atunci
acea serie nu prezintă variaţie, toţi termenii ei fiind egali. Cu cât valoarea dispersiei
creşte faţă de zero, cu atât împrăştierea termenilor seriei creşte şi ea.
Este un indicator deosebit de util în studiile statistice, fiind utilizată în calculul
asimetriei, excesului, boltirii unei serii, precum şi în calculul altor indicatori statistici.

Dispersia caracteristicii alternative:


Frecvenţa
Varianta xi Frecvenţe relative
ni
DA 1 m m
n
nm
NU 0 n–m 1 w
n
Total - n 1
 x i  x 
2 2
 ni
 2w  i 1

1  w 2  m  0  w 2  (n  m) 
2 n
 ni
i 1
nm
 1  w 2   1  w 2  w  w 2  (1  w ) 
m
 w2 
n n
 w 1  w 1  w  w   w 1  w 

Dispersia caracteristicii alternative este egală cu produsul dintre cele două


frecvenţe relative.
Dispersia caracteristicii alternative prezintă următoarele particularităţi:
 dispersia caracteristicii alternative poate lua valori doar în intervalul:
 2w  0, 0,25

 când w = 1 – w, adică w = 0,5, dispersia atinge valoarea maximă  2w  0,25 ;

 dacă w  1 – w, adică w  0,5 şi w creşte uniform în cadrul intervalului (0,


0,5) atunci  2w înregistrează o creştere mai rapidă la început şi mai lentă
când se apropie de limita superioară;
 dacă w  1 – w, adică w  0,5 şi w creşte uniform în cadrul intervalului (0,5,
1) atunci  2w înregistrează o scădere în acelaşi ritm în care a avut loc
creşterea.

Abaterea medie pătratică (abatere standard, abatere tip sau ecart tip) se
calculează ca o medie pătratică a abaterilor termenilor seriei de la media lor sau ca
radical din dispersie.
Abaterea medie pătratică ne arată cu cât în medie se abat termenii unei serii de
la tendinţa centrală (de obicei media):
- pentru o serie simplă:

 x i  x 
n 2

   2  i1
n
- pentru o serie de frecvenţe absolute:

 x i  x 
k 2
 ni
i 1
   2
k
 ni
i 1
- pentru o serie de frecvenţe relative:

 x i  x 
k 2
 n *i
   2  i1
100

Este foarte dificil să comparăm serii de date după caracteristici exprimate prin
aceeaşi unitate de măsură deoarece variabilitatea depinde de ordinul de mărime.
Abaterea medie pătratică are aceeaşi semnificaţie ca şi abaterea medie liniară,
dar ea obţinându-se prin ridicarea la pătrat a abaterilor individuale de la tendinţa
centrală (medie) înlătură dezavantajul acordării aceleiaşi importanţe atât abaterilor
mari cât şi celor mici.
Abaterea medie pătratică are aceeaşi unitate de măsură cu a caracteristicii
studiate, de aici provenind dezavantajul că nu pot fi comparate colectivităţi după
caracteristici exprimate prin unităţi de măsură diferite.
Deoarece x  x p rezultă că d   .

În cazul unei serii de distribuţie de frecvenţe simetrică sau uşor asimetrică,


adică pentru o serie cu tendinţă de normalitate între abaterea medie liniară şi
abaterea medie pătratică există relaţia:
d  0,8  

Coeficientul de variaţie este cel mai utilizat şi mai semnificativ indicator pentru
analiza variaţiei. Se calculează ca raport între abaterea medie pătratică sau liniară şi
medie.
 d
v  100 sau v'   100
x x
v  v’
Coeficientul de variaţie se exprimă procentual, deci putem aprecia că el
reprezintă exprimarea relativă a lui  sau a lui d .
Dacă v = 0 seria este perfect omogenă, toţi termenii seriei sunt egali între ei şi
sunt egali cu media: în acest caz nu există variaţie.
Dacă v  35%, seria este foarte omogenă, variaţia este foarte mică, media este
foarte reprezentativă, iar gruparea a fost foarte bine executată (în cazul seriilor de
distribuţie de frecvenţe).
Dacă v  35%, seria este omogenă.
Dacă v  35%, seria este eterogenă, variaţia este foarte mare, media nu este
reprezentativă, iar gruparea trebuie refăcută.

3. Indicatorii de asimetrie

Asimetria unei serii de distribuţie empirice poate fi determinată atât prin metoda
grafică cât şi prin calculul indicatorilor de asimetrie.
Reprezentarea grafică cea mai utilizată pentru aprecierea asimetriei este
poligonul frecvenţelor, dar graficul ne oferă doar o imagine sugestivă asupra gradului
de asimetrie, fără a putea să-l măsoare printr-o valoare exactă.

ni ni ni

x
x  Me  Mo xi Mo Me x xi x Me Mo xi

Serie perfect simetrică Serie asimetrică cu Serie asimetrică cu


(Clopotul lui Gauss) asimetrie de stânga sau asimetrie de dreapta sau
pozitivă, predomină negativă, predomină
valorile mici valorile mari
x  Me  Mo x  Me  Mo

Pentru distribuţii moderat asimetrice, între x , Me, Mo există următoarea



relaţie: Mo  x  3 Me  x 
Tipuri de repartiţii cu asimetrie pronunţată:

ni ni

0 xi 0 xi
Repartiţii în formă de J se întâlnesc în cazul în care frecvenţele sunt maxime la
un capăt sau altul al intervalului de variaţie.

ni

0 xi

Repartiţie în formă de U se întâlneşte atunci când frecvenţele maxime apar la


capetele intervalului de variaţie, iar frecvenţele minime în centrul intervalului.

ni

0
xi
Repartiţie complexă obţinută prin suprapunerea a trei repartiţii: una în formă de
J şi două moderat asimetrice. Acest tip de repartiţii apare frecvent când gruparea nu
a fost executată corect.
Indicatorii asimetriei sunt:
- asimetrie absolută:
As  x  Mo sau 
As  3 x  Me 
Aceşti indicatori au unitatea de măsură a caracteristicii analizate, deci prezintă
dezavantajul că nu pot fi comparate din punct de vedere al asimetriei serii după
caracteristici exprimate prin unităţi de măsură diferite.
Aceşti indicatori pot fi pozitivi (în cazul asimetriei de stânga) sau negativi (în
cazul asimetriei de dreapta).
Datorită faptului că o distribuţie se caracterizează şi prin variabilitate, pentru
aceeaşi asimetrie absolută, o serie care are variabilitatea mai mică va fi mai
pronunţat oblică, iar pentru una cu variabilitatea mai mare, oblicitatea se va atenua.
- asimetrie relativă:
De aceea se calculează coeficientul de asimetrie propus de Pearson
(statistician englez 1857-1936):
x  Mo
Cas    1, 1

Dacă Cas = 0 seria este perfect simetrică:
x  Me  Mo
Dacă Cas  0 seria prezintă asimetrie pozitivă sau de stânga:
x  Me  Mo (predomină valorile mici)
Dacă Cas  0 seria prezintă asimetrie negativă sau de dreapta:
x  Me  Mo (predomină valorile mari)
Cu cât Cas este mai apropiată de 1 seria este mai asimetrică.
Dacă Cas  [-0,3; 0,3] seria este uşor sau moderat asimetrică.
Acest coeficient este recomandat numai pentru serii de repartiţie uşor
asimetrice.
Dacă se cunoaşte mediana seriei, coeficientul de asimetrie se poate calcula cu
relaţia:

Cas 

3 x  Me 
  3, 3

Acest indicator este recomandat numai pentru serii de repartiţie uşor asimetrice
când între cei trei indicatori ai tendinţei centrale există relaţia:

Mo  x  3 Me  x 
Cu cât Cas este mai apropiat de 0 cu atât seria este mai simetrică, iar cu cât se
apropie de extremităţile intervalului, asimetria devine mai pronunţată.
Aceşti doi indicatori ai asimetriei sunt cei mai utilizaţi în practică, dar în afară de
aceştia se mai utilizează şi alţi indicatori.

4. Rezumatul lecţiei

Fenomenele şi procesele economico-sociale sunt complexe, aflându-se sub influenţa unui


număr mare de factori esenţiali şi întâmplători, ceea ce face ca media, cel mai utilizat
indicator al tendinţei centrale, să nu fie suficientă pentru analiza acestor fenomene. De
aceea, pe lângă indicatorii tendinţei centrale se impune şi calculul indicatorilor de variaţie.
Indicatorii variaţiei pentru o serie statistică se clasifică în:
 indicatori simpli ai variaţiei – sunt acei indicatori care arată împrăştierea valorilor
una faţă de alta sau împrăştierea valorilor faţă de o anumită valoare;
 indicatori sintetici ai variaţiei – care iau în considerare toţi termenii seriei în calculul
lor, sintetizând într-o singură valoare întreaga împrăştiere din serie.
Cu ajutorul indicatorilor variaţiei putem:
 studia reprezentativitatea mediei pentru o serie de date;
 aprecia gradul de omogenitate a seriei;
 caracteriza gradului de variaţie a unei serii;
 compara în timp şi spaţiu a mai multor serii de repartiţie pentru aceeaşi
caracteristică sau pentru caracteristici diferite care au fost înregistrate pentru
aceeaşi colectivitate;
 cunoaşte gradul de influenţă a factorilor după care s-a efectuat gruparea;
 cunoaşte forma distribuţiei (repartiţiei) de frecvenţe prin comparaţie cu distribuţia
normală
Lecţia nr. 8

INTRODUCERE IN TEORIA SONDAJULUI

Cuprins:

1. Importanţa sondajului.
2. Avantajele şi dezavantajele utilizării sondajului.
3. Tipuri de sondaj.
4. Principii de bază ale inferenţei statistice. Eşantionarea.
5. Procedee de eşantionare.
6. Erori întâlnite în sondaj.
7. Conceptele estimaţiei. Construcţia intervalelor de încredere.
8. Rezumatul lectiei.

1. Importanţa sondajului

Metodele statistice pot fi descrise printr-un ansamblu de procedee de


selectare, colectare şi organizare a datelor, urmate de sistematizarea, prezentarea şi
analiza acestora, în scopul obţinerii cantităţii de informaţie necesară luării deciziilor în
timp util. În general managerii solicită valori centralizatoare, tipice, cu o largă reprez
Succesul sau falimentul în afaceri depinde de nevoile şi preferinţele clienţilor. De
exemplu, organizatorii de cursuri de perfecţionare, care îşi orientează prezentările
făcute cursanţilor utilizând calculatoare mari, voluminoase, timp în care cererea pe
piaţă este orientată spre calculatoare din ce în ce mai mici, multitasking, uşor de
transportat, chiar miniaturale, se vor afla cu câteva decenii în urmă. Dacă un post de
radio, transmite programe radiofonice pentru studiul limbii engleze, în timp ce
majoritatea audienţei este interesată de telenovelele de limbă spaniolă, va găsi foarte
puţine companii dispuse să plătească spaţiu publicitar în timpul acelei emisiuni. Sau
care ar putea fi soluţia pentru o companie comercială care îşi propune să identifice şi
să estimeze cererea potenţială de cursuri din altă localitate sau altă regiune şi cum ar
putea să decidă extinderea reţelei sale ?

1
Răspunsul la acest tip de întrebări poate fi găsit prin aplicarea unei tehnici de
cercetare şi studiu al pieţei denumită sondaj.
Sondajul reprezintă o cercetare parţială, al cărei scop este de estimare a
caracteristicilor populaţiei generale pe baza rezultatelor obţinute de la un eşantion
riguros prelevat. Acestă metodă de investigaţie statistică parţială se bazează pe
principiile teoriei probabilităţilor, statisticii matematice şi legii numerelor mari. Teoria
sondajului are ca obiect principal elaborarea metodelor ştiinţifice de modelare a
problemelor legate de culegerea şi analiza datelor., reprezentativitate, preferând
informaţii sintetice în locul detaliilor ce pot descrie situaţii netipice.
Sondajul se utilizeaza frecvent pentru luarea deciziilor in mediul economic si
social nefiind doar un concept promovat de statisticieni. Scopul sondajului este sa
ofere suficiente informatii despre esantion astfel incat sa permita inferenta cu un nivel
de incredere acceptat. Mijlocul prin care realizeaza scopul este selectia unei parti
reprezentative din populatia mama (“normally representative”), parte denumita
ESANTION.

2. Avantajele şi dezavantajele utilizării sondajului

Avantajele utilizării sondajului


În mod cert calea optimă de obţinere a informaţiilor complete şi exacte
referitoare la o populaţie este de a organiza o cercetare totală. Atunci când acest
lucru nu este posibil sau nu există resurse suficiente pentru o astfel de investigaţie,
se recurge la sondaj. Principalele avantaje ale sondajului sunt faptul că necesită
costuri mai reduse comparativ cu cercetarea totală şi calitatea deosebită a
rezultatelor obţinute dintr-o cercetare parţială ştiinţific organizată,sunt uneori
superioare celor obţinute în urma unei cercetări totale.
Deşi datele de sondaj sunt afectate de erori de eşantionare şi de observare,
acestea din urmă pot fi mult reduse datorită pregătirii specifice a personalului ce
lucrează la realizarea sondajelor. Prin utilizarea sondajului există posibilitatea de a
cuprinde în programul observării un număr mai mare de caracteristici decât în
programul unei cercetări totale. De asemenea cercetarea selectivă se utilizează
pentru testarea rezultatelor unei cercetări exhaustive cât şi la verificarea unor ipoteze
statistice.

2
Principalele avantaje ale utilizarii sondajului sunt costul redus, timp mai mic
decat in cazul efectuarii unui recensamant si obtinerea unei acurateti sporite a
rezultatelor. Alte avantaje sunt:
 Posibilitatea aplicării sondajului şi în cazul efectuării de teste
distructive.
 Utilizarea în situaţii în care natura populaţiei nu permite enumerarea
unităţilor statistice: mulţimea consumatorilor vs. mulţimea clienţilor
permanenţi.
Dezavantajul principal este posibilitatea obţinerii de date nereprezentative,
datele statistice culese prin sondaj inducând în mod inevitabil erori. Un alt dezavantaj
al acestei metode îl constituie imposibilitatea de a urmări fenomenele în dinamică,
sondajul surprinde static caracteristicile unităţilor observate, ceea ce poate fi corectat
prin organizarea de observări selective periodice, cu periodicitate constantă.

3. Tipuri de sondaje

Exista mai multe criterii de clasificarea sondajelor. După procedeul de selecţie,


aleatoare sau nealeatoare, eşantioanele sunt:
- Eşantioane bazate pe judecata cercetătorului – orice eşantion care este format pe
baza experienţei şi expertizei cercetătorului, ca de exemplu sondajul pe cote.
- Eşantioane aleatoare - realizate după scheme probabilistice.
Tipurile de sondaje aleatoare sunt:
 Sondaj simplu aleator: sanse egale acordate unitatilor de fi cuprinse
in esantion
 Sondaj stratificat – pe GRUPE, straturi formate dupa anumite variabile
independente (de forma M/F de exemplu)
 Sondajul sistematic – alegerea se face dupa un pas de numarare
 Sondaj “cluster” – pe GRUPURI

SONDAJ SIMPLU ALEATOR


 Fiecare unitate din populaţia mamă are aceeaşi probabilitate de
a face parte din eşantion
 Fiecare unitate din eşantion are aceeaşi şansă de apariţie

3
 Foloseşte numere aleatoare după schema cu bila revenită
(sondaj cu ÎNLOCUIRE) sau cu bila nerevenită (sondaj FĂRĂ
ÎNLOCUIRE)
SONDAJUL STRATIFICAT
Eşantionul aleator stratificat este obţinut prin separarea populaţiei pe straturi,
grupe, ce se exclud reciproc, doar după această operaţiune se extrage un eşantion
aleator din fiecare strat.
Criterii de separe a populaţiei pe straturi, variabile independente sunt de
exemplu:
 Gen
 Varsta
 Ocupatie
 Venitul gospodariei
 Religie
 Numar de copii sub 18 ani din gospodarie
 Locatia
 Brand-ul

SONDAJUL CLUSTER
Eşantionul cluster eşantion aleator de grupuri sau elemente
Se utilizează când nu se poate produce lista membrilor populatiei datorita
necunoasterii tuturor sau a dispersiei teritoriale, de exemplu se formeaza clustere de
ACTIONARI

4. Principii de baza ale inferenţei statistice. Eşantionarea

Principiile de bază ale inferenţei statistice, efectuată în urma analizei


datelor de sondaj, implică şi în studiul pieţei serviciilor de consultanţă în resurse
umane, noţiunile de experiment, rezultat, spaţiul eşantionului, eveniment şi
probabilitate.
Ideea unui experiment include exemple precum aruncarea unei monede,
măsurarea numărului de angajaţi sau chestionarea managerului unei firme în
legătură cu obţinerea de profit sau pierdere. Asemenea experimente au posibile

4
răspunsuri, finite sau infinite ca număr, ce formează spaţiul de sondaj. De exemplu
o firmă poate obţine profit negativ , deci pierdere, profit zero, sau proft pozitiv, deci
beneficiu, categorii ce reprezintă rezultate. Seturile formate din aceleaşi categorii
formează evenimente. Posibilitatea ca firmele să fie solvabile deci să obţină profit
zero sau pozitiv, reprezintă un eveniment.
În teoria sondajului rezultatele unui număr mare de experimente sunt datele
primare. În anumite cazuri putem presupune că fiecare rezultat este independent de
cel precedent, aşa cum un număr al zarului este independent de celelalte aruncări. În
condiţiile în care cunoaştem mecanismul de probabilitate, putem calcula
probabilitatea de apariţie a fiecărui rezultat. Teoria sondajului se preocupă cu
aplicarea teoriei probabiltăţilor pentru seturi de date primare.
Dacă în urma unei cercetări se înregistrează doar informaţii parţiale, este
posibil ca datele înregistrate să fie utilizate pentru obţinerea intervalelor de încredere
cu o anumită probabilitate dacă setul de date respectă condiţiile de
reprezentativitate pentru populaţia din care a fost extras.
Pentru a se putea estima corect parametrii colectivităţii de selecţie pe baza
rezultatelor prelucrării datelor de sondaj, estimaţie garantată cu o anumită
probabilitate, este necesar ca eşantionul pe baza căruia se culeg datele primare să
fie reprezentativ.
Un eşantion este reprezentativ dacă structura sa reproduce cât mai exact
structura populaţiei de referinţă din care a fost prelevat.
Pentru asigurarea reprezentativităţii eşantionului este necesar să se respecte
anumite reguli dintre care amintim:
a. includerea unităţilor în eşantion să se realizeze în manieră cât mai
obiectivă, toate unităţile trebuie să aibe acceaşi şansă de a participa la
formarea eşantionului - extragerea unităţilor să se realizeze conform
principiilor hazardului cu o probabilitate egală şi diferită de zero.
b. mărimea eşantionului să fie suficientă pentru a reda caracteristicile
esenţiale ale populaţiei generale
c. includerea fiecărei unităţi în eşantion trebuie să se facă independent de
cuprinderea altor unităţi
Determinarea gradului de reprezentativitate a populaţiei studiate la un moment
dat ridică probleme deosebit de dificile în calea evaluării cercetărilor, aceasta
deoarece, de cele mai multe ori, nu pot fi cunoscute în prealabil caracteristicile

5
relevante ale populaţiei ce urmează a fi cercetată şi se procedează la estimări mai
mult sau mai puţin corecte; se ajunge la identificarea acestor caracteristici numai în
urma studiului, când de fapt nu se mai poate interveni pentru alegerea “populaţiei
adecvate”.
Cu excepţia cazurilor, rare dealtfel, în care ne pot ajuta evidenţele, numai
efectuarea unor înregistrări prealabile cercetării propriu-zise ne permite să ne fixăm,
în cunoştinţă de cauză, la o anumită populaţie relevantă pentru tema şi obiectivele
cercetării.
Studiile statistice exhaustive prealabile, deşi necesare, sunt puţin practicate
totuşi datorită împovărării costurilor de cercetare, a creşterii timpului afectat şi a
muncii depuse. Determinarea cu maximă precizie a caracteristicilor economice, de
piaţă, politice şi de altă natură ale colectivităţii studiate, ca şi dispunerea ei spaţială
se înscriu drept cerinţe elementare, obligatorii pentru o cercetare concretă.

5. Procedee de eşantionare

Eşantionul este un segment al populaţiei studiate ales să o reprezinte în


ansamblu. Reprezentativitatea acestuia asigură corectitudinea estimărilor efectuate
pe baza calculului indicatorilor de sondaj şi a inferenţei statistice realizate. Atunci
când alege eşantionul cercetătorul trebuie să răspundă la mai multe categorii de
întrebări : i) CINE urmează să fie studiat (care este unitatea de sondaj?); ii) CÂTE
unităţi va cuprinde eşantionul (volumul eşantionului desigur influenţează siguranţa
rezultatelor, dar, dacă este bine ales, şi un eşantion de sub 1% din populaţia totală
poate furniza rezultate cu o probabilitate ridicată); iii) care sunt CRITERIILE de
alegere a unităţilor în eşantion (care este procedeul de eşantionare folosit?).

Folosind eşantionarea aleatoare, probabilistică, fiecare unitate componentă a


populaţiei studiate are o anumită probabilitate, cunoscută de a fi inclusă în eşantion,
putându-se estima eroarea de eşantionare. Atunci când procedeele aleatoare sunt
prea costisitoare sau durează prea mult, studiile de piaţă apelează şi la eşantionare
neprobabilistică sau mixtă, caz în care nu pot fi estimate erorile de eşantionare.

Eşantionare aleatoare
Pentru a respecta caracterul aleator al formării eşantionului, procedeul de
eşantionare nu trebuie să fie influenţat de analist. Un eşantion este aleator dacă

6
toate unităţile extrase din colectivitatea generală au avut aceeaşi şansă (probabilitate
egală şi diferită de zero) de a participa la eşantion. Rezultatele unui sondaj efectuat
pe baza unui eşantion aleator pot fi interpretate probabilistic.

Eşantionarea aleatoare se realizează după planuri de sondaje simple (pentru


sondaje în populaţii omogene putându-se aplica şi pentru populaţii neomogene),
după planuri de sondaj în mai multe etape (stratificarea, sondajul multistadial,
multifazic, de serii, secvenţial). Această metodă de eşantionare este indicată a se
folosi în cazul în care unităţile din populaţie sunt de dimensiuni mici şi nu există
diferenţe semnificative între mărimea unităţilor populaţiei.

Această condiţie este rar îndeplinită în totalitate, în practica de piaţă


economică. De aceea se recomandă aplicarea de metode de eşantionare cu
probabilităţi inegale, în ipoteza că unităţile au şanse diferite de a face parte din
eşantion. Pentru aplicarea acestei metode este necesară cunoaşterea unor date
auxiliare despre populaţie. În unele cazuri eşantionarea cu probabilităţi inegale poate
fi mai avantajoasă decât cea cu probabilităţi egale.

De exemplu, dacă estimăm numărul angajaţilor dintr-o regiune, cu scopul de


a planifica cifra de şcolarizare la o firmă de instruire, vom folosi datele dintr-un
eşantion de judeţe, extrase aleator, pentru care se cunoaşte populaţia fiecarui judeţ
(în urma ultimului recensământ). Dacă notăm cu Xi numărul firmelor din judeţul i
cuprins în eşantion, cu N numărul judeţelor tării şi cu n numărul judeţelor cuprinse în
eşantion, sum(Xi) estimează numărul firmelor la nivel naţional. Judeţele, indiferent
de mărimea lor au avut şanse egale de a participa la eşantion. Dar, numărul firmelor
depinde în mod evident de populaţia judeţului şi deci estimatorul poate fi afectat de o
eroare semnificativă.
Pornind de la ipoteza existenţei unei legături directe, pozitive între populaţia
unui judeţ şi numărul de firme comerciale, se poate acorda judeţelor mai mari o
şansă mai mare de a face parte din eşantion. Probabilitatea ce i se va atribui fiecărui
judeţ va fi proporţională cu populaţia sa. Procedeul de extracţie va fi nerepetat.
Estimatorul devine: (P/n)*sum(Xi/pi), unde P este populaţia întregii ţări, pi populaţia
judeţului i din eşantion.
Din procedee de extracţie cu probabilităţi egale amintim procedee absolut
aleatoare ,procedeul loteriei şi al tabelului cu numere întamplatoare şi procedeul
mecanic, eşantionare sistematică.

7
Eşantionare dirijată şi mixtă

Eşantionarea dirijată apare în cadrul sondajului efectuat de un expert sau un


observator bun cunoscător al caracteristicilor populaţiei din care se va extrage
eşantionul, care va include în eşantion, în mod conştient, unităţile alese după
părerea sa subiectivă. Acest procedeu de eşantionare este mult mai ieftin decât cele
probabilistice şi se poate aplica dacă eşantioanele sunt atât de mici încât inferenţele
efectuate pe baza lor nu ar reprezenta decât o simplă ipoteză ce nu ar putea fi
testată, indiferent de metoda de prelevare utilizată.

Datele disponibile pot prezenta un grad ridicat de nesiguranţă, ceea ce va


face ca opinia unui expert să ducă la obţinerea de rezultate mai bune. Selecţia
dirijată nu permite stabilirea gradului de precizie a unei estimaţii făcute pe baza ei,
precizia depinde direct de numeroase circumstanţe. În practică se aplică aceasta
metodă de eşantionare datorită imposibilităţii respectării condiţiilor de efectuare a
unei eşantionări aleatoare (baza de sondaj completă şi fără omisiuni, cunoaşterea
unor informaţii suplimentare despre unităţile cuprinse în eşantion).

Cea mai utilizată metodă de eşantionare dirijată în cercetările de piaţa şi


anchetele economico - de piaţă este cea pe cote. În acest caz se cunoaşte structura
populaţiei studiate după sex, vârstă, categorie socio-profesională. În cadrul fiecărei
grupe se cuprinde un număr de persoane alese de către operator. Acestuia i se
comunică doar caracteristicile persoanelor ce trebuie intervievate, numărul lor pe
fiecare grupă în parte şi structura populaţiei studiate. Se presupune că eşantionul
este reprezentativ dacă el redă structura populaţiei generale studiate.
Metoda se bazează pe o alegere raţională a unităţilor din eşantion. Prin modul
de constituire a eşantionului apare ca o metodă mixtă, combinând metodele
probabilistice cu cele nealeatoare de eşantionare. Asimilarea cu metodele
probabilistice se face în măsura în care putem defini ca probabilităţi frecvenţele
relative definite în cadrul populaţiei. Putem face această echivalenţă dacă volumul
populaţiei de referinţă este suficient de mare pentru a da posibilitatea aplicării legii
numerelor mari.
De aceea, se poate afirma că sondajul pe cote apare ca un sondaj stratificat,
selecţia în cadrul grupelor fiind conştienţa şi nu este aleatoare. Caracterul voluntar al
metodei constituie principalul său dezavantaj, operatorul putând influenţa în mod voit

8
sau nu rezultatele sondajului. Asemănarea dintre eşantionarea stratificată aleatoare
şi cea pe cote constă în stratificarea iniţială a populaţiei de referinţă pe straturi
omogene.
Diferenţa dintre stratificarea aleatoare şi eşantionarea pe cote constă în
procedeul de selecţie al unităţilor din fiecare strat, selecţia în cazul eşantionarii pe
cote fiind lăsată pe seama operatorilor. Deci metoda se bazează pe definirea
caracteristicilor de structurare a populaţiei de referinţă. Astfel pentru fiecare
caracteristică, structura eşantionului trebuie să fie identică cu cea a populaţiei din
care este prelevat. Se definesc variabilele de control , că ansamblul caracteristicilor
reţinute pentru a asigura identitatea între eşantion şi populaţia de referinţă. Stabilirea
variabilelor de control are în vedere obiectivul studiului şi tipul populaţiei de referinţă.
Pentru alegerea criteriilor de cotă, de structurare este recomandabil să se ţină
seama de următoarele îndrumări : definirea varibilelor pe baza întrebărilor cuprinse
în eşantion, folosirea ca variabile de control doar acelea pentru care se poate defini o
distribuţie statistică pentru populatia de referinţă, limitarea numărului de criterii de
cotă, ce trebuie să fie independente, fără să cuprindă conotaţii psihologice şi formate
din unităţi statistice cu un grad cât mai mare de omogenitate. Dacă se respectă
aceste condiţii se poate obţine un eşantion sensibil apropiat de un eşantion extras pe
baza procedeelor aleatoare.
De exemplu, într-un sondaj statistic organizat la nivelul Municipiului
Bucureşti, cu scopul identificării preferinţelor cursanţilor pentru calculatoarelor
personale şi produse program, pentru identificarea segmentelor ţintă pe diferite tipuri
şi categorii de cursanţi pot fi alese ca variabile de control categoria - socio
profesională, vârsta, gradul de educaţie, structura populaţiei după aceste variabile de
segmentare fiind publicate în urma ultimului recensământ.

Această metodă este de departe cea mai utilizată metodă în studiile de piaţă,
deoarece necesită un buget redus de cheltuieli, fiind mai puţin costisitoare decât
orice metodă de eşantionare aleatoare, proiectarea nu este laborioasă, rezultatele se
obţin operativ, într-un timp scurt şi de fapt este singura metodă posibilă dacă nu
există bază de sondaj.

O alta metodă de formare dirijată a eşantionului este metoda voluntariatului


extrem de utilizată în trecut în cercetările medicale şi psihologice. A început să fie din

9
ce în ce mai des utilizată în studiile de marketing. Includerea în eşantion se
realizează pe baza opţiunii voluntare a persoanelor de a participa la eşantion.
Anchetele desfăşurate pe baza metodei voluntariatului se aplică studiului
opiniilor ascultătorilor radioului, cititorilor ziarelor, ”navigatorilor” pe INTERNET.
Metoda constă în publicarea chestionarului în presă, sau afişarea sa într-o pagina de
Web, însoţită de rugămintea de a răspunde. Deşi aceste anchete furnizează un
volum mare de date se pune problema posibilităţii extrapolării rezulatelor, imposibil
de realizat datorită necunoaşterii reprezentativităţii eşantionului celor ce au răspuns.

O a treia metodă de eşantionare dirijată este metoda de eşantionare bazată


pe accesibilitate, cercetătorul alegând acei membrii ai populaţiei de la care se pot
obţine cel mai uşor informaţiile.
Deşi metodele prezentate mai sus nu respectă principiile eşantionarii
aleatoare, sunt folosite destul de des în sondajele de piaţă, fiind efectuate de
specialişti în domeniul marketing-ului, ce contribuie prin cunoştinţele şi experienţa
acumulată la atenuarea dezavantajelor acestor metode de eşantionare.
În practică, se pot combina metodele de eşantionare aleatoare cu cele
dirijate, obţinându-se o combinaţie de avantaje şi atenuarea dezavantajelor fiecăreia.
Un exemplu îl constituie selecţia stratificată. În selecţia stratificată se împarte
întreaga populaţie în straturi (grupe) după criterii de stratificare corespunzătoare
scopului sondajului, şi se alege din fiecare strat cate un subeşantion folosind
procedeul aleator de selecţie.
Eşantionarea stratificată se recomandă a se utiliza în studiul fenomenelor
economico-sociale de masă şi în mod special în studierea fenomenelor de piaţă,
caracterizate printr-un grad mare de eterogenitate. Pentru a creşte gradul de
omogenitate populaţia de referinţă se împarte mai întâi pe grupe omogene. Aplicând
în continuare selecţia aleatoare în fiecare grupă, subeşantionul obţinut va fi omogen.
Erorile de sondaj rezultate vor fi mai mici decât în cazul extragerii eşantionului din
populaţia totală neîmpărţită pe clase omogene.

6. Erori întâlnite în sondaj

Orice măsurare statistică conţine erori. O posibilă clasificare a erorilor, din


mulţimea posibilităţilor de grupare şi clasificare existente poate fi: erori sistematice,

10
grosolane şi aleatoare Erorile sistematice sunt determinate de acţiunea unor factori
ale căror cauze de apariţie pot fi stabilite, iar apoi eliminate. Apariţia erorilor
grosolane este legată de încălcarea condiţiilor de efectuare a experimentului sau a
observaţiei. În teoria erorilor se dau criterii de depistare a erorilor grosolane. Obiectul
teoriei erorilor îl constituie numai erorile aleatoare, care sunt determinate de acţiunea
unor factori greu de depistat, din care cauză efectul acţiunii lor este inevitabil. Erorile
de sondaj mai sunt clasificate în erori de înregistrare, comune tuturor tipurilor de
observare, şi erori de reprezentativitate, specifice sondajului. Erorile de
reprezentativitate sunt la rândul lor: sistematice şi întâmplătoare.
Din punctul de vedere al posibilităţii controlului erorilor, în literatura americană
de studiu al pieţei, erorile mai sunt clasificate în două mari grupe:
1. Erori ce pot fi previzionate: acestea sunt controlabile şi au drept cauze
măsurările statistice ale datelor continue şi rotunjirile efectuate pentru a obţine
rezultate discrete conform conţinutului caracteristicii statistice, deci ele sunt
probabile - sau de sondaj şi de calcul - ambele tipuri putând fi estimate şi efectele
lor controlate. Prin operaţiunea matematică de rotunjire a valorilor înregistrate se
induc erori ce se amplifică dacă rotunjirea continuă în faza de analiză.
Drept urmare putem afirma că datele sunt rotunjite din următoarele motive:
 Dacă caracteristica observată este continuă în anumite cazuri este necesară
rotunjirea pentru a putea exprima magnitudinea datei (de obicei se păstrează
doar două zecimale)
 Pentru caracteristicle discrete rotunjirea are drept scop respectarea
caracterului întreg al acestora.
2. Erori ce nu pot fi previzionate: acestea sunt necontrolabile şi se datorează:
înregistrărilor incomplete sau incorecte, definirii ambigue a caracteristiclor sau
unităţilor statistice ce sunt studiate.
Identificam doua tipuri de erori de sondaj din punctul de vedere al utilizarii
tehnicilor de esantionare:

1. Erori de sondaj, datorate procedurii probabilistice de selectie


 Diferentele dintre valorile estimatorilor si patrametrilor
 Apar cu o anumita probabilitate

2. Erori care nu sunt datorate procedurii de sondaj

11
 Greseli
 Non-raspunsuri
 Imposibilitatea selectarii unor elemente ale populatiei mama
 Inducerea/influentarea raspunsurilor
 Necunoasterea raspunsurilor

Principalele cauze ale erorilor sistematice sunt alegerea deliberată a unor date
considerate în mod greşit ca fiind reprezentative, alegerea la “întâmplare” ce diferă
esenţial de alegerea după principiile probabilistice, dorinţa voită a cercetătorului de a
demonstra o anumită concluzie, substituirea unei unităţi de cercetare cu altă unitate,
în mod voit şi cuprinderea incompletă în sondaj a unităţilor de cercetare.
Spre deosebire, erorile aleatoare de selecţie apar din procesul de sondaj.
Aceste erori se produc chiar dacă se respectă principiile probabilistice, deoarece
eşantionul nu reproduce perfect distribuţia populaţiei generale. Dacă sondajul este
probabilistic, aceste erori pot fi calculate cu anticipaţie. Estimarea parametrilor din
populaţia generală se va efectua pe baza indicatorilor de sondaj, corectaţi cu o
eroare de reprezentativitate ce se găseşte într-un anumit interval probabilistic.
Aceste analize de perspectivă şi aceste proiecţii ale rezultatelor sondajului asupra
populaţiei de referinţă, fac din metoda sondajului un puternic instrument în procesul
luării deciziilor în mediul economico-de piaţă.

7. Conceptele estimaţiei. Construcţia intervalelor de încredere

Obiectivul estimaţiei este caracterizarea nivelului parametrului populaţiei


(indicatorului populaţiei, de exemplu media aritmetică din populaţie) pe baza valorii
estimatorului (indicatorul pentru eşantion, media de sondaj)
Sarcinile fundamentale ale teoriei erorilor sunt definirea legilor de repartiţie a
erorilor aleatoare, obţinerea estimaţiilor mărimilor măsurabile necunoscute, pe baza
datelor unor măsurări repetate şi calculul acestor estimaţii.
Apar 2 tipuri de estimări:
- Estimarea punctuală, printr-o singură valoare
- Estimarea printr-un interval.
Estimarea punctuala caracterizeaza parametrul populatiei prin estimarea
unei singure valori sau a unui PUNCT.

12
Intervalul de estimare denumit şi intervalul de încredere realizează
inferenţa despre populaţie prin estimarea valorii parametrului într-un interval
determinat pentru un anumit nivel de incredere (probabilitate)
Conceptul estimării punctuale trebuie lărgit cu cel al estimării unui interval de
variaţie pentru parametrul populaţiei totale, garantat cu o anumită probabilitate. Într-o
viziune mai largă, dacă parametrul ar fi fost un vector, prin estimarea intervalului s-ar
stabili regiunea critică a acestuia. Un exemplu îl constituie intervalele de încredere.
În cazul unui eşantion de volum n, extras dintr-o populaţie normal distribuită cu
media necunoscută şi deviaţia standard cunoscută, probabilitatea 1 – α este
probabilitatea ca media de sondaj să varieze cu o mărime denumită eroare limită,
±zα/2 .σ √n, utilizată pentru a estima intervalul de variaţie a mediei, şi z α/2este
parametrul corespunzător punctului procentual α/2 al distribuţiei normale standard.

x
Dacă z este: Z 
 n

Putem stabili următoarea declaraţie de probabilitate:


Astfel încât, rescriind obţinem:

 
P( x  za 2    x  za 2 )  1a
n n

unde nivelul de semnificaţie este 1-α este de regulă 5 % pentru o probabilitate de


garantare a rezultatelor de 95%.
Argumentul funcţiei Laplace pentru diverse niveluri de încredere sunt prezentate în
tabelul de mai jos:

Niveluride
Niveluri de
incredere
incredere aa a/22
a/
za/2
0.90
0.90 0.10
0.10 0.05
0.05 1.645
1.645
0.95
0.95 0.05
0.05 0.025
0.025 1.96
1.96
0.98
0.98 0.02
0.02 0.01
0.01 2.33
2.33
.

13
Construcţia intervalelor de încredere pentru media aritmetică

Intervalul de încredere pentru medie se construieşte prin procedeul extinderii


directe.
Acest procedeu constă în estimarea indicatorilor colectivităţii generale, fără ca să se
fi înregistrat în prealabil unităţile ei, cu ajutorul indicatorilor calculaţi din datele
obţinute în urma organizării culegerii datelor de sondaj.

a. Interval de incredere pentru media populaţiei ( σ cunoscut)


Estimarea indicatorilor colectivităţii totale cu ajutorul indicatorilor calculaţi la
nivel de eşantion, face ca aceştia să nu aibă o valoare determinată, ci datorită
erorilor inerente preocedurii probabilistice de sondaj, erorile de reprezentativitate, ei
să se abată de la cei reali. Vom putea spune, cu o anumită probabilitate că ei sunt
plasaţi într-un interval dat de media de sondaj plus (minus) eroarea limită
(inegalitatea lui Cebîşev):
x populaþie  xsondaj   x , adica
 
x  za 2  x  1.96
n n

Unde
n = volumul eşantionului
σ = dispersia variabilei în populaţia mama din care a fost extras eşantionul.

Intervalul de încredere este afectat de:

• deviaţia standard a populaţiei (s)

• nivelul de încredere, probabilitatea de garantare (1-a)

• dimensiunea esantionului (n).

Dimensiunea intervalui de încredere şi implicit acurateţea estimării va creşte prin


creşterea volumului eşantionului. Practic se stabileşte cât se doreşte să fie eroarea
de sondaj şi apoi se determină volumul eşantionului.

Intervalul de încredere este, practic, util auditoriului, utilizatorilor de date


secundare. Afirmatia “estimarea mediei cu ± e unitati”, înseamnă estimarea
intervalului de încredere de forma generală:

14
parametru = valoarea estimatorului ± eroarea de sondaj,

adică:
x e
Dimensiunea eşantionului – sondaj simplu aleator, s cunoscut, procedeul de
selecţie cu bila revenită este:
 za 2 
2

n 
 e 

b. Interval de încredere pentru media populaţiei ( σ necunoscut)

Dacă nu se cunoaşte deviaţia standard din populaţie, s, se va înlocui cu valoarea


estimatorului acesteia, deviaţia standard din eşantion, s.

Inferenţa asupra unei proporţii

Se aplică datelor nominale şi frecvenţelor relative. Estimatorul folosit pentru inferenţă


este indicatorul de sondaj, p, proporţia calculată pentru eşantion.

x
p unde
n
x  numarul _ cazurilor _ de _ succes.
n  volumul _ esantionului.
În anumite condiţii, proporţia în eşantion este normal distribuită cu media m =
π (proporţia din populaţie) şi dispersia = p(1 - p). Dacă procentul din populaţie este
π, valoarea z va fi:

p  procent _ din _ populatie


Z
p(1  p) / n

Greutatea specifică a unităţilor din cadrul colectivităţii totale, care posedă o


anumită caracteristică (luată în considerare în momentul formării eşantionului) poate
fi estimată, cu o precizie antecalculată, astfel încât ea poate lua valori într-un interval
de forma:
p  w   w , adica

p  eroarea_ de _ sondaj  p  e  p  za / 2 p(1  p) / n

15
În acest caz, dispersia din populaţie nu este cunoscută, fiind π (1 - π). Pentru
caracteristica alternativă se va putea estima nivelul lor absolut în carul colectivităţii
totale, ca un produs între limitele intervalului de încredere şi volumul întregului
fenomen, adică:
N (w   w ) . In acest caz volumul esantionului va fi:

2
z p(1  p) 
n   a /2 
 e 

8. Rezumatul Unităţii de învăţare

Sondajul reprezintă o cercetare parţială, al cărei scop este de estimare a


caracteristicilor populaţiei generale pe baza rezultatelor obţinute de la un eşantion riguros
prelevat. Acestă metodă de investigaţie statistică parţială se bazează pe principiile teoriei
probabilităţilor, statisticii matematice şi legii numerelor mari. Tipurile de sondaje aleatoare
sunt:
 Sondaj simplu aleator: sanse egale acordate unitatilor de fi cuprinse in esantion
 Sondaj stratificat – pe GRUPE, straturi formate dupa anumite variabile
independente (de forma M/F de exemplu)
 Sondajul sistematic – alegerea se face dupa un pas de numarare
 Sondaj “cluster” – pe GRUPURI
Intervalul de încredere este, practic, util auditoriului, utilizatorilor de date secundare.
Afirmaţia “estimarea mediei cu ± e unităţi”, înseamnă estimarea intervalului de încredere de
forma generală:
parametru = valoarea estimatorului ± eroarea de sondaj,
adică: x e
Dimensiunea esantionului – sondaj simplu aleator, s cunoscut, procedeul de selectie
cu bila revenita este:
 za 2 
2

n 
 e 

b. Interval de încredere pentru media populaţiei ( σ necunoscut)


Dacă nu se cunoaşte deviaţia standard din populaţie, s, se va înlocui cu valoarea
estimatorului acesteia, deviaţia standard din eşantion, s.
Inferenta asupra unei proportii
Se aplică datelor nominale şi frecvenţelor relative. Estimatorul folosit pentru inferenţă
este indicatorul de sondaj, p, proporţia calculată pentru eşantion.
x
p unde
n
x  numarul _ cazurilor _ de _ succes.
n  volumul _ esantionului.

16
În anumite condiţii, proporţia în eşantion este normal distribuită cu media m = π
(proporţia din populaţie) şi dispersia = p(1 - p). Dacă procentul din populaţie este π, valoarea
z va fi:

p  procent _ din _ populatie


Z
p(1  p) / n

Greutatea specifică a unităţilor din cadrul colectivităţii totale, care posedă o anumită
caracteristică (luată în considerare în momentul formării eşantionului) poate fi estimată, cu o
precizie antecalculată, astfel încât ea poate lua valori într-un interval de forma:
p  w   w , adica

p  eroarea_ de _ sondaj  p  e  p  za / 2 p(1  p) / n

In acest caz, dispersia din populatie nu este cunoscuta, fiind π (1 - π). Pentru
caracteristica alternativă se va putea estima nivelul lor absolut în carul colectivităţii totale, ca
un produs între limitele intervalului de încredere şi volumul întregului fenomen,
adică: N (w   w ) . In acest caz volumul

2
z p(1  p) 
n   a /2 
 e 

17
Lecţia nr. 9

ANALIZA STATISTICĂ A SERIILOR CRONOLOGICE

Cuprins:

1. Obiectivele unităţii de observare.


2. Clasificarea seriilor cronologice.
3. Proprietăţile termenilor unei serii cronologice.
4. Reprezentarea grafică a seriilor cronologice.
5. Prelucrarea seriilor cronologice de momente.
6. Prelucrarea seriilor cronologice pe intervale (sistemul de indicatori).
7. Ajustarea seriilor cronologice.
8. Extrapolarea seriilor cronologice.
9. Rezumatul unităţii de învăţare.

1. Obiectivele unităţii de învăţare

Pentru a cunoaşte procesele şi fenomenele economico-sociale, statistica economică le


studiază pe parcursul întregii lor evoluţii sau la diferite momente de timp.
Evoluţia fenomenelor şi proceselor economice în timp este studiată cu ajutorul seriilor
cronologice sau serii dinamice sau de timp.
In urma parcurgerii acestui capitol, studenţii vor putea :
 identifica tipul seriei cronologice
 reprezenta grafic seriile cronologice
 caracteriza o serie cronologică de momente utilizând un sistem de indicatori specifici
 determina tentinţa de evoluţie în timp a unui fenomen sau proces
 previziona fenomenele şi procesele economice cu ajutorul unor modele deduse din
proprietăţile sistemului de indicatori.
2. Clasificarea seriilor cronologice şi proprietăţile termenilor

Seriile cronologice sunt formate din două şiruri de date, în care primul şir ne arată
variaţia timpului, iar cel de-al doilea şir cuprinde valorile fenomenului sau procesului
economic analizat la momentele sau pe intervalele de timp respective.
Forma generală a unei serii cronologice este:
 t1 t 2 ... t i ... t n 
  i  1, n
 y1 y 2 ... y i ... y n 

Trendul sau tendinţa generală a unei serii cronologice poate fi descris prin relaţia:
y  f t i  i  1, n

Criterii de clasificare a seriilor cronologice:


Există trei criterii principale după care se poate face clasificarea seriilor cronologice:
1) după variaţia timpului putem distinge:
1.1. serii cronologice de intervale denumite şi serii de fluxuri, în care fiecare
termen al seriei arată evoluţia fenomenului sau procesului analizat pe o
perioadă de timp.
Forma generală a unei serii cronologice de intervale este:
t1 t2 tn

t
y1 y2 yn

Exemplu de serii cronologice de intervale:


 producţia trimestrială de aluminiu
- t = trimestrul;
- yt = producţia trimestrială de aluminiu.
 investiţiile imobiliare anuale:
- t = anul;
- yt = investiţiile imobiliare.
Caracteristica principală a acestor serii de timp este aceea că termenii seriei se pot
însuma, obţinându-se astfel un indicator totalizator pe ansamblul perioadei analizate (ex.:
producţia totală de aluminiu pe parcursul perioadei analizate, investiţiile imobiliare totale).
Exemplu:Avem producţiile zilnice de brânză ale unei firme producătoare de produse lactate:
yt = producţia de brânză;
t = ziua.
Însumând producţiile zilnice de brânză dintr-o săptămână obţinem producţia
săptămânală.
Însumând producţiile săptămânale obţinem producţia lunară ş.a.m.d.

1.2. serii cronologice de momente în care fiecare termen al seriei arată nivelul la
care a ajuns fenomenul sau procesul analizat la un anumit moment de timp.
Forma generală a unei astfel de serii este:

t1 t2 tn

t
yn
y1 y2

Exemplu:
 stocurile de materii prime la sfârşitul fiecărei luni
- yt = stocurile de materii prime;
 capitalul fix la sfârşit de an:
- yt = capitalul fix:
 depozitele sau creditele bancare la data de 1 a fiecărei luni:
- yt = depozite sau credite bancare.

Caracteristica principală a unei serii de momente este aceea că termenii seriei nu se pot
însuma pentru că s-ar produce multiple înregistrări.
Exemplu:
Dacă avem depozitele bancare la data de întâi a fiecărei luni, nu putem însuma aceste
depozite deoarece un depozit care este valabil la 1 ianuarie poate să fie valabil şi la 1
februarie etc., şi am înregistra valoarea lui de mai multe ori.

2) după natura termenilor seriei cronologice, adică după modul de exprimare al


termenilor seriei, distingem:
2.1. serii cronologice formate din indicatori absoluţi (evoluţia profiturilor anuale
ale unei bănci comerciale, evoluţia numărului de salariaţi ai unei firme în perioada 2000-
2006). Termenii seriei se exprimă prin unităţi concrete de măsură.
2.2. serii cronologice formate din indicatori relativi (evoluţia lunară a ratei
dobânzii, evoluţia anuală a ratei profitului, evoluţia lunară a ratei inflaţiei). Termenii unei serii
se exprimă de regulă prin procente.
2.3. serii cronologice formate din mărimi medii (evoluţia lunară a salariului
mediu, evoluţia anuală a profitului mediu, evoluţia anuală a înzestrării medii a muncii cu
capital fix). Termenii seriei se exprimă prin unităţi compuse de măsură deoarece se obţin prin
raportarea între doi indicatori absoluţi între care există o relaţie de interdependenţă.
3) după numărul de termeni, seriile cronologice pot fi:
3.1. serii cronologice de lungime mică;
3.2. serii cronologice de lungime medie;
3.3. serii cronologice de lungime mare.

3. Proprietăţile temenilor unei serii cronologice

Seriile cronologice se caracterizează printr-o serie de proprietăţi:


a) variabilitatea termenilor seriilor cronologice se referă la modificarea valorii
caracteristicii (variabilei) la care se referă seria cronologică de la un moment de
timp la altul sau de la o perioadă (interval) de timp la alta:
b) omogenitatea termenilor seriilor cronologice se referă la faptul că toţi termenii seriei
trebuie să fie de acelaşi tip şi să fie rezultatul acţiunii aceloraşi legi. Pentru a se
asigura omogenitatea termenilor seriilor cronologice trebuie să se ţină cont de
modul de exprimare al acestora (care trebuie să fie unitar), cât şi de conţinutul lor
(adică, toţi termenii să aibă aceeaşi unitate de măsură, termenii trebuie să fie
compatibili din punct de vedere al culegerii şi prelucrării datelor). Deci,
omogenitatea termenilor implică comparabilitatea acestora.
c) periodicitatea termenilor unei serii cronologice se referă la forma de manifestare a
fenomenelor în timp cu o anumită regularitate;
d) interdependenţa în timp a termenilor unei serii cronologice provine din
omogenitatea termenilor unei serii cronologice. Această proprietate presupune că
fiecare termen al seriei depinde într-o oarecare măsură de valorile anterioare
înregistrate, adică depinde de termenii precedenţi. Această proprietate ne conduce la
ideea că fenomenele şi procesele social-economice sunt rezultatul unor legi
obiective ce au caracter de tendinţă, tendinţă ce poate fi urmărită pe o perioadă
lungă de timp.
Respectarea tuturor acestor proprietăţi de către o serie cronologică de dimensiuni mari
este foarte greu de realizat.
Caracterizarea unei serii cronologice presupune utilizarea unui sistem de indicatori
specifici şi previzionarea fenomenelor şi proceselor economice cu ajutorul unor modele
deduse din proprietăţile sistemului de indicatori.

4. Reprezentarea grafică a seriilor cronologice

1. Cronograma este utilizată pentru reprezentarea grafică a seriilor cronologice de intervale


sau a seriilor cronologice de momente cu intervale egale între momente.
Cronograma este un tip de grafic care are ca scop evidenţierea variaţiei unui fenomen în
timp în vederea desprinderii tendinţei fenomenului respectiv.
Pentru construirea cronogramei se foloseşte sistemul de axe rectangulare, pe axa OX se
trece timpul sub formă de intervale de timp (timpul se înscrie între două diviziuni succesive)
sau sub formă de momente de timp (timpul se înscrie în dreptul diviziunii), iar pe axa OY se
trec valorile fenomenului analizat în timp (yt). Intersecţia abscisei cu ordonata se face prin
puncte, al căror număr trebuie să fie egal cu numărul termenilor seriei cronologice. Prin
unirea punctelor succesive prin segmente de dreaptă se obţine cronograma.
Cronograma constituie o metodă de analiză empirică a trendului (tendinţei de evoluţie)
adică ea ne permite să alegem funcţia matematică cu ajutorul căreia ajustăm fenomenul
(funcţia de trend sau de ajustare).

☺ Exemplul 1
Fie următoarea serie cronologică de intervale:

Producţia de lapte pasteurizat a unei firme de produse lactate


Luna
(mii litri)
Ianuarie 10
Februarie 15
Martie 20
Aprilie 25
Scara de reprezentare: 1 cm pe OY = 5 mii litri

Fie următoarea serie cronologică de intervale:


Valoarea depozitelor bancare
Data
(mii RON)
01.01. 2000
01.02. 3000
01.03. 2500
01.04. 4000

Scara de reprezentare: 1 cm pe OY = 500 mii RON

2. Diagrama prin coloane


Diagrama prin coloane se utilizează pentru reprezentarea grafică a seriilor cronologice
de momente cu intervale neegale între momente.
Diagrama prin coloane se construieşte utilizând sistemul de axe rectangular. Ea este
formată din dreptunghiuri cu latura mare verticală, iar bazele egale sunt pe axa OX.

☺ Exemplul 2
Fie următoarea serie cronologică de intervale:

Data Stocul de combustibil (mii tone)


01.01. 100
15.01. 80
01.03. 120
31.03. 140

Scara de reprezentare: 1 cm pe OY = 20 mii tone


Atât în cazul cronogramei, cât şi al diagramei prin coloane avem scară de reprezentare
doar pe axa OY.

3. Diagrama polară (radială)


Are la bază o reţea polară formată din cercuri concentrice, iar raza este proporţională cu
nivelul mediu al indicatorilor de reprezentat. Cercul se împarte în atâtea sectoare de cerc câţi
termeni are seria. Dacă variaţia fenomenului analizat este lunară pe parcursul unui an avem 12
sectoare de cerc. Dacă valoarea unui indicator depăşeşte media valorilor individuale, atunci se
vor prelungi cele două raze în afara cercului. Dacă valoarea indicatorului este mai mică decât
media, atunci ea se va situa în interiorul cercului.
După reprezentarea punctelor pe reţeaua polară, acestea se unesc prin segmente de
dreaptă sau printr-o curbă.
Diagrama polară este un grafic utilizat în analiza şi interpretarea sezonalităţii.

☺ Exemplul 3
Numărul de turişti care au sosit într-o staţiune montană în fiecare trimestru al anului 2006 a
fost:

- trim. I : 2000 turişti (y1)

- trim. II : 3000 turişti (y2)

- trim. III : 4000 turişti (y3)

- trim. IV : 2500 turişti (y4)


Media turiştilor sosiţi într-un trimestru este:

y  y 2  y3  y 4
y 1  2875 turişti/trimestru
4

Diagrama polară a numărului de turişti sosiţi în staţiune este:

Trim. II

Legenda

Trim. I
Trim. I

Trim. II

Trim. III
Trim. IV Trim. IV

Trim. III

Diagrama se poate construi şi prin segmente de dreaptă:

Trim. I
1 cm OX, OY = 2000 turişti

Trim. IV Trim. III

Trim. II

5. Prelucrarea seriilor cronologice de momente

Seriile cronologice de momente pot fi:


a) cu intervale egale între momente;
b) cu intervale neegale între momente.
a) În cazul seriilor cronologice de momente cu intervale egale între momente se
pot calcula toţi indicatorii care vor fi prezentati la seriile cronologice pe intervale,
excepţie făcând media care în acest caz se va calcula ca o medie cronologică
simplă:
y1 y
 y 2  y 3  ...  y n 1  n
y 2 2
n 1

☺ Exemplul 4
Populaţia unui judeţ la: 01.01.98 : 364.500 y1
01.04.98: 365.000 y2
01.07.98: 367.800 y3
01.10.98: 370.100 y4
31.12.98: 372.200 y5
y  367.813

b) În cazul seriilor cu intervale neegale între momente singurul indicator care se


poate calcula este media cronologică ponderată:

t1 t2 t3 t4 tn-1 tn

d1 d2 d3 dn-1

d d  d2 d  d3 d  d n 1 d
y1  1  y 2  1  y3  2  ...  y n 1  n 2  y n  n 1
y 2 2 2 2 2
d1  d 2  ...  d n 1

☺ Exemplu 5
Populaţia unui judeţ la: 01.01.98: 364.500
01.03.98: 364.900
10.04.98: 365.300
15.05.98: 366.000
01.07.98: 367.800
01.08.98: 368.000
15.09.98: 370.000
31.12.98: 372.200
y  367.784
Schema pentru calculul mediilor:

- pentru serii media aritmetică


cronologice simplă
de intervale

Nivelul
mediu cu intervale media cronologică
egale între simplă
momente
- pentru serii
de momente

cu intervale media cronologică


neegale între ponderată
momente
Indicatorii obţinuţi prin prelucrarea unei serii cronologice constituie un sistem de
indicatori în cadrul căruia fiecare indicator scoate în evidenţă un aspect al modului de
dezvoltare a fenomenelor şi proceselor economice studiate.
Aceşti indicatori sunt cu atât mai concludenţi cu cât seria cronologică este mai bine
alcătuită, cu cât este mai bine aleasă perioada de analiză (aspecte legate de lungimea seriei şi
de omogenitatea termenilor).
Este bine ca numărul termenilor să fie suficient de mare pentru a putea satisface legea
numerelor mari a lui Bernoulli, lege care spune: într-un număr suficient de mare de cazuri
individuale, abaterile întâmplătoare tind să se compenseze astfel încât se poate determina o
valoare tipică, sintetică, pe ansamblul colectivităţii.
În cazul seriilor cronologice neomogene, indicatorii vor trebui calculaţi pe etape, ca
indicatori parţiali, în caz contrar, dacă se calculează indicatori pe ansamblul seriei, aceştia
conduc la concluzii greşite şi nu pot fi folosiţi în calculele de prognoză.

6. Prelucrarea seriilor cronologice pe intervale (Sistemul de indicatori)

Prelucrarea seriilor cronologice se face cu indicatorii seriilor cronologice.


Indicatorii seriilor cronologice:
 indicatori absoluţi:
 nivelul absolut:
 nivelurile individuale ale seriilor cronologice: yt, t-1, ;
n
 nivelul totalizat al seriilor cronologice:  y t ;
i 1

 modificarea absolută:
 cu bază fixă;
 cu bază în lanţ;
 valoarea absolută a unui procent de modificare:
 cu bază fixă;
 cu bază în lanţ;
 indicatori relativi:
 indicele:
 cu bază fixă;
 cu bază în lanţ;
 ritmul:
 cu bază fixă;
 cu bază în lanţ;
 indicatori medii:
 modificarea absolută medie;
 indicele mediu;
 ritmul mediu;
 nivelul mediu.
Indicatorii seriilor cronologice sunt indicatori primari (nivelul absolut) sau indicatori
derivaţi (obţinuţi prin raportare sau diferenţă).
Dacă compararea se face cu primul termen din serie, atunci indicatorii derivaţi obţinuţi
se numesc indicatori cu bază fixă.
Dacă compararea se face cu termenul precedent din serie atunci indicatorii derivaţi
obţinuţi se numesc indicatori cu bază în lanţ (mobilă).
Indicatorii cu ajutorul cărora se caracterizează seriile cronologice de intervale sunt:
a) indicatori absoluţi;
b) indicatori relativi;
c) indicatori medii.
Indicatori absoluţi:
 nivelurile individuale ale seriei cronologice: y t , t  1, n
n
 nivelul totalizat al seriei cronologice:  y t
t 1

 modificarea absolută se calculează ca diferenţă între doi termeni ai seriei


cronologice şi ne arată cu câte unităţi concrete de măsură s-a modificat fenomenul
analizat de la o unitate de timp la alta:
 cu bază fixă:
 t / 1  y t  y1 t  2, n

 cu bază în lanţ:
 t / t 1  y t  y t 1 t  2, n
n
  t / t 1   n /1
t 2

 valoarea absolută a unui procent de modificare:


 cu bază fixă:
 t / 1 y t  y1 y t  y1 y
A t /1     1 , dacă y t  y1
R t / 1 I t / 1  1  y t  100
  1  100
 y1 
Dacă y t  y1  A t /1  0
 cu bază în lanţ:
 t / t 1 y t  y t 1 y
A t / t 1    t 1 , y t  y t 1
R t / t 1 I t / t 1  1  100 100

Dacă y t  y t 1  A t / t 1  0
Indicatori relativi:
 indicele – se calculează ca raport între doi termeni ai seriei cronologice şi ne arată
de câte ori s-a modificat fenomenul analizat de la o perioadă la alta:
yt
 cu bază fixă: I t / 1  , t  2, n
y1

 cu bază în lanţ:
yt
I t / t 1  , t  2, n
y t 1
n
 I t / t 1  I n / 1
t 2

 ritmul (rata, procent de modificare, modificare relativă) arată cu câte % s-a


modificat indicatorul analizat de la un interval de timp la altul:
 cu bază fixă: R t /1  I t /1  1  100 , t  2, n

 cu bază în lanţ: R t / t 1  I t / t 1  1  100 , t  2, n

Indicatori medii – caracterizează seria cronologică în ansamblu:


n
 yt
t 1
 nivelul mediu al termenilor seriei: y 
n
 modificarea absolută medie este media aritmetică a modificărilor absolute de la
o perioadă la alta în succesiunea lor de-a lungul intervalului de timp analizat. Se
cheamă spor mediu pentru serii cu tendinţă crescătoare şi respectiv, scădere medie
pentru serii cu tendinţă de scădere. Modificarea absolută medie arată diferenţa
medie dintre ultimul şi primul termen al seriei şi este semnificativă doar dacă
modificările absolute cu bază în lanţ sunt apropiate între ele:
n
  t / t 1
y  y1 t  2
 n 
n 1 n 1
 indicele mediu – ne arată de câte ori s-a modificat în medie fenomenul analizat de
la o perioadă la alta pe parcursul întregii perioade. Se calculează ca o medie
geometrică a indicilor cu bază în lanţ.
n
I  n 1 I n /1  n 1  I n /1
t 2

Dacă I  1 atunci indicele mediu semnalează scăderea fenomenului analizat.


Dacă I  1 atunci indicele mediu semnalează creşterea fenomenului analizat.
Dacă I  1 atunci indicele mediu arată că fenomenul analizat nu s-a modificat.
 ritmul mediu (procentul mediu de modificare) este un indicator derivat şi ne arată
cu cât la sută s-a modificat în medie fenomenul analizat de la o subperioadă la alta
pe parcursul perioadei de analiză:
 
R  I  1 100

Indicele şi ritmul mediu sunt foarte sensibili la valorile extreme ale seriei (y1 şi yn).
Dacă una din cele două valori (y1 sau yn) este nereprezentativă pentru evoluţia fenomenului
analizat este suficient pentru a nu obţine indicatori medii.

7. Ajustarea seriilor cronologice

Ajustarea seriilor cronologice înseamnă înlocuirea termenilor reali ai seriei cronologice


cu valori teoretice care exprimă legitatea matematică de evoluţie a fenomenului considerat.
A. Procedee de ajustare
Există mai multe procedee prin care se poate realiza ajustarea:
A.1. Ajustarea prin metoda grafică – se reprezintă grafic seria de date empirice (cronograma)
şi apoi se trasează dreapta sau curba care uneşte punctele extreme ale graficului astfel încât să
aibă abateri minime faţă de poziţia valorilor reale în grafic:
Cronograma:

yt

OY 

 



t OX

A.2. Metode de ajustare mecanice:


1) Metoda modificării absolute medii: se utilizează atunci când modificările
absolute cu bază în lanţ au valori apropiate ceea ce indică o tendinţă de evoluţie sub forma
unei progresii aritmetice, a cărei raţie este aproximată prin modificarea absolută medie:
ŷ t  y1    t  1 ; t  1, n

ŷ1  y1 ŷ n  y n

2) Metoda indicelui mediu – se utilizează atunci când indicii cu bază în lanţ au


valori apropiate, ceea ce arată că fenomenul analizat tinde să varieze în progresie geometrică,
a cărei raţie este aproximată prin indicele mediu:

 t 1 ;
ŷ t  y1  I t  1, n

ŷ1  y1 ŷ n  y n

A.3. Metode analitice


Metoda celor mai mici pătrate
Metoda celor mai mici pătrate este o metodă analitică de ajustare deoarece utilizează
funcţiile matematice. Alegerea celei mai potrivite funcţii pentru ajustare se face pe baza
graficului şi a indicatorilor absoluţi şi relativi.
Parametrii funcţiei de ajustare se determină cu ajutorul metodei celor mai mici pătrate
care spune că “suma pătratelor abaterilor valorilor reale de la valorile ajustate este minimă”.
Fie: Yi sau ŷ i = valorile ajustate
yi = valorile reale
n
Metoda celor mai mici pătrate spune că:  y i  Yi 2 min .
i 1

Metoda celor mai mici pătrate a mai fost utilizată la estimarea parametrilor funcţiilor de
regresie, numai că în cazul seriilor cronologice în locul variabilei independente X de la
regresie utilizăm variabila timp (t).
Valorile variabilei timp (t) se măsoară cu ajutorul scalei de interval, în cadrul căreia
originea scalei şi unitatea de măsură pot fi alese arbitrar.
Pentru uşurinţa calculelor valorile lui t se aleg astfel încât  t i  0 .
i

Putem distinge două situaţii:


- dacă seria are un număr impar de termeni, atunci originea scalei va fi termenul central:

2001 2002 2003 2004 2005 2006 2007

t
-3 -2 -1 0 1 2 3
- dacă seria cronologică are un număr par de termeni, atunci originea scalei (t = 0) se va
găsi între cei doi termeni centrali ai seriei. Cei doi termeni centrali vor primi valorile –1 şi
respectiv 1, iar ceilalţi termeni ai seriei cronologice vor fi distribuiţi simetric faţă de cei doi
termeni centrali la distanţă de două unităţi (pentru că distanţa dintre fiecare doi termeni
succesivi trebuie să fie egală):
2000 2001 2002 2003 2004 2005 2006 2007

-7 -5 -3 -1 1 3 5 7

Cea mai utilizată funcţie analitică pentru determinarea trendului este:


Funcţia liniară:
Y  a  bt
Metoda celor mai mici pătrate spune:

 y t  Yt 2 min   y t  a  bt 2 min

 derivatele sumei în raport cu parametrii a şi b se anulează 

na  b t   y t

a t  b t 2  ty
 
   t
Deoarece  t  0 :

a
 yt y ; b
 ty t
n t2
a – reprezintă media variabilei yt calculată ca o medie aritmetică simplă a termenilor
seriei;
b – reprezintă panta dreptei de tendinţa (de trend), iar valoarea sa arată cu cât se
modifică în medie fenomenul analizat dacă variabila timp se modifică cu o
unitate (an, lună, trimestru).

2. Procedee de apreciere a calităţii ajustării

Atunci când se utilizează mai multe procedee diferite pentru ajustarea aceleiaşi serii
cronologice, în final trebuie să alegem cea mai bună metodă de ajustare comparând rezultatele
teoretice cu valorile reale:
1) se reprezintă pe acelaşi grafic valorile reale şi valorile teoretice obţinute prin
diferite procedee de ajustare. Comparând valorile de pe grafic alegem valorile
teoretice cele mai apropiate de valorile reale;
2) compararea sumei valorilor reale cu suma valorilor teoretice:
n n
 yi  Yi
i 1 i 1

3) calcularea sumei pătratelor abaterilor valorilor ajustate de la cele reale:


n
 y i  Yi 2  min
i 1

4) se calculează coeficientul de variaţie al valorilor teoretice faţă de cele reale pentru


fiecare metodă de ajustare folosită:
n
 y i  Yi
v  i 1  min
ny
Cu cât v este mai mic cu atât metoda de ajustare este mai bună.

8. Extrapolarea seriilor cronologice

Estimarea valorilor viitoare ale unui fenomen porneşte de la tendinţa de evoluţie


înregistrată anterior. Dacă se consideră că nu sunt probabile modificări în această tendinţă de
evoluţie în perioada următoare atunci se pot determina valorile viitoare ale fenomenului
studiat folosind aceeaşi metodă de ajustare prin prelungirea axei timpului.

9. Rezumatul Unităţii de învăţare

Pentru a cunoaşte procesele şi fenomenele economico-sociale, statistica economică le studiază


pe parcursul întregii lor evoluţii sau la diferite momente de timp.
Evoluţia fenomenelor şi proceselor economice în timp este studiată cu ajutorul seriilor
cronologice sau serii dinamice sau de timp.
Pe parcursul acestei unităţi de învăţare sunt prezentate tipurile de grafice utilizate pentru
reprezentarea seriilor cronologice şi anume:
- cronograma – pentru seriile cronologice pe intervale şi pentru seriile cronologice de momente
cu intervale egale între momente
- diagrama prin coloane pentru seriile cronologice de momente cu intervale neegale între
momente
cât şi tipurile de medii utilizate pentru diferite le tipuri de serii cronologice şi anume:
- media aritmetică simplă – pentru calculul nivelului mediu în cazul seriilor cronologice pe
intervale, ai căror termeni se pot însuma
- media cronologică simplă - pentru calculul nivelului mediu în cazul seriilor cronologice de
momente cu intervale egale între momente, ai căror termeni nu se pot însuma deoarece s-ar
produce multiple înregistrări
- media cronologică ponderată - pentru calculul nivelului mediu în cazul seriilor cronologice
de momente cu intervale neegale între momente, ai căror termeni nu se pot însuma deoarece
s-ar produce multiple înregistrări

Prelucrarea seriilor cronologice se face cu indicatorii seriilor cronologice.


Indicatorii seriilor cronologice:
 indicatori absoluţi:
 nivelul absolut:
 nivelurile individuale ale seriilor cronologice
 nivelul totalizat al seriilor cronologice
 modificarea absolută:
 valoarea absolută a unui % de modificare:
 indicatori relativi:
 indicele:
 ritmul:
 indicatori medii:
 modificarea absolută medie;
 indicele mediu;
 ritmul mediu;
 nivelul mediu.
Toţi aceşti indicatori absoluţi şi relativi pot fi cu bază fixă sau cu bază în lanţ.Dacă
compararea se face cu primul termen din serie, atunci indicatorii derivaţi obţinuţi se numesc
indicatori cu bază fixă. Dacă compararea se face cu termenul precedent din serie atunci indicatorii
derivaţi obţinuţi se numesc indicatori cu bază în lanţ (mobilă).
În această unitate de învăţare, pe lângă indicatorii seriilor cronologice pe intervale, sunt
prezentate şi câteva metode de ajustare (de determinare a tendinţei de evoluţie) cum ar fi: metode
mecanice (metoda modificării absolute medii şi metoda indicelui mediu), metoda grafică şi metoda
analitică. Pe baza metodelor de ajustare se poate realiza estimarea valorilor viitoare ale unui
fenomen pornind de la tendinţa de evoluţie înregistrată anterior, dacă se consideră că nu sunt
probabile modificări în această tendinţă de evoluţie în perioada următoare.
Lecţia nr. 10

LEGĂTURI STATISTICE DINTRE VARIABILE

Cuprins:

1. Noţiuni introductive privind legăturile statistice dintre variabile.


2. Tipuri de legături statistice
3. Metode simple de stabilire a existenţei şi a formei de legătură dintre fenomenele şi
procesele economico-sociale
4. Metode analitice parametrice de măsurare a legăturilor dintre fenomene şi procese
economico-sociale
5. Metode neparametrice de măsurare a legăturilor dintre fenomene
6. Rezumatul unităţii de învăţare.

1. Noţiuni introductive privind legăturile statistice dintre variabile

Teoria economică actuală, cu ajutorul căreia caracterizăm şi analizăm funcţionarea


legăturilor mecanismului economic, pune în evidenţă multiplele interdependenţe care se
manifestă în activitatea economică. Fundamentarea deciziilor de politică economică şi socială
trebuie să ţină seama de astfel de dependenţe în egală măsură ca fundamentarea deciziilor la
nivelul agentului economic. De aceea, selectarea dependenţelor care au caracter de stabilitate
şi măsurarea acestora a constituit o preocupare prioritară a teoriei şi cercetării economice.
Asupra fenomenelor social-economice acţionează o multitudine de factori, principali şi
secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau cuantificabili cu
aproximaţie, care se găsesc într-o relaţie de interdependenţă reciprocă.

2. Tipuri de legături statistice

Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este factor de
influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee şi metode

1
specifice, poate studia manifestarea concretă a acestor legături, le poate exprima cantitativ şi
măsura intensitatea cu care se produc. Legătura (dependenţa) statistică se caracterizează prin
faptul că, la modificarea unui factor de influenţă, factorul influenţat răspunde cu o distribuţie
de valori.
Legăturile statistice se pot clasifica astfel:
1) După natura relaţiei de cauzalitate distingem:
a) legături funcţionale. Acestea se manifestă între două fenomene în care unul este cauza iar
celălalt efectul. Se întâlnesc în natură, tehnică etc. Dacă se notează fenomenul cauză cu “x” şi
fenomenul efect cu “y” atunci relaţia matematică este: y = f(x)
b) legături statistice (stohastice) apar atunci când fenomenul efect este rezultatul combinării
influenţei mai multor cauze, care pot acţiona în condiţii egale sau diferite. Relaţia matematică
este: y = f(x1,x2,………..,xn), unde: x1, x2, ..., xn – sunt valorile fenomenelor cauză care au
fost înregistrate; y = valorile fenomenului efect.

2) După numărul de caracteristici incluse în modelul de corelaţie distingem:


a) legături simple. Acestea au la bază două caracteristici: una factorială, iar cealaltă
rezultativă (celelalte caracteristici factoriale chiar dacă sunt înregistrate se consideră cu
acţiune constantă).
b) legături multiple. Acestea au în vedere dependenţa unei caracteristici rezultative în funcţie
de mai mulţi factori înregistraţi sau dependenţa mai mulor variabile rezultative (y1, y2, ….. ,
yn) de o variabilă factorială (xi). Ecuaţiile de estimare sunt: y = f(x1, x2, x3,...,xn) şi y1, y2,...,
yi,...yn = f(xi).
3) După direcţia legăturii distingem:
a) legături directe (pozitive): există atunci când, pe măsură ce se modifică nivelul de
dezvoltare al caracteristicii factoriale, se modifică în acelaşi sens şi nivelul caracteristicii
rezultative.
b) legături inverse (negative): au în vedere modificări în sens contrar nivelului de dezvoltare
(o variabilă creşte iar cealaltă scade).
4) După forma de exprimare a variabilelor corelate distingem:
a) legături de asociere. Acestea exprimă relaţia dintre două sau mai multe caracteristici
exprimate calitativ (prin cuvinte) sau într-o caracteristică calitativă şi una cantitativă
(exprimată numeric).
b) legături de corelaţie. Exprimă relaţia de interdependenţă dintre două sau mai multe
caracteristici statistice exprimate numeric.

2
5) După forma de realizare a legăturii distingem:
a) legăturile liniare exprimate printr-o funcţie liniară, de gradul intai;
b) legăturile neliniare exprimate printr-o curbă (exponenţială, parabolă, hiperbolă etc.);
6) După timpul în care se realizează:
a) legături sincrone: au loc în acelaşi timp şi se pot urmări în dinamică pentru aceeaşi
perioadă.
b) legături asincrone: influenţa caracteristicilor factoriale asupra variaţiei caracteristicii
rezultative apare după trecerea unei perioade de timp. Forma de realizare a legăturii
corespunde funcţiei matematice de regresie (de estimare) care se alege pe baza graficului de
corelaţie (corelogramei).

3. Metode simple de stabilire a existenţei şi a formei de legătură dintre


fenomenele şi procesele economico-sociale

Pentru a caracteriza legătura dintre fenomene, se pot folosi mai multe procedee ce se
încadrează în categoria metodelor simple de caracterizare a legăturilor. Aceste metode sunt
uşor de aplicat şi se bazează pe analiza calitativă a variabilelor corelate, oferind informaţii
asupra naturii şi trăsăturilor esenţiale ale legăturii cercetate.
Metodele simple de caracterizare a legaturilor stohastice sunt urmatoarele:
1) Metoda seriilor paralele interdependente are la bază serii paralele de date, obţinute prin
operaţia de centralizare la nivelul unităţilor simple sau complexe, fără a fi grupate. Se pot
folosi serii: de timp, de spaţiu şi atributive. Această metodă ne oferă posibilitatea de a stabili
existenţa legăturii şi direcţia de realizare a acesteia, prin analiza valorilor perechii x, y.
Această metodă este mai puţin sugestivă în cazul seriilor formate dintr-un număr foarte mare
de termeni şi implică într-o măsură importantă subiectivismul cercetătorului.
2) Metoda grupărilor este o metodă de sistematizare a datelor pe baza căreia se pot cerceta
legăturile (conexiunile) statistice. Se poate folosi gruparea simplă sau gruparea combinată.

☺ Exemplu
Despre 22 de salariaţi ce activează în ramura comerţului se cunosc datele:

Gruparea salariaţilor după Valoarea încasărilor


Număr salariaţi
vechime (mil lei)
<5 2 80
5 - 10 5 83
10 - 15 7 85

3
15 - 20 5 87
> 20 3 89
Gruparea simplă presupune gruparea unităţilor statistice după o caracteristică
principală de grupare şi calculul şi interpretarea mediilor parţiale sau a mărimilor relative
parţiale pentru caracteristica rezultativă. Gruparea combinată se bazează pe împărţirea
unităţilor statistice în grupe concomitente după variaţia a două caracteristici de grupare (x,y),
iar rezultatele grupării se prezintă într-un tabelul combinat cu dublă intrare (vezi capitolul II).
Metoda grupării trebuie utilizată doar în cazul unui număr mare de observaţii statistice, când
aplicarea metodelor analitice de calcul nu se poate face fără o grupare prealabilă a datelor
înregistrate.
3) Metoda tabelului de corelaţie presupune utilizarea unui tabel combinat cu dublă
intrare care ne sugerează existenţa legăturii, direcţia de realizare a ei şi unele aprecieri
empirice privind intensitatea legăturii prin analiza modului în care frecvenţele comune (nij) se
distribuie în rubricile interioare ale tabelului. Dacă frecvenţele nij tind a se concentra către
cele două diagonale trasate în tabelul următor, legătura între xi şi yj va fi intensă. În schimb,
dacă se împrăştie la întâmplare în reţeaua tabelului, legătura este slabă sau poate lipsi. În
concluzie, procedeul tabelului de corelaţie este o combinare a metodei grupării cu
principiile de construire şi interpretare a unei reprezentări grafice.

xi \ yj y1, y2, ……...…. yj ………..……. yp Total


xr nr·
II-le
g
ătu irectă
xr-1 nr-1·
ră d
: :
ră in v
ătu ne ră
ij s
xi
I-leg ni·
: :
x2 n2·
x1 n1·

Total n·1, n·2, ……...…. n·j ………..……. n·p 

4) Metoda grafică. Graficul de corelaţie se mai numeşte corelogramă. Pentru


construcţia acestuia se utilizează sistemul de axe rectangulare, unde pe axa OX se înscriu
valorile caracteristicii principale de grupare (x), iar pe axa OY valorile caracteristicii
secundare de grupare (y). Intersecţia abscisei cu ordonata se concretizează printr-un număr de
puncte ce se dispun sub formă de nor, numărul punctelor fiind egal cu numărul de unităţi
statistice luate în calcul. După modul de distribuire a punctelor în reţeaua graficului, printre

4
acestea se trasează vizual o dreaptă sau o curbă ale cărei ecuaţii se cunosc. În cazul în care
curba sau dreapta se trasează pe prima diagonală, legătura este directă, dacă se trasează pe cea
de a doua diagonală, legătura este inversă. Metoda grafică se utilizează ca metodă empirică
pentru alegerea funcţiei matematice ce se analizează în cazul regresiei şi corelaţiei statistice.

4. Metode analitice de măsurare a legăturilor dintre fenomene

Metodele analitice iau în consideraţie valorile reale ale varibilelor corelate şi parametrii
corespunzători acestora. Acestea poartă denumirea de metode parametrice şi sunt:
1) metoda regresiei;
2) metoda covarianţei;
3) metoda raportului de corelaţie;
4) metoda coeficientului de corelaţie.

1) Metoda regresiei reprezintă o metodă statistică de analiză a legăturii dintre variabile cu ajutorul
unor funcţii, numite funcţii de regresie. Funcţia de regresie se alege printr-o modalitate empirică
folosind graficul de corelaţie (corelograma) si prin aplicarea testelor de semnificaţie (de exemplu:
testul “F” de analiză dispersională). În funcţie de numărul de variabile incluse în model,
distingem: regresie unifactorială (o varibilă factorială xi şi o variabilă rezultativă yi) şi
regresie multifactorială (mai multe variabile factoriale şi o singură variabilă rezultativă).
a) Regresia unifactorială liniară are la bază ecuaţia dreptei (funcţia de gradul întâi):
y x i  a  bx i

De menţionat că dependenţa liniară dintre “yi” şi “xi” se consideră o dependenţă


stohastică în care unei valori “xi” îi pot corespunde mai multe valori “yi”. Funcţia yxi =
valorile ajustate ale lui “yi” după ecuaţia dreptei şi presupune înlocuirea valorilor empirice cu
valori teoretice obţinute prin calcul în urma aplicării unei metode sau unui model de calcul
statistic; xi = variabila factorială; yi = variabila rezultativă; a, b = parametrii ecuaţiei de
regresie care pot fi interpretaţi în sens geometric şi în sens statistic. Parametrul “a” 
exprimă în sens geometric ordonata la origine şi poate lua atât valori pozitive, cât şi valori
negative. Are caracter de mărime medie, în sensul că valoarea sa arată la ce nivel ar fi ajuns
valoarea caracteristicii “yi” dacă toţi factorii – mai puţin cel înregistrat “xi” – ar fi avut o
acţiune constantă. Parametrul “b”  exprimă în sens geometric panta liniei drepte şi poartă
denumirea de coeficient de regresie. Măsoară cu cât se modifică în medie variabila rezultativă

5
(yi) dacă variabila factorială (xi) se modifică cu o unitate (semnul lui “b” ne indică direcţia
legăturii). Parametrii a şi b se determină din sistemul de ecuaţii normale obţinut prin metoda
celor mai mici pătrate, care se bazează pe minimizarea pătratelor abaterilor dintre valorile
individuale înregistrate şi valorile teoretice (corespunzătoare funcţiei). Această funcţie
obiectiv presupune identificarea punctului de extrem (are în vedere determinarea parametrilor
funcţiei) si verificarea dacă punctul de extrem este minim sau maxim (se realizează prin
semnul derivatei de ordinul II dacă este pozitiv (semnifică minim) dacă este negativ
(semnifică maxim). Relaţia de minimizare este:  ( y i  y x i ) 2 = minim. Pentru tendinţa liniară

a legăturii avem: f   ( y i  a  bx i ) 2 = minim. In functia de mai sus condiţia de minim a unei


funcţii de două derivabile se anulează când derivatele parţiale, în raport cu cei doi parametri
df df
(a, b), sunt:  2 ( y i  a  bx i )(1)  0 si  2 ( y i  a  bx i )(  x i )  0 
da db

 na  b x i   y i
 ; i = 1, n . Rezolvand sistemul se calculeaza termenul liber, a, si panta
a  x i  b x i2   x i y i

 yi  xi
dreptei, b, dupa metoda determinantilor, astfel: a  x i y i  x i2  y i  x i2   x i  x i y i ;i= 1, n
a  
 n  xi n  x i2  ( x i ) 2
 xi  x i2

n  yi
b  x i  x i yi n x i yi   x i  yi ; i = 1, n
b  
 n  xi n  x i2  ( x i ) 2
 xi  x i yi

Interpretarea pantei: daca b > 0  legătura de corelaţie este directă (pe măsură ce
cresc valorile lui xi cresc şi valorile ecuaţiei de regresie calculate); daca b < 0  legătura de
corelaţie este inversă (pe măsură ce creşte valoarea caracteristicii factoriale (xi) scade valoarea
caracteristicii rezultative (yi) si daca b = 0  cele două variabile sunt independente şi yxi = 0.
Funcţia de regresie exprimă statistic modul în care caracteristica rezultativă (yi) se modifică,
dacă ar influenţa numai caracteristica factorială (xi), iar ceilalţi factori sunt consideraţi cu
acţiune constantă.
a) y b) y

yxi = -a +bxi yxi = a - bxi

tgα x tgα x

6
a < 0 şi b > 0  legătură directă a > 0 şi b < 0  legătură inversă
figura 1.1 figura 1.2
c) y d) y

yxi = a yxi = bxi

a > 0 şi b = 0  lipsa legăturii a = 0 şi b > 0  legătură funcţională


figura 1.3 figura 1.4
Fig. 1 Interpretarea geometrică a parametrilor

Regresia unifactorială liniară se utilizează în următoarele cazuri: pentru un număr mic de


informaţii negrupate, dar prezentate sub forma a două serii paralele interdependente (x i şi yi) – caz
prezentat anterior si pentru un număr mare de informaţii sistematizate prin grupare simplă (xi,
yi, ni valori cunoscute) si grupare combinată (yj, ni, nj, nij, xi valori cunoscute).
Pentru cazul (1) (grupare simplă) sistemul de ecuaţii normale se determină prin analogie
cu cel prezentat anterior, cu deosebirea că se va ţine seamă de frecvenţele comune (ni) pentru
cele două varibile xi şi yi. Sistemul de ecuaţii normale este:

 a

 ni  b x n  y n
i i i i
 a
 x i2 n i   y i n i   x i n i   x i y i n i

a 
x i i b
n x n  x y n
2
i i i i i  n i   x i2 n i  ( x i n i ) 2

 n i   x i yi n i   x i n i   yi n i
b
 n i   x i2 n i  ( x i n i ) 2
Pentru cazul (2) (grupare combinată) rezultatele se prezintă într-un tabel combinat cu
dublă intrare, iar sistemul de ecuaţii se determină prin analogie cu cel de la cazul (1):
 K m K m

 a   n ij  b  x n
i i   y jn j
i j i j
 K K K m
a  x i n i  b x i2 n i    x i y j n ij
 i i i j

 Din rezolvarea sistemului de ecuaţii normale se obţin formulele uzuale de calcul al


parametrilor “a” şi “b”. Legăturile dintre fenomene nu se bazează mereu pe modele simple de
regresie pentru că pot exista mai multe variabile factoriale şi o singură variabilă rezultativă de
forma: y = f(x1, x2,……,xi, ……, xn). Asemenea legături poartă denumirea de modele de
regresie multifactoriale care au la bază funcţia: liniară, exponenţială, hiperbolică, parabolică.
2) Metoda covarianţei se utilizează pentru măsurarea intensităţii legăturilor de tip
statistic între două sau mai multe variabile la nivelul întregii colectivităţi. Covarianţa este un
indicator sintetic de corelaţie simbolizat prin cov(x,y), se obţine ca o medie aritmetică a

7
produselor abaterilor variabilelor faţă de media lor conform relaţiei:
1 n
cov( x, y)   ( x i  x )( y i  y) .
n i 1 Semnul indicatorului arată direcţia legăturii: plus (legătura
cov( x, y)   x   y

directă), minus (legătura indirectă), iar covarianţa nulă ne indică lipsa legăturii de corelaţie
(variabilele sunt independente). Covarianţa are ca neajuns faptul că depinde de unităţile în
care se măsoară variabilele aleatoare.
3) Metoda raportului de corelatie
Pentru stabilirea intensităţii legăturii dintre două varibile (xi, yi) se calculează un
indicator sintetic de corelaţie numit “raport de corelaţie” simbolizat cu Rx/y. Acesta permite
măsurarea gradului de intensitate a realizării legăturii dintre caracteristica considerată factor
de influenţă (xi) şi caracteristica rezultativă (yi), indiferent de forma legăturii: liniară sau
neliniară. Calculul se bazează pe descompunerea variaţiei totale (dispersiei) a caracteristicii
rezultative “y” astfel:

(yi  y 0 ) = ( y i  y xi ) + ( y xi  y 0 )

 
abaterea întâmplătoare abaterea sistematică
Prin însumare şi ridicare la pătrat se obţine:
 ( y i  y 0 ) 2   [( y i  y x i )  ( y xi  y 0 )] 2 
 (y  y
i xi )2  2 ( yi  yxi )( yxi  y 0 )   ( yxi  y 0 )2

0

 
 (y i  y0 )2  (y i  y xi ) 2  ( y xi  y 0 ) 2
  
  ( yi  y0 ) 2

 (y i  y xi ) 2

 ( y xi  y 0 ) 2
n n n
 

  2y =  2y +  2y
r x


Dispersia totală: arată  
influenţa tuturor factorilor Dispersia reziduală: arată Dispersia sistematică:
esenţiali şi întâmplători acea parte din variaţia arată influenţa factorului
care determină variabilei rezultative “yi” “xi” asupra variaţiei
variaţia totală a variabilei datorată acţiunii factorilor caracteristicii
rezultative “yi” întâmplători rezultative “yi”

Raportul de corelaţie se determină pornind de la regula de adunare a dispersiilor

(prezentată anterior), utilizând coeficientul de determinaţie ( R 2y / x ) şi coeficientul de

8
 2y / x  2y / r
nedeterminaţie ( K 2y / x ): R 2y / x   100 si K 2y / r   100 . Raportul de corelaţie se
 2y  2y

calculează ca rădăcină pătrată din coeficientul de determinaţie astfel:

 ( y i  y xi ) 2
 R y / x  R 2y / x 
 2y / x

 2y   2y / r
 1
 2y / r
 1
n
 1

( yi  yxi ) 2
; i = 1, n

(1)
 2y  2y

 2y  i 0
( y  y ) 2

 
( yi  y0 )2

(2) n (3)

Formula de calcul simplificat a raportului de corelaţie se determină astfel:

R y/x  1
 y i2  a  y i  b x i y i ; i = 1, n . Raportul de corelaţie ia valori în intervalul [0,1]
2
( y i )
 y i2 
n

= 0 – lipsă de legătură (varibilele sunt necorelate)


 0 – legatură foarte slabă sau poate lipsi
Ry/x[0,1] = 1 – legătură de tip funcţional, variabila “yi” depinde în
exclusivitate de variabila “xi”
 1 – legătură puternică, intensă
În cazul legăturilor de tip invers, semnul raportului de corelaţie este dat de către semnul
coeficientului de regresie (b). În funcţie de informaţiile folosite în calcul şi de modelul lor de
sistematizare, raportul de corelaţie se calculează în următoarele două cazuri:
1) Număr mic de informaţii, în care se dau valorile xi, yi, caz în care Ry/x se calculează
după formulele 1,2,3, explicitate anterior;
2) Număr mare de informaţii:
a) se dau valorile lui xi, yi şi ni frecvenţele lor comune:

 ( y i  y xi ) 2 n i
R y/x  1 ; i = 1, n
 ( y i  y) 2 n i

 y i2 n i  a  y i n i  b x i y i n i
 1 ; i = 1, r
( y i n i ) 2
 yi n i 
2
 ni
b) se dau valorile lui xi, frecvenţele după variabila xi (ni), frecvenţele după variabila
yj (nj) şi frecvenţa comună nij:

 ( y j  y x i ) 2 n ij
R y/x  1 
 (y j  y 0 ) 2 n j

 y 2j n j  a  y j n j  b x i y j n ij
= 1 ; j = 1, m ; i = 1, K
( y j n j ) 2
 y 2j n j 
nj

9
4) Metoda coeficientului de corelaţie
Coeficientul de corelaţie este un indicator sintetic prin care se măsoară legătura dintre
două variabile (xi, yi) statistice a căror distribuţie este asimptotic normală sau normală.
Calculul coeficientului de corelaţie se bazează în forma iniţială pe produsul abaterilor normale
normate (pentru un număr de date individuale negrupate):
xi  x
Zx 
x

yi  y
Zy 
y

Coeficientul de corelaţie se calculează ca o medie a produselor abaterilor normale


normate:
 x i  x  y i  y 
   
   
ry / x 
 x  y    ( x i  x )( y i  y) ; i = 1, n
n n x   y

Dacă în relaţia (1) vom înlocui: x    yi


xi
; i = 1, n ;  x   (x i  x ) şi
2
; y
n n n

 ( y i  y) 2 n x i yi   x i  yi
y  se obţine relaţia: ry/x = ; i = 1, n (2)
n [n  x i2  ( x i ) 2 ][n  y i2  ( y i ) 2 ]

cov( x i , y i )
Folosind covarianţa: ry/x =
 x i   yi

Interpretare:
1) ry/x  [-1,1]  apreciem din punct de vedere al semnului direcţia legăturii şi din
punct de vedere al mărimii intensitatea legăturii.
Dacă: ry/x = 0  legătura lipseşte şi variabilele xi şi yi sunt independente;
ry/x  0  legătura dintre cele două varibile este slabă;
ry/x = 1  legătură de tip funcţional (fie directă dacă semnul coeficientului este
pozitiv, fie inversă dacă semnul coeficientului este negativ);
ry/x  1  variabilele sunt puternic corelate, legătura fiind intensă.
2) ry/x = Ry/x se apreciează că legătura de corelaţie este de forma liniară, ceea ce
înseamnă că se poate folosi fie coeficientul, fie raportul de corelaţie.
3) Valoarea coeficientului de corelaţie depinde de forma liniei de regresie, motiv pentru
care acest indicator este semnificativ pentru corelaţiile de tip liniar şi mai puţin semnificativ
pentru corelaţiile de tip neliniar (în cazul din urmă folosindu-se raportul de corelaţie).

10
4) În cazul legăturii liniare se mai poate calcula ca o medie geometrică a coeficienţilor
de regresie (b) astfel:
ry / x  b y / x  b x / y

n x i yi   x i  yi
by/x 
n  x i2  ( x i ) 2
unde: ; i = 1, n
n x i yi   x i  yi
bx / y 
n  y i2  ( y i ) 2

Coeficientul de corelaţie se calculează în funcţie de datele folosite în analiză şi de modul


în care au fost sistematizate informaţiile. Astfel:
a) - număr mic de informaţii în care se dau valorile lui x i, yi sub forma a două serii
paralele; ry/x se calculează după formula (1), (2) şi (3) prezentate anterior.
b) - număr mare de informaţii, cunoscându-se xi, yi şi frecvenţele lor comune (ni)

 ( x i  x )( y i  y)n i
ry / x  ; i = 1, n
 nix  y

 xini  yi n i  (x i  x) 2 n i  ( y i  y) 2 n i
unde: x  ;y  ;x  ;y  ; i = 1, n
 ni  ni  ni  ni
Înlocuind în formula (1) a lui ry/x se obţine:

ry / x 
n x y n  x n y n i i i i i i i i
; i = 1, n
[ n  x n  ( x n ) ][ n  y n  ( y n ) ]
i
2
i i i i
2
i
2
i i i i
2

c) se cunosc valorile lui xi, yj, ni, nj, nij, obţinute prin gruparea combinată, rezultatul
fiind prezentat într-un tabel combinat cu dublă intrare şi atunci relaţia de calcul devine:
n x y n  x n  y n
ij i j ij i i j j i  1, n
ry / x 
i j
;
n x n  x n ) ][ n  y n y n ) ] j  1, m
2
[ i
2
i i ( i i
2
j
2
j j ( j j

5. Metode neparametrice de măsurare a legaturilor dintre fenomenele


economico-sociale

Aceste metode, pe lângă faptul că pot stabili intensitatea legăturii făcând abstracţie de
tipul de distribuţie, permit măsurarea intensităţii legăturii nu numai pentru caracteristicile
cantitative, dar şi pentru cele calitative. Poartă denumirea de metode neparametrice deoarece
nu iau în calcul întotdeauna valorile variabilelor corelate şi nici parametrii lor corespunzatori.
În concluzie, se folosesc în următoarele situaţii: când distribuţia variabilelor corelate nu e
normală sau asimptotic normală; când nu este cunoscută forma de distribuţie a variabilelor;

11
când variabilele corelate sunt asimetrice, deci prezintă asimetrie pronunţată si când avem de-a
face cu variabile calitative şi cantitative care în prealabil necesită o anumită cuantificare.
Metodele neparametrice uzuale sunt:
1) Coeficientul de asociere a lui Yule presupune întocmirea tabelului de asociere, care
este un tabel combinat cu dublă intrare utilizat pentru variabilele de tip alternativ (DA/NU;
F/M; etc.). Tabelulul de asociere este format din două rânduri şi două coloane:
n11 n12
n21 n22
în care în capătul rândurilor se trec valorile celor două caracteristici asociate, iar în interiorul
tabelulului se trec frecvenţele corespunzătoare lor.
 Exemplu: Dacă avem în vedere două variabile statistice “xi” şi “yi” şi considerăm că
sunt variabile de tip alternativ, atunci asocierea dintre “xi” şi “yi” se prezintă astfel:
yi
DA NU Total
xi
DA n11 n12 n11 + n12
NU n21 n22 n21 + n22

Total n11 + n21 n12 + n22 

(în interiorul tabelului se consemnează concomitent răspunsurile privind cele două variabile
corelate “xi” şi “yi”). Pentru stabilirea valorii numerice a coeficientului de asociere care să
indice existenţa şi intensitatea legăturii, se calculează coeficientul lui Yule conform relaţiei:
n 11  n 22  n 21  n 12
Q ; unde Q  [-1,1]
n 11  n 22  n 21  n 12

Dacă: Q = 0 lipsa de asociere între xi şi yi


Q  0 asociere redusă între xi şi yi
Q  ±1 asociere puternică între xi şi yi
Q = ±1 asociere perfectă între xi şi yi
Produsul n11 · n22 = arată gradul de realizare a legăturii între caracteristicile corelate “x i” şi
“yi” si produsul n12 · n21 = arată lipsa legăturii dintre cele două variabile. Avantajul
utilizării: se poate calcula cu multă rapiditate, utilizându-se şi în cazul când datele provin de la
unităţi statistice complexe.
2) Coeficienţii de corelaţie a rangurilor
Coeficienţii de corelaţie se calculează înlocuind valorile individuale ale variabilelor cu
numărul lor de ordine numit RANG. Rangurile se atribuie după ce în prealabil s-au ordonat

12
datele individuale ale celor două variabile în ordine crescătoare, astfel încât va trebui să
vedem dacă există concordanţă între rangurile caracteristicii factoriale de la 1  n şi rangurile
caracteristicii rezultative de la 1  n. Avantajul utilizării acestora:
1) pot fi utilizaţi cu succes şi în cazul unor distribuţii asimetrice;
2) pot fi utilizaţi pentru un număr restrâns de unităţi pentru care nu se poate verifica
reprezentativitatea datelor parţiale.
a) Coeficientul de corelaţie a rangurilor Spearman este o aplicaţie a coeficientului de
corelaţie liniară simplă la distribuţiile celor două şiruri de ranguri. [3]
Acesta se calculează parcurgând următoarele etape:
1) se identifică cele două variabile corelate xi şi yi;
2) se acordă ranguri de regulă crescătoare în aceeaşi manieră atât pentru variabila “xi” cât şi
pentru variabila “yi”;
Rangurile sunt numere de ordine care evoluează în progresie aritmetică cu raţia egală cu 1.
3) se determină diferenţa dintre ranguri (di) şi se ridică la pătrat;

4) se aplică formula de calcul: rS  1  


2
6 di
 [-1,1] ce măsoară intensitatea legăturii dintre
3
n n
rangurile celor două variabile corelate, unde: di = diferenţa dintre rangurile variabilei “xi” şi
rangurile variabilei “yi”: Rx-Ry si n = numărul perechilor de valori corelate.
Dacă: rS = 0 între rangurile lui “xi” respectiv “yi” nu există legătură (independenţă,
statistică);
rS  0 legătură foarte slabă sau poate lipsi;
rS  ± 1 legătură puternică;
rS = ± 1 legătură funcţională.
b) Coeficientul de corelaţie a rangurilor Kendall; pentru a-l determina se folosesc
valorile variabilelor corelate pentru care se acordă ranguri. Etapele de lucru sunt:

1) se identifică variabilele corelate “xi” şi “yi”;


2) se ordonează crescător variabila “xi” şi, în corespondenţă cu aceasta, se trec valorile
corespunzatoare variabilei “yi”;
3) se acordă ranguri crescătoare în aceeaşi manieră ca şi la coeficientul Spearman;
4) se determină concordanţa notată cu P şi discordanţa notată cu Q;
5) se calculează scorul sau diferenţa (S = P – Q);
2S
6) se aplică formula de calcul: rk  unde: ∑S = ∑P – ∑Q  [-1, 1]
n (n  1)

13
Concordanţa (P) este mereu pozitivă şi reprezintă numărul de ranguri superioare fiecarui
rang considerat al variabilei yi. Discordanţa (Q) este mereu negativă şi reprezintă numărul de
ranguri inferioare fiecărui rang considerat al variabilei yi. Coeficientul rangurilor calculat
după formula lui Kendall este de obicei mai mic decât cel calculat după formula lui
Spearman, având aceeaşi interpretare.

6. Rezumatul Unităţii de învăţare

Asupra fenomenelor social-economice acţionează o multitudine de factori, principali şi


secundari, esenţiali şi neesenţiali, cuantificabili şi necuantificabili sau cuantificabili cu aproximaţie,
care se găsesc într-o relaţie de interdependenţă reciprocă. Legăturile ce se pot forma sunt legături
stohastice, în care un fenomen este factor de influenta, iar celălalt este efect. Statistica, printr-o gamă
largă de procedee şi metode specifice, poate studia manifestarea concretă a acestor legături, le poate
exprima cantitativ şi măsura intensitatea cu care se produc. Legăturile statistice pot fi simple sau
multiple, directe sau inverse, de asociere sau de corelaţie, liniare sau neliniare, sincrone sau
asincrone. Pentru caracterizarea statistică a legăturilor dintre variabile se pot folosi două categorii
de metode: metode simple (metoda grafică, metoda tabelului de corelaţie, metoda grupărilor, metoda
seriilor paralele interdependente) şi metode analitice (metoda regresiei, metoda covarianţei, metoda
raportului de corelaţie, metoda coeficientului de corelaţie). În afara metodelor analitice menţionate
mai sus, ce intră în categoria metodelor parametrice, legăturile dintre variabilele statistice se mai pot
analiza cu ajutorul metodelor neparametrice (metoda coeficientului de asociere al lui Yule, metoda
coeficientului de corelaţie a rangurilor Spearman şi metoda coeficientului de corelaţie a rangurilor
Kendall).

14
Lecţia nr. 11

INDICII STATISTICI

Cuprins:

1. Obiectivele lecţiei.
2. Conţinutul, funcţiile şi clasificarea indicilor.
3. Indici individuali (elementari).
4. Indici sintetici (de grup).
4.1. Indici sintetici construiţi ca indici agregaţi. Sisteme de ponderare folosite în
construirea indicilor sintetici.
4.2. Indici sintetici calculaţi ca medie a indicilor individuali.
5. Indicii valorii, volumului fizic şi preţurilor.
6. Indicele preţurilor de consum (IPC).
7. Rezumatul lecţiei.

1. Obiectivele lecţiei

În urma parcurgerii acestei lecţii studentul va dobândi următoarele competenţe:


- Va înţelege ce este un indice statistic şi la ce se utilizează;
- Va afla de câte feluri sunt indicii statistici şi pentru ce tipuri de date se calculează;
- Va aprofunda metodologia de calcul a indicilor ca măsură a variabilităţii
fenomenelor, la nivel individual şi total, precum şi regulile de construire a indicilor
de grup;
- Cum se poate identifica şi măsura efectul influenţei factorilor ce acţionează asupra
fenomenelor complexe

2. Conţinutul, funcţiile şi clasificarea indicilor

1
Metoda indicilor, ca metodă de analiză factorială permite studiul variaţiei fenomenelor
complexe în funcţie de modificările factorilor săi de influenţă.

Definiţie:

Indicele statistic este o mărime relativă, ce compară, sub formă de raport, mărimea
aceluiaşi fenomen înregistrat în două unităţi de timp, de spaţiu sau de program diferite, la
o unitate statistică, la o grupă sau la nivelul întregii colectivităţi..

Numărătorul indicelui reprezintă nivelul fenomenului studiat în unitatea de timp /


spaţiu care se compară, iar numitorul acestuia – nivelul fenomenului în unitatea de timp /
spaţiu aleasă ca bază de comparaţie. În alte cazuri, indicii pot compara nivelul realizat cu cel
programat, propus al fenomenului.
Indicele este adimensional, nu depinde de unitatea de măsură a fenomenului pentru
care s-a calculat. El se exprimă în coeficienţi sau în procente.
Indicele arată de câte ori (de cât la sută) nivelul comparat al fenomenului este mai
mare sau mai mic decât nivelul ales ca bază de comparaţie al fenomenului.
Uneori, indicii au şi un caracter de mărime medie, atunci când sunt calculaţi la nivelul
întregului ansamblu sau al unei grupe a acestuia
Indicii se clasifică după următoarele criterii:.
a) După sfera de cuprindere indicii sunt:
 indici individuali (elementari) — calculaţi la nivelul unei unităţi statistice
 indici de grup (sintetici) — determinaţi la nivelul unei grupe a colectivităţii sau la
nivelul întregii colectivităţi;

b) După dimensiunea de raportare a fenomenului:


 indici cronologici (de dinamică): raport între nivelurile unui fenomen, înregistrate în
momente sau perioade de timp diferite;
 indici teritoriali (spaţiali): raport între nivelurile unui fenomen, înregistrate în două
unităţi de spaţiu diferite;
 indici de coordonare: raport între nivelurile unui fenomen, înregistrate pentru două
grupe diferite ale aceleiaşi colectivităţi, sau pentru două colectivităţi diferite;
 indici ai prevederilor: raport între nivelurile prevăzute şi nivelurile efectiv înregistrate
ale unui fenomen.

2
c) După natura variabilelor indexate:
 indici ai variabilelor cantitative
 indici ai variabilelor calitative.

d) După modul de calcul, indicii de grup pot fi:


 indici agregaţi
 indici calculaţi ca medie a indicilor individuali
 indici calculaţi ca raport a două medii.

e) După natura ponderilor folosite, indicii de grup pot fi:


 cu ponderi fixe (constante) - când se folosesc aceleaşi ponderi în întreaga serie;
 cu ponderi variabile - când ponderea folosită se schimbă odată cu schimbarea bazei
de raportare.

f) După baza de raportare – indicii cronologici pot fi:


 cu bază fixă
 cu bază mobilă sau în lanţ

g) După natura fenomenului pentru care se calculează:


 indici ai valorii
 indici ai volumului fizic
 indici ai preţurilor
 indici ai productivităţii muncii
 indici ai salariului, etc.

3. Indici individuali.

Fie Y — o variabilă complexă,


Indicele individual al variabilei complexe:
y1 y
i1y0  sau i1y0  1  100
y0 y0
unde: “1” – perioada curentă
“0” – perioada de bază
y1 – nivelul variabilei complexe în perioada curentă;

3
y0 – nivelul variabilei complexe în perioada de bază.
yk
Pentru o perioadă curentă „k”, faţă de perioada de bază, indicele devine: iky 0 
y0
Pentru cele două variabile factoriale (x şi f) se pot scrie doi indici individuali conform
relaţiilor:
x1 xk
i1x0  , iar pentru o perioadă curentă “k”: ikx 0 
x0 x0

f1 fk
i1f 0  , iar pentru o perioadă curentă “k”: ikf 0 
f0 f0
Indicele individual al variabilei complexe y se mai scrie:
y1 x f x f
i1y0   1 1  1  1  i1x0  i1f 0
y 0 x0 f 0 x0 f 0
Sau, mai general:
y k xk f k x f
iky 0    k  k  ikx 0  ikf 0
y 0 x0 f 0 x0 f 0

Condiţia de reversibilitate a factorilor: produsul indicilor individuali ai celor doi factori


este egal cu indicele individual al variabilei complexe
Determinarea contribuţiei factorilor la modificarea indicatorului complex se poate face
şi într-o formă absolută: y1 / 0  y1  y 0  x1 f 1  x0 f 0

4. Indici de grup (sintetici)

Au ca rol reflectarea variaţiei medii relative la nivelul întregii colectivităţi sau al unei
grupe a acesteia. Se notează de regulă cu litere mari (I).

După modul de calcul, indicii de grup se împart în trei categorii:


 a) indici agregaţi
 b) indici calculaţi ca medie a indicilor individuali
 c) indici calculaţi ca raport a două medii

4.1. Indici sintetici construiţi ca indici agregaţi. Sisteme de ponderare folosite în


construirea indicilor sintetici.

4
Indici sintetici sunt calculaţi ca indici agregaţi. La nivelul întregii colectivităţi,
volumul total al variabilei complexe se obţine prin însumarea (agregarea) valorilor înregistrate
la nivelul fiecărei unităţi statistice.

Prin raportarea nivelului agregat al fenomenului din perioada comparată (curentă) (  y1 )


la cel din perioada de bază (  y 0 ) se obţine indicele agregat.

 y0  x0 f 0
Indicele de grup al caracteristicii complexe y este:
j y1 j x1 f1
I1 0 
y

 y0  x0 f 0
j j

y k x k fk
 
j j
Pentru o perioadă curentă “k": I y

y x
k 0
0 0 f0
j j

 Pentru a determina nivelul agregat al valorilor celor doi factori identificaţi ai variabilei
complexe (factorul cantitativ şi calitativ) se pune problema însumabilităţii valorilor lor
individuale.

 De cele mai multe ori, elementele din care se compun fenomenele din natură şi
societate sunt eterogene, de aceea ele nu pot fi însumate direct. Pentru a face însumabile
aceste elemente se apelează la un comăsurător, etalon, numit şi pondere Ponderea este
întâlnită atât în numărătorul cât şi numitorul indicelui de grup, cu aceeaşi valoare.

 Pentru variabila cantitativă (f) – se pot întâlni următoarele situaţii:

o Este exprimată în unităţi fizice, naturale de acelaşi fel: se poate determina


f  .
o Este exprimată în unităţi fizice, naturale diferite: valorile individuale ale
factorului extensiv nu pot fi însumabile. În acest caz – pentru a le face
însumabile - se înmulţesc valorile factorului extensiv cu ponderile.

 Pentru variabila calitativă (x) – în majoritatea cazurilor aceasta are valori neaditiv – se
aplică ponderea.

Rolul de pondere îl poate juca factorul pereche al factorului ce trebuie agregat. În


continuare prezentăm sistemele de ponderare folosite în construcţia indicilor agregaţi.

Sisteme de ponderare folosite în construirea indicilor sintetici

5
Există mai multe sisteme de ponderare în funcţie de perioada de referinţă a factorului ce
joacă rolul de pondere. Astfel, identificăm următoarele sisteme de ponderare utilizate în
construcţia indicilor de grup.

a) Sistemul de ponderare propus de statisticianul german Etienne Laspeyres în 1864, care


foloseşte ponderi din perioada de bază.

În aceste condiţii, indicii factoriali se vor scrie:


x 0 f 1
— indicele variabilei cantitative: I1f 0 
x 0 f 0
x0 f k
- pentru o perioadă curentă „k”: I kf 0 
x0 f 0

x 1f 0
— indicele variabilei calitative: I1x 0 
x 0 f 0
xk f 0
- pentru o perioadă curentă „k”: I kx 0 
x0 f 0
b) Sistemul de pondere propus de statisticianul german Hermann Paasche în 1874 are la
bază utilizarea ponderilor din perioada curentă.

Indicii factoriali construiţi conform acestui sistem de ponderare vor fi:


x 1 f 1
— pentru variabila cantitativă: I1f 0  ;
x 1f 0
x f
- pentru o perioadă curentă „k”: I kf 0  k k
xk f 0

x 1f 1
— pentru variabila calitativă: I1x 0 
x 0 f 1
xk f k
- pentru o perioadă curentă „k”: I kx 0 
x0 f k
Nici unul dintre cele două sisteme de ponderare uzual întrebuinţate (Laspeyres şi
Paasche) nu respectă testul de reversibilitate a factorilor. Din acest motiv în practică se
foloseşte un sistem de pondere încrucişată. Pentru îndeplinirea acestei condiţii, va trebui
aleasă una din variantele: indicele caracteristicii cantitative să fie construit ca indice
Laspeyres iar indicele caracteristicii calitative — în sistem Paasche invers. Există, însă şi
unele ţări care utilizează în construirea ambilor indici factoriali acelaşi sistem de ponderare (ori

6
pe cel Laspeyres, ori pe cel Paasche). Fiecare variantă aleasă prezintă deopotrivă avantaje şi
dezavantaje.
În practica statistică, cel mai adesea se utilizează cea de-a doua variantă de ponderare
încrucişată, adică I  şi I  , ceea ce înseamnă că, în general, pentru factorul cantitativ
y( x ) y(f )
P1 / 0 L1 / 0

se folosesc ponderi din perioada de bază (0) – sistem Laspeyres, iar pentru factorul
calitativ se folosesc ponderi din perioada curentă (1) – sistem Paasche.

Avantajele indicilor Laspeyres şi Paasche

 Formulele sunt relativ simple, uşor de înţeles;

 Sunt perfect definite;

 Aceste formule se pot prelucra algebric (pot fi scrise ca medii de indici) ;

 Aceşti indici au proprietatea de agregare : adică, de exemplu, indicele Laspeyres al


unui ansamblu de mărimi este egal cu un indice Laspeyres al indicilor Laspeyres ai
fiecărui grup de mărimi ; idem pentru indicii Paasche. Plecându-se de la indicii
grupelor şi subgrupelor, se pot calcula indicii globali.

 Avantajul esenţial este acela că au semnificaţie economică.

 Calculul indicelui Laspeyres este uşor, odată ce au fost determinate ponderile. Această
determinare necesită, în general, o anchetă dificilă, dar ea este necesară doar în
perioada de bază. Din contră, pentru indicele Paasche, trebuie determinate bugetele de
consum pentru fiecare an de calcul, ceea ce este mai dificil.

Dezavantajele indicilor Laspeyres şi Paasche :

 Nu îndeplinesc condiţia de reversibilitate


 Dacă vrem să schimbăm baza de comparaţie, trebuie refăcute calculele (inconvenient
pentru utilizatori) ;
 Pentru una sau alta din formule, apare o problemă atunci când vrem să calculăm un
indice pe perioadă mai lungă.
 Indicele Paasche are un defect: acela că necesită cunoaşterea bugetelor de consum
pentru fiecare an de calcul
 Formulele lui Laspeyres şi Paasche nu conduc la acelaşi rezultat, atunci când sunt
aplicate aceloraşi indici elementari, observându-se, uneori, diferenţe semnificative
între ei.

7
3) Indicele propus de Edgeworth

Foloseşte ca pondere pentru variabila calitativă (preţul) fie suma ponderilor din cele două
perioade, fie media aritmetică simplă a acestor ponderi. Are următoarea formă:
f f 
x 1  1 0 
x f  f   2 
I1x 0  1 1 0 
x 0 f 1  f 0  f f 
x 0  1 0 
 2 
Acest sistem de ponderare prezintă dezavantajul că el se poate aplica numai la con-
struirea indicelui de grup al factorului calitativ.

4.2. Indici sintetici calculaţi ca medie a indicilor individuali.

Această metodă se aplică în calculul indicilor de grup ori de câte ori nu există
suficiente informaţii pentru calculul indicilor agregaţi. Dacă ar exista posibilitatea aplicării
ambelor metode, ar trebui ca valoarea indicelui de grup calculat ca medie a indicilor
individuali să fie egală cu valoarea indicelui de grup calculat sub formă agregată. Indicii de
grup se pot forma fie ca medie aritmetică ponderată, fie ca medie armonică ponderată a
indicilor individuali, în funcţie de datele iniţiale cunoscute.

A. Indici de grup calculati ca medie aritmetică (ponderată):

- pentru variabila complexă (aditivă), indicele agregat al acesteia este:

I1
y i y y
i y
g 0y (%)
  i1y/ 0 g 0y
/0   
y 1 1/ 0 0 1/ 0

y 0 y 0 100
(cunoaştem nivelurile individuale ale variabilei complexe –însumabile- din perioada de bază
(y0) şi indicii individuali ai variabilei însumabile)

Este un indice calculat sub formă de medie aritmetică din indicii individuali, ponderaţi cu
nivelul din perioada de bază y0. Se observă că indicele agregat sub formă de medie se poate
calcula şi folosind mărimea relativă de structură a variabilei complexe în perioada de bază:
y0
g 0y (%)  100
y 0
— pentru variabila cantitativă aditivă

I f
 I 10 
f f 1

i 1f/ 0  f 0 f
(dacă se cunosc i 1 / 0 şi f0)
f 0 f 0
10

8
— pentru variabila cantitativă non-aditivă, ponderată Laspeyres:

I1f0  I10
y f 

x f
0 1

i1f/ 0  x0 f 0 i1f/ 0  y0
  i1f/ 0  g 0y (dacă se cunosc i1f/ 0 şi y0)
x0 f 0 x0 f 0 y0

— pentru variabila calitativă non-aditivă, ponderată Laspeyres:

I1x0  I10
yx

x 1 0 f

i1x/ 0  x0 f 0 i1x/ 0  y0
  i1x/ 0  g 0y (dacă se cunosc i1x/ 0 şi y0)
x0 f 0 x0 f 0 y0

B. Indici de grup calculaţi ca medie armonică (ponderată):

- pentru variabila complexă (aditivă), indicele agregat al acesteia este:

I 1
y y 1
/0   
y 1 1
(dacă se cunosc i1y/ 0 şi y1 )
y 0
1
i  yy 1 i y
1
 g1y
1/ 0 1/ 0

Reprezintă o medie armonică din indicii individuali, ponderaţi cu nivelurile din perioada
curentă (y1) sau cu structura variabilei complexe (însumabile) din perioada curentă.
y1
unde g1y 
 y1
— pentru variabila cantitativă — aditivă

I 1f0  I10 
f f 1

f1 f
(dacă se cunosc i 1 / 0 şi f1)
f 0
1
 f  f1
i1 / 0

— pentru variabila cantitativă — non-aditivă , ponderată Paasche


x f x1 f1 y1 g1y
I 1f 0  I 10
y f 
 1 1   f
(dacă se cunosc i 1 / 0 şi y1)
x1 f 0 1 1 1
 f  x1 f1  f  y1  f  g1y

i1 / 0 i1 / 0 i1 / 0

— pentru variabila calitativă (non-aditivă), ponderată Paasche:


x f x1 f1 y1 g1y
I 1x0  I 10
yx
 1 1    x
(dacă se cunosc i 1 / 0 şi y1)
x0 f1 1 1 1 y
 x x1 f1  x y1  x g1
i1 / 0 i1 / 0 i1 / 0

5. Indicii valorii, volumului fizic şi preţurilor

Analiza la nivel individual, pentru fiecare marfa: indicii individuali

S-au folosit notaţiile: v0, v1, q0, q1, p0, p1 .

9
Pentru a studia dinamica la nivelul fiecărui produs, se calculează indicii individuali ai
valorii:
v1 q1 p1 q p
i1v/ 0   i i
v0 q0 p0

q1
unde: iq = = indicele individual al cantităţilor produse (sau vândute)
q0

p1
ip = = indicele individual al preţurilor unitare ale produselor.
p0
Indicii agregati, construiti pentru grupul marfurilor sau categoriilor de marfuri:
Pentru o viziune de ansamblu sintetică a variaţiei relative a valorii producţiei (la nivelul
tuturor produselor), se calculează indicele de grup al valorii producţiei:
v
I1 / 0 
v  q p 1 1 1
care este un indice în formă agregată.
v q p 0 0 0

Indicele sintetic al factorului cantitativ (Laspeyres):

I 1
v q 

p q 0 1

p q 0 1

p q v
/0
0 0 0

Indicele sintetic al factorului calitativ (Paasche):

I 1/ 0v  p  
pq 1 1

v 1

p q 0 1 p q0 1

 v p
Condiţia de reversibilitate: I 1/ 0v q   I 1 / 0  I 1 / 0
v

Pe baza indicilor calculaţi se pot determina şi modificările relative (ritmul):

I v
1/ 0 
 1  100  R1 / 0
v

I v
1/ 0
q 

 1  100  R 1/ 0v q 

I  v p

1/ 0 
 1  100  R1/ 0v  p 

Prin diferenţa între numărătorul şi numitorul indicilor de grup obţinem modificările


absolute ale valorii: pe cea a valorii totale şi pe cele datorate influenţei celor doi factori.
 v   v1   v 0   p1q1   p 0 q 0

 vq   p 0 q1   p 0 q 0

 vp   p1q1   p 0 q1
Cumulând modificările absolute ale valorii datorate influenţei factorilor obţinem mo-
dificarea absolută totală a valorii.

10
 v   vq    vp 
Daca calculam indicii de grup ai valorii, volumului fizic si preturilor ca medie aritmetica si
armonica, formulele acestora devin:

I1
v i v v
i v
g 0v (%)
  i1v/ 0 g 0v
/0   
v 1 1/ 0 0 1/ 0

v 0 v 0 100
ca medie aritmetică ponderată

I 1
v v 1
/0   
v 1 1
ca medie armonică ponderată
v 0
1
i v
v 1 i
v
1
g v
1
1/ 0 1/ 0

I q
 I10
v q 

p q
0 1

i1q/ 0  p0 q0 i1q/ 0  v0
  i1q/ 0  g 0v ca medie aritmetică ponderată
p0 q0 p0 q0 v0
10

p q p1 q1 v1 g1v


I 1p0  I 10
v p 
 1 1    ca medie armonică ponderată
p0 q1 1 1 1 v
 x p1 q1  p v1  p g1
i1 / 0 i1 / 0 i1 / 0

6. Indicele preţurilor de consum (IPC)

Indicele preţurilor de consum (IPC) este un indicator economic, ce măsoară evoluţia de


ansamblu a preţurilor mărfurilor cumpărate şi a tarifelor serviciilor utilizate între două
perioade de timp date (perioadă curentă şi perioadă de bază).

Indicele preţurilor de consum (IPC) măsoară schimbările, în timp, intervenite în nivelul


general al preţurilor bunurilor şi serviciilor, pe care o populaţie de referinţă le foloseşte sau
le plăteşte pentru consum. (Sursa: International Labour ILO, 1998; Current International
Recommendations on Labour Statistics, Geneva, 1988). Prin urmare, IPC nu este un indice al
costului vieţii, acesta din urmă implicând schimbarea continuă a coşului de bunuri şi servicii
cuprinse în indice, prin faptul că el măsoară comportamentul consumatorilor în vederea
menţinerii constante a unui anumit standard de viaţă (maximizarea utilităţii consumatorilor).
Indicele are utilizări multiple. El este folosit la :
 determinarea puterii de cumpărare a veniturilor, salariilor, pensiilor; calculul
indicatorilor privind nivelul de trai şi sărăciei;
 fundamentarea calculului dobânzii reale;

11
 deflatarea unor indicatori valorici din domeniile comerţului cu amănuntul,
serviciilor, al agregatelor macroeconomice utilizate la calculul Produsului
Intern Brut (consumul final individual efectiv al gospodăriei populaţiei);
 negocierea salariilor, pensiilor, alocaţiilor; realizarea de comparaţii
internaţionale şi altele.

Mod de calcul: IPC este un indice sintetic de tip Laspeyres care măsoară media
schimbărilor de preţ plătite de consumatori pentru un coş fix de bunuri şi servicii, utilizând
ponderi din perioada de bază a indicelui. (Este un indice ‘pur’ de preţ). Determinarea IPC sub
forma unui indice agregat de tip Laspeyres, cu bază fixă, are raţionamente de ordin practic.
Indicele preţurilor de consum se calculează numai pentru elementele care intră în consumul
direct al populaţiei, fiind excluse: consumul din resurse proprii, cheltuielile cu caracter de
investiţii şi acumulare, dobânzile plătite la credite, ratele de asigurare, amenzile, impozitele
etc., precum şi cheltuielile aferente plăţii muncii pentru producţia agricolă a gospodăriilor
individuale“.
IPC se determina cu formula:

p1
pq  p p q 0 0
i c  i
p

IPC  1 0
 0
 1/ 0 0 p
 g 0c
p q p q c
1/ 0
0 0 0 0 0

unde g 0c reprezintă structura cheltuielilor (de consum) medii lunare, efectuate de o


gospodărie, în perioada de bază.
Principalele variabile care concură la calculul indicelui preţurilor de consum sunt
ponderile şi preţurile. Ponderile se calculează după structura cheltuielilor efectuate de
gospodării pentru cumpărarea bunurilor şi pentru plata serviciilor de consum conform
formulei:

ch0i
g c 0i  n

 ch
i 1
0i

unde: ch0i este cheltuiala pentru produsul i cumpărat în perioada de referinţă 0;


Datele utilizate pentru calculul ponderilor provin din Ancheta Bugetelor de Familie
(ABF). Periodic se analizează structura cheltuielilor efectuate de populaţie, iar când mutaţiile
intervenite sunt semnificative, ponderile se actualizează. Astfel, în 2008 în calculul IPC se

12
utilizează ponderile rezultate din structura cheltuielilor medii efectuate de o gospodărie în
anul 2006.

7. Rezumatul Lecţiei
Metoda indicilor, ca metodă de analiză factorială permite studiul variaţiei fenomenelor
complexe în funcţie de modificările factorilor săi de influenţă.
Indicele statistic este o mărime relativă, ce compară, sub formă de raport, mărimea aceluiaşi
fenomen înregistrat în două unităţi de timp, de spaţiu sau de program diferite, la o unitate statistică,
la o grupă sau la nivelul întregii colectivităţi.
După nivelul la care se calculează, indicii pot fi: individuali (sau elementari) şi respectiv
sintetici (sau de grup). Indicii de grup, la rândul lor, se pot calcula în trei moduri, în prezentul curs
fiind abordate doar două metode: calculul indicilor sintetici ca indici agregaţi şi calculul indicilor
sintetici ca medie a indicilor individuali.
La construirea indicilor sintetici se pot folosi două sisteme principale de ponderare: sistemul
Laspeyres (ce foloseşte ponderi în perioada de bază) şi sistemul Paasche (cu ponderi în perioada
curentă). Indicii sintetici se determină atât pentru variabila complexă, cât şi pentru factorii săi de
influenţă (indici factoriali), după un model multiplicativ. Pentru îndeplinirea condiţieide
reversibilitate a factorilor (produsul indicilor factoriali să fie egal cu indicele variabilei complexe)
este necesară – la construirea indicilor sintetici ai factorilor – folosirea unui sistem de ponderare
încrucişat.

13

S-ar putea să vă placă și