Documente Academic
Documente Profesional
Documente Cultură
Bucureşti, 2012
CUPRINS
Capitolul 1: OBIECTUL ŞI NATURA STATISTICII .............................................................. 1
1.1 În loc de introducere: de ce avem nevoie de statistică?.......................................... 1
1.2 O scurtă istorie a termenului de statistică ............................................................ 2
1.3 Natura statisticii ................................................................................................. 2
1.4 Metoda. Etapele cercetării statistice ..................................................................... 5
1.4.1 Metoda statisticii ...................................................................................................... 5
1.4.2 Etapele cercetării statistice ...................................................................................... 5
1.5 Concepte de bază utilizate în statistică................................................................. 7
1.6 Scale de măsurare ............................................................................................. 13
1.7 Întrebări de control ........................................................................................... 15
1.8 Bibliografie selectivă .......................................................................................... 16
Capitolul 2: COLECTAREA ŞI SISTEMATIZAREA DATELOR STATISTICE ........................ 17
2.1 Introducere ....................................................................................................... 17
2.2 Observarea statistică – colectarea datelor individuale ......................................... 17
2.2.1 Principiile observării statistice ............................................................................... 18
2.2.2 Metode de observare statistică .............................................................................. 18
2.2.3 Chestionarul statistic ............................................................................................. 22
2.2.4 Erorile observării statistice şi controlul calităţii datelor înregistrate ...................... 27
2.3 Sistematizarea datelor observării ....................................................................... 27
2.3.1 Distribuţia de frecvenţe .......................................................................................... 29
2.3.2 Tipuri de grupare a datelor individuale ................................................................. 30
2.3.3 Gruparea datele pe valori distincte sau pe intervale de valori .............................. 31
Capitolul 3: PREZENTAREA DATELOR STATISTICE ....................................................... 37
3.1 Serii statistice ................................................................................................... 37
3.2 Modalităţi de prezentare a datelor statistice ....................................................... 37
3.2.1 Tabelele statistice .................................................................................................. 37
3.2.2 Reprezentarea grafică a distribuţiilor de frecvenţe ................................................ 41
3.3 Cuvinte – cheie .................................................................................................. 51
3.4 Întrebări de control ........................................................................................... 51
3.5 Bibliografie ........................................................................................................ 52
Capitolul 4: INDICATORII STATISTICI ............................................................................ 53
4.1 Introducere ....................................................................................................... 53
4.2 Indicatori primari si indicatori derivaţi ............................................................... 53
4.3 Mărimile relative ............................................................................................... 55
4.4 Cuvinte - cheie .................................................................................................. 66
4.5 Intrebări de control ........................................................................................... 66
4.6 Bibliografie ........................................................................................................ 66
Capitolul 5: ANALIZA DESCRIPTIVĂ A SERIILOR DE REPARTIŢIE .................................. 67
5.1 Introducere ....................................................................................................... 67
i
5.2 Definirea, trăsăturile şi reprezentarea grafică a seriilor de repartiţie ................... 67
5.3 Indicatorii tendinţei centrale .............................................................................. 74
5.3.1 Media aritmetică.................................................................................................... 75
5.3.2 Mediana (valoarea centrală) .................................................................................. 83
5.3.3 Modul (valoarea dominantă) .................................................................................. 87
5.3.4 Alte tipuri de medii ................................................................................................ 90
5.3.5 Media pătratică ..................................................................................................... 92
5.3.6 Media geometrică .................................................................................................. 93
5.4 Indicatorii variaţiei ............................................................................................ 94
5.4.1 Indicatorii simpli ai variaţiei .................................................................................. 95
5.4.2 Indicatorii sintetici ai variaţiei ............................................................................. 102
5.4.3 Media si dispersia unei variabile alternative ...................................................... 108
5.4.4 O aplicaţie importantă a indicatorilor variaţiei: identificarea valorilor aberante . 109
5.5 Asimetria şi aplatizarea ................................................................................... 110
5.5.1 Asimetria ............................................................................................................. 110
5.5.2 Aplatizarea .......................................................................................................... 112
5.6 Cuvinte – cheie ............................................................................................... 114
5.7 Intrebări de control ......................................................................................... 114
5.8 Bibliografie ..................................................................................................... 115
Capitolul 6: ANALIZA SERIILOR INTERDEPENDENTE .................................................. 117
6.1 Introducere ..................................................................................................... 117
6.2 Tipuri de legături ............................................................................................ 117
6.3 Metode simple de analiză a legăturii dintre variabile ........................................ 119
6.4 Descompunerea dispersiei într-o colectivitate împărţită pe grupe (Regula de
adunare a dispersiilor). ................................................................................... 123
6.5 Metode de analiză a legăturilor dintre variabile ................................................ 131
6.5.1 Metode neparametrice de măsurare a intensităţii corelaţiei ............................... 131
6.5.2 Metode parametrice de măsurare a intensităţii corelaţiei ................................... 134
6.5.3 Metoda regresiei .................................................................................................. 137
6.6 Cuvinte – cheie ............................................................................................... 147
6.7 Intrebări de control ......................................................................................... 148
6.8 Bibliografie ..................................................................................................... 148
Capitolul 7: SERII CRONOLOGICE .............................................................................. 149
7.1 Introducere ..................................................................................................... 149
7.2 Definire, categorii, reprezentare grafică ............................................................ 149
7.3 Indicatorii statistici ai seriilor cronologice de perioade ...................................... 152
7.3.1 Indicatorii absoluţi ai seriilor cronologice ............................................................ 153
7.3.2 Indicatorii relativi ai seriilor cronologice .............................................................. 154
7.3.3 Indicatorii medii ai seriilor cronologice ................................................................ 156
7.4 Indicatorii statistici ai seriilor cronologice de momente ..................................... 158
7.5 Ajustarea seriilor cronologice ........................................................................... 159
ii
7.6 Extrapolarea seriilor cronologice ...................................................................... 174
7.7 Criterii de alegere a procedeelor de ajustare ..................................................... 177
7.8 Cuvinte – cheie ................................................................................................ 179
7.9 Intrebări de control ......................................................................................... 179
7.10 Bibliografie ...................................................................................................... 180
Capitolul 8: INDICII STATISTICI ................................................................................... 181
8.1 Introducere ..................................................................................................... 181
8.2 Definire. Tipuri de indici .................................................................................. 181
8.3 Probleme metodologice privind construirea indicilor de grup ............................ 184
8.4 Indici de grup calculaţi ca o medie a indicilor individuali .................................. 188
8.5 Indicii de grup calculaţi ca raport a două medii ................................................ 193
8.6 Descompunerea variaţiei unei variabile complexe pe factori de influenţă prin
metoda indicilor .............................................................................................. 196
8.7 Serii cronologice de indici statistici .................................................................. 202
8.8 Cuvinte cheie .................................................................................................. 203
8.9 Întrebări de control ......................................................................................... 204
8.10 Bibliografie ...................................................................................................... 204
Capitolul 9: ELEMENTE DE SONDAJ STATISTIC ......................................................... 205
9.1 Introducere ..................................................................................................... 205
9.2 Definire, etape, noţiuni, avantaje ..................................................................... 205
9.3 Procedee de selecţie ......................................................................................... 208
9.4 Erorile sondajului statistic ............................................................................... 212
9.5 Eroarea medie si eroarea limită ........................................................................ 213
9.6 Tipuri de sondaje folosite frecvent in practica statistică .................................... 222
9.6.1 Sondajul aleator simplu ....................................................................................... 222
9.6.2 Sondajul stratificat .............................................................................................. 224
9.6.3 Sondajul în trepte ................................................................................................ 229
9.6.4 Efectul de cluster ................................................................................................. 232
9.6.5 Sondajul de serii .................................................................................................. 236
9.7 Determinarea volumului eşantionului .............................................................. 237
9.8 Estimarea parametrilor colectivităţii generale ................................................... 238
9.9 Cuvinte cheie .................................................................................................. 239
9.10 Întrebări de control ......................................................................................... 239
9.11 Bibliografie ...................................................................................................... 240
Index alfabetic ............................................................................................................. 241
iii
Lista tabelelor
iv
Tabelul 7.2 – Evoluţia cifrei de afaceri a companiei X în perioada 2000 - 2009 .................................. 153
Tabelul 7.3 – Stocul de mărfuri ale companiei X la începutul lunii ................................................ 159
Tabelul 7.4 – Calculul parmetrilor funcţiei liniare pentru o serie cronologică ................................... 172
Tabelul 8.1 – Vânzările companiei X din luna septembrie a anilor 2008 şi 2009 ................................. 190
Tabelul 8.2 – Volumul vânzărilor şi modificarea preţurilor produselor vândute de compania X ............ 192
Tabelul 8.3 – Fondul de salarii, numărul de angajaţi şi salariul mediu al companiilor A şi B în luna
decembrie a anilor 2008 şi 2009 ........................................................................ 194
Tabelul 8.4 - Fondul de salarii, numărul de angajaţi şi salariul mediu al companiilor A şi B în luna
decembrie a anilor 2008 şi 2009 ........................................................................ 201
Tabelul 9.1 – Notaţii folosite în sondajul statistic ...................................................................... 207
Tabelul 9.2 – Repartizarea muncitorilor după timpul nelucrat ...................................................... 217
Tabelul 9.3 – Rezultatele sondajului la ieşirea de la urne în turul II al alegerilor prezidenţiale din 6
decembrie 2009 ............................................................................................ 221
Tabelul 9.4 – Intervalele de încredere ale rezultatelor sondajului la ieşirea de la urne în turul II al alegerilor
prezidenţiale din 6 decembrie 2009 ................................................................... 222
Tabelul 9.5 – Salariul mediul lunar net estimat ......................................................................... 228
v
Lista graficelor
Fig. 1.1 – Etapele cercetării statistice ......................................................................................... 5
Fig. 1.2 – Precizie vs. exactitate .............................................................................................. 12
Fig. 1.3 – Relaţia între categoriile de variabile şi scalele de măsurare ............................................... 15
Fig. 3.1 – Distribuţia angajaţilor în funcţie de starea civilă ............................................................ 43
Fig. 3.2 – Distribuţia procentuală a angajaţilor în funcţie de starea civilă .......................................... 44
Fig. 3.3 – Distribuţia angajaţilor în funcţie de starea civilă (diagramă rectangulară) ............................ 44
Fig. 3.4 – Distribuţia angajaţilor în funcţie de numărul de copii ..................................................... 45
Fig. 3.5 – Curba cumulativă a distribuţiei angajaţilor în funcţie numărul de copii ............................... 45
Fig. 3.6 – Distribuţia angajaţilor pe grupe de salarii ..................................................................... 46
Fig. 3.7 – Grafic incorect - Distribuţia angajaţilor pe grupe de salarii ............................................... 47
Fig. 3.8 – Poligonul frecvenţei angajaţilor pe grupe de salarii din firma X la 31.12.2008 ........................ 48
Fig. 3.9 – Distribuţia şi curba cumulativă a frecvenţelor angajaţilor pe grupe de salarii din firma X la
31.12.2008 ..................................................................................................... 48
Fig. 3.10 – Diagrama tulpină-cu-ramuri a salariilor angajaţilor din firma X la 31.12.2008 ....................... 49
Fig. 3.11 – Rata de căsătorie şi numărul de copii ai angajaţilor din firma X la 31.12.2008 ....................... 50
Fig. 4.1 – Structura populaţiei României pe medii de rezidenţă ...................................................... 59
Fig. 4.2 – Structura populaţiei României pe medii de rezidenţă - grafice proporţionale cu mărimea
colectivităţii statistice ...................................................................................... 60
Fig. 5.1 – Repartiţia agenţilor economici după cifra de afaceri ....................................................... 71
Fig. 5.2 – Repartiţia agenţilor economici după cifra de afaceri (reprezentare prin poligonul frecvenţelor) 71
Fig. 5.3 – Repartiţia agenţilor economici după cifra de afaceri (reprezentare prin poligonul frecvenţelor
cumulate crescător şi descrescător) .................................................................... 72
Fig. 5.4 – Histograma repartiţiei agenţilor economici după cifra de afaceri (suprafaţa fiecărei coloane este
egală cu proporţia numărului de companii din fiecare interval de grupare) .................. 74
Fig. 5.5 – Calculul grafic al medianei la intersecţia ogivelor ........................................................... 86
Fig. 5.6 – Calculul grafic al medianei la intersecţia ogivelor ........................................................... 86
Fig. 5.7 – Histograma repartiţiei agenţilor economici după cifra de afaceri ....................................... 89
Fig. 5.8 – Distribuţia normală şi gruparea valorilor pe intervale ale abaterii standard ......................... 107
Fig. 5.9 – Exemplu de distribuţie simetrică ............................................................................. 110
Fig. 5.10 – Exemplu de distribuţie asimetrică la dreapta ............................................................. 110
Fig. 5.11 – Exemplu de distribuţie asimetrică la stânga .............................................................. 111
Fig. 5.12 – Exemplu de distribuţie ascuţită .............................................................................. 113
Fig. 5.13 – Exemplu de distribuţie aplatizată ........................................................................... 113
Fig. 6.1 - Diagrama rezultatelor la admintere si in prima sesiune de examene .................................. 120
Fig. 6.2 – Legătură liniară directă .......................................................................................... 121
Fig. 6.3 – Legătură liniară indirectă ....................................................................................... 121
Fig. 6.4 – Legătură neliniară ................................................................................................ 121
Fig. 6.5 – Absenţa legăturii .................................................................................................. 121
Fig. 6.6 – Legătură puternică ............................................................................................... 122
Fig. 6.7 – Legătură slabă ..................................................................................................... 122
vi
Fig. 6.8 – Graficul de corelaţie între vechimea în muncă şi câştigul salarial ..................................... 141
Fig. 7.1 – Tipuri de serii cronologice ...................................................................................... 150
Fig. 7.2– Reprezentarea grafică a unei serii de intervale .............................................................. 151
Fig. 7.2– Reprezentarea grafică a unei serii de momente ............................................................. 152
Fig. 7.4– Serie cronologică de momente echidistante ................................................................. 158
Fig. 7.5– Serie de timp cu variaţii sezoniere egale ...................................................................... 161
Fig. 7.6– Serie de timp cu variaţii sezoniere diferite ................................................................... 162
Fig. 7.7– Trasarea grafică a liniei de trend ............................................................................... 163
Fig. 7.8– Seria de timp a vânzărilor şi dreapta tendinţei .............................................................. 166
Fig. 7.9– Extrapolarea seriei de timp ...................................................................................... 177
vii
Capitolul 1: OBIECTUL ŞI NATURA STATISTICII
Fără să ne dăm seama, am făcut raţionamente bazate pe calcule statistice: salariul mediu
plătit pentru un anumit post, cheltuiala medie pe care o facem la cumpărături, timpul mediu necesar
pentru o călătorie etc. Pe lângă aceste valori medii avem în plus şi o reprezentare a valorilor minime şi
maxime.
Totuşi, nici simplitatea unor situaţii cotidiene şi nici obişnuinţa de a auzi sau de a discuta
despre date statistice nu îi împiedică pe cei mai mulţi dintre studenţi – de aici sau de oriunde – să
spună că, dintre toate cursurile urmate, cel de statistică este unul dintre cele mai grele, plictisitoare şi
aride.
Cursul de faţă îşi propune să ajute studenţii să înţeleagă noţiunile statisticii şi, cu răbdare şi
stăruinţă, să înţeleagă şi de ce avem nevoie de ele, să le aplice în situaţii practice şi să interpreteze
rezultatele pe care le obţin.
După ce am trecut în revistă câteva situaţii concrete, aparent banale, în care apar cifrele
statistice, este momentul să formulăm o primă definiţie a statisticii: este ştiinţa studierii în expresie
numerică a fenomenelor de masă care au loc în societate, economie sau din natură, având nu
doar un rol descriptiv, dar şi unul explicativ, identificând cauzele fundamentale, legităţile care conduc
la manifestarea respectivelor fenomene. Legând obiectul de scopul ei, statistica este ştiinţa colectării
şi analizării datelor în scopul formulării de concluzii şi luării deciziilor1.
Statistica, pentru simplul motiv că ne invadează spaţiul privat şi public, trebuie să facă parte
din bagajul educaţional al oricărui individ. De aceea, fiecare ar trebui să-şi pună întrebări cum ar fi:
cum sunt produse datele statistice, ce măsoară ele, ce semnifică şi cum trebuie interpretate?
1 Tamhane, Ajit C., and Dorothy D. Dunlop. Statistics and Data Analysis from Elementary to Intermediate.
Prentice Hall, 2000, pp. 1
1
Răspunsurile sunt chiar mai simple decât mulţi studenţi îşi închipuie şi tocmai aceste
răspunsuri, cel puţin o parte dintre ele, se regăsesc în capitolele acestui curs.
Cursul de faţă este adresat studenţilor din primul ciclu universitar şi are rol introductiv, pentru
a-i familiariza cu limbajul, conceptele şi, inevitabil, cu relaţiile de calcul al mărimilor statistice.
Istoric, originile statisticii sunt plasate în anul 1663, când John Graunt – considerat
întemeietorul demografiei – a publicat lucrarea sa Natural and Political Observations upon the Bills of
Mortality (Observaţii naturale şi politice ale tabelelor de mortalitate), în care a dezvoltat primele tabele
de mortalitate ale populaţiei Londrei, confruntată la vremea respectivă cu efectele ciumei bubonice.
Deşi izvorâtă dintr-o nevoie de cunoaştere empirică, bazele matematice ale statisticii au fost puse în
secolul al XVII-lea, odată cu dezvoltarea teoriei probabilităţilor de către Blaise Pascal şi Pierre Fermat.
O contribuţie esenţială la evoluţia statisticii, cu implicaţii în domeniul eşantionarii, dezvoltării
experimentelor şi, în general, inferenţei statistice, a avut-o Carl Friederich Gauss, prin fundamentarea
legii distribuţiei normale şi a metodei celor mai mici pătrate.
2
finanţelor publice, al agriculturii, al mediului, al sănătăţii, al educaţiei sau al justiţiei, dacă acele
activităţi sunt cuprinse în programele statistice naţionale anuale şi multi-anuale – pentru a li se
conferi girul de calitate garantată prin respectarea principiilor fundamentale ale statisticii oficiale2.
Printre principiile fundamentale ale statisticii oficiale, la care trebuie să adere în totalitate orice
instituţie care pretinde că face parte din sistemul statistic naţional şi, implicit, european, se pot
enumera:
În egală măsură, companii private sau asociaţii profesionale desfăşoară activităţi statistice.
Spre exemplu, presa dă publicităţii date statistice cum ar fi numărul vânzărilor sau înmatriculărilor de
autovehicule comunicate de asociaţiile profesionale, ori volumul vânzărilor din sectorul comerţului cu
amănuntul, al câştigurilor salariale din anumite domenii de activitate etc., produse şi comunicate de
institute de cercetări de piaţă. Desigur, ele nu pot fi considerate „statistici oficiale”, dar sunt girate de
propriile sisteme de atestare a calităţii, cum este cel promovat, spre exemplu, de ESOMAR.
2Principiile fundamentale ale statisticii oficiale au fost stabilite de Organizaţia Naţiunilor Unite şi au fost înscrise în
Codul de Practici al Statisticii Europene pentru autorităţile statistice naţionale şi ale Comunităţii (European
Statistics Code of Practice for the national and Community statistical authorities) adoptat de Comitetul pentru
Programul Statistic la 24 februarie 2005 şi promulgat prin recomandarea Comisiei Europene din 25 mai 2005
asupra independenţei, integrităţii şi răspunderii autorităţilor statistice naţionale şi ale Comunităţii.
3
Statistica este asimilată cu mulţimea datelor statistice
O altă accepţiune dată noţiunii de statistică este cea conferită totalităţii metodelor folosite în
cercetarea cantitativă a fenomenelor de masă. Ca metodă de cercetare, statistica este folosită de alte
discipline ştiinţifice pentru descoperirea regularităţilor din domeniul respectiv de studiu, a tendinţelor
care se pot constitui ca elemente de previziune.
Folosirea statisticii ca metodă de cercetare este urmarea faptului că legile ştiinţifice sunt legi
cu caracter statistic. Aceste legi se manifestă numai la nivelul ansamblului şi exprimă valoarea medie,
adică normală, predominantă, purtată de majoritatea elementelor unui ansamblu. Aceste legi nu se
manifestă şi nu pot fi verificate la nivelul fiecărui element, ci numai la nivelul întregului.
Pentru a putea desprinde ceea ce este esenţial, regula, trebuie cercetată o mulţime a acestor
manifestări individuale (masă, colectivitate), eliminându-se ceea ce este întâmplător, neesenţial, prin
simplificări şi abstractizări succesive.
Astfel de fenomene se numesc fenomene de masă sau de tip colectiv, iar cunoaşterea legilor
care le guvernează presupune cercetarea ansamblului de manifestări individuale.
Aşadar, cunoaşterea statistică, respectiv a ceea ce este esenţial, normal, care se manifestă
după o anumită regulă, în mulţimea manifestărilor individuale presupune fixarea fiecărei manifestări
individuale (înregistrarea datelor), sintetizarea datelor individuale în valori tipice prin prelucrarea
datelor individuale şi formularea regularităţilor care se manifestă în colectivitate.
Ca ştiinţă, statistica şi-a construit un obiect de studiu, o metodă particulară şi un scop bine
precizat. În literatura de specialitate se susţine frecvent că statistica este ştiinţa metodelor pentru
cercetarea în expresie numerică a fenomenelor de masă. Însă aceste metode de cercetare sunt
folosite şi de alte discipline ştiinţifice.
4
Scopul statisticii este acela de a extrage informaţii din date pentru a înţelege mai bine
fenomenul pe care aceste date îl reflectă. Cu alte cuvinte, statistica nu are un scop în sine, de a
colecta, sistematiza, prezenta şi interpreta datele statistice, ci şi de a găsi cauzalităţile fenomenului şi
de a formula pe baza lor previziuni şi, prin toate acestea, să sprijine luarea unor decizii argumentate
faptic.
Principiile metodologice prin care se particularizează metoda statisticii sunt observarea faptică
şi exprimarea numerică.
În demersul statistic se recurge la cele două tipuri de raţionament ale metodei ştiinţifice:
deductiv şi inductiv. În primul caz se porneşte de la general şi se deduc prin raţionament logic anumite
proprietăţi particulare. În cazul metodei inductive se pleacă de la observarea şi înregistrarea
manifestărilor empirice, individuale, şi prin simplificări abstractizări şi generalizări se reţine la nivelul
întregului numai ceea ce este generat de cauze comune, adică numai ceea ce este normal, esenţial,
permanent.
5
Pregătirea cercetării statistice presupune:
- definirea indicatorilor prin care se poate atinge scopul urmărit prin cercetare;
- definirea modalităţilor de obţinere a datelor individuale (există surse de date care răspund
obiectivului cunoaşterii? Este necesară organizarea unei înregistrări a datelor individuale?
se culeg date pentru toate unităţile colectivităţii sau numai pentru o parte a acesteia? cum
se culeg datele: prin interviu faţă în faţă, telefonic, prin poştă, on-line?).
- dacă datele se obţin printr-un sondaj, eşantionul trebuie să fie reprezentativ pentru
întreaga colectivitate.
Cadranul 1 – O listă a etapelor generice ale unei
Prelucrarea statistică este etapa prin cercetări statistice
care se realizează sistematizarea datelor 1. Definirea scopului, obiectivelor şi a ipotezelor
individuale, prezentarea datelor sub formă de cercetării statistice
serii, tabele şi grafice statistice şi se calculează 2. Consultarea literaturii de specialitate pentru a
indicatori derivaţi care permit caracterizarea identifica experienţele similare
tendinţei centrale, variaţia valorilor, intensitatea 3. Identificarea variabilelor măsurate şi a modului de
observare
corelaţiei, tendinţa de evoluţie.
4. Stabilirea indicatorilor calculaţi şi a formatelor de
Analiza statistică constă în ieşire
compararea şi confruntarea datelor, formularea 5. Dezvoltarea unui plan de colectare a datelor
şi prezentarea concluziilor pe baza indicatorilor • Definirea populaţiei de referinţă/unitatea
statistică, unitatea de observare
derivaţi în formularea şi verificarea ipotezelor.
• Definirea perioadei de referinţă şi de
Analiza statistică se împarte, de regulă, colectare a datelor
în două ramuri: • Proiectarea eşantionului / observare totală
/ surse externe
1. Analiza statistică descriptivă. Are • Stabilirea metodei de colectare (PAPI,
drept obiectiv prezentarea cât mai sugestivă a CAPI, CATI, poştă, on-line)
datelor empirice obţinute în urma unei observări, 6. Formarea personalului cercetării statistice
respectiv: volumul; structura; prezentarea 7. Colectarea datelor
grafică; evoluţia în timp. 8. Proiectarea aplicaţiei informatice (introducere
date/prelucrare)
Observaţie: informaţiile furnizate de 9. Prelucrarea datelor
statistica descriptivă se referă numai la masa 10. Analiza rezultatelor
unităţilor la nivelul cărora s-au observat valorile 11. Raportare (difuzarea rezultatelor)
variabilelor.
6
2. Analiza statistica inductivă sau inferenţa statistică. În cazul celor mai multe ştiinţe se
urmăreşte formularea de concluzii care sunt valabile nu numai pentru grupe riguros delimitate, ci
pentru toate obiectele, unităţile care posedă aceleaşi trăsături ca acelea de la care s-au cules datele
empirice. Dacă se urmăreşte un asemenea obiectiv se ajunge în domeniul statisticii inductive.
Statistica inductivă porneşte de la datele empirice înregistrate pentru o parte din unităţile colectivităţii
(eşantion), iar pe baza indicatorilor calculaţi pentru eşantion se formulează concluzii valabile pentru
întreaga colectivitate. Obiectul inferenţei îl constituie estimarea parametrilor întregii colectivităţi şi
verificarea ipotezelor, baza constituind-o calculul probabilităţilor.
Niciuna din etapele prezentate nu pot fi concepute şi derulate fără utilizarea tehnologiei
informaţiei. În etapa pregătitoare începe proiectarea aplicaţiei informatice de introducere a datelor,
sunt definite clasificările şi nomenclatoarele utilizate la introducerea şi validarea datelor, după care
este proiectată, testată şi pusă în operă aplicaţia informatică de prelucrare propriu-zisă a datelor,
pentru calculul indicatorilor ceruţi, de producere a tabelelor şi altor forme de prezentare a rezultatelor,
până la producerea automată a rapoartelor ieşire. Tehnologia informaţiei stă, de asemenea, în centrul
specificării modelelor statistice, al evaluării calităţii acestora şi, în principal, al producerii statisticilor pe
baza cărora sunt interpretate intensitatea legăturilor dintre variabilele statistice şi măsura în care
modificarea unei variabile explicative conduce la modificarea variabilei explicate, proces esenţial
pentru realizarea de prognoze pe baza datelor statistice.
eşantion;
observaţie;
frecvenţa;
probabilitate;
parametru;
estimator;
precizie;
exactitate;
deplasare (bias);
7
indicatorul statistic.
Colectivitatea statistică specifică vieţii economice şi sociale are un caracter obiectiv, concret şi
finit. Sarcina statisticianului constă în fiecare caz în identificarea şi definirea cu maximă exactitate a
tuturor unităţilor care compun colectivitatea şi delimitarea acestora în timp şi în spaţiu. Deci, o
colectivitate cuprinde toate unităţile care au aceleaşi proprietăţi, care răspund scopului cercetării şi
sunt identice prin prisma timpului şi locului. Exemplu: În cazul unei cercetări statistice într-o firmă,
colectivităţi statistice ar putea fi: totalitatea angajaţilor, stocul de materiale, stocul de contracte,
totalitatea clienţilor, dar şi totalitatea operaţiunilor de încasări şi plăţi etc.
În orice cercetare statistică este important să se facă deosebirea dintre o colectivitate de stoc
şi una de flux.
O colectivitate statistică în care unităţile intră în masa ei sau care ies din masa ei la un
moment dat reprezintă o colectivitate de stoc. Pentru astfel de colectivităţi are sens să se
înregistreze date având ca referinţă un moment (oră, zi, lună, trimestru, an).
Exemple: exporturile României în anul ..., încasările unei firme în luna ..., numărul născuţilor
vii în Bucureşti în anul .....
Unei colectivităţi de stoc îi corespund colectivităţi de flux, care descriu intrările şi ieşirile în şi
din colectivitatea de stoc. Spre exemplu, populaţia unei localităţi la un moment dat, care este o
colectivitate de stoc, are drept colectivităţi de flux corespondente naşterile, decesele, imigrările şi
emigrările care au loc într-o anumită perioadă de timp până la momentul observării.
unde:
8
St0 – stocul la momentul t0, respectiv la ultima observare/înregistrare;
It1/t0 – colectivitatea de flux a intrărilor în perioada t0-t1, respectiv totalitatea unităţilor intrate
în stoc în această perioadă;
Et1/t0 – colectivitatea de flux a ieşirilor în perioada t0-t1, respectiv totalitatea unităţilor ieşite
din stoc în această perioadă;
Eşantionul este o parte a populaţiei statistice de referinţă care a fost selectat conform unor
metode bine fundamentate teoretic - din corpul teoriei şi practicii sondajelor. Un eşantion reprezentativ
al colectivităţii statistice este acela care dă tuturor unităţilor statistice o şansă nenulă de a fi prezentă
în eşantion. Această şansă este în principiu garantată dacă se utilizează o metodă aleatoare de
selecţie, bazată pe teoria probabilităţilor. Aleator nu înseamnă “la întâmplare”, deoarece întâmplarea
poate afecta, fără intenţie, şansele de a include o unitate în eşantion. Scopul aplicării riguroase a
acestor metode este ca estimaţiile calculate pe baza eşantionului să caracterizeze întreaga
colectivitate statistică.
Numărul unităţilor care compun o colectivitate defineşte volumul sau efectivul acestei
colectivităţi statistice.
Unităţile statistice trebuie definite clar, cerinţă impusă de necesitatea delimitării şi identificării
în timp şi spaţiu şi a obţinerii de date autentice.
Unităţi statistice complexe, care cuprind una sau mai multe unităţi simple. Exemple:
secţia de producţie, gospodăria, localitatea, ramura de activitate economică.
În cazul unei cercetări se optează pentru o unitate simplă sau complexă în funcţie de
obiectivele cunoaşterii. Astfel, la recensământul populaţiei se foloseşte ca unitate statistică ″persoana″
şi ″menajul/gospodăria″. În primul caz se urmăreşte obţinerea datelor necesare cunoaşterii unor
elemente privind numărul, structura pe sexe, medii de rezidenţă, nivel de instruire etc. În cel de-al
doilea caz interesează de regulă condiţiile de locuit, condiţiile de trai etc. Într-un studiu privind
consumul de servicii turistice, unităţile statistice sunt „persoana adultă” şi „familia”, pentru a analiza,
spre exemplu, modul în care se iau deciziile privind comportamentul turistic al familiei (care este
persoana adultă din familie care are cea mai mare influenţă în ceea ce priveşte destinaţia, durata,
bugetul alocat etc.) şi comportamentul de consum turistic al familiei (suma cheltuită şi destinaţia
acestora, modalităţile de plată, tipul de produse şi servicii consumate).
3In limba engleză, termenul de bază de sondaj este întâlnit ca “sampling frame”, iar în limba franceză ca “base de
sondage”.
9
Caracteristica statistică (variabila statistică) este proprietatea, însuşirea unităţilor statistice
care interesează în cadrul cercetării. În cadrul unei cercetări interesează, desigur, mai multe
caracteristici.
Caracteristicile statistice pot fi de diferite tipuri. O clasificare frecventă este legată de utilizarea
tehnologiei informaţiei în prelucrarea datelor statistice. Astfel, din punctul de vedere al unei aplicaţii
informatice, caracteristicile statistice sunt de trei tipuri:
nenumerice, categoriale sau calitative, care sunt reprezentate prin denumiri sau
însuşiri;
dată calendaristică, care este un tip special de variabilă numerică, deoarece este
reprezentată ca număr de zile (sau de ore, minute sau secunde în unele situaţii) de la
anumită dată fixă, de regulă 1 ianuarie 1960. O variabilă de tip dată calendaristică este
extrem de utilă, spre exemplu, în calcularea dobânzii cuvenite pentru un depozit, luând în
considerare perioada scursă de la dată constituirii depozitului sau în determinarea duratei
medii de realizare a unei operaţiuni într-un proces de fabricaţie, ori până la constatarea
unei defecţiuni la o piesă dintr-un ansamblu mecanic etc. Stocarea unei date
calendaristice ca o variabilă nenumerică nu poate fi recunoscută de aplicaţia informatică
ca o valoare numerică, asupra căreia să se poată realiza operaţii aritmetice.
10
Tabelul 1 – Clasificări ale variabilelor statistice
Observaţia este formată din totalitatea valorilor colectate pentru toate variabilele supuse
observării la nivelul unei unităţi statistice. Astfel, după colectarea datelor, vom obţine tot atâtea
observaţii câte unităţi statistice au fost supuse observării. După introducerea valorilor observate în
calculatorul electronic, fişierul rezultat din cercetare are, de obicei, o formă rectangulară de n
observaţii x m variabile.
Frecvenţa de apariţie a unei variante distincte sau a unui grup de variante, poate fi absolută
sau relativă. Frecvenţa absolută (ni) arată de câte ori a fost înregistrată o variantă distinctă, iar cea
relativă (fi) exprimă ponderea, greutatea specifică sau cota-parte în totalul elementelor unei
colectivităţi ( fi = ni / Σni).
Parametrul este valoarea numerică prin care se descrie o anumită caracteristică (variabilă) a
populaţiei statistice. Referindu-se la întreaga populaţie statistică, parametrul arată valoarea
„adevărată” a variabilei observate. Valoarea parametrului este, de obicei, necunoscută şi este
exprimată sub formă de total, medie sau proporţie. Spre exemplu, un parametru este cifra de afaceri
totală (adevărată) a întreprinderilor dintr-o anumită ramură economică, ori cifra de afaceri medie pe
întreprindere sau proporţia cifrei de afaceri a întreprinderilor mari (cu peste 250 de salariaţi) din
ramura respectivă. Într-o altă cercetare statistică, variabila de interes poate fi înălţimea copiilor născuţi
într-un anumit an, iar parametrul calculat poate fi înălţimea medie a băieţilor şi a fetelor ori proporţia
fetelor care au o înălţime sub o anumită valoare. Alt exemplu poate fi un studiu statistic asupra
sărăciei, iar variabila de interes să fie venitul mediu pe persoană din fiecare gospodărie. Un parametru
este proporţia gospodăriilor cu un venit mediu pe membru de familie sub pragul de sărăcie. Un alt
parametru extrem de important al populaţiei este dispersia valorilor unei variabile de interes.
Estimator este o funcţie numerică, definită pentru variabila de interes, care este calculat pe
baza datelor din eşantion şi care estimează parametrul populaţiei statistice. Rezultatul calculelor ne
oferă o estimaţie. Concret, fiecare parametru are drept corespondent un estimator cu cel puţin o
11
estimaţie. In oglinda exemplelor de mai sus, un estimator este, spre exemplu, cifra de afaceri medie
din eşantionul de 2000 de întreprinderi din o ramură economică sau proporţia gospodăriilor din
eşantionul de 30000 de gospodării al căror venit mediu pe persoană se află sub pragul de sărăcie etc.
Precizia ne arată gradul de împrăştiere a estimaţiilor unui parametru. Precizia este cu atât
mai mare cu cât gradul de împrăştiere a estimaţiilor în jurul parametrului (necunoscut) este mai mic.
Împrăştierea este dată de faptul că dintr-o populaţie statistică putem extrage mai mult de un eşantion,
din fiecare obţinând câte o estimaţie prin intermediul aceluiaşi estimator. Ştim că valoarea medie a
unei variabile obţinută din datele unui eşantion reflectă valoarea medie a variabilei din populaţia din
care a fost extras eşantionul. Însă, dacă extragem două eşantioane independente, este aproape sigur
că cele două valori medii vor fi diferite, deşi ele estimează aceeaşi valoarea medie (adevărată) din
populaţia statistică. Această variaţie a estimaţiilor contribuie la gradul de împrăştiere, deci la stabilirea
preciziei estimaţiilor.
Indicatorul statistic este o noţiune folosită cu sensul de expresie numerică a unei măsurări
statistice sau a unui calcul asupra datelor obţinute printr-o înregistrare statistică.
12
Prin intermediul indicatorilor statistici se măsoară diferite aspecte ale fenomenelor şi
proceselor de masă. Aşadar, folosirea şi determinarea indicatorilor presupune în prealabil elaborarea
lor conceptuală şi metodologică, urmată de calcularea lor pe baza datelor observate.
Orice indicator statistic este format din două părţi: o parte noţională care defineşte conţinutul
indicatorilor şi o expresie numerică delimitată în timp şi în spaţiu.
Exemplu: Produsul Intern Brut al României a fost în anul 2009 de 491.274 milioane lei; rata
inflaţiei a fost în Romania în decembrie 2009 faţă de decembrie 2008 de 4,74%.
Partea noţională
Delimitare în spaţiu
PIB
România
Exemple:
Variantele înregistrate în cazul primelor două variabile calitative sunt cuvinte care nu rezultă
din numărare sau măsurare. Se poate constata doar dacă o unitate are o anumită însuşire sau nu. În
acest caz variantele nu pot fi ordonate, în sens de ″mai mare″ sau ″mai mic″ şi nu se pot determina
distanţe sau rapoarte între variantele înregistrate.
La a treia variabilă, variantele admit stabilirea unor liste de ranguri, de ordine, în sensul că
″bine″ se situează pe o treaptă superioară faţă de ″satisfăcător″.
13
În cazul ultimelor două variabile, variantele sunt numere care rezultă din măsurare sau
numărare. Valorile observate nu numai că pot fi ordonate, dar are sens să se determine distanţe şi
rapoarte prin intermediul lor.
Deci, la prelucrarea datelor variabilelor menţionate nu pot fi aplicate aceleaşi metode. Are
sens, de exemplu să se calculeze ″greutatea medie″ a mai multor persoane, dar nu are sens să se
determine ″sexul mediu″.
În practica statistică, scalele tipice de măsurare sunt: scala nominală, scala ordinală, scala
interval şi scala raport.
Scala nominală se aplică în cazul variabilelor calitative, când valorile observate (cuvinte) nu
pot fi aşezate într-o ordine crescătoare sau descrescătoare. Măsurarea cu ajutorul scalei nominale
presupune înlocuirea cuvintelor cu numere. Numerele au doar menirea de a diferenţia (deosebi)
unităţile colectivităţii, deci de a arăta dacă o unitate posedă sau nu o anumită valoare observată.
Valorile individuale ale unei variabile măsurate pe scala nominală nu au o valoare intrinsecă şi sunt
mutual exclusive.
Exemplu: masculin (0) şi feminin (1). Aceste numere nu admit nici un fel de operaţii aritmetice
(adunări, scăderi, înmulţiri sau împărţiri).
Observaţie: pentru valorile scalate nominal are sens să se determine frecvenţele de apariţie,
respectiv să se numere de câte ori apare o anumită variantă.
Scala ordinală sau cu ranguri se aplică când valorile observate pot fi ordonate nu numai după
criteriul dacă sunt identice sau deosebite, ci şi după criteriul ″mai mare″ sau ″mai mic″. Numerele care
înlocuiesc variantele observate, denumite ranguri, trebuie să redea ordinea stabilită, existentă.
Exemplu: scala notelor (1,2,...,10), scala calităţii produselor, scala ″stelelor″ hotelurilor şi
restaurantelor, scala Likert. Numerele atribuite (rangurile) nu admit operaţii aritmetice şi nu pot
cuantifica distanţa (diferenţa) dintre două numere, ci doar sensul diferenţei.
Scala interval se aplică la măsurarea variabilelor cantitative, când are sens să se stabilească
doar diferenţele dintre valorile observate (numere). Originea scalei interval se alege subiectiv.
Exemplu: măsurarea temperaturii după scala Celsius (când originea ″0″ este punctul de îngheţ
al apei şi ″100″ este punctul de fierbere al apei) şi scala Farenheit. Are sens în acest caz să
0 0 0 0
se facă diferenţa dintre 10 C şi 5 C, care este egală cu diferenţa între 37 C şi 32 C. Nu are
însă sens să se facă raportul între valori.
Scala raport se foloseşte tot pentru măsurarea variabilelor cantitative, dar, spre deosebire de
scala interval, originea ″0″ se alege în mod obiectiv. În cazul acestei scale, raportul între oricare două
valori este independent de unitatea de măsură folosită. Scala raport este folosită pentru măsurarea
valorilor a numeroase variabile, cum sunt: dimensiunile fizice (înălţime, greutate), preţul, viteza etc.
Scala nominală indică existenţa unei diferenţe între valorile observate, iar scala ordinală, în
plus, poate arăta şi care este sensul diferenţei. Pe lângă cele două rezultate obtenabile cu scalele
anterioare, scala de tip interval arată şi care este mărimea diferenţei, iar cea de tip raport adaugă
14
posibilitatea fixării unei origini absolute. Acestea sunt diferenţele fundamentale dintre cele patru scale
de masurare.
Folosirea diferitelor procedee statistice depinde în mod esenţial de nivelul scalei de măsurare.
În continuare sunt exemplificate ce tipuri de indicatori statistici pot fi calculaţi în cazul fiecărei scale de
măsurare.
- scala raport: cele de la scala interval, la care se adaugă media geometrică, media
armonică, coeficientul de variaţie, logaritmi.
Variabile
Calitative Cantitative
Interval Raport
15
7. Ce condiţii trebuie să îndeplinească datele obţinute în urma cercetării statistice?
14. După ce criterii se alege unitatea de înregistrare ca unitate simplă sau complexă?
4. Mansfield Edwin, Basic Statistics with Applications, W.W. Norton&Company, New York,
London, 1986, p. 86-92
5. Mihai Korka, Liviu Stelian Begu, Erica Tusa, Bazele statisticii pentru economişti, Editura
Tribuna Economică, Bucureşti 2002, cap. „Statistica instrument de cunoaştere şi analiză
cantitativă a fenomenelor şi proceselor economice”, p. 15 – 30.
6. Moineagu C., Negură I., Urseanu V., Statistica. Concepte, principii, metode, Editura
Ştiinţifică şi Enciclopedică, Bucureşti, 1976, p.19 – 22
7. Virgil Voineagu, Eugenia Lilea s.a, Statistica economică. Teorie şi aplicaţii, Editura
Tribuna Economică, Bucureşti 2002, p. 13 – 22
16
Capitolul 2: COLECTAREA ŞI SISTEMATIZAREA
DATELOR STATISTICE
2.1 Introducere
Cunoaşterea statistică presupune parcurgerea mai multor etape, începând cu definirea
scopului cercetării şi încheind cu interpretarea rezultatelor.
Una din etapele de mare importanţă pentru rezultatele întregii cercetări se referă la colectarea
sau înregistrarea datelor pentru toate variabilele unităţilor care compun colectivitatea studiată. Printre
problemele la care trebuie găsite răspunsuri în această fază se numără: dacă există date disponibile
în alte surse şi în ce masură aceste date răspund obiectivului cercetării; dacă datele existente nu sunt
satisfăcătoare şi trebuie organizată o înregistrare specială, ce variabile trebuie înregistrate, se recurge
la o înregistrare totală sau parţială, când trebuie organizată înregistrarea datelor, ş.a..
După culegerea datelor pentru toate unităţile şi variabilele se pune problema de a introduce
ordine în această masă de date, ceea ce înseamnă sistematizarea şi comprimarea lor astfel încât
datele să spună ceva relevant despre colectivitatea studiată. Datele se sistematizează prin clasificarea
şi gruparea lor şi se prezintă prin intermediul seriilor statistice, tabelelor statistice şi prin grafice.
cum se sistematizează datele empirice ale unei observări sau înregistrări de masă;
17
2.2.1 Principiile observării statistice
Realizarea unei observări statistice, care să permită obţinerea datelor necesare atingerii
scopului cercetării, presupune respectarea câtorva principii:
- datele să fie obţinute în timp util, să poată servi fundamentării deciziei la momentul
potrivit;
Pregătirea şi desfăşurarea observării statistice implică multiple acţiuni care, de regulă, sunt
reunite în planul de observare statistică. La rândul său, planul de observare statistică este cuprins în
programul cercetării statistice (v. Cadranul 1). Principalele elemente ale planului observării statistice
sunt:
- reperele de timp ale observării, care se referă la două aspecte: stabilirea timpului la
care se referă toate datele care urmează a fi înregistrate (momentul sau perioada de
referinţă) şi timpul (perioada) în care trebuie realizată înregistrarea (perioada de
colectare). În cazul unei colectivităţi de stoc, toate datele înregistrate se referă la un
moment dat (moment critic), iar în cazul unei colectivităţi de flux timpul la care se referă
datele este o perioadă (lună, trimestru, etc.);
Dacă fenomenul sau procesul ce urmează să fie cercetat se circumscrie agenţilor economici,
atunci este normal să se pornescă de la datele din sistemul informaţional intern al acestora,
evidenţiate în diferite surse. Aceste date apar în mod normal în procesul conducerii. Astfel de date
(denumite, de regulă, date secundare sunt, de exemplu: numărul salariaţilor, stocurile de produse
finite, cifra de afaceri, realizările individuale ale punctelor de vânzare etc).
Mai dificilă este obţinerea datelor dacă fenomenul sau procesul cercetat nu face obiectul
evidenţierii sistematice în alte surse sau dacă datele disponibile (de regulă, publicaţii) răspund numai
parţial scopului cercetării. Într-o asemenea situaţie este necesar să se organizeze o observare sau
5 Această condiţie este aplicabilă cercetărilor statistice prin sondaj şi este îndeplinită prin proiectarea unui
eşantion bine fundamentat din punct de vedere teoretic şi pus în practică după principii riguroase. Numărul de
unităţi observate nu este un scop în sine, pentru că în acest fel am fi tentaţi ca întotdeauna să realizăm observări
complete, de tipul recensămintelor, ceea ce nu este justificat întotdeauna din punct de vedere practic şi
economic.
18
înregistrare specială, caz în care trebuie să se rezolve corect toate aspectele de natură metodologică
şi organizatorică cuprinse în programul observării. Observarea statistică poate fi indirectă, prin
observare documentară şi directă, prin observare în teren.
- datele preluate din diferite surse să răspundă scopului cercetării. Chiar dacă nu răspund
întocmai obiectivului cercetării, să ofere răspunsuri suficient de apropiate de realitate şi,
printr-o prelucrare adecvată, să poată fi utilizate în scopuri statistice.
3. Observare propriu-zisă, care se foloseşte în situaţiile când este necesară numărarea (de
către o persoană sau un aparat) anumitor cantităţi. Măsurarea intensităţii traficului, de
exemplu, presupune numărarea autoturismelor care trec printr-un anumit punct de
observare într-un interval de timp.
6 Această metodă este din ce în ce mai privilegiată în statistica oficială, prin utilizarea surselor administrative.
7 În literatura de specialitate, acest tip de observare poartă denumirea de “desktop research”.
8 În limba engleză, acest tip de cercetare este denumită “mail survey”.
19
asupra apariţiei unui anumit eveniment, cum ar fi preferinţa pentru un produs, percepţiile
asupra decidenţilor politici, calităţile unui produs sau serviciu etc.
O problemă care apare frecvent în aplicarea primelor două metode este nonrăspunsul. Există
cercetări statistice unde participarea (răspunsul) este obligatorie, iar în altele participarea este
voluntară. În general, autorităţile din sfera statisticii oficiale realizează cercetări statistice „obligatorii”,
însă şi aici nonrăspunsul (refuzul de a răspunde 9) nu este o raritate. Chiar şi în cazul statisticii oficiale
există cercetări statistice unde răspunsul este obligatoriu şi pentru altele rămâne la alegerea unităţii
selectate. Însă în cazul în care o unitate acceptă să răspundă, atunci ea este obligată să ofere toate
datele solicitate.
Dacă observarea este organizată de către operatori privaţi (asociaţii profesionale, institute de
cercetare, camere de comerţ etc.), unităţile statistice nu au obligaţia legală de a completa un
chestionar. În acest caz rata de nonrăspuns poate fi destul de mare.
Observarea parţială presupune înregistrarea numai a unei părţi din unităţile colectivităţii.
Exemple: sondajul statistic, ancheta statistică etc..
Observarea totală are un singur avantaj comparativ cu observarea parţială: nu există erori de
reprezentativitate, iar rezultatele pot fi prezentate în cele mai detaliate structuri de agregare, sub
condiţia păstrării confidenţialităţii datelor individuale. În schimb, observarea parţială prezintă câteva
avantaje majore: numărul mai mic de unităţi care se înregistrează determină costuri semnificativ mai
reduse; rezultatele se obţin mult mai repede; programul de înregistrare poate fi mult mai amplu; este
singura modalitate de obţinere a datelor în condiţiile în care o înregistrare totală conduce la
distrugerea unităţilor.
9Nonrăspunsurile sunt de mai multe categorii: unitatea nu este identificată, nu mai există, nu face parte din
populaţia statistică vizată de cercetare. Refuzul de a răspunde este doar una din aceste categorii.
20
periodicitatea recensământului – indică necesitatea organizării înregistrării la intervale
regulate de timp.
Rapoartele statistice reprezintă lucrări prin care se obţin date pentru colectivităţi de fapte şi de
evenimente. Rapoartele statistice reprezintă una din modalităţile prin care statistica oficială obţine date
de la agenţii economici privind cifra de afaceri, investiţiile, forţa de muncă, câştiguri salariale etc..
Denumirea de „raport” provine din practica statistică anterioară anului 1990, când toate întreprinderile
erau obligate să furnizeze (raporteze) date statistice la autoritatea competentă din acea perioadă. Ele
erau de fapt formulare concepute într-o manieră tabelară, ca să uşureze completarea lor. Termenul
este uşor demodat astăzi pentru că, deşi ca formă s-au păstrat într-o oarecare măsură, ele nu mai
sunt adresate tuturor întreprinderilor din România – ar fi imposibil – şi nici nu mai există o obligativitate
expresă în cazul unor cercetări statistice.
Sondajul statistic este o observare parţială prin care se înregistrează date numai pentru o
parte din unităţile colectivităţii, numită eşantion. Pentru ca datele obţinute prin intermediul sondajului
să permită cunoaşterea realităţii, este necesar ca eşantionul să fie reprezentativ. Un eşantion este
reprezentativ dacă fiecare unitate din colectivitatea generală are o şansă nenulă de a fi selectată în
eşantion. Un astfel de eşantion se mai numeşte şi probabilist.
Pe lângă noţiunile de mai sus, mai sunt utilizate şi cele de anchetă statistică şi anchetă de
opinie.
Ancheta statistică este o tehnică a observării parţiale şi se confundă, din ce în ce mai mult, cu
noţiunea de cercetare statistică prin sondaj sau sondaj statistic. Eşantionul unei anchete statistice,
pentru ca rezultatele să fie cât mai corecte şi plauzibile, trebuie să fie, de asemenea, reprezentativ.
Bineînţele, sunt cazuri în care eşantioanele nu sunt probabilistice, însă rezultatele sunt de încredere
dacă metodele de selecţie sunt astfel controlate încât să reducă sau să elimine riscul distorsionării
rezultatelor. Opiniile potrivit cărora o anchetă statistică este caracterizată prin utilizarea unui eşantion
de tip panel sunt eronate, deoarece un eşantion panel este un eşantion reprezentativ care rămâne
neschimbat pe parcursul unei serii de observări succesive (lunare, anuale sau cu o altă frecvenţă),
spre deosebire de alte sondaje (anchete) în care eşantionul este schimbat de la o perioadă la alta.
Astfel, putem deosebi anchete transversale10, cu eşantioane care se schimbă de la o perioadă la alta
sau sunt de tip panel, în care obiectivul constă în obţinerea unor estimaţii cu o anumită perioadă
(dată) de referinţă, asimilabile mărimilor de stoc, şi anchete longitudinale, de regulă cu eşantioane
panel, în care obiectivul constă în obţinerea de estimaţii ale modificărilor de la o perioadă la alta,
asimilabile mărimilor de flux.
Ancheta de opinie este, de asemenea, o observare parţială. Diferenţa faţă de alte tipuri de
anchete este dată de programul de observare, care constă în întrebări şi variabile ce privesc atitudini,
percepţii, comportamente psiho-socio-economice în relaţie cu situaţii sau evenimente care prezintă
un anumit interes public. Partea de la care se culeg date nu trebuie să fie reprezentativă pentru
întreaga colectivitate, însă, din rigori profesionale, se preferă utilizarea unui eşantion cât mai apropiat
de caracteristicile unuia probabilist. Eşantionul tipic într-o anchetă de opinie este cel selectat prin
metoda cotelor. Răspunsurile se consemnează într-un chestionar de către un personal instruit sau
anchetele se pot realiza prin autoînregistrare, prin poştă, prin telefon sau prin Internet.
10 Cross-sectional (engl.)
21
Monografia statistică este o înregistrare special organizată şi presupune studierea complexă,
aprofundată a unei unităţi (localitate, întreprindere, comunitate etc.), activităţi sau fenomen din
realitatea socio-economică sau culturală.
- Ce trebuie să ştiu;
- Ce ar fi util să ştiu;
- Ce ar fi frumos să ştiu.
Întrebările au, în principiu, mai multe variante de răspuns. O recomandare generală este ca
persoana care răspunde la întrebări să aibă posibilitatea să ofere şi răspunsuri de tipul “Nu ştiu”/”Nu
este cazul”/”Nu (vreau să) răspund”, care sunt utile atunci când se pun întrebări sensibile, cum sunt
cele referitoare la venituri sau patrimoniul personal ori al familiei, la starea de sănătate sau la alte
aspecte care ţin de viaţa intimă. O altă posibilitate priveşte variante de răspuns de tip
“Niciunul/Niciuna”, “Altul/Alta/Altceva”, atunci când este potrivită includerea lor. Un aspect practic
priveşte gruparea variantelor “Nu ştiu” şi “Nu răspund” (NS/NR) într-una singură, dacă separarea nu
este de interes pentru utilizator sau nu au relevanţă pentru a fi prelucrate separat.
Există mai multe tipuri de întrebări, determinate de modul în care se solicită şi se facilitează
formularea unui răspuns:
22
1) Întrebări structurate (închise)
Sunt întrebările care dau posibilitatea celui/celei intervievate să aleagă una sau mai multe
variante de răspuns dintr-un set prestabilit de către analist. Variantele de răspuns sunt
mutual disjunctive, adică nu se pot suprapune sau confunda, şi sunt colectiv exhaustive,
adică împreună formează toate variantele posibile de răspuns. Pentru completarea tuturor
variantelor posibile, se poate recurge la adăugarea uneia din variantele menţionate mai
sus, de genul “Altul/Alta ? Care …..”, dând posibilitatea completării unei variante
inexistente în lista prestabilită.
a) Dihotomică
Este întrebarea cea mai frecvent întâlnită, fără a fi inoportună, în care respondentului i se cere
să răspundă doar prin „Da” sau „Nu”. Ea nu permite delimitarea unei măsuri a percepţiilor sau
a sentimentelor între aceşti doi poli. Frecvent, se mai adaugă un răspuns de tipul „Nu ştiu/Nu
răspund”.
Exemplu
1. Da
2. Nu
3. NS/NR
b) Cu răspuns multiplu
Respondentul are posibilitatea să aleagă una sau mai multe variante de răspuns
Exemple:
1. Intre 1 si 2
2. Intre 3 si 5
4. Niciunul
Q3: Care este dispozitivul fără de care nu puteţi trăi? (încercuiţi una sau mai multe
variante)
c) Cu scală de apreciere
Respondentul este rugat să aprecieze un anumit subiect pe o scală care variază de la „rău” la
„bine”. De obicei, întrebările cu rate de apreciere au un număr par de opţiuni, pentru a nu da
posibilitatea respondentului să aleagă o variantă de „mijloc” .
Există şi posibilitatea de a da o notă de apreciere pentru un anumit subiect, nota cea mai mică
echivalând cu un nivel scăzut al aprecierii, iar nota cea mai mare cu nivelul maxim de
apreciere.
23
Exemple:
1. Excelent
2. Bun
3. Destul de bun
4. Slab
Politică __4__
Afaceri __9__
Monden __10_
Mai este numită şi întrebare cu scala Likert, în care respondentului i se cere să-şi exprime
gradul de acord sau de dezacord faţă de un anumit subiect.
Exemplu
Partea noţională
Delimitare în timp
Expresie numerică
PIB
România
2009
e) Cu scală de importanţă
491274 mil lei
Variabile
Este o scală similară cu cea de apreciere, cu deosebirea că variantele de răspuns sunt
explicit formulate
Calitative de la “fără importanţă’
Total până la “foarte important”, De
echivalând-o cu o
Total de
Dezacord Indiferent
scală de la 1 la 5. Respondentului i se cere să aprecieze importanţa
dezacord pe careacord
acord o acordă
Cantitative
unui anumit subiect.
Ordinale
Exemplu
Nominale
Discrete
Q7. Existenţa unei farmacii în localitatea mea este (încercuiţi răspunsul ales):
Continue
Interval
5 4 3 2 1
Raport
Extrem de Întrucâtva Puţin Deloc
de acord cu următoarele afirmaţii (marcaţi cu un X în căsuţa
Importantă
Q6. Cât de mult sunteţi
importantă importantă importantă importantă
corespunzătoare răspunsului ales):
Total
Cursul de statistica
X
este dificil
Volumul de munca
X
pentru teme este mare
24
f) Bipolare
Acest tip de întrebare este o variantă a scalei de apreciere în care respondentul poate nuanţa
evaluarea sa prin marcarea unei poziţii aflate între extremităţile opuse ale unor criterii sau
atribute ale unui subiect.
Exemplu
Q8. Cum aţi descrie filiala locală a companiei ABC? (marcaţi cu un X pe scala
fiecărui atribut, în măsura în care consideraţi că este mai aproape de aprecierea
dumneavoastră):
Locaţie Locaţie
_X_ ___ ___ ___ ___ ___ ___
convenabilă neconvenabilă
Personal Personal
___ ___ ___ _ X_ ___ ___ ___
prietenos neprietenos
Servicii Servicii
___ ___ _X_ ___ ___ ___ ___
de calitate proaste
Eficienţă ___ _X_ ___ ___ ___ ___ ___ Ineficienţă
Prin acest tip de întrebare se testează intenţiile persoanelor – clienţi ai unei companii sau
consumatori ai unor produse sau servicii – de a cumpăra, de a consuma un produs sau un
serviciu, de obicei nou sau susceptibil de a fi introdus pe piaţă. În aparenţă extrem de utilă,
este necesar ca ea să fie coroborată şi cu alte întrebări care să consolideze plauzibilitatea
răspunsului deoarece, de cele mai multe ori, răspunsurile se confundă mai mult cu dorinţele
persoanelor chestionate decât cu nevoile lor reale.
Exemplu
5 4 3 2 1
Probabil Nu sunt Probabil Sigur
Sigur da
da sigur(ă) nu nu
2) Nestructurate (deschise)
Întrebările deschise oferă mai multă libertate celor chestionaţi de a-şi formula propriile
răspunsuri, într-o manieră individualizată. Avantajul lor constă în faptul că se pot culege informaţii mai
interesante şi de o mai mare profunzime, care ating aspecte neluate în seamă în etapa de proiectare a
cercetării sau a chestionarului însuşi. Dezavantajele constau în faptul că astfel de întrebări pot duce la
răspunsuri neconstructive şi nerelevante, fiind mult mai dificil de prelucrat deoarece fiecare
respondent foloseşte propriile cuvinte. De aceea, astfel de întrebări sunt supuse mai întâi unui proces
de filtrare şi codificare, în încercarea de a găsi cât mai multe elemente comune în masa de răspunsuri.
Volumul de codificare manuală nu este de neglijat, ceea ce poate duce la erori de înregistrare şi de
introducere în computer.
25
Exemple
Q10. Cât de mult cheltuiţi pentru ţigări în fiecare săptămână ? ________ lei
Q11. Care este venitul total lunar al familiei dumneavoastră ? _________ lei
Exemple
Intrebările duble, cum s-a precizat anterior, este bine să fie evitate. Dacă ele sunt însă
imperios necesare, este bine ca ele sa fie plasate separat în chestionar. Un exemplu de astfel de
întrebare este: Credeţi că produsul este bun şi se vinde bine?. Întrebările care sugerează
răspunsul trebuie evitate cu desăvârşire. Un exemplu de astfel de întrebare este: Aţi cumpăra acest
produs, pentru care s-au primit numeroase reclamaţii? Este foarte probabil ca majoritatea
răspunsurilor, dacă nu toate, vor fi “Nu”. Un alt tip de întrebare, care trebuie evitată, este cea
unilaterală, care nu lasă alternativă, mai ales atunci când ea se înscrie într-un curent de atitudine
recent lansat, dezvoltat şi amplu comentat în spaţiul public. Un exemplu de întrebare unilaterală este:
Aţi fi de acord cu interzicerea produselor care poluează atmosfera?. Răspunsul va fi covârşitor
afirmativ, chiar dacă, în esenţă, toate produsele – adică obiectele manufacturate – sunt rezultatul unor
procese poluante, însă în grade diferite.
De asemenea, este utilă realizarea unei distincţii între întrebările neclare şi cele ambigue. O
întrebare neclară este o întrebare dificil de înţeles, ca spre exemplu: Cum apreciaţi situaţia actuală?
Respondentul nu ştie despre care situaţie este vorba: situaţia familială, situaţia economică, din ţară,
de pe continent, din lume? Astfel de întrebări trebuie contextualizate în spaţiu şi în timp, pentru ca şi
răspunsul să reflecte o apreciere în aceleaşi repere. O întrebare ambiguă este o întrebare cu dublu
înţeles, ca spre exemplu: Aţi luat medicamentul cu lichide? Nu se ştie dacă este vorba despre un
medicament care conţine lichide sau dacă medicamentul trebuie administrat înainte sau după ce
pacientul a ingerat lichide. O altă întrebare ambiguă este: Unde aţi fost rănit? Nu se face distincţie
între o întrebare care priveşte rănirea unei anumite părţi a corpului sau dacă întrebarea vizează
aflarea unei locaţii geografice unde a avut loc incidentul în urma căruia persoana a fost rănită.
Ca o concluzie, analistul este dator să adapteze întrebările situaţiilor concrete şi, ca regulă
generală, să se plaseze în locul celui intervievat pentru a găsi cele mai potrivite întrebări ca să obţină
cele mai bune răspunsuri.
26
2.2.4 Erorile observării statistice şi controlul calităţii datelor
înregistrate
Erorile de observare statistică, denumite şi erori de înregistrare, reprezintă diferenţele dintre
valoarea înregistrată cu ocazia observării şi valoarea existentă în realitate. Aceste erori au cauze
diferite şi pot influenţa în mod diferit rezultatele finale ale cercetării statistice. Ignorarea lor poate duce
la distorsionarea rezultatelor, pierderi de precizie şi intrepretări eronate
Controlul datelor înregistrate are drept scop descoperirea eventualelor erori de înregistrare,
deci asigurarea creşterii calităţii datelor observării, în termeni de autenticitate şi validitate. Controlul
statistic al datelor înregistrate vizează: controlul volumului datelor înregistrate, al corespondenţei dintre
valorile transcrise şi valorile reale prin reluarea observării pe un subeşantion, al calculului aritmetic din
care au rezultat anumiţi indicatori, al documentelor de evidenţă primară care au stat la baza
completării formularelor, al corelaţiilor logice dintre datele înregistrate, al consistenţei prin comparaţii
cu alte surse de date etc.
11 Bias (engl.)
27
variabilele observate (Xj) , iar, pe rânduri, cele n unităţi de la care s-au înregistrat caracteristicile
respective. Intersecţia dintre fiecare rând şi o coloană indică varianta sau valoarea caracteristicii j
înregistrată la unitatea i (xij, i 1, n unităţi, j 1, m caracteristici). Cu alte cuvinte, avem o matrice cu
n linii şi m coloane, de forma tabelului 2.1.
Prima operaţie intuitivă pe care o putem face este să calculăm totaluri pentru acele variabile
pentru care este logică o asemenea operaţie: variabilele de tip numeric măsurate pe scala interval sau
raport. Această operaţie este denumită generic centralizarea datelor, însă ea poate fi prematură în
această etapă.
Mai întâi, pentru a putea sesiza ceva semnificativ pe baza acestei mase de date empirice
(tendinţă de evoluţie, legăturile dintre variabile etc) este necesară, într-o primă fază, să se introducă
ordine în aceste date. Deci să se sistematizeze datele primare. Sistematizarea datelor înseamnă, în
cele din urmă, prezentarea datelor într-o formă uşor inteligibilă şi relativ uşor interpretabilă, fie
prin tabele, fie prin grafice şi diagrame. În cele ce urmează ne vom opri la tabele12.
La o astfel de abordare se poate recurge dacă numărul valorilor distincte înregistrate nu este
mare, pentru că orice ordonarea după valorile unei caracteristici implică de-ordonarea valorilor
celorlalte. De regulă, numărul unităţilor statistice este mult mai mare decât numărul valorilor distincte
(diferite) înregistrate. Aceasta deoarece anumite valori pot apărea de mai multe ori. Şi oricum, în final,
vom obţine tot o matrice a tuturor observaţiilor, greu de analizat şi interpretat.
12O precizare este totuşi necesară în acest punct: considerăm că valorile variabilelor sunt corecte din punctul de
vedere al criteriilor de calitate stabilite încă din etapa de proiectare a cercetării statistice. În practică, înainte de a
proceda la sistematizarea datelor, ele trebuie trecute printr-un proces de verificare, corecţie şi validare, pentru a
ne asigura că erorile – inerente în orice cercetare statistică – nu vor distorsiona rezultatele finale.
28
2.3.1 Distribuţia de frecvenţe
În capitolul introductiv s-a precizat că statistica este formată din două părţi: statistica
descriptivă şi statistica inferenţială. Un instrument central al statisticii descriptive, care o influenţează
implicit pe cea inferenţială, este distribuţia de frecvenţe.
Să considerăm pentru început cazul unei singure variabile Xj din cele m observate şi să
presupunem că aceasta este calitativă sau numerică discretă, deci are un număr finit de modalităţi,
respectiv K(j) ( k ( j ) 1, K ( j ) ), ceea ce arată că variabilele pot avea un număr diferit de modalităţi.
Spre exemplu, prima variabilă calitativă observată este sexul, care are două modalităţi: feminin şi
masculin. A doua variabilă observată este numărul de copii, care este o variabilă numerică discretă şi
poate avea, să spunem, 16 modalităţi (valori distincte), de la 0 la 15 – considerând că, din observaţiile
istorice, o familie sau o persoană nu poate avea mai mult de 15 copii.
Continuând exemplul anterior, vom putea constata că într-o companie sunt 12 angajaţi de sex
feminin şi 8 de sex masculin şi că, în plus, fiecare are între 0 şi 4 copii.
O formă generică a unui tabel de frecvenţe este prezentată în tabelul nr. 2.2.
Dacă numărul variantelor distincte înregistrate nu este prea mare, repartiţia de frecvenţe oferă
o imagine concludentă privind numărul de câte ori apar anumite valori, privind forma repartiţiei etc.
Un astfel de tabel este extrem de util şi pentru verificarea calităţii datelor. Spre exemplu, dacă
am codificat sexul persoanelor cu valorile 1 pentru feminin şi 2 pentru masculin (sau invers), o tabelă
corectă de frecvenţe ne va arăta doar cele două valori. Orice altă valoare care apare în tabel ne indică
faptul că unei persoane i s-a ataşat un cod incorect. De asemenea, însumând numărul de apariţii ale
K ( j)
fiecărei modalităţi ( n
k 1
k ( j) ), este obligatoriu să obţinem numărul total al unităţilor supuse observării
– din eşantion în cazul unei observari parţiale sau din întrega colectivitate în cazul unei observări
K ( j)
totale ( n
k 1
k ( j) n ).
29
În cazul unei variabile numerice discrete (cu un număr finit şi redus de modalităţi) are sens să
procedăm la calcularea produsului dintre modalitatea variabilei şi numărul de unităţi observate pentru
K ( j) n
fiecare modalitate: xk ( j ) nk ( j ) xi . În acest fel, putem calcula suma valorilor înregistrate
k 1 i 1
pentru variabila respectivă. Spre exemplu, dacă variabila observată este numărul de copii pe familie,
calculând produsul dintre numărul de copii (0, 1, 2, .... 15) şi numărul de familii înregistrate ca având
fiecare un anumit număr de copii şi însumând apoi produsele calculate, vom obţine numărul total al
copiilor care aparţin familiilor observate. Acelaşi rezultat l-am fi obţinut dacă însumam direct numărul
de copii în setul de date primare culese pentru fiecare familie observată, fără a recurge la
sistematizarea datelor prin tabelul de frecvenţe. Cu toate acestea, tabelul de frecvenţe este mult mai
grăitor decât investigarea întregului set de observaţii.
Gruparea statistică este o metodă de sistematizare a datelor prin care se comprimă volumul
datelor înregistrate după una sau mai multe caracteristici. Gruparea datelor presupune separarea
unităţilor unei colectivităţi în grupe omogene după variaţia uneia sau a mai multor caracteristici de
grupare. O grupă poate fi considerată omogenă, dacă valorile individuale ale caracteristicii
corespunzătoare unităţilor care compun grupa prezintă o variaţie minimă. De altfel, calculul
indicatorilor derivaţi prin intermediul metodei grupării se bazează pe supoziţia că valorile sunt uniform
distribuite în interiorul grupelor formate.
Cu prilejul alegerilor, spre exemplu, birourile electorale dau periodic publicităţii comunicate de
presă în care sunt prezentate rezultatele estimative ale prezenţei la vot pe medii de rezidenţă – rural şi
urban – şi pe judeţe. Judeţele sunt grupate în judeţe cu o prezenţă a electoratului la vot sub media
sau peste media naţională, la fel ca şi sectoarele Municipiului Bucureşti. O altă grupare de interes
poate fi a ocupaţiilor după nivelul câştigurilor salariale, ori a ţărilor după nivelul veniturilor anuale pe
locuitor etc.
După numărul caracteristicilor, grupările pot fi: grupări simple şi grupări combinate.
30
Gruparea simplă presupune separarea unităţilor colectivităţii după variaţia unei singure
caracteristici; de exemplu gruparea agenţilor economici după numărul salariaţilor.
Gruparea combinată presupune separarea unităţilor după variaţia simultană a două sau mai
multe caracteristici de grupare. Mai întâi se grupează unităţile după o caracteristică primară, urmând
apoi ca fiecare grupă să fie separată pe subgrupe după a doua caracteristică de grupare, numită
caracteristică secundară. Astfel, de exemplu, dacă este necesar să se grupeze agenţii economici din
cadrul unei ramuri după mărimea cifrei de afaceri şi după numărul angajaţilor, se distribuie agenţii
economici după numărul angajaţilor, iar după aceea după cifra de afaceri.
După conţinutul caracteristicilor, grupările statistice pot fi teritoriale, cronologice sau atributive.
Gruparea după o caracteristică atributivă conduce la o clasificare dacă atributele sunt stări,
exprimate prin cuvinte: profesie, stare civilă etc.. Astfel de clasificări oficiale folosite la sistematizarea
datelor sunt: Clasificarea Activităţilor din Economia Naţională (CAEN), Clasificarea Ocupaţiilor din
Economie (COR), Clasificarea Standard a Comerţului Internaţional (CSCI).
Caracteristicile atributive pot fi, la rândul lor, agregate în grupe care prezintă relevanţă pentru
analist şi utilizatorul rezultatelor. Spre exemplu, într-o scală de tip Likert, care are cinci puncte de
evaluare („Total de acord”, „De acord”, „Nici acord, nici dezacord”, „Dezacord”, „Total dezacord”) se
poate recurge la gruparea primelor două niveluri în „De acord şi total de acord”, şi a ultimelor două în
„Dezacord şi total dezacord”, mai ales în situaţiile în care numărul de observaţii din primul şi ultimul
nivel este redus. Astfel, prin gruparea celor 5 modalităţi, obţinem 3.
Grupările după o caracteristică atributivă exprimată în cifre (vârstă, câştigul salarial etc.) nu se
diferenţiază din punct de vedere al metodologiei de prelucrare de grupările după o caracteristică
cantitativă.
Dacă numărul valorilor distincte înregistrate este mare, cum este cazul variabilelor numerice
continue, se recomandă o grupare pe intervale de grupare.
Folosirea metodei grupării suscită în mod frecvent câteva întrebări. Prima dintre ele este
„Care este numărul grupelor, în cazul în care se recurge la o grupare pe intervale?”.
Nu există reguli precise sau unice privind numărul r de intervale de grupare. Acesta trebuie
stabilit astfel încât să nu se piardă prea mult din diversitatea informaţiilor culese, deci să fie suficient
13 În literatura engleză de specialitate, termenul asociat intervalului de grupare este “class interval”.
31
de mare. În caz contrar, gruparea poate denatura structura repartiţiei datelor înregistrate. Pe de altă
parte, să nu fie prea mare, pentru a permite sesizarea rapidă, dar corectă, a aspectelor esenţiale.
a) dacă numărul datelor observate nu depăşeşte 100, numărul grupelor să nu fie mai mare
decât rădăcina pătrată din numărul observaţiilor. De exemplu, dacă n=64 atunci r ≤ 8;
b) după regula lui Sturges14, dacă numărul valorilor observate este n, atunci numărul
grupelor poate fi cel mult egal cu 1 log 2 n 1 3,322 log 10 n .
În unele ţări se aplică următoarele reguli: cel puţin 10 grupe dacă s-au înregistrat circa 100 de
valori; 13 grupe în cazul când numărul valorilor observate se apropie de 1.000 şi cel puţin 16 grupe
dacă numărul datelor care urmează să fie grupate se apropie de 10.000.
În cazul acestor reguli se presupune că s-au înregistrat numai valori distincte. Deci, aceste
reguli nu pot fi aplicate dacă numărul valorilor distincte este mic.
A doua întrebare frecventă este „Intervalele de variaţie să fie egale sau neegale?”.
Alegerea uneia sau alteia din cele două modalităţi depinde de scopul pentru care se face
gruparea, de variaţia datelor înregistrate etc.
Cu cât intervalul de variaţie este mai mare, cu atât mai aproximativi sunt indicatorii derivaţi
calculaţi pe baza unei grupări statistice.
A treia întrebare frecvent întâlnită este „Cum se stabilesc limitele care definesc o grupă /
clasă?”.
În cazul unei grupări pe intervale egale, limita inferioară a primului interval poate fi valoarea
observată cea mai mică (xmin) sau o valoare mai mică decât aceasta. Limita superioară se obţine
adăugând, pentru fiecare din cele r intervale, mărimea intervalului (h).
14H.A. Sturges in "The choice of a class interval," Journal of American Statisticians Association, vol. 21, 65-66,
1926; Transformarea din logaritm în baza 2 în logaritm în bază 10 este utilă deoarece majoritatea calculatoarelor
de buzunar au implementată funcţia logaritmului zecimal.
32
Intervalele pot fi închise, când ambele limite se cuprind în interval, şi deschise, când lipseşte
una din limite. De regulă sunt deschise primul interval, până la limita sa superioară (până la x 1 sup) şi
ultimul interval, peste limita sa inferioară (xm inf şi peste). În asemenea situaţii, în vederea determinării
indicatorilor derivaţi se impune închiderea intervalelor deschise (stabilirea limitelor acestor intervale).
Aceasta deoarece fiecare grupă intră în toate calculele cu centrul c i al intervalului, calculat conform
relaţiei:
Dacă variabila de grupare prezintă o variaţie discretă, se recomandă ca limita inferioară a unui
interval să fie mai mare decât limita superioară a intervalului precedent. În acest caz, ambele limite
sunt cuprinse în clasa de interval respectivă.
Se recomandă ca limitele de interval să se exprime, pe cât posibil, prin numere întregi, iar
fiecare interval grupă să cuprindă un număr suficient de mare de valori individuale care să faciliteze
analiza statistică a frecvenţelor.
A patra întrebare frecventă este „Cum stabilim mărimea intervalului de grupare (h)?”.
A x max x min
h , unde: (2.1.)
r r
h = mărimea intervalului de grupare;
De regulă, se recomandă rotunjirea mărimii intervalului rezultat din calcul, astfel încât să
uşureze toate calculele efectuate pe baza datelor de grupare. Rotunjirea se face numai în sus. În
caz contrar apare riscul ca valorile cele mai mari să nu se încadreze în ultimul interval de variaţie. O
rotunjire mai grosieră uşurează toate calculele, dar afectează rigurozitatea indicatorilor calculaţi.
x max x min
h (2.2.)
1 3,322 log n
33
Pentru evitarea situaţiei în care valorile mari, inclusiv valoarea maximă, nu se regăsesc în
ultimul interval de grupare, recomandarea generală este ca numărul de grupe să fie mai întâi rotunjit la
cel mai apropiat număr întreg, după care să se recurgă la calculul mărimii intervalului de grupare.
A
r (2.3.)
h
Odată stabilit numărul de grupe sau mărimea intervalului de grupare, se definesc intervalele
de variaţie şi se repartizează unităţile pe aceste intervale.
Gruparea datelor după regulile menţionate nu trebuie înţeleasă drept un procedeu care se
aplică mecanic. Aceasta deoarece pot apare situaţii care impun încercarea mai multor grupări
succesive, până se ajunge la o grupare care satisface obiectivele cunoaşterii. Astfel de situaţii pot fi:
- apariţia unei grupe vide (fără frecvenţe). O asemenea situaţie poate presupune fie
regruparea datelor păstrând acelaşi număr de grupe şi aceeaşi mărime a intervalului de
grupare, dar modificând limitele intervalelor, fie recurgerea la o grupare pe intervale
neegale, prin reunirea mai multor intervale egale;
- cel mai mare număr de unităţi (frecvenţa cea mai mare) apare de două ori sau de mai
multe ori. Într-o asemenea situaţie se impune, de asemenea, efectuarea unei alte grupări,
de regulă, prin modificarea limitelor intervalelor (glisarea în sus sau în jos).
În esenţă, întrebarea esenţială pe care trebuie să ne-o punem atunci când decidem
sistematizarea datelor prin metoda grupării este „Ce probleme de cunoaştere pot fi rezolvate prin
metoda grupării datelor?”
Astăzi, metoda grupării este mult facilitată de utilizarea aplicaţiilor informatice cu destinaţie
statistică, pentru crearea unor tabele cât mai relevante. Bineînţeles, aplicarea acestei metode nu mai
este demult manuală, însă înţelegerea ei temeinică ajută la înţelegerea modului în care sunt construite
automat histogramele în aplicaţiile informatice existente – spre exemplu, în MS Excel – precum şi
regulile ce trebuie urmate când se decide crearea unor tabele cu intervale de grupare.
34
Exemplul 2.1: Construirea grupelor de interval
Pentru un eşantion de 50 de angajaţi au fost înregistrate datele privind câştigul salarial nominal brut
realizat în luna ianuarie 2010.
Întrucât numărul unităţilor de observare este mai mic de 100, putem recurge la calculul numărului de
grupe prin rădăcina pătrată a numărului de observaţii. Numărul de grupe (r) poate fi egal cu 7:
r 50 7 .
Cu ajutorul formulei lui H.A. Sturges, numărul intervalelor de grupare este:
Pentru aflarea valorilor extreme, cea mai simplă operaţiune este să sortăm crescător valorile observate.
Astfel, constatăm că valoarea minimă este 2,2 mii lei, iar cea maximă este 7,6 mii lei. Urmează să calculăm
mărimea intervalului de grupare, potrivit relaţiei (2.1.):
Pentru o mai bună ilustrare a modului de sistematizare a datelor, în tabelul următor numărul unităţilor care
„intră” în fiecare interval de grupare este marcat prin bare. Intervalele de grupare şi numărul muncitorilor
(frecvenţa absolută) corespunzător fiecărei grupe sunt prezentate în tabelul 2.3.
35
Tabelul 2.3 - Gruparea pe intervale a datelor individuale şi frecvenţele absolute
Intervale de grupare Incadrarea muncitorilor Numărul
Xi pe intervale de grupare muncitorilor (ni)
2,2 – 3,0 ||||| 5
3,0 – 3,8 ||||||| 7
3,8 – 4,6 ||||||||| 9
4,6 – 5,4 |||||||||||| 12
5,4 – 6,2 |||||||| 8
6,2 – 7,0 |||||| 6
7,0 – 8,0 ||| 3
7
Total - n
r 1
r 50
Notă: Limita inferioară este inclusă în interval. Dacă valoarea observată cea mai mică se alege drept limită inferioară a
primului interval, atunci toate intervalele sunt închise inferior.
În urma grupării muncitorilor rezultă o serie de repartiţie (distribuţie) după câştigul salarial brut. Repartiţia
obţinută tinde spre o repartiţie normală.
36
Capitolul 3: PREZENTAREA DATELOR STATISTICE
Seriile statistice se diferenţiază după numărul caracteristicilor care au stat la baza grupării
datelor şi după natura acestor caracteristici.
x , x ,..., xi ,..., x k x
X : 1 2 sau X : i , i 1, k
n1 , n2 ,..., ni ,..., nk ni
- serii cronologice (dinamice, de timp), se obţin dacă gruparea este realizată în
funcţie de o variabilă de timp (zi, lună, trimestru, semestru, an);
37
La reprezentarea datelor se poate recurge la o varietate de tipuri de tabele statistice:
- În prima coloană definim diferitele modalităţi sau variante ale variabilei observate, în cazul
unei variabile discrete, sau grupele de interval, în cazul unei variabile numerice continue;
În cazul unei variabile discrete sau continue grupate pe clase de interval, adaugăm două
noţiuni:
E necesar să mai reţinem că un tabel statistic trebuie să furnizeze informaţii clare, precise şi
uşor de înţeles, ceea ce necesită respectarea unui set de reguli fundamentale pentru construirea şi
prezentarea sa, şi anume:
- să aibă un titlu clar şi concis care să sugereze natura datelor prezentate, timpul şi spaţiul la
care se referă datele cuprinse în tabel;
- să se indice unitatea de măsură. Dacă este comună pentru toate datele prezentate în
tabel, aceasta poate fi menţionată în titlul general al tabelului. Dacă nu este comună,
aceasta trebuie indicată în fiecare caz în parte (în titlurile interioare);
- să fie astfel construit încât să poată fi înţeles, fără explicaţii suplimentare care preced sau
urmează tabelul statistic;
38
- toate rubricile tabelului să fie completate cu cifre sau simboluri.
Dacă în tabel apar simboluri, este necesar să se explice semnificaţia acestora. Ca regulă,
semnificaţia simbolurilor şi a semnelor convenţionale se prezintă la începutul sau sfârşitul
cărţii, publicaţiei, etc.. Atunci când sunt publicate tabele statistice, cele mai frecvent
utilizate sunt următoarele simboluri:
„0” – există o expresie numerică diferită de zero, dar aceasta reprezintă mai puţin de
jumătate din unitatea de măsură folosită;
Pentru exemplificarea modalităţilor de construire a unui tabel cu o singură intrare, vom investiga datele din
setul următor de observaţii, prezentat în Tabelul 3.1 Datele se referă la 20 de angajaţi ai unei firme, pentru
care au fost înregistrate următoarele variabile: prenumele; sexul, cu două modalităţi (M- Masculin, F –
Feminin); starea civilă, cu trei modalităţi (Căsătorit(ă), Necăsătorit(ă), Văduv(ă)); numărul de copii (0, 1, 2,
3 etc.); salariul lunar (lei).
Prenumele este o variabilă calitativă, de identificare. Sexul şi starea civilă sunt două variabile calitative
nominale. Numărul de copii este o variabilă numerică discretă ordinală, iar salariul lunar este o variabilă
numerică continuă de tip raport.
Tabelul 3.1 – Date referitoare la salariaţii firmei X la data de 31.12.2008
Nr. crt. Prenumele Sex Stare civilă Numărul de copii Salariul lunar (lei)
1 Alexandru M Văduv(ă) 2 632
2 Andreea F Necăsătorit(ă) 0 854
3 Bogdan M Căsătorit(ă) 2 755
4 Beatrice F Văduv(ă) 1 1065
5 Carmen F Divorţat(ă) 1 1268
6 Cristian M Necăsătorit(ă) 0 684
7 Dumitru M Necăsătorit(ă) 2 932
8 George M Divorţat(ă) 3 1387
9 Ioana F Căsătorit(ă) 2 858
10 Lucian M Necăsătorit(ă) 0 822
11 Mihai M Divorţat(ă) 1 1563
12 Monica F Căsătorit(ă) 2 815
13 Nicolae M Căsătorit(ă) 0 954
14 Ovidiu M Căsătorit(ă) 1 1069
15 Paul M Necăsătorit(ă) 2 842
16 Petre M Căsătorit(ă) 2 1195
17 Radu M Divorţat(ă) 1 988
18 Sandu M Necăsătorit(ă) 2 756
19 Tiberiu M Căsătorit(ă) 0 786
20 Veronica F Căsătorit(ă) 3 963
39
Să presupunem că dorim construirea unui tabel de frecvenţe în funcţie de variabila Sex, care este o
variabilă calitativă nominală.
Urmărind paşii descrişi mai sus şi recomandările generale, în prima coloană vom înscrie cele două
modalităţi ale variabilei, în cea de a două coloană frecvenţele absolute, iar în cea de a treia frecvenţele
relative.
Frecvenţele absolute rezultă din numărarea angajaţilor care deţin una din cele patru modalităţi. Spre
exemplu, n2=5 ne arată că în setul de date am observat că există cinci angajaţi care au un copil.
Calculul frecvenţelor relative este la fel de simplu. Spre exemplu, frecvenţa relativă corespunzătoare valorii
“0” a numărului de copii este dată de raportul procentual dintre frecvenţa absolută a angajaţilor cu 0 copii,
adică 5, şi numărul total al angajaţilor, adică 20: f1=(5/20)x100=0,25x100=25%. Similar, în cazul
angajaţilor cu 2 copii, frecvenţa relativă este f3=(8/20)x100=0,40x100=40%.
Frecvenţa relativă cumulată rezultă din însumarea valorilor frecvenţei relative pentru valorile variabilei mai
mici sau egale cu valoarea curentă. Spre exemplu:
F1=f1=25%;
F2=f1+f2=25%+25%=50%;
40
10%. La fel, putem spune că procentul angajaţilor cu cel puţin un copil este de 75%, însumând procentele
celor cu 1, 2 sau 3 copii (25%+40%+10%=75%) sau scăzând din 100 procentul celor fără copii (25%).
Dacă dorim să realizăm o distribuţie de frecvenţe în funcţie de nivelul salariului, care este o variabilă
numerică continuă, e necesar să recurgem la construirea claselor de interval. Să presupunem că nu este
nevoie de clase de interval de mărime egală şi că 5 clase sunt suficiente15. Din motive de facilitare a
eventualelor calcule, vom face o mică schimbare faţă de paşii prezentaţi anterior şi vom proceda după cum
urmează:
- Notăm în prima coloană limitele inferioare si superioare ale claselor de salariu xi inf şi xi sup;
- Notăm în coloana a 3-a frecvenţele absolute ni care corespund, ca regulă, intervalului închis la stânga
şi deschis la dreapta, contorizând pentru fiecare interval cele ni persoane care câştigă între xi inf şi xi sup
lei (mai mult sau egal cu xi inf şi mai puţin strict decât xi sup);
- Notăm în coloana a 5-a frecvenţele cumulate Fi definite ca pentru variabilele discrete (Fi=f1+f2+...fi-1)
Datele statistice individuale pot fi reprezentate prin diagrame figurative, cum ar fi pictogramele
sau cartogramele, sau cu ajutorul graficelor statistice. Principiul acestui tip de reprezentări este
15 În acest exemplu nu am recurs la calculul numărului de grupe de interval cu ajutorul rădăcinii pătrate sau al
formulei lui Sturges din motive didactice.
41
proporţionalitatea graficului cu mărimea reprezentată, mai precis cu frecvenţa modalităţii prezentate în
grafic.
În cazul diagramelor figurative, numerele sunt reprezentate de imagini sub forma siluetelor
– antropomorfe sau zoomorfe, a clădirilor, vehiculelor etc. – care amintesc de colectivitatea studiată.
Aceste imagini au o dimensiune proporţională cu frecvenţa înregistrată.
Reprezentările grafice pot însoţi tabele statistice sau pot fi folosite de sine stătător. Se
recomandă prezentarea datelor numai sub formă grafică dacă se cunoaşte faptul că utilizatorii nu
intenţionează să efectueze calcule proprii.
Un grafic este o formă mai simplă, dar mai sugestivă de sistematizare şi a datelor individuale.
Creşterea sugestivităţii se realizează prin neglijarea informaţiilor de detaliu.
Elementele constructive ale unui grafic corespund în mare măsură cu cele menţionate în cazul
tabelelor statistice:
- titlul graficului – trebuie să indice, ca şi în cazul tabelului statistic, conţinutul datelor care se
prezintă, timpul şi spaţiul la care se referă;
- axa sau axele graficului. În cazul majorităţii reprezentărilor grafice se folosesc axe în
sistemul de coordonate rectangulare;
- scara de reprezentare – este elementul care indică echivalentul unei unităţi grafice, deci
serveşte la gradarea axei / axelor. Scările pot fi uniforme, când punctele cotate pe suportul
scării sunt echidistante, sau neuniforme, când distanţele dintre punctele cotate sunt
variabile (scara logaritmică, scara binomială etc.).
- reţeaua graficului – este formată dintr-o reţea de linii paralele cu axele de coordonate
rectangulare. Uneori reţeaua graficului este formată dintr-o reţea de cercuri concentrice;
Reprezentările grafice se constituie într-un mijloc care, prin intermediul imaginilor, informează
rapid asupra mărimilor numerice, asupra tendinţelor şi asupra interdependenţelor dintre variabile. Un
grafic poate reflecta corect aceste aspecte dacă se respectă principiul proporţionalităţii, în sensul
alegerii corecte a scării graficului şi a tipului de grafic.
42
Graficele statistice pot fi construite uşor cu ajutorul aplicaţiilor informatice16, pornind chiar de la
datele individuale şi nu neapărat de la rezultate deja agregate, aşa cum de multe ori se întâmplă, când
graficele sunt considerate ca o simplă alternativă a tabelelor. Pentru eficienţa sa, vizualizarea grafică a
datelor individuale este unul dintre instrumentele preferate de analişti pentru evidenţierea relaţiilor
dintre variabile, a tendinţelor de evoluţie temporală şi spaţială a fenomenelor, inclusiv pentru
investigarea interactivă a efectelor modificării unora sau altora dintre variabile.
În cazul variabilelor calitative, se utilizează frecvent diagrama de bare, aşa cum este cea
din Figura 3.1. Pe axa orizontală sunt reprezentate modalităţile variabilei calitative, iar pe axa verticală
frecvenţele absolute. Lungimea barelor este dată de mărimea frecvenţei absolute a fiecărei modalităţi.
9
8
8
7
6
6
Frecvente absolute
5
4
4
3
2
2
0
Casatorit(a) Divortat(a) Necasatorit(a) Vaduv(a)
Stare civila
Un alt tip de grafic este diagrama circulară de structură, în care sunt prezentate frecvenţele
relative sau cele absolute ca sectoare de cerc, a căror arie este, de asemenea, proporţională cu
mărimea efectivului populaţiei care deţine fiecare din modalităţile observate, aşa cum se poate vedea
şi în Figura 2.2.
16 MS Excel este, poate, cel mai uzitat mediu pentru realizarea de grafice. Există însă multe alte aplicaţii software
utilizate pentru prelucrarea datelor statistice şi prezentarea rezultatelor: Matlab, SAS, SPSS, Graph etc.
43
Fig. 3.2 – Distribuţia procentuală a angajaţilor în funcţie de starea civilă
Vaduv(a)
10%
Casatorit(a)
Casatorit(a)
40%
Divortat(a)
Necasatorit(a) Necasatorit(a)
30% Vaduv(a)
Divortat(a)
20%
25
20
2
Numar angajati
15 6 Vaduv(a)
Necasatorit(a)
Divortat(a)
10 4 Casatorit(a)
5
8
0
Stare civila
Atunci când observarea populaţiei constă în măsurători ale unor variabile cantitative,
reprezentările grafice adecvate sunt:
o Diagramele de bare
o Curba cumulativă
o Histogramele
44
o Poligonul frecvenţelor
o Curba cumulativă
o Diagrama tulpină-cu-ramuri
o Norul de puncte
7
Numar angajati
0
0 1 2 3
Numar copii
Curba cumulativă a frecvenţelor unei variabile numerice discrete se reprezintă grafic prin
marcarea numărului de observaţii cumulate sau a frecvenţelor relative cumulate corespunzător
modalităţii variabilei numerice discrete observate. Un exemplu este prezentat în Figura 3.5.
22
20
18
16
14
12
Fi
10
8
6
4
2
0
0 1 2 3
Nr. copii
45
Fiecare punct de pe grafic reprezintă numărul unităţilor statistice – în cazul nostru sunt
angajaţii – a căror valoare este mai mică sau cel mult egală cu valoarea observată: sunt 5 angajaţi nu
au nici un copil, 10 au cel mult un copil (sau mai puţin de 2 copii, 18 au cel mult doi copii (sau mai
puţin de 3 copii) şi, în final, putem spune că 20 de angajaţi au cel mult trei copii.
În cazul variabilelor numerice continue, tipul de grafice ce mai frecvent utilizat este
histograma, cum este cea din Figura 2.6. O histogramă are o axă orizontală, pe care sunt scalate
toate valorile măsurătorii realizate pe colectivitatea statistică. Valorile sunt împărţite în segmente care
corespund claselor de interval – create de analist după o metodă similară celei prezentate în
secţiunea 2.3.2, alese de el după orice altă regulă determinată de scopul analizei sau create automat
de aplicaţia informatică. Pe fiecare din aceste segmente este ridicată o coloană care poate fi de
diferite forme: rectangulară, coloană cu secţiune circulară, piramidă etc.
Cel mai simplu şi fericit caz este acela în care segmentele sunt de mărime egală. Însă, atunci
când nu sunt egale, sunt necesare o serie de precauţii.
30,00%
25,00%
20,00%
Frecventa (%)
15,00%
10,00%
5,00%
0,00%
650 750 850 950 1050 1150 1250 1350 1450 1550
Centrul de interval
Să remarcăm mai întâi că în graficul de mai sus, care reflectă datele din Tabelul 3.1,
amplitudinea claselor este diferită: 200 de lei pentru prima şi a patra, 100 pentru a doua şi a treia şi
400 pentru a cincea clasă. Să observăm apoi că în clasa 600-800 de lei sunt 5 angajaţi (25% din
numărul total al angajaţilor), în clasa 800-900 de lei 5 angajaţi (25%), în clasa 900 – 1000 sunt 4
angajaţi (20%) iar în clasele 1000 – 1200 de lei şi 1200 – 1600 de lei câte 3 angajaţi (câte 15% din
totalul angajaţilor). Presupunând că salariile angajaţilor sunt uniform distribuite în interiorul fiecărei
clase, pentru respectarea regulii proporţionalităţii, atunci trebuie să considerăm că în intervalul 600-
46
700 de lei sunt 12,5% din salariaţi, iar în intervalul 700 – 800 de lei alţi 12,5% adică, teoretic, în medie
câte 2,5 salariaţi în fiecare sub-segment. Un raţionament similar aplicăm şi în cazul intervalului 1000-
1200 de lei, unde, din proporţia celor 15% dintre angajaţi, 7,5% sunt în sub-segmentul 1000-1000 şi
alţi 7,5% în sub-segmentul 1100-1200. În cazul clasei 1200-1600, în fiecare sub-segment echivalent
cu 100 de lei vom avea câte 3,75% din numărul total al angajaţilor, iar în clasa respectivă vom regăsi,
în total, 3,75% x 4 = 15%. Însumând frecvenţele relative ale fiecărui sub-segment
(2x12,5%+25%+20%+2x7,5%+4x3,75%), vom obţine 100%, adică, în termeni de coeficienţi, suprafaţa
totală este egală cu 1.
4
Frecventa
0
650 750 850 950 1050 1150 1250 1350 1450 1550
Centrul de interval
Pe baza graficului din Figura 3.6 concluzionăm că salariile angajaţilor urmează o distribuţie
asimetrică la dreapta, cu o frecvenţă maximă în intervalul 800-900 de lei. Graficul din figura 3.7 ne-ar fi
îndreptat greşit către concluzia că frecvenţa maximă se întâlneşte în intervalele 600-800 şi 800-900 de
lei.
17În terminologia engleză, utilizată şi în aplicaţiile informatice în care pot fi construite grafice statistice, aceste
puncte se numesc midpoints.
47
Fig. 3.8 – Poligonul frecvenţei angajaţilor pe grupe de salarii din firma X la 31.12.2008
0,3
0,25
0,2
Frecventa (%)
0,15
0,1
0,05
0
650 750 850 950 1050 1150 1250 1350 1450 1550
Centrul de interval
Spre exemplu, în graficul din Figura 3.9 sunt prezentate pe axa verticală din stânga
frecvenţele relative ale fiecărei clase de interval şi, pe scala din dreapta, curba frecvenţelor cumulate.
Curba cumulativă ne arată, spre exemplu, că 50% dintre angajaţi au un salariu de mai puţin de 850 de
lei, deşi salariile variază între 600 şi 1600 de lei. De asemenea, putem observa că 25% dintre angajaţi
au un salariu de peste 1050 de lei.
Fig. 3.9 – Distribuţia şi curba cumulativă a frecvenţelor angajaţilor pe grupe de salarii din firma X la
31.12.2008
30,00% 100,00%
25,00%
75,00%
20,00%
15,00% 50,00%
10,00%
25,00%
5,00%
0,00% 0,00%
650 750 850 950 1050 1150 1250 1350 1450 1550
Intervale de salarii
48
cât panta curbei este mai mică, cu atât mai mult datele prezintă o variaţie mai mare. De asemenea, cu
cât capetele formei „S” sunt mai alungite spre stânga sau spre dreapta, cu atât mai mult avem o
distribuţie cu o asimetrie mai pronunţată spre stânga sau dreapta. În exemplul de mai sus, numărul
observaţiilor este mic, motiv pentru care forma de „S” este puţin vizibilă. Totuşi, putem remarca
tendinţa de aplatizare a curbei spre dreapta, îndeosebi după valoarea de 950 lei, ceea ce ne indică o
puternică asimetrie spre dreapta a distribuţiei analizate.
6 38
7 669
8 22456
9 3569
10 77
11
12 07
13 9
14
15 6
Este, în mod evident, o diagramă simplă şi foarte elocventă, care poate fi construită cu
majoritatea aplicaţiilor informatice existente 19. Avantajul ei constă în faptul că, spre deosebire de
histogramă, ea nu pierde nici o informaţie individuală asupra datelor, păstrând valenţele vizuale.
Observăm, astfel, că cele mai multe salarii se concentrează în jurul a 800 de lei, iar salariile de peste
1000 de lei sunt rare. Mai mult, valoarea maximă, de peste 1500 de lei, este la mare distanţă de
majoritatea celorlalte salarii.
18 În limba engleză, termenul este întâlnit ca “stem-and-leaf plot” sau “stem-and-leaf diagram”.
19 În M.S. Excel este necesară scrierea unor formule sau crearea unei aplicaţii special destinate acestui scop.
49
Norul de puncte20 este un alt tip de grafic prin care sunt puse în relaţie două variabile
observate, pentru a evidenţia eventuala asociere a acestora. Atât pe axa orizontală, cât şi pe cea
verticală sunt reprezentate valorile celor două variabile numerice continue, fie sub forma valorilor
individuale, fie al unor clase de interval prin centrele lor. Fiecare punct este creat la intersecţia
coordonatelor valorilor variabilelor studiate.
Fig. 3.11 – Rata de căsătorie şi numărul de copii ai angajaţilor din firma X la 31.12.2008
0,75
Rata de casatorie
0,5
Barbati
0,25 Fem ei
0
0 1 2 3
Num arul de copii
Graficul ne arată care este relaţia dintre rata de căsătorie – adică numărul de persoane
căsătorite din totalul persoanelor observate – şi numărul de copii ai fiecărei persoane, pe sexe. Strict
pe baza datelor observate, ceea ce ne determină să fim rezervaţi în privinţa unor generalizări,
constatăm că rata de căsătorie a bărbaţilor fără copii este mai mare decât a femeilor: între bărbaţii
fără copii, 1 din 2 este căsătorit (rata de căsătorie a bărbaţilor fără copii este egală cu 0,5), în timp ce,
între femeile fără copii, nu există nici una care să fie căsătorită (rata de căsătorie a femeilor fără copii
este egală cu 0). Apoi, pe măsură ce numărul de copii creşte, observăm că şi rata căsătoriei creşte în
cazul femeilor, dar scade în cazul bărbaţilor. Putem concluziona, intuitiv, că există o relaţie inversă
între rata căsătoriei şi numărul de copii în cazul bărbaţilor şi una directă în cazul femeilor. Un astfel de
grafic poate indica existenţa potenţială a unor probleme personale în cazul bărbaţilor necăsătoriţi, dar
cu un număr de copii în întreţinere mai mare decât media.
20 Termenul similar în limba engleză este “scatter plot”, iar în limba franceza este “nuage de points”.
50
3.3 Cuvinte – cheie
observare statistică, înregistrare de grupare statistică
date
principii ale observării statistice grupă omogenă
eroare întâmplătoare grupare simplă
eroare sistematică grupare combinată
eroare de reprezentativitate interval de variaţie
obiectul observării serie statistică
unitatea de observare serie unidimensională
observare directă serie multidimensională
observare indirectă serie de repartiţie = serie de
distribuţie
observare totală serie cronologică
observare parţială tabel statistic
recensământ reguli de construire a tabelului
statistic
raport statistic tipuri de tabele statistice
anchetă statistică grafic statistic
anchetă de opinie elemente constructive ale graficului
statistic
monografie statistică
9. Care sunt problemele fundamentale care trebuie rezolvate în cazul grupării după o
caracteristică numerică?
11. Când se recurge la o grupare pe valori observate şi când se recurge la una pe intervale
de variaţie?
13. Ce este o serie statistică şi care sunt principalele tipuri de serii de date statistice?
15. Ce este un grafic statistic şi care sunt elementele constructive ale acestuia?
51
16. Care sunt principalele categorii de grafice adecvate pentru reprezentarea distribuţiilor de
frecvenţe ?
3.5 Bibliografie
1. Jaba Elisabeta, Statistica, Editura Economică, Bucureşti, 1998, p. 30-46.
2. Korka Mihai, Begu Liviu Stelian, Tusa Erica, Bazele statisticii pentru economişti, Editura
Tribuna Economică, Bucureşti 2002, p. 31-46.
3. Mansfield Edwin, Basic Statistics with Applications, W.W. Norton&Company, New York,
London, 1986, p. 18-31
52
Capitolul 4: INDICATORII STATISTICI
4.1 Introducere
În urma sistematizării datelor, prin centralizare şi grupare, se obţin expresii numerice,
denumite indicatori absoluţi sau mărimi absolute, care evidenţiază volumul unui ansamblu de unităţi
sau valoarea unei caracteristici, pe total sau pe fiecare grupă.
Indicatorii absoluţi, deşi reprezintă baza informaţională pentru oricare analiză statistică, au o
capacitate relativ limitată de descriere şi de informare. Aceasta deoarece reprezintă valori definite prin
ele însele, independent de orice sistem de referinţă. Puterea de informare a acestor indicatori creşte
dacă sunt comparaţi cu aceiaşi indicatori înregistraţi pentru o altă unitate de timp sau de spaţiu, sau cu
alţi indicatori, caz în care rezultă indicatori derivaţi.
În acest capitol sunt prezentate cele mai simple categorii de indicatori folosiţi în procesul
cunoaşterii statistice. Se tratează premisele metodologice, formele de exprimare, relaţiile de calcul şi
cazurile de utilizare. Se dezvoltă grupa cea mai simplă de indicatori derivaţi şi anume mărimile
relative.
După etapa în care apar în procesul de cunoaştere statistică indicatorii statistici pot fi: primari
(absoluţi) şi derivaţi.
Indicatorii primari se obţin în urma centralizării şi grupării datelor unei observări statistice şi
exprimă direct nivelul variabilei cercetate, în unităţi concrete de măsură. Deci un indicator primar este
o mărime absolută care exprimă volumul unui ansamblu sau valoarea unei variabile. Aceşti indicatori
rezultă fie prin agregarea nivelelor individuale (indicatori de nivel), fie prin compararea sub formă de
diferenţă a două nivele ale aceluiaşi indicator, înregistrate pentru unităţi diferite de timp sau de spaţiu,
sau a două nivele a doi indicatori diferiţi.
53
Exemplul 4.1: Indicatori statistici absoluţi
În Tabelul 3.3 se însumează numărul angajaţilor care au 0, 1, 2 sau 3 copii, iar însumarea este prezentată
sub denumirea de frecvenţă absolută. În Tabelul 3.4 sunt prezentate frecvenţele absolute rezultate prin
însumarea numărului angajaţilor al căror salariu se regăseşte într-una din grupele de salariu ce au fost
construite. O regulă de bază de verificare a corectitudinii calculului frecvenţelor absolute este aceea că
însumarea frecvenţelor absolute trebuie să coincidă cu efectivul populaţiei statistice observate.
Totuşi, indicatorii absoluţi nu sunt numai de forma frecvenţelor absolute, care rezultă, după cum am
văzut, dintr-o cuantificare a apariţiilor unei modalităţi a variabilei studiate. Să presupunem, de exemplu, că
dorim să analizăm pe durata unei luni calendaristice care sunt zilele cu vânzări mai mari sau mai mici ale
unui magazin de comerţ electronic. Variabila studiată este „totalul vânzărilor zilnice”, iar ea este grupată pe
o caracteristică de timp: ziua. Aşadar, este vorba despre o serie statistică de timp. Totalul vânzărilor
zilnice, care este indicatorul primar sau absolut pe care îl calculăm, se obţine prin însumarea vânzărilor
realizate pentru toate produsele comercializate într-o zi de către toţi agenţii de vânzare din toate punctele
de vânzare. Seria obţinută conţine deja date agregate. Similar, producţia anuală de energie electrică la
nivelul unei ţări se obţine prin însumarea producţiilor anuale de energie electrică aferente tuturor agenţilor
economici.
După cum s-a prezentat în prima parte a cursului, statistica este interesată de studiul datelor individuale,
pentru a putea trage concluzii generalizatoare asupra tendinţelor esenţiale care se manifestă în câmpul
fenomenului sau procesului studiat. De asemenea, am aflat că analizele statistice pleacă de la
„numărătoarea” datelor individuale. Astfel, modificând puţin exemplul anterior, să presupunem că vrem să
analizăm performanţa anuală a agenţilor de vânzări, pentru că performanţele zilnice sau lunare nu pot fi
complet elocvente, din cauza sezonalităţii ciclului economic şi a comportamentului de consum al clienţilor.
De aceea, este de preferat să observăm efectul combinat al acestor cauze la nivelul unui întreg an, motiv
pentru care variabila observată este „vânzările anuale ale agenţilor de vânzări”. Ataşând fiecărei valori
observate a vânzărilor individuale numărul de agenţi care au realizat valoarea respectivă, adică cel puţin
unul, obţinem o serie statistică în sens general, formată din valorile observate şi frecvenţele absolute ale
apariţiei valorilor respective. Dacă recurgem la gruparea pe intervale de variaţie, seria va fi formată din
centrele de interval şi frecvenţele observate.
Dacă elementele individuale sunt exprimate în unităţi de măsură diferite, deci însumarea
directă nu este posibilă, se impune folosirea unor coeficienţi de echivalenţă. De exemplu, producţia
unui agent economic din industria textilă poate consta în: fire – care se exprimă în tone, ţesături – care
se exprimă în metri pătraţi (mp), costume care se exprimă în bucăţi. Coeficientul de echivalenţă folosit
în economie este în majoritatea cazurilor “preţul”. Deci se agregă / însumează expresii valorice.
Indicatorii derivaţi (mărimile derivate) se obţin prin prelucrarea mărimilor absolute, prin
aplicarea diferitelor metode şi procedee de calcul statistic.
54
Indicatorii derivaţi au o putere de informare sporită în comparaţie cu indicatorii primari şi fac
posibilă analiza aspectelor calitative ale fenomenelor şi proceselor cercetate. Aceşti indicatori oferă
informaţii privind: relaţiile cantitative dintre diferitele părţi ale unei colectivităţi şi dintre diferitele
caracteristici; valorile tipice; gradul şi forma variaţiei caracteristicilor studiate; interdependenţa dintre
variabile etc.. Exemple de indicatori derivaţi care fac obiectul cursului sunt: mărimile relative; mărimile
medii; indicatorii variaţiei; indicatorii corelaţiei; indicii statistici etc.
Indicatorii implicaţi în raport pot fi de aceeaşi natură, înregistraţi la unităţi diferite de timp /
spaţiu sau la grupe diferite ale aceleiaşi colectivităţi, sau pot fi indicatori de natură diferită.
Calculul şi folosirea mărimilor relative presupune respectarea câtorva reguli, care asigură
obţinerea de mărimi relative semnificative, compatibile cu realitatea. Aceste reguli sunt:
indicatorii comparaţi să fie comparabili prin prisma sferei de cuprindere, atât în cazul
comparării în timp, cât şi în spaţiu;
forma de exprimare a mărimilor relative se alege astfel încât rezultatul să fie cât mai
sugestiv, uşor de înţeles şi de interpretat şi eventual de reţinut. În cazul în care se
compară sub formă de raport doi indicatori absoluţi cu acelaşi conţinut pot fi folosite
următoarele forme de exprimare: coeficienţi, procente ( 0 0 ), promile ( 0 00 ), prodecimile
( 0 000 ) etc.. Se optează pentru una din aceste forme de exprimare în funcţie de
expresivitatea rezultatului raportului.
Exprimarea sub formă de coeficient se recomandă când valorile indicatorilor comparaţi sunt
relativ apropiate. Coeficientul exprimă câte unităţi din numărător revin la o unitate a numitorului
raportului. Daca coeficienţii se înmulţesc cu 100 rezultă procente (%) care arată câte unităţi din
numărător revin la 100 de unităţi ale numitorului.
Observaţie: Dacă rezultatul unui raport se exprimă sub formă de procent, numitorul
este considerat egal cu 100, respectiv cu 1, dacă se exprimă sub formă de coeficient.
Dacă indicatorul din numărătorul raportului este cu mult mai mic decât cel din numitor,
mărimile relative pot fi exprimate în promile, prodecimile sau procentimile, care arată câte unităţi
indicatorul comparat revin la 1000, 10000, respectiv 100000 de unităţi din baza de raportare. De
exemplu, indicatorii prin care se măsoară mişcarea naturală a populaţiei (rata natalităţii, rata
mortalităţii etc) se exprimă în promile.
55
- mărimi relative de coordonare sau de corespondenţă;
Mărimile relative de structură arată în ce raport se află fiecare parte faţă de întreg. Calculul
mărimilor relative presupune în prealabil separarea/gruparea întregului pe părţi (elemente, grupe).
Frecvenţa relativă este un raport între numărul unităţilor din fiecare grupă sau corespunzător
fiecărei modalităţi ale variabilei discrete şi numărul unităţilor din întreaga colectivitate:
ni
fi k
100 , i 1, k , (4.1)
n
i 1
i
unde k este numărul de grupe sau de variante (modalităţi) ale variabilei discrete.
Frecvenţele relative pot fi însumate dacă toate au fost calculate faţă de aceeaşi bază de
calcul. Suma este egală cu 1 dacă frecvenţele relative au fost exprimate sub formă de coeficient şi cu
100 dacă s-au exprimat sub formă de procente.
xi
gi n
100 , i 1, n (4.2)
x
i 1
i
x i ni
gi k
100 , i 1, k (4.3)
x
i 1
i ni
Mărimile relative de structură se reprezintă grafic prin diagrame circulare de structură, care
pot fi:
a) cercul de structură;
b) dreptunghiul de structură;
c) pătratul de structură.
aria cercului este egală cu suma mărimilor relative de structură care se reprezintă grafic,
deci cu 100%;
56
cercul se împarte în atâtea sectoare de cerc în câte grupe a fost despărţită colectivitatea,
respectiv câte mărimi relative de structură se reprezintă;
o
fiecare sector de cerc se construieşte pornind de la regula 1% = 3.6 , deoarece 100% =
o
360 .
632
g1 100 3,29% .
19188
Greutatea specifică a salariului lunar aferent celei de a 11-a observaţii este:
1563
g11 100 8,15% .
19188
Pentru exemplificarea calculului greutăţilor specifice ale unei serii de frecvenţe, apelăm la datele din
tabelul 3.2, în care este prezentată repartizarea angajaţilor în funcţie de numărul de copii, al căror număr
total este de 27.
Evident, greutatea specifică a numărului de copii ai angajaţilor fără copii este 0, deoarece valoarea
variabilei observate (xi) este egală cu 0. Greutatea specifică a numărului de copii ai celor 5 angajaţi cu un
singur copil, adică a doua categorie din tabelul nostru, este:
1 5
g2 100 18,5%
27
Greutatea specifică a numărului de copii ai celor 2 angajaţi cu trei copii, adică a patra categorie din tabelul
nostru, este:
3 2
g4 100 22,2% .
27
Exemplele de mai sus au făcut apel la datele individuale referitoare la numărul de copii şi salariile
angajaţilor unei firme. În următorul exemplu vom utiliza datele agregate referitoare la populaţia României
din mediile urban şi rural înregistrată la data de 1 iulie din anii 1980, 2000 şi 2007.
57
Tabelul 4.1 – Populaţia României la 1 iulie pe medii de rezidenţă
Populaţia la 1 iulie
Anul Urban Rural
(mii locuitori)
1 iulie 1980 22.201,4 10.171,6 12.029,8
1 iulie 2000 22.435,2 12.244,6 10.190,6
1 iulie 2007 21.537,6 11877,7 9659,9
Sursa: Anuarul Statistic al României 2008, INS
în anul 1980:
10171,6
gu 100 45,8%
22201,4
12029,8
gr 100 54,2%
22201,4
în anul 2000
12244,6
gu 100 54,6%
22435,2
10190,6
gr 100 45,4%
22435,2
în anul 2007
11877,7
gu 100 55,1%
21537,6
9659,9
gr 100 44,9%
21537,6
Se remarcă o creştere a ponderii populaţiei din mediul urban în totalul populaţiei de la 45,8% în anul 1980
la 55,1% în anul 2007. Acest fenomen poate fi pus atât pe seama creşterii populaţiei în localităţile urbane,
cât şi creşterii numărului localităţilor urbane, prin transformarea comunelor în oraşe.
Dacă se face diferenţa dintre ponderea din anul 2007 şi cea din anul 1980, respectiv 55,1% şi 45,8%,
rezultă o creştere cu 9,3 puncte procentuale. Dacă interesează cu câte procente a crescut ponderea
populaţiei din mediul urban se face raportul dintre cele două cifre, se exprimă procentual şi se scade 100,
respectiv
55,1
100 100 20,4%
45,8
Deci, ponderea populaţiei din mediul urban în totalul populaţiei a crescut în 2007 faţă de 1980 cu 20,4%.
Calculele privind mărimea sectoarelor de cerc corespunzătoare ponderii părţilor colectivităţii se reprezintă
în tabelul 4.2
58
Tabelul 4.2 – Corespondenţa dintre mărimile relative de structură şi aria cercului de structură
1 iulie 1980 1 iulie 2000 1 iulie 2007
Populaţia % Grade % Grade % Grade
Mediul urban 45,8 164,9 54,6 196,6 55,1 198,4
Sursa: Calcule pe baza datelor din Anuarul Statistic al României 2008, INS
Numărul de grade corespunzător fiecărui sector de cerc se obţine înmulţind ponderea fiecărei grupe cu
3.60 (de exemplu 45.8 * 3.6 = 164.90).
Dacă este necesar să se vizualizeze grafic concomitent mărimea colectivităţii şi ponderea fiecărei părţi în
întreaga colectivitate se procedează astfel:
a) se alege figura geometrică prin care se reprezintă datele pornind de la regula că aria figurii
geometrice trebuie să fie proporţională cu mărimea colectivităţii (populaţia României la
01.07.1980, 1.07.2000 şi, respectiv, la 01.07.2007). În cazul exemplului din tabelul 4.2 se va
opta pentru o figură geometrică care poate fi construită în funcţie de un singur element.
Aceasta deoarece pentru fiecare an întreaga colectivitatea este descrisă printr-o singură
expresie numerică: numărul populaţiei. Figurile geometrice care pot fi utilizate în acest caz
sunt pătratul şi cercul.
2
În cazul cercului construit pentru anul 1980: A= π R = 22201.4, de unde:
22201,4
R 84,09 mii persoane
3,14
84,09
Considerând 40.000 de persoane = 1 cm, rezultă R 2,102 cm
40
2
Pentru anul 2000: A= π R = 22435.2, de unde:
59
22435,2
R 84,53 mii persoane
3,14
84,53
Considerând 40.000 de persoane = 1 cm, rezultă R 2,114 cm
40
2
Pentru anul 2007: A= π R = 21.537,6, de unde:
21537,6
R 82,820 mii persoane
3,14
82,820
R 2,070 cm
40
b) se construieşte cercul în funcţie de raza rezultată din calcul şi se împarte pe sectoare de cerc
(vezi calculele efectuate în tabelul 4.2).
Fig. 4.2 – Structura populaţiei României pe medii de rezidenţă - grafice proporţionale cu
mărimea colectivităţii statistice
Diferenţele între cele trei grafice sunt aproape insesizabile tocmai din cauza valorilor apropiate ale razelor
calculate. Important să reţinem, totuşi, este faptul că modul în care sunt construite graficele poate
influenţa percepţia datelor statistice de către cel care le priveşte. Nerespectarea acestor reguli va conduce
cu siguranţă la utilizarea greşită – intenţionată sau nu – a datelor statistice şi, implicit, la concluzii greşite.
XA
k A/ B , (4.4)
XB
XB
kB / A , (4.5)
XA
60
dacă baza de comparaţie este grupa sau unitatea A.
Pornind de la datele din tabelul 4.1 se pot calcula mărimi relative de coordonare care exprimă
proporţia dintre populaţia din mediul rural şi cea din mediul urban sau invers.
PU 10171,6
kU / R 0,846 , fie
PR 12029,6
PR 12029,6
k R /U 1,182
PU 10171,6
Mărimile relative de coordonare se exprimă sub formă de coeficienţi (câte unităţi din
numărător revin la o unitate din numitor). Rezultatul devine mai expresiv dacă acesta se înmulţeşte cu
100 sau 1000.
Deci, în anul 1980, la 100 de persoane din mediul rural au revenit 84,6 persoane din mediul
urban, sau la 100 de persoane din mediul urban au revenit 118,2 persoane din mediul rural. Pornind
de la datele pentru anul 2007, se obţine:
PU 11877,7
kU / R 1,230 , fie
PR 9659,9
PR 9659,9
k R /U 0,813
PU 11877,7
Observăm, aşadar, că în anul 2007 raportul dintre populaţia urbană şi cea rurală s-a inversat:
la 100 de persoane din mediul rural au revenit 123 de persoane din mediul urban, iar la 100 de
persoane din mediul urban au revenit 81,3 persoane din mediul rural.
Teoretic, oricare din termenii comparaţi pot fi folosiţi drept bază de comparaţie. În analiză,
baza de comparaţie se alege în funcţie de scopul cunoaşterii. Dacă, de exemplu, se urmăreşte
evidenţierea faptului că numărul populaţiei din mediul urban a crescut, se preferă folosirea populaţiei
din mediul rural drept bază de comparaţie.
Mărimile relative de coordonare se folosesc cel mai frecvent în studiul variaţiei în profil
teritorial, când se compară acelaşi indicator din două unităţi teritoriale. De exemplu se compară preţul
unui produs înregistrat în două oraşe, se compară PIB pe locuitor al României cu cel înregistrat în
aceeaşi perioadă în Ungaria, se compară costul unui eşantion de mărfuri în judeţul A şi B etc..
Mărimile relative de coordonare se reprezintă grafic prin diagrame prin coloane sau prin benzi.
Coloanele sau benzile se sprijină pe abscisă, iar lungimea fiecărei coloane sau benzi este direct
proporţională cu mărimea relativă de coordonare reprezentată.
Mărimile relative de intensitate se calculează ca raport între doi indicatori de natură diferită
între care există o legătură logică, o interdependenţă sau o asociere.
61
yi
xi , i 1, n , (4.6)
zi
Din relaţia (3.6) rezultă că yi = xi*zi. Deci numărătorul raportului depinde de zi, care are
caracter de frecvenţă, şi de mărimea relativă de intensitate xi.
Pentru a calcula o mărime relativă de intensitate la nivelul unei colectivitaţi împărţită pe grupe,
se poate proceda astfel:
x
y i
, i 1, n , (4.7)
z i
x
x z
i i
(4.8)
z i
Mărimile relative de intensitate se exprimă în unităţi de măsură specifice celor doi indicatori
comparaţi.
Pe baza datelor din tabelul 4.3 se pot calcula mai multe mărimi relative de intensitate, cum ar fi:
62
E _ FOB 2007 29549 mil Euro
Exportul pe locuitor 1372 Euro/locuitor
P01.07.2007 21537600 locuitori
Mărimile relative de dinamică (indici) se obţin prin raportarea aceluiaşi indicator înregistrat
pentru unităţi diferite de timp. În numărător apare indicatorul cu nivelul din perioada curentă (x1) iar în
numitor apare acelaşi indicator cu nivelul din perioada considerată bază de comparaţie (x 0). Raportul
caracterizează evoluţia în timp, dinamica procesului observat.
În cazul în care datele absolute privind indicatorul pe baza căruia se analizează evoluţia în
timp se referă la mai multe unităţi de timp succesive, se pot calcula în funcţie de baza de comparaţie:
Dacă se raportează nivelul absolut aferent fiecărei unităţi de timp (xt) la acelaşi nivel
considerat bază de comparaţie se obţin mărimi relative de dinamică cu bază fixă (indici cu bază fixă).
xt
It /0 , t 1, n (4.9)
x0
Dacă se raportează fiecare termen la termenul precedent, rezultă mărimi relative de dinamică
cu bază în lanţ (mobilă).
xt
I t / t 1 , t 1, n (4.10)
xt 1
t / t 1 I t / 0 (4.11)
raportul dintre două mărimi relative de dinamică succesive cu bază fixă conduce la o
mărime relativă de dinamică cu baza în lanţ:
It /0
I t / t 1 (4.12)
I t 1 / 0
Mărimile relative de dinamică se reprezintă grafic prin cronograme, dacă indicatorii implicaţi în
raport se referă la perioade succesive de timp, şi prin diagrame prin coloane, dacă indicatorul din
numărătorul şi numitorul raportului se referă la un singur moment dat.
63
Exemplu 4.4 – Calculul mărimilor relative de dinamică
Tabelul următor prezintă evoluţia exporturilor României în perioada 2000 – 2007.
Mărimile relative de dinamică cu baza fixă (2000 = 100) sunt prezentate în coloana a treia a tabelul nr. 4.4.
12722
I 2001 / 2000 100 112,9%
11273
14675
I 2002 / 2000 100 130,2%
11273
....
29549
I 2007 / 2000 100 262,1%
11273
Mărimile relative de dinamică cu baza în lanţ sunt prezentate în coloana a patra a tabelului 4.4.
12722
I 2001 / 2000 100 112,9%
11273
14675
I 2002 / 2001 100 115,4%
12722
....
29549
I 2007 / 2006 100 114,3%
25850
Rezultatele calculelor de mai sus arată cât la sută reprezintă exporturile din fiecare an faţă de anul 2000 şi,
respectiv, faţă de anul precedent. Dacă din fiecare mărime relativă de dinamică (indice) exprimată
procentual se scade 100 rezultă modificarea relativă (rata de modificare).
Dacă procedăm la calculul rapoartelor dintre indicii cu bază fixă, obţinem indicii cu bază în lanţ, potrivit
relaţiei (4.12). Spre exemplu, raportând indicele exporturilor din anul 2002 faţă de anul 2000 la indicele
exporturilor din anul 2001 faţă de anul 2000, obţinem indicele exporturilor din anul 2002 faţă de anul
2001.
64
Dacă procedăm la calculul produsului dintre indicii cu bază în lanţ pentru un segment din perioadă
observată, obţinem indicele de dinamică dintre valoarea variabilei pentru prima perioadă din segmentul
respectiv şi valoarea variabilei pentru ultima perioadă, potrivit relaţiei (4.11). Spre exemplu, să calculăm
produsul indicilor cu bază în lanţ pentru primele trei intervale de comparaţie, adică segmentul 2000 –
2003.
Mărimile relative de performanţă sunt rapoarte procentuale care exprimă cât la sută
reprezintă nivelul programat pentru perioada curentă faţă de nivelul realizat pentru perioada
precedentă sau cât la sută reprezintă nivelul unui indicator realizat în perioada curentă comparativ cu
nivelul programat pentru această perioadă.
xP
kP /0 100 (4.13)
x0
x1
k1 / P 100 (4.14)
xP
Produsul celor două mărimi relative de performanţă conduce la o mărime relativă de dinamică
a realizărilor cu bază fixă:
xp x1 x
1 (4.15)
x0 x p x0
Mărimile relative de performanţă se reprezintă grafic prin diagramele prin coloane.
65
4.4 Cuvinte - cheie
indicator statistic mărimi relative de coordonare
indicatori primari diagrama prin benzi
indicatori derivaţi diagrama prin coloane
mărimi relative mărimi relative de intensitate
mărimi relative de structură mărimi relative de dinamică
diagrama de structură cronograma
pondere mărimi relative ale ţintei programate
frecvenţă relativă mărimi relative ale atingerii ţintei
3. Care sunt regulile a căror respectare asigură obţinerea unor mărimi relative semnificative?
4. Care sunt criteriile în funcţie de care se alege forma de exprimare a mărimilor relative?
9. Care sunt relaţiile de trecere de la mărimile relative de dinamică cu bază în lanţ la cele cu
bază fixă şi invers?
4.6 Bibliografie
1. Elisabeta Jaba, Statistica, Editura Economică, Bucureşti 1998, p. 94-202
2. Tudor Baron, Elena Maria Biji, Statistica teoretică şi economică, Editura Didactică şi
Pedagogică, Bucureşti 1996, p. 64-70
3. Virgil Voineagu, Eugenia Lilea s.a, Statistica economică. Teorie şi aplicaţii, Editura
Tribuna Economică, Bucureşti 2002, p. 55-73
66
Capitolul 5: ANALIZA DESCRIPTIVĂ A SERIILOR DE
REPARTIŢIE
5.1 Introducere
Cunoaşterea statistică a trăsăturilor cantitative şi calitative ale fenomenelor şi proceselor
presupune, aşa cum am văzut în subcapitolul 2.2, să înregistrăm la nivelul fiecărui element al
colectivităţii cercetate valorile concrete (formele de manifestare) corespunzatoare caracteristicilor
cuprinse în programul observării. În urma înregistrării (observării) se obţine o masă de date primare
care nu permite sesizarea aspectelor esenţiale, relevante pentru întreaga masă. Puterea de informare
creşte dacă aceste date se sistematizează în funcţie de una sau mai multe variabile atributive, proces
care conduce la obţinerea seriilor de repartiţie de frecvenţe, cum am văzut în subcapitolul 2.3. Aceste
serii oferă informaţii privind clasele/grupele care domină în serie, forma de repartiţie a frecvenţelor ş.a.
Astfel de serii sunt de exemplu: repartiţia agenţilor economici pe clase de mărime după numărul
salariaţilor, repartiţia populaţiei pe grupe de vârstă, repartiţia salariaţilor după mărimea salariului
brut/net, repartiţia clienţilor unei bănci după nivelul creditelor aflate în sold etc.
În acest capitol se abordează aspecte metodologice privind valorile tipice, respectiv valorile
care sunt în măsură să evidenţieze ceea ce este esenţial şi comun într-o serie de repartiţie,
intensitatea variaţiei valorilor individuale în jurul unei valori tipice, descompunerea variaţiei pe grupe
de factori care au generat împrăştierea valorilor empirice. În cazul fiecarui indicator se insistă asupra
cazurilor de utilizare şi asupra limitelor indicatorului respectiv.
Mai întâi, însă vom trece în revistă câteva din conceptele referitoare la seriile de distribuţie,
calculul principalilor indicatori şi reprezentarea lor grafică.
Seriile de repartiţie se diferenţiază între ele după numărul caracteristicilor de grupare şi după
natura acestora.
Dacă caracteristica de grupare este una cantitativă (numerică), seria de repartiţie se numeşte
serie de variaţie.
Prelucrarea şi analiza informaţiilor cuprinse într-o serie de repartiţie empirică trebuie să ţină
seama de trăsăturile unei astfel de serii. Principalele trăsături ale unei serii de repartiţie sunt:
omogenitatea termenilor unei serii de repartiţie se explică prin faptul că toate valorile au
acelaşi conţinut şi sunt cauzate de factori esenţiali. Omogenitatea valorilor ce compun o
67
serie de repartiţie presupune o variaţie cât mai mică între aceste valori. Dacă termenii
prezintă o variaţie pronunţată21 se desprinde concluzia că în colectivitatea studiată sunt
prezente mai multe tipuri calitative, ceea ce înseamnă că seria respectivă trebuie
separată în două sau mai multe serii distincte;
către valorile care se află în mijlocul seriei, caz în care graficul repartiţiei tinde să
semene cu un clopot Gauss-Laplace (normală).
către cele două extremităţi ale repartiţiei, caz în care reprezentarea grafică sugerează
o curbă în formă de «U».
către una din valorile extreme ale seriei, atunci graficul seamănă cu un «J».
Diversitatea situaţiilor care pot fi întâlnite în practică impune ca economistul să aibă în vedere,
la alegerea metodelor statistice folosite în analiza seriilor de repartiţie, natura distribuţiei empirice.
Oricare ar fi natura seriei de repartiţie, elementele centrale ale acesteia sunt valorile variabilei
observate şi frecvenţele de apariţie a fiecărei stări individuale ale variabilei respective.
Cum am văzut în subcapitolul 2.3, frecvenţele absolute (ni) exprimă numărul unităţilor
elementelor cuprinse într-o grupă, definită de o variantă sau un interval de variaţie. Frecvenţele
absolute se exprimă în unităţi concrete de măsură (număr de agenţi economici, număr de salariaţi,
număr de clienţi etc). În Tabelul 5.1 frecvenţele absolute apar în coloana a treia şi indică câţi agenţi
economici se încadrează în fiecare interval.
Compararea frecvenţelor absolute a două repartiţii alcătuite pentru aceeaşi caracteristică, dar
cu număr diferit de unităţi componente, nu poate fi realizată pe baza frecvenţelor absolute.
Compararea presupune, în acest caz, folosirea frecvenţelor relative.
21În acest paragraf, noţiunea de variaţie poate fi înţeleasă mai mult intuitiv, în sensul că datele sunt mai mult sau
mai puţin diferite între ele. În subcapitolul 4.5 vom prezenta pe larg conceptul de variaţie, modul său de calcul şi
de interpretare.
68
Frecvenţele relative (fi) exprimă ponderi, greutăţi specifice, câte părţi ale unităţilor
corespunzătoare unei variante sau grup de variante se regăsesc în totalul colectivităţii. Deci,
frecvenţele relative sunt mărimi relative de structură :
ni
fi k
100 , i 1, k ,
n
i 1
i
unde k este numărul de grupe determinate pentru o variabilă numerică continuă sau de
variante (modalităţi) ale variabilei discrete.
În cazul repartiţiei din Tabelul 5.1, frecvenţele relative sunt prezentate sub formă de coeficient
şi ca procente în coloanele 3 şi 4.
În analiza repartiţiilor empirice este uneori necesar să se cunoască frecvenţa absolută sau
relativă la care s-a înregistrat cel mult o valoare xi şi, respectiv, cel puţin o anumită valoare xi.
Indicatorul frecvenţelor la care se recurge în acest caz este frecvenţa cumulată. Acest indicator ne
ajută să răspundem la întrebări simple, dar al căror răspuns se dovedeşte extrem de relevant în
numeroase situaţii: care este procentul firmelor cu cel mult 9 angajaţi? Care este numărul punctelor de
vânzare cu realizări de cel puţin 3000 de lei pe zi? Care este numărul gospodăriilor populaţiei al căror
venit mediu zilnic pe persoană este de cel mult 10 lei pe zi? Cât la sută din agenţii economici au o
cifră de afaceri anuală de cel mult 100.000 Euro?
Dacă o repartiţie este alcătuită pe intervale neegale de grupare, frecvenţele relative nu sunt în
măsură să sugereze forma repartiţiei – prin reprezentare grafică – deoarece nu sunt direct
comparabile. În asemenea situaţie trebuie să se recurgă la densităţile de frecvenţe.
O primă imagine asupra formei repartiţiei se obţine prin intermediul reprezentării grafice.
Repartiţiile de frecvenţe unidimensionale se vizualizează prin următoarele tipuri de grafice:
diagrama prin coloane, dacă repartiţia s-a construit pentru o variabilă cu o variaţie
discretă.
69
Pentru exemplificarea celor de mai sus, vom prezenta în continuare etapele de lucru şi
rezultatele obţinute.
Exemplul 5.1. – Indicatorii frecvenţelor unei serii de repartiţie şi reprezentarea lor grafică
Să presupunem că, în urma unei cercetări statistice, au fost culese date referitoare la cifra de afaceri
obţinută în anul 2009 de un număr de 200 de companii specializate în producţia de accesorii auto.
Datele au fost grupate în intervale de variaţie, iar pentru fiecare interval au fost calculate frecvenţele
absolute şi relative, prezentate în Tabelul 5.1
Tabelul 5.1 – Distribuţia întreprinderilor după cifra de afaceri
Număr Ponderea numărului de
Cifra de afaceri companii companii în total
(mii lei) Frecvenţa relativă (fi)
Frecvenţa
absolută (ni) Coeficient Procente
1 2 3 4
Sub 2000 15 0,075 7,5%
Între 2000 şi 2400 25 0,125 12,5%
Intre 2400 şi 2800 50 0,250 25,0%
Intre 2800 şi 3200 46 0,230 23,0%
Intre 3200 şi 3600 35 0,175 17,5%
Intre 3600 şi 4000 24 0,120 12,0%
Peste 4000 5 0,025 2,5%
Total 200 1,000 100,0%
Notă: Limita superioară este cuprinsă în interval
Construirea histogramei, a poligonului frecvenţelor şi a poligonului frecvenţelor cumulate presupune
închiderea intervalelor marginale deschise. Se poate proceda astfel:
limita inferioară a primului interval, respectiv limita superioară al ultimului interval este valoarea
empirică cea mai mică (xmin) respectiv cea mai mare (xmax) înregistrată ;
dacă nu se cunosc aceste valori extreme, închiderea intervalelor deschise se face cu mărimea
intervalelor învecinate. Deci x1,inf = 2000-400=1600 iar x7,sup = 4000+400=4400.
70
Fig. 5.1 – Repartiţia agenţilor economici după cifra de afaceri
60
50
40
Nr. unitati
30
20
10
0
1600 - 2000 - 2400 - 2800 - 3200 - 3600 - 4000 -
2000 2400 2800 3200 3600 4000 4400
Cifra de afaceri
Fig. 5.2 – Repartiţia agenţilor economici după cifra de afaceri (reprezentare prin poligonul
frecvenţelor)
60
50
40
Nr. unitati
30
20
10
0
1600 - 2000 2000 - 2400 2400 - 2800 2800 - 3200 3200 - 3600 3600 - 4000 4000 - 4400
Cifra de afaceri
În coloana a 6-a găsim frecvenţele relative cumulate descrescător, care se citeşte în felul următor: 100%
dintre companii au o cifră de afaceri cel puţin egală cu cea din primul interval. Sau, dacă închidem primul
interval cu amplitudinea intervalului următor şi obţinem limita inferioară a primului interval, egală cu 1600
mii lei, putem spune că 100% dintre companii au o cifră de afaceri mai mare de 1,6 milioane lei. A doua
linie din coloana a 6-a ne arată ca 92,5% dintre companiile studiate au o cifră de afaceri de peste 2 milioane
lei.
71
Dacă ne interesează care este proporţia companiilor care au avut o cifră de afaceri de cel puţin 2400 mii
lei, avem la îndemână două posibilităţi. Prima este să citim în coloana a 5-a, a frecvenţelor relative
cumulate crescător, care este proporţia companiilor care au avut o cifră de afaceri de cel mult 2400 de lei,
adică 20%, pe care o scădem din 100 şi obţinem rezultatul căutat: 80%. Cea de a doua posibilitate este să
citim în coloana a 6-a, a frecvenţelor relative cumulate descrescător, care este valoarea corespunzătoare
companiilor din intervalul 2400 – 2800 şi obţinem, de asemenea, rezultatul căutat: 80% (vezi Tabelul 5.2 ).
Tabelul 5.2. – Frecvenţele relative cumulate ale distribuţiei întreprinderilor după cifra de afaceri
Număr Frecvenţa absolută Frecvenţa relativă cumulată
companii cumulată (%)
Cifra de afaceri (ni*) (Fi)
Frecvenţa
absolută Crescător Descrescător Crescător Descrescător
(ni)
1 2 3 4 5 6
1600 – 2000 15 15 200 7,5% 100,0%
2000 – 2400 25 40 185 20,0% 92,5%
2400 – 2800 50 90 160 45,0% 80,0%
2800 – 3200 46 136 110 68,0% 55,0%
3200 – 3600 35 171 64 85,5% 32,0%
3600 – 4000 24 195 29 97,5% 14,5%
4000 – 4400 5 200 5 100,0% 2,5%
Total 200 200
O repartiţie construită pe baza frecvenţelor cumulate se reprezintă grafic prin poligonul frecvenţelor
cumulate, numit si ogivă (vezi fig. 5.3)
Fig. 5.3 – Repartiţia agenţilor economici după cifra de afaceri (reprezentare prin poligonul
frecvenţelor cumulate crescător şi descrescător)
250
200
Nr. unitati
150
100
50
0
1600 - 2000 2000 - 2400 2400 - 2800 2800 - 3200 3200 - 3600 3600 - 4000 4000 - 4400
Cifra de afaceri
Frecvenţele cumulate sunt comparabile între ele indiferent de mărimea intervalelor de grupare. Punctul de
intersecţie a celor două curbe reprezintă cifra de afaceri mediană, de aproximativ 2900 mii lei.
Pentru exemplificarea calculului densităţii de frecvenţă, să apelăm la datele din tabelul 4.1.
72
Densitatea de frecvenţă absolută aferentă primului interval de variaţie (sau grupă de interval) este
rezultatul împărţirii dintre frecvenţa absolută a acestui interval (15) la amplitudinea intervalului (400).
Aşadar, 15/400 = 0,0375.
Densitatea de frecvenţă relativă rezultă fie din împărţirea densităţii de frecvenţă absolută (0,0375) la
numărul total de companii (200) înmulţită cu 100, fie din împărţirea frecvenţei relative corespunzătoare
(7,5%) la amplitudinea intervalului (400). Echivalenţa celor două opţiuni este destul de evidentă:
d1a n 1 0,0375 15 1
d1r 100 1 100 100 100
n h1 n 200 400 200
sau
f1% n 1 15 1
d1r 1 100 100
h1 n h1 200 400
Tabelul 5.3. – Frecvenţele absolute, frecvenţele relative şi densităţile de frecvenţă ale distribuţiei
întreprinderilor după cifra de afaceri
Număr Ponderea
companii numărului de
Cifra de afaceri Densitatea de frecvenţă
companii în total
(mii lei) Frecvenţa
Frecvenţa relativă (fi)
absolută
(ni) Coeficient Procente Absolută Relativă
1 2 3 4 5 6
1600 – 2000 15 0,075 7,5% 0,0375 0,0188
2000 – 2400 25 0,125 12,5% 0,0625 0,0313
2400 – 2800 50 0,250 25,0% 0,1250 0,0625
2800 – 3200 46 0,230 23,0% 0,1150 0,0575
3200 – 3600 35 0,175 17,5% 0,0875 0,0438
3600 – 4000 24 0,120 12,0% 0,0600 0,0300
4000 – 4400 5 0,025 2,5% 0,0125 0,0063
Total 200 1,000 100,0% - -
Reprezentarea grafică a densităţilor de frecvenţă scoate în evidenţă faptul că înălţimea lor este
proporţională cu aria suprafeţelor determinate de frecvenţele fiecărui interval de grupare şi de mărimea
acestora. Din cauza faptului că intervalele sunt egale, graficul densităţilor de frecvenţă este similar cu cel al
frecvenţelor absolute din Figura 5.1.
73
Fig. 5.4 – Histograma repartiţiei agenţilor economici după cifra de afaceri (suprafaţa fiecărei
coloane este egală cu proporţia numărului de companii din fiecare interval de grupare)
0,1400
0,1200
Proportia companiilor
0,1000
0,0800
0,0600
0,0400
0,0200
0,0000
1600 - 2000 - 2400 - 2800 - 3200 - 3600 - 4000 -
2000 2400 2800 3200 3600 4000 4400
Cifra de afaceri
Repartiţia agenţilor economici după cifra de afaceri tinde către repartiţia normală, concluzie care rezultă şi
din figura nr. 5.2, din cauza faptului că frecvenţele relative descresc către capetele seriei.
În funcţie de natura datelor disponibile şi de necesităţile de analiză poate fi folosită una din
următoarele două grupe de mărimi medii: medii calculate şi medii poziţionale (de poziţie).
Caracterizarea tendinţei centrale în cazul unei repartiţii unidimensionale se poate realiza prin
media aritmetică, prin mediana (valoarea centrală) şi prin valoarea modală sau mod (valoarea
dominantă).
Media reprezintă în statistică principalul indicator prin care se caracterizează sintetic un număr
mare de valori individuale. Media este rezultatul sintetizării într-un singur număr, fiind nivelul
reprezentativ a tot ceea ce este esenţial şi tipic în masa valorilor individuale. Fiind o mărime rezultată
dintr-un calcul, media nu coincide de cele mai multe ori cu nici una din valorile empirice. Se exprimă în
unităţi concrete de măsură şi anume în aceleaşi unităţi de măsură ca şi valorile concrete din care se
calculează.
Media poate descrie ceea ce este esenţial, comun, obiectiv într-o masă de manifestări
individuale, dacă sunt îndeplinite următoarele cerinţe fundamentale:
74
numărul valorilor individuale din care se calculează să fie suficient de mare;
valorile individuale din care se calculează o medie să fie cât mai apropiate ca mărime,
ceea ce înseamnă să formeze un ansamblu omogen. Dacă colectivitatea este eterogenă
se recomandă împărţirea acesteia pe grupe şi calcularea de medii de grupă / condiţionale;
Media aritmetică poate fi aplicată în cazul unei variabile măsurate printr-o scală metrică, iar
datele din care se calculează sunt valori primare, direct măsurabile. Teoretic ar trebui ca valorile
empirice observate să tindă să formeze o progresie aritmetică, însă rareori ne vom găsi în realitate în
faţa unei asemenea situaţii.
Media aritmetică are avantajul că este uşor de aplicat şi este uşor de înţeles. Media aritmetică
are marele dezavantaj că este sensibilă la valorile extreme, adică valorile mult mai mici sau mult mai
mari decât marea majoritate a celorlalte valori tind să subestimeze sau să supraestimeze valoare
medie obţinută.
Media aritmetică este acea valoare care înlocuind toate valorile individuale (xi), nu modifică
suma acestora ( x i ).
n
x x .... x n x x i (5.2)
i 1
22 Existenţa valorilor valide este un aspect extrem de important în calculul indicatorilor tendinţei centrale,
deoarece există o diferenţă între o valoare “lipsă” şi valoarea “zero” atribuită unei variabile numerice. Dacă o
valoare lipseşte – nu a fost observată sau, din punct de vedere logic, nu se poate atribui o valoare unei variabile
observate pentru o anumită unitate – atunci ea nu intră în calculul indicatorului respectiv, nici la numărător, nici la
numitor. In caz contrar rezultatul este în mod eronat subestimat, deoarece nu intră în calcului numărătorului, dar
intră în calculul numărului de unităţi, de la numitor.
75
se obţine relaţia mediei aritmetice simple:
n
x i
x i 1
(5.3)
n
Relaţia (5.3) se aplică dacă fiecare valoare empirică a fost observată o singură dată sau de
acelaşi număr de ori, deci când frecvenţele de apariţie sunt egale.
În cazul unei serii de frecvenţe valorile individuale apar de un număr diferit de ori ( ni). Pentru a
obţine, în acest caz, nivelul totalizator al valorilor individuale se ţine seama de frecvenţa absolută
înregistrată în cazul fiecărei valori distincte ( xi · ni). Media aritmetică se calculează sub forma mediei
aritmetice ponderate, după formula :
k
x n i i
x i 1
k
, (5.4)
n i 1
i
ni
În relaţia (5.4) expresia k
reprezintă recvenţa relativă fi, care exprimă ponderea cu care
n
i 1
i
intră în calculul mediei fiecare valoare distinctă înregistrată. Deci, dacă se dispune de o repartiţie de
frecvenţe relative, media aritmetică se calculează după relaţia:
k
x xi fi , (5.5)
i 1
x f i i
x i 1
, (5.6)
100
când frecvenţele relative sunt exprimate procentual.
76
Exemplul 5.2 – Calculul mediei aritmetice pentru o serie de repartiţie cu valori discrete
Pentru ilustrarea modului de calcul al mediei aritmetice, să presupunem că am cules datele din 50 de
companii pentru care variabila de observare a fost numărul de angajaţi şi că vrem să aflăm care este
numărul mediu de angajaţi pe o companie. Datele sunt prezentate în tabelul 5.4.
În prima coloană regăsim valorile observate ale variabilei de interes – numărul de angajaţi – şi în coloana a
doua frecvenţele absolute – numărul de companii al căror număr de angajaţi este 8, 12, 15 etc. În coloana a
treia este calculată frecvenţa relativă exprimată în procente, pentru a vedea cum putem utiliza cele două
modalităţi de exprimare a frecvenţei în formulele de calcul ale mediei aritmetice.
Întrucât avem la dispoziţie frecvenţele de apariţie ale fiecărei variante ale variabilei de interes, vom utiliza
formula mediei aritmetice ponderate.
Pentru controlul corectitudinii calculelor, este recomandat să folosim modelul tabelului de calcul, în care
vom înscrie în coloane succesive rezultatele fiecărei etape de lucru. Acest tabel este folosit numai pentru
scopuri didactice şi este util pentru înţelegerea modului de calcul al fiecărui indicator al tendinţei centrale.
În aplicaţiile practice, aceşti indicatori pot fi lesne calculaţi cu ajutorul pachetelor informatice, de la cele
mai comune, cum este MS Excel, până la pachetele specializate de analiză a datelor (SPSS, SAS, R etc.)
Astfel, dacă suntem în situaţia să utilizăm relaţia de calcul (5.4), a mediei aritmetice ponderate, ceea ce ne
k
interesează este să obţinem suma produselor de la numărător: x n
i 1
i i . De aceea, în coloana a 4-a a
tabelului vom înscrie rezultatul înmulţirii dintre fiecare variantă a variabilei de interes şi frecvenţa absolută
care corespunde acesteia: x i ni .
Numărul de Frecvenţa
Frecvenţa
angajaţi relativă (fi) x i ni xi fi
absolută (ni)
(xi) %
1 2 3 4 5
8 5 10 40 80
12 10 20 120 240
15 15 30 225 450
24 10 20 240 480
32 7 14 224 448
45 3 6 135 270
Total 50 100 984 1968
k
Suma produselor din coloana a 4-a este 984, iar numărul total al unităţilor ( n ) este 50.
i 1
i
77
Aplicând relaţia (5.4), obţinem:
k
x n i i
984
x i 1
k
19,68 angajaţi23.
n
50
i
i 1
Dacă apelăm la relaţia (5.6), în coloana a 5-a calculăm produsul dintre variantele variabilei de interes şi
k
frecvenţa relativă exprimată procentual ( x f
i 1
i i ), după care însumăm rezultatele obţinute. Rezultatul
este următorul:
k
x f i i
1968
x i 1
19,68 angajaţi.
100 100
Aşadar, indiferent de relaţia de calcul folosită, rezultatul este acelaşi: o companie dintre cele 50 incluse în
studiu au în medie un număr de aproximativ 20 de angajaţi.
Dacă repartiţia de frecvenţe a fost construită pe intervale de grupare egale sau neegale,
media aritmetică se estimează aplicând una din relaţiile 5.4 – 5.6. Specificitatea acestui caz constă în
stabilirea valorii variabilei de interes pe care o vom folosi în calcularea indicatorilor tendinţei centrale.
Mai precis, fiecare interval de grupare se ia în calculul mediei cu centrul (mijlocul) intervalului (ci) ca
valoare a variabilei de interes (xi). Centrul fiecărui interval se determină ca o medie aritmetică simplă
ale limitelor fiecărui interval:
xi inf xi sup
ci (5.7)
2
Se procedează astfel pornind de la ipoteza că frecvenţele se distribuie uniform pe intervalul de
grupare. Această ipoteză nu se verifică întotdeauna, motiv pentru care nivelul totalizator calculat
k n
( x i ni ) nu este egal cu suma valorilor empirice ( x i ).
i 1 i 1
Media calculată pentru o repartiţie de frecvenţe construită pe intervale de grupare este numai
o estimare a mediei calculată pe baza datelor negrupate. Estimarea este cu atât mai grosieră cu cât
intervalele de grupare sunt mai mari.
Calculul mediei aritmetice ponderate pentru o serie de repartiţie cu intervale de grupare este
ilustrat în exemplul 5.3.
23Să ne reamintim că unitatea de măsură a mediei aritmetice este aceeaşi cu cea a variabilei de interes. În cazul
de faţă, unitatea de măsură este “angajat”.
78
Exemplul 5.3 – Calculul mediei aritmetice ponderate pentru o serie de repartiţie cu intervale de
grupare
Vom utiliza datele prezentate în Tabelul 5.1 la care vom adăuga, succesiv, coloanele de calcul care ne ajută
să ajungem la rezultatul aşteptat.
Tabelul 5.5 – Distribuţia companiilor după cifra de afaceri
În coloana a 3-a vom calcula centrele de interval. Intervalele marginale fiind deschise, se închid
convenţional, pornind de la mărimea intervalelor alăturate: x1inf = x1sup – 4000 = 1600 şi x7sup = x7inf + 400
= 4400.
În coloana a 5-a vom calcula produsul ci ni dintre centrele de interval şi frecvenţele absolute, similar cu
produsul xi ni , după care însumăm rezultatele.
c n i i
581200
x i 1
k
2906 mii lei.
n
200
i
i 1
Aşadar, cifra medie de afaceri a companiilor studiate a fost de 2906 mii lei.
79
Media aritmetică are câteva proprietăţi matematice, care sunt de mare importanţă pentru
aplicarea ei în statistică.
(x
i 1
i x) 0 (5.9)
(x
i 1
i x ) ni 0 (5.10)
3) dacă toate valorile individuale se măresc sau se micşorează cu o constantă a, media noii
serii se modifică în acelaşi sens şi cu aceeaşi constantă a:
n n
( xi a ) xi na
x i 1
i 1
xa (5.11)
n n n
respectiv,
k k k
( x i a ) ni xi ni a ni
x i 1
k
i 1
k
k
i 1
xa (5.12)
n
i 1
i n
i 1
i n
i 1
i
80
Ţinând seama de ultimele două proprietăţi menţionate se obţine relaţia de calcul simplificat al
mediei aritmetice:
Această metodă este aplicabilă atunci când gruparea este realizată pe intervale egale.
x i
x i 1
(5.18)
k
Când subcolectivităţile au talie diferită, adică au un număr diferit de unităţi:
k
x i ni
x i 1
k
(5.19)
n
i 1
i
81
Exemplul 5.4– Calculul mediei aritmetice ponderate pentru o serie de repartiţie cu intervale de
grupare
Vom utiliza datele din tabelul 5.1. De regulă, constanta a este centrul intervalului frecvenţa cea mai mare,
care este¸în cazul nostru 2600, deoarece are frecvenţa absolută egală cu 50. Amplitudinea intervalului este
400. Aşadar, a = 2600 şi h = 400.
În coloana a 4-a calculăm raportul dintre diferenţa centrelor de interval faţă de constanta aleasă şi
amplitudinea intervalului
Tabelul 5.6– Distribuţia companiilor după cifra de afaceri
Se observă faptul că media determinată pe baza relaţiei de calcul simplificat este egală cu cea obţinută prin
aplicarea relaţiei de bază (5.4) din Exemplul 5.3.
Pentru aceeaşi serie de repartiţie, dacă schimbăm de numărul de clase (grupe) sau alegem
limite diferite de interval, se pot obţine valori medii diferite. Dacă dorim să comparăm două fenomene,
de cele mai multe ori suntem tentaţi să comparăm mediile, pentru că sunt uşor de înţeles. Totuşi, e
necesară maximă precauţie atunci când comparăm direct două valori medii, pentru că e nevoie de o
investigare mai aprofundată a colectivităţilor statistice din care provin cele două mărimi, mai concret a
structurii acestora şi a momentelor la care au fost realizate observaţiile.
Mai mult, în cazul mediilor ponderate, trebuie să fim prudenţi în interpretare deoarece
ponderile pot introduce un efect de structură, determinat de ponderile fiecărei valori observate.
Vom ilustra efectul structurii asupra mediei aritmetice ponderate în cele ce urmează.
82
Exemplul 5.5– Efectul de structură asupra mediei aritmetice ponderate
Să presupunem că două companii, A şi B, realizează acelaşi aparat electric, iar operatorii – bărbaţi şi femei
– realizează câte o operaţiune diferită pentru care fiecare este plătit.
În compania A, din totalul operatorilor, ¾ sunt bărbaţi care sunt plătiţi cu 16 lei pentru fiecare aparat la
care realizează operaţiunile stabilite, iar restul de ¼ dintre operatori care sunt femei sunt plătite cu 12
lei/aparat.
În compania B, din totalul operatorilor, ¼ sunt bărbaţi care sunt plătiţi cu 17 lei pentru fiecare aparat la
care realizează operaţiunile stabilite, iar restul de ¾ dintre operatori care sunt femei sunt plătite cu 13
lei/aparat.
Evident, operatorii companiei B sunt mai bine plătiţi decât cei din compania A, însă plata medie pe aparat
este diferită în cele două companii:
3 1
Compania A: x A = x16 x12 15 lei/aparat
4 4
1 3
Compania B: x B = x17 x13 14 lei/aparat
4 4
Aşadar, chiar dacă în compania B plata individuală este mai bună, plata medie este mai mică, pentru că
ponderea femeilor, care sunt plătite mai puţin decât bărbaţii, este cu 50 de puncte procentuale mai mare
decât în compania A, pentru un plus de doar 1 leu pe aparat.
Xmin Me Xmax
Mediana presupune că formele de manifestare ale caracteristicilor pot fi măsurate cel puţin
printr-o scală ordinală.
n 1
LoMe (5.20)
2
În cazul unei serii simple formată dintr-un număr impar de termeni, mediana este tocmai
valoarea centrală, din mijloc.
7 1
LoMe 4
2
În şirul nostru, cea de a 4-a valoare este „6”. În concluzie, Me 6
83
Dacă seria este formată dintr-un număr par de termeni, atunci mediana se localizează între
cei doi termeni centrali. Valoarea medianei se determină, în acest caz, ca o medie aritmetică simplă a
celor doi termeni din mijlocul seriei.
De exemplu, dacă seria este formată din valorile: 2, 4, 4, 6, 7, 9, 10, 15, mediana se situează
8 1
între termenii care ocupă poziţiile patru şi cinci în serie ( LoMe 4,5 ) şi este egală cu media
2
aritmetică a celor doi termeni, respectiv valorile 6 şi 7, adică:
67
Me 6,5
2
Într-o serie construită pe intervale de grupare, locul medianei indică intervalul în care se
situează. La calcularea valorii medianei se porneşte, ca şi în cazul mediei, de la ipoteza că valorile se
distribuie uniform pe întregul interval de grupare. Valoarea medianei se estimează pe baza relaţiei :
n 1 Me
ni
2
Me x0 h i 1
(5.21)
n Me
unde:
n 1
- este locul medianei;
2
Me
- n
i 1
i este suma frecvenţelor până la intervalul median sau frecvenţa cumulată crescător
Se remarcă faptul că toate elementele din relaţia 5.21 sunt legate de locul medianei în serie.
b) se identifică prima frecvenţă cumulată crescător care este mai mare sau cel puţin egală
n 1
cu expresia care indică locul medianei;
2
c) intervalul de grupare care corespunde cerinţei de mai sus este intervalul median.
84
Exemplul 5.6 – Calculul medianei pentru o repartiţie pe intervale de grupare
Vom utiliza datele din Tabelul 5.1, referitoare la cifra de afaceri colectate pentru 200 de companii.
Tabelul 5.7 – Distribuţia întreprinderilor după cifra de afaceri
Număr Frecvenţa absolută
companii cumulată
Cifra de afaceri
Frecvenţa (Fi)
(xi)
absolută Descrescător
Crescător
(ni)
1 2 3 4 Me
1600 – 2000 15 15 200 n
i 1
i
nMe
Primul pas este să calculăm locul medianei:
n 1 201
LoMe 100,5
2 2
Prima frecvenţă cumulată crescător care este mai mare decât 100,5 este 136. Deci, mediana se află în
intervalul 2800 – 3200, adică 2800 < Me < 3200.
Aplicând relaţia de calcul a medianei din (5.21) şi înlocuind cu valorile din tabelul de mai sus, obţinem:
n 1 Me
ni
2 100,5 90
Me x0 hMe i 1
2800 400 2891,3 mii lei, unde:
n Me 46
- x0 = 2800;
- h = 400;
n 1
- =100,5;
2
Me
- n
i 1
i = 90;
- nMe =46.
Mediana poate fi calculată şi grafic pe baza poligonului frecvenţelor cumulate în două moduri
asemănătoare:
Proiecţia punctului de intersecţie a celor două curbe pe axa Ox indică mediana. Ca exemplu
putem folosi graficul din Fig. 5.3, trasând perpendiculara din punctul de intersecţie pe axa Ox.
85
Fig. 5.5 – Calculul grafic al medianei la intersecţia ogivelor
250
150
136
100
110
90
64
50
40
29
15 Me 5
0
1600 - 2000 2000 - 2400 2400 - 2800 2800 - 3200 3200 - 3600 3600 - 4000 4000 - 4400
Cifra de afaceri
n 1 201
Mai întâi identificăm locul medianei LoMe 100,5 . Din acest punct de pe axa
2 2
Oy trasăm o perpendiculară la axa Ox până ce intersectează poligonul frecvenţelor cumulate
crescător. Proiecţia pe axa Ox a punctului de intersecţie dintre această paralelă şi curba frecvenţelor
indică valoarea medianei.
250
150
136
100
90
50
40
15
0
1600 - 2000 2000 - 2400 2400 - 2800 2800 - 3200 3200 - 3600 3600 - 4000 4000 - 4400
Cifra de afaceri
86
n
(x
i 1
i Me) min pentru o serie simplă şi
(x
i 1
i Me) ni min pentru o serie de frecvenţe.
Într-o serie de frecvenţe alcătuită pe valori, modul este valoarea cu frecvenţa cea mai mare.
Astfel, în seria din Tabelul 5.2, frecvenţa cea mai mare, egală cu 15, o înregistrează companiile cu 15
salariaţi. Astfel, valoarea modală este dată de x3=15.
Într-o repartiţie de frecvenţe alcătuită pe intervale egale de grupare, frecvenţa cea mai mare
indică intervalul în care se află modul. Valoarea acestuia se estimează prin interpolare, pe baza
relaţiei:
1
Mo x0 hMo , (5.22)
1 2
unde:
24 Cuvântul se pronunţă cu accentul pe litera “o”: mód, forma sa articulată fiind módul.
87
Exemplul 5.7 – Calculul valorii modale pentru o distribuţie de frecvenţe pe intervale de grupare
Vom apela, din nou, la datele referitoare la cifra de afaceri înregistrată pentru 200 de companii la finele
anului 2009.
1 25
Mo x0 h 2400 400 2744,8 mii lei.
1 2 25 4
Interpretarea mărimii statistice obţinute ne arată că cele mai multe întreprinderi din cele studiate, în număr
de 50, au o cifră de afaceri de aproximativ 274525 mii lei.
25Statistica, prin excelenţă, înseamnă estimaţie. Din acest motiv am optat pentru rotunjirea rezultatului obţinut,
deoarece, în acest fel, este şi mai uşor de reţinut. (n. aut).
88
Ca şi mediana, modul poate fi calculat grafic pornind de la histogramă, însă rezultatul nu este
foarte exact din cauza scalei de măsurare segmentelor pe axa Ox. Histograma, în schimb, ne arată
foarte uşor care este intervalul modal, aşa cum rezultă şi din graficul următor
0,1400
0,1200
Proportia companiilor
0,1000
0,0800
0,0600
0,0400
0,0200 Mo
0,0000
1600 - 2000 - 2400 - 2800 - 3200 - 3600 - 4000 -
2000 2400 2800 3200 3600 4000 4400
Cifra de afaceri
modul oferă relativ puţine informaţii. Ele arată numai dacă o valoare modală apare mai
frecvent decât celelalte valori. Dacă celelalte valori apar aproape tot aşa de frecvent ca
valoarea modală, s-ar putea ca o valoare să devină modală din întâmplare. Deci, poate se
recomandă pentru a caracteriza ce este tipic într-o distribuţie numai dacă o valoare
domină clar în serie ;
dacă celelalte valori se îndepărtează foarte mult de valoarea modală, acesta nu poate
oferi informaţii relevante pentru caracterizarea seriei.
În cazul distribuţiei companiilor după cifra de afaceri, cei trei indicatori ai tendinţei centrale
au următoarele valori :
Dacă ordinea celor trei indicatori este x < Me < Mo , atunci seria este asimetrică de stânga.
Cei trei indicatori sunt egali ( x = Me = Mo) în cazul unei serii perfect simetrice.
89
În concluzie, media aritmetică descrie corect ceea ce este esenţial într-o serie de distribuţie,
dacă aceasta este formată din valori omogene şi tinde spre o repartiţie normală. În acest caz, mediana
şi modul pot completa media.
Dacă seria nu este omogenă sau dacă repartiţia este pronunţat asimetrică, sau dacă clasele
marginale sunt deschise, se recomandă folosirea modului şi a medianei.
Media aritmetică se aplică dacă are sens să se însumeze valorile individuale, deci să se
calculeze nivelul totalizator ( x i ). Frecvent însă este necesar să se calculeze media din datele care
sunt mărimi relative de intensitate (salarii medii, rate medii de rentabilitate) sau mărimi relative de
structură (rate ale şomajului pe judeţe) sau modificări relative (ritmuri de creştere) etc. În asemenea
situaţii, însumarea directă a valorilor din care se calculează media nu are sens.
1
Media armonică se calculează din valorile inverse ale termenilor seriei ( ) şi este acea
xi
valoare care nu modifică suma inverselor termenilor.
n
1 1 1 1 1 1 1
.... .... (5.23)
x1 x 2 xn xh xh x h i 1 xi
deci:
n
1 1
n (5.24)
x h i 1 xi
de unde rezultă:
n
xh n
(5.25)
1
i 1 x i
n i
xh k
i 1
(5.26)
1
i 1 xi
ni
Ca regulă, media armonică trebuie folosită când datele din care se calculează media nu sunt
date primare ci sunt date derivate, rezultate din calcule, respectiv sunt mărimi relative de structură sau
mărimi relative de intensitate. Aceste mărimi relative pot fi interpretate drept medii parţiale, din care
trebuie calculată o medie totală / generală.
90
La calcularea unei medii din medii parţiale, poate fi utilizată media aritmetică sau media
armonică în funcţie de datele disponibile, şi anume:
Dacă pe lângă mediile parţiale se cunosc numitorii rapoartelor din care rezultă aceste
medii parţiale se explică media aritmetică;
Dacă pe lângă mediile parţiale se cunosc numărătorii din care rezultă aceste medii
parţiale, se aplică media armonică.
Pentru trei judeţe se cunoaşte rata şomajului pentru luna X şi numărul şomerilor la 1 ianuarie a.c.
Tabelul 5.9 – Rata şomajului la 1 ianuarie a.c.
Numărul şomerilor
Judeţul Rata şomajului
(mii persoane)
A 8,4 80
B 12,0 100
C 6,5 50
Total - 230
Primul îndemn este să calculăm media aritmetică simplă din cele trei rate, respectiv: (8,4 + 12,0 + 6,5)/3 =
8,97%. Totuşi, trebuie să privim mai întâi cum se calculează ratele şomajului la nivelul fiecărui judeţ.
Rata şomajului la nivelul fiecărui judeţ (RSi) este o pondere care arată cât la sută reprezintă numărul
NS i
şomerilor (NSi) în populaţia activă (PAi), deci RS i 100 .
PAi
Aşadar, folosirea mediei aritmetice simple s-ar justifica numai dacă numitorii celor trei rapoarte -
populaţia activă din fiecare judeţ - ar fi egali, ceea ce în realitate rareori se poate întâmpla.
3
Rata medie este un raport dintre numărul şomerilor din cele trei judeţe NS
j 1
i şi populaţia activă din cele
3
trei judeţe ( PA ), deci :
j 1
i
NS
j 1
i
RS 3
100
PA
j 1
i
NS i
Nu se cunoaşte populaţia activă. Aceasta rezultă din expresia PAi 100 sau
RS i
1
PAi NS i 100
RS i
91
3 n
NS
j 1
i n i
Deci, RS 3
100 n
i 1
100 , ceea ce înseamnă că se aplică media armonică :
1 1
j 1 RS i
NS i
i 1 x i
ni
230
RS 100 9,12%
1 1 1
80 100 50
8,4 12 6,5
După cum se poate constata, există o diferenţă între media calculată cu ajutorul formulei mediei armonice
faţă de cea a mediei aritmetice, care ar subestima rezultatul căutat.
Dacă pe lângă rata şomajului s-ar fi cunoscut populaţia activă, rata medie a şomajului s-ar fi calculat pe
baza mediei aritmetice ponderate.
În practica statistică şi în analiza activităţii economice, media armonică se foloseşte cel mai
frecvent la calculul indicelui preţurilor de tip Paasche (vezi capitolul 8: Indici statistici).
Aşadar:
n n
x 2
i x 2
i
x 2p i 1
xp i 1
(5.28)
n n
Media pătratică se recomandă a fi folosită când într-o serie in care predomină valorile
absolute sau atunci când seria este formată atât din valori pozitive cât şi negative.
Relaţia 5.28 se aplică la calculul mediei pătratice în cazul unei serii simple. În cazul unei serii
de frecvenţe se aplică media pătratică ponderată :
x 2
i ni
xp i 1
k
n
i 1
i
Media pătratică este întotdeauna mai mare decăt media aritmetică ( x p > x ). Aceasta
deoarece prin ridicare la pătrat creşte importanţa valorilor mari.
Media pătratică se aplică cel mai frecvent la calculul abaterii medii pătratice, care este unul
din cei mai utilizaţi indicatori sintetici de variaţie.
92
5.3.6 Media geometrică
Media geometrică ( x g ) se bazează pe relaţia de produs a termenilor seriei, faţă de relaţia
de însumare aplicată în cazul mediilor prezentate anterior.
Media geometrică este acea valoare care, înlocuind termenii seriei, nu modifică produsul
acestora:
n
x1 x 2 .... x n xi x g x g .... x g (5.29)
i 1
sau
n
n x g xi (5.30)
i 1
de unde:
n
xg n x i 1
i (5.31)
k
x g ni xini (5.32)
i 1
n i ln xi
xg i 1
k
(5.33)
n
i 1
i
Cu alte cuvinte, media geometrică este media aritmetică ponderată a logaritmilor valorilor
observate.
Folosirea mediei geometrice presupune ca între termenii seriei să existe o relaţie de produs.
De cele mai multe ori, media geometrică se aplică atunci când seria este formată din termeni care
reprezintă mărimi relative de dinamică.
Din modificări relative exprimate sub formă de coeficienţi (rate de creştere) nu se calculează
direct media geometrică. Aceste date se transformă mai întâi în indici, adăugând 1, urmând ca din
datele obţinute să se calculeze media geometrică. Creşterea medie se obţine dacă din rezultatul
mediei geometrice se scade 1.
Aplicarea mediei presupune ca toţi termenii seriei să fie pozitivi. Media geometrică acordă o
importanţă mai mare valorilor mai mici. Calculată pe baza aceloraşi date, media geometrică este mai
mică decât media aritmetică.
Un exemplu clasic al mediei geometrice este rata medie de rentabilitate financiară, atunci
când se cunoaşte valoarea iniţială a unui activ, valoarea finală şi numărul de ani ai perioadei
analizate. Spre exemplu, dacă acum 10 ani a fost plasat un activ financiar în valoare de 25000 Euro,
iar acum el valorează 33598 Euro, care a fost rata medie anuală a rentabilităţii financiare?
93
33598
R f 10 1,03
25000
Astfel, creşterea medie anuală a fost de 3%, valoare obţinută scăzând 1 din rezultatul de mai
sus.
Existenţa mai multor tipuri de medii ridică întrebarea: când se aplică una sau alta din
mediile prezentate anterior?
Media aritmetică este cea mai importantă medie în cazul seriilor alcătuite
pentru o variabilă măsurată pe baza unei scale metrice. Se poate aplica
întotdeauna, când are sens să se însumeze termenii seriei.
Media geometrică se aplică tot în cazul variabilelor scalate metric şi când între
date există o relaţie de produs, respectiv exprimă evoluţia in timp.
Media pătratică se aplică în cazul seriilor de date scalate metric, când termenii
pot fi atât valori pozitive cât şi negative.
Aceasta deoarece media are menirea de a caracteriza tendinţa centrală. Cu cât împrăştierea /
variaţia valorilor individuale este mai mare, cu atât mai puţin media este în măsură să sintetizeze ceea
ce este tipic, esenţial şi comun în masa de date empirice. Deci, reprezentativitatea mediei scade odată
cu creşterea variaţiei valorilor individuale, respectiv cu cât valorile individuale sunt mai apropiate între
ele cu atât colectivitatea este mai omogenă şi media mai reprezentativă.
În general, indicatorii variaţiei servesc descrierii mai complete a unei repartiţii comparativ cu
cea realizată numai prin intermediul mediei. Un indicator de variaţie completează informaţiile furnizate
de o medie. Indicatorii variaţiei oferă informaţii privind calitatea mediei unei repartiţii ca reprezentativă
sau nereprezentativă.
Indicatorii variaţiei servesc la: verificarea reprezentativităţii mediei ca valoare tipică a unei serii
de date empirice; verificarea gradului de omogenitate a seriei; caracterizarea statistică a formei şi
gradului de variaţie; cunoaşterea gradului de influenţă a factorilor.
94
Indicatorii variaţiei se diferenţiază în funcţie de numărul variantelor / valorilor luate în calcul şi
după rolul îndeplinit în analiza variaţiei, în două grupe :
Amplitudinea absolută (A) este indicatorul de variaţie cel mai simplu. Se determină ca
diferenţă dintre valorile extreme ale caracteristicii şi exprimă mărimea câmpului de împrăştiere.
A xmax xmin
În cazul unei repartiţii construită pe intervale de grupare, amplitudinea variaţiei se determină
ca diferenţă dintre limita superioară a ultimului interval şi limita inferioară a primului interval. Dacă
primul şi ultimul interval sunt deschise, amplitudinea variaţiei se estimează pe baza diferenţei dintre
centrele intervalelor extreme.
Amplitudinea relativă (A%) este un raport procentual dintre amplitudinea absolută şi media
seriei:
A
A(%) 100 (5.34)
x
Amplitudinea variaţiei (absolută şi relativă) poate dezinforma atunci când valorile extreme se
situează la distanţă mare de masa valorilor empirice. Din acest motiv acest indicator nu oferă
informaţii concludente privitor la gradul de variaţie a două repartiţii.
Mai întâi, însă, vom defini cuantilele, respectiv indicatorii care împart seria valorilor ordonate
într-un anumit număr de parţi egale: cuartilele; quintilele; decilele; centilele; percentilele etc.
Cuartilele sunt notate cu litera „Q” şi sunt acele valori ale caracteristicii care împart seria
valorilor ordonate în patru părţi egale: cuartila inferioară (Q1) este acea valoare care separă 25 % din
valorile mici de restul de 75 % din valori; cuartila a doua (Q 2) împarte seria în două părţi egale, deci
coincide cu mediana (Q2 = Me); cuartila a treia (Q3) separă primii 75 % din valori de restul de 25 % din
valorile mai mari.
xmin Q1 Q2 Q3 xmax
95
n 1
LoQ1 ;
4
n 1
LoQ2 ; (5.35)
2
3
LoQ3 (n 1)
4
Se cumulează crescător frecvenţele. Q1 este valoarea corespunzătoare frecvenţei cumulate
n 1 3
care este mai mare sau cel puţin egală cu , respectiv ( n 1) în cazul Q3.
4 4
n 1 Q1
ni
4
Q1 x0 h i 1
(5.36)
nQ1
respectiv, Q3:
3 (n 1) Q3
ni
4
Q3 x0 h i 1
(5.37)
nQ3
IQR Q3 Q1 (5.38)
Pe lângă diferenţa absolută dată de această diferenţă, intervalul intercuartilic ne arată că 50%
dintre valorile observate se găsesc în acest interval. Cu cât diferenţa este mai mică, cu atât distribuţia
este mai concentrată în jurul valorii mediane.
Intervalul intercuartilic este o măsură de împrăştiere mai bună decât amplitudinea absolută,
deoarece este mai puţin sensibilă la valorile extreme şi la datele atipice.
96
Exemplul 5.9 – Calculul indicatorilor de localizare: cuartilele şi intervalul intercuartilic
Vom utiliza datele din Tabelul 5.1, referitoare la cifra de afaceri colectate pentru 200 de companii.
Tabelul 5.10 – Distribuţia întreprinderilor după cifra de afaceri
Număr Frecvenţa absolută
companii cumulată
Cifra de afaceri
Frecvenţa (Fi)
(xi)
absolută
Crescător Descrescător
(ni)
1600 – 2000 15 15 200
2000 – 2400 25 40 185
2400 – 2800 50 90 160
2800 – 3200 46 136 110
3200 – 3600 35 171 64
3600 – 4000 24 195 29
4000 – 4400 5 200 5
Total 200 200
Q1 şi Q3 se determină astfel:
n 1 201
LoQ1 50,25
4 4
Prima frecvenţă cumulată mai mare sau egală cu 50,25 este 90, deci prima cuartilă se găseşte în
intervalul 2400 – 2800 mii lei.
3 (n 1) 603
LoQ3 150,75
4 4
Prima frecvenţă cumulată mai mare sau egală cu 150,75 este 171, deci a treia cuartilă se găseşte în
intervalul 3200 – 3600 mii lei.
b) Determinarea valorii primei şi a celei de a treia cuartile:
n 1 Q1
ni
4 50,25 40
Q1 x0 h i 1
2400 400 2482 mii lei
nQ1 50
3 (n 1) Q3
ni
4 150,75 136
Q3 x0 h i 1
3200 400 3368,6 mii lei
nQ3 35
c) Calculul intervalului intercuartilic
97
Decilele, notate cu litera „D”, separă şirul valorilor ordonate în 10 părţi egale. Prima decilă
(D1) separă 10 % din valorile mai mici de restul de 90 % din valori, a doua decilă (D 2) separă 20% din
valorile cele mai mici de restul de 80% din valori etc. Şi în cazul lor se procedează în acelaşi mod ca
în cazul cuartilelor: mai întâi se calculează localizarea lor şi apoi valoarea lor propriu-zisă.
n 1
LoD1
10
2 (n 1)
LoD2
10
....
9 (n 1)
LoD9
10
Valorile decilelor urmează aceleaşi relaţii de calcul ca în cazul cuartilelor, cu excepţia
introducerii în calcul a poziţiei fiecărei decile, cu frecvenţele precedente şi cea a intervalului decilic în
cauză.
n 1 D1
ni
10
D1 x0 h i 1
n D1
2 (n 1) D2
ni
10
D2 x 0 h i 1
n D2
9 (n 1) D9
ni
10
D9 x0 h i 1
n D9
IDR D9 D1 (5.39)
Din punctul de intersecţie cu poligonul frecvenţelor cumulate se trasează o paralelă la axa Ox.
98
Exemplul 5.10 – Calculul indicatorilor de localizare: decilele şi intervalul interdecilic
Vom utiliza datele din Tabelul 5.1, referitoare la cifra de afaceri colectate pentru 200 de companii.
Tabelul 5.11– Distribuţia întreprinderilor după cifra de afaceri (continuare)
Număr Frecvenţa absolută
companii cumulată
Cifra de afaceri
Frecvenţa (Fi)
(xi)
absolută
Crescător Descrescător
(ni)
1600 – 2000 15 15 200
2000 – 2400 25 40 185
2400 – 2800 50 90 160
2800 – 3200 46 136 110
3200 – 3600 35 171 64
3600 – 4000 24 195 29
4000 – 4400 5 200 5
Total 200 200
n 1 201
LoD1 20,1
10 10
Prima frecvenţă cumulată mai mare sau egală cu 20,1 este 40, deci prima decilă se găseşte în intervalul
2000 – 2400 mii lei.
2 (n 1) 402
LoD2 40,2
10 10
Prima frecvenţă cumulată mai mare sau egală cu 40,2 este 90, deci a doua decilă se găseşte în intervalul
2400 – 2800 mii lei.
În mod asemănător se procedează pentru toate celelalte decile intermediare. Să calculăm locul celei de a
noua decile:
9 (n 1) 1809
LoD9 180,9
10 10
Prima frecvenţă cumulată mai mare sau egală cu 180,9 este 195, deci a noua decilă se găseşte în
intervalul 3600 – 4000 mii lei.
99
b) Determinarea valorii primei, a doua şi a noua decile:
n 1 D1
ni
10 20,1 15
D1 x0 h i 1
2000 400 2081,6 mii lei
n D1 25
2 (n 1) D2
ni
10 40,2 40
D2 x 0 h i 1
2400 400 2401,6 mii lei
n D2 50
9 (n 1) D9
ni
10 180,9 171
D9 x0 h i 1
3600 400 3765 mii lei
n D9 24
Interpretare: 80% dintre observaţii au valori cuprinse între 2401,6 şi 3765 mii lei.
Q3 Q1 D D1
CD 100 sau CD 9 100 (5.40)
Me Me
Un alt indicator robust al împrăştierii, care nu este influenţat de valorile atipice, este abaterea
mediană absolută26. Ea se calculează ca mediană a abaterilor valorilor individuale de la mediană.
AMA=mediana{xi-Me} (5.41)
Abaterea mediană absolută este utilă pentru compararea a două distribuţii ale aceleiaşi
variabile fie la două momente cronologice diferite, fie din locaţii geografice diferite, pentru a aprecia
gradul de împrăştiere a datelor.
26 În limba engleză, acest indicator este denumit “median absolute deviation”, prescurtat MAD (n.aut)
100
Exemplul 5.11 – Calculul abaterii mediane absolute liniare şi a coeficientului de dispersie
Vom utiliza datele din Tabelul 5.1, referitoare la cifra de afaceri colectate pentru 200 de companii.
În exemplul 5.6 am calculat mediana, egală cu 2891,3 mii lei.
Tabelul 5.12– Distribuţia întreprinderilor după cifra de afaceri (continuare)
Frecvenţa
Cifra de afaceri
absolută xi Me
(xi)
(ni)
1600 – 2000 15 -1091,3
2000 – 2400 25 -691,3
2400 – 2800 50 -291,3
2800 – 3200 46 108,7
3200 – 3600 35 508,7
3600 – 4000 24 908,7
4000 – 4400 5 1308,7
Total 200
Q3 Q1 904,6
CD 100 100 31,2%
Me 2891,3
D9 D1 1316,4
CD 100 100 45,5%
Me 2891,3
Abaterile individuale absolute (di) reprezintă diferenţa între fiecare valoare empirică şi
media aritmetică a termenilor:
d i xi x (5.42)
xi x
di 100 (5.43)
x
În analiza variaţiei se calculează, de regulă, numai abaterile maxime, respectiv pozitivă
( x max x )şi negativă ( x min x ). Dacă aceste abateri, luate în valoare absolută, diferă seminificativ,
trebuie trasă concluzia că repartiţia este pronunţat asimetrică, situaţie care impune calcularea şi a
indicatorilor care măsoară gradul de asimetrie.
101
5.4.2 Indicatorii sintetici ai variaţiei
Amplitudinea variaţiei şi abaterile individuale oferă o imagine globală asupra variaţiei, dar nu
sunt în situaţia să ofere o măsură care să caracterizeze sintetic gradul de variaţie. O astfel de măsură
se obţine dacă se porneşte de la principiul aplicat în cazul mediilor şi anume: suma abaterilor
ponderate cu frecvenţele de apariţie. Aceasta înseamnă să se sintetizeze toate abaterile individuale
de la media lor este întotdeauna egală cu 0. Pentru a evita compensarea abaterilor pozitive şi
negative există două posibilităţi:
x i x
d i 1
(5.44)
n
pentru o serie de frecvenţe:
k
x i x ni
d i 1
k
(5.45)
n
i 1
i
x i x f i%
d i 1
(5.46)
100
Abaterea medie liniară evidenţiază cu cât se abate în medie fiecare termen de la media
termenilor. Calculul abaterii medii liniare este exemplificat în continuare.
102
Exemplul 5.12 – Calculul abaterii medii liniare
Vom utiliza datele din Tabelul 5.1, referitoare la cifra de afaceri colectate pentru 200 de companii.
Tabelul 5.13– Distribuţia întreprinderilor după cifra de afaceri (continuare)
Număr
companii
Cifra de afaceri
Frecvenţa xi x x i x ni
(xi)
absolută
(ni)
1600 – 2000 15 1106 16590
2000 – 2400 25 706 17650
2400 – 2800 50 306 15300
2800 – 3200 46 94 4324
3200 – 3600 35 494 17290
3600 – 4000 24 894 21456
4000 – 4400 5 1294 6470
Total 200 99080
În cazul de faţă, al unei repartiţii pe intervale de grupare, valoarea variabilei de interes este centrul de
interval. De asemenea, din Exemplul 5.4, am obţinut valoarea mediei aritmetice, egală cu 2906 mii lei. Ca
urmare, în coloana a 3-a vom calcula valoarea absolută a diferenţei dintre centrul de interval şi media cifrei
de afaceri pe baza relaţiei 5.45. Diferenţele liniare pentru primele doua intervale sunt:
Repetăm calculele pentru toate intervalele şi obţinem rezultatele din coloana a 3-a.
x i x ni
99080
d i 1
k
495,4 mii lei
n
200
i
i 1
Interpretare: Cifra de afaceri a oricărui agent economic se abate în medie de la 2906 mii lei cu 495,4 mii lei.
103
Dispersia ( ) se calculează ca o medie aritmetică simplă sau ponderată a pătratelor
2
(x i x) 2
2 i 1
(5.47)
n
pentru o serie de frecvenţe:
k
(x i x ) 2 ni
2 i 1
k
(5.48)
n
i 1
i
(x i x) 2 f i %
2 i 1
(5.49)
100
Dispersia este o mărime abstractă, exprimată în pătratul unităţii de măsură a variabilei
observate, care nu serveşte nemijlocit analizei variaţiei. Pe baza ei se calculează abaterea medie
pătratică ( ).
Vom utiliza datele din Tabelul 5.1, referitoare la cifra de afaceri colectate pentru 200 de companii, în care
vom calcula pătratul diferenţelor centrelor de interval faţă de medie.
Tabelul 5.14– Distribuţia întreprinderilor după cifra de afaceri (continuare)
Număr
companii
Cifra de afaceri
(xi)
Frecvenţa xi x x i
2
x ni
absolută
(ni)
1600 – 2000 15 -1106 18348540
2000 – 2400 25 -706 12460900
2400 – 2800 50 -306 4681800
2800 – 3200 46 94 406456
3200 – 3600 35 494 8541260
3600 – 4000 24 894 19181664
4000 – 4400 5 1294 8372180
Total 200 71992800
104
Aplicând relaţia (5.48), dispersia este:
k
(x i x ) 2 ni
71992800
2 i 1
k
359964 mii lei la pătrat
n
200
i
i 1
Valoarea dispersiei depinde, pe de o parte, de variabilitatea caracteristicii studiate şi, pe de altă parte, de
ordinul de mărime al acesteia. În plus, ea se exprimă în pătratul unităţii de măsură a caracteristicii. De
aceea, valoarea ei ne arată magnitudinea variabilităţii, însă nu este deplin utilizabilă în această formă, făcând
necesară utilizarea ei în alte măsuri statistice: abaterea medie pătratică, coeficientul de variaţie, analiza
varianţei etc.
În vederea determinării dispersiei pot fi aplicate formule alternative care rezultă din
dezvoltarea expresiei din numărătorul relaţiei de bază (formula 5.48) şi din unele proprietăţi ale
dispersiei.
k k
(x (x
2
i x ) 2 ni 2
i 2 x x i x ) ni
2 i 1
k
i 1
k
n i 1
i n
i 1
i
k k k
x ni 2 x x i ni x ni
2 2
i
i 1 i 1
k
i 1
ni 1
i
x i ni
Ştim că media este x i 1
k
. Înlocuind în relaţia de mai sus, obţinem:
n
i 1
i
k k k k k k
x ni 2 x x i ni x ni x x x
2
2
i
2
i ni i ni i ni
i 1 i 1
k
i 1
i 1
k
2 i 1
k
i 1
k
n i 1
i n
i 1
i n
i 1
i n
i 1
i
2 2 2
k k k
k k
x i ni ni x ni 2
i x i ni x i ni
i 1 k i 1 i 1
2 i 1 k i 1
k k k
ni ni ni ni ni
i 1 i 1 i 1 i 1 i 1
2
k
k k
x n x i ni
2
x 2
ni
i i i
i 1 k sau 2 2
k
2 i 1 i 1
x (5.50)
k
i 1
ni ni
i 1
ni 1
i
105
Proprietăţile dispersiei sunt:
dispersia calculată pe baza valorilor empirice micşorate sau mărite în prealabil prin
scăderea sau adăugarea unei constante a, este egală cu dispersia valorilor iniţiale27, deci:
x2 a x2
i i
1
x2 / h x2i
i
h2
xi a
Aplicând transformarea în (5.50), obţinem:
h
xi a
k 2
ni
2 i 1 h
k
h2 x a
2
(5.51)
ni i 1
Relaţia 5.51, prin scăderea unei constante a, simplifică calculul dispersiei dacă seria de
repartiţie a fost construită pe intervale de grupare egale.
Abaterea medie pătratică sau abaterea standard (σ ) este o medie pătratică a abaterilor
individuale:
(x i x) 2
i 1
(5.52)
n
pentru o serie de frecvenţe:
(x i x ) 2 ni
i 1
k
(5.53)
n
i 1
i
Deci, 2
Pe baza dispersiei calculate în Exemplul 5.13, abaterea medie pătratică (sau ecartul tip) este:
Aşadar, d deoarece o medie pătratică este mai mare decât o medie aritmetică.
106
Abaterea medie pătratică are un rol extrem de important în caracterizarea seriilor de repartiţie.
Astfel, pe baza distribuţiei normale, cunoaştem că:
aproximativ 68,2% dintre valori se află în intervalul x ; x
aproximativ 95,4% dintre valori se află în intervalul x 2 ; x 2
Fig. 5.8 – Distribuţia normală şi gruparea valorilor pe intervale ale abaterii standard
O abatere medie de 600 mii lei reprezintă mult sau puţin? Poate reprezenta mult sau puţin în
raport cu o valoare tipică, deci cu media seriei.
Coeficientul de variaţie (CV) este raportul procentual dintre abaterea medie standard şi
media seriei de repartiţie. Utilitatea lui este dată de faptul că abaterea medie pătratică, ca şi abaterea
medie liniară sunt măsuri absolute ale variaţiei şi, ca urmare, valoarea lor depinde de mărimea
valorilor caracteristicii. Comparaţii privind gradul de variaţie şi omogenitatea între două sau mai multe
repartiţii nu pot fi efectuate pe baza acestor indicatori.
Cv 100 (5.54)
x
Cu cât coeficientul de variaţie se apropie mai mult de zero, cu atât variaţia este mai redusă,
colectivitatea este mai omogenă. iar media este mai reprezentativă.
107
În cazul repartiţiei prezentată în Exemplul 5.13, coeficientul de variaţie este egal cu 20,6% ceea ce indică
faptul că media este reprezentativă.
599,97
Cv 100 100 20,6%
x 2906
Cele două variante care se înregistrează în cazul unei variabile alternative sunt: DA şi NU.
Exprimarea cantitativă a celor două variante presupune înlocuirea variantei DA cu 1 şi a variantei NU
cu 0.
Notaţiile uzuale folosite în cazul calcului mediei şi a dispersiei sunt prezentate în tabelul
următor:
x i
1 m 0 ( n m) m
x i 1
p (5.55)
n n n
După cum se poate observa, media unei caracteristici alternative este ponderea unităţilor care
posedă varianta care interesează (Da) în totalul unităţilor, deci este o frecvenţă relativă.
Dispersia unei astfel de variabile se deduce din relaţia de bază de calcul a dispersiei:
x
k
2
x ni
2 i 1
i
1 p p 0 p q q 2 p p 2 q
2 2
p q (q p)
pq
k
pq pq pq
n
i 1
i
sau
2 p (1 p) (5.56)
Prin urmare, dispersia caracteristicii alternative este produsul dintre ponderea celor două
variante în colectivitatea studiată.
108
5.4.4 O aplicaţie importantă a indicatorilor variaţiei: identificarea
valorilor aberante
În lumea reală, datele statistice primare culese sunt rareori în totalitate corecte. Deşi
majoritatea valorilor unei variabile se grupează în jurul indicatorilor tendinţei centrale, există alte valori
neobişnuit de mari sau mici care pot fi suspectate ca fiind eronate. În general, datele nu sunt de
încredere dacă statisticianul constată că între datele culese şi realitate există o discrepanţă.
Valorile neobişnuit de mari sau de mici sunt denumite, în general, ca valori sau date
aberante. Nu exista însă un consens în rândul specialiştilor asupra acestui termen. În limba engleză
termenul apare ca „outliers”, iar în limba franceză ca „valeurs aberrantes”. Originea latină a limbilor
română şi franceză ne îndeamnă să preferăm traducerea termenului francez.
Identificarea valorilor aberante este un subiect legat de calitatea datelor. Ca urmare, izolarea
şi tratarea lor îmbunătăţeşte calitatea datelor observate şi, implicit, a estimaţiilor. Metodele de
detectare a valorilor aberante pot fi clasificate în metode unicriteriale, care examinează fiecare
variabilă în mod individual, şi metodele multicriteriale, care iau în considerare asocierile dintre variabile
în cadrul aceluiaşi set de date. În cele ce urmează, ne vom referi exclusiv la investigarea individuală a
variabilelor observate.
Una dintre cele mai utilizate metode se bazează pe valorile cuartilelor şi a intervalului
intercuartilic prin calculul intervalului de acceptare a valorilor considerate „obişnuite”. Valorile variabilei
care ies din acest interval sunt considerate „neobişnuite” sau „aberante”.
unde
Datele care depăşesc limita inferioară sau limita superioară sunt date aberante.
28 Tratarea valorilor aberante înseamnă aplicarea unor metode de imputare, adică de înlocuire a datelor care
lipsesc sau sunt considerate ca aberante cu alte valori, apropiate de masa datelor considerate corecte.
109
5.5 Asimetria şi aplatizarea
Descrierea unei repartiţii statistice unidimensionale se realizează, de regulă, prin intermediul
mediei şi al dispersiei. Sunt însă situaţii când unii utilizatori reclamă informaţii privind forma repartiţiei,
ceea ce înseamnă un indicator prin care se caracterizează forma variaţiei valorilor în jurul mediei.
Seriile de distribuţie pot fi, pe de o parte, simetrice şi asimetrice sau oblice şi, pe de altă parte,
aplatizate sau ascuţite.
5.5.1 Asimetria
Se spune că o distribuţie este simetrică dacă frecvenţele de apariţie (absolute sau relative)
scad proporţional şi simetric în raport cu frecvenţa cea mai mare, care corespunde valorii centrale.
Într-o distribuţie simetrică, cei trei indicatori ai tendinţei centrale sunt egali (fig. nr. 5.9). O
distribuţie simetrică nu este întotdeauna o distribuţie normală, însă o distribuţie normală este
întotdeauna simetrică
x Me Mo
O distribuţie nonsimetrică poate fi asimetrică la dreapta (fig. nr. 5.10) sau la stânga (fig. nr.
5.11). x
110
Fig. 5.11 – Exemplu de distribuţie asimetrică la stânga
As x Mo (5.69)
111
x Mo
C as (5.70)
Cu cât Cas este mai mic cu atât distribuţia tinde mai mult spre una simetrică ; Se consideră că
o distribuţie este moderat asimetrică, dacă Cas < 0,3 . Distribuţia agenţilor economici după cifra de
afaceri (vezi Exemplele 5.4 şi 5.7) este moderat asimetrică la dreapta (coeficientul este pozitiv).
2906 2745
C as 0,27
600
Dacă seria de repartiţie este bi sau multimodală (frecvenţa cea mai mare apare de două sau
de mai multe ori) care tinde spre normalitate, se recomandă calcularea coeficientului de asimetrie
(C`as).
3 x Me
C as (5.71)
Coeficientul de asimetrie (C`as) ia valori cuprinse între (– 3; 3). Un coeficient de asimetrie
situat între – 0,3 şi + 0,3 indică o distribuţie moderat asimetrică. Dacă C`as depăşeşte 0,3, asimetria
este puternică, ceea ce sugerează că indicatorii tendinţei centrale tind să fie nereprezentativi.
5.5.2 Aplatizarea
Gradul de aplatizare a unei distribuţii ne arată cât de „plată” sau „ascuţită” este o distribuţie. O
distribuţie plată are „cozile” mai lungi, în timp ce una ascuţită are cozile mai scurte.
3 , unde (5.72)
x
N
4
i x
i 1
(5.73)
N 4
Această relaţie de calcul este valabilă atunci când avem date despre toate elementele
colectivităţii statistice.
xi x
Mărimea se mai numeşte scor Z sau valoare normată şi se obţine, după cum se
vede, prin transformarea variabilei iniţiale scăzând valoarea medie şi împărţind diferenţa la abaterea
medie pătratică. Cu alte cuvinte, parametrul este media scorurilor Z ridicate la puterea a 4-a.
Aşadar,
xi x
Zi
Parametrul se mai numeşte „aplatizarea Pearson”, iar - 3 este „excesul de aplatizare”
sau „aplatizarea Fisher”, chiar dacă Pearson a fost cel care a definit aplatizarea ca -3.
O distribuţie normală are, de regulă, un parametru egal cu 3. Aşadar, excesul de aplatizare
este 0 pentru o distribuţie normală.
112
Atunci când > 0, distribuţia este ascuţită, sau „leptocurtică”, aşa cum se poate vedea din
Fig. 5.12.
Când <0, distribuţia este aplatizată, sau „platicurtică”, aşa cum se poate vedea din Fig.
5.13.
Atunci când folosim date de sondaj, ceea ce se întâmplă frecvent, se utilizează un estimator al
gradului de aplatizare :
n(n 1) Z 4 3(n 1) 2
g (5.74)
(n 1)(n 2)(n 3) (n 2)(n 3)
Această relaţie este utilizată şi în MS Excel pentru calculul gradului de aplatizare cu funcţia
KURT.
113
5.6 Cuvinte – cheie
Serie unidimensională / Concentrarea sau dispersarea
multidimensională. termenilor
Serie de repartiţie = serie distribuţie = Frecvenţe absolute, relative, cumulate
serie de frecvenţe.
Densitatea de frecvenţă.
Serie de atribute = serie nominativă
Indicatorii tendinţei centrale: medie,
Omogenitatea termenilor mediană, mod
Variabilitatea termenilor Indicatorii variaţiei
Independenţa termenilor Amplitudinea variaţiei
Cuartile Dispersie dintre grupe = dispersie
explicată
Abaterea medie liniară
Media dispersiilor de grupă = dispersia
Dispersia
reziduală
Abatere medie pătratică = abaterea
Coeficient de determinaţie
standard
Media variabilei alternative
Coeficient de variaţie
Dispersia variabilei alternative
Regula de adunare a dispersiilor
Asimetrie de stânga / dreapta;
Medie condiţionată = medie de grupă
negativă / pozitivă
Dispersie condiţionată = dispersie de
Coeficient de asimetrie
grupă
Coeficient de aplatizare
12. Când se aplică şi cum se calculează media şi dispersia unei variabile alternative?
114
5.8 Bibliografie
1. Bij E., Lilea E., Wagner P., Petcu N., Vătui M., – Statistica, Editura Didactică şi
Pedagogică, Bucureşti, 1999, p. 159–203.
3. Korka M., Begu St., Tuşa E., Bazele statisticii pentru economişti, Editura Tribuna
Economică, 2002, p. 70–102.
4. Schwarze J., – Grundlagen der Statistik I, Verlag Neue Wirtschafts – Briefe, GmbH,
Berlin, 1994, p.58–106.
5. Tudorel A., Stancu S. – Statistica. Teorie şi aplicaţii, Editura All, Colecţia „Oeconomica”,
Bucureşti, 1995, p. 124-125, 132-140, 252-265
6. Voineagu V., Lelea E., Gaschin Z., Vătui M., Boldeanu D., – Statistica economică. Teorie
şi aplicaţii, Editura Tribuna Economică, Bucureşti, 2002, p. 84–150.
115
Capitolul 6: ANALIZA SERIILOR INTERDEPENDENTE
6.1 Introducere
În cursul unei cercetări statistice sunt înregistrate întotdeauna date pentru mai multe variabile,
nu doar pentru una singură. În capitolele precedente au fost prezentate modalităţile prin care datele
aferente unei variabile pot fi prelucrate şi analizate independent de cele ce descriu celelalte variabile.
De cele mai multe ori, însă, este necesar să ne punem câteva întrebări: Între aceste variabile există
vreo legătură? Dacă există, cât de puternică este această legătură? Cum se comportă o variabilă
dacă alta sau altele se modifică? Spre exemplu, un manager al unei reţele de distribuţie poate fi
interesat de legătura dintre volumul vânzărilor şi structura produselor comercializate sau un sociolog
vrea să ştie cum se relaţionează rezultatele la examene ale studenţilor cu locul de muncă şi venitul pe
care le au după absolvire. Pentru a estima astfel de legături, statisticienii utilizează tehnicile de
regresie şi, pentru a măsura cât de puternice sunt aceste legături, ei utilizează tehnicile de corelaţie,
analizând seriile interdependente.
În acest capitol se tratează conceptele, tehnicile şi metodele utilizate cel mai frecvent în
analiza legăturii între variabile statistice: metode simple de caracterizare a legăturii dintre două
variabile; regresia liniară simplă şi multiplă; regresia neliniară; indicatorii prin care se măsoară
intensitatea legăturilor statistice; corelaţia neparametrică.
Cunoaşterea acestor tehnici şi metode este utilă în practica economică pentru explicarea
evoluţiei în trecut dar şi pentru fundamentarea predicţiei evoluţiei variabilelor în viitor sau în
circumstanţe diferite.
De la bun început, însă, trebuie să clarificăm un aspect important referitor la legătura dintre
variabile, pe de o parte, şi efectul uneia sau mai multor variabile asupra variabilei explicate sau
cauzalitatea, pe de altă parte: dacă între două variabile constatăm că există o legătură, cauzalitatea
dintre ele nu este implicită. În schimb, dacă între ele există o relaţie de cauzalitate, legătura este
implicită.
117
d) cele două variabile au întâmplător o evoluţie similară, fără să existe vreo legătură între
ele.
În cele ce urmează se tratează numai primele două tipuri de relaţii dintre variabile.
Influenţa variabilelor nespecificate este luată în calcul în modelul stohastic sub forma variabilei
reziduale ( ), denumită şi eroare aleatoare:
y f x (6.1)
De exemplu, analiza variaţiei salariului într-o colectivitate (Y) în funcţie de numărul orelor
lucrate (X1), de vechime (X2), de nivelul calificării (X3).
În cazul analizei legăturii dintre două variabile cantitative sau una cantitativă şi alta calitativă
poate fi vorba, în primul rând, de o corelaţie statistică. De exemplu, ne putem propune să analizăm
legătura dintre ramura de activitate economică şi câştigul salarial. Este destul de lesne să observăm
118
că există anumite ramuri cu salarii ridicate (sectorul financiar-bancar sau producerea energiei
electrice) şi altele cu salarii mai mici (industria confecţiilor, turism şi restaurante sau educaţie). De
asemenea, putem considera exemplul anecdotic al corelaţiei dintre numărul nou-născuţilor şi numărul
cuiburilor de barză29. Între cele două fenomene poate exista o corelaţie, dar nu în mod necesar o
cauzalitate: va creşte numărul nou-născuţilor dacă va creşte numărul cuiburilor de barză sau invers?
Fireşte că nu, nici într-un sens, nici în celălalt.
Cauzalitatea statistică intervine în cazul legăturilor dintre două sau mai multe variabile
cantitative în sensul că modificarea uneia sau mai multor variabile considerate explicative antrenează
modificarea variabilei explicate într-o manieră consistentă. În cazul cuibuirilor de barză şi al nou-
născuţilor există, cel puţin, o a treia variabilă care le influenţează distinct: ritmul biologic, gradul de
dezvoltare socio-economică, prezenţa şi/sau abundenţa resurselor de hrană etc.
Dacă modificarea variabilei cauză este însoţită de modificări în acelaşi sens ale variabilei
efect, există o legătură directă. În cazul în care variabilele corelate tind să se modifice în sens opus,
este cazul unei legături inverse.
e) După forma funcţiei (expresia analitică a legăturii) acestea pot fi liniare sau neliniare.
În primul caz, modificarea variabilelor se produce în acelaşi timp, concomitent, iar în cel deal
doilea caz variaţia variabilei cauză (X) este urmată după un anumit timp de variaţia variabilei efect (Y).
De exemplu, legătura dintre modificarea preţurilor de consum şi modificarea cheltuielilor populaţiei
pentru consum este una sincronă, iar legătura dintre investiţiile realizate în economie şi modificarea
produsului intern brut este una asincronă.
metoda grafică;
29Acest exemplu este atribuit lui Jerzy Neyman, însă chiar Neyman îl consideră ca autor originar pe George Udny
Yule.
119
metoda grupărilor;
Tabelul 6.1. – Rezultatele la examenul de admitere şi media notelor din prima sesiune de examene –
eşantion de 10 studenţi
Media notelor la
Student Nota la admitere
examenele din prima sesiune
1 7,34 7
2 8,52 8
3 8,05 7
4 9,21 8
5 6,55 7
6 7,32 6
7 9,16 9
8 9,33 7
9 7,21 8
10 6,15 6
Pentru construirea graficului, variabila explicativă (sau independentă) este nota la admitere,
ale cărei valori le vom reprezenta pe axa orizontală, iar variabila explicată (sau dependentă) este
media notelor la examenele din prima sesiune, ale cărei valori le vom reprezenta pe axa verticală în
Figura 6.1.
8
Media notelor in prima sesiune
0
0 1 2 3 4 5 6 7 8 9 10
Nota la admitere
120
Pe baza graficului se concluzionează dacă există o corelaţie, dacă există date atipice şi care
este forma şi direcţia legăturii în funcţie de tendinţa de ordonare a punctelor. Din graficul de mai sus
rezultă destul de vizibil că există o relaţie între cele două variabile, respectiv o legătură directă între
nota la admitere şi rezultatele din prima sesiune de examene.
Dacă punctele tind să se ordoneze în jurul unei linii drepte, corelaţia este liniară directă (fig.
6.2) sau indirectă (fig. 6.3) iar dacă se ordonează sub forma unei curbe (fig. 6.4), între cele două
variabile există o corelaţie neliniară. De asemenea, graficul ne arată şi dacă nu există nici o relaţie
între două variabile (fig. 6.5). Dacă punctele se împrăştie fără nici o regularitate, variabilele trebuie
considerate independente.
Fig. 6.2 Legătură liniară directă Fig. 6.3 Legătură liniară indirectă
Cu cât tendinţa de ordonare a punctelor este mai pronunţată, cu atât corelaţia între cele două
variabile este mai intensă, adică legătura este puternică (fig. 6.6). Dacă punctele sunt ordonate, dar
sunt relativ împrăştiate, legătura dintre variabile este mai slabă (fig. 6.7).
121
Fig. 6.6 Legătură puternică Fig. 6.7 Legătură slabă
În mod evident, metoda grafică ne arată care este forma relaţiei doar dintre două variabile.
Dacă vom considera o variabilă drept variabilă efect şi vom încerca să o punem în relaţie cu un set de
alte variabile explicative pe care le-am inclus în programul de observare, singura posibilitate de a
vizualiza legăturile existente este să construim perechi între variabila efect şi fiecare din variabilele
explicative.
Metoda grupărilor se aplică atunci când numărul de unităţi pentru care s-au înregistrat valori
empirice este mare. Se grupează unităţile după variabila factorială şi pentru fiecare grupă astfel
construită se calculează media variabilei dependente (yi). Între cele două variabile există o corelaţie
dacă mediile de grupă (condiţionate, yi ) reacţionează la modificările intervenite în variabila
independentă. Aplicarea acestei metode este influenţată de modul cum s-a făcut gruparea. Se
recomandă, în acest caz, ca intervalele de grupare să fie egale, numărul grupelor construite să fie
suficient de mare pentru evitarea pierderilor de informaţii, numărul unităţilor din fiecare grupă să fie
semnificativ ş.a. În tabelul nr. 6.2 se prezintă un exemplu de aplicare a metodei grupării.
Este cifra de afaceri (Y) influenţată de numărul de salariaţi (X)? Pentru fiecare grupă
construită după numărul de salariaţi se calculează cifra de afaceri realizată în medie de fiecare agent
economic din grupa respectivă.
5
y
j 1
j nij
yi 5
n
j 1
ij
122
Grupările fiind pe intervale de mărime, vom introduce în calcul centrele de interval:
56 7 8 96
y1 7 milioane lei
20
5 4 7 11 9 11 11 4
y2 8 milioane lei
30
....
11 2 13 3
y5 12,2 milioane lei
5
Remarcăm faptul că media cifrei de afaceri pe agent economic creşte odată cu creşterea
numărului de salariaţi, deci există o corelaţie directă.
Cu cât mediile de grupă diferă mai mult între ele cu atât influenţa variabilei independente este
mai puternică.
Dacă valorile care definesc intervalele de grupare după X şi Y au fost ordonate crescător, iar
frecvenţele tind să se ordoneze după diagonala principală, atunci există o corelaţie directă.
Dispersia frecvenţelor fără nici o regularitate sugerează că cele două variabile sunt
independente sau necorelate.
Pentru a răspunde unei astfel de cerinţe de cunoaştere se recurge la o grupare a datelor după
caracteristica considerată cauză (X), denumită şi variabilă explicativă, urmând ca fiecare grupă
obţinută să fie împărţită după caracteristica efect (Y), denumită şi variabilă explicată. Procedând astfel
rezultă o repartiţie bidimensională, respectiv o repartiţie multidimensională de frecvenţe dacă în
analiză se introduc mai multe variabile factoriale. Astfel de tabele se numesc tabele de contingenţă.
123
În tabelul 6.3 se prezintă macheta unei repartiţii bidimensionale, în care valorile au fost
împărţite în r grupe după caracteristica X şi în m grupe după caracteristica Y.
Totalul
Valorile frecvenţelor
Valorile
asociate
variabilei caracteristicii Y(yi)
variabilei
X (xi)
X (xi.)
y1 y2 ... yj ... ym
x1 n11 n12 ... n1j … n1m n1.
x2 n21 n22 ... n2j … n2m n2.
... … ... … ... … … …
xi ni1 ni2 ... nij … nim ni.
... … ... … ... … … …
xr nr1 nr2 ... nrj … nrm nr.
Totalul
frecvenţelor
asociate n.1 n.2 … n.j ... n.m n..
variabilei
Y (n.j)
În tabelul 6.3 apar pentru variabila efect (Y) două tipuri de repartiţii:
a) o repartiţie pe total (yj, nj), care nu ţine seama de grupele construite după caracteristica
considerată cauză.;
În plus, tabelul prezintă două distribuţii de total, una în funcţie de valorile variabilei efect (Y) şi
una în funcţie de variabila cauză (X), numite distribuţii marginale.
Corespunzător celor două tipuri de repartiţii se pot calcula pentru variabila Y următoarele
medii:
y
j 1
j n. j
y m
(6.2)
n
j 1
.j
Aceeaşi măsură poate fi obţinută prin intermediul valorilor individuale ale variabilei Y pe
ansamblul distribuţiei din tabelul de contingenţă:
r m
y
i 1 j 1
j nij
y r m
(6.3)
n
i 1 j 1
ij
124
medii de grupă sau medii condiţionate de factorul de grupare x i , ( y i ), pentru
repartiţiile condiţionate :
m m
y
j 1
j nij y
j 1
j nij
yi m
(6.4)
n
ni
ij
j 1
Pe baza relaţiei (6.4), relaţia (6.3) poate fi rescrisă în funcţie de mediile condiţionate ale
variabilei Y, astfel:
r m r
y
i 1 j 1
j nij y i ni
y r m
i 1
r
(6.5)
n
i 1 j 1
ij n
i 1
i
Numărul mediilor de grupă este egal cu numărul grupelor construite după caracteristica
factorială. Media mediilor de grupă este egală cu media generală.
Corespunzător celor trei tipuri de abateri, la nivelul fiecărei unităţi observate se poate scrie:
y j y = y j yi + yi y
Ceea ce înseamnă că abaterea totală este egală cu suma dintre abaterea valorilor individuale
faţă de media grupei şi abaterea mediei de grupă de la media generală. Ce semnificaţie au aceste
abateri?
Termenul din stânga al relaţiei, y j y , măsoară variaţia valorilor individuale în jurul mediei
generale. Dacă valorile empirice înregistrate ( y j ) sunt rezultatul influenţei tuturor factorilor (esenţiali şi
neesenţiali), iar media presupune că toţi factorii sunt constanţi, înseamnă că această diferenţă
exprimă variaţia valorilor individuale în jurul mediei sub acţiunea tuturor factorilor: factorul X considerat
esenţial şi toţi ceilalţi factori, consideraţi neesenţiali.
Primul termen al părţii din dreapta a relaţiei, y j y i , măsoară variaţia valorilor individuale de
la media de grupă, deci exprimă variaţia în interiorul fiecărei grupe construite după factorul X. Cum
factorul X are aceeaşi valoare în cazul tuturor unităţilor din aceeaşi grupă, înseamnă că această
diferenţă se datorează acţiunii cauzelor din interiorul grupei, deci factorilor neesenţiali.
Al doilea termen al părţii din dreapta a relaţiei, y i y , evidenţiază influenţa factorului esenţial
de grupare (X) asupra variaţiei valorilor mediei condiţionate în jurul mediei generale.
125
Pe baza acestor abateri se pot calcula următoarele dispersii.
y
m
2
j y n j
j 1
02 m
(6.6)
n
j 1
j
Prin 02 se măsoară variaţia variabilei dependente (efect) sub influenţa tuturor factorilor.
Pentru ansamblul tabelului de contingenţă, dispersia generală mai poate fi scrisă şi sub
următoarea formă:
y
r m
2
j y nij
i 1 j 1
02 r m
(6.6’)
n
i 1 j 1
ij
Dispersia de grupă sau dispersia condiţionată i2 măsoară variaţia la nivelul fiecărei grupe
construite după factorul X. Numărul dispersiilor de grupă este egal cu numărul grupelor stabilite după
caracteristica considerată cauză (i = 1, 2 ... r).
y
m
2
j yi nij
j 1
i
2
m
(6.7)
n j 1
ij
Fiecare dispersie de grupă măsoară variaţia valorilor variabilei dependente sub influenţa
factorilor din interiorul grupei respective, care sunt priviţi ca factori neesenţiali în raport cu factorul X.
Pentru a măsura acţiunea tuturor factorilor neesenţiali din toate grupele se calculează media
dispersiilor de grupă.
2
Media dispersiilor de grupă ( ) este o medie aritmetică a dispersiilor de grupă:
r
2
i
2
ni
i 1
r
(6.8)
ni 1
i
Dacă toate grupele sunt de acelaşi volum (n1 = n2 = ... = ni = ...), atunci toate dispersiile de
n1 n 2 nr
grupă intră în calculul mediei cu aceeaşi importanţă r
r
... r
, atunci se aplică
n
i 1
i n
i 1
i n
i 1
i
126
r
2
i
2
i 1
(6.9)
r
grupă de la media generală şi exprimă variaţia datorată acţiunii factorilor de grupare, deci a factorului
X.
y
r
2
i y ni
Y2 / X i 1
r
(6.10)
n
i 1
i
Pornind de la factorii de influenţă care determină variaţia valorilor variabilei Y, între dispersiile
menţionate există relaţia:
2
02 = + Y2 / X (6.11)
Dispersia totală ne arată că este suma dintre media dispersiilor de grupă şi dispersia mediilor
de grupă.
Pe baza acestei relaţii se calculează doi indicatori derivaţi (mărimi relative de structură) care
exprimă ponderea variaţiei acţiunii fiecărui grup de factori (esenţiali şi neesenţiali) în variaţia totală şi
anume:
2
Coeficientul de determinaţie ( RY / X ), care exprimă ce cotă parte din variaţia totală se
datorează acţiunii factorului considerat esenţial:
Y2 / X
RY2 / X 100 (6.12)
02
2
Coeficientul de nedeterminaţie ( K Y / X ) măsoară cât la sută din variaţia totală se
datorează influenţei factorilor neînregistraţi, consideraţi neesenţiali sau reziduali.
2
K 2
2 100 (6.13)
0
Y/X
Variaţia cifrei de afaceri prezentată în Tabelul 6.2 este cauzată de acţiunea unui mare număr de factori:
numărul salariaţilor; domeniul de activitate; preţurile practicate; calitatea produselor etc.
Presupunem că un factor esenţial de influenţă este numărul de salariaţi (X) şi vrem să măsurăm cât de
mare este această influenţă asupra cifrei de afaceri. În acest caz se grupează mai întâi agenţii economici
după acest factor, iar grupele obţinute se defalcă după cifra de afaceri (Y). Procedând astfel se obţine o
repartiţie bidimensională cum este, spre exemplu, cea din tabelul următor.
127
Tabelul 6.4 – Gruparea agenţilor economici după numărul de salariaţi
şi după cifra de afaceri
Grupe Grupe după cifra de afaceri (mii lei)
după
numărul de 1600- 2000- 2400- 2800- 3200- 3600- 4000- Total
salariaţi 2000 2400 2800 3200 3600 4000 4400
(pers.)
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
Pentru verificarea regulii de adunarea a dispersiilor şi calculul coeficientului de determinaţie, procedăm mai
întâi la calculul mediilor pentru variabila « cifra de afaceri ».
a) media generală ( y ):
y
j 1
j n j
1800 15 2200 25 2600 50 3000 46 3400 35 3800 24 4200 5
y 2 7
2906
n
200
ij
i 1 j 1
mii lei
b) mediile de grupă ( y i ):
y
j 1
j n1 j
1800 15 2200 25 2600 40 3000 25 3400 15 3800 0 4200 0
y1 7
2600
n
120
1j
j 1
mii lei
7
y j 1
j n2 j
1800 0 2200 0 2600 10 3000 21 3400 20 3800 24 4200 5
y2 7
3365
n
80
2j
j 1
mii lei
y i ni
2600 120 3365 80
y i 1
2
2906 mii lei
n
200
i
i 1
128
Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
y j n1 j 27000 55000 104000 75000 51000 0 0 312000
y j n2 j 0 0 26000 63000 68000 91200 21000 269200
y j n j 27000 55000 130000 138000 119000 91200 21000 581200
c) dispersia generală ( 02 = Y2 ):
y
7
2
y n j
02
j 1
j
1800 29062 15 2200 29062 25 ... 4200 29062 5
7
n
200
j
j 1
71992800
359964
200
d) dispersiile de grupă ( i2 ):
y
7
2
y1 n1 j
12
j 1
j
1800 26002 15 2200 26002 25
7
n
120
1j
j 1
y
7
2
y2 n2 j
2 j 1
j
2600 33652 10 3000 33652 21
2 7
n
80
2j
j 1
2
i
2
ni
226666,7 120 208775,0 80
i 1
2
219510,0
n
200
i
i 1
129
f) dispersia dintre grupe ( 2 ) sau dispersia explicată ( Y2 / X )
y
2
2
y ni
2
i 1
i
2600 2906 120 3365 2906 80
2 2
140454,0
Y/X 2
n
200
i
i 1
După cum lesne se poate observa, regula de adunare a dispersiilor este verificată.
Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
y j 2
y n j
1834854
0
1246090
0
468180
0
406456
854126
0
1918166
4
837218
0
71992800,
0
y j y n
1
2
1j
9600000 4000000 0
400000
0
960000
0
0 0
27200000,
0
y j
y2 n2 j
2
0
585225 279772
24500 4541400
348612 16702000,
0 5 5 0
Y2 / X 140454
R 2
100 100 39,01% . Aceasta înseamnă că 39% din variaţia cifrei de
0
Y/X 2
359964
afaceri a celor 200 de întreprinderi este explicată de variaţia numărului de salariaţi, în timp ce restul de
71% din variaţie este explicată de alţi factori, neobservaţi în studiul de faţă.
130
6.5 Metode de analiză a legăturilor dintre variabile
Metodele elementare oferă o serie de informaţii utile în studiul interdependenţelor. Acestea nu
sunt însă în măsură să descrie analitic dependenţa şi să măsoare numeric intensitatea acesteia.
Metodele care permit acest lucru sunt metoda corelaţiei şi metoda regresiei.
Un prim criteriu care ne indică natura metodei este faptul că în calculul indicatorilor statistici
intervin sau nu parametri calculaţi pe baza datelor ce provin, de regulă, dintr-un eşantion: medii sau
dispersii. În cazul în care se utilizează aceşti parametri, metodele sunt parametrice, iar în caz contrar
sunt neparametrice.
a) sunt de natură cantitativă, numerică (scale de măsurare sunt de tip interval şi raport);
Pentru evaluarea formei distribuţiei, indicatorii adecvaţi sunt cei ai asimetriei şi aplatizării.
Dacă forma distribuţiilor diferă foarte mult de la una normală, există riscul ca rezultatul obţinut să fie
incorect. În acest caz, se recomandă folosirea metodelor neparametrice. De altfel, dacă nu sunt
îndeplinite aceste condiţii se recomandă aplicarea metodelor neparametrice.
Metodele neparametrice sunt mai slabe decât cele parametrice şi se bazează numai poziţia
a perechilor de scoruri (poziţii) alocate valorilor analizate. Aceste metode se aplică în cazul în care
scala de măsurare a variabilelor este nominală sau ordinală.
Coeficientul de asociere Yule (Q) se aplică în cazul analizei corelaţiei dintre două variabile
alternative. Astfel de caracteristici admit numai două forme de manifestare: DA şi NU şi se codifică cu
1 şi 0.
Repartiţia celor două variabile alternative se prezintă într-un tabel de asociere care este o
variantă simplificată a tabelului cu dublă intrare. În acest tabel valorile variabilei X apar în capetele
rândurilor, iar cele ale variabilei Y apar în capetele coloanelor.
131
Tabelul 6.5 – Tabel de asociere
X \ Y y1 y2 Total
x1 n11 n12 n1.
x2 n21 n22 n2.
Total n.1 n.2 n..
Cu cât Q tinde mai mult spre ±1 cu atât asocierea este mai puternică. Dacă coeficientul de
asociere este egal cu 0, între cele două variabile nu există o legătură de asociere.
N
6 D i2
rS 1 i 1
(6.15)
N (N 2 1)
în care:
Di R x ,i R y ,i
n − numărul cuplurilor de valori X, Y.
Acest coeficient poate lua valori cuprinse între - 1 şi +1 şi se interpretează în acelaşi fel ca în
cazul coeficientului de corelaţie liniară (r).
132
Exemplul 6.2 – Calculul coeficientului de corelaţie a rangurilor Spearman
În tabelul următor sunt prezentate rangurile a 6 ţări ordonate după rata de alfabetizare masculină (xi) şi
feminină (yi). Spre exemplu, ţara 3 este a IV-a în ordinea ratei de alfabetizare masculine şi a V-a după rata
de alfabetizare feminină.
Deoarece valoarea coeficientului de corelaţie a rangurilor Spearman este ridicată, concluzionăm că există o
corelaţie puternică între rata de alfabetizare a populaţiei feminine şi a celei masculine în cele 6 ţări
analizate.
rk
P Q i i
(6.16)
nn 1
1
2
unde :
Coeficientul Kendall ia deasemenea valori cuprinse între –1 şi +1. Semnul coeficientului indică direcţia
legăturii (+ corelaţie directă şi – o corelaţie inversă), cu cât tinde mai mult spre ±1, cu atât corelaţia
este mai puternică.
133
Exemplul 6.3 – Calculul coeficientului de corelaţie a rangurilor Spearman şi Kendall
Într-o cercetare statistică au fost studiate 8 companii, ale căror cifră de afaceri şi profit au fost sintetizate în
tabelul următor.
Tabelul 6.7 – Cifra de afaceri şi profitul obţinute de 8 companii studiate
Cifra de
Nr. Profit
afaceri Rx Ry Di2 Pi Qi
crt. (mil. lei)
(mil. lei)
1 47 4,0 1 1 0 7 0
2 54 4,7 2 2 0 6 0
3 58 5,9 3 7 16 4 0
4 60 5,2 4 4 0 3 1
5 61 5,0 5 3 4 2 0
6 62 5,8 6 6 0 1 1
7 64 5,6 7 5 4 1 0
8 70 6,4 8 8 0 0 0
Total - - - - 24 24 2
rk
P Qi i
2 (24 2) 44
0,786
8 (8 1)
nn 1
1 56
2
Corelaţia dintre cele două variabile este una directă şi destul de mare ca intensitate.
31Metoda corelaţiei presupune că ambele variabile analizate (X şi Y) sunt aleatoare şi distribuite normal, în timp
ce metoda regresiei presupune că variabila Y este aleatoare, în timp ce X nu este. De asemenea, se presupune
că abaterea standard a variabilei Y este constantă pentru toate valorile lui X, iar abaterea standard a variabilei X
este constantă pentru toate valorile lui Y.
134
Covarianţa dintre două variabile este o medie aritmetică simplă a produselor perechilor
abaterilor valorilor empirice ( x i şi y i ) de la mediile lor aritmetice ( x şi y ).
cov( X , Y )
x i x yi y
(6.17)
n
Dacă corelaţia este directă, atunci cov( X , Y ) > 0 şi are valori negative în cazul corelaţiilor
inverse. Acest indicator se aplică mai rar în analiza corelaţiilor, datorită următoarelor cauze:
nu are un interval fix de variaţie; cu cât corelaţia este mai intensă cu atât covarianţa, în
valoare absolută, este mai mare;
xi x yi y
y ) sau ca o medie aritmetică a produselor abaterilor normale normate: şi :
x y
n
cov( X , Y )
x i x yi y
rxy i 1
(6.18)
x y n x y
x , y y , x xi y yi
2 2
2
2
(x x y se
i i
determină şi
n n n n n n
ajunge la o relaţie relativ simplă de aplicat:
n xi y i xi y i
rxy
n x
(6.19)
xi n y y i
2 2 2 2
i i
Coeficientul de corelaţie poate lua valori cuprinse între –1 şi +1. Semnul coeficientului de
corelaţie coincide cu cel al coeficientului de regresie b. Dacă r > 0 există o corelaţie directă, iar dacă
r < 0 între cele două variabile este o corelaţie inversă.
Cu cât r se apropie mai mult de ± 1 cu atât legătura dintre variabile este mai puternică. Dacă
r = 1, atunci există o corelaţie directă funcţională, iar dacă r = –1, între variabile este o corelaţie
inversă funcţională. O valoare egală cu 0 indică lipsa legăturii dintre variabile.
În exemplul prezentat privind legătura dintre nota la examenul de admitere şi media notelor la
examenele din prima sesiune (vezi Tabelul 6.1), coeficientul de corelaţie este:
135
Altfel spus, constatăm o corelaţie moderată dintre nota la admitere şi media notelor la
examenele din prima sesiune.
Relaţiile (6.18) şi (6.19) se aplică în cazul în care datele înregistrate pentru cele două variabile
se prezintă sub forma a două serii simple. Dacă numărul perechilor de valori înregistrate este mare,
acestea se sistematizează prin gruparea lor pe intervale egale şi se prezintă întrun tabel cu dublă
intrare. Într-o asemenea situaţie, fiecărei valori xi şi yi i se ataşează frecvenţa corespunzătoare de
apariţie.
n xi y i n xy xi n x y i n y
rxy
n x
(6.20)
n x xi n x n y i2 n y y i n y
2 2 2
i
În aplicaţiile reale, o măsură foarte mare a coeficientului de corelaţie este rar întâlnită. De
asemenea, este necesar să precizăm faptul că datele pe baza cărora se calculează coeficientul de
corelaţie este, în majoritatea cazurilor, un eşantion, în condiţiile în care analistul este interesat
valoarea acestuia pentru întreaga populaţie, caz în care coeficientul de corelaţie este notat cu
(„rho”). De aceea, este important să ştim câtă încredere putem da valorii calculate conform relaţiei
(6.19). Altfel spus, analistul este interesat să verifice dacă valoarea coeficientului de corelaţie din
populaţie este egal cu zero sau nu, deoarece, dacă 0 , atunci cele două variabile analizate sunt
independente, adică nu există corelaţie între ele.
În termeni statistici, verificarea relaţiei 0 înseamnă testarea ipotezei nule care este
Pentru testarea ipotezei nule se utilizează testul „t”. În acest scop, trebuie să calculăm
statistica de test „t”33, care urmează o distribuţie Student cu n-2 grade de libertate. Relaţia de calcul a
statisticii de test este:
r
tc (6.21)
(1 r 2 ) /( n 2)
în care:
n – numărul observaţiilor;
Valoarea calculată pe baza relaţiei (6.21) se compară cu valoarea teoretică din tabelul
Student, pentru un prag de semnificaţie α (de regulă α= 0.05 ) şi n – 2 grade de libertate (gradul de
libertate este n-2 deoarece dreapta are doi parametri fixaţi, adică media şi abaterea medie pătratică).
Întrucât ipoteza nulă priveşte testarea egalităţii coeficientului de corelaţie a întregii colectivităţi
statistice cu valoarea 0, este posibil ca, în realitate, să fie „semnificativ” mai mare decât 0 sau
„semnificativ” mai mic decât 0. De aceea, este firesc să verificăm dacă statistica t este fie foarte mare,
fie foarte mică pe curba distribuţiei teoretice a acesteia, ştiind că punctul de simetrie al acestei
distribuţii este t=0, adică să aplicăm un test t bilateral.
33 În statistica t, magnitudinea numărătorului tinde să crească pe măsură ce ipoteza alternativă este adevărată.
136
În consecinţă, se compară valoarea calculată a statisticii t cu cea teoretică, iar regula de
evaluare a testului este următoarea: se respinge ipoteza nulă conform căreia 0 dacă tc > tteoretic la
pragul de semnificaţie de /2 sau dacă tc < -tteoretic la pragul de semnificaţie de /2 şi nu
respingem ipoteza nulă în caz contrar. Altfel spus, dacă tc > tteoretic sau dacă tc < -tteoretic,
probabilitatea34 ca să fie egal cu 0 este mai mică decât pragul de semnificaţie ales (de regulă, o
probabilitate totală de 5% sau =0,05, adică 2,5% din stânga distribuţiei Student şi 2,5% din dreapta
ei), deci riscul să acceptăm în mod greşit ipoteza nulă este foarte mic.
0,63
tc 10 2 2,294
1 0,632
Valoarea statisticii t pentru un prag de semnificaţie de 0,025 şi 8 grade de libertate se poate
citi într-o tabelă a valorilor critice ale variabilei t calculate pentru teste bilaterale şi găsim că tteoretic; 0,025
= 2,306.
34Valoarea teoretică faţă de care facem comparaţia este o cuantilă, iar probabilitatea ca valoarea calculată să o
depăşească pe cea teoretică este suprafaţa aflată sub curba distribuţiei.
137
1. metoda regresiei furnizează estimaţii ale variabilei dependente pentru anumite valori date
ale variabilei independente. Cu alte cuvinte, funcţia de regresie exprimă cum se comportă
în medie variabila dependentă – sau efect – sub acţiunea influenţei unei variabile
independente – sau cauză – în condiţiile în care toate celelalte variabile independente
esenţiale sau întâmplătoare ar exercita o acţiune constantă, sau, respectiv, ar exercita o
influenţă neesenţială. Acest principiu se numeşte ceteris paribus, adică „toate celelalte
fiind egale”, „celelalte” fiind factorii care influenţează modificarea variabilei dependente.
Astfel, studiind relaţia dintre variabila dependentă şi cele independente, metoda ne oferă
posibilitatea de a găsi valoarea cea mai probabilă a variabilei dependente când ştim o
valoare a variabilei independente;
2. metoda regresiei ne oferă o măsură a erorilor care pot interveni în estimarea variabilei
dependente. Dacă putem estima valorile variabilei dependente în funcţie de valoarea unei
variabile independente, atunci suntem interesaţi să ştim cât de multă încredere putem
acorda acestei estimaţii, motiv pentru care statisticianul construieşte un interval de
încredere al acelei estimaţii;
3. metoda regresiei furnizează o estimaţie a efectului asupra valorii medii a lui Y atunci când
X se modifică cu o unitate. Pornind de la exemplul din tabelul 6.1, modelul regresiei ne
permite să spunem, în medie, care este modificarea mediei la examene dacă nota la
admitere se modifică cu un punct.
Funcţia de regresie este o funcţie matematică care exprimă legătura dintre variabila
dependentă Y şi k variabile independente Xk şi are forma generală :
Y X i f x1 , x 2 , x3 ,...., x K (6.22)
unde " " este variabila aleatoare perturbatoare, reziduală sau eroare, care sintetizează
influenţa tuturor factorilor neluaţi în calcul, nespecificaţi.
Alegerea funcţiei de regresie se realizează cel mai simplu, pe baza reprezentării grafice a
perechilor de valori {xi,yi}.
YX i a b X (6.23)
în care:
138
YX i – valorile teoretice ale variabilei Y în funcţie de X, pe care le putem estima;
Estimarea parametrilor a şi b se realizează, cel mai adesea, prin metoda celor mai mici
pătrate, ceea ce înseamnă minimizarea sumei pătratelor erorilor i
2
min . Dar eroarea
reprezintă diferenţa dintre valoarea empirică (yi) şi valoarea teoretică, calculată pe baza modelului
liniar (Yxi). Deci, suma pătratelor abaterilor valorilor empirice de la cele teoretice trebuie să fie minimă.
y
n
YX i min
2
i (6.24)
i 1
Această expresie este minimă în punctele de anulare a derivatelor parţiale calculate în funcţie
de parametrii a şi b.
S
a 2 y i a bxi 1
S
2 y i a bxi xi
b
Punând condiţia ca aceste derivate să fie egale cu 0, simplificând cu 2 şi ţinând seama de
faptul că a şi b sunt constante, sistemul de mai sus devine:
n a b x i y i
a x i b x i x i y i
2
unde xi şi yi reprezintă valorile empirice înregistrate pentru cele două variabile, iar n semnifică
numărul unităţilor observate din eşantion.
139
b
xi x yi y Cov( x, y)
x i x 2 x2 (6.26)
a y b x
Pentru facilitarea calculelor, se utilizează o formă alternativă pentru parametrul b, care
conduce la acelaşi rezultat:
n xi y i xi y i
b
n xi2 xi
2
(6.27)
a y b x
După ce au fost calculaţi parametrii a şi b se pot determina valorile teoretice ale funcţiei de
regresie (Yxi ), prin înlocuirea succesivă în ecuaţia de regresie, cu valorile x i ale caracteristicii
factoriale.
Cele două serii de date confirmă existenţa unei corelaţii directe. Pentru alegerea formei legăturii se
construieşte corelograma.
140
Fig. 6.8 – Graficul de corelaţie între vechimea în muncă şi câştigul salarial
6
4
Castig salarial (mii lei)
0
0 5 10 15 20 25 30
Vechime (ani)
Reprezentarea grafică sugerează faptul că punctele tind să se ordoneze în jurul unei drepte. Deci, funcţia
de regresie este de forma: YXi = a + bxi.
Pentru aflarea parametrilor a şi b se porneşte de la sistemul de ecuaţii menţionat, rezolvarea căruia
presupune calcularea expresiilor x i yi , x 2
i şi x
i
2
n a b x i y i 8 a 110 b 31,5
a x i b x i x i y i a 110 1942 b 474,8
2
31,5 110
474,8 1942
a 2,6033
8 110
110 1942
8 31,5
110 474,8
b 0,097
8 110
110 1942
Valoarea parametrului a = 2,6033 semnifică faptul că dreapta intersectează ordonata în punctul 2,6, iar b =
0,097 înseamnă că salariul mediu net sporeşte în medie cu 97 lei dacă vechimea creşte cu un an. Implicit,
valoarea pozitivă a parametrului b (panta dreptei de regresie) arată că suntem în faţa unei corelaţii directe.
Funcţia de regresie care descrie legătura dintre cele două variabile este:
Yxi= 2,6033 + 0,097*xi.
Valorile teoretice privind câştigul salarial net se obţin în urma înlocuirii în această funcţie lui xi cu valorile
corespunzătoare (vezi Tabelul 6.8, coloana a 6-a).
141
Yx1 = 2,6033 + 0,097 ⋅ 3 = 2,89
..
Yx8 = 2,6033 + 0,097 ⋅ 5 = 5,03
Corectitudinea estimării parametrilor a şi b presupune ca suma valorilor empirice ale variabilei dependente
(∑ yi ) să fie egală cu suma valorilor teoretice (∑YXi ).
Utilizând această funcţie de regresie, un salariat al companiei respective poate formula o predicţie a
câştigului salarial pentru vechimi diferite de cele observate.
Spre exemplu, doi salariaţi, unul cu 10 ani vechime şi altul cu 30 de ani, ar putea avea
În cazul exemplului din Tabelul 6.8, datele au fost prezentate sub forma a două serii simple,
deci negrupate.
Raportul de corelaţie (R) este un indicator sintetic care măsoară intensitatea legăturilor
liniare şi neliniare.
Aşa cum am văzut în secţiunea 6.4, din regula de adunare a dispersiilor, coeficientul de
determinaţie este raportul dintre dispersia între grupe, adică dispersia explicată de variabila de
grupare, şi dispersia totală. În cazul regresiei liniare, calculul coeficientului de determinaţie este
obţinut, de asemenea, prin împărţire a dispersiei totale între dispersia explicată şi dispersia ne-
explicată.
După cum ştim, dispersia totală este dată de pătratul diferenţei dintre valorile observate şi
valoarea medie:
n
y y .
2
i
i 1
Întrucât regresia liniară ne permite să calculăm valorile teoretice obţinute prin funcţia de
regresie, pentru a măsura cât de bine ajustează această funcţie datele observate este nevoie să
operăm o modificare în relaţia de mai sus, pentru a pune în evidenţă dispersia care nu este explicată
de regresie şi dispersia explicată de regresie:
n n
y y = yi YX i YX i y
2 2
i (6.28)
i 1 i 1
baza funcţiei de regresie ( Y X i ) şi de media valorilor empirice ( y ) se pot stabili trei tipuri de abateri:
142
a) partea din stânga egalităţii, yi y 2 , reprezintă abaterea valorilor empirice de la media
lor. Media presupune toţi factorii de influenţă constanţi, iar valorile empirice sunt rezultatul
acţiunii tuturor factorilor. Dispersia calculată pe baza acestor abateri este dispersia totală
a variabilei dependente ( y ). Prin aceasta se măsoară variaţia sub influenţa tuturor
2
Dacă ridicăm la pătrat ambii termeni ai egalităţii şi însumăm pentru tot setul de observaţii,
obţinem:
yi y yi YX Y
n n n
y
2 2 2
i Xi (6.29)
i 1 i 1 i 1
Forma echivalentă, bazată pe cele trei dispersii definite mai sus, este:
y2 = y2 / x + y2 / r (6.29’)
Termenul din stânga al ecuaţiei arată dispersia totală a variabilei dependente. Primul termen
al părţii drepte a ecuaţiei arată dispersia variabilei dependente care este explicată de regresie, iar al
doilea termen al părţii din dreapta a ecuaţiei reprezintă dispersia variabilei dependente care nu este
explicată de regresie.
Coeficientul de determinaţie (R2) arată cât de bine ajustează linia de regresie valorile
observate şi este dat de raportul dintre dispersia explicată de regresie şi dispersia totală:
y Y y
n n
YX i
2 2
Xi i
R2 i 1
n
1 i 1
n
(6.30)
y y y y
2 2
i i
i 1 i 1
O formă echivalentă a relaţiei (6.30), în care toate elementele de calcul sunt disponibile, este:
2
n
1 n n
a y i b xi y i y i
i 1 i 1 n i 1
R2 2
(6.30’)
n
1 n
i 1
y yi
2
i
n i 1
Cu cât valoarea coeficientului de determinaţie este mai mare, cu atât modelul de regresie,
adică variabila factorială, explică mai bine variaţia variabilei dependente. Cu alte cuvinte, coeficientul
de determinaţie – denumit în analiza statistică „R pătrat” – este măsura de apreciere a calităţii
modelului de regresie.
143
În exemplul 6.4, coeficientul de determinaţie este:
În manieră echivalentă, coeficientul de determinaţie (R2 ) exprimă ce cotă parte din variaţia lui
Y se datorează influenţei factorului X, considerat esenţial. În opoziţie, coeficientul de nedeterminaţie
(K2) măsoară cota parte din variaţia lui Y pe seama acţiunii tuturor factorilor neluaţi în considerare,
reziduali:
y
n
YX i
2
y2 / r i
K2 i 1
(6.31)
2 n
y y
y 2
i
i 1
y
n
YX i
2
i
R 1 i 1
n
(6.32)
y y
2
i
i 1
Raportul de corelaţie poate lua valori cuprinse între 0 şi 1. Cu cât valoarea lui R se apropie
mai mult de 1 cu atât legătura dintre variabile este mai puternică, respectiv mai puţin intensă cu cât se
apropie mai mult de 0.
Pe baza exemplului din tabelul 6.8 şi a valorii coeficientului de determinaţie de mai sus,
raportul de corelaţie este:
R 0,9876 0,9938
Eroarea standard
Alegerea funcţiei de regresie pe baza graficului de corelaţie poate crea probleme dacă
mulţimea punctelor corespunzătoare valorilor empirice (xi,yi) sugerează mai multe funcţii posibile. În
asemenea situaţie, se recomandă să se calculeze valorile după toate funcţiile sugerate de grafic şi să
144
y
n
YX i min , deci
2
se opteze, în final, pentru acea funcţie care satisface condiţia de minim i
i 1
y YX i
2
y
i
(6.33)
i
YX i n
În cazul exemplului din Tabelul 6.8 eroarea cu care s-au estimat câştigurile salariale nete în
funcţie de vechimea în muncă a fost de 66,1 lei. Pentru a calcula eroarea standard a estimaţiilor
funcţiei de regresie, e necesară determinarea pătratului diferenţelor dintre valorile empirice ale
variabilei dependente şi cele teoretice, calculate pe baza funcţiei de regresie ale cărei parametri au
fost obţinuţi în Exemplul 6.4. În continuarea exemplului 6.4, prezentăm mai jos modul de calcul.
( xi )
( yi )
1 3 2,9 0,0057 0,0000
2 6 3,1 -0,0853 0,0073
3 9 3,5 0,0237 0,0006
4 11 3,8 0,1297 0,0168
5 15 4 -0,0583 0,0034
6 19 4,4 -0,0463 0,0021
7 22 4,8 0,0627 0,0039
8 25 5 -0,0283 0,0008
Total 110 31,5 0,0036 0,0350
0,0350
y 0,0661
i
YX i 8
Aceasta înseamnă că între câştigul salarial net realizat efectiv (yi) şi cel estimat pe baza funcţiei
lunare există, în cazul fiecărui muncitor, o diferenţă medie de 66,1 lei, diferenţă care se explică
prin influenţa altor factori asupra câştigului salarial net.
0,0661
Ke 100 1,68%
3,938
145
Regresia unifactorială neliniară
În realitate apar frecvent situaţii ca modelul liniar unifactorial să nu corespundă tipului de
dependenţă dintre cele două variabile. Printre cele mai utilizate funcţii neliniare menţionăm: funcţia
polinomială de gradul 2; funcţia exponenţială; funcţia lognormală; funcţia hiperbolică.
Funcţia se alege cel mai simplu pe baza reprezentării grafice, de forma celei prezentate în
Fig. 6.4. Ca şi în cazul regresiei liniare unifactoriale, parametrii funcţiei se estimează pornind de la
y
n
YX i min .
2
metoda celor mai mici pătrate, care presupune minimizarea erorilor i
i 1
y i a b xi c xi2 (6.34)
Aplicând metoda celor mai mici pătrate şi după anularea derivatelor parţiale calculate în
funcţie de a, b şi c se obţine sistemul de ecuaţii:
n a b xi c xi2 y i
a x i b x i c x i x i y i
2 3
(6.35)
a x 2 b x 3 c x 4
i i i xi2 yi
Prin rezolvarea sistemului de ecuaţii liniare (6.35) şi prin înlocuirea succesivă a lui x i cu
valorile empirice în funcţia de regresie, se obţin valorile teoretice pentru variabila rezultativă (Y Xi).
Dacă legătura dintre cele două variabile are forma unei funcţii exponenţiale, ecuaţia de
regresie este:
Y X i a b xi (6.36)
Aplicarea metodei celor mai mici pătrate presupune în acest caz liniarizarea, prin logaritmare:
lg Y X i lg a xi lg b .
n lg a lg b xi lg y i
(6.37)
lg a xi lg b xi xi lg y i
2
Regresia multifactorială
Modelele unifactoriale de regresie au avantajul uşurinţei aplicării. În realitate însă, se întâlnesc
foarte rar situaţii când efectul este rezultatul influenţei unei singure cauze. De cele mai multe ori,
variabila dependentă este influenţată concomitent de mai mulţi factori, ceea ce înseamnă că în analiza
legăturilor trebuie luaţi în calcul cel puţin factorii care exercită o influenţă semnificativă. Forma
generală a modelului regresiei multifactoriale este:
Y X i f x1 , x 2 , x3 ,...., x K (6.38)
în care:
146
a0 – sintetizează influenţa tuturor factorilor neluaţi în calcul
Prin aplicarea metodei celor mai mici pătrate se obţine sistemul de ecuaţii (6.40) prin
rezolvarea căruia se determină parametrii funcţiei de regresie.
n a 0 a1 x1i a 2 x 2i ... a k x ki y i
a 0 x1i a1 x1i a 2 x1i x 2i ... a k x1i x ki x1i y i
2
a 0 x 2i a1 x 2i x1i a 2 x 2i ... a k x 2i x ki x 2i y i
2
(6.40)
.............................................................................................................
a 0 x ki a1 x ki x1i a 2 x ki x 2i ... a k x ki2 x ki y i
La interpretarea rezultatelor privind parametrii funcţiei de regresie multifactorială trebuie avut
în vedere faptul că între variabilele factoriale luate în calcul poate exista o dependenţă reciprocă,
denumită multicoliniaritate, care poate afecta rezultatele finale, facând necesară testarea existenţei
acesteia.
Dispersie reziduală
Eroarea standard
Legătură directă
Legătură funcţională
Legătură inversă
Legătură multiplă
Legătură simplă
Legătură statistică
Metoda grafică
147
6.7 Intrebări de control
1. Prin ce se deosebeşte o legătură stohastică de una funcţională (deterministă)?
7. Când reprezentarea grafică admite mai multe funcţii care ar putea descrie legătura dintre
două variabile, care este criteriul în funcţie de care se optează pentru una din aceste
funcţii?
10. Când se recomandă corelaţia rangurilor pentru măsurarea intensităţii legăturilor dintre
variabile?
6.8 Bibliografie
1. Biji E., Lelea E., Wagner P., Statistică, Editura didactică şi pedagogică, Bucureşti, 1999,
p. 214-278
2. Korka M., Begu L., Tuşa E., Bazele Statisticii pentru Economişti, Editura Tribuna
economică, Bucureşti, 2002 p. 118-138.
3. Mansfield Edwin, Basic Statistics with Applications, W.W. Norton&Company, New York,
London, 1986, p. 449-487
4. Voineagu V., Lilea E., Goschin Z., Vătui M., Bolăleanu D., Statistică economică. Teorie şi
aplicaţii, Editura Tribuna economică, Bucureşti, 2002, p. 223-257.
148
Capitolul 7: SERII CRONOLOGICE
7.1 Introducere
În capitolele precedente am trecut în revistă metodele statistice adecvate analizei datelor care
reflectă fenomene sau procese observate la un anumit moment, în aşa-numitele observări sau
cercetări statistice transversale. Cunoaşterea regularităţilor care se manifestă în evoluţia fenomenelor
şi proceselor sociale presupune, însă, şi culegerea şi sistematizarea datelor în funcţie de derularea lor
în timp, în aşa-numitele cercetări statistice longitudinale.
Sistematizarea datelor în funcţie de timp conduce la serii cronologice, dinamice sau de timp.
Prin studiul seriilor de timp se urmăreşte, în principal, obţinerea unor informaţii privitoare la variaţia
apărută în timp, la influenţa factorilor care au provocat abaterea de la evoluţia normală, la legităţile
care s-au manifestat în evoluţia fenomenelor şi proceselor. Seriile cronologice prezintă date de flux
sau de stoc şi sunt serii lunare, trimestriale, semestriale, anuale sau cu o periodicitate mai mare de un
an. Există însă şi serii zilnice – cum sunt rata cursului de schimb, a cotaţiilor petrolului sau aurului,
indicii bursieri – sau serii săptămânale. Există, de asemenea, serii cronologice fără o periodicitate
anume, cum ar fi indicatorii de politică monetară ai băncilor centrale.
În acest capitol sunt tratate instrumentele şi metodele strict necesare oricărui economist care
încearcă să explice evoluţia unor fenomene sau procese economice şi sociale din realitate: metodele
şi indicatorii prin care sunt descrise numeric seriile cronologice; metode prin care se determină trendul
manifestat în evoluţia în timp; procedee simple de previzionare a evoluţiei viitoare.
Construirea unei serii cronologice presupune înregistrarea datelor la anumite momente sau
intervale de timp pentru colectivitatea statistică studiată.
variabilitatea termenilor, care este dată de expresia mulţimii factorilor care influenţează
evoluţia în timp a fenomenului studiat, a căror acţiune face ca termenii seriei să prezinte o
anumită variaţie;
omogenitatea termenilor unei serii cronologice, care este rezultatul faptului că prin
fiecare termen care intră în componenţa seriei se măsoară acelaşi fenomen sau proces.
Omogenitatea termenilor presupune folosirea aceloraşi definiţii, aceloraşi metodologii de
măsurare, aceleaşi metode de calcul a indicatorilor etc;
succesiunea în timp a termenilor, care înseamnă că termenii unei serii cronologice sunt
rezultatul înregistrării în ordinea apariţiei lor.
149
Seriile cronologice se diferenţiază în funcţie de timpul la care se referă fiecare termen şi după
modul de exprimare a indicatorilor pentru care se construiesc serii cronologice.
Termenii unei serii cronologice de perioade sunt însumabili direct. Rezultatul însumării
reprezintă un indicator totalizator care are acelaşi conţinut ca termenii seriei cronologice.
În cazul seriilor cronologice formate din indicatori absoluţi, fiecare termen este o mărime
absolută exprimată în unităţi concrete de măsură. O astfel de serie cronologică apare în tabelul nr. 7.1
pe prima linie: populaţia la data de 1 ianuarie a fiecărui an din seria observată.
150
Tabelul 7.1 - Evoluţia unor indicatori macroeconomici în perioada 2000 - 2007
Unitate
Indicator 2000 2001 2002 2003 2004 2005 2006 2007
de măsură
Populaţia la 1 mil.
22,45 22,43 21,83 21,77 21,71 21,66 21,61 21,56
ianuarie locuitori
Modificarea PIB
faţă de anul % 2,4 5,7 5,1 5,2 8,5 4,2 7,9 6,3
precedent
PIB pe locuitor Euro 1800 2000 2200 2400 2800 3700 4500 5800
Exporturi mil. Euro 11273 12722 14675 15614 18935 22255 25850 29543
Sursa: Eurostat
Seriile cronologice formate din indicatori relativi, prezintă evoluţia unor indicatori relativi
exprimaţi, de regulă, procentual. În tabelul nr. 7.1, dinamica produsului intern brut reprezintă un
exemplu de o astfel de serie.
Printr-o serie cronologică formată din indicatori medii se prezintă evoluţia unor
caracteristici cantitative măsurate cel puţin pe o scală de intervale: PIB pe locuitor; câştigul salarial
mediu etc. În tabelul nr. 7.1, seria produsului intern brut pe locuitor exprimat în Euro este formată din
indicatori medii.
O primă imagine privind evoluţia unei variabile sau indicator se obţine prin reprezentarea
grafică. Seriile cronologice de perioade se reprezintă grafic prin cronogramă, iar seriile cronologice de
momente se vizualizează prin diagrama cu coloane.
35000
30000 29543
25850
25000
22255
20000
mil. Euro
15000 12722
11273
10000
5000
0
2000 2001 2002 2003 2004 2005 2006 2007
151
În cazul seriilor de momente, se ridică o coloană a cărei înălţime este direct proporţională cu
mărimea termenului respectiv. Baza coloanelor este aceeaşi ca şi distanţa dintre coloane.
22,6
22,4
22,2
22
mil. persoane
21,8
21,6
21,4
21,2
21
2000 2001 2002 2003 2004 2005 2006 2007
a) indicatori absoluţi:
indicatorii de nivel ( y t );
modificarea absolută ( t 2 / t1 );
b) indicatori relativi:
152
Prin calcularea acestor indicatori se urmăreşte aflarea răspunsului la întrebări cum ar fi: cum
se interpretează datele disponibile? Care ar putea să fie evoluţia în viitorul apropiat? Răspunsul la
astfel de întrebări presupune identificarea regularităţilor manifestate în evoluţia fenomenului descris
printr-o serie cronologică.
În cazul datelor din tabelul nr. 7.2, fiecare termen privind cifra de afaceri este un indicator de
nivel.
a) modificarea absolută cu bază fixă, care este diferenţa dintre nivelul fiecărei perioade
(yt) şi nivelul din perioada bază de comparaţie (y1);
t / 1 yt y1 (7.1)
Baza de comparaţie poate fi primul sau oricare termen al seriei, cu condiţia să fie un
termen semnificativ.
t / t 1 yt yt 1 (7.2)
153
Între cele două modalităţi de calcul al modificării absolute există următoarele relaţii de trecere:
i. suma modificărilor absolute cu baza în lanţ este egală cu modificarea absolută în bază
fixă.
10
t 2
t / t 1 = n /1 (7.3)
Dacă se însumează, de exemplu, primele două modificări absolute cu baza în lanţ (4+6) se
obţine modificarea absolută a anului 2002 faţă de anul 2000. De asemenea, însumarea modificărilor
cu baza în lanţ de pe toată perioada analizată este egală cu modificarea absolută dintre ultimul şi
primul termen al seriei cronologice: 10 / 1 = 31.
ii. diferenţa dintre două modificări absolute cu bază fixă succesive este egală cu modificarea
absolută cu baza în lanţ corespunzătoare.
t / 1 t 1 / 1 t / t 1 (7.4)
Aceste relaţii de trecere sunt utile în analiza seriilor cronologice în cazurile în care nu se
cunosc termenii seriei.
Un comentariu special este necesar pentru înţelegerea modificărilor absolute ale indicatorilor
relativi exprimaţi procentuali. Spre exemplu, în tabelul 7.1 este prezentată dinamica PIB faţă de anul
precedent, exprimată procentual. Făcând abstracţie de unitatea de măsură, modificarea absolută din
anul 2001 faţă de anul 2000 este 5,7 - 2,4 = 3,3. Tentaţia este de a da acestui rezultat unitatea de
măsură a valorilor din care provine, adică „3,3 la sută”, notând „3,3%”. Contrar acestei tentaţii,
formularea corectă este „3,3 puncte procentuale”, deoarece este vorba despre o modificare absolută,
nu una relativă. Dacă ar fi fost relativă, cifra de 3,3% s-ar fi aplicat ca multiplicator al dinamicii de
2,4%, iar calculul care urma ar fi trebuit să fie: 2,4 x 3,3% = 7,92%. Cu alte cuvinte, dinamica PIB din
anul următor ar fi fost 2,4792%, nu de 5,7%. Pe scurt, punctele procentuale măsoară diferenţa
absolută dintre două mărimi exprimate procentual.
Indicatorii relativi oferă informaţii utile privind evoluţia în timp, sub condiţia ca baza de
comparaţie să fie un termen faţă de care să se facă comparaţia. Aceasta înseamnă să fie un termen
care se înscrie în tendinţa de evoluţie, să fie un termen « normal ».
Indicele de creştere/descreştere (I) arată de câte ori s-a modificat nivelul unei perioade faţă
de o altă perioadă sau cât la sută reprezintă nivelul actual faţă de cel considerat ca bază de
comparaţie. Indicele este un raport între doi termeni ai seriei cronologice.
154
a) indicele cu bază fixă:
yt
I t /1 100 (7.5)
y1
b) indicele cu bază în lanţ (mobilă, glisantă):
yt
I t / t 1 100 (7.6)
y t 1
Între cele două modalităţi de calcul există relaţii de trecere, şi anume:
i. produsul indicilor cu bază în lanţ este egal cu indicele cu bază fixă corespunzător.
10
I
t 2
t / t 1 = I n /1 (7.7)
Observaţie: Dacă se aplică această relaţie, iar indicii cu bază în lanţ sunt exprimaţi în
procente este necesar să se împartă produsul indicilor la 100 n-1, n reprezentând numărul indicilor cu
bază în lanţ luaţi în calculul produsului.
ii. raportul dintre doi indici cu bază fixă succesivi este egal cu indicele cu baza în lanţ
corespunzător.
I t /1
I t / t 1 (7.8)
I t 1 / 1
De exemplu,
t /1
Rt / 1 100 (7.9)
y1
ritmul cu baza în lanţ (mobilă, glisantă):
t / t 1
Rt / t 1 100 (7.10)
y t 1
Ritmul de creştere/descreştere se calculează mai simplu pornind de la indicele corespunzător.
În cazul indicelui exprimat procentual, baza de comparaţie este egală cu 100. Deci, dacă din indice se
scade 100 (baza de comparaţie) se obţine ritmul de creştere sau descreştere:
155
t /1 y y1 y
Rt / 1 100 t 100 t 1 100 I t / 1 1 100
y1 y1 y1
şi
t / t 1 y y t 1
Rt / t 1 100 t 100 I t / t 1 1 100
y t 1 y t 1
Observaţie: Ritmul de creştere/descreştere se foloseşte frecvent în comparaţii teritoriale. De
exemplu, se compară RPIB din România cu RPIB din Germania. Astfel de comparaţii pot conduce la
concluzii neconcordante cu realitatea dacă nu se indică nivelul absolut din perioada considerată bază
de comparaţie sau modificarea absolută care revine la 1% din modificarea relativă.
Valoarea absolută a unui procent din ritmul de creştere/descreştere (A) exprimă care
este echivalentul absolut al unui procent din ritmul de creştere / descreştere. Se calculează ca un
raport dintre modificarea absolută (Δ) şi modificarea relativă (R):
cu bază fixă:
t /1
At / 1 (7.11)
Rt / 1 (%)
cu baza în lanţ (mobilă, glisantă):
t / t 1
At / t 1 (7.12)
Rt / t 1 (%)
Valoarea absolută a unui procent din ritmul de creştere / descreştere reprezintă a suta parte
din baza de comparaţie. Acest lucru devine evident dacă se dezvoltă relaţiile (7.11) şi (7.12) :
y t y1 y
At / 1 1
y t y1 100
100
y1
respectiv,
y t y t 1 y
At / t 1 t 1
y t y t 1 100
100
y t 1
În cazul exemplului din tabelul nr. 7.2, la un procent din oricare ritm de creştere cu bază fixă
(8,0%; 20,0%;...; 48,0%; ...; 62%) revine o creştere absolută egală cu 0,5 miliarde lei, deoarece
y1 50
At / 1 0,5 mil lei.
100 100
În mod similar, la un procent de creştere a cifrei de afaceri între 2007 şi 2008 de 3,9% revin
y t 1 77
A2008 / 2007 0,77 mil lei.
100 100
156
Nivelul mediu ( y ) se determină ca o medie aritmetică simplă a termenilor seriei:
y
y t
, unde t 1, n (7.13)
n
t / t 1
t /1
(7.14)
n 1 n 1
unde n reprezintă numărul modificărilor absolute cu baza în lanţ.
4 6 ... 3 3 1 31
3,44 mil lei anual.
9 9
Modificarea mediei absolute poate caracteriza o serie cronologică numai dacă modificările
cu bază în lanţ sunt aproximativ egale, deci dacă evoluţia poate fi apreciată drept liniară.
n
yn
n 1 I t / t 1 n 1 I n / 1 n 1 (7.15)
t 1 y1
unde n reprezintă numărul indicilor cu bază în lanţ.
Indicele mediu arată de câte ori s-a modificat, în medie, fiecare termen faţă de termenul
precedent sau cât la sută reprezintă în medie fiecare nivel faţă de cel precedent.
În cazul seriei prezentată în tabelul nr. 7.2 indicele mediu de creştere sau descreştere
este:
9 1,080 1,111 1,050 ... 1,041 1,039 1,031 9 1,620 1,0551 sau 105,51% .
Deci, cifra de afaceri a fost, în medie, în fiecare an faţă de anul precedent de 1,0551 ori
mai mare sau a reprezentat în medie o creştere de 105,51% în fiecare an comparativ cu
anul anterior.
Indicele mediu sintetizează corect modificările relative cu bază în lanţ dacă indicii cu bază
mobilă sunt aproximativ egali.
R ( 1) 100 (7.16)
Observaţie: Din cadrul indicatorilor medii menţionaţi, numai nivelul mediu ( y ) sintetizează
valorile individuale. În cazul celorlalţi indicatori medii rezultatul calculului depinde doar de valoarea
primului şi al ultimului termen. Această situaţie poate conduce la concluzii neconforme cu realitatea.
157
7.4 Indicatorii statistici ai seriilor cronologice de momente
Prelucrarea seriilor cronologice de momente prezintă câteva particularităţi faţă de seriile de
perioade. Aşa cum s-a menţionat, lungimea intervalelor de timp care separă momentele pot fi egale
sau neegale.
Dacă intervalele care despart momentele sunt egale, prelucrarea seriei se realizează prin
calcularea indicatorilor absoluţi, relativi şi medii, cu deosebirea că nivelul mediu se calculează nu prin
media aritmetică simplă ci prin media cronologică simplă. În cazul unei serii de momente cu intervale
inegale, singurul indicator care se calculează este nivelul mediu, prin media cronologică ponderată.
Media cronologică simplă este o formă modificată a mediei aritmetice simple. Se aplică
când momentele la care se referă termenii seriei sunt echidistante (t1 = t2 = ... = tn).
t1 t2 t3 t4 tn-1
y1 y2 y3 y4 y5 yn-1 yn
Fig. 7.4– Serie cronologică de momente echidistante
O serie cronologică formată din n termeni are n-1 intervale, fiecare interval fiind delimitat de
doi termeni.
y1 y 2 y y3 y yn
y1 ; y2 2 ; ......; y n 1 n 1
2 2 2
Fiecare medie parţială se referă la o perioadă t, deci termenii seriei ( y1 , y 2 ,...., y n 1 ) sunt
însumabili.
y1 y 2 y 2 y 3 y yn
.... n 1
y1 y 2 y 3 ..... y n 1 2 2 2
y
n 1 n 1
După efectuarea simplificărilor se obţine media cronologică simplă ( y cr ).
y1 y
y 2 .... y n 1 n
y cr 2 2 (7.17)
n 1
Calculul mediei cronologice simple se exemplifică pe baza datelor din tabelul nr. 7.3.
158
Tabelul 7.3 – Stocul de mărfuri ale companiei X la începutul lunii
Stocul de
Data
mărfuri (mii lei)
01/01/2009 420
01/02/2009 460
01/03/2009 430
01/04/2009 440
Variabilele observate la momentele respective sunt variabile de stoc şi, ca urmare, nu pot fi
însumate direct. Aceste date s-ar putea însuma dacă s-ar cunoaşte modificările de stoc din fiecare
lună sau stocul din cursul lunii, adică media parţială. Stocul mediu existent în primele patru luni din
anul 2009 se determină prin media cronologică simplă.
y1 y 420 440
y 2 .... y n 1 n 460 430
y cr 2 2 2 2 440 mii lei.
n 1 4 1
Media cronologică ponderată se utilizează la calculul nivelului mediu dacă momentele de
timp pentru care s-au înregistrat valorile variabilei sunt despărţite prin intervale neegale.
t1 t t t t t
y1 y 2 1 2 .... y n 1 n 2 n 1 y n n 1
y cr 2 2 2 2 (7.18)
t1 t1 t 2 t n 2 t n 1 t n 1
....
2 2 2 2
sezonalitatea;
ciclicitatea;
159
Trendul (Tt) poate fi, de obicei, detectat prin simpla inspecţie a seriei de timp. El se manifestă
sub forma unei mişcări regulate cu caracter de continuitate a fenomenului, care poate fi în creştere, în
scădere sau constant. Ca regulă, trendul poate fi sesizat dacă seria cronologică se referă la o
perioadă de timp suficient de mare. Trendul sau tendinţa reflectă direcţia de evoluţie şi este efectul
influenţei factorilor sistematici. Astfel de factori ar putea fi, în cazul seriilor cronologice construite pe
diferite variabile macroeconomice, volumul investiţiilor, dimensiunea şi calitatea forţei de muncă,
nivelul tehnologiei etc.
Sezonalitatea (St) poate fi uşor detectată din graficul unei serii de timp. Ea este de regulă
reprezentată prin vârfuri sau depresiuni care apar la intervale relativ regulate de timp, sugerând că
variabila atinge minime şi maxime. Intervalul de timp dintre două vârfuri sau depresiuni succesive se
numeşte perioadă. Variaţiile periodice din cadrul seriilor cronologice se referă la perioade mai scurte
decât un an, de regulă luni sau trimestre. Aceste oscilaţii în jurul trendului sunt cauzate de factori cum
sunt: clima, obiceiuri, iregularităţi ale calendarului; sărbători laice sau religioase; condiţii de producţie
etc.
Ciclicitatea (Ct) seamnă mai mult cu un sezon, cu precizarea că perioada ciclului este mult
mai lungă decât un trimestru sau chiar de un an. Ciclurile apar ca rezultat al unor schimbări de natură
calitativă, cum este simţul gustului, moda, tehnologiile, clima globală etc. Un ciclu poate fi mai greu
detectabil dintr-un grafic al seriei de timp şi, de obicei, se consideră că este neglijabil, mai ales în
cazul seriilor pe termen scurt. Periodicitatea variaţiilor ciclice este cuprinsă, de regulă, între 3 şi 12 ani.
Această componentă este efectul unor factori conjuncturali şi psihologici. Evidenţierea variaţiilor ciclice
în vederea eliminării lor este diferită, motiv pentru care se studiază împreună cu trendul.
Variaţia reziduală sau aleatoare (Rt) sintetizează variaţiile termenilor seriilor cronologice
provocate de factori neprevizibili cu o acţiune neregulată. Astfel de factori pot fi: greve, catastrofe
naturale. Un termen echivalent al variaţiilor reziduale este de erori, fiind diferenţa dintre valorile
aşteptate sau teoretice şi valorile observate ale variabilei. Valorile teoretice sunt rezultatul combinării
aditive sau multiplicative ale trendului, ciclului şi sezonalităţii. În teoria ajustării seriilor cronologice, se
presupune că valorile reziduale sunt distribuite normal şi că, pe o perioadă lungă de timp, ele se
anulează reciproc astfel încât suma lor este nulă.
yt f (Tt , S t , Ct , Rt ) (7.19)
160
yt d5
d3
Variaţie
Trend
reziduală
d1
Variaţie
d4
sezonieră
Sezonalitate
d2
Dacă notăm cu d1, d2, d3, ...., dk variaţiile sezoniere, egalitatea lor înseamnă că
d1 d 2 d 3 .... d k
În acest caz, luând în considerare faptul că includem componenta ciclică în trend, modelul se
prezintă astfel:
yt Tt S t Rt (7.20)
y t Tt S t Rt (7.21)
Seria cronologică pentru care se poate aplica modelul multiplicativ este de forma din diagrama
următoare.
161
yt
d5
d3 Trend
Variaţie
reziduală
d1
Variaţie
d4
sezonieră
Sezonalitate
d2
Prin analiza seriilor cronologice se urmăreşte, aşa cum s-a menţionat, cunoaşterea
regularităţilor manifestate, care sunt expresia acţiunii factorilor sistematici, esenţiali.
Operaţiunea prin care din termenii empirici ai unei serii cronologice (yt) se elimină influenţa
factorilor întâmplători poartă denumirea de ajustare a seriilor cronologice.
metoda grafică;
metode analitice.
Metoda grafică constă în reprezentarea grafică a seriei cronologice (yt) prin cronogramă,
trasând cu mâna o dreaptă sau o curbă care trece printre valorile empirice, cât mai aproape de
acestea, aşa cum se poate vedea în figura nr. 7.7. Ca şi în cazul metodei regresiei, este foarte
important ca statisticianul să identifice valorile extreme, mai precis dacă acestea sunt sau nu valori
atipice (sau aberante) şi să le elimine din setul de date pentru a nu induce distorsiuni în analiză.
Această metodă oferă informaţii orientative utile pentru alegerea funcţiei analitice care este în
măsură să descrie tendinţa de evoluţie. Ajustarea grafică se exemplifică pornind de la datele din
tabelul nr. 7.2.
162
90
80
70
Cifra de afaceri (mil. lei)
60
50
40
30
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
Anul
Metoda mediilor mobile este extrem de eficace. Înainte de a trece la previziuni pe baza
trendului identificat, este absolut necesar să eliminăm orice variaţie importantă a datelor, în special a
componentei sezoniere. Mai întâi, este important să ştim care este perioada datelor. Dacă avem o
perioadă de lungime m, vom aplica media mobilă de perioadă m. Dacă m este impar, atunci media
mobilă este automat centrată pe punctele de date, dar când m este par, este necesar să centrăm
datele înainte de a trece mai departe.
Mediile mobile sunt medii aritmetice calculate dintr-un număr prestabilit de termeni. Fiecare
medie mobilă (glisantă) se deosebeşte de cea precedentă prin faptul că exclude primul termen din
care s-a calculat şi include în calcul termenul următor al seriei valorilor empirice.
Să presupunem că avem o serie de timp formată din 7 termeni cu două perioade: m=3 şi m=4.
163
Medii
Medii Medii Medii mobile
Valori mobile
mobile provizorii definitive
empirice definitive
(m=3) (m=4) (m=4)
(m=3)
y1 - -
y2 y 3,1 - - -
y 3,1 y 4,1
y3 y 3, 2 y 4,1
y 3, 2 y 4, 2
y4 y 3, 3 y 4, 2
y 3, 3 y 4,3
y5 y 3, 4 y 4,3
y 3, 4 y 4, 4
y6 y 3, 5 -
- -
y7 - -
dacă perioada este un număr impar (m=2k+1), fiecare medie mobilă înlocuieşte termenul
central al seriei din care se determină media. Astfel, dacă mediile se calculează din 3
termeni (adică perioada m = 3) se obţine:
y1 y 2 y 3 y 2 y3 y 4 y3 y 4 y5
y 3,1 ; y 3, 2 ; y 3, 3 etc.
3 3 3
când mediile se calculează dintr-un număr par de termeni (m = 2k), se se calculează
medii mobile. Fiecare medie se va plasa între cei doi termeni centrali din care s-a calculat.
De exemplu, prima medie calculată din patru termeni se va plasa între termenul al 3-lea şi
al 4-lea. Din acest considerent se numesc şi medii mobile provizorii:
y1 y 2 y 3 y 4 y 2 y3 y 4 y5
y 4,1 ; y 4, 2
4 4
y3 y 4 y5 y6 y 4 y5 y6 y7
y 4,3 ; y 4, 4
4 4
se calculează medii mobile definitive din câte două medii mobile provizorii; se centrează
mediile provizorii:
a) dacă m=2k+1
y 3,1 y 3, 2 y 3, 2 y 3, 3
y 3,1 ; y 3, 2 ;
2 2
y 3, 3 y 3, 4 y 3, 4 y 3, 5
y 3, 3 ; y 3, 4
2 2
164
b) dacă m=2k
Numărul termenilor din care se calculează mediile mobile se bazează pe lungimea unui ciclu
de variaţie. De exemplu, în cazul unei serii privind consumul lunar de bere în ultimii 5 ani se remarcă
valori foarte mari în luna iulie şi august. În acest caz se vor calcula medii mobile din 12 termeni. Dacă
o serie este formată din date trimestriale se vor calcula medii mobile din câte patru termeni.
Numărul mediilor mobile calculate este mai mic decât numărul termenilor empirici, ceea ce
înseamnă că seria mediilor mobile care defineşte trendul este mai scurtă decât seria termenilor
empirici.
Cu cât numărul termenilor din care se calculează mediile mobile este mai mare, cu atât
numărul termenilor empirici care nu au o valoare teoretică corespondentă este mai mare. Observaţie:
Ajustarea prin metoda mediilor mobile presupune pe lângă oscilaţii sezoniere şi o serie formată dintr-
un număr mare de termeni.
Q2 2 310
306,0
Q3 3 325 306,75
307,5
Q4 4 300 308,25
309,0
2008 Q1 5 295 310,00
311,0
Q2 6 316 311,25
311,5
Q3 7 333 312,25
313
165
t yt [TSR] 4Q-MM [T] 4Q-MMC [T]
Q4 8 302 313,75
314,5
2009 Q1 9 301 316,125
317,75
Q2 10 322 318,25
318,75
Q3 11 346
-
Q4 12 306
TSR semnifică cele 4 componente considerate în ajustarea unei serii cronologice: T – trendul
(combinat cu ciclul), S – sezonalitatea, R – valorile reziduale, în cazul fiecărei componente
calculate: valorile empirice (Yt); 4Q-MM este media mobilă de perioadă 4 provizorie, fiind
componenta combinată a trendului şi ciclului (TC); 4Q-MMC este media mobilă centrată de
perioadă 4, fiind, de asemenea, componenta combinată a trendului şi ciclului (TC).
De notat că aplicarea metodei mediilor mobile duce la pierderi de date. În tabelul de mai sus, am
pierdut prima şi ultimele două valori observate. În general, când m este par (în cazul nostru m este
egal cu 4), pierdem m valori, iar când m este impar, pierdem m-1 valori.
Graficul valorilor emprice şi al mediilor mobile centrate este redat mai jos.
360
350
340
330
320
Vanzari
y(t)
310
4Q-MMC
300
290
280
270
260
1 2 3 4 5 6 7 8 9 10 11 12
Trimestre
166
Noul tabel de calcule este următorul:
Q2 2 310 - - - 1,0145
306
Q3 3 325 306,75 1,0595 1,0640
307,5
Q4 4 300 308,25 0,9732 0,9688
309
2008 Q1 5 295 310 0,9516 0,9528
311
Q2 6 316 311,25 1,0153 1,0145
311,5
Q3 7 333 312,25 1,0665 1,0640
313
Q4 8 302 313,75 0,9625 0,9688
314,5
2009 Q1 9 301 316,125 0,9522 0,9528
317,75
Q2 10 322 318,25 1,0118 1,0145
318,75
Q3 11 346 - - 1,0640
-
Q4 12 306 - - 0,9688
Obiectivul nostru este să separăm componenta sezonieră. Tehnic, în această etapă, după ce am
separat componenta de trend (T), nu putem separa sezonalitatea (S) de componenta reziduală (R).
De aceea, aplicând modelul multiplicativ, cele două componente combinate rezultă prin
împărţirea valorii empirice la componenta de trend, pe care am obţinut-o prin calculul mediei
mobile centrate (yt /T). În cazul modelului aditiv, componenta combinată rezultă prin scăderea
componentei de trend din valoarea empirică (yt -T).
În continuare, se calculează media rapoartelor dintre valorile empirice şi trend pentru fiecare
trimestru. Dacă suma acestor medii nu este patru (perioada seriei), indicele sezonier se calculează
prin multiplicarea mediei trimestriale calculate anterior cu un factor de corecţie, egal cu raportul
dintre 4 şi suma mediilor. Rezultatele sunt următoarele:
Trimestrul
Anul
1 2 3 4
2007 - - 1,0595 0,9732
2008 0,9516 1,0153 1,0665 0,9625
2009 0,9522 1,0118 - -
Total 1,9038 2,0270 2,1259 1,9358
Media 0,9519 1,0135 1,0630 0,9679 Total brut= 3,9963
Indice sezonier 0,9528 1,0145 1,0640 0,9688 Total teoretic= 4,0000
167
Indicii sezonieri sunt, de fapt, deviaţiile de la trend sau variaţiile sezoniere, corespunzătoare
modelului multiplicativ. Multiplicând valorile observate cu aceşti indici, vom obţine valorile
ajustate sezonier, adică neinfluenţate de acest factor. Aceşti indici vor fi utilizaţi mai târziu pentru
calculul valorilor previzionate sau, altfel spus, pentru extrapolarea seriei de timp.
Metoda modificării medii absolute se aplică atunci când termenii seriei (yt) tind să formeze
o progresie aritmetică, respectiv când modificările absolute au bazele în lanţ apropiate ca valoare.
Aceasta înseamnă că valorile variabilei se modifică relativ uniform, iar cronograma poate fi aproximată
printr-o dreaptă.
Expresia prin intermediul căreia se determină valorile ajustate se bazează pe relaţia dintre
ultimul termen, modificările absolute şi primul termen:
y n y1 2 / 1 3 / 2 .... n / n1
Dacă modificările absolute cu bază în lanţ sunt aproximativ egale, fiecare este aproape egală
cu modificarea absolută medie ( ). Deci, valorile ajustate rezultă din expresia:
yˆ t y1 (t 1) , t 1, n (7.22)
Revenind la datele din tabelul nr. 7.2 privind evoluţia cifrei de afaceri rezultă:
y n y1 81 50 31
3,4 mil lei.
n 1 9 9
Valorile ajustate determinate prin metoda modificării medii absolute sunt:
yˆ1 y1 50
yˆ 2 y1 53,4
yˆ 3 y1 2 56,8
.....
Observaţie: Dacă se optează pentru metoda modificării medii absolute, termenul notat în
relaţia (7.22) cu y1 nu trebuie să fie obligatoriu prima valoare empirică. Aceasta poate fi oricare termen
empiric cu condiţia să se înscrie în tendinţa de evoluţie, deci să fie un termen reprezentativ. Dacă se
procedează astfel, lui t i se va da valoarea 1 corespunzător termenului ales drept y1. Spre exemplu,
primul termen t ia valorile -2, -3, -4 etc. iar spre ultimul termen al seriei ia valorile +2, +3, etc.
y n y1 I 2 / 1 I 3 / 2 .... I n / n 1 y1 I ( n 1)
168
Deci, valorile ajustate se calculează prin relaţia:
yˆ t y1 I (t 1) (7.23)
Ca şi în cazul ajustării prin metoda modificării medii absolute y1 poate fi oricare termen
empiric, care îndeplineşte condiţia de reprezentativitate.
Exemplificarea acestei metode se face tot pe baza datelor din tabelul nr. 7.2.
yˆ1 y1 50
yˆ 2 y1 I 50 1,055 57,0
yˆ 3 y1 I 2 50 1,055 2 66,8
.....
Metoda modificării medii absolute şi metoda indicelui mediu au avantajul uşurinţei aplicării, dar
au neajunsul că valorile ajustate depind exclusiv de primul termen. La aceasta se adaugă şi faptul că
de cele mai multe ori modificările absolute şi cele relative cu bază în lanţ nu sunt omogene.
Metodele analitice de ajustare a unei serii cronologice presupun identificarea unei funcţii
care exprimă tendinţa de evoluţie şi calcularea valorilor acesteia, respectiv a valorilor teoretice sau
ajustate ( ŷ t ).
Alegerea funcţiei care se potriveşte cel mai bine trendului de evoluţie se poate face pe baza
următoarelor criterii:
criteriul diferenţelor.
yˆ t a b t (7.24)
unde:
a − parametrul care matematic arată nivelul la care ar fi ajuns variabila y, dacă influenţa
tuturor factorilor ar fi fost constantă pe toată perioada analizată.
169
t − reprezintă valorile variabilei timp.
Dacă cronograma sugerează amplificarea creşterii sau descreşterii, termenii seriei tind să
formeze o progresie geometrică. În acest caz se va opta pentru funcţia exponenţială.
yˆ t a b t (7.25)
yˆ t a b t c t 2 (7.26)
( I t / t 1 ). Dacă t / t 1 sunt aproximativ egale se alege funcţia liniară iar dacă I t / t 1 sunt relativ egale
se optează pentru o funcţie exponenţială.
Criteriul diferenţelor constă în calcularea diferenţelor absolute (în modul) cu baza în lanţ de
diferite ordine :
(t1/)t 1 y t y t 1 (7.27)
După alegerea funcţiei de ajustare după una din metodele menţionate urmează estimarea
parametrilor acesteia şi calcularea valorilor teoretice ŷ t .
Pentru estimarea parametrilor funcţiei de ajustare se utilizează cel mai frecvent metoda celor
mai mici pătrate care îşi propune minimizarea pătratelor abaterilor valorilor empirice ( y t ) de la valorile
y yˆ t min t 1, n
2
t (7.30)
170
Dacă se presupune un trend liniar, condiţia de minim devine:
y a b t min
2
i (7.31)
na b t yt
(7.32)
a t b t t y t
2
În cazul unei serii cronologice, deci în situaţia sistemului (7.32), variabila timp reprezintă doar
criteriul de sistematizare a datelor şi nu factorul care condiţionează valorile empirice. De aceea, pentru
a simplifica calculele, se transformă seria cronologică păstrând condiţia ca valorile variabilei timp să
formeze o progresie aritmetică cu raţia egală cu +1, dar se pune condiţia suplimentară ca suma
valorilor lui t să fie egală cu zero ( t 0 ).
Procedând astfel, sistemul de ecuaţii (7.32) devine:
na yt
(7.33)
b t t y t
2
de unde:
a
yt y
n
b
(7.34)
t yt
t2
Pentru satisfacerea condiţiei ca t 0, valorile lui t se aleg pornind de la numărul
termenilor seriei. Pot interveni două situaţii:
a) dacă seria este formată dintr-un număr impar de termeni, originea (t = 0) va corespunde
termenului central. Spre primul termen al seriei, t ia valorile -1, -2, -3 şamd, iar spre ultimul
termen +1, +2, +3 şamd;
b) dacă seria este alcătuită dintr-un număr par de termeni, în centrul seriei se află doi
termeni, caz în care corespunzător primului termen central t = -1, şi +1 în cazul celui de al
doilea termen central. În continuare valorile lui t vor fi: -3, -5, -7 etc. spre primul termen şi
+3, +5, +7 etc. spre ultimul termen.
171
Tabelul 7.4 – Calculul parmetrilor funcţiei liniare pentru o serie cronologică
Cifra de
afaceri
Anul (mil. lei) t t2 t yt yˆ t 67,9 1,77 t
yt
2000 50 -9 81 -450 51,97
2001 54 -7 49 -378 55,51
2002 60 -5 25 -300 59,05
2003 63 -3 9 -189 62,59
2004 68 -1 1 -68 66,13
2005 72 +1 1 72 69,67
2006 74 +3 9 222 73,21
2007 77 +5 25 385 76,75
2008 80 +7 49 560 80,29
2009 81 +9 81 729 83,83
Total 679 0 330 583 679,00
Seria este formată dintr-un număr par de termeni, deci, corespunzător termenilor centrali,
t 0.
Sistemul de ecuaţii normale obţinut pe baza datelor din tabelul nr. 7.4 este:
a
yt 679 67,9
n 10
b
t y 583
1,77
t
t 2
330
yˆ t 67,9 1,77 t
Valorile ajustate, respectiv termenii care definesc trendul, se obţin înlocuind în ecuaţia de mai
sus t cu valorile corespunzătoare:
172
Exemplul 7.2 (continuare) – Calculul parametrilor funcţiei de regresie liniară
După ce am calculat indicii sezonieri, să transformăm variabila de timp, conform regulilor expuse
anterior şi să calculăm termenii necesari estimării parametrilor funcţiei de regresie.
a
yt 3745 312,08
n 12
b
t y t 533
0,93
t 2 572
Funcţia de regresie este, aşadar: yˆ t 312,08 0,93 t
Înlocuind valorile lui t în funcţia de mai sus, obţinem valorile din penultima coloană a tabelului.
Suma valorilor ajustate este la o diferenţă de 0,04 unităţi de măsură de valorile observate, din
cauza rotunjirii operate asupra valorilor parametrilor estimaţi. În ultima coloană sunt calculate
valorile reziduale, adică diferenţa dintre valorile ajustate şi cele empirice, a căror sumă este egală,
de asemenea, cu 0,04 unităţi.
Dacă cronograma sau criteriul diferenţelor sugerează că tendinţa poate fi descrisă printr-o
parabolă de gradul doi:
173
yˆ t a b t c t 2
n a b t c t 2 y t
a t b t c t t y t
2 3
(7.35)
a t 2 b t 3 c t 4 t 2 y
t
Punând condiţia t 0 , atunci sistemul devine:
n a c t 2 y t
b t c t t y t
2 3
(7.36)
a t 2 c t 4 t 2 y
t
După calculul parametrilor a, b şi c, valorile teoretice, ajustate ŷ t se obţin prin înlocuirea lui t
cu valorile corespunzătoare.
lg yt lg a t lg b (7.37)
n lg a lg b t lg y t
(7.38)
lg a t lg b t t lg yt
2
Extrapolarea unei serii cronologice constă în extinderea trendului manifestat în trecut în afara
orizontului de timp pentru care se dispune de date empirice, pornind de la ipoteza că acţiunea
factorilor de influenţă nu se modifică semnificativ în viitor.
Valorile extrapolate sunt afectate de erori generate de cauze diverse, cum ar fi modificarea în
viitor a factorilor de influenţă sau de alegerea modelului de ajustare.
yˆ t * y1 (t * 1) (7.39)
unde:
yˆ t * − valori extrapolate;
174
y1 − termenul ales drept bază de ajustare;
yˆ t * y1 I t
*
(7.40)
t 0.
Valorile extrapolate se determină pe baza relaţiilor:
Noile valori ajustate se calculează cu ajutorul funcţiei de regresie yˆ t 312,08 0,93 t . Această
funcţie ne arată, însă, trendul vânzărilor. Pentru a vedea care vor fi vânzările sub influenţa
factorilor sezonieri, va fi necesar să includem în calcul şi indicele sezonier. Potrivit modelului
multiplicativ, valorile ajustate sunt: date de relaţia yˆ t Tt S t Rt
Aşadar, mai întâi să estimăm care vor fi valorile trendului în cele 4 trimestre. În acest scop,
înlocuim valorile variabilei t cu noile valori ale seriei extinse după regula pe care am aplicat-o
când am stabilit valorile variabilei t pentru estimarea parametrilor funcţiei de regresie. Aşadar,
noile valori sunt + 13, +15, +17 şi +19
175
yt Indice
t ŷ t yˆ t*
[TSR] sezonier
2007 Q1 -11 289 0,9528 301,85 287,60
Q2 -9 310 1,0145 303,71 308,11
Q3 -7 325 1,0640 305,57 325,13
Q4 -5 300 0,9688 307,43 297,84
2008 Q1 -3 295 0,9528 309,29 294,69
Q2 -1 316 1,0145 311,15 315,66
Q3 +1 333 1,0640 313,01 333,04
Q4 +3 302 0,9688 314,87 305,05
2009 Q1 +5 301 0,9528 316,73 301,78
Q2 +7 322 1,0145 318,59 323,21
Q3 +9 346 1,0640 320,45 340,96
Q4 +11 306 0,9688 322,31 312,25
2010 Q1 +13 0,9528 324,17 308,87
Q2 +15 1,0145 326,03 330,76
Q3 +17 1,0640 327,89 348,87
Q4 +19 0,9688 329,75 319,46
Înlocuind valorile lui t (+ 13, +15, +17 şi +19) în funcţia de mai sus, obţinem:
Aceste valori sunt însă desezonalizate şi arată care ar fi evoluţia vânzărilor în absenţa factorilor
sezonieri şi reziduali. Introducând şi sezonalitatea în relaţia de calcul yˆ t Tt S t Rt , vom obţine:
176
360
340
320
300
Vanzari
280
260
240
220
200
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Trimestre
y t yˆ t 0 (7.39)
y yˆ t min
2
t (7.40)
d yt
V yt 100 (7.41)
y
177
unde: d yt
y t yˆ t
n
Procedeul de ajustare care conduce la cel mai mic coeficient de variaţie descrie cel mai bine
tendinţa de evoluţie:
y / yˆ t
e t
100
y
unde:
y yˆ t
2
y
t
/ yˆ t , adică abaterea medie pătratică a valorilor teoretice (ajustate) de la
t
n
valorile empirice.
Cu cât coeficientul de eroare este mai mic cu atât variaţia valorilor empirice în jurul funcţiei de
ajustare este mai puţin intensă, ceea ce înseamnă că funcţia aleasă este mai potrivită pentru
determinarea tendinţei.
În exemplul 7.1, y / yˆ
t t
este 14,74, iar y este 312,08, de unde rezultă că e este 4,7%. În
termeni statistici, eroarea nu este mare, însă, cu siguranţă, se pot găsi funcţii de ajustare mai eficace,
cu o eroare mai mică.
178
7.8 Cuvinte – cheie
Serie cronologică – serie de timp – Sezonalitate.
serie dinamică.
Variaţie reziduală.
Serie cronologică de perioade
Ajustarea unei serii cronologice.
(intervale).
Ajustare (grafică, cu modificarea
Serie cronologică de momente.
medie absolută, cu indicele mediu de
Indicator de nivel. creştere / descreştere).
3. Cum se trece de la modificarea absolută / relativă cu bază în lanţ la bază fixă şi invers?
4. Cum se calculează nivelul mediu în cazul unei serii de intervale şi în cazul unei serii de
momente?
11. Cum se aleg valorile variabilei de timp în cazul seriilor cu un număr par de termeni?
179
7.10 Bibliografie
1. Korka M., Begu S., Tuşa E., Bazele statisticii pentru economişti, Editura Tribuna
Economică, Bucureşti 2002, p. 142-167.
2. Voineagu V., Lilea E., Goschin Z., Vătui M., Boldeanu D., Statistică economică. Teorie şi
practică, Editura Tribuna Economică, Bucureşti 2002, p. 266-299;
3. Wagner Pavel, Bazele statisticii, Editura Universitatea Titu Maiorescu, Bucureşti, 2005, p.
142-168
180
Capitolul 8: INDICII STATISTICI
8.1 Introducere
Indicii statistici reprezintă un instrument de cunoaştere cu cea mai largă utilizare, folosit nu
numai de specialişti, dar şi de amatori în ale statisticii. Pătrunderea indicilor în folosinţa cotidiană a
omului modern se explică parţial prin faptul că informaţia furnizată de un indice statistic este foarte
concisă şi uşor de înţeles. La aceasta se adaugă şi faptul că există impresia că oricine se pricepe la
calcule aritmetice ştie şi statistică.
Indicii sunt mărimi relative de dinamică sau de coordonare prin intermediul cărora se măsoară
modificarea relativă în timp sau în spaţiu a unei caracteristici observate la nivelul unei unităţi statistice,
al unui grup de unităţi sau la nivelul întregii colectivităţi studiate. Mai simplu, indicele este un raport
dintre două niveluri ale aceleiaşi caracteristici înregistrate pentru două unităţi de timp sau de spaţiu.
a) exprimă nivelul relativ a unei variabile (Y) şi arată cât reprezintă nivelul analizat faţă de cel
de referinţă;
b) servesc ca mijloc de analiză factorială prin care se explică variaţia unei variabile (Y) în
funcţie de modificările intervenite în variabile considerate factori de influenţă (X şi F, de
exemplu). Folosirea indicilor în acest scop presupune ca variabila Y să rezulte din
produsul factorilor, cel puţin unul cantitativ (F) şi unul calitativ (X).
181
Aceasta înseamnă că la nivelul fiecărei unităţi la care se înregistrează variabilele trebuie să
existe relaţia y i x i f i .
1.a) indici de dinamică sau indici simpli, când se compară nivelul actual (notat cu 1) cu
nivelul considerat bază de comparaţie (notat cu 0), cum ar fi, spre exemplu, vânzările
unei firme din trimestrul II faţă de trimestrul I sau faţă de trimestrul II al anului
anterior;
1.b) indici teritoriali – se compară nivelul aceleiaşi variabile înregistrat pentru două unităţi
teritoriale diferite, cum ar fi, spre exemplu, venitul salarial mediu din Bucureşti faţă de
venitul salarial din Braşov.
2.a) indici individuali sau indici elementari ( i ), când nivelul caracteristicii se referă la un
singur element al colectivităţii. Corespunzător celor trei variabile menţionate mai sus,
se pot calcula trei indici elementari:
y1 f f x
i1y/ 0 ; i1 / 0 1 ; i1x/ 0 1 (8.1)
y0 f0 x0
x1 f1 x f
i1y/ 0 i1x/ 0 i1f/ 0 1 1 (8.2)
x0 f 0 x0 f 0
identitatea;
circularitatea;
reversibilitatea.
182
yt
i y0 yt
it / t ' t/0 (8.3)
it ' / 0 yt ' yt '
y0
1 1 y0
i0 / t (8.4)
it / 0 yt yt
y0
Indicii elementari de preţ arată raportul dintre preţul unei perioade t faţă de perioada
de bază 0.
pt
i( p) t / 0 100 (8.5)
p0
Indicii elementari de cantităţi arată raportul dintre două cantităţi sau volume din două
perioade – cea curentă şi cea de bază.
qt
i(q) t / 0 100 (8.6)
q0
vt p q p q
i (v ) t / 0 100 t t 100 t t 100 (8.7)
v0 p0 q0 p0 q0
Ca urmare, orice variaţie a unei valori poate fi descompusă în variaţia cantităţii (sau a
volumului) şi variaţia preţului. În final, indicele valorii este produsul dintre indicele
cantităţii şi indicele de preţ.
2.b) indici de grup sau indici sintetici ( I ), când în comparaţie se implică nivelul
caracteristicii aferent tuturor unităţilor. Aceşti indici sintetizează variaţia medie a
caracteristicii studiate. Corespunzător celor trei variabile menţionate se poate calcula
y x f
câte un indice de grup: I ; I ; I .
Dacă între variabile există relaţia Y X F , iar indicii elementari au fost construiţi cu
respectarea anumitor reguli (vezi 8.2) există relaţia:
Iy Ix I f (8.8)
183
Indicii de grup se diferenţiază ca modalitate de calcul în funcţie de natura grupei sau a
colectivităţii studiate.
Dacă colectivitatea este eterogenă, deci când valorile factorului cantitativ nu pot fi
însumate, indicii de grup se calculează ca:
- cu baza fixă, când nivelul fiecărei perioade se compară cu nivelul unei singure
baze;
Alegerea uneia sau alteia din modalităţile de construire a indicilor de grup depinde de
obiectivul cunoaşterii, de datele disponibile, de posibilitatea trecerii de la modificarea relativă (Ι) la
modificarea absolută (Δ), de natura unităţilor care compun colectivitatea studiată.
Baza de comparaţie trebuie să fie un nivel al caracteristicii în raport cu care are sens să se
determine modificarea relativă. Aceasta înseamnă să fie un nivel care se înscrie în tendinţa de
evoluţie, deci să fie un nivel normal, nu unul care se abate semnificativ de la restul valorilor.
În practica statistică se aleg frecvent drept bază de comparaţie perioada precedentă (luna,
trimestrul etc.) sau aceeaşi perioadă din anul anterior (luna, trimestrul, semestrul).
184
Formula de calcul se alege pornind de la datele disponibile şi de la natura unităţilor care
compun colectivitatea studiată. În funcţie de aceste criterii, indicii de grup se calculează ca indici
agregaţi, ca o medie a indicilor individuali sau ca raport a două medii arimetice (vezi 8.4; 8.5 şi 8.6).
Sistemul de ponderare a fost şi continuă să fie aspectul care face obiectul dezbaterilor în
domeniul teoriei statistice.
Aşa cum s-a menţionat, între valorile variabilei complexe ( y i ) şi factorii de influenţă ( f i şi x i )
există, la nivelul fiecărei unităţi, relaţia y i f i xi . O relaţie similară trebuie să existe la nivelul
colectivităţii: y f
i i xi , unde i 1, n unităţi.
Iy
y 1
x 1 f1
(8.9)
y 0 x 0 f0
Relaţia [8.9] exprimă variaţia lui y în funcţie de modificările intervenite în factorul cantitativ
( f ) de la f 0 la f 1 şi în factorul calitativ ( x ) de la x 0 la x1 .
Ponderea exprimă importanţa cu care intră în calculul indicilor valorile celuilalt factor.
În cazul indicelui construit pentru factorul cantitativ, problema se rezolvă simplu dacă datele
individuale sunt însumabile (număr de salariaţi, produse de acelaşi fel etc.)
If
f 1
(8.10)
f 0
Dacă valorile nu sunt însumabile direct, factorul calitativ are rolul de pondere şi figurează în
numărătorul raportului cu aceeaşi valoare. Indicele de grup este un indice agregat.
Dacă valorile factorului calitativ nu sunt însumabile direct, indicele construit pentru astfel de
variabilă foloseşte factorul calitativ drept pondere, şi se prezintă tot ca un indice agregat.
Teoretic, factorul care joacă rolul de pondere poate figura în numărătorul şi în numitorul
indicelui cu nivelul actual ( 1 ) sau cu cel din perioada considerată bază de comparaţie ( 0 ).
185
În decursul timpului au fost propuse diferite sisteme de ponderare:
If
x 0 f1
şi Ix
x 1 f0
(8.11)
x 0 f0 x 0 f0
Folosind aceeaşi pondere la construirea celor doi indici factoriali, nu se verifică relaţia de
sistem ( I
y
I x I f ):
I y ( x, f ) I y ( x) I y ( f ) ,
respectiv:
x 1 f1
x 0 f1
x 1 f0
(8.12)
x 0 f0 x 0 f0 x 0 f0
Indicii de grup de tip Laspeyres calculaţi pe baza termenilor unei serii cronologice, sunt
indici cu baza fixă şi ponderi constante, comparabile şi compară trecutul cu prezentul.
If
x f 1 1
şi Ix
x 1 f1
(8.13)
x f 1 0 x 0 f1
Nici în acest caz produsul indicilor factorilor nu este egal cu indicele variabilei complexe:
I y ( x , f ) I y ( x ) I y ( f ) , respectiv
x 1 f1
x 1 f1
x 1 f1
(8.14)
x 0 f0 x 1 f0 x 0 f1
Răspunsul la întrebarea « Care din cele două tipuri de indici măsoară mai corect variaţia
intervenită în variabila "x" sau "f "? » este greu de dat. Aceasta datorită faptului că oricare
are avantaje, dar şi dezavantaje în raport cu celălalt tip.
În practica statistică se preferă de cele mai multe ori indicele de tip Laspeyres, opţiune
determinată de faptul că determinarea lui reclamă numai cunoaşterea nivelului din
perioada curentă pentru caracteristica pentru care se calculează ( x1 sau f 1 ).
c) Sistemul de ponderare propus de Fisher porneşte de la unele limite ale indicilor de tip
Laspeyres (învechirea ponderii) şi Paasche (nu conduce la o serie de indici comparabili)
şi de la faptul că nici unul nu satisface cerinţa de sistem: I y ( x, f ) I y ( x) I y ( f ) .
El propune ca indicele variabilei calitative (X) şi a variabilei cantitative (F) să se calculeze
ca o medie geometrică a indicelui de tip Laspeyres şi de tip Paasche:
Ix
x 1 f0
x 1 f1
(8.15)
x 0 f0 x 0 f1
186
şi
If
x 0 f1
x f
1 1
(8.16)
x 0 f0 x f
1 0
Indicii de grup, a căror calculare se bazează pe suma produselor factorilor (xi şi fi) poartă
denumirea de indici agregaţi (vezi relaţiile 8.11 – 8.13).
v
Particularizăm aceste relaţii generale de calcul a indicilor de grup pentru indicele valorii ( I ),
q p
pentru indicele volumului fizic ( I ) şi pentru indicele preţurilor ( I ).
Indicele valorii măsoară variaţia valorii producţiei, desfacerilor, exporturilor etc. Dacă se
v
calculează pentru o singură unitate (produs, marfă etc) se determină indicele individual ( i ).
v1 q1 p1
iv (8.17)
v0 q0 p 0
v
iar dacă se determină pentru un grup de unităţi, se calculează indicele de grup ( I ).
Iv
v 1
q 1 p1
(8.18)
v 0 q 0 p0
Indicele valorii măsoară variaţia relativă a valorii sub influenţa modificărilor intervenite în
volumul fizic ( q ), care este factorul cantitativ şi în nivelul preţului ( p ), care este factorul calitativ.
Dacă interesează modificarea absolută a valorii (Δ), se face diferenţa dintre numărătorul şi
numitorul indicelui.
v(q, p ) q1 p1 q 0 p 0 (8.19)
q1
iq
q0
Indicele de grup al volumului fizic este un indice de tip Laspeyres, deci preţurile se folosesc ca
ponderi cu nivelul din perioada de bază ( p 0 ).
187
Iq
q 1 p0
(8.20)
q 0 p0
Modificarea absolută a valorii numai datorită modificărilor intervenite în volumul fizic [ v(q ) ],
se calculează ca diferenţa dintre numărătorul şi numitorul indicelui:
p1
ip
p0
Iq
q 1 p1
(8.22)
q 1 p0
v( p ) q1 p1 q1 p 0 p1 p 0 q1 (8.23)
indicele preţurilor trebuie să fie un indice de tip Paasche [8.22]. Dacă indicele preţurilor se
calculează ca un indice independent, acesta poate fi construit şi după regula propusă de
Laspeyres (vezi indicele preţurilor de consum).
Aşa cum s-a menţionat, statistica apelează, în vederea determinării diferiţilor indicatori, la
toate datele disponibile care răspund scopului cunoaşterii. De cele mai multe ori se cunoaşte nivelul
variabilei complexe pentru cele două perioade ( y 0 x 0 f 0 şi y1 x1 f1 ).
188
Din diferite înregistrări special organizate (anchete statistice) se obţin date (valori) pentru
factorul cantitativ din cele două perioade ( f 0 şi f 1 ). Pe baza acestor valori se calculează indicele
f1
if f1 i f f 0
f0
I f
f 1 x0
i f x
f
0 0
(8.24)
f 0 x0 f x 0 0
Iq
q 1 p0
i q p
q
0 0
(8.25)
q 0 p0 q p0 0
Exemplificăm calculul indicilor de grup ca o medie a indicilor individuali pe baza datelor privind
volumul valoric al desfacerilor unui agent economic.
189
Exemplul 8.1 – Calculul indicilor agregaţi ca medie a indicilor individuali ai volumului
fizic
Să presupunem că o companie vinde trei categorii de produse, iar managerul companiei doreşte
să ştie care este influenţa separată a modificării cantităţilor şi preţurilor din luna septembrie a
ultimilor doi ani asupra valorii vânzărilor din aceleaşi perioade. Se cunosc valoarea vânzărilor din
anii 2008 şi 2009 (col. 1 şi 2), precum şi modificarea volumului fizic (col. 3)
Tabelul 8.1 – Vânzările companiei X din luna septembrie a anilor 2008 şi 2009
Pentru fiecare produs (element) se poate calcula câte un indice (individual) care măsoară variaţia
relativă privind valoarea ( i v ), volumul fizic ( i q ) şi preţurile ( i p ). În cazul produsului A, obţinem:
A
v 2009 A
q 2009 p 2009
A
220
i Av 100 100 100 110,0%
A
v 2008 q 2008 p 2008
A A
200
A
q 2009
i A 100
q
A
q 2008
Nu cunoaştem cantităţile vândute în cele două perioade. Dar modificarea procentuală este ritmul
(R), care se obţine scăzând 100 din indice:
i Av 110
i Ap q
100 100 104,8%
iA 105
Pentru celelalte două produse, indicii sunt prezentaţi în tabelul 8.1, coloanele 4 – 6.
Indicele de grup privind valoarea vânzărilor se calculează ca un indice agregat.
Iv
q .p 1 1
2100
100 105%
q .p 0 0 2000
ceea ce înseamnă că valoarea vânzărilor a crescut cu 5% sau de 1,05 ori, respectiv cu 100 milioane
lei, pe seama modificării cantităţilor vândute şi a preţurilor.
190
În cazul indicelui agregat privind volumul fizic nu se cunoaşte numărătorul ( q1 p 0 ) şi, ca
atare, se va aplica indicele mediu aritmetic ponderat.
I q
i q p
q
0 0
1,05 200 0,98 1500 1,10 300 2010
1,005 sau 100,5%.
q p0 0 2000 2000
Interpretare: Datorită creşterii numai a cantităţilor vândute, valoarea vânzărilor trebuie să fie cu
0,5% mai mare decât în perioada de bază. Creşterea absolută a valorii vânzărilor pe seama acestui
factor trebuie să fie de 10 milioane lei.
I v 1,050
Iv Iq I p I p 1,045 ori sau 104,5%.
I q 1,005
Interpretare: Preţurile produselor vândute au fost în medie cu 4,5% mai mari decât în aceeaşi
lună a anului 2008 sau valoarea desfacerilor trebuie să crească numai datorită creşterii preţurilor
cu 4,5%, respectiv cu 90 milioane lei.
x1 1
ix x0 x x1
x0 i
1
Dacă se înlocuieşte în relaţia indicelui agregat x 0 cu expresia „ x1 ” rezultă:
ix
Ix
x 1 f1
x f1 1
(8.26)
x 0 f1 1
i x f
x 1 1
Ip
p 1 q1
p q 1 1
(8.27)
p 0 q1 1
i p q
p 1 1
Relaţia [8.27] ne sugerează faptul că este un indice Paasche. Cu alte cuvinte, indicele
Paasche este o medie armonică a indicilor individuali ai preţurilor.
Din relaţiile (8.25) şi (8.27) rezultă faptul că indicele factorului cantitativ se calculează folosind
drept pondere valoarea variabilei complexe din perioada de bază, iar indicele factorului calitativ se
construieşte pe baza valorilor variabilei complexe din perioada curentă. Se procedează astfel dacă
indicele preţurilor se încadrează într-un sistem de genul Iv Iq I p.
191
Dacă indicele preţurilor se calculează ca un indice independent, deci fără încadrarea lui
într-un sistem de indici, acesta se determină după regula Laspeyres, deci ca o medie aritmetică a
indicilor individuali:
I p
i q p p
0 0
(8.28)
q p 0 0
Aşa se procedează, de exemplu, în cazul indicelui preţurilor de consum, care măsoară variaţia
relativă a preţurilor în ipoteza în care cantităţile de produse şi servicii de consum cumpărate de
populaţie nu s-au modificat faţă de perioada de bază.
Exemplificăm calculul unui indice al preţurilor pe baza datelor unui agent economic care
comercializează două produse.
Din ultima coloană observăm că preţul produsului A s-a modificat cu +12%, iar cel al produsului
B cu -2%.
Pentru fiecare produs în parte se poate analiza, pe baza indicilor individuali, modificarea relativă
intervenită în volumul desfacerilor, în preţurile şi în cantităţile vândute. Dacă interesează
modificarea relativă a preţurilor la nivelul companiei se calculează indicele de grup.
Ip
p 1 q1
p q 1 1
590
590
1,091 ori sau
p 0 q1 1
i p q
p 1 1
1
480
1
110
540,82
1,12 0,98
I p 109,1%
Aşadar, preţurile celor două produse au crescut în medie de 1,091 ori sau cu 9,1%. Observăm, de
asemenea, că volumul desfacerilor din luna iunie 2009 la preţurile din anul 2008 ar fi fost de
540,82 mil. lei. Cu alte cuvinte, din sporul total al volumului vânzărilor de 90 milioane lei, 49,18
milioane lei este efectul creşterii preţurilor (90-40,82), iar restul este efectul creşterii volumului
fizic al vânzărilor.
192
8.5 Indicii de grup calculaţi ca raport a două medii
În practică se operează frecvent cu indicatori care au caracter de medie. Astfel de indicatori
sunt de exemplu: salariul mediu, preţul mediu, rata medie de rentabilitate etc. Variaţia relativă a unor
astfel de indicatori se caracterizează prin intermediul indicilor calculaţi ca un raport a două medii
aritmetice. Aşa cum se cunoaşte, nivelul mediei ( x ) depinde de valorile individuale din care se
ni
calculează ( x i ) şi de structura colectivităţii , respectiv, de frecvenţa relativă cu care apar
n i
valorile x i .
Indicele calculat ca raport a două medii evidenţiază variaţia relativă în timp a mediei în
perioada curentă faţă de perioada de bază.
Ix
x1
x n : x n
1i 1i 0i 0i
x n n
1i 1i 0i
(8.29)
x0 n n
1i 0i n x n 1i 0i 0i
n1i n0i
b) modificarea structurii colectivităţii
n1i n 0i
Salariul mediu din economie, de exemplu, poate creşte dacă cresc salariile salariaţiilor, dar şi
dacă aceste salarii rămân neschimbate însă creşte proporţia salariaţilor care au avut salarii mai mari
în perioada de bază.
Indicele raportului a două medii în care toţi factorii de influenţă implicaţi sunt variabili, poartă
x xi , i
n
Modificarea absolută a mediei sub influenţa tuturor factorilor care apar în relaţia de calcul se
obţine ca diferenţa dintre numărătorul şi numitorul indicelui.
x n 1i 1i
x n 0i 0i
(8.30)
x xi ,
ni
ni n 1i n 0i
Indicele factorului calitativ (x) este un indice de tip Paasche, deci ponderile sunt cele
din perioada curentă.
x ( xi )
I SF
x n : x n
1 1 0 1
(8.31)
n n
1 1
Acest indice măsoară care ar fi fost variaţia relativă a mediei dacă s-ar fi modificat numai
valorile caracteristicii la nivelul unităţilor şi structura colectivităţii ar fi fost cea din perioada
curentă. Este indicele mediei cu structură fixă ( I SF ).
193
x ( xi )
x n x n
1 1 0 1
(8.32)
n n 1 1
ni
) se calculează ca indice de tip Laspeyres. Exprimă
n
Indicele factorului cantitativ (
i
care ar fi fost variaţia relativă a mediei dacă s-ar fi modificat numai structura colectivităţii
(indicele variaţiei structurii - I VS ):
I VS
x(
ni
ni
)
x n : x n
0 1 0 0
(8.33)
n n 1 0
x n x n
0 1 0 0
(8.34)
n n
ni
x( )
ni 1 0
Între indicii de grup, respectiv între modificările absolute corespunzătoare există relaţiile:
x xi , i
n
ni I x ( xi ) I x (
ni
)
ni
I SV SF VS (8.35)
respectiv:
x ( xi ) (8.36)
x xi , i
n ni
ni
x( )
ni
Salariul mediu este raportul dintre fondul de salarii (F) şi numărul de salariaţi (N).
La nivelul fiecărui agent economic şi pentru fiecare perioadă, salariul mediu ( S ti ) se obţine prin
împărţirea fondului de salarii ( Fti ) la numărul salariaţilor ( N ti ). Rezultatele sunt prezentate în
tabelul 8.3, în coloanele 5 şi 6.
194
La nivelul celor doi agenţi economici, salariul mediu rezultă din expresia:
2 2
Fti S ti N ti
St i 1
2
i 1
2
, deoarece Fti S ti N ti .
N
i 1
ti Ni 1
ti
110
S0 3,667 mii lei.
30
184
S1 4,842 mii lei.
38
Salariul mediu a crescut de 1,3204 ori sau, în procente, cu 32,04%.
2 2
S F1i F 0i
4,842
I 1
S i 1
2
: i 1
2
1,3204
N N
S0 3,667
1i 0i
i 1 i 1
Creşterea salariului mediu la nivelul celor două companii (întreprinderi) cu 32,1% sau, în cifre
absolute, cu 1,175 mii lei, se poate analiza în funcţie de modificările intervenite în salariul mediu la
nivelul fiecărui agent economic ( S i ) şi în funcţie de mutaţiile care au avut loc în structura
Ni
angajaţilor ( )
N i
I
S Si , i
N i S1 S N : S N
1i 1i 0i 0i
4,842
1,3204 ori
N N
SV
S0 1i 0i 3,667
S S i
I SF
S N : S N
1i 1i 0i 1i
184 140
: 1,314 ori
N N 1i 1i 38 38
Interpretare: Salariul mediu pe total ar fi sporit cu 31,4% dacă s-ar fi modificat numai salariul
mediu la nivelul fiecărui agent economic.
Modificarea absolută determinată de influenţa acestui factor este de +1,158 mii lei:
SSFSi
S N 1i 1i
S N 0i 1i
184 140
1,1579 mii lei.
N 1i N 1i 38 38
195
Indicele salariului mediu al variaţiei structurii:
N
I
S i
N i S N : S N
0i 1i 0i 0i
140 110
: 3,684 : 3,667 1,0047 ori
N N
VS
1i 0i 38 30
N
S i
N i S N
0i 1i
S N 0i 0i
140 110
3,684 3,667 0,0175 mii lei
N N
VS
1i 0i 38 30
Interpretare: Salariul mediu pe total trebuia să crească cu 0,47% sau, în cifre absolute, cu 0,018
mii lei, dacă s-ar fi modificat numai structura salariaţilor, iar salariile la nivelul fiecărui agent
economic ar fi rămas la nivelul lunii iunie 2008.
Influenţa pozitivă a variaţiei structurii asupra salariului mediu se explică prin faptul că a crescut
importanţa componentei B în totalul salariaţilor, de la 66,7% în iunie 2008 la 68,4% în luna iunie
2009, companie în care şi salariul mediu este mai mare. Deci salariile mai mari intră cu o pondere
mai mare în calculul mediei.
In final, să verificăm identităţile din relaţiile [8.35] şi [8.36]:
N N
S Si , i S i
I
N i I S Si I N i 1,3204 1,3143 1,0047
SV SF VS
Variaţia variabilei complexe şi influenţa factorilor pot fi calculate şi analizate în mărimi relative
şi în mărimi absolute. Descompunerea variaţiei relative pe factori de influenţă presupune
descompunerea indicelui variabilei complexe în produsul indicilor factorilor. Această descompunere
este denumită descompunere geometrică.
Metodele cele mai folosite de descompunere a variaţiei unei variabile complexe pe factori de
influenţă sunt:
196
b) metoda influenţelor izolate ale factorilor (MIIF) sau metoda restului nedescompus (MRN).
1) mai întâi se modifică factorul cantitativ (se substituie f 0 cu f 1 ), toţi ceilalţi factori rămân
la nivelul din perioada de bază;
există relaţia y i x i f i , influenţa factorilor după procedeul subsituirii în lanţ se calculează conform
relaţiilor:
I y( f )
x 0 f1
(8.37)
x 0 f0
y ( f ) x0 f1 x0 f 0 (8.38)
I y( x)
x 1 f1
(8.39)
x 0 f1
y ( x ) x1 f1 x0 f1 (8.40)
I y ( x, f )
x 1 f1
I y( x) I y( f ) (8.41)
x 0 f0
respectiv:
y ( x , f ) x1 f1 x0 f 0 y ( x ) y ( f ) (8.42)
Pentru ilustrarea acestei metode pornim de la datele din tabelul 8.3 şi ne propunem să
calculăm influenţa factorilor asupra modificării fondului de salarii (F) în luna decembrie 2009 faţă de
luna decembrie 2008.
197
Factorii de influenţă care pot fi implicaţi în această analiză sunt, conform datelor din tabelul
8.3, numărul de salariaţi, (factorul calitativ N i ) şi salariul mediu ( S i ).
I F ( N ,S )
N 1 S1
12 4,5 26 5,0 184
1,673 ori sau +67,3%
N 0 S0 10 3,0 20 4,0 110
Fondul de salarii a sporit cu 67,3%, ceea ce înseamnă +74 mii lei la fondul de salarii, în
mărime absolută.
I F(N )
N 1 S0
12 3,0 26 4,0 140
1,273 ori sau 127,3%
N 0 S0 10 3,0 20 4,0 110
şi:
Dacă ar fi crescut numai numărul salariaţilor, fondul de salarii trebuia să fie mai mare cu
27,3%, respectiv cu 30 milioane lei.
I F (S )
N 1 S1
12 4,5 26 5,0 184
1,314 ori sau 131,4%
N 1 S0 12 3,0 26 4,0 140
şi
Metoda influenţelor izolate ale factorilor (MIIF) sau metoda restului nedescompus (MRN)
presupune că fiecare factor acţionează independent. Aceasta înseamnă că influenţa fiecărui factor se
calculează pornind de la presupunerea că toţi ceilalţi factori rămân la nivelul perioadei de bază.
Procedând astfel, produsul indicilor factoriali şi, corespunzător, suma modificărilor absolute nu
este egală cu modificarea totală a variabilei complexe. Ca atare, o parte din variaţia variabilei
complexe nu se atribuie factorilor, parte denumită rest nedescompus.
198
în a doua etapă se repartizează modificarea variabilei complexe determinată de
modificarea concomitentă a factorilor (rest nedescompus).
Utilizarea acestui procedeu presupune, în cazul în care se implică doi factori de influenţă,
determinarea a trei indici, respectiv a trei modificări absolute:
I y( f )
x 0 f1
(8.43)
x 0 f0
şi
y ( f ) x0 f1 x0 f 0 f x0 (8.44)
I y( x)
x 1 f0
(8.45)
x 0 f0
respectiv
y ( x ) x1 f 0 x0 f 0 x f 0 (8.46)
De remarcat faptul că, prin această metodă, nivelul factorului cantitativ folosit la estimarea
influenţei factorului calitativ este cel din perioada de bază, spre deosebire de metoda
substituţiei în lanţ.
I y ( x f )
x 1 f1
:
x 1 f0
(8.47)
x 0 f1 x 0 f0
respectiv:
y ( x f ) x1 f1 x0 f1 x1 f 0 x0 f 0 x f (8.48)
I y ( x, f ) I y ( f ) I y ( x ) I y ( x f ) (8.49)
y ( x, f ) y ( f ) y ( x ) y ( x f ) (8.50)
Aşa cum s-a menţionat, specific metodei indicilor este faptul că variaţia variabilei complexe se
descompune în totalitate pe factorii de influenţă implicaţi în analiză. În situaţia a doi factori de
influenţă, restul nedescompus trebuie repartizat pe cei doi factori de influenţă.
să se atribuie integral unui singur factor, caz în care se ajunge la procedeul substituţiei în
lanţ;
199
să se repartizeze în funcţie de ponderea influenţei izolate a fiecărui factor în suma
influenţelor izolate ale factorilor, variantă pentru care se optează cel mai frecvent în
practică. Proporţia în care se repartizează restul nedescompus pe cei doi factori de
x
influenţă ( k şi k f ) se calculează astfel:
kf
f x 0
(8.51)
f x x f
0 0
şi:
kx
x f 0
(8.52)
f x x f
0 0
Influenţa totală a fiecărui factor asupra variaţiei variabilei complexe se determină pe baza
relaţiilor:
y ( x ) x f 0 k x x y (8.53)
y ( f ) f x0 k f x y (8.54)
Desigur, fiecare din cele două metode de descompunere are o serie de avantaje şi limite.
Dezavantajele se amplifică în cazul ambelor procedee, odată cu creşterea numărului factorilor de
influenţă. În cazul MSL este necesar să se separe factorii de influenţă după natura lor, iar în cazul
MIIF creşte numărul resturilor nedescompuse care trebuie repartizate pe factori de influenţă.
I F ( N ,S )
N 1 S1
184
1,673 ori sau +67,3%
N 0 S0 110
şi:
F ( N , S ) N 1 S1 N 0 S 0 74 mii lei
I F(N)
N 1 S0
140
1,273 ori sau 127,3%
N 0 S0 110
şi:
F ( N ) N 1 S 0 N 0 S 0 30 mii lei
I F (S )
N 0 S1
145
1,318 ori sau 131,8%
N 0 S0 140
şi
F ( S ) N 0 S1 N 0 S 0 35 mii lei.
200
Tabelul 8.4 - Fondul de salarii, numărul de angajaţi şi salariul mediu al companiilor A şi B în luna
decembrie a anilor 2008 şi 2009
Com- S0 S1 N0 N1 N 0 S1 S N S N
pania (mii lei) (mii lei) (pers) (pers) (mii lei) (mii lei) (mii lei) (mii lei)
0 1 2 3 4 5 6 7 8
A 3,0 4,5 10 12 45 +1,5 +2 3,0
B 4,0 5,0 20 26 100 +1,0 +6 6,0
Total - - 30 38 145 - - 9,0
I F (S N )
N 1 S1
:
N 0 S1
184 145
: 0,997 ori sau 99,7%.
N 1 S0 N 0 S0 140 140
şi:
F ( S N ) N1 S1 N1 S 0 N 0 S1 N 0 S 0
184 140 145 110 9 mii lei
Cota parte din restul nedescompus care se atribuie influenţei numărului salariaţilor:
F ( N ) 30
kN 0,462
F ( N ) F ( S ) 30 35
Cota parte din restul nedescompus care se atribuie influenţei salariului mediu:
F ( S ) 35
kS 0,538
F ( N ) F ( S ) 30 35
Influenţa factorilor asupra modificării fondului de salarii este:
Însumarea celor două influenţe este egală cu 74 mii lei, adică diferenţa fondurilor de salarii din
cele perioade. Aşadar, creşterea fondului de salarii cu 67,3%, respectiv cu 74 mii lei a fost determinată
în proportie de 53,8% de sporirea salariilor medii la nivelul agenţilor economici şi în proporţie de
46,2% de creşterea numărului salariaţilor.
201
8.7 Serii cronologice de indici statistici
Caracterizarea evoluţiei unui indicator în timp se bazează pe analiza seriilor cronologice. Serii
cronologice se construiesc nu numai pentru indicatori absoluţi, ci şi pentru indicatori relativi, pentru
indici.
Construirea unei serii cronologice pentru indicii individuali nu ridică probleme deosebite.
Singurul aspect ce trebuie rezolvat se referă la alegerea bazei de comparaţie, care poate fi aceeaşi
pentru întreaga serie (au bază fixă) sau diferită la fiecare indice (cu baza în lanţ). Pentru factorul x i ,
de exemplu, seria de indici se obţine din relaţia :
cu bază fixă :
xt
itx/ 0 , t 1, n (8.55)
x0
cu bază în lanţ :
xt
itx/ t 1 , t 1, n (8.56)
xt 1
La construirea de serii pentru indicii de grup agregaţi (valorile observate nu sunt direct
însumabile) trebuie soluţionată problema ponderii.
Dacă toţi indicii care compun seria au aceeaşi pondere, se dispune de o serie de indici cu
ponderi constante. Dacă ponderea diferă de la un indice la altul se dispune de o serie de indici cu
ponderi variabile.
Din combinarea bazei de comparaţie cu ponderea utilizată se pot construi patru tipuri de serii
cronologice de indici de grup.
If
x 0 ft
, respectiv Ix
x t f0
, t 1, n (8.57)
x 0 f0 x 0 f0
Iq
q t p0
q 1 p0
;
q 2 p0
,.....,
q n p0
q 0 p0 q 0 p0 q 0 p0 q 0 p0
După această regulă se construieşte şi indicele preţurilor de consum (IPC) sau indicele
preţurilor producţiei industriale (IPPI):
IPC
p t q0
p 0 q0
După cum se poate observa, ponderile sunt din perioada de bază. Ponderile respective sunt
date de ponderea cheltuielilor medii ale gospodăriilor din România pentru diferite categorii de produse
şi servicii dintr-un an anterior. De regulă, decalajul dintre perioada ponderilor este de doi ani faţă de
anul pentru care se calculează IPC. În unele ţări se procedează la „glisarea” anului, astfel încât
decalajul să fie cât mai mic.
202
Baza de comparaţie a IPC-ului cu baza fixă este fie luna decembrie din anul precedent, fie
aceeaşi lună a anului anterior. Fiiind un indice cu bază fixă şi ponderi constante, se poate construi cu
uşurinţă seria indicilor cu bază în lanţ.
If
x f 0 t
, respectiv Ix
x t f0
, t 1, n (8.58)
x f 0 t 1 x t 1 f0
Astfel de serii de indici se construiesc în practică pentru caracterizarea dinamicii volumului
fizic şi al preţurilor în luna curentă faţă de luna precedentă.
IPC
p t q0
p 1 q0
,
p 2 q0
,....,
p n q0
p t 1 q0 p 0 q0 p 1 q0 p n 1 q0
Produsul indicilor cu baza în lanţ şi cu ponderi constante care compun seria conduce la un
indice cu bază fixă:
n
p q0 p q0
t t
t 1 pt 1 q0 p 0 q0
Această proprietate a indicilor stă la baza înlănţuirii indicilor.
If
x f t t
, respectiv Ix
x t ft
, t 1, n (8.59)
x f t t 1 x t 1 ft
Produsul indicilor unei astfel de serii nu conduce la un indice cu bază fixă.
If
x f t t
, respectiv Ix
x t ft
, t 1, n (8.60)
x f t 0 x 0 ft
Asemenea serii se construiesc pentru indicii preţurilor utilizaţi la deflatarea agregatelor
valorice de producţie (producţia industrială, produsul intern brut etc).
203
Indici cu bază fixă Metoda influenţelor izolate ale
factorilor = metoda restului
Indici cu bază în lanţ = indici cu bază
nedescompus
mobilă
Metoda substituirii în lanţ
Indici de grup cu ponderi constante
Serie cronologică de indici
Indici de grup cu ponderi variabile
3. Care este deosebirea dintre un indice de grup de tip Laspeyres şi de tip Paasche ?
4. De ce se optează în practica statistică, de cele mai multe ori, pentru indicele Laspeyres ?
8. Cum se aleg ponderile la construirea sistemului de indici calculaţi ca raport a două medii ?
10. De ce rămâne în cazul metodei influenţelor izolate o parte nedescompusă din variaţia
variabilei complexe ?
12. Când produsul unei serii cronologice de indici cu bază în lanţ este egal cu indicele cu
bază fixă ?
8.10 Bibliografie
1. Biji E., Wagner P., Lilea E., Petcu N., Vătui V. – Statistică, Editura Didactică şi
Pedagogică, Bucureşti, 1999, p. 322-372
2. Korka M., Begu L., Tuşa E. – Bazele statisticii pentru economişti, Editura Tribuna
Economică, Bucureşti, 2002, p. 197-222
204
Capitolul 9: ELEMENTE DE SONDAJ STATISTIC
9.1 Introducere
Cunoaşterea statistică a realităţii din oricare domeniu de activitate presupune colectarea de
date individuale pentru caracteristicile care interesează, iar prin sistematizarea şi prelucrarea acestor
date să se obţină informaţii care răspund obiectivului urmărit. Datele empirice individuale pot fi
obţinute prin metode de înregistrare (observare) exhaustivă sau parţială.
Înregistrările parţiale, cunoscute în practica statistică sub numele de anchete sau sondaje
statistice, sunt preferate investigaţiilor totale datorită avantajelor pe care le au faţă de acestea din
urmă.
Un aspect fundamental al sondajelor este că, din toate eşantioanele care pot fi extrase dintr-o
colectivitate generală, al căror număr este de cele mai multe ori astronomic, putem investiga doar unul
singur. Este esenţial, astfel, ca rigorile teoretice şi metodologice să fie urmate cu perseverenţă, pentru
a evita ca erorile inerente să nu distorsioneze substanţial estimaţiile.
Colectivitatea generală este alcătuită din totalitatea unităţilor / elementelor care formează
fenomenul sau procesul care face obiectul cercetării. Din colectivitatea generală se extrag unităţile
care compun eşantionul. Din acest motiv se mai numeşte bază de sondaj. Numărul unităţilor care
alcătuiesc baza de sondaj defineşte volumul acestuia (N).
Indicatorii statistici calculaţi pe baza datelor aferente colectivităţii generale se mai numesc
parametrii colectivităţii generale. Exemplele tipice de parametri sunt: media, totalul şi dispersia. Aceşti
205
parametri se estimează în cazul sondajului statistic cu ajutorul estimatorilor: estimator de medie,
estimator de total, estimator de dispersie.
Baza de sondaj reprezintă, uzual, o listă cu toate unităţile compun colectivitatea generală,
listă alcătuită după un criteriu care nu are nici o legătură cu ordinul de mărime al valorilor variabilelor
înregistrate. Exemple de baze de sondaj folosite frecvent în cazul anchetelor statistice ar putea fi:
registrul auto, liste electorale, lista localităţilor, registrul agenţilor economici, registrul populaţiei, lista
gospodăriilor înregistrate la recensământ etc.
- să fie actuală;
- uşor accesibilă
Eşantionul reprezintă o parte din colectivitatea generală, extrasă astfel încât să reproducă
principalele trăsături esenţiale ale colectivităţii generale din care a fost extras. Numărul unităţilor care
compun eşantionul reprezintă volumul acestuia (n). Sondajul statistic poate caracteriza suficient de
corect realitatea numai dacă eşantionul este reprezentativ.
Potrivit unei definiţii clasice, un eşantion este reprezentativ dacă reproduce structura şi
principalele trăsături ale colectivităţii din care a fost extras. Cu alte cuvinte, eşantionul este
reprezentativ dacă este o fotografie la scară redusă a colectivităţii generale. Metodele actuale utilizate
în domeniul sondajelor permit, totuşi, să extragem eşantioane care nu reproduc întocmai structura
colectivităţii generale, însă păstrează calitatea de a fi reprezentative. De aceea, o definiţie mai corectă
este aceea conform căreia un eşantion este reprezentativ dacă fiecare unitate din colectivitatea
generală are o şansă nenulă de a fi selectată în eşantion, eşantion care se numeşte probabilist.
Reprezentativitatea este asigurată de caracterul aleator al selecţiei prin care fiecare unitate
din populaţia de referinţă are o probabilitate nenulă de a fi prezentă în orice eşantion extras; orice
unitate care are o probabilitate nulă va fi omisă sistematic, deci nu va fi reprezentată în eşantion.
Chestiunea importantă este ca eşantionul reprezentativ (selectat aleator) să fie eficace pentru
estimarea oricărei variabile şi studierea oricărei sub-populaţii, ceea ce echivalează cu estimarea
parmetrilor într-un interval de precizie acceptabilă.
Indicatorii statistici calculaţi pe baza datelor înregistrate pentru eşantion sunt numiţi
estimatori.
206
probabilitatea de selecţie, notată cu p s , asociată eşantioanelor - probabilitatea nenulă ca
o unitate să fie selectată la fiecare extragere elementară; suma probabilităţilor de selecţie
este 1;
Notaţiile folosite uzual pentru indicatorii colectivităţii generale şi cei ai eşantionului sunt
prezentate în Tabelul 9.1. Accentul circumflex plasat deasupra simbolurilor semnifică faptul că
mărimea statistică respectivă este estimată din eşantion, deci nu provine din calculul la nivelul întregii
colectivităţi supuse studiului.
Medie
Xi x i
X i 1
xˆ i 1
N n
X
N
2
X 1 n
Varianţă
u2 i 1
i
s2
n i 1
( xi xˆ ) 2
N
- în multe situaţii sondajul statistic este singura alternativă la care se poate recurge şi anume
atunci când cercetarea conduce la distrugerea elementelor. De exemplu: estimarea
recoltei agricole înainte de recoltare; determinarea duratei de funcţionare a unor produse;
cercetarea rezistenţei diferitelor materiale;
- este mai operativ şi mai ieftin deoarece numărul unităţilor de la care se culeg date este
semnificativ mai mic decât colectivitatea generală;
- permite cunoaşterea mai completă în sensul că în cazul unui număr mai mic de unităţi se
poate folosi un program de observare mai amplu comparativ cu cel utilizat în cazul unei
înregistrări exhaustive;
- erorile de înregistrare sunt de mai mică amploare şi pot fi depistate mai uşor;
207
- poate fi folosită ca mijloc de verificare a rezultatelor unei cercetări totale. La judecarea
avantajelor menţionate se adaugă faptul că sondajul statistic, fiind o cercetare statistică
parţială, oferă doar o estimare a parametrilor colectivităţii generale, deci rezultatele nu sunt
determinări exacte.
În concluzie, sondajul statistic s-a impus în practica cercetării din majoritatea domeniilor de
activitate datorită operativităţii cu care se obţin rezultatele, datorită costului informaţiilor şi, nu în ultimul
rând, datorită faptului că oferă rezultate suficient de exacte despre colectivitatea studiată.
Înregistrări şi cercetări totale se organizează în cazul câtorva situaţii în care este nevoie de o
cunoaştere exhaustivă a unor procese sau fenomene socio-economice: recensăminte ale populaţiei
sau ale întreprinderilor, recensăminte agricole etc.. Partea covârşitoare a indicatorilor macroeconomici
se estimează pe baza rezultatelor obţinute în urma cercetărilor prin sondaj. Producţia industrială,
producţia agricolă, produsul intern brut, volumul investiţiilor, efectivul salariaţilor, câştigul salarial
mediu, rata inflaţiei etc. sunt doar câteva exemple de indicatori statistici determinaţi prin aplicarea
sondajului statistic în statistica oficială. Tot prin sondaj sunt chestionaţi alegătorii la ieşirea de la urne
sau când sunt investigate diverse teme socio-economice.
- sondaje probabiliste;
- sondaje de volum mare – eşantionul este format din cel puţin 120 de unităţi;
- sondaje în trepte, când se parcurg cel puţin două etape la formarea eşantionului.
208
utilizarea sondajelor empirice. Caracteristic acestui tip de selecţie este faptul că elimină orice
intervenţie subiectivă în alegerea unităţilor ce formează eşantionul.
Chiar şi atunci când colectivitatea generală care este studiată nu este omogenă, se pot pune
la punct planuri de sondaj care compensează variaţia mare a variabilei sau variabilelor de interes.
Procedeele de sondaj aplicabile sunt cele prin stratificare, în trepte, cu probabilităţi inegale etc. Astfel,
se asigură includerea în eşantion a unor unităţi din toate categoriile, respectiv se asigură că structura
eşantionului să corespundă cu structura colectivităţii generale. Spre exemplu, în cazul sondajului
stratificat, după ce s-a stabilit volumul eşantionului (n) se extrage din fiecare strat existent în
colectivitatea generală câte un subeşantion folosind un procedeu aleator.
În vederea extragerii eşantionului se pot aplica mai multe procedee: procedeul tragerii la sorţi;
procedeul selecţiei cu numere aleatoare; procedeul selecţiei sistematice sau al pasului de numărare.
În practica generală, însă, se recurge la generarea de numere aleatoare cu ajutorul funcţiilor
implementate în programele informatice specializate în prelucrarea datelor. Generatoarele de numere
aleatoare sunt, de fapt, generatoare de numere „pseudoaleatoare”, deoarece numerele generate tind
să se repete după un număr mai mic sau mai mare de repetiţii. Pentru nevoile curente, însă, seriile de
numere generate sunt suficient de robuste.
1
i , i 1, n
N
Datorită faptului că o unitate poate intra de mai multe ori în eşantion, reprezentativitatea
eşantionului poate fi redusă şi, ca urmare, erorile pot fi mari. Numărul eşantioanelor care se pot forma
în acest caz este egal cu N .
1
1 ;
N
1
2 ;
N 1
1
3 ;
N 2
...
209
1
n
N n 1
Datorită faptului că o unitate nu poate intra de mai multe ori în eşantion, erorile sunt mai mici
comparativ cu selecţia repetată. Numărul de eşantioane de volumul n care se pot forma în acest caz
n
este egal cu C N .
N
p
n
În continuare, se generează un număr aleator cuprins între 1 şi p şi se extrage unitatea din
primele p unităţi ale bazei de sondaj. Celelalte unităţi care vor fi cuprinse în eşantion sunt
determinate de pasul de numărare.
Eşantionul de n unităţi este format din prima unitate extrasă la întâmplare şi din celelalte n – 1
unităţi determinate prin adăugarea succesivă a pasului de numărare la numărul de ordine al primei
unităţi. De exemplu, dacă N /n = 20 şi prima unitate extrasă corespunde numărului 7, atunci vor fi
cuprinse în eşantion: 7, 27, 47, 67, .... .
În practică, pentru utilizarea selecţiei sistematice se recomandă mai întâi sortarea crescătoare
a bazei de sondaj în funcţie de o variabilă puternic corelată cu variabilele de interes ale cercetării prin
sondaj, cât mai actuală. Această sortare asigură o stratificare implicită a eşantionului, dând
posibilitatea selectării unităţilor din toate categoriile de mărime.
Sondajele empirice sunt sondaje non-probabiliste, deoarece nu se poate stabili aprioric care
este probabilitatea de includere a fiecărei unităţi eşantionate. Acest fapt este cauzat de absenţa bazei
de sondaj, situaţie care poate fi compensată prin instrucţiunile date operatorilor de interviu pentru a
limita distorsiunile introduse în selecţia unităţilor de sondaj, distorsiuni induse fie de factorul uman care
efectuează selecţia, fie de algorimul utilizat, spre exemplu, în sondajele on-line sau telefonice.
210
intens utilizate variabile de control pentru o eventuală stratificare a posteriori în scopul ameliorării
estimaţiilor. În final, precizia se calculează ca şi cum selecţia este aleatoare.
Sondajele empirice sunt larg utilizate datorită operativităţii şi costurilor reduse. Prin metodele
de selecţie, statisticianul se asigură că ele se apropie de idealul metodelor probabiliste. De asemenea,
având la dispoziţie o serie de indicatori statistici ai populaţiilor supuse observării – indicatori statistici
proveniţi, de regulă, din sistemul statisticii oficiale, cum ar fi populaţia pe vârste, sexe, medii de
rezidenţă, localităţi – statisticianul poate aproxima probabilităţile de incluziune ale unităţilor selectate în
eşantion.
Există două principale metode de selecţie utilizate în sondajele empirice: metoda cotelor, cu
varianta sa a “itinerariilor”, şi metoda unităţilor-tip. De asemenea, mai există metoda voluntarilor, dar
pe care nu o vom trata în cele ce urmează.
Problemele cotelor se complică atunci când ele sunt încrucişate, deoarece există riscul ca
unele dintre ele să se epuizeze rapid, în sensul că acele cote care sunt construite pe caracteristici mai
frecvente pot fi completate mai rapid decât altele mai rar întâlnite, cum ar fi în cazul profesiilor liberale,
spre exemplu.
Metoda unităţilor-tip este, poate, cea mai empirică metodă din setul celor expuse aici. Ea
constă în desemnarea uneia sau mai multor unităţi “medii”, care posedă un număr de caracteristici
definitorii şi întâlnite la majoritatea colectivităţii generale. În felul acesta, se condideră că unităţile-tip
211
sunt “reprezentative” pentru colectivitatea respectivă. Alegerea este cel puţin parţial subiectivă şi se
bazează pe un pariu, în sensul că se prespune că unităţile-tip au un comportament similar cu cel al
colectivităţii generale şi, în consecinţă, se pot face generalizări fără riscuri prea mari de a greşi. După
ce caracteristicile unităţilor-tip au fost stabilite, alegerea propriu-zisă nu se face complet aleatoriu,
deoarece rezultatele finale pot fi încă şi mai dezastruoase, aşa cum în unele situaţii practice şi de
notorietate s-a întâmplat.
Trebuie acceptată situaţia că oricât de corectă ar fi făcută eşantionarea, valorile rezultate din
prelucrarea datelor aferente eşantionului se abat de la cele determinate pe baza datelor înregistrate
pentru colectivitatea generală. De asemenea, niciodată un eşantion planificat nu coincide cu cel
realizat, cu datele rezultate din observare.
Erorile de sondaj (de selecţie) se consideră diferenţele care există între valorile oricărui
indicator calculat pe baza datelor eşantionului şi valorile aceluiaşi indicator determinate pe baza
datelor aferente colectivităţii generale.
Erorile de înregistrare care intervin în cazul sondajului statistic sunt de mai mică amploare
comparativ cu cele în cazul unei înregistrări totale. Aceasta, datorită faptului că volumul datelor
înregistrate este semnificativ mai mic, iar culegerea datelor se realizează de un personal de
specialitate.
Erorile de reprezentativitate sunt specifice sondajului statistic. Ele pot fi erori sistematice şi
erori întâmplătoare.
Aceste erori pot fi evitate dacă se respectă întocmai principiile teoriei selecţiei.
212
Erorile de reprezentativitate întâmplătoare, deşi nu pot fi evitate, ele pot fi calculate cu
anticipaţie, dacă selecţia este probabilistică. Parametrii colectivităţii generale se estimează pe baza
indicatorilor obţinuţi din prelucrarea datelor eşantionului cu o anumită eroare întâmplătoare de
reprezentativitate.
Eroarea de reprezentativitate se determină de cele mai multe ori pe baza diferenţei dintre
media eşantionului ( x ) şi media colectivităţii generale ( X ). Se consideră că un eşantion este
reprezentativ dacă eroarea se încadrează în intervalul ± 5% , ceea ce înseamnă că:
x X
5% (9.1)
X
Determinarea erorii de reprezentativitate pe baza relaţiei 9.1 presupune să se cunoască
media colectivităţii generale, ceea ce presupune că s-a recurs, anterior, la o observare totală. De cele
mai multe ori sondajul statistic înlocuieşte o cercetare totală, deci nu se cunosc parametrii acesteia
(media, dispersia etc). În asemenea situaţii se recomandă, în vederea verificării eficacităţii
eşantionului, compararea mediei de sondaj cu media din baza de sondaj, în ipoteza că în baza de
sondaj dispunem cel puţin de o variabilă importantă care este corelată cu variabila de interes a
cercetării statistice.
Extragerea a două eşantioane de volum diferit şi compararea mediilor celor două eşantioane
este o altă soluţie, însă compararea cu baza de sondaj este cea mai firească şi mai relevantă,
deoarece există un risc – minim, dar prezent – ca cele două eşantioane să fie ambele distorsionate. În
plus, este foarte puţin probabil ca cel care suportă costurile cercetării prin sondaj să fie de acord să
finanţeze realizarea ei pe două eşantioane diferite pentru raţiuni metodologice, de verificare a egalităţii
mediilor de sondaj.
Dacă diferenţa dintre media de sondaj şi cea din baza de sondaj nu este semnificativă (de
peste 5%), atunci eşantionul poate fi folosit pentru estimarea parametrilor colectivităţii generale. În
cazul în care diferenţa este semnificativă se recomandă extragerea unui alt eşantion (diferit de primul),
extragere care se poate repeta până când se obţine un eşantion convenabil obiectivelor stabilite,
acceptând ipoteza că eşantionul rezultat va reflecta corect comportamentele din colectivitatea
generală. În selectarea eşantionului şi în stabilirea volumului acestuia se vor avea în vedere modul în
care se doreşte publicarea rezultatelor, la nivelul de dezagregare cel mai scăzut, astfel încât
subeşantioanele să fie consistente la acele niveluri, adică volumul lor să fie de minim 50 de unităţi.
Altfel, există riscul ca estimaţiile să nu poată fi garantate cu nivelul de precizie stabilit aprioric.
213
Dacă se iau în considerare toate eşantioanele posibile de un anumit volum n, se remarcă
faptul că mediile de selecţie x̂ i se distribuie normal faţă de media care coincide cu media colectivităţii
generale, care are frecvenţa cea mai mare de apariţie. Mai mult, într-un sondaj simplu aleator, media
tuturor mediilor de sondaj coincide cu media colectivităţii generale. Dar cum nu se cunoaşte care din
eşantioanele posibile a fost extras, nu se cunoaşte eroarea de reprezentativitate aferentă.
xˆ
S
2
s X ns
xˆ s 1
S (9.2)
n
s 1
s
unde :
În cazul unui sondaj aleator simplu nerepetat, în care numărul total al eşantioanelor posibile
n
este C , eroarea medie de reprezentativitate este:
N
xˆ
C Nn
2
s X
xˆ s 1
C Nn
Eroarea medie de reprezentativitate se poate calcula anticipat, pornind de la relaţia dintre
dispersia colectivităţii generale ( u ), dispersia mediilor de selecţie de la media colectivităţii generale
2
( x̂ ) şi volumul eşantionului ( n ).
2
În cazul selecţiei simple repetate această relaţie pentru o variabilă numerică este:
u2 = x2ˆ n (9.3)
u2
xˆ (9.4)
n
ceea ce înseamnă că mărimea erorii este direct proporţională cu dispersia colectivităţii
generale şi invers proporţională cu volumul eşantionului. Deci, cu cât împrăştierea valorilor individuale
în jurul mediei este mai pronunţată cu atât eroarea este mai mare, iar cu cât volumul eşantionului este
mai mare cu atât eşantionul este mai reprezentativ şi, implicit, eroarea de reprezentativitate este mai
mică.
214
Aplicarea relaţiei (9.4) presupune să se cunoască dintr-o cercetare totală anterioară dispersia
colectivităţii generale, situaţie foarte rar întâlnită în practica organizării unui sondaj statistic.
s2
ˆ xˆ (9.5)
n
1 n
unde s 2
n 1 i 1
( xi xˆ ) 2 , adică varianţa corectată calculată din eşantion.
N p (1 p)
p (9.6)
N 1 n
Având în vedere faptul că dispersia din colectivitatea generală este estimată de dispersia din
n
eşantion s pˆ pˆ (1 pˆ ) , putem estima dispersia proporţiei estimate conform relaţiei
2
n 1
n 1 pˆ (1 pˆ )
ˆ pˆ pˆ (1 pˆ ) (9.7)
n 1 n n 1
În cazul selecţiei simple nerepetate o unitate poate intra o singură dată în eşantion şi, ca
urmare, eşantioanele sunt mai „reprezentative” decât în cazul selecţiei repetate, ceea ce înseamnă că
eroarea este mai mică. Acest fapt se reflectă în relaţia de calcul a erorii medii de reprezentativitate
N n
prin introducerea unui coeficient de corecţie: . Dacă volumul colectivităţii generale este foarte
N 1
n
mare se renunţă la "1" din numitorul raportului, iar coeficientul menţionat este 1 .
N
Eroarea medie de reprezentativitate pentru sondajul nerepetat se calculează pe baza relaţiilor:
u2 n
xˆ 1 (9.8)
n N
respectiv:
s2 n
ˆ xˆ 1 (9.9)
n N
dacă nu se cunoaşte dispersia colectivităţii generale, ceea ce se întâmplă, de regulă, în
realitate deoarece, dacă am cunoaşte parametrii colectivităţii generale, nu ar mai fi fost nevoie de o
cercetare prin sondaj.
215
În cazul unei variabile alternative, eroarea medie de reprezentativitate se determină pe baza
relaţiilor:
N p (1 p) n
p 1 (9.10)
N 1 n N
dacă se cunoaşte proporţia din colectivitatea generală şi, dacă se cunoaşte numai proporţia
din eşantion,:
n pˆ (1 pˆ ) n pˆ (1 pˆ ) n
ˆ pˆ 1 1 (9.11)
n 1 n N n 1 N
În practică se consideră că un eşantion este reprezentativ dacă abaterea medie de selecţie de
la media colectivităţii generale (eroarea de reprezentativitate) este cuprinsă între ± 5% . Aceasta
înseamnă că interesează mai puţin eroarea medie de reprezentativitate, ci abaterea cea mai mare
(eroarea limită) care poate să apară între media eşantionului şi media colectivităţii generale.
xˆ z ̂ (9.12)
Xˆ
pˆ z ˆ pˆ (9.13)
Din relaţiile (9.12) şi (9.13) se observă faptul că eroarea limită este direct proporţională cu
probabilitatea cu care se garantează rezultatele şi invers proporţională cu precizia acestora.
216
Exemplul 9.1 – Calculul intervalului de încredere al estimaţiei de medie pentru o variabilă
numerică obţinută printr-un sondaj aleator simplu nerepetat (SASNR)
Presupunem că managerul unei firme cu 2000 de muncitori a dispus organizarea unui studiu cu
privire la folosirea timpului de lucru într-un schimb. Eşantionul pentru care s-au înregistrat date a
fost de 5% (n = 100).
Programul de observare selectivă a cuprins, pe lângă alte caracteristici, şi timpul nelucrat în cadrul
unui schimb exprimat în minute. Rezultatele sistematizării muncitorilor după timpul nelucrat se
prezintă în tabelul următor:
Tabelul 9.2 – Repartizarea muncitorilor după timpul nelucrat
Media eşantionului:
6
x i ni
1580
xˆ i 1
6
15,80 minute
n
100
i
i 1
Dispersia eşantionului:
6
1 2956
xi xˆ
2
s2 29,9
n 1 i 1 99
Coeficientul de variaţie ( Cv ) este egal cu 34,6%, ceea ce înseamnă că eşantionul poate fi
considerat relativ omogen, iar media timpului nelucrat de 15,8 minute relativ reprezentativă, fapt
pe care va trebui să îl verificăm.
217
eroarea medie de reprezentativitate:
s2 n 29,9 100
ˆ Xˆ
1 1 0,53 minute
n N 100 2000
Înseamnă că media unui eşantion n = 100 se abate în medie cu 0,54 minute de la media timpului
nelucrat a celor 2000 de muncitori.
eroarea limită:
s2 n
xˆ z 99,73 ˆ ˆ z 99, 73 1 3 (0,53) 1,6 minute
X n N
În tabelele întocmite pentru repartiţia normală, valoarea parametrului z corespunzătoare
probabilităţii de 99,73% este egal cu 3.
Aceasta înseamnă că abaterea cea mai mare care poate apare între media eşantionului şi media
colectivităţii generale este de ±1,60 minute. Putem concluziona că intervalul de încredere a mediei
pe muncitor a timpului nelucrat este cuprins între 15,80 – 1,60 minute şi 15,80 + 1,60 minute,
adică în intervalul (14,20 ; 17,40).
1,60
În termeni procentuali, eroarea limită relativă este de 100 10,1% .
15,80
Cu alte cuvinte, eşantionul garantează că eroarea maximă a mediei timpului nelucrat este de
10,10% cu o probabilitate de 99,73%.
s2 n
ˆ z 95 ˆ ˆ z 95 1 1,96 (0,53) 1,04 minute.
X X n N
Putem observa, astfel, că precizia creşte pe măsură ce probabilitatea de garantare scade, însă
creşte şi riscul de a obţine estimaţii în afara intervalului de încredere aprioric stabilit. În plus, dacă
dorim să garantăm cu o probabilitate de 95% ca media să se abată cu doar 5% de la media
colectivităţii generale, dar necunoscută, atunci trebuie să creştem volumul eşantionului.
Să notăm, de asemenea, o confuzie frecventă. Contrar opiniei generale neavizate, garantarea unei
estimaţii cu o probabilitate, spre exemplu, de 95% nu atrage implicit după sine o eroare maximă
admisă de 5% (ca o diferenţă între 100 şi 95). Aşa cum se poate vedea şi din exemplul de mai sus,
în cazul eşantionului studiat, pentru o probabilitate de 99,73%, eroarea estimaţiei este de peste
10%, iar pentru o probabilitate de 95%, eroarea este de peste 6%.
218
În exemplul următor prezentăm modul de calculul al erorii limită pentru estimarea unei
proporţii, pe baza datelor din Exemplul 9.1.
47
pˆ 0,47 sau 47%.
100
Prin rotunjire, putem spune că proporţia muncitorilor din eşantion al căror timp nelucrat
depăşeşte media de 15,8 minute (47%) se abate de la proporţia existentă în colectivitatea generală
cu cel mult 14,7 puncte procentuale cu o probabilitate de 99,73%. Cu alte cuvinte, intervalul de
încredere al proporţiei muncitorilor care au un timp nelucrat peste medie, garantat cu o
probabilitate de 99,73%, este cuprins între 32,3% şi 61,7%.
Eroarea limită relativă de reprezentativitate se calculează ca raport între eroarea limită de
reprezentativitate şi estimaţia punctuală obţinută. În cazul nostru,
219
p 14,7
%pˆ 100 100 31,2%
pˆ 47
De regulă, eroarea relativă acceptată este de 5%. Eroarea relativă de mai sus este substanţială,
inacceptabilă în condiţii reale. Ea este determinată, pe de o parte, de variabilitatea crescută a
variabilei studiate şi, pe de altă parte, de dimensiunea redusă a eşantionului. Ca urmare, singura
posibilitate de a asigura o precizie mai bună constă în mărirea eşantionului.
Din exemplul de mai sus am văzut că există o diferenţă între eroarea limită de
reprezentativitate şi eroarea limită relativă de reprezentativitate. Această diferenţă este foarte
importantă atunci când se interpretează rezultatele unui sondaj în care se calculează proporţii
exprimate procentual. De aceea, considerăm necesară formularea unor precizări legate de modul de
prezentare a erorii limită – admisă sau calculată – în cazul exprimării procentuale a unor proporţii.
De cele mai multe ori, atunci când sunt date publicităţii rezultatele unui sondaj de opinie al
căror eşantion cuprinde aproximativ 1200 de persoane, formularea standard din raportul tehnic este :
„Rezultatele sunt garantate cu o probabilitate de 95% pentru o eroare de 3%”. Cei care citesc
raportul studiului şi văd proporţiile din tabele sau grafice, în mod instinctiv construiesc intervalele de
încredere scăzând sau adăugând cele 3 procente la proporţiile publicate. Însă eroarea respectivă
este, de fapt, o diferenţă – maxim acceptabilă din punct de vedere teoretic – între proporţiile estimate
şi cele care se presupun a se regăsi în colectivitatea generală, proporţii care sunt exprimate
procentual. În acest caz, „3%” nu se citeşte „3 la sută” ci „3 puncte procentuale”. Eroarea şi confuzia
sunt generate, de fapt, de autorii rapoartelor tehnice. Dacă am interpreta în sens clasic eroarea de
3%, care este o rată, diferenţele pe care ar trebui să le adunăm sau să le scădem la/din proporţiile
rezultate ar trebui să fie egale cu 3% din proporţiile respective, adică să interpretăm în termenii erorii
relative de reprezentativitate. În cazul nostru, spre exemplu, potrivit interpretării erorii ca rată, la
proporţia de 47% nu ar fi trebuit să adăugăm sau să scădem 14,67 puncte procentuale, ci 14,67% din
47%, adică doar 6,89 puncte procentuale.
220
Pentru facilitatea calculelor, vom considera că mărimea populaţiei cu drept de vot – cea care
reprezintă colectivitatea generală (N) – este de aproximativ 17 milioane persoane. De asemenea,
pentru motive didactice, vom considera că mărimea eşantioanelor intervievate de fiecare institut
(n) a fost de aproximativ 12000 persoane.
Mai întâi, să prezentăm rezultatele date publicităţii de aceste institute la ora 21:00 în ziua de 6
decembrie 2009:
Tabelul 9.3 – Rezultatele sondajului la ieşirea de la urne în turul II al alegerilor prezidenţiale din 6
decembrie 2009
Voturi exprimate pentru (%):
Grupa de institute
Traian Băsescu (50,3) Mircea Geoană (49,6)
A 50,4 49,6
Interval de încredere teoretic 48,9 51,9 48,1 51,1
B 49,0 51,0
Interval de încredere teoretic 47,5 50,5 49,5 52,5
Pornind de la precizia anunţată, de 1,5 puncte procentuale faţă de rezultate publicate, procentul
institutelor din grupa A s-ar fi situat între 48,9% şi 51,9% pentru Traian Băsescu şi între 48,1% şi
51,1% pentru Mircea Geoană, iar pentru institutele din grupa B între 47,5% şi 50,5% pentru
Traian Băsescu şi între 49,5% şi 52,5% pentru Mircea Geoană. Aşadar, pentru ambele categorii de
institute rezultatele finale s-au situat în intervalele de încredere, însă institutele din grupa A au
avut o precizie mai bună decât cele din grupa B, deoarece eroarea de reprezentativitate, adică
diferenţa dintre media de sondaj şi cea a colectivităţii generale, a fost mai mică.
Acestea sunt diferenţele rezultate pe baza erorilor teoretice comunicate de institutele respective.
Să vedem, totuşi, care au fost erorile rezultate din datele de sondaj.
În primul rând, să calculăm erorile medii de reprezentativitate pentru fiecare dintre categoriile de
institute. Potrivit relaţiei (9.11), eroarea medie de reprezentativitate este:
După cum se poate constata, eroarea medie de reprezentativitate este aceeaşi în ambele cazuri.
Mai departe, pentru o probabilitate de garantare a rezultatului de 95%, eroarea limită de
reprezentativitate se calculează potrivit relaţiei (9.13).
221
Eroarea limită de reprezentativitate este de 0,89 puncte procentuale pentru ambele categorii de
institute. Aplicând acest rezultat la estimaţiile fiecărei categorii de institut, intervalele de încredere
ar fi fost:
Tabelul 9.4 – Intervalele de încredere ale rezultatelor sondajului la ieşirea de la urne în turul II al alegerilor
prezidenţiale din 6 decembrie 2009
Traian Băsescu (50,3%) Mircea Geoană (49,7%)
Grupa de
institute Limita Limita Limita Limita
inferioara superioara inferioara superioara
A 49,5 51,3 48,7 50,5
B 48,1 49,9 50,1 51,9
Într-un sondaj aleator simplu (repetat sau nerepetat) al cărui eşantion este de volum n, iar
colectivitatea generală este de mărime N, probabilitatea de incluziune a oricărei unităţi i este:
n
i (9.14)
N
Astfel, dacă dintr-o grupă de 20 de studenţi dorim să selectăm aleator 5 studenţi,
probabilitatea de incluziune în cazul unui sondaj aleator simplu este egală cu fracţia de sondaj, adică
5/20 = 1/4. Cu alte cuvinte, vom selecta aleator un student din 4.
222
În partea introductivă a acestui capitol am văzut că o etapă importantă în proiectarea planului
de sondaj este formularea estimatorilor, ca pas premergător extinderii (estimării) rezultatelor.
Extinderea rezultatelor, într-un sondaj, este de neconceput în absenţa probabilităţilor de incluziune.
Estimatorul de total, atunci când observăm valorile unei variabile de interes X este:
x
Tˆ ( X ) = i , (9.15)
is i
unde:
x x x
Tˆ ( X ) i i N i N xˆ , (9.16)
is i is n is n
N
unde x̂ este media aritmetică simplă obţinută din eşantionul s .
Să remarcăm faptul că totalul estimat din eşantion este obţinut prin multiplicarea cu N, fiind
deci necesară cunoaşterea mărimii colectivităţii generale.
Tˆ ( X ) N xˆ
x i
xˆ is
(9.17)
N N n
Fără a intra în detalii, vom spune că estimatorii de total şi de medie sunt estimatori
nedeplasaţi (fără erori sistematice) ai totalului şi mediei colectivităţii generale. Cu alte cuvinte, dacă
am extrage toate eşantioanele posibile din colectivitatea generală de volum N, media totalurilor şi
media mediilor din toate aceste eşantioane vor coincide cu totalul şi media colectivităţii generale.
Cum însă, de regulă, putem studia un singur eşantion, este rezonabil să considerăm că media
şi totalul dintr-un eşantion simplu aleator vor aproxima suficient de bine cei doi parametri ai
colectivităţii generale. Aproximarea, însă, se face prin estimarea intervalului de încredere în care se
află cele două estimaţii. Ca urmare, trebuie să calculăm eroarea medie de reprezentativitate ( ˆ x̂ ) şi
s2
ˆ xˆ în cazul SASR şi
n
223
s2 n
ˆ xˆ 1 în cazul SASNR.
n N
Eroarea medie de reprezentativitate estimată pentru un estimator de total este:
în cazul SASR
s2
ˆ xˆ N (9.18)
n
în cazul SASNR:
s2 n
ˆ xˆ N 1 (9.20)
n N
Calculul erorii limită pentru estimatorul de total este similar cu cel al estimatorului de medie.
Eşantionul se formează prin extragerea din fiecare strat a unui număr de unităţi simple
(subeşantioane de volum ni), fapt ce conduce la o mai mare reprezentativitate, şi, ca atare, la erori mai
mici.
Principiul sondajului stratificat constă în delimitarea colectivităţii generale în H grupe G1, G2,
G3, ...., GH, fiecare de mărime N1, N2, N3, ...., NH astfel încât
H H
N N h , iar n nh
h 1 h 1
224
ESTIMAREA TOTALULUI
Totalul variabilei X la nivelul universului este estimat de
H
Tˆ ( Xˆ ) N h Xˆ h (9.21)
h 1
unde
nh
Xˆ h
1
nh
x
i 1
hi (9.22)
Deoarece extragerile sunt independente de la un strat la altul, varianţa acestui estimator este :
H
h 1
H
V Tˆ ( Xˆ ) V N h Xˆ h N h2 V Xˆ h
h 1
(9.23)
unde:
ˆ
V X h 1
nh S h2
N h nh
(9.24)
1
cu S h2 ( X i X h ) 2 care este adevarata dispersie din stratul h, necunoscută.
N h 1 iGh
Dispersia adevărată din strat este estimată nedeplasat de dispersia calculată pe eşantionul
2
extras din strat, s h .
1
s h2 ( xi xˆ h ) 2 (9.25)
nh 1 iGh
n s2
Vˆ Xˆ h 1 h h
N h nh
(9.26)
2 nh sh2
H
V T ( X ) N h 1
ˆ ˆ ˆ (9.27)
h 1 N h nh
Aşadar, eroarea de reprezentativitate şi eroarea limită pentru un estimator de total – la fel ca
pentru estimatorul de medie, după cumo vom vedea, se calculează ţinând cont de dispersia la nivelul
2
fiecărui strat s h .
H
nh sh2
ˆ Xˆ
N 1 2
h
(9.28)
N h nh
st
h 1
225
În final, intervalul de încredere se construieşte conform relaţiei (9.12), luând în considerare
abaterea standard a estimatorului de total:
Xˆ st Xˆ st 1,96 ˆ Xˆ ; Xˆ st 1,96 ˆ Xˆ
st st
pentru o probabilitate de garantare a preciziei
mediei estimate de 95%.
ESTIMAREA MEDIEI
Estimatorul nedeplasat al mediei este
H
Xˆ h xˆh
N
(9.29)
h 1 N
Utilizând acelaşi raţionament ca mai sus, estimatorul varianţei estimatorului de medie este:
N n s2
h 2
Vˆ Xˆ h 1 h h (9.30)
h 1 N N h nh
Abaterea standard a mediei sondajului stratificat36, adică eroarea medie de reprezentativitate
a estimatorului de medie este:
n s2
2
h
N
ˆ xˆ h 1 h h (9.31)
h 1 N N h nh
st
xˆ st xˆ st 1,96 ˆ xˆ ; xˆ st 1,96 ˆ xˆ
st st
pentru o probabilitate de garantare a preciziei mediei
estimate de 95%.
Pentru a vedea care este rolul stratificării în diminuarea varianţei estimatorilor, vom porni de la
regula de adunare a dispersiilor, considerând fiecare strat cu media sa pentru variabila de interes. Din
regula de adunare a dispersiilor, am văzut că dispersia totală este egală cu suma dintre dispersia din
interiorul fiecărui strat (INTRA) şi dispersia dintre mediile de strat şi media generală (INTER). In cele
ce urmează vom considera valorile calculate la nivelul întregii colectivităţi împărţite pe straturi, valori
care nu sunt, însă, cunoscute. Această abordare, totuşi, facilitează înţelegerea raţionamentului.
S h2
1
N h 1 iGh
Xi X h 2
(9.32)
36Am prezentat numai relaţia de calcul specifică unui sondaj aleator simplu nerepetat (SASNR) deoarece, dacă
nu în toate, în majoritatea aplicaţiilor reale se utilizează doar acest procedeu de eşantionaj.
226
1
Xh Xi (9.33)
N h iGh
dispersia adevărată, dar necunoscută, din întreaga populaţie statistică este:
X h X 2
H
Nh 2 H Nh
S2 Sh (9.34)
h 1 N h 1 N
Relaţia (9.34) este familiară: primul termen (dispersia intra-strat) este media ponderată a
dispersiilor din fiecare strat, iar al doilea termen (dispersia inter-strat) este media aritmetică ponderată
a pătratelor abaterilor mediilor din strat faţă de media generală.
Întrucât ne interesează ca dispersia să fie foarte mică, este foarte important ca stratificarea
2
să fie făcută în aşa fel încât dispersiile S h intra-strat să fie mici, iar mediile dintre grupe să fie cât mai
diferite între ele. Cu alte cuvinte, stratificarea trebuie să delimiteze comportamente cât mai apropiate
în interiorul straturilor, dar cât mai diferite de la un strat la altul.
H
Aşa cum s-a menţionat, eşantionul (n) este format din suma subeşantioanelor n n
h 1
h .
Problema care trebuie rezolvată se referă la numărul unităţilor care compun fiecare subeşantion,
respectiv la repartizarea eşantionului pe straturi.
N
nh (9.35)
h
Acest tip de sondaj stratificat este denumit sondaj stratificat neproporţional.
Nh
nh n (9.36)
N
Acest tip de sondaj care poartă denumirea de sondaj stratificat proporţional se aplică
frecvent în practică37.
Nh Sh
nh n H
(9.37)
N
h 1
h Sh
37 În acest caz, pentru estimarea erorii de reprezentativitate sau a erorii limită se poate utiliza raportul nh n în
227
Dacă se recurge la această variantă de repartizare a eşantionului se foloseşte sondajul
stratificat optim. Această metodă de alocare a eşantionului pe straturi se mai numeşte alocare
optimală Neyman.
Dacă la formarea eşantionului s-a folosit, ca regulă, extragerea nerepetată, iar probabilitatea cu
care se garantează rezultatele este de 99,73%, indicatorii sondajului se calculează astfel:
n h xˆ h
2,4 20 1,2 5 3,8 65
xˆ h 1
3
3,34 mii lei
n
90
h
h 1
N h nh
Întrucât s-a optat pentru un sondaj stratificat proporţional, , iar fracţia de sondaj
N n
nh 1
0,05 38, relaţia 9.27 devine
N h 20
N h sh n
2 2
nh s h 1
2 3 2
ˆ xˆ 1 h 1
st
h N nh N h h 1 n nh 20
38 In enunţul exemplului s-a precizat că eşantionul este de tip stratificat proporţional, cu o fracţie de sondaj de
1/20 sau 5%.
228
eroarea limită:
Ca urmare, salariul mediu net lunar estimat se încadrează in intervalul (3,17; 3,51) mii lei. Eroarea
0,168
limită relativă garantată cu o probabilitate de 99,73% este 100 5,03% .
3,34
Astfel, în raportul tehnic al cercetării (studiului) statistic putem preciza că sondajul realizat asupra
9000 de salariaţi garantează estimaţia salariului mediu net lunar cu o eroare de 5% .
Avantajul este evident, deoarece nu este nevoie de baze de sondaj pentru toate unităţile
primare. Condiţia este ca, pentru treapta a doua, să existe liste complete pentru unităţile din unităţile
primare selectate în prima treaptă.
Pentru o prezentare succintă, dar cât mai relevantă a acestui procedeu de sondaj, este
necesară precizarea unor notaţii esenţiale:
229
si este mulţimea unităţilor secundare selectate în eşantionul unităţii primare i.
m
f1 este fracţia de sondaj din prima treaptă de selecţie;
M
ni
f 2i este fracţia de sondaj din treapta a doua de selecţie din unitatea primară i.
Ni
M
T Ti (9.39)
i 1
Selectând unităţile secundare conform unui sondaj aleator simplu cu probabilităţi egale (fără
revenire), estimatorul nedeplasat de total din unitatea primară i se scrie:
^ xi , j xi , j
Ti ( X ) Ni (9.40)
jsi ni jsi ni
Ni
M ^
Dacă am selecta toate unităţile primare i , atunci Ti ar fi estimatorul nedeplasat de total pe
i 1
care îl căutăm. Însă noi am selectat cu probabilităţi egale m unităţi primare dintre cele M din univers.
În consecinţă, estimatorul căutat va fi:
^
^
^
Ti Ti
T(X ) M is (9.41)
is m m
M
unde s este lista unităţilor primare selectate. Obţinem astfel în fiecare treaptă de sondaj un
estimator nedeplasat de total. Combinând cele două trepte de sondaj, vom obţine:
^ M N M N
T(X ) i xi , j i xij (9.42)
m is ni jsi iS m ni jSi
Observăm că ponderea globală ataşată individului j din unitatea primară i, în cazul unei
selecţii aleatoare simple fără revenire şi în treapta a doua de sondaj, este:
M Ni
wij (9.43)
m ni
Regula generală de calcul a ponderii globale a unităţilor cercetate printr-un sondaj în mai
multe trepte constă în multiplicarea ponderilor unităţilor în cauză din fiecare treaptă de selecţie.
230
Media de sondaj în fiecare UP selectată este:
x
jsi
ij
xˆ i (9.44)
ni
N i xˆ i
xˆ iS
(9.45)
m
În cazul selecţiei aleatoare simple în ambele trepte de sondaj, dispersia estimată pentru totalul
estimat este condiţionată de varianţa din interiorul unităţilor primare (varianţa INTRA) şi varianţa dintre
unităţile primare (varianţa INTER), având următoarea formă:
n s 2 ,i
2
s12 M
̂ Xˆ M 2 1 f1 f1 N i2 1 i (9.46)
m i 1 N i ni
unde
2
1 Tˆ ( X )
s
2
Tˆi ( X )
m 1 iS M
1
1
x ij
( xi , j xˆ i ) 2 iar xˆ i
jsi
s 2
ni 1 jSi
2 ,i
ni
Mai mult, în cazul în care fracţia de sondaj din treapta a doua este constantă astfel încât ni
este proporţională cu N i şi dacă toate unităţile primare au aceeaşi mărime N , ignorând cel de al
doilea termen pentru că fracţia de sondaj f 1 este, de regulă, o valoare foarte mică, eroare medie de
reprezentativitate pentru estimaţia de total este estimată de:
s1'2
ˆ Xˆ N 21 f1 (9.47)
m
Corespunzător acesteia, eroarea medie de reprezentativitate a estimatorului de medie este:
s1'2
ˆ xˆ 1 f1 , (9.48)
m
unde
s1'2
1
xˆ i xˆ
m 1 iS1
2
este dispersia dintre unităţile primare (dispersia INTER), cu
1 xˆ
xˆ i xij ; xˆ i , iar
n jsi is1 m
231
s 22,i
1
n 1 jS 2
xi , j xˆ i 2
este dispersia din interiorul unităţilor primare (dispersia INTRA),
1 m
cu n Ni .
m i 1
Eroarea limită pentru estimatorul de total este:
xˆ z ˆ Xˆ (9.49)
xˆ z ˆ xˆ , (9.50)
Efectul de cluster se măsoară prin intermediul unui coeficient numit “coeficientul de corelaţie
intra-cluster” şi notat cu litera grecească (pronunţat “ro”). Valoarea lui este:
X X 0 X i ,k X 0
M Ni Ni
i, j
i 1 j 1 k 1
jk 1
, unde (9.51)
N 1
X X0
M Ni
2
i, j
i 1 j 1
X i , j , X i ,k - sunt perechi de valori observate ale unităţilor j şi k din unitatea primară i sub
condiţia j k;
232
M
N i
N - mărimea medie a unităţilor primare constituite, dată de relaţia: N i 1
M
În relaţia de calcul (9.51), numărătorul este extrem de important, pentru că sintetizează
principiul coeficientului . El scoate în evidenţă diferenţele dintre valorile observate la nivelul fiecărei
unităţi primare şi media generală X 0 . Forma numărătorului ne sugerează calculul coeficientului de
corelaţie, cu deosebirea că implică numai o variabilă. De asemenea, deşi este prezentat ca un
coeficient de corelaţie “intra-cluster” diferenţele sunt calculate faţă de media generală X 0 , nu faţă de
La o privire mai atentă, numărătorul ne arată că produsul este format din toate perechile de
unităţi individuale j şi k, fără ca ele să fie vreodată aceleaşi. Valorile individuale X i , j şi X i , k sunt
comparate cu media generală X 0 la nivelul fiecărei unităţi primare, tocmai pentru a evidenţia
asemănările sau deosebirile dintre unităţile individuale. Această caracteristică constituie, de fapt,
principiul care stă la baza coeficientului . Astfel, dacă există o puternică similitudine între
unităţile individuale din interiorul unei UP şi dacă, să spunem, X i , j X 0 , atunci există o probabilitate
mare să avem şi X i ,k X 0 . Atunci, produsul
X i, j X 0 X i ,k X 0 (9.52)
Dacă unităţile individuale sunt diferite, atunci există şanse ca valorile variabilei ataşate
unităţilor j şi k să se afle de o parte şi de alta a mediei X 0 , iar produsul (9.52) care rezultă să fie
negativ. Preponderenţa lor conduce la un coeficient negativ.
Spre exemplu, într-o populaţie de 6 unităţi individuale au fost observate 6 valori 39:
233
1 2 4 8 15 30
X 10
6
UP1 = {1, 2, 3}
UP2 = {4, 5, 6}
UP1 = {1, 4, 6}
UP2 = {2, 3, 5}
2 224 1
în prima simulare: 1 0,3672
610 2
2 (224) 1
în a doua simulare: 2 0,3672
610 2
Este de preferat a doua configuraţie a unităţilor primare, deoarece coeficientul este mai
mic, ca rezultat al unui efect de cluster mult mai redus.
Se poate arăta că, după o serie de transformări matematice, pentru orice împărţire a
populaţiei totale în unităţi primare (UP) de mărime N i N , unde volumul unităţilor primare este
mare, relaţia (9.51) este echivalentă cu:
Dispersie INTER 1
(9.53)
Dispersie TOTALA N
40În teoria sondajelor, varianţa calculată pentru populaţia totală este, de fapt, o varianţă corectată unde, în loc de
factorul 1/N, se utilizeaza factorul 1/(N-1). Din acest motiv la numitor apare valoarea 5 = N-1 = 6-1.
234
X i X 0 X i X 0 , iar
M
Ni 1 M
Dispersia INTER
2 2
i 1 N M i 1
X i , j X 0 .
M Ni
1 2
Dispersia TOTALA
N 1 i 1 j 1
Din exemplul de mai sus, indiferent de configuraţia unităţilor primare, dispersia totală este
101,67. In prima configuraţie, dispersia INTER este 58,78, iar dispersia INTRA este 42,89. Aşadar,
dispersia INTER contribuie cu aproape 60% la dispersia totală. In a doua configuraţie, dispersia
INTER este 9 şi contribuie cu doar 9% din dispersia totală, iar dispersia INTRA este 92,67. Pe baza
relaţiei (9.51) este evident, din nou, că în prima configuraţie coeficientul are o valoare superioară
decât în cel de al doilea caz.
Relaţia (9.51) ne arată că însumarea este realizată pentru toate unităţile primare constituite la
nivelul populaţiei de referinţă, în timp ce, în realitate, selectăm un eşantion de UP. Ca urmare,
coeficientul este calculat din eşantionul selectat.
s2
ˆ Xˆ 1 n 1
mn
s2
ˆ Xˆ N 2 1 n 1
mn
n este numărul mediu de unităţi secundare selectate din fiecare UP din eşantion;
este efectul de cluster.
Dacă varianţa estimatorului de medie potrivit unui sondaj aleator simplu este
s2
ˆ X2ˆ ( SAS )
mn
ˆ 2
1 n 1
ˆ
atunci obţinem D X
(9.54)
ˆ 2
ˆ
X ( SAS )
235
Raportul dintre varianţa obţinută în urma unui sondaj în două trepte şi cea a unui sondaj
aleator simplu se numeşte „efect de sondaj” 41. El reflectă regulile care trebuie urmate într-un sondaj în
trepte:
- dacă este pozitiv, efortul trebuie îndreptat spre creşterea numărului de unităţi primare
selectate şi mai puţin către creşterea numărului de unităţi secundare selectate în unităţile
primare;
- unităţile primare trebuie constituite în aşa fel încât unităţile secundare să fie cât mai
diferite sau, în schimb, mediile calculate la nivelul unităţilor primare să difere cât mai puţin
de la o unitate primară la alta.
Sondajul în trepte are o logică complet opusă sondajului stratificat, unde straturile grupează
unităţi omogene: într-un sondaj în trepte, unităţile primare trebuie să grupeze unităţi cât mai diferite. O
combinaţie ideală a celor două metode ar trebui să conducă la crearea de straturi de unităţi primare
cât mai asemănătoare, iar unităţile primare să conţină unităţi secundare cât mai diferite.
Datorită faptului că nu se cunosc valorile pentru fiecare unitate simplă care compune seria, ci
doar media seriei, la determinarea indicatorilor sondajului se foloseşte dispersia dintre grupe sau
dintre medii 2
x i x
.
n
Numărul seriilor existente în colectivitatea generală se notează de regulă cu R, iar numărul
seriilor care compun eşantionul, cu r.
2
x (9.55)
r
2
x z (9.56)
r
2 Rr
x (9.57)
r R 1
2 Rr
x z (9.58)
r R 1
41 „Design effect” în engleză.
42 În engleză, procedeul se numeşte “cluster sampling”, iar în franceză “sondage par grappes”.
236
9.7 Determinarea volumului eşantionului
Realizarea unui sondaj statistic în vederea estimării indicatorilor colectivităţii generale
presupune să se decidă asupra mărimii eşantionului. Criteriile în funcţie de care se ia această decizie
privesc exactitatea estimării indicatorilor colectivităţii generale, costurile realizării sondajului ş.a.
Volumul eşantionului se deduce în cazul fiecărui tip de sondaj, din formula erorii limită. Prin
ridicarea la pătrat a formulei erorii limită ( x ) se deduce volumul eşantionului.
x2 x2
x z z 2
x
2
n n
z 2 x2
În consecinţă, n (9.59)
2x
x2 n 2 n
x z 1 2x z 2 x 1
n N n N
Volumul minim necesar pentru un sondaj aleator simplu nerepetat este dat de:
z 2 x2
n (9.60)
z 2 x2
2x
N
Similar se deduc relaţiile privind volumul eşantionului pentru celelalte tipuri de sondaje.
Atât din relaţia (9.59), cât şi din (9.60) observăm că, pentru determinarea volumului minim
necesar pentru un eşantion aleator simplu trebuie să cunoaştem dispersia colectivităţii generale, ceea
ce nu este întotdeauna la îndemână. Dacă o putem calcula din baza de sondaj, este evident că ea va
suferi din cauza posibilei vechimi a datelor. Ea mai poate proveni dintr-o anchetă prin sondaj mai
recentă, în care a fost studiată aceeaşi variabilă sau dispunem, tot în baza de sondaj, de o variabilă
puternic corelată cu variabila noastră de interes.
Când avem o variabilă pe baza cărei putem calcula dispersia necesară, deseori, vom constata
că volumul eşantionului este foarte mare, depăşind resursele financiare şi materiale de care
dispunem, tocmai din cauza marii variabilităţi a valorilor incluse în calcule. În acest caz, se recomandă
stratificarea bazei de sondaj şi prelucrarea suplimentară a acesteia, pentru a putea proiecta un plan
de sondaj cât mai eficient, capabil să asigure precizia dorită a rezultatelor. În practică, aproape fără
excepţie, este nevoie de realizarea unui echilibru între nevoia de a extrage un eşantion cât mai
cuprinzător şi bugetul alocat cercetării, care nu este niciodată îndestulător.
Un exemplu foarte grăitor despre volumul necesar al unui eşantion este dat de Pascal Ardilly
(Ardilly, 2006). El prezintă o situaţie destul de frecventă – şi foarte sensibilă – întâlnită în alegerile
unde se prezintă doi candidaţi. Problema care se pune este să determinăm diferenţa minimă dintre
voturile exprimate pentru cei doi candidaţi într-un sondaj astfel încât să putem garanta cu o
probabilitate de 95% că cel care apare drept câştigător din sondaj câştigă cu adevărat alegerile.
Cu alte cuvinte, trebuie să aflăm care este proporţia minimă a voturilor acordate, să spunem,
candidatului A ( p̂ A ) astfel încât limita inferioară a intervalului de încredere să fie mai mare de 50%.
237
Pentru o probabilitate de 95%, relaţia pe care care p̂ A trebuie să o satisfacă este:
pˆ A (1 pˆ A ) 1
pˆ A 1,96
n 1 2
1 1,96
pˆ A p MIN
2 2 n 2,84
Mai precis, diferenţa dintre cei doi candidaţi trebuie să fie cel puţin egală cu
1,96
2 p min 1 .
n 2,84
Pentru un eşantion uzual de 1200 de persoane, comentariile trebuie să fie foarte prudente
dacă procentul obţinut de candidatul A nu este de minim 53%. Să observăm, de asemenea, că
aceeaşi prudenţă este necesară dacă, pe un eşantion de 10000 de persoane, candidatul A nu a
obţinut minim 51%.
iar limitele între care variază nivelul totalizat al caracteristicii în colectivitatea generală se
estimează pornind de la formula:
238
N ( xˆ x̂ ) < x i < N ( xˆ x̂ ) (9.60)
3. De ce erorile sondajului nerepetat sunt mai mici comparativ cu cele ale sondajului
repetat?
239
9.11 Bibliografie
1. Ardilly P., Les techniques de sondages, Edititions Technip, Paris, 2006
2. Biji M., Statistică teoretică. Editura didactică şi pedagogică, Bucureşti, 1979, p 77-193.
3. Biji E., Lelea E., Wagner P., Statistică economică, Editura didactică şi pedagogică,
Bucureşti, 1999
4. Korka M., Begu St., Tuşa Erica, Bazele statisticii pentru economişti, Editura Tribuna
economică, Bucureşti, 2002, p 102-114.
240
Index alfabetic
Aplatizare probabilitatea, 11
241
Frecvenţe cumulate, 69 Indicatorii statistici
histograma, 46 mediana, 83
ogivă, 46 modul, 87
242
proprietăţi, 182 coeficientul de corelaţie a rangurilor Kendall,
133
serie cronologică cu bază fixă, 202
coeficientul de corelaţie a rangurilor
serie cronologică cu bază fixă şi ponderi
Spearman, 132
constante, 202
Non-răspuns, 20
serie cronologică cu bază fixă şi ponderi
variabile, 203 Observare statistică directă
243
extrapolare prin metode analitice, 175 gruparea statistică, 30
244
selecţie sistematică, 210 principiile fundamentale ale statisticii
oficiale, 3
sondaj de serii, 236
Tabele statistice
sondaj în trepte, 229
categorii, 38
sondaj stratificat, 224
cu dublă intrare (bidimensionale), 38
sondajul aleator simplu, 222
cu o singură intrare (unidimensionale), 38
sondajul empiric, 210
reguli de construire, 38
volumul eşantionului, 237
Unitate statistică, 9
Statistică
Unitate statistică complexă, 9
definiţie, 1
Unitate statistică simplă, 9
statistica oficială, 2
Variabilă statistică, 10
Statistică oficială
Variabilă statistică calitativă, 10
Banca Naţională a României, 2
Variabilă statistică de tip dată calendaristică,
calitate în statistică, 3
10
Eurostat, 2
Variabilă statistică numerică, 10
Institutul Naţional de Statistică, 2
245