Documente Academic
Documente Profesional
Documente Cultură
Bucureşti, 2010
CUPRINS
Capitolul 1: OBIECTUL ŞI NATURA STATISTICII .....................................................1
1.1 În loc de introducere: de ce avem nevoie de statistică? ..............................1
1.2 O scurtă istorie a termenului de statistică.................................................2
1.3 Natura statisticii.......................................................................................2
1.4 Metoda. Etapele cercetării statistice ..........................................................5
1.4.1 Metoda statisticii ..........................................................................................5
1.4.2 Etapele cercetării statistice ..........................................................................6
1.5 Concepte de bază utilizate în statistică......................................................8
1.6 Scale de măsurare .................................................................................. 15
1.7 Întrebări de control................................................................................. 18
1.8 Bibliografie selectivă ............................................................................... 18
Capitolul 2: COLECTAREA, SISTEMATIZAREA SI PREZENTAREA DATELOR
STATISTICE....................................................................................... 21
2.1 Introducere............................................................................................. 21
2.2 Observarea statistică – colectarea datelor statistice ................................. 21
2.2.1 Principiile observării statistice....................................................................22
2.2.2 Metode de observare statistică ..................................................................22
2.2.3 Chestionarul statistic .................................................................................26
2.2.4 Erorile observării statistice şi controlul calităţii datelor înregistrate ..........32
2.3 Sistematizarea datelor observării ............................................................ 33
2.3.1 Distribuţia de frecvenţe ..............................................................................34
2.3.2 Gruparea pe clase de interval ....................................................................36
2.4 Serii statistice......................................................................................... 42
2.5 Prezentarea datelor statistice .................................................................. 43
2.5.1 Tabelele statistice ......................................................................................43
2.5.2 Reprezentarea grafică a distribuţiilor de frecvenţe ....................................48
2.6 Cuvinte – cheie ....................................................................................... 58
2.7 Întrebări de control................................................................................. 59
2.8 Bibliografie ............................................................................................. 59
Capitolul 3: INDICATORII STATISTICI ................................................................... 61
3.1 Introducere............................................................................................. 61
3.2 Indicatori primari si indicatori derivaţi .................................................... 61
3.3 Mărimile relative..................................................................................... 63
3.4 Cuvinte - cheie ....................................................................................... 75
3.5 Intrebări de control................................................................................. 75
3.6 Bibliografie ............................................................................................. 75
i
Capitolul 4: ANALIZA DESCRIPTIVĂ A SERIILOR DE REPARTIŢIE ........................ 77
4.1 Introducere............................................................................................. 77
4.2 Definirea, trăsăturile şi reprezentarea grafică a seriilor de repartiţie ........ 77
4.3 Indicatorii tendinţei centrale ................................................................... 85
4.3.1 Media aritmetică ........................................................................................ 86
4.3.2 Mediana (valoarea centrală) ...................................................................... 94
4.3.3 Modul (valoarea dominantă) ...................................................................... 98
4.3.4 Alte tipuri de medii .................................................................................. 101
4.3.5 Media pătratică........................................................................................ 104
4.3.6 Media geometrică..................................................................................... 104
4.4 Indicatorii variaţiei ............................................................................... 106
4.4.1 Indicatorii simpli ai variaţiei .................................................................... 107
4.4.2 Indicatorii sintetici ai variaţiei ................................................................. 114
4.4.3 Descompunerea dispersiei într-o colectivitate împărţită pe grupe (Regula de
adunare a dispersiilor). ........................................................................... 120
4.4.4 Media si dispersia unei variabile alternative........................................... 127
4.5 Asimetria şi aplatizarea......................................................................... 128
4.5.1 Asimetria ................................................................................................. 128
4.5.2 Aplatizarea .............................................................................................. 131
4.6 Cuvinte – cheie ..................................................................................... 133
4.7 Intrebări de control............................................................................... 133
4.8 Bibliografie ........................................................................................... 134
Capitolul 5: ELEMENTE DE SONDAJ STATISTIC ................................................ 135
5.1 Introducere........................................................................................... 135
5.2 Definire, etape, noţiuni, avantaje .......................................................... 135
5.3 Procedee de selecţie .............................................................................. 138
5.4 Erorile sondajului statistic.................................................................... 143
5.5 Eroarea medie si eroarea limită............................................................. 145
5.6 Tipuri de sondaje folosite frecvent in practica statistică ......................... 154
5.6.1 Sondajul aleator simplu........................................................................... 154
5.6.2 Sondajul stratificat .................................................................................. 156
5.6.3 Sondajul în trepte .................................................................................... 159
5.6.4 Sondajul de serii ...................................................................................... 162
5.7 Determinarea volumului eşantionului ................................................... 162
5.8 Estimarea parametrilor colectivităţii generale ........................................ 164
5.9 Cuvinte cheie........................................................................................ 165
5.10 Întrebări de control............................................................................... 165
5.11 Bibliografie ........................................................................................... 166
ii
Capitolul 6: ANALIZA SERIILOR INTERDEPENDENTE......................................... 167
6.1 Introducere........................................................................................... 167
6.2 Tipuri de legături .................................................................................. 167
6.3 Metode simple de analiză a legăturii dintre variabile.............................. 170
6.4 Metode parametrice de analiză a legăturilor .......................................... 174
6.4.1 Metoda regresiei.......................................................................................174
6.4.2 Metoda corelaţiei ......................................................................................182
6.4.3 Metode neparametrice..............................................................................188
6.5 Cuvinte – cheie ..................................................................................... 191
6.6 Intrebări de control............................................................................... 192
6.7 Bibliografie ........................................................................................... 192
Capitolul 7: SERII CRONOLOGICE...................................................................... 193
7.1 Introducere........................................................................................... 193
7.2 Definire, tipuri, reprezentare grafică...................................................... 193
7.3 Indicatorii statistici ai seriilor cronologice de perioade ........................... 195
7.3.1 Indicatorii absoluţi ai seriilor cronologice .................................................196
7.3.2 Indicatorii relativi ai seriilor cronologice...................................................198
7.3.3 Indicatorii medii ai seriilor cronologice .....................................................200
7.4 Indicatorii statistici ai seriilor cronologice de momente .......................... 201
7.5 Ajustarea seriilor cronologice ................................................................ 203
7.6 Criterii de alegere a procedeelor de ajustare .......................................... 219
7.7 Extrapolarea seriilor cronologice ........................................................... 220
7.8 Cuvinte – cheie ..................................................................................... 223
7.9 Intrebări de control............................................................................... 223
7.10 Bibliografie ........................................................................................... 224
Capitolul 8: INDICII STATISTICI.......................................................................... 225
8.1 Introducere........................................................................................... 225
8.2 Definire. Tipuri de indici ....................................................................... 225
8.3 Probleme metodologice privind construirea indicilor de grup ................. 229
8.4 Indici de grup calculaţi ca o medie a indicilor individuali....................... 233
8.5 Indicii de grup calculaţi ca raport a două medii..................................... 237
8.6 Descompunerea variaţiei unei variabile complexe pe factori de influenţă
prin metoda indicilor ............................................................................ 241
8.7 Serii cronologice de indici statistici ....................................................... 247
8.8 Cuvinte cheie........................................................................................ 249
8.9 Întrebări de control............................................................................... 249
8.10 Bibliografie ........................................................................................... 250
Index alfabetic................................................................................................. 251
iii
Lista tabelelor
iv
Tabelul 6.1 – Rezultatele la examenul de admitere şi media notelor din prima
sesiune de examene – eşantion de 10 studenţi ....................................... 170
Tabelul 6.2 – Gruparea agenţilor economici după numărul salariaţilor ..................... 173
Tabelul E.6.1.1 – Calculul parametrilor unei funcţii de regresie liniară unifactorială . 177
Tabelul E.6.1.2 – Calculul parametrilor unei funcţii de regresie liniară unifactorială . 181
Tabelul 6.3 – Tabel de asociere ................................................................................. 189
Tabelul E.6.2.1 – Rangurile ţărilor în funcţie de rata de alfabetizare a populaţiei
masculine şi feminine ............................................................................ 190
Tabelul E.6.3.1 – Cifra de afaceri şi profitul obţinute de 8 companii studiate ............ 191
Tabelul 7.1 - Evoluţia unor indicatori macroeconomici în perioada 2000 - 2007........ 195
Tabelul 7.2 – Evoluţia cifrei de afaceri a companiei X în perioada 2000 - 2009 .......... 197
Tabelul 7.3 – Stocul de mărfuri ale companiei X la începutul lunii ............................ 202
Tabelul 7.5 – Calculul parmetrilor funcţiei liniare pentru o serie cronologică............. 216
Tabelul E.8.1.1 – Vânzările companiei X din luna septembrie a anilor 2008 şi 2009.. 234
Tabelul E.8.2.1 – Volumul vânzărilor şi modificarea preţurilor produselor vândute
de compania X ....................................................................................... 237
Tabelul E.8.3.1 – Fondul de salarii, numărul de angajaţi şi salariul mediu al
companiilor A şi B în luna decembrie a anilor 2008 şi 2009.................... 239
Tabelul 8.4 - Fondul de salarii, numărul de angajaţi şi salariul mediu al
companiilor A şi B în luna decembrie a anilor 2008 şi 2009.................... 246
v
Lista graficelor
Fig. 1.1 – Etapele cercetării statistice .........................................................................6
Fig. 1.2 – Precizie vs. exactitate ................................................................................ 14
Fig. 2.1 – Distribuţia angajaţilor în funcţie de starea civilă........................................ 50
Fig. 2.2 – Distribuţia procentuală a angajaţilor în funcţie de starea civilă.................. 50
Fig. 2.3 – Distribuţia angajaţilor în funcţie de starea civilă (diagramă rectangulară) .. 51
Fig. 2.4 – Distribuţia angajaţilor în funcţie de numărul de copii ................................ 52
Fig. 2.5 – Curba cumulativă a distribuţiei angajaţilor în funcţie numărul de copii ..... 52
Fig. 2.6 – Distribuţia angajaţilor pe grupe de salarii.................................................. 53
Fig. 2.7 – Grafic incorect - Distribuţia angajaţilor pe grupe de salarii ........................ 54
Fig. 2.8 – Poligonul frecvenţei angajaţilor pe grupe de salarii din firma X la
31.12.2008 ............................................................................................ 55
Fig. 2.9 – Distribuţia şi curba cumulativă a frecvenţelor angajaţilor pe grupe de
salarii din firma X la 31.12.2008 ............................................................ 56
Fig. 2.10 – Diagrama tulpină-cu-ramuri a salariilor angajaţilor din firma X la
31.12.2008 ............................................................................................ 57
Fig. 2.11 – Rata de căsătorie şi numărul de copii ai angajaţilor din firma X la
31.12.2008 ............................................................................................ 58
Fig. 4.1 – Repartiţia agenţilor economici după cifra de afaceri ................................... 81
Fig. 4.2 – Repartiţia agenţilor economici după cifra de afaceri (reprezentare prin
poligonul frecvenţelor)............................................................................ 82
Fig. 4.3 – Repartiţia agenţilor economici după cifra de afaceri (reprezentare prin
poligonul frecvenţelor cumulate crescător şi descrescător) ...................... 83
Fig. 4.4 – Histograma repartiţiei agenţilor economici după cifra de afaceri (suprafaţa
fiecărei coloane este egală cu proporţia numărului de companii din
fiecare interval de grupare)..................................................................... 85
Fig. 4.5 – Calculul grafic al medianei la intersecţia ogivelor....................................... 97
Fig. 4.6 – Calculul grafic al medianei la intersecţia ogivelor....................................... 98
Fig. 4.7 – Histograma repartiţiei agenţilor economici după cifra de afaceri............... 100
Fig. 4.8 – Distribuţia normală şi gruparea valorilor pe intervale ale abaterii standard119
Fig. 4.9 – Exemplu de distribuţie simetrică............................................................. 129
Fig. 4.10 – Exemplu de distribuţie asimetrică la dreapta......................................... 129
Fig. 4.11 – Exemplu de distribuţie asimetrică la stânga .......................................... 130
Fig. 4.12 – Exemplu de distribuţie ascuţită............................................................. 132
Fig. 4.13 – Exemplu de distribuţie aplatizată .......................................................... 132
Fig. 6.1 - Diagrama rezultatelor la admintere si in prima sesiune de examene......... 171
Fig. 6.2 – Legătură liniară directă ........................................................................... 171
Fig. 6.3 – Legătură liniară indirectă ........................................................................ 171
Fig. 6.4 – Legătură neliniară................................................................................... 172
Fig. 6.5 – Absenţa legăturii..................................................................................... 172
vi
Fig. 6.6 – Legătură puternică ................................................................................. 172
Fig. 6.7 – Legătură slabă ........................................................................................ 172
Fig. 6.8 – Graficul de corelaţie între vechimea în muncă şi câştigul salarial............. 178
Fig. 7.1 – Tipuri de serii cronologice ....................................................................... 194
Fig. 7.2 – Serie cronologică de momente echidistante.............................................. 202
Fig. 7.3 – Serie de timp cu variaţii sezoniere egale .................................................. 205
Fig. 7.4 – Serie de timp cu variaţii sezoniere diferite................................................ 206
Fig. 7.5 – Trasarea grafică a liniei de trend ............................................................. 207
Fig. 7.6 – Seria de timp a vânzărilor şi dreapta tendinţei......................................... 211
Fig. 7.6 – Extrapolarea seriei de timp ..................................................................... 222
vii
Capitolul 1: OBIECTUL ŞI NATURA STATISTICII
Cursul de faţă îşi propune să ajute studenţii să înţeleagă noţiunile statisticii şi, cu
răbdare şi stăruinţă, să înţeleagă şi de ce avem nevoie de ele, să le aplice în situaţii practice
şi să interpreteze rezultatele pe care le obţin.
După ce am trecut în revistă câteva situaţii concrete, aparent banale, în care apar
cifrele statistice, este momentul să formulăm o primă definiţie a statisticii: este ştiinţa
studierii în expresie numerică a fenomenelor de masă care au loc în societate,
economie sau din natură, având nu doar un rol descriptiv, dar şi unul explicativ, identificând
cauzele fundamentale, legităţile care conduc la manifestarea respectivelor fenomene.
Legând obiectul de scopul ei, statistica este ştiinţa colectării şi analizării datelor în
scopul formulării de concluzii şi luării deciziilor 1 .
1
Tamhane, Ajit C., and Dorothy D. Dunlop. Statistics and Data Analysis from Elementary to
Intermediate. Prentice Hall, 2000, pp. 1
1
Statistica, pentru simplul motiv că ne invadează spaţiul privat şi public, trebuie să facă
parte din bagajul educaţional al oricărui individ. De aceea, fiecare ar trebui să-şi pună
întrebări cum ar fi: cum sunt produse datele statistice, ce măsoară ele, ce semnifică şi cum
trebuie interpretate? Răspunsurile sunt chiar mai simple decât mulţi studenţi îşi închipuie şi
tocmai aceste răspunsuri, cel puţin o parte dintre ele, se regăsesc în capitolele acestui curs.
Cursul de faţă este adresat studenţilor din primul ciclu universitar şi are rol introductiv,
pentru a-i familiariza cu limbajul, conceptele şi, inevitabil, cu relaţiile de calcul al mărimilor
statistice.
Istoric, originile statisticii sunt plasate în anul 1663, când John Graunt – considerat
întemeietorul demografiei – a publicat lucrarea sa Natural and Political Observations upon
the Bills of Mortality (Observaţii naturale şi politice ale tabelelor de mortalitate), în care a
dezvoltat primele tabele de mortalitate ale populaţiei Londrei, confruntată la vremea
respectivă cu efectele ciumei bubonice. Deşi izvorâtă dintr-o nevoie de cunoaştere empirică,
bazele matematice ale statisticii au fost puse în secolul al XVII-lea, odată cu dezvoltarea
teoriei probabilităţilor de către Blaise Pascal şi Pierre Fermat. O contribuţie esenţială la
evoluţia statisticii, cu implicaţii în domeniul eşantionarii, dezvoltării experimentelor şi, în
general, inferenţei statistice, a avut-o Carl Friederich Gauss, prin fundamentarea legii
distribuţiei normale şi a metodei celor mai mici pătrate.
2
Principiile fundamentale ale statisticii oficiale au fost stabilite de Organizaţia Naţiunilor Unite şi au
fost înscrise în Codul de Practici al Statisticii Europene pentru autorităţile statistice naţionale şi ale
Comunităţii (European Statistics Code of Practice for the national and Community statistical
authorities) adoptat de Comitetul pentru Programul Statistic la 24 februarie 2005 şi promulgat prin
recomandarea Comisiei Europene din 25 mai 2005 asupra independenţei, integrităţii şi răspunderii
autorităţilor statistice naţionale şi ale Comunităţii.
3
respective nu sunt prezentate în mod transparent, pentru ca ele să fie considerate ca fiind pe
deplin credibile şi plauzibile. Spre exemplu, numărul turiştilor care vizitează litoralul Mării
Negre la sfârşitul săptămânii nu este o statistică oficială, cel mult o statistică administrativă
comunicată presei de autorităţile publice locale sau utilizată pentru sistemul decizional
propriu. Nu este o statistică oficială pentru că nu se ştie cum sunt colectate datele, cum sunt
prelucrate, ce grad de calitate şi de încredere putem asocia respectivelor cifre şi, nu în
ultimul rând, nu există un calendar anunţat din timp asupra difuzării lor.
O altă accepţiune dată noţiunii de statistică este cea conferită totalităţii metodelor
folosite în cercetarea cantitativă a fenomenelor de masă. Ca metodă de cercetare, statistica
este folosită de alte discipline ştiinţifice pentru descoperirea regularităţilor din domeniul
respectiv de studiu, a tendinţelor care se pot constitui ca elemente de previziune.
4
acţiune ia naştere şi variază fenomenul cercetat. Datorită acestor influenţe manifestările
individuale nu sunt identice, ci asemănătoare. Ca atare, legea după care se produce şi
evoluează fenomenul rămâne mascată de mulţimea diversă a manifestărilor individuale.
Pentru a putea desprinde ceea ce este esenţial, regula, trebuie cercetată o mulţime a
acestor manifestări individuale (masă, colectivitate), eliminându-se ceea ce este întâmplător,
neesenţial, prin simplificări şi abstractizări succesive.
Scopul statisticii este acela de a extrage informaţii din date pentru a înţelege mai
bine fenomenul pe care aceste date îl reflectă. Cu alte cuvinte, statistica nu are un scop în
sine, de a colecta, sistematiza, prezenta şi interpreta datele statistice, ci şi de a găsi
cauzalităţile fenomenului şi de a formula pe baza lor previziuni şi, prin toate acestea, să
sprijine luarea unor decizii argumentate faptic.
5
Exprimarea numerică este impusă de faptul că măsurarea fenomenelor de masă nu
poate fi realizată numai sub formă atributivă. De exemplu, nu este suficient să spunem
despre o ţară că este mică, trebuie să precizăm numeric ce suprafaţă, ce populaţie etc. are
ţara respectivă. Folosirea expresiei numerice face posibil calculul indicatorilor prin care se
caracterizează o colectivitate, facilitează comparările şi elaborarea modelelor privind evoluţia
în timp şi spaţiu a fenomenelor.
- definirea indicatorilor prin care se poate atinge scopul urmărit prin cercetare;
6
Observarea statistică înseamnă înregistrarea după reguli unitare a caracteristicilor
unităţilor colectivităţii şi se concretizează în materialul faptic. Datele înregistrate trebuie să
îndeplinească următoarele condiţii:
1. Analiza statistică descriptivă. Are drept obiectiv prezentarea cât mai sugestivă a
datelor empirice obţinute în urma unei observări, respectiv: volumul; structura; prezentarea
grafică; evoluţia în timp.
Observaţie: informaţiile
Cadranul 2 – O listă a etapelor generice ale unei
furnizate de statistica descriptivă se cercetări statistice
referă numai la masa unităţilor la
1. Definirea scopului, obiectivelor şi a ipotezelor
nivelul cărora s-au observat valorile cercetării statistice
variabilelor. 2. Consultarea literaturii de specialitate pentru a
identifica experienţele similare
2. Analiza statistica 3. Identificarea variabilelor măsurate şi a modului de
inductivă sau inferenţa statistică. În observare
cazul celor mai multe ştiinţe se 4. Stabilirea indicatorilor calculaţi şi a formatelor de
ieşire
urmăreşte formularea de concluzii 5. Dezvoltarea unui plan de colectare a datelor
care sunt valabile nu numai pentru • Definirea populaţiei de referinţă/unitatea
grupe riguros delimitate, ci pentru statistică, unitatea de observare
toate obiectele, unităţile care posedă • Definirea perioadei de referinţă şi de
colectare a datelor
aceleaşi trăsături ca acelea de la care
• Proiectarea eşantionului / observare totală
s-au cules datele empirice. Dacă se / surse externe
urmăreşte un asemenea obiectiv se • Stabilirea metodei de colectare (PAPI,
CAPI, CATI, poştă, on-line)
ajunge în domeniul statisticii inductive.
6. Formarea personalului cercetării statistice
Statistica inductivă porneşte de la
7. Colectarea datelor
datele empirice înregistrate pentru o 8. Proiectarea aplicaţiei informatice (introducere
parte din unităţile colectivităţii date/prelucrare)
(eşantion), iar pe baza indicatorilor 9. Prelucrarea datelor
calculaţi pentru eşantion se 10. Analiza rezultatelor
11. Raportare (difuzarea rezultatelor)
formulează concluzii valabile pentru
7
întreaga colectivitate. Obiectul inferenţei îl constituie estimarea parametrilor întregii
colectivităţi şi verificarea ipotezelor, baza constituind-o calculul probabilităţilor.
eşantion;
observaţie;
frecvenţa;
probabilitate;
parametru;
estimator;
precizie;
exactitate;
deplasare (bias);
indicatorul statistic.
8
Colectivitatea statistică – reprezintă totalitatea entităţilor (unităţilor, manifestărilor)
de aceeaşi natură (care posedă o serie de caracteristici esenţiale comune) supuse
investigaţiei statistice. Frecvent se defineşte drept masa unităţilor care posedă aceleaşi
criterii de identificare din punct de vedere al conţinutului, timpului şi spaţiului.
O colectivitate statistică în care unităţile intră în masa ei sau care ies din masa ei la
un moment dat reprezintă o colectivitate de stoc. Pentru astfel de colectivităţi are sens să
se înregistreze date având ca referinţă un moment (oră, zi, lună, trimestru, an).
Exemple: exporturile României în anul ..., încasările unei firme în luna ..., numărul
născuţilor vii în Bucureşti în anul .....
9
este, de regulă, de 10 ani, înregistrarea efectivului animalelor se face anual, stocul de
produse al unei firme este inventariat periodic etc.
unde:
Numărul unităţilor care compun o colectivitate defineşte volumul sau efectivul acestei
colectivităţi statistice.
3
In limba engleză, termenul de bază de sondaj este întâlnit ca “sampling frame”, iar în limba franceză
ca “base de sondage”.
10
Unităţi statistice complexe, care cuprind una sau mai multe unităţi simple.
Exemple: secţia de producţie, gospodăria, localitatea, ramura de activitate
economică.
În cazul unei cercetări se optează pentru o unitate simplă sau complexă în funcţie de
obiectivele cunoaşterii. Astfel, la recensământul populaţiei se foloseşte ca unitate statistică
″persoana″ şi ″menajul/gospodăria″. În primul caz se urmăreşte obţinerea datelor necesare
cunoaşterii unor elemente privind numărul, structura pe sexe, medii de rezidenţă, nivel de
instruire etc. În cel de-al doilea caz interesează de regulă condiţiile de locuit, condiţiile de trai
etc. Într-un studiu privind consumul de servicii turistice, unităţile statistice sunt „persoana
adultă” şi „familia”, pentru a analiza, spre exemplu, modul în care se iau deciziile privind
comportamentul turistic al familiei (care este persoana adultă din familie care are cea mai
mare influenţă în ceea ce priveşte destinaţia, durata, bugetul alocat etc.) şi comportamentul
de consum turistic al familiei (suma cheltuită şi destinaţia acestora, modalităţile de plată, tipul
de produse şi servicii consumate).
11
calendaristică este extrem de utilă, spre exemplu, în calcularea dobânzii cuvenite
pentru un depozit, luând în considerare perioada scursă de la dată constituirii
depozitului sau în determinarea duratei medii de realizare a unei operaţiuni într-un
proces de fabricaţie, ori până la constatarea unei defecţiuni la o piesă dintr-un
ansamblu mecanic etc. Stocarea unei date calendaristice ca o variabilă
nenumerică nu poate fi recunoscută de aplicaţia informatică ca o valoare
numerică, asupra căreia să se poată realiza operaţii aritmetice.
Observaţia este formată din totalitatea valorilor colectate pentru toate variabilele
supuse observării la nivelul unei unităţi statistice. Astfel, după colectarea datelor, vom obţine
tot atâtea observaţii câte unităţi statistice au fost supuse observării. După introducerea
valorilor observate în calculatorul electronic, fişierul rezultat din cercetare are, de obicei, o
formă rectangulară de n observaţii x m variabile.
Frecvenţa de apariţie a unei variante distincte sau a unui grup de variante, poate fi
absolută sau relativă. Frecvenţa absolută (ni) arată de câte ori a fost înregistrată o variantă
distinctă, iar cea relativă (fi) exprimă ponderea, greutatea specifică sau cota-parte în totalul
elementelor unei colectivităţi ( fi = ni / Σni).
12
Probabilitatea se referă la rezultatele unei situaţii denumite experiment. Un
experiment este orice proces prin care datele sunt obţinute în urma observării unor
evenimente necontrolate din natură sau al unor procese controlate în laborator.
Probabilitatea unui eveniment rezultă în urma repetării experimentului de un mare număr de
ori în aceleaşi condiţii şi este dată de proporţia dintre numărul de apariţii ale acestui
eveniment şi numărul total de experimente.
Estimator este o funcţie numerică, definită pentru variabila de interes, care este
calculat pe baza datelor din eşantion şi care estimează parametrul populaţiei statistice.
Rezultatul calculelor ne oferă o estimaţie. Concret, fiecare parametru are drept corespondent
un estimator cu cel puţin o estimaţie. In oglinda exemplelor de mai sus, un estimator este,
spre exemplu, cifra de afaceri medie din eşantionul de 2000 de întreprinderi din o ramură
economică sau proporţia gospodăriilor din eşantionul de 30000 de gospodării al căror venit
mediu pe persoană se află sub pragul de sărăcie etc.
13
poate fi departe de valoarea adevărată. De asemenea, o precizie slabă putem avea şi atunci
când estimaţiile sunt destul de exacte. Figura de mai jos reflectă cele patru cazuri posibile 4 .
Orice indicator statistic este format din două părţi: o parte noţională care defineşte
conţinutul indicatorilor şi o expresie numerică delimitată în timp şi în spaţiu.
4
Diagramă pusă la dispoziţie de MIT OpenCoursWare
14
Exemplu: Produsul Intern Brut al României a fost în anul 2009 de 491.274 milioane
lei; rata inflaţiei a fost în Romania în decembrie 2009 faţă de decembrie 2008 de 4,74%.
Partea noţională
Delimitare în spaţiu
PIB
România
Delimitare în timp
2009
Expresie numerică
491274 mil lei
Exemple:
Variantele înregistrate în cazul primelor două variabile calitative sunt cuvinte care nu
rezultă din numărare sau măsurare. Se poate constata doar dacă o unitate are o anumită
însuşire sau nu. În acest caz variantele nu pot fi ordonate, în sens de ″mai mare″ sau ″mai
mic″ şi nu se pot determina distanţe sau rapoarte între variantele înregistrate.
La variabila a treia, variantele admit stabilirea unor liste de ranguri, ordine, în sensul
că ″bine″ se situează pe o treaptă superioară faţă de ″satisfăcător″.
15
În cazul ultimelor două variabile, variantele sunt numere care rezultă din măsurare
sau numărare. Valorile observate nu numai că pot fi ordonate, dar are sens să se determine
distanţe şi rapoarte prin intermediul lor.
În practica statistică, scalele tipice de măsurare sunt: scala nominală, scala ordinală,
scala interval şi scala raport.
Exemplu: masculin (0) şi feminin (1). Aceste numere nu admit nici un fel de operaţii
aritmetice (adunări, scăderi, înmulţiri sau împărţiri).
Scala ordinală sau cu ranguri se aplică când valorile observate pot fi ordonate nu
numai după criteriul dacă sunt identice sau deosebite, ci şi după criteriul ″mai mare″ sau ″mai
mic″. Numerele care înlocuiesc variantele observate, denumite ranguri, trebuie să redea
ordinea stabilită, existentă.
Exemplu: scala notelor (1,2,...,10), scala calităţii produselor, scala ″stelelor″ hotelurilor
şi restaurantelor, scala Likert. Numerele atribuite (rangurile) nu admit operaţii
aritmetice şi nu pot cuantifica distanţa (diferenţa) dintre două numere, ci doar sensul
diferenţei.
Exemplu: măsurarea temperaturii după scala Celsius (când originea ″0″ este punctul
de îngheţ al apei şi ″100″ este punctul de fierbere al apei) şi scala Farenheit. Are sens
0 0
în acest caz să se facă diferenţa dintre 10 C şi 5 C, care este egală cu diferenţa între
0 0
37 C şi 32 C. Nu are însă sens să se facă raportul între valori.
Scala raport se foloseşte tot pentru măsurarea variabilelor cantitative, dar, spre
deosebire de scala interval, originea ″0″ se alege în mod obiectiv. În cazul acestei scale,
raportul între oricare două valori este independent de unitatea de măsură folosită. Scala
16
raport este folosită pentru măsurarea valorilor a numeroase variabile, cum sunt: dimensiunile
fizice (înălţime, greutate), preţul, viteza etc.
Scala nominală indică existenţa unei diferenţe între valorile observate, iar scala
ordinală, în plus, poate arăta şi care este sensul diferenţei. Pe lângă cele două rezultate
obtenabile cu scalele anterioare, scala de tip interval arată şi care este mărimea diferenţei,
iar cea de tip raport adaugă posibilitatea fixării unei origini absolute. Acestea sunt diferenţele
fundamentale dintre cele patru scale de masurare.
- scala raport: cele de la scala interval, la care se adaugă media geometrică, media
armonică, coeficientul de variaţie, logaritmi.
Variabile
Calitative Cantitative
Interval Raport
17
1.7 Întrebări de control
1. De ce statistica studiază fenomene şi procese de masă?
14. După ce criterii se alege unitatea de înregistrare ca unitate simplă sau complexă?
5. Mihai Korka, Liviu Stelian Begu, Erica Tusa, Bazele statisticii pentru economişti,
Editura Tribuna Economică, Bucureşti 2002, cap. „Statistica instrument de
18
cunoaştere şi analiză cantitativă a fenomenelor şi proceselor economice”, p. 15 –
30.
6. Moineagu C., Negură I., Urseanu V., Statistica. Concepte, principii, metode,
Editura Ştiinţifică şi Enciclopedică, Bucureşti, 1976, p.19 – 22
19
Capitolul 2: COLECTAREA, SISTEMATIZAREA SI
PREZENTAREA DATELOR STATISTICE
2.1 Introducere
Cunoaşterea statistică presupune parcurgerea mai multor etape, începând cu
definirea scopului cercetării şi încheind cu interpretarea rezultatelor.
Una din etapele de mare importanţă pentru rezultatele întregii cercetări se referă la
colectarea sau înregistrarea datelor pentru toate variabilele unităţilor care compun
colectivitatea studiată. Printre problemele la care trebuie găsite răspunsuri în această fază se
numără: dacă există date disponibile în alte surse şi în ce masură aceste date răspund
obiectivului cercetării; dacă datele existente nu sunt satisfăcătoare şi trebuie organizată o
înregistrare specială, ce variabile trebuie înregistrate, se recurge la o înregistrare totală sau
parţială, când trebuie organizată înregistrarea datelor, ş.a..
21
identificare, măsurare şi înregistrare a fenomenelor de manifestare. Ea constă în culegerea
anumitor date pe baza unor reguli sau criterii unitare de la unităţile colectivităţii cercetate.
- datele să fie obţinute în timp util, să poată servi fundamentării deciziei la momentul
potrivit;
- reperele de timp ale observării, care se referă la două aspecte: stabilirea timpului
la care se referă toate datele care urmează a fi înregistrate (momentul sau
perioada de referinţă) şi timpul (perioada) în care trebuie realizată înregistrarea
(perioada de colectare). În cazul unei colectivităţi de stoc, toate datele înregistrate
se referă la un moment dat (moment critic), iar în cazul unei colectivităţi de flux
timpul la care se referă datele este o perioadă (lună, trimestru, etc.);
5
Această condiţie este aplicabilă cercetărilor statistice prin sondaj şi este îndeplinită prin proiectarea
unui eşantion bine fundamentat din punct de vedere teoretic şi pus în practică după principii riguroase.
Numărul de unităţi observate nu este un scop în sine, pentru că în acest fel am fi tentaţi ca
întotdeauna să realizăm observări complete, de tipul recensămintelor, ceea ce nu este justificat
întotdeauna din punct de vedere practic şi economic.
22
Dacă fenomenul sau procesul ce urmează să fie cercetat se circumscrie agenţilor
economici, atunci este normal să se pornescă de la datele din sistemul informaţional intern al
acestora, evidenţiate în diferite surse. Aceste date apar în mod normal în procesul
conducerii. Astfel de date (denumite, de regulă, date secundare sunt, de exemplu: numărul
salariaţilor, stocurile de produse finite, cifra de afaceri, realizările individuale ale punctelor de
vânzare etc).
Mai dificilă este obţinerea datelor dacă fenomenul sau procesul cercetat nu face
obiectul evidenţierii sistematice în alte surse sau dacă datele disponibile (de regulă,
publicaţii) răspund numai parţial scopului cercetării. Într-o asemenea situaţie este necesar să
se organizeze o observare sau înregistrare specială, caz în care trebuie să se rezolve corect
toate aspectele de natură metodologică şi organizatorică cuprinse în programul observării.
Observarea statistică poate fi indirectă, prin observare documentară şi directă, prin
observare în teren.
- datele preluate din diferite surse să răspundă scopului cercetării. Chiar dacă nu
răspund întocmai obiectivului cercetării, să ofere răspunsuri suficient de apropiate
de realitate şi, printr-o prelucrare adecvată, să poată fi utilizate în scopuri
statistice.
23
fie cea direct vizată de cercetare, fie o persoană capabilă să ofere răspunsurile în
cunoştinţă de cauză – după ce, în prealabil, un operator sau un alt responsabil al
cercetării a înmânat chestionarul, instrucţiunile de completare şi a oferit un set
minimal de îndrumări. Ulterior, chestionarul este ridicat de responsabilul cercetării
sau este trimis prin poştă. În egală măsură, chestionarul poate fi trimis şi
recepţionat exclusiv prin poştă, caz în care este vorba de o cercetare statistică
prin poştă 8 . Din ce în ce mai des se recurge la cercetări mijlocite de tehnologia
informaţiei, prin care răspunsurile sunt completate pe computer în aşa-numitele
sondaje on-line cu ajutorul aplicaţiilor Web.
8
În limba engleză, acest tip de cercetare este denumită “mail survey”.
9
Nonrăspunsurile sunt de mai multe categorii: unitatea nu este identificată, nu mai există, nu face
parte din populaţia statistică vizată de cercetare. Refuzul de a răspunde este doar una din aceste
categorii.
24
realizate de către statistica oficială sunt: recensământul populaţiei şi al locuinţelor,
recensământul fermelor, animalelor şi livezilor, ş.a..
Rapoartele statistice reprezintă lucrări prin care se obţin date pentru colectivităţi de
fapte şi de evenimente. Rapoartele statistice reprezintă una din modalităţile prin care
statistica oficială obţine date de la agenţii economici privind cifra de afaceri, investiţiile, forţa
de muncă, câştiguri salariale etc.. Denumirea de „raport” provine din practica statistică
anterioară anului 1990, când toate întreprinderile erau obligate să furnizeze (raporteze) date
statistice la autoritatea competentă din acea perioadă. Ele erau de fapt formulare concepute
într-o manieră tabelară, ca să uşureze completarea lor. Termenul este uşor demodat astăzi
pentru că, deşi ca formă s-au păstrat într-o oarecare măsură, ele nu mai sunt adresate
tuturor întreprinderilor din România – ar fi imposibil – şi nici nu mai există o obligativitate
expresă în cazul unor cercetări statistice.
Sondajul statistic este o observare parţială prin care se înregistrează date numai
pentru o parte din unităţile colectivităţii, numită eşantion sau mostră. Pentru ca datele
obţinute prin intermediul sondajului să permită cunoaşterea realităţii, este necesar ca
25
eşantionul să fie reprezentativ. Un eşantion este reprezentativ dacă fiecare unitate din
colectivitatea generală are o şansă nenulă de a fi selectată în eşantion. Un astfel de eşantion
se mai numeşte şi probabilist.
Pe lângă noţiunile de mai sus, mai sunt utilizate şi cele de anchetă statistică şi
anchetă de opinie.
10
Cross-sectional (engl.)
26
– pe hârtie sau suport magnetic, prin utilizarea tehnologiei informaţiei – sau de metoda de
observare.
- Ce trebuie să ştiu;
- Ce ar fi util să ştiu;
- Ce ar fi frumos să ştiu.
Sunt întrebările care dau posibilitatea celui/celei intervievate să aleagă una sau
mai multe variante de răspuns dintr-un set prestabilit de către analist. Variantele
27
de răspuns sunt mutual disjunctive, adică nu se pot suprapune sau confunda, şi
sunt colectiv exhaustive, adică împreună formează toate variantele posibile de
răspuns. Pentru completarea tuturor variantelor posibile, se poate recurge la
adăugarea uneia din variantele menţionate mai sus, de genul “Altul/Alta ? Care
…..”, dând posibilitatea completării unei variante inexistente în lista prestabilită.
a) Dihotomică
Este întrebarea cea mai frecvent întâlnită, fără a fi inoportună, în care respondentului
i se cere să răspundă doar prin „Da” sau „Nu”. Ea nu permite delimitarea unei măsuri
a percepţiilor sau a sentimentelor între aceşti doi poli.
Exemplu
1. Da
2. Nu
3. NS/NR
b) Cu răspuns multiplu
Respondentul are posibilitatea să aleagă una sau mai multe variante de răspuns
Exemple:
1. Intre 1 si 2
2. Intre 3 si 5
4. Niciunul
Q3: Care este dispozitivul fără de care nu puteţi trăi? (încercuiţi una sau mai multe
variante)
c) Cu scală de apreciere
28
Exemple:
1. Excelent
2. Bun
3. Destul de bun
4. Slab
Politică __4__
Afaceri __9__
Monden __10_
Mai este numită şi întrebare cu scala Likert, în care respondentului i se cere să-şi
exprime gradul de acord sau de dezacord faţă de un anumit subiect.
Exemplu
Total De Total de
Dezacord Nici-nici
dezacord acord acord
Cursul de statistica este
X
dificil
Volumul de munca
X
pentru teme este mare
e) Cu scală de importanţă
Exemplu
Q7. Existenţa unei farmacii în localitatea mea este (încercuiţi răspunsul ales):
5 4 3 2 1
Extrem de Întrucâtva Puţin Deloc
Importantă
importantă importantă importantă importantă
29
f) Bipolare
Exemplu
Q8. Cum aţi descrie filiala locală a companiei ABC? (marcaţi cu un X pe scala
fiecărui atribut, în măsura în care consideraţi că este mai aproape de aprecierea
dumneavoastră):
Locaţie Locaţie
_X_ ___ ___ ___ ___ ___ ___
convenabilă neconvenabilă
Personal Personal
___ ___ ___ _ X_ ___ ___ ___
prietenos neprietenos
Servicii Servicii
___ ___ _X_ ___ ___ ___ ___
de calitate proaste
Eficienţă ___ _X_ ___ ___ ___ ___ ___ Ineficienţă
Prin acest tip de întrebare se testează intenţiile persoanelor – clienţi ai unei companii
sau consumatori ai unor produse sau servicii – de a cumpăra, de a consuma un
produs sau un serviciu, de obicei nou sau susceptibil de a fi introdus pe piaţă. În
aparenţă extrem de utilă, este necesar ca ea să fie coroborată şi cu alte întrebări care
să consolideze plauzibilitatea răspunsului deoarece, de cele mai multe ori,
răspunsurile se confundă mai mult cu dorinţele persoanelor chestionate decât cu
nevoile lor reale.
Exemplu
5 4 3 2 1
Probabil Nu sunt Probabil Sigur
Sigur da
da sigur(ă) nu nu
2) Nestructurate (deschise)
Întrebările deschise oferă mai multă libertate celor chestionaţi de a-şi formula
propriile răspunsuri, într-o manieră individualizată. Avantajul lor constă în faptul că se pot
culege informaţii mai interesante şi de o mai mare profunzime, care ating aspecte neluate în
seamă în etapa de proiectare a cercetării sau a chestionarului însuşi. Dezavantajele constau
în faptul că astfel de întrebări pot duce la răspunsuri neconstructive şi nerelevante, fiind mult
mai dificil de prelucrat deoarece fiecare respondent foloseşte propriile cuvinte. De aceea,
astfel de întrebări sunt supuse mai întâi unui proces de filtrare şi codificare, în încercarea de
a găsi cât mai multe elemente comune în masa de răspunsuri. Volumul de codificare
30
manuală nu este de neglijat, ceea ce poate duce la erori de înregistrare şi de introducere în
computer.
Exemple
Q10. Cât de mult cheltuiţi pentru ţigări în fiecare săptămână ? ________ lei
Q11. Care este venitul total lunar al familiei dumneavoastră ? _________ lei
Exemple
Intrebările duble, cum s-a precizat anterior, este bine să fie evitate. Dacă ele sunt
însă imperios necesare, este bine ca ele sa fie plasate separat în chestionar. Un exemplu de
astfel de întrebare este: Credeţi că produsul este bun şi se vinde bine?. Întrebările care
sugerează răspunsul trebuie evitate cu desăvârşire. Un exemplu de astfel de întrebare este:
Aţi cumpăra acest produs, pentru care s-au primit numeroase reclamaţii? Este foarte
probabil ca majoritatea răspunsurilor, dacă nu toate, vor fi “Nu”. Un alt tip de întrebare, care
trebuie evitată, este cea unilaterală, care nu lasă alternativă, mai ales atunci când ea se
înscrie într-un curent de atitudine recent lansat, dezvoltat şi amplu comentat în spaţiul public.
Un exemplu de întrebare unilaterală este: Aţi fi de acord cu interzicerea produselor care
poluează atmosfera?. Răspunsul va fi covârşitor afirmativ, chiar dacă, în esenţă, toate
produsele – adică obiectele manufacturate – sunt rezultatul unor procese poluante, însă în
grade diferite.
De asemenea, este utilă realizarea unei distincţii între întrebările neclare şi cele
ambigue. O întrebare neclară este o întrebare dificil de înţeles, ca spre exemplu: Cum
apreciaţi situaţia actuală? Respondentul nu ştie despre care situaţie este vorba: situaţia
familială, situaţia economică, din ţară, de pe continent, din lume? Astfel de întrebări trebuie
contextualizate în spaţiu şi în timp, pentru ca şi răspunsul să reflecte o apreciere în aceleaşi
repere. O întrebare ambiguă este o întrebare cu dublu înţeles, ca spre exemplu: Aţi luat
medicamentul cu lichide? Nu se ştie dacă este vorba despre un medicament care conţine
lichide sau dacă medicamentul trebuie administrat înainte sau după ce pacientul a ingerat
31
lichide. O altă întrebare ambiguă este: Unde aţi fost rănit? Nu se face distincţie între o
întrebare care priveşte rănirea unei anumite părţi a corpului sau dacă întrebarea vizează
aflarea unei locaţii geografice unde a avut loc incidentul în urma căruia persoana a fost
rănită.
11
Bias (engl.)
32
erorile de reprezentativitate să se anuleze reciproc pe parcursul unei perioade de
timp sau prin extragerea unui număr mai mare de unităţi în eşantion.
Prima operaţie intuitivă pe care o putem face este să calculăm totaluri pentru acele
variabile pentru care este logică o asemenea operaţie: variabilele de tip numeric măsurate
pe scala interval sau raport. Această operaţie este denumită generic centralizarea datelor,
însă ea poate fi prematură în această etapă.
Mai întâi, pentru a putea sesiza ceva semnificativ pe baza acestei mase de date
empirice (tendinţă de evoluţie, legăturile dintre variabile etc) este necesară, într-o primă fază,
să se introducă ordine în aceste date. Deci să se sistematizeze datele primare.
33
Sistematizarea înseamnă, în cele din urmă, prezentarea datelor într-o formă uşor inteligibilă
şi relativ uşor interpretabilă, fie prin tabele, fie prin grafice şi diagrame. În cele ce urmează ne
vom opri la tabele 12 .
Să considerăm pentru început cazul unei singure variabile Xj din cele m observate şi
să presupunem că aceasta este calitativă sau numerică discretă, deci are un număr finit de
modalităţi, respectiv K(j) ( k ( j ) 1, K ( j ) ), ceea ce arată că variabilele pot avea un număr
diferit de modalităţi. Spre exemplu, prima variabilă calitativă observată este sexul, care are
două modalităţi: feminin şi masculin. A doua variabilă observată este numărul de copii, care
este o variabilă numerică discretă şi poate avea, să spunem, 16 modalităţi (valori distincte),
de la 0 la 15 – considerând că, din observaţiile istorice, o familie sau o persoană nu poate
avea mai mult de 15 copii.
Continuând exemplul anterior, vom putea constata că, într-o companie sunt 12
angajaţi de sex feminin şi 8 de sex masculin şi că, în plus, fiecare are între 0 şi 4 copii.
12
O precizare este totuşi necesară în acest punct: considerăm că valorile variabilelor sunt corecte din
punctul de vedere al criteriilor de calitate stabilite încă din etapa de proiectare a cercetării statistice. În
practică, înainte de a proceda la sistematizarea datelor, ele trebuie trecute printr-un proces de
verificare, corecţie şi validare, pentru a ne asigura că erorile – inerente în orice cercetare statistică –
nu vor distorsiona rezultatele finale.
34
O formă generică a unui tabel de frecvenţe este prezentată în tabelul nr. 2.2.
Tabelul nr. 2.2 – Repartiţie de frecvenţe unidimensională
Un astfel de tabel este extrem de util şi pentru verificarea calităţii datelor. Spre
exemplu, dacă am codificat sexul persoanelor cu valorile 1 pentru feminin şi 2 pentru
masculin (sau invers), o tabelă corectă de frecvenţe ne va arăta doar cele două valori. Orice
altă valoare care apare în tabel ne indică faptul că unei persoane i s-a ataşat un cod
K ( j)
incorect. De asemenea, însumând numărul de apariţii ale fiecărei modalităţi ( n
k 1
k( j) ), este
obligatoriu să obţinem numărul total al unităţilor supuse observării – din eşantion în cazul
unei observari parţiale sau din întrega colectivitate în cazul unei observări totale
K ( j)
( n
k 1
k ( j) n ).
În cazul unei variabile numerice discrete (cu un număr finit şi redus de modalităţi) are
sens să procedăm la calcularea produsului dintre modalitatea variabilei şi numărul de unităţi
K ( j) n
observate pentru fiecare modalitate: x
k 1
k ( j) nk ( j ) xi . În acest fel, putem calcula suma
i 1
valorilor înregistrate pentru variabila respectivă. Spre exemplu, dacă variabila observată este
numărul de copii pe familie, calculând produsul dintre numărul de copii (0, 1, 2, .... 15) şi
numărul de familii înregistrate ca având fiecare un anumit număr de copii şi însumând apoi
produsele calculate, vom obţine numărul total al copiilor care aparţin familiilor observate.
Acelaşi rezultat l-am fi obţinut dacă însumam direct numărul de copii în setul de date primare
culese pentru fiecare familie observată, fără a recurge la sistematizarea datelor prin tabelul
de frecvenţe. Cu toate acestea, tabelul de frecvenţe este mult mai grăitor decât investigarea
întregului set de observaţii.
35
O astfel de operaţie, de calcule de produse şi de însumare, nu are sens în cazul
variabilelor calitative codificate cu valori numerice, deoarece suma respectivă nu are nici o
semnificaţie statistică. In exemplul nostru, în care am codificat sexul persoanelor cu 1 şi 2,
este evident că un calcul al produselor dintre numărul de persoane de sex masculin şi
valoarea 1 şi, respectiv, dintre numărul de persoane de sex feminin şi valoarea 2, după care
se însumează cele două rezultate, nu are niciun sens statistic.
După numărul caracteristicilor, grupările pot fi: grupări simple şi grupări combinate.
36
afaceri şi după numărul angajaţilor, se distribuie agenţii economici după numărul angajaţilor,
iar după aceea după cifra de afaceri.
Caracteristicile atributive pot fi, la rândul lor, agregate în grupe care prezintă
relevanţă pentru analist şi utilizatorul rezultatelor. Spre exemplu, într-o scală de tip Likert,
care are cinci puncte de evaluare („Total de acord”, „De acord”, „Nici acord, nici dezacord”,
„Dezacord”, „Total dezacord”) se poate recurge la gruparea primelor două niveluri în „De
acord şi total de acord”, şi a ultimelor două în „Dezacord şi total dezacord”, mai ales în
situaţiile în care numărul de observaţii din primul şi ultimul nivel este redus. Astfel, prin
gruparea celor 5 modalităţi, obţinem 3.
Se optează pentru una din cele două modalităţi în funcţie de numărul de valori
distincte înregistrate. Dacă numărul valorilor distincte înregistrate nu este prea mare (cel mult
10 – 12 valori diferite) se recomandă o grupare pe valori, în care fiecare grupă (clasă) este
definită de o valoare observată. De exemplu, gruparea locuinţelor din Municipiul Bucureşti,
înregistrate la recensământul din 2002 după numărul camerelor.
Dacă numărul valorilor distincte înregistrate este mare, cum este cazul variabilelor
numerice continue, se recomandă o grupare pe intervale de grupare.
13
În literatura engleză de specialitate, termenul asociat intervalului de grupare este “class interval”.
37
Nu există reguli precise privind numărul r de intervale de grupare. Acesta trebuie
stabilit astfel încât să nu se piardă prea mult din diversitatea informaţiilor culese, deci să fie
suficient de mare. În caz contrar poate denatura structura repartiţiei datelor înregistrate. Pe
de altă parte, să nu fie prea mare, pentru a permite sesizarea rapidă, dar corectă, a
aspectelor esenţiale.
b) după regula lui Sturges 14 , dacă numărul valorilor observate este n, atunci
numărul grupelor poate fi cel mult egal cu 1 log 2 n 1 3,322 log10 n .
În unele ţări se aplică următoarele reguli: cel puţin 10 grupe dacă s-au înregistrat
circa 100 de valori; 13 grupe în cazul când numărul valorilor observate se apropie de 1.000
şi cel puţin 16 grupe dacă numărul datelor care urmează să fie grupate se apropie de
10.000.
În cazul acestor reguli se presupune că s-au înregistrat numai valori distincte. Deci,
aceste reguli nu pot fi aplicate dacă numărul valorilor distincte este mic.
Alegerea uneia sau alteia din cele două modalităţi depinde de scopul pentru care se
face gruparea, de variaţia datelor înregistrate etc.
14
H.A. Sturges in "The choice of a class interval," Journal of American Statisticians Association, vol.
21, 65-66, 1926; Transformarea din logaritm în baza 2 în logaritm în bază 10 este utilă deoarece
majoritatea calculatoarelor de buzunar au implementată funcţia logaritmului zecimal.
38
Se recurge frecvent la o grupare pe intervale neegale din nevoia de a acoperi
intervalele egale vide (fără unităţi) sau când unui câmp mare de variaţie al valorilor de
observaţie îi corespunde un număr restrâns de unităţi (frecvenţe).
Cu cât intervalul de variaţie este mai mare, cu atât mai aproximativi sunt indicatorii
derivaţi calculaţi pe baza unei grupări statistice.
În cazul unei grupări pe intervale egale, limita inferioară a primului interval poate fi
valoarea observată cea mai mică (xmin) sau o valoare mai mică decât aceasta. Limita
superioară se obţine adăugând, pentru fiecare din cele r intervale, mărimea intervalului (h).
Intervalele pot fi închise, când ambele limite se cuprind în interval, şi deschise, când
lipseşte una din limite. De regulă sunt deschise primul interval, până la limita sa superioară
(până la x1 sup) şi ultimul interval, peste limita sa inferioară (xm inf şi peste). În asemenea
situaţii, în vederea determinării indicatorilor derivaţi se impune închiderea intervalelor
deschise (stabilirea limitelor acestor intervale). Aceasta deoarece fiecare grupă intră în toate
calculele cu centrul ci al intervalului, calculat conform relaţiei:
A x max x min
h , unde: (2.1.)
r r
39
h = mărimea intervalului de grupare;
De regulă, se recomandă rotunjirea mărimii intervalului rezultat din calcul, astfel încât
să uşureze toate calculele efectuate pe baza datelor de grupare. Rotunjirea se face numai în
sus. În caz contrar apare riscul ca valorile cele mai mari să nu se încadreze în ultimul interval
de variaţie. O rotunjire mai grosieră uşurează toate calculele, dar afectează rigurozitatea
indicatorilor calculaţi.
x max x min
h (2.2.)
1 3,322 log n
Dacă problema cunoaşterii urmarită impune o anumită mărime, prestabilită, a
intervalului de grupare, numărul de grupe se determină pe baza amplitudinii absolute a
variaţiei şi mărimii intervalului de grupare, conform relaţiei:
A
r (2.3.)
h
Odată stabilit numărul de grupe sau mărimea intervalului de grupare, se definesc
intervalele de variaţie şi se repartizează unităţile pe aceste intervale.
r 50 7 .
Cu ajutorul formulei lui H.A. Sturges, numărul intervalelor de grupare este:
40
r 1 3,3322 log10 50 1 3,3322 1,69897 6,64 7
Notă: Limita inferioară este inclusă în interval. Dacă valoarea observată cea mai mică se alege drept limită
inferioară a primului interval, atunci toate intervalele sunt închise inferior.
În urma grupării muncitorilor rezultă o serie de repartiţie (distribuţie) după câştigul salarial brut.
Repartiţia obţinută tinde spre o repartiţie normală.
41
multor grupări succesive, până se ajunge la o grupare care satisface obiectivele cunoaşterii.
Astfel de situaţii pot fi:
- apariţia unei grupe vide (fără frecvenţe). O asemenea situaţie poate presupune fie
regruparea datelor păstrând acelaşi număr de grupe şi aceeaşi mărime a
intervalului de grupare, dar modificând limitele intervalelor, fie recurgerea la o
grupare pe intervale neegale, prin reunirea mai multor intervale egale;
- cel mai mare număr de unităţi (frecvenţa cea mai mare) apare de două ori sau de
mai multe ori. Într-o asemenea situaţie se impune, de asemenea, efectuarea unei
alte grupări, de regulă, prin modificarea limitelor intervalelor (glisarea în sus sau în
jos).
În esenţă, întrebarea esenţială pe care trebuie să ne-o punem atunci când decidem
sistematizarea datelor prin metoda grupării este „Ce probleme de cunoaştere pot fi rezolvate
prin metoda grupării datelor?”
42
- unidimensionale (unicriterială), când sistematizarea datelor se realizează în
funcţie de o singură caracteristică;
x , x ,..., xi ,..., x k x
X : 1 2 sau X : i , i 1, k
n1 , n2 ,..., ni ,..., n k ni
- serii cronologice (dinamice, de timp), se obţin dacă gruparea este realizată
în funcţie de o variabilă de timp (zi, lună, trimestru, semestru, an);
43
tabele cu dublă intrare (bidimensionale) – servesc la prezentarea rezultatelor
grupării după două caracteristici interdependente.
- În prima coloană definim diferitele modalităţi sau variante ale variabilei observate,
în cazul unei variabile discrete, sau grupele de interval, în cazul unei variabile
numerice continue;
În cazul unei variabile discrete sau continue grupate pe clase de interval, adaugăm
două noţiuni:
- să aibă un titlu clar şi concis care să sugereze natura datelor prezentate, timpul şi
spaţiul la care se referă datele cuprinse în tabel;
- să se indice unitatea de măsură. Dacă este comună pentru toate datele prezentate
în tabel, aceasta poate fi menţionată în titlul general al tabelului. Dacă nu este
comună, aceasta trebuie indicată în fiecare caz în parte (în titlurile interioare);
- să fie astfel construit încât să poată fi înţeles, fără explicaţii suplimentare, care
preced sau urmează tabelul statistic;
44
începutul sau sfârşitul cărţii, publicaţiei, etc.. Atunci când sunt publicate tabele
statistice, cele mai frecvent utilizate sunt următoarele simboluri:
„0” – există o expresie numerică diferită de zero, dar aceasta reprezintă mai puţin
de jumătate din unitatea de măsură folosită;
45
Să presupunem că dorim construirea unui tabel de frecvenţe în funcţie de variabila Sex, care este
o variabilă calitativă.
Urmărind paşii descrişi mai sus şi recomandările generale, în prima coloană vom înscrie cele două
modalităţi ale variabilei, în cea de a două coloană frecvenţele absolute, iar în cea de a treia
frecvenţele relative.
Tabelul E.2.2.2 – Repartizarea angajaţilor în funcţie de sex
Sex (xi) Frecventa absolută (ni) Frecvenţa relativă (fi) (%)
Feminin 6 6/20=30%
Masculin 14 14/20=70%
Total 20 100
Sursa: Direcţia Resurse Umane
Procedând la construirea unui tabel de frecvenţe în care variabila observată este numărul de copii,
care este o variabilă numerică discretă, vom obţine:
Tabelul E.2.2.3 - Repartizarea angajaţilor în funcţie de numărul de copii
Numărul Frecvenţa Frecvenţa Frecvenţa
copiilor (xi) absolută (ni) relativă (fi) (%) relativă cumulată (Fi) (%)
0 5 25 25
1 5 25 50
2 8 40 90
3 2 10 100
Total 20 100 -
Sursa: Direcţia Resurse Umane
După cum se poate observa, variabila observată (X) este numărul de copii, variabilă care are 4
modalităţi (xi): x1=0; x2=1; x3=2 şi x4=3.
Frecvenţele absolute rezultă din numărarea angajaţilor care deţin una din cele patru modalităţi.
Spre exemplu, n2=5 ne arată că în setul de date am observat că există cinci angajaţi care au un
copil.
Calculul frecvenţelor relative este la fel de simplu. Spre exemplu, frecvenţa relativă
corespunzătoare valorii “0” a numărului de copii este dată de raportul procentual dintre frecvenţa
absolută a angajaţilor cu 0 copii, adică 5, şi numărul total al angajaţilor, adică 20:
f1=(5/20)x100=0,25x100=25%. Similar, în cazul angajaţilor cu 2 copii, frecvenţa relativă este
f3=(8/20)x100=0,40x100=40%.
Frecvenţa relativă cumulată rezultă din însumarea valorilor frecvenţei relative pentru valorile
variabilei mai mici sau egale cu valoarea curentă. Spre exemplu:
F1=f1=25%;
F2=f1+f2=25%+25%=50%;
F3=f1+f2+f3= F2+f3 = 50% + 40% = 90%
F4= f1+f2+f3+f4=F3+f4=90% + 10% = 100%.
46
Calculul frecvenţei relative cumulate se dovedeşte util pentru situaţiile în care dorim să avem o
imagine exploratorie rapidă asupra distribuţiei datelor individuale, precum şi în evaluarea gradului
de concentrare a datelor în jurul unor valori, aşa cum vom vedea în secţiunile următoare.
De asemenea, ea ne ajută să răspundem la o serie de întrebări simple, cum ar fi: care este
procentul angajaţilor care au mai puţin de 3 copii? Răspunsul este 90%, deoarece procentul
angajaţilor cu 3 copii este 10%. La fel, putem spune că procentul angajaţilor cu cel puţin un copil
este de 75%, însumând procentele celor cu 1, 2 sau 3 copii (25%+40%+10%=75%) sau scăzând
din 100 procentul celor fără copii (25%).
Dacă dorim să realizăm o distribuţie de frecvenţe în funcţie de nivelul salariului, care este o
variabilă numerică continuă, e necesar să recurgem la construirea claselor de interval. Să
presupunem că nu este nevoie de clase de interval de mărime egală şi că 5 clase sunt suficiente 15 .
Din motive de facilitare a eventualelor calcule, vom face o mică schimbare faţă de paşii prezentaţi
anterior şi vom proceda după cum urmează:
- Notăm în prima coloană limitele inferioare si superioare ale claselor de salariu xi inf şi xi sup;
- Notăm în coloana a 3-a frecvenţele absolute ni care corespund, ca regulă, intervalului închis la
stânga şi deschis la dreapta, contorizând pentru fiecare interval cele ni persoane care câştigă
între xi inf şi xi sup lei (mai mult sau egal cu xi inf şi mai puţin strict decât xi sup);
15
În acest exemplu nu am recurs la calculul numărului de grupe de interval cu ajutorul rădăcinii
pătrate sau al formulei lui Sturges din motive didactice.
47
2.5.2 Reprezentarea grafică a distribuţiilor de frecvenţe
Se spune că un grafic este mai bun decât 100 de tabele deoarece graficele, prin
puterea lor expresivă, facilitează sintetizarea unui volum mai mare de informaţie decât
tabelele statistice. Unul din motive este acela că un om consumă de 20 de ori mai puţină
energie atunci când recepţionează un stimul vizual decât în cazul unuia auditiv, fără să fie
absolut necesară prelucrarea voluntară a semnalului recepţionat. Când privim un tabel
vedem cifre pe care trebuie să le comparăm, să judecăm magnitudinea lor în raporturile
reciproce ale cifrelor respective şi să formulăm o concluzie. Un grafic, prin simplitatea lui,
permite realizarea involuntară a aprecierilor, conducând-ne deseori mai repede către
aceleaşi concluzii.
Reprezentările grafice pot însoţi tabele statistice sau pot fi folosite de sine stătător.
Se recomandă prezentarea datelor numai sub formă grafică dacă se cunoaşte faptul că
utilizatorii nu intenţionează să efectueze calcule proprii.
Un grafic este o formă mai simplă, dar mai sugestivă de sistematizare şi a datelor
individuale. Creşterea sugestivităţii se realizează prin neglijarea informaţiilor de detaliu.
48
- titlul graficului – trebuie să indice, ca şi în cazul tabelului statistic, conţinutul datelor
care se prezintă, timpul şi spaţiul la care se referă;
- axa sau axele graficului. În cazul majorităţii reprezentărilor grafice se folosesc axe
în sistemul de coordonate rectangulare;
16
MS Excel este, poate, cel mai uzitat mediu pentru realizarea de grafice. Există însă multe alte
aplicaţii software utilizate pentru prelucrarea datelor statistice şi prezentarea rezultatelor: Matlab, SAS,
SPSS, Graph etc.
49
Fig. 2.1 – Distribuţia angajaţilor în funcţie de starea civilă
9
8
8
7
6
6
Frecven te absolute
5
4
4
3
2
2
0
Ca sato rit(a) Divortat(a) Ne cas atori t(a) Va duv(a)
Star e civila
Un alt tip de grafic este diagrama circulară de structură, în care sunt prezentate
frecvenţele relative sau cele absolute ca sectoare de cerc, a căror arie este, de asemenea,
proporţională cu mărimea efectivului populaţiei care deţine fiecare din modalităţile observate,
aşa cum se poate vedea şi în Figura 2.2.
Vaduv(a)
10%
Cas atorit(a)
Cas atorit(a)
40%
Div ortat(a)
Divortat(a)
20%
50
Fig. 2.3 – Distribuţia angajaţilor în funcţie de starea civilă (diagramă rectangulară)
25
20
2
Numar angajati
15 6 Vaduv(a)
Necasatorit(a)
Divortat(a)
10 4 Casatorit(a)
5
8
0
Stare civila
Atunci când observarea populaţiei constă în măsurători ale unor variabile cantitative,
reprezentările grafice adecvate sunt:
o Diagramele de bare
o Curba cumulativă
o Histogramele
o Poligonul frecvenţelor
o Curba cumulativă
o Diagrama tulpină-cu-ramuri
o Norul de puncte
51
Fig. 2.4 – Distribuţia angajaţilor în funcţie de numărul de copii
7
Numar an gaja ti
0
0 1 2 3
Numa r co pii
22
20
18
16
14
12
Fi
10
8
6
4
2
0
0 1 2 3
Nr. copii
52
În cazul variabilelor numerice continue, tipul de grafice ce mai frecvent utilizat este
histograma, cum este cea din Figura 2.6. O histogramă are o axă orizontală, pe care sunt
scalate toate valorile măsurătorii realizate pe colectivitatea statistică. Valorile sunt împărţite
în segmente care corespund claselor de interval – create de analist după o metodă similară
celei prezentate în secţiunea 2.3.2, alese de el după orice altă regulă determinată de scopul
analizei sau create automat de aplicaţia informatică. Pe fiecare din aceste segmente este
ridicată o coloană care poate fi de diferite forme: rectangulară, coloană cu secţiune circulară,
piramidă etc.
Cel mai simplu şi fericit caz este acela în care segmentele sunt de mărime egală.
Însă, atunci când nu sunt egale, sunt necesare o serie de precauţii.
30,00%
25,00%
20,00%
Frecven ta (% )
15,00%
10,00%
5,00%
0,00%
650 750 850 950 1050 1150 1250 1350 1450 1550
Centr ul de inter val
Să remarcăm mai întâi că în graficul de mai sus, care reflectă datele din Tabelul
E.2.2.4, amplitudinea claselor este diferită: 200 de lei pentru prima şi a patra, 100 pentru a
doua şi a treia şi 400 pentru a cincea clasă. Să observăm apoi că în clasa 600-800 de lei
sunt 5 angajaţi (25% din numărul total al angajaţilor), în clasa 800-900 de lei 5 angajaţi
(25%), în clasa 900 – 1000 sunt 4 angajaţi (20%) iar în clasele 1000 – 1200 de lei şi 1200 –
1600 de lei câte 3 angajaţi (câte 15% din totalul angajaţilor). Presupunând că salariile
angajaţilor sunt uniform distribuite în interiorul fiecărei clase, pentru respectarea regulii
53
proporţionalităţii, atunci trebuie să considerăm că în intervalul 600-700 de lei sunt 12,5% din
salariaţi, iar în intervalul 700 – 800 de lei alţi 12,5% adică, teoretic, în medie câte 2,5 salariaţi
în fiecare sub-segment. Un raţionament similar aplicăm şi în cazul intervalului 1000-1200 de
lei, unde, din proporţia celor 15% dintre angajaţi, 7,5% sunt în sub-segmentul 1000-1000 şi
alţi 7,5% în sub-segmentul 1100-1200. În cazul clasei 1200-1600, în fiecare sub-segment
echivalent cu 100 de lei vom avea câte 3,75% din numărul total al angajaţilor, iar în clasa
respectivă vom regăsi, în total, 3,75% x 4 = 15%. Însumând frecvenţele relative ale fiecărui
sub-segment (2x12,5%+25%+20%+2x7,5%+4x3,75%), vom obţine 100%, adică, în termeni
de coeficienţi, suprafaţa totală este egală cu 1.
4
Frecventa
0
650 750 850 950 1050 1150 1250 1350 1450 1550
C entrul de int erv al
17
În teoria statistică, această formă a distribuţiei se numeşte “log-normală” şi este caracteristică
distribuţiei veniturilor.
18
În terminologia engleză, utilizată şi în aplicaţiile informatice în care pot fi construite grafice statistice,
aceste puncte se numesc midpoints.
54
O modalitate alternativă de prezentare grafică a unei distribuţii de frecvenţe este
poligonul frecvenţelor. Similar cu histograma, poligonul frecvenţelor prezintă pe axa
orizontală toate valorile variabilei măsurate sau clasele de interval, prin centrele de interval,
iar pe axa verticală numărul observaţiilor pentru fiecare valoare sau clasă de interval.
Punctele de pe grafic sunt trasate la intersecţia dintre centrul de interval şi numărul de
observaţii din intervalul în cauză. Unirea tuturor punctelor conduce la o formă geometrică
numită poligonul frecvenţelor, aşa cum este cea din Figura 2.8.
Fig. 2.8 – Poligonul frecvenţei angajaţilor pe grupe de salarii din firma X la 31.12.2008
0, 3
0, 25
0, 2
Frecventa (%)
0, 15
0, 1
0, 05
0
650 75 0 8 50 950 1 050 115 0 12 50 1 350 1450 155 0
Spre exemplu, în graficul din Figura 2.9 sunt prezentate pe axa verticală din stânga
frecvenţele relative ale fiecărei clase de interval şi, pe scala din dreapta, curba frecvenţelor
cumulate. Curba cumulativă ne arată, spre exemplu, că 50% dintre angajaţi au un salariu de
mai puţin de 850 de lei, deşi salariile variază între 600 şi 1600 de lei. De asemenea, putem
observa că 25% dintre angajaţi au un salariu de peste 1050 de lei.
55
Fig. 2.9 – Distribuţia şi curba cumulativă a frecvenţelor angajaţilor pe grupe de salarii din firma
X la 31.12.2008
30,00% 100,00%
25,00%
75,00%
20,00%
15,00% 50,00%
10,00%
25,00%
5,00%
0,00% 0,00%
650 750 850 950 1050 1150 1250 1350 1450 1550
Intervale de salarii
19
În limba engleză, termenul este întâlnit ca “stem-and-leaf plot” sau “stem-and-leaf diagram”.
56
cele care sunt de ordinul a 1500 de lei. Prima observaţie are valoarea de 632 de lei. Prin
rotunjirea la cifra celor mai apropiate zeci, valoarea respectivă va fi plasată pe primul rând,
unde se află cifra „6” a sutelor, iar în prima coloană va fi plasată cifra „3” a zecilor. A doua
valoare – după sortare – este 684, care, prin rotunjire, este echivalentă cu 680. Ca urmare,
cea de a doua ramură a tulpinii „6” este „8”. Continuând exemplificarea, pe tulpina „8” vor fi
plasate, în ordine, observaţia 12, cu valoarea de 815 lei rotunjită la 820, observaţia 10, cu
valoarea 822 rotunjită tot la 820, observaţia 15, cu valoarea 842 lei, rotunjită la 840,
observaţia 2, cu valoarea 854 rotunjită la 850 – adică ramura „5” – şi, în final, observaţia 9 cu
valoarea 858 în ramura „6”, după rotunjirea la 860. Acest proces este continuat pentru toate
observaţiile din setul de date, rezultând diagrama din Figura 2.10.
6 38
7 669
8 2245 6
9 3569
10 77
11
12 07
13 9
14
15 6
Este, în mod evident, o diagramă simplă şi foarte elocventă, care poate fi construită
cu majoritatea aplicaţiilor informatice existente 20 . Avantajul ei constă în faptul că, spre
deosebire de histogramă, ea nu pierde nici o informaţie individuală asupra datelor, păstrând
valenţele vizuale. Observăm, astfel, că cele mai multe salarii se concentrează în jurul a 800
de lei, iar salariile de peste 1000 de lei sunt rare. Mai mult, valoarea maximă, de peste 1500
de lei, este la mare distanţă de majoritatea celorlalte salarii.
Norul de puncte 21 este un alt tip de grafic prin care sunt puse în relaţie două
variabile observate, pentru a evidenţia eventuala asociere a acestora. Atât pe axa orizontală,
cât şi pe cea verticală sunt reprezentate valorile celor două variabile numerice continue, fie
sub forma valorilor individuale, fie al unor clase de interval prin centrele lor. Fiecare punct
este creat la intersecţia coordonatelor valorilor variabilelor studiate.
20
În M.S. Excel este necesară scrierea unor formule sau crearea unei aplicaţii special destinate
acestui scop.
21
Termenul similar în limba engleză este “scatter plot”, iar în limba franceza este “nuage de points”.
57
Fig. 2.11 – Rata de căsătorie şi numărul de copii ai angajaţilor din firma X la 31.12.2008
0,75
Rata de casatorie
0,5
Bar bati
0,25 Fem ei
0
0 1 2 3
Nu m ar ul de cop ii
Graficul ne arată care este relaţia dintre rata de căsătorie – adică numărul de
persoane căsătorite din totalul persoanelor observate – şi numărul de copii ai fiecărei
persoane, pe sexe. Strict pe baza datelor observate, ceea ce ne determină să fim rezervaţi
în privinţa unor generalizări, constatăm că rata de căsătorie a bărbaţilor fără copii este mai
mare decât a femeilor: între bărbaţii fără copii, 1 din 2 este căsătorit (rata de căsătorie a
bărbaţilor fără copii este egală cu 0,5), în timp ce, între femeile fără copii, nu există nici una
care să fie căsătorită (rata de căsătorie a femeilor fără copii este egală cu 0). Apoi, pe
măsură ce numărul de copii creşte, observăm că şi rata căsătoriei creşte în cazul femeilor,
dar scade în cazul bărbaţilor. Putem concluziona, intuitiv, că există o relaţie inversă între rata
căsătoriei şi numărul de copii în cazul bărbaţilor şi una directă în cazul femeilor. Un astfel de
grafic poate indica existenţa potenţială a unor probleme personale în cazul bărbaţilor
necăsătoriţi, dar cu un număr de copii în întreţinere mai mare decât media.
58
anchetă statistică grafic statistic
anchetă de opinie elemente constructive ale
graficului statistic
monografie statistică
9. Care sunt problemele fundamentale care trebuie rezolvate în cazul grupării după
o caracteristică numerică?
13. Ce este o serie statistică şi care sunt principalele tipuri de serii de date statistice?
15. Ce este un grafic statistic şi care sunt elementele constructive ale acestuia?
2.8 Bibliografie
1. Jaba Elisabeta, Statistica, Editura Economică, Bucureşti, 1998, p. 30-46.
2. Korka Mihai, Begu Liviu Stelian, Tusa Erica, Bazele statisticii pentru economişti,
Editura Tribuna Economică, Bucureşti 2002, p. 31-46.
59
Capitolul 3: INDICATORII STATISTICI
3.1 Introducere
În urma sistematizării datelor, prin centralizare şi grupare, se obţin expresii numerice,
denumite indicatori absoluţi sau mărimi absolute, care evidenţiază volumul unui ansamblu de
unităţi sau valoarea unei caracteristici, pe total sau pe fiecare grupă.
În acest capitol sunt prezentate cele mai simple categorii de indicatori folosiţi în
procesul cunoaşterii statistice. Se tratează premisele metodologice, formele de exprimare,
relaţiile de calcul şi cazurile de utilizare. Se dezvoltă grupa cea mai simplă de indicatori
derivaţi şi anume mărimile relative.
După etapa în care apar în procesul de cunoaştere statistică indicatorii statistici pot fi:
primari (absoluţi) şi derivaţi.
61
Exemplul 3.1: Indicatori statistici absoluţi
În Tabelul E.2.2.3 se însumează numărul angajaţilor care au 0, 1, 2 sau 3 copii, iar însumarea este
prezentată sub denumirea de frecvenţă absolută. În Tabelul E.2.2.4 sunt prezentate frecvenţele
absolute rezultate prin însumarea numărului angajaţilor al căror salariu se regăseşte într-una din
grupele de salariu ce au fost construite. O regulă de bază de verificare a corectitudinii calculului
frecvenţelor absolute este aceea că însumarea frecvenţelor absolute trebuie să coincidă cu
efectivul populaţiei statistice observate.
Totuşi, indicatorii absoluţi nu sunt numai de forma frecvenţelor absolute, care rezultă, după cum
am văzut, dintr-o numărătoare a apariţiei unei modalităţi a variabilei studiate. Să presupunem, de
exemplu, că dorim să analizăm pe durata unei luni calendaristice care sunt zilele cu vânzări mai
mari sau mai mici ale unui magazin de comerţ electronic. Variabila studiată este „totalul
vânzărilor zilnice”, iar ea este grupată pe o caracteristică de timp: ziua. Aşadar, este vorba despre
o serie statistică de timp. Totalul vânzărilor zilnice, care este indicatorul primar sau absolut pe
care îl calculăm, se obţine prin însumarea vânzărilor realizate pentru toate produsele
comercializate într-o zi de către toţi agenţii de vânzare din toate punctele de vânzare. Seria
obţinută conţine deja date agregate. Similar, producţia anuală de energie electrică la nivelul unei
ţări se obţine prin însumarea producţiilor anuale de energie electrică aferente tuturor agenţilor
economici.
După cum s-a prezentat în prima parte a cursului, statistica este interesată de studiul datelor
individuale, pentru a putea trage concluzii generalizatoare asupra tendinţelor esenţiale care se
manifestă în câmpul fenomenului sau procesului studiat. De asemenea, am aflat că analizele
statistice pleacă de la „numărătoarea” datelor individuale. Astfel, modificând puţin exemplul
anterior, să presupunem că vrem să analizăm performanţa anuală a agenţilor de vânzări, pentru că
performanţele zilnice sau lunare nu pot fi complet elocvente, din cauza sezonalităţii ciclului
economic şi a comportamentului de consum al clienţilor. De aceea, este de preferat să observăm
efectul combinat al acestor cauze la nivelul unui întreg an, motiv pentru care variabila observată
este „vânzările anuale ale agenţilor de vânzări”. Ataşând fiecărei valori observate a vânzărilor
individuale numărul de agenţi care au realizat valoarea respectivă, adică cel puţin unul, obţinem o
serie statistică în sens general, formată din valorile observate şi frecvenţele absolute ale apariţiei
valorilor respective. Dacă recurgem la gruparea pe intervale de variaţie, seria va fi formată din
centrele de interval şi frecvenţele observate.
62
Folosirea coeficienţilor de echivalenţă în vederea agregării se impune şi în cazurile în
care valorile individuale nu se obţin în etapa observării, deci nu sunt mărimi absolute, ci ele
provin dintr-un calcul statistic. Un exemplu este rata sărăciei, în care fiecare persoană, în
funcţie de gen şi vârstă, este echivalată în „adult” cu ajutorul scalelor de echivalenţă,
deoarece un copil sau o femeie au un consum caloric diferit de un bărbat. Un alt exemplu
sunt emisiile de gaze cu efect de seră, în care fiecare sursă de poluare este ajustată prin
coeficienţi de echivalenţă, deoarece o fermă de creştere a animalelor are un grad de poluare
mai mare decât o întreprindere de produse electronice.
forma de exprimare a mărimilor relative se alege astfel încât rezultatul să fie cât
mai sugestiv, uşor de înţeles şi de interpretat şi eventual de reţinut. În cazul în
care se compară sub formă de raport doi indicatori absoluţi cu acelaşi conţinut pot
fi folosite următoarele forme de exprimare: coeficienţi, procente ( 0 0 ), promile
63
( 0 00 ), prodecimile ( 0 000 ) etc.. Se optează pentru una din aceste forme de
exprimare în funcţie de expresivitatea rezultatului raportului.
Dacă indicatorul din numărătorul raportului este cu mult mai mic decât cel din
numitor, mărimile relative pot fi exprimate în promile, prodecimile sau procentimile, care
arată câte unităţi indicatorul comparat revin la 1000, 10000, respectiv 100000 de unităţi din
baza de raportare. De exemplu, indicatorii prin care se măsoară mişcarea naturală a
populaţiei (rata natalităţii, rata mortalităţii etc) se exprimă în promile.
Mărimile relative de structură arată în ce raport se află fiecare parte faţă de întreg.
Calculul mărimilor relative presupune în prealabil separarea/gruparea întregului pe părţi
(elemente, grupe).
Frecvenţa relativă este un raport între numărul unităţilor din fiecare grupă sau
corespunzător fiecărei modalităţi ale variabilei discrete şi numărul unităţilor din întreaga
colectivitate:
ni
fi k
100 , i 1, k , (3.1)
n
i 1
i
unde k este numărul de grupe sau de variante (modalităţi) ale variabilei discrete.
Frecvenţele relative pot fi însumate dacă toate au fost calculate faţă de aceeaşi bază
de calcul. Suma este egală cu 1 dacă frecvenţele relative au fost exprimate sub formă de
coeficient şi cu 100 dacă sau exprimat sub formă de procente.
64
Greutatea specifică (ponderea) exprimă importanţa fiecărei grupe/părţi în nivelul
absolut al caracteristicii pe total colectivitate.
xi
gi n
100 , i 1, n (3.2)
x
i 1
i
x i ni
gi k
100 , i 1, k (3.3)
x
i 1
i ni
g i 100 .
a) cercul de structură;
b) dreptunghiul de structură;
c) pătratul de structură.
aria cercului este egală cu suma mărimilor relative de structură care se reprezintă
grafic, deci cu 100%;
632
g1 100 3,29% .
19188
65
Greutatea specifică a salariului lunar aferent celei de a 11-a observaţii este:
1563
g11 100 8,15% .
19188
Pentru exemplificarea calculului greutăţilor specifice ale unei serii de frecvenţe, apelăm la
datele din tabelul E.2.2.3, în care este prezentată repartizarea angajaţilor în funcţie de numărul de
copii, al căror număr total este de 27.
Evident, greutatea specifică a numărului de copii ai angajaţilor fără copii este 0, deoarece valoarea
variabilei observate (xi) este egală cu 0. Greutatea specifică a numărului de copii ai celor 5 angajaţi
cu un singur copil, adică a doua categorie din tabelul nostru, este:
1 5
g2 100 18,5%
27
Greutatea specifică a numărului de copii ai celor 2 angajaţi cu trei copii, adică a patra categorie din
tabelul nostru, este:
3 2
g4 100 22,2% .
27
Exemplele de mai sus au făcut apel la datele individuale referitoare la numărul de copii şi salariile
angajaţilor unei firme. În următorul exemplu vom utiliza datele agregate referitoare la populaţia
României din mediile urban şi rural înregistrată la data de 1 iulie din anii 1980, 2000 şi 2007.
Tabelul E.3.2.1 – Populaţia României la 1 iulie pe medii de rezidenţă
Populaţia la 1 iulie
Anul Urban Rural
(mii locuitori)
1 iulie 1980 22.201,4 10.171,6 12.029,8
1 iulie 2000 22.435,2 12.244,6 10.190,6
1 iulie 2007 21.537,6 11877,7 9659,9
Sursa: Anuarul Statistic al României 2008, INS
în anul 1980:
10171,6
gu 100 45,8%
22201,4
12029,8
gr 100 54,2%
22201,4
în anul 2000
12244,6
gu 100 54,6%
22435,2
66
10190,6
gr 100 45,4%
22435,2
în anul 2007
11877,7
gu 100 55,1%
21537,6
9659,9
gr 100 44,9%
21537,6
Se remarcă o creştere a ponderii populaţiei din mediul urban în totalul populaţiei de la 45,8% în
anul 1980 la 55,1% în anul 2007. Acest fenomen poate fi pus atât pe seama creşterii populaţiei în
localităţile urbane, cât şi creşterii numărului localităţilor urbane, prin transformarea comunelor în
oraşe.
Dacă se face diferenţa dintre ponderea din anul 2007 şi cea din anul 1980, respectiv 55,1% şi
45,8%, rezultă o creştere cu 9,3 puncte procentuale. Dacă interesează cu câte procente a crescut
ponderea populaţiei din mediul urban se face raportul dintre cele două cifre, se exprimă
procentual şi se scade 100, respectiv
55,1
100 100 20,4%
45,8
Deci, ponderea populaţiei din mediul urban în totalul populaţiei a crescut în 2007 faţă de 1980 cu
20,4%.
Calculele privind mărimea sectoarelor de cerc corespunzătoare ponderii părţilor colectivităţii se
reprezintă în tabelul E..3.2.2
Tabelul E.3.2.2 – Corespondenţa dintre mărimile relative de structură şi aria cercului de structură
1 iulie 1980 1 iulie 2000 1 iulie 2007
Populaţia % Grade % Grade % Grade
Mediul urban 45,8 164,9 54,6 196,6 55,1 198,4
Numărul de grade corespunzător fiecărui sector de cerc se obţine înmulţind ponderea fiecărei
grupe cu 3.60 (de exemplu 45.8 * 3.6 = 164.90).
67
Fig. 3.1 – Structura populaţiei României pe medii de rezidenţă
Dacă este necesar să se vizualizeze grafic concomitent mărimea colectivităţii şi ponderea fiecărei
părţi în întreaga colectivitate se procedează astfel:
a) se alege figura geometrică prin care se reprezintă datele pornind de la regula că aria
figurii geometrice trebuie să fie proporţională cu mărimea colectivităţii (populaţia
României la 01.07.1980, 1.07.2000 şi, respectiv, la 01.07.2007). În cazul exemplului
din tabelul nr. 3.12 se va opta pentru o figură geometrică care poate fi construită în
funcţie de un singur element. Aceasta deoarece pentru fiecare an întreaga
colectivitatea este descrisă printr-o singură expresie numerică: numărul populaţiei.
Figurile geometrice care pot fi utilizate în acest caz sunt pătratul şi cercul.
2
În cazul cercului construit pentru anul 1980: A= π R = 22201.4, de unde:
22201,4
R 84,09 mii persoane
3,14
84,09
Considerând 40.000 de persoane = 1 cm, rezultă R 2,102 cm
40
2
Pentru anul 2000: A= π R = 22435.2, de unde:
22435,2
R 84,53 mii persoane
3,14
84,53
Considerând 40.000 de persoane = 1 cm, rezultă R 2,114 cm
40
2
Pentru anul 2007: A= π R = 21.537,6, de unde:
21537,6
R 82,820 mii persoane
3,14
68
82,820
R 2,070 cm
40
b) se construieşte cercul în funcţie de raza rezultată din calcul şi se împarte pe sectoare
de cerc (vezi calculele efectuate în tabelul 3.2).
Fig. 3.2 – Structura populaţiei României pe medii de rezidenţă - grafice proporţionale cu
mărimea colectivităţii statistice
Diferenţele între cele trei grafice sunt aproape insesizabile tocmai din cauza valorilor apropiate ale
razelor calculate. Important să reţinem, totuşi, este faptul că modul în care sunt construite
graficele poate influenţa percepţia datelor statistice de către cel care le priveşte. Nerespectarea
acestor reguli va conduce cu siguranţă la utilizarea greşită – intenţionată sau nu – a datelor
statistice şi, implicit, la concluzii greşite.
XA
k A/ B , (3.4)
XB
XB
kB / A , (3.5)
XA
Pornind de la datele din tabelul nr. 3.1 se pot calcula mărimi relative de coordonare
care exprimă proporţia dintre populaţia din mediul rural şi cea din mediul urban sau invers.
PU 10171,6
kU / R 0,846 , fie
PR 12029,6
PR 12029,6
k R /U 1,182
PU 10171,6
69
Mărimile relative de coordonare se exprimă sub formă de coeficienţi (câte unităţi din
numărător revin la o unitate din numitor). Rezultatul devine mai expresiv dacă acesta se
înmulţeşte cu 100 sau 1000.
Deci, în anul 1980, la 100 de persoane din mediul rural au revenit 84,6 persoane din
mediul urban, sau la 100 de persoane din mediul urban au revenit 118,2 persoane din mediul
rural. Pornind de la datele pentru anul 2007, se obţine:
PU 11877,7
kU / R 1,230 , fie
PR 9659,9
PR 9659,9
kR /U 0,813
PU 11877,7
Observăm, aşadar, că în anul 2007 raportul dintre populaţia urbană şi cea rurală s-a
inversat: la 100 de persoane din mediul rural au revenit 123 de persoane din mediul urban,
iar la 100 de persoane din mediul urban au revenit 81,3 persoane din mediul rural.
Teoretic, oricare din termenii comparaţi pot fi folosiţi drept bază de comparaţie. În
analiză, baza de comparaţie se alege în funcţie de scopul cunoaşterii. Dacă, de exemplu, se
urmăreşte evidenţierea faptului că numărul populaţiei din mediul urban a crescut, se preferă
folosirea populaţiei din mediul rural drept bază de comparaţie.
Mărimile relative de coordonare se reprezintă grafic prin diagrame prin coloane sau
prin benzi. Coloanele sau benzile se sprijină pe abscisă, iar lungimea fiecărei coloane sau
benzi este direct proporţională cu mărimea relativă de coordonare reprezentată.
yi
xi , i 1, n , (3.6)
zi
70
unde n este numărul de unităţi din colectivitatea observată, yi şi zi reprezintă valorile
înregistrate pentru caracteristica Y şi Z la unitatea i, iar xi este mărimea relativă de intensitate
calculată pentru unitatea i.
Din relaţia (3.6) rezultă că yi = xi*zi. Deci numărătorul raportului depinde de zi, care
are caracter de frecvenţă, şi de mărimea relativă de intensitate xi.
yi
x , i 1, n , (3.7)
zi
xi z i
x (3.8)
zi
Pe baza datelor din tabelul 3.3 se pot calcula mai multe mărimi relative de intensitate, cum ar fi:
PIB2007 416006,8
Produsul Intern Brut pe locuitor 19315,4 lei/locuitor
P01.07.2007 21537600
71
E _ FOB2007 29549 mil Euro
Exportul pe locuitor 1372 Euro/locuitor
P01.07.2007 21537600 locuitori
Dacă se raportează nivelul absolut aferent fiecărei unităţi de timp (xt) la acelaşi nivel
considerat bază de comparaţie se obţin mărimi relative de dinamică cu bază fixă (indici cu
bază fixă).
xt
It /0 , t 1, n (3.9)
x0
xt
I t / t 1 , t 1, n (3.10)
xt 1
t / t 1 I t / 0 (3.11)
raportul dintre două mărimi relative de dinamică succesive cu bază fixă conduce
la o mărime relativă de dinamică cu baza în lanţ:
It /0
I t / t 1 (3.12)
I t 1 / 0
72
Exemplu 3.4 – Calculul mărimilor relative de dinamică
Tabelul următor prezintă evoluţia exporturilor României în perioada 2000 – 2007.
Tabelul E.3.4.1 – Exporturile României în perioada 2000 – 2007 (mil. Euro)
Mărimile relative de dinamică cu baza fixă (2000 = 100) sunt prezentate în coloana a treia a
tabelul nr. 3.4.
12722
I 2001 / 2000 100 112,9%
11273
14675
I 2002 / 2000 100 130,2%
11273
....
29549
I 2007 / 2000 100 262,1%
11273
Mărimile relative de dinamică cu baza în lanţ sunt prezentate în coloana a patra a tabelului 3.4.
12722
I 2001 / 2000 100 112,9%
11273
14675
I 2002 / 2001 100 115,4%
12722
....
29549
I 2007 / 2006 100 114,3%
25850
Rezultatele calculelor de mai sus arată cât la sută reprezintă exporturile din fiecare an faţă de anul
2000 şi, respectiv, faţă de anul precedent. Dacă din fiecare mărime relativă de dinamică (indice)
exprimată procentual se scade 100 rezultă modificarea relativă (rata de modificare).
Dacă procedăm la calculul rapoartelor dintre indicii cu bază fixă, obţinem indicii cu bază în lanţ,
potrivit relaţiei (3.12). Spre exemplu, raportând indicele exporturilor din anul 2002 faţă de anul
2000 la indicele exporturilor din anul 2001 faţă de anul 2000, obţinem indicele exporturilor din
anul 2002 faţă de anul 2001.
73
I 2002 / 2000 130,2%
115,3% I 2002 / 2001
I 2001 / 2000 112,9%
Dacă procedăm la calculul produsului dintre indicii cu bază în lanţ pentru un segment din
perioadă observată, obţinem indicele de dinamică dintre valoarea variabilei pentru prima perioadă
din segmentul respectiv şi valoarea variabilei pentru ultima perioadă, potrivit relaţiei (3.11). Spre
exemplu, să calculăm produsul indicilor cu bază în lanţ pentru primele trei intervale de
comparaţie, adică segmentul 2000 – 2003.
Mărimile relative de performanţă sunt rapoarte procentuale care exprimă cât la sută
reprezintă nivelul programat pentru perioada curentă faţă de nivelul realizat pentru perioada
precedentă sau cât la sută reprezintă nivelul unui indicator realizat în perioada curentă
comparativ cu nivelul programat pentru această perioadă.
xP
kP/0 100 (3.13)
x0
x1
k1 / P 100 (3.14)
xP
xp x1 x
1 (3.15)
x0 x p x0
Mărimile relative de performanţă se reprezintă grafic prin diagramele prin coloane.
74
3.4 Cuvinte - cheie
indicator statistic mărimi relative de coordonare
indicatori primari diagrama prin benzi
indicatori derivaţi diagrama prin coloane
mărimi relative mărimi relative de intensitate
mărimi relative de structură mărimi relative de dinamică
diagrama de structură cronograma
pondere mărimi relative ale ţintei programate
frecvenţă relativă mărimi relative ale atingerii ţintei
3. Care sunt regulile a căror respectare asigură obţinerea unor mărimi relative
semnificative?
3.6 Bibliografie
1. Elisabeta Jaba, Statistica, Editura Economică, Bucureşti 1998, p. 94-202
2. Tudor Baron, Elena Maria Biji, Statistica teoretică şi economică, Editura Didactică
şi Pedagogică, Bucureşti 1996, p. 64-70
75
Capitolul 4: ANALIZA DESCRIPTIVĂ A SERIILOR DE
REPARTIŢIE
4.1 Introducere
Cunoaşterea statistică a trăsăturilor cantitative şi calitative ale fenomenelor şi
proceselor presupune, aşa cum am văzut în subcapitolul 2.2, să înregistrăm la nivelul
fiecărui element al colectivităţii cercetate valorile concrete (formele de manifestare)
corespunzatoare caracteristicilor cuprinse în programul observării. În urma înregistrării
(observării) se obţine o masă de date primare care nu permite sesizarea aspectelor
esenţiale, relevante pentru întreaga masă. Puterea de informare creşte dacă aceste date se
sistematizează în funcţie de una sau mai multe variabile atributive, proces care conduce la
obţinerea seriilor de repartiţie de frecvenţe, cum am văzut în subcapitolul 2.4. Aceste serii
oferă informaţii privind clasele/grupele care domină în serie, forma de repartiţie a frecvenţelor
ş.a. Astfel de serii sunt de exemplu: repartiţia agenţilor economici pe clase de mărime după
numărul salariaţilor, repartiţia populaţiei pe grupe de vârstă, repartiţia salariaţilor după
mărimea salariului brut/net, repartiţia clienţilor unei bănci după nivelul creditelor aflate în sold
etc.
Mai întâi, însă vom trece în revistă câteva din conceptele prezentate în subcapitolele
2.3, 2.5 şi 3.3 referitoare la seriile de distribuţie, calculul principalilor indicatori şi
reprezentarea lor grafică.
77
Gruparea elementelor colectivităţii în funcţie de o caracteristică calitativă
(nenumerică) se concretizează într-o serie de atribute sau serie nominativă.
către valorile care se află în mijlocul seriei, caz în care graficul repartiţiei tinde
să semene cu un clopot Gauss-Laplace (normală).
către cele două extremităţi ale repartiţiei, caz în care reprezentarea grafică
sugerează o curbă în formă de «U».
către una din valorile extreme ale seriei, atunci graficul seamănă cu un «J».
22
În acest paragraf, noţiunea de variaţie poate fi înţeleasă mai mult intuitiv, în sensul că datele sunt
mai mult sau mai puţin diferite între ele. În subcapitolul 4.5 vom prezenta pe larg conceptul de variaţie,
modul său de calcul şi de interpretare.
78
Diversitatea situaţiilor care pot fi întâlnite în practică impune ca economistul să aibă în
vedere, la alegerea metodelor statistice folosite în analiza seriilor de repartiţie, natura
distribuţiei empirice.
Oricare ar fi natura seriei de repartiţie, elementele centrale ale acesteia sunt valorile
variabilei observate şi frecvenţele de apariţie a fiecărei stări individuale ale variabilei
respective.
Frecvenţele relative (fi) exprimă ponderi, greutăţi specifice, câte părţi ale unităţilor
corespunzătoare unei variante sau grup de variante se regăsesc în totalul colectivităţii. Deci,
frecvenţele relative sunt mărimi relative de structură :
ni
fi k
100 , i 1, k ,
n
i 1
i
unde k este numărul de grupe determinate pentru o variabilă numerică continuă sau
de variante (modalităţi) ale variabilei discrete.
În cazul repartiţiei din Tabelul E.4.1.1, frecvenţele relative sunt prezentate sub formă
de coeficient şi ca procente în coloanele 3 şi 4.
79
Dacă o repartiţie este alcătuită pe intervale neegale de grupare, frecvenţele relative
nu sunt în măsură să sugereze forma repartiţiei – prin reprezentare grafică – deoarece nu
sunt direct comparabile. În asemenea situaţie trebuie să se recurgă la densităţile de
frecvenţe.
diagrama prin coloane, dacă repartiţia s-a construit pentru o variabilă cu o variaţie
discretă.
Pentru exemplificarea celor de mai sus, vom prezenta în continuare etapele de lucru
şi rezultatele obţinute.
Exemplul 4.1. – Indicatorii frecvenţelor unei serii de repartiţie şi reprezentarea lor grafică
Să presupunem că, în urma unei cercetări statistice, au fost culese date referitoare la cifra de
afaceri obţinută în anul 2009 de un număr de 200 de companii specializate în producţia de
accesorii auto.
Datele au fost grupate în intervale de variaţie, iar pentru fiecare interval au fost calculate
frecvenţele absolute şi relative, prezentate în Tabelul E.4.1.1
80
Tabelul E.4.1.1 – Distribuţia întreprinderilor după cifra de afaceri
limita inferioară a primului interval, respectiv limita superioară al ultimului interval este
valoarea empirică cea mai mică (xmin) respectiv cea mai mare (xmax) înregistrată ;
60
50
40
Nr. unitati
30
20
10
0
1600 - 2 000 - 240 0 - 2800 - 3 200 - 36 00 - 400 0 -
2000 2 400 280 0 3200 3 600 40 00 440 0
Cifra de afaceri
81
Fig. 4.2 – Repartiţia agenţilor economici după cifra de afaceri (reprezentare prin poligonul
frecvenţelor)
60
50
40
Nr. unitati
30
20
10
0
1600 - 2000 2000 - 2400 2400 - 2800 2800 - 3200 3200 - 3600 3600 - 4000 4000 - 4400
Cifra de aface ri
82
Tabelul E4.1.2. – Frecvenţele relative cumulate ale distribuţiei întreprinderilor după cifra de
afaceri
Număr Frecvenţa absolută Frecvenţa relativă
companii cumulată cumulată (%)
Cifra de afaceri (ni*) (Fi)
Frecvenţa
absolută Crescător Descrescător Crescător Descrescător
(ni)
1 2 3 4 5 6
1600 – 2000 15 15 200 7,5% 100,0%
2000 – 2400 25 40 185 20,0% 92,5%
2400 – 2800 50 90 160 45,0% 80,0%
2800 – 3200 46 136 110 68,0% 55,0%
3200 – 3600 35 171 64 85,5% 32,0%
3600 – 4000 24 195 29 97,5% 14,5%
4000 – 4400 5 200 5 100,0% 2,5%
Total 200 200
250
200
Nr. unitati
150
100
50
0
1600 - 2000 2000 - 2400 2400 - 2800 2800 - 3200 3200 - 3600 3600 - 4000 4000 - 4400
Cifr a de afacer i
Frecvenţele cumulate sunt comparabile între ele indiferent de mărimea intervalelor de grupare.
Punctul de intersecţie a celor două curbe reprezintă cifra de afaceri mediană, de aproximativ 2900
mii lei.
Pentru exemplificarea calculului densităţii de frecvenţă, să apelăm la datele din tabelul
E.4.1.3.
Densitatea de frecvenţă absolută aferentă primului interval de variaţie (sau grupă de interval)
este rezultatul împărţirii dintre frecvenţa absolută a acestui interval (15) la amplitudinea
intervalului (400). Aşadar, 15/400 = 0,0375.
83
Densitatea de frecvenţă relativă rezultă fie din împărţirea densităţii de frecvenţă absolută
(0,0375) la numărul total de companii (200) înmulţită cu 100, fie din împărţirea frecvenţei relative
corespunzătoare (7,5%) la amplitudinea intervalului (400). Echivalenţa celor două opţiuni este
destul de evidentă:
d1a n 1 0,0375 15 1
d1r 100 1 100 100 100
n h1 n 200 400 200
sau
f1% n 1 15 1
d
1
r
1 100 100
h1 n h1 200 400
84
Fig. 4.4 – Histograma repartiţiei agenţilor economici după cifra de afaceri (suprafaţa fiecărei
coloane este egală cu proporţia numărului de companii din fiecare interval de grupare)
0,1400
0,1200
Proportia companiilor
0,1000
0,0800
0,0600
0,0400
0,0200
0,0000
1600 - 2000 - 2400 - 2800 - 3200 - 3600 - 4000 -
2000 2400 2800 3200 3600 4000 4400
Cifra de aface ri
Repartiţia agenţilor economici după cifra de afaceri tinde către repartiţia normală, concluzie care
rezultă şi din figura nr. 4.2, din cauza faptului că frecvenţele relative descresc către capetele seriei.
În realitate, însă, este foarte rar ca o distribuţie de frecvenţe să urmeze o distribuţie normală.
85
Media reprezintă în statistică principalul indicator prin care se caracterizează sintetic
un număr mare de valori individuale. Media este rezultatul sintetizării într-un singur număr,
fiind nivelul reprezentativ a tot ceea ce este esenţial şi tipic în masa valorilor individuale.
Fiind o mărime rezultată dintr-un calcul, media nu coincide de cele mai multe ori cu nici una
din valorile empirice. Se exprimă în unităţi concrete de măsură şi anume în aceleaşi unităţi
de măsură ca şi valorile concrete din care se calculează.
Media poate descrie ceea ce este esenţial, comun, obiectiv într-o masă de
manifestări individuale, dacă sunt îndeplinite următoarele cerinţe fundamentale:
valorile individuale din care se calculează o medie să fie cât mai apropiate ca
mărime, ceea ce înseamnă să formeze un ansamblu omogen. Dacă colectivitatea
este eterogenă se recomandă împărţirea acesteia pe grupe şi calcularea de medii
de grupă / condiţionale ;
Media aritmetică poate fi aplicată în cazul unei variabile măsurate printr-o scală
metrică, iar datele din care se calculează sunt valori primare, direct măsurabile. Teoretic ar
trebui ca valorile empirice observate să tindă să formeze o progresie aritmetică, însă rareori
ne vom găsi în realitate în faţa unei asemenea situaţii.
Media aritmetică are avantajul că este uşor de aplicat şi este uşor de înţeles. Media
aritmetică are marele dezavantaj că este sensibilă la valorile extreme, adică valorile mult mai
mici sau mult mai mari decât marea majoritate a celorlalte valori tind să subestimeze sau să
supraestimeze valoare medie obţinută.
Media aritmetică este acea valoare care înlocuind toate valorile individuale (xi), nu
modifică suma acestora ( x i ).
86
Pentru o serie simplă, suma valorilor individuale este:
n
x1 x 2 .... x n x i (4.1)
i 1
x i
x i 1
(4.3)
n
Relaţia (4.3) se aplică dacă fiecare valoare empirică a fost observată o singură dată
sau de acelaşi număr de ori, deci când frecvenţele de apariţie sunt egale.
În cazul unei serii de frecvenţe valorile individuale apar de un număr diferit de ori (ni).
Pentru a obţine, în acest caz, nivelul totalizator al valorilor individuale se ţine seama de
frecvenţa absolută înregistrată în cazul fiecărei valori distincte (xi · ni). Media aritmetică se
calculează sub forma mediei aritmetice ponderate, după formula :
k
x n i i
x i 1
k
, (4.4)
n i 1
i
ni
În relaţia (4.4) expresia k
reprezintă recvenţa relativă fi, care exprimă ponderea
n
i 1
i
cu care intră în calculul mediei fiecare valoare distinctă înregistrată. Deci, dacă se dispune
de o repartiţie de frecvenţe relative, media aritmetică se calculează după relaţia:
k
x xi fi , (4.5)
i 1
x f i i
x i 1
, (4.6)
100
când frecvenţele relative sunt exprimate procentual.
87
Exemplul 4.2 – Calculul mediei aritmetice pentru o serie de repartiţie cu valori discrete
Pentru ilustrarea modului de calcul al mediei aritmetice, să presupunem că am cules datele din 50
de companii pentru care variabila de observare a fost numărul de angajaţi şi că vrem să aflăm care
este numărul mediu de angajaţi pe o companie. Datele sunt prezentate în tabelul E.4.2.1.
În prima coloană regăsim valorile observate ale variabilei de interes – numărul de angajaţi – şi în
coloana a doua frecvenţele absolute – numărul de companii al căror număr de angajaţi este 8, 12,
15 etc. În coloana a treia este calculată frecvenţa relativă exprimată în procente, pentru a vedea
cum putem utiliza cele două modalităţi de exprimare a frecvenţei în formulele de calcul ale mediei
aritmetice.
Întrucât avem la dispoziţie frecvenţele de apariţie ale fiecărei variante ale variabilei de interes,
vom utiliza formula mediei aritmetice ponderate.
Pentru controlul corectitudinii calculelor, este recomandat să folosim modelul tabelului de calcul,
în care vom înscrie în coloane succesive rezultatele fiecărei etape de lucru. Acest tabel este folosit
numai pentru scopuri didactice şi este util pentru înţelegerea modului de calcul al fiecărui
indicator al tendinţei centrale. În aplicaţiile practice, aceşti indicatori pot fi lesne calculaţi cu
ajutorul pachetelor informatice, de la cele mai comune, cum este MS Excel, până la pachetele
specializate de analiză a datelor şi de realizare a rapoartelor (SPSS, SAS etc.)
Astfel, dacă suntem în situaţia să utilizăm relaţia de calcul (4.4), a mediei aritmetice ponderate,
k
ceea ce ne interesează este să obţinem suma produselor de la numărător: x n
i 1
i i . De aceea, în
coloana a 4-a a tabelului vom înscrie rezultatul înmulţirii dintre fiecare variantă a variabilei de
interes şi frecvenţa absolută care corespunde acesteia: x i ni .
Numărul de Frecvenţa
Frecvenţa
angajaţi relativă (fi) x i ni xi fi
absolută (ni)
(xi) %
1 2 3 4 5
8 5 10 40 80
12 10 20 120 240
15 15 30 225 450
24 10 20 240 480
32 7 14 224 448
45 3 6 135 270
Total 50 100 984 1968
k
Suma produselor din coloana a 4-a este 984, iar numărul total al unităţilor ( ni ) este 50.
i 1
88
k
x n i i
984
x i 1
k
19,68 angajaţi 24 .
n
50
i
i 1
Dacă apelăm la relaţia (4.6), în coloana a 5-a calculăm produsul dintre variantele variabilei de
k
interes şi frecvenţa relativă exprimată procentual ( x i f i ), după care însumăm rezultatele
i 1
x f i i
1968
x i 1
19,68 angajaţi.
100 100
Aşadar, indiferent de relaţia de calcul folosită, rezultatul este acelaşi: o companie dintre cele 50
incluse în studiu au în medie un număr de aproximativ 20 de angajaţi.
xi inf xi sup
ci (4.7)
2
Se procedează astfel pornind de la ipoteza că frecvenţele se distribuie uniform pe
intervalul de grupare. Această ipoteză nu se verifică întotdeauna, motiv pentru care nivelul
k n
totalizator calculat ( x i ni ) nu este egal cu suma valorilor empirice ( x i ).
i 1 i 1
24
Să ne reamintim că unitatea de măsură a mediei aritmetice este aceeaşi cu cea a variabilei de
interes. În cazul de faţă, unitatea de măsură este “angajat”.
89
Exemplul 4.3 – Calculul mediei aritmetice ponderate pentru o serie de repartiţie cu
intervale de grupare
Vom utiliza datele prezentate în Tabelul E.4.1.1 la care vom adăuga, succesiv, coloanele de calcul
care ne ajută să ajungem la rezultatul aşteptat.
Tabelul E.4.3.1 – Distribuţia companiilor după cifra de afaceri
În coloana a 5-a vom calcula produsul ci ni dintre centrele de interval şi frecvenţele absolute,
similar cu produsul xi ni , după care însumăm rezultatele.
90
Media aritmetică ponderată, potrivit relaţiei (4.4), este:
k
c n i i
581200
x i 1
k
2906 mii lei.
n
200
i
i 1
Aşadar, cifra medie de afaceri a companiilor studiate a fost de 2906 mii lei.
Media aritmetică are câteva proprietăţi matematice, care sunt de mare importanţă
pentru aplicarea ei în statistică.
(xi 1
i x) 0 (4.9)
(xi 1
i x ) ni 0 (4.10)
(x i a) xi na
x i 1
i 1
xa (4.11)
n n n
respectiv,
k k k
(x i a ) ni xi n i a ni
x i 1
k
i 1
k
k
i 1
xa (4.12)
n
i 1
i n
i 1
i n
i 1
i
91
pentru o serie de frecvenţe
k k
xi
h n i
1
xi n i
x
x i 1
k
i 1
k
(4.14)
n n
h h
i i
i 1 i 1
Această metodă este aplicabilă atunci când gruparea este realizată pe intervale
egale.
x i
x i 1
(4.18)
k
Când subcolectivităţile au talie diferită, adică au un număr diferit de unităţi:
92
k
x i ni
x i 1
k
(4.19)
n
i 1
i
Se observă faptul că media determinată pe baza relaţiei de calcul simplificat este egală cu cea
obţinută prin aplicarea relaţiei de bază (4.4) din Exemplul 4.3.
Pentru aceeaşi serie de repartiţie, dacă schimbăm de numărul de clase (grupe) sau
alegem limite diferite de interval, se pot obţine valori medii diferite. Dacă dorim să comparăm
două fenomene, de cele mai multe ori suntem tentaţi să comparăm mediile, pentru că sunt
uşor de înţeles. Totuşi, e necesară maximă precauţie atunci când comparăm direct două
valori medii, pentru că e nevoie de o investigare mai aprofundată a colectivităţilor statistice
93
din care provin cele două mărimi, mai concret a structurii acestora şi a momentelor la care
au fost realizate observaţiile.
Mai mult, în cazul mediilor ponderate, trebuie să fim prudenţi în interpretare deoarece
ponderile pot introduce un efect de structură, determinat de ponderile fiecărei valori
observate.
Vom ilustra efectul structurii asupra mediei aritmetice ponderate în cele ce urmează.
Xmin Me Xmax
94
n 1
LoMe (4.20)
2
În cazul unei serii simple formată dintr-un număr impar de termeni, mediana este
tocmai valoarea centrală, din mijloc.
7 1
LoMe 4
2
În şirul nostru, cea de a 4-a valoare este „6”. În concluzie, Me 6
Dacă seria este formată dintr-un număr par de termeni, atunci mediana se
localizează între cei doi termeni centrali. Valoarea medianei se determină, în acest caz, ca o
medie aritmetică simplă a celor doi termeni din mijlocul seriei.
De exemplu, dacă seria este formată din valorile: 2, 4, 4, 6, 7, 9, 10, 15, mediana se
8 1
situează între termenii care ocupă poziţiile patru şi cinci în serie ( LoMe 4,5 ) şi este
2
egală cu media aritmetică a celor doi termeni, respectiv valorile 6 şi 7, adică:
67
Me 6,5
2
Într-o serie construită pe intervale de grupare, locul medianei indică intervalul în care
se situează. La calcularea valorii medianei se porneşte, ca şi în cazul mediei, de la ipoteza
că valorile se distribuie uniform pe întregul interval de grupare. Valoarea medianei se
estimează pe baza relaţiei :
n 1 Me
ni
2
Me x 0 h i 1
(4.21)
n Me
unde:
n 1
- este locul medianei;
2
Me
- n
i 1
i este suma frecvenţelor până la intervalul median sau frecvenţa cumulată
Se remarcă faptul că toate elementele din relaţia 4.21 sunt legate de locul medianei
în serie.
95
Locul medianei în serie se stabileşte astfel:
b) se identifică prima frecvenţă cumulată crescător care este mai mare sau cel puţin
n 1
egală cu expresia care indică locul medianei;
2
c) intervalul de grupare care corespunde cerinţei de mai sus este intervalul median.
96
n 1
- =100,5;
2
Me
- n
i 1
i = 90;
- nMe =46.
250
150
136
100
110
90
64
50
40
29
0
15 Me 5
1600 - 2000 2000 - 2400 2400 - 2800 2800 - 3200 3200 - 3600 3600 - 4000 4000 - 4400
Cifra de aface ri
n 1 201
Mai întâi identificăm locul medianei LoMe 100,5 . Din acest punct de
2 2
pe axa Oy trasăm o perpendiculară la axa Ox până ce intersectează poligonul frecvenţelor
cumulate crescător. Proiecţia pe axa Ox a punctului de intersecţie dintre această paralelă şi
curba frecvenţelor indică valoarea medianei.
97
Fig. 4.6 – Calculul grafic al medianei la intersecţia ogivelor
250
150
136
100
90
50
40
15
0
1600 - 2000 2000 - 2400 2400 - 2800 2800 - 3200 3200 - 3600 3600 - 4000 4000 - 4400
Cifr a d e afacer i
(x
i 1
i Me) min pentru o serie simplă şi
(x
i 1
i Me) ni min pentru o serie de frecvenţe.
Într-o serie de frecvenţe alcătuită pe valori, modul este valoarea cu frecvenţa cea mai
mare. Astfel, în seria din Tabelul E.4.2.1, frecvenţa cea mai mare, egală cu 15, o
înregistrează companiile cu 15 salariaţi. Astfel, valoarea modală este dată de x3=15.
25
Cuvântul se pronunţă cu accentul pe litera “o”: mód, forma sa articulată fiind módul.
98
Într-o repartiţie de frecvenţe alcătuită pe intervale egale de grupare, frecvenţa cea
mai mare indică intervalul în care se află modul. Valoarea acestuia se estimează prin
interpolare, pe baza relaţiei:
1
Mo x0 h , (4.22)
1 2
unde:
99
1 25
Mo x0 h 2400 400 2744,8 mii lei.
1 2 25 4
Interpretarea mărimii statistice obţinute ne arată că cele mai multe întreprinderi din cele studiate,
în număr de 50, au o cifră de afaceri de aproximativ 2745 26 mii lei.
0,1400
0,1200
Proportia companiilor
0,1000
0,0800
0,0600
0,0400
0,0200 Mo
0,0000
1600 - 2000 - 2400 - 2800 - 3200 - 3600 - 4000 -
2000 2400 2800 3200 3600 4000 4400
Cifra de aface ri
modul oferă relativ puţine informaţii. Ele arată numai dacă o valoare modală
apare mai frecvent decât celelalte valori. Dacă celelalte valori apar aproape tot
aşa de frecvent ca valoarea modală, s-ar putea ca o valoare să devină modală
din întâmplare. Deci, poate se recomandă pentru a caracteriza ce este tipic într-o
distribuţie numai dacă o valoare domină clar în serie ;
26
Statistica, prin excelenţă, înseamnă estimaţie. Din acest motiv am optat pentru rotunjirea rezultatului
obţinut, deoarece, în acest fel, este şi mai uşor de reţinut. (n. aut).
100
În cazul distribuţiei companiilor după cifra de afaceri, cei trei indicatori ai tendinţei
centrale au următoarele valori :
Dacă ordinea celor trei indicatori este x < Me < Mo , atunci seria este asimetrică de
stânga.
Cei trei indicatori sunt egali ( x = Me = Mo) în cazul unei serii perfect simetrice.
În concluzie, media aritmetică descrie corect ceea ce este esenţial într-o serie de
distribuţie, dacă aceasta este formată din valori omogene şi tinde spre o repartiţie normală.
În acest caz, mediana şi modul pot completa media.
Dacă seria nu este omogenă sau dacă repartiţia este pronunţat asimetrică, sau dacă
clasele marginale sunt deschise, se recomandă folosirea modului şi a medianei.
Media aritmetică se aplică dacă are sens să se însumeze valorile individuale, deci să
se calculeze nivelul totalizator ( x i ). Frecvent însă este necesar să se calculeze media din
datele care sunt mărimi relative de intensitate (salarii medii, rate medii de rentabilitate) sau
mărimi relative de structură (rate ale şomajului pe judeţe) sau modificări relative (ritmuri de
creştere) etc. În asemenea situaţii, însumarea directă a valorilor din care se calculează
media nu are sens.
1
Media armonică se calculează din valorile inverse ale termenilor seriei ( ) şi este
xi
acea valoare care nu modifică suma inverselor termenilor.
n
1 1 1 1 1 1 1
.... .... (4.23)
x1 x 2 xn xh xh x h i 1 xi
deci:
n
1 1
n (4.24)
x h i 1 xi
de unde rezultă:
101
n
xh n
(4.25)
1
i 1 x i
n i
xh k
i 1
(4.26)
1
i 1 x i
ni
Ca regulă, media armonică trebuie folosită când datele din care se calculează media
nu sunt date primare ci sunt date derivate, rezultate din calcule, respectiv sunt mărimi
relative de structură sau mărimi relative de intensitate. Aceste mărimi relative pot fi
interpretate drept medii parţiale, din care trebuie calculată o medie totală / generală.
La calcularea unei medii din medii parţiale, poate fi utilizată media aritmetică sau
media armonică în funcţie de datele disponibile, şi anume:
Dacă pe lângă mediile parţiale se cunosc numitorii rapoartelor din care rezultă
aceste medii parţiale se explică media aritmetică;
Dacă pe lângă mediile parţiale se cunosc numărătorii din care rezultă aceste
medii parţiale, se aplică media armonică.
102
Rata şomajului la nivelul fiecărui judeţ (RSi) este o pondere care arată cât la sută reprezintă
NS i
numărul şomerilor (NSi) în populaţia activă (PAi), deci RS i 100 .
PAi
Aşadar, folosirea mediei aritmetice simple s-ar justifica numai dacă numitorii celor trei
rapoarte - populaţia activă din fiecare judeţ - ar fi egali, ceea ce în realitate rareori se
poate întâmpla.
3
Rata medie este un raport dintre numărul şomerilor din cele trei judeţe NS
j 1
i şi populaţia activă
3
din cele trei judeţe ( PAi ), deci :
j 1
NS
j 1
i
RS 3
100
PA
j 1
i
NS i
Nu se cunoaşte populaţia activă. Aceasta rezultă din expresia PAi 100 sau
RS i
1
PAi NS i 100
RS i
3 n
NS
j 1
i n i
Deci, RS 3
100 n
i 1
100 , ceea ce înseamnă că se aplică media armonică :
1 1
j 1 RS i
NS i
i 1 xi
ni
230
RS 100 9,12%
1 1 1
80 100 50
8,4 12 6,5
După cum se poate constata, există o diferenţă între media calculată cu ajutorul formulei mediei
armonice faţă de cea a mediei aritmetice, care ar subestima rezultatul căutat.
Dacă pe lângă rata şomajului s-ar fi cunoscut populaţia activă, rata medie a şomajului s-ar fi
calculat pe baza mediei aritmetice ponderate.
103
4.3.5 Media pătratică
Media pătratică ( x p ) este definită drept acea valoare care, înlocuind termenii seriei
ridicaţi la pătrat, din care se calculează, nu modifică suma pătratelor acestora:
n
x12 x 22 .... x n2 xi2 x 2p x 2p .... x 2p n x 2p (4.27)
i 1
Aşadar:
n n
xi2 x 2
i
x 2p i 1
xp i 1
(4.28)
n n
Media pătratică se recomandă a fi folosită când într-o serie in care predomină valorile
absolute sau atunci când seria este formată atât din valori pozitive cât şi negative.
Relaţia 4.28 se aplică la calculul mediei pătratice în cazul unei serii simple. În cazul
unei serii de frecvenţe se aplică media pătratică ponderată :
x 2
i ni
xp i 1
k
n
i 1
i
Media pătratică este întotdeauna mai mare decăt media aritmetică ( x p > x ).
Aceasta deoarece prin ridicare la pătrat creşte importanţa valorilor mari.
Media pătratică se aplică cel mai frecvent la calculul abaterii medii pătratice, care
este unul din cei mai utilizaţi indicatori sintetici de variaţie.
Media geometrică este acea valoare care, înlocuind termenii seriei, nu modifică
produsul acestora:
n
x1 x 2 .... x n xi x g x g .... x g (4.29)
i 1
sau
n
n x g xi (4.30)
i 1
de unde:
104
- media geometrică simplă:
n
xg n x i 1
i (4.31)
k
x g ni xini (4.32)
i 1
n i ln xi
xg i 1
k
(4.33)
n
i 1
i
Aplicarea mediei presupune ca toţi termenii seriei să fie pozitivi. Media geometrică
acordă o importanţă mai mare valorilor mai mici. Calculată pe baza aceloraşi date, media
geometrică este mai mică decât media aritmetică.
33598
R f 10 1,03
25000
Astfel, creşterea medie anuală a fost de 3%, valoare obţinută scăzând 1 din rezultatul
de mai sus.
105
Existenţa mai multor tipuri de medii ridică întrebarea: când se aplică una sau
alta din mediile prezentate anterior?
106
Indicatorii variaţiei servesc la: verificarea reprezentativităţii mediei ca valoare tipică a
unei serii de date empirice; verificarea gradului de omogenitate a seriei; caracterizarea
statistică a formei şi gradului de variaţie; cunoaşterea gradului de influenţă a factorilor.
Amplitudinea absolută (A) este indicatorul de variaţie cel mai simplu. Se determină
ca diferenţă dintre valorile extreme ale caracteristicii şi exprimă mărimea câmpului de
împrăştiere.
A x max x min
În cazul unei repartiţii construită pe intervale de grupare, amplitudinea variaţiei se
determină ca diferenţă dintre limita superioară a ultimului interval şi limita inferioară a
primului interval. Dacă primul şi ultimul interval sunt deschise, amplitudinea variaţiei se
estimează pe baza diferenţei dintre centrele intervalelor extreme.
A
A(%) 100 (4.34)
x
Amplitudinea variaţiei (absolută şi relativă) poate dezinforma atunci când valorile
extreme se situează la distanţă mare de masa valorilor empirice. Din acest motiv acest
indicator nu oferă informaţii concludente privitor la gradul de variaţie a două repartiţii.
Mai întâi, însă, vom defini cuantilele, respectiv indicatorii care împart seria valorilor
ordonate într-un anumit număr de parţi egale: cuartilele; quintilele; decilele; centilele;
percentilele etc.
Cuartilele sunt notate cu litera „Q” şi sunt acele valori ale caracteristicii care împart
seria valorilor ordonate în patru părţi egale: cuartila inferioară (Q1) este acea valoare care
107
separă 25 % din valorile mici de restul de 75 % din valori; cuartila a doua (Q2) împarte seria
în două părţi egale, deci coincide cu mediana (Q2 = Me); cuartila a treia (Q3) separă primii 75
% din valori de restul de 25 % din valorile mai mari.
xmin Q1 Q2 Q3 xmax
n 1
LoQ1 ;
4
n 1
LoQ2 ; (4.35)
2
3
LoQ3 (n 1)
4
Se cumulează crescător frecvenţele. Q1 este valoarea corespunzătoare frecvenţei
n 1 3
cumulate care este mai mare sau cel puţin egală cu , respectiv (n 1) în cazul Q3.
4 4
Valoarea Q1 se calculează după relaţia:
n 1 Q1
ni
4
Q1 x0 h i 1
(4.36)
nQ1
respectiv, Q3:
3 (n 1) Q3
ni
4
Q3 x 0 h i 1
(4.37)
nQ3
IQR Q3 Q1 (4.38)
108
Exemplul 4.9 – Calculul indicatorilor de localizare: cuartilele şi intervalul intercuartilic
Vom utiliza datele din Tabelul E.4.1.1, referitoare la cifra de afaceri colectate pentru 200 de
companii.
Tabelul E4.9.1. – Distribuţia întreprinderilor după cifra de afaceri
Număr Frecvenţa absolută
companii cumulată
Cifra de afaceri
Frecvenţa (Fi)
(xi)
absolută
Crescător Descrescător
(ni)
1600 – 2000 15 15 200
2000 – 2400 25 40 185
2400 – 2800 50 90 160
2800 – 3200 46 136 110
3200 – 3600 35 171 64
3600 – 4000 24 195 29
4000 – 4400 5 200 5
Total 200 200
Q1 şi Q3 se determină astfel:
a) Determinarea locului primei şi a celei de a treia cuartile:
n 1 201
LoQ1 50,25
4 4
Prima frecvenţă cumulată mai mare sau egală cu 50,25 este 90, deci prima cuartilă se găseşte în
intervalul 2400 – 2800 mii lei.
3 (n 1) 603
LoQ3 150,75
4 4
Prima frecvenţă cumulată mai mare sau egală cu 150,75 este 171, deci a treia cuartilă se găseşte
în intervalul 3200 – 3600 mii lei.
b) Determinarea valorii primei şi a celei de a treia cuartile:
n 1 Q1
ni
4 50,25 40
Q1 x0 h i 1
2400 400 2482 mii lei
nQ1 50
3 (n 1) Q3
ni
4 150,75 136
Q3 x 0 h i 1
3200 400 3368,6 mii lei
nQ3 31
c) Calculul intervalului intercuartilic
109
Decilele, notate cu litera „D”, separă şirul valorilor ordonate în 10 părţi egale. Prima
decilă (D1) separă 10 % din valorile mai mici de restul de 90 % din valori, a doua decilă (D2)
separă 20% din valorile cele mai mici de restul de 80% din valori etc. Şi în cazul lor se
procedează în acelaşi mod ca în cazul cuartilelor: mai întâi se calculează localizarea lor şi
apoi valoarea lor propriu-zisă.
n 1
LoD1
10
2 (n 1)
LoD2
10
....
9 (n 1)
LoD9
10
Valorile decilelor urmează aceleaşi relaţii de calcul ca în cazul cuartilelor, cu excepţia
introducerii în calcul a poziţiei fiecărei decile, cu frecvenţele precedente şi cea a intervalului
decilic în cauză.
n 1 D1
ni
10
D1 x0 h i 1
n D1
2 (n 1) D2
ni
10
D2 x 0 h i 1
n D2
9 (n 1) D9
ni
10
D9 x0 h i 1
n D9
IDR D9 D1 (4.39)
110
În continuare ilustrăm modul de calcul al decilelor.
n 1 201
LoD1 20,1
10 10
Prima frecvenţă cumulată mai mare sau egală cu 20,1 este 40, deci prima decilă se găseşte în
intervalul 2000 – 2400 mii lei.
2 (n 1) 402
LoD2 40,2
10 10
Prima frecvenţă cumulată mai mare sau egală cu 40,2 este 90, deci a doua decilă se găseşte în
intervalul 2400 – 2800 mii lei.
În mod asemănător se procedează pentru toate celelalte decile intermediare. Să calculăm locul
celei de a noua decile:
9 (n 1) 1809
LoD9 180,9
10 10
Prima frecvenţă cumulată mai mare sau egală cu 180,9 este 195, deci a noua decilă se găseşte în
intervalul 3600 – 4000 mii lei.
111
b) Determinarea valorii primei, a doua şi a noua decile:
n 1 D1
ni
10 20,1 15
D1 x0 h i 1
2000 400 2081,6 mii lei
n D1 25
2 (n 1) D2
ni
10 40,2 40
D2 x 0 h i 1
2400 400 2401,6 mii lei
n D2 50
9 (n 1) D9
ni
10 180,9 171
D9 x0 h i 1
3600 400 3765 mii lei
n D9 24
Interpretare: 80% dintre observaţii au valori cuprinse între 2401,6 şi 3765 mii lei.
Q3 Q1 D D1
CD 100 sau CD 9 100 (4.40)
Me Me
Un alt indicator robust al împrăştierii, care nu este influenţat de valorile atipice, este
abaterea mediană absolută 27 . Ea se calculează ca mediană a abaterilor valorilor
individuale de la mediană.
AMA=mediana{xi-Me} (4.41)
Abaterea mediană absolută este utilă pentru compararea a două distribuţii ale
aceleiaşi variabile fie la două momente cronologice diferite, fie din locaţii geografice diferite,
pentru a aprecia gradul de împrăştiere a datelor.
27
În limba engleză, acest indicator este denumit “median absolute deviation”, prescurtat MAD (n.aut)
112
Exemplul 4.11 – Calculul abaterii mediane absolute liniare şi a coeficientului de dispersie
Vom utiliza datele din Tabelul E.4.1.1, referitoare la cifra de afaceri colectate pentru 200 de
companii.
În exemplul 4.6 am calculat mediana, egală cu 2891,3 mii lei.
Tabelul E4.11.1. – Distribuţia întreprinderilor după cifra de afaceri (continuare)
Frecvenţa
Cifra de afaceri
absolută xi Me
(xi)
(ni)
1600 – 2000 15 -1091,3
2000 – 2400 25 -691,3
2400 – 2800 50 -291,3
2800 – 3200 46 108,7
3200 – 3600 35 508,7
3600 – 4000 24 908,7
4000 – 4400 5 1308,7
Total 200
Q3 Q1 904,6
CD 100 100 31,2%
Me 2891,3
D9 D1 1316,4
CD 100 100 45,5%
Me 2891,3
Abaterile individuale absolute (di) reprezintă diferenţa între fiecare valoare empirică
şi media aritmetică a termenilor:
d i xi x (4.42)
xi x
di 100 (4.43)
x
113
În analiza variaţiei se calculează, de regulă, numai abaterile maxime, respectiv
pozitivă ( x max x )şi negativă ( x min x ). Dacă aceste abateri, luate în valoare absolută,
diferă seminificativ, trebuie trasă concluzia că repartiţia este pronunţat asimetrică, situaţie
care impune calcularea şi a indicatorilor care măsoară gradul de asimetrie.
( x x) n
i i
.Dar suma abaterilor valorilor individuale de la media lor este întotdeauna
n i
egală cu 0. Pentru a evita compensarea abaterilor pozitive şi negative există două posibilităţi:
b) fiecare abatere individuală să se ia în calcul cu pătratul lor, xi x
2
.
x i x
d i 1
(4.44)
n
pentru o serie de frecvenţe:
k
x i x ni
d i 1
k
(4.45)
n
i 1
i
x i x fi%
d i 1
(4.46)
100
114
Abaterea medie liniară evidenţiază cu cât se abate în medie fiecare termen de la
media termenilor. Calculul abaterii medii liniare este exemplificat în continuare.
În cazul de faţă, al unei repartiţii pe intervale de grupare, valoarea variabilei de interes este centrul
de interval. De asemenea, din Exemplul 4.4, am obţinut valoarea mediei aritmetice, egală cu 2906
mii lei. Ca urmare, în coloana a 3-a vom calcula valoarea absolută a diferenţei dintre centrul de
interval şi media cifrei de afaceri pe baza relaţiei 4.45. Diferenţele liniare pentru primele doua
intervale sunt:
Repetăm calculele pentru toate intervalele şi obţinem rezultatele din coloana a 3-a.
Abaterea medie liniară este:
k
x i x ni
99080
d i 1
k
495,4 mii lei
n
200
i
i 1
Interpretare: Cifra de afaceri a oricărui agent economic se abate în medie de la 2906 mii lei cu
495,4 mii lei.
115
Dispersia ( 2 ) se calculează ca o medie aritmetică simplă sau ponderată a
pătratelor abaterilor termenilor seriei de media lor:
(x i x) 2
2 i 1
(4.47)
n
pentru o serie de frecvenţe:
k
(x i x ) 2 ni
2 i 1
k
(4.48)
n
i 1
i
(x i x) 2 f i %
2 i 1
(4.49)
100
Dispersia este o mărime abstractă, exprimată în pătratul unităţii de măsură a
variabilei observate, care nu serveşte nemijlocit analizei variaţiei. Pe baza ei se calculează
abaterea medie pătratică ( ).
116
k
(x i x ) 2 ni
71992800
2 i 1
k
359964 mii lei la pătrat
n
200
i
i 1
În vederea determinării dispersiei pot fi aplicate formule alternative care rezultă din
dezvoltarea expresiei din numărătorul relaţiei de bază (formula 4.48) şi din unele proprietăţi
ale dispersiei.
(x (x
2
i x ) ni 2 2
i 2 x x i x ) ni
2 i 1
k
i 1
k
n i 1
i n
i 1
i
k k k
x ni 2 x x i ni x ni
2 2
i
i 1 i 1
k
i 1
ni 1
i
x i ni
Ştim că media este x i 1
k
. Înlocuind în relaţia de mai sus, obţinem:
n
i 1
i
k k k k k k
x ni 2 x x i ni x ni x x x
2
2
i
2
i ni i ni i ni
i 1 i 1
k
i 1
i 1
k
2 i 1
k
i 1
k
n i 1
i n
i 1
i n
i 1
i n
i 1
i
2 2 2
k k k
k k
x i ni ni x ni2
i x i ni x i ni
i 1 k i 1 i 1
2 i 1 k i 1
k k k
ni ni ni ni ni
i 1 i 1 i 1 i 1 i 1
2
k
k k
x n x i ni
2
x 2
ni
i i i
k
2 i 1
i 1 k sau 2 i 1
x
2
(4.50)
k
i 1
ni ni
i 1
n
i 1
i
117
dispersia calculată pe baza valorilor empirice micşorate sau mărite în prealabil
prin scăderea sau adăugarea unei constante a, este egală cu dispersia valorilor
iniţiale 28 , deci:
x2 a x2
i i
1
x2 / h
i 2
x2i
h
xi a
Aplicând transformarea în (4.50), obţinem:
h
xi a
k 2
ni
2 i 1 h
k
h2 x a 2
(4.51)
ni i 1
Relaţia 4.51, prin scăderea unei constante a, simplifică calculul dispersiei dacă
seria de repartiţie a fost construită pe intervale de grupare egale.
(x i x) 2
i 1
(4.52)
n
(x i x ) 2 ni
i 1
k
(4.53)
n
i 1
i
Deci, 2
Pe baza dispersiei calculate în Exemplul 4.13, abaterea medie pătratică (sau ecartul
tip) este:
28
Distribuţia se translatează pe axă, însă dispersia este aceeaşi.
118
Aşadar, d deoarece o medie pătratică este mai mare decât o medie aritmetică.
aproximativ 68,2% dintre valori se află în intervalul x ; x
aproximativ 95,4% dintre valori se află în intervalul x 2 ; x 2
Fig. 4.8 – Distribuţia normală şi gruparea valorilor pe intervale ale abaterii standard
O abatere medie de 600 mii lei reprezintă mult sau puţin? Poate reprezenta mult sau
puţin în raport cu o valoare tipică, deci cu media seriei.
Cv 100 (4.54)
x
Cu cât coeficientul de variaţie se apropie mai mult de zero, cu atât variaţia este mai
redusă, colectivitatea este mai omogenă. iar media este mai reprezentativă.
119
seama întâmplării, deci cel puţin un factor considerat întâmplător are o influenţă
semnificativă.
În cazul repartiţiei prezentată în Exemplul 4.13, coeficientul de variaţie este egal cu 20,6% ceea ce
indică faptul că media este reprezentativă.
599,97
Cv 100 100 20,6%
x 2906
În tabelul nr. 4.1 se prezintă macheta unei repartiţii bidimensionale, în care valorile au
fost împărţite în r grupe după caracteristica X şi în m grupe după caracteristica Y.
Totalul
Valorile Valorile frecvenţelor
variabilei caracteristicii Y(yi) asociate
X (xi) variabilei
X (xi.)
y1 y2 ... yj ... ym
x1 n11 n12 ... n1j … n1m n1.
x2 n21 n22 ... n2j … n2m n2.
... … ... … ... … … …
xi ni1 ni2 ... nij … nim ni.
... … ... … ... … … …
xr nr1 nr2 ... nrj … nrm nr.
Totalul
frecvenţelor
asociate n.1 n.2 … n.j ... n.m n..
variabilei
Y (n.j)
120
În tabelul nr. 4.1 apar pentru variabila efect (Y) două tipuri de repartiţii:
a) o repartiţie pe total (yj, nj), care nu ţine seama de grupele construite după
caracteristica considerată cauză.;
În plus, tabelul prezintă două distribuţii de total, una în funcţie de valorile variabilei
efect (Y) şi una în funcţie de variabila cauză (X), numite distribuţii marginale.
y
j 1
j n. j
y m
(4.55)
n
j 1
.j
Aceeaşi măsură poate fi obţinută prin intermediul valorilor individuale ale variabilei Y
pe ansamblul distribuţiei din tabelul de contingenţă:
r m
y
i 1 j 1
j nij
y r m
(4.56)
n
i 1 j 1
ij
y
j 1
j nij y
j 1
j nij
yi m
(4.57)
n
ni
ij
j 1
121
Pornind de la valorile individuale ale variabilei efect ( y j ) şi de la mediile condiţionate
Corespunzător celor trei tipuri de abateri, la nivelul fiecărei unităţi observate se poate
scrie:
y j y = y j yi + yi y
Ceea ce înseamnă că abaterea totală este egală cu suma dintre abaterea valorilor
individuale faţă de media grupei şi abaterea mediei de grupă de la media generală. Ce
semnificaţie au aceste abateri?
mediei generale. Dacă valorile empirice înregistrate ( y j ) sunt rezultatul influenţei tuturor
factorilor (esenţiali şi neesenţiali), iar media presupune că toţi factorii sunt constanţi,
înseamnă că această diferenţă exprimă variaţia valorilor individuale în jurul mediei sub
acţiunea tuturor factorilor: factorul X considerat esenţial şi toţi ceilalţi factori, consideraţi
neesenţiali.
y
m
2
j y n j
j 1
02 m
(4.59)
n
j 1
j
122
Pentru ansamblul tabelului de contingenţă, dispersia generală mai poate fi scrisă şi
sub următoarea formă:
y
r m
2
j y nij
i 1 j 1
02 r m
(4.59’)
n
i 1 j 1
ij
y
m
2
j yi nij
j 1
i
2
m
(4.60)
n j 1
ij
Pentru a măsura acţiunea tuturor factorilor neesenţiali din toate grupele se calculează
media dispersiilor de grupă.
2
Media dispersiilor de grupă ( ) este o medie aritmetică a dispersiilor de grupă:
r
2
i
2
ni
i 1
r
(4.61)
ni 1
i
Dacă toate grupele sunt de acelaşi volum (n1 = n2 = ... = ni = ...), atunci toate
dispersiile de grupă intră în calculul mediei cu aceeaşi importanţă
n1 n 2 nr
r
r
... r
, atunci se aplică media aritmetică simplă:
n
i 1
i n
i 1
i n
i 1
i
2
i
2
i 1
(4.62)
r
123
y
r
2
i y ni
Y2 / X i 1
r
(4.63)
n
i 1
i
Dispersia totală ne arată că este suma dintre media dispersiilor de grupă şi dispersia
mediilor de grupă.
Coeficientul de determinaţie ( RY2 / X ), care exprimă ce cotă parte din variaţia totală
se datorează acţiunii factorului considerat esenţial:
Y2 / X
RY2 / X 100 (4.65)
02
124
Tabelul E.4.14.1 – Gruparea agenţilor economici după numărul de salariaţi
şi după cifra de afaceri
Grupe Grupe după cifra de afaceri (mii lei)
după
numărul
de 1600- 2000- 2400- 2800- 3200- 3600- 4000- Total
salariaţi 2000 2400 2800 3200 3600 4000 4400
(pers.)
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
a) media generală ( y ):
7
yj 1
j n j
1800 15 2200 25 2600 50 3000 46 3400 35 3800 24 4200 5
y 2 7
2906
n
200
ij
i 1 j 1
mii lei
b) mediile de grupă ( y i ):
y j 1
j n1 j
1800 15 2200 25 2600 40 3000 25 3400 15 3800 0 4200 0
y1 7
2600
n
120
1j
j 1
mii lei
7
yj 1
j n2 j
1800 0 2200 0 2600 10 3000 21 3400 20 3800 24 4200 5
y2 7
3365
n
80
2j
j 1
mii lei
y i ni
2600 120 3365 80
y i 1
2
2906 mii lei
n
200
i
i 1
125
Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
y j n1 j 27000 55000 104000 75000 51000 0 0 312000
y j n2 j 0 0 26000 63000 68000 91200 21000 269200
y j n j 27000 55000 130000 138000 119000 91200 21000 581200
c) dispersia generală ( 02 = Y2 ):
y
7
2
y n j
02
j 1
j
1800 29062 15 2200 29062 25 ... 4200 29062 5
7
n
200
j
j 1
71992800
359964
200
d) dispersiile de grupă ( i2 ):
y
7
2
y1 n1 j
12
j 1
j
1800 26002 15 2200 26002 25
7
n
120
1j
j 1
y
7
2
y2 n2 j
2 j 1
j
2600 3365 10 3000 3365 21
2 2
2 7
n
80
2j
j 1
2
i
2
ni
226666,7 120 11220592,2 80
i 1
2
219510,0
n
200
i
i 1
126
f) dispersia dintre grupe ( 2 ) sau dispersia explicată ( Y2 / X )
y
2
2
y ni
2
i 1
i
2600 2906 120 3365 2906 80
2 2
140454,0
Y/X 2
n
200
i
i 1
După cum lesne se poate observa, regula de adunare a dispersiilor este verificată.
Calculele adiţionale de mai sus sunt sintetizate în tabelul de mai jos:
Yj
Xi Total
1800 2200 2600 3000 3400 3800 4200
8 15 25 40 25 15 - - 120
16 - - 10 21 20 24 5 80
Total 15 25 50 46 35 24 5 200
y j 2
y n j 18348540 12460900 4681800 406456 8541260 19181664 8372180 71992800,0
y j y n
1
2
1j
9600000 4000000 0 4000000 9600000 0 0 27200000,0
y j
2
y2 n2 j 0 0 5852250 2797725 24500 4541400 3486125 16702000,0
Y2 / X 140454,0
R 2
100 100 39,02%
0
Y/X 2
359964,0
Înseamnă că 39% din variaţia cifrei de afaceri a celor 200 de agenţi economici se datorează
deosebirilor privind numărul de salariaţi. Cota parte de 61% din variaţia cifrei de afaceri se poate
explica prin acţiunea tuturor celorlalţi factori consideraţi neesenţiali, reziduali.
Cele două variante care se înregistrează în cazul unei variabile alternative sunt: DA şi
NU. Exprimarea cantitativă a celor două variante presupune înlocuirea variantei DA cu 1 şi a
variantei NU cu 0.
127
Notaţiile uzuale folosite în cazul calcului mediei şi a dispersiei sunt prezentate în
Tabelul 4.2.
Variantele Frecvenţa
Valoarea atribuită
caracteristicii Absolută Relativă
m
x1 (Da) 1 m p
n
nm
x2 (Nu) 0 n-m q 1 p
n
Total n p q 1
x i
1 m 0 ( n m) m
x i 1
p (4.67)
n n n
După cum se poate observa, media unei caracteristici alternative este ponderea
unităţilor care posedă varianta care interesează (Da) în totalul unităţilor, deci este o frecvenţă
relativă.
Dispersia unei astfel de variabile se deduce din relaţia de bază de calcul a dispersiei:
x
k
2
x ni
2 i 1
i
1 p 2 p 0 p 2 q q 2 p p 2 q p q (q p )
pq
k
pq pq pq
n
i 1
i
sau
2 p (1 p) (4.68)
Prin urmare, dispersia caracteristicii alternative este produsul dintre ponderea celor
două variante în colectivitatea studiată.
4.5.1 Asimetria
Se spune că o distribuţie este simetrică dacă frecvenţele de apariţie (absolute sau
relative) scad proporţional şi simetric în raport cu frecvenţa cea mai mare, care corespunde
valorii centrale.
128
Într-o distribuţie simetrică, cei trei indicatori ai tendinţei centrale sunt egali (fig. nr.
4.9). O distribuţie simetrică nu este întotdeauna o distribuţie normală, însă o distribuţie
normală este întotdeauna simetrică
x Me Mo
O distribuţie nonsimetrică poate fi asimetrică la dreapta (fig. nr. 4.10) sau la stânga
(fig. nr. 4.11). x
129
Fig. 4.11 – Exemplu de distribuţie asimetrică la stânga
Fig. 4.9 – 4.11 oferă o imagine vizuală privind forma repartiţiei, dar nu oferă o măsură
privind amploarea abaterii de la simetrie.
As x Mo (4.69)
x Mo
C as (4.70)
Acest coeficient poate lua valori cuprinse între – 1 şi + 1. Cu cât Cas este mai mic cu
atât distribuţia tinde mai mult spre una simetrică ; Se consideră că o distribuţie este moderat
asimetrică, dacă Cas < 0,3 . Distribuţia agenţilor economici după cifra de afaceri (vezi
Exemplele 4.4 şi 4.7) este moderat asimetrică la dreapta (coeficientul este pozitiv).
2906 2745
C as 0,27
600
130
Dacă seria de repartiţie este bi sau multimodală (frecvenţa cea mai mare apare de
două sau de mai multe ori) care tinde spre normalitate, se recomandă calcularea
coeficientului de asimetrie (C`as).
3 x Me
C as (4.71)
Coeficientul de asimetrie (C`as) ia valori cuprinse între (– 3; 3). Un coeficient de
asimetrie situat între – 0,3 şi + 0,3 indică o distribuţie moderat asimetrică. Dacă C`as
depăşeşte 0,3, asimetria este puternică, ceea ce sugerează că indicatorii tendinţei centrale
tind să fie nereprezentativi.
4.5.2 Aplatizarea
Gradul de aplatizare a unei distribuţii ne arată cât de „plată” sau „ascuţită” este o
distribuţie. O distribuţie plată are „cozile” mai lungi, în timp ce una ascuţită are cozile mai
scurte.
3, (4.72)
unde
x
N
4
i x
i 1
(4.73)
N 4
Această relaţie de calcul este valabilă atunci când avem date despre toate
elementele colectivităţii statistice.
xi x
Mărimea se mai numeşte scor Z sau valoare normată şi se obţine, după cum
se vede, prin transformarea variabilei iniţiale scăzând valoarea medie şi împărţind diferenţa
la abaterea medie pătratică. Cu alte cuvinte, parametrul este media scorurilor Z ridicate la
puterea a 4-a. Aşadar,
xi x
Zi
Parametrul se mai numeşte „aplatizarea Pearson”, iar - 3 este „excesul de
aplatizare” sau „aplatizarea Fisher”, chiar dacă Pearson a fost cel care a definit aplatizarea
ca -3.
Atunci când > 0, distribuţia este ascuţită, sau „leptocurtică”, aşa cum se poate
vedea din Fig. 4.12.
131
Fig. 4.12 – Exemplu de distribuţie ascuţită
Când <0, distribuţia este aplatizată, sau „platicurtică”, aşa cum se poate vedea din
Fig. 4.13.
n(n 1) Z 4 3(n 1) 2
g (4.74)
(n 1)(n 2)(n 3) (n 2)(n 3)
132
4.6 Cuvinte – cheie
Serie unidimensională / Concentrarea sau dispersarea
multidimensională. termenilor
Serie de repartiţie = serie Frecvenţe absolute, relative,
distribuţie = serie de frecvenţe. cumulate
Serie de atribute = serie Densitatea de frecvenţă.
nominativă
Indicatorii tendinţei centrale:
Omogenitatea termenilor medie, mediană, mod
Variabilitatea termenilor Indicatorii variaţiei
Independenţa termenilor Amplitudinea variaţiei
Cuartile Dispersie dintre grupe = dispersie
explicată
Abaterea medie liniară
Media dispersiilor de grupă =
Dispersia
dispersia reziduală
Abatere medie pătratică = abaterea
Coeficient de determinaţie
standard
Media variabilei alternative
Coeficient de variaţie
Dispersia variabilei alternative
Regula de adunare a dispersiilor
Asimetrie de stânga / dreapta;
Medie condiţionată = medie de
negativă / pozitivă
grupă
Coeficient de asimetrie
Dispersie condiţionată = dispersie
de grupă Coeficient de aplatizare
12. Când se aplică şi cum se calculează media şi dispersia unei variabile alternative?
133
13. Prin ce se caracterizează o distribuţie simetrică?
4.8 Bibliografie
1. Bij E., Lilea E., Wagner P., Petcu N., Vătui M., – Statistica, Editura Didactică şi
Pedagogică, Bucureşti, 1999, p. 159–203.
3. Korka M., Begu St., Tuşa E., Bazele statisticii pentru economişti, Editura Tribuna
Economică, 2002, p. 70–102.
6. Voineagu V., Lelea E., Gaschin Z., Vătui M., Boldeanu D., – Statistica economică.
Teorie şi aplicaţii, Editura Tribuna Economică, Bucureşti, 2002, p. 84–150.
134
Capitolul 5: ELEMENTE DE SONDAJ STATISTIC
5.1 Introducere
Cunoaşterea statistică a realităţii din oricare domeniu de activitate presupune
colectarea de date individuale pentru caracteristicile care interesează, iar prin sistematizarea
şi prelucrarea acestor date să se obţină informaţii care răspund obiectivului urmărit. Datele
empirice individuale pot fi obţinute prin metode de înregistrare (observare) exhaustivă sau
parţială.
Un aspect fundamental al sondajelor este că, din toate eşantioanele care pot fi
extrase dintr-o colectivitate generală, al căror număr este de cele mai multe ori astronomic,
putem investiga doar unul singur. Este esenţial, astfel, ca rigorile teoretice şi metodologice
să fie urmate cu perseverenţă, pentru a evita ca erorile inerente să nu distorsioneze
substanţial estimaţiile.
135
extrag unităţile care compun eşantionul. Din acest motiv se mai numeşte bază de sondaj.
Numărul unităţilor care alcătuiesc baza de sondaj defineşte volumul acestuia (N).
- să fie actuală;
- uşor accesibilă
Potrivit unei definiţii clasice, un eşantion este reprezentativ dacă reproduce structura
şi principalele trăsături ale colectivităţii din care a fost extras. Cu alte cuvinte, eşantionul este
reprezentativ dacă este o fotografie la scară redusă a colectivităţii generale. Metodele
actuale utilizate în domeniul sondajelor permit, totuşi, să extragem eşantioane care nu
reproduc întocmai structura colectivităţii generale, însă păstrează calitatea de a fi
reprezentative. De aceea, o definiţie mai corectă este aceea conform căreia un eşantion este
reprezentativ dacă fiecare unitate din colectivitatea generală are o şansă nenulă de a fi
selectată în eşantion, eşantion care se numeşte probabilist.
136
Chestiunea importantă este ca eşantionul reprezentativ (selectat aleator) să fie
eficace pentru estimarea oricarei variabile şi studierea oricărei sub-populaţii, ceea ce
echivalează cu estimarea parmetrilor într-un interval de precizie acceptabilă.
Indicatorii statistici calculaţi pe baza datelor înregistrate pentru eşantion sunt numiţi
estimatori.
Medie
Xi x i
X i 1
xˆ i 1
N n
Varianţă
X i X s2
1 n
( xi xˆ ) 2
u2 n i 1
N
137
- în multe situaţii sondajul statistic este singura alternativă la care se poate recurge
şi anume atunci când cercetarea conduce la distrugerea elementelor. De exemplu:
estimarea recoltei agricole înainte de recoltare; determinarea duratei de
funcţionare a unor produse; cercetarea rezistenţei diferitelor materiale;
- este mai operativ şi mai ieftin deoarece numărul unităţilor de la care se culeg date
este semnificativ mai mic decât colectivitatea generală;
- permite cunoaşterea mai completă în sensul că în cazul unui număr mai mic de
unităţi se poate folosi un program de observare mai amplu comparativ cu cel
utilizat în cazul unei înregistrări exhaustive;
- erorile de înregistrare sunt de mai mică amploare şi pot fi depistate mai uşor;
- sondaje probabiliste;
138
După volumul eşantionului, se disting:
- sondaje de volum mare – eşantionul este format din cel puţin 120 de unităţi;
Chiar şi atunci când colectivitatea generală care se studiază nu este omogenă, se pot
pune la punct planuri de sondaj care compensează variaţia mare a variabilei sau variabilelor
de interes. Procedeele de sondaj aplicabile sunt cele prin stratificare, în trepte, cu
probabilităţi inegale etc. Astfel, se asigură includerea în eşantion a unor unităţi din toate
categoriile, respectiv se asigură că structura eşantionului să corespundă cu structura
colectivităţii generale. Spre exemplu, în cazul sondajului stratificat, după ce s-a stabilit
volumul eşantionului (n) se extrage din fiecare strat existent în colectivitatea generală câte un
subeşantion folosind un procedeu aleator.
139
Ca urmare, probabilitatea de includere în eşantion a fiecărei unităţi este constantă pe
parcursul procesului de extragere a eşantionului:
1
i , i 1, n
N
Datorită faptului că o unitate poate intra de mai multe ori în eşantion,
reprezentativitatea eşantionului poate fi redusă şi, ca urmare, erorile pot fi mari. Numărul
eşantioanelor care se pot forma în acest caz este egal cu N .
1
1 ;
N
1
2 ;
N 1
1
3 ;
N 2
...
1
n
N n 1
Datorită faptului că o unitate nu poate intra de mai multe ori în eşantion, erorile sunt
mai mici comparativ cu selecţia repetată. Numărul de eşantioane de volumul n care se pot
forma în acest caz este egal cu C Nn .
140
fiecărei unităţi din baza de sondaj se asociază un număr aleator, după care lista este sortată
crescător şi, în ordinea numerelor aleatoare sunt selectate primele „n” unităţi. Această
metodă este asimilată cu procedeul selecţiei aleatoare nerepetate, deoarece, prin
alocarearea unui număr aleator fiecărei unităţi din baza de sondaj, se elimină situaţiile în
care o unitate poate apărea de mai multe ori în eşantion.
N
p
n
În continuare, se generează un număr aleator cuprins între 1 şi p şi se extrage
unitatea din primele p unităţi ale bazei de sondaj. Celelalte unităţi care vor fi cuprinse în
eşantion sunt determinate de pasul de numărare.
Eşantionul de n unităţi este format din prima unitate extrasă la întâmplare şi din
celelalte n – 1 unităţi determinate prin adăugarea succesivă a pasului de numărare la
numărul de ordine al primei unităţi. De exemplu, dacă N /n = 20 şi prima unitate extrasă
corespunde numărului 7, atunci vor fi cuprinse în eşantion: 7, 27, 47, 67, .... .
Sondajele empirice sunt larg utilizate datorită operativităţii şi costurilor reduse. Prin
metodele de selecţie, statisticianul se asigură că ele se apropie de idealul metodelor
probabiliste. De asemenea, având la dispoziţie o serie de indicatori statistici ai populaţiilor
supuse observării – indicatori statistici proveniţi, de regulă, din sistemul statisticii oficiale,
cum ar fi populaţia pe vârste, sexe, medii de rezidenţă, localităţi – statisticianul poate
aproxima probabilităţile de incluziune ale unităţilor selectate în eşantion.
141
Există două principale metode de selecţie utilizate în sondajele empirice: metoda
cotelor, cu varianta sa a “itinerariilor”, şi metoda unităţilor-tip. De asemenea, mai există
metoda voluntarilor, dar pe care nu o vom trata în cele ce urmează.
Problemele cotelor se complică atunci când ele sunt încrucişate, deoarece există
riscul ca unele dintre ele să se epuizeze rapid, în sensul că acele cote care sunt construite
pe caracteristici mai frecvente pot fi completate mai rapid decât altele mai rar întâlnite, cum
ar fi în cazul profesiilor liberale, spre exemplu.
Metoda unităţilor-tip este, poate, cea mai empirică metodă din setul celor expuse
aici. Ea constă în desemnarea uneia sau mai multor unităţi “medii”, care posedă un număr
de caracteristici definitorii şi întâlnite la majoritatea colectivităţii generale. În felul acesta, se
condideră că unităţile-tip sunt “reprezentative” pentru colectivitatea respectivă. Alegerea este
cel puţin parţial subiectivă şi se bazează pe un pariu, în sensul că se prespune că unităţile-
tip au un comportament similar cu cel al colectivităţii generale şi, în consecinţă, se pot face
142
generalizări fără riscuri prea mari de a greşi. După ce caracteristicile unităţilor-tip au fost
stabilite, alegerea propriu-zisă nu se face complet aleatoriu, deoarece rezultatele finale pot fi
încă şi mai dezastruoase, aşa cum în unele situaţii practice şi de notorietate s-a întâmplat.
Erorile de sondaj (de selecţie) se consideră diferenţele care există între valorile
oricărui indicator calculat pe baza datelor eşantionului şi valorile aceluiaşi indicator
determinate pe baza datelor aferente colectivităţii generale. În cadrul sondajului statistic se
disting două feluri de erori:
Erorile de înregistrare care intervin în cazul sondajului statistic sunt de mai mică
amploare comparativ cu cele în cazul unei înregistrări totale. Aceasta, datorită faptului că
volumul datelor înregistrate este semnificativ mai mic, iar culegerea datelor se realizează de
un personal de specialitate.
Aceste erori pot fi evitate dacă se respectă întocmai principiile teoriei selecţiei.
143
unităţi care compun eşantionul nu se pot reproduce întocmai toate trăsăturile esenţiale ale
colectivităţii generale şi, pe de altă parte, nu putem investiga decât un eşantion din cele pe
care le putem extrage din colectivitatea generală.
x X
5% (5.1)
X
Determinarea erorii de reprezentativitate pe baza relaţiei 5.1 presupune să se
cunoască media colectivităţii generale, ceea ce presupune că s-a recurs, anterior, la o
observare totală. De cele mai multe ori sondajul statistic înlocuieşte o cercetare totală, deci
nu se cunosc parametrii acesteia (media, dispersia etc). În asemenea situaţii se recomandă,
în vederea verificării eficacităţii eşantionului, compararea mediei de sondaj cu media din
baza de sondaj, în ipoteza că în baza de sondaj dispunem cel puţin de o variabilă importantă
care este corelată cu variabila de interes a cercetării statistice.
Dacă diferenţa dintre media de sondaj şi cea din baza de sondaj nu este
semnificativă (de peste 5%), atunci eşantionul poate fi folosit pentru estimarea parametrilor
colectivităţii generale. În cazul în care diferenţa este semnificativă se recomandă extragerea
unui alt eşantion (diferit de primul), extragere care se poate repeta până când se obţine un
eşantion convenabil obiectivelor stabilite, acceptând ipoteza că eşantionul rezultat va reflecta
corect comportamentele din colectivitatea generală. În selectarea eşantionului şi în stabilirea
volumului acestuia se vor avea în vedere modul în care se doreşte publicarea rezultatelor, la
nivelul de dezagregare cel mai scăzut, astfel încât subeşantioanele să fie consistente la
acele niveluri, adică volumul lor să fie de minim 50 de unităţi. Altfel, există riscul ca
estimaţiile să nu poată fi garantate cu nivelul de precizie stabilit aprioric.
144
5.5 Eroarea medie si eroarea limită
Eroarea de reprezentativitate este diferenţa dintre media eşantionului şi media
colectivităţii generale. Dar, teoretic, dintr-o colectivitate generală de volum egal cu N se pot
extrage succesiv mai multe eşantioane de acelaşi volum n. Numărul eşantioanelor posibile
de format este egal cu N n în cazul sondajului repetat şi cu C Nn în cazul sondajului repetat.
xˆ
S
2
s X ns
xˆ s 1
S
(5.2)
n
s 1
s
unde :
În cazul unui sondaj aleator simplu nerepetat, în care numărul total al eşantioanelor
posibile este C Nn , eroarea medie de reprezentativitate este:
xˆ
C Nn
2
s X
xˆ s 1
C Nn
145
Eroarea medie de reprezentativitate se poate calcula anticipat, pornind de la relaţia
dintre dispersia colectivităţii generale ( u2 ), dispersia mediilor de selecţie de la media
În cazul selecţiei simple repetate această relaţie pentru o variabilă numerică este:
u2 = x2ˆ n (5.3)
u2
xˆ (5.4)
n
ceea ce înseamnă că mărimea erorii este direct proporţională cu dispersia
colectivităţii generale şi invers proporţională cu volumul eşantionului. Deci, cu cât
împrăştierea valorilor individuale în jurul mediei este mai pronunţată cu atât eroarea este mai
mare, iar cu cât volumul eşantionului este mai mare cu atât eşantionul este mai reprezentativ
şi, implicit, eroarea de reprezentativitate este mai mică.
s2
ˆ x̂ (5.5)
n
1 n
unde s 2 ( xi xˆ ) 2 , adică varianţa corectată calculată din eşantion.
n 1 i 1
N p (1 p )
p (5.6)
N 1 n
Având în vedere faptul că dispersia din colectivitatea generală este estimată de
n
dispersia din eşantion s 2pˆ pˆ (1 pˆ ) , putem estima dispersia proporţiei estimate
n 1
conform relaţiei
146
pˆ (1 pˆ )
ˆ pˆ (5.7).
n 1
În cazul selecţiei simple nerepetate o unitate poate intra o singură dată în eşantion
şi, ca urmare, eşantioanele sunt mai reprezentative decât în cazul selecţiei repetate, ceea ce
înseamnă că eroarea este mai mică. Acest fapt se reflectă în relaţia de calcul a erorii medii
N n
de reprezentativitate prin introducerea unui coeficient de corecţie: . Dacă volumul
N 1
colectivităţii generale este foarte mare se renunţă la "1" din numitorul raportului, iar
n
coeficientul menţionat este 1 .
N
Eroarea medie de reprezentativitate pentru sondajul nerepetat se calculează pe baza
relaţiilor:
u2 n
xˆ 1 (5.8)
n N
respectiv:
s2 n
ˆ xˆ 1 (5.9)
n N
dacă nu se cunoaşte dispersia colectivităţii generale, ceea ce se întâmplă, de regulă,
în realitate deoarece, dacă am cunoaşte parametrii colectivităţii generale, nu ar mai fi fost
nevoie de o cercetare prin sondaj.
N p (1 p ) n
p 1 (5.10)
N 1 n N
dacă se cunoaşte proporţia din colectivitatea generală şi, dacă se cunoaşte numai
proporţia din eşantion,:
n pˆ (1 pˆ ) n pˆ (1 pˆ ) n
ˆ pˆ 1 1 (5.11)
n 1 n N n 1 N
În practică se consideră că un eşantion este reprezentativ dacă abaterea medie de
selecţie de la media colectivităţii generale (eroarea de reprezentativitate) este cuprinsă între
± 5% . Aceasta înseamnă că interesează mai puţin eroarea medie de reprezentativitate, ci
abaterea cea mai mare (eroarea limită) care poate să apară între media eşantionului şi
media colectivităţii generale.
147
Eroarea limită se calculează ca un produs dintre eroarea medie de reprezentativitate
( ˆ x ) şi argumentul z sau t corespunzătoare funcţiei de probabilitate Φ(z) (funcţia normală)
sau Φ(t) (funcţia Student).
x z x (5.12)
p z pˆ (5.13)
Din relaţiile (5.12) şi (5.13) se observă faptul că eroarea limită este direct
proporţională cu probabilitatea cu care se garantează rezultatele şi invers proporţională cu
precizia acestora.
148
Caracterizarea sintetică a eşantionului prin prisma timpului nelucrat presupune cunoaşterea
mediei şi dispersiei valorilor individuale.
Media eşantionului:
6
x i ni
1580
xˆ i 1
6
15,80 minute
n
100
i
i 1
Dispersia eşantionului:
6
1 2956
xi xˆ
2
s2 29,9
n 1 i 1 99
Coeficientul de variaţie ( Cv ) este egal cu 34,6%, ceea ce înseamnă că eşantionul poate fi
considerat relativ omogen, iar media timpului nelucrat de 15,8 minute relativ reprezentativă, fapt
pe care va trebui să îl verificăm.
s2 n 29,9 100
x 1 1 0,53 minute
n N 100 2000
Înseamnă că media unui eşantion n = 100 se abate în medie cu 0,54 minute de la media timpului
nelucrat a celor 2000 de muncitori.
eroarea limită:
s2 n
x z 99,73 x z 99,73 1 3 (0,53) 1,6 minute
n N
În tabelele întocmite pentru repartiţia normală, valoarea parametrului z corespunzătoare
probabilităţii de 99,73% este egal cu 3.
Aceasta înseamnă că abaterea cea mai mare care poate apare între media eşantionului şi media
colectivităţii generale este de ±1,60 minute. Putem concluziona că intervalul de încredere a mediei
pe muncitor a timpului nelucrat este cuprins între 15,80 – 1,60 minute şi 15,80 + 1,60 minute,
adică în intervalul (14,20 ; 17,40).
1,60
În termeni procentuali, eroarea limită relativă este de 100 10,1% .
15,80
149
Cu alte cuvinte, eşantionul garantează că eroarea maximă a mediei timpului nelucrat este de
10,10% cu o probabilitate de 99,73%.
s2 n
x z 95 x z 95 1 1,96 (0,53) 1,04 minute.
n N
Putem observa, astfel, că precizia creşte pe măsură ce probabilitatea de garantare scade, însă
creşte şi riscul de a obţine estimaţii în afara intervalului de încredere aprioric stabilit. În plus, dacă
dorim să garantăm cu o probabilitate de 95% ca media să se abată cu doar 5% de la media
colectivităţii generale, dar necunoscută, atunci trebuie să creştem volumul eşantionului.
În exemplul următor prezentăm modul de calculul al erorii limită pentru estimarea unei
proporţii, pe baza datelor din Exemplul 5.1.
47
pˆ 0,47 sau 47%.
100
150
Calculul dispersiei din eşantion:
Prin rotunjire, putem spune că proporţia muncitorilor din eşantion al căror timp nelucrat
depăşeşte media de 15,8 minute (47%) se abate de la proporţia existentă în colectivitatea generală
cu cel mult 14,7 puncte procentuale cu o probabilitate de 99,73%. Cu alte cuvinte, intervalul de
încredere al proporţiei muncitorilor care au un timp nelucrat peste medie este cuprins între 32,3%
şi 61,7%.
Eroarea limită relativă de reprezentativitate se calculează ca raport între eroarea limită de
reprezentativitate şi estimaţia punctuală obţinută. În cazul nostru,
p 14,7
%pˆ 100 100 31,2%
pˆ 47
De regulă, eroarea relativă acceptată este de 5%. Eroarea relativă de mai sus este substanţială,
inacceptabilă în condiţii reale. Ea este determinată, pe de o parte, de variabilitatea crescută a
variabilei studiate şi, pe de altă parte, de dimensiunea redusă a eşantionului. Ca urmare, singura
posibilitate de a asigura o precizie mai bună constă în mărirea eşantionului.
Din exemplul de mai sus am văzut că există o diferenţă între eroarea limită de
reprezentativitate şi eroarea limită relativă de reprezentativitate. Această diferenţă este foarte
importantă atunci când se interpretează rezultatele unui sondaj în care se calculează
proporţii exprimate procentual. De aceea, considerăm necesară formularea unor precizări
legate de modul de prezentare a erorii limită – admisă sau calculată – în cazul exprimării
procentuale a unor proporţii.
De cele mai multe ori, atunci când sunt date publicităţii rezultatele unui sondaj de
opinie al căror eşantion cuprinde aproximativ 1200 de persoane, formularea standard din
raportul tehnic este : „Rezultatele sunt garantate cu o probabilitate de 95% pentru o eroare
de 3%”. Cei care citesc raportul studiului şi văd proporţiile din tabele sau grafice, în mod
instinctiv construiesc intervalele de încredere scăzând sau adăugând cele 3 procente la
proporţiile publicate. Însă eroarea respectivă este, de fapt, o diferenţă – maxim acceptabilă
din punct de vedere teoretic – între proporţiile estimate şi cele care se presupun a se regăsi
în colectivitatea generală, proporţii care sunt exprimate procentual. În acest caz, „3%” nu se
citeşte „3 la sută” ci „3 puncte procentuale”. Eroarea şi confuzia sunt generate, de fapt, de
autorii rapoartelor tehnice. Dacă am interpreta în sens clasic eroarea de 3%, care este o
rată, diferenţele pe care ar trebui să le adunăm sau să le scădem la/din proporţiile rezultate
ar trebui să fie egale cu 3% din proporţiile respective. În cazul nostru, spre exemplu, potrivit
interpretării erorii ca rată, la proporţia de 47% nu ar fi trebuit să adăugăm sau să scădem
14,67 puncte procentuale, ci 14,67% din 47%, adică doar 6,89 puncte procentuale.
151
Pentru ilustrarea modului de calcul al intervalului de încredere pentru o
proporţie rezultată dintr-un sondaj de opinie, prezentăm exemplul de mai jos.
Pornind de la precizia anunţată, de 1,5 puncte procentuale faţă de rezultate publicate, procentul
institutelor din grupa A s-ar fi situat între 48,9% şi 51,9% pentru Traian Băsescu şi între 48,1% şi
51,1% pentru Mircea Geoană, iar pentru institutele din grupa B între 47,5% şi 50,5% pentru
Traian Băsescu şi între 49,5% şi 52,5% pentru Mircea Geoană. Aşadar, pentru ambele categorii de
institute rezultatele finale s-au situat în intervalele de încredere, însă institutele din grupa A au
avut o precizie mai bună decât cele din grupa B, deoarece eroarea de reprezentativitate, adică
diferenţa dintre media de sondaj şi cea a colectivităţii generale, a fost mai mică.
Acestea sunt diferenţele rezultate pe baza erorilor teoretice comunicate de institutele respective.
Să vedem, totuşi, care au fost erorile rezultate din datele de sondaj.
152
În primul rând, să calculăm erorile medii de reprezentativitate pentru fiecare dintre categoriile de
institute. Potrivit relaţiei (5.11), eroarea medie de reprezentativitate este:
După cum se poate constata, eroarea medie de reprezentativitate este aceeaşi în ambele cazuri.
Mai departe, pentru o probabilitate de garantare a rezultatului de 95%, eroarea limită de
reprezentativitate se calculează potrivit relaţiei (5.13).
Eroarea limită de reprezentativitate este de 0,89 puncte procentuale pentru ambele categorii de
institute. Aplicând acest rezultat la estimaţiile fiecărei categorii de institut, intervalele de încredere
ar fi fost:
Tabelul E.5.3.2 – Intervalele de încredere ale rezultatelor sondajului la ieşirea de la urne în turul
II al alegerilor prezidenţiale din 6 decembrie 2009
Traian Băsescu (50,3%) Mircea Geoană (49,7%)
Grupa de
institute Limita Limita Limita Limita
inferioara superioara inferioara superioara
A 49,5 51,3 48,7 50,5
B 48,1 49,9 50,1 51,9
153
5.6 Tipuri de sondaje folosite frecvent in practica statistică
În practica statistică se pot aplica mai multe tipuri de sondaje în funcţie de gradul de
omogenitate al colectivităţii studiate şi de forma de organizare a acesteia. Cel mai frecvent
se folosesc următoarele tipuri:
b) sondajul stratificat;
c) sondajul în trepte;
d) sondajul de serii.
Într-un sondaj aleator simplu (repetat sau nerepetat) al cărui eşantion este de volum
n, iar colectivitatea generală este de mărime N, probabilitatea de incluziune a oricărei unităţi i
este:
n
i (5.14)
N
Astfel, dacă dintr-o grupă de 20 de studenţi dorim să selectăm aleator 5 studenţi,
probabilitatea de incluziune în cazul unui sondaj aleator simplu este egală cu fracţia de
sondaj, adică 5/20 = 1/4. Cu alte cuvinte, vom selecta aleator un student din 4.
Estimatorul de total, atunci când observăm valorile unei variabile de interes X este:
x
Tˆ ( X ) = i , (5.15)
is i
unde:
154
x x x
Tˆ ( X ) i i N i N xˆ , (5.16)
is i is n is n
N
unde x̂ este media aritmetică simplă obţinută din eşantionul s .
Să remarcăm faptul că totalul estimat din eşantion este obţinut prin multiplicarea cu
N, fiind deci necesară cunoaşterea mărimii colectivităţii generale.
Tˆ ( X ) N xˆ
x i
xˆ is
(5.17)
N N n
Fără a intra în detalii, vom spune că estimatorii de total şi de medie sunt estimatori
nedeplasaţi (fără erori sistematice) ai totalului şi mediei colectivităţii generale. Cu alte
cuvinte, dacă am extrage toate eşantioanele posibile din colectivitatea generală de volum N,
media totalurilor şi media mediilor din toate aceste eşantioane vor coincide cu totalul şi
media colectivităţii generale.
Cum însă, de regulă, putem studia un singur eşantion, este rezonabil să considerăm
că media şi totalul dintr-un eşantion simplu aleator vor aproxima suficient de bine cei doi
parametri ai colectivităţii generale. Aproximarea, însă, se face prin estimarea intervalului de
încredere în care se află cele două estimaţii. Ca urmare, trebuie să calculăm eroarea medie
de reprezentativitate ( ˆ x̂ ) şi eroarea limită ( x )pe baza formulelor 5.4 – 5.13.
s2
ˆ xˆ în cazul SASR şi
n
s2 n
̂ xˆ 1 în cazul SASNR.
n N
Eroarea medie de reprezentativitate estimată pentru un estimator de total este:
în cazul SASR
s2
ˆ x̂ N (5.18)
n
în cazul SASNR:
s2 n
ˆ x̂ N 1 (5.20)
n N
Calculul erorii limită pentru estimatorul de total este similar cu cel al estimatorului de
medie.
155
5.6.2 Sondajul stratificat
Sondajul stratificat se recomandă în situaţia în care colectivitatea este neomogenă. În
acest caz se separă unităţile simple pe straturi (grupe) mai omogene după o variabilă
calitativă sau cantitativă. Dacă, de exemplu, colectivitatea generală este formată din
totalitatea agenţilor economici, în vederea separării pe straturi (grupe, tipuri) s-ar putea folosi
caracteristici ca: domeniul de activitate, numărul angajaţilor, cifra de afaceri etc.
Eşantionul se formează prin extragerea din fiecare strat a unui număr de unităţi
simple (subeşantioane de volum ni), fapt ce conduce la o mai mare reprezentativitate, şi, ca
atare, la erori mai mici.
Variaţia din toate grupele (straturile) se sintetizează prin media dispersiilor de grupă
ˆ 2
n
i
2
i
Cum ˆ 2 < ̂ 2 , sondajul stratificat conduce la erori mai mici comparativ cu
n i
S h2
1
N h 1 iGh
Xi Xh
2
(5.21)
X h X 2
H
Nh 2 H Nh
S2 Sh (5.23)
h 1 N h 1 N
156
s h2
1
n h 1 iGh
xi x h 2
(5.25)
Relaţiile (5.23) şi (5.24) sunt familiare: primul termen (dispersia intra-strat) este media
ponderată a dispersiilor din fiecare strat, iar al doilea termen (dispersia inter-strat) este media
aritmetică ponderată a pătratelor abaterilor mediilor din strat faţă de media generală.
Media generală a unui sondaj stratificat este media ponderată a mediilor din straturi:
N
xˆ st h xˆ h (5.26)
h N
Tinând cont, pe de o parte, de relaţia de estimare a dispersiei mediei, conform (5.9)
este:
s2 n
ˆ xˆ 1
n N
şi, pe de altă parte, de proprietăţile dispersiei, dispersia mediei sondajului stratificat 29 ,
adică eroarea medie de reprezentativitate este:
N h sh
2 2
n
̂ xˆ 1 h (5.27)
h N nh N h
st
xˆ st xˆ st 1,96 ˆ xˆ ; xˆ st 1,96 ˆ xˆ
st st
pentru o probabilitate de garantare a preciziei
mediei estimate de 95%.
Aşa cum s-a menţionat, eşantionul (n) este format din suma subeşantioanelor
H
n nh . Problema care trebuie rezolvată se referă la numărul unităţilor care compun
h 1
29
Am prezentat numai relaţia de calcul specifică unui sondaj aleator simplu nerepetat (SASNR)
deoarece, dacă nu în toate, în majoritatea aplicaţiilor reale se utilizează doar acest procedeu de
eşantionaj.
157
N
nh (5.28)
h
Acest tip de sondaj stratificat este denumit sondaj stratificat neproporţional.
Nh
nh n (5.29)
N
Acest tip de sondaj care poartă denumirea de sondaj stratificat proporţional se
aplică frecvent în practică.
Nh Sh
nh n H
(5.30)
N
h 1
h Sh
Dacă la formarea eşantionului s-a folosit, ca regulă, extragerea nerepetată, iar probabilitatea cu
care se garantează rezultatele este de 99,73%, indicatorii sondajului se calculează astfel:
158
media mediilor de grupă:
3
n h xˆ h
2,4 20 1,2 5 3,8 65
xˆ h 1
3
3,34 mii lei
n
90
h
h 1
N h nh
Întrucât s-a optat pentru un sondaj stratificat proporţional, , iar fracţia de sondaj
N n
nh 1
0,05 , relaţia 5.27 devine
N h 20
N h sh n
2 2
nh s h 1
2 3 2
ˆ xˆ 1 h 1
st
h N nh N h h 1 n nh 20
eroarea limită:
Ca urmare, salariul mediu net lunar estimat se încadrează in intervalul (3,17; 3,51) mii lei. Eroarea
0,168
limită relativă garantată cu o probabilitate de 99,73% este 100 5,03% .
3,34
Astfel, în raportul tehnic al cercetării (studiului) statistic putem preciza că sondajul realizat asupra
9000 de salariaţi garantează estimaţia salariului mediu net lunar cu o eroare de 5% .
159
unei metode oarecare, cum este SASNR. Dacă se consideră necesar, mai departe se pot
extrage unităţi terţiare. De regulă, un sondaj în trepte are maxim trei stadii de selecţie.
Aşadar, spre deosebire de sondajul stratificat, unde sunt selectate unităţi din toate straturile,
în sondajul în trepte se selectează numai anumite unităţi primare şi, ulterior numai anumite
unităţi secundare etc.
Avantajul este evident, deoarece nu este nevoie de baze de sondaj pentru toate
unităţile primare. Condiţia este ca, pentru treapta a doua, să existe liste complete pentru
unităţile din unităţile primare selectate în prima treaptă.
Pentru o prezentare succintă, dar cât mai relevantă a acestui procedeu de sondaj,
este necesară precizarea unor notaţii esenţiale:
m
f1 este fracţia de sondaj din prima treaptă de selecţie;
M
ni
f 2i este fracţia de sondaj din treapta a doua de selecţie.
Ni
x
jsi
ij
xˆ i (5.31)
ni
N i xˆ i
xˆ iS
(5.32)
m
Totalul variabilei de interes se obţine prin ponderarea cu numărul total al seriilor
constituite:
160
N i xˆ i
M
xij
Ni
jS i
Tˆ ( x) M xˆ M iS
m m iS ni (5.33)
M Ni M N
m
iS ni
xij i xij
jS i iS m ni jSi
Din relaţia (5.33) observăm că estimaţia totalului variabilei de interes este dat de
totalul variabilei de interes din fiecare UP ponderat cu produsul dintre inversul fracţiei de
sondaj a unităţilor primare şi inversul fracţiei de sondaj din fiecare UP. Ponderea este:
M Ni
wij (5.44)
m ni
2 ni s 2 ,i
2
s12 M
ˆ Xˆ M 1 f1 f1 N i 1
2
m i 1 N i ni
Mai mult, în cazul în care fracţia de sondaj din treapta a doua este constantă astfel
încât ni este proporţională cu N i şi dacă toate unităţile primare au aceeaşi mărime N ,
ignorând cel de al doilea termen pentru că fracţia de sondaj f 1 este, de regulă, o valoare
foarte mică, eroare medie de reprezentativitate pentru estimaţia de total este estimată de:
s1'2
ˆ Xˆ N 2 1 f 1 (5.45)
m
Corespunzător acesteia, eroarea medie de reprezentativitate a estimatorului de
medie este:
s1'2
ˆ xˆ 1 f 1 , (5.46)
m
unde
x
xi x ; xi xij ; x i .
1 1
s1'2
2
xˆ z ˆ Xˆ (5.47)
x̂ z ˆ xˆ , (5.48)
161
5.6.4 Sondajul de serii
Sondajul de serii 30 este o particularizare a sondajului în trepte şi se aplică dacă
colectivitatea care trebuie studiată este formată din unităţi complexe (echipe de muncitori,
gospodării, grupe de studiu), denumite serii. Pentru formarea eşantionului se extrag prin unul
din procedeele menţionate un anumit număr de unităţi complexe (serii), culegându-se date
de la toate unităţile componente ale seriilor respective. Pentru fiecare serie se calculează
media acesteia, iar pe baza lor se determină media colectivităţii generale ( Xˆ ) sau media
eşantionului ( x̂ ).
Datorită faptului că nu se cunosc valorile pentru fiecare unitate simplă care compune
seria, ci doar media seriei, la determinarea indicatorilor sondajului se foloseşte dispersia
2
x (5.49)
r
2
x z (5.50)
r
2 Rr
x (5.51)
r R 1
2 Rr
x z (5.52)
r R 1
Volumul eşantionului se deduce în cazul fiecărui tip de sondaj, din formula erorii
limită. Prin ridicarea la pătrat a formulei erorii limită ( x ) se deduce volumul eşantionului.
30
În engleză, procedeul se numeşte “cluster sampling”, iar în franceză “sondage par grappes”.
162
în cazul sondajului aleator simplu repetat:
x2 x2
x z 2x z 2
n n
z 2 x2
În consecinţă, n (5.53)
2x
x2 n 2 n
x z 1 2x z 2 x 1
n N n N
Volumul minim necesar pentru un sondaj aleator simplu nerepetat este dat de:
z 2 x2
n (5.54)
z 2 x2
2x
N
Similar se deduc relaţiile privind volumul eşantionului pentru celelalte tipuri de
sondaje.
Atât din relaţia (5.53), cât şi din (5.54) observăm că, pentru determinarea volumului
minim necesar pentru un eşantion aleator simplu trebuie să cunoaştem dispersia colectivităţii
generale, ceea ce nu este întotdeauna la îndemână. Dacă o putem calcula din baza de
sondaj, este evident că ea va suferi din cauza posibilei vechimi a datelor. Ea mai poate
proveni dintr-o anchetă prin sondaj mai recentă, în care a fost studiată aceeaşi variabilă sau
dispunem, tot în baza de sondaj, de o variabilă puternic corelată cu variabila noastră de
interes.
Când avem o variabilă pe baza cărei putem calcula dispersia necesară, deseori, vom
constata că volumul eşantionului este foarte mare, depăşind resursele financiare şi materiale
de care dispunem, tocmai din cauza marii variabilităţi a valorilor incluse în calcule. În acest
caz, se recomandă stratificarea bazei de sondaj şi prelucrarea suplimentară a acesteia,
pentru a putea proiecta un plan de sondaj cât mai eficient, capabil să asigure precizia dorită
a rezultatelor. În practică, aproape fără excepţie, este nevoie de realizarea unui echilibru
între nevoia de a extrage un eşantion cât mai cuprinzător şi bugetul alocat cercetării, care nu
este niciodată îndestulător.
Un exemplu foarte grăitor despre volumul necesar al unui eşantion este dat de
Pascal Ardilly (Ardilly, 2006). El prezintă o situaţie destul de frecventă – şi foarte sensibilă –
întâlnită în alegerile unde se prezintă doi candidaţi. Problema care se pune este să
determinăm diferenţa minimă dintre voturile exprimate pentru cei doi candidaţi într-un sondaj
astfel încât să putem garanta cu o probabilitate de 95% că cel care apare drept câştigător din
sondaj câştigă cu adevărat alegerile.
Cu alte cuvinte, trebuie să aflăm care este proporţia minimă a voturilor acordate, să
spunem, candidatului A ( p̂ A ) astfel încât limita inferioară a intervalului de încredere să fie
mai mare de 50%.
163
Pentru o probabilitate de 95%, relaţia pe care care p̂ A trebuie să o satisfacă este:
pˆ A (1 pˆ A ) 1
pˆ A 1,96
n 1 2
1 1,96
pˆ A p MIN
2 2 n 2,84
Mai precis, diferenţa dintre cei doi candidaţi trebuie să fie cel puţin egală cu
1,96
2 p min 1 .
n 2,84
164
xˆ xˆ < X < xˆ xˆ (5.55)
iar limitele între care variază nivelul totalizat al caracteristicii în colectivitatea generală
se estimează pornind de la formula:
3. De ce erorile sondajului nerepetat sunt mai mici comparativ cu cele ale sondajului
repetat?
165
7. Când se recomandă aplicarea sondajului stratificat?
5.11 Bibliografie
1. Ardilly P., Les techniques de sondages, Edititions Technip, Paris, 2006
2. Biji M., Statistică teoretică. Editura didactică şi pedagogică, Bucureşti, 1979, p 77-
193.
3. Biji E., Lelea E., Wagner P., Statistică economică, Editura didactică şi
pedagogică, Bucureşti, 1999
4. Korka M., Begu St., Tuşa Erica, Bazele statisticii pentru economişti, Editura
Tribuna economică, Bucureşti, 2002, p 102-114.
166
Capitolul 6: ANALIZA SERIILOR INTERDEPENDENTE
6.1 Introducere
În etapa observării se înregistrează întotdeauna date pentru mai multe variabile, nu
doar pentru una singură. În capitolele precedente au fost prezentate modalităţile prin care
datele aferente unei variabile pot fi prelucrate şi analizate independent de cele ce descriu
celelalte variabile. De cele mai multe ori, însă, suntem nevoiţi să punem câteva întrebări:
Între aceste variabile există vreo legătură? Dacă există, cât de puternică este legătura? Cum
se comportă o variabilă dacă alta sau altele se modifică? Un manager al unei reţele de
distribuţie poate fi interesat de legătura dintre volumul vânzărilor şi structura produselor
comercializate sau un sociolog vrea să ştie cum se relaţionează rezultatele la examene ale
studenţilor cu locul de muncă şi venitul pe care le au după absolvire. Pentru a estima astfel
de legături, statisticienii utilizează tehnicile de regresie şi, pentru a măsura cât de puternice
sunt aceste legături, ei utilizează tehnicile de corelaţie, analizând seriile interdependente.
În acest capitol se tratează conceptele, tehnicile şi metodele utilizate cel mai frecvent
în analiza legăturii între variabile statistice: metode simple de caracterizare a legăturii dintre
două variabile; regresia liniară simplă şi multiplă; regresia neliniară; indicatorii prin care se
măsoară intensitatea legăturilor statistice; corelaţia neparametrică.
167
b) între cele două variabile există o legătură reciprocă;
d) cele două variabile au întâmplător o evoluţie similară, fără să existe vreo legătură
între ele.
În cele ce urmează se tratează numai primele două tipuri de relaţii dintre variabile.
Influenţa variabilelor nespecificate este luată în calcul în modelul stohastic sub forma
variabilei reziduale ( ), denumită şi eroare aleatoare:
y f x (6.1)
168
În cazul legăturilor multiple, variaţia variabilei Y se analizează în funcţie de mai
multe variabile cauză (X1, X2, ...).
În cazul analizei legăturii dintre două variabile cantitative sau una cantitativă şi alta
calitativă poate fi vorba, în primul rând, de o corelaţie statistică. De exemplu, analiza legăturii
între ramura de activitate şi câştigul salarial sau exemplul anecdotic al corelaţiei dintre
numărul nou-născuţilor şi numărul cuiburilor de barză. Între cele două fenomene poate exista
o corelaţie, dar nu în mod necesar o cauzalitate: va creşte numărul nou-născuţilor dacă va
creşte numărul cuiburilor de barză sau invers? Fireşte că nu.
Cauzalitatea statistică intervine în cazul legăturilor dintre două sau mai multe
variabile cantitative în sensul că modificarea uneia sau mai multor variabile considerate
explicative antrenează modificarea variabilei explicate într-o manieră consistentă. În cazul
cuibuirilor de barză şi al nou-născuţilor există, cel puţin, o a treia variabilă care le
influenţează distinct: ritmul biologic, gradul de dezvoltare socio-economică, prezenţa şi/sau
abundenţa resurselor de hrană etc.
Dacă modificarea variabilei cauză este însoţită de modificări în acelaşi sens ale
variabilei efect, există o legătură directă. În cazul în care variabilele corelate tind să se
modifice în sens opus, este cazul unei legături inverse.
e) După forma funcţiei (expresia analitică a legăturii) acestea pot fi liniare sau
neliniare.
169
6.3 Metode simple de analiză a legăturii dintre variabile
După culegerea datelor pentru variabilele implicate în analiza legăturii, trebuie
verificat dacă între variabile există o corelaţie, care este forma analitică a acesteia. Metodele
care răspund acestor probleme de cunoaştere sunt, de fapt, procedee de sistematizare a
datelor empirice înregistrate, şi anume:
metoda grafică;
metoda grupărilor;
Tabelul 6.1. – Rezultatele la examenul de admitere şi media notelor din prima sesiune
de examene – eşantion de 10 studenţi
Media notelor la
Student Nota la admitere examenele
din prima sesiune
1 7,34 7
2 8,52 8
3 8,05 7
4 9,21 8
5 6,55 7
6 7,32 6
7 9,16 9
8 9,33 7
9 7,21 8
10 6,15 6
31
„Scatter diagrams” în engleză sau “nouage de points” în franceză.
170
Pentru construirea graficului, variabila explicativă (sau independentă) este nota la
admitere, ale cărei valori le vom reprezenta pe axa orizontală, iar variabila explicată (sau
dependentă) este media notelor la examenele din prima sesiune, ale cărei valori le vom
reprezenta pe axa verticală în Figura 6.1.
8
Media notelor in prima sesiune
0
0 1 2 3 4 5 6 7 8 9 10
Nota la admitere
Pe baza graficului se concluzionează dacă există o corelaţie, dacă există date atipice
şi care este forma şi direcţia legăturii în funcţie de tendinţa de ordonare a punctelor. Din
graficul de mai sus rezultă destul de vizibil că există o relaţie între cele două variabile,
respectiv între nota la admitere şi rezultatele din prima sesiune de examene.
Dacă punctele tind să se ordoneze în jurul unei linii drepte, corelaţia este liniară
directă (fig. 6.2) sau indirectă (fig. 6.3) iar dacă se ordonează sub forma unei curbe (fig. 6.4),
între cele două variabile există o corelaţie neliniară. De asemenea, graficul ne arată şi dacă
nu există nici o relaţie între două variabile (fig. 6.5). Dacă punctele se împrăştie fără nici o
regularitate, variabilele trebuie considerate independente.
Fig. 6.2 Legătură liniară directă Fig. 6.3 Legătură liniară indirectă
171
Fig. 6.4 Legătură neliniară Fig. 6.5 Absenţa legăturii
Cu cât tendinţa de ordonare a punctelor este mai pronunţată, cu atât corelaţia între
cele două variabile este mai intensă, adică legătura este puternică (fig. 6.6). Dacă punctele
sunt ordonate, dar sunt relativ împrăştiate, legătura dintre variabile este mai slabă (fig. 6.7).
În mod evident, metoda grafică ne arată care este forma relaţiei doar dintre două
variabile. Dacă vom considera o variabilă drept variabilă efect şi vom încerca să o punem în
relaţie cu un set de alte variabile explicative pe care le-am inclus în programul de observare,
singura posibilitate de a vizualiza legăturile existente este să construim perechi între variabila
efect şi fiecare din variabilele explicative.
Metoda grupărilor se aplică atunci când numărul de unităţi pentru care s-au
înregistrat valori empirice este mare. Se grupează unităţile după variabila factorială şi pentru
fiecare grupă astfel construită se calculează media variabilei dependente (yi). Între cele două
variabile există o corelaţie dacă mediile de grupă (condiţionate, yi) reacţionează la
modificările intervenite în variabila independentă. Aplicarea acestei metode este influenţată
de modul cum s-a făcut gruparea. Se recomandă, în acest caz, ca intervalele de grupare să
fie egale, numărul grupelor construite să fie suficient de mare pentru evitarea pierderilor de
informaţii, numărul unităţilor din fiecare grupă să fie semnificativ ş.a. În tabelul nr. 6.2 se
prezintă un exemplu de aplicare a metodei grupării.
172
Tabelul 6.2 - Gruparea agenţilor economici după numărul salariaţilor
şi după cifra de afaceri
Grupe Grupe după cifra de afaceri (mil. lei)
după nr. Total
salariaţi 4-6 6-8 8 - 10 10 - 12 12 - 14
0–9 6 8 6 - - 20
10 – 19 4 11 11 4 - 30
20 – 29 - - 4 7 4 15
30 – 39 - - - 5 5 10
40 – 49 - - - 2 3 5
Total 10 19 21 18 12 80
Este cifra de afaceri (Y) influenţată de numărul de salariaţi (X)? Pentru fiecare grupă
construită după numărul de salariaţi se calculează cifra de afaceri realizată în medie de
fiecare agent economic din grupa respectivă.
5
y
j 1
j nij
yi 5
n
j 1
ij
56 7 8 96
y1 7 milioane lei
20
5 4 7 11 9 11 11 4
y2 8 milioane lei
30
....
11 2 13 3
y5 12,2 milioane lei
5
Remarcăm faptul că media cifrei de afaceri pe agent economic creşte odată cu
creşterea numărului de salariaţi, deci există o corelaţie directă.
Cu cât mediile de grupă diferă mai mult între ele cu atât influenţa variabilei
independente este mai puternică.
Dispersia frecvenţelor fără nici o regularitate sugerează că cele două variabile sunt
independente sau necorelate.
Ultimele două metode sunt rar utilizate în aplicaţiile practice, iar metoda grupării, cu
particularizarea sa prin metoda tabelului de corelaţie este utilizată mai puţin pentru
caracterizarea asocierii dintre două variabile şi mai mult pentru evidenţierea acestei legături.
Metoda grafică – diagrama norului de puncte – este facilă şi permite vizualizarea rapidă a
unei posibile legături între variabile şi, de aceea, este cea mai des utilizată. Odată cu
extinderea utilizării tehnologiei informaţiei, caracterizarea legăturii între variabile şi
măsurarea intensităţii ei sunt mijlocite de aplicaţiile dedicate prelucrării datelor statistice.
174
principiu se numeşte ceteris paribus, adică „toate celelalte fiind egale”, „celelalte”
fiind factorii care influenţează modificarea variabilei dependente. Astfel, studiind
relaţia dintre variabila dependentă şi cele independente, metoda ne oferă
posibilitatea de a găsi valoarea cea mai probabilă a variabilei dependente când
ştim o valoare a variabilei independente;
Funcţia de regresie este o funcţie matematică care exprimă legătura dintre variabila
dependentă Y şi k variabile independente Xk şi are forma generală :
Y X i f x1 , x 2 , x3 ,...., x K (6.2)
unde " " este variabila aleatoare perturbatoare, reziduală sau eroare, care
sintetizează influenţa tuturor factorilor neluaţi în calcul, nespecificaţi.
YX i a b X (6.3)
în care:
175
X – vectorul valorilor empirice (observate) ale variabilei factoriale;
a şi b – parametrii necunoscuţi ai funcţiei de regresie care trebuie estimaţi.
Parametrul a nu are o semnificaţie economică. Geometric reprezintă ordonata la
origine, respectiv valoarea lui y când x = 0. Dacă a = 0, variabila Y depinde exclusiv de
variabila X, deci legătura este funcţională.
Estimarea parametrilor a şi b se realizează, cel mai adesea, prin metoda celor mai
mici pătrate, ceea ce înseamnă minimizarea sumei pătratelor erorilor i
2
min . Dar
eroarea reprezintă diferenţa dintre valoarea empirică (yi) şi valoarea teoretică, calculată pe
baza modelului liniar (Yxi). Deci, suma pătratelor abaterilor valorilor empirice de la cele
teoretice trebuie să fie minimă.
y
n
YX i min
2
i (6.4)
i 1
S
a 2 y y a bx 1
S
2 y y a bx x
b
Punând condiţia ca aceste derivate să fie egale cu 0, simplificând cu 2 şi ţinând
seama de faptul că a şi b sunt constante, sistemul de mai sus devine:
n a b x i y i
a x i b x i x i y i
2
unde xi şi yi reprezintă valorile empirice înregistrate pentru cele două variabile, iar n
semnifică numărul unităţilor observate din eşantion.
n xi y i xi y i
b
n xi2 xi
2
(6.7)
a y b x
După ce au fost calculaţi parametrii a şi b se pot determina valorile teoretice ale
funcţiei de regresie (Yxi ), prin înlocuirea succesivă în ecuaţia de regresie, cu valorile xi ale
caracteristicii factoriale.
Cele două serii de date confirmă existenţa unei corelaţii directe. Pentru alegerea formei legăturii se
construieşte corelograma.
177
Fig. 6.8 – Graficul de corelaţie între vechimea în muncă şi câştigul salarial
4
Castig salarial (mii lei)
0
0 5 10 15 20 25 30
Vechime (ani)
Reprezentarea grafică sugerează faptul că punctele tind să se ordoneze în jurul unei drepte. Deci,
funcţia de regresie este de forma: YXi = a + bxi.
Pentru aflarea parametrilor a şi b se porneşte de la sistemul de ecuaţii menţionat, rezolvarea căruia
presupune calcularea expresiilor x i yi , x 2
i şi x
i
2
n a b x i y i 8 a 110 b 31,5
a x i b x i x i y i a 110 1942 b 474,8
2
31,5 110
474,8 1942
a 2,6033
8 110
110 1942
8 31,5
110 474,8
a 0,097
8 110
110 1942
Valoarea parametrului a = 2,6033 semnifică faptul că dreapta intersectează ordonata în punctul
2,6, iar b = 0,097 înseamnă că salariul mediu net sporeşte în medie cu 97 lei dacă vechimea creşte
cu un an. Implicit, valoarea pozitivă a parametrului b (panta dreptei de regresie) arată că suntem
în faţa unei corelaţii directe.
Funcţia de regresie care descrie legătura dintre cele două variabile este:
178
Yxi= 2,6033 + 0,097*xi.
Valorile teoretice privind câştigul salarial net se obţin în urma înlocuirii în această funcţie lui xi cu
valorile corespunzătoare (vezi Tabelul E.6.1.1, coloana a 6-a).
În cazul exemplului prezentat în Tabelul E.6.1.1, datele au fost prezentate sub forma
a două serii simple, deci negrupate.
Funcţia se alege cel mai simplu pe baza reprezentării grafice, de forma celei
prezentate în Fig. 6.4. Ca şi în cazul regresiei liniare unifactoriale, parametrii funcţiei se
estimează pornind de la metoda celor mai mici pătrate, care presupune minimizarea erorilor
y
n
YX i min .
2
i
i 1
y i a b xi c xi2 (6.8)
Aplicând metoda celor mai mici pătrate şi după anularea derivatelor parţiale calculate
în funcţie de a, b şi c se obţine sistemul de ecuaţii:
n a b xi c xi2 y i
a x i b x i c x i x i y i
2 3
(6.9)
a x 2 b x 3 c x 4
i i i xi2 yi
179
Prin rezolvarea sistemului de ecuaţii liniare (6.9) şi prin înlocuirea succesivă a lui xi cu
valorile empirice în funcţia de regresie, se obţin valorile teoretice pentru variabila rezultativă
(YXi).
Dacă legătura dintre cele două variabile are forma unei funcţii exponenţiale, ecuaţia
de regresie este:
Y X i a b xi (6.10)
Aplicarea metodei celor mai mici pătrate presupune în acest caz liniarizarea, prin
logaritmare: lg Y X i lg a xi lg b .
n lg a lg b xi lg y i
(6.11)
lg a xi lg b xi xi lg y i
2
Regresia multifactorială
în care:
Prin aplicarea metodei celor mai mici pătrate se obţine sistemul de ecuaţii (6.14) prin
rezolvarea căruia se determină parametrii funcţiei de regresie.
n a 0 a1 x1i a 2 x 2i ... a k x ki y i
a 0 x1i a1 x1i a 2 x1i x 2i ... a k x1i x ki x1i y i
2
a 0 x 2i a1 x 2i x1i a 2 x 2i ... a k x 2i x ki x 2i y i
2
(6.14)
.............................................................................................................
a 0 x ki a1 x ki x1i a 2 x ki x 2i ... a k x ki2 x ki y i
180
La interpretarea rezultatelor privind parametrii funcţiei de regresie multifactorială
trebuie avut în vedere faptul că între variabilele factoriale luate în calcul poate exista o
dependenţă reciprocă, denumită multicoliniaritate, care poate afecta rezultatele finale, facând
necesară testarea existenţei acesteia.
y
n
YX i min , deci care minimalizează eroarea cu care se
2
condiţia de minim i
i 1
y
y i YX i 2
(6.15)
i
YX i n
În cazul exemplului din Tabelul E.6.6.1 eroarea cu care s-au estimat câştigurile
salariale nete în funcţie de vechimea în muncă a fost de 66,1 lei. Pentru a calcula eroarea
standard a estimaţiilor funcţiei de regresie, e necesară determinarea pătratului diferenţelor
dintre valorile empirice ale variabilei dependente şi cele teoretice, calculate pe baza funcţiei
de regresie ale cărei parametri au fost obţinuţi în Exemplul 6.1. În continuarea exemplului
6.1, prezentăm mai jos modul de calcul.
( xi )
( yi )
1 3 2,9 0,0057 0,0000
2 6 3,1 -0,0853 0,0073
3 9 3,5 0,0237 0,0006
4 11 3,8 0,1297 0,0168
5 15 4 -0,0583 0,0034
6 19 4,4 -0,0463 0,0021
7 22 4,8 0,0627 0,0039
8 25 5 -0,0283 0,0008
Total 110 31,5 0,0036 0,0350
0,0350
y 0,0661
i
YX i 8
181
Aceasta înseamnă că între câştigul salarial net realizat efectiv (yi) şi cel estimat pe baza funcţiei
lunare există, în cazul fiecărui muncitor, o diferenţă medie de 66,1 lei, diferenţă care se explică
prin influenţa altor factori asupra câştigului salarial net.
exprimată procentual:
y
y i
31,5
3,938 mii lei.
n 8
Deci coeficientul de eroare este:
0,0661
Ke 100 1,68%
3,938
cov( X , Y )
x i x yi y
(6.16)
n
Dacă corelaţia este directă atunci cov( X , Y ) > 0, respectiv valori negative, în cazul
corelaţiilor inverse. Acest indicator se aplică mai rar în analiza corelaţiilor, datorită
următoarelor cauze:
nu are un interval fix de variaţie; cu cât corelaţia este mai intensă cu atât
covarianţa, în valoare absolută, este mai mare;
32
Metoda corelaţiei presupune că ambele variabile analizate (X şi Y) sunt aleatoare şi distribuite
normal, în timp ce metoda regresiei presupune că variabila Y este aleatoare, în timp ce X nu este. De
asemenea, se presupune că abaterea standard a variabilei Y este constantă pentru toate valorile lui
X, iar abaterea standard a variabilei X este constantă pentru toate valorile lui Y.
182
Coeficientul de corelaţie liniară ( r ) (sau coeficientul de corelaţie Pearson 33 ) este
un indicator sintetic care măsoară intensitatea legăturilor liniare simple. Se calculează ca un
raport între covarianţă şi produsul abaterilor medii pătratice ale variabilelor implicate în
analiza corelaţiei ( x şi y ) sau ca o medie aritmetică a produselor abaterilor normale
xi x yi y
normate: şi :
x y
n
cov( X , Y )
x i x yi y
r i 1
(6.17)
x y n x y
x , y y , x xi y yi
2 2
2
2
(x x şi y se
i i
determină
n n n n n n
ajunge la o relaţie relativ simplă de aplicat:
n x i y i xi y i
r
n x
(6.18)
xi n y i2 y i
2 2 2
i
Cu cât r se apropie mai mult de ± 1 cu atât legătura dintre variabile este mai
puternică. Dacă r = 1, atunci există o corelaţie directă funcţională, iar dacă r = –1, între
variabile este o corelaţie inversă funcţională. O valoare egală cu 0 indică lipsa legăturii dintre
variabile.
Relaţiile (6.17) şi (6.18) se aplică în cazul în care datele înregistrate pentru cele două
variabile se prezintă sub forma a două serii simple. Dacă numărul perechilor de valori
înregistrate este mare, acestea se sistematizează prin gruparea lor pe intervale egale şi se
prezintă întrun tabel cu dublă intrare. Într-o asemenea situaţie, fiecărei valori xi şi yi i se
ataşează frecvenţa corespunzătoare de apariţie.
n xi y i n xy xi n x y i n y
r
n x
(6.19)
n x xi n x n y n y y i n y
2 2 2 2
i i
33
In limba engleză poartă denumirea de “Product-moment correlation coefficient”
183
În aplicaţiile reale, o măsură atât de
Cadranul 2 – O scurtă istorie a regresiei liniare
mare a coeficientului de corelaţie este rar
Denumirea dată coeficientului de corelaţie induce pe
întâlnită. De asemenea, este necesar să
mulţi în eroare, atribuind descoperirea acestei mărimi
precizăm faptul că datele pe baza cărora se
statistice lui Karl Pearson. O serie de lucrări
calculează coeficientul de corelaţie este, în
descoperite la începutul anilor 2000 (v. „Galton,
majoritatea cazurilor, un eşantion, în condiţiile Pearson, and the Peas: A Brief History of Linear
în care analistul este interesat valoarea Regression for Statistics Instructors”, Jeffrey M.
acestuia pentru întreaga populaţie, caz în Stanton, Syracuse University, Journal of Statistics
care coeficientul de corelaţie este notat cu Education Volume 9, Number 3, 2001) conduc la
(„rho”). De aceea, este important să ştim concluzia că ideea conceptualizării noţiunilor de
câtă încredere putem da valorii calculate corelaţie şi regresie aparţine lui Sir Francis Galton.
Mai mult, ea nu este legată de explicarea „regresiei
conform relaţiei (6.19). Altfel spus, analistul
către medie” a înălţimii copiilor în relaţie cu strămoşii
este interesat să verifice dacă valoarea
lor, în încercarea de a explica modul în care sunt
coeficientului de corelaţie din populaţie este
moştenite trăsăturile înaintaşilor de către urmaşi, ci de
egal cu zero sau nu, deoarece, dacă 0 , un alt organism mult mai prozaic: mazărea dulce.
atunci cele două variabile analizate sunt El a ales mazărea dulce pentru că această specie se
independente, adică nu există corelaţie între auto-fecundează; plantele de sex feminin arată
ele. variaţiile genetice ale plantelor-mamă fără contribuţia
unui alt părinte. El a eliminat, în acest fel, problema
În termeni statistici, verificarea relaţiei
evaluării statistice a contribuţiei genetice a mai multor
0 înseamnă testarea ipotezei nule care
surse.
este formalizată astfel: H 0 : 0 . Ipoteza
Primele concluzii despre regresie au izvorât dintr-o
alternativă este H 1: 0 . diagramă bidimensională în care a trasat punctele
determinate de mărimea boabelor de mazăre „fiice”
Pentru testarea ipotezei nule se
faţă de boabele de mazăre „mamă”, ilustrând
utilizează testul „t”. În acest scop, trebuie să elementele fundamentale a ceea ce astăzi statisticienii
calculăm statistica de test „t” 34 , care urmează numesc „regresie liniară”.
o distribuţie Student cu n-2 grade de libertate.
Relaţia de calcul a statisticii de test este:
r
tc (6.20)
(1 r 2 ) /(n 2)
în care:
n – numărul observaţiilor;
34
În statistica t, magnitudinea numărătorului tinde să crească pe măsură ce ipoteza alternativă este
adevărată.
184
Întrucât ipoteza nulă priveşte testarea egalităţii coeficientului de corelaţie a întregii
colectivităţi statistice cu valoarea 0, este posibil ca, în realitate, să fie „semnificativ” mai
mare decât 0 sau „semnificativ” mai mic decât 0. De aceea, este firesc să verificăm dacă
statistica t este fie foarte mare, fie foarte mică pe curba distribuţiei teoretice a acesteia, ştiind
că punctul de simetrie al acestei distribuţii este t=0, adică să aplicăm un test t bilateral.
0,9957
tc 8 2 26,33
1 0,9957 2
Valoarea statisticii t pentru un prag de semnificaţie de 0,025 şi 6 grade de libertate se
poate citi într-o tabelă a valorilor critice ale variabilei t calculate pentru teste bilaterale şi
găsim că tteoretic; 0,025 = 2,447.
35
Valoarea teoretică faţă de care facem comparaţia este o cuantilă, iar probabilitatea ca valoarea
calculată să o depăşească pe cea teoretică este suprafaţa aflată sub curba distribuţiei.
185
După cum ştim, dispersia totală este dată de pătratul diferenţei dintre valorile
observate şi valoarea medie:
n
y y .
2
i
i 1
Întrucât regresia liniară ne permite să calculăm valorile teoretice obţinute prin funcţia
de regresie, pentru a măsura cât de bine ajustează această funcţie datele observate este
nevoie să operăm o modificare în relaţia de mai sus, pentru a pune în evidenţă dispersia
care nu este explicată de regresie şi dispersia explicată de regresie:
n n
y y = yi YX i YX i y
2 2
i (6.21)
i 1 i 1
media lor. Media presupune toţi factorii de influenţă constanţi, iar valorile empirice
sunt rezultatul acţiunii tuturor factorilor. Dispersia calculată pe baza acestor
abateri este dispersia totală a variabilei dependente ( y2 ). Prin aceasta se
măsoară variaţia sub influenţa tuturor factorilor X şi a celorlalţi factori
neînregistraţi;
c) al doilea termen al părţii din dreapta egalităţii, YX i y , reprezintă abaterea
valorilor teoretice de la media valorilor empirice şi exprimă influenţa factorului X.
Pe baza acestor abateri se determină dispersia explicată sau dispersia
sistematică ( y2 / x ).
Dacă ridicăm la pătrat ambii termeni ai egalităţii şi însumăm pentru tot setul de
observaţii, obţinem:
yi y yi YX Y
n n n
y
2 2 2
i Xi (6.22)
i 1 i 1 i 1
Forma echivalentă, bazată pe cele trei dispersii definite mai sus, este:
y2 = y2 / x + y2 / r (6.22’)
186
Termenul din stânga al ecuaţiei arată dispersia totală a variabilei dependente. Primul
termen al părţii drepte a ecuaţiei arată dispersia variabilei dependente care este explicată de
regresie, iar al doilea termen al părţii din dreapta a ecuaţiei reprezintă dispersia variabilei
dependente care nu este explicată de regresie.
Coeficientul de determinaţie (R2) arată cât de bine ajustează linia de regresie valorile
observate şi este dat de raportul dintre dispersia explicată de regresie şi dispersia totală:
y Y y
n n
YX i
2 2
Xi i
R2 i 1
n
1 i 1
n
(6.23)
y y y y
2 2
i i
i 1 i 1
y
n
YX i
2
2 i
K2 i 1
y/r
(6.24)
y2 n
y y
2
i
i 1
187
y
n
YX i
2
i
R 1 i 1
n
(6.25)
y y
i 1
i
2
Raportul de corelaţie poate lua valori cuprinse între 0 şi 1. Cu cât valoarea lui R se
apropie mai mult de 1 cu atât legătura dintre variabile este mai puternică, respectiv mai puţin
intensă cu cât se apropie mai mult de 0.
R 0,9876 0,9938
La calcularea valorilor teoretice (valorile funcţiei de regresie, Y X i ) s-a pornit de la o
ipoteza că legătura dintre cele două variabile este liniară. De la aceeaşi ipoteză s-a pornit şi
la determinarea raportului de corelaţie. Dacă legătura dintre cele două variabile este într-
adevăr liniară, atunci se verifică egalitatea: r R . Dacă raportul de corelaţie diferă de r ,
atunci legătura este neliniară. În acest caz trebuie identificată ecuaţia funcţiei neliniare,
calculate valorile teoretice ( Y X i ) pe baza acestei funcţii şi determinată intensitatea corelaţiei
prin R.
a) sunt de natură cantitativă, numerică (scala de măsurare este cel puţin de tip
interval);
Coeficientul de asociere Yule (Q) se aplică în cazul analizei corelaţiei dintre două
variabile alternative. Astfel de caracteristici admit numai două forme de manifestare: DA şi
NU şi se codifică cu 1 şi 0.
Repartiţia celor două variabile alternative se prezintă într-un tabel de asociere care
este o variantă simplificată a tabelului cu dublă intrare. În acest tabel valorile variabilei X apar
în capetele rândurilor, iar cele ale variabilei Y apar în capetele coloanelor.
188
Tabelul 6.3 – Tabel de asociere
X \ Y y1 y2 Total
x1 n11 n12 n1.
x2 n21 n22 n2.
Total n.1 n.2 n..
Cu cât Q tinde mai mult spre ±1 cu atât asocierea este mai puternică. Dacă
coeficientul de asociere este egal cu 0, între cele două variabile nu există o legătură de
asociere.
N
6 Di2
rS 1 i 1
(6.27)
N(N 1)
2
în care:
Di R x ,i R y ,i
n − numărul cuplurilor de valori X, Y.
Acest coeficient poate lua valori cuprinse între 1 şi +1 şi se interpretează în acelaşi fel
ca în cazul coeficientului de corelaţie liniară (r).
189
Exemplul 6.2 – Calculul coeficientului de corelaţie a rangurilor Spearman
În tabelul următor sunt prezentate rangurile a 6 ţări ordonate după rata de alfabetizare masculină
(xi) şi feminină (yi). Spre exemplu, ţara 3 este a IV-a în ordinea ratei de alfabetizare masculine şi a
V-a după rata de alfabetizare feminină.
Tabelul E.6.2.1 – Rangurile ţărilor în funcţie de rata de alfabetizare a populaţiei masculine şi
feminine
Ţara
1 2 3 4 5 6
Rangul xi 6 5 4 3 1 2
Rangul yi 6 4 5 2 1 3
Di 0 1 1 1 0 1
Di2 0 1 1 1 0 1
N
6 D i2
64
rS 1 i 1
1 0,886
N(N 1)
2
6 (36 1)
rk
P Q i i
(6.28)
nn 1
1
2
unde :
190
Exemplul 6.3 – Calculul coeficientului de corelaţie a rangurilor Spearman şi Kendall
Într-o cercetare statistică au fost studiate 8 companii, ale căror cifră de afaceri şi profit au fost
sintetizate în tabelul următor.
Tabelul E.6.3.1 – Cifra de afaceri şi profitul obţinute de 8 companii studiate
Cifra de
Nr. Profit
afaceri Rx Ry Di2 Pi Qi
crt. (mil. lei)
(mil. lei)
1 47 4,0 1 1 0 7 0
2 54 4,7 2 2 0 6 0
3 58 5,9 3 7 16 1 4
4 60 5,2 4 4 0 3 1
5 61 5,0 5 3 4 3 0
6 62 5,8 6 6 0 1 1
7 64 5,6 7 5 4 1 0
8 70 6,4 8 8 0 0 0
Total - - - - 24 22 6
rk
P Q
i i
2 (22 6) 32
0,571
8 (8 1)
nn 1
1 56
2
Corelaţia dintre cele două variabile este una directă şi moderată ca intensitate.
191
Legătură multiplă Metoda tabelului de corelaţie
7. Când reprezentarea grafică admite mai multe funcţii care ar putea descrie
legătura dintre două variabile, care este criteriul în funcţie de care se optează
pentru una din aceste funcţii?
6.7 Bibliografie
1. Biji E., Lelea E., Wagner P., Statistică, Editura didactică şi pedagogică, Bucureşti,
1999, p. 214-278
2. Korka M., Begu L., Tuşa E., Bazele Statisticii pentru Economişti, Editura Tribuna
economică, Bucureşti, 2002 p. 118-138.
4. Voineagu V., Lilea E., Goschin Z., Vătui M., Bolăleanu D., Statistică economică.
Teorie şi aplicaţii, Editura Tribuna economică, Bucureşti, 2002, p. 223-257.
192
Capitolul 7: SERII CRONOLOGICE
7.1 Introducere
În capitolele precedente am trecut în revistă metodele statistice adecvate analizei
datelor care reflectă fenomene sau procese observate la un anumit moment, în aşa-numitele
observări sau cercetări statistice transversale. Cunoaşterea regularităţilor care se manifestă
în evoluţia fenomenelor şi proceselor sociale presupune, însă, şi culegerea şi sistematizarea
datelor în funcţie de derularea lor în timp, în aşa-numitele cercetări statistice longitudinale.
193
interdependenţa termenilor constă în faptul că oricare termen depinde într-o
anumită măsură de valoarea termenilor precedenţi. Această proprietate
generează o anumită tendinţă în evoluţia fenomenelor în timp;
Termenii unei serii cronologice de perioade sunt însumabil direct. Rezultatul însumării
reprezintă un indicator totalizator care are acelaşi conţinut ca şi termenii seriei cronologice.
În cazul seriilor cronologice formate din indicatori absoluţi, fiecare termen este o
mărime absolută exprimată în unităţi concrete de măsură. O astfel de serie cronologică
apare în tabelul nr. 7.1 pe prima linie: populaţia la data de 1 ianuarie a fiecărui an din seria
observată.
194
Tabelul 7.1 - Evoluţia unor indicatori macroeconomici în perioada 2000 - 2007
Unitate
Indicator 2000 2001 2002 2003 2004 2005 2006 2007
de măsură
Populaţia la 1 mil
22,45 22,43 21,83 21,77 21,71 21,66 21,61 21,56
ianuarie locuitori
Dinamica PIB
faţă de anul % 2,4 5,7 5,1 5,2 8,5 4,2 7,9 6,3
precedent
PIB pe locuitor Euro 1800 2000 2200 2400 2800 3700 4500 5800
Sursa: Eurostat
Seriile cronologice formate din indicatori relativi, prezintă evoluţia unor indicatori
relativi exprimaţi, de regulă, procentual. În tabelul nr. 7.1, dinamica produsului intern brut
reprezintă un exemplu de o astfel de serie.
Printr-o serie cronologică formată din indicatori medii se prezintă evoluţia unor
caracteristici cantitative măsurate cel puţin pe o scală de intervale: PIB pe locuitor; câştigul
salarial mediu etc. În tabelul nr. 7.1, seria produsului intern brut pe locuitor exprimat în Euro
este formată din indicatori medii.
O primă imagine privind evoluţia unei variabile sau indicator se obţine prin
reprezentarea grafică. Seriile cronologice de perioade se reprezintă grafic prin cronograma,
iar seriile cronologice de momente se vizualizează prin diagrama cu coloane.
a) indicatori absoluţi:
indicatorii de nivel ( y t );
modificarea absolută ( t 2 / t1 );
b) indicatori relativi:
195
valoarea absolută a unui procent din ritmul de creştere / descreştere ( A );
c) indicatori medii:
y
t 1
t .
În cazul datelor din tabelul nr. 7.2, fiecare termen privind cifra de afaceri este un
indicator de nivel.
a) modificarea absolută cu bază fixă, care este diferenţa dintre nivelul fiecărei
perioade (yt) şi nivelul din perioada bază de comparaţie (y1);
t / 1 y t y1 (7.1)
t / t 1 y t y t 1 (7.2)
196
Tabelul 7.2 – Evoluţia cifrei de afaceri a companiei X în perioada 2000 - 2009
Cifra Modificarea
Indicele (%) Ritmul (%)
de absolută
Anul t
afaceri
t /1 t / t 1 I t /1 I t / t 1 Rt / 1 Rt / t 1
(mil. lei)
2000 1 50 0 - 100,0 - 0,0 -
2001 2 54 4 4 108,0 108,0 8,0 8,0
2002 3 60 10 6 120,0 111,1 20,0 11,1
2003 4 63 13 3 126,0 105,0 26,0 5,0
2004 5 68 18 5 136,0 107,9 36,0 7,9
2005 6 72 22 4 144,0 105,9 44,0 5,9
2006 7 74 24 2 148,0 102,8 48,0 2,8
2007 8 77 27 3 154,0 104,1 54,0 4,1
2008 9 80 30 3 160,0 103,9 60,0 3,9
2009 10 81 31 1 162,0 101,3 62,0 1,3
31 162,0
10 10
Total - 679 -
t / t 1
t 2
-
I
t 2
t / t 1
- -
Între cele două modalităţi de calcul a modificării absolute există următoarele relaţii de
trecere:
t 2
t / t 1 = n /1 (7.3)
ii. diferenţa dintre două modificări absolute cu bază fixă succesive este egală cu
modificarea absolută cu baza în lanţ corespunzătoare.
t / 1 t 1 / 1 t / t 1 (7.4)
Aceste relaţii de trecere sunt utile în analiza seriilor cronologice în cazurile în care nu
se cunosc termenii seriei.
197
modificare absolută, nu una relativă. Dacă ar fi fost relativă, cifra de 3,3% s-ar fi aplicat ca
multiplicator al dinamicii de 2,4%, iar calculul care urma ar fi trebuit să fie: 2,4 x 3,3% =
7,92%. Cu alte cuvinte, dinamica PIB din anul următor ar fi fost 2,4792%, nu de 5,7%. Pe
scurt, punctele procentuale măsoară diferenţa absolută dintre două mărimi exprimate
procentual.
Indicatorii relativi oferă informaţii utile privind evoluţia în timp, cu condiţia ca baza de
comparaţie să fie un termen în raport cu care să se facă comparaţia. Aceasta înseamnă să
fie un termen care se înscrie în tendinţa de evoluţie, să fie un termen « normal ».
Indicele de creştere/descreştere (I) arată de câte ori s-a modificat nivelul unei
perioade faţă de o altă perioadă sau cât la sută reprezintă nivelul actual faţă de cel
considerat ca bază de comparaţie. Indicele este un raport între doi termeni ai seriei
cronologice.
yt
I t /1 100 (7.5)
y1
b) indicele cu bază în lanţ (mobilă, glisantă):
yt
I t / t 1 100 (7.6)
y t 1
Între cele două modalităţi de calcul există relaţii de trecere, şi anume:
i. produsul indicilor cu bază în lanţ este egal cu indicele cu bază fixă corespunzător.
10
I
t 2
t / t 1 = I n /1 (7.7)
Observaţie: Dacă se aplică această relaţie, iar indicii cu bază în lanţ sunt exprimaţi în
procente este necesar să se împartă produsul indicilor la 100n-1, n reprezentând numărul
indicilor cu bază în lanţ luaţi în calculul produsului.
ii. raportul dintre doi indici cu bază fixă succesivi este egal cu indicele cu baza în
lanţ corespunzător.
I t /1
I t / t 1 (7.8)
I t 1 / 1
198
De exemplu,
t /1
Rt / 1 100 (7.9)
y1
ritmul cu baza în lanţ (mobilă, glisantă):
t / t 1
Rt / t 1 100 (7.10)
y t 1
Ritmul de creştere/descreştere se calculează mai simplu pornind de la indicele
corespunzător. În cazul indicelui exprimat procentual, baza de comparaţie este egală cu 100.
Deci, dacă din indice se scade 100 (baza de comparaţie) se obţine ritmul de creştere sau
descreştere:
t /1 y y1 y
Rt / 1 100 t 100 t 1 100 I t / 1 1 100
y1 y1 y1
şi
t / t 1 y y t 1
Rt / t 1 100 t 100 I t / t 1 1 100
y t 1 y t 1
Observaţie: Ritmul de creştere/descreştere se foloseşte frecvent în comparaţii
teritoriale. De exemplu, se compară RPIB din România cu RPIB din Germania. Astfel de
comparaţii pot conduce la concluzii neconcordante cu realitatea dacă nu se indică nivelul
absolut din perioada considerată bază de comparaţie sau modificarea absolută care revine la
1% din modificarea relativă.
cu bază fixă:
t /1
At / 1 (7.11)
Rt / 1 (%)
cu baza în lanţ (mobilă, glisantă):
t / t 1
At / t 1 (7.12)
Rt / t 1 (%)
199
Valoarea absolută a unui procent din ritmul de creştere / descreştere reprezintă a
suta parte din baza de comparaţie. Acest lucru devine evident dacă se dezvoltă relaţiile
(7.11) şi (7.12) :
y t y1 y
At / 1 1
y t y1 100
100
y1
respectiv,
y t y t 1 y
At / t 1 t 1
yt y t 1 100
100
y t 1
În cazul exemplului din tabelul nr. 7.2, la un procent din oricare ritm de creştere cu
bază fixă (8,0%; 20,0%;...; 48,0%; ...; 62%) revine o creştere absolută egală cu 0,5 miliarde
y1 50
lei, deoarece At / 1 0,5 mil lei.
100 100
În mod similar, la un procent de creştere a cifrei de afaceri între 2007 şi 2008 de
y t 1 77
3,9% revin A2008 / 2007 0,77 mil lei.
100 100
y
y t
, unde t 1, n (7.13)
n
t / t 1
t /1
(7.14)
n 1 n 1
unde n reprezintă numărul modificărilor absolute cu baza în lanţ.
4 6 ... 3 3 1 31
3,44 mil lei anual.
9 9
200
Modificarea mediei absolute poate caracteriza o serie cronologică numai dacă
modificările cu bază în lanţ sunt aproximativ egale, deci dacă evoluţia poate fi
apreciată drept liniară.
n
yn
n 1 I t / t 1 n 1 I n / 1 n 1 (7.15)
t 1 y1
unde n reprezintă numărul indicilor cu bază în lanţ.
Indicele mediu arată de câte ori s-a modificat, în medie, fiecare termen faţă de
termenul precedent sau cât la sută reprezintă în medie fiecare nivel faţă de cel
precedent.
În cazul seriei prezentată în tabelul nr. 7.2 indicele mediu de creştere sau
descreştere este:
9 1,080 1,111 1,050 ... 1,041 1,039 1,031 9 1,620 1,0551 sau 105,51% .
Deci, cifra de afaceri a fost, in medie, in fiecare an faţă de anul precedent de
1,0551 ori mai mare sau a reprezentat în medie o creştere de 105,51% în fiecare
an comparativ cu anul anterior.
Indicele mediu sintetizează corect modificările relative cu bază în lanţ dacă indicii
cu bază mobilă sunt aproximativ egali.
R ( 1) 100 (7.16)
Observaţie: Din cadrul indicatorilor medii menţionaţi, numai nivelul mediu ( y )
sintetizează valorile individuale. În cazul celorlalţi indicatori medii rezultatul calculului depinde
doar de valoarea primului şi al ultimului termen. Această situaţie poate conduce la concluzii
neconforme cu realitatea.
Dacă intervalele care despart momentele sunt egale, prelucrarea seriei se realizează
prin calcularea indicatorilor absoluţi, relativi şi medii, cu deosebirea că nivelul mediu se
calculează nu prin media aritmetică simplă ci prin media cronologică simplă. În cazul unei
serii de momente cu intervale inegale, singurul indicator care se calculează este nivelul
mediu, prin media cronologică ponderată.
201
Media cronologică simplă este o formă transformată a mediei aritmetice simple. Se
aplică când momentele la care se referă termenii seriei sunt echidistante (t1 = t2 = ... = tn).
t1 t2 t3 t4 tn-1
y1 y2 y3 y4 y5 yn-1 yn
Fig. 7.2 – Serie cronologică de momente echidistante
O serie cronologică formată din n termeni are n-1 intervale, fiecare interval fiind
delimitat de doi termeni.
y1 y 2 y y3 y yn
y1 ; y2 2 ; ......; y n 1 n 1
2 2 2
Fiecare medie parţială se referă la o perioadă t, deci termenii seriei ( y1 , y 2 ,...., y n 1 )
sunt însumabili.
y1 y 2 y 2 y 3 y yn
.... n 1
y1 y 2 y 3 ..... y n 1 2 2 2
y
n 1 n 1
După efectuarea simplificărilor se obţine media cronologică simplă ( y cr ).
y1 y
y 2 .... y n 1 n
y cr 2 2 (7.17)
n 1
Calculul mediei cronologice simple se exemplifică pe baza datelor din tabelul nr. 7.3.
Stocul de
Data
mărfuri (mii lei)
01/01/2009 420
01/02/2009 460
01/03/2009 430
01/04/2009 440
202
y1 y 420 440
y 2 .... y n 1 n 460 430
y cr 2 2 2 2 440 mii lei.
n 1 4 1
Media cronologică ponderată se utilizează la calculul nivelului mediu dacă
momentele de timp pentru care s-au înregistrat valorile variabilei sunt despărţite prin
intervale neegale.
t1 t t t t t
y1 y 2 1 2 .... y n 1 n 2 n 1 y n n 1
y cr 2 2 2 2 (7.18)
t1 t1 t 2 t t t
.... n 2 n 1 n 1
2 2 2 2
sezonalitatea;
ciclicitatea;
Trendul (Tt) poate fi, de obicei, detectat prin simpla inspecţie a seriei de timp. El se
manifestă sub forma unei mişcări regulate cu caracter de continuitate a fenomenului, care
poate fi în creştere, în scădere sau constant. Ca regulă, trendul poate fi sesizat dacă seria
cronologică se referă la o perioadă de timp suficient de mare. Trendul sau tendinţa reflectă
direcţia de evoluţie şi este efectul influenţei factorilor sistematici. Astfel de factori ar putea fi
în cazul seriilor cronologice construite pe diferite variabile macroeconomice, volumul
investiţiilor, dimensiunea şi calitatea forţei de muncă, nivelul tehnologiei etc.
203
Sezonalitatea (St) poate fi uşor detectată din graficul unei serii de timp. Ea este de
regulă reprezentată prin vârfuri sau depresiuni care apar la intervale relativ regulate de timp,
sugerând că variabila atinge minime şi maxime. Intervalul de timp dintre două vârfuri sau
depresiuni succesive se numeşte perioadă. Variaţiile periodice din cadrul seriilor cronologice
se referă la perioade mai scurte decât un an, de regulă luni sau trimestre. Aceste oscilaţii în
jurul trendului sunt cauzate de factori cum sunt: clima, obiceiuri, iregularităţi ale calendarului;
sărbători laice sau religioase; condiţii de producţie etc.
y t f (Tt , S t , C t , Rt ) (7.19)
204
yt d5
d3
Variaţie
Trend
reziduală
d1
Variaţie
d4
sezonieră
Sezonalitate
d2
Dacă notăm cu d1, d2, d3, ...., dk variaţiile sezoniere, egalitatea lor înseamnă că
d 1 d 2 d 3 .... d k
y t Tt S t Rt (7.20)
y t Tt S t Rt (7.21)
Seria cronologică pentru care se poate aplica modelul multiplicativ este de forma din
diagrama următoare.
205
yt
d5
d3 Trend
Variaţie
reziduală
d1
Variaţie
d4
sezonieră
Sezonalitate
d2
Prin analiza seriilor cronologice se urmăreşte, aşa cum s-a menţionat, cunoaşterea
regularităţilor manifestate, care sunt expresia acţiunii factorilor sistematici, esenţiali.
Operaţiunea prin care din termenii empirici ai unei serii cronologice (yt) se elimină
influenţa factorilor întâmplători poartă denumirea de ajustare a seriilor cronologice.
metoda grafică;
metode analitice.
206
Această metodă oferă informaţii orientative utile pentru alegerea funcţiei analitice
care este în măsură să descrie tendinţa de evoluţie. Ajustarea grafică se exemplifică pornind
de la datele din tabelul nr. 7.2.
90
80
70
Cifra de afaceri (mil. lei)
60
50
40
30
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010
Anul
Metoda mediilor mobile este extrem de eficace. Înainte de a trece la previzini pe baza
trendului identificat, este absolut necesar să eliminăm orice variaţie importantă a datelor, în
special a componentei sezoniere. Mai întâi, este important să ştim care este perioada
datelor. Dacă avem o perioadă de lungime m, vom aplica media mobilă de perioadă m. Dacă
m este impar, atunci media mobilă este automat centrată pe punctele de date, dar când m
este par, este necesar să centrăm datele înainte de a trece mai departe.
Mediile mobile sunt medii aritmetice calculate dintr-un număr prestabilit de termeni.
Fiecare medie mobilă (glisantă) se deosebeşte de cea precedentă prin faptul că exclude
primul termen din care s-a calculat şi include în calcul termenul următor al seriei valorilor
empirice.
207
Să presupunem că avem o serie de timp formată din 7 termeni.
Medii
Medii Medii Medii mobile
Valori mobile
mobile provizorii definitive
empirice definitive
(m=3) (m=4) (m=4)
(m=3)
y1 - -
y2 y 3,1 - - -
y 3,1 y 4,1
y3 y 3, 2 y 4,1
y 3, 2 y 4, 2
y4 y 3, 3 y 4, 2
y 3, 3 y 4,3
y5 y 3, 4 y 4,3
y 3, 4 y 4, 4
y6 y 3, 5 -
- -
y7 - -
dacă perioada este un număr impar (m=2k+1), fiecare medie mobilă înlocuieşte
termenul central din care se determină media. Astfel, dacă mediile se calculează
din 3 termeni (adică perioada m = 3) se obţine:
y1 y 2 y 3 y y3 y 4 y y 4 y5
y 3,1 ; y 3, 2 2 ; y 3, 3 3 etc.
3 3 3
când mediile se calculează dintr-un număr par de termeni (m = 2k), se se
calculează medii mobile. Fiecare medie se va plasa între cei doi termeni centrali
din care s-a calculat. De exemplu, prima medie calculată din patru termeni se va
plasa între termenul al 3-lea şi al 4-lea. Din acest considerent se numesc şi medii
mobile provizorii:
y1 y 2 y 3 y 4 y y3 y 4 y5
y 4,1 ; y 4, 2 2
4 4
y3 y 4 y5 y6 y y5 y6 y7
y 4,3 ; y 4, 4 4
4 4
se calculează medii mobile definitive din câte două medii mobile provizorii; se
centrează mediile provizorii:
a) dacă m=2k+1
y 3,1 y 3, 2 y 3, 2 y 3, 3
y 3,1 ; y 3, 2 ;
2 2
208
y 3 , 3 y 3, 4 y 3, 4 y 3 , 5
y 3, 3 ; y 3, 4
2 2
b) dacă m=2k
Numărul mediilor mobile calculate este mai mare decât numărul termenilor empirici,
ceea ce înseamnă că seria mediilor mobile care defineşte trendul este mai scurtă decât seria
termenilor empirici.
Cu cât numărul termenilor din care se calculează mediile mobile este mai mare, cu
atât numărul termenilor empirici care nu au o valoare teoretică corespondentă este mai
mare. Observaţie: Ajustarea prin metoda mediilor mobile presupune pe lângă oscilaţii
sezoniere şi o serie formată dintr-un număr mare de termeni.
36
După Rajesh Gunesh, 1998.
209
t yt [TSR] 4Q-MM [T] 4Q-MMC [T]
2007 Q1 1 289
Q2 2 310
306
Q3 3 325 306,75
307,5
Q4 4 300 308,25
309
2008 Q1 5 295 310
311
Q2 6 316 311,25
311,5
Q3 7 333 312,25
313
Q4 8 302 313,75
314,5
2009 Q1 9 301 316,125
317,75
Q2 10 322 318,25
318,75
Q3 11 346
-
Q4 12 306
TSR semnifică cele 4 componente considerate în ajustarea unei serii cronologice: T – trendul
(combinat cu ciclul), S – sezonalitatea, R – valorile reziduale, în cazul fiecărei componente
calculate: valorile empirice (Yt); 4Q-MM este media mobilă de perioadă 4 provizorie, fiind
componenta combinată a trendului şi ciclului (TC); 4Q-MMC este media mobilă centrată de
perioadă 4, fiind, de asemenea, componenta combinată a trendului şi ciclului (TC).
De notat că aplicarea metodei mediilor mobile duce la pierderi de date. În tabelul de mai sus, am
pierdut prima şi ultimele două valori observate. În general, când m este par (în cazul nostru m este
egal cu 4), pierdem m valori, iar când m este impar, pierdem m-1 valori.
Graficul valorilor emprice şi al mediilor mobile centrare este redat mai jos.
210
360
350
340
330
320
Vanzari
y(t)
310
4Q-MMC
300
290
280
270
260
1 2 3 4 5 6 7 8 9 10 11 12
Trimestre
Q2 2 310 - - - 1,0145
306
Q3 3 325 306,75 1,0595 1,0640
307,5
Q4 4 300 308,25 0,9732 0,9688
309
2008 Q1 5 295 310 0,9516 0,9528
311
Q2 6 316 311,25 1,0153 1,0145
311,5
Q3 7 333 312,25 1,0665 1,0640
313
Q4 8 302 313,75 0,9625 0,9688
314,5
2009 Q1 9 301 316,125 0,9522 0,9528
317,75
Q2 10 322 318,25 1,0118 1,0145
318,75
Q3 11 346 - - 1,0640
-
Q4 12 306 - - 0,9688
Obiectivul nostru este să separăm componenta sezonieră. Tehnic, în această etapă, după ce am
separat componenta de trend (T), nu putem separa sezonalitatea (S) de componenta reziduală (R).
De aceea, aplicând modelul multiplicativ, cele două componente combinate rezultă prin
211
împărţirea valorii empirice la componenta de trend, pe care am obţinut-o prin calculul mediei
mobile centrate (yt /T). În cazul modelului aditiv, componenta combinată rezultă prin scăderea
componentei de trend din valoarea empirică (yt -T).
În continuare, se calculează media rapoartelor dintre valorile empirice şi trend pentru fiecare
trimestru. Dacă suma acestor indici nu este patru (perioada seriei), indicele sezonier se calculează
prin multiplicarea mediei trimestriale calculate anterior cu un factor de corecţie, egal cu raportul
dintre 4 şi suma mediilor. Rezultatele sunt următoarele:
Trimestrul
Anul
1 2 3 4
2007 - - 1,0595 0,9732
2008 0,9516 1,0153 1,0665 0,9625
2009 0,9522 1,0118 - -
Total 1,9038 2,0270 2,1259 1,9358
Media 0,9519 1,0135 1,0630 0,9679 Total= 3,9963
Indice sezonier 0,9528 1,0145 1,0640 0,9688 Total= 4,0000
Indicii sezonieri sunt, de fapt, deviaţiile de la trend sau variaţiile sezoniere, corespunzătoare
modelului multiplicativ. Raportând valorile observate la aceşti indici, vom obţine valorile ajustate
sezonier, adică neinfluenţate de acest factor. Aceşti indici vor fi utilizaţi mai târziu pentru calculul
valorilor previzionate sau, altfel spus, pentru extrapolarea seriei de timp.
Metoda modificării medii absolute se aplică atunci când termenii seriei (yt) tind să
formeze o progresie aritmetică, respectiv când modificările absolute au bazele în lanţ
apropiate ca valoare. Aceasta înseamnă că valorile variabilei se modifică relativ uniform, iar
cronograma poate fi aproximată printr-o dreaptă.
y n y1 2 / 1 3 / 2 .... n / n 1
Dacă modificările absolute cu bază în lanţ sunt aproximativ egale, fiecare este
aproape egală cu modificarea absolută medie ( ). Deci, valorile ajustate rezultă din
expresia:
yˆ t y1 (t 1) , t 1, n (7.22)
Revenind la datele din tabelul nr. 7.2 privind evoluţia cifrei de afaceri rezultă:
y n y1 81 50 31
3,4 mil lei.
n 1 9 9
Valorile ajustate determinate prin metoda modificării medii absolute sunt:
yˆ1 y1 50
212
yˆ 2 y1 53,4
yˆ 3 y1 2 56,8
.....
Observaţie: Dacă valorile empirice care compun seria şi se optează pentru metoda
modificării medii absolute, termenul notat în relaţia (7.22) cu y1 nu trebuie să fie obligatoriu
prima valoare empirică. Aceasta poate fi oricare termen empiric cu condiţia să se înscrie în
tendinţa de evoluţie, deci să fie un termen reprezentativ. Dacă se procedează astfel, lui t i se
va da valoarea 1 corespunzător termenului ales drept y1. Spre exemplu, primul termen t ia
valorile -2, -3, -4 etc. iar spre ultimul termen al seriei ia valorile +2, +3, etc.
y n y1 I 2 / 1 I 3 / 2 .... I n / n 1 y1 I ( n 1)
yˆ t y1 I ( t 1) (7.23)
Exemplificarea acestei metode se face tot pe baza datelor din tabelul nr. 7.2.
yˆ1 y1 50
yˆ 2 y1 I 50 1,055 57,0
yˆ 3 y1 I 2 50 1,055 2 66,8
.....
213
Metodele analitice de ajustare a unei serii cronologice presupun identificarea unei
funcţii care exprimă tendinţa de evoluţie şi calcularea valorilor acesteia, respectiv a valorilor
teoretice sau ajustate ( ŷ t ).
Alegerea funcţiei care se potriveşte cel mai bine trendului de evoluţie se poate face
pe baza următoarelor criterii:
criteriul diferenţelor.
yˆ t a b t (7.24)
unde:
yˆ t a b t (7.25)
yˆ t a b t c t 2 (7.26)
liniară iar dacă I t / t 1 sunt relativ egale se optează pentru o funcţie exponenţială.
214
(t1/)t 1 y t y t 1 (7.27)
- dacă (t1/)t 1 sunt egale, seria cronologică se ajustează folosind funcţia liniară;
După alegerea funcţiei de ajustare după una din metodele menţionate urmează
estimarea parametrilor acesteia şi calcularea valorilor teoretice ŷ t .
y yˆ t min t 1, n
2
t (7.30)
y a b t min
2
i (7.31)
na b t y t
(7.32)
a t b t t y t
2
În cazul unei serii cronologice, deci în situaţia sistemului (7.32), variabila timp
reprezintă doar criteriul de sistematizare a datelor şi nu factorul care condiţionează valorile
empirice. De aceea, pentru a simplifica calculele, se transformă seria cronologică păstrând
condiţia ca valorile variabilei timp să formeze o progresie aritmetică cu raţia egală cu +1, dar
se pune condiţia suplimentară ca suma valorilor lui t să fie egală cu zero ( t 0 ).
Procedând astfel, sistemul de ecuaţii (7.32) devine:
na y t
(7.33)
b t t y t
2
de unde:
215
a
yt y
n
b
(7.34)
t yt
t 2
Pentru satisfacerea condiţiei ca t 0 , valorile lui t se aleg pornind de la numărul
termenilor seriei. Pot interveni două situaţii:
b) dacă seria este alcătuită dintr-un număr par de termeni, în centrul seriei se află
doi termeni, caz în care corespunzător primului termen central t = -1, şi +1 în
cazul celui deal doilea termen central. În continuare valorile lui t vor fi: -3, -5, -7
şamd spre primul termen şi +3, +5, +7 şamd spre ultimul termen.
Seria este formată dintr-un număr par de termeni, deci, corespunzător termenilor
centrali, t 0.
Sistemul de ecuaţii normale obţinut pe baza datelor din tabelul nr. 7.5 este:
a
yt 679 67,9
n 10
b
t y 583
1,77
t
t 330
2
216
yˆ t 67,9 1,77 t
....
217
a
yt 3745 312,08
n 12
b
t y 533
0,93
t
t 572
2
Înlocuind valorile lui t în funcţia de mai sus, obţinem valorile din penultima coloană a tabelului.
Suma valorilor ajustate este la o diferenţă de 0,04 unităţi de măsură de valorile observate, din
cauza rotunjirii operate asupra valorilor parametrilor estimaţi. În ultima coloană sunt calculate
valorile reziduale, adică diferenţa dintre valorile ajustate şi cele empirice, a căror sumă este egală,
de asemenea, cu 0,04 unităţi.
yˆ t a b t c t 2
n a b t c t 2 y t
a t b t c t t y t
2 3
(7.35)
a t 2 b t 3 c t 4 t 2 y
t
Punând condiţia t 0 , atunci sistemul devine:
n a c t 2 y t
b t c t t y t
2 3
(7.36)
a t 2 c t 4 t 2 y
t
După calculul parametrilor a, b şi c, valorile teoretice, ajustate ŷ t se obţin prin
înlocuirea lui t cu valorile corespunzătoare.
lg y t lg a t lg b (7.37)
n lg a lg b t lg y t
(7.38)
lg a t lg b t t lg y t
2
218
7.6 Criterii de alegere a procedeelor de ajustare
Criteriile în funcţie de care se alege procedeul de ajustare nu sugerează întotdeauna
categoric care este procedeul care poate descrie cel mai bine tendinţa de evoluţie în timp a
fenomenului studiat. În asemenea situaţie se recomandă să se ajusteze seria cronologică
recurgând la mai multe procedee, urmând să se opteze în final pentru unul dintre ele în
funcţie de următoarele criterii:
y t yˆ t 0 (7.39)
y yˆ t min
2
t (7.40)
d yt
V yt 100 (7.41)
y
unde: d yt
y t yˆ t
n
Procedeul de ajustare care conduce la cel mai mic coeficient de variaţie descrie cel
mai bine tendinţa de evoluţie:
y
e 100
t / yˆ t
unde:
y yˆ t
2
y / yˆ t
t
, adică abaterea medie pătratică a valorilor teoretice
t
n
(ajustate) de la valorile empirice.
Cu cât coeficientul de eroare este mai mic cu atât variaţia valorilor empirice în jurul
funcţiei de ajustare este mai puţin intensă, ceea ce înseamnă că funcţia aleasă este mai
potrivită pentru determinarea tendinţei.
219
În exemplul 7.1, yt / yˆ t este 14,74, iar y este 312,08, de unde rezultă că e este
4,7%. În termeni statistici, eroarea nu este mare, însă, cu siguranţă, se pot găsi funcţii de
ajustare mai eficace, cu o eroare mai mică.
yˆ t * y1 (t * 1) (7.43)
unde:
yˆ t * y1 I t
*
(7.44)
220
Valorile extrapolate se determină pe baza relaţiilor:
Noile valori ajustate se calculează cu ajutorul funcţiei de regresie yˆ t 312,08 0,93 t . Această
funcţie ne arată, însă, trendul vânzărilor. Pentru a vedea care vor fi vânzările sub influenţa
factorilor sezonieri, va fi necesar să includem în calcul şi indicele sezonier. Potrivit modelului
multiplicativ, valorile ajustate sunt: date de relaţia yˆ t Tt S t Rt
Aşadar, mai întâi să estimăm care vor fi valorile trendului în cele 4 trimestre. În acest scop,
înlocuim valorile variabilei t cu noile valori ale seriei extinse după regula pe care am aplicat-o
când am stabilit valorile variabilei t pentru estimarea parametrilor funcţiei de regresie. Aşadar,
noile valori sunt + 13, +15, +17 şi +19
yt Indice
t ŷ t ŷ t*
[TSR] sezonier
2007 Q1 -11 289 0,9528 301,85 287,60
Q2 -9 310 1,0145 303,71 308,11
Q3 -7 325 1,0640 305,57 325,13
Q4 -5 300 0,9688 307,43 297,84
2008 Q1 -3 295 0,9528 309,29 294,69
Q2 -1 316 1,0145 311,15 315,66
Q3 +1 333 1,0640 313,01 333,04
Q4 +3 302 0,9688 314,87 305,05
2009 Q1 +5 301 0,9528 316,73 301,78
Q2 +7 322 1,0145 318,59 323,21
Q3 +9 346 1,0640 320,45 340,96
Q4 +11 306 0,9688 322,31 312,25
2010 Q1 +13 0,9528 324,17 308,87
Q2 +15 1,0145 326,03 330,76
Q3 +17 1,0640 327,89 348,87
Q4 +19 0,9688 329,75 319,46
221
Înlocuind valorile lui t (+ 13, +15, +17 şi +19) în funcţia de mai sus, obţinem:
Aceste valori sunt însă desezonalizate şi arată care ar fi evoluţia vânzărilor în absenţa factorilor
sezonieri şi reziduali. Introducând şi sezonalitatea în relaţia de calcul yˆ t Tt S t Rt , vom obţine:
360
340
320
300
Vanzari
280
260
240
220
200
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Trimestre
222
7.8 Cuvinte – cheie
Serie cronologică – serie de timp – Sezonalitate.
serie dinamică.
Variaţie reziduală.
Serie cronologică de perioade
Ajustarea unei serii cronologice.
(intervale).
Ajustare (grafică, cu modificarea
Serie cronologică de momente.
medie absolută, cu indicele mediu
Indicator de nivel. de creştere / descreştere).
4. Cum se calculează nivelul mediu în cazul unei serii de intervale şi în cazul unei
serii de momente?
11. Cum se aleg valorile variabilei de timp în cazul seriilor cu un număr par de
termeni?
223
12. Ce criterii se folosesc pentru aprecierea calităţii unei funcţii de ajustare?
7.10 Bibliografie
1. Korka M., Begu S., Tuşa E., Bazele statisticii pentru economişti, Editura Tribuna
Economică, Bucureşti 2002, p. 142-167.
2. Voineagu V., Lilea E., Goschin Z., Vătui M., Boldeanu D., Statistică economică.
Teorie şi practică, Editura Tribuna Economică, Bucureşti 2002, p. 266-299;
224
Capitolul 8: INDICII STATISTICI
8.1 Introducere
Indicii statistici reprezintă un instrument de cunoaştere cu cea mai largă utilizare,
folosit nu numai de specialişti, dar şi de amatori în ale statisticii. Pătrunderea indicilor în
folosinţa cotidiană a omului modern se explică parţial prin faptul că informaţia furnizată de un
indice statistic este foarte concisă şi uşor de înţeles. La aceasta se adaugă şi faptul că există
impresia că oricine se pricepe la calcule aritmetice ştie şi statistică.
Indicii sunt mărimi relative de dinamică sau de coordonare prin parametrul cărora se
măsoară modificarea relativă în timp sau în spaţiu a unei caracteristici observate pe o unitate
statistică, pe un grup de unităţi sau pe întreaga colectivitate studiată. Mai simplu, indicele
este un raport dintre două niveluri ale aceleiaşi caracteristici înregistrate pentru două unităti
de timp sau de spaţiu.
a) exprimă nivelul relativ a unei variabile (Y) şi arată cât reprezintă nivelul analizat
faţă de cel de referinţă;
225
b) servesc ca mijloc de analiză factorială prin care se explică variaţia unei variabile
(Y) în funcţie de modificările intervenite în variabile considerate factori de influenţă
(X şi F, de exemplu). Folosirea indicilor în acest scop presupune ca variabila Y să
rezulte din produsul factorilor, cel puţin unul cantitativ (F) şi unul calitativ (X).
1.a) indici de dinamică sau indici simpli, când se compară nivelul actual (notat cu
1) cu nivelul considerat bază de comparaţie (notat cu 0), cum ar fi, spre
exemplu, vânzările unei firme din trimestrul II faţă de trimestrul I sau faţă de
trimestrul II al anului anterior;
2.a) indici individuali sau indici elementari ( i ), când nivelul caracteristicii se referă
la un singur element al colectivităţii. Corespunzător celor trei variabile
menţionate mai sus, se pot calcula trei indici elementari:
y1 f f x
i1y/ 0 ; i1 / 0 1 ; i1x/ 0 1 (8.1)
y0 f0 x0
x1 f1 x f
i1y/ 0 i1x/ 0 i1f/ 0 1 1 (8.2)
x0 f 0 x0 f 0
identitatea;
circularitatea;
reversibilitatea.
226
Circularitatea semnifică faptul că indicele elementar îşi păstrează valoarea
indiferent de calea de calcul aleasă. Astfel, dacă se cunoaşte indicele
perioadei t faţă de o perioadă de bază 0 şi, de asemenea, indicele perioadei t’
faţă de aceeaşi perioadă de bază 0, se poate calcula indicele perioadei t’ faţă
de perioada t:
yt
i y0 yt
it / t ' t/0 (8.3)
it ' / 0 yt ' yt '
y0
1 1 y0
i0 / t (8.4)
it / 0 yt yt
y0
Indicii elementari de preţ arată raportul dintre preţul unei perioade t faţă de
perioada de bază 0.
pt
i( p) t / 0 100 (8.5)
p0
Indicii elementari de cantităţi arată raportul dintre două cantităţi sau volume
din două perioade – cea curentă şi cea de bază.
qt
i(q ) t / 0 100 (8.6)
q0
vt p q p q
i (v ) t / 0 100 t t 100 t t 100 (8.7)
v0 p0 q0 p0 q0
2.b) indici de grup sau indici sintetici ( I ), când în comparaţie se implică nivelul
caracteristicii aferent tuturor unităţilor. Aceşti indici sintetizează variaţia
227
medie a caracteristicii studiate. Corespunzător celor trei variabile menţionate
se poate calcula câte un indice de grup: I y ; I x ; I f .
I y Ix I f (8.8)
Alegerea uneia sau alteia din modalităţile de construire a indicilor de grup depinde de
obiectivul cunoaşterii, de datele disponibile, de posibilitatea trecerii de la modificarea relativă
(Ι) la modificarea absolută (∆), de natura unităţilor care compun colectivitatea studiată.
228
8.3 Probleme metodologice privind construirea indicilor de
grup
Pe cât de clare şi expresive sunt informaţiile furnizate de indice, pe atât de complexă
este problema construirii indicilor de grup.
Baza de comparaţie trebuie să fie un nivel al caracteristicii în raport cu care are sens
să se determine modificarea relativă. Aceasta înseamnă să fie un nivel care se înscrie în
tendinţa de evoluţie, deci să fie un nivel normal, nu unul care se abate semnificativ de la
restul valorilor.
Aşa cum s-a menţionat, între valorile variabilei complexe ( y i ) şi factorii de influenţă
( f i şi xi ) există, la nivelul fiecărei unităţi, relaţia y i f i xi . O relaţie similară trebuie să
Iy
y 1
x1 f1
(8.9)
y 0 x0 f0
229
Dacă se pune problema construirii şi calculării indicelui de grup pentru factorul
cantitativ ( I f ) şi / sau pentru factorul calitativ ( I x ), trebuie examinat dacă datele individuale
înregistrate sunt însumabile. Dacă nu sunt însumabile direct, trebuie găsit un element care
permite însumarea (agregarea), denumit pondere.
Ponderea exprimă importanţa cu care intră în calculul indicilor valorile celuilalt factor.
În cazul indicelui construit pentru factorul cantitativ, problema se rezolvă simplu dacă
datele individuale sunt însumabile (număr de salariaţi, produse de acelaşi fel etc)
I f
f 1
(8.10)
f 0
Dacă valorile nu sunt însumabile direct, factorul calitativ are rolul de pondere şi
figurează în numărătorul raportului cu aceeaşi valoare. Indicele de grup este un indice
agregat.
Valorile factorului calitativ nu sunt însumabile direct. Indicele construit pentru astfel de
variabilă foloseşte factorul calitativ drept pondere, şi se prezintă tot ca un indice agregat.
I f
x 0 f1
şi I x
x 1 f0
(8.11)
x 0 f0 x 0 f0
I y ( x, f ) I y ( x) I y ( f ) ,
respectiv:
x 1 f1
x 0 f1
x
1 f0
(8.12)
x 0 f0 x 0 f0 x
0 f0
Indicii de grup de tip Laspeyres calculaţi pe baza termenilor unei serii cronologice,
sunt indici cu baza fixă şi ponderi constante, comparabile şi compară trecutul cu
prezentul.
230
I f
x 1 f1
şi I x
x 1 f1
(8.13)
x 0 f1 x 1 f0
Nici în acest caz produsul indicilor factorilor nu este egal cu indicele variabilei
complexe:
I y ( x , f ) I y ( x ) I y ( f ) , respectiv
x 1 f1
x 1 f1
x 1 f1
(8.14)
x 0 f0 x 0 f1 x 1 f0
Răspunsul la întrebarea « Care din cele două tipuri de indici măsoară mai corect
variaţia intervenită în variabila "x" sau "f "? » este greu de dat. Aceasta datorită
faptului că oricare are avantaje dar şi dezavantaje în raport cu celălalt tip.
În practica statistică se preferă de cele mai multe ori indicele de tip Laspeyres,
opţiune determinată de faptul că determinarea lui reclamă numai cunoaşterea
nivelului din perioada curentă pentru caracteristica pentru care se calculează ( x1
sau f 1 ).
Ix
x 1 f0
x 1 f1
(8.15)
x 0 f0 x 0 f1
şi
If
x 0 f1
x 1 f1
(8.16)
x 0 f0 x 1 f0
Desigur, indicii calculaţi după cele trei variante de ponderare nu conduc la aceleaşi
rezultate datorită ponderilor diferite utilizate.
231
Indicii de grup, a căror calculare se bazează pe suma produselor factorilor (xi şi fi)
poartă denumirea de indici agregaţi (vezi relaţiile 8.11 – 8.13).
Indicele valorii măsoară variaţia valorii producţiei, desfacerilor, exporturilor etc. Dacă
se calculează pentru o singură unitate (produs, marfă etc) se determină indicele individual
( i v ).
v1 q1 p1
iv (8.17)
v0 q 0 p 0
Iv
v 1
q 1 p1
(8.18)
v 0 q 0 p0
Indicele valorii măsoară variaţia relativă a valorii sub influenţa modificărilor intervenite
în volumul fizic ( q ), care este factorul cantitativ şi în nivelul preţului ( p ) care este factorul
calitativ.
v(q, p ) q1 p1 q 0 p 0 (8.19)
q1
iq
q0
Indicele de grup al volumului fizic este un indice de tip Laspeyres, deci preţurile se
folosesc ca ponderi cu nivelul din perioada de bază ( p 0 ).
Iq
q 1 p0
(8.20)
q 0 p0
232
p1
ip
p0
Iq
q 1 p1
(8.22)
q 1 p0
v( p ) q1 p1 q1 p 0 p1 p 0 q1 (8.23)
Din diferite înregistrări special organizate (anchete statistice) se obţin date (valori)
pentru factorul cantitativ din cele două perioade ( f 0 şi f 1 ). Pe baza acestor valori se
Indicele de grup este o medie a indicilor individuali. Forma mediei se alege în funcţie
de datele disponibile.
233
f1
if f1 i f f 0
f0
If
f 1 x0
i f x
f
0 0
(8.24)
f 0 x0 f x0 0
I q
q 1 p0
i q p
q
0 0
(8.25)
q 0 p0 q p 0 0
Pentru fiecare produs (element) se poate calcula câte un indice (individual) care măsoară variaţia
relativă privind valoarea ( i v ), volumul fizic ( i q ) şi preţurile ( i p ). În cazul produsului A, obţinem:
234
A
v 2009 A
q 2009 p 2009
A
220
i Av 100 100 100 110,0%
A
v 2008 q 2008 p 2008
A A
200
q 2A009
i Aq A
100
q 2008
Nu cunoaştem cantităţile vândute în cele două perioade. Dar modificarea procentuală este ritmul
(R), care se obţine scăzând 100 din indice:
i Av 110
i Ap q
100 100 104,8%
iA 105
Pentru celelalte două produse, indicii sunt prezentaţi în tabelul E.8.1, coloanele 4 – 6.
Indicele de grup privind valoarea vânzărilor se calculează ca un indice agregat.
Iv
q .p1 1
2100
100 105%
q .p0 0 2000
ceea ce înseamnă că valoarea vânzărilor a crescut cu 5% sau de 1,05 ori, respectiv cu 100 milioane
lei, pe seama modificării cantităţilor vândute şi a preţurilor.
I q
i q p
q
0 0
1,05 200 0,98 1500 1,10 300 2010
1,005 sau 100,5%.
q p 0 0 2000 2000
Interpretare: Datorită creşterii numai a cantităţilor vândute, valoarea vânzărilor trebuie să fie cu
0,5% mai mare decât în perioada de bază. Creşterea absolută a valorii vânzărilor pe seama acestui
factor trebuie să fie de 10 milioane lei.
I v 1,050
Iv Iq I p I p 1,045 ori sau 104,5%.
I q 1,005
Interpretare: Preţurile produselor vândute au fost în medie cu 4,5% mai mari decât în aceeaşi
lună a anului 2008 sau valoarea desfacerilor trebuie să crească numai datorită creşterii preţurilor
cu 4,5%, respectiv cu 90 milioane lei.
235
În cazul indicelui factorului calitativ, forma agregată se transformă într-un indice
calculat ca o medie armonică a indicilor individuali:
x1 1
ix x0 x x1
x0 i
1
Dacă se înlocuieşte în relaţia indicelui agregat x0 cu expresia „ x1 ” rezultă:
ix
Ix
x 1 f1
x f 1 1
(8.26)
x 0 f1 1
i x f
x 1 1
Ip
p 1 q1
p q 1 1
(8.27)
p 0 q1 1
i p q
p 1 1
Din relaţiile (8.25) şi (8.27) rezultă faptul că indicele factorului cantitativ se calculează
folosind drept pondere valoarea fenomenului complex din perioada de bază, iar indicele
factorului calitativ se construieşte pe baza valorilor variabilei complexe din perioada curentă.
Se procedează astfel dacă indicele preţurilor se încadrează într-un sistem de genul
Iv Iq I p.
Dacă indicele preţurilor se calculează ca un indice independent, deci fără încadrarea
lui într-un sistem de indici, acesta se determină după regula Laspeyres, deci ca o medie
aritmetică a indicilor individuali:
I p
i q p
p
0 0
(8.28)
q p 0 0
236
Exemplul 8.2. – Calculul indicelui preţurilor
Să presupunem că o companie vinde două produse, al căror volum de vânzări este cunoscut
pentru aceeaşi lună (iunie) din ultimii doi ani (2008 şi 2009). Cunoaştem, de asemenea, care a fost
modificarea individuală a preţurilor din aceleaşi perioade. Să presupunem că dorim să aflăm care
este modificarea generală a preţurilor din luna iunie 2009 faţă de luna iunie 2008.
Tabelul E.8.2.1 – Volumul vânzărilor şi modificarea preţurilor produselor vândute de compania X
Volumul desfacerilor (mil. lei) Modificarea
preţurilor în iunie
Produsul
Iunie 2008 Iunie 2009 2009/iunie 2008
(%)
A 400 480 +12
B 100 110 -2
Total 500 590
Din ultima coloană observăm că preţul produsului A s-a modificat cu +12%, iar cel al produsului
B cu -2%.
Pentru fiecare produs în parte se poate analiza, pe baza indicilor individuali, modificarea relativă
intervenită în volumul desfacerilor, în preţurile şi în cantităţile vândute. Dacă interesează
modificarea relativă a preţurilor la nivelul companiei se calculează indicele de grup.
Ip
p 1 q1
p q1 1
590
590
1,091 ori sau
p 0 q1 1
i p q
p 1 1
1
480
1
110
540,82
1,12 0,98
I p 109,1%
Aşadar, preţurile celor două produse au crescut în medie de 1,091 ori sau cu 9,1%. Din sporul
total al volumului vânzărilor de 90 milioane lei, 49,18 milioane lei este efectul creşterii preţurilor.
Indicele calculat ca raport a două medii evidenţiază variaţia relativă în timp a mediei
în perioada curentă faţă de perioada de bază.
237
Ix
x1
x n : x n
1i 1i 0i 0i
x n n
1i 1i 0i
(8.29)
x0 n n 1i 0i n x n 1i 0i 0i
n1i n0i
b) modificarea structurii colectivităţii
n1i n 0i
Salariul mediu din economie, de exemplu, poate creşte dacă cresc salariile
salariaţiilor, dar şi dacă aceste salarii rămân neschimbate însă creşte proporţia salariaţilor
care au avut salarii mai mari în perioada de bază.
Indicele raportului a două medii în care toţi factorii de influenţă implicaţi sunt variabili,
x xi , i
n
Modificarea absolută a mediei sub influenţa tuturor factorilor care apar în relaţia de
calcul se obţine ca diferenţa dintre numărătorul şi numitorul indicelui.
x n 1i 1i
x n 0i 0i
(8.30)
x xi , i
n
ni n 1i n 0i
Indicele factorului calitativ (x) este un indice de tip Paasche, deci ponderile
sunt cele din perioada curentă.
x ( xi )
I SF
x n : x n
1 1 0 1
(8.31)
n n 1 1
Acest indice măsoară care ar fi fost variaţia relativă a mediei dacă s-ar fi modificat
numai valorile caracteristicii la nivelul unităţilor şi structura colectivităţii ar fi fost
cea din perioada curentă. Este indicele mediei cu structură fixă ( I SF ).
x ( xi )
x n x n
1 1 0 1
(8.32)
n n 1 1
ni
n
Indicele factorului cantitativ ( ) se calculează ca indice de tip Laspeyres.
i
Exprimă care ar fi fost variaţia relativă a mediei dacă s-ar fi modificat numai
structura colectivităţii (indicele variaţiei structurii - I VS ):
x(
I VS
ni
ni
)
x n : x n 0 1 0 0
(8.33)
n n 1 0
238
Modificarea absolută a mediei datorată influenţei factorului de structură se
calculează prin relaţia:
x n x n
0 1 0 0
(8.34)
n n
ni
x( )
ni 1 0
respectiv:
x ( xi ) (8.36)
x xi ,
ni ni
ni
x( )
ni
Salariul mediu este raportul dintre fondul de salarii (F) şi numărul de salariaţi (N).
La nivelul fiecărui agent economic şi pentru fiecare perioadă, salariul mediu ( S ti ) se obţine prin
împărţirea fondului de salarii ( Fti ) la numărul salariaţilor ( N ti ). Rezultatele sunt prezentate în
tabelul E.8.3.1, în coloanele 5 şi 6.
La nivelul celor doi agenţi economici, salariul mediu rezultă din expresia:
2 2
Fti S ti N ti
St i 1
2
i 1
2
, deoarece Fti S ti N ti .
N
i 1
ti N
i 1
ti
110
S0 3,667 mii lei.
30
239
184
S1 4,842 mii lei.
38
Salariul mediu a crescut de 1,3204 ori sau, în procente, cu 32,04%.
2 2
S F1i F 0i
4,842
I 1
S i 1
2
: i 1
2
1,3204
N N
S0 3,667
1i 0i
i 1 i 1
Creşterea salariului mediu la nivelul celor două companii (întreprinderi) cu 32,1% sau, în cifre
absolute, cu 1,175 mii lei, se poate analiza în funcţie de modificările intervenite în salariul mediu la
nivelul fiecărui agent economic ( S i ) şi în funcţie de mutaţiile care au avut loc în structura
Ni
angajaţilor ( )
N i
I
S Si , i
N i S1 S N : S N
1i 1i 0i 0i
4,842
1,3204 ori
N N
SV
S0 1i 0i 3,667
Indicele salariului mediu cu structură fixă:
S S i
I SF
S N : S N
1i 1i 0i 1i
184 140
: 1,314 ori
N N 1i 1i 38 38
Interpretare: Salariul mediu pe total ar fi sporit cu 31,4% dacă s-ar fi modificat numai salariul
mediu la nivelul fiecărui agent economic.
Modificarea absolută determinată de influenţa acestui factor este de +1,158 mii lei:
SSFSi
S N 1i 1i
S N 0i 1i
184 140
1,1579 mii lei.
N 1i N 1i 38 38
I
S i
N i
S N : S N
0i 1i 0i 0i
140 110
: 3,684 : 3,667 1,0047 ori
N N
VS
1i 0i 38 30
N
S i
N i
S N 0i 1i
S N 0i 0i
140 110
3,684 3,667 0,0175 mii lei
N N
VS
1i 0i 38 30
240
Interpretare: Salariul mediu pe total trebuia să crească cu 0,47% sau, în cifre absolute, cu 0,018
mii lei, dacă s-ar fi modificat numai structura salariaţilor, iar salariile la nivelul fiecărui agent
economic ar fi rămas la nivelul lunii iunie 2008.
Influenţa pozitivă a variaţiei structurii asupra salariului mediu se explică prin faptul că a crescut
importanţa componentei B în totalul salariaţilor, de la 66,7% în iunie 2008 la 68,4% în luna iunie
2009, companie în care şi salariul mediu este mai mare. Deci salariile mai mari intră cu o pondere
mai mare în calculul mediei.
In final, să verificăm identităţile din relaţiile [8.35] şi [8.36]:
N N
S Si , i S i
I
N i S S i
I SF I
N i
1,3204 1,3143 1,0047
SV VS
b) metoda influenţelor izolate ale factorilor (MIIF) sau metoda restului nedescompus
(MRN).
241
Metoda substituţiei în lanţ presupune o anumită succesiune în modificarea
factorilor, şi anume:
i. mai întâi se modifică factorul cantitativ (se substituie f 0 cu f1 ), toţi ceilalţi factori
rămân la nivelul din perioada de bază;
iii. ultimul factor care se modifică (se substituie) este cel calitativ.
I y( f )
x 0 f1
(8.37)
x 0 f0
y ( f ) x0 f1 x0 f 0 (8.38)
I y( x)
x 1 f1
(8.39)
x 0 f1
y ( x ) x1 f1 x 0 f 1 (8.40)
I y ( x, f )
x 1 f1
I y( x) I y( f ) (8.41)
x 0 f0
respectiv:
y ( x , f ) x1 f 1 x0 f 0 y ( x ) y ( f ) (8.42)
242
Factorii de influenţă care pot fi implicaţi în această analiză sunt, conform datelor din
tabelul E.8.3.1, numărul de salariaţi, (factorul calitativ N i ) şi salariul mediu ( S i ).
I F ( N ,S )
N 1 S1
12 4,5 26 5,0 184
1,673 ori sau +67,3%
N 0 S0 10 3,0 20 4,0 110
Fondul de salarii a sporit cu 67,3%, ceea ce înseamnă +74 mii lei la fondul de
salarii, în mărime absolută.
I F(N)
N 1 S0
12 3,0 26 4,0 140
1,273 ori sau 127,3%
N 0 S0 10 3,0 20 4,0 110
şi:
Dacă ar fi crescut numai numărul salariaţilor, fondul de salarii trebuia să fie mai
mare cu 27,3%, respectiv cu 30 milioane lei.
I F (S )
N 1 S1
12 4,5 26 5,0 184
1,314 ori sau 131,4%
N 1 S0 12 3,0 26 4,0 140
şi
Metoda influenţelor izolate ale factorilor (MIIF) sau metoda restului nedescompus
(MRN) ) presupune că fiecare factor acţionează independent. Aceasta înseamnă că influenţa
fiecărui factor se calculează pornind de la presupunerea că toţi ceilalţi factori rămân la
nivelul perioadei de bază.
243
în prima etapă se calculează influenţele izolate ale factorilor. Se construiesc indici
factoriali sau se determină modificările absolute folosind aceeaşi regulă de
alegere a ponderilor (Laspeyres);
I y( f )
x 0 f1
(8.43)
x 0 f0
şi
y ( f ) x0 f 1 x0 f 0 f x0 (8.44)
I y( x)
x 1 f0
(8.45)
x 0 f0
respectiv
y ( x ) x1 f 0 x0 f 0 x f 0 (8.46)
De remarcat faptul că, prin această metodă, nivelul factorului cantitativ folosit la
estimarea influenţei factorului calitativ este cel din perioada de bază, spre
deosebire de metoda substituţiei în lanţ.
I y ( x f )
x 1 f1
:
x 1 f0
(8.47)
x 0 f1 x 0 f0
respectiv:
I y ( x , f ) I y ( f ) I y ( x ) I y ( x f ) (8.49)
y ( x , f ) y ( f ) y ( x ) y ( x f ) (8.50)
Aşa cum s-a menţionat, specific metodei indicilor este faptul că variaţia variabilei
complexe se descompune în totalitate pe factorii de influenţă implicaţi în analiză. În situaţia a
doi factori de influenţă, restul nedescompus trebuie repartizat pe cei doi factori de influenţă.
244
În legătură cu proporţia în care se repartizează restul nedescompus pe factori de
influenţă, există următoarele posibilităţi:
kf
f x 0
(8.51)
f x x f
0 0
şi:
kx
x f 0
(8.52)
f x x f
0 0
y ( x ) x f 0 k x x y (8.53)
y ( f ) f x0 k f x y (8.54)
Desigur, fiecare din cele două metode de descompunere are o serie de avantaje şi
limite. Dezavantajele se amplifică în cazul ambelor procedee, odată cu creşterea numărului
factorilor de influenţă. În cazul MSL este necesar să se separe factorii de influenţă după
natura lor, iar în cazul MIIF creşte numărul resturilor nedescompuse care trebuie repartizate
pe factori de influenţă.
I F ( N ,S )
N 1 S1
184
1,673 ori sau +67,3%
N 0 S0 110
şi:
F ( N , S ) N 1 S1 N 0 S 0 74 mii lei
I F(N)
N 1 S0
140
1,273 ori sau 127,3%
N 0 S0 110
şi:
245
F ( N ) N 1 S 0 N 0 S 0 30 mii lei
I F (S )
N 0 S1
145
1,318 ori sau 131,8%
N 0 S0 140
şi
F ( S ) N 0 S1 N 0 S 0 35 mii lei.
I F (S N )
N 1 S1
:
N 0 S1
184 145
: 0,997 ori sau 99,7%.
N 1 S0 N 0 S0 140 140
şi:
F ( S N ) N 1 S1 N 1 S 0 N 0 S1 N 0 S 0
184 140 145 110 9 mii lei
Cota parte din restul nedescompus care se atribuie influenţei numărului
salariaţilor:
F ( N ) 30
kN 0,462
F ( N ) F ( S ) 30 35
Cota parte din restul nedescompus care se atribuie influenţei salariului mediu:
F ( S ) 35
kS 0,538
F ( N ) F ( S ) 30 35
246
Influenţa totală a salariului mediu:
Însumarea celor două influenţe este egală cu 74 mii lei, adică diferenţa fondurilor de
salarii din cele perioade. Aşadar, creşterea fondului de salarii cu 67,3%, respectiv cu 74 mii
lei a fost determinată în proportie de 53,8% de sporirea salariilor medii la nivelul agenţilor
economici şi în proporţie de 46,2% de creşterea numărului salariaţilor.
cu bază fixă :
xt
itx/ 0 , t 1, n (8.55)
x0
cu bază în lanţ :
xt
itx/ t 1 , t 1, n (8.56)
xt 1
Dacă toţi indicii care compun seria au aceeaşi pondere, se dispune de o serie de
indici cu ponderi constante. Dacă ponderea diferă de la un indice la altul se dispune de o
serie de indici cu ponderi variabile.
Din combinarea bazei de comparaţie cu ponderea utilizată se pot construi patru tipuri
de serii cronologice de indici de grup.
If
x 0 ft
, respectiv I x
x t f0
, t 1, n (8.57)
x 0 f0 x 0 f0
Iq
q t p0
q 1 p0
;
q 2 p0
,.....,
q n p0
q 0 p0 q 0 p0 q 0 p0 q 0 p0
247
După această regulă se construieşte şi indicele preţurilor de consum (IPC) sau
indicele preţurilor producţiei industriale (IPPI):
IPC
p t q0
p 0 q0
După cum se poate observa, ponderile sunt din perioada de bază. Ponderile
respective sunt date de ponderea cheltuielilor medii ale gospodăriilor din România pentru
diferite categorii de produse şi servicii dintr-un an anterior. De regulă, decalajul dintre
perioada ponderilor este de doi ani faţă de anul pentru care se calculează IPC. În unele ţări
se procedează la „glisarea” anului, astfel încât decalajul să fie cât mai mic.
Baza de comparaţie a IPC-ului cu baza fixă este fie luna decembrie din anul
precedent, fie aceeaşi lună a anului anterior. Fiiind un indice cu bază fixă şi ponderi
constante, se poate construi cu uşurinţă seria indicilor cu bază în lanţ.
If
x f 0 t
, respectiv I x
x t f0
, t 1, n (8.58)
x f0 t 1 x t 1 f0
Astfel de serii de indici se construiesc în practică pentru caracterizarea dinamicii
volumului fizic şi al preţurilor în luna curentă faţă de luna precedentă.
IPC
p t q0
p 1 q0
,
p 2 q0
,....,
p n q0
p t 1 q0 p 0 q0 p 1 q0 p n 1 q0
Produsul indicilor cu baza în lanţ şi cu ponderi constante care compun seria conduce
la un indice cu bază fixă:
p
n q0 p q0
p
t t
t 1 t 1 q0 p 0 q0
Această proprietate a indicilor stă la baza înlănţuirii indicilor.
If
x f t t
, respectiv I x
x t ft
, t 1, n (8.59)
x ft t 1 x t 1 ft
Produsul indicilor unei astfel de serii nu conduce la un indice cu bază fixă.
If
x t ft
, respectiv I x
x t ft
, t 1, n (8.60)
x t f0 x 0 ft
Asemenea serii se construiesc pentru indicii preţurilor utilizaţi la deflatarea
agregatelor valorice de producţie (producţia industrială, produsul intern brut etc).
248
8.8 Cuvinte cheie
Indice = indice statistic Indice individual = indice elementar
3. Care este deosebirea dintre un indice de grup de tip Laspeyres şi de tip Paasche
?
249
12. Când produsul unei serii cronologice de indici cu bază în lanţ este egal cu indicele
cu bază fixă ?
8.10 Bibliografie
1. Biji E., Wagner P., Lilea E., Petcu N., Vătui V. – Statistică, Editura Didactică şi
Pedagogică, Bucureşti, 1999, p. 322-372
2. Korka M., Begu L., Tuşa E. – Bazele statisticii pentru economişti, Editura Tribuna
Economică, Bucureşti, 2002, p. 197-222
250
Index alfabetic
Aplatizare probabilitatea, 13
251
Frecvenţe cumulate, 79 Indicatorii statistici
histograma, 53 mediana, 94
ogivă, 52 modul, 98
252
proprietăţi, 226 coeficientul de corelaţie a rangurilor Kendall,
190
serie cronologică cu bază fixă, 247
coeficientul de corelaţie a rangurilor
serie cronologică cu bază fixă şi ponderi
Spearman, 189
constante, 247
Non-răspuns, 24
serie cronologică cu bază fixă şi ponderi
variabile, 248 Observare statistică directă
253
extrapolare prin metode analitice, 220 gruparea simplă, 36
valoarea absolută a unui procent din ritmul parametrii colectivităţii generale, 164
de creştere/descreştere, 199
plan de sondaj, 135
variaţia reziduală, 204
probabilitate, 137
Serie statistică
procedeul loteriei, 139
cronologică (dinamică, de timp), 43
procedeul tabelului cu numere
de repartiţie (distribuţie), 43 întâmplătoare, 140
254
sondaj în trepte, 159 Tabele statistice
255