Documente Academic
Documente Profesional
Documente Cultură
Sistematizarea, Prezentarea Şi Reprezentarea Datelor Statistice
Sistematizarea, Prezentarea Şi Reprezentarea Datelor Statistice
Cuprins:
1
2. Sistematizarea datelor statistice (gruparea/clasificarea).
Am văzut că statistica operează cu volume mari de date. Dacă aceste date sunt
prezentate într-o formă aleatoare neregulată, este dificil, investigând vizual setul de date, să-l
caracterizăm prin trăsăturile sale esenţiale, prin valorile extreme, tendinţa centrală sau gradul
de dispersare. De aceea, putem întâi supune setul de date unor operaţii de prezentare
sistematică, de organizare, de ordonare a acestor date după unul sau mai multe criterii, într-
un cuvânt de sistematizare.
Această operaţie face trecerea de la observarea statistică (în urma căreia s-au obţinut
datele necesare realizării obiectivelor investigaţiei statistice, verificate sub aspectul volumului
şi calităţii) şi prelucrarea propriuzisă.
Sistematizarea este parte a prelucrării primare a datelor statistice.
Sistematizarea datelor se realizează prin gruparea şi clasificarea datelor statistice.
Atunci când criteriul (caracteristica) după care se realizează această operaţie este unul
numeric, cantitativ, ea se numeşte grupare, iar când operaţia se realizează după un criteriu
(caracteristic) calitativ, nenumeric, ea se numeşte clasificare.
La realizarea unei grupări/clasificări, trebuie, pe cât posibil, să îndeplinim următoarele
condiţii:
a) omogenitate (în sensul că unităţile statistice care au aceeaşi valoare sau valori
apropiate, asemănătoare, ale caracteristicii după care se efectuează sistematizarea vor
fi incluse în aceeaşi clasă; în felul acesta, se doreşte ca variaţia valorilor caracteristicii
incluse în aceeaşi grupă/clasă să fie cât mai mică);
b) unicitate (în sensul că o unitate statistică trebuie inclusă într-o singură clasă sau grupă,
ea nu se poate regăsi simultan în două sau mai multe clase/grupe);
c) completitudine (în sensul că toate unităţile statistice să fie incluse în grupe/clase, să nu
fie exclusă vreo unitate din operaţia de sistematizare).
2
Sunt cazuri în care nu este posibilă îndeplinirea simultană a tuturor acestor condiţii (de
exemplu: dacă sunt unităţi la care s-au înregistrat valori extreme, aberante, ale caracteristicii
după care se face sistematizarea, este de dorit, uneori, să se evidenţieze separat aceste cazuri,
să se scoată în afara grupării aceste unităţi şi să se sistematizeze restul unităţilor, la care s-au
înregistrat valori mai apropiate ale variabilei).
☺ Exemplul 1
Distribuţia absolvenţilor unei facultăţi economice după domeniul în care s-au angajat este:
Dacă datele se referă la variabile ordinale, clasele vor respecta criteriul de ordine:
☺ Exemplul 2
Distribuţia studenţilor unei grupe după calificativul obţinut la un proiect este :
3
Foarte bine 6
Excelent 2
Total 30
- pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja
valorilor pe care le poate lua caracteristica nu este foarte mare);
☺ Exemplul 3
Pentru 20 de familii s-a înregistrat numărul de copii: 1, 2, 3, 0, 2, 0, 1, 2, 1, 3, 2, 2, 0, 2, 1, 3,
1, 2, 4, 2. Să se realiezeze o sistematizare a datelor.
4
Se poate efectua pe intervale de mărime egală sau diferită. În continuare vom trata
numai cazul grupării datelor statistice pe intervale egale de variaţie.
Pentru realizarea grupării pe intervale egale de variaţie se recomandă parcurgerea
următorilor paşi:
a) se determină amplitudinea variaţiei caracteristicii, ca diferenţă între valoarea
maximă şi valoarea minimă a caracteristicii.
A=x max −x min
b) se stabileşte numărul de grupe. În acest caz pot exista două situaţii:
- numărul de grupe (r) este prestabilit, pe baza experienţei căpătate din studii anterioare
asupra domeniului de interes.
- numărul de grupe (r) nu este prestabilit; în acest caz, dacă unităţile se repartizează
aproximati normal după caracteristica studiată, se poate utiliza pentru determinarea
numărul de grupe relaţia lui Sturges:
r=1+3 ,322⋅lg n
unde n este numărul total de unităţi ale colectivităţii.
Este recomandat a se folosi un număr potrivit de grupe (de regulă între 4 şi 10).
Utilizarea unui număr prea mare de grupe ar duce la fărâmiţarea excesivă a colectivităţii
(putând apare, în acest caz şi grupe cu frecvenţe nule, iar gruparea ar trebui refăcută);
utilizarea, dimpotrivă, a unui număr prea mic de grupe ar putea să nu pună în evidenţă
principalele tipuri calitative ale populaţiei după variabila urmărită).
c) se determină mărimea intervalului de grupare (h), ca raport între amplitudinea
caracteristicii şi numărul de grupe:
A
h=
r
Pentru uşurarea calculelor, se recomandă a se folosi mărimi rotunjite de interval, de
aceea, dacă valoarea reieşită din calcul este fracţionară, cu mai multe zecimale, ea se poate
rotunji prin adaos la o valoare imediat superioară, aleasă în mod convenabil.
De exemplu: dacă h = 4,4225, se poate rotunji valoarea la h = 4,5 sau chiar la h = 5.
d) se formează intervalele de grupare, prin precizarea limitelor exacte ale acestora.
xmin xmin+h
xmin+h xmin+2h
.....................................................
xmin + (r — 1).h xmin + r h
5
Limitele intervalelor vor avea acelaşi grad de precizie ca şi datele grupate (acelaşi
număr de zecimale), primul interval putând începe chiar de la valoarea minimă a
caracteristicii, sau de la o valoare uşor inferioară acesteia, aleasă în mod convenabil. Este bine
să nu existe suprapuneri de limite, astfel încât la efectuarea grupării să poată fi respectată
condiţia de unicitate.
- Dacă limita superioară a unui interval coincide cu limita inferioară a intervalului
următor, intervalele se numesc continue;
- Dacă între limita superioară a unui interval şi limita inferioară a intervalului următor
există o diferenţă de o unitate întreagă sau zecimală, intervalele se numesc discontinue
sau discrete.
Rezultatele sistematizării pot fi redate cu ajutorul unui tabel asemănător celui din
exemplul următor.
☺ Exemplul 4
În vederea analizei oportunităţii deschiderii unui magazin ce vinde aparatură
electrocasnică, un analist financiar este interesat în cunoaşterea nivelului vânzărilor zilnice ale
magazinelor de profil. Pentru 50 de astfel de magazine alese întâmplător, înregistrează
valoarea facturilor emise zilnic. Datele sunt următoarele (mii lei):
6
Varianta I Varianta II
Intervale de variaţie a valorii Nr. Intervale de variaţie a valorii Nr.
facturilor emise zilnic (mii lei) magazine facturilor emise zilnic (mii lei) magazine
(ni) (ni)
5,0 – 6,0 4 5,0 – 6,0 5
6,0 – 7,0 9 6,0 – 7,0 8
7,0 – 8,0 11 7,0 – 8,0 13
8,0 – 9,0 9 8,0 – 9,0 8
9,0 – 10,0 8 9,0 – 10,0 7
10,0 – 11,0 5 10,0 – 11,0 5
11,0 - 12,0 4 11,0 - 12,0 4
Total 50 Total 50
Notă: limita inferioară inclusă în interval. Notă: limita superioară inclusă în interval.
Varianta III
Intervale de variaţie a valorii facturilor emise Nr. magazine
zilnic (mii lei) (ni)
5,0 – 5,9 4
6,0 – 6,9 9
7,0 – 7,9 11
8,0 – 8,9 9
9,0 – 9,9 8
10,0 – 10,9 5
11,0 – 11,9 4
Total 50
Notă: intervale discontinue.
Se recomandă utilizarea intervalelor continue (varianta I sau varianta II).
Seria statistică reprezintă un mod organizat de prezentare a datelor, sub forma a două
şiruri: primul se referă la criteriul de sistematizare iar al doilea cuprinde datele
numerice sau frecvenţele de apariţie şi depinde de ordinea de apariţie din primul şir.
7
iii. serii de distribuţie de frecvenţe (sau repartiţii de frecvenţe, care se referă la o
variabilă atributivă).
X :¿ (
x 1 x 2 ... x i ... x r ¿ ) ¿
¿
¿ ,
8
- pentru o caracteristică continuă (repartiţie de frecvenţe pe intervale de valori):
X :¿ ( x1
inf
<X < xsup
1 x 2inf <X <x sup
2 ... x iinf <X <x sup
i r <X <x r ¿ ) ¿ ¿
... x inf sup
¿
sau
X :¿ (
x 1 x 2 ... x i ... x r ¿ ) ¿
¿
¿
unde xi , i=1,r sunt centrele intervelor de variaţie.
Serii de repartiţie de frecvenţe pe intervale de variaţie
Se prezintă sub forma:
Intervale de variaţie ale caracteristicii de grupare Număr de unităţi statistice (ni)
x inf sup n1
1 −x 1
x inf sup n2
2 −x 2
... ...
x inf sup ni
i −x i
... ...
x inf sup nr
r −x r
r
Total n=∑ ni
i=1
¿
n
Frecvenţa relativă a unei grupe ( i ) reprezintă ponderea unităţilor statistice în
volumul total al colectivităţii care au valoarea caracteristicii cuprinsă între limita inferioară şi
9
cea superioară a grupei respective. Se determină ca raport între frecvenţa absolută a grupei şi
volumul eşantionului (eventual înmulţit cu 100).
ni ni
n¿i = r
=
n
∑ ni
i=1 şi se exprimă în coeficienţi,
sau
ni n
n¿i %= r
⋅100= i⋅100
n
∑ ni
i =1 şi se exprimă în procente.
Suma frecvenţelor relative este 1 sau 100, după cum sunt exprimate în coeficienţi sau
în procente.
r r
∑ ni =1 ¿
∑ n¿i% =100
i=1 sau i=1
Frecvenţele cumulate.
Sunt de două tipuri: cumulate crescător şi cumulate descrescător.
Frecvenţa absolută cumulată crescător a unei grupe este egală cu numărul unităţilor
care au valoarea variabilei mai mică (sau egală) cu limita superioară a grupei (mai exact între
sup
x inf
1 şi x i ).
i
Fci = ∑ n k
k =1
Frecvenţa absolută cumulată crescător a ultimei grupe este egală cu volumul colectivităţii (cu
n).
Frecvenţa absolută cumulată descrescător a unei grupe este egală cu numărul
unităţilor pentru care valoarea caracteristicii este mai mare (sau egală) cu limita inferioară a
sup inf
grupei (mai exact între x i şi x r ):
r
Fd i=∑ n k
k =i
Frecvenţa absolută cumulată descrescător a primei grupe este egală cu numărul total de unităţi
statistice (cu n):
Asemănător se determină şi frecvenţele relative cumulate crescător şi descrescător,
conform relaţiilor:
10
i r
Fci = ∑ n k
¿ ¿
Fd i =∑ n¿k
¿
k =1 , k=i
☺ Exemplu 5
Pentrul datele din exemplul 4 (varianta I) s-au determinat: frecvenţele absolute,
frecvenţele relative, centrele de interval şi frecvenţele absolute cumulate:
unde: ni reprezintă numărul unităţilor care prezintă valoarea xi a caracteristicii de grupare (se
mai numesc frecvenţe absolute);
Prin însumarea frecvenţelor grupelor (ni) se obţine volumul total al colectivităţii (n).
Şi pentru această serie se determină toate tipurile de frecvenţe prezentate anterior.
☺ Exemplul 6
11
Pentrul situaţia din exemplul 3 s-au determinat: frecvenţele absolute, frecvenţele relative,
şi frecvenţele absolute cumulate:
☺ Exemplul 7
Pentrul clasificarea din exemplul 2 s-au determinat: frecvenţele absolute, frecvenţele
relative, şi frecvenţele absolute cumulate:
12
Distribuţia de frecvenţe bidimensională
Variante sau centre de Variante sau centre de interval pt. variabila Y Total
interval pt. variabila X y1 y2 ... yj ... yp unităţi
x1 n11 n12 ... n1j ... n1p n1.
x2 n21 n22 ... n2j ... n2p n2.
... ... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... nip ni.
... ... ... ... ... ... ... ...
xr nr1 nr2 ... nrj ... nrp nr.
Total unităţi n.1 n.2 ... n.j ... n.p n..
x i, i=1,r este varianta sau centrul de interval pentru grupa „i”, formată după valorile
variabilei X;
y j, j=1, p este varianta sau centrul de interval al grupei „j”, formată după valorile variabilei
Y;
nij, i=1,r ; j=1, p reprezintă numărul unităţilor statistice la care întâlnim simultan valoarea xi
a caracteristicii X şi valoarea yj a caracteristicii Y;
p
ni .=∑ nij
j=1 este numărul de unităţi statistice care au valoarea xi a caracteristicii X, indiferent
de valoarea caracteristicii Y;
r
n. j=∑ nij
i=1 este numărul de unităţi statistice care au valoarea yj a caracteristicii Y, indiferent
de valoarea caracteristicii X;
r p r p
n . .=n=∑ ∑ n ij=∑ n i.=∑ n. j
i=1 j=1 i=1 j=1 este volumul total al colectivităţii.
☺ Exersaţi în … Excel
Nivelul profitului anual (mii RON) pentru 50 de firme producătoare de mobilă este:
62 90 91 93 95
82 99 102 105 110
89 123 133 145 164
97 65 72 76 79
114 84 86 87 89
63 91 92 94 96
83 101 104 107 113
119 132 134 146 174
64 69 74 77 98
13
84 85 86 88 102
Să se sistematizeze datele pe 7 intervale egale de variaţie şi să se reprezinte grafic, folosind metodele
statistice implementate în Excel.
Se obţin rezultatele:
Bin Frequency
78 9
94 18
110 12
126 4
142 3
158 2
174 2
14
Testul de autoevaluare nr. 1.
15
a) numărul unităţilor statistice din grupa respectivă;
b) ponderea unităţilor statistice din grupa respectivă în total colectivitate;
c) 100%;
d) numărul total de unităţi statistice din colectivitate;
e) 1,00.
Aşa cum am arătat, alături de grafice, şi tabelele statistice joacă un rol important în
prezentarea dateor, căci ele pot releva anumite aspecte pe care graficele nu le pot pune în
valoare. În unele situaţii, este mai importantă prezentarea valorilor numerice ale datelor, decât
o vizualizare grafică a acestora. În felul acesta, tabelele reprezintă un instrument
complementar graficelor, de prezentare rapidă şi eficientă a datelor, dar şi de sistematizare a
acestora.
Tabelul statistic cuprinde una sau mai multe serii statistice, ai căror termeni sunt înscrişi
într-o reţea de linii şi coloane.
Pentru ca un tabel statistic să fie corect elaborat şi să-şi atingă scopul, trebuie să
conţină un set de elemente obligatorii sau opţionale şi să respecte unele reguli:
- titlul tabelului este un element obligatoriu plasat înaintea tabelului, care descrie clar şi
concis conţinutul datelor pe care le cuprinde;
- macheta tabelului este o reţea de linii ce alcătuiesc rubricile tabelului;
- subiectul tabelului este format din populaţia la care se referă datele înscrise în tabel;
- predicatul tabelului este format din sistemul de indicatori redaţi în tabel;
- rubricile tabelului sunt spaţiile create la întretăierea liniilor orizontale cu cele verticale,
în care sunt înscrise datele;
- datele statistice înscrise în tabel pot fi sub formă numerică sau textuală;
- unitatea de măsură trebuie precizată pentru fiecare din indicatorii înscrişi în tabel; dacă
toţi sunt exprimaţi în aceeaşi unitate de măsură, atunci aceasta se poate trece deasupra
tabelului;
- sursa datelor;
- numărul tabelului – este necesar mai ales atunci când se folosesc mai multe tabele,
pentru identificarea lor;
- note explicative, metodologice
16
3.3. Grafice statistice.
1. Histograma:
Histograma conţine o succesiune de dreptunghiuri, cu bazele corespunzătoare lungimii
in-tervalelor şi înălţimile egale cu numărul de observaţii din fiecare interval (sau cu ponderea
lor). Dacă intervalele au mărime egală, atunci şi coloanele vor avea lăţime egală.
Permite vizualizarea distribuţiei de frecvenţe absolute sau relative, după o variabilă
numerică continuă (pe intervale).
2. Poligonul frecvenţelor:
Poligonul frecvenţelor este şi el utilizat pentru reprezentarea grafică a distribuţiilor de
frecvenţe absolute sau relative, atunci când sistematizarea datelor s-a făcut după o
caracteristică numerică continuă sau discontinuă. Pentru construirea lui, din fiecare valoare a
caracteristicii sau din fiecare centru de interval se ridică câte o perpendiculară şi se marchează
pe ea punctul aflat la o distanţă egală cu frecvenţa variantei sau intervalului respectiv. Unind
toate punctele astfel găsite rezultă un poligon numit „poligonul frecvenţelor”.
17
Poligonul frecvenţelor se poate suprapune peste histogramă în cadrul aceluiaşi grafic,
sau se poate trasa într-un grafic separat.
☺ Exemplul 8
Pentru distribuţia de frecvenţe din exemplul 4, obţinută după o variabilă continuă,
histograma, poligonul frecvenţelor şi curbele frecvenţelor cumulate se prezintă astfel:
12
10
8
Nr. magazine (ni)
0
3 4 5 6 7 8 9 10 11 12 13
Valoarea facturilor (mii lei)
Din graficele realizate reiese că distribuţia magazinelor după valoarea facturilor emise
este o distribuţie cu tendinţă de normalitate.
18
Curbele cumulative ale frecventelor
60
50
40
frecvente cumulate
30
20
10
0
5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0
mii RON
☺ Exemplul 9
Pentru distribuţia de frecvenţe din exemplul 3, obţinută după o variabilă discretă,
poligonul frecvenţelor şi graficul frecvenţelor cumulate crescător se prezintă astfel:
25
10
20
8
Frecvente cumulate
6 15
nr. familii
4 10
2 5
0 0
0 1 2 3 4 5 0 1 2 3 4 5
nr. copii Nr. copii
19
sunt răsturnate cu 90% (şi au baza situată pe axa verticală) atunci reprezentarea grafică este o
diagramă prin benzi, cu axele inversate faţă de diagrama prin coloane.
☺ Exemplul 10
Pentru distribuţia de frecvenţe din exemplul 1, obţinută după o variabilă calitativă,
diagrama prin coloane şi cea prin benzi se prezintă astfel:
100 Manag.
80
Domeniu
Finanţe
60
Persoane
40 Market.
20
Contab.
0
Contabilitate Marketing Finanţe Management Altele
ec. 0 20 40 60 80 100
Domeniul Persoane
5. Diagrama de structură.
☺ Exemplul 11
Pentru distribuţiile de frecvenţe din exemplele 1 şi 4, diagrama de structură se prezintă
astfel:
20
Structura magazinelor dupa valoarea facturilor
Structura absolvenţilor după domeniul de ocupare emise zilnic
5,0 – 6,0
11,0 – 12,0 8%
6,0 – 7,0
12% 8%
18%
18%
8,0 – 9,0
24% 18%
21
4. Răspunsuri la testele de autoevaluare
22
e) este incorect, deoarece scările de reprezentare nu au fost alese echilibrat pe cele 2 axe,
(graficul este prea extins pe orizontală, ceea ce duce la falsa aplatizare, alternare a variaţiei
fenomenului);
f) este incorect deoarece pe axa Oy trebuie figurată o întrerupere de scară (între 0 şi 10).
Aşadar, incorecte sunt graficele a), b), d), e), f).
5. Teme de control
23
În acest capitol am învăţat să supunem setul de date unor operaţii de prezentare sistematică,
de organizare, de ordonare după unul sau mai multe criterii, într-un cuvânt de sistematizare.
Includem aici operaţiile de grpare/clasificare.
Gruparea / clasificarea datelor statistice presupune împărţirea unităţilor populaţiei statistice
observate în grupe sau clase distincte omogene, după unul sau mai multe criterii. Dacă efectuăm
sistematizarea datelor după o variabilă nenumerică, spunem că efectuăm o clasificare, iar dacă
sistematizăm datele după o variabilă numerică, spunem că realizăm o grupare.
Clasificarea datelor se poate face:
- pe variante (dacă sunt puţine variante)
- pe grupe de variante (în cazul existenţei mai multor variante).
Gruparea după o variabilă numerică se poate face:
- pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja
valorilor pe care le poate lua caracteristica nu este foarte mare);
- pe intervale de variaţie (atunci când sistematizăm datele după o variabilă continuă,
care are o plajă largă de valori). Intervalele de variaţie pot fi egale sau neegale.
Modalităţile de prezentare şi reprezentare a datelor statistice sunt:
- seriile statistice.
- tabelele statistice
- graficele statistice.
1. Anderson D., Sweeney D.,Williams T., Statistics for Business and Economics, Thomson
South Western, 2008
2. Ghiţă S. – “Statistică”, Editura Meteor Press, Bucureşti, 2006.
3. Isaic-Maniu Al., Mitruţ C., Voineagu V., Statistică, Editura Universitară, Bucureşti, 2003;
4. Voineagu V., Ţiţan E., Ghiţă S., Boboc C., Todose D. – Statistică. Baze teoretice şi
aplicaţii, Editura Economică, Bucureşti, 2007;
24
CURS STATISTICĂ - Unitatea de învăţare nr. 5
Cuprins:
În urma parcurgerii acestei unităţi de învăţare studentul va înţelege care este tipul de
medie adecvat în fiecare situaţie, precum şi modalitatea de calcul a acesteia.
25
Clasificarea indicatorilor statistici:
26
de date numerice.
Indicatorii tendinţei centrale sunt:
mărimile medii;
indicatorii medii de poziţie.
Toţi indicatorii tendinţei centrale au unitatea de măsură a caracteristicii studiate.
Indicatorii tendinţei centrale, pentru a reda corect nivelul în jurul căruia tind valorile
individuale, trebuie să îndeplinească următoarele condiţii:
să fie definiţi în mod precis printr-o definiţie sau formulă;
să poată fi calculaţi cu uşurinţă şi rapiditate şi să se preteze calculelor algebrice;
să nu fie afectaţi prea tare de fluctuaţiile de selecţie în cazul în care datele provin
dintr-un sondaj statistic (adică mediile diferitelor eşantioane de volum egal
provenite din aceeaşi colectivitate să nu fie sensibil diferite);
să nu aibă caracter matematic prea abstract;
să fie expresia tuturor observaţiilor făcute.
Aceşti indicatori caracterizează cu atât mai bine tendinţa centrală cu cât datele pe baza
cărora se determină sunt mai omogene.
Cei mai importanţi şi mai utilizaţi indicatori ai tendinţei centrale sunt: media, mediana,
modul.
3. Marimile medii
media armonică ( xh ) ;
27
media geometrică ( x g) .
Fiecare dintre cele patru medii poate fi calculată atât ca medie simplă (în cazul datelor
negrupate) sau ca medie ponderată (în cazul datelor grupate pe variante sau intervale de
variaţie).
Media aritmetică ( x ) , numită adeseori “medie” este indicatorul cel mai utilizat pentru
caracterizarea tendinţei centrale.
Media se calculează însumând toate valorile individuale şi împărţind suma la numărul
lor, ea reprezentând acea valoare care înlocuind toţi termenii unei serii nu modifică nivelul lor
totalizator.
Media aritmetică calculată pentru o colectivitate statistică este acea valoare care s-ar fi
obţinut dacă toţi factorii ar fi exercitat o influenţă constantă asupra tuturor unităţilor
înregistrate.
Media aritmetică simplă se calculează raportând nivelul totalizat al caracteristicii la
numărul total al unităţilor:
n
∑ xi
x= i=1
n
xi = valorile individuale ale caracteristicii;
n = numărul unităţilor;
n
∑ xi
i=1 = valoarea centralizată (nivelul totalizat) al caracteristicii.
☺ Exemplul 1
Pentru 5 sucursale ale unei bănci comerciale au fost înregistrate valorile creditelor în luna
decembrie 2006 şi anume: 200.000 Euro; 240.000 Euro; 250.000 Euro; 180.000 Euro;
160.000 Euro. Care este valoarea medie a creditelor acordate în luna decembrie 2006?
5
∑ xi
200 .000 +240 .000+250. 000+180 . 000+160 . 000
x= i=1 = =206 .000
5 5
Euro/sucursală
Într-o colectivitate statistică se întâlnesc foarte rar cazuri în care numărul valorilor
28
caracteristicii coincide cu numărul unităţilor, în colectivităţile statistice de obicei se
înregistrează de mai multe ori aceiaşi valoare a caracteristicii pentru mai multe unităţi şi în
acest caz media se va calcula ca o medie aritmetică ponderată:
k
∑ x i⋅ni
x= i=1k
∑ ni
i=1
i =1
☺ Exemplul 2
Media aritmetică ponderată pentru o serie de repartiţie pe variante.
Repartiţia gospodăriilor dintr-o localitate în funcţie de numărul de copii este prezentată
în tabelul următor:
Nr. copii (xi) 0 1 2 3 4 5 6 7 8
Nr. gospodării (ni) 286 380 416 258 112 62 47 12 7
k
∑ x i⋅ni
i=1 0⋅286+1⋅380+. ..+ 8⋅7 3166
= = 1580 ≈2 ,00
k 286 +380+. ..+7
∑ ni
i =1
Media = copii/gospodărie
Testul de autoevaluare 1
1.Distribuţia salariaţilor unui magazin în funcţie de numărul de zile de concediu de
odihnă dintr-un an se prezintă astfel:
Zile concediu 14 15 16 17 18 19 20
Nr. salariaţi 2 6 10 15 8 5 4
☺ Exemplul 3
29
Repartiţia salariaţilor unei firme în funcţie de valoarea primei acordate la sfârşitul anului 2006
este:
Media:
poate să nu aibă o valoare egală cu o valoare individuală înregistrată;
se poate determina cunoscând doar valoarea totală centralizată a caracteristicii
(nivelul totalizator) şi numărul unităţilor;
are unitatea de măsură a caracteristicii analizate.
30
n
n n n ∑ xi
∑ ( x i−x )=∑ xi −n⋅x=∑ x i−n⋅i=1n =0
i=1 i=1 i=1
k k k k ∑ x i⋅ni k
∑ ( x i−x )⋅ni=∑ x i⋅ni−∑ ni =∑ xi⋅ni − i=1k ⋅∑ n i=0
i=1 i=1 i=1 i=1 i =1
∑ ¿ ni
i=1
6) Dacă toţi termenii unei serii statistice se înmulţesc sau se împart cu o constantă “h”,
atunci şi media se va multiplica sau se va reduce de “h” ori:
- pentru o serie simplă:
n n
∑ x i⋅h ∑ xi
i=1
x'= =h⋅i=1 =h⋅x h ∈ {0 , 1 }
n n
- pentru o serie de frecvenţe:
k k
∑ x i⋅ni⋅h h⋅∑ x i⋅ni
x ' = i=1 k = i=1
k
=h⋅x
∑ ni ∑ ni
i =1 i =1
31
k n k
1
∑ x i⋅ ai ⋅∑ x ⋅n
a i=1 i i
i=1
x'= k
= k
=x
ni 1
∑ a
⋅∑ n
a i =1 i
i=1
k
a=∑ ni
Dacă i=1 adică este volumul total al colectivităţii, atunci:
k n
∑ x i⋅ k i k
∑ i ∑ xi⋅n¿i
i=1
n k
=∑ xi⋅ni
i=1 i=1 ¿
x= k
= k
ni
∑ ∑ n ¿i
i=1
k
i=1
∑ ni i =1
i =1
¿
ni = frecvenţele relative
sau
k
∑ x i⋅n¿i
x == i=1
100 ,
dacă frecvenţele relative sunt exprimate în procente.
8) Media aritmetică este sensibilă la valorile extreme, care pot afecta semnificaţia şi
reprezentativitatea mediei ca valoare centrală. Pentru ca media să fie reprezentativă
trebuie ca datele din care se calculează să fie cât mai omogene;
9) Media generală calculată pentru o serie de repartiţie de frecvenţă corespunzătoare
colectivităţii generale este egală cu media aritmetică ponderată a mediilor parţiale
calculate pe baza seriilor de repartiţie componente:
m
∑ x j⋅n j
x= j =1m
∑ nj
j=1
☺ Exemplul 4
32
Sucursala din Alba a unei bănci comerciale are 40 de angajaţi, dintre care 15 sunt femei, iar
25 bărbaţi. Salariul mediu al femeilor este de 1.370 RON, iar al bărbaţilor de 1.520 RON.
Care este salariul mediu al unui angajat al sucursalei?
m
∑ x j⋅n j
1. 370⋅15+1. 520⋅25
x= j=1m = =1 . 463 , 75 RON
40
∑ nj
j=1
10) Media aritmetică calculată pentru o serie simplă şi media aritmetică calculată pentru
aceeaşi serie cu datele grupate pe intervale (utilizând centrul de interval), pot să fie
sau nu egale. Cele două medii sunt egale dacă frecvenţele din seria de repartiţie de
frecvenţe sunt normal distribuite pe fiecare interval.
11) Pentru o variabilă alternativă (binară) media aritmetică se calculează astfel:
Varianta de răspuns xi Frecvenţa (ni) Frecvenţe relative (ni*)
DA 1 m m
=w
n
NU 0 n–m 1–w
Total - n 1
2
∑ x i⋅ni 1⋅m+0⋅( n−m ) m
x= i=12 = = =w
n n
∑ ni
i=1
☺ Exemplul 5
Să se calculeze media caracteristicii alternative “salariaţi cu prima sub 300 euro”
m
∑ x j⋅n j
1. 370⋅15+1. 520⋅25
x= j=1m = =1 . 463 , 75 RON
40
∑ nj
j=1
33
m = reprezintă salariaţii care îndeplinesc condiţia cerută, adică “prima sub 300 euro”;
n = numărul total de salariaţi.
Adică: 58,3% din salariaţi au prima sub 300 euro.
Observăm că media caracteristicii alternative (binare) are caracter de greutate specifică
sau pondere.
Media caracteristicii alternative se exprimă în coeficienţi, deci nu are unitatea de măsură
a caracteristicii.
Testul de autoevaluare 2
Testul de autoevaluare 3
1.Un studiu efectuat asupra unui număr de 50 de cutii de brânză topită la cutie dintr-un
magazin a reliefat următoarele informaţii cu privire la numărul de calorii conţinute:
Se cere:
a)să se calculezenumărul mediu de calorii al unei cutii;
b)să se calculeze media caracteristicii “cutii de brânză care au sub 95 de calorii”.
2. Venitul mediu anual brut al salariaţilor unei bănci din Franţa a fost în anul 2009 egal cu
65.110 Euro.
Venitul mediu anual al salariaţilor de gen masculin din acea bancă a fost de 65.380
34
Euro, iar al celor de gen feminin a fost de 65.000 Euro.
Se cere să se determine care este ponderea angajaţilor de gen masculin şi, respectiv
feminin din bancă.
35
- pentru o serie simplă:
√∏
n
n
x g= xi
i=1
√∏
∑ ni k
i =1
x g= xn
i
i=1 i
i =1
Cu cât fiecare raport în parte este mult mai mare sau mult mai mic decât 1, cu atât seria
este mai eterogenă.
36
√
n
∑ x 2i
i=1
x p=
n
- pentru o serie de frecvenţe:
√
k
∑ x 2i ⋅ni
i=1
x p= k
∑ ni
i =1
Media pătratică se utilizează în cazul în care într-o serie de repartiţie predomină valorile
mari ale caracteristicilor sau dacă dorim să le acordăm acestora o importanţă mai mare.
Testul de autoevaluare 4
1.O firmă alocă un buget fix B în fiecare dintre trimestrele unui an pentru derularea unei
campanii publicitare prin intermediul afişelor.
În primul trimestru, preţul unui afiş a fost de 35 RON.
În cel de-al doilea trimestru, preţul unui afiş a fost de 38 RON.
În cel de-al treilea trimestru, preţul unui afiş a fost de 38 RON.
În cel de-al patrulea trimestru, preţul unui afiş a fost de 38 RON.
Care este preţul mediu al unui afiş ?
Testul de autoevaluare 1
1. a) Media – se calculează ca o medie aritmetică ponderată:
7
∑ x i ni
14⋅2+15⋅6+ 16⋅10+17⋅15+18⋅8+ 19⋅5+20⋅4
x=i =1
7
= =
50
∑ ni
i =1
852
= =17 ,04 zile concediu
50
Testul de autoevaluare 2
1.Pentru aplicaţia 2, avem o serie simplă.
Notăm cu xi = suma existentă în contul i
37
i=1, 10
a) Media se calculează ca o medie aritmetică simplă întrucât avem date negrupate:
10
∑ xi
150+175+195+200+ 235+240+250+ 256+275+294
x=i=1 = =
10 10
2270
= =227 Euro
10
Proprietăţile mediei aritmetice:
1)
x min ≤x ≤x max
150≤227≤294 (A)
10
∑ ( x i−x )=0
2) i=1
10
∑ x i =10⋅x ⇔ 2270=10⋅227
i=1 (A)
n
∑ ( x i −a )
x ' = i=1 =x −a a≠0
4) n
Fie a = 5 (ales arbitrar)
10
∑ ( xi −5 )
(150−5 )+(175−5 )+.. .+(294−5 )
x '=i=1 =
10 10
2220
= =222=x−5=227−5
10 (A)
( )
n xi
∑ h
i=1 x
x'= = h ∉ {0 , 1}
5) n n
38
n
∑ xi
2000+ 4000+6500+8000+11000 +14000 45500
x= i=1 = = =9100 RON
n 5 5
b)Daca fiecare salariat primeşte în plus 1000 RON, adică fiecare termen al seriei xi se măreşte
Testul de autoevaluare 3
1.a) Media – se calculează ca o medie aritmetică ponderată
xi reprezintă centrul de interval calculat ca medie aritmetică simplă între limita
inferioară şi limita superioară a fiecărui interval:
5
∑ x i ni
80⋅5+90⋅10+ 100⋅15+110⋅14+120⋅6 5060
x= i=15 = = =101 , 2 calorii
50 50
∑ ni
i=1
Frecvenţele absolute
Varianta xi
ni
DA (sub 95 calorii) 1 m = 15
NU (peste 95 calorii) 0 n – m = 35
Total - n = 50
39
masculin este 65380n1.
Deci vom avea :
n = n1 + n2
65110n = 65380n1 + 65000n2
Dacă împărţim ambele ecuaţii cu n vom obţine:
1= m + f
65110 = 65380m + 65000f
unde m este ponderea salariaţilor de gen masculin în total, iar f este ponderea salariaţilor de
gen feminin în total.
Rezolvând sistemul de două ecuaţii cu două necunoscute vom obţine:
m=0,28
f=0,72
Deci 28% dintre salariaţi sunt de gen masculin, iar 72% sunt de gen feminin.
Testul de autoevaluare 4
1.În cazul acestei probleme, media (preţul mediu al unui afiş) nu se poate calcula cu ajutorul
mediei aritmetice, ci o vom calcula ca o medie armonică. Numărul de afişe cumpărate în
fiecare trimestru va fi : B/35, B/38, B/40, B/44, iar preţul total al afişelor pe tot anul este 4B.
5. Teme de control
40
aritmetice a celorlalte două serii);
c) să se precizeze dacă această proprietate este valabilă şi pentru celelalte tipuri de medii.
6. Un studiu privind durata de viaţă în ore a unui produs electrocasnic efectuat pe 100
aparate a condus la următoarele rezultate:
41
Durata de viaţă(ani) Structura numărului de aparate electrocasnice
0 – 1000 8
1000 – 2000 20
2000 – 3000 26
3000 – 4000 22
4000 – 5000 18
5000 - 6000 6
Total 100
Se cere: să se calculeze durata medie de viaţă a unui aparat;
1.Chauvat G., Reau J.P., Statistiques descriptives, Armand Colin, Paris, 2004
2. Danciu A., Niculescu I., Gruiescu M., Statistică economică, Editura Enciclopedică,
Bucureşti, 2009
3. Isaic-Maniu Al., Mitrut C., Voineagu V., Statistică, Editura Universitară, Bucureşti, 2003;
4. Voineagu V., Ţiţan E., Ghiţă S., Boboc C., Todose D. – Statistică. Baze teoretice şi
aplicaţii, Editura Economică, Bucureşti, 2007;
42
CURS STATISTICĂ - Unitatea de învăţare nr. 6
Cuprins:
43
2.1. Mediana
Mediana face parte din categoria cuantilelor alături de quartile, decile. Cuvântul mediană
provine din cuvântul latin “medius” care înseamnă “mijloc”.
Mediana reprezintă acea valoare a unei serii ordonate crescător sau descrescător care
împarte seria în două părţi egale, aşa încât 50% din termenii seriei au valori mai mici decât
mediana, iar 50% mai mari decât mediana.
Un avantaj al medianei faţă de medie este acela că poate fi utilizată în caracterizarea
tendinţei centrale pentru o serie de date măsurate pe o scară ordinală. Mediana ia în consideraţie
doar poziţia termenilor în serie, nu şi mărimea acestor valori, deci mediana nu este supusă
influenţei valorilor foarte mari sau foarte mici care sunt lăsate în afara seriei.
☺ Exemplul 1
Pentru 10 şobolani care încearcă să iasă dintr-un labirint se cunosc următorii timpi de parcurgere:
9 şobolani au parcurs labirintul în mai puţin de 15 minute, în timp ce un şobolan a reuşit să
parcurgă labirintul după 24 de ore. Pentru a calcula timpul mediu în care un şobolan parcurge
labirintul valoarea reprezentativă este mediana şi nu media (care ar fi afectată de acea durată
mare de peste 24 ore).
Valoarea medianei este invariabilă faţă de convenţia cu care se închid intervalele extreme,
spre deosebire de medie care este influenţată atât de valori cât şi de frecvenţa lor.
Dacă seria prezintă o repartiţie normală atunci mediana poate să înlocuiască valoarea
medie deoarece se calculează mai uşor.
Mediana este un indicator utilizat în cercetările medicale, în studiul mortalităţii, la
determinarea duratei medii de viaţă, la determinarea duratei medii de funcţionare a unui produs.
Calculul medianei:
pentru o serie simplă (pentru date negrupate), întâlnim două situaţii:
- seria are un număr impar de termeni – atunci mediana este egală cu termenul central
al seriei ordonate crescător sau descrescător.
Se cunoaşte următorul set de valori ale unei caracteristici:
5 7 4 9 12 3 10
Ordonăm seria crescător:
44
3 4 5 7 9 10 12
Me
Pentru date ordinale mediana este varianta situată în centrul seriei.
- seria are un număr par de termeni, atunci mediana este egală cu media aritmetică
simplă a celor 2 termeni centrali ai seriei ordonate crescător sau descrescător.
Fie următorul set de valori:
3 1 5 7 9 4
1 3 4 5 7 9
4 +5
Me= =4 ,5
2
Pentru un şir de date ordinale format din număr par de termeni, mediana este egală cu una
din cele două variante din centrul seriei dacă aceste variante sunt egale, iar dacă variantele nu
sunt egale mediana ia 2 valori deoarece nu se poate face media lor.
pentru o serie de distribuţie de frecvenţe pe variante calculul medianei comportă
următoarele etape:
Etapa 1: se determină locul medianei în cadrul seriei:
(∑ )
k
1
L Me= ni +1
2 i=1
☺ Exemplul 2
80 de apartamente dintr-un bloc au fost sistematizate după numărul de camere rezultând
următoarea distribuţie de frecvenţe:
45
Total 80
Calculaţi mediana.
(∑ )
k
1 1
L Me= ni +1 = ⋅81=40 ,5<66 ⇒
2 i=1 2
Me = 3 camere 50% dintre apartamente au mai puţin de 3 camere, iar 50% mai mult
de 3 camere.
(∑ )
k
1
L Me= ni +1
2 i=1
☺ Exemplul 3
Repartiţia sucursalelor unei bănci comerciale în funcţie de volumul depozitelor bancare atrase
într-o lună este:
46
20 – 40 12 12
40 – 60 14 26
60 – 80 20 46
80 – 100 18 64
100 - 120 16 80
Total 80 -
(∑ )
5
1 81
L Me = ni +1 = =40 , 5< 46⇒ Me ∈ [ 60 , 80 ]
2 i=1 2
40 ,5−26
Me=60+20⋅ =74 , 5 mii euro
20
Deci 50% dintre sucursale au atras depozite în valoare de 74,5 mii euro, iar 50% peste 74,5
mii euro.
2.2. Modul
Modul (dominanta unei serii) este valoarea cea mai des întâlnită sau căreia îi corespunde
cea mai mare frecvenţă de apariţie.
Calculul algebric al modului:
- pentru o serie simplă:
☺ Exemplul 4
47
La un magazin de pantofi s-au vândut într-o oră pantofi având următoarele mărimi:
Caz 1: 35 37 39 40 42
Această serie nu are mod.
Caz 2: 35 37 35 40 42
Mo = 35 deoarece este valoarea cea mai des întâlnită
Caz 3: 35 37 35 40 40
Mo1 = 35 Mo2 = 40
Această serie este bimodală.
Există şi serii plurimodale.
☺ Exemplu 5
Nr. camere (xi) Nr. apartamente(ni)
1 13
2 25
3 28
4 14
Mo = 3 camere deoarece variantei 3 îi corespunde frecvenţa absolută maximă.
☺ Exemplul 6
Volum depozite bancare (mii euro) (xi) Nr. Bănci (ni)
20 – 40 12
40 – 60 14
60 – 80 20
80 – 100 18
100 - 120 16
48
Intervalul modal este [60, 80)
20−14 6
Mo=60+20⋅ =60+20⋅ =75
(20−14 )+(20−18 ) 6+2 mii euro
Cele mai multe bănci au atras depozite în valoare de 75 mii euro.
Testul de autoevaluare 1
1. Un auditor bancar a selectat 10 conturi şi a înregistrat sumele existente în fiecare dintre
aceste conturi. Sumele sunt date în Euro: 150,175, 195, 200,235,240,250,256,275,294
Se cere: să se calculeze mediana şi modul.
Zile concediu 14 15 16 17 18 19 20
Nr. salariaţi 2 6 10 15 8 5 4
3.Un studiu efectuat asupra unui număr de 50 de cutii de brânză topită la cutie dintr-un
magazin a reliefat următoarele informaţii cu privire la numărul de calorii conţinute:
49
ni
xi
Mo
în cazul seriilor de distribuţie pe intervale de variaţie, determinarea grafică a
modului se face cu ajutorul histogramei. Se determină punctul de intersecţie al
segmentului ce uneşte capătul din stânga al blocului cel mai înalt cu capătul din stânga
blocului următor cu segmentul ce uneşte capătul din dreapta al blocului cel mai înalt cu
capătul din dreapta al blocului anterior. Corespondenţa pe abscisă a acestui punct de
intersecţie este modul.
ni
xi
Mo
50
3. Abordarea comparativă a principalilor indicatori ai tendinţei centrale
Media este indicatorul cel mai utilizat în analiza tendinţei centrale. Calculul mediei se
bazează pe ansamblul valorilor caracteristicii xi, de aceea ea este influenţată de valorile extreme.
Mediana este un indicator care, spre deosebire de medie, se calculează în funcţie de poziţia
termenilor în serie şi nu este influenţată de valorile termenilor.
Modul se determină foarte uşor, dar este indicatorul cel mai sensibil la modul de grupare a
datelor. Două grupări diferite ale aceleiaşi serii vor conduce la două valori modale diferite.
Pentru o serie perfect simetrică cei trei indicatori ai tendinţei centrale sunt egali:
x=Me=Mo
Proprietăţi
Modul Mediana Media aritmetică
(Yule Kendall)
Este definit într-un mod obiectiv da da da
Depinde de numărul de termeni ai
nu da da
seriei
Este puţin sensibil la mărimea
da da nu
valorilor extreme
Are o semnificaţie concretă da da da
Este uşor de calculat da da da şi nu
Este puţin sensibil la eşantionare destul nu da
Se pretează la calcule algebrice nu nu da
1.Mediana
Pentru calculul medianei valorile xi trebuie ordonate crescător. (sunt, din ipoteză)
Seria are număr par de termeni (10 termeni), deci mediana este media aritmetică a celor doi
termeni centrali:
51
235+240
Me= =237 ,5 Euro
2
Deci, în 50% din conturi sunt mai puţin de 237,5 Euro, iar în 50% din conturi sunt peste
237,5 Euro.
Modul este valoarea cea mai des întâlnită. Fiind serie simplă şi neavând date care să se
repete, seria nu are mod.
2.
Mediana (valoarea centrală a seriei)
7
1 1
L Me : ( ∑ ni +1 )= ⋅51=25 ,5<33⇒ Me=17 zile
2 i=1 2
Se cumulează crescător frecvenţele absolute (ni):
xi ni ni cumulate crescător
14 2 2
15 6 8
16 10 18
17 15 33
18 8 41
19 5 46
20 4 50
Deci 50% dintre salariaţi au avut sub 17 zile concediu, iar 50%, peste 17 zile.
Modul (dominanta unei serii)
Modul este, în cazul grupării pe variante, acea valoare a caracteristicii căreia îi corespunde
frecvenţa absolută maximă. Frecvenţa absolută (ni) maximă este 15 Mo = 17 zile. Cei mai
mulţi salariaţi au avut 17 zile de concediu.
52
5
∑ x i ni
80⋅5+90⋅10+ 100⋅15+110⋅14+120⋅6 5060
x= i=15 = = =101 , 2 calorii
50 50
∑ ni
i=1
53
Deoarece Mo = 103,33 calorii, rezultă că cele mai multe dintre cutii au 103,33 calorii.
5. Teme de control
1.Se cunosc următoarele date privind numărul de cărţi împrumutate în decursul unei luni de
abonaţii unei biblioteci:
Nr. cărţi împrumutate 0 1 2 3 4 5 6 7
Nr. abonaţi 18 39 57 64 42 33 21 4
Calculaţi mediana acestei serii.
3.Un studiu privind durata de viaţă în ore a unui produs electrocasnic efectuat pe 100 aparate a
condus la următoarele rezultate:
Durata de viaţă (ore) Structura numărului de aparate electrocasnice
0 – 1000 8
1000 – 2000 20
2000 – 3000 26
3000 – 4000 22
4000 – 5000 18
5000 - 6000 6
Total 100
Se cere: să se calculeze indicatorii tendinţei centrale;
54
-mediana
-modul
Aceşti indicatori caracterizează cu atât mai bine tendinţa centrală cu cât datele pe baza cărora
se determină sunt mai omogene.
Cei mai importanţi şi mai utilizaţi indicatori ai tendinţei centrale sunt: media, mediana, modul.
1.Chauvat G., Reau J.P., Statistiques descriptives, Armand Colin, Paris, 2004
2. Danciu A.,Niculescu I., Gruiescu M., Statistică economică, Editura Enciclopedică, Bucureşti,
2009
3. Isaic-Maniu Al., Mitrut C., Voineagu V., Statistică, Editura Universitară, Bucureşti, 2003;
4. Voineagu V., Ţiţan E., Ghiţă S., Boboc C., Todose D. – Statistică. Baze teoretice şi aplicaţii,
Editura Economică, Bucureşti, 2007;
5.Wonnacott T.H., Wonnacott R.J., Statistique, Economica, Paris,1995
55
CURS STATISTICĂ - Unitatea de învăţare nr. 7
Cuprins:
☺ Exemplul 1
Fie următoarele seturi de date:
2 4 6 8 10 12 14
x 1=Me 1
5 6 7 8 9 10 11
56
x 2 =Me 2
( x 1 =x 2=Me 1 =Me 2 )
Se observă că deşi cele două serii au aceeaşi medie şi mediană ,
ele diferă prin modul de împrăştiere a valorilor. De aceea, pe lângă indicatorii tendinţei
centrale se impune şi calculul indicatorilor de variaţie.
Indicatorii simpli ai variaţiei se exprimă atât în mărimi absolute (având aceleaşi unităţi
de măsură ca şi caracteristica studiată), cât şi în mărimi relative (obţinute prin raportarea
mărimii absolute la medie).
Indicatorii simpli ai variaţiei sunt:
amplitudinea absolută a variaţiei;
amplitudinea relativă a variaţiei;
57
abaterile individuale absolute;
abaterile individuale relative.
Amplitudinea absolută a variaţiei (Ax) se determină ca diferenţă între valoarea
maximă (xmax) şi valoarea minimă (xmin) a caracteristicii şi arată câmpul maxim de împrăştiere
a valorilor caracteristicii.
Ax = xmax - xmin
Are unitatea de măsură a valorilor caracteristicii şi din acest motiv nu poate fi folosită la
compararea seriilor după caracteristici exprimate în unităţi de măsură diferite.
Se utilizează în etapa de grupare a datelor, mai precis la construirea intervalelor de
variaţie şi se mai utilizează şi la construirea graficelor.
Amplitudinea este foarte sensibilă la valorile extreme. Cu cât acestea sunt mai
îndepărtate cu atât câmpul de împrăştiere a valorilor este mai mare.
Amplitudinea relativă a variaţiei (Ax(%)) se obţine prin raportarea amplitudinii
absolute la medie. Se exprimă în coeficient sau procente, deci pot fi comparate serii după
caracteristici exprimate în unităţi de măsură diferite:
Ax
A x ( % )= ⋅100
x
Abaterile individuale absolute care ne arată împrăştierea fiecărei valori de la valoarea
medie:
d i =x i−x
În practică se utilizează mai mult abaterea absolută maximă şi abaterea absolută
minimă:
d max =x max −x≥0
d min =x min−x≤0
Abaterile individuale absolute se exprimă prin aceeaşi unitate de măsură ca şi
caracteristica studiată şi pot lua valori negative sau pozitive după cum valoarea individuală
este mai mică sau mai mare ca media.
Dacă di în valoare absolută au valori mari putem concluziona că datele sunt împrăştiate,
adică există o variaţie mare în interiorul seriei.
Suma valorilor abaterilor individuale absolute este nulă:
n n
∑ d i=∑ ( xi −x )=0
i=1 i=1
Suma abaterilor maxime şi minime luate în modul este egală cu amplitudinea absolută a
variaţiei:
58
d max +|d min|= A x
Dacă în cazul unei serii, abaterea maximă absolută diferă mult de valoarea abaterii
minime absolute luată în modul, atunci pentru seria respectivă trebuie calculaţi pe lângă
indicatorii variaţiei şi indicatorii de asimetrie.
Într-o serie simetrică:
|d min|=d max
Abaterile individuale relative se exprimă în coeficienţi sau procente şi se calculează
raportând abaterile individuale absolute la medie:
{
d max
di d max (% ) = ⋅100
x
d i ( % )= ⋅100
x d min
d min( % ) = ⋅100
x
Abaterea medie liniară ( d ) se calculează ca o medie aritmetică simplă (în cazul seriilor
simple) sau ponderată (în cazul seriilor de distribuţie de frecvenţe) a abaterilor termenilor
seriei de la media lor în valoare absolută.
- pentru o serie simplă:
n
∑|x i −x|
d= i =1
n
- pentru o serie de distribuţie de frecvenţe absolute:
59
k
∑|x i −x|⋅ni
d= i =1 k
∑ ni
i =1
În cazul în care seria de distribuţie de frecvenţe este pe intervale, atunci x i este centrul
intervalului.
- pentru o serie de distribuţie de frecvenţe relative:
k
∑|x i −x|⋅n¿i
d= i =1 ¿
ni sunt exprimate în procente
100 - dacă
k
d=∑ |x i−x|⋅ni
¿
i=1 - dacă
n¿i sunt exprimate în coeficienţi
În locul mediei, pot fi folosiţi şi alţi indicatori ai tendinţei centrale.
Dezavantaje ale abaterii medii liniare:
se exprimă în aceeaşi unitate de măsură ca şi caracteristica analizată, deci nu poate fi
utilizată la compararea a două sau mai multe serii după caracteristici exprimate în
unităţi de măsură diferite;
nu ţine seama de semnul algebric;
nu ţine seama de faptul că abaterile mai mari în valoare absolută influenţează în mai
mare măsură gradul de variaţie al unei caracteristici comparativ cu abaterile mici.
Pentru a înlătura aceste dezavantaje se calculează şi alţi indicatori sintetici ai variaţiei.
☺ Exemplul 2
Repartiţia salariaţilor unei întreprinderi după prima obţinută la sfârşitul anului este prezentată
în tabelul următor:
Prima (lei)
Nr. salariaţi
ni
Centrul
xi
xini |x i −x| |x i −x|⋅ni
sub 100 15 50 750 +195 2.925
100 – 200 20 150 3.000 +95 1.900
200 – 300 30 250 7.500 5 150
300 – 400 25 350 8.750 105 2.625
peste 400 10 450 7.500 205 2.050
Total 100 - 24.500 - 9.650
60
5
∑ x i⋅ni
24 .500
x= i=15 = =245 lei / salariat
100
∑ ni
i=1
5
∑ |x i−x|⋅ni
9 .650
x= i=1 5
= =96 , 5 lei/ salariat
100
∑ ni
i=1
Dispersia se calculează ca medie aritmetică simplă (în cazul seriilor simple) sau
ponderată (în cazul seriilor de distribuţie de frecvenţă) a pătratelor abaterilor termenilor seriei
de la tendinţa centrală (cel mai adesea media aritmetică).
- pentru o serie simplă:
n
∑ ( x i −x )2
σ 2= i =1
n
- pentru o serie de frecvenţe absolute:
k
∑ ( x i −x )2⋅ni
σ 2= i =1 k
∑ ni
i=1
i=1
Dacă datele provin din eşantioane de volum redus şi le folosim pentru extinderea rezultatelor
la nivelul colectivităţii generale (le folosim pentru o inferenţă statistică), atunci în calculul
dispersiei la numitor se va folosi (n-1) şi nu “n” fiind astfel dispersia eşantionului un
estimator mai bun al dispersiei în colectivitatea generală:
n
∑ ( x i−x ) 2
s2 = i=1
n−1
61
Dispersia prezintă dezavantajul că este un indicator abstract care nu are o unitate
concretă de măsură. Ea arată modul în care gravitează termenii seriei în jurul tendinţei
centrale (de obicei media). Dacă dispersia unei serii este egală cu 0, atunci acea serie nu
prezintă variaţie, toţi termenii ei fiind egali. Cu cât valoarea dispersiei creşte faţă de zero, cu
atât împrăştierea termenilor seriei creşte şi ea.
Este un indicator deosebit de util în studiile statistice, fiind utilizată în calculul
asimetriei, excesului, boltirii unei serii, precum şi în calculul altor indicatori statistici.
☺ Exemplul 3
Prima (lei) Nr. salariaţi (ni)
sub 300 65
300 35
Total 100
Să se calculeze dispersia caracteristicii alternative “salariaţi cu prima sub 300 RON”.
m 65
w= = =0 ,65
n 100
62
σ 2w ∈ [ 0 , 0 , 25 ]
2
când w = 1 – w, adică w = 0,5, dispersia atinge valoarea maximă σ w =0 , 25 ;
dacă w 1 – w, adică w 0,5 şi w creşte uniform în cadrul intervalului (0, 0,5)
2
atunci σ w înregistrează o creştere mai rapidă la început şi mai lentă când se apropie
de limita superioară;
dacă w 1 – w, adică w 0,5 şi w creşte uniform în cadrul intervalului (0,5, 1)
2
atunci σ w înregistrează o scădere în acelaşi ritm în care a avut loc creşterea.
Abaterea medie pătratică (abatere standard, abatere tip sau ecart tip) se calculează
ca o medie pătratică a abaterilor termenilor seriei de la media lor sau ca radical din dispersie.
Abaterea medie pătratică ne arată cu cât în medie se abat termenii unei serii de la
tendinţa centrală (de obicei media):
- pentru o serie simplă:
√
n
∑ ( x i−x )2
σ =√ σ 2 =
i=1
n
- pentru o serie de frecvenţe absolute:
√
k
∑ ( x i− x )2⋅ni
σ =√ σ 2 =
i=1
k
∑ ni
i =1
√
k
∑ ( x i−x )2⋅n¿i
σ =√ σ 2 =
i=1
100
☺ Exemplul 4
Fie 2 serii:
S1: 1 2 3 4 5 6
Cele două serii au aceeaşi amplitudine, aceeaşi abatere medie liniară şi aceeaşi abatere medie
pătratică. Cu toate acestea, împrăştierea din seria A este mai mare decât cea din seria B.
63
Este foarte dificil să comparăm serii de date după caracteristici exprimate prin aceeaşi
unitate de măsură deoarece variabilitatea depinde de ordinul de mărime.
Abaterea medie pătratică are aceeaşi semnificaţie ca şi abaterea medie liniară, dar ea
obţinându-se prin ridicarea la pătrat a abaterilor individuale de la tendinţa centrală (medie)
înlătură dezavantajul acordării aceleiaşi importanţe atât abaterilor mari cât şi celor mici.
Abaterea medie pătratică are aceeaşi unitate de măsură cu a caracteristicii studiate, de
aici provenind dezavantajul că nu pot fi comparate colectivităţi după caracteristici exprimate
prin unităţi de măsură diferite.
Deoarece
x < x p rezultă că d < σ .
În cazul unei serii de distribuţie de frecvenţe simetrică sau uşor asimetrică, adică pentru
o serie cu tendinţă de normalitate între abaterea medie liniară şi abaterea medie pătratică
există relaţia:
d≃0,8⋅σ
☺ Exemplu 5
Se utilizează datele din Exemplul 2.
d 96 ,5
= =0 ,8⇒
σ 120,31
seria este simetrică adică are o repartiţie normală.
Abaterea medie pătratică este un indicator care ne oferă informaţii privind modul de
împrăştiere a termenilor unei serii cu tendinţă de normalitate. Astfel, o regulă empirică spune:
64
analiza variaţiei. Se calculează ca raport între abaterea medie pătratică sau liniară şi medie.
σ d
v= ⋅100 v '= ⋅100
x sau x
v v’
Coeficientul de variaţie se exprimă procentual, deci putem aprecia că el reprezintă
1.Un auditor bancar a selectat 10 conturi şi a înregistrat sumele existente în fiecare dintre
aceste conturi. Sumele sunt date în Euro:
150 175 195 200 235 240 250 256 275 294
Se cere:
a) să se calculeze suma medie de bani existentă într-un cont
b) să se caracterizeze gradul de omogenitatea al seriei.
Deşi cel mai adesea coeficientul de variaţie se calculează utilizând media (deoarece
respectă cele mai multe din condiţiile impuse de Yule), acest indicator se poate calcula
utilizând şi alţi indicatori ai tendinţei centrale (mediana, mediala, modul).
Acest indicator nu se poate utiliza (adică este lipsit de semnificaţie) în cazul în care
media aritmetică este apropiată de zero sau când valorile termenilor seriei sunt foarte
apropiate.
☺ Exemplul 6
Se utilizează datele din Exemplul 2 şi Exemplul 5.
σ 120 , 31
v= ⋅100= ⋅100=49 , 1 %>35 %
x 245
seria nu este omogenă
65
d 96 , 5
v'= ⋅100= ⋅100=39 , 3%
x 245
3. Indicatorii de asimetrie
Asimetria unei serii de distribuţie empirice poate fi determinată atât prin metoda grafică
cât şi prin calculul indicatorilor de asimetrie.
Reprezentarea grafică cea mai utilizată pentru aprecierea asimetriei este poligonul
frecvenţelor, dar graficul ne oferă doar o imagine sugestivă asupra gradului de asimetrie, fără
a putea să-l măsoare printr-o valoare exactă.
ni ni ni
xx=Me=Mo xi Mo Me x xi x Me Mo xi
ni ni
0 xi 0 xi
66
ni
0 xi
ni
0
xi
Repartiţie complexă obţinută prin suprapunerea a trei repartiţii: una în formă de J şi
două moderat asimetrice. Acest tip de repartiţii apare frecvent când gruparea nu a fost
executată corect.
Indicatorii asimetriei sunt:
- asimetrie absolută:
67
- asimetrie relativă:
De aceea se calculează coeficientul de asimetrie propus de Pearson (statistician
englez 1857-1936):
x−Mo
Cas= ∈ [−1 , 1 ]
σ
Dacă Cas = 0 seria este perfect simetrică:
x=Me=Mo
Dacă Cas 0 seria prezintă asimetrie pozitivă sau de stânga:
x >Me>Mo (predomină valorile mici)
Dacă Cas 0 seria prezintă asimetrie negativă sau de dreapta:
x <Me<Mo (predomină valorile mari)
Cu cât Cas este mai apropiată de 1 seria este mai asimetrică.
Dacă Cas [-0,3; 0,3] seria este uşor sau moderat asimetrică.
Acest coeficient este recomandat numai pentru serii de repartiţie uşor asimetrice.
Dacă se cunoaşte mediana seriei, coeficientul de asimetrie se poate calcula cu relaţia:
3 ( x−Me )
Cas= ∈ [− 3 , 3 ]
σ
Acest indicator este recomandat numai pentru serii de repartiţie uşor asimetrice când
între cei trei indicatori ai tendinţei centrale există relaţia:
Mo−x=3 ( Me−x )
Cu cât Cas este mai apropiat de 0 cu atât seria este mai simetrică, iar cu cât se apropie
de extremităţile intervalului, asimetria devine mai pronunţată.
Aceşti doi indicatori ai asimetriei sunt cei mai utilizaţi în practică, dar în afară de aceştia
se mai utilizează şi alţi indicatori.
☺ Exemplul 7
Se utilizează datele din Exemplul 2.
Δ1 10
Mo=x 0 + h⋅ =200+100⋅ =266 ,66
Δ1 + Δ2 10+ 5
68
x−Mo −21 ,66
Cas= = =−0,18<0
σ 120,31
☺ Exersaţi în … Excel
Un profesor doreşte să vadă care au fost rezultatele medii obţinute de studenţii săi la examen. De
asemenea, ar vrea să observe care a fost variaţia notelor. Calculaţi mărimile necesare. Notele obţinute
de studenţi la examen au fost următoarele:
8,1 9,2 3,0 7,9 9,0 6,9 9,6 3,9 9,4 8,8 6,5 7,3 8,4 8,3 9,5 3,8 9,7
9,4 9,3 7,3 7,8 8,6 5,7 9,8 9,3 8,3 9,9 4,2 9,9 5,1 8,4 9,0 8,8 5,9
9,5 7,0 8,1 9,1 7,5 8,2 8,3 6,5 3,4 8,9 4,3 8,5 7,5 6,4 6,4 9,3 8,6
8,4 4,8 8,1 9,6 9,1 9,6 8,3 4,1 10,0 2,5 4,8 7,1 8,9 6,1 7,7 7,6 1,8
5,3 6,9 6,6 9,4 8,0 5,5 8,4 6,6 3,4 9,8 7,2 1,1 3,8 8,5 7,7 9,6 5,0
7,2 8,3 8,7 7,4 9,4 9,0 8,4 9,5 9,0 7,3 9,9 8,5 7,1 3,7 1,6
Se obţin rezultatele:
Note
Mean 7.398
Standard Error 0.215022
Median 8.1
Mode 8.4
Standard Deviation 2.150216
Sample Variance 4.62343
Kurtosis 0.393661
Skewness -1.0731
Range 8.9
Minimum 1.1
Maximum 10
Sum 739.8
Count 100
Media notelor obţinute la examen este 7,398 (Mean) cu mediana 8,1 (Median). Modulul este
8,4 (Mode). Acesta este posibil să nu fie singurul, deoarece EXCEL nu afişează decât o singură
valoare.
69
Cea mai mică notă obţinută a fost 1,1 (Minimum) iar cea mai mare Maximum = 10.
Amplitudinea (diferenţa între valoarea minimă şi cea maximă) este 8,9 (Range).
Variaţia măsurată prin dispersie este 4,62 (Sample Variance) iar abaterea medie pătratică este
2,15 (Standard deviation). Eroarea standard (acest indicator va fi explicat la capitolul de sondaj
statistic) este 0,215 (Standard Error).
Deoarece Skewness este negativ şi mult diferit de zero (-1,07) seria de date este puternic
asimetrică negativ, curba fiind alungită spre stânga.
Kurtosis este 0,39, pozitiv, ceea ce înseamnă că avem o curbă ascuţită (distribuţie
leptocurtică).
Testul de autoevaluare 2
sub 6 10
6-12 22
12-18 25
18-24 23
24-30 17
30 şi peste 3
Total 100
Se cere:
a) să se aprecieze dacă media e reprezentativă;
b) caracterizaţi asimetria distribuţiei;
c) să se calculeze media şi dispersia caracteristicii „profitul ≥18 mil lei”.
Testul de autoevaluare 3
Zile concediu 14 15 16 17 18 19 20
Nr. salariaţi 2 6 10 15 8 5 4
Se cere:
a) să se calculeze indicatorii sintetici ai variaţiei;
b) să se caracterizeze gradul de asimetrie;
c) să se calculeze media şi dispersia caracteristicii “salariaţi care au avut un număr de zile de
concediu mai mare sau egal cu 17”.
2.Un studiu efectuat asupra unui număr de 50 de cutii de brânză topită la cutie dintr-un
magazin a reliefat următoarele informaţii cu privire la numărul de calorii conţinute:
70
Nr. cutii cu
5 10 15 14 6
brânză topită
Se cere:
a) să se aprecieze omogenitatea seriei;
b) să se caracterizeze gradul de asimetrie;
c) să se calculeze media şi dispersia caracteristicii “cutii de brânză care au sub 95 de
calorii”
Testul de autoevaluare 1
Testul de autoevaluare 2
1. a) Pentru a aprecia dacă media este reprezentativă, vom utiliza coeficientul de variaţie.
Pentru a calcula coeficientul de variaţie trebuie mai întâi să calculăm media şi abaterea medie
pătratică.
71
6
∑ x i ni
x= i=16
∑ ni
i=1
n¿
Putem lucra cu relaţia de mai sus dacă calculăm din i (din ipoteza, din tabel) şi
∑ ni=200 (din enunţ) pe ni .
ni
ni = ⋅100
∑ ni
¿
, rezultă:
10
n1 = ⋅200=20
100 agenţi economici;
22
n2 = ⋅200=44
100
25
n3 = ⋅200=50
100
23
n 4= ⋅200=46
100
17
n5 = ⋅200=34
100
3
n6 = ⋅200=6
100
x i reprezintă centrele de interval
sau putem calcula media utilizând relaţia:
6
∑ x i n¿i
3⋅10+ 9⋅22+15⋅25+ 21⋅23+27⋅17+33⋅3
x= i=1 = =16 , 44
100 100 mil. lei
Profitul mediu al unui agent economic este egal cu 16,44 mil lei.
Centrele de interval
x i se determină ca o medie aritmetică simplă a capetelor fiecărui
interval. Rezultatele sunt prezentate în tabelul următor
72
Total 100 -
Indicatorul cu ajutorul căruia se apreciază dacă media e reprezentativă este coeficientul de
variaţie.
σ 7 ,92
v= ⋅100= ⋅100=48 ,17 %
x 16 , 44
σ =√ σ 2 =√ 62 ,726 4=7, 92 mil.lei
6
∑ ( xi−x )2⋅n¿i )2⋅¿⋅22+ +(15−16,44)2⋅25+(21−16,44)2⋅23+(27−16,44)2⋅17+(33−16,44)2⋅3
2 i=1 2
σ= =(3−16,44) ⋅10+(9−16,44 ¿ =
100 100 100
¿62.7264
Interpretarea coeficientului de variaţie 35%<v≤75% media e slab reprezentativă.
b) Asimetria se caracterizează cu ajutorul indicatorilor de asimetrie propuşi de Pearson.
Testul de autoevaluare 3
73
1. a) Pentru a calcula indicatorii sintetici ai variaţiei, va trebui să calculăm mai întâi
media – care se calculează ca o medie aritmetică ponderată:
7
∑ x i ni
14⋅2+15⋅6+ 16⋅10+17⋅15+18⋅8+ 19⋅5+20⋅4
x=i =1
7
= =
50
∑ ni
i =1
852
= =17 ,04 zile concediu
50
Indicatorii sintetici ai variaţiei sunt:
- abaterea medie liniară:
7
∑ |x i−x|⋅ni |14−17 , 04|⋅2+|15−17 ,04|⋅6 +|16−17 , 04|⋅10
d= i=1
7
= +
50
∑ ni
i=1
|17−17 , 04|⋅15+|18−17 , 04|⋅8+|19−17 , 04|⋅5+|20−17 , 04|⋅4
+ =
50
58 ,64
= =1, 1728 zile
50
Numărul de zile de concediu al unui salariat se abate în medie de la numărul mediu de
zile de concediu cu 1,1728 zile.
- dispersia:
7
∑ ( x i−x )2⋅ni ( 14−17 , 04 )2⋅2+ ( 15−17 , 04 )2⋅6
σ = i=1
2
7
= +
50
∑ ni
i=1
( 16−17 , 04 )2⋅10+ ( 17−17 , 04 )2⋅15+ (18−17 , 04 )2⋅8
+ +
50
( 19−17 , 04 )2⋅5+ ( 20−17 , 04 )2⋅4 115, 92
+ = =2 , 3184
50 50
- abaterea medie pătratică:
74
Deoarece v, v’ 35% seria este omogenă, variaţia este mică, media este
reprezentativă.
b) Aprecierea asimetriei:
x−Mo 17,04−17
Cas= = =0,026
σ 1,5226
Deoarece Cas 0 avem asimetrie pozitivă sau de stânga, adică mediana şi modul se
găsesc în stânga mediei pe grafic, deci în această serie predomină valorile mici ale
caracteristicii.
Cas [-0,3; 0,3] seria este uşor asimetrică (Cas este foarte apropiat de zero).
c) Avem o caracteristică alternativă:
- salariaţi care au avut un concediu 17 zile;
- salariaţi care au avut un concediu 17 zile.
Frecvenţele absolute
Varianta xi
ni
DA (peste 17 zile) 1 m = 32
NU (sub 17 zile) 0 n – m = 18
Total - n = 50
75
σ 11 ,6
v= ⋅100= ⋅100=11, 46 %
x 101 , 2
σ=√ σ 2=√ 134,56=11,6 calorii
5
∑ ( x i −x )2⋅ni
6728
σ 2= i =1 5
= =134 , 56
50
∑ ni
i=1
Deoarece v 35% seria este omogenă, variaţia este mică, media este reprezentativă.
b) Gradul de asimetrie:
x−Mo 101,2−103,33
Cas= = =−0,18
σ 11,6
Deoarece Cas 0 seria prezintă o asimetrie negativă sau de dreapta, deci pe grafic
mediana şi modul se găsesc în dreapta mediei, ceea ce înseamnă că predomină cutiile de
brânză cu multe calorii.
Cas [-0,3; 0,3] seria este uşor asimetrică.
c) Avem o caracteristică alternativă:
- cutii care au sub 95 calorii;
- cutii care au peste 95 calorii.
Frecvenţele absolute
Varianta xi
ni
DA (sub 95 calorii) 1 m = 15
NU (peste 95 calorii) 0 n – m = 35
Total - n = 50
Media caracteristicii alternative:
m 15
w= = =0 ,3
n 50
30% dintre cutii au sub 95 calorii.
Dispersia caracteristicii alternative:
σ 2w =w (1−w )=0 ,3⋅(1−0 ,3 )=0 , 21
5. Teme de control
76
d) cum se va modifica abaterea medie liniară?
5.Un studiu privind durata de viaţă în ore a unui produs electrocasnic efectuat pe 100 aparate
a condus la următoarele rezultate:
Durata de viaţă (ore) Structura numărului de aparate electrocasnice
0 – 1000 8
1000 – 2000 20
2000 – 3000 26
3000 – 4000 22
4000 – 5000 18
77
5000 - 6000 6
Total 100
Se cere:
a) să se aprecieze dacă media este reprezentativă;
b) să se caracterizeze gradul de asimetrie;
c) să se determine media şi dispersia caracteristicii “aparate care au durata de viaţă mai
mică de 3000 ore”.
Fenomenele şi procesele economico-sociale sunt complexe, aflându-se sub influenţa unui număr mare
de factori esenţiali şi întâmplători, ceea ce face ca media, cel mai utilizat indicator al tendinţei
centrale, să nu fie suficientă pentru analiza acestor fenomene. De aceea, pe lângă indicatorii tendinţei
centrale se impune şi calculul indicatorilor de variaţie.
Indicatorii variaţiei pentru o serie statistică se clasifică în:
indicatori simpli ai variaţiei – sunt acei indicatori care arată împrăştierea valorilor una
faţă de alta sau împrăştierea valorilor faţă de o anumită valoare;
indicatori sintetici ai variaţiei – care iau în considerare toţi termenii seriei în calculul lor,
sintetizând într-o singură valoare întreaga împrăştiere din serie.
Cu ajutorul indicatorilor variaţiei putem:
studia reprezentativitatea mediei pentru o serie de date;
aprecia gradul de omogenitate a seriei;
caracteriza gradului de variaţie a unei serii;
compara în timp şi spaţiu a mai multor serii de repartiţie pentru aceeaşi caracteristică sau
pentru caracteristici diferite care au fost înregistrate pentru aceeaşi colectivitate;
cunoaşte gradul de influenţă a factorilor după care s-a efectuat gruparea;
cunoaşte forma distribuţiei (repartiţiei) de frecvenţe prin comparaţie cu distribuţia normală
1.Chauvat G., Reau J.P., Statistiques descriptives, Armand Colin, Paris, 2004
2. Danciu A.,Niculescu I., Gruiescu M., Statistică economică, Editura Enciclopedică,
Bucureşti, 2009
3. Isaic-Maniu Al., Mitrut C., Voineagu V., Statistică, Editura Universitară, Bucureşti, 2003;
78
4. Voineagu V., Ţiţan E., Ghiţă S., Boboc C., Todose D. – Statistică. Baze teoretice şi
aplicaţii, Editura Economică, Bucureşti, 2007;
5.Wonnacott T.H., Wonnacott R.J., Statistique, Economica, Paris,1995
79
CURS STATISTICĂ - Unitatea de învăţare nr. 8
Cuprins:
1. Importanţa sondajului.
2. Avantajele şi dezavantajele utilizării sondajului.
3. Tipuri de sondaj.
4. Principii de bază ale inferenţei statistice. Eşantionarea.
5. Procedee de eşantionare.
6. Erori întâlnite în sondaj.
7. Conceptele estimaţiei. Construcţia intervalelor de încredere.
8. Test de autoevaluare. Determinarea indicatorilor de sondaj in cazul unei selecţii nerepetate.
9. Rezultatele testului de autoevaluare.
10. Teme de autocontrol.
11. Rezumatul unităţii de învăţare.
12. Bibliografia unităţii de învăţare.
1. Importanţa sondajului
80
cererea potenţială de cursuri din altă localitate sau altă regiune şi cum ar putea să decidă
extinderea reţelei sale ?
Răspunsul la acest tip de întrebări poate fi găsit prin aplicarea unei tehnici de cercetare
şi studiu al pieţei denumită sondaj.
Sondajul reprezintă o cercetare parţială, al cărei scop este de estimare a
caracteristicilor populaţiei generale pe baza rezultatelor obţinute de la un eşantion riguros
prelevat. Acestă metodă de investigaţie statistică parţială se bazează pe principiile teoriei
probabilităţilor, statisticii matematice şi legii numerelor mari. Teoria sondajului are ca obiect
principal elaborarea metodelor ştiinţifice de modelare a problemelor legate de culegerea şi
analiza datelor., reprezentativitate, preferând informaţii sintetice în locul detaliilor ce pot
descrie situaţii netipice.
Sondajul se utilizeaza frecvent pentru luarea deciziilor in mediul economic si social
nefiind doar un concept promovat de statisticieni. Scopul sondajului este sa ofere suficiente
informatii despre esantion astfel incat sa permita inferenta cu un nivel de incredere acceptat.
Mijlocul prin care realizeaza scopul este selectia unei parti reprezentative din populatia mama
(“normally representative”), parte denumita ESANTION.
81
Principalele avantaje ale utilizarii sondajului sunt costul redus, timp mai mic decat in
cazul efectuarii unui recensamant si obtinerea unei acurateti scorite a rezultatelor. Alte
avantaje sunt:
Posibilitatea aplicării sondajului şi în cazul efectuării de teste distructive.
Utilizarea în situaţii în care natura populaţiei nu permite enumerarea unităţilor
statistice: mulţimea consumatorilor vs. mulţimea clienţilor permanenţi.
Dezavantajul principal este posibilitatea obţinerii de date nereprezentative, datele
statistice culese prin sondaj inducând în mod inevitabil erori. Un alt dezavantaj al acestei
metode îl constituie imposibilitatea de a urmări fenomenele în dinamică, sondajul surprinde
static caracteristicile unităţilor observate, ceea ce poate fi corectat prin organizarea de
observări selective periodice, cu periodicitate constantă.
3. Tipuri de sondaje
82
SONDAJUL STRATIFICAT
Eşantionul aleator stratificat este obţinut prin separarea populaţiei pe straturi, grupe, ce
se exclud reciproc, doar după această operaţiune se extrage un eşantion aleator din fiecare
strat.
Criterii de separe a populaţiei pe straturi, variabile independente sunt de exemplu:
Gen
Varsta
Ocupatie
Venitul gospodariei
Religie
Numar de copii sub 18 ani din gospodarie
Locatia
Brand-ul
SONDAJUL CLUSTER
83
Seturile formate din aceleaşi categorii formează evenimente. Posibilitatea ca firmele să fie
solvabile deci să obţină profit zero sau pozitiv, reprezintă un eveniment.
În teoria sondajului rezultatele unui număr mare de experimente sunt datele primare.
În anumite cazuri putem presupune că fiecare rezultat este independent de cel precedent, aşa
cum un număr al zarului este independent de celelalte aruncări. În condiţiile în care
cunoaştem mecanismul de probabilitate, putem calcula probabilitatea de apariţie a fiecărui
rezultat. Teoria sondajului se preocupă cu aplicarea teoriei probabiltăţilor pentru seturi de date
primare.
Dacă în urma unei cercetări se înregistrează doar informaţii parţiale, este posibil ca
datele înregistrate să fie utilizate pentru obţinerea intervalelor de încredere cu o anumită
probabilitate dacă setul de date respectă condiţiile de reprezentativitate pentru populaţia din
care a fost extras.
Pentru a se putea estima corect parametrii colectivităţii de selecţie pe baza rezultatelor
prelucrării datelor de sondaj, estimaţie garantată cu o anumită probabilitate, este necesar ca
eşantionul pe baza căruia se culeg datele primare să fie reprezentativ.
Un eşantion este reprezentativ dacă structura sa reproduce cât mai exact structura
populaţiei de referinţă din care a fost prelevat.
Pentru asigurarea reprezentativităţii eşantionului este necesar să se respecte anumite
reguli dintre amintim:
a. includerea unităţilor în eşantion să se realizeze în manieră cât mai obiectivă, toate
unităţile trebuie să aibe acceaşi şansă de a participa la formarea eşantionului -
extragerea unităţilor să se realizeze conform principiilor hazardului cu o probabilitate
egală şi diferită de zero.
b. mărimea eşantionului să fie suficientă pentru a reda caracteristicile esenţiale ale
populaţiei generale
c. includerea fiecărei unităţi în eşantion trebuie să se facă independent de cuprinderea
altor unităţi
Determinarea gradului de reprezentativitate a populaţiei studiate la un moment dat
ridică probleme deosebit de dificile în calea evaluării cercetărilor, aceasta deoarece, de cele
mai multe ori, nu pot fi cunoscute în prealabil caracteristicile relevante ale populaţiei ce
urmează a fi cercetată şi se procedează la estimări mai mult sau mai puţin corecte; se ajunge la
identificarea acestor caracteristici numai în urma studiului, când de fapt nu se mai poate
interveni pentru alegerea “populaţiei adecvate”.
84
Cu excepţia cazurilor, rare dealtfel, în care ne pot ajuta evidenţele, numai efectuarea
unor înregistrări prealabile cercetării propriu-zise ne permite să ne fixăm, în cunoştinţă de
cauză, la o anumită populaţie relevantă pentru tema şi obiectivele cercetării.
Studiile statistice exhaustive prealabile, deşi necesare, sunt puţin practicate totuşi
datorită împovărării costurilor de cercetare, a creşterii timpului afectat şi a muncii depuse.
Determinarea cu maximă precizie a caracteristicilor economice, de piaţă, politice şi de altă
natură ale colectivităţii studiate, ca şi dispunerea ei spaţială se înscriu drept cerinţe
elementare, obligatorii pentru o cercetare concretă.
5. Procedee de eşantionare
Eşantionare aleatoare
85
Eşantionarea aleatoare se realizează după planuri de sondaje simple (pentru sondaje
în populaţii omogene putându-se aplica şi pentru populaţii neomogene, după planuri de sondaj
în mai multe etape (stratificarea, sondajul multistadial, multifazic, de serii, secvenţial).
Această metodă de eşantionare este indicată a se folosi în cazul în care unităţile din populaţie
sunt de dimensiuni mici şi nu există diferenţe semnificative între mărimea unităţilor
populaţiei.
86
procedeu de eşantionare este mult mai ieftin decât cele probabilistice şi se poate aplica dacă
eşantioanele sunt atât de mici încât inferenţele efectuate pe baza lor nu ar reprezenta decât o
simplă ipoteză ce nu ar putea fi testată, indiferent de metoda de prelevare utilizată.
87
ansamblul caracteristicilor reţinute pentru a asigura identitatea între eşantion şi populaţia de
referinţă. Stabilirea variabilelor de control are în vedere obiectivul studiului şi tipul populaţiei
de referinţă.
Pentru alegerea criteriilor de cotă, de structurare este recomandabil să se ţină seama de
următoarele îndrumări : definirea varibilelor pe baza întrebărilor cuprinse în eşantion,
folosirea ca variabile de control doar acelea pentru care se poate defini o distribuţie statistică
pentru populatia de referinţă, limitarea numărului de criterii de cotă, ce trebuie să fie
independente, fără să cuprindă conotaţii psihologice şi formate din unităţi statistice cu un grad
cât mai mare de omogenitate. Dacă se respectă aceste condiţii se poate obţine un eşantion
sensibil apropiat de un eşantion extras pe baza procedeelor aleatoare.
De exemplu, într-un sondaj statistic organizat la nivelul Municipiului Bucureşti, cu
scopul identificării preferinţelor cursanţilor pentru calculatoarelor personale şi produse
program, pentru identificarea segmentelor ţintă pe diferite tipuri şi categorii de cursanţi pot fi
alese ca variabile de control categoria - socio profesională, vârsta, gradul de educaţie,
structura populaţiei după aceste variabile de segmentare fiind publicate în urma ultimului
recensământ.
Această metodă este de departe cea mai utilizată metodă în studiile de piaţă, deoarece
necesită un buget redus de cheltuieli, fiind mai puţin costisitoare decât orice metodă de
eşantionare aleatoare, proiectarea nu este laborioasă, rezultatele se obţin operativ, într-un timp
scurt şi de fapt este singura metodă posibilă dacă nu există bază de sondaj.
88
Deşi metodele prezentate mai sus nu respectă principiile eşantionarii aleatoare, sunt
folosite destul de des în sondajele de piaţă, fiind efectuate de specialişti în domeniul
marketing-ului, ce contribuie prin cunoştinţele şi experienţa acumulată la atenuarea
dezavantajelor acestor metode de eşantionare.
În practică, se pot combina metodele de eşantionare aleatoare cu cele dirijate,
obţinându-se o combinaţie de avantaje şi atenuarea dezavantajelor fiecăreia. Un exemplu îl
constituie selecţia stratificată. În selecţia stratificată se împarte întreaga populaţie în straturi
(grupe) după criterii de stratificare corespunzătoare scopului sondajului, şi se alege din fiecare
strat cate un subeşantion folosind procedeul aleator de selecţie.
Eşantionarea stratificată se recomandă a se utiliza în studiul fenomenelor economico-
sociale de masă şi în mod special în studierea fenomenelor de piaţă, caracterizate printr-un
grad mare de eterogenitate. Pentru a creşte gradul de omogenitate populaţia de referinţă se
împarte mai întâi pe grupe omogene. Aplicând în continuare selecţia aleatoare în fiecare
grupă, subeşantionul obţinut va fi omogen. Erorile de sondaj rezultate vor fi mai mici decât în
cazul extragerii eşantionului din populaţia totală neîmpărţită pe clase omogene.
Orice măsurare statistică conţine erori. O posibilă clasificare a erorilor, din mulţimea
posibilităţilor de grupare şi clasificare existente poate fi: erori sistematice, grosolane şi
aleatoare Erorile sistematice sunt determinate de acţiunea unor factori ale căror cauze de
apariţie pot fi stabilite, iar apoi eliminate. Apariţia erorilor grosolane este legată de încălcarea
condiţiilor de efectuare a experimentului sau a observaţiei. În teoria erorilor se dau criterii de
depistare a erorilor grosolane. Obiectul teoriei erorilor îl constituie numai erorile aleatoare,
care sunt determinate de acţiunea unor factori greu de depistat, din care cauză efectul acţiunii
lor este inevitabil. Erorile de sondaj mai sunt clasificate în erori de înregistrare, comune
tuturor tipurilor de observare, şi erori de reprezentativitate, specifice sondajului. Erorile de
reprezentativitate sunt la rândul lor: sistematice şi întâmplătoare.
Din punctul de vedere al posibilităţii controlului erorilor, în literatura americană de
studiu al pieţei, erorile mai sunt clasificate în două mari grupe:
1. Erori ce pot fi previzionate: acestea sunt controlabile şi au drept cauze măsurările
statistice ale datelor continue şi rotunjirile efectuate pentru a obţine rezultate discrete conform
conţinutului caracteristicii statistice, deci ele sunt probabile - sau de sondaj şi de calcul -
89
ambele tipuri putând fi estimate şi efectele lor controlate. Prin operaţiunea matematică de
rotunjire a valorilor înregistrate se induc erori ce se amplifică dacă rotunjirea continuă în faza
de analiză.
Drept urmare putem afirma că datele sunt rotunjite din următoarele motive:
Dacă caracteristica observată este continuă în anumite cazuri este necesară rotunjirea
pentru a putea exprima magnitudinea datei (de obicei se păstrează doar două zecimale)
Pentru caracteristicle discrete rotunjirea are drept scop respectarea caracterului întreg
al acestora.
2. Erori ce nu pot fi previzionate: acestea sunt necontrolabile şi se datorează:
înregistrărilor incomplete sau incorecte, definirii ambigue a caracteristiclor sau unităţilor
statistice ce sunt studiate.
Identificam doua tipuri de erori de sondaj din punctul de vedere al utilizarii tehnicilor
de esantionare:
Principalele cauze ale erorilor sistematice sunt alegerea deliberată a unor date
considerate în mod greşit ca fiind reprezentative, alegerea la “întâmplare” ce diferă esenţial de
alegerea după principiile probabilistice, dorinţa voită a cercetătorului de a demonstra o
anumită concluzie, substituirea unei unităţi de cercetare cu altă unitate, în mod voit şi
cuprinderea incompletă în sondaj a unităţilor de cercetare.
Spre deosebire, erorile aleatoare de selecţie apar din procesul de sondaj. Aceste erori
se produc chiar dacă se respectă principiile probabilistice, deoarece eşantionul nu reproduce
perfect distribuţia populaţiei generale. Dacă sondajul este probabilistic, aceste erori pot fi
calculate cu anticipaţie. Estimarea parametrilor din populaţia generală se va efectua pe baza
90
indicatorilor de sondaj, corectaţi cu o eroare de reprezentativitate ce se găseşte într-un anumit
interval probabilistic. Aceste analize de perspectivă şi aceste proiecţii ale rezultatelor
sondajului asupra populaţiei de referinţă, fac din metoda sondajului un puternic instrument în
procesul luării deciziilor în mediul economico-de piaţă.
x̄−μ
Dacă z este: Z=
σ /√n
Niveluri de
incredere a a/ 2 z
0.90 0.10 0.05 1.645
0.95 0.05 0.025 1.96
0.98 0.02 0.01 2.33
0.99 0.01 0.005 2.575
.
, adica
σ σ
x̄±z α /2 = x̄±1 . 96
√n √n
Unde
n = volumul eşantionului
92
σ = dispersia variabilei în populaţia mama din care a fost extras eşantionul.
adică:
x̄±e
Dimensiunea eşantionului – sondaj simplu aleator, s cunoscut, procedeul de selecţie cu
bila revenită este:
[ ]
2
z σ
n= α /2
e
Se aplică datelor nominale şi frecvenţelor relative. Estimatorul folosit pentru inferenţă este
indicatorul de sondaj, p, proporţia calculată pentru eşantion.
x
p= unde
n
x−numarul cazurilor de succes .
n−volumul esantionului .
93
În anumite condiţii, proporţia în eşantion este normal distribuită cu media m = π
(proporţia din populaţie) şi dispersia = p(1 - p). Dacă procentul din populaţie este π, valoarea
z va fi:
p− procent din
Z= populatie
√ p ( 1− p) / n
Greutatea specifică a unităţilor din cadrul colectivităţii totale, care posedă o anumită
caracteristică (luată în considerare în momentul formării eşantionului) poate fi estimată, cu o
precizie antecalculată, astfel încât ea poate lua valori într-un interval de forma:
, adica
p±eroarea de sondaj
= p±e=p±z α / 2 √ p ( 1− p )/ n
În acest caz, dispersia din populaţie nu este cunoscută, fiind π (1 - π). Pentru
caracteristica alternativă se va putea estima nivelul lor absolut în carul colectivităţii totale, ca
un produs între limitele intervalului de încredere şi volumul întregului fenomen, adică:
[ ]
2
z α /2 √ p(1−p )
n=
e
94
1.2 Volumul eşantionului poate să scadă, ceea ce determină creşterea cheltuielilor de
înregistrare şi creşterea erorii limită
1.3 Volumul eşantionului poate să crească, determinând scăderea erorii limită şi a costului de
înregistrare
1.4 Volumul eşantionului poate să se modifice, determinând o mişcare în acelaşi sens a
costului de înregistrare şi în sens contrar a erorii limită
2. Un eşantion de volum normal corespunde:
a) repartiţiei Gauss-Laplace
b) repartiţiei Student
c) repartiţiei binomiale
d) Repartiţiei t
e) altei repartiţii, precizaţi care anume ...
3. Nu constituie un avantaj al sondajului:
a) operativitatea
b) costul diminuat comparativ cu cel al unei cercetări totale
c) complexitatea informaţiilor culese
d) erorile de înregistrare reduse
e) prezentarea prin sondaj a unei situaţii existente la un moment dat, fără a evidenţia
dinamica fenomenului
4. În ce domeniu se pot folosi doar cercetările selective şi nu cele totale:
a) cunoaşterea veniturilor populaţiei
b) controlul calităţii produselor prin metode distructive
c) cunoaşterea preferinţelor clienţilor
d) cunoaşterea structurii populaţiei unui oraş
e) cunoaşterea structurii efectivelor de animale
5. Raportul dintre eroarea limită şi eroarea medie de selecţie, într-un sondaj repetat, în care
rezultatele sunt garantate cu o probabilitate de 95%, este:
a) supraunitar
b) subunitar
c) negativ
d) pozitiv
95
e) mărimile nu se pot compara
6. Erorile probabile de sondaj sunt în raport cu erorile de înregistrare:
a) mai mici cu cât volumul eşantionului creşte
b) constante, indiferent de volumul eşantionului
c) întotdeauna egale
d) din ce în ce mai mici pe măsură ce volumul eşantionului scade
e) ocupă întotdeauna ponderea cea mai mare din totalul erorilor
7. Se cunosc datele despre distribuţia a 50 de candidaţi admişi la o facultate din Bucureşti
după media la examenul de admitere (candidaţii au fost aleşi din listele de admitere) aleatoriu
si nerepetat:
Grupe de candidaţi după media la examenul
Număr candidaţi
de admitere
7,75-8,07 5
8,07-8,39 12
8,39-8,71 11
8,71-9,03 9
9,03-9,35 4
9,35-9,67 9
Total 50
Se cere:
1) Să se verifice reprezentativitatea eşantionului candidaţilor după media la examenul de
X
admitere ştiind că media la admitere pe total colectivitate ( 0 = 8,02).
2) Să se calculeze eroarea medie probabilă de selecţie.
3) Eroarea maximă admisă dacă rezultatele se garantează cu o probabilitate de 95,45%
pentru care z = 2 ştiind că volumul colectivităţii totale a fost de 655 candidaţi.
4) Să se estimeze limitele între care se va încadra media la admitere a tuturor candidaţilor.
5) Să se determine noul volum de selecţii care va fi necesar, dacă eroarea limită admisă se
reduce de 1,5 ori, iar probabilitatea cu care se garantează rezultatele rămâne
neschimbată (respectiv
z = 2).
6) Să se determine dacă argumentul funcţiei Gauss Laplace va rămâne neschimbat prin
micşorarea erorii limită admisă de la punctul anterior.
1.1 C
1.2 C
1.3 B
1.4 A
2. a
96
3. e
4. b
5. a
6. a
7. Rezolvare:
Notaţii:
N = volumul colectivităţii generale
n = volumul eşantionului
X = media colectivităţii generale
0
Media (
X ):
( x i− a
)
m
∑ k
i=1
m
72
X = ∑ ni 50
- prin calcul simplificat: i =1
k + a = 0,32 + 8,23 =
= 8,69 puncte/candidat
97
Deoarece dc/0 +5% se consideră că eşantionul este reprezentativ. Din punct de vedere
al semnului coeficientul e pozitiv deci putem afirma că media eşantionului este mai mare
decât media tuturor candidaţilor cu 0,06 puncte.
√ √
2
( ) ( ) = 0,069 puncte/candidat.
σi n 0 ,2635 50
σ X= 1− = 1−
n N 50 655
X
X = z = 2 0,069 = 0,138 puncte/candidat.
4) Estimarea intervalului de încredere a mediei la admitere a tuturor candidaţilor se
determină după relaţia:
X X X
- X 0 ( + X)
X
0,69 – 0,139 0 8,69 + 0,19
8,55 puncte 8,62 8,82 puncte
În cazul selecţiei aleatoare simple fără revenire erorile sunt mai mici decât în cazul
selecţiei cu revenire, deci estimarea medie la admitere a tuturor candidaţilor este corectă.
Media tuturor candidaţilor se va încadra între nota cea mai mică 8,55 puncte şi nota cea mai
mare d e8,82 puncte.
5) Volumul noului eşantion este dat de relaţia:
z 2⋅σ 2i 22⋅0 ,2635
=
z 2⋅σ i2
2 2⋅0 , 2635
2
Δ'X + ( 0 , 092 )2 +
N 655
n’ = = 105,4 105 candidaţi
Δ X 0 , 139
=
1, 5 1 ,5
unde: ’X = = 0,092 puncte/candidat
Dacă eroarea limită admisă se micşorează de 1,5 ori, atunci volumul eşantionului va
trebui să crească cu (105 – 50 = 55 candidaţi).
Se observă că volumul noului eşantion în cazul selecţiei aleatoare simple fără revenire
este mai mic decât volumul noului eşantion în cazul selecţiei aleatoare simple cu revenire
deoarece însăşi procedeul de formare a eşantionului conduce la erori mai mici decât procedeul
selecţiei aleatoare cu revenire.
Δ' X 0 ,092
=
σX 0 , 069
6) z’ = = 1,31 (z’) = (1,31) = 0,8098 sau 80,98% rezultat din
tabelele funcţiei Gauss Laplace.
98
10. Teme de autocontrol
1. O şarjă de 100 de bucăţi este supusă controlului de calitate, prin testarea unui eşantion de
10% din totalul şarjei. Şarja este respinsă dacă se găsesc mai mult de două produse
defecte. Pe termen lung, procentul de şarje respinse va fi:
a) 10%
b) 5%
c) 2%
d) nu se poate preciza
e) răspunsurile anterioare sunt false, varianta corectă este ...
99
Număr clienţi 5 12 8 7 3
Se cere:
a. Să se determine valoarea medie a depozitelor bancare şi să se stabilească dacă
distribuţia clienţilor pe grupe după depozitele bancare este omogenă;
b. Dacă eşantionul celor 35 clienţi este extras dintr-o colectivitate de 100, estimaţi
limitele între care se încadrează valoarea totală a depozitelor bancare pentru
colectivitatea generală, dacă rezultatele se garantează cu o probabilitate de 95% (z=1,96);
c. În condiţiile în care s-a derulat un sondaj simplu aleator, estimaţi limitele între care se
încadrează ponderea clienţilor cu depozite bancare mai mici de 10 unit. monetare de la
nivelul colectivităţii, dacă rezultatele se garantează cu o probabilitate de 95,45% (z=2).
6. Referitor la valoarea vânzărilor unui produs se cunosc datele rezultate din înregistrarea a
10% din valoarea vânzărilor pentru acest produs la cinci magazine: 3100 u.m., 8200 u.m.,
1600 u.m., 5400 u.m., 2900 u.m. Eroarea limită garantată cu o probabilitate de 0,95 este:
a) 3000
b) 3300
c) 3230
d) 3320
e) nu se poate calcula
[ ]
2
z α /2 σ
n=
e
b. Interval de încredere pentru media populaţiei ( σ necunoscut)
Dacă nu se cunoaşte deviaţia standard din populaţie, s, se va înlocui cu valoarea estimatorului
acesteia, deviaţia standard din eşantion, s.
Inferenta asupra unei proportii
100
Se aplică datelor nominale şi frecvenţelor relative. Estimatorul folosit pentru inferenţă este
indicatorul de sondaj, p, proporţia calculată pentru eşantion.
x
p= unde
n
x−numarul cazurilor de succes .
n−volumul esantionului .
p− procent din
Z= populatie
√ p ( 1− p) / n
Greutatea specifică a unităţilor din cadrul colectivităţii totale, care posedă o anumită
caracteristică (luată în considerare în momentul formării eşantionului) poate fi estimată, cu o precizie
antecalculată, astfel încât ea poate lua valori într-un interval de forma:
, adica
p±eroarea de sondaj
= p±e=p±z α / 2 √ p ( 1− p )/ n
In acest caz, dispersia din populatie nu este cunoscuta, fiind π (1 - π). Pentru caracteristica
alternativă se va putea estima nivelul lor absolut în carul colectivităţii totale, ca un produs între
limitele intervalului de încredere şi volumul întregului fenomen, adică: . In acest caz
volumul
[ ]
2
z α /2 √ p(1−p )
n=
e
1. Bădiţă, M., Cristache S. E., Şerban, D., Teste grilă de statistică , ed. Amalteea, , 81 pg.,
Bucureşti, 1998.
2. Cristache, S.E., Şerban, D., Lucrări aplicative de Statistică şi Econometrie, Ed. ASE,
Bucureşti, 2007, 433 pg.
101
3. Isaic Maniu, Al., Voineagu, V., Mitruţ, C., Baron, T., Ţiţan, E., Matache S., Şerban D.,
Voineagu, M., Statistică teoretică. Studii de caz şi aplicaţii, Ed. Economică, 255 pg.,
Bucureşti, 1998.
4. Şerban, D., „Statistica pentru studii de marketing si administrarea afacerilor”, ed. ASE,
2004.
102
CURS STATISTICĂ - Unitatea de învăţare nr. 9
Cuprins:
103
2. Tipuri de legături statistice
Legăturile ce se pot forma sunt legături stohastice, în care un fenomen este factor de
influenta, iar celălalt este efect. Statistica, printr-o gamă largă de procedee şi metode
specifice, poate studia manifestarea concretă a acestor legături, le poate exprima cantitativ şi
măsura intensitatea cu care se produc. Legătura (dependenţa) statistică se caracterizează prin
faptul că, la modificarea unui factor de influenţă, factorul influenţat răspunde cu o distribuţie
de valori.
Legăturile statistice se pot clasifica astfel:
1) După natura relaţiei de cauzalitate distingem:
a) legături funcţionale. Acestea se manifestă între două fenomene în care unul este cauza iar
celălalt efectul. Se întâlnesc în natură, tehnică etc. Dacă se notează fenomenul cauză cu “x” şi
fenomenul efect cu “y” atunci relaţia matematică este: y = f(x)
b) legături statistice (stohastice) apar atunci când fenomenul efect este rezultatul combinării
influenţei mai multor cauze, care pot acţiona în condiţii egale sau diferite. Relaţia matematică
este: y = f(x1,x2,………..,xn), unde: x1, x2, ..., xn – sunt valorile fenomenelor cauză care au fost
înregistrate; y = valorile fenomenului efect.
☺ Exemplu
O legatura stohastica este legătura dintre capacitatea de cazare (x i) şi valoarea încasărilor din
activitatea hotelieră (yi). Între cele două caracteristici există o legătură statistică pentru că
asupra încasărilor acţionează şi alte cauze: tarifele practicate, gradul de confort etc.
☺ Exemplu
Un exemplu de legătura simpla este cea dintre suprafaţa comercială şi valoarea vânzărilor.
104
yn) de o variabilă factorială (xi). Ecuaţiile de estimare sunt: y = f(x1, x2, x3,...,xn) şi y1, y2,...,
yi,...yn = f(xi).
☺ Exemplu
Un exemplu de legătura multiplă este cea dintre valoarea încasărilor ce depinde de zona de
amplasare (x1), de categoria de confort (x2), de baza materială (x3) etc.
☺ Exemplu
O astfel de legatura este legătura dintre dinamica desfacerilor de mărfuri şi dinamica
câştigului mediu salarial.
105
3. Metode simple de stabilire a existenţei şi a formei de legătură dintre
fenomenele şi procesele economico-sociale
Pentru a caracteriza legătura dintre fenomene, se pot folosi mai multe procedee ce se
încadrează în categoria metodelor simple de caracterizare a legăturilor. Aceste metode sunt
uşor de aplicat şi se bazează pe analiza calitativă a variabilelor corelate, oferind informaţii
asupra naturii şi trăsăturilor esenţiale ale legăturii cercetate.
Metodele simple de caracterizare a legaturilor stohastice sunt urmatoarele:
1) Metoda seriilor paralele interdependente are la bază serii paralele de date, obţinute prin
operaţia de centralizare la nivelul unităţilor simple sau complexe, fără a fi grupate. Se pot
folosi serii: de timp, de spaţiu şi atributive. Această metodă ne oferă posibilitatea de a stabili
existenţa legăturii şi direcţia de realizare a acesteia, prin analiza valorilor perechii x, y.
Această metodă este mai puţin sugestivă în cazul seriilor formate dintr-un număr foarte mare
de termeni şi implică într-o măsură importantă subiectivismul cercetătorului.
2) Metoda grupărilor este o metodă de sistematizare a datelor pe baza căreia se pot cerceta
legăturile (conexiunile) statistice. Se poate folosi gruparea simplă sau gruparea combinată.
☺ Exemplu
Despre 22 de salariaţi ce activează în ramura comerţului se cunosc datele:
106
3) Metoda tabelului de corelaţie presupune utilizarea unui tabel combinat cu dublă
intrare care ne sugerează existenţa legăturii, direcţia de realizare a ei şi unele aprecieri
empirice privind intensitatea legăturii prin analiza modului în care frecvenţele comune (n ij) se
distribuie în rubricile interioare ale tabelului. Dacă frecvenţele n ij tind a se concentra către cele
două diagonale trasate în tabelul următor, legătura între x i şi yj va fi intensă. În schimb, dacă
se împrăştie la întâmplare în reţeaua tabelului, legătura este slabă sau poate lipsi. În
concluzie, procedeul tabelului de corelaţie este o combinare a metodei grupării cu
principiile de construire şi interpretare a unei reprezentări grafice.
Metodele analitice iau în consideraţie valorile reale ale varibilelor corelate şi parametrii
corespunzători acestora. Acestea poartă denumirea de metode parametrice şi sunt:
107
1) metoda regresiei;
2) metoda covarianţei;
3) metoda raportului de corelaţie;
4) metoda coeficientului de corelaţie;
5) metoda analizei dispersionale.
1) Metoda regresiei reprezintă o metodă statistică de analiză a legăturii dintre variabile cu ajutorul
unor funcţii, numite funcţii de regresie. Funcţia de regresie se alege printr-o modalitate empirică
folosind graficul de corelaţie (corelograma) si prin aplicarea testelor de semnificaţie (de exemplu:
testul “F” de analiză dispersională). În funcţie de numărul de variabile incluse în model,
distingem: regresie unifactorială (o varibilă factorială xi şi o variabilă rezultativă yi) şi
regresie multifactorială (mai multe variabile factoriale şi o singură variabilă rezultativă).
a) Regresia unifactorială liniară are la bază ecuaţia dreptei (funcţia de gradul întâi):
y x =a+bx i
i
108
a legăturii avem: f = ∑ ( y i−a−bx i )2 = minim. In functia de mai sus condiţia de minim a unei
funcţii de două derivabile se anulează când derivatele parţiale, în raport cu cei doi parametri
df df
=2 ∑ ( y i −a−bx i )(−1)=0
db ∑ i
=2 ( y −a−bx i )(−x i )=0
(a, b), sunt: da si
{∑
a
na+ b ∑ x i=∑ y i
x i +b ∑ x 2i =∑ x i y i
; i= 1,n . Rezolvand sistemul se calculeaza termenul liber, a, si panta
∑ yi ∑ xi | |
Δa ∑ x i y i ∑ x i ∑ y i ∑ x i −∑ x i ∑ x i y i
2 2
a= = =
Δ
|
n ∑ xi | n ∑ x i −( ∑ x i )
2 2
∑ xi ∑ xi ;i=1,n
2
dreptei, b, dupa metoda determinantilor, astfel:
|
n ∑ yi |
Δb ∑ x i ∑ xi y i = n ∑ x i y i−∑ x i ∑ y i
b= =
Δ
|
n ∑ x i | n ∑ x 2i −( ∑ x i )2
∑ xi ∑ xi y i ; i = 1,n
Interpretarea pantei: daca b > 0 ⇒ legătura de corelaţie este directă (pe măsură ce
cresc valorile lui xi cresc şi valorile ecuaţiei de regresie calculate); daca b < 0 ⇒ legătura de
corelaţie este inversă (pe măsură ce creşte valoarea caracteristicii factoriale (xi) scade valoarea
caracteristicii rezultative (yi) si daca b = 0 ⇒ cele două variabile sunt independente şi yxi = 0.
Funcţia de regresie exprimă statistic modul în care caracteristica rezultativă (y i) se modifică,
dacă ar influenţa numai caracteristica factorială (x i), iar ceilalţi factori sunt consideraţi cu
acţiune constantă.
a) y b) y
tgα x tgα x
a < 0 şi b > 0 ⇒ legătură directă a > 0 şi b < 0 ⇒ legătură inversă
figura 1.1 figura 1.2
c) y d) y
109
figura 1.3 figura 1.4
Fig. 1 Interpretarea geometrică a parametrilor
{ ∑∑a
a ni + b ∑ xi ni=∑ yi n i
x i ni +b ∑ x 2i n i= ∑ x i y i ni
⇒ a= ∑ xi ni⋅∑ y i n i−∑ x i ni⋅∑ x i yi n i
2
∑ n i⋅∑ x 2i ni −( ∑ x i ni )2
⇒ b=
∑ ni⋅∑ x i y i ni−∑ x i ni⋅∑ y i ni
∑ ni⋅∑ x2i ni−(∑ x i ni )2
Pentru cazul (2) (grupare combinată) rezultatele se prezintă într-un tabel combinat cu
dublă intrare, iar sistemul de ecuaţii se determină prin analogie cu cel de la cazul (1):
{
K m K m
a ∑ ∑ n ij +b ∑ x i ni=∑ y j n j
i j i j
K K K m
a ∑ x i ni +b ∑ x i n i=∑ ∑ x i y j nij
2
i i i j
110
Pentru stabilirea intensităţii legăturii dintre două varibile (x i, yi) se calculează un
indicator sintetic de corelaţie numit “raport de corelaţie” simbolizat cu Rx/y. Acesta permite
măsurarea gradului de intensitate a realizării legăturii dintre caracteristica considerată factor
de influenţă (xi) şi caracteristica rezultativă (yi), indiferent de forma legăturii: liniară sau
neliniară. Calculul se bazează pe descompunerea variaţiei totale (dispersiei) a caracteristicii
rezultative “y” astfel:
( y i− y 0 ) = ( y i− y x )
i
+ ( y x − y0 )
i
i i 0
¿ ∑ ( y i− y x )2 i
+ ∑ ( y x − y 0 )2
i
↓ ↓
¿ ¿ ∑ ( y i − y x )2 ¿ ∑ ( y x − y 0 )2
⇒ ¿ n
i
+ n
i
¿ ¿ ↓
¿
↓
σ 2y = σ 2y + σ 2y
⇒ r x
↓
↓ ↓
Dispersia totală: arată
influenţa tuturor factorilor Dispersia reziduală: arată Dispersia sistematică:
esenţiali şi întâmplători acea parte din variaţia arată influenţa factorului
care determină variabilei rezultative “yi” “xi” asupra variaţiei
variaţia totală a variabilei datorată acţiunii factorilor caracteristicii
rezultative “yi” întâmplători rezultative “yi”
√
∑ ( y i − y x )2
√ √ √ √
∑ ( y i − y xi )
i 2
2 2 2 2
σ y/x σ y −σ y /r σ y/ r
n
⇒ R y / x= √ R2y / x = = = 1− 2 = 1− = 1−
⏟ σ 2y σ 2y ⏟ σy ∑ ( yi − y0 )2
∑ ( y i− y 0 )2
⏟
( 1)
( 2) n (3 ) ; i = 1,n
111
Formula de calcul simplificat a raportului de corelaţie se determină astfel:
√
R y / x = 1−
∑ y 2i −a ∑ y i−b ∑ x i y i
( ∑ y )2
∑ y 2i − n i
; i = 1,n . Raportul de corelaţie ia valori în intervalul [0,1]
= 0 – lipsă de legătură (varibilele sunt necorelate)
→ 0 – legatură foarte slabă sau poate lipsi
Ry/x[0,1] = 1 – legătură de tip funcţional, variabila “yi” depinde în
exclusivitate de variabila “xi”
→ 1 – legătură puternică, intensă
În cazul legăturilor de tip invers, semnul raportului de corelaţie este dat de către semnul
coeficientului de regresie (b). În funcţie de informaţiile folosite în calcul şi de modelul lor de
sistematizare, raportul de corelaţie se calculează în următoarele două cazuri:
1) Număr mic de informaţii, în care se dau valorile x i, yi, caz în care Ry/x se calculează
după formulele 1,2,3, explicitate anterior;
2) Număr mare de informaţii:
a) se dau valorile lui xi, yi şi ni frecvenţele lor comune:
R y/x=
√ 1−
∑ ( y i − y x )2 ni
∑ ( y i − y )2 ni
i
; i = 1,n
√
= 1−
∑ y 2i ni−a ∑ y i ni−b ∑ xi y i n i
( ∑ y i ni )2
∑ y 2i n i−
∑ ni ; i = 1,r
b) se dau valorile lui x i, frecvenţele după variabila x i (ni), frecvenţele după variabila
yj (nj) şi frecvenţa comună nij:
R y /x =
√ 1−
∑ ( y j− y x )2 nij
i
∑ ( y j− y 0 )2 n j
=
√ 1−
∑ y 2j n j −a ∑ y j n j−b ∑ x i y j nij
( ∑ y j n j )2
∑ j jy
2
n −
= ∑ nj ; j = 1,m ; i = 1,K
4) Metoda coeficientului de corelaţie
Coeficientul de corelaţie este un indicator sintetic prin care se măsoară legătura dintre
două variabile (xi, yi) statistice a căror distribuţie este asimptotic normală sau normală.
Calculul coeficientului de corelaţie se bazează în forma iniţială pe produsul abaterilor normale
normate (pentru un număr de date individuale negrupate):
112
x i−x
Zx=
σx
y −y
Z y= i
σy
Coeficientul de corelaţie se calculează ca o medie a produselor abaterilor normale
normate:
( )( )
x i−x yi− y
∑
r y /x =
σx σy
=
∑ ( x i−x )( yi − y )
n nσ x⋅σ y ; i = 1,n
√
n ∑ x i y i−∑ xi ∑ yi
σ y=
∑ ( y i− y )2
n se obţine relaţia: ry/x = √[ n ∑ x 2i −( ∑ x i )2 ][ n ∑ y 2i −( ∑ y i )2 ] ; i = 1,n (2)
cov ( x i , y i )
σ x ⋅σ y
Folosind covarianţa: ry/x = i i
Interpretare:
1) ry/x ∈ [-1,1] ⇒ apreciem din punct de vedere al semnului direcţia legăturii şi din
punct de vedere al mărimii intensitatea legăturii.
Dacă: ry/x = 0 ⇒ legătura lipseşte şi variabilele xi şi yi sunt independente;
ry/x → 0 ⇒ legătura dintre cele două varibile este slabă;
ry/x = 1 ⇒ legătură de tip funcţional (fie directă dacă semnul coeficientului este
pozitiv, fie inversă dacă semnul coeficientului este negativ);
ry/x → 1 ⇒ variabilele sunt puternic corelate, legătura fiind intensă.
2) ry/x = Ry/x se apreciează că legătura de corelaţie este de forma liniară, ceea ce
înseamnă că se poate folosi fie coeficientul, fie raportul de corelaţie.
3) Valoarea coeficientului de corelaţie depinde de forma liniei de regresie, motiv pentru
care acest indicator este semnificativ pentru corelaţiile de tip liniar şi mai puţin semnificativ
pentru corelaţiile de tip neliniar (în cazul din urmă folosindu-se raportul de corelaţie).
4) În cazul legăturii liniare se mai poate calcula ca o medie geometrică a coeficienţilor
de regresie (b) astfel:
r y /x =√ b y /x⋅b x / y
113
n ∑ x i y i−∑ xi ∑ y i
b y / x=
n ∑ x 2i −( ∑ x i )2
n ∑ x i y i−∑ xi ∑ y i
bx/ y=
n ∑ y i −( ∑ y i ) ; i = 1,n
2 2
unde:
Coeficientul de corelaţie se calculează în funcţie de datele folosite în analiză şi de modul
în care au fost sistematizate informaţiile. Astfel:
a) - număr mic de informaţii în care se dau valorile lui x i, yi sub forma a două serii
paralele; ry/x se calculează după formula (1), (2) şi (3) prezentate anterior.
b) - număr mare de informaţii, cunoscându-se xi, yi şi frecvenţele lor comune (ni)
r y /x =
∑ ( x i−x )( yi − y )ni
∑ ni σ x⋅σ y ; i = 1,n
unde:
x=
∑ ni x ∑ ni √
∑ x i ni ; y = ∑ yi ni ; σ = ∑ ( xi −x )2 n i ; σ = ∑ ( y i− y )2 ni
∑ ni y
∑ ni ; i = 1,n√
Înlocuind în formula (1) a lui ry/x se obţine:
r y /x =
∑ ni ∑ x i y i ni −∑ x i ni ∑ y i ni
√[ ∑ n i ∑ x2i ni−(∑ xi ni )2 ][ ∑ ni ∑ y2i ni −( ∑ yi n i )2 ] ; i = 1,n
c) se cunosc valorile lui xi, yj, ni, nj, nij, obţinute prin gruparea combinată, rezultatul
fiind prezentat într-un tabel combinat cu dublă intrare şi atunci relaţia de calcul devine:
∑ ∑ n ij ∑ xi y j nij −∑ x i ni ∑ y j n j i=1,n
i j
r y /x =
√[ ∑ n ∑ x n −(∑ x n ) ][ ∑ n ∑ y n −(∑ y n ) ]
i
2
i i i i
2
j
2
j j j j
2
; j=1,m
5) Metoda analizei dispersionale. Raportul de determinare
O modalitate eficientă folosită în caracterizarea conexiunilor este metoda analizei
dispersionale (metoda coeficientului de determinare), care se poate folosi în mai multe cazuri
şi anume: la verificarea independenţei unui fenomen comercial sau turistic, la verificarea
stabilităţii mediei şi dispersiei pentru mai multe eşantioane succesive, la verificarea
dependenţei unui fenomen comercial sau turistic de factorii săi de influenţă . Dacă analiza
dispersională se utilizează după aplicarea corelaţiei statistice, atunci aceasta este considerată o
metodă prin care se testează semnificaţia curbei (funcţiei) de regresie explicitate.Analiza
dispersională are la bază metoda grupării, prin care unităţile observate se separă în grupe după
variaţia caracteristicii de grupare (considerat factor de influenţă). Aplicarea acesteia are la bază
gruparea combinată (după cele două variabile x i şi yj). Poate fi utilizată atât ca metodă simplă
de caracterizare a corelaţiilor, prin care se stabileşte dacă variabila factorială influenţează
114
semnificativ variabila rezultativă, dar şi ca metodă analitică de combinare a acesteia cu
analiza regresiei. Analiza dispersională se poate utiliza în următoarele situaţii: înainte de
aplicarea metodei corelaţiei, caz în care se poate verifica gradul de semnificaţie a factorului
considerat principal pentru producerea variaţiei caracteristicii rezultative si după utilizarea
metodei regresiei şi corelaţiei, caz în care se poate verifica corectitudinea funcţiei matematice
cu ajutorul căreia s-au estimat valorile caracteristicii rezultative în raport cu variaţia
caracteristicii factoriale.
Pentru prezentarea modelului analizei dispersionale prin care se testează forma de
legătură, pornim de la variaţia totală a varibilei (Y) care se descompune în următoarele trei
elemente: (yj -
y 0 ) = (y - y i ) + ( y i - y ) + (y - y 0 ),
j xi xi
unde:
y 0 = media totală a variabilei Y
yj = valorile variabilei Y
y i = mediile condiţionate ale variabilei Y
Yxi = valorile ajustate ale variabilei “Y” în funcţie de “X”
dispersiile medii corelate ale variabilei Y, respectiv dispersia totală S 2y, dispersia în postura
de estimaţii ale dispersiei totale, adică: Pentru măsurarea dependenţei legăturii între variabila
endogenă şi factorii de regresia se calculează raportul de determinare (R 2).
SSR SSE
R2 = =1−
SST SST
Calculele necesare determinării lui R 2 sunt realizate din cadrul unei analize dispersionale
(ANOVA).
Tabel ANOVA pot fi folosite pentru modelul de regresie
Sursa variabilei Suma pătratelor Grade de libertate Media sumei pătratelor
Regresia reziduală SSR K-1 MSSR=SSR/K-1
SSE T-K MSSE=SSE/T-K
TOTAL SST T-1
115
Rezultatele ANOVA pot fi folosite pentru construirea testului F
MSSR
F=
MSSE
F urmează o distribuţie Fisher cu K-1 şi T-K grade de libertate. Pentru un prag de semnificaţie
α se stabileşte valoarea teoretică Fα;K-1;T-K
Dacă:
F cal < Fα;K-1;T-K – influenţa regresiei diferă semnificativ de cea a factorilor reziduali;
deci modelul este valid.
F cal > Fα;K-1;T-K – modelul este invalid.
De asemenea dacă:
• F calc > F teoretic atunci apreciem că legătura dintre X, Y este semnificativă şi se pot aplica
în continuare şi alte metode de calcul statistic pentru a cuantifica legătura dintre X şi
Y.
• F calc < F teoretic legătura nu este semnificativă, variabilele sunt necorelate.
☺ Exemplu
În vederea estimării cheltuielilor lunare pentru alimentaţia publică,
s-a efectuat o cercetare prin sondaj, pe baza unui eşantion de 15%, selectat întâmplător şi
nerepetat din numărul total de persoane. Persoanele chestionate au fost împărţite în cinci
grupe tipice, după veniturile medii lunare nete. În urma înregistrării şi prelucrării datelor, s-au
obţinut rezultatele:
116
2. Să se măsoare intensitatea legăturii dintre veniturile lunare şi cheltuielile medii pentru
alimentaţie publică pentru persoanele din eşantion, folosind un indicator de corelaţie adecvat.
Rezolvare:
Calculam media generala si dispersiile din fiecare grupa aplicand regula de adunare a
dispersiilor:
y=
∑ ȳ i ni = 8⋅150+7⋅150+11⋅300 +15⋅180+18⋅120 =11,2≃11 zecimiiUM
∑ ni 11,8
Deoarece dy% = -5%; n = 975 persoane este reprezentativ.
σ 20=σ 20 + δ 2 σ 20=5 ,34 +14 , 06=19 , 4 ⇒
Regula de adunare a dispersiilor ;
δ2 14 , 06
R2 = 2
⋅100= ⋅100=72 %
σ0 19 , 4
σ 21=
∑ σ 2i ni = 4⋅150+1 , 6⋅225+ 4 , 8⋅300+5 ,1⋅180 +15 ,7⋅120 =5 , 34
∑ n i 975
(δ )
Dispersia dintre grupe:
F calc=
S2y / x
=
Δ 2y / x Δ 2y / z
:
∑ y − y )2 ni ∑ σ 2i ni =
== ( i : n −r
S 2y / z nx nz r−1 ∑ i
b)
13708 , 5 5206 , 5
= : =638 F calc >F teoretic
4 970 638>4 , 62
, Deoarece ; , veniturile lunare
influenţează semnificativ cheltuielile pentru alimentaţia publică.
117
5. Metode neparametrice de măsurare a legaturilor dintre fenomenele
economico-sociale
Aceste metode, pe lângă faptul că pot stabili intensitatea legăturii făcând abstracţie de
tipul de distribuţie, permit măsurarea intensităţii legăturii nu numai pentru caracteristicile
cantitative, dar şi pentru cele calitative. Poartă denumirea de metode neparametrice deoarece
nu iau în calcul întotdeauna valorile variabilelor corelate şi nici parametrii lor corespunzatori.
În concluzie, se folosesc în următoarele situaţii: când distribuţia variabilelor corelate nu e
normală sau asimptotic normală; când nu este cunoscută forma de distribuţie a variabilelor;
când variabilele corelate sunt asimetrice, deci prezintă asimetrie pronunţată sicând avem de-a
face cu variabile calitative şi cantitative care în prealabil necesită o anumită cuantificare.
Metodele neparametrice uzuale sunt:
1) Coeficientul de asociere a lui Yule presupune întocmirea tabelului de asociere, care
este un tabel combinat cu dublă intrare utilizat pentru variabilele de tip alternativ (DA/NU;
F/M; etc.). Tabelulul de asociere este format din două rânduri şi două coloane:
n11 n12
n21 n22
în care în capătul rândurilor se trec valorile celor două caracteristici asociate, iar în interiorul
tabelulului se trec frecvenţele corespunzătoare lor.
Exemplu: Dacă avem în vedere două variabile statistice “x i” şi “yi” şi considerăm că
sunt variabile de tip alternativ, atunci asocierea dintre “xi” şi “yi” se prezintă astfel:
yi
DA NU Total
xi
DA n11 n12 n11 + n12
NU n21 n22 n21 + n22
118
Q → 0 asociere redusă între xi şi yi
Q → ±1 asociere puternică între xi şi yi
Q= ±1 asociere perfectă între xi şi yi
Produsul n11 · n22 = arată gradul de realizare a legăturii între caracteristicile corelate “x i” şi
“yi” si produsul n12 · n21 = arată lipsa legăturii dintre cele două variabile. Avantajul
utilizării: se poate calcula cu multă rapiditate, utilizându-se şi în cazul când datele provin de la
unităţi statistice complexe.
2) Coeficienţii de corelaţie a rangurilor
Coeficienţii de corelaţie se calculează înlocuind valorile individuale ale variabilelor cu
numărul lor de ordine numit RANG. Rangurile se atribuie după ce în prealabil s-au ordonat
datele individuale ale celor două variabile în ordine crescătoare, astfel încât va trebui să
vedem dacă există concordanţă între rangurile caracteristicii factoriale de la 1→ n şi rangurile
caracteristicii rezultative de la 1→ n. Avantajul utilizării acestora:
1) pot fi utilizaţi cu succes şi în cazul unor distribuţii asimetrice;
2) pot fi utilizaţi pentru un număr restrâns de unităţi pentru care nu se poate verifica
reprezentativitatea datelor parţiale.
a) Coeficientul de corelaţie a rangurilor Spearman este o aplicaţie a coeficientului de
corelaţie liniară simplă la distribuţiile celor două şiruri de ranguri. [3]
Acesta se calculează parcurgând următoarele etape:
1) se identifică cele două variabile corelate xi şi yi;
2) se acordă ranguri de regulă crescătoare în aceeaşi manieră atât pentru variabila “xi” cât şi
pentru variabila “yi”;
Rangurile sunt numere de ordine care evoluează în progresie aritmetică cu raţia egală cu 1.
3) se determină diferenţa dintre ranguri (di) şi se ridică la pătrat;
6∑ d 2
i
r S =1− 3
4) se aplică formula de calcul: n −n ∈ [-1,1] ce măsoară intensitatea legăturii dintre
rangurile celor două variabile corelate, unde: di = diferenţa dintre rangurile variabilei “xi” şi
rangurile variabilei “yi”: Rx-Ry si n = numărul perechilor de valori corelate.
Dacă: rS = 0 între rangurile lui “x i” respectiv “yi” nu există legătură (independenţă,
statistică);
rS → 0 legătură foarte slabă sau poate lipsi;
rS → ± 1 legătură puternică;
rS = ± 1 legătură funcţională.
119
b) Coeficientul de corelaţie a rangurilor Kendall; pentru a-l determina se folosesc
valorile variabilelor corelate pentru care se acordă ranguri. Etapele de lucru sunt:
☺ Exemplu
Pentru exemplificare, presupunem că notele înregistrate la examenul de bacalaureat şi media
înregistrată la examenul de admitere la Colegiu Comerţ pentru 10 candidaţi se caracterizează
prin datele:
Media Ranguri
Media d2
admisă P Q S
bacalaureat (xi) i
(yi) Rx i (↑ ) Ry i (↑ )
7,00 6,90 1 4 9 6 3 3
7,07 6,50 2 2 0 7 1 6
7,75 6,00 3 1 4 7 0 7
7,80 7,20 4 6 4 4 2 2
7,90 7,10 5 5 0 4 1 3
8,00 6,80 6 3 9 4 0 4
8,15 7,25 7 7 0 3 0 3
8,65 7,30 8 8 0 2 0 2
9,25 7,80 9 10 1 0 0 -1
9,80 7,60 10 9 1 0 0 0
28 37 7 29
Pentru a caracteriza legătura dintre media la bacalaureat şi media la admitere folosind metode
neparametrice, vom determina cei trei coeficienţi prezentaţi anterior. (Yule, Spearmen,
Kendall). Pentru coeficientul de asociere Yule, se întocmeşte tabelul de asociere, stabilind
120
x=
∑ x i =81 ,37 =8 ,137
poziţia fiecărui candidat faţă de media celor 10 candidaţi: n 10 si
Asocierea dintre “xi” şi “yi”, în raport cu media, va fi:
yi
xi Sub y Peste y Total
Total 4 6 10
n11 n22−n 21 n12 4⋅4−0⋅2 16
Q1 = = = =1
n11 n22 +n21 n12 4⋅4 +0⋅2 16 ∈ [-1,1]
6. Testul de autoevaluare 1
1. Un număr de 150 de studenţi din două centre universitare participă la un examen de burse
în străinătate. Cei 100 de studenţi din prima universitate obţin un punctaj mediu de 88 puncte,
cu un coeficient de variaţie de 8%, iar cei din a doua universitate obţin un punctaj mediu de
96 puncte, cu o abatere standard de 0,65 puncte. În ce măsură factorul de grupare centrul
universitar contribuie la variaţia punctajelor obţinute de studenţi? În ce măsură diferă
semnificativ punctajul de la un centru universitar la altul?
121
3. Din datele furnizate de Ancheta Integrată în Gospodării se cunosc următoarele date pentru
zece familii.
Venituri lunare ce revin în medie pe o Cheltuieli pentru achiziţionarea
Familia
perioadă pe familie (zeci mii u.m) produsului „x” (zeci mii u.m)
1 7,2 3,2
2 9,9 3,8
3 8,5 4,0
4 11,8 5,5
5 19,2 6,2
6 10,9 4,1
7 13,4 5,4
8 12,5 5,9
9 11,5 6,0
10 16,1 6,3
Se cere: Să se caracterizeze şi să se măsoare legătura dintre venituri şi cheltuieli
folosind:
a) graficul de corelaţie;
b) metoda regresiei;
c) metoda raportului de corelaţie;
d) metoda coeficientului de corelaţie;
1. Rezolvare:
Se cunosc următoarele elemente pentru determinarea coeficientului de determinare
( R2 ) :n1 =100 y 1 =88 υ 1=8 %
n2 =50 y 2 =96 σ 2=0 ,65
Coeficientul de determinare ( R ) :
2
•
δ2 14 , 22
R2 = 2
⋅100= ⋅100=30 %
σ0 47 , 40
unde
Dispersia dintre grupe ( δ ) :
2
•
m
∑ ( y i− y 0 )2⋅ni ( 88−90 , 66 )2⋅100+ ( 96−90 , 66 )2⋅50
δ 2 = i =1 m
= =14 , 22
150
∑ ni
i =1
122
• Media dispersiilor de grupă:
m
∑ σ 2i⋅n i
0 , 4225⋅50+ 49 ,56⋅100 4977 ,125
σ 2i = i =1m = = =33 , 18
150 150
∑ ni
i =1
σ1 σ1
υ 1= ⇒ 0 , 08= ⇒σ 1=88⋅0 , 08=7 ,04
υ 1=8 %≈0 , 08 y1 88
Deoarece ,
2. Rezolvare: Notaţii:
x i= zona de amplasare; ni = număr magazine; y i = profitul
2
mediu; σ i = dispersia profitului. Pentru a determina în ce proporţie factorul principal de
grupare influenţează variaţia profitului se determină coeficientul de determinare după relaţia:
δ2 8 , 64
R2 = 2
⋅100= ⋅100=32, 43 %
σ0 26 , 64
. Dispersia dintre grupe:
m
∑ ( y i− y 0 )2⋅ni ( 20−23 ,6 )2⋅107+ ( 26−23 ,6 )2⋅15
i =1
δ 2= m
= =
25 129 , 6+86 , 4
∑ ni 25
=8 , 64
i =1
m
∑ y i⋅n i
20⋅10+26⋅15 590
y 0 = i=1m = = =23 ,6
25 25
∑ ni
i =1
Media pe total colectivitate : mil. RON/magazin Media
m
∑ σ 2i⋅n i
12⋅10+22⋅15 120+330
σ 2i = i =1m = = =18
25 25
∑ ni
i =1
dispersiilor de grupă:
Regula de adunare a dispersiilor:
123
σ 2i =δ 2 +σ 2i =8 , 64+18=26 , 64 R2 + K 2 ⇒ K 2=67 ,57 %
si = 100 (coeficientul de non-
⇒ R 2< K 2
determinare) deci zona de amplasare a centrelor comerciale nu influenţează
semnificativ variaţia profitului; acesta este influenţat de alţi factori, cum ar fi: calitatea şi
preţul mărfurilor, calificarea personalului, etc.
3. Rezolvare:
1. (a) Corelaţia dintre veniturile lunare (medii) pe o persoană din familie şi cheltuielile pentru
achiziţionarea produsului „z”
7,2
x x
6,2 x x
x x
5,2
Yxi a bxi
4,2 x
x
3,2
c)
R y /x =
√ 1−
∑ ( y i −Y x )2
∑ ( y i− y )2
=
i
√ 1−
3 , 59
11 ,824
=0 , 83
sau
√ √
R y /x = 1−
∑ 2
y i −a ∑ y i−b ∑ x i y i = 1−
265 , 84−1, 8⋅50 , 4−0 , 268⋅639 , 83
=0 , 83
2 2
2 (∑ i )
y 50 , 4
265 , 84−
∑ yi − n
10
n ∑ x i y i−∑ xi⋅∑ y i
r y/x= = 10⋅639 ,83−121⋅50 , 4 =0 , 824≃0 , 83
d)
√[ 2
][
n⋅∑ x 2i −( ∑ xi ) ⋅ n⋅∑ y 2i −( ∑ y i )
2
] √[ 10⋅1576 , 06− (121 ) ]⋅[ 10⋅265 , 84− (50 , 4 ) ]
2 2
124
3 8,5 4,0 12,96 1,0816 34,0
4 11.8 5,5 0,09 0,2116 64,9
5 19,2 6,2 50,41 1,3456 119,04
6 10,9 4,1 1,44 0,8836 44,69
7 13,4 5,4 1,69 0,1296 72,36
8 12,5 5,9 0,16 0,7396 73,75
9 11,5 6,0 0,36 0,9216 69,0
10 16,1 6,3 16,0 0,5876 101,43
121 50,4 111,96 11,824 639,83
Total
∑ xi ∑ yi ∑ ( x i−x )2 ∑ ( y i− y ) 2 ∑ xi yi
continuare tabelul
2
Nr. crt. x 2i y 2i Y x =1 ,8+ 0 ,268⋅x i
i ( y i−Y x )
i
0 6 7 8 9
1 51,84 10,24 3,7 0,25
2 98,01 14,44 4,5 0,49
3 72,25 16,00 4,1 0,01
4 139,24 30,25 5,0 0,25
5 368,64 38,44 6,9 0,49
6 118,81 16,81 4,7 0,36
7 179,56 29,16 5,4 0
8 156,25 34,81 5,2 0,49
9 156,25 36,0 4,9 1,21
10 259,21 39,69 6,1 0,04
1576,06 265,84 50,5 3,59
Total
∑ x 2i ∑ yi2 ∑Yx i
∑ ( y i −Y x )2 i
8. Teme de control
1. Identificaţi funcţia de regresie liniară ce modelează legătura dintre două variabile utilizând
metoda celor mai mici pătrate. Scrieţi funcţia de regresie. Calculaţi şi comentaţi interpretarea
coeficienţilor funcţiei de regresie
125
a. Reprezentaţi grafic legătura dintre cele două variabile prin graficul de împrăştiere;
b. Identificaţi funcţia de regresie liniară ce modelează legătura dintre cele două variabile
utilizând metoda celor mai mici pătrate. Scrieţi funcţia de regresie. Calculaţi şi comentaţi
coeficienţii funcţiei de regresie;
c. Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă parametrică
adecvată.
d. Analizaţi intensitatea legăturii dintre cele două variabile printr-o metodă neparametrică
adecvată.
4. O asociaţie hotelieră din zona Mării Negre a înregistrat temperatura medie multianuală a
aerului (°C) şi numărul persoanelor ce vin pe plajă (sute persoane) pentru 6 weekend-uri
selectate aleator:
Temperatura medie multianuală (°C) 12 8 25 20 18 26
Nr. persoanelor (sute pers.) 17 7 33 30 32 28
a) Să se analizeze grafic existenţa, directia şi forma legaturii dintre cele două variabile.
b) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat.
c) Masurati asocierea dintre cele doua variabile.
5. Pentru 6 ţări ale Uniunii Europene cu un nivel scăzut de şcolarizare s-au înregistrat
numărul copiilor înscrişi la şcoală şi personalul didactic în anul şcolar 2006/2007( date
convenţionale):
Număr copii înscrişi 56 70 60 35 52 25
Personal didactic 444 302 758 770 131 455
a) Să se analizeze grafic existenţa, sensul şi forma legaturii dintre cele două variabile.
126
b) Să se măsoare intensitatea legăturii dintre cele două variabile folosind coeficientul
Spearman si Kendall.
1. Cristache, S.E., Şerban, D., Lucrări aplicative de Statistică şi Econometrie, Ed. ASE,
Bucureşti, 2007, 433 pg. (191 - 416) ISBN 978 - 973 – 594 – 986 – 2;
2. Isaic Maniu, Al., Voineagu, V., Mitruţ, C., Baron, T., Ţiţan, E., Matache S., Şerban D.,
Voineagu, M., Statistică teoretică. Studii de caz şi aplicaţii, Ed. Economică, 255 pg. (189 -
219), Bucureşti, 1998, ISBN 973-590-086-6;
3. Isaic Maniu, Al., Mitruţ, C., Voineagu, V., Statistica Pentru afaceri, ed. Economică,
Bucuresti 2003.
127
CURS STATISTICĂ - Unitatea de învăţare nr. 10
Cuprins:
Seriile cronologice sunt formate din două şiruri de date, în care primul şir ne arată
variaţia timpului, iar cel de-al doilea şir cuprinde valorile fenomenului sau procesului
128
economic analizat la momentele sau pe intervalele de timp respective.
Forma generală a unei serii cronologice este:
( t1 t2 . . . ti . .. tn
y 1 y 2 . .. y i .. . y n ) i=1,n
Trendul sau tendinţa generală a unei serii cronologice poate fi descris prin relaţia:
y=f ( t i ) i=1 , n
Criterii de clasificare a seriilor cronologice:
Există trei criterii principale după care se poate face clasificarea seriilor cronologice:
1) după variaţia timpului putem distinge:
1.1. serii cronologice de intervale denumite şi serii de fluxuri, în care fiecare
termen al seriei arată evoluţia fenomenului sau procesului analizat pe o
perioadă de timp.
Forma generală a unei serii cronologice de intervale este:
t1 t2 tn
t
y1 y2 yn
129
1.2. serii cronologice de momente în care fiecare termen al seriei arată nivelul la
care a ajuns fenomenul sau procesul analizat la un anumit moment de timp.
Forma generală a unei astfel de serii este:
t1 t2 tn
t
yn
y1 y2
Exemplu:
stocurile de materii prime la sfârşitul fiecărei luni
- yt = stocurile de materii prime;
capitalul fix la sfârşit de an:
- yt = capitalul fix:
depozitele sau creditele bancare la data de 1 a fiecărei luni:
- yt = depozite sau credite bancare.
Caracteristica principală a unei serii de momente este aceea că termenii seriei nu se pot
însuma pentru că s-ar produce multiple înregistrări.
Exemplu:
Dacă avem depozitele bancare la data de întâi a fiecărei luni, nu putem însuma aceste
depozite deoarece un depozit care este valabil la 1 ianuarie poate să fie valabil şi la 1
februarie etc., şi am înregistra valoarea lui de mai multe ori.
130
capital fix). Termenii seriei se exprimă prin unităţi compuse de măsură deoarece se obţin prin
raportarea între doi indicatori absoluţi între care există o relaţie de interdependenţă.
3) după numărul de termeni, seriile cronologice pot fi:
3.1. serii cronologice de lungime mică;
3.2. serii cronologice de lungime medie;
3.3. serii cronologice de lungime mare.
131
deduse din proprietăţile sistemului de indicatori.
☺ Exemplul 1
Fie următoarea serie cronologică de intervale:
132
Scara de reprezentare: 1 cm pe OY = 5 mii litri
☺ Exemplul 2
Fie următoarea serie cronologică de intervale:
133
Scara de reprezentare: 1 cm pe OY = 20 mii tone
Atât în cazul cronogramei, cât şi al diagramei prin coloane avem scară de reprezentare
doar pe axa OY.
☺ Exemplul 3
Numărul de turişti care au sosit într-o staţiune montană în fiecare trimestru al anului 2006 a
fost:
134
y 1+ y 2+ y 3+ y 4
y= =2875
4
turişti/trimestru
Trim. II
Legenda
Trim. I
Trim. I
Trim. II
Trim. III
Trim. IV Trim. IV
Trim. III
Trim. I
1 cm OX, OY = 2000 turi
şti
Trim. II
135
☺ Exemplul 4
Populaţia unui judeţ la: 01.01.98 : 364.500 y1
01.04.98: 365.000 y2
01.07.98: 367.800 y3
01.10.98: 370.100 y4
31.12.98: 372.200 y5
y=367.813
t1 t2 t3 t4 tn-1 tn
d1 d2 d3 dn-1
d d +d d +d d +d d
y 1⋅ 1 + y 2⋅ 1 2 + y 3⋅ 2 3 +. ..+ y n−1⋅ n−2 n−1 + y n⋅ n−1
2 2 2 2 2
y=
d1 +d 2 +. ..+ d n−1
☺ Exemplu 5
Populaţia unui judeţ la: 01.01.98: 364.500
01.03.98: 364.900
10.04.98: 365.300
15.05.98: 366.000
01.07.98: 367.800
01.08.98: 368.000
15.09.98: 370.000
31.12.98: 372.200
y=367.784
Nivelul
mediu cu intervale media cronologică
egale între simplă
momente
136
- pentru serii
de momente
cu intervale
Indicatorii obţinuţi prin prelucrarea media constituie
unei serii cronologice cronologică un sistem de
neegale între ponderată
indicatori în cadrul căruia fiecare indicator scoate în evidenţă un aspect al modului de
momente
dezvoltare a fenomenelor şi proceselor economice studiate.
Aceşti indicatori sunt cu atât mai concludenţi cu cât seria cronologică este mai bine
alcătuită, cu cât este mai bine aleasă perioada de analiză (aspecte legate de lungimea seriei şi
de omogenitatea termenilor).
Este bine ca numărul termenilor să fie suficient de mare pentru a putea satisface legea
numerelor mari a lui Bernoulli, lege care spune: într-un număr suficient de mare de cazuri
individuale, abaterile întâmplătoare tind să se compenseze astfel încât se poate determina o
valoare tipică, sintetică, pe ansamblul colectivităţii.
În cazul seriilor cronologice neomogene, indicatorii vor trebui calculaţi pe etape, ca
indicatori parţiali, în caz contrar, dacă se calculează indicatori pe ansamblul seriei, aceştia
conduc la concluzii greşite şi nu pot fi folosiţi în calculele de prognoză.
Testul de autoevaluare 1
1.Se cunosc următoarele date privind stocul de păcură al unei centrale termice:
Stocul de păcură
Data
(tone)
01.01 10
01.02 8
01.03 14
31.03 10
01.06 16
15.07 14
01.09 10
31.12 14
Se cere:
a) să se reprezinte grafic stocul de păcură pentru tot anul;
b) să se calculeze stocul mediu de păcură pe toată perioada;
c) să se calculeze stocul mediu de păcură pe primul trimestru al anului.
2. Se cunosc următoarele date privind efectivul anual al populaţiei în perioada 2000-2005:
137
1 iulie 2003 21.733.556
1 iulie 2004 21.673.328
Sursa: Anuarul Statistic al României 2005
Să se reprezinte grafic seria şi să se calculeze efectivul mediu la populaţiei în perioada
2000-2004.
Testul de autoevaluare 1
1. Rezolvare:
a) Avem o serie de momente cu intervale neegale între momente, deci seria se va
reprezenta grafic prin diagrama prin coloane:
1 cm OY = 2 tone
1 ,5+ 4 4
10⋅ +14⋅
2 2 146 , 5
+ = =12 , 2 tone
12 12
138
d1 = 1 lună d2 = 1 lună d3 = 1 lună d4 = 2 luni d5 = 1,5 luni d6 = 1,5 luni d7 = 4 luni
c) În primul trimestru avem o serie de momente cu intervale egale între momente, iar
stocul mediu se va determina ca o medie cronologică simplă:
Primul trimestru cuprinde datele: 01.01; 01.02; 01.03; 31.03.
y1 y
+ y 2 + y 3 + .. .+ y n−1 + n
2 2
y=
n−1
y1 y 10 10
+ y 2+ y 3+ 4 +8+14 +
2 2 2 2 32
y= = = =10 ,66 tone
4−1 3 3
2. Rezolvare:
Avem o serie de momente cu intervale egale între momente, deci se reprezintă grafic
prin cronogramă:
1 cm OY = 200.000 locuitori
Efectivul mediu al populaţiei (media) se determină ca o medie cronologică simplă:
y1 y
+ y 2 + y 3 + .. .+ y n−1 + n
2 2
y=
n−1
n = numărul de momente de timp = 5
y1 y
+ y 2+ y 3+ y 4 + 5
2 2 87991009
y= = =21 . 997 .752 , 5≈21. 997 . 753 loc .
4 4
7. Teme de control
1.Se cunosc următoarele date privind stocurile de produse aflate în depozitele unei societăţi:
Data 01.01 01.02 01.03 31.03 15.05 01.06 01.09 31.12
139
Stocul de
100 80 60 70 90 110 100 90
produse (kg)
Se cere:
a) să se precizeze tipul seriei cronologice şi să se reprezinte grafic seria;
b) să se determine stocul mediu pe tot anul;
c) să se determine stocul mediu de produse pentru primul trimestru al anului.
140
s-ar produce multiple înregistrări
1. Anderson D., Sweeney D.,Williams T., Statistics for Business and Economics, Thomson
South Western, 2008
2. Chauvat G., Reau J.P., Statistiques descriptives, Armand Colin, Paris, 2004
3. Isaic-Maniu Al., Mitrut C., Voineagu V., Statistică, Editura Universitară, Bucureşti, 2003;
4. Voineagu V., Ţiţan E., Ghiţă S., Boboc C., Todose D. – Statistică. Baze teoretice şi
aplicaţii, Editura Economică, Bucureşti, 2007;
5. Wonnacott T.H., Wonnacott R.J., Statistique, Economica, paris,1995
141
CURS STATISTICĂ - Unitatea de învăţare nr. 11
Cuprins:
142
Prelucrarea seriilor cronologice se face cu indicatorii seriilor cronologice.
Indicatorii seriilor cronologice:
indicatori absoluţi:
nivelul absolut:
nivelurile individuale ale seriilor cronologice: yt, t-1, ;
n
∑ yt
nivelul totalizat al seriilor cronologice: i=1 ;
modificarea absolută:
cu bază fixă;
cu bază în lanţ;
valoarea absolută a unui procent de modificare:
cu bază fixă;
cu bază în lanţ;
indicatori relativi:
indicele:
cu bază fixă;
cu bază în lanţ;
ritmul:
cu bază fixă;
cu bază în lanţ;
indicatori medii:
modificarea absolută medie;
indicele mediu;
ritmul mediu;
nivelul mediu.
Indicatorii seriilor cronologice sunt indicatori primari (nivelul absolut) sau indicatori
derivaţi (obţinuţi prin raportare sau diferenţă).
Dacă compararea se face cu primul termen din serie, atunci indicatorii derivaţi obţinuţi se
numesc indicatori cu bază fixă.
143
Dacă compararea se face cu termenul precedent din serie atunci indicatorii derivaţi obţinuţi
se numesc indicatori cu bază în lanţ (mobilă).
Indicatorii cu ajutorul cărora se caracterizează seriile cronologice de intervale sunt:
a) indicatori absoluţi;
b) indicatori relativi;
c) indicatori medii.
Indicatori absoluţi:
( )
Rt / 1 ( I t / 1−1 ) yt 100
−1 ⋅100
, dacă y t ≠ y 1
y1
Dacă y t = y 1 ⇒ A t / 1 =0
cu bază în lanţ:
Δ t / t −1 y t − y t −1 y
At / t −1 = = = t −1
, y t ≠ y t −1
Rt /t −1 ( I t / t −1 −1 )⋅100 100
Dacă y t = y t −1 ⇒ A t / t −1=0
Indicatori relativi:
144
indicele – se calculează ca raport între doi termeni ai seriei cronologice şi ne arată de
câte ori s-a modificat fenomenul analizat de la o perioadă la alta:
yt
I t / 1=
cu bază fixă: y1 , t=2,n
cu bază în lanţ:
yt
I t / t −1=
y t −1 , t=2,n
n
∏ I t /t−1=I n/1
t=2
y n− y 1 ∑ Δt / t −1
Δ= = t =2
n−1 n−1
indicele mediu – ne arată de câte ori s-a modificat în medie fenomenul analizat de la
o perioadă la alta pe parcursul întregii perioade. Se calculează ca o medie geometrică
a indicilor cu bază în lanţ.
√
n
n−1
I= √ I n/1= ∏ I n/1
n−1
t=2
145
Dacă I <1 atunci indicele mediu semnalează scăderea fenomenului analizat.
Dacă I=1 atunci indicele mediu arată că fenomenul analizat nu s-a modificat.
ritmul mediu (procentul mediu de modificare) este un indicator derivat şi ne arată cu
cât la sută s-a modificat în medie fenomenul analizat de la o subperioadă la alta pe
parcursul perioadei de analiză:
R=( I −1 )⋅100
Indicele şi ritmul mediu sunt foarte sensibili la valorile extreme ale seriei (y 1 şi yn). Dacă
una din cele două valori (y1 sau yn) este nereprezentativă pentru evoluţia fenomenului analizat
este suficient pentru a nu obţine indicatori medii.
☺ Exemplul 1
Se cunosc următoarele date referitoare la tariful lunar practicat de o companie de televiziune prin
cablu pentru pachetul de bază în perioada 1996-2002:
Calculul indicatorilor:
Avem o serie cronologică de intervale de timp.
Seria se caracterizează cu ajutorul indicatorilor:
absoluţi:
modificarea absolută:
146
- cu bază fixă:
Δ t/1 = y t − y 1 ; t=1 , 7
- cu bază în lanţ:
Δ t/t−1 = y t − y t−1 ; t=2 ,7
valoarea absolută a unui procent de modificare:
y1
At /1= dacă y t ≠ y1
- cu bază fixă: 100 ;
y t −1
At / t −1 = dacă y t ≠ y t −1
- cu bază în lanţ: 100
relativi:
indicele (dinamica):
yt
I t /1 = ; t =1 ,7
- cu bază fixă: y1
yt
I t /t −1= ; t=2, 7
- cu bază în lanţ: y t −1
ritmul:
Rt / 1=( I t / 1−1 )⋅100 t=1, 7
- cu bază fixă: ;
Rt / t −1 =( I t /t−1 −1 )⋅100 t=2 , 7
- cu bază în lanţ:
medii
Rezultatele calculelor pentru indicatorii absoluţi şi relativi sunt prezentate în tabelul
următor:
Anul
Indicatori
1 2 3 4 5 6 7
yt (dolari) 11 13,2 13,9 15,2 16,8 18 20
t/1 (dolari) 0 2,2 2,9 4,2 5,8 7 9
t/t-1 (dolari) - 2,2 0,7 1,3 1,6 1,2 2
At/1 (dolari/%) - 1,1 1,1 1,1 1,1 1,1 1,1
At/t-1 (dolari/%) - 1,1 1,32 1,39 1,52 1,68 1,8
It/1 1 1,2 1,26 1,38 1,52 1,63 1,81
It/t-1 - 1,2 1,05 1,09 1,10 1,07 1,11
Rt/1 (%) 0 20 26 38 52 63 81
Rt/t-1 (%) - 20 5 9 10 7 11
Între modificările absolute cu bază fixă şi cele cu bază în lanţ există următoarea relaţie de
verificare:
7
Δ 7/1 =∑ Δ t/t−1
t=2
147
Între indicii cu bază fixă şi cei cu bază în lanţ există următoarea relaţie:
7
I 7/1=∏ I t/t−1
t=2
Deoarece
Δ t/1 >0 pentru t =2,7 putem aprecia că tariful lunar a crescut în fiecare an faţă de
anul de bază, anul 1996 (t = 1). În anul 1997 (t = 2) tariful a crescut faţă de anul 1996 cu 2,2
dolari, în 1998 faţă de 1996 a crescut cu 2,9 dolari etc.
Deoarece
Δ t/t−1 >0 pentru t=2,7 putem aprecia că tariful lunar a crescut în fiecare an
faţă de anul precedent în perioada 1996-2002. Cea mai mare creştere înregistrată într-un an faţă
de anul precedent a fost în anul 1997, când tariful a crescut cu 2,2 dolari faţă de 1996.
A3 /2 =1 , 32 dolari/% , deci putem aprecia că unui procent de modificare (creştere deoarece
Δ 3/2 =0 ,7 dolari >0 ) a tarifului în anul 3 (1998) faţă de anul 2 (1997) îi revin 1,32 dolari.
I 2/1=1 , 2>1 , deci apreciem că tariful lunar a crescut în anul 2 (1997) faţă de anul 1 (1996)
de 1,2 ori.
R2/ 1 =20 %> 0 , deci apreciem că tariful lunar a crescut în anul 2 (1997) faţă de anul 1
(1996) cu 20%.
Pentru a vedea dacă este vorba de creştere sau scădere:
se compară cu 0:
- dacă 0 creştere;
- dacă = 0 tariful nu s-a modificat;
- dacă 0 scădere;
I se compară cu 1:
- dacă I 1 creştere;
- dacă I = 1 tarif constant;
- dacă I 1 scădere;
R se compară cu 0:
- dacă R 0 creştere;
- dacă R = 0 tarif constant;
- dacă R 0 scădere;
148
A este întotdeauna pozitiv, deci din valoarea lui A nu putem deduce dacă este vorba de
creştere sau scădere.
Valoarea absolută a unui procent de modificare cu bază fixă (A t/1) are aceeaşi valoare
pentru întreaga perioadă, deoarece nivelul care s-a considerat egal cu 100% este nivelul anului de
bază (yi) şi exprimă câte unităţi din sporul înregistrat într-un an revin la fiecare procent din ritmul
sporului.
Indicatorii medii ai seriei cronologice sunt:
- media (tariful lunar mediu anual) – se calculează ca o medie aritmetică simplă:
7
∑ yt
108 , 1
y= i=1 = =15 , 44 dolari
7 7
În perioada 1996-2002 tariful lunar mediu anual a fost de 15,44 dolari.
- modificarea absolută medie anuală:
y 7 − y 1 20−11
Δ= = =1 ,5 dolari/an > 0
7−1 6
Tariful lunar mediu anual a crescut în medie de la un an la altul cu 1,5 dolari în perioada
1996-2002.
- indicele mediu anual:
I=
√ √
6 y7
y1
=
6 20
11
=1,104 > 1
Tariful lunar mediu anual a crescut în medie de la un an la altul de 1,104 ori în perioada
1996-2002.
- ritmul mediu anual:
R=( I −1 )⋅100=( 1,104-1 )⋅100=10,4% >0
Tariful lunar mediu anual a crescut în medie de la un an la altul cu 10,4% în perioada
1996-2002.
149
A. Procedee de ajustare
Există mai multe procedee prin care se poate realiza ajustarea:
A.1. Ajustarea prin metoda grafică – se reprezintă grafic seria de date empirice (cronograma) şi
apoi se trasează dreapta sau curba care uneşte punctele extreme ale graficului astfel încât să aibă
abateri minime faţă de poziţia valorilor reale în grafic:
Cronograma:
yt
OY
t OX
150
spune că “suma pătratelor abaterilor valorilor reale de la valorile ajustate este minimă”.
^ i = valorile ajustate
Fie: Yi sau y
yi = valorile reale
n
∑ ( y i−Y i )2 min
Metoda celor mai mici pătrate spune că: i=1 .
Metoda celor mai mici pătrate a mai fost utilizată la estimarea parametrilor funcţiilor de
regresie, numai că în cazul seriilor cronologice în locul variabilei independente X de la regresie
utilizăm variabila timp (t).
Valorile variabilei timp (t) se măsoară cu ajutorul scalei de interval, în cadrul căreia
originea scalei şi unitatea de măsură pot fi alese arbitrar.
∑ t i =0
Pentru uşurinţa calculelor valorile lui t se aleg astfel încât i .
Putem distinge două situaţii:
- dacă seria are un număr impar de termeni, atunci originea scalei va fi termenul central:
t
-3 -2 -1 0 1 2 3
- dacă seria cronologică are un număr par de termeni, atunci originea scalei (t = 0) se va
găsi între cei doi termeni centrali ai seriei. Cei doi termeni centrali vor primi valorile –1 şi
respectiv 1, iar ceilalţi termeni ai seriei cronologice vor fi distribuiţi simetric faţă de cei doi
termeni centrali la distanţă de două unităţi (pentru că distanţa dintre fiecare doi termeni succesivi
trebuie să fie egală):
2000 2001 2002 2003 2004 2005 2006 2007
-7 -5 -3 -1 1 3 5 7
151
∑ ( y t −Y t )2 min ⇔ ∑ ( y t −a−bt )2 min
{∑
a
na+ b ∑ t=∑ y t
t+ b ∑ t 2=∑ ty t
Deoarece ∑ t=0 :
∑ yt = y b=
∑ tyt
a=
n ; ∑ t2
a – reprezintă media variabilei yt calculată ca o medie aritmetică simplă a termenilor
seriei;
b – reprezintă panta dreptei de tendinţa (de trend), iar valoarea sa arată cu cât se
modifică în medie fenomenul analizat dacă variabila timp se modifică cu o unitate
(an, lună, trimestru).
Atunci când se utilizează mai multe procedee diferite pentru ajustarea aceleiaşi serii
cronologice, în final trebuie să alegem cea mai bună metodă de ajustare comparând rezultatele
teoretice cu valorile reale:
1) se reprezintă pe acelaşi grafic valorile reale şi valorile teoretice obţinute prin diferite
procedee de ajustare. Comparând valorile de pe grafic alegem valorile teoretice cele
mai apropiate de valorile reale;
2) compararea sumei valorilor reale cu suma valorilor teoretice:
n n
∑ yi ∑ Y^ t
i=1 i=1
152
n
∑ |y i−Y i|
i=1
v= →min
n⋅y
Cu cât v este mai mic cu atât metoda de ajustare este mai bună.
☺ Exemplul 2
Pentru exemplificarea metodelor de ajustare a seriilor cronologice se va utiliza aceeaşi serie
pentru care s-au calculat şi indicatorii statistici:
153
t=5 ⇒ ^y 5 = ^y 4⋅I=16 , 339 USD
t=6 ⇒ y^ 6 = ^y5⋅I=18 , 038 USD
t=7 ⇒ ^y 7 = ^y 6⋅I =20 USD= y 7
{∑
a
na+ b ∑ t =∑ y t
t + b ∑ t 2=∑ ty t
{∑
b
na=∑ y t
t 2=∑ ty t
⇒
154
a=
∑ yt = y
n
b=
∑ tyt
∑ t2
Deoarece ∑ t=0 , va trebui să renumerotăm anii:
a=y=15, 44
b=
∑ tyt = (−3)⋅11+(−2)⋅13 , 2+(−1 )⋅13 , 9+16 , 8+2⋅18+3⋅20 =1 , 41
∑ t2 (−3 )2 +(−2 )2 +(−1 )2 +12 +22 +32
Deci:
y^ t =15 , 44 +1 , 41 t
Pentru:
t=−3 ⇒ ^y −3 =15 , 44 +1 , 41⋅(−3 ) =11, 21 USD
t=−2 ⇒ ^y−2 =15 , 44+ 1, 41⋅(−2 )=12 , 62 USD
t=−1 ⇒ ^y−1 =15 , 44+1 , 41⋅(−1 )=14 , 03 USD
t =0 ⇒ ^y 0 =15 , 44 USD
t=1 ⇒ ^y 1 =15 , 44+1 , 41⋅1=16 , 85 USD
t=2 ⇒ ^y 2 =15 , 44+1 , 41⋅2=18 , 26 USD
t=3 ⇒ ^y 3 =15 , 44 +1 , 41⋅3=19 , 67 USD
155
2002 20,0 20,0 20,000 19,67 0,0 0,000 0,33
Total 1,8 2,449 1,8
Deoarece ∑ ( y t − ^y t ) este minim pentru metoda lui Δ şi pentru funcţia liniară vom utiliza şi
un alt criteriu pentru alegerea celei mai bune metode de ajustare.
Anul
( y t − ^y t ) 2 ( y t − ^y t ) 2 ( y t − ^y t ) 2
prin Δ prin I prin funcţia liniară
1996 0,00 0,000 0,0441
1997 0,49 1,115 0,3364
1998 0,01 0,244 0,0169
1999 0,09 0,160 0,0576
2000 0,04 0,212 0,0025
2001 0,25 0,001 0,0676
2002 0,00 0,000 0,1089
Total 0,88 1,732 0,6340
∑ ( y t − ^y t )2
Deoarece t este minim în cazul ajustării prin funcţia liniară rezultă că funcţia
liniară reprezintă cea mai bună metodă de ajustare.
☺ Exemplul 3
Întrucât cea mai bună metodă de ajustare este funcţia liniară rezultă că valorile previzionate cele
mai bune se obţin prin această metodă.
Testul de autoevaluare 1
1. Se cunosc următoarele date referitoare la numărul de participanţi la o probă sportivă în
156
perioada 2000-2006:
Anul Număr participanţi
2000 745
2001 720
2002 745
2003 737
2004 757
2005 800
2006 803
Se cere:
a) să se reprezinte grafic seria cronologică;
b) să se ajusteze seria printr-o metodă analitică (funcţie liniară) şi să se aprecieze calitatea
ajustării;
c) să se previzioneze seria pentru anii 2007 şi 2008.
2. Un bebeluş a fost cântărit în fiecare zi în primele 25 de zile de viaţă. În tabelul următor este
prezentată greutatea zilnică pentru 25 de zile:
Greutatea Greutatea Greutatea
Ziua Ziua Ziua
(grame) (grame) (grame)
1 3110 11 3180 21 3460
2 3050 12 3240 22 3500
3 3030 13 3300 23 3530
4 3080 14 3340 24 3560
5 3130 15 3300 25 3620
6 3100 16 3370
7 3140 17 3390
8 3180 18 3350
9 3150 19 3410
10 3200 20 3490
Se cere:
a) să se reprezinte grafic seria;
b) să se calculeze medii mobile pentru o săptămână;
c) să se traseze pe diagrama de la punctul a), curba mediilor mobile.
157
2003 2
2004 3
2005 6
2006 7
Se cere:
a) să se reconstituie seria de valori absolute ştiind că producţia a crescut în anul 2006 faţă de
anul 2002 de 1,2 ori;
b) să se calculeze indicatorii seriei cronologice;
c) să se ajusteze seria prin metode mecanice;
d) să se extrapoleze seria pentru anul 2007.
Testul de autoevaluare 1
1. Rezolvare:
158
(MCMMP), care spune:
∑ ( y t − ^y t )2 minim
i
Obţinem sistemul:
{∑
a
na+ b ∑ t=∑ y t
t+ b ∑ t 2=∑ ty t
na=∑ y t ⇒ a=
∑ y t =745+720+. ..+803 =5307 =758 , 14
t 7 7
b=
∑ tyt = (−3)⋅745+(−2)⋅720+. ..+(3)⋅803 =346 =12 ,36
∑ t 2 (−3 )2+(−2 )2+(−1 )2+12+22+ 32 28
Deoarece ∑ t=0 , va trebui să renumerotăm anii:
2000 2001 2002 2003 2004 2005 2006
-3 -2 -1 0 1 2 3
Tabel ajutător pentru calcularea parametrilor a şi b şi pentru aprecierea calităţii ajustării:
Anul t yt tyt t2 ( y t −t ) 2
2000 -3 745 -2235 9 169
2001 -2 720 -1440 4 1444
2002 -1 745 -745 1 169
2003 0 737 0 0 441
2004 1 757 757 1 1
2005 2 800 1600 4 1764
2006 3 803 2409 9 2025
Total 0 5307 346 28 6013
159
prin cronogramă:
b) Notăm: t = ziua;
yt = greutatea în ziua t;
Calculul mediilor mobile din 7 termeni:
y t −3 + y t −2 + y t−1 + y t + y t +1 + y t +2 + y t +3
yt=
7
t=4,22
Pentru t = 4, avem:
y 1 + y 2 + y3 + y 4 + y 5 + y 6 + y 7
y 4= =
7
160
5 3101 15 3327 25 -
6 3116 16 3351
7 3140 17 3379
8 3154 18 3396
9 3170 19 3424
10 3199 20 3447
Numărul de termeni obţinuţi (numărul de medii mobile) este:
n – k + 1 = 25 – 7 + 1 = 19
c) Reprezentând grafic noile valori, se observă că graficul nu mai are aspectul unor dinţi de
fierăstrău, ci avem o curbă cu tendinţă strict crescătoare.
3. Rezolvare:
161
Valoarea absolută a unui procent de ab
modificare cu bază în lanţ At/t-1 so
- 0,90 0,92 0,95 1,01
(mii buc./%) luţ
i
Indicele cu bază fixă It/1 1
1,02 1,05 1,12 1,2
Indicatori
-
relativi
Indicele cu bază în lanţ It/t-1 - 1,02 1,03 1,06 1,07
Ritmul cu bază fixă Rt/1 (%) - 2 5 12 20
Ritmul c ubază în lanţ Rt/t-1 (%) - 2 3 6 7
Indicatorii medii:
- media:
5
∑ yt
y= i=1 =97 , 2 mii buc.
5
Numărul mediu de conserve produs de firmă pe an în perioada 2002-2006 a fost de 97,2
mii bucăţi.
- modificarea absolută medie anuală:
y n− y 1 y 5 − y 1 108−90
Δ= = = =4 , 5 mii buc . /an
n−1 4 4
În perioada 2002-2006, producţia de conserve de carne a crescut în medie de la un an la
altul cu 4,5 mii bucăţi.
- indicele mediu anual:
I=
y1 √ √
n−1
90
yn
108
=
4
=1 , 046
162
t = 3 avem:
^y 3 = y 1 +2 Δ= y 2 + Δ=94 ,5+4 , 5=99 mii buc .
t = 4 avem:
^y 4 = y 3 +Δ=103 , 5 mii buc.
^y = y +Δ=108 mii buc.
t = 5 avem: 5 4
- prin metoda indicelui mediu:
^y t = y 1⋅I t−1 t=1 , 5
Pentru:
t = 1 avem: ^y 1 = y 1=90 mii buc .
t = 2 avem:
^y 2 = y 1⋅I=90⋅1 , 046=94 , 14 mii buc.
t = 3 avem:
^y 3 = y 2⋅I =98 , 47 mii buc.
t = 4 avem:
^y 4 = y 3⋅I=102 , 9 mii buc.
t = 5 avem: ^y 5 = y 5 =108 mii buc .
d) Extrapolarea seriei pentru anul 2007 (pentru anul 2007, t = 6):
- prin metoda lui Δ :
^y 6 = y 5 + Δ=108+4 , 5=112, 5 mii buc .
- prin metoda indicelui mediu:
^y 6 = y 5⋅I=108⋅1 , 046=112, 9 mii buc .
6. Teme de control
1. Se cunosc următoarele date despre evoluţia tricotajelor din bumbac produse în România
în perioada 1993-2004:
Anul 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004
Tricotaje bumbac (mil.
27 19 16 16 14 8 7 7 6 8 6 6
buc.)
Sursa: Anuarul Statistic al României 2005
Se cere:
a) să se precizeze tipul seriei cronologice şi să se reprezinte grafic;
b) să se caracterizeze evoluţia producţiei de tricotaje a României cu ajutorul indicatorilor
absoluţi, relativi şi medii;
c) să se ajusteze seria cronologică pe baza metodelor mecanice şi analitice şi să se precizeze
care este cea mai bună metodă de ajustare;
d) să se extrapoleze seria pentru anii 2005 şi 2006.
163
2.Se cunosc următoarele date referitoare la producţia unei societăţi comerciale în perioada 2001-
2006:
164
valoarea absolută a unui % de modificare:
indicatori relativi:
indicele:
ritmul:
indicatori medii:
modificarea absolută medie;
indicele mediu;
ritmul mediu;
nivelul mediu.
Toţi aceşti indicatori absoluţi şi relativi pot fi cu bază fixă sau cu bază în lanţ.Dacă compararea se
face cu primul termen din serie, atunci indicatorii derivaţi obţinuţi se numesc indicatori cu bază fixă.
Dacă compararea se face cu termenul precedent din serie atunci indicatorii derivaţi obţinuţi se numesc
indicatori cu bază în lanţ (mobilă).
În această unitate de învăţare, pe lângă indicatorii seriilor cronologice pe intervale, sunt
prezentate şi câteva metode de ajustare (de determinare a tendinţei de evoluţie) cum ar fi: metode
mecanice (metoda modificării absolute medii şi metoda indicelui mediu), metoda grafică şi metoda
analitică. Pe baza metodelor de ajustare se poate realiza estimarea valorilor viitoare ale unui fenomen
pornind de la tendinţa de evoluţie înregistrată anterior, dacă se consideră că nu sunt probabile
modificări în această tendinţă de evoluţie în perioada următoare
1. Anderson D., Sweeney D.,Williams T., Statistics for Business and Economics, Thomson South
Western, 2008
2. Chauvat G., Reau J.P., Statistiques descriptives, Armand Colin, Paris, 2004
3. Isaic-Maniu Al., Mitrut C., Voineagu V., Statistică, Editura Universitară, Bucureşti, 2003;
4. Voineagu V., Ţiţan E., Ghiţă S., Boboc C., Todose D. – Statistică. Baze teoretice şi aplicaţii,
Editura Economică, Bucureşti, 2007;
5. Wonnacott T.H., Wonnacott R.J., Statistique, Economica, paris,1995
165
CURS STATISTICĂ - Unitatea de învăţare nr. 12
INDICII STATISTICI
Cuprins:
166
2. Conţinutul, funcţiile şi clasificarea indicilor
Definiţie:
Indicele statistic este o mărime relativă, ce compară, sub formă de raport, mărimea
aceluiaşi fenomen înregistrat în două unităţi de timp, de spaţiu sau de program diferite,
la o unitate statistică, la o grupă sau la nivelul întregii colectivităţi..
167
indici ai prevederilor: raport între nivelurile prevăzute şi nivelurile efectiv înregistrate
ale unui fenomen.
3. Indici individuali.
168
y
y1 y1
i 1/ 0= i 1/y 0 = ⋅100
y 0 sau y0
unde: “1” – perioada curentă
“0” – perioada de bază
y1 – nivelul variabilei complexe în perioada curentă;
y0 – nivelul variabilei complexe în perioada de bază.
yk
i ky/ 0 =
Pentru o perioadă curentă „k”, faţă de perioada de bază, indicele devine: y0
Pentru cele două variabile factoriale (x şi f) se pot scrie doi indici individuali conform
relaţiilor:
x1 xk
i x1/ 0 = i xk / 0 =
x 0 , iar pentru o perioadă curentă “k”: x0
f1 fk
i f1/ 0 = i fk / 0 =
f 0 , iar pentru o perioadă curentă “k”: f0
Indicele individual al variabilei complexe y se mai scrie:
y
y1 x1 f 1 x1 f 1 x f
i 1/ 0= = = ⋅ =i ⋅i
y0 x0 f 0 x 0 f 0 1/ 0 1 /0
Sau, mai general:
yk xk f k xk f k x f
i ky/ 0 = = = ⋅ =i ⋅i
y0 x0 f 0 x0 f 0 k /0 k /0
Au ca rol reflectarea variaţiei medii relative la nivelul întregii colectivităţi sau al unei
grupe a acesteia. Se notează de regulă cu litere mari (I).
169
b) indici calculaţi ca medie a indicilor individuali
c) indici calculaţi ca raport a două medii
De cele mai multe ori, elementele din care se compun fenomenele din natură şi
societate sunt eterogene, de aceea ele nu pot fi însumate direct. Pentru a face însumabile
aceste elemente se apelează la un comăsurător, etalon, numit şi pondere Ponderea este
întâlnită atât în numărătorul cât şi numitorul indicelui de grup, cu aceeaşi valoare.
170
Pentru variabila calitativă (x) – în majoritatea cazurilor aceasta are valori neaditiv – se
aplică ponderea.
Σx1 f 0
I x1/ 0=
— indicele variabilei calitative: Σx0 f 0
Σx k f 0
I xk / 0 =
- pentru o perioadă curentă „k”: Σx 0 f 0
Σx1 f 1
I x1/ 0=
— pentru variabila calitativă: Σx0 f 1
171
Σx k f k
I xk / 0 =
- pentru o perioadă curentă „k”: Σx 0 f k
Nici unul dintre cele două sisteme de ponderare uzual întrebuinţate (Laspeyres şi
Paasche) nu respectă testul de reversibilitate a factorilor. Din acest motiv în practică se
foloseşte un sistem de pondere încrucişată. Pentru îndeplinirea acestei condiţii, va trebui
aleasă una din variantele: indicele caracteristicii cantitative să fie construit ca indice
Laspeyres iar indicele caracteristicii calitative — în sistem Paasche invers. Există, însă şi
unele ţări care utilizează în construirea ambilor indici factoriali acelaşi sistem de ponderare (ori
pe cel Laspeyres, ori pe cel Paasche). Fiecare variantă aleasă prezintă deopotrivă avantaje şi
dezavantaje.
În practica statistică, cel mai adesea se utilizează cea de-a doua variantă de ponderare
∑ y( x) ∑ y( f )
încrucişată, adică I P 1/0 şi I L1 /0 , ceea ce înseamnă că, în general, pentru factorul cantitativ
se folosesc ponderi din perioada de bază (0) – sistem Laspeyres, iar pentru factorul
calitativ se folosesc ponderi din perioada curentă (1) – sistem Paasche.
Calculul indicelui Laspeyres este uşor, odată ce au fost determinate ponderile. Această
determinare necesită, în general, o anchetă dificilă, dar ea este necesară doar în
perioada de bază. Din contră, pentru indicele Paasche, trebuie determinate bugetele de
consum pentru fiecare an de calcul, ceea ce este mai dificil.
172
Dacă vrem să schimbăm baza de comparaţie, trebuie refăcute calculele (inconvenient
pentru utilizatori) ;
Pentru una sau alta din formule, apare o problemă atunci când vrem să calculăm un
indice pe perioadă mai lungă.
Indicele Paasche are un defect: acela că necesită cunoaşterea bugetelor de consum
pentru fiecare an de calcul
Formulele lui Laspeyres şi Paasche nu conduc la acelaşi rezultat, atunci când sunt
aplicate aceloraşi indici elementari, observându-se, uneori, diferenţe semnificative
între ei.
Foloseşte ca pondere pentru variabila calitativă (preţul) fie suma ponderilor din cele două
perioade, fie media aritmetică simplă a acestor ponderi. Are următoarea formă:
I x1/ 0=
Σx1 ( f 1 + f 0 )
=
Σx1 ( f 1+ f 0
2 )
Σx0 ( f 1 +f 0 )
2
Σx0 ( f 1+ f 0
)
Acest sistem de ponderare prezintă dezavantajul că el se poate aplica numai la con-
struirea indicelui de grup al factorului calitativ.
Această metodă se aplică în calculul indicilor de grup ori de câte ori nu există
suficiente informaţii pentru calculul indicilor agregaţi. Dacă ar exista posibilitatea aplicării
ambelor metode, ar trebui ca valoarea indicelui de grup calculat ca medie a indicilor
individuali să fie egală cu valoarea indicelui de grup calculat sub formă agregată. Indicii de
grup se pot forma fie ca medie aritmetică ponderată, fie ca medie armonică ponderată a
indicilor individuali, în funcţie de datele iniţiale cunoscute.
y ∑ y 1 ∑ i 1/0 y 0 ∑ i 1/0 g0
y y y (% )
I∑
1/0 = = = =∑ i 1/0
y
g 0y
∑ y 0 ∑ y 0 100
173
(cunoaştem nivelurile individuale ale variabilei complexe –însumabile- din perioada de bază
(y0) şi indicii individuali ai variabilei însumabile)
Este un indice calculat sub formă de medie aritmetică din indicii individuali, ponderaţi cu
nivelul din perioada de bază y0. Se observă că indicele agregat sub formă de medie se poate
calcula şi folosind mărimea relativă de structură a variabilei complexe în perioada de bază:
y (% ) y0
g0 = 100
∑ y0
— pentru variabila cantitativă aditivă
∑ f 1 = Σi
f
¿f 0
I f1/ 0=I ∑
1/0
f
1/ 0 = i
f
Σf 0 Σf 0
(dacă se cunosc 1/ 0 şi f0)
— pentru variabila cantitativă non-aditivă, ponderată Laspeyres:
I∑ y ∑ y1 = ∑ y1 = 1
1/ 0 =
∑ y 0 ∑ 1y ⋅y 1 ∑ y
1
⋅g1y y
i1/ 0 i 1/ 0 (dacă se cunosc i 1/0 şi y 1 )
Reprezintă o medie armonică din indicii individuali, ponderaţi cu nivelurile din perioada
curentă (y1) sau cu structura variabilei complexe (însumabile) din perioada curentă.
y1
g1y=
unde ∑ y1
— pentru variabila cantitativă — aditivă
I f1/ 0=I ∑ f ∑ f 1 = Σf 1
1/ 0 =
∑ f 0 Σ f1 ⋅f 1 f
i 1/ 0 i
(dacă se cunosc 1/ 0 şi f1)
174
Σx1 f 1 Σx 1 f 1 Σy 1 Σg 1y
I f1/ 0=I ∑
1/ 0
y(f )
= = =
Σx 1 f 0 1 1 1 y
Σ f ⋅x 1 f 1 Σ f ⋅y 1 Σ f ⋅g1 f
i 1/ 0 i 1/ 0 i 1/ 0 i
(dacă se cunosc 1/ 0 şi y1)
I∑ vq
=
( ) ∑ p 0 q1 = ∑ p 0 q1
1/0
∑ p0 q0 ∑ v 0
Indicele sintetic al factorului calitativ (Paasche):
I∑
v ( p)
=
∑ p1q1 = ∑ v1
∑ p 0 q 1 ∑ p0 q1
1/0
∑ v ( p) ∑v
I∑ v( q )
⋅I 1 /0 = I 1 /0
Condiţia de reversibilitate: 1/0
175
Pe baza indicilor calculaţi se pot determina şi modificările relative (ritmul):
∑v
( I ∑ −1)⋅100 = R
1/0
v
1 /0
(I∑ )
(q )
−1 ⋅100 = R∑
v v (q )
1/0 1 /0
(I∑ )
( p)
−1 ⋅100 = R∑ v (p)
v
1/ 0 1 /0
Δ ∑ v ( q ) =∑ p0 q1 −∑ p0 q 0
Δ ∑ v ( p ) = ∑ p 1 q 1 − ∑ p 0 q1
Cumulând modificările absolute ale valorii datorate influenţei factorilor obţinem mo-
dificarea absolută totală a valorii.
Δ ∑ v = Δ ∑ v ( q ) +Δ ∑ v ( p )
Daca calculam indicii de grup ai valorii, volumului fizic si preturilor ca medie aritmetica si
armonica, formulele acestora devin:
v ∑ v 1 ∑ i 1/0 v 0 ∑ i 1/0 g0
v v v ( %)
I∑
1/0 = = = =∑ i 1/0
v
g v0
∑ 0 ∑ 0 100
v v ca medie aritmetică ponderată
I∑ v ∑ v1 = ∑ v1 = 1
1/ 0 =
∑ v 0 ∑ v1 ⋅v 1 ∑ 1
⋅gv
i 1/ 0 i v1/ 0 1 ca medie armonică ponderată
I q1/ 0=I ∑ v ( q)
=
∑ p 0 q1 = Σiq1/ 0⋅p0 q 0 = Σiq1/ 0⋅v 0 =Σiq v
1/ 0 1/ 0⋅g 0
Σp0 q 0 Σp0 q0 Σv0 ca medie aritmetică ponderată
p ∑ v ( p )= Σp 1 q 1 = Σp 1 q1 Σv 1 Σg 1v
I 1/ 0=I 1/ 0 = =
Σp 0 q 1 1 1 1 v
Σ x p1 q 1 Σ p v 1 Σ p g1
i1 /0 i 1/ 0 i 1/ 0 ca medie armonică ponderată
176
Indicele preţurilor de consum (IPC) măsoară schimbările, în timp, intervenite în nivelul
general al preţurilor bunurilor şi serviciilor, pe care o populaţie de referinţă le foloseşte sau
le plăteşte pentru consum. (Sursa: International Labour ILO, 1998; Current International
Recommendations on Labour Statistics, Geneva, 1988). Prin urmare, IPC nu este un indice al
costului vieţii, acesta din urmă implicând schimbarea continuă a coşului de bunuri şi servicii
cuprinse în indice, prin faptul că el măsoară comportamentul consumatorilor în vederea
menţinerii constante a unui anumit standard de viaţă (maximizarea utilităţii consumatorilor).
Indicele are utilizări multiple. El este folosit la :
determinarea puterii de cumpărare a veniturilor, salariilor, pensiilor; calculul
indicatorilor privind nivelul de trai şi sărăciei;
fundamentarea calculului dobânzii reale;
deflatarea unor indicatori valorici din domeniile comerţului cu amănuntul,
serviciilor, al agregatelor macroeconomice utilizate la calculul Produsului
Intern Brut (consumul final individual efectiv al gospodăriei populaţiei);
negocierea salariilor, pensiilor, alocaţiilor; realizarea de comparaţii
internaţionale şi altele.
Mod de calcul: IPC este un indice sintetic de tip Laspeyres care măsoară media
schimbărilor de preţ plătite de consumatori pentru un coş fix de bunuri şi servicii, utilizând
ponderi din perioada de bază a indicelui. (Este un indice ‘pur’ de preţ). Determinarea IPC sub
forma unui indice agregat de tip Laspeyres, cu bază fixă, are raţionamente de ordin practic.
Indicele preţurilor de consum se calculează numai pentru elementele care intră în consumul
direct al populaţiei, fiind excluse: consumul din resurse proprii, cheltuielile cu caracter de
investiţii şi acumulare, dobânzile plătite la credite, ratele de asigurare, amenzile, impozitele
etc., precum şi cheltuielile aferente plăţii muncii pentru producţia agricolă a gospodăriilor
individuale“.
IPC se determina cu formula:
p
∑ ∑ 1
⋅p0 q 0
∑ p
p q p i 1/ 0⋅c 0
IPC= 1 0
= 0
= =∑ i 1/
p c
0⋅g0
∑ p 0 q 0 ∑ p0 q 0 ∑ c0
unde gc0 reprezintă structura cheltuielilor (de consum) medii lunare, efectuate de o
gospodărie, în perioada de bază.
177
Principalele variabile care concură la calculul indicelui preţurilor de consum sunt
ponderile şi preţurile. Ponderile se calculează după structura cheltuielilor efectuate de
gospodării pentru cumpărarea bunurilor şi pentru plata serviciilor de consum conform
formulei:
c
0i
ch 0i
g = n
∑ ch0 i
i=1
☺ Exemplul 1
Despre o societate comercială care vinde acelaşi produs în trei puncte de desfacere se cunosc
datele:
178
p 1 q1 p1 q1
i v1/0 = p
i 1/0 = i q1/0 =
p0 q0 p0 q0
A 42 45 45 42 1,071 1,0 1,071
B 78,6 86,8 74,4 89,6 1,13 1,167 0,969
C 58,4 68 64 62,05 1,164 1,063 1,096
177,2 199,8 183,4 193,65
Total
∑ p0 q0 ∑ p1 q1 ∑ p 0 q1 ∑ p1 q0 - - -
iv i p iq
a) pe fiecare punct de vânzare se va măsura folosind indicii individuali , , (vezi
tabel);
b) pe total societate:
I v1/0=
∑ v 1 : ∑ p 1 q1 =199 , 8 =1 , 12745
∑ v 0 ∑ p0 q0 177 , 2
p
I 1/0=
∑ p1 q0 =193 .65 =1 .092
∑ p0 q0 177 .2
- indice Laspeyres
p
I 1/0=
∑ p1 q1 =199 . 8 =1 . 089
∑ p0 q1 183 . 4
- indice Paasche
I q1/0=
∑ p 0 q1 =183 . 4 =1. 035
∑ p0 q0 177 .2
I q1/0=
∑ p1 q1 =199 . 8 =1. 031
∑ p1 q 0 193 . 65
Relaţii:
I v1/0( p , q )= I 1/ (0
v p/ q 1) v ( q/ p 0 )
= I 1/ 0 ⇒1 ,12754≃1,0894⋅1,035
I v1/0( p , q )= I 1/ (0
v p/ q 0 ) v ( q/ p 1)
= I 1/ 0 ⇒1 , 12754≃1,0928⋅1,03176
☺ Exemplul 2
179
Preţurile şi cheltuielile unei familii pentru achiziţionarea a trei produse în două perioade de
timp se caracterizează prin datele:
Rezolvare:
Notaţii:
0 = perioada de bază; 1 = perioada curentă; p = preţul; p · q = valoarea produselor cumpărate
1. Dinamica preţurilor de vânzare pe fiecare produs se va măsura cu ajutorul indicilor
P 1
p
{ {
i1/0= =¿ A=5,0¿ B=15,0¿¿¿¿
p0
2. Indicele preţurilor de consum (indicele preţurilor cu amănuntul) se va calcula cu
un indice de tip Laspeyres sau ca o medie aritmetică a indicilor individuali al preţurilor.
p
I 1/0=
∑ p1 q0 = ∑ i1/0
p
⋅po q0 3215
= =6 ,629
∑ p0 q0 ∑ p0 q0 485 sau 662,9%
Se observă că ponderea cheltuielilor a scăzut la produsele B şi C pentru care creşterile
de preţuri sunt foarte mari, în schimb la produsul A preţul a crescut numai de cinci ori, a
crescut ponderea acestui produs în totalul cheltuielilor de la 58% la 81%.
Testul de autoevaluare 1
1. Folosirea indicelui de grup ridică cele mai multe probleme referitoare la următoarele:
a) alegerea bazei de raportare
b) separarea factorilor în calitativi şi cantitativi
c) alegerea nivelului absolut
d) determinarea unor agregate macroeconomice
e) alegerea formulei de calcul
f) alegerea sistemului de ponderare
180
Alegeţi combinaţia corectă:
A = a, b, c, d; B = b, c, d, e; C = c, d, e, f; D = b, d, e, f; E = a, b, e, f.
Testul de autoevaluare 1
1. e);
181
2. e);
3. Rezolvare
Σp0 q 1 210 ,2
I q1/0( L )= = =1 , 0406 sau 104 ,06 %
Σp0 q 0 202
preţurilor calculaţi ca indici de tip Laspeyres (L) şi Paasche (P):
182
p ( P) Σp 1 q 1 652
I 1/0 = = =3 , 1018 sau 310 ,18 %
Σp 0 q1 210 , 2
( )
p L Σp 1 q0 626 , 6
I 1/0 = = =3 ,10198 sau 310 ,198 %
Σp 0 q 0 202
Din produsul celor doi indici factoriali se obţine nivelul relativ al variabilei complexe
pe ansamblul mărfurilor analizate:
I ν1/ 0=I 1/
p q
0⋅I 1 / 0
Vânzările totale pentru societatea comercială analizată din perioada curentă faţă de
perioada de bază cresc de 3,227 ori, cu o creştere relativă de 222,7%.
Cantităţile comparativ cu preţurile scad, motiv pentru care dinamica lor este
nesemnificativă, iar preţurile se observă că au o tendinţă de creştere care devansează creşterea
cantităţilor.
La nivelul societăţii comerciale, valoarea vânzărilor a crescut cu 222% ca urmare a
faptului că preţurile de vânzare au fost cu 210,198% superioare în perioada curentă faţă de
perioada de bază, iar cantităţile vândute au crescut cu 4,05%.
4. Rezolvare
q 2
{ {
i1/10=r1/0+10 ⇒¿ A=3+10 =103% sau 1,03¿ B=−5+10 =95% sau 0,95 ¿¿¿
v 2p p
{ {
i1/10=i1/0⋅i1/0⇒¿ A=1, 03⋅1, 8=1, 854¿ B=0, 95⋅2, 5=2, 375¿¿¿
b) Dinamica valorii, volumului fizic şi a preţurilor pe total punct de desfacere:
183
v
v ( p , q ) Σp1 q1
Σi 1/0 p 0 q0 1 , 854⋅38+2 , 375⋅25+2 , 94⋅15 173 , 927
I 1/0 = = = = =
Σp0 q0 Σp0 q 0 78 78
q
Σp q Σi p q 1 , 03⋅38+0 , 95⋅25+0 , 98⋅15 77 , 59
I v1/0(q )= 0 1 = 1/0 0 0 = = =
Σp0 q 0 Σp0 q0 78 78
¿ 0 , 994 sau 99 , 4 %
v
v ( p ) I 1/0 2, 2298
I 1/0 = q = =2 ,243 sau 224 , 3 %
I 1/0 0 , 994
8. Teme de autocontrol
1. Pentru o firmă cu două filiale s-au cules datele referitoare la preţul mărfii vândute de două
filiale şi cantitatea vândută în două luni consecutive ale anului 2009, martie şi aprilie:
Filiala Preţul mărfii în iulie Preţul mărfii în Cantitatea Cantitatea
2009 <RON> aprilie 2009 vândută din vândută din
<RON> marfă în martie marfă în aprilie
2009 2009
Bacău 9 10 82 65
Constanţa 7 8 50 35
Considerând că valoarea mărfii vândute de fiecare filială, (V), este o variabilă complexă, ce
depinde de preţul de vânzare al mărfii, (p) şi de cantitatea de marfă vândută, (q), după
modelul multiplicativ V= p.q se cere să se calculeze şi să se interpreteze :
a. indicii individuali ai valorii mărfurilor vândute, preţului şi cantităţii vândute pentru
fiecare filială. Comparaţi rezultatele pentru cele două filiale.
b. indicii agregaţi ai preţului de tip Paasche şi de tip Laspeyres. Comparaşi cei doi indici
şi analizaţi rezultatele.
2. Pentru o economie naţională ce importă două produse s-au cules datele referitoare la
numărul de produse importate şi preţul produselor în două luni consecutive ale anului 2009,
martie şi aprilie:
Produsul Preţul produselor Preţul produselor Numărul Numărul
importate în martie importate în aprilie produselor produselor
184
2009 2009 importate în importate în
<RON/angajat> martie 2009 aprilie 2009
A 40 60 84 63
B 50 70 59 42
C 30 30 28 32
Considerând că valoarea bunurilor importate pe piaţa internă (Valoarea importurilor:
VI) este o variabilă complexă ce depinde de preţul de import (P) şi numărul de produse
.
importate (Q) după modelul multiplicativ VI= P Q, se cere să se calculeze şi să se
interpreteze:
a. indicii individuali ai valorii mărfurilor vândute, preţului şi cantităţii importate din
fiecare marfă. Comparaţi rezultatele.
b. indicii agregaţi ai preţului de tip Paasche şi de tip Laspeyres. Comparaţi cei doi indici
şi analizaţi rezultatele.
1. Bădiţă, M., Cristache S. E., Şerban, D., Teste grilă de statistică , ed. Amalteea, , 81 pg.
2. Cristache, S.E., Şerban, D., Lucrări aplicative de Statistică şi Econometrie, Ed. ASE,
Bucureşti, 2007, 433 pg.
185
3. Isaic Maniu, Al., Voineagu, V., Mitruţ, C., Baron, T., Ţiţan, E., Matache S., Şerban D.,
Voineagu, M., Statistică teoretică. Studii de caz şi aplicaţii, Ed. Economică, 255 pg. (189 -
219), Bucureşti, 1998, ISBN 973-590-086-6
186