Documente Academic
Documente Profesional
Documente Cultură
Cuprins:
1
2. Sistematizarea datelor statistice (gruparea/clasificarea).
Am văzut că statistica operează cu volume mari de date. Dacă aceste date sunt
prezentate într-o formă aleatoare neregulată, este dificil, investigând vizual setul de date, să-l
caracterizăm prin trăsăturile sale esenţiale, prin valorile extreme, tendinţa centrală sau gradul
de dispersare. De aceea, putem întâi supune setul de date unor operaţii de prezentare
sistematică, de organizare, de ordonare a acestor date după unul sau mai multe criterii, într-
un cuvânt de sistematizare.
Această operaţie face trecerea de la observarea statistică (în urma căreia s-au obţinut
datele necesare realizării obiectivelor investigaţiei statistice, verificate sub aspectul volumului
şi calităţii) şi prelucrarea propriuzisă.
Sistematizarea este parte a prelucrării primare a datelor statistice.
Sistematizarea datelor se realizează prin gruparea şi clasificarea datelor statistice.
Atunci când criteriul (caracteristica) după care se realizează această operaţie este unul
numeric, cantitativ, ea se numeşte grupare, iar când operaţia se realizează după un criteriu
(caracteristic) calitativ, nenumeric, ea se numeşte clasificare.
La realizarea unei grupări/clasificări, trebuie, pe cât posibil, să îndeplinim următoarele
condiţii:
a) omogenitate (în sensul că unităţile statistice care au aceeaşi valoare sau valori
apropiate, asemănătoare, ale caracteristicii după care se efectuează sistematizarea vor
fi incluse în aceeaşi clasă; în felul acesta, se doreşte ca variaţia valorilor caracteristicii
incluse în aceeaşi grupă/clasă să fie cât mai mică);
b) unicitate (în sensul că o unitate statistică trebuie inclusă într-o singură clasă sau grupă,
ea nu se poate regăsi simultan în două sau mai multe clase/grupe);
c) completitudine (în sensul că toate unităţile statistice să fie incluse în grupe/clase, să nu
fie exclusă vreo unitate din operaţia de sistematizare).
2
Sunt cazuri în care nu este posibilă îndeplinirea simultană a tuturor acestor condiţii (de
exemplu: dacă sunt unităţi la care s-au înregistrat valori extreme, aberante, ale caracteristicii
după care se face sistematizarea, este de dorit, uneori, să se evidenţieze separat aceste cazuri,
să se scoată în afara grupării aceste unităţi şi să se sistematizeze restul unităţilor, la care s-au
înregistrat valori mai apropiate ale variabilei).
☺ Exemplul 1
Distribuţia absolvenţilor unei facultăţi economice după domeniul în care s-au angajat este:
Dacă datele se referă la variabile ordinale, clasele vor respecta criteriul de ordine:
☺ Exemplul 2
Distribuţia studenţilor unei grupe după calificativul obţinut la un proiect este:
3
Foarte bine 6
Excelent 2
Total 30
- pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja
valorilor pe care le poate lua caracteristica nu este foarte mare);
☺ Exemplul 3
Pentru 20 de familii s-a înregistrat numărul de copii: 1, 2, 3, 0, 2, 0, 1, 2, 1, 3, 2, 2, 0, 2, 1, 3,
1, 2, 4, 2. Să se realiezeze o sistematizare a datelor.
4
Se poate efectua pe intervale de mărime egală sau diferită. În continuare vom trata
numai cazul grupării datelor statistice pe intervale egale de variaţie.
Pentru realizarea grupării pe intervale egale de variaţie se recomandă parcurgerea
următorilor paşi:
a) se determină amplitudinea variaţiei caracteristicii, ca diferenţă între valoarea
maximă şi valoarea minimă a caracteristicii.
A x max x min
5
Limitele intervalelor vor avea acelaşi grad de precizie ca şi datele grupate (acelaşi
număr de zecimale), primul interval putând începe chiar de la valoarea minimă a
caracteristicii, sau de la o valoare uşor inferioară acesteia, aleasă în mod convenabil. Este bine
să nu existe suprapuneri de limite, astfel încât la efectuarea grupării să poată fi respectată
condiţia de unicitate.
- Dacă limita superioară a unui interval coincide cu limita inferioară a intervalului
următor, intervalele se numesc continue;
- Dacă între limita superioară a unui interval şi limita inferioară a intervalului următor
există o diferenţă de o unitate întreagă sau zecimală, intervalele se numesc
discontinue sau discrete.
Rezultatele sistematizării pot fi redate cu ajutorul unui tabel asemănător celui din
exemplul următor.
☺ Exemplul 4
În vederea analizei oportunităţii deschiderii unui magazin ce vinde aparatură
electrocasnică, un analist financiar este interesat în cunoaşterea nivelului vânzărilor zilnice ale
magazinelor de profil. Pentru 50 de astfel de magazine alese întâmplător, înregistrează
valoarea facturilor emise zilnic. Datele sunt următoarele (mii lei):
6
Varianta I Varianta II
Intervale de variaţie a valorii Nr. Intervale de variaţie a valorii Nr.
facturilor emise zilnic (mii lei) magazine facturilor emise zilnic (mii lei) magazine
(ni) (ni)
5,0 – 6,0 4 5,0 – 6,0 5
6,0 – 7,0 9 6,0 – 7,0 8
7,0 – 8,0 11 7,0 – 8,0 13
8,0 – 9,0 9 8,0 – 9,0 8
9,0 – 10,0 8 9,0 – 10,0 7
10,0 – 11,0 5 10,0 – 11,0 5
11,0 - 12,0 4 11,0 - 12,0 4
Total 50 Total 50
Notă: limita inferioară inclusă în interval. Notă: limita superioară inclusă în interval.
Varianta III
Intervale de variaţie a valorii facturilor emise Nr. magazine
zilnic (mii lei) (ni)
5,0 – 5,9 4
6,0 – 6,9 9
7,0 – 7,9 11
8,0 – 8,9 9
9,0 – 9,9 8
10,0 – 10,9 5
11,0 – 11,9 4
Total 50
Notă: intervale discontinue.
Se recomandă utilizarea intervalelor continue (varianta I sau varianta II).
Seria statistică reprezintă un mod organizat de prezentare a datelor, sub forma a două
şiruri: primul se referă la criteriul de sistematizare iar al doilea cuprinde datele numerice
sau frecvenţele de apariţie şi depinde de ordinea de apariţie din primul şir.
7
iii. serii de distribuţie de frecvenţe (sau repartiţii de frecvenţe, care se referă la o
variabilă atributivă).
8
x inf X x sup x 2inf X x 2sup ... xiinf X xisup ... x rinf X x rsup
X : 1 1
n1 n2 ... ni ... nr
sau
x1 x2 ... xi ... xr
X :
n1 n2 ... ni ... nr
unde: xiinf , xisup reprezintă limita inferioară, respectiv superioară, a intervalului de variaţie „i”.
Vom considera doar cazul intervalelor egale şi continue.
Centrul intervalului este determinat ca medie aritmetică simplă a limitelor intervalului
şi este considerat reprezentativ pentru datele din acel interval. Se determină cu una din
relaţiile:
xiinf xisup hi
xi sau xi xiinf , unde hi este mărimea intervalului.
2 2
Frecvenţa absolută a grupei (ni) este egală cu numărul de unităţi statistice care au
valoarea caracteristicii mai mare (sau egală) cu limita inferioară a intervalului şi mai mică
(sau egală) cu limita superioară a acesteia. Suma frecvenţelor absolute este notată cu n şi
r
reprezintă numărul total de unităţi sau volumul eşantionului. n ni
i 1
9
ni ni
ni* r
n şi se exprimă în coeficienţi,
ni
i 1
sau
ni ni
ni*% r
100 100
n şi se exprimă în procente.
ni
i 1
Suma frecvenţelor relative este 1 sau 100, după cum sunt exprimate în coeficienţi sau
în procente.
r r
ni* 1 sau ni*% 100
i 1 i 1
Frecvenţele cumulate.
Sunt de două tipuri: cumulate crescător şi cumulate descrescător.
Frecvenţa absolută cumulată crescător a unei grupe este egală cu numărul unităţilor
care au valoarea variabilei mai mică (sau egală) cu limita superioară a grupei (mai exact între
sup
x1inf şi xi ).
i
Fci nk
k 1
Frecvenţa absolută cumulată crescător a ultimei grupe este egală cu volumul colectivităţii (cu
n).
Frecvenţa absolută cumulată descrescător a unei grupe este egală cu numărul
unităţilor pentru care valoarea caracteristicii este mai mare (sau egală) cu limita inferioară a
Frecvenţa absolută cumulată descrescător a primei grupe este egală cu numărul total de unităţi
statistice (cu n):
Asemănător se determină şi frecvenţele relative cumulate crescător şi descrescător,
conform relaţiilor:
i r
Fci* nk* , Fd i* nk*
k 1 k i
10
☺ Exemplu 5
Pentrul datele din exemplul 4 (varianta I) s-au determinat: frecvenţele absolute, frecvenţele relative,
centrele de interval şi frecvenţele absolute cumulate:
unde: ni reprezintă numărul unităţilor care prezintă valoarea xi a caracteristicii de grupare (se
mai numesc frecvenţe absolute);
Prin însumarea frecvenţelor grupelor (ni) se obţine volumul total al colectivităţii (n).
Şi pentru această serie se determină toate tipurile de frecvenţe prezentate anterior.
☺ Exemplul 6
Pentrul situaţia din exemplul 3 s-au determinat: frecvenţele absolute, frecvenţele relative, şi
frecvenţele absolute cumulate:
11
A2. Distribuţii homograde (după o variabilă nenumerică).
Şi pentru distribuţiile homograde, în care sistematizarea datelor este realizată după o
variabilă calitativă, se pot calcula frecvenţe absolute şi relative (vezi exemplul 1).
Dacă sistematizarea s-a efectuat după o variabilă ordinală, se pot calcula şi frecvenţe
cumulate.
☺ Exemplul 7
Pentrul clasificarea din exemplul 2 s-au determinat: frecvenţele absolute, frecvenţele relative, şi
frecvenţele absolute cumulate:
12
Tabelul de mai sus reprezintă un tabel de corelaţie, în care avem:
xi, i 1, r este varianta sau centrul de interval pentru grupa „i”, formată după valorile
variabilei X;
yj, j 1, p este varianta sau centrul de interval al grupei „j”, formată după valorile variabilei
Y;
nij, i 1, r ; j 1, p reprezintă numărul unităţilor statistice la care întâlnim simultan valoarea
xi a caracteristicii X şi valoarea yj a caracteristicii Y;
p
ni. nij este numărul de unităţi statistice care au valoarea xi a caracteristicii X, indiferent
j 1
de valoarea caracteristicii Y;
r
n. j nij este numărul de unităţi statistice care au valoarea yj a caracteristicii Y, indiferent
i 1
de valoarea caracteristicii X;
r p r p
n.. n nij ni . n. j este volumul total al colectivităţii.
i 1 j 1 i 1 j 1
☺ Exersaţi în … Excel
Nivelul profitului anual (mii RON) pentru 50 de firme producătoare de mobilă este:
62 90 91 93 95
82 99 102 105 110
89 123 133 145 164
97 65 72 76 79
114 84 86 87 89
63 91 92 94 96
83 101 104 107 113
119 132 134 146 174
64 69 74 77 98
84 85 86 88 102
Să se sistematizeze datele pe 7 intervale egale de variaţie şi să se reprezinte grafic, folosind metodele
statistice implementate în Excel.
13
7. Se poziţionează cursorul pe coloanele histogramei. Se apasă de două ori pe butonul din stânga al
mouse-ului. Se va deschide o fereastră Format Data Series. În această fereastră se merge pe
Options şi la Gap width se trece 0. Se apasă OK.
Se obţin rezultatele:
Bin Frequency
Histogram
78 9
20
94 18
110 12 15
126 4
Frequency
142 3 10
158 2
5
0
78 94 110 126 142 158 174 More
Bin
174 2
Cumulative %
120,00%
100,00%
80,00%
60,00%
40,00%
20,00%
,00%
78 94 110 126 142 158 174
14
d) numărul unităţilor care au valoarea caracteristicii mai mică sau egală cu limita
superioară a grupei;
e) numărul unităţilor care au valoarea caracteristicii mai mare sau egală cu limita
inferioară a grupei.
Aşa cum am arătat, alături de grafice, şi tabelele statistice joacă un rol important în
prezentarea dateor, căci ele pot releva anumite aspecte pe care graficele nu le pot pune în
valoare. În unele situaţii, este mai importantă prezentarea valorilor numerice ale datelor, decât
o vizualizare grafică a acestora. În felul acesta, tabelele reprezintă un instrument
complementar graficelor, de prezentare rapidă şi eficientă a datelor, dar şi de sistematizare a
acestora.
Tabelul statistic cuprinde una sau mai multe serii statistice, ai căror termeni sunt înscrişi
într-o reţea de linii şi coloane.
15
Pentru ca un tabel statistic să fie corect elaborat şi să-şi atingă scopul, trebuie să
conţină un set de elemente obligatorii sau opţionale şi să respecte unele reguli:
- titlul tabelului este un element obligatoriu plasat înaintea tabelului, care descrie clar şi
concis conţinutul datelor pe care le cuprinde;
- macheta tabelului este o reţea de linii ce alcătuiesc rubricile tabelului;
- subiectul tabelului este format din populaţia la care se referă datele înscrise în tabel;
- predicatul tabelului este format din sistemul de indicatori redaţi în tabel;
- rubricile tabelului sunt spaţiile create la întretăierea liniilor orizontale cu cele verticale,
în care sunt înscrise datele;
- datele statistice înscrise în tabel pot fi sub formă numerică sau textuală;
- unitatea de măsură trebuie precizată pentru fiecare din indicatorii înscrişi în tabel; dacă
toţi sunt exprimaţi în aceeaşi unitate de măsură, atunci aceasta se poate trece deasupra
tabelului;
- sursa datelor;
- numărul tabelului – este necesar mai ales atunci când se folosesc mai multe tabele,
pentru identificarea lor;
- note explicative, metodologice
16
note explicative, sursa datelor etc.
1. Histograma:
Histograma conţine o succesiune de dreptunghiuri, cu bazele corespunzătoare lungimii
in-tervalelor şi înălţimile egale cu numărul de observaţii din fiecare interval (sau cu ponderea
lor). Dacă intervalele au mărime egală, atunci şi coloanele vor avea lăţime egală.
Permite vizualizarea distribuţiei de frecvenţe absolute sau relative, după o variabilă
numerică continuă (pe intervale).
2. Poligonul frecvenţelor:
Poligonul frecvenţelor este şi el utilizat pentru reprezentarea grafică a distribuţiilor de
frecvenţe absolute sau relative, atunci când sistematizarea datelor s-a făcut după o
caracteristică numerică continuă sau discontinuă. Pentru construirea lui, din fiecare valoare a
caracteristicii sau din fiecare centru de interval se ridică câte o perpendiculară şi se marchează
pe ea punctul aflat la o distanţă egală cu frecvenţa variantei sau intervalului respectiv. Unind
toate punctele astfel găsite rezultă un poligon numit „poligonul frecvenţelor”.
Poligonul frecvenţelor se poate suprapune peste histogramă în cadrul aceluiaşi grafic,
sau se poate trasa într-un grafic separat.
17
În cazul distribuţiilor de frecvenţe după o variabilă discretă reprezentarea grafică a
frecvenţelor cumulate crescător va avea, de această dată, aspectul unei scări, pentru că nici o
unitate statistică nu poate avea valoarea caracteristicii situată între variantele stabilite
☺ Exemplul 8
Pentru distribuţia de frecvenţe din exemplul 4, obţinută după o variabilă continuă,
histograma, poligonul frecvenţelor şi curbele frecvenţelor cumulate se prezintă astfel:
12 12
10 10
Nr. magazine
8
8
Din graficele realizate reiese că distribuţia magazinelor după valoarea facturilor emise
este o distribuţie cu tendinţă de normalitate.
50
40
frecvente cumulate
30
20
10
0
5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0
mii RON
☺ Exemplul 9
Pentru distribuţia de frecvenţe din exemplul 3, obţinută după o variabilă discretă,
poligonul frecvenţelor şi graficul frecvenţelor cumulate crescător se prezintă astfel:
18
25
10
20
8
Frecvente cumulate
6 15
nr. familii
4 10
2 5
0 0
0 1 2 3 4 5 0 1 2 3 4 5
nr. copii Nr. copii
☺ Exemplul 10
Pentru distribuţia de frecvenţe din exemplul 1, obţinută după o variabilă calitativă,
diagrama prin coloane şi cea prin benzi se prezintă astfel:
19
Distributia absolventilor dupa domeniul de
ocupare Altele
100 Manag.
80
Domeniu
Finanţe
60
Persoane
40 Market.
20
Contab.
0
Contabilitate Marketing Finanţe Management Altele
ec. 0 20 40 60 80 100
Domeniul Persoane
5. Diagrama de structură.
☺ Exemplul 11
Pentru distribuţiile de frecvenţe din exemplele 1 şi 4, diagrama de structură se prezintă
astfel:
20
Structura magazinelor dupa valoarea facturilor
Structura absolvenţilor după domeniul de ocupare emise zilnic
5,0 – 6,0
11,0 – 12,0 8%
6,0 – 7,0
12% 8%
18%
18%
8,0 – 9,0
24% 18%
21
4. Răspunsuri la testele de autoevaluare
22
d) este incorect, deoarece axa Oy îşi are originea în 10, nu în 0, aşa cum este cazul scalei de
raport;
e) este incorect, deoarece scările de reprezentare nu au fost alese echilibrat pe cele 2 axe,
(graficul este prea extins pe orizontală, ceea ce duce la falsa aplatizare, alternare a variaţiei
fenomenului);
f) este incorect deoarece pe axa Oy trebuie figurată o întrerupere de scară (între 0 şi 10).
Aşadar, incorecte sunt graficele a), b), d), e), f).
5. Teme de control
23
6. Rezumatul Unităţii de învăţare
În acest capitol am învăţat să supunem setul de date unor operaţii de prezentare sistematică,
de organizare, de ordonare după unul sau mai multe criterii, într-un cuvânt de sistematizare.
Includem aici operaţiile de grpare/clasificare.
Gruparea / clasificarea datelor statistice presupune împărţirea unităţilor populaţiei statistice
observate în grupe sau clase distincte omogene, după unul sau mai multe criterii. Dacă efectuăm
sistematizarea datelor după o variabilă nenumerică, spunem că efectuăm o clasificare, iar dacă
sistematizăm datele după o variabilă numerică, spunem că realizăm o grupare.
Clasificarea datelor se poate face:
- pe variante (dacă sunt puţine variante)
- pe grupe de variante (în cazul existenţei mai multor variante).
Gruparea după o variabilă numerică se poate face:
- pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja
valorilor pe care le poate lua caracteristica nu este foarte mare);
- pe intervale de variaţie (atunci când sistematizăm datele după o variabilă continuă,
care are o plajă largă de valori). Intervalele de variaţie pot fi egale sau neegale.
Modalităţile de prezentare şi reprezentare a datelor statistice sunt:
- seriile statistice.
- tabelele statistice
- graficele statistice.
1. Anderson D., Sweeney D.,Williams T., Statistics for Business and Economics, Thomson
South Western, 2008
2. Ghiţă S. – “Statistică”, Editura Meteor Press, Bucureşti, 2006.
3. Isaic-Maniu Al., Mitruţ C., Voineagu V., Statistică, Editura Universitară, Bucureşti, 2003;
4. Ţiţan, E.- Statistică. Teorie şi aplicaţii în sectorul terţiar, Ed. Meteor Press, Bucureşti,
5. Voineagu V., Ţiţan E., Ghiţă S., Boboc C., Todose D. – Statistică. Baze teoretice şi
aplicaţii, Editura Economică, Bucureşti, 2007;
24