Documente Academic
Documente Profesional
Documente Cultură
UI4-Prel Datelor PDF
UI4-Prel Datelor PDF
Cuprins:
1
2. Sistematizarea datelor statistice (gruparea/clasificarea).
Am văzut că statistica operează cu volume mari de date. Dacă aceste date sunt
prezentate într-o formă aleatoare neregulată, este dificil, investigând vizual setul de date, să-l
caracterizăm prin trăsăturile sale esenţiale, prin valorile extreme, tendinţa centrală sau gradul
de dispersare. De aceea, putem întâi supune setul de date unor operaţii de prezentare
sistematică, de organizare, de ordonare a acestor date după unul sau mai multe criterii, într-
un cuvânt de sistematizare.
Această operaţie face trecerea de la observarea statistică (în urma căreia s-au obţinut
datele necesare realizării obiectivelor investigaţiei statistice, verificate sub aspectul volumului
şi calităţii) şi prelucrarea propriuzisă.
Sistematizarea este parte a prelucrării primare a datelor statistice.
Sistematizarea datelor se realizează prin gruparea şi clasificarea datelor statistice.
Atunci când criteriul (caracteristica) după care se realizează această operaţie este unul
numeric, cantitativ, ea se numeşte grupare, iar când operaţia se realizează după un criteriu
(caracteristic) calitativ, nenumeric, ea se numeşte clasificare.
La realizarea unei grupări/clasificări, trebuie, pe cât posibil, să îndeplinim următoarele
condiţii:
a) omogenitate (în sensul că unităţile statistice care au aceeaşi valoare sau valori
apropiate, asemănătoare, ale caracteristicii după care se efectuează sistematizarea vor
fi incluse în aceeaşi clasă; în felul acesta, se doreşte ca variaţia valorilor caracteristicii
incluse în aceeaşi grupă/clasă să fie cât mai mică);
b) unicitate (în sensul că o unitate statistică trebuie inclusă într-o singură clasă sau grupă,
ea nu se poate regăsi simultan în două sau mai multe clase/grupe);
c) completitudine (în sensul că toate unităţile statistice să fie incluse în grupe/clase, să nu
fie exclusă vreo unitate din operaţia de sistematizare).
2
Sunt cazuri în care nu este posibilă îndeplinirea simultană a tuturor acestor condiţii (de
exemplu: dacă sunt unităţi la care s-au înregistrat valori extreme, aberante, ale caracteristicii
după care se face sistematizarea, este de dorit, uneori, să se evidenţieze separat aceste cazuri,
să se scoată în afara grupării aceste unităţi şi să se sistematizeze restul unităţilor, la care s-au
înregistrat valori mai apropiate ale variabilei).
☺ Exemplul 1
Distribuţia absolvenţilor unei facultăţi economice după domeniul în care s-au angajat este:
Dacă datele se referă la variabile ordinale, clasele vor respecta criteriul de ordine:
☺ Exemplul 2
Distribuţia studenţilor unei grupe după calificativul obţinut la un proiect este:
3
Foarte bine 6
Excelent 2
Total 30
- pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja
valorilor pe care le poate lua caracteristica nu este foarte mare);
☺ Exemplul 3
Pentru 20 de familii s-a înregistrat numărul de copii: 1, 2, 3, 0, 2, 0, 1, 2, 1, 3, 2, 2, 0, 2, 1, 3,
1, 2, 4, 2. Să se realiezeze o sistematizare a datelor.
4
Se poate efectua pe intervale de mărime egală sau diferită. În continuare vom trata
numai cazul grupării datelor statistice pe intervale egale de variaţie.
Pentru realizarea grupării pe intervale egale de variaţie se recomandă parcurgerea
următorilor paşi:
a) se determină amplitudinea variaţiei caracteristicii, ca diferenţă între valoarea
maximă şi valoarea minimă a caracteristicii.
A = x max − x min
b) se stabileşte numărul de grupe. În acest caz pot exista două situaţii:
- numărul de grupe (r) este prestabilit, pe baza experienţei căpătate din studii anterioare
asupra domeniului de interes.
- numărul de grupe (r) nu este prestabilit; în acest caz, dacă unităţile se repartizează
aproximati normal după caracteristica studiată, se poate utiliza pentru determinarea
numărul de grupe relaţia lui Sturges:
r = 1 + 3,322 ⋅ lg n
unde n este numărul total de unităţi ale colectivităţii.
Este recomandat a se folosi un număr potrivit de grupe (de regulă între 4 şi 10).
Utilizarea unui număr prea mare de grupe ar duce la fărâmiţarea excesivă a colectivităţii
(putând apare, în acest caz şi grupe cu frecvenţe nule, iar gruparea ar trebui refăcută);
utilizarea, dimpotrivă, a unui număr prea mic de grupe ar putea să nu pună în evidenţă
principalele tipuri calitative ale populaţiei după variabila urmărită).
c) se determină mărimea intervalului de grupare (h), ca raport între amplitudinea
caracteristicii şi numărul de grupe:
A
h=
r
Pentru uşurarea calculelor, se recomandă a se folosi mărimi rotunjite de interval, de
aceea, dacă valoarea reieşită din calcul este fracţionară, cu mai multe zecimale, ea se poate
rotunji prin adaos la o valoare imediat superioară, aleasă în mod convenabil.
De exemplu: dacă h = 4,4225, se poate rotunji valoarea la h = 4,5 sau chiar la h = 5.
d) se formează intervalele de grupare, prin precizarea limitelor exacte ale acestora.
xmin xmin+h
xmin+h xmin+2h
.....................................................
xmin + (r — 1).h xmin + r⋅ h
5
Limitele intervalelor vor avea acelaşi grad de precizie ca şi datele grupate (acelaşi
număr de zecimale), primul interval putând începe chiar de la valoarea minimă a
caracteristicii, sau de la o valoare uşor inferioară acesteia, aleasă în mod convenabil. Este bine
să nu existe suprapuneri de limite, astfel încât la efectuarea grupării să poată fi respectată
condiţia de unicitate.
- Dacă limita superioară a unui interval coincide cu limita inferioară a intervalului
următor, intervalele se numesc continue;
- Dacă între limita superioară a unui interval şi limita inferioară a intervalului următor
există o diferenţă de o unitate întreagă sau zecimală, intervalele se numesc
discontinue sau discrete.
Rezultatele sistematizării pot fi redate cu ajutorul unui tabel asemănător celui din
exemplul următor.
☺ Exemplul 4
În vederea analizei oportunităţii deschiderii unui magazin ce vinde aparatură
electrocasnică, un analist financiar este interesat în cunoaşterea nivelului vânzărilor zilnice ale
magazinelor de profil. Pentru 50 de astfel de magazine alese întâmplător, înregistrează
valoarea facturilor emise zilnic. Datele sunt următoarele (mii lei):
6
Varianta I Varianta II
Intervale de variaţie a valorii Nr. Intervale de variaţie a valorii Nr.
facturilor emise zilnic (mii lei) magazine facturilor emise zilnic (mii lei) magazine
(ni) (ni)
5,0 – 6,0 4 5,0 – 6,0 5
6,0 – 7,0 9 6,0 – 7,0 8
7,0 – 8,0 11 7,0 – 8,0 13
8,0 – 9,0 9 8,0 – 9,0 8
9,0 – 10,0 8 9,0 – 10,0 7
10,0 – 11,0 5 10,0 – 11,0 5
11,0 - 12,0 4 11,0 - 12,0 4
Total 50 Total 50
Notă: limita inferioară inclusă în interval. Notă: limita superioară inclusă în interval.
Varianta III
Intervale de variaţie a valorii facturilor emise Nr. magazine
zilnic (mii lei) (ni)
5,0 – 5,9 4
6,0 – 6,9 9
7,0 – 7,9 11
8,0 – 8,9 9
9,0 – 9,9 8
10,0 – 10,9 5
11,0 – 11,9 4
Total 50
Notă: intervale discontinue.
Se recomandă utilizarea intervalelor continue (varianta I sau varianta II).
Seria statistică reprezintă un mod organizat de prezentare a datelor, sub forma a două
şiruri: primul se referă la criteriul de sistematizare iar al doilea cuprinde datele numerice
sau frecvenţele de apariţie şi depinde de ordinea de apariţie din primul şir.
7
iii. serii de distribuţie de frecvenţe (sau repartiţii de frecvenţe, care se referă la o
variabilă atributivă).
8
- pentru o caracteristică continuă (repartiţie de frecvenţe pe intervale de valori):
x inf < X < x sup x2inf < X < x2sup ... xiinf < X < xisup ... xrinf < X < xrsup
X : 1 1
n1 n2 ... ni ... nr
sau
x1 x2 ... xi ... x r
X :
n1 n2 ... ni ... nr
x 2inf − x 2sup n2
... ...
xiinf − xisup ni
... ...
x rinf − x rsup nr
r
Total n = ∑ ni
i =1
unde: xiinf , xisup reprezintă limita inferioară, respectiv superioară, a intervalului de variaţie „i”.
Vom considera doar cazul intervalelor egale şi continue.
Centrul intervalului este determinat ca medie aritmetică simplă a limitelor intervalului
şi este considerat reprezentativ pentru datele din acel interval. Se determină cu una din
relaţiile:
xiinf + xisup hi
xi = sau xi = xiinf + , unde hi este mărimea intervalului.
2 2
Frecvenţa absolută a grupei (ni) este egală cu numărul de unităţi statistice care au
valoarea caracteristicii mai mare (sau egală) cu limita inferioară a intervalului şi mai mică
(sau egală) cu limita superioară a acesteia. Suma frecvenţelor absolute este notată cu n şi
r
reprezintă numărul total de unităţi sau volumul eşantionului. n = ∑ ni
i =1
9
cea superioară a grupei respective. Se determină ca raport între frecvenţa absolută a grupei şi
volumul eşantionului (eventual înmulţit cu 100).
ni ni
ni* = r
= şi se exprimă în coeficienţi,
n
∑ ni
i =1
sau
ni ni
ni*% = r
⋅ 100 = ⋅ 100 şi se exprimă în procente.
n
∑ ni
i =1
Suma frecvenţelor relative este 1 sau 100, după cum sunt exprimate în coeficienţi sau
în procente.
r r
∑ ni* = 1 sau ∑ ni*% = 100
i =1 i =1
Frecvenţele cumulate.
Sunt de două tipuri: cumulate crescător şi cumulate descrescător.
Frecvenţa absolută cumulată crescător a unei grupe este egală cu numărul unităţilor
care au valoarea variabilei mai mică (sau egală) cu limita superioară a grupei (mai exact între
x1inf şi xisup ).
i
Fci = ∑ nk
k =1
Frecvenţa absolută cumulată crescător a ultimei grupe este egală cu volumul colectivităţii (cu
n).
Frecvenţa absolută cumulată descrescător a unei grupe este egală cu numărul
unităţilor pentru care valoarea caracteristicii este mai mare (sau egală) cu limita inferioară a
Frecvenţa absolută cumulată descrescător a primei grupe este egală cu numărul total de unităţi
statistice (cu n):
Asemănător se determină şi frecvenţele relative cumulate crescător şi descrescător,
conform relaţiilor:
10
i r
Fci* = ∑ nk* , Fd i* = ∑ nk*
k =1 k =i
☺ Exemplu 5
Pentrul datele din exemplul 4 (varianta I) s-au determinat: frecvenţele absolute,
frecvenţele relative, centrele de interval şi frecvenţele absolute cumulate:
unde: ni reprezintă numărul unităţilor care prezintă valoarea xi a caracteristicii de grupare (se
mai numesc frecvenţe absolute);
Prin însumarea frecvenţelor grupelor (ni) se obţine volumul total al colectivităţii (n).
Şi pentru această serie se determină toate tipurile de frecvenţe prezentate anterior.
☺ Exemplul 6
11
Pentrul situaţia din exemplul 3 s-au determinat: frecvenţele absolute, frecvenţele relative,
şi frecvenţele absolute cumulate:
☺ Exemplul 7
Pentrul clasificarea din exemplul 2 s-au determinat: frecvenţele absolute, frecvenţele
relative, şi frecvenţele absolute cumulate:
12
Distribuţia de frecvenţe bidimensională
Variante sau centre de Variante sau centre de interval pt. variabila Y Total
interval pt. variabila X y1 y2 ... yj ... yp unităţi
x1 n11 n12 ... n1j ... n1p n1.
x2 n21 n22 ... n2j ... n2p n2.
... ... ... ... ... ... ... ...
xi ni1 ni2 ... nij ... nip ni.
... ... ... ... ... ... ... ...
xr nr1 nr2 ... nrj ... nrp nr.
Total unităţi n.1 n.2 ... n.j ... n.p n..
de valoarea caracteristicii Y;
r
n. j = ∑ nij este numărul de unităţi statistice care au valoarea yj a caracteristicii Y, indiferent
i =1
de valoarea caracteristicii X;
r p r p
n.. = n = ∑ ∑ nij = ∑ ni. = ∑ n. j este volumul total al colectivităţii.
i =1 j =1 i =1 j =1
☺ Exersaţi în … Excel
Nivelul profitului anual (mii RON) pentru 50 de firme producătoare de mobilă este:
62 90 91 93 95
82 99 102 105 110
89 123 133 145 164
97 65 72 76 79
114 84 86 87 89
63 91 92 94 96
83 101 104 107 113
119 132 134 146 174
64 69 74 77 98
84 85 86 88 102
13
Să se sistematizeze datele pe 7 intervale egale de variaţie şi să se reprezinte grafic, folosind metodele
statistice implementate în Excel.
Se obţin rezultatele:
Bin Frequency
Histogram
78 9 20
94 18 15
Frequency
110 12
10
126 4
5
142 3
158 2 0
78 94 110 126 142 158 174 More
Bin
174 2
Cumulative %
120,00%
100,00%
80,00%
60,00%
40,00%
20,00%
,00%
78 94 110 126 142 158 174
14
Testul de autoevaluare nr. 1.
15
3.2. Tabele statistice.
Aşa cum am arătat, alături de grafice, şi tabelele statistice joacă un rol important în
prezentarea dateor, căci ele pot releva anumite aspecte pe care graficele nu le pot pune în
valoare. În unele situaţii, este mai importantă prezentarea valorilor numerice ale datelor, decât
o vizualizare grafică a acestora. În felul acesta, tabelele reprezintă un instrument
complementar graficelor, de prezentare rapidă şi eficientă a datelor, dar şi de sistematizare a
acestora.
Tabelul statistic cuprinde una sau mai multe serii statistice, ai căror termeni sunt înscrişi
într-o reţea de linii şi coloane.
Pentru ca un tabel statistic să fie corect elaborat şi să-şi atingă scopul, trebuie să
conţină un set de elemente obligatorii sau opţionale şi să respecte unele reguli:
- titlul tabelului este un element obligatoriu plasat înaintea tabelului, care descrie clar şi
concis conţinutul datelor pe care le cuprinde;
- macheta tabelului este o reţea de linii ce alcătuiesc rubricile tabelului;
- subiectul tabelului este format din populaţia la care se referă datele înscrise în tabel;
- predicatul tabelului este format din sistemul de indicatori redaţi în tabel;
- rubricile tabelului sunt spaţiile create la întretăierea liniilor orizontale cu cele verticale,
în care sunt înscrise datele;
- datele statistice înscrise în tabel pot fi sub formă numerică sau textuală;
- unitatea de măsură trebuie precizată pentru fiecare din indicatorii înscrişi în tabel; dacă
toţi sunt exprimaţi în aceeaşi unitate de măsură, atunci aceasta se poate trece deasupra
tabelului;
- sursa datelor;
- numărul tabelului – este necesar mai ales atunci când se folosesc mai multe tabele,
pentru identificarea lor;
- note explicative, metodologice
16
- grafice cu ajutorul hărţior sau al altor figuri naturale sau simbolice.
Pentru ca un grafic să-şi atingă scopul pentru care a fost proiectat, el trebuie să fie
corect întocmit, să respecte anumite reguli generale, să cuprindă o serie de elemente
obligatorii sau opţionale şi anume:
titlul graficului;
sistemul de coordonate;
scara de reprezentare;
reţeaua graficului;
legenda;
note explicative, sursa datelor etc.
1. Histograma:
Histograma conţine o succesiune de dreptunghiuri, cu bazele corespunzătoare lungimii
in-tervalelor şi înălţimile egale cu numărul de observaţii din fiecare interval (sau cu ponderea
lor). Dacă intervalele au mărime egală, atunci şi coloanele vor avea lăţime egală.
Permite vizualizarea distribuţiei de frecvenţe absolute sau relative, după o variabilă
numerică continuă (pe intervale).
2. Poligonul frecvenţelor:
Poligonul frecvenţelor este şi el utilizat pentru reprezentarea grafică a distribuţiilor de
frecvenţe absolute sau relative, atunci când sistematizarea datelor s-a făcut după o
caracteristică numerică continuă sau discontinuă. Pentru construirea lui, din fiecare valoare a
caracteristicii sau din fiecare centru de interval se ridică câte o perpendiculară şi se marchează
pe ea punctul aflat la o distanţă egală cu frecvenţa variantei sau intervalului respectiv. Unind
toate punctele astfel găsite rezultă un poligon numit „poligonul frecvenţelor”.
Poligonul frecvenţelor se poate suprapune peste histogramă în cadrul aceluiaşi grafic,
sau se poate trasa într-un grafic separat.
17
frecvenţe pe intervale de variaţie sau pe variante. Ele se trasează atât pentru distribuţii de
frecvenţe absolute, cât şi pentru distribuţii de frecvenţe relative.
În cazul distribuţiilor de frecvenţe după o variabilă continuă:
- reprezentarea grafică a frecvenţelor cumulate crescător: pe axa Ox se reprezintă
limitele superioare ale intervalelor, iar pe axa Oy – frecvenţele cumulate crescător;
prin unirea punctelor astfel obţinute se trasează o curbă ascendentă.
- reprezentarea grafică a frecvenţelor cumulate descrescător: pe axa Ox se reprezintă
limitele inferioare ale intervalelor, iar pe axa Oy – frecvenţele cumulate descrescător;
prin unirea punctelor astfel obţinute se trasează o curbă descendentă.
În cazul distribuţiilor de frecvenţe după o variabilă discretă reprezentarea grafică a
frecvenţelor cumulate crescător va avea, de această dată, aspectul unei scări, pentru că nici o
unitate statistică nu poate avea valoarea caracteristicii situată între variantele stabilite
☺ Exemplul 8
Pentru distribuţia de frecvenţe din exemplul 4, obţinută după o variabilă continuă,
histograma, poligonul frecvenţelor şi curbele frecvenţelor cumulate se prezintă astfel:
12 12
10 10
Nr. magazine
8
Nr. magazine (ni)
6
6
4
4
2
2
0
5,0-6,0 6,0-7,0 7,0-8,0 8,0-9,0 9,0- 10,0- 11,0- 0
3 4 5 6 7 8 9 10 11 12 13
10,0 11,0 12,0
Valoarea facturilor (mii lei)
mii RON
Din graficele realizate reiese că distribuţia magazinelor după valoarea facturilor emise
este o distribuţie cu tendinţă de normalitate.
18
Curbele cumulative ale frecventelor
60
50
fre c v e n te c u m u la te
40
30
20
10
0
5.0 6.0 7.0 8.0 9.0 10.0 11.0 12.0
mii RON
☺ Exemplul 9
Pentru distribuţia de frecvenţe din exemplul 3, obţinută după o variabilă discretă,
poligonul frecvenţelor şi graficul frecvenţelor cumulate crescător se prezintă astfel:
25
10
20
Frecvente cumulate
8
n r. fam ilii
6 15
4 10
2 5
0 0
0 1 2 3 4 5 0 1 2 3 4 5
nr. copii Nr. copii
19
sunt răsturnate cu 90% (şi au baza situată pe axa verticală) atunci reprezentarea grafică este o
diagramă prin benzi, cu axele inversate faţă de diagrama prin coloane.
☺ Exemplul 10
Pentru distribuţia de frecvenţe din exemplul 1, obţinută după o variabilă calitativă,
diagrama prin coloane şi cea prin benzi se prezintă astfel:
100 Manag.
D o m e n iu
80
Finanţe
P e rs o a n e
60
40 Market.
20
Contab.
0
Contabilitate Marketing Finanţe Management Altele
ec. 0 20 40 60 80 100
Domeniul Persoane
5. Diagrama de structură.
☺ Exemplul 11
Pentru distribuţiile de frecvenţe din exemplele 1 şi 4, diagrama de structură se prezintă
astfel:
20
Structura magazinelor dupa valoarea facturilor
Structura absolvenţilor după domeniul de ocupare emise zilnic
5,0 – 6,0
11,0 – 12,0 8%
6,0 – 7,0
12% 8%
18%
18%
8,0 – 9,0
24% 18%
21
Vânzãri Vânzãri Vânzãri
(mil) (mil) (mil)
30 30 30
20 20 20
10 10 10
14 13
13 12
12 11
11 10
10 0
ian. feb. mar. apr. mai Ani ian. feb. mar. apr. mai Ani ian. feb. mar. apr. mai Ani
d) e) f)
22
d) este incorect, deoarece axa Oy îşi are originea în 10, nu în 0, aşa cum este cazul scalei de
raport;
e) este incorect, deoarece scările de reprezentare nu au fost alese echilibrat pe cele 2 axe,
(graficul este prea extins pe orizontală, ceea ce duce la falsa aplatizare, alternare a variaţiei
fenomenului);
f) este incorect deoarece pe axa Oy trebuie figurată o întrerupere de scară (între 0 şi 10).
Aşadar, incorecte sunt graficele a), b), d), e), f).
5. Teme de control
23
6. Rezumatul Unităţii de învăţare
În acest capitol am învăţat să supunem setul de date unor operaţii de prezentare sistematică,
de organizare, de ordonare după unul sau mai multe criterii, într-un cuvânt de sistematizare.
Includem aici operaţiile de grpare/clasificare.
Gruparea / clasificarea datelor statistice presupune împărţirea unităţilor populaţiei statistice
observate în grupe sau clase distincte omogene, după unul sau mai multe criterii. Dacă efectuăm
sistematizarea datelor după o variabilă nenumerică, spunem că efectuăm o clasificare, iar dacă
sistematizăm datele după o variabilă numerică, spunem că realizăm o grupare.
Clasificarea datelor se poate face:
- pe variante (dacă sunt puţine variante)
- pe grupe de variante (în cazul existenţei mai multor variante).
Gruparea după o variabilă numerică se poate face:
- pe variante (atunci când grupăm datele după o variabilă discretă sau când plaja
valorilor pe care le poate lua caracteristica nu este foarte mare);
- pe intervale de variaţie (atunci când sistematizăm datele după o variabilă continuă,
care are o plajă largă de valori). Intervalele de variaţie pot fi egale sau neegale.
Modalităţile de prezentare şi reprezentare a datelor statistice sunt:
- seriile statistice.
- tabelele statistice
- graficele statistice.
1. Anderson D., Sweeney D.,Williams T., Statistics for Business and Economics, Thomson
South Western, 2008
2. Ghiţă S. – “Statistică”, Editura Meteor Press, Bucureşti, 2006.
3. Isaic-Maniu Al., Mitruţ C., Voineagu V., Statistică, Editura Universitară, Bucureşti, 2003;
4. Ţiţan, E.- Statistică. Teorie şi aplicaţii în sectorul terţiar, Ed. Meteor Press, Bucureşti,
5. Voineagu V., Ţiţan E., Ghiţă S., Boboc C., Todose D. – Statistică. Baze teoretice şi
aplicaţii, Editura Economică, Bucureşti, 2007;
24