Sunteți pe pagina 1din 7

Curs 2

Datele statistice trebuie organizate şi prezentate într-o manieră adecvată diverselor


prelucrări statistice.
Agregarea, sistematizarea datelor se realizează în scopul reprezentării grafice, pentru
identificarea formei distribuţiei a variabilei studiate sau pentru evidenţierea aspectelor calitative
din setul de date.
Sistematizarea datelor în clase sau grupe se realizează, de regulă, în cazul eşantioanelor de
volum mare (cel puţin 30 observaţii).
Procesul de sistematizarea constă în împărţirea datelor în clase/grupe omogene, după
una sau mai multe variabile şi stabilirea frecvenţei de apariţie (prin numărarea unităţilor
statistice ce se încadrează în fiecare clasă).
Rezultatul sistematizării datelor este reprezentat de seria de distribuţie de frecvenţe.
Frecvenţa fiecărei clase, astfel determinată, se numeşte frecvenţă absolută, notată ni ,
r
i  1, r , unde r reprezintă numărul de clase, iar n  n
i 1
i .

Se pot determina şi frecvenţa relativă a clasei (notată ni* ), care indică proporţia din
numărul total de unităţi, care se încadrează în fiecare clasă:
r

n
ni ni
ni*  r
 , unde *
i  1 , iar n reprezintă volumul total al eşantionului.
n
n i 1
i
i 1

Tipul seriei de distribuţie de frecvenţe obţinute depinde de scala de măsurare a


variabilei sistematizate.

În funcţie de tipul datelor agregate se pot construi serii de distribuţie de frecvenţe pe


variante sau pe intervale de variaţie.

Seria de distribuţie de frecvenţe pe variante se obţine în următoarele cazuri:

 variabilele sunt măsurate pe scala nominală;

 variabilele sunt măsurate pe scala ordinală;

 variabilele sunt numerice, cu variaţie discretă şi au un număr redus de variante


posibile (maxim 10-15 valori).

1
Reprezentarea grafică a seriilor de distribuţie de frecvenţe pe variante, pentru
variabile nenumerice, se realizează folosind diagrama prin coloane, în cazul frecvenţelor
absolute, respectiv diagrama de structură (pie chart), în cazul frecvenţelor relative.

Reprezentarea grafică a unei serii de distribuţie de frecvenţe pe variante alcătuită după o


variabilă numerică discretă cu un număr redus de variante este poligonul frecvenţelor, pe axa
OX fiind reprezentate valorile variabilei, iar pe axa OY fiind reprezentate frecvenţele absolute sau
relative.

Exemple

Serie de distribuţie de frecvenţe pe variante pentru o variabilă măsurată pe scala nominală;

Exemplul 1. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de departamentul în care îşi
desfăşoară activitatea este:
Departamentul Număr Diagrama prin coloane Diagrama de structură
salariaţi (pie chart)

Administrativ 5

Financiar 20

Aprovizionare 25

Producţie 60

Vânzare 10

Total 120

Figura 1.1 Serie de distribuţie de frecvenţe pe variante pentru o variabilă măsurată pe scala nominală

Serie de distribuţie de frecvenţe pe variante pentru o variabilă măsurată pe scala ordinală;

Exemplul 2. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de nivelul ultimelor studii
absolvite este:
Nivelul Număr Diagrama prin coloane Diagrama de structură
studiilor salariaţi (pie chart)
Gimnaziale 5

Liceale 25

Postliceale 31

Universitare 44

Postuniversitare 15

2
Total 120

Figura 1.2. Serie de distribuţie de frecvenţe pe variante pentru o variabilă măsurată pe scala ordinală

Serie de distribuţie de frecvenţe pe variante pentru o variabilă numerică, cu variaţie discretă


şi au un număr redus de variante;

Exemplul 3. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de numărul copiilor
minori în întreţinere:
Număr copii minori în Număr Poligonul frecvenţelor
întreţinere salariaţi

0 10

1 20

2 35

3 40

4 15

Total 120

Figura 1.3. Serie de distribuţie de frecvenţe pe variante pentru o variabilă numerică cu variaţie discretă

Seria de distribuţie de frecvenţe pe intervale de variaţie se construieşte pentru:


 variabile numerice discrete cu număr mare de valori distincte;
 variabile numerice cu variaţie continuă.
Intervalul de variaţie reprezintă un şir de valori ale variabilei studiate, delimitat de
intervalele vecine prin limita inferioară şi limita superioară. Intervalele de variaţie sunt
de regulă de mărime egală. Există şi situaţii în care, pentru evidenţierea unor aspecte
calitative, se utilizează intervale de variaţie de mărime neegală.

Reprezentarea grafică a seriilor de distribuţie de frecvenţe pe intervale de variaţie, se


realizează folosind histograma , pe axa OX fiind reprezentate intervalele de variaţie a valorilor
variabilei, iar pe axa OY fiind reprezentate frecvenţele absolute sau relative.

Serie de distribuţie de frecvenţe pe intervale de variaţie

Exemplul 4. Distribuţia celor 120 de salariaţi ai firmei Papirus în funcţie de veniturile salariale este:

3
Venituri salariale Număr HISTOGRAMA
(mii lei) salariaţi

Sub 1,5 10

1,5 – 2,0 40

2,0 - 2,5 30

2,5 – 3,0 20

3,0 – 3,5 15

Peste 3,5 5

Total 120
Nota: Limita superioară inclusă în interval

Figura 1.4. Serie de distribuţie de frecvenţe pe intervale de variaţie, histograma

Pentru realizarea etapei de sistematizare şi reprezentare grafică a datelor statistice se


utilizează, de regulă, pachetele software specializate în analiza datelor. Cel mai la îndemână
astfel de produs software este cel oferit de Microsoft Office – Microsoft Excel, şi anume
DATA ANALYSIS. Există, de asemenea, o gamă mare de funcţii Excel ce pot fi utilizate
pentru realizarea anumitor prelucrări statistice. Funcţiile EXCEL utilizate pentru
sistematizarea datelor sunt:
 COUNTIF, pentru grupare pe variante
 FREQUENCY, pentru grupare pe intervale de variaţie.
Sintaxa acestor funcţii este următoarea:
COUNTIF (range, criteria)=(n1, n2, …, nr)
-parametrii de intrare:
range este vectorul datelor ce urmează a fi grupate;
criteria este vectorul valorilor unice xi după care dorim să facem gruparea;
-parametrii de ieşire :
ni, frecvenţa de apariţie a valorii xi din criteria, în şirul range.

FREQUENCY (data array, bins array)= (n1, n2, …, nr)


-parametrii de intrare:
data array este vectorul datelor ce trebuie grupate;
bins arrray este vectorul format din limitele superioare ale intervalelor de grupare;
-parametrii de ieşire :

4
ni reprezintă numărul valorilor din data array cuprinse în intervalul bi , bi 1  , acestea fiind

elemente din bins array. Parametrul de ieşire va fi un vector de dimensiune egală cu


dimensiunea lui bins array +1.

Funcţia trebuie introdusă ca o formulă matrice. După returnarea unei singure valori, se selectează
încă atâtea celule de câte avem nevoie, se tastează F2, apoi CTRL+SHIFT+ENTER. Dimensiunea
vectorului de ieşire este egală cu dimensiunea lui criteria.

În cazul grupării datelor pe intervale egale de variaţie stabilirea limitelor de interval


se poate realiza astfel:
1. Se determină amplitudinea absolută a variaţiei caracteristicii X:
Ax = xmax - xmin
2. Se stabileşte numărul de grupe (r) folosind formula lui Sturges (în ipoteza repartiţiei
aproximativ normale a unităţilor după variabila studiată):
r  1  3,322  log10 n , unde n reprezintă volumul eşantionului.
3. Se stabileşte mărimea intervalului de grupare (h):
Ax
h
r
4. Se stabilesc limitele intervalelor de variaţie, plecând de la xmin sau o valoare
convenabilă mai mică sau cel mult egală cu xmin.
5. Se efectuează gruparea folosind funcţia Excel FREQUENCY.

Trebuie precizat însă că, pachetele software specializate în analiza datelor oferă
posibilitatea sistematizării automate a datelor, fără a fi necesară stabilirea prealabilă a
limitelor de interval conform procedeului descris anterior. În Excel această grupare poate fi
facută folosind opţiunea HISTOGRAM din aplicaţia DATA ANALYSIS.

Histograma şi poligonul frecvenţelor oferă o primă imagine asupra tendinţei de


normalitate, ori, din contră, asupra asimetriei unei serii de distribuţie de frecvenţe.
Proporţionalitatea dintre arii şi frecvenţe relative ne permite să stabilim o corespondenţă
între histogramele de frecvenţe relative şi distribuţiile de probabilitate:

5
Histograma şi poligonul frecvenţelor pentru:
a) Set mic de date b) Set mare de date
14 35

12 30

10 25
Frecvente

Frecvente
8 20

6 15

4 10

2 5

0 0
10 20 30 40 50 60 70 80 90 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46
Intervale Intervale

Figura1. 5. Histograma şi poligonul frecvenţelor1

O distribuţie normală, perfect simetrică, în forma clopotului lui Gauss este foarte rar
întâlnită în practică, fiind de fapt o distribuţie teoretică de referinţă în analiza statistică.
În cele mai multe cazuri, distribuţiile de frecvenţe empirice au tendinţă de normalitate, dar
cu anumite grade de asimetrie (figura 6):

Figura 1.6. Distribuţii cu tendinţă de normalitate, asimetrice 1

Există şi distribuţii profund asimetrice, în care frecvenţa maximă se întâlneşte într-unul


dintre intervalele extreme (primul sau ultimul), pentru ca apoi frecvenţele să tindă către zero.
Aceste distribuţii se numesc în formă de J (figura 7):

1
E. Ţiţan, Statistică. Teorie şi aplicaţii în sectorul terţiar, ed. a II-a, Ed. Meteor Press, Bucureşti, 2012

6
Figura 1.7. Distribuţii în formă de J

Un alt tip de distribuţie întâlnit este cel în formă de U, cu frecvenţe maxime în ambele
intervale extreme de variaţie şi cu frecvenţă minimă în jurul intervalului situat în mijlocul
distribuţiei (figura 8):

Figura 1.8. Distribuţie simetrică în formă de U

S-ar putea să vă placă și