Sunteți pe pagina 1din 21

STATISTICĂ

CURS 3

Prezentarea şi reprezentarea datelor


statistice

1
Principiile clasificării şi grupării

 Agregarea/sistematizarea datelor se realizează prin clasificare (vb.


nenumerice) şi grupare (vb. numerice)
 Sistematizarea = împărţirea datelor în grupe omogene, după unul sau mai
multe criterii.
 Criteriul de grupare este dat de variabila statistică
 Grupările sunt simple sau combinate în funcţie de numărul criteriilor
utilizate
 Gruparea datelor trebuie să se facă după principiile:
 omogenităţii
 unicităţii
 universalităţii
 Grupele constituite trebuie să fie deci exhaustive şi mutual exclusive.
 Rezultatul grupării datelor îl reprezintă seria de distribuţie de frecvenţe.

2
Sistematizarea datelor nenumerice
 Clasificarea = împărţirea unităţilor în categoriile variabilei nenumerice
 Prin numărarea unităţilor statistice ce se încadrează în fiecare clasă se stabileşte
frecvenţa clasei
 Dacă variabila este măsurată pe scala nominală ordinea claselor o alege
cercetătorul.

Sistematizarea datelor privind muzeele, în anul 2007, în România, în funcţie de tipul acestora:
Numărul muzeelor (la sfârşitul anului) Ponderea muzeelor
Tipul muzeului *%
n
( i) ( n i )
Ştiinţele naturii 44 6,6
Istoria tehnicii şi ştiinţei 21 3,1
Istorie 117 17,5
Etnografie 115 17,2
Istoria culturii 152 22,8
Artă 149 22,3
Mixte 70 10,5
Total 668 100
Sursa: Anuarul Statistic al României, 2008.
3
Sistematizarea datelor nenumerice
Dacă datele se referă la variabile măsurate pe scala ordinală, clasele vor respecta
criteriul de ordine:

Sistematizarea datelor privind clasamentul general la competiţiile internaţionale


oficiale pentru Federaţia Română de Atletism, în anul 2006
Locul Nr. sportivi
I 50
II 36
III 31
IV 2
V 3
VI 7
Total 129
Sursa: Anuarul Statistic al României, 2008.

4
Reprezentarea grafică a seriilor de distribuţie de frecvenţe

pentru variabile nenumerice

Diagrama prin coloane (în cazul frecvenţelor absolute)


Nr. muzee (frecvente absolute)

160
140
120
100
80
60
40
20
0
Ştiinţele Istoria Istorie Etnografie Istoria Artă Mixte
naturii tehnicii şi culturii
ştiinţei
tipul de muzeu

Distribuţia muzeelor după tipul lor

5
Reprezentarea grafică a seriilor de distribuţie
de frecvenţe pentru variabile nenumerice

Graficul „pie chart” (în cazul frecvenţelor relative).

10% 7% 3%

18%
22%

17%
23%

Ştiinţele naturii Istoria tehnicii şi ştiinţei Istorie Etnografie Istoria culturii Artă Mixte

Structura muzeelor după tipul lor

6
Sistematizarea datelor numerice
 Gruparea reprezintă sistematizarea datelor după o variabilă numerică
A. Dacă variabila este discretă şi cu un număr redus de valori distincte (max. 10)
sistematizarea datelor se face prin gruparea pe variante, obţinându-se o serie de
distribuţie de frecvenţe pe variante.
 Frecvenţa grupelor se stabileşte prin numărarea unităţilor care iau aceeaşi valoare.
Gruparea a 50 de manageri ai unor firme de IT, în funcţie de numărul de
deplasări în străinătate, în interes de serviciu, în luna mai 2007:
Număr deplasări Număr manageri
0 3
1 16
2 19
3 7
4 4
5 1
Total 50
O serie de distribuţie de frecvenţe pentru o variabilă discretă poate fi prezentată
şi sub următoarea formă:
 x1 x2 ... xr 
X :  
 n1 n2 ... n r .

7
Sistematizarea datelor numerice
Reprezentarea grafică a unei serii de distribuţie de frecvenţe alcătuită după o variabilă numerică
discretă cu număr redus de valori distincte este poligonul frecvenţelor:

20
19
18
17
16
15
14
nr. manageri

13
12
11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5

Nr. deplasari

Distribuţia managerilor în funcţie de numărul de deplasări (poligonul frecvenţelor)

8
Sistematizarea datelor numerice
B. Dacă variabila numerică este discretă şi are un număr mare
de valori distincte sau este continuă sistematizarea
presupune gruparea pe intervale de variaţie
 Se obţine o serie de distribuţie de frecvenţe pe intervale.

 Intervalul de variaţie reprezintă un şir de valori ale variabilei delimitat prin


limita inferioară şi limita superioară.

 Intervalele de variaţie pot fi de mărime egală sau neegală.

 Pentru gruparea pe intervale de variaţie se recomandă utilizarea unui număr


moderat de grupe (5-15 grupe).

 Numărul intervalelor depinde de numărul unităţilor statistice. Un număr mare de


date necesită un număr mai mare de intervale de grupare.

9
Alcătuirea intervalelor de variaţie
a. Determinarea numărului de intervale

Pentru alegerea numărului de intervale (r) se poate utiliza relaţia:

r  1  3,322 log10 n , unde n reprezintă volumul colectivităţii.

b. Stabilirea mărimii intervalului (h) de variaţie


A x  xmin
h  max
r r
c. Sabilirea intervalelor
Punctul de plecare în alcătuirea intervalelor de grupare se alege, convenabil, 0 sau
un număr întreg mai mic sau egal decât xmin.
xmin  xmin+h
xmin+h  xmin+2h
.....................................................
xmin + (r — 1)h  xmin + r  h
Frecvenţa fiecărui interval ni (numită frecvenţă absolută) se obţine prin numărarea
unităţilor care se încadrează în fiecare grupă.

10
Exemplu
Tabelul statistic ce se obţine prin gruparea datelor pe intervale de variaţie este:

Intervale de variaţie a vechimii în activitate Număr salariaţi


(ani) ni
0-5 5
5-10 8
10-15 17
15-20 20
20-25 14
25-30 10
30 şi peste 6
TOTAL 80
Notă: limita superioară este inclusă în interval

11
Reprezentarea grafică a seriilor de distribuţie de
frecvenţe pe intervale
 O serie de distribuţie de frecvenţe pe intervale de variaţie se reprezintă
grafic cu ajutorul histogramei şi a poligonului frecvenţelor.
 Histograma se construieşte prin ridicarea unor dreptunghiuri, fiecare
dreptunghi fiind de lăţime egală cu mărimea intervalului de grupare şi de
înălţime egală cu frecvenţa intervalului

14 35

12 30

10 25
Frecvente

Frecvente
8 20

6 15

4 10

2 5

0 0
10 20 30 40 50 60 70 80 90 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46
Intervale Intervale

set mic de date set mare de date

12
Exemplu
distributia salariatilor in functie de vechimea in activitate

25

20
20
17

14
15
nr. slariati

10
10 8
6
5
5

0
2,5 7,5 12,5 17,5 22,5 27,5 32,5
nr.ani

13
Exemplu

poligonul frecventelor

25

20

15
nr. slariati

10

0
-2,5 2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5
nr.ani

14
Distribuţia normală

 Distribuţia normală, perfect simetrică, în forma clopotului lui


Gauss-Laplace este foarte rar întâlnită în practică, fiind de fapt
o distribuţie teoretică de referinţă în analiza statistică.

15
Distribuţii asimetrice

 În cele mai multe cazuri, distribuţiile de frecvenţe empirice au


tendinţă de normalitate, dar un anumit grad de asimetrie

16
Distribuţia în formă de J

 Distribuţia în formă de J este o distribuţie profund asimetrică,


în care frecvenţa maximă se întâlneşte în primul ori în ultimul
interval, pentru ca apoi frecvenţele să descrească spre zero

17
Distribuţia în formă de U
 Distribuţia în formă de U este o distribuţie cu frecvenţe
maxime în ambele intervale extreme de variaţie şi cu frecvenţă
minimă în jurul intervalului central

 Este firesc, aşadar, ca analiza statistică să înceapă cu vizualizarea, pe cale


grafică, a tendinţei de distribuţie a valorilor în colectivitatea cercetată.

18
Seria de distribuţie de frecvenţe pe intervale
În cazul seriilor de distribuţie de frecvenţe pe intervale se mai determină:
1. Centrul de interval = valoarea situată la jumătatea distanţei dintre limitele intervalului şi este
considerat reprezentativ pentru datele din interiorul intervalului:
hi xi inf  xi sup
xi  xi inf  sau xi  , i  1, r .
2 2
2. Frecvenţa absolută cumulată crescător a unei grupe (Fci) = nr. unităţilor statistice care au valoarea
variabilei mai mică sau egală cu limita superioară a intervalului
i
Fci  n
k 1
k .
*
3. Frecvenţa relativă cumulată crescător a unei grupe ( Fci ) = procentul unităţilor statistice care au
valoarea variabilei mai mică sau egală cu limita superioară a grupei:
i
Fci*  n
k 1
*
k .
4. Frecvenţe absolute şi relative cumulate descrescător = nr. sau procentul unităţilor statistice care
au valoarea variabilei mai mare sau egală cu limita inferioară a intervalului
r r
Fdi  n
k i
k , Fdi*  n
k i
*
k .

19
Seria de distribuţie de frecvenţe pe intervale
Frecvenţele absolute, relative şi cumulate oferă o imagine de ansamblu asupra
tendinţei de distribuţie a valorilor în colectivitate, asupra normalităţii, simetriei ori
asimetriei repartiţiei de frecvenţe.

Intervale de Ponderea Centrul


variaţie Număr salariaţilor de
salariaţi
a vechimii în ni*% interval Fci Fdi Fci* Fdi*
activitate ni xi
(ani)
0-5 5 6,25 2,5 5 80 6,25 100
5-10 8 10 7,5 13 75 16,25 93,75
10-15 17 21,25 12,5 30 67 37,5 83,75
15-20 20 25 17,5 50 50 62,5 62,5
20-25 14 17,5 22,5 64 30 80 37,5
25-30 10 12,5 27,5 74 16 92,5 20
30-35 6 7,5 32,5 80 6 100 7,5
TOTAL 80 100 - - - - -
Notă: limita superioară este inclusă în interval
20
Curbele cumulative ale frecvenţelor

curbele cumulative ale frecventelor

90
80
70
60
50 Fci
40 Fdi
30
20
10
0
0 5 10 15 20 25 30 35

21

S-ar putea să vă placă și