Sunteți pe pagina 1din 18

BAZELE STATISTICII

CURS 3

Prezentarea şi reprezentarea seriilor


univariate

1
Principiile clasificării şi grupării

 Sistematizarea datelor se realizează prin clasificare (variabile


nenumerice) şi grupare (variabile numerice)
 Sistematizarea presupune împărţirea datelor în grupe omogene,
după unul sau mai multe criterii.
 Criteriul de grupare este dat de variabila statistică
 Grupările sunt simple sau combinate în funcţie de numărul
criteriilor utilizate
 Gruparea datelor trebuie să se facă după principiile:
 omogenităţii
 unicităţii
 universalităţii
 Grupele constituite trebuie să fie deci exhaustive şi mutual
exclusive.
 Rezultatul grupării datelor îl reprezintă seria de distribuţie de
frecvenţe.
2
Sistematizarea datelor nenumerice
 Dacă sistematizarea se face după o variabilă nenumerică vorbim clasificarea
datelor
 Clasificarea presupune împărţirea unităţilor în categoriile variabilei nenumerice
considerate.
 Prin numărarea unităţilor statistice ce se încadrează în fiecare clasă se stabileşte
frecvenţa clasei
 Frecvenţa fiecărei clase, astfel determinată, se numeşte frecvenţă absolută, notată
r
ni , i  1, r , unde r reprezintă numărul de clase, iar n n
i 1
i

*
 Se poate calcula şi frecvenţa relativă a clasei ( ni ), care indică proporţia din
numărul total de unităţi, care se încadrează în fiecare clasă:
r

n
ni ni
ni*   *
1
r
n , unde i , iar n reprezintă volumul total al eşantionului.

i 1
ni i 1

Exprimată în procente, frecvenţa relativă a grupei i este:


ni ni
ni*%  r
100  100
n .
n
i 1
i

3
Sistematizarea datelor nenumerice

Dacă variabila este măsurată pe scala nominală ordinea claselor o alege cercetătorul.

Sistematizarea datelor privind muzeele, în anul 2007, în România, în funcţie de tipul acestora, a
dus la următoarele rezultate:

Numărul muzeelor
(la sfârşitul anului) Ponderea muzeelor
Tipul muzeului
( ni*% )
( ni )
Ştiinţele naturii 44 6,6
Istoria tehnicii şi ştiinţei 21 3,1
Istorie 117 17,5
Etnografie 115 17,2
Istoria culturii 152 22,8
Artă 149 22,3
Mixte 70 10,5
Total 668 100
Sursa: Anuarul Statistic al României, 2008.

4
Sistematizarea datelor nenumerice
Dacă datele se referă la variabile măsurate pe scala ordinală, clasele vor
respecta criteriul de ordine:

Sistematizarea datelor privind clasamentul general la competiţiile


internaţionale oficiale pentru Federaţia Română de Atletism, în anul 2006, a
dus la următoarele rezultate:

Locul Nr. sportivi


I 50
II 36
III 31
IV 2
V 3
VI 7
Total 129
Sursa: Anuarul Statistic al României, 2008.
5
Reprezentarea grafică a seriilor de distribuţie de
frecvenţe pentru variabile nenumerice

Diagrama prin coloane (în cazul frecvenţelor absolute)

Nr. muzee (frecvente absolute)


160
140
120
100
80
60
40
20
0
Ştiinţele Istoria Istorie Etnografie Istoria Artă Mixte
naturii tehnicii şi culturii
ştiinţei
tipul de muzeu

Distribuţia muzeelor după tipul lor

6
Reprezentarea grafică a seriilor de distribuţie
de frecvenţe pentru variabile nenumerice

Graficul „pie chart” (în cazul frecvenţelor relative).

10% 7% 3%

18%
22%

17%
23%

Ştiinţele naturii Istoria tehnicii şi ştiinţei Istorie Etnografie Istoria culturii Artă Mixte

Structura muzeelor după tipul lor

7
Sistematizarea datelor numerice

 Gruparea reprezintă sistematizarea datelor


după o variabilă numerică (discretă sau
continuă).
A. Dacă variabila este discretă şi cu un număr
redus de valori distincte (max. 10)
sistematizarea datelor se face prin gruparea
pe variante, obţinându-se o serie de
distribuţie de frecvenţe pe variante.
 Frecvenţa grupelor se stabileşte prin
numărarea unităţilor care iau aceeaşi valoare.
8
Sistematizarea datelor numerice
Gruparea a 50 de manageri ai unor firme de IT, în funcţie de numărul de deplasări în
străinătate, în interes de serviciu, în luna mai 2007, se prezintă astfel:

Număr deplasări Număr manageri


0 3
1 16
2 19
3 7
4 4
5 1
Total 50

O serie de distribuţie de frecvenţe pentru o variabilă discretă poate fi prezentată şi sub


următoarea formă:
 x1 x2 ... xr 
X :  
 n1 n2 ... nr  .

9
Sistematizarea datelor numerice
Reprezentarea grafică a unei serii de distribuţie de frecvenţe alcătuită după o variabilă numerică
discretă cu număr redus de valori distincte este poligonul frecvenţelor:

20
19
18
17
16
15
14
nr. manageri

13
12
11
10
9
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5

Nr. deplasari

Distribuţia managerilor în funcţie de numărul de deplasări (poligonul frecvenţelor)

10
Sistematizarea datelor numerice
B. Dacă variabila numerică este discretă şi are un număr
mare de valori distincte sau este continuă sistematizarea
presupune gruparea pe intervale de variaţie
 Se obţine o serie de distribuţie de frecvenţe pe intervale.
 Intervalul de variaţie reprezintă un şir de valori ale variabilei
studiate delimitat prin limita inferioară şi limita superioară.
 Intervalele de variaţie pot fi de mărime egală sau neegală.
 Pentru gruparea pe intervale de variaţie se recomandă
utilizarea unui număr moderat de grupe (5-10 grupe).
 Numărul intervalelor depinde de numărul unităţilor statistice.

 Un număr mare de date necesită un număr mai mare de intervale de


grupare. Ca un principiu general, o distribuţie de frecvenţe trebuie să
cuprindă cel puţin 5 intervale de grupare, dar nu mai mult de 15.

11
Alcătuirea intervalelor de variaţie
A. Determinarea numărului de intervale
Pentru alegerea numărului de intervale (r) se poate utiliza şi relaţia:
r  1 3,322 log10 n ,
unde n reprezintă volumul colectivităţii.
B. Stabilirea mărimii intervalului (h) de variaţie
- se recomandă utilizarea intervalelor de mărime egală
A xmax  xmin
h 
r r
- mărimea intervalului se recomandă a se rotunji la o valoare convenabilă.

Prin sistematizarea datelor pe intervale de grupare se pierde din exactitatea informaţiei,


dar se câştigă pe linia condensării datelor şi descoperirii trăsăturilor esenţiale.

În prelucrările ulterioare, când trebuie să ataşăm fiecărei unităţi statistice o valoare


concretă şi această valoare va fi, sub anumite presupuneri, centrul intervalului de grupare.

12
Alcătuirea intervalelor de variaţie
C. Sabilirea intervalelor

Punctul de plecare în alcătuirea intervalelor de grupare se alege, convenabil, 0


sau un număr întreg mai mic sau egal decât xmin.

Limitele intervalelor de grupare trebuie stabilite cu acurateţe, respectând


precizia datelor (cu acelaşi număr de zecimale, dacă valorile sunt de această
manieră).

Se stabilesc intervalele de grupare pornind de la xmin (sau de la o valoare puţin


mai mică):
xmin  xmin+h
xmin+h  xmin+2h
.....................................................
xmin + (r — 1)h  xmin + r  h

Frecvenţa fiecărui interval ni (numită frecvenţă absolută) se obţine prin


numărarea unităţilor care se încadrează în fiecare grupă
Dacă există grupe cu frecvenţă nulă, ori multe grupe cu o singură observaţie,
poate fi necesară revizuirea mărimii intervalelor sau a numărului de intervale.

13
Exemplu
Tabelul statistic ce se obţine prin gruparea datelor pe intervale de variaţie este:

Intervale de variaţie a vechimii în activitate Număr salariaţi


(ani) ni
0-5 5
5-10 8
10-15 17
15-20 20
20-25 14
25-30 10
30 şi peste 6
TOTAL 80
Notă: limita superioară este inclusă în interval

14
Seria de distribuţie de frecvenţe pe intervale
În cazul seriilor de distribuţie de frecvenţe pe intervale se mai determină:
1. Centrul de interval = valoarea situată la jumătatea distanţei dintre limitele intervalului şi este
considerat reprezentativ pentru datele din interiorul intervalului:
hi xi inf  xi sup
xi  xi inf  sau xi  , i  1, r .
2 2
2. Frecvenţa absolută cumulată crescător a unei grupe (Fci) = numărul unităţilor statistice care au
valoarea variabilei mai mică sau egală cu limita superioară a intervalului
i
Fci  n
k 1
k .
*
3. Frecvenţa relativă cumulată crescător a unei grupe ( Fci ) = procentul unităţilor statistice care au
valoarea variabilei mai mică sau egală cu limita superioară a grupei:
i
Fci*  n
k 1
*
k .
4. Frecvenţe absolute şi relative cumulate descrescător = numărul sau procentul unităţilor
statistice care au valoarea variabilei mai mare sau egală cu limita inferioară a intervalului

r r
Fdi  n
k i
k ,
Fdi*  n
k i
*
k .

15
Seria de distribuţie de frecvenţe pe intervale
Frecvenţele absolute, relative şi cumulate oferă o imagine de ansamblu asupra
tendinţei de distribuţie a valorilor în colectivitate, asupra normalităţii, simetriei ori
asimetriei repartiţiei de frecvenţe.

Intervale de Ponderea Centrul


variaţie Număr salariaţilor de
salariaţi
a vechimii în ni*% interval Fci Fdi Fci* Fdi*
activitate ni xi
(ani)
0-5 5 6,25 2,5 5 80 6,25 100
5-10 8 10 7,5 13 75 16,25 93,75
10-15 17 21,25 12,5 30 67 37,5 83,75
15-20 20 25 17,5 50 50 62,5 62,5
20-25 14 17,5 22,5 64 30 80 37,5
25-30 10 12,5 27,5 74 16 92,5 20
30-35 6 7,5 32,5 80 6 100 7,5
TOTAL 80 100 - - - - -
Notă: limita superioară este inclusă în interval

16
Reprezentarea grafică a seriilor de distribuţie de
frecvenţe pe intervale

 O serie de distribuţie de frecvenţe pe intervale de variaţie se


reprezintă grafic cu ajutorul histogramei şi a poligonului
frecvenţelor.
 Datele cantitative se pot reprezenta grafic utilizând histograma
frecvenţelor absolute sau relative, construită într-un sistem de
coordonate rectangulare.
 Pe abscisă sunt reprezentate intervalele de variaţie, iar pe
ordonată sunt reprezentate frecvenţele.
 Histograma se construieşte prin ridicarea unor dreptunghiuri,
fiecare dreptunghi fiind de lăţime egală cu mărimea intervalului
de grupare şi de înălţime egală cu frecvenţa intervalului

17
Histograma

14 35

12 30

10 25
Frecvente

Frecvente
8 20

6 15

4 10

2 5

0 0
10 20 30 40 50 60 70 80 90 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46
Intervale Intervale

set mic de date set mare de date

18

S-ar putea să vă placă și