Sunteți pe pagina 1din 15

Colectarea i aranjarea datelor

Statistica este o disciplin tiinific i tehnic ce permite colectarea, aranjarea,


sistematizarea, prezentarea i prelucrarea unor date, prelucrare n baza creia se pot trage
concluzii i lua decizii raionale.
1. Colectarea datelor
Datele brute, care sunt colectate, sunt mrginite numeric i sunt denumite date de
experiment sau observaii. Acestea aparin unor mulimi de date sau populaii care pot fi
finite sau infinite. Metodele statistice permit, ca prin examinarea unui set de date dintro
mulime, s se trag concluzii asupra ntregii mulimi de date.
2. Rangul datelor colectate
Datele brute sunt datele colectate care nu sunt organizate numeric. Aranjarea
datelor const n dispunerea lor ntro ordine numeric cresctoare sau descresctoare
formndu-se aa numita serie de date sau ir de date. Diferena dintre numrul cel mai
mare i numrul cel mai mic al irului de date aranjate se numete rangul datelor. Cu
ct datele sunt mai grupate cu att rangul este mai mic; cu ct datele sunt mai rspndite,
cu att rangul lor este mai mare.
Viteze msurate la 100m
Timpul (sec)
Banda 2
Banda 3
9..10
5
10
10..11
4
7
11..12
2
11
12..14
11
8
14..18
10
10
18..24
16
0
24..30
3
2
30..36
4
2
NR TOTAL
55
50

Viteze msurate la 100m


Viteza (km/h)
Banda 2
Banda 3
36..40
5
10
32,73..36
4
7
30..32,73
2
11
25,71..30
11
8
20..25,71
10
10
15..20
16
0
12..15
3
2
10..12
4
2
NR TOTAL
55
50

3. Frecvene ale distribuiilor


3.1. Clase sau categorii de date
Cnd numrul de date colectate este mai mare, acestea se mpart n clase sau
categorii i se determin numrul de date ce aparin fiecrei clase.
Dup ce datele brute se dispun ntrun ir de date aranjate, se afl rangul datelor.
Acesta va fi diferena ntre viteza maxim i cea minim, exprimat n km/h.
Exemplu: viteza minim este de 10 km/h, iar cea maxim de 40 km/h
Rangul datelor = 40-10 = 30
Clasele de date se afl mprind ragul datelor la un numr ntreg (cel puin 5).
Rang / 5 = 6 clase de date (5 este intervalul unei clase de date)
3.2. Frecvene
Un astfel de aranjament al datelor pe clase numerice, cu frecvena lor, se numete
frecven a distribuiilor sau tabel al frecvenelor.
Datele organizate i adunate ntrun tabel al frecvenelor se numesc date grupate.
Clase de date
Viteza(km/h)
10..15
15..20
20..25
25..30
30..35
35..40
NR TOTAL

Frecvene numerice
Banda 2
Banda 3
7
4
16
0
11
8
10
10
5
17
6
11
55
50

3.3. Intervalele i limitele claselor.


Pentru a grupa n mod corespunztor datele n clase numerice, se va considera
interval deschis la limita superioar a clasei i interval nchis la cea inferioar.
3.4. Marca claselor
Marca clasei este numrul de la mijlocul intervalului clasei i se obine ca medie a
celor dou limite ale clasei (se adun limita inferioar cu cea superioar i se mparte
la 2). Pentru scopurile analizei matematice a datelor, toate datele aparinnd unei
clase se presupun c coincid cu marca clasei respective.
Exemplu: Marca clasei 10..15 este:
Marca clasei
12.5
17.5
22.5
27.5
32.5
37.5
NR TOTAL

10 + 15
= 12.5
2
Frecvene numerice
Banda 2
Banda 3
7
4
16
0
11
8
10
10
5
17
6
11
55
50

3.5. Reguli generale pentru determinarea distribuiilor frecvenelor

3.5.1. Se determin randul datelor


3.5.2. Se mparte rangul ntrun numr convenabil de intervale, avnd aceeai
lungime (acelai pas). Numrul de intervale se ia ntre 5 i 20; astfel nct s
se ndeplineasc dou condiii:
Ct mai multe date observate s coincid cu marca clasei (mijlocul

intervalului),
Nici o dat brut s nu coincid cu limitele claselor

3.5.3. Se determin numrul de date care aparin fiecrui interval

3.6. Histograme i poligoane ale frecvenelor


Histograma frecvenelor const ntrun set de dreptunghiuri cu
Bazele pe axa orizontal, cu mijlocul n marca clasei i de lungime egal

cu lungimea intervalului,
Ariile proporionale cu frecvenele claselor (nalimea dreptunghiurilor

reprezint frecvena clasei respective, numrul de vehicule care circul


cu aceeasi vitez).

Frecventa numerica

Histograma frecventelor
18
16
14
12
10
8
6
4
2
0

Banda 2

10..15

15..20

20..25

25..30

30..35

35..40

Clasa de viteze

Frecventa numerica

Histograma frecventelor
18
16
14
12
10
8
6
4
2
0

Banda 3

10..15

15..20

20..25

25..30

Clasa de viteze

30..35

35..40

Poligonul frecvenelor este o linie frnt, cu punctele de frngere situate pe

verticalele mrcilor claselor, care se obine prin unirea laturilor de sus ale
dreptunghiurilor din histograma frecvenelor.
Pe baza histogramei frecvenelor se poate stabili numrul de cazuri (procentul din
totalul de cazuri) cuprinse ntre anumite valori care intereseaz.

Frecventa numerica

Poligonul frecventelor
18
16
14
12
10
8
6
4
2
0

Banda 2

12.5

17.5

22.5

27.5

32.5

37.5

Clasa de viteze

Frecventa numerica

Poligonul frecventelor
18
16
14
12
10

Banda 3

8
6
4
2
0
12.5

17.5

22.5

27.5

Clasa de viteze

32.5

37.5

Frecvente numerice

BANDA 2
18
16
14
12
10
8
6

Histograma frecventelor
Poligonul frecventelor

4
2
0
12.5

17.5

22.5

27.5

32.5

37.5

Clase de viteze

BANDA 3

Frecvente numerice

18
16
14
12
10

Histograma frecventelor

8
6
4

Poligonul frecventelor

2
0
12.5

17.5

22.5

27.5

32.5

37.5

Clase de viteze

3.7. Distribuii ale frecvenelor relative

n locul frecvenelor numerice, absolute, se folosesc frecvenele relative. Acestea


reprezint raportul dintre frecvena numeric a clasei i numrul total de cazuri (se
exprim procentual).

Exemplu de calcul: pentru banda 2, numrul total de vehicule nregistrate este de


55, iar numarul de vehicule din clasa 10..15 este de 7. Frecvena relativ pentru
aceast clas este =

7
100(%)
55
Marca clasei
12.5
17.5
22.5
27.5
32.5
37.5

Frecvene relative
Banda 2 Banda 3
12.73%
8.00%
29.09%
0.00%
20.00%
16.00%
18.18%
20.00%
9.09%
34.00%
10.91%
22.00%
100.00% 100.00%

Reprezentarea grafic a frecvenelor relative are aceeai form ca i poligonul


frecvenelor, numai c, n ordonat, n loc de frecvenele numerice, se vor raporta
frecvenele relative.
Poligonul frecventelor relative
35.00%
Frecvente relative

30.00%
25.00%
20.00%
Banda 2

15.00%
10.00%
5.00%
0.00%
12.5

17.5

22.5

27.5

Clasa de viteze

32.5

37.5

Poligonul frecventelor relative


40.00%
Frecvente relative

35.00%
30.00%
25.00%
Banda 3

20.00%
15.00%
10.00%
5.00%
0.00%
12.5

17.5

22.5

27.5

32.5

37.5

Clasa de viteze

3.8. Distribuii ale frecvenelor cumulate

Un alt mod de reprezentare a distribuiei frecvenelor este reprezentarea


frecvenelor cumulate.
Marca clasei

<10
<15
<20
<25
<30
<35
<40

Frecvene
numerice cumulate
Banda 2
0
7
23
34
44
49
55

Frecvene relative
cumulate (%)

Banda 3 Banda 2 Banda 3


0
0.00%
0.00%
4
12.73%
8.00%
4
41.82%
8.00%
12
61.82% 24.00%
22
80.00% 44.00%
39
89.09% 78.00%
50
100.00% 100.00%

Poligonul frecventelor numerice cumulate

Frecvente numerice cumulate

60
50
40
Banda 2

30

Banda 3

20
10
0
10

15

20

25

30

35

40

Clasa de viteze

Poligonul frecventelor relative cumulate

Frecvente numerice cumulate

100.00%
90.00%
80.00%
70.00%
60.00%

Banda 2

50.00%

Banda 3

40.00%
30.00%
20.00%
10.00%
0.00%
10

15

20

25

30

35

40

Clasa de viteze

3.9. Curbele de frecven

Datele colectate pot fi considerate ca facnd parte dintro mulime de date. Cu ct


numrul de date ale setului crete, cu att intervalele n care se claseaz frecvenele

se micoreaz i deci, crete numrul claselor, astfel nct poligonul frecvenelor este
aproximat printr-o curb a frecvenelor.
Tipuri de curbe ale frecvenelor:
a) Simetric sau normal (curba lui Gauss)
b) Simetrice mai ascuite (leptocurtice) sau mai aplatisate (platocurtice) n

raport cu curba normal


c) i d) moderat simetrice deplasate la stnga (oblicitate pozitiv) sau la

dreapta (oblicitate negativ)


e) i f) Sub form de J sau J invers
g)Sub form de U
h) bimodale (cu 2 maxime)
i) multimodale (cu mai mult de 2 maxime).

Msuri ale tendinei centrale i ale dispersiei


4. Tendina central

Valorile medii, ce exprim tendina central a unui set de date, sunt denumite
valori tipice sau reprezentative ale setului, deoarece astfel de valori medii tind s se

gseasc n zona central a unui set de date aranjate n ordinea mrimilor.


Pentru a msura tendina central a unui set de date se folosesc mai multe tipuri de
valori cantitative: media aritmetic, mediana, modul, media geometric i media
armonic.
Marca clasei
12.5
17.5
22.5
27.5
32.5
37.5
NR TOTAL

Frecvene numerice
Banda 2
Banda 3
7
4
16
0
11
8
10
10
5
17
6
11
55
50

4.1. Media aritmetic ( X )

Se noteaz cu X =

( f x)
f

unde: x este marca clasei de viteze


f este frecvena numeric (nr. vehicule)

X=

4.2. Mediana

7 12.5 + 16 17.5 + 11 22.5 + 10 27.5 + 5 32.5 + 6 37.5


= 23.23
7 + 16 + 11 + 10 + 5 + 6
~
(X )

~
Se noteaz cu X i reprezint valoarea din mijlocul setului de date sau

media aritmetic a dou valori din mijlocul setului de date (clasele de date).
n cazul nostru (date grupate), mediana se calculeaz dup formula:

~
X = L1 +

f
2

( f )1
f median

unde: L1 este limita inferioar a clasei care conine mediana

f este suma frecvenelor numerice ale tuturor claselor de viteze


( f )1 este suma frecvenelor numerice ale tuturor claselor de
situate naintea clasei care conine mediana

f median este frecvena numeric a clasei de viteze ce conine mediana


c este lungimea intervalului clasei care conine mediana
Mediana este

27.5 22.5
= 25
2

Mediana datelor grupate (banda 2) este

55
(7 + 16 + 11)
~
2
X = 25 +
5 = 21.75
10

viteze

4.3. Modul

( X )

Modul unui set de numere este numrul care apare n setul de date cu

frecvena cea mai mare (dintre clasele de date). Modul poate s nu existe
(distribuie de valori unice) sau, dac exist, poate s nu fie unic.
Pentru datele grupate modulul se calculeaz dup formula:
X = L1 +

1
c
1 + 2

unde: L1 este limita inferioar a clasei care conine modul

1 este diferena dintre frecvena clasei care conine modul i frecvena


clasei anterioare

2 este diferena dintre frecvena clasei care conine modul i frecvena


clasei urmtoare
c este lungimea intervalului clasei care conine modul
Modul este 17.5

Pentru datele grupate (banda 2):


16 7
X = 15 +
5 = 24
16 11

4.4. Media geometric

(G )

( f)
G = x1 f1 x2 f 2 ... xn f n
Pentru banda 2:
G = 55 12.57 17.516 22.511 27.510 32.55 37.56 = 22
4.5. Media armonic

H=

(H )

f
x

Pentru banda 2:

H=

1 7
16
11
10
5
6

+
+
+
+
+
= 0.05
55 12.5 17.5 22.5 27.5 32.5 37.5

5. Dispersia
Gradul n care datele numerice sunt rspndite n jurul unei valori medii se
numete variaie sau dispersia datelor.
Msuri ale dispersiei cel mai des folosite: rangul datelor, deviaia medie,
abaterea standard i variana.

5.1. Rangul datelor


Este diferena dintre valoarea cea mai mare i valoarea cea mai mic
aparinnd unui set de date. Cu ct rangul este mai mare, cu att dispersia datelor
fa de valoarea central este mai mare i invers.
5.2. Deviaia medie (abaterea medie)
DM =

( f X X )
f

5.3. Abaterea standard

[ f (X X )
f

s=

5.4. Variana

DM

s2

Variana unui set de date este ptratul abaterii standard.

5.5. Dispersia absolut i dispersia relativ. Coeficient de variaie (V )

Variana sau dispersia unor date exprimat prin abaterea standard sau alte
msuri ale dispersiei se numete dispersie absolut.
Dispersia relativ este raportul dintre dispersia absolut i valoarea medie i
se numete coeficient de variaie.
V=

s
X

5.6. Variabila standardizat z

Variabila care msoar deviaiile fa de medie n uniti ale abaterii


standard, se numete variabil standardizat.

z=

XX
s

unde: X =o valoare din tabel (numrul de maini ce aparine unei clase


oarecare de date).
6. Momente centrate

6.1. Momente centrate pentru date grupate

[
f (X j X )r ]

Mr =
f
6.2. Oblicitatea
Oblicitatea =

X X
s

Mr

( r = 2,3,4 )

6.3. Coeficientul de asimetrie

a3 =

M3
s3

6.4. Gradul de aplatisare (turtire)


a4 =

M4
s4

a4 = 3

curb normal

a4 > 3

curb laptocurtic

a4 < 3

curb platocurtic

S-ar putea să vă placă și