Sunteți pe pagina 1din 6

Prelucrarea statistica elementara

a unui set de date


Se considera setul de date:
e
T := [e x
1
; e x
2
; :::; e x
N
]
obtinute in urma unor masuratori sau observatii asupra unei anumite caracter-
istici a unui proces. Sa retinem ca
e
T nu este neaparat o multime de numere.
Unele dintre elementele setului pot egale.
Pentru a prelucra elementar din punct de vedere statistic acest set de date
se parcurg urmatorii pasi:
1) Se ordoneaza crescator setul de date :
e
T := [e x
(1)
; e x
(2)
; :::; e x
(N)
]
cu e x
(1)
_ e x
(2)
_ ::: _ e x
(N)
; unde
e x
(1)
:= min
1iN
[e x
(1)
; e x
(2)
; :::; e x
(N)
]; :::; e x
(N)
:= max
1iN
[e x
(1)
; e x
(2)
; :::; e x
(N)
]:
2) Se elimina datele aberante, adica acele date care se abat mult ca marime
de la majoritatea celorlalte date, ind ori mult mai mici, ori mult mai mari.
Asemenea date pot sa apara e din erori de inregistrare, e datorita unui "ac-
cident" in observarea procesului supus studiului. In situatii reale aceasta etapa
este obligatorie si se poate realiza pe baza unor teste destul de sosticate. Noi
vom presupune ca aceasta etapa a fost parcursa.
Vom nota cu
T := [x
1
; x
2
; :::; x
n
]
setul de date obtinut dupa eliminarea datelor aberante.
Ordonand crescator aceste date obtinem sirul:
x
(1)
_ x
(2)
_ ::: _ x
(n)
:
3) Se determina volumul setului de date, adica numarul de date din T: In
cazul nostru acesta este n = [T[ :
Atentie ! Daca un element x
i
se repeta de n
i
ori in setul T atunci el se
numara de atatea ori cat ii este "multiplicitatea".
In continuare se determina principalii indicatori de pozitie (indicatori pe
orizontala), adica acele caracteristici ale setului de date care ne arata cum se
pozitioneaza datele fata de o anumita pozitie centrala. Acestia sunt indicatori
pe orizontala.
4) Media de selectie x denita prin:
x =
x
(1)
+ x
(2)
+ ::: + x
(n)
n
=
x
1
+ x
2
+ ::: + x
n
n
:
1
5) Mediana M
e
data prin:
M
e
=

x
(k+1)
; daca n = 2k + 1;
x
(k)
+x
(k+1)
2
; daca n = 2k
:
6) Cvartilele Q
1
; Q
2
; Q
3
denite prin:
Q
1
= Media[x
(1)
; :::; M
e
];
Q
2
= M
e
;
Q
3
= Media[M
e
; :::; x
(n)
]:
Asadar cvartilele impart intervalul [x
(1)
; x
(n)
] in patru subintervale de lungimi
egale. Q
1
se numeste cvartila inferioara, Q
2
coincide cu mediana, iar Q
3
se
numeste cvartila superioara.
Mai departe se determina principalii indicatori de variatie (indicatori pe
verticala).
7) Se determina intervalul de variatie al datelor. Acesta este intervalul:
[x
(1)
; x
(n)
]
8) amplitudinea selectiei, adica
a = x
(n)
x
(1)
:
9) dispersia de selectie data prin:
S
2
=
1
n
n
X
i=1
(x
(i)
x)
2
=
1
n
n
X
i=1
(x
i
x)
2
:
Valoarea S =
_
S
2
=
q
1
n
P
n
i=1
(x
i
x)
2
se numeste abaterea medie de selectie.
Sa retinem ca:
1
n
n
X
i=1
(x
i
y)
2
_ S
2
; \y R:
In continuare se determina
10) Functia empirica de repartitie F
n
: R [0; 1] denita prin:
F
n
(x) :=
8
>
>
>
>
>
>
<
>
>
>
>
>
>
:
0 ; x _ x
(1)
;
1
n
; x
(1)
< x _ x
(2)
;
::: ; :::
k
n
; x
(k)
< x _ x
(k+1)
;
::: ; :::
1 : x
(n)
< x:
Se observa ca
F
n
(x) =

x
n
;
2
unde
x
este numarul de observatii in care a aparut o valoare a lui X mai mica
decat x; adica

x
=

1 _ i _ 8

x
(i)
< x

11) Se imparte intervalul de variatie al datelor in subintervale de lungimi


egale. Pasul diviziunii se poate alege:
h =
x
(n)
x
(1)
1 + log
2
n
=
a
1 + log
2
n
:
In practica se imparte intervalul [x
(1)
; x
(n)
] in r = 1 + [log
2
n] subintervale de
lungimi egale I
1
; I
2
; :::; I
r
; cu
I
1
= [x
(1)
; x
(1)
+ h);

I
r1
= [x
(1)
+ (r 2)h ; x
(1)
+ (r 1)h);
I
r
= [x
(1)
+ (r 1)h ; x
(1)
+ (1 + log
2
n)h]:
Eroarea pe care o facem inlocuind partea intreaga a lui log
2
n (notata cu [log
2
n]
) cu log
2
n este neglijabila, pentru n >> 1; deoarece:
x
(1)
+(1+log
2
n)hx
(1)
(1+[log
2
n)])h = (log
2
n[log
2
n])h _
a
1 + log
2
n
0;
daca n :
Utilizarea termenului (1 +log
2
n) isi are originile in teoria matematica a in-
formatiei. In unele carti se utilizeaza, in locul logaritmului in baza 2; logaritmul
zecimal. Pentru aceasta va sucient sa tinem cont ca:
log
2
n = lg n log
2
10 3; 34 lg n:
Deci se poate alege pasul pentru diviziune dat de:
h =
a
1 + 3; 34 lg n
:
11) Trasarea histogramei.
Determinam mai intai frecventele absolute ale ecaruia dintre intervalele
I
j
; 1 _ j _ r; adica, pentru ecare 1 _ j _ r calculam
n
j
:=

1 _ i _ n

x
(i)
I
j

:
Este evident ca 0 _ n
j
_ n si
P
r
j=1
n
j
= n:
Pentru a obtine histograma asociata datelor x
1
; :::; x
n
vom trasa, intr-un
sistem ortogonal de axe, dreptunghiurile cu bazele egale
D
j
= I
j
[0; n
j
]; 1 _ j _ r
si apoi le hasuram.

3
Exemplu
Se considera setul de date:
110=112=115=112=109=111=114=112:
Sa se realizeze o prelucrare statistica elementara / primara a acestui set de date.
Solutie.
Parcurgand pasii de mai sus vom obtine:
1) Ordonat crescator setul de date propus va arata astfel:
109 =110 = 111 = 112 = 112 =112 = 114 = 115:
2) In acest caz nu exista date aberante.
3) Volumul setului de date:
n = 8 = 2
3
:
4) Media de selectie x va
x =
109 + 110 + 111 + 112 + 112 + 112 + 114 + 115
8
= 111; 875:
5) Mediana va (pentru ca n = 2 4 = numar par):
Me =
x
(4)
+ x
(5)
2
=
112 + 112
2
= 112:
6) Cvartilele vor :
8
<
:
Q
1
= (110 + 111)=2 = 110; 50
Q
2
= 112 = 112; 00
Q
3
= (112 + 114)=2 = 113; 00
:
7) Intervalul de variatie al datelor este:
[109; 115]:
8) Amplitudinea selectiei este:
a = 115 109 = 6:
9) Dispersia de selectie va :
S
2
=
1
8
8
X
i=1
(x
(i)
x)
2
-
4
-
1
8
[(109 112)
2
+ (110 112)
2
+ (111 112)
2
+ (0)
2
+ (0)
2
+ (0)
2
+
+(114 112)
2
+ (115 112)
2
] =
=
1
8
[(3)
2
+ (2)
2
+ (1)
2
+ 0 + 0 + 0 + 2
2
+ 3
2
] =
27
8
:
Deci abaterea medie de selectie este:
S =
3
2
r
3
2
:
10) Functia empirica de repartitie F
8
: R [0; 1] este denita prin:
F
8
(x) =

x
8
; x R :
Prin urmare
F
8
(x) =
8
>
>
>
>
>
>
>
>
<
>
>
>
>
>
>
>
>
:
0 ; x _ 109
1=8 ; 109 < x _ 110
2=8 ; 110 < x _ 111
3=8 ; 111 < x _ 112
6=8 ; 112 < x _ 114
7=8 ; 114 < x _ 115
1 ; 115 < x
:
Grac obtinem reprezentarea:
11) Se imparte intervalul de variatie al datelor in subintervale de lungimi
egale. Pasul diviziunii se alege astfel:
h =
115 109
1 + log
2
2
3
=
6
4
= 1; 5:
Obtinem intervalele: 8
>
>
<
>
>
:
I
1
= [109 ; 110; 5) ;
I
2
= [110; 5 ; 112) ;
I
3
= [112 ; 113; 5) ;
I
4
= [113; 5 ; 115] .
De aici, tinand cont ca setul de date analizat este:
109 =110 = 111 = 112 = 112 =112 = 114 = 115;
se obtin usor frecventele absolute
n
1
= 2 ; n
2
= 1; n
3
= 3 ; n
4
= 2
ale ale celor patru intervale.
12) Trasarea histogramei.
5
Pentru a obtine histograma asociata datelor x
1
; :::; x
8
vom trasa, intr-un
sistem ortogonal de axe, dreptunghiurile cu bazele egale
D
j
= I
j
[0; n
j
]; 1 _ j _ 4
si apoi le hasuram.
Se observa ca intervalul I
3
constituie moda.

Pentru o prelucrare statistica mai na a datelor observate este obligato-


rie raportarea caracteristicii investigate la o variabila aleatoare cu o repartitie
probabilista data. Pornind de aici trebuie parcursi noi pasi in demersul nostru
statistic.
13) Alegerea unei repartitii probabiliste teoretice de referinta.
14) Analiza concordantei dintre repartitia empirica si repartitia teoretica
aleasa.
15) Determinarea parametrilor prin estimatii punctuale sau intervale de
estimare.
16) Efectuarea unor teste de comparare a populatiilor.
17) Efectuarea unor teste de concordanta.
18) Eliminarea datelor afectate de erori grosolane; testul lui Grubbs.
19) Vericarea unor ipoteze.
20) Compararea a doua sau mai multe proportii.
21) Experimentare statistica; analiza dispersionala.
22) Problema legaturii variabilelor. Corelatie si regresie.
23) Efectuarea unor prognoze.
24) Concluzii.
25) Comentarii.
Parcurgerea efectiva a pasilor 13) - 25) presupune cunostinte superioare
si aprofundate de teoria probabilitatilor precum si de statistica matematica de
inalt nivel.
Noi ne vom multumi cu ceea ce se numeste statistica elementara, iar acest
fapt presupune numai parcurgerea primei jumatati a itineratiului statistic de
mai sus (adica doar pasii 1) -12)).
6

S-ar putea să vă placă și