Sunteți pe pagina 1din 7

Prelucrarea statistica elementara

a unui set de date

Se considera setul de date (numere reale)


e := [e
D
x1 ; x
e2 ; :::; x
eN ]

obtinute in urma "masurarii" unei anumite caracteristici X asupra unei anumite


populatii (statistice); de fapt masuratorile efective se fac (numai) asupra unui
esantion reprezentativ din populatie.
e nu este neaparat o multime de numere, deoarece unele
Sa remarcam ca D
valori se pot repeta (ceea ce nu se intampla in cazul unei multimi).
Vrem sa obtinem anumite informatii asupra populatiei dintr-o analiza statistica, chiar si elementara, efectuata asupra setului de date.
Prelucrarea statistica elementara efectuata asupra acestui set de date presupune parcurgerea unui numar de pasi succesivi efectuati intr-o ordine determinata.
Pasul 1.
Se ordoneaza setul de date crescator, repetand, la nevoie, ecare valoare de
atatea ori de cate ori apare in setul initial de date.
Se obtine sirul crescator de date:

unde

8
x
e(1)
>
>
>
>
x
e
>
>
< (2)
:::
x
e(i)
>
>
>
>
:::
>
>
:
x
e(N )

=
=
:::
=
:::
=

x
e(1)

x
e(2)

:::

x
e(N ) ;

min [e
x1 ; x
e2 ; :::; x
eN ];
min([e
x1 ; x
e2 ; :::; x
eN ]n[e
x(1) ]);
..............................
min([e
x1 ; x
e2 ; :::; x
eN ]n[e
x(1) ; :::;e
x(i
.................................
max [e
x1 ; x
e2 ; :::; x
eN ]:

1) ]

Pasul 2.
Se elimina datele aberante. De multe ori, datorita unor accidente aparute
in timpul experimentului/elor ori datorita unor erori inerente procesului de inregistrare a unui numar mare de date sau din alte cauze unele dintre datele din
e nu reprezinta valori reale ale unor masuratori efectuate cu caracteristica
setul D
X asupra populatiei aate in studiu, ci valori aberante ce nu-si au locul in setul
de date. Pentru ca rezultatele prelucrarii statistice sa e relevante si conforme
cu realitatea asemenea date trebuie eliminate din setul de date ce urmeaza a
prelucrate. Este evident ca primele date vizate de caracter aberant sunt x
e(1)
si x
e(N ) : Exista teste speciale, destul de sosticate, care permit stabilirea caracterului aberant al unor asemenea date. Noi vom verica din "ochi" caracterul
aberant al unora dintre date si le vom elimina.

De exemplu, daca greutatile (masurate in kilograme) a noua studenti sunt:


[59; 65; 63; 5; 70; 68; 74; 152; 54; 68]
dupa ordonare obtinem sirul ordonat crescator:
[54; 59; 63; 5; 65; 68; 68; 70; 74; 152]:
Evident ne "sare in ochi" caracterul "aberant" al valorii 152: In mod normal
aceasta valoare trebuie eliminata.
e = [e
In continuare vom considera ca din setul initial de date D
x1 ; x
e2 ; :::; x
eN ]
au fost eliminate datele aberante. Vom nota cu
D = fx1 ; :::; xn g

setul de date nou obtinut. Sirul crescator asociat va :


x(1)

x(2)

:::

x(n) :

Pasul 3.
Se determina volumul selectiei, adica numarul total de date ce urmeaza a
analizate. Atragem atentia ca ecare data din setul D trebuie numarata (de
atatea ori) de cate ori apare in setul de date. In cazul nostru jDj = n:
Pasul 4.
Se determina intervalul de variatie al datelor (intervalul cel mai mic care
contine toate datele din setul de date analizat).
In cazul nostru acest interval va :
[x(1) ; x(n) ]:
In continuare se determina cei mai importanti indicatori de pozitie (numiti si indicatori pe orizontala). Acestia ne pot indica (intr-un mod relevant)
situarea unui numar mare de date fata de o anumita "pozitie centrala" asociata
setului de date.
Cel mai important indicator de pozitie se obtine la:
Pasul 5.
Se determina Media de selectie.
x=

x(1) + ::: + x(n)


x1 + ::: + xn
=
:
n
n

Un alt indicator important de pozitie se obtine la:


Media este foarte importanta din punct de vedere teoretic, dar si practic.
Din pacate ea poate puternic inuentata de aparitia in setul de date a unor
eventuale date aberante care nu au putut insa "detectate".
Pasul 6.
Se determina mediana (selectiei).
2

Aceasta este
M e :=

8
< x(k+1) ;
:

xk + x(k+1)
;
2

daca

n = 2k + 1;

daca

n = 2k:

Aceasta marime are o valoare mai mare din punct de vedere practic. Ea nu
este inuentata de valorile aberante.
In cazul seturilor de date cu volum mare un rol important il pot juca si
cvartilele.
Pasul 7.
Se determina cvartilele (setului de date). Pentru aceasta se imparte intervalul de variatie [x(1) ; x(n) ] in patru parti egale astfel:
Q1
Q2
Q3

=
=
=

Mediana[x(1) ; M e]
Me
:
Mediana[M e; x(n) ]

In continuare se determina cei mai importanti indicatori de variatie (numiti si indicatori pe verticala).
Acestia ne pot indica abaterea datelor fata de indicatorii de pozitie.
Printre cei mai importanti indicatori de variatie se numara amplitudinea si
dispersia de selectie.
Pasul 8.
Se determina amplitudinea selectiei.
a = x(n)

x(1) :

Acest indicator ofera o anumita informatie numai daca este "mic".


Pasul 9.
Cel mai important indicator de variatie se obtine la
Pasul 10.
Se detemina dispersia de selectie.
n

S2 =

1X
(xk
n

x)2 :

k=1

Marimea
S=

v
u n
u1 X
2
S =t
(xk
n

x)2

k=1

se numeste abaterea medie patratica de selectie.


Relevanta deosebita a acestui indicator este pusa clar in evidenta de urmatoarea
Observatie.

Pentru orice y 2 R avem:


n

1X
(xk
n

y)2

S2:

k=1

Pasul 11.
Se determina functia empirica de repartitie.
Fn : R ! [0; 1]
este data prin:
Fn (x) =

unde
x

= jf1

n j xi < xgj :

Reamintim ca pentru o multime nita A prin jAj am notat cardinalul lui A;


adica numarul de elemente ale lui A:
Daca x(1) < x(2) < ::: < x(n) functia de repartitie este data de:
8
0
;
x x(1) ;
>
>
> 1
>
;
x
x(2) ;
>
(1) < x
>
< n
:
Fn (x) =
k
;
x(k) < x x(k+1)
>
>
> n
>
>
>
:
1
;
x(n) < x

Se poate arata ca daca F : R ! [0; 1] este functia de repartitie teoretica a


caracteristicii X atunci
sup jFn (x)

F (x)j

x2R

! 0;

n!1

aproape sigur (teorema lui Glivenko).


Prin urmare oriunde vom avea nevoie de functia de repartitie F a v.a. X
vom putea folosi functia de repartitie empirica Fn :
Pasul 12.
Se imparte intervalul de variatie al datelor in subintervale de lungimi egale
cu "pasul"
x(n) x(1)
:
h=
1 + log2 n
De fapt se imparte intervalul de variatie al datelor [x(1) ; x(n) ] in r = k + 1
parti "egale", prin k = [log2 n] taieturi (reamintim ca pentru un numar real a
se obisnuieste sa se noteze cu [a] partea intreaga a lui a; adica cel mai mare
intreg k a):
Asadar
x(n) x(1)
:
h=
1 + [log2 n]
4

Pentru a usura calculele noi vom alege de ecare data volumul populatiei
din esantion de forma n = 2k ; k 2 N ; k 3; cand vom obtine log2 n = k 2 N :
Vom obtine intervalele:
8
I1
=
[x(1) ; x(1) + h)
>
>
>
>
=
[x(1) + h; x(1) + 2h)
< I2
:
>
>
I
=
[x
+
(r
2)h;
x
+
(r
1)h)
>
r
1
(1)
(1)
>
:
Ir
=
[x(1) + (r 1)h; x(1) + (1 + log2 n)h]
Daca am luat

Ir = [x(1) + (r

1)h; x(1) + rh] = [x(1) + (r

1)h; x(1) + (1 + [log2 n])h]

am facut o eroare
x(1) + (1 + log2 n)h

x(1) + (1 + [log2 n])h = (log2 n

a
1 + log2 n

! 0; daca a := x(n)

n!1

[log2 n]) h

x(1)

Pasul 13.
Se traseaza histograma.
Conform dictionarelor o histograma ar un grac care reprezint
a, prin dreptunghiuri, o distributie statistica.
Fie n1 numarul de date din setul D care se aa in intervalul I1 ; n2 numarul de
date care se aa in intervalul I2 ; :::; nr numarul de date care se aa in intervalul
Ir :
Asadar frecventa absoluta a intervalului Ij va .
nj := f1

i n x(i) 2 Ij g ; 1 j r:
Pr
Este evident ca 0 nj n si j=1 nj = n:
Pentru a obtine histograma asociata datelor x1 ; :::; xn vom trasa, intr-un
sistem ortogonal de axe, dreptunghiurile, cu bazele de lungimi egale,
Dj = Ij

[0; nj ]; 1

si apoi le hasuram. Histograma este tocmai reuniunea celor r dreptunghiuri


hasurate. In limba greaca histos inseamna tesut.
Moda este data de subintervalul Ij cu cel mai mare nj :
Exemplu.
Se considera setul de date: 110 = 112 = 115 = 112 = 109 = 111 = 114 = 112:
Sa retinem ca in acest caz n = 8 = 23 : In ordine crescatoare datele vor :
109 =110 = 111 = 112 = 112 =112 = 114 = 115:
Prin urmare
h=

115 109
6
= = 1; 5:
1 + log2 23
4
5

Obtinem intervalele:
I1 = [109 ; 110; 5) ; I2 = [110; 5 ; 112) ; I3 = [112 ; 113; 5) ; I4 = [113; 5 ; 115]:
De aici se obtin usor frecventele absolute n1 = 2 ; n2 = 1; n3 = 3 si n4 = 2:
Se obtine histograma:

Se observa ca intervalul I3 constituie moda.


Mai departe se pot realiza alti pasi care conduc la o prelucrare statistica
superioara a datelor. Printre acestia amintim:
Pasul 14.
Alegerea unei repartitii probabiliste teoretice de referinta dintr-o anumita
familie de repartitii.
Pasul 15.
Determinarea parametrilor prin estimari punctuale, intervale de estimare.
Pasul 16.
Analiza concordantei dintre repartitia empirica si repartitia teoretica aleasa.
Pasul 17.
Realizarea unor teste de comparare a unor populatii si a unor teste de concordanta.
Pasul 18.
Legatura variabilelor. Corelatie si regresie.
Pasul 19.
Experimentare statistica. Controlul unuia sau al mai multor factori de variabilitate.
Pasul 20.
Prognozare. Concluzii. Comentarii.

Realizarea pasilor de mai inainte presupune insa cunostinte superioare de


matematica si un avans serios in studiul statisticii.

S-ar putea să vă placă și