Sunteți pe pagina 1din 12

3

Lucrarea

Prelucrarea statistic a irurilor de


date. Eliminarea valorilor aberante
Tema de laborator

64

Lucrarea 3

Curpins

Curpins ..................................................................................................................... 64
A.

Scopul lucrrii: ................................................................................................... 65

B.

Noiuni de baza: ................................................................................................ 65


1.

Testul IRWIN (testul ) ................................................................................ 65

2.

Testul GRUBBS (testul u)............................................................................ 66

3.

Testul ROMANOWSKI (testul t) .................................................................. 66


Desfurarea lucrrii ......................................................................................... 68

C.
1.

Tema ........................................................................................................... 68

2.

Prelucrarea rezultatelor ............................................................................... 68


2.1.

Introducerea datelor .............................................................................. 68

2.2.

Sortarea pe coloane.............................................................................. 69

2.3.

Sortarea global.................................................................................... 70

2.4.

Determinarea numerelor aberante ........................................................ 70

2.5.

Determinarea mediei aritmetice si a dispersiei pe fiecare coloana ....... 70

2.6.

Calculul coeficienilor Irwin, Grubbs, Romanowski................................ 70

2.7.

Decizia .................................................................................................. 72

2.8.

Trasarea diagramei circulare pentru cele 6 clase ................................. 73

D.

Prezentarea rezultatelor .................................................................................... 74

E.

Bibliografie......................................................................................................... 74

Prelucrarea
65

statistica

irurilor

de

date

Eliminarea

valorilor

aberante

A. Scopul lucrrii:
Se urmrete realizarea urmtoarelor obiective:
- prezentarea metodelor de analiz n vederea depistrii i eliminrii valorilor
aberante;
- prezentarea indicatorilor statistici necesari aplicrii metodelor de analiz critic a
irurilor de date;
- prezentarea noiunilor generale legate de generarea irurilor de date utiliznd
software-ul Excel;
- prezentarea unei aplicaii;

B. Noiuni de baza:
Dac n cursul unei msurtori repetate se obin rezultate care sunt mult diferite fa
de celelalte marea majoritate a rezultatelor este de presupus c s-au nregistrat erori.
ntruct rezultatele disparate (aberante) pot avea o influen disproporionat de mare
asupra valorii medii, se impune ca de ndat ce au fost constatate, s se verifice
dac condiiile de efectuare a msurtorilor sunt corespunztoare.
Atunci cnd nu au fost sesizate situaii deosebite (defecte tehnologice), n cursul
msurtorilor este necesar s se analizeze oportunitatea eliminrii datelor aberante
n faza de prelucrare statistica a rezultatelor. Aceasta operaie este posibil pe baza
unor teste care impun alegerea unei probabiliti funcie de care se ia decizia de
pstrare sau eliminare a lor.
Aceast verificare a irurilor de date / a eantionului obinut poart denumirea de
analiz critic a datelor, iar metodele care se aplica sunt: testul IRWIN, testul
GRUBBS i testul ROMANOWSKI.

1. Testul IRWIN (testul )


Dac irul de n date se ordoneaz n sens cresctor sau descresctor, valorile
susceptibile a fi aberante sunt cele de la extremitile irului. Pentru verificarea valorii
suspecte se calculeaz valoarea:
|

(3.1)
Unde: x0 este valoarea susceptibila a fi aberanta, , x0-1 este valoarea imediat
urmtoare, iar s este abaterea medie ptratic a irului celor x1, x2, , xn date,
determinata cu relaia:
(3.2)

Dispersia fiind dat la rndul su de relaia:

(3.3)

Valorile critice ale metodelor de analiz critic a irurilor ale aplicaiilor cel mai frecvent
utilizate, stabilite pentru un nivel de ncredere/ risc propus, se gsesc tabelate n Tabelul
3.1.

66

Lucrarea 3

Astfel, comparnd valoarea lui cu valoarea critica critic (stabilita n Tabelul 3.1),
valoarea x0 se elimina din irul de date dac:
(3.4)
n caz contrar nu sunt motive suficiente pentru aceasta.
Dac valoarea x0 a fost eliminata se recalculeaz abaterea medie ptratica pentru
cele n-1 valori ramase i testul se aplica din nou, procesul continund pana cnd nu
se mai elimina date ale irului.
Observaie: testului IRWIN nu este suficient n cazul care, n cadrul irului de date exista mai
multe valori suspecte, iar valoarea dispersiei este mare, n acest caz fiind necesara
aplicarea celorlalte metode.

2. Testul GRUBBS (testul u)


Acest test se aplica n general irurilor mari de date (n>100), metoda de eliminare constnd
n compararea valorii disparate x0 cu valoarea medie , calculata cu expresia:

(3.5)

Se va determina raportul:

|
(3.6)

Comparnd valoarea u cu valoarea critica ucritic (din tabelul 3.1) pentru un nivel de ncredere
propus, valoarea xn se elimina din irul de date dac:

(3.7)
n caz contrar, se impune concluzia ca nu exista motive suficiente de eliminare a valorii x0.

3. Testul ROMANOWSKI (testul t)


Acest test presupune de asemenea o metoda de eliminare ce consta n compararea valorii
disparate x0 cu valoarea medie , corespunztoare celorlalte n-1 valori din irul de rezultate,
el aplicndu-se pentru un ir de valori, n<100. n acest caz, calculul valorii medii
realizeaz cu formula:

, se

(3.8)
De asemenea este necesar sa se calculeze abaterea medie ptratica, neglijndu-se
valoarea disparata x0, (pentru n-1 valori).
n continuare se determina raportul:

(3.9)

Rezultatul acestui raport se compara cu valorile critice (tabelul 3.1) stabilite pentru un risc
propus, iar dac valoarea t depete valoarea tcritic:

(3.10)
atunci rezultatul x0 poate fi eliminat cu o siguran a concluziei de cel puin cea propusa. n
caz contrar, se impune concluzia ca nu exista motive suficiente de eliminare a valorii x0.

Prelucrarea
67

statistica

irurilor

de

date

Eliminarea

valorilor

aberante

Tab.3.1. Tabel cu valorile critice pentru cele trei teste

Denumirea
testului

IRWIN

ROMANOVSKI
|

Expresia analitic
a testului
Numrul de valori
al irului
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20 (i >20)

GRUBBS

0.95
1.79
1.64
1.51
1.39
1.31
1.24
1.20
1.18
1.14
1.11
1.09
1.07
1.06
1.05
1.04
1.03
1.03
1.03

0.98
2.17
2.05
1.93
1.81
1.69
1.57
1.51
1.46
1.43
1.41
1.39
1.37
1.35
1.33
1.31
1.29
1.28
1.27

Nivelul de ncredere/ Risc (%)


0.99 0.95 0.98 0.99 0.95
2.90 4.93 8.04 9.46 1.41
2.75 3.56 5.08 6.53 1.71
2.60 3.04 4.11 5.04 1.92
2.45 2.78 3.64 4.36 2.07
2.30 2.62 3.36 3.96 2.18
2.16 2.51 3.18 3.71 2.27
2.09 2.43 3.05 3.54 2.35
2.03 2.37 2.96 3.41 2.41
2.00 2.33 2.89 3.31 2.47
1.97 2.29 2.83 3.23 2.52
1.94 2.26 2.78 3.17 2.56
1.91 2.24 2.74 3.12 2.60
1.88 2.22 2.71 3.08 2.64
1.86 2.20 2.68 3.04 2.67
1.84 2.18 2.66 3.01 2.70
1.82 2.17 2.64 3.00 2.73
1.81 2.16 2.62 2.95 2.75
1.80 2.15 2.60 2.93 2.78

0.98
1.41
1.72
1.96
2.13
2.27
2.37
2.46
2.54
2.61
2.66
2.71
2.76
2.80
2.84
2.87
2.90
2.93
2.96

0.99
1.41
1.73
1.97
2.16
2.31
2.43
2.53
2.62
2.69
2.75
2.81
2.86
2.91
2.95
2.98
3.02
3.05
3.08

Observaie: Am prezentat n cadrul Lucrrii 1, Introducerea n programul Excel.


Achiziii de date i reprezentri grafice, introducerea diferitelor tipuri de date (care pot
fii de tip text, cifre, date calendaristice, ore, formule, funcii). Acesta n cazul n care
avem datele respective obinute n urma msurtorilor.
Excel ofer n plus i posibilitatea generrii unui ir de date, pentru aceasta fiind
necesari parcurgerea urmtorilor pai:
1. Selectai panoul Data i din seciunea Analysis selectai Data Analysis
(Instrumente, Analiza datelor);
2. Selectai din caseta de dialog care s-a deschis opiunea Random Number
Generation (Generare de Numere Aleatorii);
3. Executai clic asupra butonului OK;
4. n caseta de dialog care se deschide selectai:
- Number of Variables (Numrul coloanelor generate): 12;
- Number of Random Number (Numrul rndurilor generate): 5;
- Distribution: Normal (Distribuia, Normala):
- Mean (Media):22;

68

Lucrarea 3

Standard Deviation (Abaterea standard): 0.22;


Output Range (Afiarea generrii), selectnd/introducnd domeniul
(rndul/coloan) unde dorim sa fie afiat irul de date generat;
5. Executai clic asupra butonului OK.
-

C. Desfurarea lucrrii
1. Tema
S se genereze un ir de 100 de valori aezate ntr-un tabel cu 10 coloane.
Generarea numerelor va fi aleatoare, datele vor fi normal repartizate, cu media egal
cu ziua de natere i dispersia cuprins n intervalul 0,0 0,31 va fi de forma 0,XX,
unde XX reprezint ziua naterii.
S se completeze un raport care s cuprind:
1 Tabelul datelor primare;
2 Tabelul datelor sortate n ordine cresctoare pe coloane;
3 Tabelul datelor sortate n ordine cresctoare (global);
4 Numerele considerate aberante;
5 Calculul mediei i dispersiei pe fiecare coloan;
6 Coeficienii Grubbs, Irwin i Romanowski;
7 Decizia de pstrare sau eliminare a datelor aberante pentru un nivel de
ncredere de 95% (risc 5%);
8 Trasarea unei diagrame circulare pentru 7 clase.

2. Prelucrarea rezultatelor
2.1. Introducerea datelor
Pe baza celor enunate anterior se va introduce un ir de date, n=100, utiliznd
software-ul Excel, i anume:
1. Selectai panoul Data i din seciunea Analysis selectai Data Analysis
(Instrumente, Analiza datelor);
2. Selectai din caseta de dialog care s-a deschis opiunea Random Number
Generation (Generare de Numere Aleatorii);
3. Executai clic asupra butonului ok;
4. n caseta de dialog care se deschide selectai:
Number of Variables (Numrul coloanelor generate): 10;
Number of Random Number (Numrul rndurilor generate): 10;
Distribution: Normal (Distribuia, Normala):
Mean (Media):22 (dac suntei nascut() n ziua de 22);
Standard Deviation (Abaterea standard): 0.22;
Output Range (Afiarea generrii), selectnd/introducnd domeniul
(rndul/coloan) unde dorim sa fie afiat irul de date generat;
5. Executai clic asupra butonului OK.

Prelucrarea
69

statistica

irurilor

de

date

Eliminarea

valorilor

aberante

2.2. Sortarea pe coloane


Dup afiarea tabelar a irului generat se va trece la punctul 2 al cerinelor temei i
anume sortarea datelor n ordine cresctoare pe coloane:
1- Selectai csuele pe care dorii s le ordonai
2- Selectai din panoul Data opiunea Sort (Sortarea datelor)
3- n unele cazuri poate aprea un avertisment ca cel din Figura 1; Excel
detecteaz prezena celulelor vecine i ne ntreab dac vrem s extindem
selecia sau s o pstrm pe cea curent. Dac suntei sigur c selecia e
corect alegei opiunea Continue with the current selection

Fig. 2.1. Alert de confirmare a seleciei

4- n csua care se deschide (Figura 2):


a. Dac odat cu datele ai selectat i capul de tabel, bifai My data has
headers (datele mele au cap de tabel), n caz contrar, deselectai aceast
opiune; folosirea incorect a acestei opiuni poate determina omiterea primei
valori;
b. Din seciunea Column selectai coloana dup care se face sortarea;
c. Sortarea se poate face dup valori, culoarea celulei sau a fontului sau o
icoana celulei; selectai criteriul dorit;
d. Ordinea de sortare se selecteaz de la cel mai mic la cel mai mare, invers
sau ntr-un mod definit de utilizator; selectai ordinea dorit;
e. Executai clic pe butonul OK.

Fig. 2.2 Sortarea datelor

Pentru a sorta pe coloane se folosete procedura descris mai sus pentru fiecare
coloan n parte.

70

Lucrarea 3

2.3. Sortarea global


Pentru a sorta global datele, acestea trebuie aranjate pe o singur coloan (cu
ajutorul setului de comenzi Copy-Paste) n foaia de calcul. Dup sortarea valorilor
conform procedurii prezentate n seciunea anterioar, acestea se copiaz napoi n
formatul de tabel iniial, coloan cu coloan.

2.4. Determinarea numerelor aberante


n urma sortrii n ordine cresctoare a irului nostru n foaia de calcul se poate
vizualiza pe prima poziie valoarea de minim xmin, iar pe ultima poziie/celul valoarea
de maxim, xmax, a irului, existnd posibilitatea ca acestea s fie valori aberante
pentru nivelul de ncredere adoptat, riscul de 5%.

2.5. Determinarea mediei aritmetice si a dispersiei pe fiecare


coloana
Utiliznd Tabelul 2 (irul de date sortat n ordine cresctoare pe coloane), vom putea
determina mediile i dispersiile cu ajutorul formulei:
- Pentru medie: =AVERAGE(B16:B25) aceast formul utilizndu-se pentru
fiecare coloan n parte;
- Pentru dispersie: =VAR(B16:B25) aceast formul utilizndu-se pentru
fiecare coloan n parte;
Unde valorile B16:B25 sunt valorile din prima coloan a Tabelului 2.

2.6. Calculul coeficienilor Irwin, Grubbs, Romanowski


Realizarea analizei critice a datelor, aplicndu-se cele trei metodele de verificare,
aceasta presupunnd:
- determinarea mediei aritmetice, dispersiei i a abaterii medii ptratice;
- determinarea valorilor , u i t, n cazul celor trei metode de analiz critic a
datelor;
2.6.1. Determinarea mediei aritmetice, dispersiei i a abaterii medii ptratice,
Utiliznd formulele (3.5), (3.3), (3.2) avem:
Media aritmetica. n cazul determinrii mediei aritmetice avem:

Utiliznd Excel, relaia se va scrie: =AVERAGE(B16:K25) unde B16:K25 sunt


valorile generate.
Dispersia. Pentru valorile x1, x2, .., xn dispersia se obine cu relaia:

Prelucrarea
71

statistica

irurilor

de

date

Eliminarea

valorilor

aberante

La fel ca i n cazul anterior, n calculul dispersiei (i implicit i n calculul valorii


abaterii medii ptratice), n funcie de metoda de analiz critic a datelor, lum sau
nu n calcul valorile aberante analizate. Astfel vom avea:
1. Cazul testului IRWIN. Se va aplica funcia: =VAR(B16:K25),
2. Cazul testului GRUBBS i ROMANOWSKI, unde se va aplica funcia:
=VAR(M4:M101), (deoarece n cazul nostru valorile aberante ocup prima i
ultima poziie din irul de valori din foaia de calcul).
unde B16:K25 sunt valorile generate iar M4:M101 sunt valorile generate sortate fr
prima i ultima valoare (din Foaia de calcul).
Abaterea medie ptratic, se calculeaz cu formula:

Utiliznd funciile Excel vom avea: =SQRT(C51) i respectiv =SQRT(E51) obinnd


cele dou valori pentru fiecare caz n parte.
2.6.2. Determinarea valorilor min, max, umin, umax, tmin, tmax n cazul celor trei
metode de analiza critic a datelor
Se va realiza utiliznd formulele (3.1), (3.6), (3.9) i valorile anterior determinate
(valorile mediei aritmetice, dispersiei i valorile abaterii medii ptratice):
1. Cazul testului IRWIN:
|

Utiliznd Excel avem:


=(M4-M3)/C52, obinndu-se valoarea min unde M3 este valoarea minim iar M4
este valoarea imediat urmtoare n irul ordonat de date.
=(M102-M101)/C52 obinndu-se valoarea max unde M102 este valoarea maxim iar
M101 este valoarea imediat urmtoare n irul ordonat de date.
2. Cazul testului GRUBBS. Se va determina raportul:
|

astfel:
=ABS(M3-C44)/E52 obinndu-se valoarea, umin unde M3 este valoarea minim din
ir, C44 este media aritmetic, iar E52 este celula ce conine valoarea lui s pentru
testul Grubbs.
=(M102-C44)/E52 obinndu-se valoarea , umax unde M102 este valoarea maxim din
ir, C44 este media aritmetic, iar E52 este celula ce conine valoarea lui s pentru
testul Grubbs.
3. Cazul testului ROMANOWSKI. Se determina raportul:
|

Raport care utiliznd Excel se va nota:

72

Lucrarea 3

=ABS(M3-C44)/(E52*SQRT(1.0101)) obinnd valoarea tmin unde M3 este valoarea


minim din ir, C44 este media aritmetic, iar E52 este celula ce conine valoarea lui
s pentru testul Romanowski;
=(M102-C44)/(E52*SQRT(1.0101)) obinnd valoarea tmax unde M102 este valoarea
maxim din ir, C44 este media aritmetic, iar E52 este celula ce conine valoarea lui
s pentru testul Romanowski.
2.6.3. Prezentarea deciziei pentru riscul propus;
Din Tabelul 3.1 vom lua valorile critice pentru cele trei metode de analiz critic a
datelor, pentru nivelul de ncredere propus de 95% (risc de 5%). Deoarece n cazul
nostru numrul datelor din ir este mai mare de 20, valorile critice se vor alege din
rndul corespunztor irului cu 20 de valori. Astfel se vor gsi valorile:
critic=1.03, ucritic=2.15, tcritic=2.78
Se vor utiliza n continuare relaiile (3.4), (3.7), (3.10), pentru a compara valorile
critice stabilite n tabel pentru nivelul de ncredere propus i fiecare din valorile
calculate.
Astfel se vor compara valorile:
- Pentru testul Irwin:
- min cu critic
- max cu critic ,
- Pentru testul Grubbs:
- umin cu ucritic,
- umax cu ucritic
- Pentru testul Romanowski
- tmin cu tcritic,
- tmax cu tcritic

2.7. Decizia
Se impune astfel concluzia c nu exist motive suficiente de eliminare a valorilor
aberante, concluzie de asemenea prezentat n Tabelul 3.3.

Prelucrarea
73

statistica

irurilor

de

date

Eliminarea

valorilor

aberante

Tab. 3.3. Exemplu de tabel de decizie pentru cele trei teste

2.8. Trasarea diagramei circulare pentru cele 6 clase


Pentru determinarea diagramei trebuie mai nti s se determine amplitudinea i
subintervalele. Formulele utilizate fiind amintite n lucrarea precedent.
Determinarea claselor, frecventei absolute i a frecvenei relative vezi Lucrarea 2.
Trasarea diagramei:
1. Selectai datele pe care dorii sa le reprezentai grafic: adresele ce reprezint
valorile frecventelor relative fi;
2. Executai clic asupra butonului Pie (Diagram circular) din seciunea Charts
(Grafice) a panoului Insert;
3. Selectai tipul de grafic dorit (spre exemplu prima din lista de diagrame 2D);
4. Adaptai graficul dup dorine atribuindu-i un format (din Layout) i adugnd
elementele dorite (titlu, etichete pentru axe, etc.);
Diagrama ar trebui s arate similar celei din Figura 3.

Fig. 3. Exemplu de reprezentare grafic a frecvenelor relative (diagram circular)

74

Lucrarea 3

D. Prezentarea rezultatelor
Rezultatele vor fi prezentate sub forma unui raport (vezi Exemplu Raport) ce
cuprinde:
- reprezentarea datelor primare, irul de date;
- reprezentarea tabelar a valorilor indicilor statistici: media aritmetic,
dispersia, abaterea medie ptratic;
- reprezentarea tabelar a valorilor calculate n cazul celor trei metode de
analiza critic a datelor: , u i t;
- prezentarea deciziei pentru riscul propus.

E. Bibliografie
[1]
[2]
[3]
[4]
[5]
[6]

Apostolescu, N., Taraza, D., Bazele cercetrii experimentale a mainilor


termice, Editura Didactica i Pedagogic, Bucureti, 1974.
Bulgaru, M., Bolboac, L., Ingineria calitii. Managementul calitii, statistica i
control, msurri n 3D, Alma Mater, Cluj-Napoca 2001, ISBN 973-85153-0-0
Cathy, K., Excel pentru Windows tm 95 n 503 imagini, Teora, Bucureti, 1999,
ISBN 973-601-457-6
Faithe, W., Microsoft Office 97 Professional 6in 1, Teora, Bucureti, 1998, ISBN
973-601-907-1
Tnsescu I Controlul statistic al proceselor i produselor, Editura didactica i
pedagogica, Bucureti, 1987.
*** Colecie de standarde, Managementul i asigurarea calitii, Editura tehnica,
Bucureti, 1996

S-ar putea să vă placă și