Sunteți pe pagina 1din 9
PRELUCRARE STATISTICA A SIRURILOR DE DATE ELIMINAREA VALORILOR ABERANTE A. Scopul lucrării : Se urmăreşte
PRELUCRARE STATISTICA A SIRURILOR DE DATE ELIMINAREA VALORILOR ABERANTE A. Scopul lucrării : Se urmăreşte

PRELUCRARE STATISTICA A SIRURILOR DE DATE ELIMINAREA VALORILOR ABERANTE

A. Scopul lucrării:

Se urmăreşte realizarea următoarelor obiective:

- prezentarea metodelor de analiza in vederea depistării şi eliminării valorilor aberante;

- prezentarea indicatorilor statistici necesari aplicării metodelor de analiza critica a şirurilor de date;

- prezentarea noţiunilor generale legate de generarea şirurilor de date utilizând software-ul Excel;

- prezentarea unei aplicaţii;

B. Noţiuni de baza:

Daca in cursul unei măsurători repetate se obţin rezultate care sunt mult diferite fata de marea majoritate a celorlalte, este de presupus ca s-au înregistrat erori. Întrucât rezultatele disparate (aberante) pot avea o influenta disproporţionat de mare asupra valorii medii, se impune ca de îndată ce au fost constatate, sa se verifice daca condiţiile de efectuare a măsurătorilor sunt corespunzătoare. Atunci când nu au fost sesizate situaţii deosebite (defecte tehnologice), in cursul

măsurătorilor este necesar sa se analizeze oportunitatea eliminării datelor aberante in faza de prelucrare statistica a rezultatelor. Aceasta operaţie este posibila pe baza unor teste care impun alegerea unei probabilităţi funcţie de care se ia decizia de păstrare sau eliminare a lor. Aceasta verificare a şirurilor de date/ a eşantionului obţinut poarta denumirea de analiza critica a datelor, iar metodele care se aplica sunt: testul IRWIN, testul GRUBBS si testul ROMANOWSKI.

1. Testul IRWIN (testul λ)

Daca şirul de n date se ordonează in sens crescător sau descrescător, valorile susceptibile a fi aberante sunt cele de la extremităţile şirului. Pentru verificarea valorii suspecte se calculează valoarea:

x  x 0 0 1 s
x
x
0
0 1
s

(3.1)

Unde: x 0 este valoarea susceptibila a fi aberanta iar s este abaterea medie pătratica a şirului celor x 1 , x 2 , …, x n date, determinata cu relaţia:

(3.2)

Dispersia fiind data la rândul sau de relaţia:

(3.3)

s

s

2

2 s
2
s

1

n

n

i 1

(

x

i

x

)

2

[

D x

]

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante

61

Valorile critice ale metodelor de analiza critica a şirurilor ale aplicaţiilor cel mai frecvent utilizate, stabilite pentru un nivel de încredere/ risc propus, se găsesc tabelate in tabelul 3.1. Astfel, comparând valoarea lui λ cu valoarea critica λ critic (stabilita in tabelul 3.1), valoarea x 0 se elimina din şirul de date daca:

(3.4)

In caz contrar nu sunt motive suficiente pentru aceasta. Daca valoarea x 0 a fost eliminata se recalculează abaterea medie pătratica pentru cele n-1 valori ramase si testul se aplica din nou, procesul continuând pana când nu se mai elimina

date ale şirului. Observaţie: testului IRWIN nu este suficient in cazul care, in cadrul şirului de date exista mai multe valori suspecte, iar valoarea dispersiei este mare, in acest caz fiind necesara aplicarea celorlalte metode.

2. Testul GRUBBS (testul u)

Acest test se aplica in general şirurilor mari de date (n>100), metoda de eliminare constând

critic

in compararea valorii disparate x 0 cu valoarea medie

x , calculata cu expresia:

Se va determina raportul:

n  1 x   x i n i  1  x 
n
 1
x 
x
i
n
i  1
x
x
0
u 

s

(3.5)

(3.6)

Comparând valoarea u cu valoarea critica u critic (din tabelul 3.1) pentru un nivel de încredere propus, valoarea x n se elimina din şirul de date daca:

(3.7)

In caz contrar, se impune concluzia ca nu exista motive suficiente de eliminare a valorii x 0 .

3. Testul ROMANOWSKI (testul t)

Acest test presupune de asemenea o metoda de eliminare ce consta in compararea valorii

u u

critic

disparate x 0 cu valoarea medie

x , corespunzătoare celorlalte n-1 valori din şirul de rezultate,

el aplicându-se pentru un sir de valori, n<100. In acest caz, calculul valorii medii realizează cu formula:

x

x

1

x

2

x

n

n

x ,

se

(3.8)

De asemenea este necesar sa se calculeze abaterea medie pătratica, neglijându-se valoarea disparata x 0 , (pentru n-1 valori). In continuare se determina raportul:

t

 x  x 0 n s n  1
x
 x
0
n
s
n  1

(3.9)

Rezultatul acestui raport se compara cu valorile critice (tabelul 3.1) stabilite pentru un risc propus, iar daca valoarea t depăşeşte valoarea t critic :

(3.10)

t t

critic

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

62

Lucrarea 3

atunci rezultatul x 0 poate fi eliminat cu o siguranţă a concluziei de cel puţin cea propusă. In caz contrar, se impune concluzia că nu exista motive suficiente de eliminare a valorii x 0 .

 

Tab.3.1

Denumirea testului

 

IRWIN

 

GRUBBS

 

ROMANOVSKI

Expresia analitica a testului

     

x  x 0 01 s
x
x
0
01
s
 
 x  x 0
x
x
0
   

t

x

0

x

   

u

 
n s n  1
n
s
n
 1
   

s

Numarul datelor

 

Nivelul de incredere/ Risc (%)

 

sirului

0.95

0.98

0.99

0.95

 

0.98

 

0.99

0.95

0.98

0.99

3 1.79

 

2.17

2.90

4.93

 

8.04

 

9.46

1.41

1.41

 

1.41

4 1.64

2.05

2.75

3.56

5.08

6.53

1.71

1.72

1.73

5 1.51

1.93

2.60

3.04

4.11

5.04

1.92

1.96

1.97

6 1.39

1.81

2.45

2.78

3.64

4.36

2.07

2.13

2.16

7 1.31

1.69

2.30

2.62

3.36

3.96

2.18

2.27

2.31

8 1.24

1.57

2.16

2.51

3.18

3.71

2.27

2.37

2.43

9 1.20

1.51

2.09

2.43

3.05

3.54

2.35

2.46

2.53

10 1.18

1.46

2.03

2.37

2.96

3.41

2.41

2.54

2.62

11 1.14

1.43

2.00

2.33

2.89

3.31

2.47

2.61

 

2.69

12 1.11

1.41

1.97

2.29

2.83

3.23

2.52

2.66

2.75

13 1.09

1.39

1.94

2.26

2.78

3.17

2.56

2.71

 

2.81

14 1.07

1.37

1.91

2.24

2.74

3.12

2.60

2.76

2.86

15 1.06

1.35

1.88

2.22

2.71

3.08

2.64

2.80

2.91

16 1.05

1.33

1.86

2.20

2.68

3.04

2.67

2.84

2.95

17 1.04

1.31

1.84

2.18

2.66

3.01

2.70

2.87

2.98

18 1.03

1.29

1.82

2.17

2.64

3.00

2.73

2.90

3.02

19 1.03

1.28

1.81

2.16

2.62

2.95

2.75

2.93

3.05

20 1.03

1.27

1.80

2.15

2.60

2.93

2.78

2.96

3.08

Observaţie: Am prezentat in cadrul Lucrarii1, Introducerea in programul Excel. Achiziţii de date şi reprezentări grafice, introducerea diferitelor tipuri de date (care pot fi de tip text, cifre, date calendaristice, ore, formule, funcţii). Acesta in cazul in care avem datele respective obţinute in urma măsurătorilor. Excel oferă in plus şi posibilitatea generării unui sir de date, pentru aceasta fiind necesari parcurgerea următorilor paşi:

3 2 1
3
2
1
10 4 5 6 7 8 9
10
4
5
6
7
8
9

Fig.2.7: Generarea de şiruri de date

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante

63

1-

selectaţi opţiunea Tools, Data Analysis… (Instrumente, Analiza datelor );

2-

selectaţi din caseta de dialog care s-a deschis opţiunea Random Number Generation ( Genarare de numere aleatorii);

3-

executaţi clic asupra butonului ok;

In caseta de dialog care se deschide selectaţi:

4-

Number of Variables (Numărul coloanelor generate);

5-

Number of Random Number (Numărul rândurilor de generare);

6-

Distribution, Normal (Distribuţia, Normala);

7-

Mean (Media);

8-

Standard Deviation (Abaterea standard);

9-

Output Range (Afişarea generării), selectând/introducând domeniul (rândul/coloana) unde dorim sa fie afişat şirul de date generat;

10- Executaţi clic asupra butonului ok.

C. Desfăşurarea lucrării:

C.1. Tema:

Sa se genereze un sir de 100 de valori aşezate intr-un tabel cu 10 coloane. Generarea numerelor va fi aleatoare, datele vor fi normal repartizate, cu media egala cu ziua de naştere si dispersia cuprinsa in intervalul 0,0 – 0,4 va fi de forma 0,XX, unde XX reprezintă ziua naşterii.

va fi de forma 0,XX, unde XX reprezintă ziua naşterii. Sa se completeze un raport care

Sa se completeze un raport care sa cuprindă:

1. Tabelul datelor primare

2. Tabelul datelor sortate in ordine crescătoare pe coloane

3. Tabelul datelor sortate in ordine crescătoare

4. Numerele considerate aberante

5. Calculul mediei si dispersiei pe fiecare coloana

6. Coeficienţii Grubbs, Irwin si Romanowski

7. Decizia de păstrare sau eliminare a datelor aberante

8. Trasarea unei diagrame circulare pentru 6 clase

C.2. Prelucrarea rezultatelor:

1. Introducerea datelor

Pe baza celor enunţate anterior se va introduce un sir de date, n=100, utilizând software-ul Excel, şi anume:

1- selectaţi opţiunea Tools, Data Analysis (Instrumente, Analiza datelor);

2- selectaţi din caseta de dialog care s-a deschis opţiunea Random Number Generation ( Generare de numere aleatorii);

3- executaţi clic asupra butonului ok;

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

64

Lucrarea 3

In caseta de dialog care se deschide selectaţi:

4-

Number of Variables (Numărul coloanelor generate): 10;

5-

Number of Random Number (Numărul rândurilor generare): 10;

6-

Distribution, Normal (Distribuţia, Normala):

7-

Mean (Media): 19;

8-

Standard Deviation (Abaterea standard): 0.19;

9- Output Range (Afişarea generării), selectând/introducând domeniul (rândul/coloana) unde dorim sa fie afişat şirul de date generat; 10- Executaţi clic asupra butonului ok.

2. Sortarea pe coloane

După afişarea tabelara a şirului generat se va trece la punctul 2 al cerinţelor temei si anume sortarea datelor in ordine crescătoare pe coloane si anume:

1-

selectaţi casutele pe care doriţi sa le ordonaţi

2-

selectaţi opţiunea Data, Sort… (Sortarea datelor)

3- selectaţi din casuta de dialog care se deschide opţiunea de sortare Ascending

(Crescător);

astfel pe prima poziţie/celula se va vizualiza valoarea de minim x min iar pe ultima poziţie x max a coloanei selectate. Acest procedeu se va repeta pentru fiecare coloana in parte.

3. Sortarea globala

Pentru afişarea tabelara a şirului generat in ordine crescătoare ne vom ajuta de foaia de

calcul unde vom introduce pe o coloana toate datele şirului. Cu ajutorul opţiunii Data, Sort (Sortarea datelor) se va putea sorta in ordine crescătoare întregul sir.

4. Determinarea numerelor aberante

In urma sortării in ordine crescătoare a şirului nostru in foaia de calcul se poate vizualiza pe prima poziţie valoarea de minim x min , iar pe ultima poziţie/celula valoarea de maxim, x max , a şirului. In cazul nostru: x min = 18.51 iar x max = 19.451 existând posibilitatea ca acestea sa fie valori aberante pentru nivelul de încredere adoptat, riscul de 5%. 5. Determinarea mediei aritmetice si a dispersiei pe fiecare coloana Utilizând tabelul 2 (Şirul de date sortat in ordine crescătoare pe coloane), vom putea determina mediile si dispersiile cu ajutorul formulei:

Pentru medie: =AVERAGE(B16:B25) aceasta formula utilizându-se pentru fiecare coloana in parte; Pentru dispersie: =VAR(B16:B25) aceasta formula utilizându-se pentru fiecare coloana in parte

6. Calculul coeficienţilor Irwin, Grubbs, Romanowski

Realizarea analizei critice a datelor, aplicându-se cele trei metodele de verificare, aceasta presupunând:

- determinarea mediei aritmetice, dispersiei şi a abaterii medii pătratice;

- determinarea valorilor λ, u şi t, in cazul celor trei metode de analiza critica a datelor; 6.1.- determinarea mediei aritmetice, dispersiei şi a abaterii medii pătratice, utilizând formulele (3.5), (3.3), (3.2):

Media aritmetica. In cazul determinării mediei aritmetice avem:

1

x

n

n

i 1

x

i

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante

65

Utilizând Excel, relaţia se va scrie:

=AVERAGE(B16:K25) obţinând astfel valoarea x =18.992 Aceasta ocupând in continuare adresa C44.

Dispersia. Pentru valorile x 1 , x 2 ,

, x n dispersia se obţine cu relaţia:

[

D x

]

s

2

1

n

n

i 1

(

x

i

x

)

2

La fel ca şi in cazul anterior, in calculul dispersiei (şi implicit si in calculul valorii abaterii medii pătratice), in funcţie de metoda de analiza critica a datelor, luam sau nu in calcul valorile aberante analizate. Astfel vom avea:

1. Cazul testului IRWIN. Se va aplica funcţia:

=VAR(B16:K25), obţinând D[x]= s 2 =0.0425

valoare ce va ocupa in continuare adresa C51.

2. Cazul testului GRUBBS şi ROMANOWSKI, unde se va aplica funcţia:

=VAR(M4:M101), obţinând valoarea D[x]= s 2 =0.0389 (deoarece in cazul nostru valorile aberante ocupa prima si ultima poziţie din şirul de valori din foaia de calcul). Abaterea medie pătratica, se calculează cu formula.

s

2 s
2
s

Utilizând funcţiile Excel vom avea:

=SQRT(C51) si =SQRT(E51) obţinând cele doua valori pentru fiecare caz in parte. Astfel vom avea valoarea

Dx=s=0.2063, in cazul testului IRWIN (valoare ce va ocupa in continuare adresa C52) şi

valoarea Dx=s=0.1971, in cazul testului GRUBBS şi ROMANOWSKI (valoare ce va

ocupa adresa E52).

6.2 determinarea valorilor λ min , λ max , u min , u max , t min , t max in cazul celor trei metode de analiza critica a datelor, se va realiza utilizând formulele (3.1), (3.6), (3.9) şi valorile anterior determinate (valorile mediei aritmetice, dispersiei si valorile abaterii medii pătratice):

1. cazul testului IRWIN

abaterii medii pătratice ): 1. cazul testului IRWIN   x  x 0 0 1
abaterii medii pătratice ): 1. cazul testului IRWIN   x  x 0 0 1

x  x 0 0 1 s
x
x
0
0 1
s

Utilizând Excel avem:

=(M4-M3)/C52, obţinându-se valoarea λ min =0.3629 ce va ocupa adresa B55; =(M102-M101)/C52 obţinându-se valoarea λ max =0.1566 ce va ocupa adresa B56;

2. Cazul testului GRUBBS. Se va determina raportul:

u

 x  x 0
x
x
0

s

astfel:

=ABS(M3-C44)/E52 obţinându-se valoarea, u min =2.4455

=(M102-C44)/E52 obţinându-se valoarea , u max =2.3289 valoarea ce va ocupa adresa E56;

valoare ce va ocupa adresa E55;

2. Cazul testului ROMANOWSKI. Se determina raportul:

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

66

Lucrarea 3

t

 x  x 0 n s n  1
x
x
0
n
s
n  1

Raport care utilizând Excel se va nota:

=ABS(M3-C44)/E52/SQRT(1.0101) obţinând valoarea t min =2.4332 valoare ce va ocupa adresa H55; =(M102-C44)/E52/SQRT(1.0101) obţinând valoarea t max =2.3172 valoare ce va ocupa adresa H56; 6.3.Prezentarea deciziei pentru riscul propus; Din tabelul 3.1 vom lua valorile critice pentru cele trei metode de analiza critica a datelor, pentru nivelul de încredere propus de 95% (risc de 5%). Deoarece in cazul nostru numărul datelor din sir este mai mare de 20, valorile critice se vor alege din rândul corespunzător şirului cu 20 de date. Astfel se vor găsi valorile:

λ critic =1.03, u critic =2.15, t critic =2.78 Se vor utiliza in continuare relaţiile (3.4), (3.7), (3.10), pentru a compara valorile critice stabilite in tabel pentru nivelul de încredere propus şi valorile calculate. Astfel ca:

λ min < λ critic , unde 0.3629<1.03 λ max <λ critic ,unde 0.1566<1.03 In cazul comparării valorilor obţinute in cazul testului GRUBBS, vom avea:

u min >u critic , unde 2.4455>2.15 u max >u critic unde 2.3289>2.15 In cazul testului ROMANOWSKI, comparaţia se va realiza astfel:

t min < t critic , unde 2.4332<2.78 t max < t critic unde 2.3172<2.78

7.Decizia

Se impune astfel concluzia ca nu exista motive suficiente de eliminare a valorilor aberante , concluzie de asemenea prezentata in tabelar, tabelul 3.3:

Tab.3.2

 

TESTUL IRWIN

 

TESTUL GRUBBS

 

TESTUL ROMANOWSKI

 
x  x 0 0 1 s
x
x
0
0 1
s
   
 x  x 0
x
x
0
   
n s n  1
n
s
n
 1

x

0

x

 
 

 

t

   

u

 
   

s

1

 

n

1

n

1

 

n

x

x

i

18.992

 

x

x i 18.992

 

x

x i 18.992

 

n

i 1

 

n

i 1

n

i 1

 
 

n

 

1

n

 

1

n

[

D x

]

s

2

1

n

i

1

(

x

i

x

)

2

[

D x

]

s

2

n

i 1

(

x

i

x

)

2

[

D x

]

s

2

 

n

i 1

(

x

i

x

)

2

S 2 =0,0425

S=0,2063

 

S 2 =0,0389 S=0,1971

 

S 2 =0,0389 S=0,1971

 

Min

   

Max

 

Min

   

Max

 

Min

   

Max

 

18,5103

   

19,4514

 

18,5103

   

19,4514

18,5103

   

19,4514

λ min =0,3628

 

λ max =0,1566

u min =2,4455

u max =2,289

t min =2,4332

 

t max =2,3172

 

λ

critic =1,03

   

u

critic =2,15

   

t

critic =2,78

 

0,3628<1,03

 

0,1566<1,03

2,4455>2,15

2,289>2,15

2,432<2,78

 

2,3172<2,78

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante

67

Decizia

Decizia

Decizia

Ramine

Ramine

Se elimina

Se elimina

Ramine

Ramine

8. Trasarea diagramei circulare pentru cele 6 clase

8.1. Pentru determinarea diagramei

subintervalele. Formulele utilizate fiind amintite in lucrarea precedenta.

8.2. Determinarea claselor , frecventei absolute si a frecventei relative – vezi lucrarea 2

8.3. Trasarea diagramei:

trebuie mai intai sa se determine amplitudinea si

1-

selectaţi datele pe care doriţi sa le reprezentaţi grafic: adresele ce reprezintă valorile

2-

frecventelor relative fi; executaţi clic asupra butonului ChartWizard (Asistent pentru grafice);

3-

selectaţi tipul de grafic dorit: cazul reprezentării unei Diagrame Circulare;

1-

selectaţi formatul graficului;

2-

executaţi clic asupra butonului Next (Mai departe);

3-

definirea datelor pe care doriţi sa le reprezentaţi grafic;

4-

model de grafic;

5-

executaţi clic asupra butonului Next (Mai departe);

6-

efectuaţi modificările pe care le consideraţi necesare (titlul graficului, eticheta axei x, eticheta axei y, eticheta legendei, etc);

7-

executaţi clic asupra butonului Next (Mai departe);

8-

determinaţi locaţia reprezentării grafice;

9-

executaţi clic asupra butonului Finish (Terminare).

9- executaţi clic asupra butonului Finish (Terminare). C3. Prezentarea rezultatelor: Rezultatele vor fi prezentate

C3. Prezentarea rezultatelor:

Rezultatele vor fi prezentate sub forma unui raport (vezi Anexa3) ce cuprinde:

- reprezentarea datelor primare, şirul de date:

- reprezentarea datelor in ordine crescătoare pe coloane;

- reprezentarea datelor in ordine crescătoare;

- reprezentarea tabelara a valorilor considerate aberante;

- reprezentarea tabelara a valorilor indicilor statistici: media aritmetica, dispersia, abaterea medie pătratica;

- reprezentarea tabelara a valorilor calculate in cazul celor trei metode de analiza critica a datelor: λ, u şi t;

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)

68

Lucrarea 3

-

prezentarea deciziei pentru riscul propus;

-

reprezentarea grafica a celor 6 clase,

-

D. Bibliografie:

[1] Apostolescu, N., Taraza, D., Bazele cercetării experimentale a masinilor termice,

[2]

Editura Didactica şi Pedagocica, Bucuresti, 1974. Bulgaru, M., Bolboaca, L., Ingineria calitatii.Mangementul calitatii, statistica şi control,

[3]

masurari in 3D, Alma Mater, Cluj-Napoca 2001, ISBN 973-85153-0-0 Cathy, K., Excel pentru Windows tm 95 in 503 imagini, Teora, Bucuresti, 1999, ISBN

973-601-457-6

[4]

Faithe, W., Microsoft Office 97 Professional 6in 1, Teora, Bucuresti, 1998, ISBN 973-

601-907-1

[5] Tanasescu I Controlul statistic al proceselor si produselor, Editura didactica si pedagogica, Bucuresti, 1987. [6] *** Colectie de standarde, Managementul şi asigurarea calitatii, Editura tehnica, Bucuresti, 1996

Create PDF files without this message by purchasing novaPDF printer (http://www.novapdf.com)