Sunteți pe pagina 1din 10

PRELUCRARE STATISTICA A SIRURILOR DE DATE ELIMINAREA VALORILOR ABERANTE

A. Scopul lucrarii:
Se urmareste realizarea urmatoarelor obiective: - prezentarea metodelor de analiza in vederea depistarii i eliminarii valorilor aberante; - prezentarea indicatorilor statistici necesari aplicrii metodelor de analiza critica a sirurilor de date; - prezentarea notiunilor generale legate de generarea sirurilor de date utilizand software-ul Excel; - prezentarea unei aplicaii;

B. Notiuni de baza:
Daca in cursul unei masuratori repetate se obtin rezultate care sunt mult diferite fata de celelalte marea majoritate a rezultatelor este de presupus ca s-au inregistrat erori. Intrucat rezultatele disparate (aberante) pot avea o influenta disproportionat de mare asupra valorii medii, se impune ca de indata ce au fost constatate, sa se verifice daca conditiile de efectuare a masuratorilor sunt corespunzatoare. Atunci cand nu au fost sesizate situatii deosebite (defecte tehnologice), in cursul masuratorilor este necesar sa se analizeze oportunitatea eliminarii datelor aberante in faza de prelucrare statistica a rezultatelor. Aceasta operatie este posibila pe baza unor teste care impun alegerea unei probabilitati functie de care se ia decizia de pastrare sau eliminar a lor. Aceasta verificare a sirurilor de date/ a esantionului obtinut poarta denumirea de analiza critica a datelor, iar metodele care se aplica sunt: testul IRWIN, testul GRUBBS si testul ROMANOWSKI. 1. Testul IRWIN (testul ) Daca sirul de n date se ordoneaza in sens crescator sau descrescator, valorile susceptibile a fi aberante sunt cele de la extremitatile sirului. Pentru verificarea valorii suspecte se calculeaza valoarea:

x0 x0 1 s

(3.1)

Unde: x0 este valoarea susceptibila a fi aberanta iar s este abaterea medie patratica a sirului celor x1, x2, , xn date, determinata cu relatia: (3.2) 2

s= s

Dispersia fiind data la randul sau de relatia:

D[ x] = s 2 =

1 n ( xi x) 2 n i =1

(3.3)

64

Lucrarea 3

Valorile critice ale metodelor de analiza critica a sirurilor ale aplicatiilor cel mai frecvent utilizate, stabilite pentru un nivel de incredere/ risc propus, se gasesc tabelate in tabelul 3.1. Astfel, comparand valoarea lui cu valoarea critica critic (stabilita in tabelul 3.1), valoarea x0 se elimina din sirul de date daca: (3.4) critic In caz contrar nu sunt motive suficiente pentru aceasta. Daca valoarea x0 a fost eliminata se recalculeaza abatera medie patratica pentru cele n-1 valori ramase si testul se aplica din nou, procesul continuand pana cand nu se mai elimina date ale sirului. Observatie: testului IRWIN nu este suficient in cazul care, in cadrul sirului de date exista mai multe valori suspecte, iar valoarea dispersiei este mare, in acest caz fiind necesara aplicarea celorlalte metode. 2. Testul GRUBBS (testul u) Acest test se aplica in general sirurilor mari de date (n>100), metoda de eliminare constand in compararea valorii disparate x0 cu valoarea medie x , calculata cu expresia:

x=
Se va determina raportul:

1 n xi n i =1
x0 x s

(3.5)

u=

(3.6)

Comparand valoarea u cu valoarea critica ucritic (din tabelul 3.1) pentru un nivel de incredere propus, valoarea xn se elimina din sirul de date daca: (3.7) u u critic In caz contrar, se impune concluzia ca nu exista motive suficiente de eliminare a valorii x0. 3. Testul ROMANOWSKI (testul t) Acest test presupune de asemenea o metoda de eliminare ce consta in compararea valorii disparate x0 cu valoarea medie x , corespunzatoare celorlalte n-1 valori din sirul de rezultate, el aplicandu-se pentru un sir de valori, n<100. In acest caz, calculul valorii medii x , se realizeaza cu formula: (3.8) x1 + x 2 + K + x n

x=

n 1

De asemenea este necesar sa se calculeze abaterea medie patratica, neglijandu-se valoarea disparata x0, (pentru n-1 valori). In continuare se determina raportul:

t= s

x0 x n n 1

(3.9)

Rezultatul acestui raport se compara cu valorile critice (tabelul 3.1) stabilite pentru un risc propus, iar daca valoarea t depaseste valoarea tcritic: (3.10) t t critic

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante

65

atunci rezultatul x0 poate fi eliminat cu o siguranta a concluziei de cel puin cea propusa. In caz contrar, se impune concluzia ca nu exista motive suficiente de eliminare a valorii x0. Tab.3.1 Denumirea testului Expresia analitica a testului IRWIN GRUBBS ROMANOVSKI

x0 x0 1 s

u=

x0 x s

t= s

x0 x n n 1
0.99 1.41 1.73 1.97 2.16 2.31 2.43 2.53 2.62 2.69 2.75 2.81 2.86 2.91 2.95 2.98 3.02 3.05 3.08

Numarul datelor sirului 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0.95 1.79 1.64 1.51 1.39 1.31 1.24 1.20 1.18 1.14 1.11 1.09 1.07 1.06 1.05 1.04 1.03 1.03 1.03

0.98 2.17 2.05 1.93 1.81 1.69 1.57 1.51 1.46 1.43 1.41 1.39 1.37 1.35 1.33 1.31 1.29 1.28 1.27

Nivelul de incredere/ Risc (%) 0.99 0.95 0.98 0.99 0.95 1.41 9.46 8.04 4.93 2.90 1.71 6.53 5.08 3.56 2.75 1.92 5.04 4.11 3.04 2.60 2.07 4.36 3.64 2.78 2.45 2.18 3.96 3.36 2.62 2.30 2.27 3.71 3.18 2.51 2.16 2.35 3.54 3.05 2.43 2.09 2.41 3.41 2.96 2.37 2.03 2.47 3.31 2.89 2.33 2.00 2.52 3.23 2.83 2.29 1.97 2.56 3.17 2.78 2.26 1.94 2.60 3.12 2.74 2.24 1.91 2.64 3.08 2.71 2.22 1.88 2.67 3.04 2.68 2.20 1.86 2.70 3.01 2.66 2.18 1.84 2.73 3.00 2.64 2.17 1.82 2.75 2.95 2.62 2.16 1.81 2.78 2.93 2.60 2.15 1.80

0.98 1.41 1.72 1.96 2.13 2.27 2.37 2.46 2.54 2.61 2.66 2.71 2.76 2.80 2.84 2.87 2.90 2.93 2.96

Observatie: Am prezentat in cadrul Lucrarii1, Introducerea in programul Excel. Achizitii de date i reprezentari grafice, introducerea diferitelor tipuri de date (care pot fii de tip text, cifre, date calendaristice, ore, formule, functii). Acesta in cazul in care avem datele respective obtinute in urma masuratorilor. Excel ofera in plus i posibilitatea generarii unui sir de date, pentru aceasta fiind necesari parcurgerea urmatorilor pasi:

10 4 5 6 7

2 1
Fig.2.7: Generarea de siruri de date 1- selectati optiunea Tools, Data Analysis (Instrumente, Analiza datelor..);

8 9

66

Lucrarea 3

2- selectati din caseta de dialog care s-a deschis optiunea Random Number Generation (Generarea sirurilor de numere); 3- executati clic asupra butonului ok; In caseta de dialog care se deschide selectati: 4- Number of Variables (Numarul variabilelor); 5- Number of Random Number (Numarul randurilor de generare); 6- Distribution, Normal (Distributia, Normala); 7- Mean (Media); 8- Standard Deviation (Abaterea standard); 9- Output Range (Afisarea generarii), selectatnd/introducand domeniul (randul/coloana) unde dorim sa fie afisat sirul de date generat; 10- Executati clic asupra butonului ok.

C. Desfasurarea lucrarii:
1. Tema: Masurand rezistenta la rupere a unui material se efectueaza o serie de masuratori obtinandu-se urmtoarele valori (in daN): 164, 169, 176, 172, 167, 167, 179, 176, 189, 149, 181, 184, 172, 172, 174, 169, 174, 176, 174. - sa se verifice datele aberante; - sa se realizeze analiza critica a datelor, aplicandu-se cele trei metodele de analiza; - sa se prezinte decizia pentru riscul propus; nivelul de incredere adoptat fiind de 0.95% (risc de 5%). 2. Prelucrarea rezultatelor: Pe baza relatiilor prezentate in lucrare vom determina: 1.1- verificarea datelor aberante, un criteriu simplu fiind acela de sortare a valorilor sirului; determinarea valorilor de minim, xmin i a celor de maxim, xmax, utilizand optiunile de sortare (Sort) oferite de Excel, parcurgand pasii: 1- selectati optiunea Data, Sort... (Date, Sortare); 2- selectati din casuta de dialog care se deschide optiunea de sortare Ascending (Crescator); astfel pe prima pozitie/celula a sirului se va vizualiza valoarea de minim, xmin , iar pe ultima pozitie/celula valoarea de maxim, xmax , a sirului. In cazul nostru: xmin = 149 iar xmax = 189; Se observa ca valoarea xmin se indeparteaza foarte mult de restul valorilor, existand posibilitatea ca aceasta sa fie o valoare aberanta pentru nivelul de incredere adoptat, riscul de 5%. 1.2. - realizarea analizei critice a datelor, aplicandu-se cele trei metodele de verificare, aceasta presupunand: - determinarea mediei aritmetica, dispersiei i a abaterii medie patratica; - determinarea valorilor , u i t, in cazul celor trei metode de analiza critica a datelor; 1.2.1.- determinarea mediei aritmetica, dispersiei i a abaterii medie patratica, utilizand formulele (3.5), (3.3), (3.2): Media aritmetica. In cazul determinarii mediei aritmetice avem:

x=
Utilizand Excel, relatia se va scrie:

1 n xi n i =1

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante

67

=SUM($A$1:$A$19)/19 obtinand astfel valoarea x =172.842 Aceasta ocupand in continare adresa D4, in cadrul foii de calcul Excel. Dispersia. Pentru valorile x1, x2, .., xn dispersia se obtine cu relatia:

D[ x] = s 2 =

1 n ( xi x) 2 n i =1

In calculul dispersiei (i implicit si in calculul valorii abaterii medii patratice), in functie de metoda de analiza critica a datelor, luam sau nu in calcul valoarea aberanta analizata. Astfel vom avea: 1. cazul testului IRWIN. Avand rezultatele anterioare (adic valoarea mediei aritmetice M[x], care se afla la adresa D4), se va aplica functia: =(SUM(POWER(($A$1:$A$18-$D$4),2)))/19, obtinand valoarea D[x]= s2=0.777 valoare ce va ocupa in continuare adresa D5. 2. cazul testului GRUBBS i ROMANOWSKI, unde se va aplica functia: =(SUM(POWER(($A$2:$A$18-$D$4),2)))/18, obtinand valoarea D[x]= s2=0.820 (deoarece in cazul nostru valoarea aberanta ocupa prima pozitie din sirul de valori, i deci implicit, prima adresa: A1), valoare ce va ocupa in continuare adresa E5. Abaterea medie patratica, se calculeaza cu formula.

s = s2
Utilizand functiile Excel vom avea: =POWER($D$5,1/2) i =POWER($E$5,1/2) obtinand cele doua valori pentru fiecare caz in parte. Astfel vom avea valoarea

D[x ] =s=0.881, in cazul testului IRWIN (valoare ce va ocupa in continuare adresa D6) i
valoarea

D[x ] =s=0.906, in cazul testului GRUBBS i ROMANOWSKI (valoare ce va ocupa

adresa E6). 1.2.2.- determinarea valorilor , u i t, in cazul celor trei metode de analiza critica a datelor, se va realiza utilizand formulele (3.1), (3.6), (3.9) i valorile anterior determinate (valorile mediei aritmetice, dispersiei si valorile abaterii medii patratice): 1. cazul testului IRWIN

x0 x0 1 s

Utilizand Excel avem: = ABS(($A$1-$A$2)/$D$6) , obtinand valoarea =17.017, valoare ce va ocupa adresa D8; 2. cazul testului GRUBBS. Se va determina raportul:

u=

x0 x s

astfel: =ABS($A$1-$D$4)/$E$6, obtinand valoarea u=26.328, valoare ce va ocupa adresa D9; 2. cazul testului ROMANOWSKI. Se determina raportul:

t= s
Raport care utilizand Excel se va nota:

x0 x n n 1

68

Lucrarea 3

=ABS($A$1-$D$4)/($E$6*POWER(19/18,1/2)), obtinand valoarea t=25.625, valoare ce va ocupa adresa D10; 1.3.-prezentarea deciziei pentru riscul propus; Din tabelul 3.1 vom lua valorile critice pentru cele trei metode de analiza critica a datelor, pentru nivelul de incredere propus de 95% (risc de 5%). Astfel se vor gasi valorile: critic=1.03, ucritic=2.16, tcritic=2.75 Se vor utiliza in continuare relatiile (3.4), (3.7), (3.10), pentru a compara valorile critice stabilite in tabel pentru nivelul de incredere propus i valorile calculate. Utilizand functiunile Excel aceasta calculatie se va realiza utilizand expresiile: =MAX ($D$8,$F$8) obtinand ca valoare maxima valoarea adresei $D$8, =17.017; Astfel ca:

critic , unde 17.017>1.03


In cazul compararii valorilor obtinute in cazul testului GRUBBS, vom avea: =MAX ($D$9,$F$9) obtinand ca valoare maxima valoarea adresei $D$9, u=26.382; Adic:

u u critic , unde 26.328>2.16


In cazul testului ROMANOWSKI, comparatia se va realiza utilizand expresia: =MAX ($D$10,$F$10) obtinand ca valoare maxima valoarea adresei $D$10, t=25.625; Altfel spus:

t t critic , unde 25.625>2.75


Se impune astfel concluzia ca exista motive suficiente de eliminare a valorii aberante x0, concluzie prezentata in tabelar, tabelul 3.2: Tab.3.2 TESTUL ROMANOWSKI

TESTUL IRWIN

TESTUL GRUBBS

1 n xi = 172.842 n i =1 1 n D[ x] = s 2 = ( xi x) 2 n i =1 x x = 0 0 1 s

x=

1 n xi = 172.842 n i =1 1 n D[ x] = s 2 = ( xi x) 2 n i =1

x=

1 n xi = 172.842 n i =1 1 n D[ x] = s 2 = ( xi x) 2 n i =1

x=

u=

x0 x s

S 2 = 0.777; S = 0.881 149 = 17.017 critic = 1.03 17.017 > 1.03 149 se e lim ina

S 2 = 0.820; S = 0.906 u149 = 26.328 ucritic = 2.16 26.328 > 2.16 149 se e lim ina

n n 1 2 S = 0.820; S = 0.906 t149 = 25.625 tcritic = 2.75 25.625 > 2.75 149 se e lim ina s

t=

x0 x

3. Tema: Utilizand functiunile oferite de catre software-ul Excel generati un sir de date, n=150, in cadrul cruia introduceti aleator o valoare disparata. - sa se verifice datele aberante; - sa se realizeze analiza critica a datelor, aplicandu-se cele trei metodele de analiza; - sa se prezinte decizia pentru riscul propus;

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante

69

nivelul de incredere adoptat fiind de 0.99% (risc de 1%). 4. Prelucrarea rezultatelor: 1.1- Pe baza celor enuntate anterior se va interoduce un sir de date, n=150, utilizand software-ul Excel, i anume: 1- selectati optiunea Tools, Data Analysis (Instrumente, Analiza datelor..); 2- selectati din caseta de dialog care s-a deschis optiunea Random Number Generation (Generarea sirurilor de numere); 3- executati clic asupra butonului ok; In caseta de dialog care se deschide selectati: 4- Number of Variables (Numarul variabilelor): 150; 5- Number of Random Number (Numarul randurilor de generare): 1; 6- Distribution, Normal (Distributia, Normala): 7- Mean (Media): 10; 8- Standard Deviation (Abaterea standard): 0.1; 9- Output Range (Afisarea generarii), selectatnd/introducand domeniul (randul/coloana) unde dorim sa fie afisat sirul de date generat; 10- Executati clic asupra butonului ok. Se va introduce apoi aleator o valoare disparata, de exemplu valorarea: 20, urmand ca i in cazul anterior pe baza relatiilor prezentate in lucrare sa determinam: 1.2- verificarea datelor aberante, un criteriu simplu fiind acela de sortare a valorilor sirului; determinarea valorilor de minim, xmin i a celor de maxim, xmax, utilizand optiunile de sortare (Sort) oferite de Excel, parcurgand pasii: 3- selectati optiunea Data, Sort... (Date, Sortare); 4- selectati din casuta de dialog care se deschide optiunea de sortare Ascending (Crescator); astfel pe prima pozitie/celula a sirului se va vizualiza valoarea de minim, xmin , iar pe ultima pozitie/celula valoarea de maxim, xmax , a sirului. In cazul nostru: xmin = 9.944 iar xmax = 20; Se observa ca valoarea xmax se indeparteaza foarte mult de restul valorilor, existand posibilitatea ca aceasta sa fie o valoare aberanta pentru nivelul de incredere adoptat, riscul de 1%. 1.3. - realizarea analizei critice a datelor, aplicandu-se cele trei metodele de verificare, aceasta presupunand: - determinarea mediei aritmetica, dispersiei i a abaterii medie patratica; - determinarea valorilor , u i t, in cazul celor trei metode de analiza critica a datelor; 1.3.1.- determinarea mediei aritmetica, dispersiei i a abaterii medie patratica, utilizand formulele (3.5), (3.3), (3.2): Media aritmetica. In cazul determinarii mediei aritmetice avem:

x=
Utilizand Excel, relatia se va scrie:

1 n xi n i =1

=SUM($A$1:$EU$1)/151 obtinand astfel valoarea x =10.084 Aceasta ocupand in continare adresa D6, in cadrul foii de calcul Excel. Dispersia. Pentru valorile x1, x2, .., xn dispersia se obtine cu relatia:

D[ x] = s 2 =

1 n ( xi x) 2 n i =1

70

Lucrarea 3

La fel ca i in cazul anterior, in calculul dispersiei (i implicit si in calculul valorii abaterii medii patratice), in functie de metoda de analiza critica a datelor, luam sau nu in calcul valoarea aberanta analizata. Astfel vom avea: 1. cazul testului IRWIN. Avand rezultatele anterioare (adic valoarea mediei aritmetice M[x], care se afla la adresa D6), se va aplica functia: =(SUM(POWER(($A$1:$EU$1-$D$6),2)))/151, obtinand valoarea D[x]= s2=0.151 valoare ce va ocupa in continuare adresa D7. 2. cazul testului GRUBBS i ROMANOWSKI, unde se va aplica functia: =(SUM(POWER(($A$1:$ET$1-$D$6),2)))/150, obtinand valoarea D[x]= s2=0.058 (deoarece in cazul nostru valoarea aberanta ocupa ultima pozitie din sirul de valori, i deci implicit, adresa: EU1), valoare ce va ocupa in continuare adresa E7. Abaterea medie patratica, se calculeaza cu formula.

s = s2
Utilizand functiile Excel vom avea: =POWER($D$7,1/2) i =POWER($E$7,1/2) obtinand cele doua valori pentru fiecare caz in parte. Astfel vom avea valoarea

D[x ] =s=0.389, in cazul testului IRWIN (valoare ce va ocupa in continuare adresa D8) i
valoarea

D[x ] =s=0.240, in cazul testului GRUBBS i ROMANOWSKI (valoare ce va ocupa

adresa E8). 1.2.2.- determinarea valorilor , u i t, in cazul celor trei metode de analiza critica a datelor, se va realiza utilizand formulele (3.1), (3.6), (3.9) i valorile anterior determinate (valorile mediei aritmetice, dispersiei si valorile abaterii medii patratice): 1. cazul testului IRWIN

x0 x0 1 s

Utilizand Excel avem: =ABS(($EU$1-$ET$1)/$D$8), obtinand valoarea =25,143 ce ocupa adresa D10; 2. cazul testului GRUBBS. Se va determina raportul:

u=

x0 x s

astfel: =ABS($ET$1-$D$6)/$E$8, obtinand valoarea u=41,347 valoare ce va ocupa adresa D11; 2. cazul testului ROMANOWSKI. Se determina raportul:

t= s

x0 x n n 1

Raport care utilizand Excel se va nota: =ABS($ET$1-$D$6)/($E$8*POWER(151/150,1/2)), obtinand valoarea t=41,210 valoare ce va ocupa adresa D12; 1.3.-prezentarea deciziei pentru riscul propus; Din tabelul 3.1 vom lua valorile critice pentru cele trei metode de analiza critica a datelor, pentru nivelul de incredere propus de 99% (risc de 1%). Astfel se vor gasi valorile:

Prrelucrarea statistica a sirurilor de date Eliminarea valorilor aberante

71

critic=2.03, ucritic=3.41, tcritic=2.62 Se vor utiliza in continuare relatiile (3.4), (3.7), (3.10), pentru a compara valorile critice stabilite in tabel pentru nivelul de incredere propus i valorile calculate. Utilizand functiunile Excel aceasta calculatie se va realiza utilizand expresiile: =MAX ($D$10,$F$10) obtinand ca valoare maxima valoarea adresei $D$10, =25.143; Astfel ca:

critic , unde 25.143 >2.03


In cazul compararii valorilor obtinute in cazul testului GRUBBS, vom avea: =MAX ($D$11,$F$11) obtinand ca valoare maxima valoarea adresei $D$11, u=7.158; Adic:

u u critic , unde 41.347 >3.41


In cazul testului ROMANOWSKI, comparatia se va realiza utilizand expresia: =MAX ($D$12,$F$12) obtinand ca valoare maxima valoarea adresei $D$12, t=7.135; Altfel spus:

t t critic , unde 41.210 >2.62


Se impune astfel concluzia ca exista motive suficiente de eliminare a valorii aberante x0, concluzie de asemenea prezentata in tabelar, tabelul 3.3: Tab.3.3 TESTUL IRWIN TESTUL GRUBBS TESTUL ROMANOWSKI

1 n xi = 10.063 n i =1 1 n D[ x] = s 2 = ( xi x) 2 n i =1 x x = 0 0 1 s

x=

x=

1 n xi = 172.842 n i =1
1 n ( xi x)2 n i =1

x=

1 n xi = 172.842 n i =1
1 n ( xi x)2 n i =1

D[ x] = s 2 =

D[ x] = s 2 =

u=

x0 x s

S 2 = 0.151; S = 0.389 20 = 25,143 critic = 2.030 25.143 > 2.030 20 se e lim ina

S 2 = 0.058; S = 0.240 u 20 = 41.347 u critic = 3.410 41.347 > 3.410 20 se e lim ina

n n 1 2 S = 0.058; S = 0.240 t 20 = 41.210 t critic = 2.620 41.210 > 2.620 20 se e lim ina s

t=

x0 x

D. Prezentarea rezultatelor:
Rezultatele vor fi prezentate sub forma unui raport (vezi Anexa3) ce cuprinde: - reprezentarea datelor primare, sirul de date: - reprezentarea tabelara a valorilor indicilor statistici: media aritmetica, dispersia, abaterea medie patratica; - reprezentarea tabelara a valorilor calculate in cazul celor trei metode de analiza critica a datelor: , u i t; - prezentarea deciziei pentru riscul propus;

E. Bibliografie:
[1] Apostolescu, N., Taraza, D., Bazele cercetrii experimentale a masinilor termice, Editura Didactica i Pedagocica, Bucuresti, 1974.

72

Lucrarea 3

[2] [3] [4] [5] [6]

Bulgaru, M., Bolboaca, L., Ingineria calitatii.Mangementul calitatii, statistica i control, masurari in 3D, Alma Mater, Cluj-Napoca 2001, ISBN 973-85153-0-0 Cathy, K., Excel pentru Windows tm 95 in 503 imagini, Teora, Bucuresti, 1999, ISBN 973-601-457-6 Faithe, W., Microsoft Office 97 Professional 6in 1, Teora, Bucuresti, 1998, ISBN 973601-907-1 Tanasescu I Controlul statistic al proceselor si produselor, Editura didactica si pedagogica, Bucuresti, 1987. *** Colectie de standarde, Managementul i asigurarea calitatii, Editura tehnica, Bucuresti, 1996

S-ar putea să vă placă și