Sunteți pe pagina 1din 15

VERIFICAREA NORMALITATII REPARTITIEI DATELOR

A. Scopul lucrarii:
Se urmareste realizarea urmatoarelor obiective: - prezentarea notiunilor generale legate de verificarea concordantei dintre o repartitie teoretica i o repartitie empirica; - prezentarea testelor de concordanta pentru verificarea normalitatii; - prezentarea unei aplicaii;

B. Notiuni de baza:
Rezolvarea practica a problemelor de prelucrare statistica a datelor implica in general aproximarea unei repartitii experimenale (obinuta din datele masurate) cu o repartitia teoretica de care sa se apropie in mod satisfacator. Pentru eliminarea aproximarilor este recomandat sa se aplice un test de verificare, aceste teste parcurgand in general urmtoarele etape: - enuntarea ipotezei, a presupunerii asupra unei sau mai multor repartitii, sau asupra unuia sau mai multor parametrii ai repartitiei respective; - alegerea parametrilor (, n, etc); - calculul functiei de repartitie pe baza datelor i stabilirea regulilor/ criteriilor ce vor definii decizia (adaptarea sau respingerea unei repartitii); - luarea deciziei, acceptarea sau respingerea functiei de repartitie. Exista diferite metode i teste de verificare a aplicabilitatii repartitiilor teoretice Deoarece majoitatea fenomenelor se supun legii de repartitie normala (Gauss-Laplace) testele cel mai frecvent test utilizate se refera la verificarea normalitatii. Pntru verificarea repartitiilor, trebuie sa se specifice un prag de semnificatie sau un risc pentru care sa poata fi luata decizia de acceptare a ipotezelor. Metodele de verificare a normalitatii sunt: - verificarea egalitatii unor parametrii al repartitiei cu o valoare data; - verificarea egalitatii valorilor parametrilor a doua repartitii, fara a se preciza insa aceste valori; - verificarea concordantei dintre o repartitie experimentala (empirica), si o repartitie teoretica; - verificarea valorilor aberante; 1. Verificarea concordantei dintre o repartitie experimentala (empirica), si o repartitie teoretica; Verificarea normalitatii curbei de repartitie 1.1. Verificarea valorilor unora dintre parametrii statistici Metoda este mai ales calitativa i consta din parcurgerea urmatorilor pasi (vezi Lucrarea2, Repartitia in frecventa a datelor. Reprezentarea i prelucrarea primara a sirurilor): 1- se traseaza histograma care are reprezentate pe abscisa valoarea limitelor claselor xi, iar pe ordonata frecventa absoluta ai sau frecventa relativa fI, utilizandu-se relatiile:

100

Lucrarea 5

m = 1 + 3,322 lgn - determinand numarul de clase W = x max x min - determinand valoarea amplitudinii
d= W x max x min - raport ce defineste valoarea mrimii unui sub-interval = m m

(5.1) (5.2) (5.3)

fi =

ai ; n

f
i =1

= 1 - determinand valorile frecventelor relative

(5.4)

2- se calculeaza valoarea mediei aritmetice, a medianei, si a modulului:

M [ x ] = i =1 n
2

xi

(5.5)

M e = X n +1 -pentru numar impar de valori M e =

x( n / 2 ) + x( n 2 + 1 ) -pentru numar par (5.6) 2


(5.7)

M 0 = x + 3 M e x

3- se calculeaza valoarea coeficientului de asimetrie:


3 = 1= M 3/ 2

M3 D[x ]
3

M2

(5.8)

4- se calculeaza coeficientul de aplatizare, excesul , cu relatia:

3 = M 42 3 2= M4 2 M2 D[x ]

(5.9)

Unde: M3 este momentul centrat de ordinul 3, respectiv M4, momentul centrat de ordinul 4, calculul valorilor momentului centrat de ordinul k n raport cu media aritmetic notandu-se cu Mk i este dat de expresia:

Mk =
respectiv:

1 n k ( xi x ) n i =1

(5.10)

Mk =

n 1 n k k ( xi x ) ai = ( xi x ) f i n i =1 i =1

(5.11)

Avand valorile calculate pentru toti acesti parametri statistici, se poate face o evaluare a repartizarii. In cazul in care datele sunt normal repartizate: - histograma va prezenta un singur maxim, avand alura asemanatoare curbei normale; - media aritmetica, mediana si modala vor avea valori apropiate; - coeficientul de asimetrie se va apropia de valoarea 0; - coeficientul de aplatizare va avea valoarea 0. Daca aceste verificari nu duc la concluzii favorabile privind normalitatea repartitiei datelor, decizia poate fii: - este necesara o analiza mai amanuntita cantitativa a sirului de date; - pentru valori ce definesc o abatere suficient de mare intre repartizarea teoretica de referint i cea observata, se respinge ipoteza de normalitate a repartitiei datelor.

Verificarea normalitatii repartitiei datelor

101

Cel mai important i mai des utilizat test de verificare a normalitatii repartitiilor unui sir de date experimentale este testul 2 1.2. Testul 2 pentru verificarea normalitatii Repartitia 2 se utilizeaza i pentru verificarea normalitatii unei populatii normale cu i 2 necunoscute. Statistica 2 pentru =n-1 grade de libertate:

2 i =
in acest caz este data de relatia:

z2 i i= 0
i

( xi ) 2 = i= 0
i

(5.12)

i2 =
i =0

(ai npi )2
npi

(5.13)

Unde: - ai- este frecventa absoluta a abaterilor intervalului i, (numarul inregistrat de valori din acest interval i); - pi- probabilitatea teoretica a intervalului i, ( a evenimentului considerat); - n- volumul esantionului; Observatie: testul de concordanta 2 se aplica atunci cand volumul esantionului este, n>100. Pragul de semnificatie 2c se stabilete pentru un risc acceptat i =n-1 grade de libertate, iar daca: (5.14) 2 > 2;
c

repartitia observata nu este de acelasi tip cu repartitia teoretica considerata Astfel, in cazul practic de verificare a aplicabilitatii distributiei teoretice, se parcurg urmatori pasii: 1- datele observate se grupeaza in intervale, (determinandu-se numarul m de clase), calculandu-se in continuare frecventa corespunzatoare repartitiei teoretice, ai, respectiv fi; 2- se calculeaza valoarea mediei aritmetice x , (5.5), respectiv abaterea medie ptratic:
x x i i =1 n 1 n 2

(5.15)

s=

3- se aplica transformarea de variabila:

xx z= s

(5.16)

prin folosirea acestei transformri pentru repartitia teoretica normala, putandu-se determina probabilitatea pi corespunzatoare intervalului xi-1, xi, cu ajutorul functiei Laplace:

1 x z F ( x ) = f ( x )dx = e 2 dx 2
2

(5.17)

valorile funciilor densitate de probabilitate f(z) i ale funciei de repartiie F(z) fiind date tabelar, (Anexa A):
xi x xi 1 x ( ) ( ) ; = = pi F z i F z i 1 F F s s

(5.18)

Astfel ca, pentru primul interval:

102
x1 x ; p1 = F ( z1 ) F ( ) = F ( z 1 ) = F s

Lucrarea 5

(5.19)

iar pentru ultimul interval:


x x ; p m = F (+ ) F ( z m ) = 1 F m s

(5.20)

Deoarece, (vezi (5.17)):

f (+ ) = 1;
2

f ( t ) = 1 f (t );

f ( ) = 0

(5.21)

4- se calculeaza valoarea lui , utilizand relatia (5.13), (dupa ce au fost calculate/ sau determinate din tabelele de specialitate, (Anexa A), pentru fiecare valoare a lui zi, valorile functiilor de repartitie, respectiv au fost calculate probabilitatile pi); 5- se determina valoarea 2c, utilizand valorile tabelare ale functiei 2, (Anexa B), pentru nivelul de incredere, 1- / riscul impus, i un numar de grade de libertate, decizia luandu-se in concordanta cu relatia:

n (ai npi )2 2, P = 1 npi i =1

sau

P c2 2, = 1

(5.22)

Observatie: numarul de grade de libertate reprezinta numarul de categorii (intervale) al caror continut se poate specifica in mod independent. In cazul repartitiei normale, daca parametrii i se apreciaza pe baza sondajului ( x Cu conditia suplimentar impusa:
m

si s ), se reduc doua grade de libertate.


(5.23)

ai = n => = m 3
i =1

grade de libertate (unde, m este numarul de intervale). 6- daca:

c2 2,

(5.24)

se accepta repartitia teoretica studiata ca fiind o repartitie normala. Observatie: Metoda testului 2poate fi aplicata i pentru rezolvarea unor probleme de comparatie intre doua grupe de rezultate, obtinute cu un element sau factor modificat. Daca se cauta sa se confirme ipoteza ca diferenta (defectiunilor) intre cele doua categorii nu este semnificativa, aceasta revine ipotezei ca cele doua grupe apartin unei distributii normale. 1.3. Testul Kolmogorov-Smirnov (K) Cele mai multe verificari a aplicabilitatii repartitiilor teoretice necesita cunoasterea in prealabil a legii de repartitie, dar, in cazurile in care aceasta este necunoscuta, se impun o categorie de teste valabile pentru "orice" repartitie. In general aceste metode sunt mai puin precise dect metodele de verificare clasice (la care se cunosc legile de repartitie teoretica), din acest motiv, acestea din urma se aplica ori de cate ori este posibil. Aceste metode, datorita posibilitatii aplicabilitatii pentru orice functie de repartitie (deci pentru orice parametrii) se numesc "neparametrice", ele fiind mai eficiente atunci cand se testeaza mediile i nu dispersiile. Metoda de verificare Kolmogorov-Smirnov, K, verifica concordanta dintre o repartitie teoretica F(x) (normala, binomiala, Poisson) i una experimentala Fe(x), pasii parcursi fiind:

Verificarea normalitatii repartitiei datelor

103

1- datele observate se grupeaza in intervale, (determinandu-se numarul m de clase), calculandu-se in continuare valorile frecventelor absolute ai, respectiv valorile frecventelor relative fi, corespunzatoare; 2- se calculeaza valoarea mediei aritmetice x , utilizand relatia (5.5), respectiv abaterea medie ptratic s, utilizand relatia (5.15); 3- se calculeaza valorile functiei de repartitie experimentale, utilizand relatia: (5.25) F (x ) = f
e i

4- se aplica transformarea de variabila, aplicand relatia (5.16), pentru repartitia teoretica, valorile funciilor densitate de probabilitate f(z) i ale funciei de repartiie F(z) fiind date tabelar, (Anexa A), aceasta in cazul verificarii normalitatii. Observatie: in cazul verificarii altor repartitii teoretice se vor aplica transformrile specifice acestora. Astfel ca, valorile functiei de repartitie teoretice vor fi date de relatia: (5.26) F ( z i ) = F ( xi ) 5- cu valorile grupate pe intervale se calculeaza diferenta:

Fe ( xi ) F ( xi )

(5.27) (5.28) (5.29)

6- se determina valoarea maxima a diferentei:

d e = max Fe ( xi ) F ( xi )

7- pentru un nivel semnificativ 1-, (sau risc )adoptat , se scrie relatia:

P de = 1 = K ( ) n
continuare valoarea raportului 8- daca:

Valoarea lui obtinandu-se din tabelele functiei calculate K, (Anexa E), calculandu-se in

de <

(5.30)

se accepta ipoteza concordantei dintre repartitia teoretica i cea observata. In caz contrar ipoteza se respinge. Observatie: Metoda de verificare K, este o metoda greoaie necesitand un esantion de volum foarte mare, respectiv un volum mare de calcul. 1.4. Testul Massey Acest test se aplica in scopul verificarii normalitatii, si se prezint ca o modificare a testului K el fiind adaptat pentru selectii/ esantioane de volum n redus, (un volum intre 8 si 32 unitati statistice). Aplicarea acestei metode presupune parcurgerea urmatoarelor etape: 1- ordonarea valorilor experimentale xi in ordinea crescatoare; 2- se calculeaza valoarea mediei aritmetice x , utilizand relatia (5.5), respectiv abaterea medie ptratic s, utilizand relatia (5.15); 3- se normeaza valorile variabilei:

x x yi = i s
4- se determina frecventa cumulata Fc corespunzatoare fiecarei valori yi:

(5.31)

104

Lucrarea 5

Fe ( y i ) = f i
1

(5.32)

Unde: fI este frecventa relativa a valorii yI; 5- cu ajutorul tabelelor Laplace, (Anexa A) se calculeaza functia teoretica de repartitie F(yi) 9- se determina diferenta: (5.33) d = F (y ) F (y )
e i i

si se alege valoarea superioara: ds=sup d ; 10- din tabelul functiei calculate, Massey, se alege valoarea statistica dg, corespunzator nivelului de semnificatie , adoptat; 11- daca: (5.34) ds dg se acepta ipoteza ca repartitia experimentala corespunde unei repartitii normale. In caz contrar se respinge aceasta ipoteza.

C. Desfasurarea lucrarii:
1. Tema: Pe un esantion de volum n=108, se masoara rezistenta la rupere i se obtin valorile (in daN): 158.000 170.000 174.000 175.000 176.000 180.000 176.000 181.000 183.000 165.000 185.000 178.000 184.000 194.000 180.000 180.000 173.000 175.000 172.000 189.000 181.000 180.000 170.000 163.000 182.000 188.000 178.000 160.000 170.000 190.000 175.000 198.000 178.000 183.000 195.000 180.000 162.000 175.000 184.000 183.000 192.000 186.000 199.000 165.000 188.000 196.000 184.000 179.000 183.000 182.000 167.000 164.000 177.000 190.000 174.000 174.000 166.000 169.000 167.000 177.000 185.000 190.000 194.000 177.000 185.000 190.000 191.000 199.000 178.000 171.000 172.000 172.000 185.000 201.000 187.000 194.000 187.000 179.000 185.000 181.000 185.000 200.000 182.000 180.000 183.000 180.000 181.000 182.000 175.000 183.000 190.000 184.000 179.000 188.000 179.000 159.000 183.000 186.000 174.000 181.000 187.000 171.000 173.000 167.000 171.000 173.000 171.000 172.000 - sa se verifice ipoteza conform careia datele statistice sunt variabile aleatoare repartizate normal, pentru un nivel de incredere de 0.950, (1-=95%). 2. Prelucrarea rezultatelor: In vederea verificarii normalitati datelor, tinandu-se seama de volumul esantionului, n=108, se pot aplica testele: - testul 2 pentru verificarea normalitatii; - testul Kolmogorov-Smirnov, K. 1. Testul 2 pentru verificarea normalitatii Utilizand functiile oferite de software-ul Excel, verificarea normalitatii functiei de repartitie aplicand testul 2, presupune parcurgerea urmatorilor pasi: 1.1- se determina valorile de minim, xmin i a celor de maxim, xmax, utilizand optiunile oferite de Excel, parcurgand pasii: 1- selectati optiunea Insert, Function... (Introducere, Functii); 2- selectati din casuta de dialog care se deschide categoria Statistical (Statistic); 3- selectati optiunea MIN; astfel pentru sirul de date selectat se va obtine valoarea de minim, xmin=158, 4- selectati optiunea MAX;

Verificarea normalitatii repartitiei datelor

105

obtinand in acest caz valoarea de maxim, xmax , a sirului, in cazul nostru: xmax = 201; 1.2- se calculeaza numrul de clase m, utilizand formula (2.5):

m = 1 + 3,322 lgn
Utilizand functiile Excel, aceasta formula va fi scrisa in celula selectata sub forma: =1+3.322*LOG10(108) Obtinand valoarea: m=7.755; Fiind necesar un numar intreg de clase, se adopta un numar de 8 clase, astfel ca: m=8 este valoarea numrului de clase aproximat, Valoare ce va ocupa adresa B31 in cadrul raportului Excel. 1.3- se calculeaza amplitudinea W, utilizand formula (2.26):

W = x max x min
Utilizand functiile Excel, avand adresele pentru valoarea lui xmin in cadrul raportului Excel, B28, iar pentru xmax, B29), este: =(B16-B15) rezultand: W=43.000; 1.4- se determina mrimea unui sub-interval, utilizand formula (2.53):

d=

W x max x min = m m

Utilizand Excel, valoarea obtinuta este: =B32/B31, rezultand: d=5.375 Unde, adresa B32 corespunde valorii amplitudinii, iar B31 valorii numrului de clase aproximat; valoarea sub-intervalului obtinut va corespunde in continuare adresei B33. 1.5- se realizeaza tabelul datelor grupate, reprezentnd valorile intervalelor, astfel: [xmin: Xmin+d); [xmin+d: xmin+2d); (xmax]; Utilizand Excel, introducerea acestor valori poate fi realizata utilizand: [=$B$15 si =$B$15+$B$20); [=$B$15+$B$20 si =$B$15+2*$B$20) s.a.m.d. obtinand tabelul: Valoarea limitelor claselor 158.000 163.375 163.375 168.750 168.750 174.125 174.125 179.500 179.500 184.875 184.875 190.250 190.250 195.625 195.625 201.000 Valori care vor ocupa adresele A16-B23 in cadrul raportului Excel. 1.6- se calculeaza frecventele absolute, ai, utilizandu-se facilitatile software-ul Excel, si anume: 5- selectati optiunea Insert, Function... (Introducere, Functii); 6- selectati din casuta de dialog care se deschide categoria Statistical (Statistic); 7- selectati optiunea COUNTIF (Contabilizare conditionata); urmand a introduce datele: =COUNTIF($A$2:$I$13,"<163.375"), pentru primul interval, [x min+d); =COUNTIF($A$2:$I$13,"<168.750")-C16, pentru intervalul, [x min+d, x min+2d); =COUNTIF($A$2:$I$13,"<174.125")-SUM(C16:C17), pentru intervalul, [x min+2d, x min+3d), avand: =COUNTIF($A$2:$I$13,"<201.0")+1-SUM(C16:C22), pentru ultimul interval, [x min+6d,xmax]

106

Lucrarea 5

Astfel vom obtine valorile: a1=5; a2=7; a3=19; a4=18; a5=27; a6=20; a7=6; a8=6 (valori care vor corespunde in continuare adreselor de la C16 la C23) 1.7- verificarea rezultatelor, se poate realiza avand formula (2.2):

a
i =1

=n

Utilizand Excel, aceasta va fii scrisa sub forma: =SUM(C16:C23) sau =SUM(a1,a2, a3,a4,a5, a6, a7, a8); Astfel, observam ca rezultatele obtinute sunt corecte, deoarece avem: 5+7+19+18+27+20+6+6=108 -adevarat, aceasta valoare corespunzand in continuare adresei C24. 1.8- se calculeaza frecventele relative, fi,utilizand formula (2.3):

fi =

ai ; n

f
i =1

=1

Astfel avem: =C16/$C$24; =C17/$C$24; s.a..m.d pentru fiecare valoare f1, f2, ...f7; Valorile obtinute, reprezentate tabelar, i care vor ocupa in continuare adresele D16-D23 in cadrul protocolului Excel, sunt: f1=0.046; f2=0.065; f3=0.176; f4=0.167; f5=0.250; f6=0.185; f7=0.056; f8=0.056 Verificarea rezultatelor presupune insumarea valorilor frecventelor relative, i anume: =SUM(G16:G23); valoarea obtinuta fiind 1.00 (ceea ce este conform formulei, valoarea obtinuta corespunzand in continuare adresei D24). 1.9- se traseaza histograma valorilor calculate, avand pe abscisa valorile clasei iar pe ordonata valorile frecventelor, urmand pasii: 1- selectati datele pe care doriti sa le reprezentati grafic: adresele ce reprezinta valorile frecventelor relative fi; 2- executati clic asupra butonului ChartWizard (Asistent pentru grafice); 3- selectati tipul de grafic dorit: cazul reprezentarii unei Histograme; 1- selectati formatul graficului; 2- executati clic asupra butonului Next (Mai departe); 3- definirea datelor pe care doriti sa le reprezentati grafic; 4- model de grafic; 5- executati clic asupra butonului Next (Mai departe); 6- efectuati modificrile pe care le considerati necesare (titlul graficului, eticheta axei x, eticheta axei y, eticheta legendei, etc); 7- executati clic asupra butonului Next (Mai departe); 8- determinati locatia reprezentarii grafice; 9- executati clic asupra butonului Finish (Terminare). 1.10- pentru determinarea mediei aritmetice, avand formulele (2.9), (2.10):

M [ x] =

x
i =1

sau M [ x ] = i = 1

ai xi n

utilizand optiunile oferite de software-ul Excel: Insert, Function(Introducere, Functii), selectand din caseta de dialog care se deschide, categoria: Statistical (Statistica), vom avea: =AVERAGE($A$2:$I$13) Valoarea obtinuta fiind: M[x]=179.852 (i ea va corespunde in continuare adresei B34);

Verificarea normalitatii repartitiei datelor

107

(sau pentru calcularea aceleiasi expresii mai puteam scrie: =SUM(A2:I13)/108 ); 1.11- pentru determinarea dispersiei, avem formula (2.21):

D[x ] = i = 1

(x i M [ x ] ) n

; sau : D[x ] = i = 1

2 ( x i M [ x ]) a i

= ( x i M [ x ]) 2 f i
i =1

Utilizand Excel, se va aplica functia: =AVEDEV($A$2:$I$13)) obtinand valoarea D[x]= s2=7.366, valoare ce va ocupa in continuare adresa B35. Aceeasi expresie o mai putem calcula utilizand functiile: =(SUM(POWER(($A$2:$I$13-$B$34),2)))/108; 1.12- se calculeaza abaterea standard (abaterea medie patratica) (2.24):

D[x ] =

i =1

( x i M [ x ]) n

1 n 2 xi M [ x ] 2 n i =1

=POWER(SUM(POWER(($A$2:$I$13-$B$34),2),108), 1/2) sau =SQRT(B35) obtinand valoarea

D[x ] = s=2.714, (valoare ce va ocupa adresa B36).

1.13- se face schimbarea de variabila, utilizand formula (4.26):

z=
Unde valorile mediei, M[x] i a abaterii,

D[x ] sunt valorile calculate anterior i care se

gasesc la adresa B21, respectiv B23, in cadrul raportului Excel. Astfel vom avea: =(E16-$B$34)/$B$36; =(E17-$B$34)/$B$36; =(E23-$B$34)/$B$36, Obtinand valorile: z1=-6.071; z2=-4.091; z3=-2.110; z4=-0.130; z5=1.851; z6=3.831; z7=5.812; z8=7.792 (+) valori ce vor ocupa in continuare adresele F16-F23 in cadrul raportului Excel. 1.14- prin folosirea acestei transformri pentru repartitia teoretica normala, se poate determina probabilitatea pi corespunzatoare intervalului xi-1, xi, cu ajutorul functiei Laplace (4.28)

F ( x ) = f ( x )dx =

1 x z e 2 dx 2
2

Astfel in primul rand se vor determina valorile funciei de repartiie F(z), acestea fiind date tabelar, (Anexa A).Valorile gasite sunt: F(z1)=0.001; F(z2)=0.001; F(z3)=0.017; F(z4)=0.448; F(z5)=0.968; F(z6)=0.999; F(z7)=0.999; F(z8)=0.009. Valori care vor ocupa in cadrul raportului Excel, adresele G16-G23. 1.15- se calculeaza probabilitatea pi corespunzatoare intervalului xi-1, xi,utilizand formula (5.18)
xi 1 x xi x pi = F ( z i ) F ( z i 1 ) = F ; F s s

si tinand cont de relatiile (5.21)

f (+ ) = 1;

f ( t ) = 1 f (t );

f ( ) = 0

Pentru primul interval, valoarea p1, va fii (5.19):

108
x1 x p1 = F ( z1 ) F ( ) = F ( z 1 ) = F ; s

Lucrarea 5

iar pentru ultimul interval (5.20):


x x p m = F (+ ) F ( z m ) = 1 F m ; s

Astfel, utilizand Excel, vom avea relatiile =G16; =G17-G16; =G18-G17; ; =G23-G22 valorile obtinute fiind: p1=0.001; p2=0.000; p3=0.016; p4=0.431; p5=0.520; p6=0.031; p7=0.000; p8=0.000 valori ce vor ocupa in continuare adresele H16-H23 in cadrul raportului Excel. 1.16- avand valorile pi, se pot calcula in continuare valorile produsul n*pi, produs care intra in formula de calculul valorii 2.Utilizand Excel vom avea: =$C$24*H16; =$C$24*H17; =$C$24*H23; Unde pe adresa C24 se gaseste valoarea ce defineste volumul esantionului, numarul de valori n. Valorile obtinute in urma calculelor vor ocupa adresele I16-I23, din cadrul raportului Excel, acestea fiind: np1=0.108; np2=0.000; np3=1.771; np4=46.537; np5=56.106; np6=3.370; np7=0.000; np8=0.000 2 1.17- se calculeaza valoarea lui , (dupa ce au fost determinate din tabelele de specialitate, (Anexa A), pentru fiecare valoare a lui zi, valorile functiilor de repartitie, respectiv au fost calculate probabilitatile pi), utilizand formula (5.13)

2 calculat

= =
2 i =1

(ai npi )2
npi

Astfel, vom avea: =POWER((C16-I16),2)/I16; =POWER((C17-I17),2)/I17; =POWER((C23-I23),2)/I23; Valorile obtinute, valori ce vor ocupa in continuare adresele J16-J23 in cadrul raportului, fiind: h1=221.589; h2=439.812; h3=180.715; h4=17.499; h5=15.099; h6=85.901; h7=321.441; h8=324.807 2 Astfel , va avea valoarea:
2 calculat = 2 = 1606.864

pentru calcularea cestuia, utilizand Excel, avand formula: =SUM(J16:J23). 1.18- se determina valoarea 2c, utilizand valorile tabelare ale functiei 2, (Anexa B), pentru nivelul de incredere, 1- / riscul impus (1- =0.950=95%), i un numar de grade de libertate, decizia luandu-se in concordanta cu relatia (5.22):

n (ai npi )2 2 = 1 P , i =1 np i

sau

P c2 2, = 1

Observatie: numarul de grade de libertate reprezinta numarul de categorii (intervale), al caror continut se poate specifica in mod independent. Deci valoarea atribuita pentu numarul gradelor de libertate este: = m 1 ; rezultand astfel: = 8 1 = 7 - grade de libertate unde, m este numarul de intervale.

Verificarea normalitatii repartitiei datelor

109

Astfel, valoarea gasita pentru 2c, este:

2c = 2.167
1.19- comparand valoarea calculata cu valoarea critica (5.24)

c2 2,
observam ca: 1606.864 > 2.167 Concluzia pe care o putem trage in acest moment este doar aceea ca datele studiate nu respecta legea normala de repartitie, astfel ca decizia este: "repartitia teoretica studiata nu se accepta ca fiind o repartitie normala". 2. Testul Kolmogorov-Smirnov, K, pentru verificarea normalitatii Utilizand functiile oferite de software-ul Excel, verificarea normalitatii functiei de repartitie aplicand de aceasta data testul Kolmogorov-Smirnov, K, presupune parcurgerea urmatorilor pasi: 1.1se determina valorile de minim, xmin i a celor de maxim, xmax; 1.2se calculeaza numrul de clase m; 1.3se calculeaza amplitudinea W; 1.4se determina mrimea unui sub-interval; 1.5se realizeaza tabelul datelor grupate, reprezentnd valorile intervalelor: [xmin: Xmin+d); [xmin+d: xmin+2d); (xmax]; 1.6se calculeaza frecventele absolute, ai,, verificandu-se rezultatele obtinute; 1.7se calculeaza frecventele relative, fI, verificandu-se de asemenea rezultatele obtinute; 1.8se traseaza histograma valorilor calculate, avand pe abscisa valorile clasei iar pe ordonata valorile frecventelor; 1.9se determina valoarea mediei aritmetice M[x] i valoarea dispersiei D[x]; 1.10- se calculeaza abaterea standard (abaterea medie patratica),

D[x ] ;

1.11- se face schimbarea de variabila, aplicand relatia necesara verificarii normalitatii, valorile funciilor densitate de probabilitate f(z) i ale funciei de repartiie F(z) fiind date tabelar, (Anexa A); Pana aici, toti acesti pasi se recunosc ca fiind aceeasi cu cei de la aplicatia anterioara, deoarece este vorba despre acelasi sir de valori, pasii ce urmeaz insa pentru solutionarea temei propuse, sunt pasii ce diferentiaza cele doua metode de verificare, i anume: 1.12- se calculeaza valorile functiei de repartitie experimentale, utilizand relatia (5.25):

Fe ( xi ) = f i

Utilizand Excel, vom avea: =SUM(D16); =SUM(D16:D17); =SUM(D16:D23); Valorile obtinute, valori ce vor ocupa in continuare adresele H'16-H'23 in cadrul raportului, fiind: Fe1=0.046; Fe2=0.111; Fe3=0.287; Fe4=0.454; Fe5=0.704; Fe6=0.889; Fe7=0.994; Fe8=1.000 1.13- cu valorile grupate pe intervale se calculeaza diferenta (5.27)

Fe ( xi ) F ( xi )

Astfel, vom avea: =H16-G16; =H17-G17; =H23-G23; Valorile obtinute, fiind: Dif1=0.045; Dif2=0.109; Dif3=0.270; Dif4=0.005;

110

Lucrarea 5

Dif5=-2.264; Dif6=-0.109; Dif7=-0.055; Fe8=0.00001 valori ce vor ocupa in continuare adresele I'16-I'23 in cadrul raportului Excel. 1.14- se determina valoarea maxima a diferentei (5.28):

d e = max Fe ( xi ) F ( xi )

Utilizand relatia: =MAX(J16:J23) obtinand valoarea: de=0.270; Valoare ce va ocupa adresa J'24, in cadrul raportului Excel (unde adresele J16-J23 sunt ocupate de valorile absolute ale diferentei: Fe ( xi ) F ( xi ) ). 1.15- pentru nivelul semnificativ 1-, (sau risc ) adoptat, (1-=0.950=95%), se scrie relatia (5.29)

P de = 1 = K ( ) n
Valoarea lui obtinandu-se din tabelele functiei calculate K, (Anexa E). Deoarece 95% se apropie mai mult de valoarea din stanga a intervalului [0.9477- 0.9505], vom gasi valoarea : 1=1.720 1.16- se calculeaza in continuare valoarea raportului relatia (5.30) =1.72/(POWER(108,1/2)), obtinand valoarea: 0.1655 1.17- se va face verificarea:

, care utilizand Excel va fii dat de

de <

Astfel incat, daca relatia se verifica, se accepta ipoteza concordantei dintre repartitia teoretica i cea observata. In caz contrar ipoteza se respinge. In cazul nostru avem:

d e = 0.270 >

= 0.1655

Astfel ca, ipoteza cum ca repartitia teoretica a valorilor studiate ar fi o repartitie normala, se respinge, (ipoteza care a fost verificata i in cazul anterior, utilizand metoda de verificare 2), decizia finala fiind: "repartitia experimentala nu corespunde unei repartitii normale". 2. Tema: Masurand rezistenta electrica la o serie de rezistoare s-au gasit urmtoarele valori (in k): 2.14 1.86 1.97 1.87 2.21 2.00 2.43 1.92 1.72 1.70 - sa se verifice ipoteza conform careia datele statistice sunt variabile aleatoare repartizate normal, pentru un nivel de incredere de 0.950, (1-=95%). 3. Prelucrarea rezultatelor: In acest caz, tinandu-se seama de volumul esantionului, n=10, (singura cunoscuta, i care poate influenta decizia asupra metodei de verificare adoptata), se va plica ca test de verificare a ipotezei propuse, testul Massey, M. Acest test se aplica in scopul verificarii normalitatii, si se prezint ca o modificare a testului K el fiind adaptat pentru selectii/ esantioane de volum n redus, (un volum intre 8 si 32 unitati statistice). Aplicarea acestei metode de verificare a normalitatii, presupune parcurgerea urmatoarelor etape:

Verificarea normalitatii repartitiei datelor

111

1.1- ordonarea valorilor experimentale xi in ordinea crescatoare, ceea ce, utilizand optiunile de sortare oferite de Excel, presupune parcurgerea urmatorilor pasi: 1- selectati optiunea Data, Sort (Date, Sortare..): 2- selectati din casuta de dialog care se deschide optiunea de sortare Ascending (Crescator); astfel sirul de valori se va ordona in ordine crescatoare ocupand adresele B4-B13 din cadrul raportului Excel, vizualizandu-se valorile xmin i xmax, din volumul de valori. 1.2- se calculeaza valoarea mediei aritmetice x , respectiv abaterea medie ptratic s, parcurgand pasii: 1- pentru determinarea mediei aritmetice, avand formulele (2.9), (2.10):

M [ x] =

x
i =1

sau M [ x ] = i = 1

ai xi n

utilizand optiunile oferite de software-ul Excel: Insert, Function(Introducere, Functii), selectand din caseta de dialog care se deschide, categoria: Statistical (Statistica), vom avea: =AVERAGE($B$4:$B$13) Valoarea obtinuta fiind: M[x]=1.982 (i ea va corespunde in continuare adresei B16); (sau pentru calcularea aceleiasi expresii mai puteam scrie: =SUM(B4:B13)/10 ); 2- pentru determinarea dispersiei, avem formula (2.21):

D[x ] = i = 1

(x i M [ x ] ) n

; sau : D[x ] = i = 1

2 ( x i M [ x ]) a i

= ( x i M [ x ]) 2 f i
i =1

Utilizand Excel, se va aplica functia: =AVEDEV($B$4:$B$13)) obtinand valoarea D[x]= s2=0.170, valoare ce va ocupa in continuare adresa B17. Aceeasi expresie o mai putem calcula utilizand functiile: =(SUM(POWER(($B$4:$B$13-$B$16),2)))/10; 3- se calculeaza abaterea standard (abaterea medie patratica) (2.24):

D[x ] =

i =1

( x i M [ x ]) n

1 n 2 xi M [ x ] 2 n i =1

=POWER(SUM(POWER(($B$4:$B$13-$B$16),2),10), 1/2) sau =SQRT(B17) obtinand valoarea

D[x ] = s=0.413, (valoare ce va ocupa adresa B18).

1.3- se normeaza valorile variabilei (5.31):

x x yi = i s
Unde valorile mediei, M[x] i a abaterii,

D[x ] sunt valorile calculate anterior i care se

gasesc la adresa B16, respectiv B18, in cadrul raportului Excel. Astfel vom avea: =(B4-$B$16)/$B$18; =(B5-$B$16)/$B$18; =(B13-$B$16)/$B$18, Obtinand valorile: y1=-0.683; y2=-0.653; y3=0.296; y4=-0.271; y5=-0.150; y6=-0.029; z7=0.044; z8=0.383; y9=0.552; y10=1.085 valori ce vor ocupa in continuare adresele C4-C13 in cadrul raportului Excel.

112

Lucrarea 5

1.4- se determina valoarea frecventelor absolute, aI, pentru care utilizand optiunile oferite de Excel, vom parcurge pasii: 1- selectati optiunea Insert, Function... (Introducere, Functii); 2- selectati din casuta de dialog care se deschide categoria Statistical (Statistic); 3- selectati optiunea COUNTIF (Contabilizare conditionata); urmand a introduce datele: =COUNTIF($C$4:$C$13,(B4-$B$16)/$B$18)), pentru prima valoare y1; =COUNTIF($C$4:$C$13,(B5-$B$16)/$B$18), pentru valoarea y2;. avand: =COUNTIF($C$4:$C$13,(B13-$B$16)/$B$18), pentru ultima valoare, y10. Astfel vom obtine valorile: a1=1; a2=1; a3=1; a4=1; a5=1; a6=1; a7=1; a8=1; a9=1; a10=1 (valori care vor corespunde in continuare adreselor de la D4 la D13); 1.5- verificarea rezultatelor, se poate realiza avand formula (2.2):

a
i =1

=n

Utilizand Excel, aceasta va fii scrisa sub forma: =SUM(D4:D13), obtinand valoarea 10, -adevarat; aceasta valoare corespunzand in continuare adresei D14. 1.6- se calculeaza frecventele relative, fi, a fiecarei valori yi, utilizand formula (2.3):

fi =

ai ; n

f
i =1

=1

Astfel avem: =D4/$D$14; =D5/$D$14; s.a..m.d pentru fiecare valoare f1, f2, ...f10; Valorile obtinute, reprezentate tabelar, i care vor ocupa in continuare adresele E4-E13 in cadrul protocolului Excel, sunt: f1-f10=0.100 Verificarea rezultatelor presupune insumarea valorilor frecventelor relative, i anume: =SUM(E4:E13); valoarea obtinuta fiind 1.00 (ceea ce este conform formulei, valoarea obtinuta corespunzand in continuare adresei E14). 1.7- se determina frecventa cumulata Fc corespunzatoare fiecarei valori yi, Fc(yi) (5.32):

Fe ( y i ) = f i
1

Calcularea frecventelor cumulate Fi i prezentarea lor tabelara se va realiza utilizand rezultatele anterior obtinute, i anume valorile ai i fi, i au la baza relatiile (2.4):

Ac = a i ;
i =1

Fc =

Ac ; n

Ad = ai ;
i =n

Fd =

Ad ; n

Astfel, utilizand functiile Excel, vom avea: =SUM($D$4); =SUM($D$4:D5); =SUM($D$4:D13) pentru Ac; =SUM($D$4)/$D$14; =SUM($D$4:D5)/ $D$14; =SUM($D$4:D13)/ $D$14 pentru Fc; Valorile obtinute vor corespunde adreselor: de la F4 la F13 pentru Ac, i de la G4 la G13 pentru Fc, acestea fiind: A1=1; A2=2; A3=3; A4=4; A5=5; A6=6; A7=7; A8=8; A9=9; A10=10, pentru Ac(yi) si Fc1=0.1; Fc2=0.2; Fc3=0.3; Fc4=0.4; Fc5=0.5; Fc6=0.6; Fc7=0.7; Fc8=0.8; Fc9=0.9; Fc10=1.00, pentru Fc(yi);

Verificarea normalitatii repartitiei datelor

113

1.8- se determina functia teoretica de repartitie F(yi), cu ajutorul tabelelor Laplace, (Anexa A), acestea fiind: Fy1=0.2483; Fy2=0.2643; Fy3=0.3821; Fy4=0.3936; Fy5=0.4404; Fy6=0.4880; Fy7=0.5160; Fy8=0.6480; Fy9=0.7080; Fy10=0.8621; Valori care in cadrul raportului Excel vor corespunde adreselor H4-H13. 1.9- se determina diferenta (5.33):

d = Fe ( y i ) F ( y i )

Utilizand Excel, relatia anterioara devine: =IMABS(G4-H4); =IMABS(G5-H5); .. =IMABS(G13-H13); obtinand valorile: d1=0.1483; d2=0.0643; d3=0.0821; d4=0.0064; d5=0.0596; d6=0.1120; d7=0.1840; d8=0.1520; d9=0.1920; d10=0.1379; Valori care vor ocupa adresele I4-I13 in cadrul raportului Excel. 1.10- se alege valoarea superioara: ds=sup d, relatie care utilizand Excel, este: =MAX(I4: I13) valoarea obtinuta fiind: d max=0.1920 1.11-din tabelul functiei calculate, Massey, se alege valoarea statistica dg, corespunzatoare valorii n i valorii nivelului de semnificatie , adoptat, (1-=95%=0.9500; =0.0500). Valoare gasita este: dg= d10, 0.05 =0.130; 1.12- se verifica ipoteza (5.34):

ds dg
In cazul nostru avand valorile anterioare pentru parametrii studiati, vom obtine: d max=0.1920 > dg= d10, 0.05 =0.130; se acepta ipoteza ca: "repartitia experimentala nu corespunde unei repartitii normale".

D. Prezentarea rezultatelor:
Rezultatele vor fi prezentate sub forma unui raport (vezi Anexa5) ce cuprinde: - reprezentarea datelor primare, sirul de date; - reprezentarea tabelara a datelor grupate i a indicatorilor statistici; - reprezentarea tabelara a valorilor parametrilor functiilor de repartitie; - trasarea histogramelor repartitiei in frecventelor (relative, fi i cumulate Fc); - verificarea ipotezei i prezentarea deciziei;

E. Bibliografie:
[1] [2] [3] [4] [5] [6] Bulgaru, M., Bolboaca, L., Ingineria calitatii.Mangementul calitatii, statistica i control, nasurari in 3D, Alma Mater, Cluj-Napoca 2001, ISBN 973-85153-0-0 Deaconescu, A., Deaconescu, T., Managementul calitatii. Aplicaii, Editura Omnia Uni S.A.S.T., Brasov, 2001, ISBN 973-9478-65-4 Cathy, K., EXCEL pentru Windows tm 95 in 503 imagini, Teora, Bucuresti, 1999, ISBN 973-601-457-6 Faithe, W., Microsoft Office 97 Professional 6in 1, Teora, Bucuresti, 1998, ISBN 973601-907-1 Tanasescu I Controlul statistic al proceselor si produselor, Editura didactica si pedagogica, Bucuresti, 1987. *** Colectie de standarde, Managementul i asigurarea calitatii, Editura tehnica, Bucuresti, 1996

S-ar putea să vă placă și