Sunteți pe pagina 1din 13

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013

TESTUL KOLMOGOROV-SMIRNOV
Rezumat Testul Kolmogorov-Smirnov este utilizat pentru a realiza estimarea normalitii distribuiei acolo unde se poate calcula media i abaterea medie ptratic. Poate fi folosit pentru verificarea ipotezei c un eantion de date urmeaz o anumit lege de distribuie (redat n continuare), precum i pentru compararea legilor de distribuie ale populaiilor din care provin dou eantioane. Este un test recomandat pentru variabile ordinale, cnd ipoteza distribuiei normale nu este plauzibil sau atunci cnd variabilele sunt numerice, dar eantioanele sunt mici i informaiile despre distribuie sunt absente. Se aplic tabelelelor de inciden , adic cu dou linii i n coloane. Testul se bazeaz pe o statistic calculat n mai muli pai, care este comparat cu o statistic teoretic care nu se ia din tabele ci se calculeaz dup formula:

Dt = K

n1 + n2 n1 n2

unde n1 i n2 sunt volumele eantioanelor (totalurile pe cele dou linii ale tabelului) i K este o constant ce depinde de pragul de semnificaie dorit. Valorile lui K sunt date de tabelul urmator: Pragul de semnificaie Semnificaie nalt semnificaie Foarte nalt semnificaie Valoarea prag a lui p 0,95 0,99 0,999 Valoarea lui K 1,36 1,63 1,95

Valorile coeficientului K pentru calculul pragului teoretic al testului Kolmogorov-Smirnov

Se execut urmatorii pasi: Se fixeaz clase ca la realizarea unei histograme, prin mprirea n segmente egale a diferenei dintre valoarea minim i maxim din cele dou serii de date cumulate Se calculeaz frecvenele relative pentru fiecare clas n parte la fiecare din cele dou serii de date Se calculeaz frecvenele relative cumulate pentru ambele serii de date Se calculeaz diferenele ntre frecvenele relative cumulate ale celor dou serii, la fiecare clas n parte Se alege cea mai mare diferen dintre cele calculate la punctul anterior. Aceasta este statistica testului

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013


Se calculeaz statistica teoretic a testului, echivalentul valorii prag care se ia din tabele la celelalte teste. Aceasta statistica este Dt, dat mai sus Daca statistica testului este mai mare dect cea teoretica, diferenta este semnificativa, altfel este nesemnificativa. Cuvinte cheie -repartiie teoretic F(x) (normal, binomial, Poisson); -repartiie experimental Fe(x) Introducere ntr-un experiment tipic, datele recoltate ntr-o anumit situaie(am putea numi acest moment GRUPUL DE CONTROL) sunt comparate cu datele obinute n cadrul unei alte situaii(situaie pe care am putea s o numim GRUPUL DE TRATAMENT). Scopul acestei comparaii este de a vedea dac rezulatetele din prima situaie sunt net diferite de cele din situaia a doua. Astfel, dac rezultatele din grupul de tratament sunt identice cu cele din grupul de control atunci putem trage concluzia c tratamentul administrat nu a avut niciun efect. n foarte puine cazuri se ntmpl ca cele cele dou grupuri s fie identice, aa n mod normal a aprut ntrebarea: Ct de diferite trebuie cele dou grupuri?. Procesul de a atribui valori rezultatelor nu este deloc o sarcin uoar. Nu exist nicio metod sigur care s ne spun dac rezultatele obinute arat eficiena sau ineficiena tratamentului urmrit prin acest experiment. De cele mai multe ori se ntmpl ca el puin o strategie folosit s fie greit. De aceea, fiecare test statistic poate face greseli la un moment dat: - poate spune c tratamentul folosit este unul eficient cnd el n realitate nu este (eroare de tip I) - poate spune c tratamentul n cauz este unul ineficient cnd el de fapt are efecte pozitive (eroare de tip II) Persoanele specializate n statistic ncearc s realizeze statistici n care erorile s fie prezente foarte rar (mai puin de 5% din timp). Au ajuns la concluzia c pentru a evita erorile pe ct posibil este suficient ca aceste teste s fie extraordinar de bune n a detecta diferene in situaii comune. Astfel, aceste metode folosite doar n acele situaii comune sunt cele mai bune teste posibile. Folosite in alte situaii, dect cele iniiale, atunci acetse teste pot da rezulate eronate. De exemplu, testul T presupune c situaiile produc date normale care difer numai n msura n care media obinut dintr-o determinare este diferit de media obinut ntr-o alt determinare. De aceea dac se aplic testul T unor date aparte crete simitor riscul apariiei unor erori. Unul dintre avantajele testului Kolmogorov-Smirnov este acela c prezint datele ntr-o manier grafic, permind astfel utilizatorului s detecteze distribuiile normale.

Prezentare Cele mai multe verificri a aplicabilitii repartiiilor teoretice necesit cunoaterea n prealabil a legii de repartiie, dar, n cazurile n care aceasta este necunoscut, se impun o categorie de teste valabile pentru "orice" repartiie. n general aceste metode sunt mai puin precise dect metodele de verificare clasice (la care se cunosc legile de repartiie teoretica), din acest motiv, acestea din urm se aplic ori de cte ori este posibil. Aceste metode, datorit

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 posibilitii aplicabilitii pentru orice funcie de repartiie (deci pentru orice parametrii) se numesc "neparametrice", ele fiind mai eficiente atunci cnd se testeaz mediile i nu dispersiile. Testul Kolmogorov-Smirnov ncearc s determine dac dou date de baze difer n mod semnificativ. Aceast metod de testare este avantajoas pentru c nu face nici un fel de presupuneri asupra distribuiei datelor, adic este un test nonparametric. Cu toate acestea, exist alte teste care pot fi mult mai sensibile n cazul carecare datele respect cerinele testului respectiv. Metoda de verificare KolmogorovSmirnov, K, verific concordana dintre o repartiie teoretic F(x) (normala, binomiala, Poisson) i una experimental Fe(x), paii parcuri fiind: 1- datele observate se grupeaz n intervale, (determinndu-se numrul m de clase), calculndu-se n continuare valorile frecvenelor absolute ai, respectiv valorile frecvenelor relative fi, corespunztoare; 2- se calculeaz valoarea mediei aritmetice X , utiliznd relaia:

s=

( x
n i =1

n 1

3- se calculeaza valorile funciei de repartiie experimentale, utiliznd relaia: Fe(xi)=fi 4- se aplica transformarea variabila, aplicand relatia z= xx s de

pentru repartitia teoretica, valorile funciilor densitate de probabilitate f(z) i ale funciei de repartiie F(z) fiind date tabelare, aceasta in cazul verificarii normalitatii. Observaie: n cazul verificrii altor repartiii teoretice se vor aplica transformrile specifice acestora. Astfel c, valorile funciei de repartiie teoretice vor fi date de relaia: F ( zi ) = F ( xi ) 5- cu valorile grupate pe intervale se calculeaz diferena: Fe ( xi ) F ( xi ) 6- se determin valoarea maxim a diferenei: d e = max | Fe ( xi ) F ( xi ) | 7- pentru un nivel semnificativ 1-, (sau risc ) adoptat , se scrie relaia:

M[ x] =

xi
i =1

respectiv abaterea medie ptratic s, utiliznd relaia

P de = 1 = K ( ) n

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 Valoarea lui obinndu-se din tabelele funciei calculate K, calculndu-se n continuare valoarea raportului ; n 8- dac: de < 178.000 171.000 172.000 172.000 185.000 201.000 187.000 194.000 187.000 179.000 185.000 181.000 185.000 200.000 182.000 180.000 183.000 180.000 181.000 182.000 175.000 183.000 190.000 184.000 179.000 188.000 159.000 183.000 186.000 181.000 187.000 171.000 167.000 171.000 173.000 172.000 179.000 174.000 173.000 171.000

Se accept ipoteza concordanei dintre repartiia teoretic i cea observat. n caz contrar ipoteza se respinge. Observatie: Metoda de verificare Kolmogorov-Smirnov, este o metoda greoaie necesitand un esantion de volum foarte mare, respectiv un volum mare de calcul. Exemplu de studiu i utilizare a metodei: 1. Tema Pe un eantion de volum n=108, se msoar rezistena la rupere i se obin valorile (n daN): 158.000 176.000 183.000 184.000 173.000 181.000 182.000 170.000 178.000 162.000 192.000 188.000 183.000 177.000 166.000 185.000 185.000 170.000 180.000 165.000 194.000 175.000 180.000 188.000 190.000 183.000 175.000 186.000 196.000 182.000 190.000 169.000 190.000 190.000 174.000 176.000 185.000 180.000 172.000 170.000 178.000 175.000 195.000 184.000 199.000 184.000 167.000 174.000 167.000 194.000 191.000 175.000 181.000 178.000 180.000 189.000 163.000 160.000 198.000 180.000 183.000 165.000 179.000 164.000 174.000 177.000 177.000 199.000

- s se verifice ipoteza conform creia datele statistice sunt variabile aleatoare repartizate normal, pentru un nivel de incredere de 0.950, (1=95%). 2. Prelucrarea rezultatelor: n vederea verificrii normalitii datelor, inndu-se seama de volumul eantionului, n=108, se pot aplica testele: - testul 2 pentru verificarea normalitatii; - testul Kolmogorov-Smirnov, K. Noi vom utiliza n aceast situaie testul Kolmogorov-Smirnov, K, pentru verificarea normalitii. Utiliznd funciile oferite de software-ul Excel, verificarea normalitii functiei de repartiie aplicnd de aceasta dat testul Kolmogorov-Smirnov, K, presupune parcurgerea urmtorilor pai: 1.1 se determin valorile de minim, xmin i a celor de maxim, xmax; 1- selectai opiunea Insert, Function; 2- selectai din csua de dialog care se deschide categoria Statistical; 3- selectai opiunea MIN;

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 astfel pentru irul de date selectat se va obine valoarea de minim, xmin=158, 4- selectai opiunea MAX; obinnd n acest caz valoarea de maxim, xmax , a irului, n cazul nostru: xmax = 201; Fiind necesar un numr ntreg de clase, se adopt un numr de 8 clase, astfel c: m=8 este valoarea numrului de clase aproximat, Valoarea va ocupa adresa B31 n cadrul raportului Excel.

1.2 se calculeaz numrul de clase m; Se folosete formula m = 1 + 3,322 lg n Utiliznd funciile Excel, aceast formul va fi scris in celula selectat sub forma: =1+3.322*LOG10(108) Se obine n final valoarea: m=7.755;

1.3 se calculeaz amplitudinea W, utiliznd formula: W = xmax xmin Utiliznd funciile formula utilizat este: rezultnd: W=43.000; Excel,

W=(MAX(A1:I12)-MIN(A1:I12))

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 1.5 se realizeaz tabelul datelor grupate, reprezentnd valorile intervalelor: [xmin: Xmin+d); [xmin+d: xmin+2d); (xmax]; Utiliznd Excel, introducerea acestor valori poate fi realizat utiliznd: [=$K$2 si =$B$2+$B$33); [=$K$2+$B$33 si =$K$2+2*$B$33) .a.m.d. 1.4 se determin mrimea unui subinterval cu ajutorul formulei: d= W xmax xmin = m m Excel, valoarea Se obine tabelul urmtor:

Utiliznd obinut este:

=B32/B31, rezultnd: d=5.375 Adresa B32 corespunde valorii amplitudinii, iar B31 valorii numrului de clase aproximat; valoarea sub-intervalului obinut va corespunde n continuare adresei B33.

1.6 se calculeaz frecvenele absolute, ai, verificndu-se rezultatele obinute: 5selectai opiunea Insert, Function...; 6- selectai din csua de dialog care se deschide categoria Statistical; 7- selectai opiunea COUNTIF (Contabilizare conditionata); n final se vor obine valorile: a1=5; a2=7; a3=19; a4=18; a5=27; a6=20; a7=6; a8=6

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 aceast valoare corespunznd C24.

n Excel se introduc formulele urmtoare: =COUNTIF(A1:I12;"<163,375") pentru primul interval, [x min+d); =COUNTIF(A1:I12;"<168.750")C16, pentru intervalul, [x min+d, x min+2d); =COUNTIF(A1:I12;"<174.125")SUM(C16:C17), pentru intervalul, [x min+2d, x min+3d), avnd: =COUNTIF(A1:I12;"<201.0")+1SUM(C16:C22), pentru ultimul interval, [x min+6d,xmax] 1.7 verificarea rezultatelor Acest pas se realizeaz cu ajutorul formulei:

1.8 se calculez frecvenele relative, fi, utiliznd formula: fi = ai n


i

f
i =1

=1

Astfel avem: =C16/$C$24;=C17/$C$24; .a..m.d pentru fiecare valoare f1, f2, ...f7; Valorile obinute, reprezentate tabelar, i care vor ocupa n continuare adresele D16-D23 n cadrul protocolului Excel, sunt: f1=0.046; f2=0.065; f3=0.176; f4=0.167; f5=0.250; f6=0.185; f7=0.056; f8=0.056

a
i =1

=n

Utiliznd Excel, aceasta va fi scris sub forma: =SUM(C16:C23) sau =SUM(a1,a2, a3,a4,a5, a6, a7, a8); Astfel, observm c rezultatele obinute sunt corecte, deoarece avem: 5+7+19+18+27+20+6+6=108 -adevarat,

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 Verificarea rezultatelor presupune nsumarea valorilor frecvenelor relative, i anume: =SUM(G16:G23); valoarea obtinut este 1.00 (ceea ce este conform formulei, valoarea obtinut corespunznd adresei D24). eticheta axei x, eticheta axei y, eticheta legendei, etc); 7- executai clic asupra butonului Next; 8- determinai locaia reprezentrii grafice; 9- executai clic asupra butonului Finish.

1.9 se traseaz histograma valorilor calculate, avnd pe abscisa valorile clasei, iar pe ordonat valorile frecvenelor, urmnd paii: 1- selectai datele pe care dorii s le reprezentai grafic: adresele ce reprezint valorile frecvenelor relative fi; 2- executai clic asupra butonului ChartWizard; 3- selectai tipul de grafic dorit: cazul reprezentrii unei Histograme: 1- selectai formatul graficului; 2- executai clic asupra butonului Next; 3- definirea datelor pe care dorii s le reprezentai grafic; 4- model de grafic; 5- executai clic asupra butonului Next; 6- efectuai modificrile pe care le considerai necesare (titlul graficului,

1.10 se determin valoarea mediei aritmetice M[x] i valoarea dispersiei D[x]; Pentru determinarea mediei aritmetice, avnd formulele:

M [ x] =

x
i =1

sau

M [ x] =

a x
i =1

i i

utiliznd opiunile oferite de software-ul Excel: Insert, Function, selectnd din caseta de

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 dialog care se deschide, categoria: Statistical, vom avea: =AVERAGE($A$2:$I$13) Valoarea obinut fiind: M[x]=179.852 (i ea va corespunde adresei B34); pentru determinarea dispersiei, avem formula:
D [ x] =

D [ x] =

( x M [ x] )
i =1 i

1 n 2 * xi M [ x ] n i =1

POWER(SUM(POWER(($A$2:$I $13-$B$34),2),108),1/2) sau =SQRT(B35) obinnd s=2.714, valoarea D [ x] =

( x M [ x] )
i =1 i

* ai

2 = ( xi M (valoare [ x ] ) * f i ce va ocupa adresa B36). i =1

sau

D [ x] =

( x M [ x] )
i =1 i

Utiliznd Excel, se va aplica funcia: =AVEDEV($A$2:$I$13) obinnd valoarea D[x]= s2=7.366, valoare ce va ocup adresa B35.

1.12 se face schimbarea de variabil conform formulei: z= x

n cadrul programului Excel vom avea: =(B16-$B$34)/$B$36; =(B17$B$34)/$B$36; =(B23-$B$34)/ $B$36

1.11 se calculeaz abaterea standard (abaterea medie ptratic)

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013

Se obin valorile: z1=-6.071; z2=-4.091; z3=-2.110; z4=-0.130; z5=1.851; z6=3.831; z7=5.812; z8=7.792 (+) valori ce vor ocupa n continuare adresele F16-F23 n cadrul raportului Excel. 1.13 se calculeaz valorile funciei de repartiie experimentale, utiliznd relaia: Fe ( xi ) = f i
i =1 n

1.14 cu valorile grupate pe intervale se calculeaz diferena: Fe ( xi ) F ( xi ) Astfel, vom avea: =H16-G16; =H17-G17; =H23G23; unde valorile din adresele G16:G23 sunt valorile funciei de repartiie F(z), sunt date tabelare. Valorile obinute, fiind: Dif1=0.045; Dif2=0.110; Dif3=0.270; Dif4=0.006; Dif5=-2.264;Dif6=-0.110; Dif7=0.055; Fe8=0.991 Aceste valori vor ocupa n continuare adresele I16-I23 n cadrul raportului Excel.

Utiliznd Excel, vom avea: =SUM(D16); =SUM(D16:D17); =SUM(D16:D23); Valorile obinute, valori ce vor ocupa n continuare adresele H16H23 n cadrul raportului, fiind: Fe1=0.046; Fe2=0.111; Fe3=0.287; Fe4=0.454; Fe5=0.704; Fe6=0.889; Fe7=0.994; Fe8=1.000;

10

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 1.16 pentru nivelul semnificativ 1-, (sau risc ) adoptat, (1-= 0.950 = 95%), se scrie relaia:

P de = 1 = K ( ) n
Valoarea lui obinandu-se din tabelele functiei calculate K. Deoarece 95% se apropie mai mult de valoarea din stnga a intervalului [0.9477- 0.9505], vom gsi valoarea : 1=1.720 1.15 se determin valoarea maxim a diferenei: d e = max Fe ( xi ) F ( xi ) Utiliznd relaia: =MAX(I16:I23) obinnd valoarea: de=0.990; Valoarea va ocupa adresa I24, n cadrul raportului Excel. 1.17 se calculeaz n continuare valoarea raportului , care n utiliznd Excel va fi dat de relaia: =1,72(POWER(108,12)) Se obine valoarea 0.1655 1.18 se va face verificarea: de <

Astfel nct, dac relaia se verific, se accept ipoteza concordanei dintre repartia teoretic i cea observat. n caz contrar ipoteza se respinge. n cazul nostru avem: d e = o,991 >

=0,1655 n

11

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 Rezultate Astfel c, ipoteza cum c repartiia teoretic a valorilor studiate ar fi o repartiie normal, se respinge, decizia final fiind: "repartitia experimentala nu corespunde unei repartitii normale".

12

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCURETI 6/11/2013 Bibliografie - http://orzanm.ase.ro/spss/pdf/SPSS_1.pdf - http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test - http://www.scritube.com/stiinta/matematica/TestulKolmogorovSmirnov1412352217.php - http://www.cermi.utcluj.ro/doc/Lucr_05.pdf - http://www.scribd.com/doc/56794524/86/Testul-KOLMOGOROVSMIRNOV - http://l.academicdirect.org/Horticulture/GAs/Refs/Jantschi&Sestras_2010_ Annex_3.pdf - http://www.physics.csbsju.edu/stats/KS-test.html

13