P. 1
TESTUL KOLMOGOROV-SMIRNOV.doc

TESTUL KOLMOGOROV-SMIRNOV.doc

|Views: 293|Likes:
Published by Pepa Daiana
testul Kolmogorov-Smirnov
testul Kolmogorov-Smirnov

More info:

Categories:Types, School Work
Published by: Pepa Daiana on Jun 11, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

10/23/2013

pdf

text

original

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013

TESTUL KOLMOGOROV-SMIRNOV
Rezumat Testul Kolmogorov-Smirnov este utilizat pentru a realiza estimarea normalităţii distribuţiei acolo unde se poate calcula media şi abaterea medie pătratică. Poate fi folosit pentru verificarea ipotezei că un eşantion de date urmează o anumită lege de distribuţie (redat în continuare), precum şi pentru compararea legilor de distribuţie ale populaţiilor din care provin două eşantioane. Este un test recomandat pentru variabile ordinale, când ipoteza distribuţiei normale nu este plauzibilă sau atunci când variabilele sunt numerice, dar eşantioanele sunt mici şi informaţiile despre distribuţie sunt absente. Se aplică tabelelelor de incidenţă , adică cu două linii şi n coloane. Testul se bazează pe o statistică calculată în mai mulţi paşi, care este comparată cu o statistică teoretică care nu se ia din tabele ci se calculează după formula:

Dt = K

n1 + n2 n1 ∗ n2

unde n1 şi n2 sunt volumele eşantioanelor (totalurile pe cele două linii ale tabelului) şi K este o constantă ce depinde de pragul de semnificaţie dorit. Valorile lui K sunt date de tabelul urmator: Pragul de semnificaţie Semnificaţie Înaltă semnificaţie Foarte înaltă semnificaţie Valoarea prag a lui p 0,95 0,99 0,999 Valoarea lui K 1,36 1,63 1,95

Valorile coeficientului K pentru calculul pragului teoretic al testului Kolmogorov-Smirnov

Se execută urmatorii pasi: • Se fixează clase ca la realizarea unei histograme, prin împărţirea în segmente egale a diferenţei dintre valoarea minimă şi maximă din cele două serii de date cumulate • Se calculează frecvenţele relative pentru fiecare clasă în parte la fiecare din cele două serii de date • Se calculează frecvenţele relative cumulate pentru ambele serii de date • Se calculează diferenţele între frecvenţele relative cumulate ale celor două serii, la fiecare clasă în parte • Se alege cea mai mare diferenţă dintre cele calculate la punctul anterior. Aceasta este statistica testului

1

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013
• Se calculează statistica teoretică a testului, echivalentul valorii prag care se ia din tabele la celelalte teste. Aceasta statistica este Dt, dată mai sus • Daca statistica testului este mai mare decât cea teoretica, diferenta este semnificativa, altfel este nesemnificativa. Cuvinte cheie -repartiţie teoretică F(x) (normală, binomială, Poisson); -repartiţie experimentală Fe(x) Introducere Într-un experiment tipic, datele recoltate într-o anumită situaţie(am putea numi acest moment GRUPUL DE CONTROL) sunt comparate cu datele obţinute în cadrul unei alte situaţii(situaţie pe care am putea să o numim GRUPUL DE TRATAMENT). Scopul acestei comparaţii este de a vedea dacă rezulatetele din prima situaţie sunt net diferite de cele din situaţia a doua. Astfel, dacă rezultatele din grupul de tratament sunt identice cu cele din grupul de control atunci putem trage concluzia că tratamentul administrat nu a avut niciun efect. În foarte puţine cazuri se întâmplă ca cele cele două grupuri să fie identice, aşa în mod normal a apărut întrebarea: “Cât de diferite trebuie cele două grupuri¬?”. Procesul de a atribui valori rezultatelor nu este deloc o sarcină uşoară. Nu există nicio metodă sigură care să ne spună dacă rezultatele obţinute arată eficienţa sau ineficienţa tratamentului urmărit prin acest experiment. De cele mai multe ori se întâmplă ca el puţin o strategie folosită să fie greşită. De aceea, fiecare test statistic poate face greseli la un moment dat: - poate spune că tratamentul folosit este unul eficient c’nd el în realitate nu este (eroare de tip I) - poate spune că tratamentul în cauză este unul ineficient când el de fapt are efecte pozitive (eroare de tip II) Persoanele specializate în statistică încearcă să realizeze statistici în care erorile să fie prezente foarte rar (mai puţin de 5% din timp). Au ajuns la concluzia că pentru a evita erorile pe cât posibil este suficient ca aceste teste să fie extraordinar de bune în a detecta diferenţe in situaţii comune. Astfel, aceste metode folosite doar în acele situaţii comune sunt cele mai bune teste posibile. Folosite in alte situaţii, decât cele iniţiale, atunci acetse teste pot da rezulate eronate. De exemplu, testul T presupune că situaţiile produc date „normale” care diferă numai în măsura în care media obţinută dintr-o determinare este diferită de media obţinută într-o altă determinare. De aceea dacă se aplică testul T unor date aparte creşte simţitor riscul apariţiei unor erori. Unul dintre avantajele testului Kolmogorov-Smirnov este acela că prezintă datele într-o manieră grafică, permiţând astfel utilizatorului să detecteze distribuţiile normale.

Prezentare Cele mai multe verificări a aplicabilităţii repartiţiilor teoretice necesită cunoaşterea în prealabil a legii de repartiţie, dar, în cazurile în care aceasta este necunoscută, se impun o categorie de teste valabile pentru "orice" repartiţie. În general aceste metode sunt mai puţin precise decât metodele de verificare clasice (la care se cunosc legile de repartiţie teoretica), din acest motiv, acestea din urmă se aplică ori de câte ori este posibil. Aceste metode, datorită

2

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 posibilităţii aplicabilităţii pentru orice funcţie de repartiţie (deci pentru orice parametrii) se numesc "neparametrice", ele fiind mai eficiente atunci când se testează mediile şi nu dispersiile. Testul Kolmogorov-Smirnov încearcă să determine dacă două date de baze diferă în mod semnificativ. Această metodă de testare este avantajoasă pentru că nu face nici un fel de presupuneri asupra distribuţiei datelor, adică este un test nonparametric. Cu toate acestea, există alte teste care pot fi mult mai sensibile în cazul carecare datele respectă cerinţele testului respectiv. Metoda de verificare KolmogorovSmirnov, K, verifică concordanţa dintre o repartiţie teoretică F(x) (normala, binomiala, Poisson) şi una experimentală Fe(x), paşii parcurşi fiind: 1- datele observate se grupează în intervale, (determinându-se numărul m de clase), calculându-se în continuare valorile frecvenţelor absolute ai, respectiv valorile frecvenţelor relative fi, corespunzătoare; 2- se calculează valoarea mediei aritmetice X , utilizând relaţia:

s=

∑( x
n i =1

i

−x

)

2

n −1

3- se calculeaza valorile funcţiei de repartiţie experimentale, utilizând relaţia: Fe(xi)=∑fi 4- se aplica transformarea variabila, aplicand relatia z= x−x s de

pentru repartitia teoretica, valorile funcţiilor densitate de probabilitate f(z) şi ale funcţiei de repartiţie F(z) fiind date tabelare, aceasta in cazul verificarii normalitatii. Observaţie: în cazul verificării altor repartiţii teoretice se vor aplica transformările specifice acestora. Astfel că, valorile funcţiei de repartiţie teoretice vor fi date de relaţia: F ( zi ) = F ( xi ) 5- cu valorile grupate pe intervale se calculează diferenţa: Fe ( xi ) − F ( xi ) 6- se determină valoarea maximă a diferenţei: d e = max | Fe ( xi ) − F ( xi ) | 7- pentru un nivel semnificativ 1-α, (sau risc α ) adoptat , se scrie relaţia:

M[ x] =

∑ xi
i =1

n

n

respectiv abaterea medie pãtraticã s, utilizând relaţia

λ   P  de ≤ ÷= 1− α = K ( λ ) n 

3

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 Valoarea lui λ obţinându-se din tabelele funcţiei calculate K, calculându-se în continuare valoarea λ raportului ; n 8- dacă: de < 178.000 171.000 172.000 172.000 185.000 201.000 187.000 194.000 187.000 179.000 185.000 181.000 185.000 200.000 182.000 180.000 183.000 180.000 181.000 182.000 175.000 183.000 190.000 184.000 179.000 188.000 159.000 183.000 186.000 181.000 187.000 171.000 167.000 171.000 173.000 172.000 179.000 174.000 173.000 171.000

λ n

Se acceptă ipoteza concordanţei dintre repartiţia teoretică şi cea observată. În caz contrar ipoteza se respinge. Observatie: Metoda de verificare Kolmogorov-Smirnov, este o metoda greoaie necesitand un esantion de volum foarte mare, respectiv un volum mare de calcul. Exemplu de studiu şi utilizare a metodei: 1. Tema Pe un eşantion de volum n=108, se măsoară rezistenţa la rupere şi se obţin valorile (în daN): 158.000 176.000 183.000 184.000 173.000 181.000 182.000 170.000 178.000 162.000 192.000 188.000 183.000 177.000 166.000 185.000 185.000 170.000 180.000 165.000 194.000 175.000 180.000 188.000 190.000 183.000 175.000 186.000 196.000 182.000 190.000 169.000 190.000 190.000 174.000 176.000 185.000 180.000 172.000 170.000 178.000 175.000 195.000 184.000 199.000 184.000 167.000 174.000 167.000 194.000 191.000 175.000 181.000 178.000 180.000 189.000 163.000 160.000 198.000 180.000 183.000 165.000 179.000 164.000 174.000 177.000 177.000 199.000

- să se verifice ipoteza conform căreia datele statistice sunt variabile aleatoare repartizate normal, pentru un nivel de incredere de 0.950, (1α=95%). 2. Prelucrarea rezultatelor: În vederea verificării normalităţii datelor, ţinându-se seama de volumul eşantionului, n=108, se pot aplica testele: - testul χ2 pentru verificarea normalitatii; - testul Kolmogorov-Smirnov, K. Noi vom utiliza în această situaţie testul Kolmogorov-Smirnov, K, pentru verificarea normalităţii. Utilizând funcţiile oferite de software-ul Excel, verificarea normalităţii functiei de repartiţie aplicând de aceasta dată testul Kolmogorov-Smirnov, K, presupune parcurgerea următorilor paşi: 1.1 se determină valorile de minim, xmin şi a celor de maxim, xmax; 1- selectaţi opţiunea Insert, Function; 2- selectaţi din căsuţa de dialog care se deschide categoria Statistical; 3- selectaţi opţiunea MIN;

4

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 astfel pentru şirul de date selectat se va obţine valoarea de minim, xmin=158, 4- selectaţi opţiunea MAX; obţinând în acest caz valoarea de maxim, xmax , a şirului, în cazul nostru: xmax = 201; Fiind necesar un număr întreg de clase, se adoptă un număr de 8 clase, astfel că: m=8 este valoarea numărului de clase aproximat, Valoarea va ocupa adresa B31 în cadrul raportului Excel.

1.2 se calculează numărul de clase m; Se foloseşte formula m = 1 + 3,322 ∗ lg n Utilizând funcţiile Excel, această formulă va fi scrisă in celula selectată sub forma: =1+3.322*LOG10(108) Se obţine în final valoarea: m=7.755;

1.3 se calculează amplitudinea W, utilizând formula: W = xmax − xmin Utilizând funcţiile formula utilizată este: rezultând: W=43.000; Excel,

W=(MAX(A1:I12)-MIN(A1:I12))

5

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 1.5 se realizează tabelul datelor grupate, reprezentând valorile intervalelor: [xmin: Xmin+d); [xmin+d: xmin+2d); … (xmax]; Utilizând Excel, introducerea acestor valori poate fi realizată utilizând: [=$K$2 si =$B$2+$B$33); [=$K$2+$B$33 si =$K$2+2*$B$33) ş.a.m.d. 1.4 se determină mărimea unui subinterval cu ajutorul formulei: d= W xmax − xmin = m m Excel, valoarea Se obţine tabelul următor:

Utilizând obţinută este:

=B32/B31, rezultând: d=5.375 Adresa B32 corespunde valorii amplitudinii, iar B31 valorii numărului de clase aproximat; valoarea sub-intervalului obţinut va corespunde în continuare adresei B33.

1.6 se calculează frecvenţele absolute, ai, verificându-se rezultatele obţinute: 5selectaţi opţiunea Insert, Function...; 6- selectaţi din căsuţa de dialog care se deschide categoria Statistical; 7- selectaţi opţiunea COUNTIF (Contabilizare conditionata); În final se vor obţine valorile: a1=5; a2=7; a3=19; a4=18; a5=27; a6=20; a7=6; a8=6

6

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 această valoare corespunzând C24.

În Excel se introduc formulele următoare: =COUNTIF(A1:I12;"<163,375") pentru primul interval, [x min+d); =COUNTIF(A1:I12;"<168.750")C16, pentru intervalul, [x min+d, x min+2d); =COUNTIF(A1:I12;"<174.125")SUM(C16:C17), pentru intervalul, [x min+2d, x min+3d), având: =COUNTIF(A1:I12;"<201.0")+1SUM(C16:C22), pentru ultimul interval, [x min+6d,xmax] 1.7 verificarea rezultatelor Acest pas se realizează cu ajutorul formulei:

1.8 se calculeză frecvenţele relative, fi, utilizând formula: fi = ai n
i

∑f
i =1

n

=1

Astfel avem: =C16/$C$24;=C17/$C$24; ş.a..m.d pentru fiecare valoare f1, f2, ...f7; Valorile obţinute, reprezentate tabelar, şi care vor ocupa în continuare adresele D16-D23 în cadrul protocolului Excel, sunt: f1=0.046; f2=0.065; f3=0.176; f4=0.167; f5=0.250; f6=0.185; f7=0.056; f8=0.056

∑a
i =1

n

i

=n

Utilizând Excel, aceasta va fi scrisă sub forma: =SUM(C16:C23) sau =SUM(a1,a2, a3,a4,a5, a6, a7, a8); Astfel, observăm că rezultatele obţinute sunt corecte, deoarece avem: 5+7+19+18+27+20+6+6=108 -adevarat,

7

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 Verificarea rezultatelor presupune însumarea valorilor frecvenţelor relative, şi anume: =SUM(G16:G23); valoarea obtinută este 1.00 (ceea ce este conform formulei, valoarea obtinută corespunzând adresei D24). eticheta axei x, eticheta axei y, eticheta legendei, etc); 7- executaţi clic asupra butonului Next; 8- determinaţi locaţia reprezentării grafice; 9- executaţi clic asupra butonului Finish.

1.9 se trasează histograma valorilor calculate, având pe abscisa valorile clasei, iar pe ordonată valorile frecvenţelor, urmând paşii: 1- selectaţi datele pe care doriţi să le reprezentaţi grafic: adresele ce reprezintă valorile frecvenţelor relative fi; 2- executaţi clic asupra butonului ChartWizard; 3- selectaţi tipul de grafic dorit: cazul reprezentării unei Histograme: 1- selectaţi formatul graficului; 2- executaţi clic asupra butonului Next; 3- definirea datelor pe care doriţi să le reprezentaţi grafic; 4- model de grafic; 5- executaţi clic asupra butonului Next; 6- efectuaţi modificările pe care le consideraţi necesare (titlul graficului,

1.10 se determină valoarea mediei aritmetice M[x] şi valoarea dispersiei D[x]; Pentru determinarea mediei aritmetice, având formulele:

M [ x] =

∑x
i =1

n

i

n

sau

M [ x] =

∑a x
i =1

n

i i

n

utilizând opţiunile oferite de software-ul Excel: Insert, Function…, selectând din caseta de

8

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 dialog care se deschide, categoria: Statistical, vom avea: =AVERAGE($A$2:$I$13) Valoarea obţinută fiind: M[x]=179.852 (şi ea va corespunde adresei B34); pentru determinarea dispersiei, avem formula:
D [ x] =

D [ x] =

∑ ( x − M [ x] )
i =1 i

n

2

n

=

1 n 2 * ∑ xi − M [ x ] n i =1

2

=

POWER(SUM(POWER(($A$2:$I $13-$B$34),2),108),1/2) sau =SQRT(B35) obţinând s=2.714, valoarea D [ x] =

∑ ( x − M [ x] )
i =1 i

n

2

* ai

n

2 = ∑ ( xi − M (valoare [ x ] ) * f i ce va ocupa adresa B36). i =1

n

sau

D [ x] =

∑ ( x − M [ x] )
i =1 i

n

2

n

Utilizând Excel, se va aplica funcţia: =AVEDEV($A$2:$I$13) obţinând valoarea D[x]= s2=7.366, valoare ce va ocupă adresa B35.

1.12 se face schimbarea de variabilă conform formulei: z= x−µ σ

În cadrul programului Excel vom avea: =(B16-$B$34)/$B$36; =(B17$B$34)/$B$36; …=(B23-$B$34)/ $B$36

1.11 se calculează abaterea standard (abaterea medie pătratică)

9

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013

Se obţin valorile: z1=-6.071; z2=-4.091; z3=-2.110; z4=-0.130; z5=1.851; z6=3.831; z7=5.812; z8=7.792 (+∞) valori ce vor ocupa în continuare adresele F16-F23 în cadrul raportului Excel. 1.13 se calculează valorile funcţiei de repartiţie experimentale, utilizând relaţia: Fe ( xi ) = ∑ f i
i =1 n

1.14 cu valorile grupate pe intervale se calculează diferenţa: Fe ( xi ) − F ( xi ) Astfel, vom avea: =H16-G16; =H17-G17; … =H23G23; unde valorile din adresele G16:G23 sunt valorile funcţiei de repartiţie F(z), sunt date tabelare. Valorile obţinute, fiind: Dif1=0.045; Dif2=0.110; Dif3=0.270; Dif4=0.006; Dif5=-2.264;Dif6=-0.110; Dif7=0.055; Fe8=0.991 Aceste valori vor ocupa în continuare adresele I16-I23 în cadrul raportului Excel.

Utilizând Excel, vom avea: =SUM(D16); =SUM(D16:D17); … =SUM(D16:D23); Valorile obţinute, valori ce vor ocupa în continuare adresele H16H23 în cadrul raportului, fiind: Fe1=0.046; Fe2=0.111; Fe3=0.287; Fe4=0.454; Fe5=0.704; Fe6=0.889; Fe7=0.994; Fe8=1.000;

10

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 1.16 pentru nivelul semnificativ 1-α, (sau risc α ) adoptat, (1-α= 0.950 = 95%), se scrie relaţia:

λ   P  de ≤ ÷= 1− α = K ( λ ) n 
Valoarea lui λ obţinandu-se din tabelele functiei calculate K. Deoarece 95% se apropie mai mult de valoarea din stânga a intervalului [0.9477- 0.9505], vom găsi valoarea λ: λ1=1.720 1.15 se determină valoarea maximă a diferenţei: d e = max Fe ( xi ) − F ( xi ) Utilizând relaţia: =MAX(I16:I23) obţinând valoarea: de=0.990; Valoarea va ocupa adresa I24, în cadrul raportului Excel. 1.17 se calculează în continuare λ valoarea raportului , care n utilizând Excel va fi dat de relaţia: =1,72⁄(POWER(108,1⁄2)) Se obţine valoarea 0.1655 1.18 se va face verificarea: de <

λ n

Astfel încât, dacă relaţia se verifică, se acceptă ipoteza concordanţei dintre repartiţa teoretică şi cea observată. În caz contrar ipoteza se respinge. În cazul nostru avem: d e = o,991 >

λ =0,1655 n

11

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 Rezultate Astfel că, ipoteza cum că repartiţia teoretică a valorilor studiate ar fi o repartiţie normală, se respinge, decizia finală fiind: "repartitia experimentala nu corespunde unei repartitii normale".

12

TESTUL KOLMOGOROV-SMIRNOV UMF CAROL DAVILA BUCUREŞTI 6/11/2013 Bibliografie - http://orzanm.ase.ro/spss/pdf/SPSS_1.pdf - http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test - http://www.scritube.com/stiinta/matematica/TestulKolmogorovSmirnov1412352217.php - http://www.cermi.utcluj.ro/doc/Lucr_05.pdf - http://www.scribd.com/doc/56794524/86/Testul-KOLMOGOROVSMIRNOV - http://l.academicdirect.org/Horticulture/GAs/Refs/Jantschi&Sestras_2010_ Annex_3.pdf - http://www.physics.csbsju.edu/stats/KS-test.html

13

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->