Documente Academic
Documente Profesional
Documente Cultură
Lab 4 - Weka
Lab 4 - Weka
F F0 , F1 ,... Fm1 ,
Fi F j
m 1
i, j 0,1,..., m 1, i j , F F j
j 0
Cea mai intuitiv metod de clasificare a unei noi forme x, plecnd de la o mulime de clase i o
distan d, este reprezentat de regula celui mai apropiat vecin.
a.
Fig. 1. a) NN - forma este atribuit clasei 1;
b.
b) kNN - forma este atribuit clasei 2
Regula kNN (k Nearest Neighbours) ia n considerare cei mai apropiai k vecini ai formei x,
decizia fundamentndu-se astfel: forma x aparine clasei din care fac parte cei mai muli dintre cei k
vecini. Numrul k trebuie ales astfel nct s fie suficient de mare pentru a minimiza probabilitatea unei
clasificri greite i suficient de mic (n raport cu numrul p al formelor) astfel nct cei k vecini s fie
ntr-adevr aproape de x pentru a asigura o estimare corect a clasei.
n general, pentru calculul distanelor se pot folosi distanele: euclidian, Manhattan, Cebev,
Minkowski etc. n Weka, aceast opiune este disponibil n cadrul clasificatoarelor de tip lazy i ea
se numete Ibk, unde k este numrul de vecini.
Mainile cu Vector Suport (Suport Vector Machine SVM)
Intuitiv, ntr-o problem de clasificare ar fi ideal s folosim ct mai multe caracteristici cu
putin ale datelor pentru a mbuntii rezultatul clasificrii. n acest caz, cele mai multe clasificri
sufer de aa numitul "small sample size efect". Adic, exist un anumit numr optim de caracteristici
de la care, dac ne abatem, utiliznd mai multe caracteristici n clasificare, perfomana ar avea foarte
mult de suferit.
Metoda bazat pe vectori de suport este o tehnic conceput pentru eficientizarea aproximrii
funciilor multidimensionale. Ideea de baz a SVM-urilor este de a determina un clasificator care
minimizeaz riscul empiric (eroarea setului de antrenare sau acurateea acestuia) i intervalul de
ncredere (erorile setului de test).
n 1965, Vapnik a propus o metod de a gsi nite hiperplane care s "despart" optim dou
clase, i care s nu depind de estimarea unei probabiliti. Acesta a fost baza teoriei mainilor care
nva bazndu-se pe vectori de suport.
SVM-urile se bazeaz pe conceptul de plane de decizie (plane-hiperplane de separare) care
definesc anumite "granie". Un plan de decizie este un plan care separ un set de obiecte ce aparin unor
clase diferite. Metodele kernel cunoscute sunt:
liniar
polinomial
radial basis function RBF
sigmoid.
Paii recomndai la utilizarea metodei de clasificare SVM sunt urmtorii:
transformarea datelor n formatul recunoscut de SVM
utilizarea RBF (radial basis function) kernel
utilizarea metodei corss-validation pentru a determina cei mai buni parametri C i
utilizarea celor mai buni parametri C i pentru antrenarea setului de date
testare.
2. Aplicaia Weka
Weka este o colectie de algoritmi de nvare pentru data mining. Algoritmii pot fi aplicai fie
direct pe un set de date sau folosii chiar din codul Java. Weka conine instrumente pentru
preprocesarea datelor, clasificare, regresie, reguli de asociere i pentru vizualizare. De asemenea, este
potrivit pentru dezvoltarea de noi scheme de nvare.
2
Weka este utilizat n cercetare, educaie i n cadrul aplicaiilor. Aplicaia nsumeaz un set vast
de instrumente de preprocesare a datelor, algoritmi de nvare i metode de evaluare, interete grafice
(incluznd vizualizarea datelor) i un mediu pentru compararea algoritmilor de nvare. Weka este un
software open source, sub licen general public GNU. Acesta este un mare avantaj al sistemului
WEKA spre deosebire de alte aplicaii, deoarece permite modificarea sistemului de ctre utilizatori n
modul n care acetia au nevoie de el, eventual cu dezvoltarea de noi tehnici de nvare automat i
implementarea de algoritmi proprii. De asemenea, la fel de important e faptul c sistemul poate fi
utilizat pe mai multe platforme: Unix, Linux i Microsoft Windows.
"WEKA" provine de la Mediul Waikato pentru Analiza Cunosiintelor (Waikato Environment
for Knowledge Analysis), i a fost dezvoltat la Universitatea Waikato din Noua Zeeland. WEKA este
extensibil i a devenit o colectie de algoritmi pentru nvare n scopul rezolvrii problemelor de data
mining din lumea real. A fost implementat n limbajul Java i ruleaz aproape pe orice platform.
Formatul fiierelor *.arff
Formatul arff - Attribute-Relation File Format a fost dezvoltat n cadrul proiectului Machine Learning
de ctre departamentul Computer Science al Universittii Waikato pentru a fi utilizat de ctre aplicaia
Weka. Fiierele de tip *.arff au o structur foarte simpl, care este descris n paragrafele urmtoare.
Un set de date trebuie s nceap cu declaraia numelui. Asfel, pe prima linie din fiierul *.arff va
aprea textul: @relation name. Acesta este urmat de o list cu toate atributele de date. Aceste declaraii
au forma: @attribute attribute_name specification.
Dac un atribut este nominal, specificaia poate conine o list de valori posibile
cuprinse ntre acolade: @attribute nominal_attribute {first_value, second_value,
third_value}
Dac un atribut este numeric, specificaia specific numrul ntreg corespunzator (valori
ntregi sunt tratate ca numere reale n cadrului aplicaiei WEKA): @attribute
numeric_attribute numeric
n plus fa de aceste dou tipuri de atribute exist un tip atribut string. Acest atribut
ofer posibilitatea de a stoca un comentariu sau ID-ul pentru fiecare instan din cadrul
setului de date: @attribute string_attribute string.
Dup atributul declaraii, datele sunt introduse prin eticheta @data. Aceasta este urmat de o list care
cuprinde toate instanele. Instanele sunt separate prin virgul, eventual conin un semn de ntrebare,
reprezentnd o valoare lips. Comentariile sunt linii care ncep cu caracterul %. Un exemplu al
structurii unui fiier *.arff poate fi observat n figura de mai jos:
Dup selectarea fiierului *.arff se alege din fereastra Classify metoda de clasificare i parametri
acesteia.
cutare a valorilor, avnd ca scop identificarea acelor valori pentru care rezultatul clasificrii este ct
mai precis. Perechea optim de parametri (C i ) se determin prin ncercri repetate, alegndu-se
perechea pentru care s-a obinut cel mai bun procentaj de clasificare (exemplu: C = 10, 100, 200, . i
= 0.001, 0.01, 0.5, 0.1, ).
Una dintre metodele recomandate n acest scop este cross-validation. n cazul a X-fold crossvalidation, setul de date va fi mprit n X subseturi de dimensiuni egale. Apoi, prin rotaie, X-1
subseturi vor fi folosite pentru antrenare i subsetul rmas pentru testare. Astfel, fiecare instan a
setului de date este prezis o dat, deci acurateea metodei cross-validation se reflct n procentajul
obinut pentru datele clasificate corect.
n acest caz, cnd rezultatul clasificrii corecte este de 100%, erorile sunt:
FAR = FP Rate = 0
FRR = 1Tp Rate = 11 = 0.
Din matrice de confuzie returnat c att semnturile originale (b=U066S) ct i imitaiile (a=F066S)
au fost clasificate corect.
10