Sunteți pe pagina 1din 10

Laborator Nr 4

Implementarea unui sistem biometric bazat pe semntura dinamic


Mediul WEKA - Waikato Environment for Knowledge Analysis
Pentru instalare folositi:
http://www.cs.waikato.ac.nz/ml/weka/downloading.html
1. Metode de clasificare: Sunt cunoscute dou moduri de abordare a procesului de recunoatere
a formelor. Primul mod cunoscut sub numele de recunoatere controlat presupune existena unui set
de forme a cror apartenen la clas este cunoscut. Acest set este mprit n dou pri: setul de
nvare (formare) folosit pentru a dezvolta un clasificator (ce utilizeaz, de exemplu, matricea
distanelor dintre forme) care s recunoasc ct mai bine apartenena formelor din set la clasele
corespunztoare i setul de test (predicie) pe care clasificatorul format este evaluat. Clasificatorul
astfel dezvoltat este utilizat n continuare pentru stabilirea apartenenei unei forme necunoscute la o
clas.
Cel de-al doilea mod cunoscut sub numele de recunoatere necontrolat, nu face apel la o
cunoatere prealabil a apartenenei formelor la o clas. Metoda dezvolt algoritmi care permit n
cursul execuiei acestora construirea claselor pe msur ce formele analizate sunt luate n considerare.
n cadrul acestui studiu s-a apelat la recunoaterea controlat. n continuare sunt prezintate pe
scurt metodele de clasificare folosite.
Regula celui mai apropiat vecin (NN-Nearest Neighbour)
Fie F mulimea formelor furnizate sistemului, partiionat n m clase:

F F0 , F1 ,... Fm1 ,

Fi F j
m 1

i, j 0,1,..., m 1, i j , F F j
j 0

Cea mai intuitiv metod de clasificare a unei noi forme x, plecnd de la o mulime de clase i o
distan d, este reprezentat de regula celui mai apropiat vecin.

a.
Fig. 1. a) NN - forma este atribuit clasei 1;

b.
b) kNN - forma este atribuit clasei 2

Regula kNN (k Nearest Neighbours) ia n considerare cei mai apropiai k vecini ai formei x,
decizia fundamentndu-se astfel: forma x aparine clasei din care fac parte cei mai muli dintre cei k
vecini. Numrul k trebuie ales astfel nct s fie suficient de mare pentru a minimiza probabilitatea unei
clasificri greite i suficient de mic (n raport cu numrul p al formelor) astfel nct cei k vecini s fie
ntr-adevr aproape de x pentru a asigura o estimare corect a clasei.
n general, pentru calculul distanelor se pot folosi distanele: euclidian, Manhattan, Cebev,
Minkowski etc. n Weka, aceast opiune este disponibil n cadrul clasificatoarelor de tip lazy i ea
se numete Ibk, unde k este numrul de vecini.
Mainile cu Vector Suport (Suport Vector Machine SVM)
Intuitiv, ntr-o problem de clasificare ar fi ideal s folosim ct mai multe caracteristici cu
putin ale datelor pentru a mbuntii rezultatul clasificrii. n acest caz, cele mai multe clasificri
sufer de aa numitul "small sample size efect". Adic, exist un anumit numr optim de caracteristici
de la care, dac ne abatem, utiliznd mai multe caracteristici n clasificare, perfomana ar avea foarte
mult de suferit.
Metoda bazat pe vectori de suport este o tehnic conceput pentru eficientizarea aproximrii
funciilor multidimensionale. Ideea de baz a SVM-urilor este de a determina un clasificator care
minimizeaz riscul empiric (eroarea setului de antrenare sau acurateea acestuia) i intervalul de
ncredere (erorile setului de test).
n 1965, Vapnik a propus o metod de a gsi nite hiperplane care s "despart" optim dou
clase, i care s nu depind de estimarea unei probabiliti. Acesta a fost baza teoriei mainilor care
nva bazndu-se pe vectori de suport.
SVM-urile se bazeaz pe conceptul de plane de decizie (plane-hiperplane de separare) care
definesc anumite "granie". Un plan de decizie este un plan care separ un set de obiecte ce aparin unor
clase diferite. Metodele kernel cunoscute sunt:
liniar
polinomial
radial basis function RBF
sigmoid.
Paii recomndai la utilizarea metodei de clasificare SVM sunt urmtorii:
transformarea datelor n formatul recunoscut de SVM
utilizarea RBF (radial basis function) kernel
utilizarea metodei corss-validation pentru a determina cei mai buni parametri C i
utilizarea celor mai buni parametri C i pentru antrenarea setului de date
testare.

2. Aplicaia Weka
Weka este o colectie de algoritmi de nvare pentru data mining. Algoritmii pot fi aplicai fie
direct pe un set de date sau folosii chiar din codul Java. Weka conine instrumente pentru
preprocesarea datelor, clasificare, regresie, reguli de asociere i pentru vizualizare. De asemenea, este
potrivit pentru dezvoltarea de noi scheme de nvare.
2

Weka este utilizat n cercetare, educaie i n cadrul aplicaiilor. Aplicaia nsumeaz un set vast
de instrumente de preprocesare a datelor, algoritmi de nvare i metode de evaluare, interete grafice
(incluznd vizualizarea datelor) i un mediu pentru compararea algoritmilor de nvare. Weka este un
software open source, sub licen general public GNU. Acesta este un mare avantaj al sistemului
WEKA spre deosebire de alte aplicaii, deoarece permite modificarea sistemului de ctre utilizatori n
modul n care acetia au nevoie de el, eventual cu dezvoltarea de noi tehnici de nvare automat i
implementarea de algoritmi proprii. De asemenea, la fel de important e faptul c sistemul poate fi
utilizat pe mai multe platforme: Unix, Linux i Microsoft Windows.
"WEKA" provine de la Mediul Waikato pentru Analiza Cunosiintelor (Waikato Environment
for Knowledge Analysis), i a fost dezvoltat la Universitatea Waikato din Noua Zeeland. WEKA este
extensibil i a devenit o colectie de algoritmi pentru nvare n scopul rezolvrii problemelor de data
mining din lumea real. A fost implementat n limbajul Java i ruleaz aproape pe orice platform.
Formatul fiierelor *.arff
Formatul arff - Attribute-Relation File Format a fost dezvoltat n cadrul proiectului Machine Learning
de ctre departamentul Computer Science al Universittii Waikato pentru a fi utilizat de ctre aplicaia
Weka. Fiierele de tip *.arff au o structur foarte simpl, care este descris n paragrafele urmtoare.
Un set de date trebuie s nceap cu declaraia numelui. Asfel, pe prima linie din fiierul *.arff va
aprea textul: @relation name. Acesta este urmat de o list cu toate atributele de date. Aceste declaraii
au forma: @attribute attribute_name specification.
Dac un atribut este nominal, specificaia poate conine o list de valori posibile
cuprinse ntre acolade: @attribute nominal_attribute {first_value, second_value,
third_value}
Dac un atribut este numeric, specificaia specific numrul ntreg corespunzator (valori
ntregi sunt tratate ca numere reale n cadrului aplicaiei WEKA): @attribute
numeric_attribute numeric
n plus fa de aceste dou tipuri de atribute exist un tip atribut string. Acest atribut
ofer posibilitatea de a stoca un comentariu sau ID-ul pentru fiecare instan din cadrul
setului de date: @attribute string_attribute string.
Dup atributul declaraii, datele sunt introduse prin eticheta @data. Aceasta este urmat de o list care
cuprinde toate instanele. Instanele sunt separate prin virgul, eventual conin un semn de ntrebare,
reprezentnd o valoare lips. Comentariile sunt linii care ncep cu caracterul %. Un exemplu al
structurii unui fiier *.arff poate fi observat n figura de mai jos:

Fig. 2. Structura unui fiier *.arff


Experimentele din cadrul acetei lucrri vor fi efectuate n modul Explorer:

Fig. 3. Selectarea modului explorer pentru aplicaia Weka


4

La selectarea acestui mod, se va deschide fereastra de lucru din Figura 4:

Fig. 4. Modul de lucru explorer


Urmtorul pas este selectarea fiierului *.arff pentru care se va face clasificarea.

Fig. 5. ncarcarea unui fiier pentru clasificare

Dup selectarea fiierului *.arff se alege din fereastra Classify metoda de clasificare i parametri
acesteia.

Fig. 6. Selectarea funciei LibSVM

Fig. 7. Selectarea parametrilor


Folosirea clasificatorului SVM, kernel RFB implic utilizarea a doi parametri: C i . Dei n
cele mai multe cazuri se cunosc cu aproximaie valorile acestor parametri, ntotdeauna trebuie fcut o
6

cutare a valorilor, avnd ca scop identificarea acelor valori pentru care rezultatul clasificrii este ct
mai precis. Perechea optim de parametri (C i ) se determin prin ncercri repetate, alegndu-se
perechea pentru care s-a obinut cel mai bun procentaj de clasificare (exemplu: C = 10, 100, 200, . i
= 0.001, 0.01, 0.5, 0.1, ).
Una dintre metodele recomandate n acest scop este cross-validation. n cazul a X-fold crossvalidation, setul de date va fi mprit n X subseturi de dimensiuni egale. Apoi, prin rotaie, X-1
subseturi vor fi folosite pentru antrenare i subsetul rmas pentru testare. Astfel, fiecare instan a
setului de date este prezis o dat, deci acurateea metodei cross-validation se reflct n procentajul
obinut pentru datele clasificate corect.

Fig.8. Alegerea metodei i pornirea clasificrii

Fig. 9. Rezultatele clasificrii


Aplicaia Weka returneaz pentru fiecare proces efectuat, dou tipuri de erori:
TP Rate (True Positive Rate)
Fp Rate (False Positive Rate),
precum i o matrice de confuzie

Fig. 10. Rezultate returnate de aplicaia Weka


ntr-un sistem biometric ideal, ambele rate de erori ar fi zero, dup cum se vede i n figura de mai jos,
care prezint rezultatele returnate de Weka n cazul unei clasificri perfecte.

Fig. 11. Rezultate returnate de aplicaia Weka


9

n acest caz, cnd rezultatul clasificrii corecte este de 100%, erorile sunt:
FAR = FP Rate = 0
FRR = 1Tp Rate = 11 = 0.
Din matrice de confuzie returnat c att semnturile originale (b=U066S) ct i imitaiile (a=F066S)
au fost clasificate corect.

10

S-ar putea să vă placă și