Documente Academic
Documente Profesional
Documente Cultură
PROIECT:
2016
1. Aspecte teoretice
WEKA (the Waikato Environment for Knowledge Analysis) este un soft gratuit pus la
dispoziie de catedra de specialitate a Universitii Waikato din Hamilton, Noua Zeeland.
WEKA conine unelte pentru preprocesarea datelor, iar pentru clasificarea acestora se
utilizeaz arbori de decizie, regresie, clusterizare, reguli de asociere si vizualizare
WEKA Explorer pune la dispoziie n interfaa grafic pachetele sistemului, i anume:
Preprocessing, n cadrul cruia se pot deschide seturile de date att sub forma fiierelor
ARFF ct i dintr-o baz de date anume; de asemenea, se poate realiza o filtrare
nesupravegheat a datelor cu unul din filtrele puse la dispoziie;
Classify, ce permite alegerea i rularea oricrui algoritm de clasificare din cele 6
categorii de algoritmi definite;
Cluster, n cadrul cruia se poate alege i rula metoda de clusterizare a datelor;
Associate, ce permite setarea unei reguli de asociere a datelor i aplicarea acesteia;
Select Attributes este un alt pachet WEKA i permite configurarea i aplicarea oricrei
combinaii de atribute din cele ce definesc setul de date pentru a depista care sunt cele
mai relevante atribute din set;
Visualize permite vizualizarea setului curent de date n una sau dou dimensiuni, iar
dac atributele au valori continue este utilizat un spectru de nuane ale aceleiai culori
pentru reprezentarea valorilor, pe cnd pentru atribute discrete fiecare valoare este
reprezentat cu alt culoare.
1.1. Descrierea formatului ARFF
Formatul arff - Attribute-Relation File Format a fost dezvoltat in cadrul proiectului Machine
Learning de catre departamentul Computer Science al Universitatii Waikato pentru a fi
utilizat de catre aplicatia Weka.
O descriere scurta a formatului arff este:
Un set de date trebuie s nceap cu declaraia numelui:
@relation name
Acesta este urmat de o list cu toate atributele de date (inclusiv predictat
atribut). Aceste declaraii au forma:
@attribute attribute_name specification
Dac un atribut este nominal, specificatia poate conine o list de valori posibile
cuprinse intre acolade:
@attribute nominal_attribute {first_value, second_value, third_value}
n plus fa de aceste dou tipuri de atribute exist un tip atribut string. Acest
atribut ofer posibilitatea de a stoca un comentariu sau ID-ul pentru fiecare
instanta din cadrul setului de date:
@attribute string_attribute string
Dup atributul declaraii, datele sunt introduse prin eticheta:
@ data
Aceasta este urmata de o list care cuprinde toate instanele. Instantele sunt
separate prin virgul, eventual contin un semn de ntrebare, reprezentnd o
valoare lips.
Comentariile sunt linii incepand cu%
Student
baiat
baiat
fata
baiat
baiat
fata
fata
fata
baiat
baiat
fata
baiat
baiat
baiat
An_nastere
1992
1993
1995
1995
1996
1991
1994
1994
1996
1994
1994
1991
1989
1992
Ani-de-studii
4
3
3
3
4
4
3
3
3
4
4
4
3
3
Facultate
Drept
Economie
Economie
Economie
Drept
Drept
Economie
Economie
Economie
Drept
Drept
Drept
Economie
Economie
Teminat-studii
no
no
yes
yes
yes
yes
no
yes
yes
no
yes
yes
no
yes
Mures
1
1
1
1
1
2
2
2
2
2
1
2
2
1
Popescu-Anton
Gheorghe-Turcanu
Lilia-Blanari
Sorina-Golban
Mihai-Cebotari
Balan-Sergiu
Victor-Plesca
Eugen-Valah
Cristina-Veres
Viorica-Ciubotaru
Alina-Ojog
Vlada-Panfili
Anna-Smith
Daniela-O-Hare
Nina-Sinitin
baiat
baiat
fata
fata
baiat
baiat
baiat
baiat
fata
fata
fata
fata
fata
fata
fata
1991
1991
1992
1995
1994
1991
1994
1992
1989
1992
1992
1992
1995
1996
1994
3
4
4
3
4
4
4
3
4
4
3
4
3
3
4
Economie
Drept
Drept
Economie
Drept
Drept
Drept
Economie
Drept
Drept
Economie
Drept
Economie
Economie
Drept
yes
no
yes
yes
no
yes
no
yes
yes
no
yes
yes
no
yes
yes
Am efectuat o serie de operaii utilizndu-se optiunile WEKA, apoi am folosit reguli de asociere
pe baza carora am obtinut datele stabilite. Pentru aceasta am folosit interfaa grafica pentru
WEKA Explorer.
La primul pas (n tab-ul Preprocess), am ales optiunea "Open file..." i am navigat spre directorul
care conine fiierul de date ( in format .csv sau .arff). n acest caz se va deschide fiierul de date
de mai sus student3.arff :
1
1
2
2
2
1
2
1
2
2
2
1
1
1
2
Odat ce datele au fost ncrcate, WEKA recunoaste atributele i pe masura ce datele sunt
scanate se determina anumite statistici specifice pentru fiecare atribut. Panoul stanga al figurii de
mai jos prezinta lista de atribute recunoscute, n timp ce partea de sus este indicat numele relatiei
de baz.
Daca facem click pe oricare dintre atribute din panoul din stanga se vor afisa statisticile de
baz referitoare la atributul curent.
Urmatorul pas este alegerea casetei text din dreapta butonului "Choose". n caseta de dialog
care rezult introducem indexul atributului ce urmeaza a fi filtrat (se poate specifica un
interval sau o list de indeci separati prin virgule). n acest caz, se introduce 1, care este
indicele atributului "id"; optiunea "invertSelection" trebuie setat la fals (altfel totul cu
excepia atributului cu indexul specificat va fi filtrat).
facem click pe "Apply" pentru a aplica acest filtru asupra datelor. Acest pas permite
eliminarea atributul "id" i crearea un nou raport de lucru (al crui nume acum cuprinde
detalii cu privire la filtru, care a fost aplicat).
1.4.Interpretarea datelor
PLOTMATRIX