Sunteți pe pagina 1din 11

Gestiunea fluxului de

date folosind WEKA

PROIECT:

MASTERAND: BLICI IRINA


PROFESOR: COMES CALIN

2016

Gestiunea fluxului de date folosind WEKA

1. Aspecte teoretice
WEKA (the Waikato Environment for Knowledge Analysis) este un soft gratuit pus la
dispoziie de catedra de specialitate a Universitii Waikato din Hamilton, Noua Zeeland.
WEKA conine unelte pentru preprocesarea datelor, iar pentru clasificarea acestora se
utilizeaz arbori de decizie, regresie, clusterizare, reguli de asociere si vizualizare
WEKA Explorer pune la dispoziie n interfaa grafic pachetele sistemului, i anume:
Preprocessing, n cadrul cruia se pot deschide seturile de date att sub forma fiierelor
ARFF ct i dintr-o baz de date anume; de asemenea, se poate realiza o filtrare
nesupravegheat a datelor cu unul din filtrele puse la dispoziie;
Classify, ce permite alegerea i rularea oricrui algoritm de clasificare din cele 6
categorii de algoritmi definite;
Cluster, n cadrul cruia se poate alege i rula metoda de clusterizare a datelor;
Associate, ce permite setarea unei reguli de asociere a datelor i aplicarea acesteia;
Select Attributes este un alt pachet WEKA i permite configurarea i aplicarea oricrei
combinaii de atribute din cele ce definesc setul de date pentru a depista care sunt cele
mai relevante atribute din set;
Visualize permite vizualizarea setului curent de date n una sau dou dimensiuni, iar
dac atributele au valori continue este utilizat un spectru de nuane ale aceleiai culori
pentru reprezentarea valorilor, pe cnd pentru atribute discrete fiecare valoare este
reprezentat cu alt culoare.
1.1. Descrierea formatului ARFF
Formatul arff - Attribute-Relation File Format a fost dezvoltat in cadrul proiectului Machine
Learning de catre departamentul Computer Science al Universitatii Waikato pentru a fi
utilizat de catre aplicatia Weka.
O descriere scurta a formatului arff este:
Un set de date trebuie s nceap cu declaraia numelui:
@relation name
Acesta este urmat de o list cu toate atributele de date (inclusiv predictat
atribut). Aceste declaraii au forma:
@attribute attribute_name specification

Dac un atribut este nominal, specificatia poate conine o list de valori posibile
cuprinse intre acolade:
@attribute nominal_attribute {first_value, second_value, third_value}

Dac un atribut este numeric, specificatia specifica numarul intreg corespunzator:


(valori intregi sunt tratate ca numere reale n cadrului aplicatiei WEKA.)
@attribute numeric_attribute numeric

n plus fa de aceste dou tipuri de atribute exist un tip atribut string. Acest
atribut ofer posibilitatea de a stoca un comentariu sau ID-ul pentru fiecare
instanta din cadrul setului de date:
@attribute string_attribute string
Dup atributul declaraii, datele sunt introduse prin eticheta:
@ data
Aceasta este urmata de o list care cuprinde toate instanele. Instantele sunt
separate prin virgul, eventual contin un semn de ntrebare, reprezentnd o
valoare lips.
Comentariile sunt linii incepand cu%

1.2. Preprocesarea datelor de intrare WEKA


WEKA are capacitatea de a citi fisiere in format ".arff" drept exemplu poate servi baza de
date student3. Dat fiind faptului ca multe aplicatii pot exporta datele n fiiere ce respecta acest
format, WEKA poate fi folosit in cadrul unei succesiuni de prelucrari si procesari de date. Astfel,
dupa cum observam primul rnd conine numele de atribut (separate prin virgule), urmate de
rnduri de date cu valorile atributelor enumerate n aceeai ordine (de asemenea, separate prin
virgule). De fapt, o dat ncrcate n WEKA, setul de date poate fi salvat n format ARFF.
In urmatorul exemplu am incarcat un set de date n WEKA utilizand baza de date:
Nume
Mihai-Lovasz
Denis-Vieru
Virginia-Dorovan
Ivan-Karaman
Dionis-Mamaliga
Ionana-Betivu
Mihaela-Chiriac
Cristina-Munteanu
Mocanet-Daniel
Todoran-Florin
Alina-Morozan
Miron-Radu
Andrei-Petrov
Popescu-Anatol

Student
baiat
baiat
fata
baiat
baiat
fata
fata
fata
baiat
baiat
fata
baiat
baiat
baiat

An_nastere
1992
1993
1995
1995
1996
1991
1994
1994
1996
1994
1994
1991
1989
1992

Ani-de-studii
4
3
3
3
4
4
3
3
3
4
4
4
3
3

Facultate
Drept
Economie
Economie
Economie
Drept
Drept
Economie
Economie
Economie
Drept
Drept
Drept
Economie
Economie

Teminat-studii
no
no
yes
yes
yes
yes
no
yes
yes
no
yes
yes
no
yes

Mures
1
1
1
1
1
2
2
2
2
2
1
2
2
1

Popescu-Anton
Gheorghe-Turcanu
Lilia-Blanari
Sorina-Golban
Mihai-Cebotari
Balan-Sergiu
Victor-Plesca
Eugen-Valah
Cristina-Veres
Viorica-Ciubotaru
Alina-Ojog
Vlada-Panfili
Anna-Smith
Daniela-O-Hare
Nina-Sinitin

baiat
baiat
fata
fata
baiat
baiat
baiat
baiat
fata
fata
fata
fata
fata
fata
fata

1991
1991
1992
1995
1994
1991
1994
1992
1989
1992
1992
1992
1995
1996
1994

3
4
4
3
4
4
4
3
4
4
3
4
3
3
4

Economie
Drept
Drept
Economie
Drept
Drept
Drept
Economie
Drept
Drept
Economie
Drept
Economie
Economie
Drept

yes
no
yes
yes
no
yes
no
yes
yes
no
yes
yes
no
yes
yes

Am efectuat o serie de operaii utilizndu-se optiunile WEKA, apoi am folosit reguli de asociere
pe baza carora am obtinut datele stabilite. Pentru aceasta am folosit interfaa grafica pentru
WEKA Explorer.

La primul pas (n tab-ul Preprocess), am ales optiunea "Open file..." i am navigat spre directorul
care conine fiierul de date ( in format .csv sau .arff). n acest caz se va deschide fiierul de date
de mai sus student3.arff :

1
1
2
2
2
1
2
1
2
2
2
1
1
1
2

Odat ce datele au fost ncrcate, WEKA recunoaste atributele i pe masura ce datele sunt
scanate se determina anumite statistici specifice pentru fiecare atribut. Panoul stanga al figurii de
mai jos prezinta lista de atribute recunoscute, n timp ce partea de sus este indicat numele relatiei
de baz.

Daca facem click pe oricare dintre atribute din panoul din stanga se vor afisa statisticile de
baz referitoare la atributul curent.

1.3. Selectarea si filtrarea atributelor WEKA


In exemplul dat, fiecare nregistrare este identificata in mod unic prin intermediul atributului
id. Pentru a putea realiza o procesare de tip data mining acest atribut trebuie eliminat. Pentru
a reusi acest lucru se vor utiliza de filtrele de atribute ce pot fi gasite in WEKA. Astfel,
mergem spre panelul "Filter", facem clic pe butonul "Choose". Acesta actiune permite
afiarea unei ferestre cu lista filtrelor disponibile.

Urmatorul pas este alegerea casetei text din dreapta butonului "Choose". n caseta de dialog
care rezult introducem indexul atributului ce urmeaza a fi filtrat (se poate specifica un
interval sau o list de indeci separati prin virgule). n acest caz, se introduce 1, care este
indicele atributului "id"; optiunea "invertSelection" trebuie setat la fals (altfel totul cu
excepia atributului cu indexul specificat va fi filtrat).

facem click pe "Apply" pentru a aplica acest filtru asupra datelor. Acest pas permite
eliminarea atributul "id" i crearea un nou raport de lucru (al crui nume acum cuprinde
detalii cu privire la filtru, care a fost aplicat).

1.4.Interpretarea datelor

PLOTMATRIX

S-ar putea să vă placă și