Documente Academic
Documente Profesional
Documente Cultură
BARBALAU VALENTINA
BADEA MARIUS GEORGE
DUMITRU IOANA ROXANA
MOCANU SIMONA DENISA
Introducere
O funcie f:X-> 2C, unde 2C este puterea lui C, astfel nct c aparine lui f(x)=> Ac` _<h
c:c` aparine f(x)i f optimizeaz q.
Criteriul de calitate q poate fi precizia medie a claselor anticipate sau distanele dintre
ele n ierarhia de clas. De asemenea, se poate lua n considerare faptul c, n clasificrile
eronate nivelurile mai apropiate de rdcin sunt mai ru clasificate dect nivelurile
profunde. n plus, complexitatea clasificarii i timpul de inducie poate fi luat n considerare
drept criteriu de calitate.
Marius Cu toate c definiia dat de HMC spune c o instan aparine i trebuie s fie
clasificat pe ci ierarhice adecvate, exist unele lucrri care permit predicii contradictorii.
Exemple sunt lucrrile Cesa-Bianchi i colab. (2006), Kiritchenko i colab. (2006),
Obozinski i colab. (2008), Valentini (2011), i Cerri i Carvalho (2011), n cazul n care
previziunile sunt fcute n contradicie cu ierarhia, apoi este necesar o etap suplimentar de
a face misiuni de clas n concordan cu ierarhia.
Un exemplu de problem HMC este ilustrat n figura 1, unde ierarhia clasei este
reprezentat de un copac. n acest exemplu, un raport de ziar poate aborda subiecte legate de
tiinele de calculator i de fotbal i, prin urmare, s fie clasificate n ambele tiine / calcul
i / clase de sport colectiv / fotbal. Clasa de predicie pentru o nou instan genereaz o
subramificaie. n figur, nodurile cu un dreptunghi i nodurile cu o elips reprezint dou ci
n copac pentru o nou instan, tiin / calcul i sport / colectiv / fotbal, respectiv.
Exist mai multe lucrri care propun metode HMC i folosind aceste metode HMC sau
msuri plate de performan pentru seturi de date specifice (Sun i Lim 2001 HMC sau; Vens
et al 2008,. Alves, et al 2010;. Otero et al 2010;. Cerri et al 2011;. Cerri i Carvalho 2011;
Pugelj i Deroski 2011, Bi i Kwok 2011). Lucrarea lui Ceci i Malerba (2007) evalueaz
clasificatoari ierarhici prin utilizarea de msuri de evaluari plate (nonhierarchical). n
Sokolova i Lapalme (2009), au fost analizate serii de mai multe niveluri, i evaluari plate,
ierarhice, n funcie de tipul de modificare a unei matrice de confuzie, care nu modific o
msur, dar analizele au fost doar teoretic. n Brucker, Benites i Sapozhnikova (2011),
autorii au efectuat experimente cu o serie de clasificatori plai Multilabel. Ierarhii au fost apoi
extrase din rezultatele obinute plate, i apoi msurile de clasificare ierarhice i plate au fost
folosite n evaluare. n Silla i Freitas (2010), au fost analizate msurile de evaluare HMC,
dar nu s+au efectuat experimente pentru compararea msurilor.
Cu toate c aceste lucrri s compar diferite metode i msuri, nu am gsit orientri
care asociaz caracteristicile seturilor de date ierarhice i Multilabel la performana diferitelor
metode evaluate prin msuri de performan distincte HMC. Aceast lucrare compar
experimental diferite metode HMC i diferite msuri de performan predictive HMC
specifice pentru probleme HMC. Mai precis, principalele contribuii ale acestei lucrri sunt
urmtoarele:
Evaluarea i compararea msurilor de ierarhie bazat pe distane de performan
predictiv, care sunt specifice pentru probleme HMC, atunci cnd sunt utilizate ntr-o
colecie de 12 seturi de date reale cu caracteristici diferite ierarhice i Multilabel.
Analiza performanei predictive a patru metode diferite pe baz de arbore de decizie
HMC, dou dintre ele bazate pe abordarea local i dou bazate pe abordarea global,
n aceste 12 seturi de date.
n analiza noastr experimental, am variat ntre patru caracteristici diferite ale
problemelor HMC, dup cum urmeaz: (i) procentul de cazuri Multilabel, (ii) numrul de
clase atribuite unei instane, (iii) dezechilibrul ierarhiei de clas, i ( iv) numrul maxim de
copii de noduri per nod intern. Experimentele au fost concepute pentru a investiga efectul
diferitelor valori ale acestor caracteristici problematice (corespunznd diferitelor seturi de
date) n rezultatele a patru decizii de metode HMC bazate pe arbori (dou bazate pe abordarea
local i dou bazate pe abordarea global), evaluat de zece msuri diferite de evaluari a
performanelor. Mai precis, pentru fiecare dintre cele patruprobleme menionate mai sus
(seturilor de date) caracteristicile fiind variate, ne adresm urmtoarele ntrebri de cercetare:
Q1: Are o msur de evaluare specific n favoarea unei abordri de clasificare
specific (global sau local), atunci cnd sunt utilizate pentru a compara metode globale
i locale bazate pe?
Q2: Ce abordare de clasificare (global sau local) este mai bun n ansamblu, lund
n considerare cele patru scenarii de clasificare menionate mai sus?
Q3: Sunt metodele globale/locale mai bune in estimarea claselor specifice/generale?
Q4: Ct de mult influeneaz diferitele caracteristici ierarhice i Multilabel evaluarea
diferit?
Q5: Ce msur de evaluare este mai potrivit pentru a fi utilizat n scenariile de
clasificare investigate?
Pentru experimentele efectuate n aceast lucrare, am ales metode care induc arbori de
decizie, pentru c exist lucrri care au demonstrat deja c arborii de decizie sunt o alternativ
bun pentru clasificarea HMC (Clare i Regele 2003. Vens et al 2008; Alves i colab . 2010;
Otero et al 2010).
Restul acestui articol este organizat dup cum urmeaz: Seciunea 2 analizeaz
msurile ierarhice de performan de clasificare utilizate n aceast lucrare. Seciunea 3
prezint metodele HMC utilizate n experimentele efectuate n aceast lucrare. Experimentele
efectuate sunt descrise n seciunea 4, mpreun cu o analiz a rezultatelor obinute. n cele
din urm, Seciunea 5 prezint principalele concluzii privind rezultatele experimentale i
sugestii pentru activitatea viitoare.
2.1.2. Functia pierduta ierarhica. Functia pierduta ierarhica (H-loss) este bazata pe conceptul
care presupune ca atunci cand o clasificare eronata apare intr-o clasa a ierarhiei nu ar trebui sa
fie data nicio penalizare pentru clasificarea eronata in subramura acelei clase. Daca o
clasificare eronata apare in clasa cj erorile aditionale care apar in subramura, notate ca cj nu
sunt importante. Ca exemplu, daca clasificatorul eronat clasifica un document ca bunuri in
clasa sporturi, acest clasificator nu ar trebui sa fie penalizat din nou clasificandu-l eronat in
subclasa fotbal.
Consideram faptul ca clasele adevarate alocate la un aumit xj este un subgrup al
setului C format din toate clasele incluzand si setul gol. Acest subgrup este reprezentat de un
vector (c1cjCj/), unde o clasa cj apartine unui subgrup de clase cum ar fi xj doar daca cj=1.
Inainte de a defini functia H-loss doua masuri in ceea ce priveste diferenta dintre predictia
unui multilabel pentru xj si adevartul set de clase al lui xj pentru fiecare exemplu care
trebui sa fie introdus. Primul este pierderea zero-one prezentata in ecuatie. A doua este
pierderea diferentei simetrice definita in ecuatie. Trebuie tinut minte ca aceste ecuatii nu
considera structura ierarhica o problema, doar mai multe marci . Pe baza acestor doua masuri
Cesa-Bianchi et el. (2006) propun functia H-loss definita in ecuatie. In ecuatii, 1{.} este o
functie indicatoare de performanta daca ecuatia data este adevarata sau este 0.
Aceasta masura este bazata pe faptul ca daca o luam o structura ierarhica G, structura
poate fi considerata o padure alcatuita din copaci definita de un set de clase al problemei. O
clasificare a Multilabel respecta structura G doar daca C reprezinta uniunea dintre una sau
mai multe parti din G, unde fiecare cale incepe intr-o clasa radacina si nu neaparat se termina
sus intr-o clasa frunza. Prin urmare, toate partile lui G dintr-o clasa radacina la o clasa frunza
sunt examinate.
Cand o clasa cj este gasita si cj este diferit de cj, valoarea 1 este adaugata la functia H-loss si
toate predictiile radacinilor subarborilor in clasa cj sunt discardate.
Fig. 3 arata conceptul si folosinta functiei H-loss. In cele 4 clase ierarhice ilustrate,
nodurile gri rotunde reprezinta clasele sustinute de un exemplu unde nodurile gri rotunde
reprezinta adevaratele clase ale instantei. Trebuie notat ca figura 3A a clasei prezise nu
respecta strutura ierarhiei G (parintii nodurilor frunzelor prezise nu sunt prezise), desi in
figura 3(b) structura este respectata. Fig. 3(c) arata ca adevaratele clase ale instantelor
clasificate in fig 3(b) si 3(d) arata ca aplicatiile functiei H-loss considera clasificarea
multilabel ilustrat in (b) si (c). Doar nodurile marcate cu un X sunt luate in considerare
cand calculezi H-loss. Dupa cum poate fi vazut, valorile pierderilor zero-one si diferentele
pierderilor simetrice sunt 1 si respectiv 6. Functia H-loss revine la valoarea 4. Tineti minte cu
cat este mai mica valoarea functiei H-loss, cu atat este mai buna performanta clasificatorului.
Dupa cum masura pierderii functiei ierarhice ignora eroarea din subcopaci ale claselor
desemnate eronat pt instante, eroarea problemei propagate prezentata in clasificarea ierarhica
nu este luata in considerare. Desi unii autori lucreaza cu aceste masuri, nu pot fi usor
comparati cu altii din literatura.
2.2. Msuri de evaluare bazate pe distane Simona
Aceast clas de msuri se bazeaz pe presupunerea c anumite clase mai apropiate n
ierarhie, tind s fie mai asemntoare ntre ele (reprezentnd o eroare de clasificare mai mic),
dect clasele mai ndeprtate .
Prin urmare, aceste msuri au luat n considerare distana dintre clasele reale i au prezis
clasele n timpul evalurii. Seciunea 2.2.1 evalueaza distanta micro / macro n funcie de
precizia ierarhic i distanta micro / macro pe baz de rechemare ierarhic, iar seciunea 2.2.2
discut cele mai multe metode comune de a calcula distanele intre nodurile ierarhice.
Contributia unui cazxi este apoi limitata la valorile [-1,1]. Aceasta perfectionare
notata cu Rcon(xi, c`j) este definita in ecuatia (9).
.
Contributia totala a fals pozitivelor (FP) (FpConj) si a fals negativelor (FN) (FnConj)
pentru toate cazurile este definita in ecuatiile (10) si (11).
Dupa calcularea contributiilor in fiecare caz in parte, valorile ierarhice de precizie si
de rechemare pentru fiecare clasa sunt calculate dupa cum sunt definite si in ecuatiile
(12) si (13).
..