Sunteți pe pagina 1din 7

BOGHIU ROXANA ADRIANA

BARBALAU VALENTINA
BADEA MARIUS GEORGE
DUMITRU IOANA ROXANA
MOCANU SIMONA DENISA

O EVALUARE APROFUNDAT A MSURILOR I A METODELOR


PERFORMANTE DE DECIZIE BAZATE PE ARBORELE CLASIFICARII MULTILABEL
RICARDO CERRI,1 GISELE L. PAPPA,2 ANDR CARLOS P. L. F. CARVALHO,1
AND ALEX A. FREITAS3
1Departamento de Cincias de Computao, Universidade de So Paulo, Campus de So
Carlos,
So Carlos, SP, Brazil
2Departamento de Cincias da Computao, Universidade Federal de Minas Gerais, Belo
Horizonte,
MG, Brazil
3School of Computing, University of Kent, Canterbury, Kent, UK

Valentina Clasificarea IERARHICA Multilabel este o problem de clasificare complex


n cazul n care o instan poate fi atribui mai multe clase simultan, iar aceste clase sunt
ierarhic organizate cu superclase i subclase, adic, o instan poate fi clasificat ca
aparinnd unei structuri arhitecturale . Acest articol analizeaz experimental comportamentul
metodelor ierarhice bazate pe arbore de decizie diferite de clasificarile Multilabel pe baza
abordrilor de clasificare locale i globale. Abordrile sunt comparate folosind msuri de
evaluare bazate pe distane bazate pe ierarhie i distincte, atunci cnd sunt aplicate la o
variaie a caracteristicilor seturile de date reale Multilabel i ierarhice. De asemenea, msurile
de evaluare diferite investigate sunt comparate in functie de gradul de coeren, discriminare
i indiferen. Ca rezultat al analizei experimentale, recomandm utilizarea abordrii de
clasificare global i sugereaz utilizarea msurilor de evaluare Recall ierarhizate Ierarhic i
de precizie.

Introducere

n majoritatea problemelor de clasificare descrise n literatur, un clasificator aloc o


singur clas ctre o anumit isntan xi, iar clasele formeaz o structur nonierarhic, plat,
fr nici un considerent de superclas sau subclas. Cu toate acestea, n multe probleme de
clasificri reale, una sau mai multe clase pot fi mprite n subclase sau grupate in superclase,
iar instanele pot aparine cel puin unor dou clase simultan la acelai nivel ierarhic. n acest
caz, clasele folosesc o structur ierarhic , de obicei un copac ori un grafic direct aciclic
(DAG). Aceste probleme sunt cunoscute n literatura nvrii mecanice ca i problemele
ierarhice clasificate multietichet (HMC). Sunt mult mai complexe dect problemele
convenionale de clasificare, care sunt plate i cu o singura etichet, deoarece instanele noi
pot fi clasificare n clasele asociate cu dou sau mai multe direcii n clasa ierarhic. Aceste
probleme sunt foarte comune, de exemplu, n clasificarea genelor i identificarea funciilor
proteinelor (Blockeel et al.2002; Clare i King 2003; Struyf, Blockeel, i Clare 2005;
Kiritchenko, Matwin, i Famili 2005; Barutcuoglu, Schapire i Troyanskaya 2006; Vens et al
2008; Alves, Delgado, i Freitas 2008; Obozinski et al. 2008; Valentini 2009, 2011; Alves,
Delgado, i Freitas 2010; Schiegat et al. 2010; Otero, Freitas i Johnson 2010; Cerri,
Carvalho, i Freitas 2011; Cerri i Carvalho 2011; Pugelj i Dzeroski 2011; Bi and Kwok
2011), i clasificrile textului (Sun i Lim 2001; Kiritchenko, Matwin, i Famili 2004; Rousu
et al. 2006; Cesa-Bianchi, Gentile, i Zaniboni 2006; Mayne i Perry 2009). Problemele HMC
pot fi definite ca probleme de clasificare complexe, care nconjoar caracteristicile att a
problemelor ierarhice cu o singur etichet, ct i problemele multietichet nonierarhice.
n problemele de clasificare ierarhice cu o singur etichet, fiecare instan este alocat
ctre o singur direcie a structurii ierarhice. Procesul clasificrii noilor instanii poate fi un
nod subire obligatoriu, cnd o nou instan trebuie s fie alocat ctre un alt nod, sau un nod
optional, atunci cnd cea mai specific clas alocat ctre o nou instan care poate fi un nod
intern al claseri ierarhice (Freitas i Carvalho 2007). Dou abordri au fost adoptate n
literatur pentru a face concura cu clasa ierarhic n problemele ierarhice: Sus-jos ori local i
o lovitur ori global.
Abordarea local folosete informaiile locale pentru a ncadra ierarhia claselor. n
timpul fazei de training, ierarhia clasei este procesat nivel cu nivel, producnd unu sau mai
muli clasificatori pentru fiecare nivel al ierarhiei. Din acest proces rezult un arbore al
clasificatorilor. Rdcina clasificrii este indus cu toate instanele training-ului. La fiecare alt
nivel, un clasificator e indus folosind doar isntane locale asociate cu clase la nivelul
respectiv. n faza de test, atunci cnd o instan este alocat unei clase care nu este un nod,
este ulterior clasificat ca i o subclas a acelei clase. O deficien a acestei abordri este
propagarea erorilor clasificrii ntr-o clas nod ctre descendenii din ierarhia clasei. Cu toate
acestea, permite folosirea oricrui algoritm traditional de clasificare, pentru c fiecare
algoritm local de clasificare este un algoritm conventional plat.
Abordarea global induce un model unic de clasificare avnd n vedere clasa ierarhic
ca un ntreg, evitnd astfel problema de propagare a erorii abordrii locale. Dup inducerea
modelului, clasificarea unei noi instane apare doar ntr-un singur pas. ns algoritmi de
clasificare tradiionali nu pot fi folosii, dect dac adaptrile sunt fcute s aib n vedere
ierarhia clasei.
n problemele multietichet nonierarhice, fiecare instan poate fi alocat uneia sau mai
multor clase simultan. La fel ca i problemele ierarhice cu o singur etichet, unde abordrile
locale i globale pot fi folosite pentru a rezolva sarcina clasificrii, 2 abordri principale care
pot fi folosite pentru a rezolva problemele de clasificare multietichet, numite algoritm
dependent i algoritm independent (Carvalho i Freitas 2009). Aborbarea algoritmului
independent transform problema multietichet original ntr-un set de probleme cu o singur
etichet i ca i n abordarea local pentru probleme ierarhice, orice algoritm traditional de
clasificare poate fi folosit. n abordarea algoritmului dependent, aa cum numele sugereaz,
noi algoritmi sunt dezvoltai pentru problemele multietichet, sau algoritmi tradiionali sunt
modificai s fac fa cu aceste probleme. Abordarea global folosit n probleme poate fi
vzut ca o abordare a algoritmului dependent, aa cum algoritmele noi sau modificate sunt
folosite.
n problemele HMC, caracteristicile problemelor ierarhice i multietichet sunt
combinate, iar o instan poate fi alocat cre 2 sau mai multe subramuri ale claselor ierarhice.
Aa cum afirm Vens et al. (2008), problemele HMC pot fi formal descrise aa cum urmeaz:

O funcie f:X-> 2C, unde 2C este puterea lui C, astfel nct c aparine lui f(x)=> Ac` _<h
c:c` aparine f(x)i f optimizeaz q.
Criteriul de calitate q poate fi precizia medie a claselor anticipate sau distanele dintre
ele n ierarhia de clas. De asemenea, se poate lua n considerare faptul c, n clasificrile
eronate nivelurile mai apropiate de rdcin sunt mai ru clasificate dect nivelurile
profunde. n plus, complexitatea clasificarii i timpul de inducie poate fi luat n considerare
drept criteriu de calitate.
Marius Cu toate c definiia dat de HMC spune c o instan aparine i trebuie s fie
clasificat pe ci ierarhice adecvate, exist unele lucrri care permit predicii contradictorii.
Exemple sunt lucrrile Cesa-Bianchi i colab. (2006), Kiritchenko i colab. (2006),
Obozinski i colab. (2008), Valentini (2011), i Cerri i Carvalho (2011), n cazul n care
previziunile sunt fcute n contradicie cu ierarhia, apoi este necesar o etap suplimentar de
a face misiuni de clas n concordan cu ierarhia.
Un exemplu de problem HMC este ilustrat n figura 1, unde ierarhia clasei este
reprezentat de un copac. n acest exemplu, un raport de ziar poate aborda subiecte legate de
tiinele de calculator i de fotbal i, prin urmare, s fie clasificate n ambele tiine / calcul
i / clase de sport colectiv / fotbal. Clasa de predicie pentru o nou instan genereaz o
subramificaie. n figur, nodurile cu un dreptunghi i nodurile cu o elips reprezint dou ci
n copac pentru o nou instan, tiin / calcul i sport / colectiv / fotbal, respectiv.
Exist mai multe lucrri care propun metode HMC i folosind aceste metode HMC sau
msuri plate de performan pentru seturi de date specifice (Sun i Lim 2001 HMC sau; Vens
et al 2008,. Alves, et al 2010;. Otero et al 2010;. Cerri et al 2011;. Cerri i Carvalho 2011;
Pugelj i Deroski 2011, Bi i Kwok 2011). Lucrarea lui Ceci i Malerba (2007) evalueaz
clasificatoari ierarhici prin utilizarea de msuri de evaluari plate (nonhierarchical). n
Sokolova i Lapalme (2009), au fost analizate serii de mai multe niveluri, i evaluari plate,
ierarhice, n funcie de tipul de modificare a unei matrice de confuzie, care nu modific o
msur, dar analizele au fost doar teoretic. n Brucker, Benites i Sapozhnikova (2011),
autorii au efectuat experimente cu o serie de clasificatori plai Multilabel. Ierarhii au fost apoi
extrase din rezultatele obinute plate, i apoi msurile de clasificare ierarhice i plate au fost
folosite n evaluare. n Silla i Freitas (2010), au fost analizate msurile de evaluare HMC,
dar nu s+au efectuat experimente pentru compararea msurilor.
Cu toate c aceste lucrri s compar diferite metode i msuri, nu am gsit orientri
care asociaz caracteristicile seturilor de date ierarhice i Multilabel la performana diferitelor
metode evaluate prin msuri de performan distincte HMC. Aceast lucrare compar
experimental diferite metode HMC i diferite msuri de performan predictive HMC
specifice pentru probleme HMC. Mai precis, principalele contribuii ale acestei lucrri sunt
urmtoarele:
Evaluarea i compararea msurilor de ierarhie bazat pe distane de performan
predictiv, care sunt specifice pentru probleme HMC, atunci cnd sunt utilizate ntr-o
colecie de 12 seturi de date reale cu caracteristici diferite ierarhice i Multilabel.
Analiza performanei predictive a patru metode diferite pe baz de arbore de decizie
HMC, dou dintre ele bazate pe abordarea local i dou bazate pe abordarea global,
n aceste 12 seturi de date.
n analiza noastr experimental, am variat ntre patru caracteristici diferite ale
problemelor HMC, dup cum urmeaz: (i) procentul de cazuri Multilabel, (ii) numrul de
clase atribuite unei instane, (iii) dezechilibrul ierarhiei de clas, i ( iv) numrul maxim de
copii de noduri per nod intern. Experimentele au fost concepute pentru a investiga efectul
diferitelor valori ale acestor caracteristici problematice (corespunznd diferitelor seturi de
date) n rezultatele a patru decizii de metode HMC bazate pe arbori (dou bazate pe abordarea
local i dou bazate pe abordarea global), evaluat de zece msuri diferite de evaluari a
performanelor. Mai precis, pentru fiecare dintre cele patruprobleme menionate mai sus
(seturilor de date) caracteristicile fiind variate, ne adresm urmtoarele ntrebri de cercetare:
Q1: Are o msur de evaluare specific n favoarea unei abordri de clasificare
specific (global sau local), atunci cnd sunt utilizate pentru a compara metode globale
i locale bazate pe?
Q2: Ce abordare de clasificare (global sau local) este mai bun n ansamblu, lund
n considerare cele patru scenarii de clasificare menionate mai sus?
Q3: Sunt metodele globale/locale mai bune in estimarea claselor specifice/generale?
Q4: Ct de mult influeneaz diferitele caracteristici ierarhice i Multilabel evaluarea
diferit?
Q5: Ce msur de evaluare este mai potrivit pentru a fi utilizat n scenariile de
clasificare investigate?
Pentru experimentele efectuate n aceast lucrare, am ales metode care induc arbori de
decizie, pentru c exist lucrri care au demonstrat deja c arborii de decizie sunt o alternativ
bun pentru clasificarea HMC (Clare i Regele 2003. Vens et al 2008; Alves i colab . 2010;
Otero et al 2010).
Restul acestui articol este organizat dup cum urmeaz: Seciunea 2 analizeaz
msurile ierarhice de performan de clasificare utilizate n aceast lucrare. Seciunea 3
prezint metodele HMC utilizate n experimentele efectuate n aceast lucrare. Experimentele
efectuate sunt descrise n seciunea 4, mpreun cu o analiz a rezultatelor obinute. n cele
din urm, Seciunea 5 prezint principalele concluzii privind rezultatele experimentale i
sugestii pentru activitatea viitoare.

Roxana 2. ANALIZA MSURILOR DE EVALUARE

Msuri de precizie de clasificare a problemelor convenionale (plate) de clasificare


sunt, de obicei, inadecvate pentru problemele Multilabel ierarhice. n afar de faptul ca nu
lum n considerare structura problemei de clas ierarhic, precum i faptul c o instan
poate aparine simultan mai mult de o clas, msuri convenionale de precizie de clasificare
ignora faptul c dificultatea clasificrii crete de obicei, cu adncimea claselor care urmeaz
s fie prezis. n clasificarea ierarhic, clase mai specifice sunt adesea mai greu de prezis dect
cele generice, precum i msuri convenionale i asume costurile de clasificare eronat a fi
independent de poziiile claselor n ierarhie. Mai mult dect att, n clasificarea Multilabel,
aceste msuri nu consider c o instan poate fi atribuit doar un subset de adevrate clase
sale.
Ca alternative la msurile de evaluare convenionale pentru probleme de clasificare,
msuri specifice pentru clasificatoare Multilabel ierarhice, Multilabel i ierarhice au fost
propuse. Aici, suntem interesai n dou grupuri largi de msuri ierarhice Multilabel de
evaluare, i anume (i) evaluationmeasures bazate pe ierarhie i (ii) evaluarea bazat pe
distan Msurile measures.Whereas bazate pe ierarhie se bazeaz doar pe structura ierarhic
de clas (doar subclase i superclasele), msuri bazate pe distana parcurs ia n considerare,
de asemenea, distana dintre clasele prezise i adevrate n structura ierarhie.
Dei multe lucrri din literatura de specialitate a evalua performana clasificatori
Multilabel ierarhice, nu exist un consens cu privire la care msura este mai potrivit pentru
tipul setului de date sau metoda. Aceast seciune examineaz msurile de evaluare utilizate
n aceast lucrare i discut despre argumente pro i contra lor, pentru a le contrasteze mai
trziu, n experimente care implic seturi de date cu diferite caracteristici i metode diferite
HMC.
2.1. Msuri de evaluare bazate ierarhie
Msuri de evaluare bazate pe ierarhie ia n considerare att strmoii i descendenii
claselor prezise n ierarhia atunci cnd evalueaz un clasificator. n seciunea 2.1.1, vom
discuta despre dou variante de precizie ierarhic i de rechemare, i n seciunea 2.1.2,
prezentm funcia de pierdere ierarhic, care se bazeaz pe msura tradiional 0/1-pierdere.
2.1.1. Ierarhic de precizie i Recall. n Kiritchenko i colab. (2004), au fost propuse
dou msuri de evaluare bazate pe msurile de precizie i de rechemare convenionale pentru
a lua n considerare relaiile ierarhice dintre clase. Aceste dou msuri, numite de precizie
ierarhic i de rechemare ierarhic, au fost definite n mod formal n activitatea Kiritchenko et
al. (2005). Aceste msuri de evaluare au fost ulterior utilizate n Eisner i colab. (2005) i
Kiritchenko i colab. (2006).
Msurile de precizie i de rechemare ierarhice consider c o instan aparine, nu
numai la clasele sale prezis, ci i pentru toate clasele sale strmo n structura ierarhic. Prin
urmare, avnd n vedere o instan? xi; C0i, n cazul n care xi aparine spaiului X de
instane, C0i este multimea claselor prezise pentru xi, iar Ci este multimea claselor reale de
xi, seturile Ci i C0i poate fi extins pentru a conine clasele lor strmo corespunztoare ca
BCI DS ck2Ci Ancestors.ck/and bC0i DS cl2C0i Ancestors.cl /, n cazul n care Ancestors.ck/
reprezint setul de strmoi din clasa ck.
Ecuaiile (1) i (2) prezint precizia i rechemarea ierarhic msuri (CP si HR).
Aceste msuri contoriza numrul de clase a prezis corect, mpreun cu numrul de clase
strmo prezise corect (Kiritchenko et al. 2005). Figura 2 prezint un exemplu de modul de
calculare a acestor msuri. n figur, fiecare set de dou structuri ierarhice, una deasupra i
una de mai jos, reprezint clasele adevrate i prezise de o instan. n figura 2 (a), cercurile
solide reprezint adevratele clase de exemplu.
Dup cum se poate observa, toate nodurile din calea de la nodul rdcin la nodul de
clas a prezis un exemplu sunt caractere aldine, indicnd faptul c clasele strmo ale claselor
prezise sunt, de asemenea, atribuite instan. Marginile din nodul rdcin la nodul care
reprezint cea mai profund clas prezis de exemplu sunt de asemenea afiate ngroat.
Valorile CP i pentru cele trei hR prediciile diferite sunt, de asemenea, ilustrate n figur.
Ori de precizie ierarhic sau rechemarea ierarhic utilizat n monoterapie nu este
adecvat pentru evaluarea clasificatorii ierarhice (Sebastiani 2002). Ambele msuri trebuie s
fie luate n considerare mpreun sau combinate ntr-o singur msur F. Astfel, masurile HP
si sunt combinate pe HR o extensie ierarhic a F-msur, denumit Ierarhica-F, prezentat n
ecuaia (3). n ecuaia (3), reprezint importana atribuit valorilor hP i hR. Pe msur ce
crete valoarea, ponderea atribuit la valoarea hR, de asemenea, crete. Pe de alt parte,
atunci cnd valoarea scade, ponderea atribuit crete CP.
n aceeai direcie ca i Kiritchenko i colab. (2005), Ipeirotis, Gravano i Sahami
(2001), msurat, de asemenea, precizia ierarhic i retragerea de o instan prin intersecia
claselor prezise i adevrate. Cu toate acestea, spre deosebire de definiiile de precizie
ierarhic i rechemare descris anterior, Ipeirotis i colab. (2001) a extins setul de clase
adevrate i prezise prin includerea tuturor subclase lor, n loc de superclase lor.
Roxana In orice caz, chiar daca definitia de la precizia ierarhica care a fost descrisa
anterior, extinde un set de date precise incluzand toate subclasele, mai putin superclasele. Prin
urmare, fiind date setul de clase precise si adevarate, sunt extinse sa contina clasele
corespunzatoare descendente ca bC0i DSck2C0iDescendants.ck/ and bCi
DScl2CiDescendants.cl /, unde Descendants.ck/ denota un set de clase descendente. Aceasta
noua definitie a bC0i si bC poate fi direct utilizata in formulele prezentate in ecuatiile 1 si
2. Desi autorul sustine ca aceste masuri capteaza nuantele ierarhiilor clasificate, noi nu
credeam ca este corect in totalitate pentru sarcina HMC, deoarece extinde un set de clase ca sa
contina subclasele corespunzatoare care pot rezulta intr-o clasificare gresita. Ca un exemplu,
daca un document este clasificat in clasa sporturi, nu este neparat clasificat in ambele
subclase baschet si fotbal.

2.1.2. Functia pierduta ierarhica. Functia pierduta ierarhica (H-loss) este bazata pe conceptul
care presupune ca atunci cand o clasificare eronata apare intr-o clasa a ierarhiei nu ar trebui sa
fie data nicio penalizare pentru clasificarea eronata in subramura acelei clase. Daca o
clasificare eronata apare in clasa cj erorile aditionale care apar in subramura, notate ca cj nu
sunt importante. Ca exemplu, daca clasificatorul eronat clasifica un document ca bunuri in
clasa sporturi, acest clasificator nu ar trebui sa fie penalizat din nou clasificandu-l eronat in
subclasa fotbal.
Consideram faptul ca clasele adevarate alocate la un aumit xj este un subgrup al
setului C format din toate clasele incluzand si setul gol. Acest subgrup este reprezentat de un
vector (c1cjCj/), unde o clasa cj apartine unui subgrup de clase cum ar fi xj doar daca cj=1.
Inainte de a defini functia H-loss doua masuri in ceea ce priveste diferenta dintre predictia
unui multilabel pentru xj si adevartul set de clase al lui xj pentru fiecare exemplu care
trebui sa fie introdus. Primul este pierderea zero-one prezentata in ecuatie. A doua este
pierderea diferentei simetrice definita in ecuatie. Trebuie tinut minte ca aceste ecuatii nu
considera structura ierarhica o problema, doar mai multe marci . Pe baza acestor doua masuri
Cesa-Bianchi et el. (2006) propun functia H-loss definita in ecuatie. In ecuatii, 1{.} este o
functie indicatoare de performanta daca ecuatia data este adevarata sau este 0.

Aceasta masura este bazata pe faptul ca daca o luam o structura ierarhica G, structura
poate fi considerata o padure alcatuita din copaci definita de un set de clase al problemei. O
clasificare a Multilabel respecta structura G doar daca C reprezinta uniunea dintre una sau
mai multe parti din G, unde fiecare cale incepe intr-o clasa radacina si nu neaparat se termina
sus intr-o clasa frunza. Prin urmare, toate partile lui G dintr-o clasa radacina la o clasa frunza
sunt examinate.
Cand o clasa cj este gasita si cj este diferit de cj, valoarea 1 este adaugata la functia H-loss si
toate predictiile radacinilor subarborilor in clasa cj sunt discardate.
Fig. 3 arata conceptul si folosinta functiei H-loss. In cele 4 clase ierarhice ilustrate,
nodurile gri rotunde reprezinta clasele sustinute de un exemplu unde nodurile gri rotunde
reprezinta adevaratele clase ale instantei. Trebuie notat ca figura 3A a clasei prezise nu
respecta strutura ierarhiei G (parintii nodurilor frunzelor prezise nu sunt prezise), desi in
figura 3(b) structura este respectata. Fig. 3(c) arata ca adevaratele clase ale instantelor
clasificate in fig 3(b) si 3(d) arata ca aplicatiile functiei H-loss considera clasificarea
multilabel ilustrat in (b) si (c). Doar nodurile marcate cu un X sunt luate in considerare
cand calculezi H-loss. Dupa cum poate fi vazut, valorile pierderilor zero-one si diferentele
pierderilor simetrice sunt 1 si respectiv 6. Functia H-loss revine la valoarea 4. Tineti minte cu
cat este mai mica valoarea functiei H-loss, cu atat este mai buna performanta clasificatorului.
Dupa cum masura pierderii functiei ierarhice ignora eroarea din subcopaci ale claselor
desemnate eronat pt instante, eroarea problemei propagate prezentata in clasificarea ierarhica
nu este luata in considerare. Desi unii autori lucreaza cu aceste masuri, nu pot fi usor
comparati cu altii din literatura.
2.2. Msuri de evaluare bazate pe distane Simona
Aceast clas de msuri se bazeaz pe presupunerea c anumite clase mai apropiate n
ierarhie, tind s fie mai asemntoare ntre ele (reprezentnd o eroare de clasificare mai mic),
dect clasele mai ndeprtate .
Prin urmare, aceste msuri au luat n considerare distana dintre clasele reale i au prezis
clasele n timpul evalurii. Seciunea 2.2.1 evalueaza distanta micro / macro n funcie de
precizia ierarhic i distanta micro / macro pe baz de rechemare ierarhic, iar seciunea 2.2.2
discut cele mai multe metode comune de a calcula distanele intre nodurile ierarhice.

2.2.1. Distanta micro / macro bazata pe precizia ierarhica si pe rechemare


Masurile micro/ macro bazate pe precizie ierarhic i micro/ macro de rechemare ierarhica,
propuse de Sun i Lim (2001), se bazeaz pe distana dintre clasele prezise i cele reale.
Precizia ierarhic i de rechemare macro calculeaz iniial performana obinut n fiecare
clasa separat i returneaz media acestor valori pentru fiecare msur. Pe de alt parte,
precizia ierarhic i de rechemare micro, calculeaz media aritmetic a performanelor
obinute n fiecare caz a unui set de date. Prin urmare, n timp ce msurile macro sunt
considerate o clas medie pentru fiecare msur de performan, sunt luate n considerare
msurile de micro per, ce nseamn msura de performan (Yang 1999).
Pentru fiecare dintre aceste msuri, este necesar s se defineasc n primul rnd, pentru fiecare
clas, contribuia cazurilor care au fost atribuite n mod eronat acelei clase. Aceast
contribuie este definit n funcie de o distan acceptabil (numrul de muchii/margini(Dis
L)), ntre o clasa prezisa i o clas adevrat, care trebuie s fie mai mare dect zero. Ca un
exemplu, atunci cnd se utilizeaz valoarea Dis L= 2, instanele care sunt usor clasificate
gresit (cu doar dou margini dintre clasele prezise i cele adevrate n ierarhia de clas) da
contribuie zero n calculul msurilor, n timp ce instanele care sunt mai serios clasificate
incorect (cu mai mult de dou margini ntre clasele prezise i clasele adevrate) contribuie
negativ la valorile msurilor. Ecuaiile (7) i (8) specific contribuia unui caz xi la o clas
cj, unde xi.agd i xi.lbd sunt, respectiv, clasele prezise si adevrate ale lui xi.
Dis(c, c`j) este distana dintre o clas adevrat c i o clas de prezis c`j i poate fi
calculat utiliznd oricare dintre abordrile descrise n seciunea 2.2.2.
Daca xi este fals pozitiva:
.

Daca xi este fals negativa:


Contributia unui cazxi este apoi limitata la valorile [-1,1]. Aceasta perfectionare
notata cu Rcon(xi, c`j) este definita in ecuatia (9).
.

Contributia totala a fals pozitivelor (FP) (FpConj) si a fals negativelor (FN) (FnConj)
pentru toate cazurile este definita in ecuatiile (10) si (11).
Dupa calcularea contributiilor in fiecare caz in parte, valorile ierarhice de precizie si
de rechemare pentru fiecare clasa sunt calculate dupa cum sunt definite si in ecuatiile
(12) si (13).
..

n cele din urm, valorile extinse de precizie ierarhic i de rechemare (precizie


micro-ierarhic i rechemare) sunt prezentate n ecuaiile (14) i (15), unde m
reprezint numrul de clase.

S-ar putea să vă placă și