Sunteți pe pagina 1din 24

 

1.         Clasificare metodologii

În acest capitol vom discuta metodologiile de clasificare. Mai exact, vom analiza următoarele:

 k - Rețeaua neuronală cea mai apropiată ( k -NN) și multiplă -perceptron (MLP) clasificatoare;

 Măsuri de performanță ale clasificatorului;

 Validare încrucișată abordari;

 Măsura statistică pentru a compara performanțele a două metode.

1.1        Ce este clasificare?

Clasificarea este un proces în care etichetele necunoscute ale datelor de testare / modele sunt
prezise și pot fi împărțite în supravegheate și nesupravegheate. Ne vom concentra pe metodologiile
supravegheate de clasificare aici.

În mod normal, pentru studiile de clasificare, avem trei tipuri de seturi de date: formare, validare și
testare. Etichetele de clasă / categorie din seturile de date de instruire și validare sunt cunoscute, în
timp ce pentru testarea datelor etichetele de clasă / categorie sunt necunoscute. Procesul de
instruire este locul unde se formează un model de clasificare / regulă de decizie utilizând setul de
date de antrenament, în timp ce setul de date de validare este utilizat pentru a decide cei mai buni
parametri ai modelului. Setul de date de validare este, de asemenea, utilizat pentru a obține o
măsură de performanță privind bunătatea modelului prin clasificarea, de exemplu, prezicerea
etichetelor de clasă de date de validare și compararea cu etichetele reale. Dacă măsura de
performanță este satisfăcătoare, modelul de clasificare obținut ar putea fi apoi folosit pentru a
prezice clasele necunoscute ale seturilor de date de testare și acest lucru este cunoscut sub numele
de test proces.

 
Model de
decizie proiecta utilizând               Instruire date

Clasa / eticheta datelor de validare este prezisă și comparată cu eticheta actuală pentru a da
măsurarea performanței

Model de decizie finală

Model actualizat

Prezintă etichetele necunoscute ale seturilor de date de testare

 
Figura 6.1: Procedura de clasificare (formare și testare).

1.2        Cel mai apropiat vecin clasificator

Cel mai apropiat vecin este unul dintre cei mai simpli clasificatori. Un model din datele de testare
este clasificat prin calcularea distanței la toate modelele din datele de antrenament; clasa modelului
de antrenament care dă cea mai scurtă distanță determină clasa modelului de testare. Luați în
considerare o diagramă a mai multor modele de antrenament (fiecare cu două caracteristici) din
două clase (A și B) și un model de testare, după cum se arată în figura 6.2. Cel mai apropiat vecin la x
este modelul de antrenament A, prin urmare, x este prezis ca aparținând clasei A.

Figura 6.2: Plotul mai multor modele de antrenament din două clase, A și B și un model de testare, x.

Euclidean și Manhattan (blocul de oraș) sunt de obicei utilizate măsuri de distanță. Distanța


ecuideană între două puncte poate fi calculată ca

 
 

unde R este numărul de caracteristici. De exemplu, în planul euclidian cu două trăsături, distanța de


la punctele (2, 5) la (6, 8) este sqrt ((2-6) 2 + (5-8) 2 ) = 5.

Distanța de la Manhattan poate fi calculată folosind

d M ( p , q ) 

.               (6.2)

 
De exemplu, distanța dintre cele două puncte ar fi acum | 2-6 | + | 5-8 | = 7.

Clasificatorul k- NN extinde această idee luând numărul k al celor mai apropiate modele și folosind o
regulă majoritară pentru a decide eticheta clasei de test. Este comun să selectați o valoare mică
pentru k 29 și ciudat să rupă legăturile. In exemplul de mai sus, N = 9 și folosind o valoare k de 3,
vecinii cei mai apropiați sunt modele din clasa A, A și B, deci x este clasificat (adică a prezis) ca
aparținând clasei A. Larger k(adică formarea mai mare set de date) ajută la reducerea efectelor
tiparelor zgomotoase din setul de date de instruire, dar la un cost computational mai ridicat.

Un alt exemplu k -NN ilustrat este prezentat în Figura 6.3. Cu k = 1, modelul X va fi clasificat din clasa
B, în timp ce cu k = 3 și k = 5, clasa prezisă va fi B și, respectiv, A. Trebuie notat că k = 3 ar trebui
aleasă ca N = 7 aici: sqrt (7) = 2.65 = 3.

Figura 6.3: Exemplul k -NN cu valori k variabile .

 
1.2.1         k-NN algoritmul

Etapele din algoritmul k -NN sunt

1.        Determinați parametrul k , adică numărul celor mai apropiați vecini utilizare;

2.        Calculați distanța dintre modelul de testare și întregul antrenament modele;

3.        Sortați distanța și stabiliți cel mai apropiat k vecini;

4.        Adunați etichetele categoriei / clasei celei mai apropiate vecini;

5.        Utilizați majoritatea simplă a claselor celor mai apropiate vecini pentru a determina clasa
testului model.

Ca exemplu numeric, luați în considerare următoarea problemă. Să presupunem că există două


caracteristici autoregresive (AR) obținute din semnale electroencefalograme (EEG) înregistrate de la
doi subiecți alcoolici și doi subiecți fără alcool 30 așa cum se arată în Tabelul 6.1. Acum, folosind k- NN,
să clasificăm dacă un subiect Y cu date de testare, Y (3,7), adică X1 = 3 și X2 = 7, este alcoolic sau
nealcoolic.

Tabelul 6.1: Datele de instruire pentru exemplul numeric k -NN

Ca un prim pas, determina k. Aici, k ar putea fi 1 sau 3 ca sqrt (4) = 2 și adesea selectăm k pentru a fi


ciudat. Apoi, calculează, spune distanța Euclidiană de Y (3,7) la fiecare model de antrenament:

 
Instruire modele               distanta euclidiana

Modelul de încercare Y (3,7)

T1 (7,7)

T2 (7,4)

T3 (3,4)

T4 (1,4)

 4

 5

 3

 3.6

Cu k = 1, modelul de antrenament cel mai apropiat de Y este T3. Deoarece T3 este de la un subiect
nealcoolic, subiectul Y este clasificat ca nealcoolic cu k = 1. Similar cu k = 3, cele mai apropiate
modele de antrenament la Y sunt T3, T4 și T1. Majoritatea este clasa non-alcoolică, astfel încât
subiectul Y este clasificat ca nealcoolic, de asemenea cu k = 3. 

1.2.2          Avantajele și dezavantajele lui k -NN clasificator

Avantajele clasificatorului k -NN sunt

 Robust la outliers (modele de antrenament zgomotoase) dacă k este


suficient de mare. De exemplu, modelul de testare X este corect
clasificat (cu k = 3) ca A în figura 6.4 chiar dacă există un model
zgomotos din clasa B, care X este cel mai apropiat.

Exercițiu pentru clasa B

k=3

Legendă

datele de antrenament de clasa A

 
 

Exercițiu pentru clasa A

datele de antrenament de clasa B X               modelul de a fi testat

Figura 6.4: k- NN este robust la valori extreme.

 În general, acesta oferă performanțe bune de clasificare, deoarece


limitele de decizie pot fi neliniare.

 Algoritmul este ușor de înțeles și punerea în aplicare.

Dezavantajele lui k -NN sunt

 Estimarea parametrilor: Este necesar să se determine valoarea


parametrului k (numărul de vecini apropiați) prin încercare și
eroare. Deși s-ar putea folosi regula sqrt ( N ); când N este relativ
mare, această regulă este dificil de aplicat. De asemenea, diferite
măsuri îndepărtate pot da performanțe diferite și din nou se
folosește o metodă de încercare și de eroare pentru a decide cea mai
bună distanțăcriteriu.

 Nu sunt date robuste la irelevante, deoarece caracteristicile


irelevante au aceeași influență asupra clasificării ca și caracteristicile
bune. O soluție în acest sens este de a multiplica distanțele față de
caracteristicile astfel încât caracteristicile irelevante și redundante să
aibă o greutate mai mică (aceasta este cunoscută sub numele de k -
NN ponderată ). De exemplu, dacă există două caracteristici și
caracteristica 1 este mai discriminatorie, atunci greutatea pentru
caracteristica 1 ar putea fi de 0,7 și greutatea pentru elementul 2 va
fi 0,3. Folosind această
metodă, Manhattan distanţă de Două puncte,A (1,3) și X
(6,5) ar fi 0.7 * | 6-1 | + 0.3 * | 5-3 |

= 4,1 mai degrabă decât distanța standard din Manhattan de | 6-1 | + | 5-3 | = 7.

 Costul de calcul este destul de ridicat, deoarece este necesar să se


calculeze distanțele fiecărui tip de test la toate formările modele.

 Modelul de antrenament nu este ușor să interpreta.

1.2.3          Programul MATLAB pentru k -NN

În această secțiune, vom examina un program MATLAB pentru implementarea lui k -NN. Vom folosi
exemplul alcoolic și nealcoolic discutat mai devreme. Setul de seturi de seturi de instruire va fi
denumit "tren" și set de date de testare ca "test". De asemenea, să presupunem că clasa alcoolică
este reprezentată de "0" și de clasa non-alcoolică cu "1".

% date inițiale

tren = [7 7; 7 4; 3 4; 1 4];

test = [3 7];

țintă = [0 0 1 1]; % alcoolic reprezentat de '0'; non-alcoolice prin

'1'

% determină distanțele, să zicem Euclidian pentru i = 1: lungime (tren)

Edist (i) = sqrt (suma ((tren (i,:) - test) * (tren (i,:.) - test)));

Sfârșit

 
% se alăture informațiilor țintă cu distanța Et = [Edist; ţintă]

% transpun Et = Et ';

sortați distanțele sortEt = sortrows (Et)

% determină majoritatea k vecinilor, să zicem k = 3 k = 3;

predicted_class = mod (sortEt (1: k, 2))

% afișare de ieșire

dacă (predicted_class == 0) disp ("Subiectul este alcoolic")

altfel

disp ("Subiectul este nealcoolic")

Sfârșit

Afișajul de ieșire din program este prezentat în Figura 6.5.

Figura 6.5: Afișarea ieșirii programului k -NN.

1.2.4         Reducerea k -NN de formare de date CCD mărimea
 

Pentru a utiliza k- NN, trebuie să calculam distanțele modelului de testare de la fiecare model de


antrenament și acest lucru este foarte computational. Deci, există tehnici de reducere a mărimii
setului de date de antrenament, unde ideea generală este de a elimina cât mai multe modele de
formare posibil cu un impact minim asupra producției clasificatorului (adică performanță).

Metoda cea mai simplă este utilizarea suprafeței de decizie pentru clasificator, unde modelele care
se află cel mai aproape de limită sunt cele care determină forma limitei și aceste modele nu pot fi
eliminate.Modelele care sunt departe de graniță și înconjurate de aceleași modele de clasă sunt
redundante și pot fi eliminate fără a afecta producția clasificatorului. Figura 6.6 ilustrează această
metodă cu un exemplu. Dar această metodă poate fi aplicată numai pentru un număr mai mic de
modele cu limite simple de decizie. Așadar, vom analiza două metode mai bune 31 : Cel mai apropiat
vecin condensat și cel mai apropiat editatVecin.

li mita de decizie

Pentru a clasifica X, trebuie să anticipăm prin calcularea distanțelor de la X la 15 modele (9 din clasa A
și 6 din clasă B)

 
 

Scoateți datele de antrenament departe de limita de decizie

Pentru a clasifica X, trebuie să calculam distanțele de la X la numai 12 Instruire

modele (6 date din clasa A și 6 din clasa B)

X prezis ca clasa A (cu k = 3)

Legendă

clasa A datele de antrenament de clasă B de instruire

X               modelul de a fi testat

 
 

Figura 6.6: Metodă simplă pentru diminuarea dimensiunii modelului de antrenament k -NN.

1.2.5         Condensat Cel mai apropiat Vecin

Algoritmul este următorul [1]:

Folosind modele de antrenament, creați două pungi: magazin și apuca. Puneți toate modelele de
antrenament în geanta:

1.        Luați un model de antrenament din fiecare clasă din geanta și puneți-o în magazin sac

2.        Luați toate modelele de antrenament disponibile în geanta și clasificați utilizând modelele din
geanta de magazin ca formare date CCD

3a. Dacă datele sunt incorect clasificate, atunci acestea sunt adăugate la magazinul 3b. Dacă este
corect clasificat, lăsați-l în geantă

4.        Repetați pașii 2 și 3a / 3b până când punga de apucare este goală sau nu mai există transferuri
către magazie (adică nu se modifică apuca sac)

5.        Magazinul formează apoi formarea condensată a stabilit

Ca rezultat al acestei condensări, performanța de clasificare poate scădea. Figura 6.7 prezintă un


exemplu în care avem cinci modele de antrenament din două clase (A și B): T1, T2 sunt din clasa A și
T3, T4, T5 sunt din clasa B.

 
 

1.          Luați câte un curs de instruire din fiecare clasă, spuneți T1 și T3 din geanta și puneți-vă în
magazin sac

2.           Luați toate datele de instruire disponibile în sacul de apucare (adică T2, T4 și T5) și
clasificați utilizarea datelor din geanta de magazin ca formare a stabilit

3a. Dacă datele sunt incorect clasificate, atunci acestea sunt adăugate la punga de magazie 3b. Dacă
este corect clasificat, lăsați-l în geantă

Spune că T2 este incorect clasificat ca clasa B, adăugați T2 pentru a stoca geanta

Spuneți că T4 și T5 sunt corect clasificate ca clasa B, lăsați-le în geantă

4.          Repetați pașii 2 și 3a / 3b până când punga de apucare este goală sau nu mai există
transferuri către magazie (adică nu se modifică apuca sac)

Spuneți că T4 și T5 sunt încă clasificate corect, astfel încât să nu se schimbe bagajul

5.     Magazinul formează setul de antrenament condensat Din 5 date de instruire, le-am redus 3

Punga de depozitare

Pungă de captură

 
 

Figura 6.7: Exemplul cel mai apropiat de vecinul condensat.

1.2.6         Editat cel mai apropiat Vecin

Acesta este un proces mai simplu în care un model este luat în setul de antrenament și eliminat dacă
nu este de acord cu cei mai apropiați vecini k . Acest proces se repetă pentru toate datele de
antrenament. Se pot face mai multe treceri pentru a elimina un procent suplimentar de date. Acest
lucru generează limite netede și, de asemenea, elimină date exagerate / zgomotoase. Figura 6.8
prezintă un exemplu al acestei metode.

 
Scoateți modelul de antrenament deoarece clasa sa nu este de acord cu k = 3

   

Păstrați modelul de antrenament deoarece clasa sa este de acord cu k = 3

 Legendă

clasa A datele de antrenament de clasă B de instruire

X               modelul de a fi testat

Figura 6.8: Exemplul Neighbor Neighbour Editat.

1.3        Artificial neuron
În primul capitol, ne-am uitat la neuronul biologic și aici, o descriere a neuronului artificial va
fi dată înainte de a discuta clasificatorul rețelei neuronale. Un neuron artificial prezentat în
Figura 6.9 este un rezumat foarte simplu al unui neuron biologic prezentat în Figura 1.8. Are
un element de calcul elementar, numit nod sau unitate. Fiecare intrare x are o greutate
asociată w care poate fi modificată, iar intrările xcorespund semnalelor de la axonii altor
neuroni, în timp ce x 0 este o intrare specială de părtinire cu o greutate w 0 .
 

 
x 0

w 0

x 1                             w 1

               y

w 2

x 2

Figura 6.9: Un model simplu de neuron artificial.

Greutățile w corespund modulației sinaptice (adică ceva de tipul puterii / cantității de


neurotransmițători), iar sumarea corespunde corpului celular:

z  x 0 w 0  x 1 w 1  x 2 w 2  ...  x m w m   x j w j .

j                             (6.3)

Funcția de activare corespunde colinei axonului, ea calculează funcția f a sumei ponderate a intrărilor
sale. Prin urmare, ieșirea neuronului y = f (z) corespunde unui semnal axon. Cea mai simplă f este
funcția liniară, adică ieșirea y = z. Există și alte funcții, cum ar fi binar, sigmoid și tanh. O funcție de
activare trebuie să fie continuă, diferențiată și limitată. Sigmoid este cea mai comună funcție de
activare și este definită de

 
 

y                1               .

1  e  z

(6.4)

Luați în considerare un exemplu pentru a calcula ieșirea neuronilor. Obțineți ieșirea, y având în


vedere următoarele: funcția de activare este sigmoidă; intrările sunt x 1 = 0,5 și x 2 = 0,15; greutățile
sunt w 1 = 0,02, w 2 = 0,7; înclinația ( x 0 ) este 1,0, iar greutatea părtinii ( w 0 ) este 0.9.

Răspunsul: ieșirea netă (înainte de activarea funcției) = 0.5 * 0.02 + 0.15 * 0.7 + 0.9 * 1.0 = 1.015 în
timp ce ieșirea neuronului (după funcția de activare) = 1 / (1 + e -1.015 ) = 0.7340.

1.4        Multiple strat-perceptron neural reţea

Multilayer-Perceptron (MLP) este una dintre cele mai utilizate arhitecturi ale rețelelor neuronale în
probleme de clasificare. Cantitățile de intrare sunt prelucrate prin straturi succesive de neuroni, în
care există trei 32 de straturi (deși este posibil să aibă două sau patru straturi). Un strat de intrare (care
primește intrări) are în mod normal neuroni (adică unități) egal cu numărul de caracteristici de
intrare, în timp ce stratul de ieșire (care generează ieșiri) va avea neuroni egal cu numărul de clase
din problemă 33 . Un strat ascuns (stratul între ele) poate avea orice număr de neuroni și această
valoare este în mod normal decisă prinîncercări și erori.

             

 
Text original în Engleză:

Statistical measure to compare the performances of two

 Sugerați o traducere mai bună

S-ar putea să vă placă și