Sbi Romana 1

1. Clasificare metodologii
În acest capitol vom discuta metodologiile de clasificare. Mai exact, vom analiza următoarele:
 k - Rețeaua neuronală cea mai apropiată ( k -NN) și multiplă -perceptron (MLP) clasificatoare;
 Măsuri de performanță ale clasificatorului;
 Validare încrucișată abordari;
 Măsura statistică pentru a compara performanțele a două metode.
1.1 Ce este clasificare?
Clasificarea este un proces în care etichetele necunoscute ale datelor de testare / modele sunt
prezise și pot fi împărțite în supravegheate și nesupravegheate. Ne vom concentra pe metodologiile
supravegheate de clasificare aici.
În mod normal, pentru studiile de clasificare, avem trei tipuri de seturi de date: formare, validare și
testare. Etichetele de clasă / categorie din seturile de date de instruire și validare sunt cunoscute, în
timp ce pentru testarea datelor etichetele de clasă / categorie sunt necunoscute. Procesul de
instruire este locul unde se formează un model de clasificare / regulă de decizie utilizând setul de
date de antrenament, în timp ce setul de date de validare este utilizat pentru a decide cei mai buni
parametri ai modelului. Setul de date de validare este, de asemenea, utilizat pentru a obține o
măsură de performanță privind bunătatea modelului prin clasificarea, de exemplu, prezicerea
etichetelor de clasă de date de validare și compararea cu etichetele reale. Dacă măsura de
performanță este satisfăcătoare, modelul de clasificare obținut ar putea fi apoi folosit pentru a
prezice clasele necunoscute ale seturilor de date de testare și acest lucru este cunoscut sub numele
de test proces.

Model de
decizie proiecta utilizând Instruire date
Clasa / eticheta datelor de validare este prezisă și comparată cu eticheta actuală pentru a da
măsurarea performanței
Model de decizie finală
Model actualizat
Prezintă etichetele necunoscute ale seturilor de date de testare

Figura 6.1: Procedura de clasificare (formare și testare).
1.2 Cel mai apropiat vecin clasificator
Cel mai apropiat vecin este unul dintre cei mai simpli clasificatori. Un model din datele de testare
este clasificat prin calcularea distanței la toate modelele din datele de antrenament; clasa modelului
de antrenament care dă cea mai scurtă distanță determină clasa modelului de testare. Luați în
considerare o diagramă a mai multor modele de antrenament (fiecare cu două caracteristici) din
două clase (A și B) și un model de testare, după cum se arată în figura 6.2. Cel mai apropiat vecin la x
este modelul de antrenament A, prin urmare, x este prezis ca aparținând clasei A.
Figura 6.2: Plotul mai multor modele de antrenament din două clase, A și B și un model de testare, x.
Euclidean și Manhattan (blocul de oraș) sunt de obicei utilizate măsuri de distanță. Distanța

ecuideană între două puncte poate fi calculată ca

unde R este numărul de caracteristici. De exemplu, în planul euclidian cu două trăsături, distanța de

la punctele (2, 5) la (6, 8) este sqrt ((2-6) 2 + (5-8) 2 ) = 5.
Distanța de la Manhattan poate fi calculată folosind
d M ( p , q ) 
. (6.2)

De exemplu, distanța dintre cele două puncte ar fi acum | 2-6 | + | 5-8 | = 7.
Clasificatorul k- NN extinde această idee luând numărul k al celor mai apropiate modele și folosind o
regulă majoritară pentru a decide eticheta clasei de test. Este comun să selectați o valoare mică
pentru k 29 și ciudat să rupă legăturile. In exemplul de mai sus, N = 9 și folosind o valoare k de 3,
vecinii cei mai apropiați sunt modele din clasa A, A și B, deci x este clasificat (adică a prezis) ca
aparținând clasei A. Larger k(adică formarea mai mare set de date) ajută la reducerea efectelor
tiparelor zgomotoase din setul de date de instruire, dar la un cost computational mai ridicat.
Un alt exemplu k -NN ilustrat este prezentat în Figura 6.3. Cu k = 1, modelul X va fi clasificat din clasa
B, în timp ce cu k = 3 și k = 5, clasa prezisă va fi B și, respectiv, A. Trebuie notat că k = 3 ar trebui
aleasă ca N = 7 aici: sqrt (7) = 2.65 = 3.
Figura 6.3: Exemplul k -NN cu valori k variabile .

1.2.1 k-NN algoritmul
Etapele din algoritmul k -NN sunt
1. Determinați parametrul k , adică numărul celor mai apropiați vecini utilizare;
2. Calculați distanța dintre modelul de testare și întregul antrenament modele;
3. Sortați distanța și stabiliți cel mai apropiat k vecini;
4. Adunați etichetele categoriei / clasei celei mai apropiate vecini;
5. Utilizați majoritatea simplă a claselor celor mai apropiate vecini pentru a determina clasa
testului model.
Ca exemplu numeric, luați în considerare următoarea problemă. Să presupunem că există două

caracteristici autoregresive (AR) obținute din semnale electroencefalograme (EEG) înregistrate de la
doi subiecți alcoolici și doi subiecți fără alcool 30 așa cum se arată în Tabelul 6.1. Acum, folosind k- NN,
să clasificăm dacă un subiect Y cu date de testare, Y (3,7), adică X1 = 3 și X2 = 7, este alcoolic sau
nealcoolic.
Tabelul 6.1: Datele de instruire pentru exemplul numeric k -NN
Ca un prim pas, determina k. Aici, k ar putea fi 1 sau 3 ca sqrt (4) = 2 și adesea selectăm k pentru a fi

ciudat. Apoi, calculează, spune distanța Euclidiană de Y (3,7) la fiecare model de antrenament:

Instruire modele distanta euclidiana
Modelul de încercare Y (3,7)
T1 (7,7)
T2 (7,4)
T3 (3,4)
T4 (1,4)
 4
 5
 3
 3.6
Cu k = 1, modelul de antrenament cel mai apropiat de Y este T3. Deoarece T3 este de la un subiect
nealcoolic, subiectul Y este clasificat ca nealcoolic cu k = 1. Similar cu k = 3, cele mai apropiate
modele de antrenament la Y sunt T3, T4 și T1. Majoritatea este clasa non-alcoolică, astfel încât
subiectul Y este clasificat ca nealcoolic, de asemenea cu k = 3.
1.2.2 Avantajele și dezavantajele lui k -NN clasificator
Avantajele clasificatorului k -NN sunt
 Robust la outliers (modele de antrenament zgomotoase) dacă k este

suficient de mare. De exemplu, modelul de testare X este corect
clasificat (cu k = 3) ca A în figura 6.4 chiar dacă există un model
zgomotos din clasa B, care X este cel mai apropiat.
Exercițiu pentru clasa B
k=3
Legendă
datele de antrenament de clasa A

Exercițiu pentru clasa A
datele de antrenament de clasa B X modelul de a fi testat
Figura 6.4: k- NN este robust la valori extreme.
 În general, acesta oferă performanțe bune de clasificare, deoarece

limitele de decizie pot fi neliniare.
 Algoritmul este ușor de înțeles și punerea în aplicare.
Dezavantajele lui k -NN sunt
 Estimarea parametrilor: Este necesar să se determine valoarea

parametrului k (numărul de vecini apropiați) prin încercare și
eroare. Deși s-ar putea folosi regula sqrt ( N ); când N este relativ
mare, această regulă este dificil de aplicat. De asemenea, diferite
măsuri îndepărtate pot da performanțe diferite și din nou se
folosește o metodă de încercare și de eroare pentru a decide cea mai
bună distanțăcriteriu.
 Nu sunt date robuste la irelevante, deoarece caracteristicile

irelevante au aceeași influență asupra clasificării ca și caracteristicile
bune. O soluție în acest sens este de a multiplica distanțele față de
caracteristicile astfel încât caracteristicile irelevante și redundante să
aibă o greutate mai mică (aceasta este cunoscută sub numele de k -
NN ponderată ). De exemplu, dacă există două caracteristici și
caracteristica 1 este mai discriminatorie, atunci greutatea pentru
caracteristica 1 ar putea fi de 0,7 și greutatea pentru elementul 2 va
fi 0,3. Folosind această
metodă, Manhattan distanţă de Două puncte,A (1,3) și X
(6,5) ar fi 0.7 * | 6-1 | + 0.3 * | 5-3 |
= 4,1 mai degrabă decât distanța standard din Manhattan de | 6-1 | + | 5-3 | = 7.
 Costul de calcul este destul de ridicat, deoarece este necesar să se

calculeze distanțele fiecărui tip de test la toate formările modele.
 Modelul de antrenament nu este ușor să interpreta.
1.2.3 Programul MATLAB pentru k -NN
În această secțiune, vom examina un program MATLAB pentru implementarea lui k -NN. Vom folosi
exemplul alcoolic și nealcoolic discutat mai devreme. Setul de seturi de seturi de instruire va fi
denumit "tren" și set de date de testare ca "test". De asemenea, să presupunem că clasa alcoolică
este reprezentată de "0" și de clasa non-alcoolică cu "1".
% date inițiale
tren = [7 7; 7 4; 3 4; 1 4];
test = [3 7];
țintă = [0 0 1 1]; % alcoolic reprezentat de '0'; non-alcoolice prin
'1'
% determină distanțele, să zicem Euclidian pentru i = 1: lungime (tren)
Edist (i) = sqrt (suma ((tren (i,:) - test) * (tren (i,:.) - test)));
Sfârșit

% se alăture informațiilor țintă cu distanța Et = [Edist; ţintă]
% transpun Et = Et ';
sortați distanțele sortEt = sortrows (Et)
% determină majoritatea k vecinilor, să zicem k = 3 k = 3;
predicted_class = mod (sortEt (1: k, 2))
% afișare de ieșire
dacă (predicted_class == 0) disp ("Subiectul este alcoolic")
altfel
disp ("Subiectul este nealcoolic")
Sfârșit
Afișajul de ieșire din program este prezentat în Figura 6.5.
Figura 6.5: Afișarea ieșirii programului k -NN.
1.2.4 Reducerea k -NN de formare de date CCD mărimea

Pentru a utiliza k- NN, trebuie să calculam distanțele modelului de testare de la fiecare model de

antrenament și acest lucru este foarte computational. Deci, există tehnici de reducere a mărimii
setului de date de antrenament, unde ideea generală este de a elimina cât mai multe modele de
formare posibil cu un impact minim asupra producției clasificatorului (adică performanță).
Metoda cea mai simplă este utilizarea suprafeței de decizie pentru clasificator, unde modelele care
se află cel mai aproape de limită sunt cele care determină forma limitei și aceste modele nu pot fi
eliminate.Modelele care sunt departe de graniță și înconjurate de aceleași modele de clasă sunt
redundante și pot fi eliminate fără a afecta producția clasificatorului. Figura 6.6 ilustrează această
metodă cu un exemplu. Dar această metodă poate fi aplicată numai pentru un număr mai mic de
modele cu limite simple de decizie. Așadar, vom analiza două metode mai bune 31 : Cel mai apropiat
vecin condensat și cel mai apropiat editatVecin.
li mita de decizie
Pentru a clasifica X, trebuie să anticipăm prin calcularea distanțelor de la X la 15 modele (9 din clasa A
și 6 din clasă B)

Scoateți datele de antrenament departe de limita de decizie
Pentru a clasifica X, trebuie să calculam distanțele de la X la numai 12 Instruire
modele (6 date din clasa A și 6 din clasa B)
X prezis ca clasa A (cu k = 3)
Legendă
clasa A datele de antrenament de clasă B de instruire
X modelul de a fi testat

Figura 6.6: Metodă simplă pentru diminuarea dimensiunii modelului de antrenament k -NN.
1.2.5 Condensat Cel mai apropiat Vecin
Algoritmul este următorul [1]:
Folosind modele de antrenament, creați două pungi: magazin și apuca. Puneți toate modelele de
antrenament în geanta:
1. Luați un model de antrenament din fiecare clasă din geanta și puneți-o în magazin sac
2. Luați toate modelele de antrenament disponibile în geanta și clasificați utilizând modelele din
geanta de magazin ca formare date CCD
3a. Dacă datele sunt incorect clasificate, atunci acestea sunt adăugate la magazinul 3b. Dacă este
corect clasificat, lăsați-l în geantă
4. Repetați pașii 2 și 3a / 3b până când punga de apucare este goală sau nu mai există transferuri
către magazie (adică nu se modifică apuca sac)
5. Magazinul formează apoi formarea condensată a stabilit
Ca rezultat al acestei condensări, performanța de clasificare poate scădea. Figura 6.7 prezintă un

exemplu în care avem cinci modele de antrenament din două clase (A și B): T1, T2 sunt din clasa A și
T3, T4, T5 sunt din clasa B.

1. Luați câte un curs de instruire din fiecare clasă, spuneți T1 și T3 din geanta și puneți-vă în
magazin sac
2. Luați toate datele de instruire disponibile în sacul de apucare (adică T2, T4 și T5) și
clasificați utilizarea datelor din geanta de magazin ca formare a stabilit
3a. Dacă datele sunt incorect clasificate, atunci acestea sunt adăugate la punga de magazie 3b. Dacă
este corect clasificat, lăsați-l în geantă
Spune că T2 este incorect clasificat ca clasa B, adăugați T2 pentru a stoca geanta
Spuneți că T4 și T5 sunt corect clasificate ca clasa B, lăsați-le în geantă
4. Repetați pașii 2 și 3a / 3b până când punga de apucare este goală sau nu mai există
transferuri către magazie (adică nu se modifică apuca sac)
Spuneți că T4 și T5 sunt încă clasificate corect, astfel încât să nu se schimbe bagajul
5. Magazinul formează setul de antrenament condensat Din 5 date de instruire, le-am redus 3
Punga de depozitare
Pungă de captură

Figura 6.7: Exemplul cel mai apropiat de vecinul condensat.
1.2.6 Editat cel mai apropiat Vecin
Acesta este un proces mai simplu în care un model este luat în setul de antrenament și eliminat dacă
nu este de acord cu cei mai apropiați vecini k . Acest proces se repetă pentru toate datele de
antrenament. Se pot face mai multe treceri pentru a elimina un procent suplimentar de date. Acest
lucru generează limite netede și, de asemenea, elimină date exagerate / zgomotoase. Figura 6.8
prezintă un exemplu al acestei metode.

Scoateți modelul de antrenament deoarece clasa sa nu este de acord cu k = 3

Păstrați modelul de antrenament deoarece clasa sa este de acord cu k = 3
Legendă
clasa A datele de antrenament de clasă B de instruire
X modelul de a fi testat
Figura 6.8: Exemplul Neighbor Neighbour Editat.
1.3 Artificial neuron
În primul capitol, ne-am uitat la neuronul biologic și aici, o descriere a neuronului artificial va
fi dată înainte de a discuta clasificatorul rețelei neuronale. Un neuron artificial prezentat în
Figura 6.9 este un rezumat foarte simplu al unui neuron biologic prezentat în Figura 1.8. Are
un element de calcul elementar, numit nod sau unitate. Fiecare intrare x are o greutate
asociată w care poate fi modificată, iar intrările xcorespund semnalelor de la axonii altor
neuroni, în timp ce x 0 este o intrare specială de părtinire cu o greutate w 0 .

x 0
w 0
x 1 w 1
 y
w 2
x 2
Figura 6.9: Un model simplu de neuron artificial.
Greutățile w corespund modulației sinaptice (adică ceva de tipul puterii / cantității de

neurotransmițători), iar sumarea corespunde corpului celular:
z  x 0 w 0  x 1 w 1  x 2 w 2  ...  x m w m   x j w j .
j (6.3)
Funcția de activare corespunde colinei axonului, ea calculează funcția f a sumei ponderate a intrărilor
sale. Prin urmare, ieșirea neuronului y = f (z) corespunde unui semnal axon. Cea mai simplă f este
funcția liniară, adică ieșirea y = z. Există și alte funcții, cum ar fi binar, sigmoid și tanh. O funcție de
activare trebuie să fie continuă, diferențiată și limitată. Sigmoid este cea mai comună funcție de
activare și este definită de

y  1 .
1  e  z
(6.4)
Luați în considerare un exemplu pentru a calcula ieșirea neuronilor. Obțineți ieșirea, y având în

vedere următoarele: funcția de activare este sigmoidă; intrările sunt x 1 = 0,5 și x 2 = 0,15; greutățile
sunt w 1 = 0,02, w 2 = 0,7; înclinația ( x 0 ) este 1,0, iar greutatea părtinii ( w 0 ) este 0.9.
Răspunsul: ieșirea netă (înainte de activarea funcției) = 0.5 * 0.02 + 0.15 * 0.7 + 0.9 * 1.0 = 1.015 în
timp ce ieșirea neuronului (după funcția de activare) = 1 / (1 + e -1.015 ) = 0.7340.
1.4 Multiple strat-perceptron neural reţea
Multilayer-Perceptron (MLP) este una dintre cele mai utilizate arhitecturi ale rețelelor neuronale în
probleme de clasificare. Cantitățile de intrare sunt prelucrate prin straturi succesive de neuroni, în
care există trei 32 de straturi (deși este posibil să aibă două sau patru straturi). Un strat de intrare (care
primește intrări) are în mod normal neuroni (adică unități) egal cu numărul de caracteristici de
intrare, în timp ce stratul de ieșire (care generează ieșiri) va avea neuroni egal cu numărul de clase
din problemă 33 . Un strat ascuns (stratul între ele) poate avea orice număr de neuroni și această
valoare este în mod normal decisă prinîncercări și erori.

Text original în Engleză:
Statistical measure to compare the performances of two
Sugerați o traducere mai bună

Sbi Romana 1

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Sbi Romana 1

Încărcat de

Drepturi de autor:

Formate disponibile

 k - Rețeaua neuronală cea mai apropiată ( k -NN) și multiplă -perceptron (MLP) clasificatoare;

 Măsuri de performanță ale clasificatorului;

 Măsura statistică pentru a compara performanțele a două metode.

Model de decizie finală

Prezintă etichetele necunoscute ale seturilor de date de testare

1.2 Cel mai apropiat vecin clasificator

Euclidean și Manhattan (blocul de oraș) sunt de obicei utilizate măsuri de distanță. Distanța

unde R este numărul de caracteristici. De exemplu, în planul euclidian cu două trăsături, distanța de

Distanța de la Manhattan poate fi calculată folosind

Figura 6.3: Exemplul k -NN cu valori k variabile .

Etapele din algoritmul k -NN sunt

1. Determinați parametrul k , adică numărul celor mai apropiați vecini utilizare;

2. Calculați distanța dintre modelul de testare și întregul antrenament modele;

3. Sortați distanța și stabiliți cel mai apropiat k vecini;

4. Adunați etichetele categoriei / clasei celei mai apropiate vecini;

Ca exemplu numeric, luați în considerare următoarea problemă. Să presupunem că există două

Tabelul 6.1: Datele de instruire pentru exemplul numeric k -NN

Ca un prim pas, determina k. Aici, k ar putea fi 1 sau 3 ca sqrt (4) = 2 și adesea selectăm k pentru a fi

Modelul de încercare Y (3,7)

1.2.2 Avantajele și dezavantajele lui k -NN clasificator

 Robust la outliers (modele de antrenament zgomotoase) dacă k este

Exercițiu pentru clasa B

datele de antrenament de clasa A

Exercițiu pentru clasa A

datele de antrenament de clasa B X modelul de a fi testat

Figura 6.4: k- NN este robust la valori extreme.

 În general, acesta oferă performanțe bune de clasificare, deoarece

 Algoritmul este ușor de înțeles și punerea în aplicare.

Dezavantajele lui k -NN sunt

 Estimarea parametrilor: Este necesar să se determine valoarea

 Nu sunt date robuste la irelevante, deoarece caracteristicile

 Costul de calcul este destul de ridicat, deoarece este necesar să se

 Modelul de antrenament nu este ușor să interpreta.

1.2.3 Programul MATLAB pentru k -NN

tren = [7 7; 7 4; 3 4; 1 4];

țintă = [0 0 1 1]; % alcoolic reprezentat de '0'; non-alcoolice prin

% determină distanțele, să zicem Euclidian pentru i = 1: lungime (tren)

sortați distanțele sortEt = sortrows (Et)

% determină majoritatea k vecinilor, să zicem k = 3 k = 3;

predicted_class = mod (sortEt (1: k, 2))

dacă (predicted_class == 0) disp ("Subiectul este alcoolic")

disp ("Subiectul este nealcoolic")

Afișajul de ieșire din program este prezentat în Figura 6.5.

Figura 6.5: Afișarea ieșirii programului k -NN.

Pentru a utiliza k- NN, trebuie să calculam distanțele modelului de testare de la fiecare model de

Scoateți datele de antrenament departe de limita de decizie

Pentru a clasifica X, trebuie să calculam distanțele de la X la numai 12 Instruire

modele (6 date din clasa A și 6 din clasa B)

X prezis ca clasa A (cu k = 3)

clasa A datele de antrenament de clasă B de instruire

Figura 6.6: Metodă simplă pentru diminuarea dimensiunii modelului de antrenament k -NN.

1.2.5 Condensat Cel mai apropiat Vecin

Algoritmul este următorul [1]:

5. Magazinul formează apoi formarea condensată a stabilit

Ca rezultat al acestei condensări, performanța de clasificare poate scădea. Figura 6.7 prezintă un

Spune că T2 este incorect clasificat ca clasa B, adăugați T2 pentru a stoca geanta

Spuneți că T4 și T5 sunt corect clasificate ca clasa B, lăsați-le în geantă

Spuneți că T4 și T5 sunt încă clasificate corect, astfel încât să nu se schimbe bagajul

Figura 6.7: Exemplul cel mai apropiat de vecinul condensat.

1.2.6 Editat cel mai apropiat Vecin

Păstrați modelul de antrenament deoarece clasa sa este de acord cu k = 3

clasa A datele de antrenament de clasă B de instruire

Figura 6.8: Exemplul Neighbor Neighbour Editat.