Documente Academic
Documente Profesional
Documente Cultură
1. Clasificare metodologii
În acest capitol vom discuta metodologiile de clasificare. Mai exact, vom analiza următoarele:
Validare încrucișată abordari;
1.1 Ce este clasificare?
Clasificarea este un proces în care etichetele necunoscute ale datelor de testare / modele sunt
prezise și pot fi împărțite în supravegheate și nesupravegheate. Ne vom concentra pe metodologiile
supravegheate de clasificare aici.
În mod normal, pentru studiile de clasificare, avem trei tipuri de seturi de date: formare, validare și
testare. Etichetele de clasă / categorie din seturile de date de instruire și validare sunt cunoscute, în
timp ce pentru testarea datelor etichetele de clasă / categorie sunt necunoscute. Procesul de
instruire este locul unde se formează un model de clasificare / regulă de decizie utilizând setul de
date de antrenament, în timp ce setul de date de validare este utilizat pentru a decide cei mai buni
parametri ai modelului. Setul de date de validare este, de asemenea, utilizat pentru a obține o
măsură de performanță privind bunătatea modelului prin clasificarea, de exemplu, prezicerea
etichetelor de clasă de date de validare și compararea cu etichetele reale. Dacă măsura de
performanță este satisfăcătoare, modelul de clasificare obținut ar putea fi apoi folosit pentru a
prezice clasele necunoscute ale seturilor de date de testare și acest lucru este cunoscut sub numele
de test proces.
Model de
decizie proiecta utilizând Instruire date
Clasa / eticheta datelor de validare este prezisă și comparată cu eticheta actuală pentru a da
măsurarea performanței
Model actualizat
Figura 6.1: Procedura de clasificare (formare și testare).
Cel mai apropiat vecin este unul dintre cei mai simpli clasificatori. Un model din datele de testare
este clasificat prin calcularea distanței la toate modelele din datele de antrenament; clasa modelului
de antrenament care dă cea mai scurtă distanță determină clasa modelului de testare. Luați în
considerare o diagramă a mai multor modele de antrenament (fiecare cu două caracteristici) din
două clase (A și B) și un model de testare, după cum se arată în figura 6.2. Cel mai apropiat vecin la x
este modelul de antrenament A, prin urmare, x este prezis ca aparținând clasei A.
Figura 6.2: Plotul mai multor modele de antrenament din două clase, A și B și un model de testare, x.
d M ( p , q )
. (6.2)
De exemplu, distanța dintre cele două puncte ar fi acum | 2-6 | + | 5-8 | = 7.
Clasificatorul k- NN extinde această idee luând numărul k al celor mai apropiate modele și folosind o
regulă majoritară pentru a decide eticheta clasei de test. Este comun să selectați o valoare mică
pentru k 29 și ciudat să rupă legăturile. In exemplul de mai sus, N = 9 și folosind o valoare k de 3,
vecinii cei mai apropiați sunt modele din clasa A, A și B, deci x este clasificat (adică a prezis) ca
aparținând clasei A. Larger k(adică formarea mai mare set de date) ajută la reducerea efectelor
tiparelor zgomotoase din setul de date de instruire, dar la un cost computational mai ridicat.
Un alt exemplu k -NN ilustrat este prezentat în Figura 6.3. Cu k = 1, modelul X va fi clasificat din clasa
B, în timp ce cu k = 3 și k = 5, clasa prezisă va fi B și, respectiv, A. Trebuie notat că k = 3 ar trebui
aleasă ca N = 7 aici: sqrt (7) = 2.65 = 3.
1.2.1 k-NN algoritmul
5. Utilizați majoritatea simplă a claselor celor mai apropiate vecini pentru a determina clasa
testului model.
Instruire modele distanta euclidiana
T1 (7,7)
T2 (7,4)
T3 (3,4)
T4 (1,4)
4
5
3
3.6
Cu k = 1, modelul de antrenament cel mai apropiat de Y este T3. Deoarece T3 este de la un subiect
nealcoolic, subiectul Y este clasificat ca nealcoolic cu k = 1. Similar cu k = 3, cele mai apropiate
modele de antrenament la Y sunt T3, T4 și T1. Majoritatea este clasa non-alcoolică, astfel încât
subiectul Y este clasificat ca nealcoolic, de asemenea cu k = 3.
Avantajele clasificatorului k -NN sunt
k=3
Legendă
= 4,1 mai degrabă decât distanța standard din Manhattan de | 6-1 | + | 5-3 | = 7.
În această secțiune, vom examina un program MATLAB pentru implementarea lui k -NN. Vom folosi
exemplul alcoolic și nealcoolic discutat mai devreme. Setul de seturi de seturi de instruire va fi
denumit "tren" și set de date de testare ca "test". De asemenea, să presupunem că clasa alcoolică
este reprezentată de "0" și de clasa non-alcoolică cu "1".
% date inițiale
test = [3 7];
'1'
Edist (i) = sqrt (suma ((tren (i,:) - test) * (tren (i,:.) - test)));
Sfârșit
% se alăture informațiilor țintă cu distanța Et = [Edist; ţintă]
% transpun Et = Et ';
% afișare de ieșire
altfel
Sfârșit
1.2.4 Reducerea k -NN de formare de date CCD mărimea
Metoda cea mai simplă este utilizarea suprafeței de decizie pentru clasificator, unde modelele care
se află cel mai aproape de limită sunt cele care determină forma limitei și aceste modele nu pot fi
eliminate.Modelele care sunt departe de graniță și înconjurate de aceleași modele de clasă sunt
redundante și pot fi eliminate fără a afecta producția clasificatorului. Figura 6.6 ilustrează această
metodă cu un exemplu. Dar această metodă poate fi aplicată numai pentru un număr mai mic de
modele cu limite simple de decizie. Așadar, vom analiza două metode mai bune 31 : Cel mai apropiat
vecin condensat și cel mai apropiat editatVecin.
li mita de decizie
Pentru a clasifica X, trebuie să anticipăm prin calcularea distanțelor de la X la 15 modele (9 din clasa A
și 6 din clasă B)
Legendă
X modelul de a fi testat
Folosind modele de antrenament, creați două pungi: magazin și apuca. Puneți toate modelele de
antrenament în geanta:
1. Luați un model de antrenament din fiecare clasă din geanta și puneți-o în magazin sac
2. Luați toate modelele de antrenament disponibile în geanta și clasificați utilizând modelele din
geanta de magazin ca formare date CCD
3a. Dacă datele sunt incorect clasificate, atunci acestea sunt adăugate la magazinul 3b. Dacă este
corect clasificat, lăsați-l în geantă
4. Repetați pașii 2 și 3a / 3b până când punga de apucare este goală sau nu mai există transferuri
către magazie (adică nu se modifică apuca sac)
1. Luați câte un curs de instruire din fiecare clasă, spuneți T1 și T3 din geanta și puneți-vă în
magazin sac
2. Luați toate datele de instruire disponibile în sacul de apucare (adică T2, T4 și T5) și
clasificați utilizarea datelor din geanta de magazin ca formare a stabilit
3a. Dacă datele sunt incorect clasificate, atunci acestea sunt adăugate la punga de magazie 3b. Dacă
este corect clasificat, lăsați-l în geantă
4. Repetați pașii 2 și 3a / 3b până când punga de apucare este goală sau nu mai există
transferuri către magazie (adică nu se modifică apuca sac)
5. Magazinul formează setul de antrenament condensat Din 5 date de instruire, le-am redus 3
Punga de depozitare
Pungă de captură
Acesta este un proces mai simplu în care un model este luat în setul de antrenament și eliminat dacă
nu este de acord cu cei mai apropiați vecini k . Acest proces se repetă pentru toate datele de
antrenament. Se pot face mai multe treceri pentru a elimina un procent suplimentar de date. Acest
lucru generează limite netede și, de asemenea, elimină date exagerate / zgomotoase. Figura 6.8
prezintă un exemplu al acestei metode.
Scoateți modelul de antrenament deoarece clasa sa nu este de acord cu k = 3
Legendă
X modelul de a fi testat
1.3 Artificial neuron
În primul capitol, ne-am uitat la neuronul biologic și aici, o descriere a neuronului artificial va
fi dată înainte de a discuta clasificatorul rețelei neuronale. Un neuron artificial prezentat în
Figura 6.9 este un rezumat foarte simplu al unui neuron biologic prezentat în Figura 1.8. Are
un element de calcul elementar, numit nod sau unitate. Fiecare intrare x are o greutate
asociată w care poate fi modificată, iar intrările xcorespund semnalelor de la axonii altor
neuroni, în timp ce x 0 este o intrare specială de părtinire cu o greutate w 0 .
x 0
w 0
x 1 w 1
y
w 2
x 2
z x 0 w 0 x 1 w 1 x 2 w 2 ... x m w m x j w j .
j (6.3)
Funcția de activare corespunde colinei axonului, ea calculează funcția f a sumei ponderate a intrărilor
sale. Prin urmare, ieșirea neuronului y = f (z) corespunde unui semnal axon. Cea mai simplă f este
funcția liniară, adică ieșirea y = z. Există și alte funcții, cum ar fi binar, sigmoid și tanh. O funcție de
activare trebuie să fie continuă, diferențiată și limitată. Sigmoid este cea mai comună funcție de
activare și este definită de
y 1 .
1 e z
(6.4)
Răspunsul: ieșirea netă (înainte de activarea funcției) = 0.5 * 0.02 + 0.15 * 0.7 + 0.9 * 1.0 = 1.015 în
timp ce ieșirea neuronului (după funcția de activare) = 1 / (1 + e -1.015 ) = 0.7340.
Multilayer-Perceptron (MLP) este una dintre cele mai utilizate arhitecturi ale rețelelor neuronale în
probleme de clasificare. Cantitățile de intrare sunt prelucrate prin straturi succesive de neuroni, în
care există trei 32 de straturi (deși este posibil să aibă două sau patru straturi). Un strat de intrare (care
primește intrări) are în mod normal neuroni (adică unități) egal cu numărul de caracteristici de
intrare, în timp ce stratul de ieșire (care generează ieșiri) va avea neuroni egal cu numărul de clase
din problemă 33 . Un strat ascuns (stratul între ele) poate avea orice număr de neuroni și această
valoare este în mod normal decisă prinîncercări și erori.
Text original în Engleză: