Sunteți pe pagina 1din 3

Extragerea caracteristicilor esențiale

Extragerea caracteristicilor esențiale (Feature Extraction - FE) face parte din categoria
metodelor de analiză a datelor care descriu o colectivitate printr-un set nou de variabile, obținute
printr-o combinație liniară a variabilelor inițiale (variabilele observate). Noile variabile sunt
mai puține ca număr și au o semnificație mai mare. Interpretarea semnificației acestora se face
analizând felul în care acestea combină variabilele observate. În Oracle Data Mining este
implementat algoritmul Non-negative Matrix Factorization (NMF) pentru a obține
caracteristicile esențiale.

Non-negative Matrix Factorization


Metodele mai cunoscute utilizate pentru simplificarea spațiului informațional și
descrierea datelor printr-un set mai mic și mai semnificativ de variabile sunt Analiza în
componente principale și Analiza factorială. În cazul extragerii caracteristicilor, variabilele noi
nu au restricțiile impuse la analiza în componente principale sau analiza factorială.
Componentele principale sunt variabile pure informațional, absolut necorelate două câte două
și sunt proiecții într-un spațiu ortonormat, spațiul principal. Caracteristicile esențiale pot fi
corelate. Componentele principale conțin intrări negative (coeficienții combinațiilor liniare) și
nu pot fi în mod direct legate de spațiul vectorial original pentru a deriva interpretări
semnificative. În cazul NMF, caracteristicile nu conțin intrări negative, aceasta permite doar
aditiv combinații ale vectorilor pentru a reproduce originalul.
Extragerea atributelor relevante este în primul rând o metodă de recunoaștere nesupervizată a
formelor. Pe baza scorurilor obținute pentru fiecare caracteristică , instanțele pot fi asociate cu
una din caracteristici (cea la care scorul este maxim). Scorurile sunt valorile luate de
caracteristici pentru fiecare instanță. Procedeul este util și pentru reprezentarea vizuală a
datelor, deoarece un set de date poate fi vizualizat în mod eficient atunci când este redus la două
sau trei dimensiuni. Astfel, extragerea caracteristicilor relevante poate fi utilizată și în
compresia datelor.

Exemplu. Extragerea caracteristicilor poate fi utilizată pentru extragerea tematicilor dintr-o


colecție de documente. Documentele sunt reprezentate printr-un set de cuvinte cheie si
frecvența lor. Fiecare tematică este reprezentată printr-o combinație de cuvinte cheie.
Documentele pot fi apoi exprimate in termeni de tematicile descoperite.

Modelul poate fi aplicat pe un set nou de date prin calcularea scorurilor pentru noile instanțe.
Valoarea luată de un individ pentru o caracteristică nouă reflectă importanța caracteristicii
pentru acest individ.

Descrierea modelului

Datele analizate sunt furnizate sub forma unui tabel de observații cu n linii şi m coloane:
 x11 ... x1 j ... x1m 
 ... ... 
 
X = i1 x ... x ij ... x   X 1 ... X j ... X m  ,
im = 
 
 ... ... ... 
 xn1 ... xnj ... xnm 
 
unde xij este valoarea luata de variabila j la individul i, iar Xj este vectorul coloană al variabilei
j.
Fiecare variabilă observată poate fi scrisă ca o combinație liniară de caracteristici noi, astfel:
 X 1  h11W1  h21W2  ...  hk1Wk
 X  h W  h W  ...  h W
 2 12 1 22 2 k2 k

 ...

 X m  h1mW1  h2 mW2  ...  hkmWk
unde k este numărul caracteristicilor esențiale (k < m), Xj, j=1,m , sunt variabilele observate,
Wi, i=1,k, sunt caracteristicile esențiale, iar hji, j=1,m, i=1,k sunt coeficienții pozitivi ai legăturii
dintre variabilele observate și caracteristicile esențiale.
 w11 ... w1 j ... w1k 
 ... ... 
 
W =  wi1 ... wij ... wik  = W1 ... Wi ... Wk  .
 
 ... ... ... 
 wn1 ... wnj ... wnk 
 
Matriceal, legătura dintre variabilele observate și caracteristici se poate scrie astfel: X = W‧H,
unde X este tabelul de observații, W este matricea caracteristicilor iar H este matricea
coeficienților.
NMF utilizează o procedură iterativă pentru a modifica valorile inițiale ale matricelor W şi H,
astfel încât produsul să se apropie de X. Procedura se termină atunci când este atinsă o marjă de
eroare sau numărul de iterații specificat este atins. Aplicarea modelului constă în maparea
datelor pe noul set de variabile.

Formularea problemei. Fiind dată o matrice X  R n m , să se găsească matricele W  R nk și


H  R k m (pozitiv definită), astfel încât să fie minimizată funcția:
1
f (W , H )  X  W  H .
2

2
Produsul W·H reprezintă factorizarea non-negativă a matricei X.
Metoda extrage caracteristici esențiale ale datelor ca vectori coloană în matricea W,
caracteristici care pot fi apoi utilizate în identificare sau clasificare. Acești vectori sunt expresia
unor pattern-uri prin care pot fi identificați indivizii din colectivitatea studiată. Prin
nepermiterea de valori negative în matricea H, NMF creează combinații aditive de caracteristici
pentru a forma un pattern (tipic).

Soluții numerice. Au fost date diferite soluții de rezolvare a problemei. Abordări principale:
- Patero și Tapper (1994)
- Lee și Seung (2001)
- Berry-Plemmons (2004).

Am văzut că matriceal legătura dintre X, W şi H este X = W∙H.


Dacă înmulțim această relație la stânga cu (WTW)-1WT obținem:
WTX WT X
H= T = H T
W W W W H
T
unde W este transpusa matricei W.
Daca înmulțim aceeași relație la dreapta cu H T ( H  H T ) 1 , obținem:
X HT X  HT
W= = W  .
H HT W  H  HT
Aceste relații stau la baza algoritmului Lee-Seung care poate fi formalizat astfel:

Procedure NMF_Lee-Seung(X,W,H,m,n,k,maxIter)
W = random(m,k)
H = random(k,n)
for r=1,maxIter

hij  hij

W T X ij 
, i  1, k j  1, m
W T WH ij
wli  wli
XH 
T
, l  1, n i  1, k
WHH 
li
T
li
endfor
end

S-ar putea să vă placă și