Documente Academic
Documente Profesional
Documente Cultură
Extragerea caracteristicilor esențiale (Feature Extraction - FE) face parte din categoria
metodelor de analiză a datelor care descriu o colectivitate printr-un set nou de variabile, obținute
printr-o combinație liniară a variabilelor inițiale (variabilele observate). Noile variabile sunt
mai puține ca număr și au o semnificație mai mare. Interpretarea semnificației acestora se face
analizând felul în care acestea combină variabilele observate. În Oracle Data Mining este
implementat algoritmul Non-negative Matrix Factorization (NMF) pentru a obține
caracteristicile esențiale.
Modelul poate fi aplicat pe un set nou de date prin calcularea scorurilor pentru noile instanțe.
Valoarea luată de un individ pentru o caracteristică nouă reflectă importanța caracteristicii
pentru acest individ.
Descrierea modelului
Datele analizate sunt furnizate sub forma unui tabel de observații cu n linii şi m coloane:
x11 ... x1 j ... x1m
... ...
X = i1 x ... x ij ... x X 1 ... X j ... X m ,
im =
... ... ...
xn1 ... xnj ... xnm
unde xij este valoarea luata de variabila j la individul i, iar Xj este vectorul coloană al variabilei
j.
Fiecare variabilă observată poate fi scrisă ca o combinație liniară de caracteristici noi, astfel:
X 1 h11W1 h21W2 ... hk1Wk
X h W h W ... h W
2 12 1 22 2 k2 k
...
X m h1mW1 h2 mW2 ... hkmWk
unde k este numărul caracteristicilor esențiale (k < m), Xj, j=1,m , sunt variabilele observate,
Wi, i=1,k, sunt caracteristicile esențiale, iar hji, j=1,m, i=1,k sunt coeficienții pozitivi ai legăturii
dintre variabilele observate și caracteristicile esențiale.
w11 ... w1 j ... w1k
... ...
W = wi1 ... wij ... wik = W1 ... Wi ... Wk .
... ... ...
wn1 ... wnj ... wnk
Matriceal, legătura dintre variabilele observate și caracteristici se poate scrie astfel: X = W‧H,
unde X este tabelul de observații, W este matricea caracteristicilor iar H este matricea
coeficienților.
NMF utilizează o procedură iterativă pentru a modifica valorile inițiale ale matricelor W şi H,
astfel încât produsul să se apropie de X. Procedura se termină atunci când este atinsă o marjă de
eroare sau numărul de iterații specificat este atins. Aplicarea modelului constă în maparea
datelor pe noul set de variabile.
2
Produsul W·H reprezintă factorizarea non-negativă a matricei X.
Metoda extrage caracteristici esențiale ale datelor ca vectori coloană în matricea W,
caracteristici care pot fi apoi utilizate în identificare sau clasificare. Acești vectori sunt expresia
unor pattern-uri prin care pot fi identificați indivizii din colectivitatea studiată. Prin
nepermiterea de valori negative în matricea H, NMF creează combinații aditive de caracteristici
pentru a forma un pattern (tipic).
Soluții numerice. Au fost date diferite soluții de rezolvare a problemei. Abordări principale:
- Patero și Tapper (1994)
- Lee și Seung (2001)
- Berry-Plemmons (2004).
Procedure NMF_Lee-Seung(X,W,H,m,n,k,maxIter)
W = random(m,k)
H = random(k,n)
for r=1,maxIter
hij hij
W T X ij
, i 1, k j 1, m
W T WH ij
wli wli
XH
T
, l 1, n i 1, k
WHH
li
T
li
endfor
end