Documente Academic
Documente Profesional
Documente Cultură
Organizare disciplină
Tehnologia Informaţiei https://www.aimultimedialab.ro/
Bucureşti
Automată a Informației
Materiale curs:
https://bionescu.aimultimedialab.ro/courses.html#tacai
Prof. dr. ing. Bogdan IONESCU
https://bionescu.aimultimedialab.ro/
Punctaj:
- examen (scris) 50%;
- colocviu laborator (practic) 50%.
Bucureşti, 2022 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 2
1 2
[3] Internet
M4. Tehnici de clasificare supervizată (“classification”)
[găsiți punctual orice informație IEEE, ACM, Springer, etc.]
M5. Evaluarea performanței clasificatorilor
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 3 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 4
3 4
Informație
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 5 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 6
5 6
1
10/17/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 7 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 8
7 8
știri
generare înțelegere
rețele sociale Informație informație
divertisment
“cunoaștere”
securitate
(-> acces la resurse)
date financiare
> “bridge the gap”, înțelegere și descoperire informație ascunsă
(șabloane) ce poate fi utilă și care nu este exploatată;
date medicale
[o problemă veche de când lumea: vânătorii încercau să înțeleagă
... comportamentul de migrare al animalelor, fermierii încercau să
înțeleagă comportamentul culturilor, etc]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 9 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 10
9 10
> punerea în evidență a datelor atipice: > dispunem de patru atribute măsurabile: vreme (3), temperatură
- localizarea datelor ce nu corespund criteriilor considerate, în (3), umiditate (2) și vânt (2) și trebuie să determinăm automat dacă
particular interesante prin natura acestora. putem practica o activitate;
> conform datelor avem 3 x 3 x 2 x 2 = 36 de combinații posibile, din
> rezolvarea unor probleme de calcul.
care dispunem doar de 5 seturi de date.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 11 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 12
11 12
2
10/17/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 13 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 14
13 14
> se poate merge mai departe, pe baza datelor să determinăm (1) date incomplete: sistemul trebuie să fie capabil de generalizare
reguli de asociere care corelează atributele: pentru exemple noi, exemplu folosind cele 5 să putem prezice restul
Dacă (temperatură==rece) -> umiditate=normală; de 31 de situații?
Dacă (umiditate==normală) && (vânt==nu) -> sport=da; nr. vreme temperatură umiditate vânt sport
Dacă (vreme==însorită) && (sport==nu) -> umiditate=ridicată; 6 însorită cald normală nu ?
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 15 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 16
15 16
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 17 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 18
17 18
3
10/17/2022
[I.H. Witten, E. Frank, M.A. Hall, “Data Mining: Practical Machine Learning Tools and Techniques”] Google Lens
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 19 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 20
19 20
21 22
- medicală; - securitate;
detecție automată
fractură (raze X)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 23 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 24
23 24
4
10/17/2022
- automatizări industriale;
roboți divertisment
roboți umanoizi
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 25 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 26
25 26
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 27 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 28
27 28
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 29 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 30
29 30
5
10/17/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 31 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 32
31 32
- un număr mai mare de descriptori tinde să fie mai relevant pentru clasa 3
succesul (optimizarea) partiționării datelor;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 33 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 34
33 34
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 35 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 36
35 36
6
10/17/2022
- clasificare supervizată, sistemul este “antrenat” în prealabil să Definiție “learning”: a dobândi cunoștințe sau aptitudini prin studiu,
răspundă la anumite clase de date; practică, experimentare sau prin intermediul altor persoane.
[dicționar Merriam-Webster]
- se cunoaște numărul de clase de ieșire (sau se determină “a
priori” în funcție de datele de antrenare); Definiție “machine learning”: un sistem învață din experiența E cu
privire la o anumită clasă de cerințe T și o anumită măsură de
- definitorii pentru învățare (și astfel clasificare) au fost performanță P, dacă performanța acestuia la cerințele din T, așa cum
parametrii de conținut ai acestora (= descriptori); este măsurată de P, se îmbunătățește pe baza experienței din E.
[Rossen Dimov, Seminar A.I. Tools]
- procesul este guvernat de definirea unei metrici (măsuri de
distanță) pe baza cărei se evaluează similaritatea datelor; Exemplu:
- T = joc de șah;
- învățarea nu este perfectă, clasificarea acelorași date de - P = procentul de partide câștigate;
antrenare nu conduce la rezultate perfecte; - E = 1000 de înregistrări a unor jocuri de șah.
- există date atipice, acesta sunt asociate obligatoriu unei clase. > posibilitatea unui sistem de a “învăța” pe baza unor date;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 37 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 38
37 38
învățare
clasificator clasificare
clasificare
set de date descriere concept = ceeea ce produce sistemul de învățare
(ieșire sistem – reprezentare concept prin sistem);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 39 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 40
39 40
dată = o entitate de informație unitară, exemplu: o imagine, o atribut (caracteristică, trăsătură) = o componenta a vectorului
secvență video, un document, o înregistrare a unor parametri etc. descriptor ce definește practic una dintre dimensiunile acestuia:
atribut 1: x1
descriptor (observație, vector de caracteristici) = reprezentarea X [ x1 , x2 ,..., xn ] atribut 2: x2
unei date într-o formă mai compactă, de regulă vectorială. Valorile ...
descriptor
vectorului reprezintă măsurători ale unor proprietăți definitorii ale atribut n: xn
datei respective:
> descriptor = ansamblu de valori ale atributelor;
culoare1 culoaren
X [ 10 , 5 ,..., 12 ]
X [ x1 , x2 ,..., xn ]
dată descriptor (histogramă) dată descriptor (ex. histogramă)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 41 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 42
41 42
7
10/17/2022
În exemplu:
> data = pixel
imagine;
> atribute = clasa 2
proiectiile acestuia (triunghi)
pe diferite spații de
culoare; x={L*,a*,HLCH,CLCH,HHSV,SHSV} x={Y,L*,LLHC,IHSI }
spațiul inițial spațiul de caracteristici
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 43 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 44
43 44
apartenență la clasă = asocierea unei date la o anumită clasă și apartenență la clasă = asocierea unei date la o anumită clasă și
astfel determinarea faptului că proprietățile acesteia sunt astfel determinarea faptului că proprietățile acesteia sunt
reprezentative pentru specificul clasei respective; reprezentative pentru specificul clasei respective;
dată clasa 2
(triunghi) dată clasa 2
0 (nu)
0.3 (triunghi)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 45 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 46
45 46
metrică (distanță, măsură de similaritate) = o măsură de evaluare set de date (bază de date) = ansamblul datelor ce urmează să fie
a gradului de similaritate între date diferite. De regulă returnează o analizate și clasificate;
valoare mică când datele sunt similare (ex. aparțin aceleiași clase)
și o valoare semnificativă când sunt diferite:
x2 date etichetate (ground truth) = o colecție de date pentru care se
Xa X i [ xi ,1 , xi , 2 ,..., xi ,n ], i {a , b, c} cunoaște “a priori” apartenența la clase; acestea sunt de regulă
Xb obținute pe baza expertizei umane:
xn descriptori
X3
x1 n X1 X 1 clasa 1 X 3 clasa ?
X2
Xc d( Xi, X j ) (x
k 1
i ,k x j ,k ) 2
X4 X5 X7 X 2 clasa 1 X 6 clasa ?
x3 X8 X 4 clasa 2 ...
spațiul de caracteristici metrică (ex. distanța Euclidiană) X6 X9
Xn X 5 clasa 2
d(Xa, Xb) <? d ( Xb, X c ) <? d(Xa, Xc) X 7 clasa 3
set de date
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 47 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 48
47 48
8
10/17/2022
nr. vreme temperatură umiditate vânt sport nr. vreme temperatură umiditate vânt sport
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 49 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 50
49 50
nr. vreme temperatură umiditate vânt sport nr. vreme temperatură umiditate vânt play
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 51 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 52
51 52
date etichetate
Metode: Hierarchical Clustering cu diferite variante, agglomerative -
"bottom up“ sau divisive - "top down“.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 53 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 54
53 54
9
10/17/2022
Metode:
- square error: k-means, ISODATA; • politetice vs. monotetice: la stabilirea claselor sunt folosite toate
- graph-theoretic: Minimal Spanning Tree (MST); atributele de intrare vs. atributele de intrare sunt folosite în mod
- mixture resolving: Expectation Maximization (EM); secvențial pentru a constitui progresiv clasele, ex. atributul x1 este
- nearest neighbor; folosit pentru a diviza datele în două clase, mai departe, atributul x2
- fuzzy: fuzzy c-means (FCM). este folosit pentru divizarea claselor anterioare, și așa mai departe;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 55 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 56
55 56
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 57 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 58
57 58
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 59 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 60
59 60
10
10/17/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 61 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 62
61 62
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 63 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 64
63 64
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 65 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 66
65 66
11
10/17/2022
> Sfârşit M1
67
12
10/24/2022
Plan Curs
Tehnologia Informaţiei https://www.aimultimedialab.ro/
Bucureşti
Prof. dr. ing. Bogdan IONESCU M4. Tehnici de clasificare supervizată (“classification”)
https://bionescu.aimultimedialab.ro/
M5. Evaluarea performanței clasificatorilor
Bucureşti, 2022 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 2
1 2
Reprezentarea datelor
> exemplu date meteo:
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 3 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 4
3 4
nr. vreme temperatură umiditate vânt sport nr. vreme temperatură umiditate vânt sport
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 5 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 6
5 6
1
10/24/2022
nr. vreme temperatură umiditate vânt sport a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
0 0 0 0 0 10 0 0 0 0 0 1 0 0 0 0
1 însorită 30 50 15 Da
2 0 0 0 0 0 0 7 0 0 0 0 0 6 0 0
2 însorită 39 90 1 Nu
0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0
3 ploioasă 30 90 0 Da
0 0 0 0 0 0 12 2 0 0 0 0 0 0 0 0
4 înnorat 17 50 17 Nu
> ce se observă în mod particular la aceste date?
> prin valori mixte, numeric - simbolic; > “sparse data” – “date rarefiate”: foarte multe dintre valori sunt 0
iar valorile utile sunt împrăștiate; necesită metode de prelucrare
adaptate datorită influențării modului de calcul al similarității;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 7 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 8
7 8
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
1 2 1 0 10 7 3 5 4 1 1 1 2 6 1 999 2 1 0 10 7 3 5 4 4 1 1 1 2 6
2 0 0 2 3 1 7 6 4 5 4 4 6 2 1 2 0 0 2 3 1 878 7 6 4 5 4 4 6 2 1
0 0 1 3 2 2 6 6 8 8 9 2 3 2 0 0 1 3 2 2 6 6 8 8 4 9 2 3 0 2
1 0 5 4 6 12 2 5 6 8 2 3 5 5 8 2 0 0 2 3 1 878 7 6 4 5 4 4 6 2 1
> ce se observă în mod particular la aceste date? > ce se observă în mod particular la aceste date?
> “missing data”: datele lipsă au o semnficație aparte și pot > “innacurate data”: date eronate ce pot surveni din erori umane,
survenii din diferite motive, ex. nu sunt înregistrate, nu sunt introduse deliberat (ex. nu se cunoaște valoare) sau din cauza
relevante (în afara scalei), nu sunt cunoscute, sunt voluntare zgomotului de măsurare; vizibile ca “outliers” (deviază semnificativ
(decizia de a nu măsura un atribut), etc. de la plaja de valori uzuală) sau date duplicat.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 9 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 10
9 10
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
0 630 -4 5 3 1 40 7 6 0.4 5 4 99 6 2 63 2 3 5 8 9 9 18 27 26 53 52 99 99 99 99 99
1 546 10 1 3 1 46 7 6 0.5 5 4 40 6 2 61 1 2 3 4 5 6 7 8 9 10 11 11 12 14 14 16
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 11 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 12
11 12
2
10/24/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 13 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 14
13 14
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: imagini/video (revisited) A. informația vizuală: imagini/video (cont.)
i
elementul de bază al unei imagini 2D
imagine se numeşte pixel = picture element.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 15 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 16
15 16
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: imagini/video (cont.) A. informația vizuală: surse de informație disponibile
1. informația de culoare;
imagini = valoarea unui pixel este un vector:
R G B
- cea mai frecvent folosită pentru descrierea conținutului imaginilor;
sistemul vizual uman este bazat pe prelucrarea informației de
= + + culoare (unde luminoase de diverse frecvențe).
...
img.1 img.2 img.3 img.4 img.5 img.6 timp
RGB
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 17 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 18
17 18
3
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: YCbCr (separare > alegerea modului de reprezentare al culorilor: L*a*b* (distanța
intensitate de crominanță) perceptuală dintre culori ~ distanța matematică)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 19 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 20
19 20
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: L*a*b* (cont.) > alegerea modului de reprezentare al culorilor: HSV (separare
informație de nuanță, saturație și intensitate)
alb
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 21 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 22
21 22
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: HSV (cont.) > alegerea modului de reprezentare al culorilor: HSV (separare
informație de nuanță, saturație și intensitate)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 23 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 24
23 24
4
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: HSV (cont.) > alegerea modului de reprezentare al culorilor: HSV (cont.)
0 max 0 alb
s HSV max min
altfel
max
hHSV [0;360]
v HSV max
s HSV , vHSV [0;1]
R G B
unde: r , g , b
255 255 255
max max{r , g , b},
min min{r , g , b} negru
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 25 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 26
25 26
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> descriptori uzuali: > descriptori uzuali (cont.):
1 X 1 Y 1
1 x 0
h( D )
X Y
( A( x, y ) D),
x 0 y 0
( x)
0 x 0
unde D este un nivel de gri (sau culoare), D=0,...,L-1 (sau ia valori în
paleta de culoare considerată), XY dimensiunea imaginii, A() este
funcţia imagine. Histograme de culoare (RGB)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 27 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 28
27 28
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> exemplu: histograma color > exemplu: histograma color (cont.)
R R
- 16.777.216 culori posibile
(8x8x8 biți), cuantizare la un număr
mai mic de valori;
- alegere n bini pentru
G G
fiecare axă: R, G și B
(n x n x n valori);
- exemplu: n=3,
imagine (RGB) bin 1 – [0 - 84],
B bin 2 – [85 - 170], B
bin 3 – [171 - 255].
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 29 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 30
29 30
5
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 2. informația relativă la forme;
> exemplu: histograma color (cont.) - caracterizarea proprietăților obiectelor prezente în scenă din
bin 1 – [0 - 84], R perspectiva proprietăților geometrice ale acestora.
bin 2 – [85 - 170],
bin 3 – [171 - 255].
> presupune detecția în prealabil a obiectelor din
R G B nr.val.
scenă; realizată folosind tehnici de segmentare
1 1 1 0
G (ex. bazate pe contur):
1 1 2 0
1 1 3 0
…
3 2 1 1
3 2 2 6
B
3 2 3 0
…
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 31 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 32
31 32
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
2. informația relativă la forme (cont.); 2. informația relativă la forme (cont.);
> descriptori uzuali: > descriptori uzuali (cont.): [Y. Mingqiang et al., Pattern Recognition, 2008]
(a) centrul de greutate (eșantionare uniformă contur); (c) raportul de circularitate (arie obiect raportat la aria cercului
(b) parametri de elongație în funcție de rata de aspect (W/L); de același perimetru);
(d) convexitate (cea mai mică regiune convexă ce include obiectul).
[Y. Mingqiang et al., Pattern Recognition, 2008]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 33 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 34
33 34
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
2. informația relativă la forme (cont.); 2. informația relativă la forme (cont.);
> descriptori uzuali (cont.): > exemplu: semnătură distanță față de centroid
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 35 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 36
35 36
6
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
2. informația relativă la forme (cont.); 3. informația relativă la textură;
> exemplu: semnătură distanță față de centroid (cont.)
- caracterizarea proprietăților materialelor prezente în imagini (atât
analiză de culoare cât și de contur).
- simetrie formă se
transformă în periodicitate textură = o regiune din imagine ce prezintă caracteristici omogene,
semnătură; precum un motiv de bază ce se repetă (domeniu spațial/frecvențial).
- limitări?
formă1 formă2
texturi
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 37 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 38
37 38
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
3. informația relativă la textură (cont.); 3. informația relativă la textură (cont.);
> descriptori uzuali: > exemplu: Local Binary Patterns (LBP)
- analiza statistică a distribuției spațiale a intensităților pixelilor din p1: imaginea este imparțită în N macro-blocuri (ex. 16x16, 32x32);
imagine; ex. probabilitatea de co-ocurență a unei anumite intensități p2: pentru fiecare macro-bloc, fiecare pixel este comparat cu
în diverse direcții și distanțe față de un punct de referință; cei 8 vecini astfel:
- analiza proprietăților geometrice ale elementelor texturii, precum - intensitate >, se scrie valoare 0;
arie, formă, lungime și a modului de distribuție al acestora într-o - intensitate <, se scrie valoare 1;
anumită rețea;
- analiză pe bază de modele al căror parametri descriu proprietățile
esențiale ale acestuia (modelare pe bază de puncte întunecate
sau luminoase, tranziții verticale sau orizontale, linii, etc);
- analiză pe bază de filtre, ex. operatorii de derivare (Laplacian,
Roberts) sau filtrele Gabor.
p3: pixelul curent va avea asociat astfel un șablon binar (pattern);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 39 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 40
39 40
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
3. informația relativă la textură (cont.); 4. informația relativă la mișcare;
> exemplu: Local Binary Patterns (cont.) [PRACE Summer of HPC 2013]
- caracterizarea schimbărilor (spațiale) survenite într-o secvență
p4: pentru macro-blocul de imagini (mișcare obiecte, mișcare scenă, etc).
curent se realizează o
histogramă a frecvenței > presupune detecția în prealabil a acestor schimbări:
șabloanelor pixelilor (1) detecția de mișcare (exemplu diferență cadre succesive);
(număr de valori 28);
unde Ik este
p5: pentru imagine, LBP
... imaginea la
este dat de momentul k,
Ik I k 1 I k 2 I k N 1 IkN dk,k+1 este
concatenarea tuturor
histogramelor macro- diferența dintre
blocurilor (dim. N*28). d k , k 1 d k 1,k 2 d k 2,... d k N 1,k N Ik și Ik+1
LBP pentru comparare imagini cu fețe
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 41 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 42
41 42
7
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(1) detecția de mișcare (exemplu diferență cadre succesive; cont.); (2) estimarea mișcării;
Ik
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 43 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 44
43 44
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(2) estimarea mișcării (exemplu metode pe blocuri de pixeli); (2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.);
fereastra S
It It It+l
- imaginea curentă analizată la momentul t, It, este împărţită în - pentru fiecare bloc din It se caută noua sa poziţie în imaginea
blocuri disjuncte de pixeli de dimensiune BxB; următoare la momentul t+l (căutarea se face doar într-o
fereastră S de (2B+1)x(2B+1) pixeli);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 45 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 46
45 46
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.); (2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.);
fereastra S
Mean Absolute Difference (MAD)
X Y
1
MAD(b1 , b2 )
X Y
| b ( x, y ) b ( x, y ) |
x 1 y 1
1 2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 47 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 48
47 48
8
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.); > descriptori uzuali:
> demo: - traiectora obiectelor din scenă,
a. HDuncomp: frame 17; - identificarea tipului de mișcare a camerei video (apropiere/
b. The Holiday frame 31623; depărtare, rotație, translație);
frame 45796;
frame 109038; - activitate de mișcare prin cuantizarea varianței amplitudinii
frame 1; vectorilor de mișcare;
frame 7636.
- imagini MHI de ”istorie a mișcării”
(Motion History Images);
- histograme de intensitate a mișcării,
etc
[http://alpha.imag.pub.ro/VideoIndexingRP2/]
imagine MHI (normalizare)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 49 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 50
49 50
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală; 5. informația relativă la structura temporală (cont.);
- caracterizarea proprietăților structurale-temporale ale unei > presupune segmentarea temporală în prealabil a secvenței =
secvențe de imagini. detecția tranzițiilor video (ex. cut, fade, dissolve, wipes, etc):
imagine1 ... imaginei T imaginei+1 ... imaginej ... imagineN >un cut reprezintă concatenarea directă a două plane video vecine
temporal: cut
- plan video (video shot)= secvenţa continuuă de imagini înregistrată planulj planulj+1
de la pornirea camerei până la oprirea acesteia;
- tranziţie video (video transition, T) = un efect vizual de scurtă durată
ce face legătura între planele video vecine temporal; [film animaţie Gazoon, CITIA-Annecy]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 51 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 52
51 52
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală (cont.); 5. informația relativă la structura temporală (cont.);
> presupune segmentarea temporală în prealabil a secvenței = cuts fade-in fade-out dissolves e.g.blitz
detecția tranzițiilor video, exemplu (cont.):
planulj planulj+1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 53 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 54
53 54
9
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală (cont.); 5. informația relativă la structura temporală (cont.);
> descriptori uzuali: activitate vizuală > descriptori uzuali: activitate vizuală (cont.)
fereastră T
j vT E{T (i)}
i ... timp
> evaluând valorile lui T (i ) pentru întreaga secvenţă (ex. ferestre documentare ştiri muzică
suprapuse cu un pas p), determinăm ritmul vizual mediu al secvenţei:
v 0.2
T
*
vT 0.24* vT 0.56*
vT E{T (i)} ~ tempo mediu.
[*valori medii pentru 30 de exemple de secvenţe.]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 55 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 56
55 56
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală (cont.); 5. informația relativă la structura temporală (cont.);
> descriptori uzuali: acțiune > demo:
plane de acţiune
cuts
plan video
1 if T 5 s (i ) 2 .8 timp
HA shot (i )
0 otherwise ground truth
1 if T 5 s (i ) 0.7
LA shot (i )
0 otherwise [http://alpha.imag.pub.ro/VideoIndexingRP2/]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 57 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 58
57 58
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături; 6. informația relativă la trăsături (cont.);
- un caz particular de caracterizare a proprietăților unei clase > punct de interes (formalizare)
particulare de puncte de contur (“features”). - au o definiție matematică bine precizată;
- au o poziție bine definită în imagine;
> punct de interes = o regiune de
pixeli (de dimensiuni reduse) a - informația locală din jurul punctului de interes este bogată
căror proprietăți o fac informațional (definite de context);
reprezentativă pentru înțelegerea - invariante la perturbații locale și globale (deformări datorate
conținutului structural al imaginii: transformărilor de perspectivă, schimbarea unghiului de
vizualizare, schimbări de scală, rotații, translații, variații de
iluminare, etc).
> descrierea punctelor de interes presupune detecția în prealabil a
http://webvision.med.utah.edu/book/
acestora și apoi reprezentarea informației specifice;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 59 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 60
59 60
10
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (detector de colțuri) > detectori uzuali: Harris detector (cont.)
- bazat pe derivatele de ordin 1 ale imaginii: Ix - derivata pe oX şi p1. pentru fiecare pixel din imagine, într-o fereastră, calculăm:
Iy - derivata pe oY;
I2 IxI y
imagine contur fereastră analiză M w( x, y ) x
x, y I x I y I y2
unde w(x,y) o funcţie de ponderare ce poate fi uniformă, iar x,y iau
valori în fereastra considerată (Ix - derivata pe oX, Iy - derivata pe oY).
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 61 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 62
61 62
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (cont.) > detectori uzuali: Harris detector (cont.)
p1. pentru fiecare pixel din imagine, într-o fereastră, calculăm M. p2. estimăm gradul de variaţie al pixelilor în fereastra considerată:
R det( M ) k Tr 2 ( M )
unde k este o constantă iar Tr() este operatorul “trace” ce returnează
suma elementelor de pe diagonala principală;
- valori mari pentru colțuri;
fereastră derivată oX derivată oY
- valori negative mari pentru contur;
- valori mici în modul pentru regiuni omogene.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 63 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 64
63 64
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (cont.) > detectori uzuali: Harris detector (cont.)
[Robert Collin, CSE486 Penn State] [Robert Collin, CSE486 Penn State]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 65 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 66
65 66
11
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (cont.) > detectori uzuali: Harris detector (cont.)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 67 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 68
67 68
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> descriptori uzuali: Histograms of oriented Gradients (HoG) > descriptori uzuali: Histograms of oriented Gradients (HoG; cont.)
histograma p1. imaginea este împărțită în blocuri disjuncte de pixeli;
p2. pentru fiecare bloc se calculează o histogramă de orientări
0 0
ale gradientului pixelilor;
11 1 1 1 1 1
p3. descriptor = concatenarea tuturor histogramelor normalizate.
0 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 69 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 70
69 70
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> descriptori uzuali: Histograms of oriented Gradients (HoG; cont.) > detectori/descriptori uzuali (cont.)
Detectori:
- Harris Laplace (Harris reprezentat la diverse niveluri de scală);
imagine - reprezentări “scale-space”: Laplacian of Gaussian (LoG),
Difference of Gaussian (DoG), Determinant of Hessian (DoH),
Maximally Stable Extremum Regions (MSER), Scale Invariant
Feature Transform (SIFT), Speeded Up Robust Features (SURF);
- reprezentări spațio-temporale: Harris 3D, Cuboid, Hessian 3D,
histogramă SURF 3D, etc.
orientări Descriptori:
- reprezentări Bag-of-VisualWords (BoW), Histograms of Optical
Flow (HoF), Vector of Locally Aggregated Descriptors (VLAD),
Fisher Kernel (FK), etc.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 71 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 72
71 72
12
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio B. informația audio (cont.)
1. reprezentare temporală;
amplitudine
1 T 1
sunet digital = o secvență de eșantioane (valori de amplitudine ale
undelor sonore) înregistrate în timp.
ZCR II {st st 1 0}
T 1 t 1
unde s este un semnal de durată T iar II{.} este operatorul care
cadru (audio) = o secvență temporală ce conține un anumit număr de returnează valoarea 1 dacă argumentul este adevărat și 0 altfel.
eșantioane (ex. 1024 de eșantioane).
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 73 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 74
73 74
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) B. informația audio (cont.)
1. reprezentare temporală (cont.); 1. reprezentare temporală (cont.);
> descriptori uzuali: secvență vorbire > descriptori uzuali: energia semnalului (Root Mean Square of
Zero Crossing Rate vorbire
ZCR (normalizat)
Signal Energy - RMS)
(ZCR; cont.)
RMS
n
x1 x22 ... xn2
1 2
x
a
RMS
2
a sin(2ft )
timp (s)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 75 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 76
75 76
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) B. informația audio (cont.)
1. reprezentare temporală (cont.); 1. reprezentare temporală (cont.);
> descriptori uzuali: energia semnalului (RMS; cont.) > descriptori uzuali (cont.): rata de absență a sunetului,
coeficienții de autocorelație ai semnalului, etc.
x
2. reprezentare frecvențială;
RMS a
> transformata Fourier 1D discretă (revisited)
a daca ft 0.5;a altfel ft 0.5 > eșantionare:
x
a u (m) f ( x0 m x)
RMS unde f(x) este semnalul continuu, x0 reprezintă coordonata de la care
3 începe eşantionarea (uzual x0=0), Δx este pasul de eşantionare iar
2aft a m=0,...,N-1 reprezintă coordonata discretă.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 77 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 78
77 78
13
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) B. informația audio (cont.)
2. reprezentare frecvențială (cont.); 2. reprezentare frecvențială (cont.);
> transformata Fourier 1D discretă (revisited) | v ( k ) | Re 2 ( k ) Im 2 ( k )
j ( k )
N 1 2jmk v ( k ) | v ( k ) | e Im( k ) unde Re şi Im sunt
1
v(k )
N
u( m) e
m 0
N (k ) atan
Re( k )
părţile reale şi
imaginare ale lui v.
N 1 2jmk
1
u( m)
N
v(k ) e
k 0
N
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 79 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 80
79 80
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) [B. Ionescu et al., C. informația textuală
SPIE Journal of
2. reprezentare frecvențială (cont.); Electronic Imaging] text = o secvență de caractere, de regulă grupate în cuvinte și propoziții.
Logarithmic Fluctuation Pattern Reprezintă practic datele cele mai apropiate de nivelul de percepție
> descriptori uzuali:
uman (conținut semantic).
- distribuția energiei semnalului, > informație generată (<> nu este înregistrată), surse:
centroizii frecvențelor, lărgimea
de bandă, ”pitch”, ”loudness”, - utilizatorul: descrieri informație, documente, metadate, etc;
coeficienți cepstrali (Mel- - imagini: textul încrustat în imagini, subtitrări - transformate
Frequency Cepstral Coefficients în text folosind OCR - Optical Character Recognition;
– MFCC).
- sunet: narațiune, dialoguri, monologuri – transformate în text
folosind ASR - Automatic Speech Recognition.
frecvență
81 82
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: Term Frequency-Inverse Document Frequency; > descriptori uzuali: TF-IDF (cont.)
TF-IDF = statistică ce reflectă importanța cuvintelor într-un - term frequency, tf(t,d):
document sau o colecție de documente (= corpus). = de câte ori apare termenul t în documentul d;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 83 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 84
83 84
14
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: TF-IDF (cont.) > descriptori uzuali: TF-IDF (cont.)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 85 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 86
85 86
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: TF-IDF (cont.) > descriptori uzuali: TF-IDF (cont.)
> exemplu (cont.): > abordare practică:
- pentru datele de intrare (=corpus) se extrag cuvintele;
termen (t) tf(t,d1) termen (t) tf(t,d2) - pentru fiecare cuvânt dintr-o instanță (=dată) se calculează tfidf;
“this” 1 “this” 1 - descriptorul este dat de concatenarea valorilor tfidf (se folosește
… … … … același set de cuvinte);
“sample” 1 “example” 3 > ce dimensiune are descriptorul rezultat?
2
idf (" example" , D ) log 0.3 > ce particularitate au datele reprezentate în acest fel?
1 (indicație - setul de cuvinte este același pentru toate datele,
tfidf (" example" , d 2 , D ) 3 0.3 0.9 indiferent de dimensiunea acestora)
tfidf (" example" , d1 , D ) 0 0.3 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 87 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 88
87 88
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: Bag-of-Words > descriptori uzuali: Bag-of-Words (cont.)
> permite reprezentarea datelor de dimensiuni diferite cu 2. pe baza datele de intrare se construiește un dicționar comun
descriptori de dimensiune fixă; (= reuniunea exclusivă a cuvintelor dintre “pungile” de cuvinte);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 89 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 90
89 90
15
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) Nivelul semantic de reprezentare al informației
> descriptori uzuali: Bag-of-Words (cont.) > descriere de nivel scăzut (“low-level”)
2. pe baza datele de intrare se construiește un dicționar comun - descrieri numerice (~sintactica datelor);
(= intersecția cuvintelor dintre “pungile” de cuvinte); - exemplu: histograme, vectori de mișcare, etc.
dicționar: 3. descriptorul este dat de reprezentarea sub
1 – “John”; formă de histogramă a frecvenței de apariție > descriere de nivel intermediar (“mid-level”)
2 – “likes”; a cuvintelor din dicționar (cont.):
3 – “to”; - descrieri simbolice;
4 – “watch”; - exemplu: denumirea culorilor, detectarea prezenței umane în scenă, etc.
d2=“John also likes to watch football games.”
5 – “movies”;
6 – “also”; > descriere de nivel semantic (“high-level”)
7 – “football”;
8 – “games”; descd2=[1 1 1 1 0 1 1 1 0 0] - de regulă descrieri textuale care codează interpretarea datelor pentru
9 – “Mary”; a servi unei aplicații specifice;
10 – “too”. > se poate aplica acest principiu la imagini?
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 91 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 92
91 92
5 9 ... 10 2
0.1 1 ... 0 1 1 ... 0 1 2 ... 3
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 93 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 94
93 94
5 9 ... 10 2
unde i=1,...,n, max{xi} și min{xi} reprezintă operatorii ce returnează 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
valoarea minimă și respectiv maximă a tuturor valorilor descriptorilor
(instanțelor) pentru atributul xi.
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
0.6 0
> care este plaja de valori rezultată? [0;1] xi' 0.6
1 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 95 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 96
95 96
16
10/24/2022
date
5 9 ... 10 2 5 9 ... 10 2
0.1 1 ... 0 1 1 ... 0 1 2 ... 3 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
90 25
xi' 0.9 xi' 0.3
10 0 5 5
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 97 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 98
97 98
99 100
101 102
17
10/24/2022
Date
0.1 0.2 ... 0.1 5 9 ... 10 2 5 ... 1
0.2 0 ... 0.9 0 5 ... 10 5 5 ... 0
0 0.6 ... 1 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
10 0 ... 2 4 3 ... 5
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
0.1 0.2 ... 0.1 5 ... 1
date
5 9 ... 10 2
0.2 1.1 ... 0.9 1 0 ... 1 1.6 0.9 ... 0.2
2 ... 0.7 0.7 0.5 ... 1.5
Date normalizate
0.1 1 ... 0 1 1 ... 0 1 3 0.4 ... 1.1 1.5 1.1 ... 0.7
1 0.4 ... 0.5
4 10 ... 4 5 4 ... 5 0.4 0.6 ... 0.9 0.2 0.9 ... 1 0.1 1.4 ... 0
2 1
xi' 0.6975 0.4 1.5 ... 1.1 0.8 0.9 ... 1.1 0.1 0.7 ... 0.6
4.3012 1.8 0.1 ... 0 0 1.1 ... 0.3 0.9 0.7 ... 1.1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 103 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 104
103 104
instanțe instanțe
> care este plaja de valori rezultată? mișcă punctul zecimal, |.|<=1
Date de intrare Date normalizate
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 105 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 106
105 106
date
5 9 ... 10 2 5 9 ... 10 2
0.1 1 ... 0 1 1 ... 0 1 2 ... 3 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
0.6 9
xi' 0.6 xi' 0.9
100 101
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 107 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 108
107 108
18
10/24/2022
Date
0.1 0.2 ... 0.1 5 9 ... 10 2 5 ... 1
0.2 0 ... 0.9 0 5 ... 10 5 5 ... 0
0 0.6 ... 1 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
10 0 ... 2 4 3 ... 5
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
0.1 0.2 ... 0.1 5 ... 1
date
Date normalizate
0.1 1 ... 0 1 1 ... 0 1 3 0.6 ... 1 1 0 ... 0.2 0.8 0.6
1 0.4 ... 0.5
4 10 ... 4 5 4 ... 5 0.1 0.2 ... 0.1 0.5 0.9 ... 1 0.4 1 ... 0.2
2 2
0.1 1 ... 0 0.1 0.1 ... 0 0.2 0.4 ... 0.6
xi' 0.699 0.4
10 5 1 0.4 ... 0.5 0.4 1 ... 0.4 1 0.8 ... 1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 109 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 110
109 110
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 111 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 112
111 112
> decorelarea datelor prin Principal Component Analysis (PCA); > măsură a variației a două dimensiuni față de medii, una în
funcție de cealaltă;
1 n 1
• dispersie (“variance”):
cov( X , Y ) xi x y i y
var( X ) 2
1 n 1
xi x
n i 0
2 n i0
unde X și Y sunt doi parametri, fiecare cu n valori măsurate (ex. două
dimensiuni/atribute ale unui descriptor multi-dimensional).
unde xi, i=0,...,n-1, reprezintă un set de valori ai unui parametru
(vector X) iar x este valoarea medie a setului. - valori pozitive: X și Y cresc sau descresc împreună;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 113 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 114
113 114
19
10/24/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 115 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 116
115 116
0 1 (A I)v 0
A
2 3 ( A 1 I ) v1 0
0 1 1 0 1 1 v1,1 1
det( A I ) det v1 k1
2 3 0 1 2
2 v1, 2
0
1
1 1 1 v1,1 v1, 2 0
1
det 2 3 2 v2 k 2
3
similar:
2 2 2 2 v1,1 2 v1, 2 0 2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 117 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 118
117 118
- reprezentative =
• nu depind de celelalte atribute (decorelate);
x2
• nu sunt perturbate de zgomot;
x1 crește redundanța
• prezintă o variație importantă a valorilor.
- cum putem reprezenta datele astfel încât să obținem ceea ce - în care dintre cazuri avem o redundanță maximă a datelor?
ne dorim? -> transformare a bazei de reprezentare;
- ce transformare a bazei permite maximizare varianță?
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 119 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 120
119 120
20
10/24/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 121 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 122
121 122
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
1 1 2 3 5 8 13 4 17 21 21 42 45 90 91 90 0 -0.75 -0.75 -1.25 -0.5 1 1.5 -9 -1.25 -8.5 -13.75 -18.25 -16.5 38.25 39.25 37.75
2 3 5 8 9 9 18 27 26 53 52 99 99 99 99 99 1 1.25 2.25 3.75 3.5 2 6.5 14 7.75 23.5 17.25 38.75 37.5 47.25 47.25 46.75
-1 -0.75 -1.75 -2.25 -2.5 -2 -3.5 0 2.75 4.5 20.25 28.75 28.5 -47.75 -48.75 -48.25
0 1 1 2 3 5 8 13 21 34 55 89 90 4 3 4
1 2 3 4 5 6 7 8 9 10 11 11 12 14 14 16 0 0.25 0.25 -0.25 -0.5 -1 -4.5 -5 -9.25 -19.5 -23.75 -49.25 -49.5 -37.75 -37.75 -36.25
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 123 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 124
123 124
λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9 λ10 λ11 λ12 λ13 λ14 λ15 λ16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 125 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 126
125 126
21
10/24/2022
p7: reducere dimensiuni prin eliminare atribute cu variabilitate p7: reducere dimensiuni prin eliminare atribute cu variabilitate
scăzută; scăzută (cont.);
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 127 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 128
127 128
> exemplu numeric (cont.): i > în urma PCA obținem decorelarea atributelor și astfel o matrice
de covarianță diagonală;
p7: reducere dimensiuni prin eliminare atribute cu variabilitate
scăzută (cont.); > valorile dispersiei nu sunt constante și nici egale astfel că
datele nu sunt distribuite uniform;
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
idee: obținerea unei distribuții uniforme a datelor; whitening =
51.28 -51.69 -8.98 0 0 0 0 0 0 0 0 0 0 0 0 0
transformarea datelor astfel încât să aibă o matrice de covarianță
99.27 28.91 7.34 0 0 0 0 0 0 0 0 0 0 0 0 0 diagonală și de dispersii constante, egale cu 1;
-62.84 71.55 -4.95 0 0 0 0 0 0 0 0 0 0 0 0 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 129 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 130
129 130
1 2 3 matrice (X’)T
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11
1 0 0
a12 a13 a14 a15
... 0
a16
0 1 0 ... 00
0.57 -0.85 -1.09 0 0 0 0 0 0 0 0 0 0 0 0
0 X 0 ) 00 ... 00
w
1.10 0.47 0.89 0 0 0 0 0 0 0 cov( 00 1 0
... ... .. ... 00
-0.70 1.18 -0.60 0 0 0 0 0 0 0 0 0 0 0 0
matrice (Xw)T
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 131 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 132
131 132
22
10/24/2022
Decorelarea datelor (cont.) Date de intrare centrate (medie 0) Decorelarea datelor (cont.) Reprezentare PCA
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 133 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 134
133 134
> exemplu
(cont.);
> Sfârşit M2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 135 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 136
135 136
23
11/21/2022
Plan Curs
Tehnologia Informaţiei https://www.aimultimedialab.ro/
Bucureşti
Prof. dr. ing. Bogdan IONESCU M4. Tehnici de clasificare supervizată (“classification”)
https://bionescu.aimultimedialab.ro/
M5. Evaluarea performanței clasificatorilor
Bucureşti, 2022 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 2
1 2
ne-supervizată
3.1. [ Introducere ]
3.2. [ Analiza similarității datelor ] clasa 1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 3 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 4
3 4
Clasificare ne-supervizată (clustering) - principiu (cont.) Clasificare ne-supervizată (clustering) - principiu (cont.)
clustering = partiționarea datelor de intrare în clase fără a dispune întreg procesul depinde de modul de definire al conceptului de
de exemple de partiționări (cont. exemplu); similaritate între date;
- similaritate = un
concept foarte
clasa 1 subiectiv;
sau?
- la nivel uman, este
greu de definit dar il
clasa 2
recunoaștem atunci
când il vedem;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 5 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 6 1
5 6
11/21/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 7 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 8
7 8
n | x i ,k x j ,k |
d wEuclid ( X i , X j ) wk | xi ,k x j,k |2 d B C ( X i , X j ) k 1
n
k 1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 9 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 10
9 10
distanța între date binare (valori 0 sau 1) distanța între histograme de valori
rs n
d bin ( X i , X j ) d inter ( X i , X j ) min{ xi ,k , x j ,k }
qrst k 1
unde xi,k cu k=1,…,n (bini) reprezintă valorile histogramei iar
unde:
min{.} returnează valoarea minimă a unei mulțimi.
- q este numărul de atribute ce au valoarea 1 pentru ambele
instanțe,
- t este numărul de atribute cu valoare 0 pentru ambele d hist ( X i , X j ) ( X i X j )T A ( X i X j )
instanțe,
- s + r reprezintă numărul de atribute de valori diferite pentru unde X reprezintă o histogramă, T este operația de
cele două instanțe (0 vs. 1 și respectiv 1 vs. 0). transpusă iar A=[ak,l] cu k,l=1,…,n este o matrice pătratică
ce indică corelația dintre binii k și l.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 11 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 12 2
11 12
11/21/2022
distanța Bhattacharyya (între distribuții de probabilitate) distanța Hausdorff (între mulțimi de valori) - Xi
1 d Haus ( X i , X j ) max{sup ( inf ( d ( xi ,k , x j ,l ) ) ), x - Xj
d Bhatta ( X i , X j ) ( X i X j )T ( X i , X j ) 1 ( X i X j ) l
8 k
sup (inf ( d ( xi ,k , x j ,l ) ) )} x
1 det( Xi ,X j ) k
ln l
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 13 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 14
13 14
distanța Hausdorff (între mulțimi de valori; cont.) - Xi distanța Hausdorff (între mulțimi de valori; cont.) - Xi
unde: unde:
- k,l=1,…,n; - k,l=1,…,n;
- inf(.) și sup(.) sunt infimum și x x - inf(.) și sup(.) sunt infimum și x x
respectiv supremum al unei mulțimi; respectiv supremum al unei mulțimi;
- d(.) este o metrică; - d(.) este o metrică;
- max{.} returnează valoarea maximă x - max{.} returnează valoarea maximă x
x x
a unei mulțimi. sup( inf ( d ( xi ,k , x j ,l ) ) ) a unei mulțimi. inf ( d ( xi ,k , x j ,l ) )
k l k
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 15 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 16
15 16
distanța Hausdorff (între mulțimi de valori; cont.) - Xi distanța Hausdorff (între mulțimi de valori; cont.) - Xi
unde: unde:
- k,l=1,…,n; - k,l=1,…,n;
- inf(.) și sup(.) sunt infimum și x x - inf(.) și sup(.) sunt infimum și x x
respectiv supremum al unei mulțimi; respectiv supremum al unei mulțimi;
- d(.) este o metrică; - d(.) este o metrică;
- max{.} returnează valoarea maximă x - max{.} returnează valoarea maximă x
x x
a unei mulțimi. sup ( inf ( d ( xi,k , x j,l ) ) ) a unei mulțimi.
l k max{}
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 17 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 18 3
17 18
11/21/2022
M N pS
unde ◦ reprezintă produsul scalar iar ||.|| reprezintă norma
unde: S
unui vector, astfel:
- I este o imagine binară, dIi dIj
n
- S reprezintă setul de puncte din
|| X ||2 xk2 imagine (MxN puncte),
k 1 - dI(p) reprezintă o anumită
unde X=[x1,x2,…,xn]. metrică de la punctul p la cel mai
apropiat punct al obiectului din Ii Ij
> distanța este practic cosinusul unghiului celor doi vectori
imaginea I,
normalizați. - q este exponentul (ex. q=2).
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 19 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 20
19 20
distanța Earth Mover’s Distance (între date de dimensiuni distanța Earth Mover’s Distance (cont.)
diferite) m n
> reprezintă practic “volumul de muncă”
d k ,l f k ,l necesar transformării unei instanțe în
d EMD ( X i , X j ) k 1 l 1
m n cealaltă;
f
k 1 l 1
k ,l
> exemplu, fie:
unde Xi și Xj au dimensiuni diferite (m, n), dk,l reprezintă X [( x1 , w1 ), ( x 2 , w2 ),..., ( x n , wn )]
distanța dintre valorile xi,k și xj,l iar fk,l este o funcție de cost
ce cuantizează deplasarea între xi,k și xj,l determinată ca
minimizând valoarea costului total:
Y [( y1 , u1 ), ( y 2 , u 2 ),..., ( y n , u n )]
m n unde X și Y sunt două instanțe de comparat iar w și u
d
k 1 l 1
k ,l f k ,l reprezintă ponderile atributelor (~masă);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 21 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 22
21 22
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 23 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 24 4
23 24
11/21/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 25 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 26
25 26
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 27 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 28
27 28
> exemplu, compararea a două documente video (cont.); determinarea gradului de asemănare la nivel de concepte
(reprezentare semantică a informației);
distanța de editare
> ontologii de informații:
costul minim de transformare a instanței Xi în instanța Xj, unde
Xi și Xj au n și respectiv m caractere ce pot lua valori într-un - mod formal de reprezentare a cunoașterii sub formă de
alfabet Σ iar E definește setul de operații de editare și costurile concepte și a relațiilor dintre acestea;
acestora. - folosesc următoarele componente:
- obiecte/instanțe de date;
Xi=“scswsdcs” 2 înlocuiri +
d(Xi,Xj)= =1+1+1=3 - clase (mulțimi, colecții, concepte);
Xj=“sdswscscs” 1 inserare - atribute (proprietăți);
- relații (între clase și instanțe);
Σ={c,w,d,s}
- restricții;
E={“inserare”,”ștergere”,”înlocuire”} (costuri egale, 1) - reguli (de tip “if-then”);
- evenimente (modul de schimbare al atributelor).
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 29 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 30 5
29 30
11/21/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 31 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 32
31 32
clasa1
cut p2. se calculează
- aglomerativ sau “bottom up” – de pentru fiecare 0 d(1,2) ... d(1, m)
jos în sus (în figura de alături); pereche de clase o d(2,1) 0 ... d(2, m)
măsură de ...
- diviziv sau “top down” – de sus în similaritate între ... ... ... ...
clasam
acestea;
d(m,1) ... d(m, m1)
jos (în figura de alături). 0
n clase
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 33 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 34
33 34
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
clasa1&2 clasa3 ... clasam > exemplu:
clasa1&2
clase sunt
fuzionate ... ... ... ...
clasam
într-una d(m,m1)
singură; d(m,1&2) ... 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 35 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 36 6
35 36
11/21/2022
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
> exemplu (cont.): iterația 1 > exemplu (cont.): iterația 2
1 1 2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 37 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 38
37 38
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
> exemplu (cont.): iterația 3 > exemplu (cont.): iterația 4
3 3
1 2 1 2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 39 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 40
39 40
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
> exemplu (cont.): iterația 5 > exemplu (cont.): iterația k
3 3 9
1 2 6 1 2
5 5
8
4 4
7
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 41 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 42 7
41 42
11/21/2022
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
> exemplu (cont.): iterația 11 > cum evaluăm similaritatea între clase?
3 9 > single link =
6 1 2
5 distanța dintre cele
8 mai apropiate două
4 instanțe ale claselor;
7
-> clasele rezultate
tind să fie subțiri și
lungi.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 43 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 44
43 44
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
> cum evaluăm similaritatea între clase? (cont.) > cum evaluăm similaritatea între clase? (cont.)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 45 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 46
45 46
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
> exemplu real (imagini, descriptor - culoare, metrică - Euclidiană, > exemplu real (imagini, descriptor - culoare, metrică - Euclidiană,
similaritate - average link): 10 clase similaritate - average link; cont.) - 9 clase
[credit B. Boteanu, 2015; sursă imagini Flickr, “Casa Batllo”] [credit B. Boteanu, 2015; sursă imagini Flickr, “Casa Batllo”]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 47 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 48 8
47 48
11/21/2022
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
> exemplu real (imagini, descriptor - culoare, metrică - Euclidiană, > exemplu real (imagini, descriptor - culoare, metrică - Euclidiană,
similaritate - average link; cont.) - 8 clase similaritate - average link; cont.) - 7 clase
[credit B. Boteanu, 2015; sursă imagini Flickr, “Casa Batllo”] [credit B. Boteanu, 2015; sursă imagini Flickr, “Casa Batllo”]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 49 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 50
49 50
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
> exemplu real (imagini, descriptor - culoare, metrică - Euclidiană, > exemplu real (imagini, descriptor - culoare, metrică - Euclidiană,
similaritate - average link; cont.) - 6 clase similaritate - average link; cont.) - 5 clase
[credit B. Boteanu, 2015; sursă imagini Flickr, “Casa Batllo”] [credit B. Boteanu, 2015; sursă imagini Flickr, “Casa Batllo”]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 51 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 52
51 52
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 1. Aglomerativă (cont.)
> exemplu real (imagini, descriptor - culoare, metrică - Euclidiană, > exemplu real (imagini, descriptor - culoare, metrică - Euclidiană,
similaritate - average link; cont.) - 4 clase similaritate - average link; cont.) - 3 clase
[credit B. Boteanu, 2015; sursă imagini Flickr, “Casa Batllo”] [credit B. Boteanu, 2015; sursă imagini Flickr, “Casa Batllo”]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 53 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 54 9
53 54
11/21/2022
Clasificarea ierarhică (hierarchical clustering; cont.) Clasificarea ierarhică (hierarchical clustering; cont.)
1. Aglomerativă (cont.) 2. Divizivă
> exemplu real (imagini, descriptor - culoare, metrică - Euclidiană, > date de intrare, Xi=[xi,1,…,xi,n], i=1,...,m;
similaritate - average link; cont.) - 2 clase
> algoritm:
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 55 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 56
55 56
> care dintre cele două abordări tinde să fie mai precisă? V {V1 , V2 ,..., Vk }
- bottom up – deciziile de agreagare sunt luate local fără a ține - o matrice de partiționare:
cont de distribuția globală (deciziile inițiale nu mai pot fi
1 X i cl
schimbate ulterior);
[ l ,i ], l ,i
- top down – țin cont de distribuția globală. 0 altfel
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 57 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 58
57 58
k m [sursă http://util.io/k-means]
k-means (cont.) optimizare E ( ,V ) li || X i Vl ||2 k-means (cont.)
> algoritm: l 1 i 1 > exemplu:
p1. se alege o valoare pentru k (numărul de clase);
X { X 1 ,..., X 23 }
p2. se inițializează vocabularul V cu k instanțe din datele de
intrare X. Acestea definesc o partiție inițială a claselor (centroizi); k3
p3. fiecare instanță este atribuită clasei celei mai apropiate
c1 , c2 , c3
(ca distanță față de centroidul clasei);
p6. se reia pasul 3 până când nici o instanță nu-și mai schimbă
apartenența la clase (Γ nu se modifică). spațiul de caracteristici
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 59 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 60 10
59 60
11/21/2022
- se alege - se recalculează
vocabularul din V1 vectorii V pentru V1
instanțele de fiecare clasă ca
intrare; fiind centroizii
claselor curente
- acesta definește (medie);
cele 3 clase; V2 V3 V2 V3
- instanțele sunt
asociate claselor
cele mai
apropiate.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 61 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 62
61 62
V2 ' V2 '
V3 ' V3 '
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 63 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 64
63 64
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 65 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 66 11
65 66
11/21/2022
[sursă http://util.io/k-means]
k-means (cont.) k-means (cont.)
> exemplu (cont.): > avantaje:
- simplu de implementat;
- în acest moment V1' ' '
nu se mai - optimizează în mod intuitiv similaritatea intra-clasă;
schimbă repartiția
în clase a V2 ' ' ' - relativ eficient, complexitate O(m x k x nr.iterații).
instanțelor;
> dezavantaje:
- necesită definirea noțiunii de centroid ca medie instanțe;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 67 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 68
67 68
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 69 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 70
69 70
q||X i X j ||
K( Xi , X j ) e (Gaussian); fără funcții nucleu kernel trick (ce tip de nucleu?)
- exemple de nuclee:
spațiul de caracteristici
K ( X i , X j ) ( c X iT X j )d (polinomial).
[sursă R. Chitta, Kernel K-Means]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 71 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 72 12
71 72
11/21/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 73 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 74
73 74
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 75 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 76
75 76
2 (2 )k det()
unde X=[x1,…,xk]
unde μ reprezintă media
reprezintă o variabilă f(X) k=2
valorilor și σ este f(x) aleatoare k dimensională,
abaterea pătratică
μ=[μ1,…, μk] reprezintă
medie.
μ vectorul medie (μi este
> 68% din valori sunt media lui xi), Σ este
matricea de covarianță
în intervalul [μ-σ; μ+σ];
(dimensiune k x k),
T reprezintă transpusa,
> 99% din valori sunt -1 reprezintă inversa iar x2
în intervalul x1
det() returnează
[μ-3σ; μ+3σ]. determinantul.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 79 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 80
79 80
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 81 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 82
81 82
p1. se alege numărul de surse k (= numărul de clase); p3. sunt calculate clasele estimate (Expectation-step; cont):
p2. se inițializează parametrii de intrare, pi, μi, Σi cu i=1,...,k P { X j | c i , } P {c i | }
(ex. valori aleatorii); P {c i | X j , }
{1 ,..., k , 1 ,..., k , p1 ,..., p k } P{ X j | }
P{ X j | } N(Xj;μi,Σi) P{ X j | } P{ X
i 1
j | ci , i , i } p i
se eval.
P { X j | c i , } P {c i | } P { X j | c i , i , i } p i N(Xj;μi,Σi)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 83 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 84 14
83 84
11/21/2022
P {c | X j, } X m
P {c | X j , }
i j
j 1
i m j 1
i
pi
P {c
j 1
i | X j, } m
m
p5. dacă parametrii de intrare, în urma actualizării, se schimbă
P {c
j 1
i | X j , }[ X j i ][ X j i ]T foarte puțin -> STOP;
i m
p6. altfel se repetă procesul cu pasul 3.
P {c
j 1
i | X j,}
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 85 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 86
85 86
- medii;
- matrice de
covarianță.
- calcul probabilități de
apartenență la
distribuții;
spațiul de caracteristici [sursă Andrew W. Moore] spațiul de caracteristici [sursă Andrew W. Moore]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 87 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 88
87 88
spațiul de caracteristici [sursă Andrew W. Moore] spațiul de caracteristici [sursă Andrew W. Moore]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 89 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 90 15
89 90
11/21/2022
spațiul de caracteristici [sursă Andrew W. Moore] spațiul de caracteristici [sursă Andrew W. Moore]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 91 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 92
91 92
- rezultă repartiția
optimală în clase de
distribuție normală.
c3
spațiul de caracteristici [sursă Andrew W. Moore] spațiul de caracteristici [sursă Andrew W. Moore]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 93 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 94
93 94
> avantaje:
- interpretabilitate: determină un model de generare a datelor
(se pot genera date noi);
- relativ eficient, complexitate O(m x k x nr.iterații); > Sfârşit M3
- extensibil la alt tip de distribuții de date.
> dezavantaje:
- EM conduce de regulă la un minim local – depinde de
inițializare;
- numărul de clase trebuie determinat a priori;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 95 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 96 16
95 96
12/5/2022
Plan Curs
Tehnologia Informaţiei https://www.aimultimedialab.ro/
Bucureşti
Prof. dr. ing. Bogdan IONESCU M4. Tehnici de clasificare supervizată (“classification”)
https://bionescu.aimultimedialab.ro/
M5. Evaluarea performanței clasificatorilor
Bucureşti, 2022 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 2
1 2
supervizată (“classification”)
4.1. [ Introducere ] clasa 1
4.2. [ k-NN ]
+ clasa 2
4.3. [ Support Vector Machines ]
4.4. [ Arbori de decizie ]
clasa 3
clasa 4
date de intrare date de antrenare
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 3 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 4
3 4
Clasificare supervizată (classification) – principiu (cont.) Clasificare supervizată (classification) – principiu (cont.)
classification = partiționarea datelor de intrare în mulțimi similare classification = partiționarea datelor de intrare în mulțimi similare
pe baza unor exemple a priori de astfel de partiții (date de antrenare); pe baza unor exemple a priori de astfel de partiții (date de antrenare);
clasa 1 clasa 2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 5 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 6
5 6
1
12/5/2022
Clasificare supervizată (classification) - principiu (cont.) Clasificare supervizată (classification) - principiu (cont.)
classification = partiționarea datelor de intrare în mulțimi similare classification = partiționarea datelor de intrare în mulțimi similare
pe baza unor exemple a priori de astfel de partiții (date de antrenare); pe baza unor exemple a priori de astfel de partiții (date de antrenare);
clasa 3 clasa 4
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 7 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 8
7 8
classification = partiționarea datelor de intrare în mulțimi similare datele de intrare sunt clasificate pe baza unui vot majoritar cu privire
pe baza unor exemple a priori de astfel de partiții (date de antrenare); la clasa de apartenență a celor mai apropiați k vecini;
- date de clasificat:
Xi=[xi,1,…,xi,n], i=1,...,n;
> algoritm:
> antrenare:
date de intrare p2. sunt stocate datele etichetate (lazy classifier);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 9 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 10
9 10
> clasificare:
p3. pentru fiecare instanță de clasificat, Xi, se calculează
distanța către toate datele de antrenare, Yj, j=1,...,m;
dată de clasificat
p4. se determină cele mai apropiate k date de antrenare;
Yj
p5. instanța Xi este clasificată ca aparținând clasei
predominante din cele k date deja etichetate (vot majoritar);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 11 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 12
11 12
2
12/5/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 13 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 14
13 14
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 15 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 16
15 16
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 17 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 18
17 18
3
12/5/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 19 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 20
19 20
Datele de intrare sunt împărțite în două clase prin optimizarea - clasificator liniar: se determină o funcție liniară (cont.):
ecuației unui hiperplan astfel încât distanța la date este maximă; 0 clasa( 1)
f (X )
> date de intrare: f (X ) 0 f (X ) 0 0 clasa( 1) f (X ) 0
- date de antrenare: Yj - funcția reprezintă ecuația
[Y1 ϵ c1, ... ,Ym ϵ cm], unui hiperplan: Y3
cj ϵ {+1,-1}, Yj=[yj,1,…,yj,n];
f ( X ) wT X b
- date de clasificat: b
unde w și b reprezintă vectorul
Xi=[xi,1,…,xi,n], i=1,...,n; normal la hiperplan și respectiv || w ||
decalajul față de origine; Y6
- clasificator liniar: se
determină o funcție liniară: f (Y3 ) wT Y3 b 0
0 clasa( 1) w
f (X ) f (Y6 ) wT Y6 b 0
0 clasa( 1) spațiul de caracteristici f (X ) 0 spațiul de caracteristici
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 21 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 22
21 22
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 23 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 24
23 24
4
12/5/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 25 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 26
25 26
2
c j ( wT Y j b)
2 || w ||
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 27 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 28
27 28
2
Support Vector Machines (cont.) Support Vector Machines (cont.)
|| w ||
- clasificatorul rezultat (formulare matematică; cont.): - clasificatorul rezultat (formulare matematică; cont.):
- în aceste condiții antrenarea clasificatorului poate fi să se determine w și b astfel încât să fie minimizat ||w||2=wTw, cu
condiția că pentru toate {(Yj,cj)}: c j ( w Y j b ) 1
T
formulată ca:
normalizare la ρ/2
să se determine w și b astfel încât să fie maximizat ρ, cu condiția că
pentru toate datele de antrenare {(Yj,cj)}: c j ( w Y j b ) 1
T
- soluție folosind multiplicatorii Lagrange:
normalizare la ρ/2
să se determine α1,..., αm astfel încât să maximizăm:
- și mai departe reformulată ca (minimizare):
1
să se determine w și b astfel încât să fie minimizat ||w||2=wTw, cu
i
i i j c i c jY i T Y j
2 i j
condiția că pentru toate {(Yj,cj)}: c j ( w Y j b ) 1
T
cu următoarele ipoteze:
normalizare la ρ/2 (1) j c j 0
j
= o problemă de optimizare pătratică (bine studiată în literatură); (2) i 0 pentru i
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 29 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 30
29 30
5
12/5/2022
b ck j c jY jT Y k k 0
cu următoarele ipoteze: j
(1) j c j 0 - fiecare valoare α non-nulă indică un vector suport;
j
w j c jY j f linSVM ( X i ) j
j c jY jT X i b
j
unde Xi=[xi,1,…,xi,n], i=1,...,n, sunt datele de clasificat;
b ck j
j c jY jT Y k k 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 31 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 32
31 32
zgomot
normalizare la ρ/2
= “soft margin” SVM;
- parametrul C poate fi văzut ca o modalitate de a controla
adaptarea excesivă la datele de antrenare (“overfitting”):
spațiul de caracteristici compromis între maximizare margine și adaptare la date.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 33 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 34
33 34
i
1
i c c jY i T Y j
j i
b c k (1 k ) j c jY jT Y k k 0
i 2 i j
j
- fiecare valoare α non-nulă indică un vector suport;
cu următoarele ipoteze:
(1) j c j 0
j - clasificatorul este dat de:
(2) i 0 pentru i
f softSVM ( X i ) c jY jT X i b
j c jY j
j
w j
j
unde Xi=[xi,1,…,xi,n], i=1,...,n, sunt datele de clasificat;
b c k (1 k )
j
j c jY jT Y k k 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 35 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 36
35 36
6
12/5/2022
X → φ(X)
b ck
j
j c jY jT Y k
K (Y j , Y k ) Y jT Y k K ( Y j , Y k ) ( Y j ) T (Y k )
spațiul de caracteristici
[liniar] [neliniar]
[sursă Machine Learning Group, Univ. of Texas]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 37 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 38
37 38
- funcțiile nucleu trebuie să fie semi-pozitiv definite și simetrice; să se determine α1,..., αm astfel încât să maximizăm:
1
- exemple de funcții uzuale folosite pentru SVM:
i
i i j c i c j K ( Y i , Y j )
2 i j
K (Y j , Y k ) Y jT Y k liniar cu următoarele ipoteze:
(1) j c j 0
K (Y j , Y k ) (1 Y jT Y k ) p polinomial j
(2) i 0 pentru i
||Y j Y k ||2
Gaussiană
K (Y j , Y k ) e 2 2
- clasificatorul este dat de:
(Radial Basis Function)
n
( y j ,i y k ,i ) 2 f neliniarSV M (Xi) j c j K (Y j , X i ) b
K (Y j , Y k ) 1 2 Chi-Square j
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 39 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 40
39 40
Support Vector Machines (cont.) Support Vector Machines (cont.) cum luăm decizia de
clasificare?
- ce se întâmplă dacă datele de clasificat sunt multi-clasă? - clasificare multi-clasă (cont.):
arg maxc1,...,C { f SVMc ( X i )}
(SVM este nativ un clasificator binar)
[formăm un clasificator multiclasă] abordare 1 - one-vs.-all
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 41 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 42
41 42
7
12/5/2022
Support Vector Machines (cont.) cum luăm decizia de Arbori de decizie (Decision Trees)
clasificare? vot majoritar
- clasificare multi-clasă (cont.): Datele sunt clasificate prin asocierea observațiilor (date de antrenare)
{(Yj,1)} → {(Yj,+1)} cu o serie de concluzii privind valorile acestora (predicție), ceea ce
abordare 2 - one-vs.-one {(Yj,2)} → {(Yj,-1)} conduce la o reprezentare arborescentă;
+1vot
- sunt creați C’ clasa +1 (real 1)
Xi - punerea problemei, un exemplu simplu:
SVM1,2 sau
clasificatori SVM, câte
clasa -1 (real 2) - să presupunem că avem posibilitatea să realizăm patru
unul pentru fiecare
+1vot activități de weekend:
combinație de două clasa +1 (real 1)
Xi {“cumparături”,“film”,“tenis”,“nimic”}
( C 1) C SVM1,3 sau
clase = x SVM; clasa -1 (real 3) (reprezintă clasele);
2
... - aceste activități depind de o serie de variabile:
- clasificatorii sunt “vreme” ϵ {“vânt”,“ploaie”,“soare”}
etc
antrenați doar cu datele “buget”ϵ {“bogat”,“sărac”}
Xi clasa +1 (real C-1)
de antrenare aferente SVM(C-1),C sau “vizită părinți”ϵ {“da”,“nu”}
celor două clase; clasa -1 (real C) (reprezintă atributele datelor);
[Simon Colton, lectures, 2004]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 43 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 44
43 44
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
- punerea problemei, un exemplu simplu (cont.): - punerea problemei, un exemplu simplu (cont.):
- pe baza cunoștințelor actuale putem asocia valorile atributelor - pentru o serie de valori noi ale atributelor, folosind arborele
unor decizii de activități (clase): ~ etapă de antrenare; creat putem lua o decizie: ~ etapă de clasificare;
nodurile arborelui
da vizită părinți da vizită părinți Sâmbătă 16 Mai:
reprezintă atributele;
“vizită părinți” = “nu”
film nu film nu “vreme” = “soare”
ramurile arborelui
soare vreme ploaie reprezintă soare vreme ploaie
Duminică 17 Mai:
relaționarea valorilor
tenis vânt nimic tenis vânt nimic “vizită părinți” = “nu”
atributelor;
“vreme” = “vânt”
bogat buget sărac frunzele arborelui bogat buget sărac “buget” = “sărac”
reprezintă clasele;
cumpărături film cumpărături film
[Simon Colton, lectures, 2004] [Simon Colton, lectures, 2004]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 45 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 46
45 46
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
- antrenarea arborelui (metoda ID3 - Iterative Dichotomiser 3); - antrenarea arborelui (metoda ID3; cont.);
- cum selectăm atributele care să fie asociate nodurilor și cum • entropie: în cazul a C clase, unde setul de exemple S are pi %
alegem ordinea (prioritatea) acestora? exemple clasificate în clasa ci, atunci:
C
• entropie: având la dispoziție un sistem binar de clasificare și
un set de exemple S în care p+ % exemple sunt clasificate în
entropy ( S ) p log
i 1
i 2 ( pi )
clasa1 (pozitive) și respectiv p- % în clasa2 (negative) atunci:
• câștig informațional (“information gain”): pentru un atribut A,
entropy ( S ) p log 2 ( p ) p log 2 ( p ) cu mulțimea de valori posibile {A}, notând cu Sa subsetul de
exemple din S în care atributul A are valoarea a, atunci:
> este o măsură a “purității” datelor pentru o colecție de exemple
| Sa |
(puritate = datele sunt fie toate în clasă sau clasa este goală); gain ( S , A) entropy ( S )
a{ A} | S |
entropy ( S a )
p 0 log 2 ( p ) mare, negativ; p log 2 ( p ) 0
unde operatorul |.| returnează numărul de elemente al unui set.
p 1 log 2 ( p ) mic, 0; p log 2 ( p ) 0 > este o măsură a reducerii entropiei datorată valorii lui A;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 47 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 48
47 48
8
12/5/2022
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
- antrenarea arborelui (metoda ID3; cont.); atribute - antrenarea arborelui (metoda ID3; cont.);
> date de intrare: > algoritm (cont.): ymax
- date de antrenare S: {(Yj,cj)}, j=1,…,m, Yj=[yj,1,…,yj,n], cjϵ{1,...,C}; > antrenare (cont.): ...
- date de clasificat: Xi=[xi,1,…,xi,n], i=1,...,n; p3. pentru fiecare ramură
calculăm Sv (cu v valoarea cdefault c
> algoritm: ymax asociată ramurii);
> antrenare: ... p4. dacă Sv este mulțimea vidă atunci determinăm clasa
p1. atributul y=ymax pentru care
cdefault care are cele mai multe exemple în setul de antrenare
avem valoarea maximă a
S; aceasta definește frunza ce închide această ramură;
information gain, gain(S,y), relativ
la S este ales drept rădăcină;
p5. dacă Sv conține doar date dintr-o clasă c atunci definim cu
p2. pentru fiecare valoare posibilă a lui ymax (din mulțimea această clasă frunza ce închide ramura;
{ymax}) creăm o ramură;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 49 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 50
49 50
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
- antrenarea arborelui (metoda ID3; cont.); - antrenarea arborelui (metoda ID3; cont.);
> algoritm (cont.): ymax > algoritm (cont.):
> antrenare (cont.): v > clasificare: ymax
...
p6. dacă Sv nu este conform p4 - pentru un vector X de intrare
și p5 atunci: c v ...
cdefault nu trebuie decât să parcurg
- ymax este eliminat din lista arborele în funcție de valorile cdefault c
potențialelor atribute care atributelor;
definesc noduri; ymax2
- clasa de apartenență a lui X
- determinăm atributul y=ymax2 ... ymax2
este dată de frunza arborelui la
pentru care avem information gain
care ajung în final; ...
maxim relativ la Sv, gain(Sv,y);
- acesta crează un nod nou; ymax3 - procesul de clasificare este
imediat.
- se repetă algoritmul cu pasul 2. ...
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 51 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 52
51 52
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
> exemplu numeric: > exemplu numeric (cont.):
- date de intrare (setul S): - p1: alegere nod rădăcină:
C
p log
nr. vreme vizită părinți buget decizie C ϵ {film, tenis,
entropy ( S ) i 2 ( pi )
#1 soare da bogat film cumpărături, nimic}
i 1
#2 soare nu bogat tenis
#3 vânt da bogat film entropy ( S ) p film log 2 ( p film ) ptenis log 2 ( p tenis )
#4 ploaie da sărac film p cumparatur i log 2 ( p cumparatur i ) p nimic log 2 ( p nimic )
#5 ploaie nu bogat nimic
#6 ploaie da sărac film
6 6 2 2 1 1
#7 vânt nu sărac film log 2 log 2 log 2
#8 vânt nu bogat cumpărături
10 10 10 10
10 10
#9 vânt da bogat film 1 1
#10 soare nu bogat tenis log 2 1 .571
10 10
[Simon Colton, lectures, 2004]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 53 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 54
53 54
9
12/5/2022
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
> exemplu numeric (cont.): A ϵ {vreme, vizită > exemplu numeric (cont.):
părinți, buget}
- p1: alegere nod rădăcină (cont.): - p1: alegere nod rădăcină (cont.):
|S |
gain ( S , A) entropy ( S ) a entropy ( S a ) gain ( S , vreme ) 1 .571
3
entropy ( S soare )
a{ A} | S | 10
3 4 3
gain ( S , vreme ) 1 .571 entropy ( S soare ) entropy ( S vant ) entropy ( S ploaie )
10 10 10
4 3
entropy ( S vant ) entropy ( S ploaie )
10 10 entropy ( S ploaie ) 0 .918
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 55 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 56
55 56
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
> exemplu numeric (cont.): > exemplu numeric (cont.):
- p1: alegere nod rădăcină (cont.): - p1: alegere nod rădăcină (cont.):
5 7
gain ( S , vizita parinti ) 1 . 571 entropy ( S da ) gain ( S , buget ) 1 . 571 entropy ( S bogat )
10 10
5 3
entropy ( S nu ) entropy ( S sarac )
10 10
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 57 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 58
57 58
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
> exemplu numeric (cont.): > exemplu numeric (cont.):
- p1: alegere nod rădăcină (cont.): vreme - p4: Sploaie, Ssoare, Svânt sunt mulțimea vreme
gain ( S , vreme ) 0 .7 vidă? nu;
vânt soare vânt
gain ( S , vizita parinti ) 0 .61 soare ploaie - p5: Sploaie, Ssoare, Svânt conțin ploaie
date doar dintr-o clasă? nu; ?
gain ( S , buget ) 0 .2816
- p2: creăm ramurile pentru nodul vreme; - p6: determinăm atributul (altul decât vreme) pentru
care obținem information gain maxim:
- p3: calculăm:
entropy ( S soare ) p film log 2 ( p film ) p tenis log 2 ( p tenis )
S ploaie {# 4 , # 5, # 6}, | S ploaie | 3;
p cumparatur i log 2 ( p cumparatur i ) p nimic log 2 ( p nimic )
S soare {#1, # 2 , #10}, | S soare | 3;
- valorile sunt calculate pe Ssoare doar;
S vant {# 3, # 7 , #8, # 9}, | S vant | 4 .
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 59 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 60
59 60
10
12/5/2022
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
> exemplu numeric (cont.): > exemplu numeric (cont.):
- p6: determinăm atributul pentru vreme - p6: determinăm atributul pentru vreme
care obținem information gain care obținem information gain
maxim (cont.): soare vânt maxim (cont.): soare vânt
ploaie ploaie
? ?
entropy ( S soare ) gain ( S soare , vizita parinti )
p film log 2 ( p film ) ptenis log 2 ( p tenis ) 1 2
0 .918 entropy ( S da ) entropy ( S nu )
p cumparatur i log 2 ( p cumparatur i ) p nimic log 2 ( p nimic ) 3 3
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 61 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 62
61 62
Arbori de decizie (Decision Trees; cont.) Arbori de decizie (Decision Trees; cont.)
> exemplu numeric (cont.): > exemplu numeric (cont.):
- p6: determinăm atributul pentru vreme - p6: determinăm atributul pentru vreme
care obținem information gain care obținem information gain
maxim (cont.): soare vânt maxim (cont.): soare vânt
ploaie ploaie
? gain ( S soare , vizita parinti ) vizită
gain ( S soare , buget ) părinți
0 .918
3 0 gain ( S soare , buget ) 0
0 .918 entropy ( S bogat ) entropy ( S sarac )
3 3 da nu
- p2: creăm ramurile pentru nodul vizită părinți;
entropy ( S bogat ) 0 .918 - p3: calculăm:
gain ( S soare , buget ) 0 S da soare {#1}, | S da | 1;
entropy ( S sarac ) 0
S nu soare {# 2 , #10}, | S nu | 2 .
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 63 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 64
63 64
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 65 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 66
65 66
11
12/12/2022
Plan Curs
Tehnologia Informaţiei https://www.aimultimedialab.ro/
Bucureşti
Prof. dr. ing. Bogdan IONESCU M4. Tehnici de clasificare supervizată (“classification”)
https://bionescu.aimultimedialab.ro/
M5. Evaluarea performanței clasificatorilor
Bucureşti, 2022 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 2
1 2
clasificatorilor
5.1. [ Introducere ]
clasa 1
5.2. [ Măsuri de performanță ]
5.3. [ Evaluarea performanței ] clasificator 1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 3 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 4
3 4
Evaluarea performanței unui sistem – principiu (cont.) Evaluarea performanței unui sistem – principiu (cont.)
clasa 1 clasa 1
clasificator 2 clasificator n
clasa 2
clasa 2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 5 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 6
5 6
1
12/12/2022
Evaluarea performanței unui sistem – principiu (cont.) Evaluarea performanței unui sistem – principiu (cont.)
> Observație: poate fi vorba de același clasificator > Observație: poate fi vorba de același clasificator
clasificator 1 dar pentru diferite valori ale parametrilor, exemplu clasificator 1 dar pentru diferite valori ale parametrilor, exemplu
nucleu SVM, valoare k pentru k-NN, etc nucleu SVM, valoare k pentru k-NN, etc
Idee 1: pentru evaluarea rezultatelor folosesc un Idee 2: am nevoie de o măsură matematică prin
clasificator 2 operator uman care analizează manual clasele; clasificator 2 care să verific corespondența dintre apartenența
[evaluare subiectivă] reală la clase a datelor și cea determinată în mod
automat de clasificator; [evaluare obiectivă]
... ...
- înseamnă că știu deja rezultatul pentru
datele de clasificat?
clasificator n clasificator n
clasa 2
clasa 3
clasa 1
$$$
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 7 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 8
7 8
Evaluarea performanței unui sistem – principiu (cont.) Evaluarea performanței unui sistem – principiu (cont.)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 9 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 10
9 10
clasificator c1* c2
rezultat în
{(Xi,c’i)},
i=1,…,n, TP – True Positive, clasificare corectă, în realitate data este în
c1 iar în urma clasificării am obținut aceeași clasă;
comparare
11 12
2
12/12/2022
urma clasificării
c1 * c2 c1* c2
rezultat în
rezultat în
c1 TP FP c1 TP FP
c2 c2 FN
FP – False Positive, clasificare falsă, în realitate data este în FN – False Negative, non detecție, în realitate data este în c1
c2 iar în urma clasificării am obținut că ar fi în c1; iar în urma clasificării am obținut că ar fi în c2;
*clasa principală vizată de clasificator (ex. da vs. nu). *clasa principală vizată de clasificator (ex. da vs. nu).
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 13 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 14
13 14
urma clasificării
c1* c2 c1* c2
rezultat în
rezultat în
c1 TP FP c1 TP FP
c2 FN TN c2 FN TN
*clasa principală vizată de clasificator (ex. da vs. nu). *clasa principală vizată de clasificator (ex. da vs. nu).
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 15 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 16
15 16
TP TP
Precision/Recall (cont.) Precision/Recall (cont.) Precision , Recall
TP FP TP FN
realitate (gound truth)
- exemplu numeric #1 (c1 = film, c2 = nimic);
urma clasificării
c1* c2
rezultat în
*clasa principală vizată de clasificator (ex. da vs. nu). TP = 3 , FP = 2 , FN = 1 , Precision = 60% , Recall = 75%
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 17 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 18
17 18
3
12/12/2022
TP TP TP TP
Precision/Recall (cont.) Precision , Recall Precision/Recall (cont.) Precision , Recall
TP FP TP FN TP FP TP FN
- exemplu numeric #2 (c1 = film, c2 = nimic); - ce este mai important, precision sau recall?
nr. vreme vizită părinți buget decizie ground truth
- ce este mai important să obținem, cât mai puține clasificări false
#1 soare da bogat film film sau cât mai puține non-detecții?
#2 soare nu bogat film nimic
#3 vânt da bogat film film
- depinde de aplicație!
#4 ploaie nu bogat film nimic • web: ex. sistem de căutare a informației; cât de important este
#5 ploaie da sărac film film să găsim toate datele de un anumit tip de pe tot Internet-ul?
#6 vânt nu sărac film film
• forensics: ex. sistem de căutare a unei persoane pe baza
#7 vânt nu bogat film nimic profilului; cât de important este să găsim toate persoanele care
TP = 4 , FP = 3 , FN = 0 , Precision = 57% , Recall = 100% corespund profilului căutat?
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 19 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 20
19 20
F-measure Accuracy
- există o măsură care combină precision și recall într-un - o măsură a numărului de clasificări corecte:
mod unitar: realitate (gound truth)
Precision Recall
urma clasificării
F - measure (1 ) 2 2
c1* c2
rezultat în
Precision Recall
unde β este o constantă: c1 TP FP
Precision Recall TP TN - TP + FP + FN + TN =
2 F2 5
[pondere mai mare Accuracy
4 Precision Recall Recall] TP FP FN TN numărul total de date;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 21 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 22
21 22
- cum poate fi adaptată pentru problema clasificării? Q unde q reprezintă clasele (adoptat din notație
1
[reprezentăm datele clasificate în ordinea descrescătoare a MAP
Q
AP ( q )
q 1
inițială unde reprezenta “query”) iar Q este
numărul de clase în care clasificăm datele.
măsurii de încredere (“confidence level”) furnizată de clasificator,
astfel obținem o ordonare a acestora]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 23 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 24
23 24
4
12/12/2022
Confusion Matrix c1 c2 … cC
rezultat în urma clasificării c1 5 2 … 1
(gound truth)
realitate
c1 c2 … cC c2 0 6 … 0
c1 5 2 … 1 … … … …
(gound truth)
c2 0 6 … 0 cC fost1clasificate
10de fapt în …
c2; 3
… … … … …
câte date care erau în realitate în clasa c2 au
fost1clasificate de fapt în …
c 1; > cum arată matricea de confuzie pentru un sistem de clasificare
cC 10 3 perfect? diagonală
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 25 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 26
25 26
(gound truth)
realitate
realitate
c2 0 6 1 0 c2 0 6 1 0
ci 1 2 11 3 ci 1 2 11 3
cC 1 10 0 3 cC 1 10 0 3
> putem pe baza matricei de confuzie să estimăm valorile TP, > putem pe baza matricei de confuzie să estimăm valorile TP,
FP, TN, FN (și astfel Precision/Recall)? să luăm exemplu pe c2 FP, TN, FN (și astfel Precision/Recall)? să luăm exemplu pe c2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 27 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 28
27 28
Confusion Matrix (cont.) c2: TP = 6, FP = 14, FN = 1 Confusion Matrix (cont.) c2: TP = 6, FP = 14, FN = 1 , TN = 19
rezultat în urma clasificării rezultat în urma clasificării
c1 c2 ci cC c1 c2 ci cC
c1 5 2 3 1 c1 5 2 3 1
(gound truth)
(gound truth)
realitate
realitate
c2 0 6 1 0 c2 0 6 1 0
ci 1 2 11 3 ci 1 2 11 3
cC 1 10 0 3 cC 1 10 0 3
> putem pe baza matricei de confuzie să estimăm valorile TP, > putem pe baza matricei de confuzie să estimăm valorile TP,
FP, TN, FN (și astfel Precision/Recall)? să luăm exemplu pe c2 FP, TN, FN (și astfel Precision/Recall)? să luăm exemplu pe c2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 29 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 30
29 30
5
12/12/2022
Stestare
c2 0 6 1 0 cunoscut astfel încât să asigurăm
generalizarea maximă pentru
ci 1 2 11 3 Santrenare rezultatele obținute?
cC 1 10 0 3 = clasificatorul se “va descurca” cu
performanțe cel puțin superioare
> cum determinăm Accuracy? = date de clasificat celor obținute pe datele cunoscute,
(dependente de aplicație)
(5 + 6 + 11 + 3) / (5 + 2 + 3 + 1 + 6 + 1 + 1 + 2 + 11 + 3 + 1 + 10 + 3) pe datele reale, necunoscute.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 31 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 32
31 32
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 33 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 34
33 34
% Split (cont.) ex. 70% - Santrenare / 30% - Stestare % Split (cont.) ex. 70% - Santrenare / 30% - Stestare
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 35 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 36
35 36
6
12/12/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 37 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 38
37 38
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 39 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 40
39 40
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 41 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 42
41 42
7
12/12/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 43 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 44
43 44
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 45 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 46
45 46
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 47 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 48
47 48
8
12/12/2022
determinare automată gen video (cont.) determinare automată gen video (cont.)
> % Split (antrenare 50% – testare 50%); > % Split (antrenare 50% – testare 50%);
F1 (valoare medie pentru toate genurile) F1 (valoare medie pentru toate genurile)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 49 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 50
49 50
> % Split (antrenare 50% – testare 50%); > obiectiv: realizarea unui sistem capabil să catalogheze automat
conținutul video ca fiind violent sau nu;
F1 (valoare medie pentru toate genurile)
> experimentare producții tipice Hollywood, 15 filme;
> clasificator perceptron,
evaluare leave-one-out;
0.41
0.3
- folosirea de descriptori audio-vizuali conduce la performanță 0.23
apropiată de descriptori textuali (ASR);
- crescând numărul de modalități folosite conduce la creșterea
semnificativă a performanței. Prec. Rec. F1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 51 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 52
51 52
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 53 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 54
53 54
9
12/12/2022
> Sfârşit M5
55
10