Documente Academic
Documente Profesional
Documente Cultură
Plan Curs
Tehnologia Informaţiei https://www.aimultimedialab.ro/
Bucureşti
Prof. dr. ing. Bogdan IONESCU M4. Tehnici de clasificare supervizată (“classification”)
https://bionescu.aimultimedialab.ro/
M5. Evaluarea performanței clasificatorilor
Bucureşti, 2022 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 2
1 2
Reprezentarea datelor
> exemplu date meteo:
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 3 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 4
3 4
nr. vreme temperatură umiditate vânt sport nr. vreme temperatură umiditate vânt sport
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 5 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 6
5 6
1
10/24/2022
nr. vreme temperatură umiditate vânt sport a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
0 0 0 0 0 10 0 0 0 0 0 1 0 0 0 0
1 însorită 30 50 15 Da
2 0 0 0 0 0 0 7 0 0 0 0 0 6 0 0
2 însorită 39 90 1 Nu
0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0
3 ploioasă 30 90 0 Da
0 0 0 0 0 0 12 2 0 0 0 0 0 0 0 0
4 înnorat 17 50 17 Nu
> ce se observă în mod particular la aceste date?
> prin valori mixte, numeric - simbolic; > “sparse data” – “date rarefiate”: foarte multe dintre valori sunt 0
iar valorile utile sunt împrăștiate; necesită metode de prelucrare
adaptate datorită influențării modului de calcul al similarității;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 7 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 8
7 8
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
1 2 1 0 10 7 3 5 4 1 1 1 2 6 1 999 2 1 0 10 7 3 5 4 4 1 1 1 2 6
2 0 0 2 3 1 7 6 4 5 4 4 6 2 1 2 0 0 2 3 1 878 7 6 4 5 4 4 6 2 1
0 0 1 3 2 2 6 6 8 8 9 2 3 2 0 0 1 3 2 2 6 6 8 8 4 9 2 3 0 2
1 0 5 4 6 12 2 5 6 8 2 3 5 5 8 2 0 0 2 3 1 878 7 6 4 5 4 4 6 2 1
> ce se observă în mod particular la aceste date? > ce se observă în mod particular la aceste date?
> “missing data”: datele lipsă au o semnficație aparte și pot > “innacurate data”: date eronate ce pot surveni din erori umane,
survenii din diferite motive, ex. nu sunt înregistrate, nu sunt introduse deliberat (ex. nu se cunoaște valoare) sau din cauza
relevante (în afara scalei), nu sunt cunoscute, sunt voluntare zgomotului de măsurare; vizibile ca “outliers” (deviază semnificativ
(decizia de a nu măsura un atribut), etc. de la plaja de valori uzuală) sau date duplicat.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 9 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 10
9 10
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
0 630 -4 5 3 1 40 7 6 0.4 5 4 99 6 2 63 2 3 5 8 9 9 18 27 26 53 52 99 99 99 99 99
1 546 10 1 3 1 46 7 6 0.5 5 4 40 6 2 61 1 2 3 4 5 6 7 8 9 10 11 11 12 14 14 16
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 11 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 12
11 12
2
10/24/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 13 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 14
13 14
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: imagini/video (revisited) A. informația vizuală: imagini/video (cont.)
i
elementul de bază al unei imagini 2D
imagine se numeşte pixel = picture element.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 15 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 16
15 16
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: imagini/video (cont.) A. informația vizuală: surse de informație disponibile
1. informația de culoare;
imagini = valoarea unui pixel este un vector:
R G B
- cea mai frecvent folosită pentru descrierea conținutului imaginilor;
sistemul vizual uman este bazat pe prelucrarea informației de
= + + culoare (unde luminoase de diverse frecvențe).
...
img.1 img.2 img.3 img.4 img.5 img.6 timp
RGB
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 17 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 18
17 18
3
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: YCbCr (separare > alegerea modului de reprezentare al culorilor: L*a*b* (distanța
intensitate de crominanță) perceptuală dintre culori ~ distanța matematică)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 19 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 20
19 20
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: L*a*b* (cont.) > alegerea modului de reprezentare al culorilor: HSV (separare
informație de nuanță, saturație și intensitate)
alb
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 21 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 22
21 22
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: HSV (cont.) > alegerea modului de reprezentare al culorilor: HSV (separare
informație de nuanță, saturație și intensitate)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 23 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 24
23 24
4
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: HSV (cont.) > alegerea modului de reprezentare al culorilor: HSV (cont.)
0 max 0 alb
s HSV max min
altfel
max
hHSV [0;360]
v HSV max
s HSV , vHSV [0;1]
R G B
unde: r , g , b
255 255 255
max max{r , g , b},
min min{r , g , b} negru
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 25 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 26
25 26
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> descriptori uzuali: > descriptori uzuali (cont.):
1 X 1 Y 1
1 x 0
h( D )
X Y
( A( x, y ) D),
x 0 y 0
( x)
0 x 0
unde D este un nivel de gri (sau culoare), D=0,...,L-1 (sau ia valori în
paleta de culoare considerată), XY dimensiunea imaginii, A() este
funcţia imagine. Histograme de culoare (RGB)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 27 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 28
27 28
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> exemplu: histograma color > exemplu: histograma color (cont.)
R R
- 16.777.216 culori posibile
(8x8x8 biți), cuantizare la un număr
mai mic de valori;
- alegere n bini pentru
G G
fiecare axă: R, G și B
(n x n x n valori);
- exemplu: n=3,
imagine (RGB) bin 1 – [0 - 84],
B bin 2 – [85 - 170], B
bin 3 – [171 - 255].
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 29 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 30
29 30
5
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 2. informația relativă la forme;
> exemplu: histograma color (cont.) - caracterizarea proprietăților obiectelor prezente în scenă din
bin 1 – [0 - 84], R perspectiva proprietăților geometrice ale acestora.
bin 2 – [85 - 170],
bin 3 – [171 - 255].
> presupune detecția în prealabil a obiectelor din
R G B nr.val.
scenă; realizată folosind tehnici de segmentare
1 1 1 0
G (ex. bazate pe contur):
1 1 2 0
1 1 3 0
…
3 2 1 1
3 2 2 6
B
3 2 3 0
…
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 31 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 32
31 32
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
2. informația relativă la forme (cont.); 2. informația relativă la forme (cont.);
> descriptori uzuali: > descriptori uzuali (cont.): [Y. Mingqiang et al., Pattern Recognition, 2008]
(a) centrul de greutate (eșantionare uniformă contur); (c) raportul de circularitate (arie obiect raportat la aria cercului
(b) parametri de elongație în funcție de rata de aspect (W/L); de același perimetru);
(d) convexitate (cea mai mică regiune convexă ce include obiectul).
[Y. Mingqiang et al., Pattern Recognition, 2008]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 33 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 34
33 34
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
2. informația relativă la forme (cont.); 2. informația relativă la forme (cont.);
> descriptori uzuali (cont.): > exemplu: semnătură distanță față de centroid
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 35 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 36
35 36
6
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
2. informația relativă la forme (cont.); 3. informația relativă la textură;
> exemplu: semnătură distanță față de centroid (cont.)
- caracterizarea proprietăților materialelor prezente în imagini (atât
analiză de culoare cât și de contur).
- simetrie formă se
transformă în periodicitate textură = o regiune din imagine ce prezintă caracteristici omogene,
semnătură; precum un motiv de bază ce se repetă (domeniu spațial/frecvențial).
- limitări?
formă1 formă2
texturi
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 37 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 38
37 38
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
3. informația relativă la textură (cont.); 3. informația relativă la textură (cont.);
> descriptori uzuali: > exemplu: Local Binary Patterns (LBP)
- analiza statistică a distribuției spațiale a intensităților pixelilor din p1: imaginea este imparțită în N macro-blocuri (ex. 16x16, 32x32);
imagine; ex. probabilitatea de co-ocurență a unei anumite intensități p2: pentru fiecare macro-bloc, fiecare pixel este comparat cu
în diverse direcții și distanțe față de un punct de referință; cei 8 vecini astfel:
- analiza proprietăților geometrice ale elementelor texturii, precum - intensitate >, se scrie valoare 0;
arie, formă, lungime și a modului de distribuție al acestora într-o - intensitate <, se scrie valoare 1;
anumită rețea;
- analiză pe bază de modele al căror parametri descriu proprietățile
esențiale ale acestuia (modelare pe bază de puncte întunecate
sau luminoase, tranziții verticale sau orizontale, linii, etc);
- analiză pe bază de filtre, ex. operatorii de derivare (Laplacian,
Roberts) sau filtrele Gabor.
p3: pixelul curent va avea asociat astfel un șablon binar (pattern);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 39 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 40
39 40
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
3. informația relativă la textură (cont.); 4. informația relativă la mișcare;
> exemplu: Local Binary Patterns (cont.) [PRACE Summer of HPC 2013]
- caracterizarea schimbărilor (spațiale) survenite într-o secvență
p4: pentru macro-blocul de imagini (mișcare obiecte, mișcare scenă, etc).
curent se realizează o
histogramă a frecvenței > presupune detecția în prealabil a acestor schimbări:
șabloanelor pixelilor (1) detecția de mișcare (exemplu diferență cadre succesive);
(număr de valori 28);
unde Ik este
p5: pentru imagine, LBP
... imaginea la
este dat de momentul k,
Ik I k 1 I k 2 I k N 1 IkN dk,k+1 este
concatenarea tuturor
histogramelor macro- diferența dintre
blocurilor (dim. N*28). d k , k 1 d k 1,k 2 d k 2,... d k N 1,k N Ik și Ik+1
LBP pentru comparare imagini cu fețe
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 41 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 42
41 42
7
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(1) detecția de mișcare (exemplu diferență cadre succesive; cont.); (2) estimarea mișcării;
Ik
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 43 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 44
43 44
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(2) estimarea mișcării (exemplu metode pe blocuri de pixeli); (2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.);
fereastra S
It It It+l
- imaginea curentă analizată la momentul t, It, este împărţită în - pentru fiecare bloc din It se caută noua sa poziţie în imaginea
blocuri disjuncte de pixeli de dimensiune BxB; următoare la momentul t+l (căutarea se face doar într-o
fereastră S de (2B+1)x(2B+1) pixeli);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 45 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 46
45 46
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.); (2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.);
fereastra S
Mean Absolute Difference (MAD)
X Y
1
MAD(b1 , b2 )
X Y
| b ( x, y ) b ( x, y ) |
x 1 y 1
1 2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 47 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 48
47 48
8
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.); > descriptori uzuali:
> demo: - traiectora obiectelor din scenă,
a. HDuncomp: frame 17; - identificarea tipului de mișcare a camerei video (apropiere/
b. The Holiday frame 31623; depărtare, rotație, translație);
frame 45796;
frame 109038; - activitate de mișcare prin cuantizarea varianței amplitudinii
frame 1; vectorilor de mișcare;
frame 7636.
- imagini MHI de ”istorie a mișcării”
(Motion History Images);
- histograme de intensitate a mișcării,
etc
[http://alpha.imag.pub.ro/VideoIndexingRP2/]
imagine MHI (normalizare)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 49 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 50
49 50
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală; 5. informația relativă la structura temporală (cont.);
- caracterizarea proprietăților structurale-temporale ale unei > presupune segmentarea temporală în prealabil a secvenței =
secvențe de imagini. detecția tranzițiilor video (ex. cut, fade, dissolve, wipes, etc):
imagine1 ... imaginei T imaginei+1 ... imaginej ... imagineN >un cut reprezintă concatenarea directă a două plane video vecine
temporal: cut
- plan video (video shot)= secvenţa continuuă de imagini înregistrată planulj planulj+1
de la pornirea camerei până la oprirea acesteia;
- tranziţie video (video transition, T) = un efect vizual de scurtă durată
ce face legătura între planele video vecine temporal; [film animaţie Gazoon, CITIA-Annecy]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 51 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 52
51 52
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală (cont.); 5. informația relativă la structura temporală (cont.);
> presupune segmentarea temporală în prealabil a secvenței = cuts fade-in fade-out dissolves e.g.blitz
detecția tranzițiilor video, exemplu (cont.):
planulj planulj+1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 53 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 54
53 54
9
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală (cont.); 5. informația relativă la structura temporală (cont.);
> descriptori uzuali: activitate vizuală > descriptori uzuali: activitate vizuală (cont.)
fereastră T
j vT E{T (i)}
i ... timp
> evaluând valorile lui T (i ) pentru întreaga secvenţă (ex. ferestre documentare ştiri muzică
suprapuse cu un pas p), determinăm ritmul vizual mediu al secvenţei:
v 0.2
T
*
vT 0.24* vT 0.56*
vT E{T (i)} ~ tempo mediu.
[*valori medii pentru 30 de exemple de secvenţe.]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 55 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 56
55 56
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală (cont.); 5. informația relativă la structura temporală (cont.);
> descriptori uzuali: acțiune > demo:
plane de acţiune
cuts
plan video
1 if T 5 s (i ) 2 .8 timp
HA shot (i )
0 otherwise ground truth
1 if T 5 s (i ) 0.7
LA shot (i )
0 otherwise [http://alpha.imag.pub.ro/VideoIndexingRP2/]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 57 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 58
57 58
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături; 6. informația relativă la trăsături (cont.);
- un caz particular de caracterizare a proprietăților unei clase > punct de interes (formalizare)
particulare de puncte de contur (“features”). - au o definiție matematică bine precizată;
- au o poziție bine definită în imagine;
> punct de interes = o regiune de
pixeli (de dimensiuni reduse) a - informația locală din jurul punctului de interes este bogată
căror proprietăți o fac informațional (definite de context);
reprezentativă pentru înțelegerea - invariante la perturbații locale și globale (deformări datorate
conținutului structural al imaginii: transformărilor de perspectivă, schimbarea unghiului de
vizualizare, schimbări de scală, rotații, translații, variații de
iluminare, etc).
> descrierea punctelor de interes presupune detecția în prealabil a
http://webvision.med.utah.edu/book/
acestora și apoi reprezentarea informației specifice;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 59 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 60
59 60
10
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (detector de colțuri) > detectori uzuali: Harris detector (cont.)
- bazat pe derivatele de ordin 1 ale imaginii: Ix - derivata pe oX şi p1. pentru fiecare pixel din imagine, într-o fereastră, calculăm:
Iy - derivata pe oY;
I2 IxI y
imagine contur fereastră analiză M w( x, y ) x
x, y I x I y I y2
unde w(x,y) o funcţie de ponderare ce poate fi uniformă, iar x,y iau
valori în fereastra considerată (Ix - derivata pe oX, Iy - derivata pe oY).
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 61 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 62
61 62
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (cont.) > detectori uzuali: Harris detector (cont.)
p1. pentru fiecare pixel din imagine, într-o fereastră, calculăm M. p2. estimăm gradul de variaţie al pixelilor în fereastra considerată:
R det( M ) k Tr 2 ( M )
unde k este o constantă iar Tr() este operatorul “trace” ce returnează
suma elementelor de pe diagonala principală;
- valori mari pentru colțuri;
fereastră derivată oX derivată oY
- valori negative mari pentru contur;
- valori mici în modul pentru regiuni omogene.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 63 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 64
63 64
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (cont.) > detectori uzuali: Harris detector (cont.)
[Robert Collin, CSE486 Penn State] [Robert Collin, CSE486 Penn State]
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 65 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 66
65 66
11
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (cont.) > detectori uzuali: Harris detector (cont.)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 67 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 68
67 68
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> descriptori uzuali: Histograms of oriented Gradients (HoG) > descriptori uzuali: Histograms of oriented Gradients (HoG; cont.)
histograma p1. imaginea este împărțită în blocuri disjuncte de pixeli;
p2. pentru fiecare bloc se calculează o histogramă de orientări
0 0
ale gradientului pixelilor;
11 1 1 1 1 1
p3. descriptor = concatenarea tuturor histogramelor normalizate.
0 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 69 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 70
69 70
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> descriptori uzuali: Histograms of oriented Gradients (HoG; cont.) > detectori/descriptori uzuali (cont.)
Detectori:
- Harris Laplace (Harris reprezentat la diverse niveluri de scală);
imagine - reprezentări “scale-space”: Laplacian of Gaussian (LoG),
Difference of Gaussian (DoG), Determinant of Hessian (DoH),
Maximally Stable Extremum Regions (MSER), Scale Invariant
Feature Transform (SIFT), Speeded Up Robust Features (SURF);
- reprezentări spațio-temporale: Harris 3D, Cuboid, Hessian 3D,
histogramă SURF 3D, etc.
orientări Descriptori:
- reprezentări Bag-of-VisualWords (BoW), Histograms of Optical
Flow (HoF), Vector of Locally Aggregated Descriptors (VLAD),
Fisher Kernel (FK), etc.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 71 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 72
71 72
12
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio B. informația audio (cont.)
1. reprezentare temporală;
amplitudine
1 T 1
sunet digital = o secvență de eșantioane (valori de amplitudine ale
undelor sonore) înregistrate în timp.
ZCR II {st st 1 0}
T 1 t 1
unde s este un semnal de durată T iar II{.} este operatorul care
cadru (audio) = o secvență temporală ce conține un anumit număr de returnează valoarea 1 dacă argumentul este adevărat și 0 altfel.
eșantioane (ex. 1024 de eșantioane).
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 73 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 74
73 74
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) B. informația audio (cont.)
1. reprezentare temporală (cont.); 1. reprezentare temporală (cont.);
> descriptori uzuali: secvență vorbire > descriptori uzuali: energia semnalului (Root Mean Square of
Zero Crossing Rate vorbire
ZCR (normalizat)
Signal Energy - RMS)
(ZCR; cont.)
RMS
n
x1 x22 ... xn2
1 2
x
a
RMS
2
a sin(2ft )
timp (s)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 75 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 76
75 76
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) B. informația audio (cont.)
1. reprezentare temporală (cont.); 1. reprezentare temporală (cont.);
> descriptori uzuali: energia semnalului (RMS; cont.) > descriptori uzuali (cont.): rata de absență a sunetului,
coeficienții de autocorelație ai semnalului, etc.
x
2. reprezentare frecvențială;
RMS a
> transformata Fourier 1D discretă (revisited)
a daca ft 0.5;a altfel ft 0.5 > eșantionare:
x
a u (m) f ( x0 m x)
RMS unde f(x) este semnalul continuu, x0 reprezintă coordonata de la care
3 începe eşantionarea (uzual x0=0), Δx este pasul de eşantionare iar
2aft a m=0,...,N-1 reprezintă coordonata discretă.
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 77 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 78
77 78
13
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) B. informația audio (cont.)
2. reprezentare frecvențială (cont.); 2. reprezentare frecvențială (cont.);
> transformata Fourier 1D discretă (revisited) | v ( k ) | Re 2 ( k ) Im 2 ( k )
j ( k )
N 1 2jmk v ( k ) | v ( k ) | e Im( k ) unde Re şi Im sunt
1
v(k )
N
u( m) e
m 0
N (k ) atan
Re( k )
părţile reale şi
imaginare ale lui v.
N 1 2jmk
1
u( m)
N
v(k ) e
k 0
N
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 79 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 80
79 80
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) [B. Ionescu et al., C. informația textuală
SPIE Journal of
2. reprezentare frecvențială (cont.); Electronic Imaging] text = o secvență de caractere, de regulă grupate în cuvinte și propoziții.
Logarithmic Fluctuation Pattern Reprezintă practic datele cele mai apropiate de nivelul de percepție
> descriptori uzuali:
uman (conținut semantic).
- distribuția energiei semnalului, > informație generată (<> nu este înregistrată), surse:
centroizii frecvențelor, lărgimea
de bandă, ”pitch”, ”loudness”, - utilizatorul: descrieri informație, documente, metadate, etc;
coeficienți cepstrali (Mel- - imagini: textul încrustat în imagini, subtitrări - transformate
Frequency Cepstral Coefficients în text folosind OCR - Optical Character Recognition;
– MFCC).
- sunet: narațiune, dialoguri, monologuri – transformate în text
folosind ASR - Automatic Speech Recognition.
frecvență
81 82
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: Term Frequency-Inverse Document Frequency; > descriptori uzuali: TF-IDF (cont.)
TF-IDF = statistică ce reflectă importanța cuvintelor într-un - term frequency, tf(t,d):
document sau o colecție de documente (= corpus). = de câte ori apare termenul t în documentul d;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 83 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 84
83 84
14
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: TF-IDF (cont.) > descriptori uzuali: TF-IDF (cont.)
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 85 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 86
85 86
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: TF-IDF (cont.) > descriptori uzuali: TF-IDF (cont.)
> exemplu (cont.): > abordare practică:
- pentru datele de intrare (=corpus) se extrag cuvintele;
termen (t) tf(t,d1) termen (t) tf(t,d2) - pentru fiecare cuvânt dintr-o instanță (=dată) se calculează tfidf;
“this” 1 “this” 1 - descriptorul este dat de concatenarea valorilor tfidf (se folosește
… … … … același set de cuvinte);
“sample” 1 “example” 3 > ce dimensiune are descriptorul rezultat?
2
idf (" example" , D ) log 0.3 > ce particularitate au datele reprezentate în acest fel?
1 (indicație - setul de cuvinte este același pentru toate datele,
tfidf (" example" , d 2 , D ) 3 0.3 0.9 indiferent de dimensiunea acestora)
tfidf (" example" , d1 , D ) 0 0.3 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 87 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 88
87 88
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: Bag-of-Words > descriptori uzuali: Bag-of-Words (cont.)
> permite reprezentarea datelor de dimensiuni diferite cu 2. pe baza datele de intrare se construiește un dicționar comun
descriptori de dimensiune fixă; (= reuniunea exclusivă a cuvintelor dintre “pungile” de cuvinte);
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 89 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 90
89 90
15
10/24/2022
Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) Nivelul semantic de reprezentare al informației
> descriptori uzuali: Bag-of-Words (cont.) > descriere de nivel scăzut (“low-level”)
2. pe baza datele de intrare se construiește un dicționar comun - descrieri numerice (~sintactica datelor);
(= intersecția cuvintelor dintre “pungile” de cuvinte); - exemplu: histograme, vectori de mișcare, etc.
dicționar: 3. descriptorul este dat de reprezentarea sub
1 – “John”; formă de histogramă a frecvenței de apariție > descriere de nivel intermediar (“mid-level”)
2 – “likes”; a cuvintelor din dicționar (cont.):
3 – “to”; - descrieri simbolice;
4 – “watch”; - exemplu: denumirea culorilor, detectarea prezenței umane în scenă, etc.
d2=“John also likes to watch football games.”
5 – “movies”;
6 – “also”; > descriere de nivel semantic (“high-level”)
7 – “football”;
8 – “games”; descd2=[1 1 1 1 0 1 1 1 0 0] - de regulă descrieri textuale care codează interpretarea datelor pentru
9 – “Mary”; a servi unei aplicații specifice;
10 – “too”. > se poate aplica acest principiu la imagini?
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 91 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 92
91 92
5 9 ... 10 2
0.1 1 ... 0 1 1 ... 0 1 2 ... 3
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 93 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 94
93 94
5 9 ... 10 2
unde i=1,...,n, max{xi} și min{xi} reprezintă operatorii ce returnează 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
valoarea minimă și respectiv maximă a tuturor valorilor descriptorilor
(instanțelor) pentru atributul xi.
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
0.6 0
> care este plaja de valori rezultată? [0;1] xi' 0.6
1 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 95 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 96
95 96
16
10/24/2022
date
5 9 ... 10 2 5 9 ... 10 2
0.1 1 ... 0 1 1 ... 0 1 2 ... 3 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
90 25
xi' 0.9 xi' 0.3
10 0 5 5
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 97 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 98
97 98
99 100
101 102
17
10/24/2022
Date
0.1 0.2 ... 0.1 5 9 ... 10 2 5 ... 1
0.2 0 ... 0.9 0 5 ... 10 5 5 ... 0
0 0.6 ... 1 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
10 0 ... 2 4 3 ... 5
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
0.1 0.2 ... 0.1 5 ... 1
date
5 9 ... 10 2
0.2 1.1 ... 0.9 1 0 ... 1 1.6 0.9 ... 0.2
2 ... 0.7 0.7 0.5 ... 1.5
Date normalizate
0.1 1 ... 0 1 1 ... 0 1 3 0.4 ... 1.1 1.5 1.1 ... 0.7
1 0.4 ... 0.5
4 10 ... 4 5 4 ... 5 0.4 0.6 ... 0.9 0.2 0.9 ... 1 0.1 1.4 ... 0
2 1
xi' 0.6975 0.4 1.5 ... 1.1 0.8 0.9 ... 1.1 0.1 0.7 ... 0.6
4.3012 1.8 0.1 ... 0 0 1.1 ... 0.3 0.9 0.7 ... 1.1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 103 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 104
103 104
instanțe instanțe
> care este plaja de valori rezultată? mișcă punctul zecimal, |.|<=1
Date de intrare Date normalizate
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 105 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 106
105 106
date
5 9 ... 10 2 5 9 ... 10 2
0.1 1 ... 0 1 1 ... 0 1 2 ... 3 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
0.6 9
xi' 0.6 xi' 0.9
100 101
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 107 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 108
107 108
18
10/24/2022
Date
0.1 0.2 ... 0.1 5 9 ... 10 2 5 ... 1
0.2 0 ... 0.9 0 5 ... 10 5 5 ... 0
0 0.6 ... 1 0.1 1 ... 0 1 1 ... 0 1 2 ... 3
10 0 ... 2 4 3 ... 5
1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5
0.1 0.2 ... 0.1 5 ... 1
date
Date normalizate
0.1 1 ... 0 1 1 ... 0 1 3 0.6 ... 1 1 0 ... 0.2 0.8 0.6
1 0.4 ... 0.5
4 10 ... 4 5 4 ... 5 0.1 0.2 ... 0.1 0.5 0.9 ... 1 0.4 1 ... 0.2
2 2
0.1 1 ... 0 0.1 0.1 ... 0 0.2 0.4 ... 0.6
xi' 0.699 0.4
10 5 1 0.4 ... 0.5 0.4 1 ... 0.4 1 0.8 ... 1
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 109 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 110
109 110
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 111 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 112
111 112
> decorelarea datelor prin Principal Component Analysis (PCA); > măsură a variației a două dimensiuni față de medii, una în
funcție de cealaltă;
1 n 1
• dispersie (“variance”):
cov( X , Y ) xi x y i y
var( X ) 2
1 n 1
xi x
n i 0
2 n i0
unde X și Y sunt doi parametri, fiecare cu n valori măsurate (ex. două
dimensiuni/atribute ale unui descriptor multi-dimensional).
unde xi, i=0,...,n-1, reprezintă un set de valori ai unui parametru
(vector X) iar x este valoarea medie a setului. - valori pozitive: X și Y cresc sau descresc împreună;
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 113 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 114
113 114
19
10/24/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 115 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 116
115 116
0 1 (A I)v 0
A
2 3 ( A 1 I ) v1 0
0 1 1 0 1 1 v1,1 1
det( A I ) det v1 k1
2 3 0 1 2
2 v1, 2
0
1
1 1 1 v1,1 v1, 2 0
1
det 2 3 2 v2 k 2
3
similar:
2 2 2 2 v1,1 2 v1, 2 0 2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 117 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 118
117 118
- reprezentative =
• nu depind de celelalte atribute (decorelate);
x2
• nu sunt perturbate de zgomot;
x1 crește redundanța
• prezintă o variație importantă a valorilor.
- cum putem reprezenta datele astfel încât să obținem ceea ce - în care dintre cazuri avem o redundanță maximă a datelor?
ne dorim? -> transformare a bazei de reprezentare;
- ce transformare a bazei permite maximizare varianță?
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 119 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 120
119 120
20
10/24/2022
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 121 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 122
121 122
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
1 1 2 3 5 8 13 4 17 21 21 42 45 90 91 90 0 -0.75 -0.75 -1.25 -0.5 1 1.5 -9 -1.25 -8.5 -13.75 -18.25 -16.5 38.25 39.25 37.75
2 3 5 8 9 9 18 27 26 53 52 99 99 99 99 99 1 1.25 2.25 3.75 3.5 2 6.5 14 7.75 23.5 17.25 38.75 37.5 47.25 47.25 46.75
-1 -0.75 -1.75 -2.25 -2.5 -2 -3.5 0 2.75 4.5 20.25 28.75 28.5 -47.75 -48.75 -48.25
0 1 1 2 3 5 8 13 21 34 55 89 90 4 3 4
1 2 3 4 5 6 7 8 9 10 11 11 12 14 14 16 0 0.25 0.25 -0.25 -0.5 -1 -4.5 -5 -9.25 -19.5 -23.75 -49.25 -49.5 -37.75 -37.75 -36.25
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 123 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 124
123 124
λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9 λ10 λ11 λ12 λ13 λ14 λ15 λ16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 125 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 126
125 126
21
10/24/2022
p7: reducere dimensiuni prin eliminare atribute cu variabilitate p7: reducere dimensiuni prin eliminare atribute cu variabilitate
scăzută; scăzută (cont.);
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 127 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 128
127 128
> exemplu numeric (cont.): i > în urma PCA obținem decorelarea atributelor și astfel o matrice
de covarianță diagonală;
p7: reducere dimensiuni prin eliminare atribute cu variabilitate
scăzută (cont.); > valorile dispersiei nu sunt constante și nici egale astfel că
datele nu sunt distribuite uniform;
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
idee: obținerea unei distribuții uniforme a datelor; whitening =
51.28 -51.69 -8.98 0 0 0 0 0 0 0 0 0 0 0 0 0
transformarea datelor astfel încât să aibă o matrice de covarianță
99.27 28.91 7.34 0 0 0 0 0 0 0 0 0 0 0 0 0 diagonală și de dispersii constante, egale cu 1;
-62.84 71.55 -4.95 0 0 0 0 0 0 0 0 0 0 0 0 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 129 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 130
129 130
1 2 3 matrice (X’)T
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11
1 0 0
a12 a13 a14 a15
... 0
a16
0 1 0 ... 00
0.57 -0.85 -1.09 0 0 0 0 0 0 0 0 0 0 0 0
0 X 0 ) 00 ... 00
w
1.10 0.47 0.89 0 0 0 0 0 0 0 cov( 00 1 0
... ... .. ... 00
-0.70 1.18 -0.60 0 0 0 0 0 0 0 0 0 0 0 0
matrice (Xw)T
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 131 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 132
131 132
22
10/24/2022
Decorelarea datelor (cont.) Date de intrare centrate (medie 0) Decorelarea datelor (cont.) Reprezentare PCA
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 133 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 134
133 134
> exemplu
(cont.);
> Sfârşit M2
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 135 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 136
135 136
23