Sunteți pe pagina 1din 23

10/24/2022

Facultatea de Electronică, Universitatea


AI Multimedia Lab
Telecomunicaţii şi Politehnica din

Plan Curs
Tehnologia Informaţiei https://www.aimultimedialab.ro/
Bucureşti

M1. Introducere (concept, aplicații)


Tehnici de analiză și clasificare M2. Prelucrarea și reprezentarea datelor de intrare
automată a informației
M3. Tehnici de clasificare ne-supervizată (“clustering”)

Prof. dr. ing. Bogdan IONESCU M4. Tehnici de clasificare supervizată (“classification”)
https://bionescu.aimultimedialab.ro/
M5. Evaluarea performanței clasificatorilor

Bucureşti, 2022 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 2

1 2

Reprezentarea datelor
> exemplu date meteo:

> M2. Prelucrarea și nr. vreme temperatură umiditate vânt sport

reprezentarea datelor de intrare 1 însorită cald normală da Da

2.1. [ Reprezentarea datelor ] 2 însorită foarte cald ridicată nu Nu

2.2. [ Descrierea conținutului ] 3 ploioasă cald ridicată nu ?

2.3. [ Normalizarea datelor ] 4 innorat rece normală da ?

2.4. [ Decorelarea datelor ]

set de date atribute

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 3 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 4

3 4

Reprezentarea datelor (cont.) Reprezentarea datelor (cont.)


> exemplu date meteo (cont.): > exemplu date meteo (cont.):

nr. vreme temperatură umiditate vânt sport nr. vreme temperatură umiditate vânt sport

1 însorită cald normală da Da 1 1 30 50 15 1

2 însorită foarte cald ridicată nu Nu 2 0.9 39 90 1 0

3 ploioasă cald ridicată nu Da 3 0.5 30 90 0 0

4 înnorat rece normală da Nu 4 0.1 17 50 17 1

> prin valori numerice, ex. atributul vreme=[0;1], temperatură=


> prin valori simbolice, ex. Atributul vreme={“însorită”, ”ploioasă”, [15;40]○, umiditate=[40;100]%, vânt=[0;30]km/h, sport={0,1}; de
”înnorat”} sau vânt={“da”,”nu”}, etc; regulă datele au o semnificație fizică (ex. grade, procent, etc).

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 5 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 6

5 6

1
10/24/2022

Reprezentarea datelor (cont.) Reprezentarea datelor (cont.)


> exemplu date meteo (cont.): > cazuri particulare:

nr. vreme temperatură umiditate vânt sport a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16

0 0 0 0 0 10 0 0 0 0 0 1 0 0 0 0
1 însorită 30 50 15 Da
2 0 0 0 0 0 0 7 0 0 0 0 0 6 0 0
2 însorită 39 90 1 Nu
0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0
3 ploioasă 30 90 0 Da
0 0 0 0 0 0 12 2 0 0 0 0 0 0 0 0
4 înnorat 17 50 17 Nu
> ce se observă în mod particular la aceste date?
> prin valori mixte, numeric - simbolic; > “sparse data” – “date rarefiate”: foarte multe dintre valori sunt 0
iar valorile utile sunt împrăștiate; necesită metode de prelucrare
adaptate datorită influențării modului de calcul al similarității;

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 7 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 8

7 8

Reprezentarea datelor (cont.) Reprezentarea datelor (cont.)


> cazuri particulare (cont.): > cazuri particulare (cont.):

a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16

1 2 1 0 10 7 3 5 4 1 1 1 2 6 1 999 2 1 0 10 7 3 5 4 4 1 1 1 2 6

2 0 0 2 3 1 7 6 4 5 4 4 6 2 1 2 0 0 2 3 1 878 7 6 4 5 4 4 6 2 1

0 0 1 3 2 2 6 6 8 8 9 2 3 2 0 0 1 3 2 2 6 6 8 8 4 9 2 3 0 2

1 0 5 4 6 12 2 5 6 8 2 3 5 5 8 2 0 0 2 3 1 878 7 6 4 5 4 4 6 2 1

> ce se observă în mod particular la aceste date? > ce se observă în mod particular la aceste date?

> “missing data”: datele lipsă au o semnficație aparte și pot > “innacurate data”: date eronate ce pot surveni din erori umane,
survenii din diferite motive, ex. nu sunt înregistrate, nu sunt introduse deliberat (ex. nu se cunoaște valoare) sau din cauza
relevante (în afara scalei), nu sunt cunoscute, sunt voluntare zgomotului de măsurare; vizibile ca “outliers” (deviază semnificativ
(decizia de a nu măsura un atribut), etc. de la plaja de valori uzuală) sau date duplicat.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 9 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 10

9 10

Reprezentarea datelor (cont.) Reprezentarea datelor (cont.)


> cazuri particulare (cont.): > cazuri particulare (cont.):

a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16

0.1 999 -10 0 0 10 -50 5 5 0.1 4 1 -99 1 2 64 1 1 2 3 5 8 13 4 17 21 21 42 45 90 91 90

0 630 -4 5 3 1 40 7 6 0.4 5 4 99 6 2 63 2 3 5 8 9 9 18 27 26 53 52 99 99 99 99 99

0.5 123 5 3 2 2 -30 6 8 0.2 4 9 0 3 2 65 0 1 1 2 3 5 8 13 21 34 55 89 90 4 3 4

1 546 10 1 3 1 46 7 6 0.5 5 4 40 6 2 61 1 2 3 4 5 6 7 8 9 10 11 11 12 14 14 16

> ce se observă în mod particular la aceste date?


> ce se observă în mod particular la aceste date?
> atributele tind să fie corelate între ele ceea ce înseamnă că
> atributele au valori în plaje foarte diferite dar totuși sunt folosite anumite valori pot fi deduse unele din altele – reprezentare
unitar sub formă de descriptor; acest lucru va influența evaluarea ineficientă – decorelare?
similarității între acestea – normalizare?
concluzie: datele trebuie verificate preliminar (vizual, grafic)!

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 11 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 12

11 12

2
10/24/2022

Descrerea conținutului datelor Descrierea conținutului datelor multimedia


> în practică, de cele mai multe ori informația de analizat nu poate fi
reprezentată în forma în care a fost “înregistrată”, ex. imagini:
200 255 80 90  200 255 80 90  200 255 80 90 
150 200 67 0  150 200 67 0  150 200 67 0 
     
160 30 45 0  160 30 45 0  160 30 45 0 
     
0 0 200 200 0 0 200 200 0 0 200 200
200 255 80 90  200 255 80 90  200 255 80 90 
150 200 67 0  150 200 67 0  150 200 67 0 
     
160 30 45 0  160 30 45 0  160 30 45 0 
     
0 0 200 200 0 0 200 200 0 0 200 200

date informația înregistrată


(valori pixeli pe 8 biți)
> motivație: valorile nu sunt reprezentative pentru conținutul
semantic al datelor; necesară o reprezentare cât mai discriminativă;

descriptor (observație, vector de caracteristici) = reprezentarea


unei date într-o formă mai compactă, de regulă vectorială. Valorile
vectorului reprezintă măsurători ale unor proprietăți definitorii ale
datei respective. [sursă platformă YouTube]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 13 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 14

13 14

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: imagini/video (revisited) A. informația vizuală: imagini/video (cont.)

i
elementul de bază al unei imagini 2D
imagine se numeşte pixel = picture element.

lumea reală infinită spaţial şi spectral j imagine

fiecare pixel al imaginii este caracterizat prin:


imagine digitală = ansamblu de valori plasate după o formă spaţială - valoare  legată de “culoarea” transmisă (ex. alb, roşu, etc.)
într-un spaţiu cel puţin bidimensional (matrice) - poziţie în imagine  informaţie spaţială.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 15 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 16

15 16

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: imagini/video (cont.) A. informația vizuală: surse de informație disponibile
1. informația de culoare;
imagini = valoarea unui pixel este un vector:

R G B
- cea mai frecvent folosită pentru descrierea conținutului imaginilor;
sistemul vizual uman este bazat pe prelucrarea informației de
= + + culoare (unde luminoase de diverse frecvențe).

> alegerea modului de reprezentare al culorilor: Red-Green-Blue


imagine color RGB
(8+8+8 biţi/pixel)

video = o succesiune temporală de imagini: gri

...
img.1 img.2 img.3 img.4 img.5 img.6 timp
RGB

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 17 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 18

17 18

3
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: YCbCr (separare > alegerea modului de reprezentare al culorilor: L*a*b* (distanța
intensitate de crominanță) perceptuală dintre culori ~ distanța matematică)

Y  0,299 R + 0,587 G + 0,114 B 116  y1/ 3  16 daca y  0.008856


L*  
Cb  a1  ( R  Y )  b1  ( B  Y )  903.3  y altfel
Cr  a2  ( R  Y )  b2  ( B  Y ) X Y Z
a*  500  [ f ( x )  f ( y )] unde: x  , y , z
 YIQ: NTSC (National Television XW YW ZW
System Commitee, 30 imagini/s),
 YUV: PAL (Phase Alternating Line, b*  200  [ f ( y )  f ( z )] iar (XW, YW, ZW) = alb de referinţă
50Hz întreţesut),
 YDbDr: SECAM (Séquentiel Couleur  t 1/ 3 t  0.008856
à Mémoire, 25 imagini/s)
f (t )  
[sursă imagine Wikipedia]
7.787  y  0.137931 altfel

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 19 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 20

19 20

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: L*a*b* (cont.) > alegerea modului de reprezentare al culorilor: HSV (separare
informație de nuanță, saturație și intensitate)
alb

în general proprietăţile unei culori sunt


galben definite de trei informaţii:

nuanţă (hue) = un alt cuvânt pentru


culoare, “pigmentul”, culoarea pură, etc.

roşu negru nuanţe


albastru verde

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 21 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 22

21 22

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: HSV (cont.) > alegerea modului de reprezentare al culorilor: HSV (separare
informație de nuanță, saturație și intensitate)

saturaţie (saturation) = intensitatea  0 max  min


culorii, grad de puritate, cum arată  g b
în condiţii de iluminare diferită.  60  max  min  0 max  r , g  b
saturaţie: max,  slab  g b
 60   360 max  r , g  b
intensitate (intensity, value) = gradul
hHSV  max  min
de luminozitate, de strălucire.  br
 60  max  min  120 max  g
amestec cu gri a unei nuanţe pure  rg
 ton de culoare, 60   240 max  b
intensitate: >luminoase, <luminoase
 max  min

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 23 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 24

23 24

4
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> alegerea modului de reprezentare al culorilor: HSV (cont.) > alegerea modului de reprezentare al culorilor: HSV (cont.)

 0 max  0 alb
s HSV   max  min
altfel
 max
hHSV  [0;360]
v HSV  max
s HSV , vHSV  [0;1]
R G B
unde: r , g , b
255 255 255
max  max{r , g , b},
min  min{r , g , b} negru

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 25 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 26

25 26

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> descriptori uzuali: > descriptori uzuali (cont.):

- histograme de culoare calculate în diverse spații de culoare,


histograme ponderate, culori predominante, varianța de culoare,
parametri de intesitate, descrierea repartiției spațiale a culorilor,
prezența culorii pielii (prezență umană);

1 X 1 Y 1
1 x  0
h( D ) 
X Y
  ( A( x, y )  D),
x 0 y 0
 ( x)  
0 x  0
unde D este un nivel de gri (sau culoare), D=0,...,L-1 (sau ia valori în
paleta de culoare considerată), XY dimensiunea imaginii, A() este
funcţia imagine. Histograme de culoare (RGB)

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 27 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 28

27 28

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 1. informația de culoare (cont.);
> exemplu: histograma color > exemplu: histograma color (cont.)
R R
- 16.777.216 culori posibile
(8x8x8 biți), cuantizare la un număr
mai mic de valori;
- alegere n bini pentru
G G
fiecare axă: R, G și B
(n x n x n valori);
- exemplu: n=3,
imagine (RGB) bin 1 – [0 - 84],
B bin 2 – [85 - 170], B
bin 3 – [171 - 255].

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 29 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 30

29 30

5
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
1. informația de culoare (cont.); 2. informația relativă la forme;
> exemplu: histograma color (cont.) - caracterizarea proprietăților obiectelor prezente în scenă din
bin 1 – [0 - 84], R perspectiva proprietăților geometrice ale acestora.
bin 2 – [85 - 170],
bin 3 – [171 - 255].
> presupune detecția în prealabil a obiectelor din
R G B nr.val.
scenă; realizată folosind tehnici de segmentare
1 1 1 0
G (ex. bazate pe contur):
1 1 2 0
1 1 3 0

3 2 1 1
3 2 2 6
B
3 2 3 0

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 31 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 32

31 32

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
2. informația relativă la forme (cont.); 2. informația relativă la forme (cont.);
> descriptori uzuali: > descriptori uzuali (cont.): [Y. Mingqiang et al., Pattern Recognition, 2008]

(a) centrul de greutate (eșantionare uniformă contur); (c) raportul de circularitate (arie obiect raportat la aria cercului
(b) parametri de elongație în funcție de rata de aspect (W/L); de același perimetru);
(d) convexitate (cea mai mică regiune convexă ce include obiectul).
[Y. Mingqiang et al., Pattern Recognition, 2008]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 33 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 34

33 34

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
2. informația relativă la forme (cont.); 2. informația relativă la forme (cont.);
> descriptori uzuali (cont.): > exemplu: semnătură distanță față de centroid

- suprafață, orientarea axelor principale ale obiectului, convexitate,


curbură, lungime;
cât de
- momente statistice invariante;
similare sunt
- parametri spectrali (Fourier sau wavelet);
cele două
- reprezentarea sub formă de coduri (descompunerea conturului în
forme?
secvențe de segmente de dimensiune unitate și codarea acestora);
- descompunerea în poligoane;
formă1 formă2
- reprezentări de tip ”scale-space” (conturul este caracterizat la
mai multe niveluri de scală);
- etc. sig1  [2, 5,2 2, 5 ,2, 5 ,2 2 , sig2  [3, 10,2 2 , 10,3, 10,2 2 ,
5,2, 5,2 2 , 5,2, 5,2 2, 5 ] 10,3, 10,2 2 , 10,3, 10,2 2, 10 ]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 35 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 36

35 36

6
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
2. informația relativă la forme (cont.); 3. informația relativă la textură;
> exemplu: semnătură distanță față de centroid (cont.)
- caracterizarea proprietăților materialelor prezente în imagini (atât
analiză de culoare cât și de contur).
- simetrie formă se
transformă în periodicitate textură = o regiune din imagine ce prezintă caracteristici omogene,
semnătură; precum un motiv de bază ce se repetă (domeniu spațial/frecvențial).
- limitări?
formă1 formă2

texturi

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 37 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 38

37 38

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
3. informația relativă la textură (cont.); 3. informația relativă la textură (cont.);
> descriptori uzuali: > exemplu: Local Binary Patterns (LBP)

- analiza statistică a distribuției spațiale a intensităților pixelilor din p1: imaginea este imparțită în N macro-blocuri (ex. 16x16, 32x32);
imagine; ex. probabilitatea de co-ocurență a unei anumite intensități p2: pentru fiecare macro-bloc, fiecare pixel este comparat cu
în diverse direcții și distanțe față de un punct de referință; cei 8 vecini astfel:
- analiza proprietăților geometrice ale elementelor texturii, precum - intensitate >, se scrie valoare 0;
arie, formă, lungime și a modului de distribuție al acestora într-o - intensitate <, se scrie valoare 1;
anumită rețea;
- analiză pe bază de modele al căror parametri descriu proprietățile
esențiale ale acestuia (modelare pe bază de puncte întunecate
sau luminoase, tranziții verticale sau orizontale, linii, etc);
- analiză pe bază de filtre, ex. operatorii de derivare (Laplacian,
Roberts) sau filtrele Gabor.
p3: pixelul curent va avea asociat astfel un șablon binar (pattern);

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 39 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 40

39 40

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
3. informația relativă la textură (cont.); 4. informația relativă la mișcare;
> exemplu: Local Binary Patterns (cont.) [PRACE Summer of HPC 2013]
- caracterizarea schimbărilor (spațiale) survenite într-o secvență
p4: pentru macro-blocul de imagini (mișcare obiecte, mișcare scenă, etc).
curent se realizează o
histogramă a frecvenței > presupune detecția în prealabil a acestor schimbări:
șabloanelor pixelilor (1) detecția de mișcare (exemplu diferență cadre succesive);
(număr de valori 28);
unde Ik este
p5: pentru imagine, LBP
... imaginea la
este dat de momentul k,
Ik I k 1 I k 2 I k  N 1 IkN dk,k+1 este
concatenarea tuturor
histogramelor macro- diferența dintre
blocurilor (dim. N*28). d k , k 1 d k 1,k  2 d k  2,... d k  N 1,k  N Ik și Ik+1
LBP pentru comparare imagini cu fețe

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 41 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 42

41 42

7
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(1) detecția de mișcare (exemplu diferență cadre succesive; cont.); (2) estimarea mișcării;

decizie: dacă dk,k+1(n) > 


 pixelul n=(x,y) se mișcă;

Ik

Exemplu de vectori de mișcare (imagine film “Matrix”)


exemplu mască,  = 25 mască,  = 50

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 43 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 44

43 44

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(2) estimarea mișcării (exemplu metode pe blocuri de pixeli); (2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.);
fereastra S

It It It+l

- imaginea curentă analizată la momentul t, It, este împărţită în - pentru fiecare bloc din It se caută noua sa poziţie în imaginea
blocuri disjuncte de pixeli de dimensiune BxB; următoare la momentul t+l (căutarea se face doar într-o
fereastră S de (2B+1)x(2B+1) pixeli);

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 45 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 46

45 46

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.); (2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.);
fereastra S
Mean Absolute Difference (MAD)
X Y
1
MAD(b1 , b2 ) 
X Y
 | b ( x, y )  b ( x, y ) |
x 1 y 1
1 2

unde b1 şi b2 reprezintă două blocuri de pixeli iar X şi Y


dimensiunile imaginii.

It It+l Mean Square Difference (MSD)


- noua poziţie a blocului curent este determinată pe baza 1 X Y
 [b ( x, y )  b ( x, y )]
2
minimizării unei funcţii de cost, FC, ce estimează eroarea de MSD (b1 , b2 ) 
X Y
1 2
aproximare a blocului curent cu blocurile din fereastra S. x 1 y 1

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 47 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 48

47 48

8
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
4. informația relativă la mișcare (cont.); 4. informația relativă la mișcare (cont.);
(2) estimarea mișcării (exemplu metode pe blocuri de pixeli; cont.); > descriptori uzuali:
> demo: - traiectora obiectelor din scenă,
a. HDuncomp: frame 17; - identificarea tipului de mișcare a camerei video (apropiere/
b. The Holiday frame 31623; depărtare, rotație, translație);
frame 45796;
frame 109038; - activitate de mișcare prin cuantizarea varianței amplitudinii
frame 1; vectorilor de mișcare;
frame 7636.
- imagini MHI de ”istorie a mișcării”
(Motion History Images);
- histograme de intensitate a mișcării,
etc

[http://alpha.imag.pub.ro/VideoIndexingRP2/]
imagine MHI (normalizare)

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 49 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 50

49 50

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală; 5. informația relativă la structura temporală (cont.);
- caracterizarea proprietăților structurale-temporale ale unei > presupune segmentarea temporală în prealabil a secvenței =
secvențe de imagini. detecția tranzițiilor video (ex. cut, fade, dissolve, wipes, etc):

imagine1 ... imaginei T imaginei+1 ... imaginej ... imagineN >un cut reprezintă concatenarea directă a două plane video vecine
temporal: cut

plan1 T plan2 ... plani ... planM ... ...


- imagine (frame) = “atomul” secvenţei; imagineai imagineai+1 imagineai+2 imagineai+3

- plan video (video shot)= secvenţa continuuă de imagini înregistrată planulj planulj+1
de la pornirea camerei până la oprirea acesteia;
- tranziţie video (video transition, T) = un efect vizual de scurtă durată
ce face legătura între planele video vecine temporal; [film animaţie Gazoon, CITIA-Annecy]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 51 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 52

51 52

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală (cont.); 5. informația relativă la structura temporală (cont.);
> presupune segmentarea temporală în prealabil a secvenței = cuts fade-in fade-out dissolves e.g.blitz
detecția tranzițiilor video, exemplu (cont.):

> dissolve reprezintă efectul de dizolvare progresivă a unei imagini


în alta (~transformarea graduală a unei imagini în alta);

... ... ... ... ...


timp
imagineai imagineai+10 imagineai+15 imagineai+20

planulj planulj+1

Plan 1 Plan 2 Plan 3 Plan 4 Plan 5 timp


[film de animaţie Coeur de Secours, CITIA-Annecy]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 53 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 54

53 54

9
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală (cont.); 5. informația relativă la structura temporală (cont.);
> descriptori uzuali: activitate vizuală > descriptori uzuali: activitate vizuală (cont.)
fereastră T
j vT  E{T (i)}
i ... timp

T (i ) numărul de schimbări de plan ce au loc în fereastra temporală de


dimensiune T (ex. 5s) începând cu cadrul la momentul i;

> evaluând valorile lui T (i ) pentru întreaga secvenţă (ex. ferestre documentare ştiri muzică
suprapuse cu un pas p), determinăm ritmul vizual mediu al secvenţei:
v  0.2
T
*
vT  0.24* vT  0.56*
vT  E{T (i)} ~ tempo mediu.
[*valori medii pentru 30 de exemple de secvenţe.]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 55 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 56

55 56

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
5. informația relativă la structura temporală (cont.); 5. informația relativă la structura temporală (cont.);
> descriptori uzuali: acțiune > demo:
plane de acţiune

cuts
plan video

1 if  T  5 s (i )  2 .8 timp
HA shot (i )  
0 otherwise ground truth
1 if  T  5 s (i )  0.7
LA shot (i )  
0 otherwise [http://alpha.imag.pub.ro/VideoIndexingRP2/]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 57 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 58

57 58

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături; 6. informația relativă la trăsături (cont.);
- un caz particular de caracterizare a proprietăților unei clase > punct de interes (formalizare)
particulare de puncte de contur (“features”). - au o definiție matematică bine precizată;
- au o poziție bine definită în imagine;
> punct de interes = o regiune de
pixeli (de dimensiuni reduse) a - informația locală din jurul punctului de interes este bogată
căror proprietăți o fac informațional (definite de context);
reprezentativă pentru înțelegerea - invariante la perturbații locale și globale (deformări datorate
conținutului structural al imaginii: transformărilor de perspectivă, schimbarea unghiului de
vizualizare, schimbări de scală, rotații, translații, variații de
iluminare, etc).
> descrierea punctelor de interes presupune detecția în prealabil a
http://webvision.med.utah.edu/book/
acestora și apoi reprezentarea informației specifice;

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 59 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 60

59 60

10
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (detector de colțuri) > detectori uzuali: Harris detector (cont.)
- bazat pe derivatele de ordin 1 ale imaginii: Ix - derivata pe oX şi p1. pentru fiecare pixel din imagine, într-o fereastră, calculăm:
Iy - derivata pe oY;
 I2 IxI y 
imagine contur fereastră analiză M   w( x, y )  x 
x, y  I x I y I y2 
unde w(x,y) o funcţie de ponderare ce poate fi uniformă, iar x,y iau
valori în fereastra considerată (Ix - derivata pe oX, Iy - derivata pe oY).

zonă uniformă = nici o contur = nici o schimbare colţ = schimbări importante


schimbare în nici o direcţie de-a lungul conturului pe toate direcţiile [Robert Collin,
fereastră derivată oX derivată oY CSE486 Penn State]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 61 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 62

61 62

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (cont.) > detectori uzuali: Harris detector (cont.)
p1. pentru fiecare pixel din imagine, într-o fereastră, calculăm M. p2. estimăm gradul de variaţie al pixelilor în fereastra considerată:
R  det( M )  k  Tr 2 ( M )
unde k este o constantă iar Tr() este operatorul “trace” ce returnează
suma elementelor de pe diagonala principală;
- valori mari pentru colțuri;
fereastră derivată oX derivată oY
- valori negative mari pentru contur;
- valori mici în modul pentru regiuni omogene.

p3. punctele de interes sunt obţinute pe baza filtrării valorilor lui R:


fereastră derivată oX [Robert Collin, dacă (R>) && (R == max local)  colţ obiect
derivată oY
CSE486 Penn State]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 63 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 64

63 64

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (cont.) > detectori uzuali: Harris detector (cont.)

imagine R<-10.000 imagine R>10.000

[Robert Collin, CSE486 Penn State] [Robert Collin, CSE486 Penn State]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 65 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 66

65 66

11
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> detectori uzuali: Harris detector (cont.) > detectori uzuali: Harris detector (cont.)

imagine iniţială cu roşu sunt marcate colţurile estimate


imagine -10.000<R<10.000

[Robert Collin, CSE486 Penn State]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 67 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 68

67 68

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> descriptori uzuali: Histograms of oriented Gradients (HoG) > descriptori uzuali: Histograms of oriented Gradients (HoG; cont.)
histograma p1. imaginea este împărțită în blocuri disjuncte de pixeli;
p2. pentru fiecare bloc se calculează o histogramă de orientări
0 0
ale gradientului pixelilor;
11 1 1 1 1 1
p3. descriptor = concatenarea tuturor histogramelor normalizate.
0 0

imagine dx2 dy2 90º orientare …


dy
d  dx  dy ,   arctan
2 2
Descriptor HoG
dx
imagine

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 69 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 70

69 70

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
A. informația vizuală: surse de informație disponibile A. informația vizuală: surse de informație disponibile
6. informația relativă la trăsături (cont.); 6. informația relativă la trăsături (cont.);
> descriptori uzuali: Histograms of oriented Gradients (HoG; cont.) > detectori/descriptori uzuali (cont.)
Detectori:
- Harris Laplace (Harris reprezentat la diverse niveluri de scală);
imagine - reprezentări “scale-space”: Laplacian of Gaussian (LoG),
Difference of Gaussian (DoG), Determinant of Hessian (DoH),
Maximally Stable Extremum Regions (MSER), Scale Invariant
Feature Transform (SIFT), Speeded Up Robust Features (SURF);
- reprezentări spațio-temporale: Harris 3D, Cuboid, Hessian 3D,
histogramă SURF 3D, etc.
orientări Descriptori:
- reprezentări Bag-of-VisualWords (BoW), Histograms of Optical
Flow (HoF), Vector of Locally Aggregated Descriptors (VLAD),
Fisher Kernel (FK), etc.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 71 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 72

71 72

12
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio B. informația audio (cont.)
1. reprezentare temporală;
amplitudine

Descriptorii sunt calculați la nivel de cadrul audio și apoi agreagați la


nivel de înregistrare folosind reprezentări statistice, ex. medie,
varianță, median, “skewness”, kurtosis (momente statistice).

50% > descriptori uzuali: Zero Crossing Rate (ZCR)


cadru1 cadru2 ... timp

1 T 1
sunet digital = o secvență de eșantioane (valori de amplitudine ale
undelor sonore) înregistrate în timp.
ZCR   II {st st 1  0}
T  1 t 1
unde s este un semnal de durată T iar II{.} este operatorul care
cadru (audio) = o secvență temporală ce conține un anumit număr de returnează valoarea 1 dacă argumentul este adevărat și 0 altfel.
eșantioane (ex. 1024 de eșantioane).

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 73 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 74

73 74

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) B. informația audio (cont.)
1. reprezentare temporală (cont.); 1. reprezentare temporală (cont.);
> descriptori uzuali: secvență vorbire > descriptori uzuali: energia semnalului (Root Mean Square of
Zero Crossing Rate vorbire
ZCR (normalizat)
Signal Energy - RMS)
(ZCR; cont.)
RMS 
n
x1  x22  ...  xn2 
1 2

unde xi este valoarea semnalului la un moment dat. frecvență

x
a
RMS 
2
a sin(2ft )
timp (s)

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 75 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 76

75 76

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) B. informația audio (cont.)
1. reprezentare temporală (cont.); 1. reprezentare temporală (cont.);
> descriptori uzuali: energia semnalului (RMS; cont.) > descriptori uzuali (cont.): rata de absență a sunetului,
coeficienții de autocorelație ai semnalului, etc.
x
2. reprezentare frecvențială;
RMS  a
> transformata Fourier 1D discretă (revisited)
a daca ft  0.5;a altfel ft  0.5 > eșantionare:
x
a u (m)  f ( x0  m  x)
RMS  unde f(x) este semnalul continuu, x0 reprezintă coordonata de la care
3 începe eşantionarea (uzual x0=0), Δx este pasul de eşantionare iar
2aft  a m=0,...,N-1 reprezintă coordonata discretă.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 77 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 78

77 78

13
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) B. informația audio (cont.)
2. reprezentare frecvențială (cont.); 2. reprezentare frecvențială (cont.);
> transformata Fourier 1D discretă (revisited) | v ( k ) | Re 2 ( k )  Im 2 ( k )
j ( k )
N 1 2jmk v ( k ) | v ( k ) | e  Im( k )  unde Re şi Im sunt
1 
v(k ) 
N
 u( m)  e
m 0
N  (k )  atan 
 Re( k ) 
părţile reale şi
imaginare ale lui v.

unde k=0,...,N-1 reprezintă frecvenţa discretă. spectrograma de amplitudine

N 1 2jmk
1
u( m) 
N
 v(k )  e
k 0
N

unde m=0,...,N-1 reprezintă coordonata discretă.


transformata Fourier cadru audio

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 79 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 80

79 80

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
B. informația audio (cont.) [B. Ionescu et al., C. informația textuală
SPIE Journal of
2. reprezentare frecvențială (cont.); Electronic Imaging] text = o secvență de caractere, de regulă grupate în cuvinte și propoziții.
Logarithmic Fluctuation Pattern Reprezintă practic datele cele mai apropiate de nivelul de percepție
> descriptori uzuali:
uman (conținut semantic).

- distribuția energiei semnalului, > informație generată (<> nu este înregistrată), surse:
centroizii frecvențelor, lărgimea
de bandă, ”pitch”, ”loudness”, - utilizatorul: descrieri informație, documente, metadate, etc;
coeficienți cepstrali (Mel- - imagini: textul încrustat în imagini, subtitrări - transformate
Frequency Cepstral Coefficients în text folosind OCR - Optical Character Recognition;
– MFCC).
- sunet: narațiune, dialoguri, monologuri – transformate în text
folosind ASR - Automatic Speech Recognition.
frecvență

> de regulă este o informație foarte redundantă și de dimensiune


semnificativă (ex. repetiție cuvinte).
periodicitate
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 81 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 82

81 82

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: Term Frequency-Inverse Document Frequency; > descriptori uzuali: TF-IDF (cont.)
TF-IDF = statistică ce reflectă importanța cuvintelor într-un - term frequency, tf(t,d):
document sau o colecție de documente (= corpus). = de câte ori apare termenul t în documentul d;

- inverse document frequency, idf(t,D):


= o măsură a “cantității” de informație furnizată de cuvântul
t - dacă este rar sau comun în corpus (necesită evaluarea
într-o colecție de date);
N
idf (t , D )  log
| {d  D : t  d } |
unde D este un corpus ce conține N documente iar numitorul se
date textuale importanță cuvinte traduce prin numărul de documente în care apare termenul t.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 83 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 84

83 84

14
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: TF-IDF (cont.) > descriptori uzuali: TF-IDF (cont.)

- term frequency-inverse document freq., tfidf(t,d,D): > exemplu (cont.):

tfidf (t , d , D )  tf (t , d )  idf (t , D ) termen (t) tf(t,d1) termen (t) tf(t,d2)


“this” 1 “this” 1
> sunt filtrate cuvintele care sunt comune (valoare mică idf);
… … … …
> exemplu: “sample” 1 “example” 3
d1=“This is a sample.”
2
d2=“This is another example and another situation. Example idf (" this" , D )  log 0
one and example two are relevant.” 2
D=“This is a sample. This is another example and another tfidf (" this" , d1 , D )  1  0  0  tfidf (" this" , d 2 , D )
situation. Example one and example two are relevant.”

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 85 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 86

85 86

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: TF-IDF (cont.) > descriptori uzuali: TF-IDF (cont.)
> exemplu (cont.): > abordare practică:
- pentru datele de intrare (=corpus) se extrag cuvintele;
termen (t) tf(t,d1) termen (t) tf(t,d2) - pentru fiecare cuvânt dintr-o instanță (=dată) se calculează tfidf;
“this” 1 “this” 1 - descriptorul este dat de concatenarea valorilor tfidf (se folosește
… … … … același set de cuvinte);
“sample” 1 “example” 3 > ce dimensiune are descriptorul rezultat?
2
idf (" example" , D )  log  0.3 > ce particularitate au datele reprezentate în acest fel?
1 (indicație - setul de cuvinte este același pentru toate datele,
tfidf (" example" , d 2 , D )  3  0.3  0.9 indiferent de dimensiunea acestora)
tfidf (" example" , d1 , D )  0  0.3  0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 87 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 88

87 88

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) C. informația textuală (cont.)
> descriptori uzuali: Bag-of-Words > descriptori uzuali: Bag-of-Words (cont.)
> permite reprezentarea datelor de dimensiuni diferite cu 2. pe baza datele de intrare se construiește un dicționar comun
descriptori de dimensiune fixă; (= reuniunea exclusivă a cuvintelor dintre “pungile” de cuvinte);

> abordare: dicționar: 3. descriptorul este dat de reprezentarea sub


1 – “John”; formă de histogramă a frecvenței de apariție
1. datele de intrare sunt reprezentate drept mulțimi de cuvinte 2 – “likes”; a cuvintelor din dicționar:
(“pungi”), ignorând astfel semantica acestora; 3 – “to”;
4 – “watch”;
d1=“John likes d2=“John also 5 – “movies”; d1=“John likes to watch movies. Mary likes
to watch 6 – “also”; movies too.”
likes to watch
7 – “football”;
movies. Mary football
likes too likes 8 – “games”;
likes movies games.” descd1=[1 2 1 1 2 0 0 0 1 1]
9 – “Mary”;
too.” 10 – “too”.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 89 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 90

89 90

15
10/24/2022

Descrierea conținutului datelor multimedia (cont.) Descrierea conținutului datelor multimedia (cont.)
C. informația textuală (cont.) Nivelul semantic de reprezentare al informației
> descriptori uzuali: Bag-of-Words (cont.) > descriere de nivel scăzut (“low-level”)
2. pe baza datele de intrare se construiește un dicționar comun - descrieri numerice (~sintactica datelor);
(= intersecția cuvintelor dintre “pungile” de cuvinte); - exemplu: histograme, vectori de mișcare, etc.
dicționar: 3. descriptorul este dat de reprezentarea sub
1 – “John”; formă de histogramă a frecvenței de apariție > descriere de nivel intermediar (“mid-level”)
2 – “likes”; a cuvintelor din dicționar (cont.):
3 – “to”; - descrieri simbolice;
4 – “watch”; - exemplu: denumirea culorilor, detectarea prezenței umane în scenă, etc.
d2=“John also likes to watch football games.”
5 – “movies”;
6 – “also”; > descriere de nivel semantic (“high-level”)
7 – “football”;
8 – “games”; descd2=[1 1 1 1 0 1 1 1 0 0] - de regulă descrieri textuale care codează interpretarea datelor pentru
9 – “Mary”; a servi unei aplicații specifice;
10 – “too”. > se poate aplica acest principiu la imagini?

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 91 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 92

91 92

Descrierea conținutului datelor multimedia (cont.) Normalizarea datelor


Nivelul semantic de reprezentare al informației (cont.) > descriptori diferiți implică plaje de valori diferite;

desc  [ a 1 , a 2 ,..., a n , b 1 , b 2 ,..., b m , c 1 , c 2 ,..., c p ]


desc1 desc2 desc3

0.2 0 ... 0.9 0 5 ... 10  5 5 0


...
 0 0.6 ... 1 10 0 ... 2 4 3...  5
 
0.1 0.2 ... 0.1  5 ... 1 
date

5 9 ... 10 2
 
0.1 1 ... 0 1 1 ... 0 1  2 ... 3 
 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 

> care este plaja de valori? ai - [ 0 ; 1 ], bi - [ 0 ; 10 ], ci - [ -5 ; 5 ]

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 93 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 94

93 94

Normalizarea datelor (cont.) Normalizarea datelor (cont.)


> compararea (ex. evaluare similaritate) datelor cu valori în același • normalizarea min-max (cont.);
interval este mai eficientă (corectă) -> normalizare: xi  min{xi }
desc  [ x1 , x2 ,..., xn ], xi' 
• normalizarea min-max; max{xi }  min{xi }
desc  [ x1 , x2 ,..., xn ] 0.2 0 ... 0.9 0 5 ... 10  5 5 ... 0
xi  min{xi }  0 0.6 ... 1 10 0 ... 2 4 3 ...  5
xi'   
max{xi }  min{xi } 0.1 0.2 ... 0.1  5 ... 1
date

5 9 ... 10 2
 
unde i=1,...,n, max{xi} și min{xi} reprezintă operatorii ce returnează 0.1 1 ... 0 1 1 ... 0 1  2 ... 3
valoarea minimă și respectiv maximă a tuturor valorilor descriptorilor
(instanțelor) pentru atributul xi.
 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 
0.6  0
> care este plaja de valori rezultată? [0;1] xi'   0.6
1 0
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 95 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 96

95 96

16
10/24/2022

Normalizarea datelor (cont.) Normalizarea datelor (cont.)


• normalizarea min-max (cont.); • normalizarea min-max (cont.);
xi  min{xi } xi  min{xi }
desc  [ x1 , x2 ,..., xn ], x  '
i desc  [ x1 , x2 ,..., xn ], xi' 
max{xi }  min{xi } max{xi }  min{xi }
0.2 0 ... 0.9 0 5 ... 10  5 5 ...0 0.2 0 ... 0.9 0 5 ... 10  5 5 0
...
 0 0.6 ... 1 10 0 ... 2 4 3 ...  5  0 0.6 ... 1 10 0 ... 2 4 3 ...  5
   
0.1 0.2 ... 0.1  5 ... 1  0.1 0.2 ... 0.1  5 ... 1 
date

date
5 9 ... 10 2 5 9 ... 10 2
   
0.1 1 ... 0 1 1 ... 0 1  2 ... 3  0.1 1 ... 0 1 1 ... 0 1  2 ... 3 
 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5   1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 
90 25
xi'   0.9 xi'   0.3
10  0 5 5
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 97 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 98

97 98

Normalizarea datelor (cont.) Normalizarea datelor (cont.)


• normalizarea min-max (cont.); • normalizarea min-max (cont.);
0.2 0 ... 0.9 0 5 ... 10  5 5 ... 0
0 0.6 ... 1 10 0 ... 2 4 3 ...  5 plajă de valori plajă de valori
 
Date

0.1 0.2 ... 0.1 5 9 ... 10 2  5 ... 1


 
0.1 1 ... 0 1 1 ... 0 1  2 ... 3
 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 
0.2 0 ... 0.9 0 0.5 ... 1 0 1 ... 0.5
0 0
Date normalizate

0.6 ... 1 1 0 ... 0.2 0.9 0.8 ...


 
0.1 0.2 ... 0.1 0.5 0.9 ... 1 0.7 0 ... 0.6
instanțe instanțe
 
0.1 1 ... 0 0.1 0.1 ... 0 0.6 0.3 ... 0.8
Date de intrare Date normalizate
 1 0.4 ... 0.5 0.4 1 ... 0.4 1 0.9 ... 1 
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 99 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 100

99 100

Normalizarea datelor (cont.) Normalizarea datelor (cont.)


• normalizarea z-score; • normalizarea z-score (cont.);
xi  medie{xi }
desc  [ x1 , x2 ,..., xn ] desc  [ x1 , x2 ,..., xn ], xi' 
 {xi }
xi  medie{xi }
xi'  0.2 0 ... 0.9 0 5 ... 10  5 5 ... 0
 {xi }  0 0.6 ... 1 10 0 ... 2 4 3 ...  5
 
0.1 0.2 ... 0.1  5 ... 1
date

unde i=1,...,n, medie{xi} și σ{xi} reprezintă operatorii ce returnează 5 9 ... 10 2


valoarea medie și respectiv abaterea pătratică medie a tuturor valorilor  
descriptorilor (instanțelor) pentru atributul xi.
0.1 1 ... 0 1 1 ... 0 1  2 ... 3
 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 
> care este plaja de valori rezultată? medie 0 și dispersie 1 0.6  0.44
xi'   0.4159
0.3847
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 101 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 102

101 102

17
10/24/2022

Normalizarea datelor (cont.) Normalizarea datelor (cont.) medie=0


• normalizarea z-score (cont.); σ=1
• normalizarea z-score (cont.);
xi  medie{xi } 0.2 0 ... 0.9 0 5 ... 10  5 5 ...0
desc  [ x1 , x2 ,..., xn ], xi'  0 0.6 ... 1 10 0 ... 2 4 3 ...  5
 {xi }  

Date
0.1 0.2 ... 0.1 5 9 ... 10 2  5 ... 1 
0.2 0 ... 0.9 0 5 ... 10  5 5 ... 0  
 0 0.6 ... 1 0.1 1 ... 0 1 1 ... 0 1  2 ... 3 
10 0 ... 2 4 3 ...  5
   1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 
0.1 0.2 ... 0.1  5 ... 1
date

5 9 ... 10 2
  0.2 1.1 ... 0.9 1 0 ... 1 1.6 0.9 ... 0.2
 2 ... 0.7 0.7 0.5 ... 1.5

Date normalizate
0.1 1 ... 0 1 1 ... 0 1 3 0.4 ... 1.1 1.5 1.1 ... 0.7
 1 0.4 ... 0.5  
4 10 ... 4 5 4 ... 5  0.4 0.6 ... 0.9 0.2 0.9 ... 1 0.1 1.4 ... 0 
 2 1  
xi'   0.6975 0.4 1.5 ... 1.1 0.8 0.9 ... 1.1 0.1 0.7 ... 0.6 
4.3012  1.8 0.1 ... 0 0 1.1 ... 0.3 0.9 0.7 ... 1.1 
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 103 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 104

103 104

Normalizarea datelor (cont.) Normalizarea datelor (cont.)


• normalizarea z-score (cont.); • normalizarea zecimală;

plajă de valori plajă de valori desc  [ x1 , x2 ,..., xn ]


xi
xi'  , p  log10 (max | xi |)
10 p
unde i=1,...,n, max{xi} și |xi| reprezintă operatorii ce returnează valoarea
maximă și respectiv absolută a tuturor valorilor descriptorilor
(instanțelor) pentru atributul xi iar p este cel mai mic întreg pentru care
max(|x’i|)<=1.

instanțe instanțe
> care este plaja de valori rezultată? mișcă punctul zecimal, |.|<=1
Date de intrare Date normalizate

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 105 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 106

105 106

Normalizarea datelor (cont.) Normalizarea datelor (cont.)


• normalizarea zecimală (cont.); • normalizarea zecimală (cont.);
x xi
desc  [ x1 , x2 ,..., xn ], x  ip , p  log10 (max | xi |)
'
i
desc  [ x1 , x2 ,..., xn ], xi'  , p  log10 (max | xi |)
10 10 p
0.2 0 ... 0.9 0 5 ... 10  5 5 ... 0 0.2 0 ... 0.9 0 5 ... 10  5 5 ... 0
 0 0.6 ... 1 10 0 ... 2 4 3 ...  5  0 0.6 ... 1 10 0 ... 2 4 3 ...  5
   
0.1 0.2 ... 0.1  5 ... 1 0.1 0.2 ... 0.1  5 ... 1
date

date

5 9 ... 10 2 5 9 ... 10 2
   
0.1 1 ... 0 1 1 ... 0 1  2 ... 3 0.1 1 ... 0 1 1 ... 0 1  2 ... 3
 1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5   1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 
0.6 9
xi'   0.6 xi'   0.9
100 101
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 107 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 108

107 108

18
10/24/2022

Normalizarea datelor (cont.) Normalizarea datelor (cont.)


• normalizarea zecimală (cont.);
• normalizarea zecimală (cont.);
xi 0.2 0 ... 0.9 0 5 ... 10  5 5 ... 0
desc  [ x1 , x2 ,..., xn ], xi'  , p  log10 (max | xi |) 0 0.6 ... 1 10 0 ... 2 4 3 ...  5
10 p  

Date
0.1 0.2 ... 0.1 5 9 ... 10 2 5 ... 1 
0.2 0 ... 0.9 0 5 ... 10  5 5 ... 0  
 0 0.6 ... 1 0.1 1 ... 0 1 1 ... 0 1  2 ... 3 
10 0 ... 2 4 3 ...  5
   1 0.4 ... 0.5 4 10 ... 4 5 4 ... 5 
0.1 0.2 ... 0.1  5 ... 1
date

5 9 ... 10 2 0 ... 0.9 0 0.5 ... 1 1 1


  0.2 ... 0 
 2 ... 0 ... 1

Date normalizate
0.1 1 ... 0 1 1 ... 0 1 3 0.6 ... 1 1 0 ... 0.2 0.8 0.6
 1 0.4 ... 0.5  
4 10 ... 4 5 4 ... 5  0.1 0.2 ... 0.1 0.5 0.9 ... 1 0.4 1 ... 0.2
2 2  
0.1 1 ... 0 0.1 0.1 ... 0 0.2  0.4 ... 0.6
xi'  0.699   0.4
10 5  1 0.4 ... 0.5 0.4 1 ... 0.4 1 0.8 ... 1 
Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 109 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 110

109 110

Normalizarea datelor (cont.) Normalizarea datelor (cont.)


• normalizarea zecimală (cont.); • normalizarea cu funcții sigmoide;

plajă de valori plajă de valori desc  [ x1 , x2 ,..., xn ]


1
 2 i 
x t
xi'  1  e r 
 
unde i=1,...,n, t este de
regulă valoarea medie a
distribuției valorilor
descriptorului iar r=r1 dacă t
instanțe instanțe xi<t și r=r2 altfel.

Date de intrare Date normalizate

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 111 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 112

111 112

Decorelarea datelor Decorelarea datelor (cont.)


> valorile atributele tind să fie corelate între ele ceea ce înseamnă > Principal Component Analysis (cont.);
că anumite valori pot fi deduse unele din altele -> reprezentare
ineficientă; • covarianță:

> decorelarea datelor prin Principal Component Analysis (PCA); > măsură a variației a două dimensiuni față de medii, una în
funcție de cealaltă;
1 n 1
  
• dispersie (“variance”):
cov( X , Y )   xi  x y i  y
var( X )   2 
1 n 1

 xi  x
n i 0
2 n i0
unde X și Y sunt doi parametri, fiecare cu n valori măsurate (ex. două
dimensiuni/atribute ale unui descriptor multi-dimensional).
unde xi, i=0,...,n-1, reprezintă un set de valori ai unui parametru
(vector X) iar x este valoarea medie a setului. - valori pozitive: X și Y cresc sau descresc împreună;

- valori negative: fie X crește iar Y scade sau invers;


> măsură a dispersiei valorilor față de valoarea medie;
- valoare 0: X este independent de Y.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 113 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 114

113 114

19
10/24/2022

Decorelarea datelor (cont.) Decorelarea datelor (cont.)


> Principal Component Analysis (cont.); > Principal Component Analysis (cont.);
• matrice de covarianță (ex. 3 dimensiuni): • vectori și valori proprii:

 cov( X , X ) cov( X , Y ) cov( X , Z )  Av   v


S   cov( Y , X ) cov( Y , Y ) cov( Y , Z )  unde A este o matrice de dimensiune n x n, v este un vector de
  dimensiune n x 1 iar λ este un scalar;
 cov( Z , X ) cov( Z , Y ) cov( Z , Z )  - λ reprezintă valoarea proprie a lui A;
- v reprezintă vectorul propriu al lui A.
unde X, Y și Z sunt trei parametri, fiecare cu n valori măsurate (ex. trei
dimensiuni/atribute ale unui descriptor multi-dimensional).
> având matricea A, vectorii și valorile proprii se calculează
- pe diagonală cov(X,X)=var(X), dispersii; ca soluție a ecuației:
unde I este matricea unitate iar det(.)
- cov(Y,X)=cov(X,Y), matrice simetrică. det( A    I )  0 returnează determinantul unei matrice.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 115 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 116

115 116

Decorelarea datelor (cont.) Decorelarea datelor (cont.)


> Principal Component Analysis (cont.); > Principal Component Analysis (cont.);
• vectori și valori proprii (cont.): exemplu • vectori și valori proprii (cont.): exemplu

 0 1  (A    I)v  0
A
 2  3 ( A  1  I )  v1  0
 0 1  1 0   1 1   v1,1    1
det( A    I )  det       v1  k1  
  2  3 0 1    2 
 2   v1, 2 
0
  1

   1  1   1 v1,1  v1, 2  0
  1
det     2  3  2 v2  k 2  
 3    
similar:
  2 2   2  2 v1,1  2 v1, 2  0  2

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 117 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 118

117 118

Decorelarea datelor (cont.) Decorelarea datelor (cont.)


> Principal Component Analysis (cont.); > Principal Component Analysis (cont.);
- de ce este importantă varianța:
obiectiv: determinarea unei modalități prin care cele n atribute de [J. Shlens, 2003]
intrare să fie modificate astfel încât să obținem cea mai
reprezentativă descriere a datelor curente;

- reprezentative =
• nu depind de celelalte atribute (decorelate);
x2
• nu sunt perturbate de zgomot;
x1 crește redundanța
• prezintă o variație importantă a valorilor.

- cum putem reprezenta datele astfel încât să obținem ceea ce - în care dintre cazuri avem o redundanță maximă a datelor?
ne dorim? -> transformare a bazei de reprezentare;
- ce transformare a bazei permite maximizare varianță?

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 119 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 120

119 120

20
10/24/2022

Decorelarea datelor (cont.) Decorelarea datelor (cont.)


> Principal Component Analysis (cont.); > Principal Component Analysis (cont.);
[J. Shlens, 2003]

var ~ 0 var   algoritm: găsirea acelei transformări care permite diagonalizarea


matricei de covarianță (= maximizare dispersie valori – valori
~ 0 var   var diagonală; minimizare redundanță – valori de lângă diagonală);
   
X ' P  X
x2
unde X sunt datele de intrare, P este matricea transformării care
este determinată astfel încât să diagonalizeze matricea de
x1 covarianță S a lui X’;

> soluția este dată de P având ca linii vectorii proprii ai matricei


- cum arată matricea de  var(X1) cov(X1, X 2 ) de covarianță a lui X;
covarianță pentru cazurile de cov(X , X ) var(X 2 ) 
mai sus?  2 1 > vectorii proprii definesc o nouă bază ortonormată.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 121 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 122

121 122

Decorelarea datelor (cont.) Decorelarea datelor (cont.)


> Principal Component Analysis (cont.); > Principal Component Analysis (cont.);
> algoritm (exemplu numeric): > algoritm (exemplu numeric):
p1: pregătire date de intrare; p2: extragere valori medii -> medie 0;

a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16

1 1 2 3 5 8 13 4 17 21 21 42 45 90 91 90 0 -0.75 -0.75 -1.25 -0.5 1 1.5 -9 -1.25 -8.5 -13.75 -18.25 -16.5 38.25 39.25 37.75

2 3 5 8 9 9 18 27 26 53 52 99 99 99 99 99 1 1.25 2.25 3.75 3.5 2 6.5 14 7.75 23.5 17.25 38.75 37.5 47.25 47.25 46.75

-1 -0.75 -1.75 -2.25 -2.5 -2 -3.5 0 2.75 4.5 20.25 28.75 28.5 -47.75 -48.75 -48.25
0 1 1 2 3 5 8 13 21 34 55 89 90 4 3 4

1 2 3 4 5 6 7 8 9 10 11 11 12 14 14 16 0 0.25 0.25 -0.25 -0.5 -1 -4.5 -5 -9.25 -19.5 -23.75 -49.25 -49.5 -37.75 -37.75 -36.25

matrice XT de intrare (T reprezintă transpusa) matrice XT de intrare (centrată)

*pentru a respecta sensul matematic, în calculele următoare datele sunt


reprezentate ca având atributele pe linii și instanțele pe coloane.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 123 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 124

123 124

Decorelarea datelor (cont.) Decorelarea datelor (cont.)


> Principal Component Analysis (cont.); > Principal Component Analysis (cont.);
8.04 0 0 ... 0
> exemplu numeric (cont.): > exemplu numeric (cont.):  0 3.67 0 ... 0
 
p3: calcul matrice de covarianță a lui X; p6: transformare X prin P cov( X ' )   0 0 0.07 ... 0
 
-> X’=PX (cont.).  ... ... .. ... 0
p4: calcul valori și vectori proprii matrice de covarianță X;  0 0 0 0 0

λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9 λ10 λ11 λ12 λ13 λ14 λ15 λ16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16

8042.97 3668.96 67.64 0 0 0 0 0 0 0 0 0 0 0 0 0 51.28 -51.69 -8.98 0 0 0 0 0 0 0 0 0 0 0 0 0

99.27 28.91 7.34 0 0 0 0 0 0 0 0 0 0 0 0 0


p5: ordonare vectori proprii in ordinea descrescătoare a varianței
-62.84 71.55 -4.95 0 0 0 0 0 0 0 0 0 0 0 0 0
(= a valorilor proprii λ) -> matrice P;
-87.71 -48.76 6.60 0 0 0 0 0 0 0 0 0 0 0 0 0
p6: transformare X prin P -> X’=PX.
matrice (X’)T

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 125 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 126

125 126

21
10/24/2022

Decorelarea datelor (cont.) Decorelarea datelor (cont.)


1 1   2
var1  var1& 2 
 i  i
> Principal Component Analysis (cont.); > Principal Component Analysis (cont.);

> exemplu numeric (cont.): i > exemplu numeric (cont.): i

p7: reducere dimensiuni prin eliminare atribute cu variabilitate p7: reducere dimensiuni prin eliminare atribute cu variabilitate
scăzută; scăzută (cont.);

a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16

51.28 -51.69 -8.98 0 0 0 0 0 0 0 0 0 0 0 0 0 51.28 -51.69 -8.98 0 0 0 0 0 0 0 0 0 0 0 0 0

99.27 28.91 7.34 0 0 0 0 0 0 0 0 0 0 0 0 0 99.27 28.91 7.34 0 0 0 0 0 0 0 0 0 0 0 0 0

-62.84 71.55 -4.95 0 0 0 0 0 0 0 0 0 0 0 0 0 -62.84 71.55 -4.95 0 0 0 0 0 0 0 0 0 0 0 0 0

-87.71 -48.76 6.60 0 0 0 0 0 0 0 0 0 0 0 0 0 -87.71 -48.76 6.60 0 0 0 0 0 0 0 0 0 0 0 0 0

matrice (X’)T matrice (X’)T


păstrează 68.27% din variabilitatea datelor inițiale; păstrează 99.43% din variabilitatea datelor;
Cum am calculat?

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 127 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 128

127 128

Decorelarea datelor (cont.) Decorelarea datelor (cont.)


1  2  3
var1& 2& 3 
 i
> Principal Component Analysis (cont.); > “albirea” datelor (whitening);

> exemplu numeric (cont.): i > în urma PCA obținem decorelarea atributelor și astfel o matrice
de covarianță diagonală;
p7: reducere dimensiuni prin eliminare atribute cu variabilitate
scăzută (cont.); > valorile dispersiei nu sunt constante și nici egale astfel că
datele nu sunt distribuite uniform;
a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16
idee: obținerea unei distribuții uniforme a datelor; whitening =
51.28 -51.69 -8.98 0 0 0 0 0 0 0 0 0 0 0 0 0
transformarea datelor astfel încât să aibă o matrice de covarianță
99.27 28.91 7.34 0 0 0 0 0 0 0 0 0 0 0 0 0 diagonală și de dispersii constante, egale cu 1;
-62.84 71.55 -4.95 0 0 0 0 0 0 0 0 0 0 0 0 0

1 unde x’i reprezintă valorile unui atribut în


-87.71 -48.76 6.60 0 0 0 0 0 0 0 0 0 0 0 0 0
x iw   x 'i urma PCA, λi este valoarea proprie (matrice
matrice (X’)T i   de covarianță) ce corespunde acestuia iar ε
păstrează 100% din variabilitate; este un parametru de regularizare;
Care este rolul lui ε? evitare /0.

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 129 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 130

129 130

Decorelarea datelor (cont.) 1 Decorelarea datelor (cont.) Date de intrare


x iw   x 'i
> “albirea” datelor (whitening; cont.); i   > exemplu;

a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11 a12 a13 a14 a15 a16


51.28 -51.69 -8.98 0 0 0 0 0 0 0 0 0 0 0 0 0
99.27 28.91 7.34 0 0 0 0 0 0 0 0 0 0 0 0 0
-62.84 71.55 -4.95 0 0 0 0 0 0 0 0 0 0 0 0 0

-87.71 -48.76 6.60 0 0 0 0 0 0 0 0 0 0 0 0 0

1 2 3 matrice (X’)T

a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a11
1 0 0
a12 a13 a14 a15
... 0
a16
0 1 0 ... 00
0.57 -0.85 -1.09 0 0 0 0 0 0 0 0 0 0 0 0 
0 X 0 )  00 ... 00
w
1.10 0.47 0.89 0 0 0 0 0 0 0 cov( 00 1 0
 
... ... .. ... 00
-0.70 1.18 -0.60 0 0 0 0 0 0 0 0 0 0 0 0

-0.97 -0.80 0.80 0 0 0 0 0 0 0 0 0


00 00 0 0 0 0
0

matrice (Xw)T

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 131 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 132

131 132

22
10/24/2022

Decorelarea datelor (cont.) Date de intrare centrate (medie 0) Decorelarea datelor (cont.) Reprezentare PCA

> exemplu > exemplu


(cont.); (cont.);

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 133 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 134

133 134

Decorelarea datelor (cont.) Reprezentare PCA cu whitening

> exemplu
(cont.);

> Sfârşit M2

Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 135 Tehnici de analiză și clasificare automată a informației, Prof. Bogdan IONESCU 136

135 136

23

S-ar putea să vă placă și