Sunteți pe pagina 1din 13

Capitolul 2

Reprezentări, descriptori şi metrici la nivelul


datelor multidimensionale
Prof. dr. Stelian STANCU

2.1. Reprezentarea datelor multidimensionale primare

Datele primare sunt reprezentate în Analiza Datelor sub trei forme


matriciale principale:
- matricea observaţiilor;
- matricea sau tabelul de contingenţă;
- matricea sau tabelul de proximitate.

2.1.1. Matricea observaţiilor (obiectelor, indivizilor)

Valorile variabilelor relativ la indivizii supuşi observării se specifică printr-


o matrice cu m linii şi n coloane:

 x11 x12 ... x1j ... x1n 1 x1n 


 1 
 x2 x 22 ... x 2j ... x 2n 1 x 2n 
 ... ... ... ... ... ... ... 
 
X   xi1 x 2
i ... xi j
... xin 1 xin 
 ... ... ... ... ... ... ... 
 1 
 x m 1 x m2 1 ... x mj 1 ... x mn 11 x mn 1 
 x1 x m2 ... x mj ... x mn 1 x mn 
 m

2.1.2. Matricea sau tabelul de contingenţă

Se poate defini tabelul de contingenţă următor:

x1 x2 1 2 … j … q Total
1 k11 k12 … k1 j … k 1q k1
2 k 21 k 22 … k2 j … k 2q k 2
… … … … … … … …
i k i1 ki2 … k ij … k iq k i
… … … … … … … …
p k p1 k p2 … k pj … k pq k p
Total k 1 k 2 … k j … k q k  k 
Tabelul 2.1.a. Tabelul de contingenţă de dimensiune p  q
2 Analiza Datelor. Teorie şi aplicaţii

unde:
q p p q
k i    k ij ; k  j   k ij şi k  k    k ij .
j 1 i 1 i 1 j 1

2.1.3. Matricea sau tabelul de proximitate

Aceasta este o matrice pătratică de dimensiune m  m , utilizată pentru


reprezentarea datelor cu privire la similaritatea sau disimilaritatea unor indivizi
(obiecte, observaţii). Ordinul matricei de proximitate este determinat de numărul
indivizilor (obiectelor, observaţiilor) supuşi studiului.
Elementele unei matrici de proximitate reprezintă coeficienţi de
similaritate, coeficienţi de disimilaritate sau distanţe.
Un element k ij din această matrice măsoară gradul de proximitate dintre
individul (obiectul) i şi individul (obiectul) j.
O matrice de proximitate se mai numeşte şi matrice de tip:

indivizi (obiecte) × indivizi (obiecte)

şi este utilizată în problemele de clasificare cu ajutorul tehnicilor de tip cluster şi de


asemenea, în problemele de scalare multidimensională

2.2. Descriptori şi metrici la nivelul datelor multidimensionale

2.2.1. Descriptori şi metrici în spaţiul indivizilor

Luând  - spaţiu punctual, mulţimii indivizilor îi va corespunde un nor de


puncte m-dimensional x i , având frecvenţele relative respectiv wi :


M  ( xi , wi ) / i  1, m 
unde cu M s-a notat norul de puncte.
Definiţia 2.1. Se numeşte baricentrul punctelor xi   , afectate de ponderile wi ,
sau centrul de greutate al norului de puncte M, care coincide de fapt cu vectorul
mediilor aritmetice ale celor n-variabile:
Capitolul 2. Reprezentări, descriptori şi metrici la nivelul datelor multidimensionale 3

t
 m 1 
t
  xi  wi 
 xi1   im1 
 2    xi2  wi 
 xi   i 1 
 ...   ... 
m m
   m j  ~
g   xi  wi    xij   wi    xi  wi   X t  W  1 
i 1 i 1
 ...   i 1 
 n 1   m ... 
 xi   x n 1  w 
 xn  i 1
i i

 i   m n 
  xi  wi 
 i 1 

unde 1 reprezintă vectorul coloană m-dimensional, având elementele egale cu 1.

2.2.2. Descriptori şi metrici în spaţiul variabilelor1

2.2.2.1. Matrice centrată (matricea observaţiilor centrate)

Definiţia 2.2. Se numeşte matrice centrată (matricea observaţiilor centrate)


~
asociată lui X şi se notează cu X , matricea dată de elementele:

~
xi j  xij  x j , cu i  1, m , j  1, n

cu x j - reprezentând media celei de-a j-a.variabilă

adică în scriere matriceală:

X  ~
xi j i 1,m  xij  x j i 1,m
~
j 1, n j 1, n

2.2.2.2. Matricea datelor (observaţiilor) standardizate

Definiţia 2.3. Se numeşte matricea datelor (observaţiilor) standardizate, notată cu


X̂ , acea matrice obţinută prin împarţirea valorile ~
xi j  xij  x j , cu i  1, m , j  1, n
la abaterile standard corespunzătoare, S ( x j ) , obţinându-se forma:

xj xj   ~xj 


Xˆ  xˆ ij i 1, m   i j
~
   i j   XW 1
j 1, n
 S (x )  j 1, n 
i 1, m S ( x )  j 1, n
i  1, m S

1
A se vedea şi Capitolul 4, & 2.1.2.1. Centrarea datelor primare.
4 Analiza Datelor. Teorie şi aplicaţii

unde:
2

 x  x j  wi
m
S(x j )  i
j

i 1

 1 
W 1  diag  j 
, j  1, n este matricea diagonală a inverselor abaterilor
S  S(x ) 
standard.

2.2.2.3. Matricea de covarianţă

Definiţia 2.4. Se numeşte matrice de covarianţă, notată cu V , matricea care se


exprimă, cu notaţiile precedente, astfel:
~ ~ ~~
V  X t W X  g t g  X t WX

unde: v jk   xij  x j xik  x k wi , cu j , k  1, n


m

i 1

(forma analitică a elementelor matricei V)

2.2.2.4. Matrice a corelaţiilor (matrice de corelaţie)

Definiţia 2.5. Se numeşte matrice a corelaţiilor (matrice de corelaţie), notată cu


R , în spaţiul variabilelor, matricea de covarianţă a datelor standardizate, care se
exprimă, cu notaţiile precedente, astfel:

t
~ ~~ ~  ~ ~  ˆt ~ˆ
R  W 1 VW 1  W 1 X t WXW 1   XW 1  W  XW 1
 
  X WX

S S S S  S   S 

unde:
v jk
r jk  , cu j , k  1, n . (forma analitică a elementelor matricei R)
S(x )  S(xk )
j

v jk   xij  x j xik  x k wi , cu j , k  1, n , arată covarianţa între indivizii j şi k.


m

i 1

 x  x j  wi
m
2
S(x j )  i
j

i 1

sau explicit:
Capitolul 2. Reprezentări, descriptori şi metrici la nivelul datelor multidimensionale 5

 x  x j xik  x k wi
m
j
v jk i
r jk   i 1

S(x j )  S(xk )
 x  x j  wi  x  x k  wi
m m
j 2 k 2
i i
i 1 i 1

de unde, pentru cazul nedeplasat (similar pentru deplasat), avem:

 x  x j xik  x k 
m
j
v jk i
r jk   i 1

S(x j )  S(xk )
 x xj  x  xk 
m m
j 2 k 2
i i
i 1 i 1

2.3. Schimbarea de variabilă în Analiza Datelor(Facultativ!)

Există două tipuri de schimbare de variabilă în Analiza Datelor:


- schimbare de variabilă prin schimbarea structurii;
- schimbare de variabilă prin codificare.

2.3.1. Schimbarea de variabilă prin schimbarea structurii

Definiţia 2.6. Fiind dată o variabilă x :   E , cu E înzestrată cu structura S, se


zice că se procedează la o schimbare de variabilă prin schimbarea structurii atunci
când se înlocuieşte variabila x :   E cu o variabilă x  :   E , cu E înzestrată
cu o structură S   S , astfel încât x ( )  x( ) , pentru fiecare individ    .

2.3.2. Schimbarea de variabilă prin codificare

Definiţia 2.7. Fiind dată o variabilă x :   E , cu E înzestrată cu structura S, se


zice că se procedează la o schimbare de variabilă prin codificare atunci când se
precizează un spaţiu al indivizilor E  , cu E  înzestrată cu o structură S  şi o
aplicaţie y : E  E  . Noua variabilă x  :   E  se obţine astfel:

x  y  x
unde:
“  ” - reprezintă semnul pentru compunere
Observaţie: Avem astfel că noua variabilă este definită de forma:

x :   E 

cu proprietatea că:
6 Analiza Datelor. Teorie şi aplicaţii

x ( )  ( y  x)( )  y ( x( ))

Schema de obţinere a noii variabile, prin codificare este următoarea:


x
 E

x  y  x
y

E
Figura 2.1. Schema de obţinere a noii variabile

unde:
E - este înzestrată cu structura S;
E  - este înzestrată cu structura S  ;

2.4. Măsuri de similaritate/disimilaritate. Metrici şi ultrametrici

2.4.1. Definirea noţiunilor de bază

Definiţia 2.8. Se numeşte măsură de asemănare (similaritate/disimilaritate), orice


aplicaţie cu valori numerice, care permite exprimarea unei legături între indivizi,
sau între variabile.
Definiţia 2.9. Se numeşte indice de similaritate pe mulţimea indivizilor  , o
aplicaţie s care verifică următoarele proprietăţi:

- aplicaţia s :     R  ;

- aplicaţia s este simetrică, adică:

() ( ,  )     , rezultă că s ( ,  )  s ( ,  ) ;

- () ( ,  )     , cu     , rezultă că:

s ( ,  )  s ( ,  )  s ( ,  ) .

Definiţia 2.10. Se numeşte indice de disimilaritate pe mulţimea indivizilor  , o


aplicaţie d S care verifică următoarele proprietăţi:

- aplicaţia d S :     R  ;
Capitolul 2. Reprezentări, descriptori şi metrici la nivelul datelor multidimensionale 7

- aplicaţia d S este simetrică, adică:

() ( ,  )     , rezultă că d S ( ,  )  d S ( ,  ) ;

- ()    , rezultă că d S ( ,  )  0 .

Definiţia 2.11. Se numeşte distanţă sau metrică, un indice de disimilaritate care


verifică suplimentar următoarele proprietăţi:

- () ( ,  )     , atunci avem că d S (,  )  0

dacă şi numai dacă     ;

- ()  ,  ,     , atunci avem că

d S (,  )  d S (,  )  d S ( ,  )


(inegalitatea triunghiului).
Comentarii:
1. Un indice de disimilaritate care verifică numai prima proprietate din
Definiţia 2.9, se numeşte indice de distanţă;
2. Un indice de disimilaritate care verifică numai a doua proprietate din
Definiţia 2.9, se numeşte abatere (ecart);
3. Un indice de disimilaritate care verifică inegalitatea:

d S (,  )  maxd S (,  ), d S ( ,  ) , () ( ,  ,  )   3

se numeşte abatere ultrametrică sau disimilaritate ultrametrică.

2.4.2. Măsuri de similaritate/disimilaritate în cazul variabilelor cantitative

Fie în continuare forma matriceală de reprezentare a celor m


indivizi, xi   descrişi de n variabile x j  E , prin vectorii linie, respectiv
vectorii coloană ai matricei de date:
- fiecare linie xi , cu i  1, m a matricei X descrie un n-tuplu de valori
luate de cele n variabile pentru individul (obiectul, observaţia) i,
desemnând un vector din spaţiul m-dimensional  , numit spaţiul
indivizilor (obiectelor, observaţiilor):
8 Analiza Datelor. Teorie şi aplicaţii

t
 xi1 
 2 
 xi 
 ... 
 
xi   xi j 
 ... 
 n 1 
 xi 
 xn 
 i 

sau altfel scris:


x i  xi1 x i2 ... x ij ... x in 1 
x in , cu i  1, m

- variabilă x j , cu j  1, n , este reprezentată cu ajutorul unui vector din


spaţiul vectorial n-dimensional E, numit spaţiul variabilelor (o coloană
reprezintă o variabilă (caracteristică) a indivizilor (obiectelor,
observaţiilor)):

 x1j 
 j 
 x2 
 ... 
 
x   xi j 
j

 ... 
 j 
 xm1 
 xj 
 m 

Principalele măsuri de similaritate (asemănare), în cazul variabilelor


cantitative, sunt:
- distanţa euclidiană dintre doi indivizi2 xi şi xk din spaţiul n-dimensional
R n al variabilelor, este definită R n ca o funcţie reală d E : R n  R n  R de
forma:
d E ( x i , x k )  ( xi  x k )  N  ( x i  x k ) t

Definiţia 2.12.
1. Se spune că doi indivizi  i ,  k   au acelaşi profil dacă:

2
A se vedea şi 2.5.1. Distanţa euclidiană, & Distanţa euclidiană în spaţiul variabilelor
Capitolul 2. Reprezentări, descriptori şi metrici la nivelul datelor multidimensionale 9

xij x kj
 , () j  1, n
xi x k

2. Se spune că două variabile x j , x k  E au acelaşi profil dacă:

xij xik
 , () i  1, m
xj xk

Consecinţă: O generalizare a distanţei euclidiene este distanţa Minkowski de


ordinul n.

Definiţia 2.13. Se numeşte distanţă Minkowski de ordinul p între două puncte


(indivizi, obiecte, observaţii) xi şi xk din spaţiul n-dimensional R n al variabilelor,
o funcţie reală d Min : R n  R n  R care este definită astfel:

1/ p
 n 
d Min ( xi , x k )    xij  x kj
p

 j 1 
unde:
t
 xl1 
 2 
 xl 
 ... 
 
xl   xlj  , cu l  i, k , iar i, k  1, m
 ... 
 n 1 
 xl 
 xn 
 l 

xij şi x kj - reprezintă cea de-a j-a coordonată a punctelor (indivizilor) xi ,


respectiv xk ;
Observaţii:
1. Distanţa Minkowski este semi-euclidiană, deoarece pentru anumite valori
ale parametrului n, nu poate fi scrisă sub formă pătratică;
2. Distanţa euclidiană se obţine pentru p  2 şi ia valori în intervalul 0,  ;
3. Pentru p  1 se obţine distanţa Manhattan sau distanţa valorilor absolute,
dată de relaţia:
n
d Man ( xi , x k )   xij  x kj
j 1
10 Analiza Datelor. Teorie şi aplicaţii

4. Distanţa Manhattan diferă de distanţa euclidiană clasică prin faptul că ea se


măsoară ca şi când drumul s-ar parcurge pe axe perpendiculare (analogie
cu străzile din Manhattan), şi iae valori în intervalul 0,  .

5. Pentru p   se obţine distanţa Cebîşev, dată de relaţia:

1/ p
 n 
d Ceb ( xi , x k )  lim  xij  x kj
p
  max xij  x kj
p 
 j 1  j

Distanţa Cebîşev ia valori în intervalul 0,  .

6. Distanţa cosinus: este o măsură de similaritate şi calculează „unghiul”


dintre doi vectori din spaţiul n-dimensional şi este dată de relaţia:

 x   x 
n n
j 2 j 2
i  k
j 1 j 1
d cos ( xi , x k )  n

x j 1
i
j
x kj

Distanţa cosinus ia valori în intervalul 0,1 .

7. O distanţă nepătratică este distanţa Canberra, dată sub două forme:

- forma 1:
n xij  x kj
d Cam ( xi , x k )  
1
j 1 xij  x kj

- forma 2:

n xij  x kj
d Cam ( xi , x k )  
2
j 1 xij  x kj

2.4.6. Măsuri de similaritate/disimilaritate între grupe de indivizi

Se consideră, în continuare, ca fiind date două grupe de indivizi


G1 , G2   şi o măsură de similaritate/disimilaritate:
Capitolul 2. Reprezentări, descriptori şi metrici la nivelul datelor multidimensionale 11

d : G1  G2  R 

Pornind de la aceste notaţii, pot fi generate o multitudine de măsuri de


similaritate/disimilaritate între grupe, câteva fiind prezentate în continuare:

- distanţa legăturii minime dintre grupele de indivizi G1 şi G2 , dată de


relaţia:

d (G1 , G 2 )  min d ( i , j )
i G1
 j G2

- distanţa legăturii maxime dintre grupele de indivizi G1 şi G2 , dată de


relaţia:

d (G1 , G 2 )  max d ( i , j )
i G1
 j G2

- distanţa dintre nuclee, dată de relaţia:

d (G1 , G 2 )   d ( ,
i K1
i j )
 j K 2

Pentru aceasta se parcurg următorii paşi:


Pasul 1. Se defineşte un nucleu cu k j elemente al unei mulţimi G j , ca fiind
format dintr-o mulţime K j de k j indivizi    , care minimizează criteriul:

  d ( ,  )
K j  i G j
i

Pasul 2. Se defineşte distanţa dintre cele două nuclee3, ca fiind:

d (G1 , G2 )  d ( K 1 , K 2 )   d ( ,
i K1
i j )
 j K 2

unde:
K j - reprezintă nucleul mulţimii de indivizi G j , cu cardK 1 cardK 2 .

- distanţa dintre centrele de greutateale grupelor de indivizi G1 şi G2

3
Mulţimi G j - ce formează grupe de indivizi.
12 Analiza Datelor. Teorie şi aplicaţii

În cazul spaţiul indivizilor (obiectelor, observaţiilor), generat de n variabile


E  E1  E 2  E3  ...  E n , este un spaţiu vectorial înzestrat cu o distanţă pătratică,
atunci distanţa între două grupe se poate lua ca distanţa dintre centrele lor de
greutate, adică:

d (G1 , G 2 )  d ( g 1 , g 2 )

unde g j - reprezintă punctul ale cărui coordonate sunt mediile celor m indivizi din
grupul G j respectiv, cu j  1,2 .

- inerţia intra şi inter-clase

Pentru aceasta se parcurg următorii paşi:


Pasul 1. Se defineşte spaţiul vectorial E înzestrat cu o distanţă pătratică  .
Observaţie: Se notează d  2 .
Pasul 2. Se asociază fiecărui individ    o pondere w( ) .
Pasul 3. Se asociază fiecărei părţi G   ponderea:

w (G )   w( )
G

Pasul 4. Se construieşte variabila vectorială x care asociază fiecărui individ    ,


n-tuplul x( )  ( x1 ( ), x 2 ( ), x3 ( ),..., x n ( )) din spaţiul vectorial:

E  E1  E 2  E3  ...  E n .

Pasul 5. Se construieşte centrul de greutate (baricentrul) g (G ) , care este dat de


relaţia:
1
g (G )   x( ) w( )
w(G ) G

Pasul 6. Se defineşte inerţia părţi G   în raport cu un punct n-dimensional


   astfel:
I  (G )   d ( x ( ), x ( )) w( )
G

Pasul 7. Cea mai mare parte a măsurilor de similaritate/disimilaritate între părţile


unei mulţimi, în cazul în care  este înzestrată cu o distanţă pătratică  , se
bazează pe formula lui Huygens, dată de următorul rezultat:
Capitolul 2. Reprezentări, descriptori şi metrici la nivelul datelor multidimensionale 13

mG mG mG
I  (  G j )   I (G j )   d ( g (G j ), x ( )) w(G j ) (teorema lui Huygens)
j 1
j 1 j 1

unde:
G j - reprezintă părţi disjuncte ale mulţimii  ;
mG - reprezintă numărul de părţi G j .

S-ar putea să vă placă și