Capitolul 2

Capitolul 2
Reprezentări, descriptori şi metrici la nivelul

datelor multidimensionale
Prof. dr. Stelian STANCU
2.1. Reprezentarea datelor multidimensionale primare
Datele primare sunt reprezentate în Analiza Datelor sub trei forme

matriciale principale:
- matricea observaţiilor;
- matricea sau tabelul de contingenţă;
- matricea sau tabelul de proximitate.
2.1.1. Matricea observaţiilor (obiectelor, indivizilor)
Valorile variabilelor relativ la indivizii supuşi observării se specifică printr-

o matrice cu m linii şi n coloane:
 x11 x12 ... x1j ... x1n 1 x1n 

 1 
 x2 x 22 ... x 2j ... x 2n 1 x 2n 
 ... ... ... ... ... ... ... 
 
X   xi1 x 2
i ... xi j
... xin 1 xin 
 ... ... ... ... ... ... ... 
 1 
 x m 1 x m2 1 ... x mj 1 ... x mn 11 x mn 1 
 x1 x m2 ... x mj ... x mn 1 x mn 
 m
2.1.2. Matricea sau tabelul de contingenţă
Se poate defini tabelul de contingenţă următor:
x1 x2 1 2 … j … q Total
1 k11 k12 … k1 j … k 1q k1
2 k 21 k 22 … k2 j … k 2q k 2
… … … … … … … …
i k i1 ki2 … k ij … k iq k i
… … … … … … … …
p k p1 k p2 … k pj … k pq k p
Total k 1 k 2 … k j … k q k  k 
Tabelul 2.1.a. Tabelul de contingenţă de dimensiune p  q
2 Analiza Datelor. Teorie şi aplicaţii
unde:
q p p q
k i    k ij ; k  j   k ij şi k  k    k ij .
j 1 i 1 i 1 j 1
2.1.3. Matricea sau tabelul de proximitate
Aceasta este o matrice pătratică de dimensiune m  m , utilizată pentru

reprezentarea datelor cu privire la similaritatea sau disimilaritatea unor indivizi
(obiecte, observaţii). Ordinul matricei de proximitate este determinat de numărul
indivizilor (obiectelor, observaţiilor) supuşi studiului.
Elementele unei matrici de proximitate reprezintă coeficienţi de
similaritate, coeficienţi de disimilaritate sau distanţe.
Un element k ij din această matrice măsoară gradul de proximitate dintre
individul (obiectul) i şi individul (obiectul) j.
O matrice de proximitate se mai numeşte şi matrice de tip:
indivizi (obiecte) × indivizi (obiecte)
şi este utilizată în problemele de clasificare cu ajutorul tehnicilor de tip cluster şi de

asemenea, în problemele de scalare multidimensională
2.2. Descriptori şi metrici la nivelul datelor multidimensionale
2.2.1. Descriptori şi metrici în spaţiul indivizilor
Luând  - spaţiu punctual, mulţimii indivizilor îi va corespunde un nor de

puncte m-dimensional x i , având frecvenţele relative respectiv wi :

M  ( xi , wi ) / i  1, m 
unde cu M s-a notat norul de puncte.
Definiţia 2.1. Se numeşte baricentrul punctelor xi   , afectate de ponderile wi ,
sau centrul de greutate al norului de puncte M, care coincide de fapt cu vectorul
mediilor aritmetice ale celor n-variabile:
Capitolul 2. Reprezentări, descriptori şi metrici la nivelul datelor multidimensionale 3
t
 m 1 
t
  xi  wi 
 xi1   im1 
 2    xi2  wi 
 xi   i 1 
 ...   ... 
m m
   m j  ~
g   xi  wi    xij   wi    xi  wi   X t  W  1 
i 1 i 1
 ...   i 1 
 n 1   m ... 
 xi   x n 1  w 
 xn  i 1
i i

 i   m n 
  xi  wi 
 i 1 
unde 1 reprezintă vectorul coloană m-dimensional, având elementele egale cu 1.
2.2.2. Descriptori şi metrici în spaţiul variabilelor1
2.2.2.1. Matrice centrată (matricea observaţiilor centrate)
Definiţia 2.2. Se numeşte matrice centrată (matricea observaţiilor centrate)

~
asociată lui X şi se notează cu X , matricea dată de elementele:
~
xi j  xij  x j , cu i  1, m , j  1, n
cu x j - reprezentând media celei de-a j-a.variabilă
adică în scriere matriceală:
X  ~
xi j i 1,m  xij  x j i 1,m
~
j 1, n j 1, n
2.2.2.2. Matricea datelor (observaţiilor) standardizate
Definiţia 2.3. Se numeşte matricea datelor (observaţiilor) standardizate, notată cu

X̂ , acea matrice obţinută prin împarţirea valorile ~
xi j  xij  x j , cu i  1, m , j  1, n
la abaterile standard corespunzătoare, S ( x j ) , obţinându-se forma:
xj xj   ~xj 

Xˆ  xˆ ij i 1, m   i j
~
   i j   XW 1
j 1, n
 S (x )  j 1, n 
i 1, m S ( x )  j 1, n
i  1, m S
1
A se vedea şi Capitolul 4, & 2.1.2.1. Centrarea datelor primare.
unde:
2
 x  x j  wi
m
S(x j )  i
j
i 1
 1 
W 1  diag  j 
, j  1, n este matricea diagonală a inverselor abaterilor
S  S(x ) 
standard.
2.2.2.3. Matricea de covarianţă
Definiţia 2.4. Se numeşte matrice de covarianţă, notată cu V , matricea care se

exprimă, cu notaţiile precedente, astfel:
~ ~ ~~
V  X t W X  g t g  X t WX
unde: v jk   xij  x j xik  x k wi , cu j , k  1, n

m
i 1
(forma analitică a elementelor matricei V)
2.2.2.4. Matrice a corelaţiilor (matrice de corelaţie)
Definiţia 2.5. Se numeşte matrice a corelaţiilor (matrice de corelaţie), notată cu

R , în spaţiul variabilelor, matricea de covarianţă a datelor standardizate, care se
exprimă, cu notaţiile precedente, astfel:
t
~ ~~ ~  ~ ~  ˆt ~ˆ
R  W 1 VW 1  W 1 X t WXW 1   XW 1  W  XW 1
 
  X WX

S S S S  S   S 
unde:
v jk
r jk  , cu j , k  1, n . (forma analitică a elementelor matricei R)
S(x )  S(xk )
j
v jk   xij  x j xik  x k wi , cu j , k  1, n , arată covarianţa între indivizii j şi k.

m
i 1
 x  x j  wi
m
2
S(x j )  i
j
i 1
sau explicit:
 x  x j xik  x k wi
m
j
v jk i
r jk   i 1
S(x j )  S(xk )
 x  x j  wi  x  x k  wi
m m
j 2 k 2
i i
i 1 i 1
de unde, pentru cazul nedeplasat (similar pentru deplasat), avem:
 x  x j xik  x k 
m
j
v jk i
r jk   i 1
S(x j )  S(xk )
 x xj  x  xk 
m m
j 2 k 2
i i
i 1 i 1
2.3. Schimbarea de variabilă în Analiza Datelor(Facultativ!)
Există două tipuri de schimbare de variabilă în Analiza Datelor:

- schimbare de variabilă prin schimbarea structurii;
- schimbare de variabilă prin codificare.
2.3.1. Schimbarea de variabilă prin schimbarea structurii
Definiţia 2.6. Fiind dată o variabilă x :   E , cu E înzestrată cu structura S, se

zice că se procedează la o schimbare de variabilă prin schimbarea structurii atunci
când se înlocuieşte variabila x :   E cu o variabilă x  :   E , cu E înzestrată
cu o structură S   S , astfel încât x ( )  x( ) , pentru fiecare individ    .
2.3.2. Schimbarea de variabilă prin codificare
Definiţia 2.7. Fiind dată o variabilă x :   E , cu E înzestrată cu structura S, se

zice că se procedează la o schimbare de variabilă prin codificare atunci când se
precizează un spaţiu al indivizilor E  , cu E  înzestrată cu o structură S  şi o
aplicaţie y : E  E  . Noua variabilă x  :   E  se obţine astfel:
x  y  x
unde:
“  ” - reprezintă semnul pentru compunere
Observaţie: Avem astfel că noua variabilă este definită de forma:
x :   E 
cu proprietatea că:
x ( )  ( y  x)( )  y ( x( ))
Schema de obţinere a noii variabile, prin codificare este următoarea:

x
 E
x  y  x
y
E
Figura 2.1. Schema de obţinere a noii variabile
unde:
E - este înzestrată cu structura S;
E  - este înzestrată cu structura S  ;
2.4. Măsuri de similaritate/disimilaritate. Metrici şi ultrametrici
2.4.1. Definirea noţiunilor de bază
Definiţia 2.8. Se numeşte măsură de asemănare (similaritate/disimilaritate), orice

aplicaţie cu valori numerice, care permite exprimarea unei legături între indivizi,
sau între variabile.
Definiţia 2.9. Se numeşte indice de similaritate pe mulţimea indivizilor  , o
aplicaţie s care verifică următoarele proprietăţi:
- aplicaţia s :     R  ;
- aplicaţia s este simetrică, adică:
() ( ,  )     , rezultă că s ( ,  )  s ( ,  ) ;
- () ( ,  )     , cu     , rezultă că:
s ( ,  )  s ( ,  )  s ( ,  ) .
Definiţia 2.10. Se numeşte indice de disimilaritate pe mulţimea indivizilor  , o

aplicaţie d S care verifică următoarele proprietăţi:
- aplicaţia d S :     R  ;
- aplicaţia d S este simetrică, adică:
() ( ,  )     , rezultă că d S ( ,  )  d S ( ,  ) ;
- ()    , rezultă că d S ( ,  )  0 .
Definiţia 2.11. Se numeşte distanţă sau metrică, un indice de disimilaritate care

verifică suplimentar următoarele proprietăţi:
- () ( ,  )     , atunci avem că d S (,  )  0
dacă şi numai dacă     ;
- ()  ,  ,     , atunci avem că
d S (,  )  d S (,  )  d S ( ,  )

(inegalitatea triunghiului).
Comentarii:
1. Un indice de disimilaritate care verifică numai prima proprietate din
Definiţia 2.9, se numeşte indice de distanţă;
2. Un indice de disimilaritate care verifică numai a doua proprietate din
Definiţia 2.9, se numeşte abatere (ecart);
3. Un indice de disimilaritate care verifică inegalitatea:
d S (,  )  maxd S (,  ), d S ( ,  ) , () ( ,  ,  )   3
se numeşte abatere ultrametrică sau disimilaritate ultrametrică.
2.4.2. Măsuri de similaritate/disimilaritate în cazul variabilelor cantitative
Fie în continuare forma matriceală de reprezentare a celor m

indivizi, xi   descrişi de n variabile x j  E , prin vectorii linie, respectiv
vectorii coloană ai matricei de date:
- fiecare linie xi , cu i  1, m a matricei X descrie un n-tuplu de valori
luate de cele n variabile pentru individul (obiectul, observaţia) i,
desemnând un vector din spaţiul m-dimensional  , numit spaţiul
indivizilor (obiectelor, observaţiilor):
t
 xi1 
 2 
 xi 
 ... 
 
xi   xi j 
 ... 
 n 1 
 xi 
 xn 
 i 
sau altfel scris:

x i  xi1 x i2 ... x ij ... x in 1 
x in , cu i  1, m
- variabilă x j , cu j  1, n , este reprezentată cu ajutorul unui vector din

spaţiul vectorial n-dimensional E, numit spaţiul variabilelor (o coloană
reprezintă o variabilă (caracteristică) a indivizilor (obiectelor,
observaţiilor)):
 x1j 
 j 
 x2 
 ... 
 
x   xi j 
j
 ... 
 j 
 xm1 
 xj 
 m 
Principalele măsuri de similaritate (asemănare), în cazul variabilelor

cantitative, sunt:
- distanţa euclidiană dintre doi indivizi2 xi şi xk din spaţiul n-dimensional
R n al variabilelor, este definită R n ca o funcţie reală d E : R n  R n  R de
forma:
d E ( x i , x k )  ( xi  x k )  N  ( x i  x k ) t
Definiţia 2.12.
1. Se spune că doi indivizi  i ,  k   au acelaşi profil dacă:
2
A se vedea şi 2.5.1. Distanţa euclidiană, & Distanţa euclidiană în spaţiul variabilelor
xij x kj
 , () j  1, n
xi x k
2. Se spune că două variabile x j , x k  E au acelaşi profil dacă:
xij xik
 , () i  1, m
xj xk
Consecinţă: O generalizare a distanţei euclidiene este distanţa Minkowski de

ordinul n.
Definiţia 2.13. Se numeşte distanţă Minkowski de ordinul p între două puncte

(indivizi, obiecte, observaţii) xi şi xk din spaţiul n-dimensional R n al variabilelor,
o funcţie reală d Min : R n  R n  R care este definită astfel:
1/ p
 n 
d Min ( xi , x k )    xij  x kj
p

 j 1 
unde:
t
 xl1 
 2 
 xl 
 ... 
 
xl   xlj  , cu l  i, k , iar i, k  1, m
 ... 
 n 1 
 xl 
 xn 
 l 
xij şi x kj - reprezintă cea de-a j-a coordonată a punctelor (indivizilor) xi ,

respectiv xk ;
Observaţii:
1. Distanţa Minkowski este semi-euclidiană, deoarece pentru anumite valori
ale parametrului n, nu poate fi scrisă sub formă pătratică;
2. Distanţa euclidiană se obţine pentru p  2 şi ia valori în intervalul 0,  ;
3. Pentru p  1 se obţine distanţa Manhattan sau distanţa valorilor absolute,
dată de relaţia:
n
d Man ( xi , x k )   xij  x kj
j 1
4. Distanţa Manhattan diferă de distanţa euclidiană clasică prin faptul că ea se

măsoară ca şi când drumul s-ar parcurge pe axe perpendiculare (analogie
cu străzile din Manhattan), şi iae valori în intervalul 0,  .
5. Pentru p   se obţine distanţa Cebîşev, dată de relaţia:
1/ p
 n 
d Ceb ( xi , x k )  lim  xij  x kj
p
  max xij  x kj
p 
 j 1  j
Distanţa Cebîşev ia valori în intervalul 0,  .
6. Distanţa cosinus: este o măsură de similaritate şi calculează „unghiul”

dintre doi vectori din spaţiul n-dimensional şi este dată de relaţia:
 x   x 
n n
j 2 j 2
i  k
j 1 j 1
d cos ( xi , x k )  n
x j 1
i
j
x kj
Distanţa cosinus ia valori în intervalul 0,1 .
7. O distanţă nepătratică este distanţa Canberra, dată sub două forme:
- forma 1:
n xij  x kj
d Cam ( xi , x k )  
1
j 1 xij  x kj
- forma 2:
n xij  x kj
d Cam ( xi , x k )  
2
j 1 xij  x kj
2.4.6. Măsuri de similaritate/disimilaritate între grupe de indivizi
Se consideră, în continuare, ca fiind date două grupe de indivizi

G1 , G2   şi o măsură de similaritate/disimilaritate:
d : G1  G2  R 
Pornind de la aceste notaţii, pot fi generate o multitudine de măsuri de

similaritate/disimilaritate între grupe, câteva fiind prezentate în continuare:
- distanţa legăturii minime dintre grupele de indivizi G1 şi G2 , dată de

relaţia:
d (G1 , G 2 )  min d ( i , j )
i G1
 j G2
- distanţa legăturii maxime dintre grupele de indivizi G1 şi G2 , dată de

relaţia:
d (G1 , G 2 )  max d ( i , j )
i G1
 j G2
- distanţa dintre nuclee, dată de relaţia:
d (G1 , G 2 )   d ( ,
i K1
i j )
 j K 2
Pentru aceasta se parcurg următorii paşi:

Pasul 1. Se defineşte un nucleu cu k j elemente al unei mulţimi G j , ca fiind
format dintr-o mulţime K j de k j indivizi    , care minimizează criteriul:
  d ( ,  )
K j  i G j
i
Pasul 2. Se defineşte distanţa dintre cele două nuclee3, ca fiind:
d (G1 , G2 )  d ( K 1 , K 2 )   d ( ,
i K1
i j )
 j K 2
unde:
K j - reprezintă nucleul mulţimii de indivizi G j , cu cardK 1 cardK 2 .
- distanţa dintre centrele de greutateale grupelor de indivizi G1 şi G2
3
Mulţimi G j - ce formează grupe de indivizi.
În cazul spaţiul indivizilor (obiectelor, observaţiilor), generat de n variabile

E  E1  E 2  E3  ...  E n , este un spaţiu vectorial înzestrat cu o distanţă pătratică,
atunci distanţa între două grupe se poate lua ca distanţa dintre centrele lor de
greutate, adică:
d (G1 , G 2 )  d ( g 1 , g 2 )
unde g j - reprezintă punctul ale cărui coordonate sunt mediile celor m indivizi din
grupul G j respectiv, cu j  1,2 .
- inerţia intra şi inter-clase
Pentru aceasta se parcurg următorii paşi:

Pasul 1. Se defineşte spaţiul vectorial E înzestrat cu o distanţă pătratică  .
Observaţie: Se notează d  2 .
Pasul 2. Se asociază fiecărui individ    o pondere w( ) .
Pasul 3. Se asociază fiecărei părţi G   ponderea:
w (G )   w( )
G
Pasul 4. Se construieşte variabila vectorială x care asociază fiecărui individ    ,

n-tuplul x( )  ( x1 ( ), x 2 ( ), x3 ( ),..., x n ( )) din spaţiul vectorial:
E  E1  E 2  E3  ...  E n .
Pasul 5. Se construieşte centrul de greutate (baricentrul) g (G ) , care este dat de

relaţia:
1
g (G )   x( ) w( )
w(G ) G
Pasul 6. Se defineşte inerţia părţi G   în raport cu un punct n-dimensional

   astfel:
I  (G )   d ( x ( ), x ( )) w( )
G
Pasul 7. Cea mai mare parte a măsurilor de similaritate/disimilaritate între părţile

unei mulţimi, în cazul în care  este înzestrată cu o distanţă pătratică  , se
bazează pe formula lui Huygens, dată de următorul rezultat:
mG mG mG
I  (  G j )   I (G j )   d ( g (G j ), x ( )) w(G j ) (teorema lui Huygens)
j 1
j 1 j 1
unde:
G j - reprezintă părţi disjuncte ale mulţimii  ;
mG - reprezintă numărul de părţi G j .

Capitolul 2 - Slide

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Capitolul 2 - Slide

Încărcat de

Drepturi de autor:

Formate disponibile

Reprezentări, descriptori şi metrici la nivelul

2.1. Reprezentarea datelor multidimensionale primare

Datele primare sunt reprezentate în Analiza Datelor sub trei forme

2.1.1. Matricea observaţiilor (obiectelor, indivizilor)

Valorile variabilelor relativ la indivizii supuşi observării se specifică printr-

 x11 x12 ... x1j ... x1n 1 x1n 

2.1.2. Matricea sau tabelul de contingenţă

Se poate defini tabelul de contingenţă următor:

2.1.3. Matricea sau tabelul de proximitate

Aceasta este o matrice pătratică de dimensiune m  m , utilizată pentru

indivizi (obiecte) × indivizi (obiecte)

şi este utilizată în problemele de clasificare cu ajutorul tehnicilor de tip cluster şi de

2.2. Descriptori şi metrici la nivelul datelor multidimensionale

2.2.1. Descriptori şi metrici în spaţiul indivizilor

Luând  - spaţiu punctual, mulţimii indivizilor îi va corespunde un nor de

unde 1 reprezintă vectorul coloană m-dimensional, având elementele egale cu 1.

2.2.2. Descriptori şi metrici în spaţiul variabilelor1

2.2.2.1. Matrice centrată (matricea observaţiilor centrate)

Definiţia 2.2. Se numeşte matrice centrată (matricea observaţiilor centrate)

cu x j - reprezentând media celei de-a j-a.variabilă

adică în scriere matriceală:

2.2.2.2. Matricea datelor (observaţiilor) standardizate

Definiţia 2.3. Se numeşte matricea datelor (observaţiilor) standardizate, notată cu

xj xj   ~xj 

2.2.2.3. Matricea de covarianţă

Definiţia 2.4. Se numeşte matrice de covarianţă, notată cu V , matricea care se

unde: v jk   xij  x j xik  x k wi , cu j , k  1, n

(forma analitică a elementelor matricei V)

2.2.2.4. Matrice a corelaţiilor (matrice de corelaţie)

Definiţia 2.5. Se numeşte matrice a corelaţiilor (matrice de corelaţie), notată cu

v jk   xij  x j xik  x k wi , cu j , k  1, n , arată covarianţa între indivizii j şi k.

de unde, pentru cazul nedeplasat (similar pentru deplasat), avem:

2.3. Schimbarea de variabilă în Analiza Datelor(Facultativ!)

Există două tipuri de schimbare de variabilă în Analiza Datelor:

2.3.1. Schimbarea de variabilă prin schimbarea structurii

Definiţia 2.6. Fiind dată o variabilă x :   E , cu E înzestrată cu structura S, se

2.3.2. Schimbarea de variabilă prin codificare

Definiţia 2.7. Fiind dată o variabilă x :   E , cu E înzestrată cu structura S, se

x ( )  ( y  x)( )  y ( x( ))

Schema de obţinere a noii variabile, prin codificare este următoarea:

2.4. Măsuri de similaritate/disimilaritate. Metrici şi ultrametrici

2.4.1. Definirea noţiunilor de bază

Definiţia 2.8. Se numeşte măsură de asemănare (similaritate/disimilaritate), orice

- aplicaţia s este simetrică, adică:

- () ( ,  )     , cu     , rezultă că:

Definiţia 2.10. Se numeşte indice de disimilaritate pe mulţimea indivizilor  , o

- aplicaţia d S este simetrică, adică:

Definiţia 2.11. Se numeşte distanţă sau metrică, un indice de disimilaritate care

- () ( ,  )     , atunci avem că d S (,  )  0

dacă şi numai dacă     ;

- ()  ,  ,     , atunci avem că

d S (,  )  d S (,  )  d S ( ,  )

d S (,  )  maxd S (,  ), d S ( ,  ) , () ( ,  ,  )   3

se numeşte abatere ultrametrică sau disimilaritate ultrametrică.

2.4.2. Măsuri de similaritate/disimilaritate în cazul variabilelor cantitative

Fie în continuare forma matriceală de reprezentare a celor m

sau altfel scris:

- variabilă x j , cu j  1, n , este reprezentată cu ajutorul unui vector din

Principalele măsuri de similaritate (asemănare), în cazul variabilelor

2. Se spune că două variabile x j , x k  E au acelaşi profil dacă:

Consecinţă: O generalizare a distanţei euclidiene este distanţa Minkowski de

Definiţia 2.13. Se numeşte distanţă Minkowski de ordinul p între două puncte