Analiza Cluster

Analiza statistică multidimensională
Analiza Cluster
Curs 2 - Octombrie 2023
Titular de curs: Prof.univ.dr.Cristina BOBOC

Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Noțiuni introductive
analiză factorială
• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson
• în anul 1933 a fost integrată statisticii matematice de către Harold Hotelling
• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.
• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.
• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
1. Datele și caracteristicile lor:
Configurarea norului
de punte în spaţiu
vizualizarea punctelor regruparea punctelor

în cel mai bun spaţiu în spaţiu
redus (ACP, ACM) (metode de clusterizare)
1. Datele și caracteristicile lor:

Tabelul de date valoarea variabilei j
pentru individul i
Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj
n puncte în Rp p puncte în Rn
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.
• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului
• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor
• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
  n
 p2 
D=
 
 pi = 1
 i=1
 
0 pn 
• Produsul scalar a două variabile xj și xk este:
care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:
fiind coeficientul de corelație liniară

Analiza Cluster
• Analiza cluster poate fi definită ca reprezentând o mulțime de principii, metode și algoritmi de
clasificare, având ca scop organizarea datelor sub forma unor structuri informaționale semnificative,
relevante
• Analiza cluster are ca scop căutarea și identificarea de clase, grupe sau clustere în cadrul unor
mulțimi de obiecte sau forme, astfel încât elementele care aparțin aceleiași clase să fie cât mai
asemănătoare, iar elementele care aparțin la clase diferite să fie cât mai deosebite între ele.
• Observație: Analiza cluster poate fi utilizată atât pentru clasificarea obiectelor, cât și pentru
clasificarea variabilelor care definesc obiectele.
• Două tipuri de metode de clusterizare:

• metode ierarhice, care produc şiruri de partiţii în clase din ce în ce mai mari
• metode neierarhice, care produc o partiţie într-un număr prestabilit de clase
Etapele analizei cluster

• alegerea caracteristicilor în funcție de care se va face clasificarea;
• alegerea tipului de măsură pentru evaluarea proximității dintre obiecte;
• stabilirea regulilor de formare a claselor sau clusterelor;
• construirea claselor, adică încadrarea obiectelor în clase;
• verificarea consistenței și semnificației clasificării;
• alegerea unui număr optimal de clustere, în funcție de natura problemei de clasificare și de

scopurile urmărite;
• interpretarea semnificației clusterelor

Noţiuni introductive
Caracterizarea indivizilor
• În Rp poate fi definită funcţia d, distanţă pe X cu proprietăţile:
1. d(x,y) = d(y,x)  x, y  X
2. d(x,y)  0,  x, y  X
d(x,y) = 0  x = y
3. d(x,y)  d(x,z) + d(z,y),  x, y, z  X
Distanța euclidiană
Y
Este sensibilă la scala de măsurare

Y2
Y2-Y1
Scalele mari vor domina măsura
Y1
X2-X1
Standardizați datele
X1 X2 X
D = ( X 2 − X 1) 2 + (Y 2 − Y 1) 2
Tipuri de distanţe:
• distanţa euclidiană: d ( x, y ) =  (x
i
i − yi ) 2
• este distanța „obișnuită” între două puncte, dată în coordonate carteziene de formula lui Pitagora.
• pătratul distanţei euclidiene: d ( x, y ) =  (x

i
i − yi ) 2
• este folosita atunci când dorim să acordăm o importanță sporită punctelor depărtate
• distanţa city-block (Manhattan): d ( x, y ) = x i − yi

• Este distanța dintre două puncte parcursă ca atuncii când trebuie să mergi pe străzile care ocolesc clădirile în loc să
mergi în linie dreaptă
• distanţa Cebîşev: d ( x, y ) = max xi − y i

i
• Este distanța dintre două puncte parcursă ca un rege pe tabla de sah
• Indicele de similaritate pe X este o funcţie s : X  X → R+
cu proprietăţile:
1. s(x,y) = s(y,x)  x, y  X
2. s(x,y)  0,  x, y  X
3. s(x,x)  s(x,y),  x, y  X , adică nu există un individ mai asemănător ca el însuşi.
• Indicele de disimilaritate pe X este o funcţie d : X  X → R+ cu proprietăţile:

1. d(x,y) = d(y,x)  x, y  X
2. d(x,y)  0,  x, y  X
3. d(x,x) = 0,  x  X
• O situaţie frecvent întâlnită este cea în care datele sunt prezentate în forma următoare: cei n indivizi sunt descrişi prin
prezenţa sau absenţa a r caracteristici (datele iniţiale sunt sub formă binară, variabilele sunt dichotomice). În această
situaţie, fiecare cuplu de indivizi (x,y) este caracterizat de 4 numere:
• a = numărul de caracteristici comune (pe care le posedă ambii indivizi);
• b = numărul de caracteristici posedate de primul individ din cuplu, dar nu şi de cel de-al doilea;
• c = numărul de caracteristici posedate de cel de-al doilea individ, dar nu şi de primul.
• d = numărul de caracteristici ce nu sunt posedate nici de unul, nici de celălalt individ.
• Pe baza acestor patru numere se construieşte tabelul de similaritate sau prin completare în raport cu 1, cel de
disimilaritate, utilizând diferiţi indici, ca de exemplu:
a
• indicele Jaccard:
a+b+c
2a
• indicele Czekanowski:
2a + b + c
a
• indicele Ochicii:
(a + b)(a + c)
a
• indicele Russel şi Rao:
a+b+c+d
Metode de clusterizare
METODE IERARHICE
• Fie E o mulţime.
• HP(E) se numeşte ierarhie dacă şi numai dacă:
• 1. PiP(E) aî card(Pi)=1  E şi Pi  H
• 2. A,BH  AB  A,B,
• 3. AH ,A=  Ci | Ci≠A , Ci  H Nivel
a b c d e
• Exemplu: E=a,b,c,d,e
H = , a,b c d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d,e
a,b,c,d,e
a,b,c,d,e
METODE IERARHICE
• O ierarhie se numeşte indexată dacă există o funcţie i:H→R+ astfel

încât :
• A,BH astfel încât AB  i(A)i(B)
• i(A) = nivelul pentru care pentru prima oară se găsesc agregate toate
elementele lui A
• Observaţie: Cu cât nivelul de agregare este mai mare cu atât

mulţimea este mai eterogenă
METODE IERARHICE
?
Cum definim distanța dintre
clusteri??
Preluat de pe: www.statapp.co.uk

METODE IERARHICE
Măsurarea distanței dintre clusteri
Cel mai apropiat vecin=Single Linkage

METODE IERARHICE
Cel mai departat vecin=Complete Linkage

METODE IERARHICE
Media gupului=average distance between all pairs

METODE IERARHICE
Metoda Ward – Minimizează variabilitatea din interiorul clusterului

METODE IERARHICE
• Metoda WARD: când pe spaţiul ERp este definită o distanţă euclidiană
• calitatea unei partiţii este definită prin inerţia intraclase sau cea interclase
• o partiţie bună are inerţia interclase mare sau inerţia intraclase mică
• când se trece de la o partiţie cu k+1 clase la una cu k clase, se observă că inerţia
interclase scade, pentru că cea intraclase creşte prin creşterea heterogenităţii claselor
partiţiei
• Criteriul de grupare: vor fuziona acele două clase pentru care pierderea de inerţie
interclase este minimă
• Metoda WARD introduce ca distanţă între 2 clase pierderea de inerţie interclase ce s-
ar obţine prin contopirea celor două clase.
METODE IERARHICE
• 1. Dacă:
• A şi B sunt două clase ale unei partiţii a mulţimii E
• gA şi gB sunt centrele lor de greutate
• pA şi pB sunt ponderile claselor
atunci centrul de greutate al mulţimii AB, gAB este : p A g A + pB g B
g AB =
p A + pB
p A pB 2
• 2. Distanţa dintre două clase după metoda WARD este:  ( A, B) = d (g A, gB )
p A + pB
• 3. Partiţia generată de algoritmul WARD este o partiţie ierarhică.

• 4. Algoritmul WARD generează o ierarhie indexată cu i(AB)= (A,B).

Analiza Cluster

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analiza Cluster

Încărcat de

Drepturi de autor:

Formate disponibile

Analiza statistică multidimensională

Titular de curs: Prof.univ.dr.Cristina BOBOC

• în anul 1933 a fost integrată statisticii matematice de către Harold Hotelling

1. Datele și caracteristicile lor:

vizualizarea punctelor regruparea punctelor

1. Datele și caracteristicile lor:

fiind coeficientul de corelație liniară

• Două tipuri de metode de clusterizare:

Etapele analizei cluster

• alegerea tipului de măsură pentru evaluarea proximității dintre obiecte;

• stabilirea regulilor de formare a claselor sau clusterelor;

• construirea claselor, adică încadrarea obiectelor în clase;

• verificarea consistenței și semnificației clasificării;

• alegerea unui număr optimal de clustere, în funcție de natura problemei de clasificare și de

• interpretarea semnificației clusterelor

• În Rp poate fi definită funcţia d, distanţă pe X cu proprietăţile:

Este sensibilă la scala de măsurare

• pătratul distanţei euclidiene: d ( x, y ) =  (x

• distanţa city-block (Manhattan): d ( x, y ) = x i − yi

• distanţa Cebîşev: d ( x, y ) = max xi − y i

• Indicele de disimilaritate pe X este o funcţie d : X  X → R+ cu proprietăţile:

• O ierarhie se numeşte indexată dacă există o funcţie i:H→R+ astfel

• Observaţie: Cu cât nivelul de agregare este mai mare cu atât

Preluat de pe: www.statapp.co.uk

Cel mai apropiat vecin=Single Linkage

Cel mai departat vecin=Complete Linkage

Media gupului=average distance between all pairs

Metoda Ward – Minimizează variabilitatea din interiorul clusterului

Preluat de pe: www.statapp.co.uk

• 3. Partiţia generată de algoritmul WARD este o partiţie ierarhică.

S-ar putea să vă placă și