Sunteți pe pagina 1din 27

Analiza statistică multidimensională

Analiza Cluster
Curs 2 - Octombrie 2023

Titular de curs: Prof.univ.dr.Cristina BOBOC


Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
Analiza statistică multidimensională

Noțiuni introductive
analiză factorială
Analiza statistică multidimensională

• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson

• în anul 1933 a fost integrată statisticii matematice de către Harold Hotelling

• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.

• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.

• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
Analiza statistică multidimensională

1. Datele și caracteristicile lor:

Configurarea norului
de punte în spaţiu

vizualizarea punctelor regruparea punctelor


în cel mai bun spaţiu în spaţiu
redus (ACP, ACM) (metode de clusterizare)
Analiza statistică multidimensională

1. Datele și caracteristicile lor:


Tabelul de date valoarea variabilei j
pentru individul i

Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj

n puncte în Rp p puncte în Rn
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza statistică multidimensională

2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.

• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului

• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor

• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
Analiza statistică multidimensională

3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.

p1 0
  n
 p2 
D=
 
 pi = 1
 i=1
 
0 pn 
• Produsul scalar a două variabile xj și xk este:

care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate

• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:

fiind coeficientul de corelație liniară


Analiza statistică multidimensională

Analiza Cluster
• Analiza cluster poate fi definită ca reprezentând o mulțime de principii, metode și algoritmi de
clasificare, având ca scop organizarea datelor sub forma unor structuri informaționale semnificative,
relevante

• Analiza cluster are ca scop căutarea și identificarea de clase, grupe sau clustere în cadrul unor
mulțimi de obiecte sau forme, astfel încât elementele care aparțin aceleiași clase să fie cât mai
asemănătoare, iar elementele care aparțin la clase diferite să fie cât mai deosebite între ele.

• Observație: Analiza cluster poate fi utilizată atât pentru clasificarea obiectelor, cât și pentru
clasificarea variabilelor care definesc obiectele.

• Două tipuri de metode de clusterizare:


• metode ierarhice, care produc şiruri de partiţii în clase din ce în ce mai mari
• metode neierarhice, care produc o partiţie într-un număr prestabilit de clase
Analiza statistică multidimensională

Etapele analizei cluster


• alegerea caracteristicilor în funcție de care se va face clasificarea;

• alegerea tipului de măsură pentru evaluarea proximității dintre obiecte;

• stabilirea regulilor de formare a claselor sau clusterelor;

• construirea claselor, adică încadrarea obiectelor în clase;

• verificarea consistenței și semnificației clasificării;

• alegerea unui număr optimal de clustere, în funcție de natura problemei de clasificare și de


scopurile urmărite;

• interpretarea semnificației clusterelor


Analiza statistică multidimensională

Noţiuni introductive
Caracterizarea indivizilor

• În Rp poate fi definită funcţia d, distanţă pe X cu proprietăţile:

1. d(x,y) = d(y,x)  x, y  X
2. d(x,y)  0,  x, y  X
d(x,y) = 0  x = y
3. d(x,y)  d(x,z) + d(z,y),  x, y, z  X
Analiza statistică multidimensională

Distanța euclidiană
Y

Este sensibilă la scala de măsurare


Y2

Y2-Y1
Scalele mari vor domina măsura
Y1

X2-X1
Standardizați datele
X1 X2 X

D = ( X 2 − X 1) 2 + (Y 2 − Y 1) 2
Analiza statistică multidimensională
Noţiuni introductive
Caracterizarea indivizilor
Tipuri de distanţe:
• distanţa euclidiană: d ( x, y ) =  (x
i
i − yi ) 2

• este distanța „obișnuită” între două puncte, dată în coordonate carteziene de formula lui Pitagora.

• pătratul distanţei euclidiene: d ( x, y ) =  (x


i
i − yi ) 2
• este folosita atunci când dorim să acordăm o importanță sporită punctelor depărtate

• distanţa city-block (Manhattan): d ( x, y ) = x i − yi


• Este distanța dintre două puncte parcursă ca atuncii când trebuie să mergi pe străzile care ocolesc clădirile în loc să
mergi în linie dreaptă

• distanţa Cebîşev: d ( x, y ) = max xi − y i


i
• Este distanța dintre două puncte parcursă ca un rege pe tabla de sah
Analiza statistică multidimensională
Noţiuni introductive
Caracterizarea indivizilor
• Indicele de similaritate pe X este o funcţie s : X  X → R+
cu proprietăţile:

1. s(x,y) = s(y,x)  x, y  X
2. s(x,y)  0,  x, y  X
3. s(x,x)  s(x,y),  x, y  X , adică nu există un individ mai asemănător ca el însuşi.

• Indicele de disimilaritate pe X este o funcţie d : X  X → R+ cu proprietăţile:


1. d(x,y) = d(y,x)  x, y  X
2. d(x,y)  0,  x, y  X
3. d(x,x) = 0,  x  X
Analiza statistică multidimensională
Noţiuni introductive
Caracterizarea indivizilor
• O situaţie frecvent întâlnită este cea în care datele sunt prezentate în forma următoare: cei n indivizi sunt descrişi prin
prezenţa sau absenţa a r caracteristici (datele iniţiale sunt sub formă binară, variabilele sunt dichotomice). În această
situaţie, fiecare cuplu de indivizi (x,y) este caracterizat de 4 numere:
• a = numărul de caracteristici comune (pe care le posedă ambii indivizi);
• b = numărul de caracteristici posedate de primul individ din cuplu, dar nu şi de cel de-al doilea;
• c = numărul de caracteristici posedate de cel de-al doilea individ, dar nu şi de primul.
• d = numărul de caracteristici ce nu sunt posedate nici de unul, nici de celălalt individ.

• Pe baza acestor patru numere se construieşte tabelul de similaritate sau prin completare în raport cu 1, cel de
disimilaritate, utilizând diferiţi indici, ca de exemplu:
a
• indicele Jaccard:
a+b+c
2a
• indicele Czekanowski:
2a + b + c
a
• indicele Ochicii:
(a + b)(a + c)
a
• indicele Russel şi Rao:
a+b+c+d
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
• Fie E o mulţime.
• HP(E) se numeşte ierarhie dacă şi numai dacă:
• 1. PiP(E) aî card(Pi)=1  E şi Pi  H
• 2. A,BH  AB  A,B,
• 3. AH ,A=  Ci | Ci≠A , Ci  H Nivel
a b c d e
• Exemplu: E=a,b,c,d,e
H = , a,b c d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d,e
a,b,c,d,e
a,b,c,d,e
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE

• O ierarhie se numeşte indexată dacă există o funcţie i:H→R+ astfel


încât :
• A,BH astfel încât AB  i(A)i(B)
• i(A) = nivelul pentru care pentru prima oară se găsesc agregate toate
elementele lui A

• Observaţie: Cu cât nivelul de agregare este mai mare cu atât


mulţimea este mai eterogenă
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE

?
Cum definim distanța dintre
clusteri??

Preluat de pe: www.statapp.co.uk


Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
Măsurarea distanței dintre clusteri

Cel mai apropiat vecin=Single Linkage


Preluat de pe: www.statapp.co.uk
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
Măsurarea distanței dintre clusteri

Cel mai departat vecin=Complete Linkage


Preluat de pe: www.statapp.co.uk
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
Măsurarea distanței dintre clusteri

Media gupului=average distance between all pairs


Preluat de pe: www.statapp.co.uk
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
Măsurarea distanței dintre clusteri

Metoda Ward – Minimizează variabilitatea din interiorul clusterului

Preluat de pe: www.statapp.co.uk


Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
• Metoda WARD: când pe spaţiul ERp este definită o distanţă euclidiană
• calitatea unei partiţii este definită prin inerţia intraclase sau cea interclase
• o partiţie bună are inerţia interclase mare sau inerţia intraclase mică
• când se trece de la o partiţie cu k+1 clase la una cu k clase, se observă că inerţia
interclase scade, pentru că cea intraclase creşte prin creşterea heterogenităţii claselor
partiţiei
• Criteriul de grupare: vor fuziona acele două clase pentru care pierderea de inerţie
interclase este minimă
• Metoda WARD introduce ca distanţă între 2 clase pierderea de inerţie interclase ce s-
ar obţine prin contopirea celor două clase.
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
• 1. Dacă:
• A şi B sunt două clase ale unei partiţii a mulţimii E
• gA şi gB sunt centrele lor de greutate
• pA şi pB sunt ponderile claselor
atunci centrul de greutate al mulţimii AB, gAB este : p A g A + pB g B
g AB =
p A + pB

p A pB 2
• 2. Distanţa dintre două clase după metoda WARD este:  ( A, B) = d (g A, gB )
p A + pB

• 3. Partiţia generată de algoritmul WARD este o partiţie ierarhică.


• 4. Algoritmul WARD generează o ierarhie indexată cu i(AB)= (A,B).

S-ar putea să vă placă și