Documente Academic
Documente Profesional
Documente Cultură
Analiza Cluster
Curs 2 - Octombrie 2023
Noțiuni introductive
analiză factorială
Analiza statistică multidimensională
• prima referinţă la medotele de analiză factorială a făcut-o în anul 1901 Karl Pearson
• În ceea ce privește metodele și tehnicile de analiză de tip cluster: primele lucrări datează din 1963
Sokal și Sneath și în 1967 Lance și Williams. Preocupările au crescut exponențial și s-au
diversificat foarte mult.
• Au existat două școli: franceză și americană. Benzecri, Jambu, Lebart, Morineau, Saporta sunt
printrei cei mai cunoscuți autori francezi.
• a început să fie utilizată efectiv după dezvoltarea metodelor actuale de calcul cu ajutorul
calculatoarelor
Analiza statistică multidimensională
Configurarea norului
de punte în spaţiu
Utilizatorii metodelor
factoriale pleacă de la un
Vectorul linie vector coloană
tablou de măsuri, pe coloane
figurând variabilele numerice
continue, liniile fiind indivizii ei
pentru care sunt măsurate
variabilele xj
n puncte în Rp p puncte în Rn
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea ponderilor; Centrul de greutate
Analiza statistică multidimensională
1. Datele si caracteristicile lor:
Matricea dispersie covarianță
Analiza statistică multidimensională
Analiza statistică multidimensională
Analiza statistică multidimensională
2. Spațiul indivizilor
• Fiecare individ este un punct definit prin p coordonate, element al unui spaţiu vectorial FRp denumit
spaţiul indivizilor.
• Mulţimea de n indivizi este atunci un nor de puncte în F şi g este centrul de greutate al norului
• Metrica folosită pentru definirea distanţei dintre doi indivizi este M = D1/s2 unde D1/s 2 este matricea
diagonală a inverselor dispersiilor
• Inerția totală a norului de puncte este media ponderată a pătratelor distanțelor punctelor față de
centrul de greutate
Analiza statistică multidimensională
3. Spațiul variabilelor
• Fiecare variabilă xj este o listă de n valori numerice. Ea va fi considerată ca un vector xj al unui spaţiu ERn numit spaţiul variabilelor.
• Pentru a studia deosebirile dintre variabile este folosită metrica D, matricea ponderilor.
p1 0
n
p2
D=
pi = 1
i=1
0 pn
• Produsul scalar a două variabile xj și xk este:
care este covarianța sjk dintre cele două variabile, dacă acestea sunt centrate
• Observație: Lungimea unei variabile centrate este egală cu abaterea sa medie pătratică
• Unghiul dintre două variabile centrate este:
Analiza Cluster
• Analiza cluster poate fi definită ca reprezentând o mulțime de principii, metode și algoritmi de
clasificare, având ca scop organizarea datelor sub forma unor structuri informaționale semnificative,
relevante
• Analiza cluster are ca scop căutarea și identificarea de clase, grupe sau clustere în cadrul unor
mulțimi de obiecte sau forme, astfel încât elementele care aparțin aceleiași clase să fie cât mai
asemănătoare, iar elementele care aparțin la clase diferite să fie cât mai deosebite între ele.
• Observație: Analiza cluster poate fi utilizată atât pentru clasificarea obiectelor, cât și pentru
clasificarea variabilelor care definesc obiectele.
Noţiuni introductive
Caracterizarea indivizilor
1. d(x,y) = d(y,x) x, y X
2. d(x,y) 0, x, y X
d(x,y) = 0 x = y
3. d(x,y) d(x,z) + d(z,y), x, y, z X
Analiza statistică multidimensională
Distanța euclidiană
Y
Y2-Y1
Scalele mari vor domina măsura
Y1
X2-X1
Standardizați datele
X1 X2 X
D = ( X 2 − X 1) 2 + (Y 2 − Y 1) 2
Analiza statistică multidimensională
Noţiuni introductive
Caracterizarea indivizilor
Tipuri de distanţe:
• distanţa euclidiană: d ( x, y ) = (x
i
i − yi ) 2
• este distanța „obișnuită” între două puncte, dată în coordonate carteziene de formula lui Pitagora.
1. s(x,y) = s(y,x) x, y X
2. s(x,y) 0, x, y X
3. s(x,x) s(x,y), x, y X , adică nu există un individ mai asemănător ca el însuşi.
• Pe baza acestor patru numere se construieşte tabelul de similaritate sau prin completare în raport cu 1, cel de
disimilaritate, utilizând diferiţi indici, ca de exemplu:
a
• indicele Jaccard:
a+b+c
2a
• indicele Czekanowski:
2a + b + c
a
• indicele Ochicii:
(a + b)(a + c)
a
• indicele Russel şi Rao:
a+b+c+d
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
• Fie E o mulţime.
• HP(E) se numeşte ierarhie dacă şi numai dacă:
• 1. PiP(E) aî card(Pi)=1 E şi Pi H
• 2. A,BH AB A,B,
• 3. AH ,A= Ci | Ci≠A , Ci H Nivel
a b c d e
• Exemplu: E=a,b,c,d,e
H = , a,b c d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d e
a,b,c,d,e,
a,b,c,d,e, a,b c,d,e
a,b,c,d,e
a,b,c,d,e
Analiza statistică multidimensională
Metode de clusterizare
METODE IERARHICE
?
Cum definim distanța dintre
clusteri??
p A pB 2
• 2. Distanţa dintre două clase după metoda WARD este: ( A, B) = d (g A, gB )
p A + pB