Documente Academic
Documente Profesional
Documente Cultură
Prin analiza cluster se urmărește, în interiorul unor mulțimi de obiecte sau forme,
identifi carea de clase, grupe sau clustere cu elementele cât mai asemănătoare în interiorul
aceleiași clase (variabilitate minimă în interiorul claselor) și cât mai deosebite între ele dacă
aceste elemente aparțin unor clase diferite (variabilitate maximă între clase). Rezultă că,
analiza cluster permite examinarea similarităților și disimilarităților dintre obiectele
aparținând unei anumite mulțimi, în scopul grupării acestora sub forma unor clase distincte
între ele și omogene în interior. Fiecare obiect din mulțimea analizată este atribuit unei
singure clase, iar mulțimea claselor este o mulțime discretă și neordonabilă. Clasele sau
grupele sub forma cărora se structurează mulțimile de obiecte se numesc clustere.
Analiza cluster presupune fixarea formelor sau obiectelor în clustere sau grupe în mod
progresiv, fără cunoașterea apriorică a numărului de clase și cu respectarea a două criterii
fundamentale: a) Fiecare clasă să fi e cât mai omogenă, adică să conțină obiecte sau forme cât
mai similare în raport cu caracteristicile luate în considerare pentru clasificarea obiectelor; b)
Fiecare clasă trebuie să conțină obiecte clasificate care să difere cât mai mult, din punct de
vedere al caracteristicilor de clasificare, de obiectele clasificate în oricare din celelalte clase.
În funcție de caracteristicile procedurilor utilizate, de ipotezele inițiale și de natura rezultatelor
obținute, metodele de clusterizare ierarhică se împart în clusterizare prin:
• Agregare
• Divizare.
Proceduri specifice cunoscute în acest caz, sunt: metoda agregării simple, metoda agregării
complexe, metoda agregării medii, metoda lui Ward. În cazul analizei unor cantități mari de
date, caracterizate printr-un grad ridicat de eterogenitate, sistemele de recunoaștere
necontrolată se utilizează mai mult în scopuri de sistematizare, grupare și sintetizare
informațională. Întrucât aceste tehnici, care se bazează pe utilizarea conceptului de distanță,
sunt utile și eficiente în activitatea de analiză preliminară a datelor, permit organizarea mai
eficientă a datelor eterogene, precum și regăsirea și interpretarea mai ușoară și mai consistentă
a informațiilor în cadrul unor date astfel structurate.
1
Figura 21:Matricea distantelor - Date standardizate (1)
2
Figura 24 -Matricea distantelor -Componente principale(1)
3
Figura 27 -Matricea distantelor -Componente principale(4)
Distanța Ward dintre două clustere măsoară variabilitatea intracluster cumulată, indusă de
comasarea a două clustere, la nivelul configurației cluster rezultate. Prin comasarea a două clustere
se urmărește obținerea unei omogenități maxime la nivelul tuturor clusterelor care aparțin unei
configurații date a obiectelor pe clustere. Rezultă că distanța Ward este singura care ia în calcul
minimizarea variabilității intracluster sau, cu alte cuvinte, maximizarea variabilității intercluster, adică
a gradului de omogenitate a clusterelor. Trebuie precizat că, gradul de omogenitate a unui cluster se
maximizează prin minimizarea sumei totale a pătratelor abaterilor intracluster.
Distanțele apar sub forma unei matrici simetrice, în care elementul (i,j) arată distanța dintre
modelul i și modelul j. Evident că elementele ce compun diagonala principală sunt egale cu
0, ele reprezentând distanțe între obiecte pentru care i=j. Matricea este simetrică:
d(i,j)=d(j,i). Astfel, distanța dintre modelul 1 și modelul 2 este de 2.36 .
Prin această metodă, se formează clustere, astfel încât la fiecare pas, atribuirea unui obiect la
un cluster minimizează varianța din interiorul clusterului.
4
Figura 29: Numar clase - Componente principale
5
Figura 31 : Dendrograma Ward – compoenente principale
Pe abscisa sunt reprezentate clusterele initiale , iar pe ordonata este reprezentata distanta de
agregare .
Acest grafic poate fi foarte folositor, sugerând vizual unde ar trebui să se întrerupă natural procesul
de clusterizare. Pe măsură ce se înaintează către dreapta, distanța dintre obiecte crește (lungimea
segmentelor de dreaptă devine mai mare), se formează clustere mai mari, iar varianța intra-cluster
este mai mare. În primă fază se observă o evoluție mai lentă. Urmează creșteri mai însemnate ale
distanțelor, ultimile 2 etape constând în alipirea unor obiecte ce au distanțe mai mari. Dacă distanța
dintre obiectele comasate la primul pas este de 2,36, distanța dintre obiectele comasate la ultimul
pas este de 6.53, adică de 3 ori mai mare . Deoarece distanța de amalgamare de la pasul i este mai
mare decât distanța de amalgamare de la pasul i-1 (oricare ar fi i), putem spune despre metoda
aleasă că îndeplinește condiția de monotonicitate și este ultrametrică. Distanța poate fi un criteriu
optim în stabilirea numărului de clustere ce urmează a fi reținute. Formarea a 3 clustere naturale
reiese și din figura unde este prezentat arborele ierarhic.
6
Figura 32- Reprezentarea grafica a numarului de clustere date standardizate
7
Pentru un obiect i dintr-un cluster , S(I) este silueta lui . Aceasta poate fi silueta unui obiect ,
silueta medie a unui cluster sau silueta globala a unei structuri de clustere . In acest fel se
evidentiaza cat de bine este separat un cluster de vecinii sai , cat de apropiat este un element
dintr-un cluster de elemente aceluias cluster , mai exact distanta intracluster sau cat de
departat este de celelalte clustere ,adica distanta intercluster .
8
Metoda Centroid
9
La această metodă distanţa dintre două clase este dată de distanţa simplă între două elemente
reprezentative ale clusterelor numite centroizi. Centroizii doar în unele cazuri pot coincide cu un
obiect central real din interiorul unei clase, în rest fiind nişte obiecte abstracte, ce au ca valori ale
caracteristicilor mediile fiecărei variabile pentru toate obiectele din clasa respectivă.
Pentru calcularea distanţelor după metoda centroizilor nu mai este necesară matricea proximităţilor
între perechile de obiecte din clasele respective, ci doar calculul centroizilor din fiecare clasă. Metoda
centroidului este considerată una foarte robustă şi este folosită îndeosebi la algoritmii de
partiţionare.
Inițializare – Se selectează aleator K centre din lista punctelor de intrare. Fie 𝑟𝑘 o variabilă aleatoare,
întreagă şi uniform distribuită în intervalul [1,n], atunci centrele inițiale sunt selectate ca: 𝑚𝑘 = 𝑥𝑟𝑘
Atribuire – Fiecare punct din lista de intrare este asociat cu centrul cel mai apropiat. Funcţia de
apartenență va lua valoarea indexului celui mai apropiat centru: 𝐿(𝑖) = 𝑎𝑟𝑔𝑚𝑖𝑛𝑘𝑑𝑖𝑠𝑡(𝑥𝑖 , 𝑚𝑘)
Actualizare – Se recalculează centrele grupurilor pe baza funcției de apartenență. Noile centre ale
grupurilor sunt calculate ca media punctelor din acel grup. În formula următoare se însumează toate
punctele care aparțin grupului k, adică au funcția de apartenență 𝐿(𝑖) = 𝑘. 𝑚𝑘 = ∑𝐿(𝑖)=𝑘 𝑥𝑖 ∑𝐿(𝑖)=𝑘 1 =
∑𝑥∈𝑆 𝑥𝑘 |𝑆𝑘 |
Condiția de terminare – Dacă nu apare nici o schimbare în funcția de apartenență, atunci algoritmul
poate fi oprit deoarece calculele viitoare nu vor produce nici o schimbare în valorile centrelor. De
asemenea, se poate limita numărul maxim de iterații ale algoritmului. Dacă nici una din condițiile de
mai sus nu este îndeplinită, atunci algoritmul continuă cu pasul de atribuire.
10
Figura 37– Clase de apartenenta si date standardizate
11
Figura 38-Reprezentarea claselor a datelor standardizate
In graficul din figura 36 avem reprezentata legatura dintre variabilele pret si consum de
carburant . Aceasta legatura se descrie prin cele 4 clase analizate :
Prima clasa (rosu ) observam ca este concentrata in partea din stanga jos , ceea ce inseamna ca
o masina cu consum mic se poate achiziona la un pret mic .
A doua clasa (albastru) observam ca este imprastiata , are valori ce variaza , nu o putem
caraceriza ca pe o clasa omogena , dar observam ca valoriei ei variaza in jurul mediei .
Clasa a treia este repezentata de culoarea negru , unde observam ca se incadreaza doar 3
observatii . Concluzionam ca este o clasa omogena , cu valori similare , medii , o masina cu
un consum mediu se poate achizitiona la un pret de piata mediu .
A patra clasa (verde ) o caracterizam ca o clasa eterogena , putem spune ca o masina cu
consum mic o putem achiziona la un pret mic , dar si ca o masina cu consum mic se poate
achizitiona la un pret ridicat(depinde de celelate caraceristici)
12
Figura 39-Clasa de apartenenta si componentele principale
13
Legatura dintre z1 - pretul ai z2- raportul greutate/putere descrie 4 clase omogene , grupate ,
cu date asemanatoare .
Prin calculul statisticii R la nivelul modelului ce include componentele principale incluse in analiza
s- a obtinut rezultatul ce arata respectarea principiilor criteriului general al clasificarii .
14
Analiza discriminanta
Discriminatorul Bayes
Principala problema care trebuie rezolvata in cadrul analizei discriminate este aceea
a construirii criteriilor sau regulilor de clasificare, pe baza carora se pot face predictii privind
apartenenta unor forme noi, cu apartenenta initiala necunoscuta. Criteriile de clasificare mai
sunt cunoscute si sub numele de clasificatori, iar deducerea acestor criterii se numeste formare
a clasificatorului.
Clasificatorul este un algoritm cu ajutorul caruia se stabileste apartenenta cea mai
probabila a unei forme la o anumita clasa de predictie. Formarea clasificatorului se face pe
baza informatiilor continute intr-un esantion de forme a caror apartenenta este cunoscuta
aprioric si care se numeste set de formare.
Figura 41-Oulieri
15
Figura 42- Graficele densitatilor
Linia albastra este densitatea de probabilitate a fiecarui z in fiecare clasa.
Linia rosia densitatea unei distributii normale cu acelasi numar de obs ca a clasei respective,
aceeasi medie si aceeasi abatere.
Prin comparatia liniilor vedem cat de aproape sau cat de departe sunt scorurile din clasa
noastra de distributia normala.
16
Analiza discriminanta liniara (LDA)
17
Figura 45- Scoruri discriminante
18
Pentru scoruri
Figura 49-Clasele
19
Figura 50-Probabilitatea de apartenenta la o clasa
20
Figura 52-Gradul de acuratete
21
Concluzii
Cercetatorul în analiza datelor are ca sarcina sa extraga din acest tabel de date
cat mai multa „informatie semnificativa” si s-o prezinte intr-o forma cat mai
restransa. Odată acest deziderat realizat, orice decizie viitoare privind
comportamentul populatiei studiate poate fi explicata prin argumente stiintifice.
22