Sunteți pe pagina 1din 22

Analiza Cluster

Prin analiza cluster se urmărește, în interiorul unor mulțimi de obiecte sau forme,
identifi carea de clase, grupe sau clustere cu elementele cât mai asemănătoare în interiorul
aceleiași clase (variabilitate minimă în interiorul claselor) și cât mai deosebite între ele dacă
aceste elemente aparțin unor clase diferite (variabilitate maximă între clase). Rezultă că,
analiza cluster permite examinarea similarităților și disimilarităților dintre obiectele
aparținând unei anumite mulțimi, în scopul grupării acestora sub forma unor clase distincte
între ele și omogene în interior. Fiecare obiect din mulțimea analizată este atribuit unei
singure clase, iar mulțimea claselor este o mulțime discretă și neordonabilă. Clasele sau
grupele sub forma cărora se structurează mulțimile de obiecte se numesc clustere.

Clusterizarea ierarhica este considerata a fi un sistem de recunoaștere necontrolată, deoarece


procesul clasificării pornește fără existența unor informații cu privire la numărul de clase și la
apartenența formelor la aceste clase. În acest caz, clasele se construiesc pe măsura creșterii
numărului de forme analizate, numărul de clase posibile determinându-se la finalul procesului
de recunoaștere. Unii algoritmi de clasificare necontrolată, cum ar fi algoritmii de partiționare,
presupun fixarea apriorică a numărului de clase în care vor fi împărțite obiectele analizate.
Acest lucru nu înseamnă că în mod real este cunoscut numărul de clase, ci doar se face o
presupunere cu privire la acest număr. Sistemele de recunoaștere necontrolată a formelor
utilizează principii, metode, proceduri și tehnici, cunoscute în literatura de specialitate sub
denumirea de tehnici de clasificare, clasificare nesupervizată sau analiză cluster.

Analiza cluster presupune fixarea formelor sau obiectelor în clustere sau grupe în mod
progresiv, fără cunoașterea apriorică a numărului de clase și cu respectarea a două criterii
fundamentale: a) Fiecare clasă să fi e cât mai omogenă, adică să conțină obiecte sau forme cât
mai similare în raport cu caracteristicile luate în considerare pentru clasificarea obiectelor; b)
Fiecare clasă trebuie să conțină obiecte clasificate care să difere cât mai mult, din punct de
vedere al caracteristicilor de clasificare, de obiectele clasificate în oricare din celelalte clase.
În funcție de caracteristicile procedurilor utilizate, de ipotezele inițiale și de natura rezultatelor
obținute, metodele de clusterizare ierarhică se împart în clusterizare prin:
• Agregare
• Divizare.
Proceduri specifice cunoscute în acest caz, sunt: metoda agregării simple, metoda agregării
complexe, metoda agregării medii, metoda lui Ward. În cazul analizei unor cantități mari de
date, caracterizate printr-un grad ridicat de eterogenitate, sistemele de recunoaștere
necontrolată se utilizează mai mult în scopuri de sistematizare, grupare și sintetizare
informațională. Întrucât aceste tehnici, care se bazează pe utilizarea conceptului de distanță,
sunt utile și eficiente în activitatea de analiză preliminară a datelor, permit organizarea mai
eficientă a datelor eterogene, precum și regăsirea și interpretarea mai ușoară și mai consistentă
a informațiilor în cadrul unor date astfel structurate.

1
Figura 21:Matricea distantelor - Date standardizate (1)

Figura 22:Matricea distantelor - Date standardizate (2)

Figura 23 : Matricea distantelor - Date standardizate (3)

2
Figura 24 -Matricea distantelor -Componente principale(1)

Figura 25 -Matricea distantelor -Componente principale(2)

Figura 26 -Matricea distantelor -Componente principale(3)

3
Figura 27 -Matricea distantelor -Componente principale(4)

Distanța Ward dintre două clustere măsoară variabilitatea intracluster cumulată, indusă de
comasarea a două clustere, la nivelul configurației cluster rezultate. Prin comasarea a două clustere
se urmărește obținerea unei omogenități maxime la nivelul tuturor clusterelor care aparțin unei
configurații date a obiectelor pe clustere. Rezultă că distanța Ward este singura care ia în calcul
minimizarea variabilității intracluster sau, cu alte cuvinte, maximizarea variabilității intercluster, adică
a gradului de omogenitate a clusterelor. Trebuie precizat că, gradul de omogenitate a unui cluster se
maximizează prin minimizarea sumei totale a pătratelor abaterilor intracluster.

Distanțele apar sub forma unei matrici simetrice, în care elementul (i,j) arată distanța dintre
modelul i și modelul j. Evident că elementele ce compun diagonala principală sunt egale cu
0, ele reprezentând distanțe între obiecte pentru care i=j. Matricea este simetrică:
d(i,j)=d(j,i). Astfel, distanța dintre modelul 1 și modelul 2 este de 2.36 .
Prin această metodă, se formează clustere, astfel încât la fiecare pas, atribuirea unui obiect la
un cluster minimizează varianța din interiorul clusterului.

Figura 28: Numar clase -Date standardizate

Observam din output ca pentru datele standardizate avem 4 clase .

4
Figura 29: Numar clase - Componente principale

Observam din output ca pentru componentele principale avem 2 clase .

Figura 30 : Dendrograma Ward – Date standardizate

5
Figura 31 : Dendrograma Ward – compoenente principale

Pe abscisa sunt reprezentate clusterele initiale , iar pe ordonata este reprezentata distanta de
agregare .
Acest grafic poate fi foarte folositor, sugerând vizual unde ar trebui să se întrerupă natural procesul
de clusterizare. Pe măsură ce se înaintează către dreapta, distanța dintre obiecte crește (lungimea
segmentelor de dreaptă devine mai mare), se formează clustere mai mari, iar varianța intra-cluster
este mai mare. În primă fază se observă o evoluție mai lentă. Urmează creșteri mai însemnate ale
distanțelor, ultimile 2 etape constând în alipirea unor obiecte ce au distanțe mai mari. Dacă distanța
dintre obiectele comasate la primul pas este de 2,36, distanța dintre obiectele comasate la ultimul
pas este de 6.53, adică de 3 ori mai mare . Deoarece distanța de amalgamare de la pasul i este mai
mare decât distanța de amalgamare de la pasul i-1 (oricare ar fi i), putem spune despre metoda
aleasă că îndeplinește condiția de monotonicitate și este ultrametrică. Distanța poate fi un criteriu
optim în stabilirea numărului de clustere ce urmează a fi reținute. Formarea a 3 clustere naturale
reiese și din figura unde este prezentat arborele ierarhic.

6
Figura 32- Reprezentarea grafica a numarului de clustere date standardizate

Din acest grafic putem observa numarul de clustere.

Figura 33– Silueta impartirii pe clase a datelor standardizate

7
Pentru un obiect i dintr-un cluster , S(I) este silueta lui . Aceasta poate fi silueta unui obiect ,
silueta medie a unui cluster sau silueta globala a unei structuri de clustere . In acest fel se
evidentiaza cat de bine este separat un cluster de vecinii sai , cat de apropiat este un element
dintr-un cluster de elemente aceluias cluster , mai exact distanta intracluster sau cat de
departat este de celelalte clustere ,adica distanta intercluster .

Figura 34 – Silueta impartirii pe clase a componentelor principale

Analizand figura 28 observam ca clusterului 1 ii apartin 24 de observatii si are silueta de 0.31


, ceea ce semnifica o structura moderata , iar clusterul 2 contine 10 observatii cu o silueta de
0.45 ceea ce indica o structura mai bine definita comparativ cu clusterul 1 .
La nivel global silueta are valoarea de 0.35 ceea ce indica o structura moderata , nici slaba ,
dar nici puternica.
Daca S(i) este apropiat de 1 , obiectul i este bine clasificat.
Daca S(i) tinde catre 0 obiectul poate fi clasificat si in urmatorul cluster , ceea ce inseamna ca
obiectul este similar clasificat in raport cu cele 2 clustere .
Daca S(i) este apropiat de -1 inseamna ca obiectul este clasificat eronat .

8
Metoda Centroid

Figura 35: Dendrograma Centroid -Date standardizate

Figura 36: Dendrograma Centroid - Componente principale

9
La această metodă distanţa dintre două clase este dată de distanţa simplă între două elemente
reprezentative ale clusterelor numite centroizi. Centroizii doar în unele cazuri pot coincide cu un
obiect central real din interiorul unei clase, în rest fiind nişte obiecte abstracte, ce au ca valori ale
caracteristicilor mediile fiecărei variabile pentru toate obiectele din clasa respectivă.
Pentru calcularea distanţelor după metoda centroizilor nu mai este necesară matricea proximităţilor
între perechile de obiecte din clasele respective, ci doar calculul centroizilor din fiecare clasă. Metoda
centroidului este considerată una foarte robustă şi este folosită îndeosebi la algoritmii de
partiţionare.

Algoritmul de pozitionare k-means


Acesta este un algoritm popular care tine datele in memoria centrala si pe care se bazeaza
algoritmul BFR . Pe masura ce punctele sunt asignate la un cluster , centroidul poate migra .

Inițializare – Se selectează aleator K centre din lista punctelor de intrare. Fie 𝑟𝑘 o variabilă aleatoare,
întreagă şi uniform distribuită în intervalul [1,n], atunci centrele inițiale sunt selectate ca: 𝑚𝑘 = 𝑥𝑟𝑘
Atribuire – Fiecare punct din lista de intrare este asociat cu centrul cel mai apropiat. Funcţia de
apartenență va lua valoarea indexului celui mai apropiat centru: 𝐿(𝑖) = 𝑎𝑟𝑔𝑚𝑖𝑛𝑘𝑑𝑖𝑠𝑡(𝑥𝑖 , 𝑚𝑘)
Actualizare – Se recalculează centrele grupurilor pe baza funcției de apartenență. Noile centre ale
grupurilor sunt calculate ca media punctelor din acel grup. În formula următoare se însumează toate
punctele care aparțin grupului k, adică au funcția de apartenență 𝐿(𝑖) = 𝑘. 𝑚𝑘 = ∑𝐿(𝑖)=𝑘 𝑥𝑖 ∑𝐿(𝑖)=𝑘 1 =
∑𝑥∈𝑆 𝑥𝑘 |𝑆𝑘 |
Condiția de terminare – Dacă nu apare nici o schimbare în funcția de apartenență, atunci algoritmul
poate fi oprit deoarece calculele viitoare nu vor produce nici o schimbare în valorile centrelor. De
asemenea, se poate limita numărul maxim de iterații ale algoritmului. Dacă nici una din condițiile de
mai sus nu este îndeplinită, atunci algoritmul continuă cu pasul de atribuire.

10
Figura 37– Clase de apartenenta si date standardizate

11
Figura 38-Reprezentarea claselor a datelor standardizate

In graficul din figura 36 avem reprezentata legatura dintre variabilele pret si consum de
carburant . Aceasta legatura se descrie prin cele 4 clase analizate :
Prima clasa (rosu ) observam ca este concentrata in partea din stanga jos , ceea ce inseamna ca
o masina cu consum mic se poate achiziona la un pret mic .
A doua clasa (albastru) observam ca este imprastiata , are valori ce variaza , nu o putem
caraceriza ca pe o clasa omogena , dar observam ca valoriei ei variaza in jurul mediei .
Clasa a treia este repezentata de culoarea negru , unde observam ca se incadreaza doar 3
observatii . Concluzionam ca este o clasa omogena , cu valori similare , medii , o masina cu
un consum mediu se poate achizitiona la un pret de piata mediu .
A patra clasa (verde ) o caracterizam ca o clasa eterogena , putem spune ca o masina cu
consum mic o putem achiziona la un pret mic , dar si ca o masina cu consum mic se poate
achizitiona la un pret ridicat(depinde de celelate caraceristici)

La nivelul modelului , criteriul general al clasificarii ce presupune maximizarea variabilitatii


interclasa si minimizarea variabilitatii intraclasa este verificat cu ajutorul statisticii , astfel
obtinem un R=80%, aceasta valoare indica un model bun .

spat_std spaw_std spab_std r_cls_std


[1,] 330 182.7101 147.2899 0.8061401

Figura 37-Descompunerea variabilitatii a datelor standardizate

12
Figura 39-Clasa de apartenenta si componentele principale

Figura 40-Reprezentatrea claselor a componentelor principale

13
Legatura dintre z1 - pretul ai z2- raportul greutate/putere descrie 4 clase omogene , grupate ,
cu date asemanatoare .

Descompunerea variabilitatii a componentele principale

spat_z spaw_z spab_z r_cls_z


[1,] 210.7062 70.47117 140.235 1.989964

Prin calculul statisticii R la nivelul modelului ce include componentele principale incluse in analiza
s- a obtinut rezultatul ce arata respectarea principiilor criteriului general al clasificarii .

14
Analiza discriminanta

Discriminatorul Bayes

Principala problema care trebuie rezolvata in cadrul analizei discriminate este aceea
a construirii criteriilor sau regulilor de clasificare, pe baza carora se pot face predictii privind
apartenenta unor forme noi, cu apartenenta initiala necunoscuta. Criteriile de clasificare mai
sunt cunoscute si sub numele de clasificatori, iar deducerea acestor criterii se numeste formare
a clasificatorului.
Clasificatorul este un algoritm cu ajutorul caruia se stabileste apartenenta cea mai
probabila a unei forme la o anumita clasa de predictie. Formarea clasificatorului se face pe
baza informatiilor continute intr-un esantion de forme a caror apartenenta este cunoscuta
aprioric si care se numeste set de formare.

Figura 41-Oulieri

15
Figura 42- Graficele densitatilor
Linia albastra este densitatea de probabilitate a fiecarui z in fiecare clasa.
Linia rosia densitatea unei distributii normale cu acelasi numar de obs ca a clasei respective,
aceeasi medie si aceeasi abatere.
Prin comparatia liniilor vedem cat de aproape sau cat de departe sunt scorurile din clasa
noastra de distributia normala.

Din figura 42 se observa ca graficele au o densitate de probabilitate ce tinde cu distributia


normala , exceptie fac insa z1-clasa 1 , se observa ca valorie se concentreaza sub medie .
De asemenea z3-clasa 4 are o distributie diferita de cea normala , cu valori foarte mici la
inceputul seriei.

16
Analiza discriminanta liniara (LDA)

Figura 43-Coeficienti liniari pentru date standardizate

Figura 44-Probabilitatea ca fiecare forma sa apartina unei clase

17
Figura 45- Scoruri discriminante

Figura 46-Gradul de acuratete

Figura 47-Probabilitatea posterioara si scoruri discriminante


Prezicem apartenenta outlierilor la fiecare clasa in part

18
Pentru scoruri

Figura 48-Coeficienti liniari pentru scoruri

Figura 49-Clasele

19
Figura 50-Probabilitatea de apartenenta la o clasa

Figura 51- Scoruri discriminante

20
Figura 52-Gradul de acuratete

Figura 53-Probabilitatea posterioara si scorurile

21
Concluzii

Analizele comparative prezinta o importanta deosebita deoarece, prin efectuarea


si publicarea constanta a rezultatelor obtinute, au o mare influenta atat asupra
consumatorilor cat si a producatorilor, facandu-i pe consumatori mai
circumspecti si mai rationali privind procesul de achizitionare a bunurilor.

Intr-o cercetare a lumii inconjuratoare ne bazam, de regula, pe existenta unui


numar de indivizi distincti ai unei populatii studiate. In legatura cu acesti
indivizi (obiecte sau cazuri) urmarim una sau mai multe marimi care, credem
noi, îi caracterizeaza.

Cercetatorul în analiza datelor are ca sarcina sa extraga din acest tabel de date
cat mai multa „informatie semnificativa” si s-o prezinte intr-o forma cat mai
restransa. Odată acest deziderat realizat, orice decizie viitoare privind
comportamentul populatiei studiate poate fi explicata prin argumente stiintifice.

Pe baza analizei efectuate asupra ofertei de autoturisme a unui dealer, am putut


sa concluzionam care sunt marcile concurente, care sunt cele mai preferate de
cumparatori si ce caracteristici primeaza la achizitionarea unui autoturism astfel
incat dealer-ul auto sa-si formeze un plan de achizitii si vanzari care sa-i aduca
un profit cat mai mare.

22

S-ar putea să vă placă și