Sunteți pe pagina 1din 5

UNIVERSITATEA DIN PITEȘTI

FACULTATEA DE ȘTIINTE ALE EDUCAȚIEI, ȘTIINȚE SOCIALE ȘI PSIHOLOGIE


PROGRAM DE STUDII: CONSILIERE ÎN ASISTENȚA SOCIALĂ
ANUL II, SEMESTRUL I

DISCIPLINA: CERCETARE SOCIALĂ AVANSATĂ

REFERAT

Analiza Cluster

Coordonator: Masterand:
Conf. univ. Dr. Gruioniu Octavian – Cristinel Guță Ancuța-Daniela
Trifu Ana-Maria
Văduva Maria-Adriana

PITEȘTI
2022-2023
Analiza Cluster

Analiza cluster a fost dezvoltată în anii `30 în psihologie de către Zubin și Tryon (apud
Mezei, 1999), fiind apoi preluată în toate științele sociale și naturale fundamentate pe
raționamente clasificatorii: biologie, antropologie, sociologie, medicină etc. Interesul pentru
acest domeniu al statisticii a crescut odată cu apariția calculatoarelor moderne și a programelor
specializate de calcul.
Prin analiza cluster se urmărește, în interiorul unor mulțimi de obiecte sau forme,
identificarea de clase, grupe sau clustere cu elementele cât mai asemănătoare în interiorul
aceleiași clase (variabilitate minimă în interiorul claselor) și cât mai deosebite între ele dacă
aceste elemente aparțin unor clase diferite (variabilitate maximă între clase). Rezultă că, analiza
cluster permite examinarea similarităților și disimilarităților dintre obiectele aparținând unei
anumite mulțimi, în scopul grupării acestora sub forma unor clase distincte între ele și omogene
în interior. Fiecare obiect din mulțimea analizată este atribuit unei singure clase, iar mulțimea
claselor este o mulțime discretă și neordonabilă. Clasele sau grupele sub forma cărora se
structurează mulțimile de obiecte și se numesc clustere.
Clusterizarea ierarhica este considerata a fi un sistem de recunoaștere necontrolată,
deoarece procesul clasificării pornește fără existența unor informații cu privire la numărul de
clase și la apartenența formelor la aceste clase. În acest caz, clasele se construiesc pe măsura
creșterii numărului de forme analizate, numărul de clase posibile determinându-se la finalul
procesului de recunoaștere. Unii algoritmi de clasificare necontrolată, presupun fixarea apriorică
a numărului de clase în care vor fi împărțite obiectele analizate. Acest lucru nu înseamnă că în
mod real este cunoscut numărul de clase, ci doar se face o presupunere cu privire la acest număr.
Sistemele de recunoaștere necontrolată a formelor utilizează principii, metode, proceduri
și tehnici, cunoscute în literatura de specialitate sub denumirea de tehnici de clasificare,
clasificare nesupervizată sau analiză cluster.
Analiza cluster presupune fixarea formelor sau obiectelor în clustere sau grupe în mod
progresiv, fără cunoașterea în principiu a numărului de clase și cu respectarea a două criterii
fundamentale:
a) Fiecare clasă să fie cât mai omogenă, adică să conțină obiecte sau forme cât mai
similare în raport cu caracteristicile luate în considerare pentru clasificarea obiectelor;

2
b) Fiecare clasă trebuie să conțină obiecte clasificate care să difere cât mai mult, din
punct de vedere al caracteristicilor de clasificare, de obiectele clasificate în oricare din celelalte
clase. În funcție de caracteristicile procedurilor utilizate, de ipotezele inițiale și de natura
rezultatelor obținute, metodele de clusterizare ierarhică se împart în clusterizare prin:
• Agregare
• Divizare
Proceduri specifice cunoscute în acest caz, sunt: metoda agregării simple, metoda
agregării complexe, metoda agregării medii, metoda lui Ward.
În cazul analizei unor cantități mari de date, caracterizate printr-un grad ridicat de
eterogenitate, sistemele de recunoaștere necontrolată se utilizează mai mult în scopuri de
sistematizare, grupare și sintetizare informațională. Întrucât aceste tehnici, care se bazează pe
utilizarea conceptului de distanță, sunt utile și eficiente în activitatea de analiză preliminară a
datelor, permit organizarea mai eficientă a datelor eterogene, precum și regăsirea și interpretarea
mai ușoară și mai consistentă a informațiilor în cadrul unor date astfel structurate.
Cele mai uzuale metode de calcul a distantelor dintre grupe utilizate in cadrul analizei
cluster sunt:
- Metoda celor mai apropiati vecini. Se mai numeste si metoda legaturii simple si
calculeaza distanta dintre doua subgrupuri ca distanta minima intre oricare dintre doi
membrii ai subgrupurilor respective.
- Metoda celor mai indepartati vecini. Mai poate fi intalnita si sub denumirea de
metoda legaturii totale, aceasta implicand calculul distantelor dintre grupe la fiecare
pas ca maximul distantei dintre oricare doua obiecte din grupe diferite
- Metoda centroidului. Se mai poate gasi si sub denumirea de metoda legaturii
centrale și presupune calculul distantelor dintre subgrupuri la fiecare pas ca medie a
distantelor dintre obiectele a doua subgrupuri
- Metoda BAVERAGE. Aceasta metoda implica calculul mediei distantelor dintre
elementele celor doua grupe. Mai este cunoscută si ca legatura dintre grupe ( Between
groups linkage)
- Metoda WAVERAGE. Metoda presupune alegerea acelei perechi de clusteri pentru
care media distantelor dintre elementele posibilului cluster reunit pentru fiecare

3
pereche de clusteri existenti la acel moment este cea mai mica. Este vorba de legatura
din interiorul grupelor sau Within-groups linkage
- Metoda WARD. Aceasta metoda determina pentru fiecare cluster media fiecarei
variabile, distanta dintre clusteri fiind determinata ca medie a distantelor de la
elementul mediu la toate elementele celuilalt cluster.
- Metoda MEDIAN. Este metoda care presupune determinarea distantei dintre mediile
corespunzatoare celor doi clusteri.
Etape ale analizei clusterelor
Paşii implicaţi în conducerea analizei clusterelor sunt următorii: primul pas este
formularea problemei grupării prin definirea variabilelor pe baza cărora se vor forma clustere.
Apoi, trebuie selectată o măsură adecvată a distanţei. Unitatea de măsură a distanţei determină cît
de asemănător sau diferit este obiectul grupat. Câteva proceduri de grupare au fost dezvoltate, şi
cercetătorul trebuie să selecteze una din acestea, care este cea mai adecvată pentru rezolvarea
problemei. Stabilirea unui număr de clustere este atribuţia cercetătorului. În final, cercetătorul
trebuie să verifice validitatea procesului de grupare.
1. Formularea problemei
2. Selectarea distanţei
3. Alegerea unei procedurii
4. Alegerea numărului de clustere
5. Identificarea şi numirea grupurilor
6. Testarea soluţiei

Concluzii
Putem așadar spune că rezultatele analizei de cluster depind decisiv de modul de alegere
a variabilelor. Indiferent cât de nepotrivite vor fi acestea, programul va oferi o soluție de grupare,
dar nu va semnala prin nimic faptul că anumite variabile au fost greșit introduse în modelul de
analiză.
Analiza cluster este utilă în orice proces de analiză a datelor, nu numai în cele care
necesită o clasificare. De exemplu, în cazul unui proces de analiză ce vizează un set de date de
dimensiuni foarte mari, atât din punct de vedere al obiectelor analizate, cât și din punct de vedere

4
al caracteristicilor acestora, sintetizarea și structurarea informației poate fi făcută prin
instrumente adecvate.
Astfel, pentru identificarea unor categorii, clase sau grupe informaționale pe o mare
cantitate de informații brute, poate fi folosită cu succes analiza cluster.
Analiza cluster permite deducerea legilor evoluției unor populații de fenomene, precum și
a principiilor procesului de cunoaștere, prin:
• definirea unor scheme de clasificare formală și a unor tipologii, pentru cunoașterea și
înțelegerea mai bună a realităților complexe;
• identificarea unor modele statistico-matematice pentru înțelegerea, sintetizarea și
simplificarea mulțimilor complexe și eterogene de fenomene și procese;
• definirea mai corectă și mai completă a caracteristicilor fundamentale ale unor
populații de fenomene și procese;
• deducerea unor măsuri numerice adecvate pentru caracterizarea dimensiunilor
populațiilor de fenomene și pentru evidențierea modificărilor care au loc în structura acestora;
• identificarea unor entități individuale care sunt representative pentru clase și categorii
complexe de fenomene și procese.
Abordarea analizei de cluster necesită o permanentă consultare a literaturii de specialitate
și o practică individuală bazată pe încercarea unor soluții variate și analiza efectelor acestora.
Nu trebuie să uităm că analiza de cluster nu este, în sensul propriu al termenului, o
procedura de testare a ipotezelor de cercetare, iar soluțiile sale sunt într-o măsură destul de
ridicată afectate de opțiunile subiective ale cercetătorului.

Bibliografie
1. Ruxanda, G. (2001). Analiza Datelor. București: ASE.
2. Ruxanda, G. (2010). Construirea, estimarea și implantarea software a metodelor
matematice. Cercetarea științifică în ASE
3. https://ro.economy-pedia.com/11040935-cluster-analysis
4. https://ro.scribd.com/document/459980603/Analiza-Cluster
5. https://ro.scribd.com/document/141161084/Analiza-Cluster
6. https://dokumen.tips/documents/analiza-de-cluster.html

S-ar putea să vă placă și