Sunteți pe pagina 1din 2

Ce este analiza clusterului și cum îl puteți

folosi în cercetare
 by Ashley Crossman
 Definiție, tipuri și exemple
 Analiza cluster este o tehnică statistică utilizată pentru a identifica modul în care
diferite unități - cum ar fi persoane, grupuri sau societăți - pot fi grupate împreună
datorită caracteristicilor pe care le au în comun. De asemenea, cunoscut sub numele de
clustering, este un instrument de explorare a datelor care urmărește să sorteze diferite
obiecte în grupuri astfel încât, atunci când aparțin aceluiași grup, să aibă un grad
maxim de asociere și atunci când nu aparțin aceluiași grup, gradul de asociere este
minim.
 Spre deosebire de alte tehnici statistice, structurile care sunt descoperite prin analiza
clusterului nu necesită explicații sau interpretări - descoperă structura datelor fără a
explica de ce există.

Ce este Clustering?
Clustering există în aproape fiecare aspect al vieții noastre de zi cu zi. Luați, de exemplu,
articole dintr-un magazin alimentar. Diferitele tipuri de articole sunt întotdeauna afișate în
locații apropiate - carne, legume, sifon, cereale, produse din hârtie etc. Cercetătorii doresc
adesea să facă același lucru cu datele și obiectele de grup sau subiecții în grupuri care au sens.

Pentru a lua un exemplu din știința socială, să presupunem că ne uităm la țări și dorim să le
grupăm în grupuri bazate pe caracteristici precum diviziunea muncii , militarii, tehnologia sau
populația educată. Am descoperit că Marea Britanie, Japonia, Franța, Germania și Statele
Unite au caracteristici similare și ar fi grupate împreună.

Uganda, Nicaragua și Pakistan ar fi, de asemenea, grupate într-un grup diferit deoarece au un
set diferit de caracteristici, inclusiv niveluri scăzute de avere, diviziuni mai simple de muncă,
instituții politice relativ instabile și nedemocratice și dezvoltare tehnologică scăzută.

Analiza clusterului este folosită în mod obișnuit în faza exploratorie a cercetării atunci când
cercetătorul nu are ipoteze preconcepute . De obicei, nu este singura metodă statistică
utilizată, ci mai degrabă se face în stadiile incipiente ale unui proiect pentru a ajuta la ghida
restul analizei. Din acest motiv, testarea semnificației nu este, de obicei, relevantă sau
adecvată.

Există mai multe tipuri diferite de analiză cluster. Cele două metode utilizate cel mai frecvent
sunt gruparea K și mijloacele de grupare ierarhică.

K-înseamnă gruparea
Metoda clusterizării K-trată observațiile din date ca obiecte având locații și distanțe una față
de cealaltă (rețineți că distanțele utilizate în gruparea adesea nu reprezintă distanțe spațiale).
Aceasta împarte obiectele în clustere K exclusive, astfel încât obiectele din cadrul fiecărui
cluster să fie cât mai apropiate posibil și în același timp, cât mai departe posibil de obiecte din
alte clustere. Fiecare cluster este apoi caracterizat prin punctul său central sau central .
Combinarea ierarhică
Combinarea ierarhică este o modalitate de a investiga grupările în date simultan pe o varietate
de scale și distanțe. Aceasta face acest lucru prin crearea unui arbore cluster cu nivele diferite.
Spre deosebire de clustering-ul K-means, arborele nu este un singur set de clustere.

Mai degrabă, arborele este o ierarhie cu mai multe niveluri, în care grupurile de la un nivel
sunt asociate ca grupuri la nivelul următor. Algoritmul utilizat începe cu fiecare caz sau cu o
variabilă într-un grup separat și apoi combină clusterele până când rămâne doar unul. Acest
lucru permite cercetătorului să decidă ce nivel de grupare este cel mai potrivit pentru
cercetarea sa.

Efectuarea unei analize de cluster


Majoritatea programelor software de statistici pot efectua analize de cluster. În SPSS,
selectați analiza din meniu, apoi clasificați și analizați clusterul . În SAS, funcția proc
cluster poate fi utilizată.

Actualizat de Nicki Lisa Cole, Ph.D.

S-ar putea să vă placă și