Rosca D Tema-2 04 Iul 19

Clusterizare și clasificare
Data mining este un proces de analiză a seturilor de date, adesea cele de dimensiuni foarte mari,
pentru a descoperi tipare sau relații ascunse între datele componente. .Tehnicile şi modelele utilizate în
descoperirea de tipare și relații nu sunt general valabile, nu pot oferi rezolvări la orice problemă, dacă nu
se ţine cont de domeniul în care sunt aplicate. De asemenea, data mining este o colecție de
instrumente, foarte bine legate între ele. Rareori se ajunge la cazul formulării foarte precise a unei
probleme, care sa fie rezolvată cu o singură metodă de data mining. Se obișnuiește chiar să se intervină
asupra datelor inițiale, în funcție de rezultatul procesării acestora și trecerea lor prin altă analiză pentru
obținerea unor rezultate diferite și relevante. Modelele obținute pot fi mai departe utilizate în
clasificarea(învățarea supervizată) sau clusterizarea(învățarea nesupervizată).
Termenul de analiză cluster a fost folosit pentru prima dată în 1939, de către Tryon și face
referire la algoritmi de clasificare, ce pot grupa datele în seturi omogene. Mai este numită analiză de
segmentare și are ca scop final creearea de seturi, astfel încât datele din interiorul unul set să fie cât mai
apropiate ca similarități, iar cele din seturi separate să fie cât mai diferite. Pe baza diferențelor și
asemănărilor( a “distanței”), se alege algoritmul corespunzător.
Distanța se definește pe mulțimea perechilor de elemente folosite la aprecierea asemănărilor

sau diferențelor. Altfel fiecare set de date este realizat pe baza distanței dintre elemente. De obicei, sunt
folosite următoarele distanțe:
 Distanţa euclidiană(rădăcină pătrată din suma pătratului distanţelor dintre xi şi yi):
 Pătratul distanţei euclidiene:
 Distanţa Chebychev (abaterea maximă):
 Distanţa City Block sau Manhattan (suma abaterilor) calculată ca diferenţă medie între
dimensiuni:
 Distanţa Minkovski (distanţa euclidiană generalizată):

 Distanţa Power:
După calculul distanțelor, se construiește matricea distanțelor(matricea similitudinilor), unde

liniile sunt elementele, iar coloanele sunt variabililele folosite. Pe baza acesteia este ales algoritmul. De
aici metodele generale de clustering se împart în două categorii: ierarhic și partițional. În clusterizarea
ierarhică seturile de date pot fi privite ca seturi de subseturi. In varianta partițională, fiecare dată face
parte din exact un singur cluster.
Clusterizarea ierarhică poate fi separatorie sau aglomerativă. Dacă în cea separatorie, se începe
prin preluarea unui grup de date și fragmentarea lui în subgrupe până se ajunge ca fiecare dată(obiect)
să formeze propriul său subgrup, cele aglomerative încep de la obiecte, ce sunt grupate în seturi, până la
obținerea unui singur grup.
Evoluția de-a lungul clusterizării a acestor grupuri pot fi observate cel mai bine cu ajutorul
dendogramelor sau a arborilor binari. Acestea sunt obținute prin folosirea ca noduri a obiectelor și a
ramurilor ca grupuri ce conțin acel obiect(nodul). Lungimea unei ramuri, definește astfel distanța dintre
subgrupurile pe care obiectul le unește.
Exemplu dendograma:
Clasificarea este un proces de învățarea a unui model care rezolvă tipuri de probleme
predeterminate. Este de obicei un proces ce conține 2 pași. Primul este pasul de învățare, în care un
model de clasificare este obținut prin observarea relațiilor dintre datele provizorii, furnizate(motivul
pentru care mai este numită învățare supervizată), dintre intrare și ieșire, acesta fiind folosit mai departe
în pasul 2 pentru clasificarea propriu-zisă a datelor.
În cadrul clasificării datele sunt împarțite în 3 categorii:
 Date de antrenament
 Date de validare(conțin deja etichete de clasă)
 Date de test
Algoritmul face asocieri între datele de antrenament și ieșirile obținute. Se obține modelul care
apoi este folosit pe datele de validare pentru a se măsura precizia și pe datele de test pentru a se
măsura abilitatea de generalizare. Se fac mai multe iterații până se obține o precizie bună, raportată la
cerințele problemei, apoi se trece la utilizarea algoritmului pe date de interes.
Printre cei mai cunoscuți algoritmi folosiți, amintim:
 Linear Classifiers: Logistic Regression, Naive Bayes Classifier

Metodă statistică pentru seturi de date ce conțin una sau mai multe variabile
independente ce produc o singură ieșire, de obicei o variabilă dihotomică(2 valori
posibile). Se găsește astfel modelul potrivit pentru obținerea valorii necesare a variabilei
de ieșire.
 Decision Trees:
Produce modele de clasificare/regresie sub forma unor arbori de decizie. La
fiecare creeare a unui subset, arborele mai primeste un nod, ramura sau frunză. Un nod
are 2 sau mai multe ramuri, un o frunză reprezintă o decizie sau clasificare.
 Neural Network:
O rețea neurală e formată din unitați(neuroni artificiali), aranjate în straturi, ce
procesează un vector într-o ieșire. Fiecare neuron, prea o valoarea, o prelucrează și o
transmite următoarelor unități, în faza de test, conexiunile fiind ajustate să modifice
semnalul, neexistand feedback(arhitectura e în general feed-forward).
 Nearest Neighbor
Acest algoritm de clasificare preia o multitudine de date etichetate, le folosește pentru a
învăța cum să adauge etichete datelor care nu au, în funcție de de vecinii etichetați.
Astfel eticheta predominantă în “vecinii” datei, este preluată și de aceasta.
Clasificare și clusterizarea sunt metode folosite în data mining pentru analizarea și împarțirea
datelor pe baza particularităților acestora sau pe baza asocierii lor. Clasificarea categorizează data cu
ajutorul unor date de antrenament. Pe de altă parte, clusterizarea folosește similaritățile pentru ca
categoriza datele.

Rosca D Tema-2 04 Iul 19

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Rosca D Tema-2 04 Iul 19

Încărcat de

Drepturi de autor:

Formate disponibile

Clusterizare și clasificare

Distanța se definește pe mulțimea perechilor de elemente folosite la aprecierea asemănărilor

 Distanţa euclidiană(rădăcină pătrată din suma pătratului distanţelor dintre xi şi yi):

 Pătratul distanţei euclidiene:

 Distanţa Chebychev (abaterea maximă):

 Distanţa Minkovski (distanţa euclidiană generalizată):

După calculul distanțelor, se construiește matricea distanțelor(matricea similitudinilor), unde

În cadrul clasificării datele sunt împarțite în 3 categorii:

 Linear Classifiers: Logistic Regression, Naive Bayes Classifier

S-ar putea să vă placă și