Documente Academic
Documente Profesional
Documente Cultură
Data mining este un proces de analiză a seturilor de date, adesea cele de dimensiuni foarte mari,
pentru a descoperi tipare sau relații ascunse între datele componente. .Tehnicile şi modelele utilizate în
descoperirea de tipare și relații nu sunt general valabile, nu pot oferi rezolvări la orice problemă, dacă nu
se ţine cont de domeniul în care sunt aplicate. De asemenea, data mining este o colecție de
instrumente, foarte bine legate între ele. Rareori se ajunge la cazul formulării foarte precise a unei
probleme, care sa fie rezolvată cu o singură metodă de data mining. Se obișnuiește chiar să se intervină
asupra datelor inițiale, în funcție de rezultatul procesării acestora și trecerea lor prin altă analiză pentru
obținerea unor rezultate diferite și relevante. Modelele obținute pot fi mai departe utilizate în
clasificarea(învățarea supervizată) sau clusterizarea(învățarea nesupervizată).
Termenul de analiză cluster a fost folosit pentru prima dată în 1939, de către Tryon și face
referire la algoritmi de clasificare, ce pot grupa datele în seturi omogene. Mai este numită analiză de
segmentare și are ca scop final creearea de seturi, astfel încât datele din interiorul unul set să fie cât mai
apropiate ca similarități, iar cele din seturi separate să fie cât mai diferite. Pe baza diferențelor și
asemănărilor( a “distanței”), se alege algoritmul corespunzător.
Distanţa City Block sau Manhattan (suma abaterilor) calculată ca diferenţă medie între
dimensiuni:
Clusterizarea ierarhică poate fi separatorie sau aglomerativă. Dacă în cea separatorie, se începe
prin preluarea unui grup de date și fragmentarea lui în subgrupe până se ajunge ca fiecare dată(obiect)
să formeze propriul său subgrup, cele aglomerative încep de la obiecte, ce sunt grupate în seturi, până la
obținerea unui singur grup.
Evoluția de-a lungul clusterizării a acestor grupuri pot fi observate cel mai bine cu ajutorul
dendogramelor sau a arborilor binari. Acestea sunt obținute prin folosirea ca noduri a obiectelor și a
ramurilor ca grupuri ce conțin acel obiect(nodul). Lungimea unei ramuri, definește astfel distanța dintre
subgrupurile pe care obiectul le unește.
Exemplu dendograma:
Clasificarea este un proces de învățarea a unui model care rezolvă tipuri de probleme
predeterminate. Este de obicei un proces ce conține 2 pași. Primul este pasul de învățare, în care un
model de clasificare este obținut prin observarea relațiilor dintre datele provizorii, furnizate(motivul
pentru care mai este numită învățare supervizată), dintre intrare și ieșire, acesta fiind folosit mai departe
în pasul 2 pentru clasificarea propriu-zisă a datelor.
Date de antrenament
Date de validare(conțin deja etichete de clasă)
Date de test
Algoritmul face asocieri între datele de antrenament și ieșirile obținute. Se obține modelul care
apoi este folosit pe datele de validare pentru a se măsura precizia și pe datele de test pentru a se
măsura abilitatea de generalizare. Se fac mai multe iterații până se obține o precizie bună, raportată la
cerințele problemei, apoi se trece la utilizarea algoritmului pe date de interes.
Printre cei mai cunoscuți algoritmi folosiți, amintim:
Clasificare și clusterizarea sunt metode folosite în data mining pentru analizarea și împarțirea
datelor pe baza particularităților acestora sau pe baza asocierii lor. Clasificarea categorizează data cu
ajutorul unor date de antrenament. Pe de altă parte, clusterizarea folosește similaritățile pentru ca
categoriza datele.