Sunteți pe pagina 1din 19

Data Mining

Web Mining

Bibliografie

Reg˘asirea Informat¸iilor pe WEB

Curs 10: Data/Web Mining

¸s.l. dr. ing. Alexandru ARCHIP alexandru.archip@cs.tuiasi.ro

Facultatea de Automatic˘a ¸si Calculatoare, Ia¸si

an universitar: 2014 – 2015

Data Mining

Cuprins

Web Mining

Bibliografie

1 Data Mining Definit¸ie Etape implicate ˆın descoperirea de cuno¸stint¸e Metode de analiz˘a specifice Data Mining Exemple

2 Web Mining Definit¸ii ¸si concepte generale Tehnici de analiz˘a specifice Web Mining

Data Mining

Web Mining

Bibliografie

Definit¸ie

Descoperirea de cuno¸stint¸e

Definit¸ie

Descoperirea de cuno¸stint¸e (data mining sau knowledge discovery) ˆınseamn˘a extragerea informat¸iilor (cuno¸stint¸elor) interesante – netriviale, eventual implicite, necunoscute anterior ¸si potent¸ial utile – sau descoperirea de tipare printre datele stocate ˆın baze de date sau ˆın alte forme de stocare.

Observat¸ii

Interpretarea solut¸iilor oferite este strict dependent˘a de domeniul de aplicabilitate.

Este important de ¸stiut c˘a[6]:

Data mining is a tool, not a magic wand. It won’t sit in your database watching what happens and send you e-mail to get your attention when it sees an interesting pattern. It doesn’t eliminate the need to know your business, to understand your data, or to understand analytical methods.

Data Mining

Web Mining

Bibliografie

Etape implicate ˆın descoperirea de cuno¸stint¸e

Etape implicate ˆın descoperirea de cuno¸stint¸e

Preprocesarea

1 ˆ Int¸elegerea domeniului de aplicat¸ie, a cuno¸stint¸elor anterioare, precum ¸si a scopurilor ce se doresc a fi atinse prin analiz˘a.

2 Crearea unui set ¸int˘t

a de date, fapt ce implic˘a selectarea unui set de date,

concentrarea asupra unui subset de variabile sau modele de date asupra c˘arora s˘a se execute procesul de descoperire a cuno¸stint¸elor.

3 “Cur˘at¸area datelor”: colectarea informat¸iilor necesare pentru modelarea sau recunoa¸sterea zgomotelor, ˆınl˘aturarea acestor zgomote ¸si a datelor ce nu furnizeaz˘a informat¸ii relevante, generarea de strategii pentru tratarea cˆampurilor de date lips˘a sau incomplete.

4 Reducerea seturilor de date ce vor fi analizate prin transformarea unui set de atribute, prin extrapolarea unor valori de interes sau pur ¸si simplu prin restrˆangerea setului complet de atribute/caracteristici c˘atre un set minimal de strict interes.

Data Mining

Web Mining

Bibliografie

Etape implicate ˆın descoperirea de cuno¸stint¸e

Etape implicate ˆın descoperirea de cuno¸stint¸e (2)

Analiza datelor

1 Alegerea unei metode de extragere a informat¸iilor, ˆın funct¸ie de ¸elult

dorit

(extragerea regulilor de clasificare a datelor, extragerea regulilor de asociere sau analiza diferitelor secvent¸e ˆıntˆalnite ˆın baza de date).

2 Alegerea unui algoritm adecvat: selectarea metodelor de analiz˘a ˆın funct¸ie

de eventuale constrˆangeri impuse de particularit˘at¸ile datelor analizate sau

adoptarea unui model valabil, adecvat domeniului ¸int˘t

a.

3 Aplicarea metodelor de analiz˘a ¸si extragerea efectiv˘a a informat¸iilor noi.

Analiza rezultatelor

1 Validarea ¸si interpretarea rezultatelor extrase.

2 Consolidarea informa¸siilor descoperite

Data Mining

Web Mining

Bibliografie

Etape implicate ˆın descoperirea de cuno¸stint¸e

Etape implicate ˆın descoperirea de cuno¸stint¸e (3)

Etape implicate ˆın descoperirea de cuno¸stint¸e (3) Figura 1: Procesul de descoperire de cuno¸stint¸e [7]

Figura 1: Procesul de descoperire de cuno¸stint¸e [7]

Data Mining

Web Mining

Metode de analiz˘a specifice Data Mining

Metode de analiz˘a a datelor

Bibliografie

Clusterizarea (identificarea grup˘arilor de date)

Tip: analiz˘a descriptiv˘a.

Scop: identificarea unui num˘ar finit de categorii (grupuri/clustere) ce descriu mai bine datele existente pe baza similarit˘at¸ilor dintre aceste date.

Identificarea regulilor de clasificare

Tip: analiz˘a predictiv˘a.

Scop: determinarea/“ˆınv˘at¸area”, pe baza datelor existente, a unei funct¸ii de mapare (clasificator) cu rol ˆın determinarea claselor de apartenent¸˘a pentru datele noi ce vor fi achizit¸ionate/acumulate.

Data Mining

Web Mining

Metode de analiz˘a specifice Data Mining

Metode de analiz˘a a datelor (2)

Bibliografie

Regresia

Tip: analiz˘a predictiv˘a.

Scop: determinarea unei funct¸ii de mapare a valorilor atributelor de interes peste valori reale pentru a prezice un anumit comportament.

Identificarea tiparelor frecvente ¸si a regulilor de asociere

Tip: analiz˘a descriptiv˘a.

Scop: determinarea subseturilor ce apar ˆımpreun˘a ˆıntr-un anumit set de valori sau determinarea unor relat¸ii (ˆın mod uzual, relat¸ii de coexistent¸˘a) ˆın cadrul acelui set de valori.

Data Mining

Web Mining

Metode de analiz˘a specifice Data Mining

Metode de analiz˘a a datelor (3)

Bibliografie

Analiza secvent¸elor

Tip: analiz˘a descriptiv˘a.

Scopt : determinarea acelor secvent¸e ce apar ˆımpreun˘a ˆın cadrul unui anumit volum de date. Spre deosebire de determinarea tiparelor frecvente, ˆın cadrul analizei secvent¸elor entit¸˘at¸ile ce pot constitui o secvent¸˘a nu sunt ˆın mod necesar omogene (nu au aceea¸si semnificat¸ie). ˆ In plus, o secvent¸˘a frecvent˘a nu este condit¸ionat˘a de o limit˘a de tip suport minim.

Data Mining

Web Mining

Bibliografie

Exemple

Exemple de utilizare a Data Mining

Bibliografie Exemple Exemple de utilizare a Data Mining Economie Analiza co¸sului de cump˘ar˘aturi Ce produse

Economie Analiza co¸sului de cump˘ar˘aturi Ce produse sunt frecvent achizit¸ionate ˆımpreun˘a?

Tipare frecvente ¸si reguli de asociere

Analiza dosarului de credit Este sau nu un client de ˆıncredere?

Reguli de clasificare

sau nu un client de ˆıncredere? Reguli de clasificare Genetic˘a Analiza secvent¸elor ADN Exist˘a leg˘aturi

Genetic˘a Analiza secvent¸elor ADN Exist˘a leg˘aturi ˆıntre structura ADN ¸si predispozit¸ia fat¸˘a de anumite boli/afect¸iuni?

Reguli de asociere, tipare frecvente, analiza secvent¸elor

Data Mining

Web Mining

Bibliografie

Exemple

Exemple de utilizare a Data Mining (2)

Pedagogie

Analiza situat¸iilor ¸scolare Determinarea grupelor de risc sau determinarea factorilor ce influent¸eaz˘a performant¸ele academice

Reguli de clasificare

performant¸ele academice Reguli de clasificare IT Securitatea sistemelor informatice Detect¸ia

IT Securitatea sistemelor informatice Detect¸ia intruziunilor

Clusterizare, reguli de clasificare

Motoare de c˘autare Optimizarea funct¸ionalit˘at¸ii, cre¸sterea performant¸elor

Regresie, clusterizare, reguli de clasificare, reguli de asociere sau analiza grafurilor (graph mining)

Data Mining

Web Mining

Bibliografie

Definit¸ii ¸si concepte generale

Caracteristicile spat¸iului de analiz˘a

Caracteristici ale Web-ului:

mediu interactiv; volum imens de date; cont¸inut foarte variat; cont¸inut dinamic.

Probleme ale utilizatorilor:

reg˘asirea rapid˘a a informat¸iilor relevante: lipsa de “precizie” a motoarelor de c˘autare; imposibilitatea
reg˘asirea rapid˘a a informat¸iilor relevante:
lipsa de “precizie” a motoarelor de c˘autare;
imposibilitatea index˘arii complete a informat¸iilor prezente pe WEB;
reg˘asirea adaptabil˘a a informat¸iilor.

Data Mining

Web Mining

Bibliografie

Definit¸ii ¸si concepte generale

Definit¸ie ¸si tipuri de date

Definit¸ie

WEB Mining reprezint˘a procesul de utilizare a tehnicilor data mining (extragerea automat˘a/semi-automat˘a de cuno¸stint¸e) asupra documentelor ¸si serviciilor WEB.

Tipuri de date WEB ce pot fi analizate date de cont¸inut: fi¸siere HTML, text, XML,
Tipuri de date WEB ce pot fi analizate
date de cont¸inut:
fi¸siere HTML, text, XML, cont¸inut generat dinamic, cont¸inut multimedia;
date de structur˘a:
leg˘aturile dintre pagini, stuctura site-urilor/documentelor WEB;
date de utilizare corelate cu date de tip profil utilizator.

Data Mining

Web Mining

Bibliografie

Tehnici de analiz˘a specifice Web Mining

Clasificarea tehnicilor de Web Mining

Analiza cont¸inutului (Content Mining)

Tehnici de g˘asire a modelelor din obiecte/documente WEB;

Clasificarea obiectelor WEB, extragerea cuvintelor cheie relevante, structurarea obiectelor nestructurate/semistructurate

Analiza de structur˘a (Structure Mining)

Reg˘asirea topologiilor de interconectare dintre diversele obiecte WEB;

Reg˘asirea informat¸iilor legate de structura documentelor Web.

Analiza utiliz˘arii (Usage Mining)

Tehnici de descoperire a modelelor de folosire a datelor WEB

Data Mining

Web Mining

Bibliografie

Tehnici de analiz˘a specifice Web Mining

Clasificarea tehnicilor de Web Mining (2)

Analiza cont¸inutului

Analiza paginilor WEB sau analiza unui set de rezultate ¸int˘t a. Tehnici asem˘an˘atoare cu tehnicile
Analiza paginilor WEB sau analiza unui set de rezultate ¸int˘t
a.
Tehnici asem˘an˘atoare cu tehnicile clasice de extragere de cuno¸stint¸e ˆın sensul
reg˘asirii aceluia¸si tip de cuno¸stint¸e.
Opereaz˘a asupra unor tipuri foarte variate de date: fi¸siere ascii, fi¸siere
imagine, video, audio, etc.
Tipuri de cuno¸stint¸e ce pot fi extrase:
relat¸ii de generalizare;
reguli de caracterizare, de clasificare sau de asociere.
Select¸ia algoritmilor utilizat¸i este strict dependent˘a de rezultatul urm˘arit.

Data Mining

Web Mining

Bibliografie

Tehnici de analiz˘a specifice Web Mining

Clasificarea tehnicilor de Web Mining (3)

Web Mining Clasificarea tehnicilor de Web Mining (3) Analiza cont¸inutului (2) Documentele sunt total

Analiza cont¸inutului (2) Documentele sunt total nestructurate:

atribute diferite pot avea acela¸si ˆınt¸eles pentru locat¸ii WEB diferite; metode diferite de expunere a
atribute diferite pot avea acela¸si ˆınt¸eles pentru locat¸ii WEB diferite;
metode diferite de expunere a acelora¸si informat¸ii;
solut¸ii uzuale: integrarea semantic˘a a documentelor WEB.
Volum imens de date redundante/neinteresante:
trebuie identificat un subset WEB care ar putea cont¸ine date interesante
pentru analiz˘a.

Data Mining

Web Mining

Bibliografie

Tehnici de analiz˘a specifice Web Mining

Clasificarea tehnicilor de Web Mining (4)

Web Mining Clasificarea tehnicilor de Web Mining (4) Analiza de structur˘a Tipuri de cuno¸stint¸e ce pot

Analiza de structur˘a Tipuri de cuno¸stint¸e ce pot fi extrase:

stuctura unui site/domeniu WEB; informat¸ii de tip relevant¸˘a.

ˆ

In mod uzual, analiza este concentrat˘a pe utilizarea leg˘aturilor dintre paginile

WEB:

dac˘a analiza este axat˘a pe frecvent¸a apel˘arii leg˘aturilor dintr-un site WEB, se pot determina informat¸ii legate de completitudinea site-ului ˆın cauz˘a; dac˘a analiza este axat˘a pe frecvent¸a leg˘aturilor unei pagini WEB cu alte pagini ce apart¸in de acela¸si site WEB, se pot obt¸ine informat¸ii legate de fluxul documentelor WEB; dac˘a analiza este axat˘a pe num˘arul de leg˘aturi ale unui document WEB cu alte documente WEB, se pot reg˘asi informat¸ii legate de vizibilitatea paginilor WEB sau informat¸iile legate de relat¸ionarea documentelor similare ce apart¸in de site-uri diferite.

Data Mining

Web Mining

Bibliografie

Tehnici de analiz˘a specifice Web Mining

Clasificarea tehnicilor de Web Mining (5)

Web Mining Clasificarea tehnicilor de Web Mining (5) Analiza utiliz˘arii Tipuri de cuno¸stint¸e ce pot fi

Analiza utiliz˘arii Tipuri de cuno¸stint¸e ce pot fi extrase:

identificarea modelelor de acces la un site WEB (informat¸iile pot fi cu caracter general sau cu caracter personalizat).

Implic˘a de cele mai multe ori analiza fi¸sierelor de tip log generate de server-ele WEB. Exemple:

se pot obt¸ine informat¸ii importante legate de ce site-uri sunt vizitate ˆımpreun˘a de utilizatori (ˆın cazul general) sau de grupuri de utilizatori (ca ¸si caz paticular) prin extragerea tiparelor frecvente ¸si a regulilor de asociere.

Rezultatele obt¸inute pot fi utilizate pentru: personalizarea procesului de interact¸iune cu utilizatorii, ˆımbun˘at˘at¸irea structurii paginilor unui site web, optimizarea tehnicilor de caching.

Data Mining

Bibliografie

Web Mining

Bibliografie

1 M. Craus et al., Reg˘asirea Informat¸iilor pe WEB, Editura POLITEHNIUM, Ia¸si 2005, capitolul 4

5 Ioan Agavriloaei, Modele ¸si algoritmi de Web Mining, Teza de doctorat, UTI,

2012

7 Usama Fayyad, Gregory Piatetsky-shapiro & Padhraic Smyth. From Data Mining to Knowledge Discovery in Databases. AI Magazine, vol. 17, pages 37 – 54, 1996.