Sunteți pe pagina 1din 19

Data Mining

Web Mining

Bibliografie

Regasirea Informatiilor pe WEB


Curs 10: Data/Web Mining

s.l. dr. ing. Alexandru ARCHIP


alexandru.archip@cs.tuiasi.ro
Facultatea de Automatic
a si Calculatoare, Iasi

an universitar: 2014 2015

RIWeb 2014 2015/C10: Data/Web Mining

1/ 19

Data Mining

Web Mining

Bibliografie

Cuprins

Data Mining
Definitie
Etape implicate n descoperirea de cunostinte
Metode de analiza specifice Data Mining
Exemple

Web Mining
Definitii si concepte generale
Tehnici de analiza specifice Web Mining

RIWeb 2014 2015/C10: Data/Web Mining

2/ 19

Data Mining

Web Mining

Bibliografie

Definitie

Descoperirea de cunostinte
Definitie
Descoperirea de cunostinte (data mining sau knowledge discovery) nseamna
extragerea informatiilor (cunostintelor) interesante netriviale, eventual implicite,
necunoscute anterior si potential utile sau descoperirea de tipare printre datele
stocate n baze de date sau n alte forme de stocare.
Observatii
Interpretarea solutiilor oferite este strict dependenta de domeniul de
aplicabilitate.
Este important de stiut ca[6]:
Data mining is a tool, not a magic wand. It wont sit in your
database watching what happens and send you e-mail to get your
attention when it sees an interesting pattern. It doesnt eliminate
the need to know your business, to understand your data, or to
understand analytical methods.
RIWeb 2014 2015/C10: Data/Web Mining

3/ 19

Data Mining

Web Mining

Bibliografie

Etape implicate n descoperirea de cunostinte

Etape implicate n descoperirea de cunostinte


Preprocesarea
1

Intelegerea domeniului de aplicatie, a cunostintelor anterioare, precum


si a scopurilor ce se doresc a fi atinse prin analiza.

Crearea unui set tint


a de date, fapt ce implica selectarea unui set de date,
concentrarea asupra unui subset de variabile sau modele de date asupra
carora sa se execute procesul de descoperire a cunostintelor.

Cur
atarea datelor: colectarea informatiilor necesare pentru modelarea sau
recunoasterea zgomotelor, nlaturarea acestor zgomote si a datelor ce nu
furnizeaza informatii relevante, generarea de strategii pentru tratarea
campurilor de date lipsa sau incomplete.

Reducerea seturilor de date ce vor fi analizate prin transformarea unui set


de atribute, prin extrapolarea unor valori de interes sau pur si simplu prin
restrangerea setului complet de atribute/caracteristici catre un set minimal de
strict interes.

RIWeb 2014 2015/C10: Data/Web Mining

4/ 19

Data Mining

Web Mining

Bibliografie

Etape implicate n descoperirea de cunostinte

Etape implicate n descoperirea de cunostinte (2)


Analiza datelor
1

Alegerea unei metode de extragere a informatiilor, n functie de telul dorit


(extragerea regulilor de clasificare a datelor, extragerea regulilor de asociere
sau analiza diferitelor secvente ntalnite n baza de date).

Alegerea unui algoritm adecvat: selectarea metodelor de analiza n functie


de eventuale constrangeri impuse de particularitatile datelor analizate sau
adoptarea unui model valabil, adecvat domeniului tinta.

Aplicarea metodelor de analiz


a si extragerea efectiva a informatiilor noi.

Analiza rezultatelor
1

Validarea si interpretarea rezultatelor extrase.

Consolidarea informasiilor descoperite

RIWeb 2014 2015/C10: Data/Web Mining

5/ 19

Data Mining

Web Mining

Bibliografie

Etape implicate n descoperirea de cunostinte

Etape implicate n descoperirea de cunostinte (3)

Figura 1: Procesul de descoperire de cunostinte [7]

RIWeb 2014 2015/C10: Data/Web Mining

6/ 19

Data Mining

Web Mining

Bibliografie

Metode de analiz
a specifice Data Mining

Metode de analiza a datelor

Clusterizarea (identificarea gruparilor de date)


Tip: analiz
a descriptiv
a.
Scop: identificarea unui num
ar finit de categorii (grupuri/clustere) ce
descriu mai bine datele existente pe baza similarit
atilor dintre aceste date.
Identificarea regulilor de clasificare
Tip: analiz
a predictiv
a.
Scop: determinarea/nvatarea, pe baza datelor existente, a unei functii
de mapare (clasificator) cu rol n determinarea claselor de apartenent
a
pentru datele noi ce vor fi achizitionate/acumulate.

RIWeb 2014 2015/C10: Data/Web Mining

7/ 19

Data Mining

Web Mining

Bibliografie

Metode de analiz
a specifice Data Mining

Metode de analiza a datelor (2)

Regresia
Tip: analiz
a predictiv
a.
Scop: determinarea unei functii de mapare a valorilor atributelor de
interes peste valori reale pentru a prezice un anumit comportament.
Identificarea tiparelor frecvente si a regulilor de asociere
Tip: analiz
a descriptiv
a.
Scop: determinarea subseturilor ce apar mpreun
a ntr-un anumit set de
valori sau determinarea unor relatii (n mod uzual, relatii de coexistent
a)
n cadrul acelui set de valori.

RIWeb 2014 2015/C10: Data/Web Mining

8/ 19

Data Mining

Web Mining

Bibliografie

Metode de analiz
a specifice Data Mining

Metode de analiza a datelor (3)

Analiza secventelor
Tip: analiz
a descriptiv
a.
Scopt: determinarea acelor secvente ce apar mpreun
a n cadrul unui
anumit volum de date. Spre deosebire de determinarea tiparelor frecvente, n
cadrul analizei secventelor entit
atile ce pot constitui o secvent
a nu sunt
n mod necesar omogene (nu au aceeasi semnificatie). In plus, o secventa
frecventa nu este conditionat
a de o limit
a de tip suport minim.

RIWeb 2014 2015/C10: Data/Web Mining

9/ 19

Data Mining

Web Mining

Bibliografie

Exemple

Exemple de utilizare a Data Mining

Economie
Analiza cosului de cumparaturi Ce produse sunt frecvent achizitionate mpreuna?
Tipare frecvente si reguli de asociere
Analiza dosarului de credit Este sau nu un client de ncredere?
Reguli de clasificare
Genetica
Analiza secventelor ADN Exista legaturi ntre structura ADN si predispozitia fata
de anumite boli/afectiuni?
Reguli de asociere, tipare frecvente, analiza secventelor

RIWeb 2014 2015/C10: Data/Web Mining

10/ 19

Data Mining

Web Mining

Bibliografie

Exemple

Exemple de utilizare a Data Mining (2)

Pedagogie
Analiza situatiilor scolare Determinarea grupelor de risc sau determinarea
factorilor ce influenteaza performantele academice
Reguli de clasificare
IT
Securitatea sistemelor informatice Detectia intruziunilor
Clusterizare, reguli de clasificare
Motoare de cautare Optimizarea functionalitatii, cresterea performantelor
Regresie, clusterizare, reguli de clasificare, reguli de asociere
sau analiza grafurilor (graph mining)

RIWeb 2014 2015/C10: Data/Web Mining

11/ 19

Data Mining

Web Mining

Bibliografie

Definitii si concepte generale

Caracteristicile spatiului de analiza

Caracteristici ale Web-ului:


mediu interactiv;
volum imens de date;
continut foarte variat;
continut dinamic.
Probleme ale utilizatorilor:
regasirea rapida a informatiilor relevante:
lipsa de precizie a motoarelor de c
autare;
imposibilitatea index
arii complete a informatiilor prezente pe WEB;

regasirea adaptabila a informatiilor.

RIWeb 2014 2015/C10: Data/Web Mining

12/ 19

Data Mining

Web Mining

Bibliografie

Definitii si concepte generale

Definitie si tipuri de date

Definitie
WEB Mining reprezinta procesul de utilizare a tehnicilor data mining
(extragerea automata/semi-automata de cunostinte) asupra documentelor si
serviciilor WEB.
Tipuri de date WEB ce pot fi analizate
date de continut:
fisiere HTML, text, XML, continut generat dinamic, continut multimedia;

date de structura:
leg
aturile dintre pagini, stuctura site-urilor/documentelor WEB;

date de utilizare corelate cu date de tip profil utilizator.

RIWeb 2014 2015/C10: Data/Web Mining

13/ 19

Data Mining

Web Mining

Bibliografie

Tehnici de analiz
a specifice Web Mining

Clasificarea tehnicilor de Web Mining


Analiza continutului (Content Mining)
Tehnici de gasire a modelelor din obiecte/documente WEB;
Clasificarea obiectelor WEB, extragerea cuvintelor cheie relevante,
structurarea obiectelor nestructurate/semistructurate
Analiza de structur
a (Structure Mining)
Regasirea topologiilor de interconectare dintre diversele obiecte WEB;
Regasirea informatiilor legate de structura documentelor Web.
Analiza utiliz
arii (Usage Mining)
Tehnici de descoperire a modelelor de folosire a datelor WEB

RIWeb 2014 2015/C10: Data/Web Mining

14/ 19

Data Mining

Web Mining

Bibliografie

Tehnici de analiz
a specifice Web Mining

Clasificarea tehnicilor de Web Mining (2)

Analiza continutului
Analiza paginilor WEB sau analiza unui set de rezultate tinta.
Tehnici asemanatoare cu tehnicile clasice de extragere de cunostinte n sensul
regasirii aceluiasi tip de cunostinte.
Opereaza asupra unor tipuri foarte variate de date: fisiere ascii, fisiere
imagine, video, audio, etc.
Tipuri de cunostinte ce pot fi extrase:
relatii de generalizare;
reguli de caracterizare, de clasificare sau de asociere.

Selectia algoritmilor utilizati este strict dependenta de rezultatul urmarit.

RIWeb 2014 2015/C10: Data/Web Mining

15/ 19

Data Mining

Web Mining

Bibliografie

Tehnici de analiz
a specifice Web Mining

Clasificarea tehnicilor de Web Mining (3)

Analiza continutului (2)


Documentele sunt total nestructurate:
atribute diferite pot avea acelasi nteles pentru locatii WEB diferite;
metode diferite de expunere a acelorasi informatii;
solutii uzuale: integrarea semantic
a a documentelor WEB.

Volum imens de date redundante/neinteresante:


trebuie identificat un subset WEB care ar putea contine date interesante
pentru analiz
a.

RIWeb 2014 2015/C10: Data/Web Mining

16/ 19

Data Mining

Web Mining

Bibliografie

Tehnici de analiz
a specifice Web Mining

Clasificarea tehnicilor de Web Mining (4)


Analiza de structur
a
Tipuri de cunostinte ce pot fi extrase:
stuctura unui site/domeniu WEB;
informatii de tip relevant
a.

In mod uzual, analiza este concentrata pe utilizarea legaturilor dintre paginile


WEB:
dac
a analiza este axat
a pe frecventa apel
arii leg
aturilor dintr-un site WEB, se
pot determina informatii legate de completitudinea site-ului n cauz
a;
dac
a analiza este axat
a pe frecventa leg
aturilor unei pagini WEB cu alte pagini
ce apartin de acelasi site WEB, se pot obtine informatii legate de fluxul
documentelor WEB;
dac
a analiza este axat
a pe num
arul de leg
aturi ale unui document WEB cu
alte documente WEB, se pot reg
asi informatii legate de vizibilitatea paginilor
WEB sau informatiile legate de relationarea documentelor similare ce apartin
de site-uri diferite.

RIWeb 2014 2015/C10: Data/Web Mining

17/ 19

Data Mining

Web Mining

Bibliografie

Tehnici de analiz
a specifice Web Mining

Clasificarea tehnicilor de Web Mining (5)


Analiza utiliz
arii
Tipuri de cunostinte ce pot fi extrase:
identificarea modelelor de acces la un site WEB (informatiile pot fi cu caracter
general sau cu caracter personalizat).

Implica de cele mai multe ori analiza fisierelor de tip log generate de
server-ele WEB.
Exemple:
se pot obtine informatii importante legate de ce site-uri sunt vizitate mpreun
a
de utilizatori (n cazul general) sau de grupuri de utilizatori (ca si caz
paticular) prin extragerea tiparelor frecvente si a regulilor de asociere.

Rezultatele obtinute pot fi utilizate pentru: personalizarea procesului de


interactiune cu utilizatorii, mbunatatirea structurii paginilor unui site web,
optimizarea tehnicilor de caching.

RIWeb 2014 2015/C10: Data/Web Mining

18/ 19

Data Mining

Web Mining

Bibliografie

Bibliografie
1

M. Craus et al., Regasirea Informatiilor pe WEB, Editura POLITEHNIUM,


Iasi 2005, capitolul 4
Christopher D. Manning, Prabhakar Raghavan and Hinrich Sch
utze,
Introduction to Information Retrieval, Cambridge University Press. 2008

Raymond J. Mooney Information Retrieval and Web Search (note de curs)

Wikipedia Index (search engine)

Ioan Agavriloaei, Modele si algoritmi de Web Mining, Teza de doctorat, UTI,


2012

Two Crows Corporation. Introduction to Data Mining and Knowledge


Discovery, third edition, 2005

Usama Fayyad, Gregory Piatetsky-shapiro & Padhraic Smyth. From Data


Mining to Knowledge Discovery in Databases. AI Magazine, vol. 17, pages
37 54, 1996.

Wikipedia: Web Mining

RIWeb 2014 2015/C10: Data/Web Mining

19/ 19

S-ar putea să vă placă și