Documente Academic
Documente Profesional
Documente Cultură
MASTERAND:
IONUT ATASIEI
BUCURESTI
2010
CUPRINS
Bibliografie...................................................................................................11
Pentru a-i atinge principalul scop, de a extrage modele de cunotine din date,
data miningul utilizeaz o varietate de algoritmi din statistic, recunoaterea formelor,
clasificare, logica fuzzy, nvare automat (machine learning), algoritmi genetici, reele
neuronale, vizualizarea datelor, etc. Varietatea de algoritmi poate fi grupat n
principalele componente ale data miningului. Numrul acestor componente difer de la
un autor la altul, ele fiind n principal:
din domeniu.
n ultimul timp ns, se face o distincie clar ntre cei doi termeni. Distincia care
se face este referitoare la faptul c descoperirea de cunotine din bazele de date (KDD)
poate fi considerat ca procesul de extragere a informaiilor folositoare i interesante din
baza de date. Aa cum am artat i mai sus, (fig.1.1-1) acest proces include selectarea,
pregtirea datelor, manipularea i analiza rezultatelor. Pe de alt parte, extragerea datelor
(Data Mining) este considerat procesul de aplicare a algoritmilor de descoperire a
cunotinelor i este o etap a procesului KDD.
Autorii care fac deosebire ntre DM i KDD considera KDD ca fiind un proces
iterativ i interactiv complex, care include DM. Astfel, n cadrul KDD se consider c
extragerea cunotinelor se realizeaz n urmtorii pai (fig.1.1-1):
Unele cunotine din domeniu sunt deja codate n interiorul bazei de date. De
exemplu, existena unei constrngeri de not null. De asemenea, cardinalitatea
dintre legturi (relaii) este explicit specificat n interiorul structurii bazei de
date, la fel i constrngerile.
Interogarea bazei de date la performante ridicate, precum i existena unor unelte
de manipulare a datelor i a tranzaciilor
Numrul de baze de date pe care se aplic tehnici de minare este mare i n
cretere. Efortul consumat n dezvoltarea unor astfel de unelte este economic
viabil
Volumul de date este foarte mare. De exemplu, sistemul SKICAT a fost dezvoltat
pentru a procesa trei terabytes de imagini grafice rezultate dintr-o vedere a
cerului. Din acest motiv, orice unealt de extragere de date trebuie s se execute
satisfctor pe un volum mare de date
Datele pot conine zgomot. Uneltele de extragere de date trebuie s ofere un
mecanism adecvat pentru gsirea rezultatelor suficient de corecte din date
zgomotoase.
Datele pot conine informaii incomplete. Nu toate informaiile folositoare pentru
descoperirea de cunotine pot fi realmente depozitate n baza de date. De
asemenea, pot fi prezente multe date redundante sau inutile. Aadar uneltele de
extragere de date trebuie s faciliteze att selectarea datelor relevante ct i
nvarea cu cunotine incomplete.
Datele nu au fost, n general, colectate cu scopul de descoperire a cunotinelor.
Uneltele de descoperire a cunotinelor trebuie aadar s acceseze date depozitate
n forme variate.
comerul electronic este de a mbunti procesele care contribuie la livrarea valorii ctre
consumatorul final. S lum ca exemplu un magazin online ca www.dell.com, unde
clientul poate configura un PC dup cum dorete, poate face o comand, o poate urmri
online, i poate plti pentru produse sau servicii. Avnd n vedere tehnologia din spatele
unui asemenea web site, Dell are oportunitatea s transforme experiena n vnzri n
ceva excepional. La nivelul de baz, informaia disponibil n fiiere log web poate
revela ce vor potenialii clieni de la un site. Urmresc s cumpere ceva sau doar se uit?
Cumpr ceva cu care sunt deja obinuii sau ceva despre care nu cunosc prea multe?
Cumpr de acas, de la serviciu, sau de la hotel? Informaia disponibil n fiiere log
este adesea folosit (Auguste 2001) pentru a determina ce mod de alctuire a profilului
poate fi procesat dinamic pe fundal i indexat n generarea dinamic de HTML, precum i
ce performan se ateapt de la servere i reea pentru a sprijini serviciile clienilor i a
face comerul electronic productiv.
Companii ca Dell ofer clienilor lor accesul la detalii despre toate sistemele i
configuraiile pe care le-au cumprat pentru c acetia s poat ncorpora informaiile n
planificarea capacitii i integrarea infrastructurii. Sistemele tehnologice back-end
pentru website includ unelte de data mining sofisticate care au grij de reprezentarea
profilurilor clienilor i de modelarea predictiv a posibilelor interaciuni dintre clieni.
De exemplu, dac un client a cumprat un anumit numr de servere, cel mai probabil vor
avea nevoie de mai multe routere, switch-uri, dispozitive de backup etc. Sistemele bazate
pe explorarea regulilor pot fi folosite pentru a propune asemenea alternative clienilor.
potrivirii.
T=t1,t2, ..., tm unde fiecare i aparinnd lui T este i un subset al lui P. Conceptual,
fiecare tranzacie t poate fi vzut ca un set de l perechi ordonate: t = {(p'1, w(p'1)), (p'2,
w(p'2)),... , (p'\, w(p'\))}, unde w(p'1) reprezint greutatea lui p'1 din tranzacia t . Geutatile
pot fi determinate prin mai multe metode, n funcie de tipul de analiz aplicat datelor.
De exemplu n aplicaiile de filtrare colaborativ, aceste valori pot fi determinate pe baza
ratingului itemurilor. n majoritatea cazurilor de web mining accentul se pune n general
pe navigarea uerilor anonimi, principalele surse de date fiind nregistrrile din server.
Acest fapt permite alegerea a dou tipuri de greuti pentru vizionrile de pagini : de tip
binar adic s-a logat sau nu s-a logat pe pagin sau pot avea o valoare corespunztoare
duratei vizionrii paginii de ctre user intr-o sesiune.
2.3.4 Un exemplu
Considerm un site cu 6 vizionri A,B, C, D, E i F. presupunnd c greutile
vizionrilor asociate unei sesiuni a uerului sunt determinate de numrul de secunde
pentrecute n fiecare, un vector tipic de tranzacie poate arta ca urmtorul: (11, 0 , 22, 5,
127, 0). n acest caz vectorul arat c utilizatorul a petrecut 11 secunde pe pagin A, 22
de secunde pe pagina C, 5 secunde pe pagina D i 127 de secunde pe pagina E. vectorul
indic i c nu au fost vizitate paginile B i F n aceast tranzacie. Data fiind aceast
reprezentare, setul tuturor celor m tranzacii ale uerului pot fi vzute conceptual ca o
matrice m x n a vizionrilor pe tranzacie. Aceast matrice poate fi apoi folosit pentru
aplicarea unor procedee de data-mining. Spre exemplu pot fi executate culcule de
similaritate pe rndurile matricei petru determinarea vecinilor i a aglomerrilor sau pot fi
aplicai algoritmi pentru descoperirea unor reguli de asociaie ale vizionrilor cu anumite
categorii de ueri.
cumprtori al acestora.
Site-urile web sunt folosite adesea pentru consolidarea imaginii unei companii,
promovarea i vazarea de bunuri i informarea clienilor. Succesul unui site web
afecteaz i reflect totodat succesul companiei pe piaa electronic. Spiliopuolou i
Pohle (2000) o propus o metodologie pentru mbuntirea succesului unui site web,
bazndu-se pe exploatarea idenficarii unor tipare de navigare. n partiular cei doi autori
prezint o teorie n care succesul este modelat pe baza modului de navigare al
utilizatorilor site-ului. Apoi folosesc Web Usage Miner (WUM), un program de explorare
al tiparelor, pentru a se studia cum succesul unui site se reflect n comportamentu
uerilor. Cu ajutorul WUM este msurat succesul componentelor unui site i se obin
informaii concrete despre modul n care site-ul poate fi mbuntit.
Bibliografie
[Witten, 2005] Witten Ian H., Eibe Frank, Data Mining Practical Machine Learning
Tools. Second Edition,
[Bates, 2003] Bates D.W., Evans R.S., Murff H., Stetson P.D., Pizziferi L, Hripsack G.,
Detecting Adverse Events Using Information Technology JAMIA
[Adriaans, 1996] Adriaans P; Zantige, Data mining, Edingburgh: Addison Wesley.
[Fayyad, 1996] Fayyad U M, Piatetsky-Shapiro, Smyth P, From data mining to
knowledge discovery : an overview. Advances in Knowledge Discovery and Data
Mining, MIT
[Niu, 2002] Niu L, Yan XW, Zhang C Q, Zhang S C, Product hierarchy-based
customer profiles for electronic commerce recommendation In Int. Conf. on Machine
Learning and Cybernetics
[Srinivasa] Srinivasa N R Raghavan, Data mining in e-commerce: A survey