Sunteți pe pagina 1din 11

UNIVERSITATEA POLITEHNICA DIN BUCURESTI

FACULTATEA DE AUTOMATICA SI CALCULATOARE


IMSA

DATA MINING O UNEALTA PENTRU


BUSINESS INTELLIGENCE

MASTERAND:
IONUT ATASIEI

BUCURESTI
2010

CUPRINS

1 Explorarea datelor: Descoperirea cunotinelor(KDD) i Data Mining.


Concepte generale.........................................................................................3
1.1 Principiile data-miningului........................................................................................3
Folosirea data miningului n comerul electronic ...........................................................6
2.3.1 Utilizarea data miningului n gsirea unui profil al clientului ...........................6
2.3.2 Utilizarea data miningului n sistemele de recomandare....................................7
2.3.3 Utilizarea data mining-ului n personalizarea web.............................................8
2.3.4 Un exemplu.........................................................................................................9
2.3.5 Data-miningul i comerul electronic..................................................................9

Bibliografie...................................................................................................11

1 Explorarea datelor: Descoperirea cunotinelor(KDD) i


Data Mining. Concepte generale

1.1 Principiile data-miningului


Descoperirea cunotinelor din bazele de date (Knowledge Discovery n
Databases KDD) sau extragerea de date (Data Mining DM) urmrete, mbinnd
discipline precum statistic, informatic sau matematic, s identifice automat similariti
ntre inregistrrile prezente n baze mari de date, atunci cnd analiza clasic se dovedete
prea greoaie sau mult prea consumatoare de resurse pentru a fi rentabil. KDD a fost
conceput n anul 1989, pentru a desemna o zon de cercetare bazat pe metode de Data
Mining, recunoaterea formelor, nvare automat i tehnici de baze de date n contextul
bazelor de date de dimensiuni mari. Prima conferin internaional pe Knowledge
Discovery i Data Mining a avut loc n 1995 (KDD95), n zilele de azi reprezentnd un
domeniu de vrf, n plin avnt.
Pentru data mining au fost propuse mai multe definiii, dintre care amintesc dou:
Definiia 1.1: Data mining este procesul de descoperire a diferitelor modele, informaii
agregate i valori derivate dintr-o colecie de date dat. (Kantardzic, 2003 [Kan03])
Definiia 1.2: Data mining este procesul de a extrage tendine sau abloane din date i
este sarcina esenial a procesului mai larg, de descoperire a cunotinelor n bazele de
date (KDD), definit prin: extragerea netriviala a informaiilor implicite, necunoscute i
potenial utile din date. (Frawley W.J., Piatetsky-Shapiro & Matheus, 1991 [FPSM91])
Datorit extragerii de cunotine din bazele de date, acestea au devenit surse
deosebit de utile pentru generarea i verificarea cunotinelor, iar cunotinele descoperite
pot fi aplicate ntr-o varietate larg de domenii precum managementul informatic, analiza
de credit, luarea deciziilor, controlul proceselor i multe alte domenii de larg interes.
Aadar, extragerea de cunotine este considerat unul dintre cele mai actuale i
importante domenii de cercetare n baze de date. Marketingul modern folosete din ce n
ce mai mult rezultate obinute prin data mining, fiind alturi de domeniul bancar
principalul
beneficiar
al
dezvoltrii
acestei
noi
tiine.

Pentru a-i atinge principalul scop, de a extrage modele de cunotine din date,
data miningul utilizeaz o varietate de algoritmi din statistic, recunoaterea formelor,
clasificare, logica fuzzy, nvare automat (machine learning), algoritmi genetici, reele
neuronale, vizualizarea datelor, etc. Varietatea de algoritmi poate fi grupat n
principalele componente ale data miningului. Numrul acestor componente difer de la
un autor la altul, ele fiind n principal:

modelul - care, ca orice model informatic, se reprezint printr-o funcie ntr-un


spaiu unidimensional sau multidimensional (un ansamblu de funcii), depinznd
de parametri. El poate fi reprezentat fie ca o funcie liniara de parametri, fie ca o
funcie de probabilitate (de exemplu normal), fie ca o funcie fuzzy, etc.
Obinerea modelului se realizeaz prin diferii algoritmi, cum ar fi cei de
clasificare i grupare (clusterizare);
criteriile de preferin - care pot fi de natur diferit, unele dintre acestea
bazanduse pe ordonare, altele pe interpolare sau cea mai bun aproximare;
algoritmi de selecie - care conduc la selectarea a trei elemente importante care
apar n DM, i anume: modelul (tiparul), care se selecteaz din baza de modele,
datele, care se selecteaz din baza de date i constituie parametri, i criteriul sau
criteriile de preferine, care se selecteaz din baza de criterii;
stabilirea abaterilor - care const n general n algoritmi de determinare a
deviaiei i stabilitii; o categorie specific de astfel de algoritmi sunt cei
statistici, prin care se stabilesc abaterile modelului fa de ideal.

Bineneles c fiecare produs comercial utilizeaz mai muli algoritmi i n fiecare


dintre ei se regsesc o parte sau toate componentele de mai sus n diferite proporii.
Deoarece extragerea de date (Data Mining) este partea central a procesului
dedescoperire de cunotine din bazele de date (KDD), termenii data mining i
descoperireade cunotine din baze de date au fost utilizai alternativ de muli cercettori

din domeniu.
n ultimul timp ns, se face o distincie clar ntre cei doi termeni. Distincia care
se face este referitoare la faptul c descoperirea de cunotine din bazele de date (KDD)
poate fi considerat ca procesul de extragere a informaiilor folositoare i interesante din
baza de date. Aa cum am artat i mai sus, (fig.1.1-1) acest proces include selectarea,
pregtirea datelor, manipularea i analiza rezultatelor. Pe de alt parte, extragerea datelor
(Data Mining) este considerat procesul de aplicare a algoritmilor de descoperire a
cunotinelor i este o etap a procesului KDD.
Autorii care fac deosebire ntre DM i KDD considera KDD ca fiind un proces
iterativ i interactiv complex, care include DM. Astfel, n cadrul KDD se consider c
extragerea cunotinelor se realizeaz n urmtorii pai (fig.1.1-1):

nvarea domeniului aplicaiei - care const n achiziia unor cunotine despre


starea iniial, precum i despre scopul aplicaiei;
stabilirea setului de date - cruia i se va aplica procesul de extragere a
cunotinelor; majoritatea autorilor atrag atenia asupra acestei faze, numite i faza
de preprocesare;
curirea i selectarea datelor - care este un proces complex, specific depozitelor
de date, n cadrul cruia se nltura zgomotele, se reduc dimensiunile, se stabilete
modul de nlocuire a datelor care lipsesc, etc.;
aplicarea procedurilor de DM - care este de fapt pasul cel mai important al
procesului KDD;
interpretarea rezultatelor din punct de vedere al utilizatorului - care este o faz
de decizie; dac acesta nu este mulumit de rezultat, poate relua oricare dintre
fazele precedente;
utilizarea cunotinelor descoperite - care este faza final; aceast utilizare se
realizeaz fie prin includerea lor n sisteme integrate de cunotine fie, pur i
simplu, prin rapoarte simple adresate celor interesai.

Aadar, KDD/Data Mining este un domeniu inter-disciplinar care dezvolt


algoritmi i procese pentru descoperirea cunotinelor (categorii, tipare, concepte, relaii
i tendine), ne-structurate. Deoarece cercettorii din domeniul KDD vin din cele mai
diverse domenii, aa cum era de ateptat, KDD a mprumutat multe de la teoriile
tradiionale ale nvrii automate ct i de la bazele de date. nvarea poate fi definit ca
i achiziionarea de cunotine fr o programare explicit. nvarea automat are ca
scop automatizarea procesului de nvare, aa nct cunotinele s poat fi obinute cu
minim de efort din partea experilor umani. nvarea automat, n mod tradiional, este
orientat pe nvarea din seturi specificate i n multe cazuri din date generate artificial.
Extragerea de date (Data Mining) are ca scop s adapteze aceste paradigme ale nvrii
automate la nvarea din baze de date care conin date din lumea real. nvarea din
baze de date are cteva avantaje:
Datele sunt depozitate ntr-o manier mai mult sau mai puin structurat. De
exemplu, ntr-o baz de date relaionala, datele sunt normalizate n relaii,
eliminnd astfel redundanta iar relaiile pot fi combinate prin diferite ci pentru a
regsi seturile de date cerute din baza de date.

Unele cunotine din domeniu sunt deja codate n interiorul bazei de date. De
exemplu, existena unei constrngeri de not null. De asemenea, cardinalitatea
dintre legturi (relaii) este explicit specificat n interiorul structurii bazei de
date, la fel i constrngerile.
Interogarea bazei de date la performante ridicate, precum i existena unor unelte
de manipulare a datelor i a tranzaciilor
Numrul de baze de date pe care se aplic tehnici de minare este mare i n
cretere. Efortul consumat n dezvoltarea unor astfel de unelte este economic
viabil
Volumul de date este foarte mare. De exemplu, sistemul SKICAT a fost dezvoltat
pentru a procesa trei terabytes de imagini grafice rezultate dintr-o vedere a
cerului. Din acest motiv, orice unealt de extragere de date trebuie s se execute
satisfctor pe un volum mare de date
Datele pot conine zgomot. Uneltele de extragere de date trebuie s ofere un
mecanism adecvat pentru gsirea rezultatelor suficient de corecte din date
zgomotoase.
Datele pot conine informaii incomplete. Nu toate informaiile folositoare pentru
descoperirea de cunotine pot fi realmente depozitate n baza de date. De
asemenea, pot fi prezente multe date redundante sau inutile. Aadar uneltele de
extragere de date trebuie s faciliteze att selectarea datelor relevante ct i
nvarea cu cunotine incomplete.
Datele nu au fost, n general, colectate cu scopul de descoperire a cunotinelor.
Uneltele de descoperire a cunotinelor trebuie aadar s acceseze date depozitate
n forme variate.

Un scop general al cercetrii n domeniul descoperirii de cunotin i al extragerii


de date este acela al utilizrii avantajelor nvrii din baze de date innd cont de
constrngerile impuse.

Folosirea data miningului n comerul electronic


n acesta seciune cercetm articole care sunt specifice implementrilor data
mining n comerul electronic. Aplicaiile dominante (caracteristice) ale tehnicilor de data
mining sunt prezentate primele. Urmeaz apoi s discutm chestiuni legate de arhitectur
i colectarea datelor.

2.3.1 Utilizarea data miningului n gsirea unui profil al clientului


Ctigarea unor clieni noi, satisfacerea i pstrarea clienilor existeni, precum i
prezicerea comportamentului cumprtorilor va mbunti disponibilitatea produselor i
serviciilor i prin urmare va mri profiturile. Aadar scopul final al data miningului n

comerul electronic este de a mbunti procesele care contribuie la livrarea valorii ctre
consumatorul final. S lum ca exemplu un magazin online ca www.dell.com, unde
clientul poate configura un PC dup cum dorete, poate face o comand, o poate urmri
online, i poate plti pentru produse sau servicii. Avnd n vedere tehnologia din spatele
unui asemenea web site, Dell are oportunitatea s transforme experiena n vnzri n
ceva excepional. La nivelul de baz, informaia disponibil n fiiere log web poate
revela ce vor potenialii clieni de la un site. Urmresc s cumpere ceva sau doar se uit?
Cumpr ceva cu care sunt deja obinuii sau ceva despre care nu cunosc prea multe?
Cumpr de acas, de la serviciu, sau de la hotel? Informaia disponibil n fiiere log
este adesea folosit (Auguste 2001) pentru a determina ce mod de alctuire a profilului
poate fi procesat dinamic pe fundal i indexat n generarea dinamic de HTML, precum i
ce performan se ateapt de la servere i reea pentru a sprijini serviciile clienilor i a
face comerul electronic productiv.
Companii ca Dell ofer clienilor lor accesul la detalii despre toate sistemele i
configuraiile pe care le-au cumprat pentru c acetia s poat ncorpora informaiile n
planificarea capacitii i integrarea infrastructurii. Sistemele tehnologice back-end
pentru website includ unelte de data mining sofisticate care au grij de reprezentarea
profilurilor clienilor i de modelarea predictiv a posibilelor interaciuni dintre clieni.
De exemplu, dac un client a cumprat un anumit numr de servere, cel mai probabil vor
avea nevoie de mai multe routere, switch-uri, dispozitive de backup etc. Sistemele bazate
pe explorarea regulilor pot fi folosite pentru a propune asemenea alternative clienilor.

2.3.2 Utilizarea data miningului n sistemele de recomandare


Sistemele au fost de asemenea dezvoltate pentru a ine la curent clienii cu
evenimentele importante care i-ar putea interesa. Articolul scris de Jeng i Drissi (2000)
discut despre un framework numit PENS care are att abilitatea de a ntiina clienii cu
privire la evenimente, ct i de a prezice evenimente i clase de evenimente care probabil
vor fi cauzate de clieni. Sistemul de notificare a evenimentelor n PENS are urmtoarele
componene: managerul evenimentului, managerul canalului evenimentului, regitrii i
managerul proxy. Sistemul de prezicere a evenimentelor se bazeaz pe explorarea
regulilor i algoritmi de aglomerare. Sistemul PENS este folosit pentru a ajuta n mod
activ un furnizor de servicii de comer electronic s prevad cu o mai mare exactitate
cererea unor categorii de produse. Data mining a fost de asemenea pus n aplicare n
detectarea diverselor reacii ale clienilor la oferte promoionale fcute de o companie
productoare de cri de credit n comerul electronic (Zhang et al 2003). Tehnici care
includ calcule fuzzy i calcule de interval sunt folosite pentru a genera reguli if-then-else.
Niu et al (2002) prezint o metod de a construi profilurile clienilor n contextul
comerului electronic, bazat pe ierarhia produselor pentru o personalizare mai eficient.
Ei divid fiecare profil de client n trei pri: profilul de baz aflat din datele demografice
ale clientului; profilul preferinelor aflat din datele referitoare la comportamentul sau
obiceiurile clientului; profilul regulilor, care se refer n special la regulile de asociere.
Bazndu-se pe profilurile clientului, autorii genereaz dou tipuri de recomandri, i
anume recomandrile de interes i recomandrile de asociere. Ei propun de asemenea o
structur de date special numit arborele profilului pentru a mri eficiena cutrii i

potrivirii.

2.3.3 Utilizarea data mining-ului n personalizarea web


Mobasher (2004) prezint o analiz comprehensiv a procesului de personalizare
bazat pe explorarea folosirii webului. n acest context, autorul discut o mulime de
activiti de explorare a folosirii webului necesare pentru acest proces, inclusiv
preprocesarea i integrarea datelor din surse multiple, precum i tehnici de descoperire a
tiparului comun care sunt aplicate datelor de uz integrat. Scopul acestei lucrri este s
arate cum tehnicile de descoperire a tiparelor cum ar fi aglomerarea, explorarea regulilor
prin asociere, i descoperirea secvenial a tiparelor, aplicate n cazul datelor folosirii
webului, pot fi folosite cu eficient ca parte integrant a unui sistem web de
personalizare. Autorul observ c datele log colectate automat de ctre web i serverele
de aplicaie reprezint n general comportamentul de navigaie al vizitatorilor.
n funcie de scopurile analizei, datele din comerul electronic trebuie
transformate i agregate la diferite nivele de abstracie. Datele din comerul electronic
sunt de asemenea clasificate n continuare ca datele folosirii, datele coninutului, datele
structurii, i datele utilizatorului. Datele folosirii conin detalii privitoare la sesiunile
utilizatorului i vizionrile pgnilor. Datele coninutului ntr-un site sunt obiectele i
relaiile transmise ctre utilizator. n cea mai mare parte, datele cuprind combinaii de
texte i imagini. Sursele datelor folosite la livrarea sau generarea datelor includ pagini
HTML/XML statice, imagini, videoclipuri, fiiere de sunet, segmente de pagin generate
dinamic din scripturi sau alte aplicaii, precum i colecii de nregistrri din baz/bazele
de date operaional/e. Datele privind coninutul site-ului includ de asemenea meta-date
semantice sau structurale ncorporate n site sau pagini individuale, cum ar fi cuvinte
cheie descriptive, atributele documentelor, taguri semantice sau variabile HTTP. Datele
structurii reprezint punctul de vedere al designerului vis--vis de organizarea
coninutului n cadrul site-ului. Aceast organizare este capturat prin structura de
legtur ntre pagini, aa cum e ea reflectat prin hyperlink-uri. Datele privitoare la
structur includ de asemenea structur coninutului paginii reprezentat n aranjamentul
tagurilor HTML sau XML n cadrul unei pagini. Datele structurii pentru un site sunt n
mod normal capturate de o hart a site-ului generat automat care reprezint structura
hyperlink a site-ului. Baza(ele) de date operaional(e) pentru site pot include informaii
adiionale cu privire la profilul utilizatorului. Asemenea date pot s includ informaii
demografice sau alte informaii de identificare privitoare la utilizatorii nregistrai,
voturile i notele acordate de utilizatori diverselor obiecte cum ar fi pagini, produse sau
filme, cumprturile fcute n trecut sau istoria vizitelor fcute de utilizatori, precum i
alte reprezentri explicite sau implicite ale intereselor utilizatorului.
Dup clarificarea tipurilor de date, pregtirea datelor se realizeaz uor prin
procese specifice ca de pild curirea datelor, identificarea uerului, identificarea
sesiunilor, identificarea paginilor vizulalizate sau identificarea tranzaciilor. Autorul
propune apoi metoda regulilor de asociaie, a tiparelor secveniale i celor
comportamentale, pentru ca apoi s se abordeze metoda aglomerarilo pentru
personalizarea tranzaciilor. Metodele de preprocesare de mai sus au ca rezultat final un
set de n vizionri de pagini, P=p1, p2, ..., pn i un set de m tranzacii ale uerului,

T=t1,t2, ..., tm unde fiecare i aparinnd lui T este i un subset al lui P. Conceptual,
fiecare tranzacie t poate fi vzut ca un set de l perechi ordonate: t = {(p'1, w(p'1)), (p'2,
w(p'2)),... , (p'\, w(p'\))}, unde w(p'1) reprezint greutatea lui p'1 din tranzacia t . Geutatile
pot fi determinate prin mai multe metode, n funcie de tipul de analiz aplicat datelor.
De exemplu n aplicaiile de filtrare colaborativ, aceste valori pot fi determinate pe baza
ratingului itemurilor. n majoritatea cazurilor de web mining accentul se pune n general
pe navigarea uerilor anonimi, principalele surse de date fiind nregistrrile din server.
Acest fapt permite alegerea a dou tipuri de greuti pentru vizionrile de pagini : de tip
binar adic s-a logat sau nu s-a logat pe pagin sau pot avea o valoare corespunztoare
duratei vizionrii paginii de ctre user intr-o sesiune.

2.3.4 Un exemplu
Considerm un site cu 6 vizionri A,B, C, D, E i F. presupunnd c greutile
vizionrilor asociate unei sesiuni a uerului sunt determinate de numrul de secunde
pentrecute n fiecare, un vector tipic de tranzacie poate arta ca urmtorul: (11, 0 , 22, 5,
127, 0). n acest caz vectorul arat c utilizatorul a petrecut 11 secunde pe pagin A, 22
de secunde pe pagina C, 5 secunde pe pagina D i 127 de secunde pe pagina E. vectorul
indic i c nu au fost vizitate paginile B i F n aceast tranzacie. Data fiind aceast
reprezentare, setul tuturor celor m tranzacii ale uerului pot fi vzute conceptual ca o
matrice m x n a vizionrilor pe tranzacie. Aceast matrice poate fi apoi folosit pentru
aplicarea unor procedee de data-mining. Spre exemplu pot fi executate culcule de
similaritate pe rndurile matricei petru determinarea vecinilor i a aglomerrilor sau pot fi
aplicai algoritmi pentru descoperirea unor reguli de asociaie ale vizionrilor cu anumite
categorii de ueri.

2.3.5 Data-miningul i comerul electronic


Aplicaiile din cataloagele multimedia au un grad nalt de interactivitate, ca de
exemplu e-mallurile care vd produse din diferite categorii. Este dificil n aceste situaii
s se estimeze necesarul de resurse pentru prezentarea coninutului cataloagelor.
Hollfelder a propus o metod de estimare a necesarului de resurse pentru prezentarea
ofertei. Predicia se bazeaz pe rezulatele obinute n urma explorrii fiierului de tip log
ce conine informaii despre produsele cumprate sau vizitate anterior de user.
Pentru un site de comer electronic de succes, reducerea timpului de ncrcare a
paginii este a doua cea mai important calitate dup uurin de navigare pe site. Cea mai
de succes abordare pentru reducerea latenei a fost realizarea unui tipar de navigare
alctuit pe baza informaiilor furnizate de utilizatorii anteriori, care permite o predicie a
traseului de navigare, alocndu-se apoi resursele discriminatoriu, pe baza predicie
respective. Aceast abordare este ns potrivit mai mult pentru site-urile care nu fac
comer electronic efectiv, adic utilizatorui nu-i este permis cumprarea produselor.
Vallamkondu i Gruenwald descriu o abordare pentru predicia comportamentului
utilizatorului n siteurie de comer. Nucleul aceste predicii are la baz pe lng
extragerea informaiilor despre traseele pe site ale uerilor anteriori i comportamentul de

cumprtori al acestora.
Site-urile web sunt folosite adesea pentru consolidarea imaginii unei companii,
promovarea i vazarea de bunuri i informarea clienilor. Succesul unui site web
afecteaz i reflect totodat succesul companiei pe piaa electronic. Spiliopuolou i
Pohle (2000) o propus o metodologie pentru mbuntirea succesului unui site web,
bazndu-se pe exploatarea idenficarii unor tipare de navigare. n partiular cei doi autori
prezint o teorie n care succesul este modelat pe baza modului de navigare al
utilizatorilor site-ului. Apoi folosesc Web Usage Miner (WUM), un program de explorare
al tiparelor, pentru a se studia cum succesul unui site se reflect n comportamentu
uerilor. Cu ajutorul WUM este msurat succesul componentelor unui site i se obin
informaii concrete despre modul n care site-ul poate fi mbuntit.

Bibliografie

[Witten, 2005] Witten Ian H., Eibe Frank, Data Mining Practical Machine Learning
Tools. Second Edition,
[Bates, 2003] Bates D.W., Evans R.S., Murff H., Stetson P.D., Pizziferi L, Hripsack G.,
Detecting Adverse Events Using Information Technology JAMIA
[Adriaans, 1996] Adriaans P; Zantige, Data mining, Edingburgh: Addison Wesley.
[Fayyad, 1996] Fayyad U M, Piatetsky-Shapiro, Smyth P, From data mining to
knowledge discovery : an overview. Advances in Knowledge Discovery and Data
Mining, MIT
[Niu, 2002] Niu L, Yan XW, Zhang C Q, Zhang S C, Product hierarchy-based
customer profiles for electronic commerce recommendation In Int. Conf. on Machine
Learning and Cybernetics
[Srinivasa] Srinivasa N R Raghavan, Data mining in e-commerce: A survey

S-ar putea să vă placă și