Sunteți pe pagina 1din 5

Nae Adrian

SIT M1

Data Mining
Data Mining este o tehnologie nou i puternic cu un mare
potenial n mbuntirea eforturilor companiilor de a se concentra
asupra celor mai importante informaii din depozitul lor imens de date.
Conceptul Data Mining a fost definit ca o analiz automat a unor
seturi de date largi i complexe cu scopul de a descoperi tipare
semnificative sau tendine care altfel ar trece neobservate.
Elementele cheie care fac din uneltele Data Mining o form
distinct de software sunt :
Analiza automat
Data Mining automatizeaza procesul de cercetare amanunit a
datelor din trecut cu scopul de a descoperi noi informaii. Aceasta este
cea mai important diferen ntre data mining i statistic, unde, un
model este divizat de un statistician pentru a trata o problema specifica
de analiza. Tot aceasta diferen face distincie ntre data mining i
sistemele experte, unde, modelul este construit de un inginer din reguli
extrase din experiena i munca unui expert.
Data Mining nu se bazeaz pe utilizator n definirea unei ntrebari
specifice, ci numai n formularea unui obiectiv cum ar fi identificarea
revendicarilor frauduloase.
Seturi de date largi sau complexe
Una dintre atraciile data mining este aceea c face posibil
analiza unor seturi de date foarte mari ntr-o perioada rezonabil de timp.
Data Mining este de asemenea convenabil pentru problemele
complexe care implic grupuri de date relativ mici dar n care sunt multe
cmpuri sau variabile de analizat. Oricum, pentru problemele simple i
relativ mici de analiza a datelor, pot exista soluii mai simple, mai ieftine
sau mai eficiente.
Descoperirea de tipare semnificative sau tendine care altfel ar
trece neobservate
Obiectivul in data mining este de a descoperi conexiuni ntre
date ce ar putea oferi ntelesuri utile.
Instrumentele data mining pot scana bazele de date i pot
identifica tipare, ascunse anterior, ntr-un singur pas. Un exemplu, de
descoperire al unui tipar, este analiza datelor vnzrii cu amnuntul,
pentru identificarea aa-ziselor produse fr legtura , care sunt adesea
vndute mpreuna. Alte probleme de descoperire a unui tipar includ
detectarea tranzaciilor frauduloase cu cri de credit, scderea
performanelor ntr-o reea i identificarea datelor anormale care pot fi
erori de introducere a datelor.
Ultima semnificaie acestor tipare va fi evaluat de un expert n
domeniu un manager de marketing sau un administrator de reea deci
1

rezultatele trebuie s se afle ntr-o form n care experii s o poat


nelege.
Tehnologia Data Mining este pregatit pentru aplicaii deoarece
ea este susinut de 3 tehnologii care acum sunt suficient de dezvoltate ,
cum ar fi :
1. coleciile de date masive
2. computere multi-procesor puternice
3. algoritmi de cutare a datelor
Aplicaii
O aplicaie data mining este o implementare a tehnologiei data
mining ce rezolv un task specific sau o problema de cercetare.
Exemple ale ariilor de aplicatie includ:
companie farmaceutica i poate analiza puterea de vnzare i
rezultatele, din perioada recent , pentru a mbunti obiectivele
medicilor si i pentru a determina ce activiti de pia vor avea
cel mai mare impact n urmtoarele luni.
companie de cari de credit i poate controla vastul depozit de
date ce cuprinde tranzacii ale clientilor pentru a identifica acei
clienii care ar putea fi cei mai interesai de achiziionarea unui
nou produs credit.
Folosind un mic test prin pot, pot fi identificate atributele clienilor
care denot interes pentru noul produs. Proiecte recente au indicat o
scdere a costurilor de 20 ori pentru campaniile potale.
Clasificarea i predicia
Clasificarea este operaia cel mai des folosita de ctre instrumentele
comerciale data mining. Este o operaie care ajut organizaiile s
descopere anumite tipare n bnci de date largi i complexe cu scopul de
a rezolva probleme specifice de afaceri.
Clasificarea este un proces de subdivizare a unui set de date cu
referin la un numr specific de rezultate. De exemplu, dac vrem s
clasificam clienii n 2 categorii (mari i mici), facem referin la riscul
afacerii pentru fiecare. Categoria sau clasa n care este plasat fiecare
client, este rezultatul clasificarii noastre.
Un exemplu de clasificare : O organizaie de servicii comerciale
dorete s identifice acei clieni care ar putea fi interesai de o noua
oportunitate de investiie. n trecut a mai lansat pe pia un astfel de
produs i deine date ce arat care din clienii si au raspuns la oferta
precedent. Scopul este de a nelege ce factori identific pe clienii care
au rspuns pozitiv la ofert, pentru ca efortul depus la marketing i la
vnzri s fie concentrat mai eficient.

Clustering
Clustering-ul este o operaie necontrolat. Este folosita acolo
unde se dorete a se gsi grupuri de nregistrri similare n datele
noastre, fr nici o alt precondiie pe care o implic respectiva
asemanare. Clustering-ul este folosit pentru identificarea grupurilor de
interes dintr-o baz de date a clienilor, care nu au mai fost recunoscute
anterior. De exemplu, poate fi utilizata pentru a identifica similariti n
utilizarea telefonului clienilor, cu scopul de a inventa i a vinde noi
servicii telefonice.
Analiza asocierii si analiza secventiala
Analiza asocierii este o form necontrolat a data mining care
caut legturi ntre nregistrrile dintr-un set de date. Analiza asocierii
este cteodat definit ca analiza cosului de consum, care este cea
mai folosit aplicatie a sa. Scopul este de a descoperi, de exemplu, ce
articol este cel mai des cumprat n acelai timp, pentru a ajuta
comercianii cu amnuntul s organizeze programe stimulente i s-i
aranjeze magazinele ct mai eficient.
S consideram urmatorul exemplu cu oetul i sarea:
500.000 tranzacii
20.000 tranzacii conin sare (4%)
30.000 tranzacii conin oet (6%)
10.000 tranzacii conin i oet i sare (2%)
Caracterul general ( Support ) msoara ct de des articolele apar
mpreun, sub forma unui procent din totalul tranzaciilor. n acest
exemplu, oetul i sarea apar mpreuna 2% din total (10.000/500.000).
ncrederea sau predictibilitatea (Confidence) msoara ct de
mult depinde un articol de altul. Deoarece 20.000 tranzacii se refer la
sare i 10.000 la oet, cnd oamenii cumpr sare, n 50% din cazuri
cumpr i oet. ncrederea pentru urmtoarea regul este 50% : Cnd
oamenii cumpr sare, cumpr de asemenea i oet n 50% din cazuri.
Inversarea regulii: Cnd oamenii cumpr oet, cumpr i sare n 1/3
din cazuri, are o
ncredere de 33,33% (calculat ca 10.000/30.000).
Cele dou reguli au acelai suport ( 2% calculat anterior ). Suportul
nu este dependent de direcia (sau implementarea) regulii; este
dependent de setul de componente din regul.
Diferenta de nivel (Lift) msoar raportul dintre ncrederea unei
reguli i ncrederea ateptat ca al doilea produs s fie cumparat. Lift
este o msura a forei unui efect. n exemplul nostru, ncrederea n
regula de cumprare sare - oet este 50% , n timp ce ncrederea
ateptata este 6%, ca un client aleator va cumpra oet. Deci, diferena
de nivel oferit de regula sare - oet este 8.33 (=50% / 60%).
3

Regula sare - oet ar fi putut fi exprimat in termenii Lift astfel:


Oamenii care cumpra sare sunt de 8.33 ori mai tentai s cumpere i
oet.
Interaciunea dintre sare i oet este foarte puternic. Un obiectiv
cheie al unei asociaii sau al unui exerciiu data mining este de a gasi
reguli care au o diferen de nivel substanial, ca aceasta.
Chiar dac regulile cu ncredere ridicat i factori suport sunt
importani, cele cu nivele mai sczute pot descoperi tipare mai puin
evidente care eviteniaz noi oportuniti de marketing.
Prognoza
Clasificarea identific un anume grup sau clasa din care provine
articolul. O prezicere bazat pe un model de clasificare va fi, prin urmare,
o consecin distinct, identificnd un client ca fiind rspunztor sau nu,
sau a unui pacient cu risc mai mare sau mai mic de a face infarct.
Prognoza, pe de alta parte, se preocup cu prezicerea unor valori
continue cum ar fi valorile nivelul stocului pieei, sau preul din viitor al
unui produs cum ar fi petrolul.
Prognoza este adesea facut cu funcii de regresiune metode
statistice pentru examinarea relaiilor ntre variabile pentru a prezice
valoarea urmtoare. Pachetele statistice furnizeaz o larg varietate de
astfel de funcii care pot manipula probleme din ce n ce mai complexe.
Totui, asemenea funcii statistice de obicei necesit o cunotere
semnificativ o tehnicilor folosite i a condiiilor iniiale care se aplic
implementarii lor.
Bazele de date comerciale se dezvolt ajungnd la niveluri fr
precedent, n special n sectorul cu amnuntul. Nevoia continu de
motoare computaionale mbuntite, poate acum fi satisfacut printr-o
manier eficient de cost, cu tehnologia multi-procesoare paralele.
Algoritmii de data mining ncorporeaz tehnici care au existat de cel
puin 10 ani, dar numai recent au fost implementai ca instrumente
dezvoltate, uor de neles, care n mod consistent folosesc metode
statistice mai vechi.
Componentele principale ale tehnologiei data mining s-au aflat
sub dezvoltare de decenii, n domenii de cercetare ca statistic,
inteligen artificial i nvarea mainilor inteligente. n prezent,
dezvoltarea acestor tehnologii n concordan cu motoarele de baze de
date relaionale de nalt performan i vastele eforturile de integrare a
datelor, fac ca acestea s fie foarte practice pentru domeniile de
depozitare ale datelor.

Bibliografie
1. https://www.scribd.co2m/document_downloads/direct/260185566?
extension=pdf&ft=1453551
2. https://en.wikipedia.org/wiki/Data_mining

3. http://documents.software.dell.com/statistics/textbook/data-miningtechniques
4. http://documents.software.dell.com/statistics/textbook/data-miningtechniques
5. http://www.rsc.org/images/DataMining-300_tcm18-201474.jpg