SIT M1
Data Mining
Data Mining este o tehnologie nou i puternic cu un mare
potenial n mbuntirea eforturilor companiilor de a se concentra
asupra celor mai importante informaii din depozitul lor imens de date.
Conceptul Data Mining a fost definit ca o analiz automat a unor
seturi de date largi i complexe cu scopul de a descoperi tipare
semnificative sau tendine care altfel ar trece neobservate.
Elementele cheie care fac din uneltele Data Mining o form
distinct de software sunt :
Analiza automat
Data Mining automatizeaza procesul de cercetare amanunit a
datelor din trecut cu scopul de a descoperi noi informaii. Aceasta este
cea mai important diferen ntre data mining i statistic, unde, un
model este divizat de un statistician pentru a trata o problema specifica
de analiza. Tot aceasta diferen face distincie ntre data mining i
sistemele experte, unde, modelul este construit de un inginer din reguli
extrase din experiena i munca unui expert.
Data Mining nu se bazeaz pe utilizator n definirea unei ntrebari
specifice, ci numai n formularea unui obiectiv cum ar fi identificarea
revendicarilor frauduloase.
Seturi de date largi sau complexe
Una dintre atraciile data mining este aceea c face posibil
analiza unor seturi de date foarte mari ntr-o perioada rezonabil de timp.
Data Mining este de asemenea convenabil pentru problemele
complexe care implic grupuri de date relativ mici dar n care sunt multe
cmpuri sau variabile de analizat. Oricum, pentru problemele simple i
relativ mici de analiza a datelor, pot exista soluii mai simple, mai ieftine
sau mai eficiente.
Descoperirea de tipare semnificative sau tendine care altfel ar
trece neobservate
Obiectivul in data mining este de a descoperi conexiuni ntre
date ce ar putea oferi ntelesuri utile.
Instrumentele data mining pot scana bazele de date i pot
identifica tipare, ascunse anterior, ntr-un singur pas. Un exemplu, de
descoperire al unui tipar, este analiza datelor vnzrii cu amnuntul,
pentru identificarea aa-ziselor produse fr legtura , care sunt adesea
vndute mpreuna. Alte probleme de descoperire a unui tipar includ
detectarea tranzaciilor frauduloase cu cri de credit, scderea
performanelor ntr-o reea i identificarea datelor anormale care pot fi
erori de introducere a datelor.
Ultima semnificaie acestor tipare va fi evaluat de un expert n
domeniu un manager de marketing sau un administrator de reea deci
1
Clustering
Clustering-ul este o operaie necontrolat. Este folosita acolo
unde se dorete a se gsi grupuri de nregistrri similare n datele
noastre, fr nici o alt precondiie pe care o implic respectiva
asemanare. Clustering-ul este folosit pentru identificarea grupurilor de
interes dintr-o baz de date a clienilor, care nu au mai fost recunoscute
anterior. De exemplu, poate fi utilizata pentru a identifica similariti n
utilizarea telefonului clienilor, cu scopul de a inventa i a vinde noi
servicii telefonice.
Analiza asocierii si analiza secventiala
Analiza asocierii este o form necontrolat a data mining care
caut legturi ntre nregistrrile dintr-un set de date. Analiza asocierii
este cteodat definit ca analiza cosului de consum, care este cea
mai folosit aplicatie a sa. Scopul este de a descoperi, de exemplu, ce
articol este cel mai des cumprat n acelai timp, pentru a ajuta
comercianii cu amnuntul s organizeze programe stimulente i s-i
aranjeze magazinele ct mai eficient.
S consideram urmatorul exemplu cu oetul i sarea:
500.000 tranzacii
20.000 tranzacii conin sare (4%)
30.000 tranzacii conin oet (6%)
10.000 tranzacii conin i oet i sare (2%)
Caracterul general ( Support ) msoara ct de des articolele apar
mpreun, sub forma unui procent din totalul tranzaciilor. n acest
exemplu, oetul i sarea apar mpreuna 2% din total (10.000/500.000).
ncrederea sau predictibilitatea (Confidence) msoara ct de
mult depinde un articol de altul. Deoarece 20.000 tranzacii se refer la
sare i 10.000 la oet, cnd oamenii cumpr sare, n 50% din cazuri
cumpr i oet. ncrederea pentru urmtoarea regul este 50% : Cnd
oamenii cumpr sare, cumpr de asemenea i oet n 50% din cazuri.
Inversarea regulii: Cnd oamenii cumpr oet, cumpr i sare n 1/3
din cazuri, are o
ncredere de 33,33% (calculat ca 10.000/30.000).
Cele dou reguli au acelai suport ( 2% calculat anterior ). Suportul
nu este dependent de direcia (sau implementarea) regulii; este
dependent de setul de componente din regul.
Diferenta de nivel (Lift) msoar raportul dintre ncrederea unei
reguli i ncrederea ateptat ca al doilea produs s fie cumparat. Lift
este o msura a forei unui efect. n exemplul nostru, ncrederea n
regula de cumprare sare - oet este 50% , n timp ce ncrederea
ateptata este 6%, ca un client aleator va cumpra oet. Deci, diferena
de nivel oferit de regula sare - oet este 8.33 (=50% / 60%).
3
Bibliografie
1. https://www.scribd.co2m/document_downloads/direct/260185566?
extension=pdf&ft=1453551
2. https://en.wikipedia.org/wiki/Data_mining
3. http://documents.software.dell.com/statistics/textbook/data-miningtechniques
4. http://documents.software.dell.com/statistics/textbook/data-miningtechniques
5. http://www.rsc.org/images/DataMining-300_tcm18-201474.jpg