Sunteți pe pagina 1din 62

“We’re drowning in information, but starving for

knowledge.” (John Naisbett)


• un proces de extragere de informaţii
noi din colecţiile de date existente.
• dată - descriere a unui eveniment
precis, produs în lumea reală şi
verificabil prin raportare la aceasta.
• informaţia (cunoaşterea transmisă)-
descrierea unei categorii abstracte, ce
Data acoperă mai multe evenimente sau
exemple concrete
Mining • Þreorientare semnificativă în
utilizarea volumelor de date stocate,
de la un proces de explorare
retrospectivă spre unul cu caracter
prospectiv.
Data Mining

Procesul netrivial de identificare a unor


informatii valide, noi, potențial
utilizabile și inteligibile în date stocate în
baze de date structurate.

-Fayyad et al., (1996)


• Utilizeaza metode statistice,
matematice si tehnologii IA pentru a
identifica si a extrage informatii utile si
Data cunostinte din colectii de date (reguli,
corelatii, trenduri, predictii)
Mining
• Termenul DM – KDD acopera astazi
toate tipurile de analiza automata a
datelor
Data Mining
– la

Ar
Pattern
intersectia

tifi
c
Recognition

ial
s
tic

Int
mai multor

tis

ellig
Sta

en
discipline

ce
DATA Machine
MINING Learning

Mathematical
Modeling Databases

Management Science &


Information Systems
• Statistica :
- Se construieste un model care va
“replica” comportamentul actual al
Data datelor

Mining vs. • DM :
Statistica - Datele sunt cele care “construiesc
modelul”
- Dezvaluie aspecte, informatii care nu
erau perceptibile anterior
• existenţa colecţiilor de date istorice
memorate pe suporturi informatice

• maturizarea algoritmilor şi a

Data produselor program dedicate

• creşterea capacităţii de memorare şi


Mining. prelucrare a calculatoarelor, care
permite tratarea în corelaţie a
Premise volumelor foarte mari de date.

• reducerea costurilor de stocare si


procesare a datelor
• Competitia

• Tendinta de “demasificare” a practicilor de


afaceri
Data
Mining. • Consolidarea inregistrarilor in bazele de date (
o singura perspectiva pentru utilizator) si a
bazelor de date (depozite de informatii)
Necesitate
Problema principala : cele mai multe organizatii
au acces la foarte multe date, dar nu reusesc sa
le valorifice
(data rich – information poor)
• Datele analizate sunt stocate intr-un
depozit de date

Data • Mediul DM este de regula o arhitectura


client-server sau bazata pe Web

Mining • Presupune utilizarea unor instrumente


si tehnici sofisticate – inclusiv de
vizualizare si prezentare a informatiilor
• Analiza datelor este realizata direct de
utilizatorul final – decidentul

Data • Instrumentele DM sunt de obicei


corelate cu alte instrumente software
Mining pentru a permite o analiza rapida a
informatiilor obtinute

• Procesare paralela
Principiul de funcţionare :
• se prelucrează datele referitoare la perioadele
trecute, examinând o varietate de situaţii care s-
au produs şi ale căror rezultate sau consecinţe
sunt cunoscute
• se evidenţiaza caracteristicile acestora,
Data • se elaboreaza un model, care poate fi aplicat
situaţiilor noi de acelaşi tip.
Mining
Informaţiile obţinute prin data mining sunt
• de natură predictivă – descoperirea de
comportamente viitoare
• de natură descriptivă – caracterizarea generala
a datelor (comportamente individuale)
• identificarea oportunităţii comerciale
şi a datelor pe care se poate baza

Ciclu în explorarea

• extragerea de informaţii din colecţiile


utilizarea de date existente prin tehnici adecvate
de data mining
data • adoptarea de decizii şi întreprinderea

mining de acţiuni pe baza informaţiilor


obţinute

• măsurarea rezultatelor concrete


pentru a identifica şi alte modalităţi de
exploatare a datelor disponibile
Data mining

Oportunitate de afaceri
Decizie şi acţiune

Evaluare rezultate
• Abordarea descendentă : efortul este
orientat spre confirmarea sau
Aplicarea infirmarea unor idei (ipoteze)
formulate în prealabil prin alte
tehnicilor mijloace. Un demers asemănător se
aplică în statistică şi în analiza datelor,
Data dar folosind alte tehnici şi metode

Mining • Abordarea ascendentă : se urmăreşte


extragerea de cunoştinţe sau
informaţii noi din datele disponibile
Data Mining
Data mining

verificarea ipotezelor căutarea de cunoştinţe

dirijată nedirijată

Căutarea dirijată ia în considerare un atribut sau un câmp, ale


cărui valori încearcă să le explice prin celelalte câmpuri.

Căutarea nedirijată are ca scop identificarea relaţiilor sau


structurilor existente în ansamblul datelor examinate, fără a
acorda prioritate unui câmp sau altul.
• Interogari BD
Identifica toti clientii care au aplicat pentru credite in
sucursala X
Identifica toti clientii cu comenzi mai mari de
1000…luna trecuta
Identifica toti clientii care au achizitionat produsul Y

Exemple • DATA MINING


Identifica acei clientii -care au aplicat pentru
de credite- si care prezinta un risc ridicat -
CLASIFICARE
interogari Identifica clientii cu un comportament similar –
CLUSTERING
Identifica toate produsele care sunt achizitionate
frecvent impreuna cu produsul Y-
ASOCIERE /GRUPARE
DM extrage modele din colectii de date
• Model (pattern)? O relatie
matematica (numerica si/sau
simbolica) intre date

Data Tipuri de modele


mining
• Asociere
• Predictie
• Cluster (segmentare)
• Relatii secventiale (serii temporale)
• Previziune statistica
- Verificarea unor ipoteze formulate
anterior
- Se cunosc modelele corespunzatoare
Previziune seriilor de date pentru care realizam
previziunile
vs. Data
Mining • Data Mining
- Descoperirea de noi cunostinte in
colectii de date
- Presupune ca insasi datele sa dezvaluie
modelele intrinseci acestora, si nu se
impun de la inceput anumite modele
Terminologie DM – PREDICTIE
(predictie + previziune)
Predictie Previziune
(prediction) (forecasting)
• Previzionarea viitorului • Estimarea unei valori
viitoare pe baza
valorilor trecute
• A ghici (Guessing)
+experiente
• Bazata pe date si
+ opinii modele
+ alte informatii
relevante
Terminologie in Data Mining
Data mining Statistica
Variabila de iesire = variabila Variabila dependenta
tinta
Algoritm Model
Atribut = caracteristica Variabila explicativa
Inregistrare Observatie
Scor (PREDICT) Prognoza (Forecast)
PREDICTIA

CLASIFICARE REGRESIE
• Pentru predictii care pot • O tehnica de estimare
fi utilizate pentru date si statistica– aplicarea unei
relatii istorice curbe definite de o relatie
matematica (parametrii
necunoscuti) asupra
• Se obtine o clasa (numele datelor existente
unei clase)
• Se obtine o valoare
numerica
• Vreme : insorit, ploios….
• Vreme: 25 0 C
Metode utilizate in DM:

Data • Metode simple (consultare, judecata


umana)
Mining -
Tehnici • Metode “intermediare” (regresie,
arbori de decizie, clustering)
şi acţiuni
• Metode complexe (retele neuronale,
inductie atomata, algoritmi genetici)
Clasificarea - plasarea obiectelor
prelucrate într-un grup limitat de clase
predefinite.

Data
Mining -
Obiectele clasificate sunt reprezentate, în
Tehnici şi general, sub formă de înregistrări,
compuse din atribute sau câmpuri.
acţiuni
Analiza comportamentului (istoric) grupurilor de
entități cu caracteristici similare, pentru a
determina comportamentul viitor al unei entități
noi prin similitudinea sa cu aceste grupuri
• machine-learning – invatarea supervizata
• Invata din datele trecute, clasifica datele noi
Clasificarea • Scop : crearea unui model care sa permita
predictia unei clase de obiecte cu o eticheta
necunoscuta
• Variabila de iesire este explicita (nominala sau
ordinala)
Arborii de decizie

Analiza statistica

Tehnici de Retele neuronale


clasificare
Rationament bazat pe cazuri

Algoritmi genetici
Clasificare - aplicatia 1
• Marketing direct
• obiectiv: reducerea costului de prin targetarea unui set de
clienti susceptibili de a cumpara un nou produs

• Demers:
• Utilizarea datelor disponibile referitoare la un produs similar
• Pe baza acestor date, stim care au fost deciziile luate de client. Aceasta
decizie {CUMPARA, NU CUMPARA} reprezinta atributul claselor
• Colectarea unor informatii (demografice, stil de viata, ocupatie)
referitoare la toti acesti clienti
• Ocupatie, adresa, venit, etc.
• Utilizarea acestor informatii ca attribute de intrare pentru a antrena un
model de clasificare
Clasificare – aplicatia 2

• Loialitate/ Churn:
• Obiectiv : Este posibil sa pierdem un client ?
• Demers :
• Utilizarea tuturor informatiilor disponibile
referitoare la tranzactii (clienti curenti, clienti
vechi) pentru a identifica atribute
Cat de des ne contacteaza un client, in ce periada a zilei,
status finaciar, stare civila,etc
• Etichetarea clientilor : loial sau neloial.
• Gasirea unui model pentru loialitate
Clasificare: aplicatia 3

• Detectarea utilizarii frauduloase a cartilor de credit


• Scop : Predictia cazurilor de frauda in tranzactiile cu
cartile de credit.
• Abordare:
• Atribute: tranzactiile cu carti de credit, informatiile referitoare la
detinatorii acestora.
• Cand cumpara, ce cumpara, cat de frecvent plateste la timp, etc
• Clasifica tranzactiile trecute in frauduloase sau corecte. Acestea
vor fi atributele claselor.
• “Invatarea” - antrenarea unui model pentru clasificarea
tranzactiilor.
• Utilizarea acestui model pentru a detecta posibile fraude in
utilizarea cardului de credit atasat unui anumit cont pentru
tranzactii.
• urmăreşte să claseze înregistrările tratate în
funcţie de un comportament sau o valoare
estimată viitoare.
• În acest scop, se recurge la o colecţie de
exemple, bazate pe date din trecut, în care valorile
variabilei de previzionat sunt deja cunoscute. Cu
ajutorul acestora se construieşte un model care să
explice comportamentul observat. Aplicând acest

Predictia model asupra înregistrărilor de prelucrat, se obţine


o predicţie a comportamentului sau valorilor
acestora în viitor.
• Tehnici:
- arborii de decizie
- raţionamentul bazat pe cazuri
- reţelele neuronale
• Gruparea (Asocierea) urmăreşte să determine
care sunt obiectele care apar cel mai frecvent
împreună.

• Analiza grupurilor (Segmentarea/ Clustering)


urmăreşte să dividă o populaţie eterogenă în
Gruparea grupuri mai omogene, numite “cluster”.

Analiza • Spre deosebire de celelalte tipuri de acţiuni


grupurilor asemănătoare, aici nu există un set predeterminat
de clase ca în cazul clasificării şi nici exemple
trecute.
• Segmentarea se face în exclusivitate pe baza
similitudinilor sesizate între obiecte
Identificarea unor grupuri de obiecte/entitati cu
caracteristici similare
• identificarea automată a grupurilor (de obiecte,
Segmentare entitati) formate in mod natural
• machine-learning – invatarea nesupervizata
– Analiza • “Invata” modul de grupare pe baza datelor
grupurilor trecute, dupa care atribuie noi instante acesor
grupuri (“clustere”)

(clustere) • Nu exista o variabila de iesire (tinta)


• Utilitatea (grupurilor identificate) pentru
manager – subiectiva
Rezultatele segmentarii pot fi utile in

• Identificarea unor clase de clienti


• Identificarea unor reguli pentru incadrarea
de noi cazuri in anumite clase pentru

DM obiective legate de directionare /diagnostic


• Ofera caracterizari, definitii, categorii
Clustering pentru populatii
• Simplificarea problemelor (dimensiune,
complexitate) pentru alte metode de data
mining
• Identificarea exceptiilor in domenii specific
(outliers)
Tehnici –
segmentare • Metode statistice

/ analiza •

Retele neuronale
Logica fuzzy
grupurilor • Algoritmi genetici

(clustering)
Cate clustere?
• Nu exista o metoda “optima”
pentru a determina numarul de
clustere
DM - • In mod frecvent se utilizeaza

Clustering euristici

Multe metode de segmentare utilizeaza o


masura a distantei pentru a calcula
apropierea dintre perechile de obiecte
Clustering: Aplicatie
Segmentarea pietei
• Obiectiv : impartirea unei piete in grupuri distincte de
consumatori astfel incat fiecare subset poate fi considerat un
target care trebuie abordat cu an anumit mix de marketing.
• Demers :
• Se colectioneaza informatii referitoare la client : geografie,
stil de viata, etc.
• Identificarea unor clustere (grupuri de client cu atribute
similare).
• Calitatea segmentarii - observarea comportamentului de
cumparare a consumatorilor din acelasi grup fata de cel al
celor din alte grupuri
Stabilirea unor relatii intre obiecte care
apar frecvent impreuna
• Identificarea unor relatii (afinitati) intre
variabile (obiecte, evenimente)
Asocierea • machine learning – invatare
nesupervizata
• Nu exista variabila de iesire (tinta)
• Analiza cosului de cumparaturi / analiza
de afinitate
Asocierea
• Input: date referitoare la tranzactii
• Output: cele mai frecvente afinitati intre obiecte
• Exemplu: conform datelor …
“clientul care a cumparat un laptop si un software anti-virus a
achizitionat si un plan extins de service in 70% din cazuri”.
• Cum utilizam aceasta informatie?
• Pozitinam obiectele aproape unul de altul
• Promovam aceste obiecte intr-un singur pachet
• Pozitinam obiectele cat mai departe unul de altul!
Tipuri de aplicatii
• In business: cross-marketing, cross-
selling, design : magazine, catalog,
site e-commerce, publicitate online,
pricing, promotii
Asocierea • In medicina: relatii intre simptome
si boli; diagnostic; tratament in
functie de particularitatile
pacirentului (SIAD medicale);
studiul genelor ions (proiecte
genetice)
• …
• Care sunt regulile de asociere interesante/
folositoare?

O regula generala: X Þ Y [S%, C%]

X, Y: produse si/sau servicii


X: Left-hand-side (LHS)

Asocierea Y: Right-hand-side (RHS)


S: Suport: cat de frecvent X si Y apar
impreuna
C: Incredere (Confidence): cat de frecvent
Y apare alaturi/ ca o consecinta a lui X

ExEmple: {Laptop, Antivirus Software} Þ


{Plan service extins} [30%, 70%]
ASOCIERE – 1
• Design in supermarket (aranjarea produselor pe rafturi)

• Scop : identificarea produselor care sunt cumparate impreuna


de suficient de multi clienti.
• Demers : Procesarea datelor din punctele de vanzare (scanarea
barelor de cod)
• O “regula” clasica :
• Daca un client cumpara scutece si lapte, atunci este foarte
probabil ca va cumpara si bere
• |( Suport = 20%, Incredere =85% pentru scutece ➤ bere)
ASOCIERE – 2
• Marketing and Sales Promotion:
• Let the rule discovered be
{Bagels, … } --> {Potato Chips}
• Potato Chips as consequent => Can be used to determine what
should be done to boost its sales.
• Bagels in the antecedent => Can be used to see which products
would be affected if the store discontinues selling bagels.
• Bagels in antecedent and Potato chips in consequent => Can be
used to see what products should be sold with Bagels to
promote sale of Potato chips!
Analitici Clasificarea, predictia si asocierea
(analiza afinitatilor) reprezinta metodele
predictive utilizate in analiticile predictive
• Marketing
Customer Relationship
Management
• Maximizarea veniturilor asociate
campaniilor de marketing
Data • Imbunatatirea retentei clientilor
(fidelizare)
mining. • Maximizarea valorii client (cross-,
up-selling)
Utilizare • Identificarea celor mai valorosi
clienti

• Comert
• Finante
• Medicina
DM – • DM ofera instantaneu
predictii
• DM este un proces
iterativ, proiectat si
mituri si • DM nu este deocamdata
viabil pentru afaceri
utilizat proactiv
• DM este aplicabil in
realitati • Doar profesionistii pot
orice domeniu
utiliza DM • Toti decidentii pot
utiliza DM
• DM necesita un DD
separat • Nu este necesar un
DD separat
• Doar pentru firme mari,
care dispun de foarte • Orice companie poate
multe date utiliza DM, indiferent
de marimea sa
• O manifestare a celor mai bune practici
• Procese standard:
Data - CRISP-DM (Cross Industry Standard
Mining – Process for Data Mining)
- SEMMA (Sample, Explore, Modify,
proces Model and Asses)
- KDD (Knowledge Discovery in Data
Mining)
Data Mining : CRISP-DM
1: Business - oportunitate
2: Identificarea surselor de date, ~85% din timpul
total al
colectare, selectie proiectului

3: Pregatirea datelor(!)
4: Construirea modelului
5: Testare si Evaluare
6: Implementare
• Procesul este repetitiv si experimental
• declanşarea procesului este
determinată de sesizarea unei
oportunităţi sau necesităţi de afaceri.

• ce urmează a fi rezolvat prin data


Definirea mining
• obiectivele urmărite
problemei • rezultatele aşteptate.

Problema de rezolvat prin data mining


contribuie, ca parte componentă, la
valorificarea oportunităţii sesizate de
organizatie, dar nu se identifică cu ea. În plus,
trebuie să primească o formă în care să poată
fi tratată prin aceste tehnici
• stabilirea structurii generale a
datelor necesare rezolvării sale şi a
regulilor de constituire a acestora.

Identificarea • localizarea surselor acestora.

surselor de • examinarea conţinutului fiecăreia


date dintre surse, pentru o familiarizare
cu conţinutul său şi pentru
identificarea, cât mai precoce, a
eventualelor incoerenţe sau
probleme de definire, care pot
compromite rezultatele analizelor
următoare
extragerea şi plasarea într-o bază
Colectarea, comună a tuturor datelor ce urmează a fi
folosite.
consolidarea
şi selecţia - prelucrarea întregului fond de
date disponibil
datelor - prelucrarea unui eşantion.
transformări comune care vizează:
• valorile extreme sau aberante
- încadrarea între limitele cuprinse între medie şi un
anumit număr de abateri standard prin excludere
sau plafonare

Pregătirea - izolarea vârfurilor


• valorile lipsă
datelor – - eliminarea înregistrărilor având câmpuri cu valori
nule
curatarea si - completarea datelor omise cu valori medii, cu
transformarea valoarea cea mai frecventă sau cu valori calculate
după alte relaţii
datelor
• valorile de tip text
-codificarea prin tabele de corespondenţe, în care să
figureze toate şirurile valide de caractere.
rezumarea
-detaliile conţinute în date sunt nesemnificative
pentru rezolvarea problemei abordate,
-numărul de exemple analitice este insuficient
Pregătirea -datele sunt prea numeroase
datelor –
curatarea si codificarea incoerentă
- obiecte identice sunt reprezentate diferit în unele
transformarea dintre sursele folosite

datelor arhitecturile informatice incompatibile


- diferenţele în modul de reprezentare internă a
valorilor ( date create cu sisteme din generaţii diferite).
Construirea modelului

Crearea modelului informatic care va efectua explorarea


propriu-zisă
Datele colectate

Date de
Date de evaluare
Date de învăţare test

Model utilizabil
• Stabilirea capacităţii modelului de a
determina corect valorile pentru
cazuri noi.

Evaluarea • Performanţele unui model se


modelului apreciază cu ajutorul unei „matrice de
confuzie”, care compară situaţia reală
cu cea furnizată de acesta. Calitatea
globală se exprimă prin raportul
dintre numărul de predicţii exacte şi
numărul total de predicţii
• Integrarea modelului - includerea
modelului obţinut într-un SIAD, sau
integrarea sa într-un proces
decizional mai general din
organizatie.

• Orice model are o durată de viaţă


Implementarea limitată; modelele trebuie
modelului actualizate permanent, pentru a
putea urmări schimbările survenite
în domeniul la care se referă.

• Rezolvarea unei probleme se obţine


prin combinarea mai multor tehnici.
Predicting Customer Buying Patterns—
Data The Target Story

Mining Care este pragul dintre avantajele aduse


Privacy ? de descoperirea de noi cunoștințe și
încălcarea confidențialității?
1. Alegerea unei probleme nepotrivite
2. Ignorarea atitudinii sponsorului (ce
Data este DM, ce asteptari are legate de
acest proces)
Mining 3. Timp insuficient pentru achizitionarea,
selectia si pregatirea datelor
Erori 4. Analiza exclusiva a rezultatelor
agregate si neglijarea predictiilor
frecvente individuale
5. Neglijenta in procesul de inregistrare a
procedurilor si rezultatelor
Data
Mining R (245)

Software
Excel (238)
Rapid-I RapidMiner (213)
KNIME (174)
Weka / Pentaho (118)
StatSoft Statistica (112)
SAS (101)
Rapid-I RapidAnalytics (83)
• Commercial MATLAB (80)
IBM SPSS Statistics (62)

• IBM SPSS Modeler IBM SPSS Modeler (54)


SAS Enterprise Miner (46)
(formerly Clementine) Orange (42)
Microsoft SQL Server (40)
• SAS - Enterprise Miner Other free software (39)
TIBCO Spotfire / S+ / Miner (37)

• IBM - Intelligent Miner Tableau (35)


Oracle Data Miner (35)

• StatSoft – Statistica Data Other commercial software (32)


JMP (32)
Miner Mathematica (23)
Miner3D (19)

• … many more IBM Cognos (16)


Stata (15)
Zementis (14)
• Free and/or Open Source KXEN (14)
Bayesia (14)

• R C4.5/C5.0/See5 (13)
Revolution Computing (11)
Salford SPM/CART/MARS/TreeNet/RF (9)
• RapidMiner XLSTAT (7)
SAP (BusinessObjects/Sybase/Hana)(7)
• Weka… Angoss (7)
RapidInsight/Veera (5)
Teradata Miner (4)
11 Ants Analytics (4)
WordStat (3)
Predixion Software (3)

Source: KDNuggets.com 0 50 100 150 200 250 300

XLMiner - learning tool


Text Mining
TEXT ANALYTICS

Text Mining
Information
Web Mining
Retrieval

Information
Data Mining
Extraction

Natural Language Processing Linguistic Machine Learning

Computer Science Statistics Management Science Artificial Intelligence


• Ambele urmaresc descoperirea de
Data modele/patternuri utile

Mining • Ambele sunt procese semiautomate


• Diferenta: natura datelor:
vs. • Date structurate: in DD

Text • Date nestructurate: documente


WORD, fisiere PDF, fisiere XML…

Mining • Text mining – se structureaza datele,


dupa care sunt explorate.
Web mining – descoperirea de relatii/
modele/informatii utile in datele de pe
web (continut, acces, utilizare)

Web Descoperirea si analiza de informatii


Mining interesante si utile
• in Web (cel mai mare “depozit” de date)
• despre Web
• cu ajutorul instrumentelor Web
Data Text
Mining Mining

WEB MINING

Web Content Mining Web Structure Mining Web Usage Mining


Source: unstructured Source: the unified Source: the detailed
textual content of the resource locator (URL) description of a Web
Web pages (usually in links contained in the site’s visits (sequence
HTML format) Web pages of clicks by sessions)

Search Engines Sentiment Analysis Semantic Webs Web Analytics

Page Rank Information Retrieval Graph Mining Social Analytics Clickstream Analysis

Search Engines Optimization Social Network Analysis Social Media Analytics Log Analysis

Marketing Attribution Customer Analytics 360 Customer View