Documente Academic
Documente Profesional
Documente Cultură
Ar
Pattern
intersectia
tifi
c
Recognition
ial
s
tic
Int
mai multor
tis
ellig
Sta
en
discipline
ce
DATA Machine
MINING Learning
Mathematical
Modeling Databases
Mining vs. • DM :
Statistica - Datele sunt cele care “construiesc
modelul”
- Dezvaluie aspecte, informatii care nu
erau perceptibile anterior
• existenţa colecţiilor de date istorice
memorate pe suporturi informatice
• maturizarea algoritmilor şi a
• Procesare paralela
Principiul de funcţionare :
• se prelucrează datele referitoare la perioadele
trecute, examinând o varietate de situaţii care s-
au produs şi ale căror rezultate sau consecinţe
sunt cunoscute
• se evidenţiaza caracteristicile acestora,
Data • se elaboreaza un model, care poate fi aplicat
situaţiilor noi de acelaşi tip.
Mining
Informaţiile obţinute prin data mining sunt
• de natură predictivă – descoperirea de
comportamente viitoare
• de natură descriptivă – caracterizarea generala
a datelor (comportamente individuale)
• identificarea oportunităţii comerciale
şi a datelor pe care se poate baza
Ciclu în explorarea
Oportunitate de afaceri
Decizie şi acţiune
Evaluare rezultate
• Abordarea descendentă : efortul este
orientat spre confirmarea sau
Aplicarea infirmarea unor idei (ipoteze)
formulate în prealabil prin alte
tehnicilor mijloace. Un demers asemănător se
aplică în statistică şi în analiza datelor,
Data dar folosind alte tehnici şi metode
dirijată nedirijată
CLASIFICARE REGRESIE
• Pentru predictii care pot • O tehnica de estimare
fi utilizate pentru date si statistica– aplicarea unei
relatii istorice curbe definite de o relatie
matematica (parametrii
necunoscuti) asupra
• Se obtine o clasa (numele datelor existente
unei clase)
• Se obtine o valoare
numerica
• Vreme : insorit, ploios….
• Vreme: 25 0 C
Metode utilizate in DM:
Data
Mining -
Obiectele clasificate sunt reprezentate, în
Tehnici şi general, sub formă de înregistrări,
compuse din atribute sau câmpuri.
acţiuni
Analiza comportamentului (istoric) grupurilor de
entități cu caracteristici similare, pentru a
determina comportamentul viitor al unei entități
noi prin similitudinea sa cu aceste grupuri
• machine-learning – invatarea supervizata
• Invata din datele trecute, clasifica datele noi
Clasificarea • Scop : crearea unui model care sa permita
predictia unei clase de obiecte cu o eticheta
necunoscuta
• Variabila de iesire este explicita (nominala sau
ordinala)
Arborii de decizie
Analiza statistica
Algoritmi genetici
Clasificare - aplicatia 1
• Marketing direct
• obiectiv: reducerea costului de prin targetarea unui set de
clienti susceptibili de a cumpara un nou produs
• Demers:
• Utilizarea datelor disponibile referitoare la un produs similar
• Pe baza acestor date, stim care au fost deciziile luate de client. Aceasta
decizie {CUMPARA, NU CUMPARA} reprezinta atributul claselor
• Colectarea unor informatii (demografice, stil de viata, ocupatie)
referitoare la toti acesti clienti
• Ocupatie, adresa, venit, etc.
• Utilizarea acestor informatii ca attribute de intrare pentru a antrena un
model de clasificare
Clasificare – aplicatia 2
• Loialitate/ Churn:
• Obiectiv : Este posibil sa pierdem un client ?
• Demers :
• Utilizarea tuturor informatiilor disponibile
referitoare la tranzactii (clienti curenti, clienti
vechi) pentru a identifica atribute
Cat de des ne contacteaza un client, in ce periada a zilei,
status finaciar, stare civila,etc
• Etichetarea clientilor : loial sau neloial.
• Gasirea unui model pentru loialitate
Clasificare: aplicatia 3
/ analiza •
•
Retele neuronale
Logica fuzzy
grupurilor • Algoritmi genetici
(clustering)
Cate clustere?
• Nu exista o metoda “optima”
pentru a determina numarul de
clustere
DM - • In mod frecvent se utilizeaza
Clustering euristici
• Comert
• Finante
• Medicina
DM – • DM ofera instantaneu
predictii
• DM este un proces
iterativ, proiectat si
mituri si • DM nu este deocamdata
viabil pentru afaceri
utilizat proactiv
• DM este aplicabil in
realitati • Doar profesionistii pot
orice domeniu
utiliza DM • Toti decidentii pot
utiliza DM
• DM necesita un DD
separat • Nu este necesar un
DD separat
• Doar pentru firme mari,
care dispun de foarte • Orice companie poate
multe date utiliza DM, indiferent
de marimea sa
• O manifestare a celor mai bune practici
• Procese standard:
Data - CRISP-DM (Cross Industry Standard
Mining – Process for Data Mining)
- SEMMA (Sample, Explore, Modify,
proces Model and Asses)
- KDD (Knowledge Discovery in Data
Mining)
Data Mining : CRISP-DM
1: Business - oportunitate
2: Identificarea surselor de date, ~85% din timpul
total al
colectare, selectie proiectului
3: Pregatirea datelor(!)
4: Construirea modelului
5: Testare si Evaluare
6: Implementare
• Procesul este repetitiv si experimental
• declanşarea procesului este
determinată de sesizarea unei
oportunităţi sau necesităţi de afaceri.
Date de
Date de evaluare
Date de învăţare test
Model utilizabil
• Stabilirea capacităţii modelului de a
determina corect valorile pentru
cazuri noi.
Software
Excel (238)
Rapid-I RapidMiner (213)
KNIME (174)
Weka / Pentaho (118)
StatSoft Statistica (112)
SAS (101)
Rapid-I RapidAnalytics (83)
• Commercial MATLAB (80)
IBM SPSS Statistics (62)
• R C4.5/C5.0/See5 (13)
Revolution Computing (11)
Salford SPM/CART/MARS/TreeNet/RF (9)
• RapidMiner XLSTAT (7)
SAP (BusinessObjects/Sybase/Hana)(7)
• Weka… Angoss (7)
RapidInsight/Veera (5)
Teradata Miner (4)
11 Ants Analytics (4)
WordStat (3)
Predixion Software (3)
Text Mining
Information
Web Mining
Retrieval
Information
Data Mining
Extraction
WEB MINING
Page Rank Information Retrieval Graph Mining Social Analytics Clickstream Analysis
Search Engines Optimization Social Network Analysis Social Media Analytics Log Analysis