Sunteți pe pagina 1din 46

F.01.O.001.

Sisteme de gestiune a
cunotinelor i Data Mining
Introducere.
Data Mining i KDD

Prezentare elaborat de lect. sup. RUSU Viorel
29 octombrie 2012
Masterat TI
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Structura cursului
Ore de Curs : prezentm, ascultm,
punem ntrebri, rspundem
Ore de laborator: implementm,
testm, prezentm rapoarte i le
susinem
Lucrare de curs: alegem tema,
studiem/cercetm, susinem
Examen(scris): demonstrm c nc 3
sptmni de studii nu au trecut n
zadar i primim aprecieri
2
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Orar
l m m j v s
sapt. 1
c (505) c (505) l* (505) c (505)
sapt. 2 c (505) l (501) l (501) l (501) c (505)
sapt. 3 c (505) l (501) l (501) l (501) c (505) c**(505)
3
Orele de desfurare: 18:00-20:00

* ntlnire cu toata grupa la primul laborator
** ntlnire recapitulativ final; susinere complet a
lucrrilor de laborator (orele 9-12)
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Resurse
4
Pagina cursului:
http://francophonie.utm.md/master_info/

Utilizator: student
Parol: master_TI_2012


Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
5
1. Introducere. Data mining i KDD
2. Descrierea conceptelor caracterizare i
comparaie
3. Depozite de date i tehnologii OLAP
4. Preprocesarea datelor
5. Descoperirea regulilor de asociere (analiza
asocierilor)
6. Clasificare i predicie
7. Clusterizare (analiza clusterilor)
8. Standarde i software data mining ODM,
Microsoft OLE DB
9. Aplicaii i tendine in data mining
Planul cursului:
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Datele, Informaia, Cunotinele
Ce sunt datele?
Ce este informaia?
Ce sunt cunotinele?
Ce este Data Mining?
Ce este KDD?

6
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Datele, Informaia, Cunotinele
Datele
nite nouti cu o via scurt
nite note temporale
nite simboluri
Informaia
date semi-structurate (agregate),
care pot servi drept baz pentru
luarea anumitor decizii
semnal material capabil s
declaneze o reacie a unui sistem.
7
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Datele, Informaia, Cunotinele
Cunotinele
posedarea unor informaii speciale;
rezultatul prelucrrii informaiei, ce
definete o anumit idee i determin
un context;
faptul de nelegere: perceperea clar
a adevrului

Cunotinele sunt puterea!

8
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Datele, Informaia, Cunotinele
9
Date Informaie Cunotine
Preprocesare Analiz
Informaia e ceea ce poate avea
atribuie la soluionarea problemei, iar
cunotinele sunt ceea de ce e nevoie
pentru soluionarea problemei

Relaia Date-Informaii-Cunotine:
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Tipuri de Cunotine
Explicite : uor se reprezint cu date
clare, mesaje, cuvinte i cifre.
Tacite : greu de redat, des se includ n
intuiie i n experiene, deprinderi sau
obiceiuri ce nu se supun unei analize.

10
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Tipuri de Cunotine
Gestiunea Cunotinelor:
Crearea: obinerea noilor cunotine.
Identificarea: din cunotine tacite n explicite
Organizarea: clasificarea i categorizarea
Accesul: transmiterea i rspndirea cunotinelor
Folosirea: aplicarea cunotinelor pentru luarea
deciziilor
11
Domeniul afacerilor (cadrul corporativ):
Externe: cunoaterea clientului, informaii
analitice independente.
Interne: de producere, a personalului, experiena
ntreprinderii, active intelectuale, etc.

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Ce este Data Mining?
12
Cteva definiii:
Data Mining (explorarea datelor) definete
procesul de descoperire a modelelor de
cunotine i/sau informaii utile dintr-o
cantitate mare de date, colectate si stocate
n diferite tipuri de depozite de date (baze
de date, data warehouses, WWW etc.)
Data Mining este o etap din procesul de
extragere a cunotinelor, care consist n
aplicarea algoritmilor de analiz a datelor.

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Ce este Data Mining?
13
Etapele procesului de
descoperire a cunotinelor

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Ce este KDD?
14
The non-trivial process of identifying
valid, novel, potentially useful, and
ultimately understandable patterns in
data.
Fayyad, U. M.; Piaetsky-Shapiro, G.; Smyth, P. 1996. From
Data Mining to Knowledge Discovery: An Overview. In ,
Advances In Knowledge Discovery and Data Mining.
AAAI/MIT press, Cambridge mass.
Traducere liber: Proces netrivial de
identificare n date a abloanelor valide,
novatoare, potenial utilizabile i
inteligibile.

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Ce este KDD?
15
Descoperirea cunotinelor i data mining-ul
au emers ca un domeniu interdisciplinar
aflat ntr-o dezvoltare rapid ce fuzioneaz
baze de date, statistici, domenii de
activitate aflate n strns legtur n
dorina de a extrage informaii valoroase si
cunotine ntr-un volum ct mai mare.

Exist o diferen n nelegerea termenilor
descoperire de cunotine i data
mining.


Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Ce este KDD?
16
Descoperirea cunotinelor (Knowledge
Discovery) n baza de date este un
proces de identificare a unor
modele/abloane de date valide,
novatoare, folositoare si, n ultima
msura, de neles.
Data mining este un pas n procesul de
descoperire a informaiei constnd ntr-un
set de algoritmi care, n limitele accep-
tate, descoper abloane (patterns)
semnificative n structura datelor.

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Ce este KDD?
17
Knowledge Discovery in Databases
Knowledge Discovery from Data
Data miningcore of knowledge discovery
process, deci KDD = Data Mining
Knowledge extraction
Knowledge mining from databases
Information discovery
Exploratory data analysis
Data archeology
Data pattern analysis
Intelligent Data Analysis
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
De ce Data Mining?
18
Cretere exploziv a datelor : de la terabytes la petabytes
Colecii de date i date disponibile
Colecii de date automatizate, sisteme de baze de
date, Web, societate computerizat
Surse majore de date abundente

Business: Web, e-commerce, tranzacii, stocuri,

tiin: teledetecie, bioinformatic, simulri


tiinifice,

Societate : nouti, camere digitale, YouTube


Ne necm n date, dar suntem flmnzi dup cunotine
Calculatoare au devenit mai ieftine i mai puternice
Necesitatea e mama inveniei - Data Mining Analiz
automat a masivelor seturi de date!

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
De ce Data Mining?
19
Anii 1960:
Data collection, database creation, IMS and network DBMS
Anii 1970:
Relational data model, relational DBMS implementation
Anii 1980:
RDBMS, advanced data models (extended-relational, OO, deductive,
etc.)
Application-oriented DBMS (spatial, scientific, engineering, etc.)
Anii 1990:
Data mining, data warehousing, multimedia databases, and Web
databases
Anii 2000:
Stream data management and mining
Data mining and its applications
Web technology (XML, data integration) and global information
systems

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
De ce nu analiz tradiional de
date?
20
Un numr teribil de date
Algoritmii trebuie sa fie foarte scalabili pentru a putea
gestiona terabytes de date
Date multi-dimensionale
Micro-matricele pot avea zeci sau sute de dimensiuni
Nivel nalt de complexitate a datelor
Fluxuri de date i date senzoriale
Date temporale, date secveniale
Date structurate, grafuri, reele sociale i date multi-link
Baze de date eterogene i baze de date motenire
Date spaiale, spaiotemporale, multimedia, text i Web
Programe Software, simulri tiinifice
Aplicaii noi i sofisticate

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
De ce nu analiz tradiional de
date?
21

Tehnicile tradiionale sunt neputincioase fa de datele
brute
Data Mining poate ajuta cercettori
la clasificarea i segmentarea datelor
la formarea ipotezelor
Este prea mult informaie ascuns n date, care nu sunt
uor identificabile
Analitii pot pierde sptmni pentru a descoperi informaii
utile
Majoritatea datelor nu sunt niciodat analizate

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Ce (nu) este Data Mining?
22
Ce e Data Mining?
Anumite nume sunt
prevalente n anumite
locaii din SUA (OBrien,
ORurke, OReilly pentru
regiunea Boston)
Gruparea unor
documente similare
returnate de ctre motorul
de cutare n conformitate
cu contextul lor (ex.
Amazon rainforest,
Amazon.com)
Ce nu este Data
Mining?
Cutarea
numrului de
telefon n agend

A face o cerere
pe un motor de
cutare Web
pentru informaii
despre Amazon

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Data Mining i Business Intelligence
23
I ncreasing potential
to support
business decisions
End User
Business
Analyst
Data
Analyst
DBA
Decision
Making
Data Presentation
Visualization Techniques
Data Mining
I nformation Discovery
Data Exploration
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integration, Data Warehouses
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Data Mining: Confluena mai multor
disciplini of Multiple Disciplines
Data Mining
Database
Technology
Statistics
Machine
Learning
Pattern
Recognition
Algorithm
Other
Disciplines
Visualization
24
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Data Mining astzi

Aceste tehnice nu sunt recente
Ceea ce e nou :
Capacitile de stocare i de calcul (paralel) oferite de
tehnic si de tehnologiile informatice moderne
(arhitecturi masiv paralele)
Pachetul de tehnici de diferit natur care pot s succede
automat una pe altele
Integrarea DM n procesul de producie, care permite
tratarea a mari volume de date i fac ca DM s ias din
laboratoarele de cercetare pentru a intra n ntreprinderi
DM se regsete n sectoarele ce, prin activitate lor, dein
numeroase informaii economice i comportamentale
individualizate: bnci, marketing, telecomunicaii,
medicin

25
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Tipuri de date explorate n DM

Date continue
ale cror valori formeaz o submulime infinit a lui R
(exemplu: salariu)
Date discrete
ale cror valori formeaz o submulime finit sau
infinit a lui N (exemplu: numrul de copii n familie)
Date categoriale (sau calitative)
ale cror mulime de valori este finit; aceste valori
sunt numerice sau alfanumerice, dar cnd sunt
numerice, acestea sunt nite coduri i nu cantiti
(exemplu: nr. departamentului, nr. de nmatriculare)
Date textuale
scrisori de reclamare, rapoarte, CV-uri, etc.

26
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Tipuri de date explorate n DM

Date continue i discrete sunt cantiti:
Putem efectua operaii aritmetice cu ele
Sunt ordonate (pot fi comparate cu relaii de ordine)
Date categoriale nu sunt cantiti
Dar pot fi uneori ordonate: date categoriale ordinale
(exemplu: mic, mediu, mare)
Datele ordinale sunt tratate des ca date discrete
Datele categoriale nominale nu sunt ordonate
Date textuale conin:
Abrevieri
Greeli ortografice sau sintactice
Ambiguiti (termeni a cror sens depinde de context,
greu detectabil automatic)

27
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Analiza exploratorie a datelor
Regresia liniar trateaz variabilele continue
Analiza discriminant trateaz variabilele
explicative continue i variabilele int
nominale
Regresia logistic trateaz variabilele
explicative continue sau binare i variabilele
int nominale sau ordinale
Reele neuronale trateaz de preferin
variabilele continue pe intervalul [0,1]
Unii arbori de decizie (CHAID) trateaz direct
variabilele discrete i categoriale, dar
discretizeaz variabilele continue
Ali arbori (CART, C4.5, C5.0) pot la fel trata
direct variabilele continue
28
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Analiza exploratorie a datelor
Variabile continue
Detectarea non-linearitii ce justific
discretizarea
Variabile discrete
Regruparea anumitor caracteristici de numr
foarte mic (greuti foarte mari)
Crearea indicatorilor pertineni din date brute
Consultarea avizului specialitilor din sectorul
studiat
29
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Date dintr-un depozit de date
Consolidate: din diferite sisteme informatice de
producie (pentru a avea o omogenitate de
definiii i codificri)
Orientate utilizator: date structurate pe
specialitate i nu pe aplicaii informatice
Documentate: metadate ce indic definirea
datelor, proveniena lor, regulile i data de
modificare
Istorizate: cu dispozitive de epurare i de
recapitulare automat a datelor de o anumit
vechime
Agregate: nu toate datele au nevoie de a fi
stocate cu acelai nivel de detalizare ca i n
sistemele de producie
30
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Data Mining multi-dimensional
Date ce urmeaz s fie exploarate
Relaionale, date warehouse, transactionale, fluxuri, obiect-
orientate/relaionale, active, spatiale, time-series, texte,
multi-media, eterogene, motenite, WWW
Cunotine ce urmeaz s fie exploatate
Caracterizare, discriminare, asociere, clasificare, clustering,
tendin/abatere, analiza excepiilor, etc.
Funcii multiple/integrate i exploatare multi-nivel
Tehnici utilizate
Database-orientate, date warehouse (OLAP), machine
learning, statistice, vizualizare, etc.
Applicaii adaptate
Retail, telecomunicaii, banking, analiza fraudelor, bio-data
mining, analiza stocurilor, text mining, Web mining, etc.
31
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining
32
Predictive: utilizeaz nite variabile pentru a
prezice valori necunoscute sau viitoare a altor
variabile.
Clasificare
Regresie
Detectarea deviaiilor/anomaliilor
Descriptive: gsete abloane uman-
interpretabile ce descriu datele.
Clustering
Descoperirea regulilor de asociere
Descoperirea abloanelor secveniale

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining. Clasificare.
33
Se d o colecie de nregistrri(training set )
Fiecare nregistrare conine un set de
atribute, unul din atribute devine clas.
Se gsete modelul pentru clasa-atribut ca o
funcie de valoare a altui atribut.
Scopul: nregistrri preventiv necunoscute
trebuie s fie atribuite la o clas cu o acuratee
maxim posibil.
Setul de test e folosit pentru a determina
acurateea modelului. De obicei, un set de
date dat e divizat n un set de antrenare i
altul de testare. Testul de antrenare e utilizat
pentru a construi modelul, iar cel de test -
pentru a-l valida.
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining. Clasificare.
34
Exemplu:
Tid Refund Marital
Status
Taxable
Income
Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Refund Marital
Status
Taxable
Income
Cheat
No Single 75K ?
Yes Married 50K ?
No Married 150K ?
Yes Divorced 90K ?
No Single 40K ?
No Married 80K ?
10
Test
Set
Training
Set
Model
Learn
Classifier
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining. Clasificare.
35
Aplicare: Marketing Direct
Scopul: Reducerea costului de mailing prin
direcionarea unui set de consumatori
probabili pentru a cumpra un nou produs.
Abordare:
Utilizarea datelor a unui produs similar introdus anterior.
tim care cumprtor a decis sa cumpere i care nu. Decizia
{buy, dont buy} formeaz clasa-atribut.
Colecteaz diverse informaii demografice, a stilului de via
i de interaciune cu compania despre astfel de cumprtori.
(tip de afacere, unde st, ct ctig, etc.
Utilizarea acestei informaii ca atribute de intrare pentru a
obine modelul de clasificare.
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining. Regresia.
36
A prezice o valoare pentru o variabil continu n
baza valorilor altor variabile, presupunnd un
model liniar sau neliniar a dependenei.
Foarte mult studiat n statistici i domeniul
reelelor neuronale.

Example:
Prezicerea vnzrilor unui produs nou n baza
cheltuielilor de publicitate.
Prezicerea vitezei vntului n funcie de
temperatur, umiditate, presiunea aerului, etc.
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining. Detectarea
deviaiilor/anomaliilor.
37
Detectarea abaterilor semnificative de la
un comportament normal
Aplicare:
Detectarea fraudelor
pentru Carduri de Credit

Detectarea
Intruziunilor
n Reea

Traficul de reea tipic

la nivelul Universitii
se poate ajunge la peste 100 de milioane de
conexiuni pe zi
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining. Clustering.
38
Fiind dat un set de puncte de date, fiecare avnd
un set de atribute i o msur de similitudine
ntre ele, gsii grupuri astfel nct
Puncte de date ntr-un cluster sunt mai
asemntoare unul cu altul.
Puncte de date n grupuri separate sunt mai
puin asemntoare cu unul de altul.
Msuri de similaritate:
Distanta euclidian dac atributele sunt
continue.
Alte msuri specifice problemei.
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining. Clustering.
39
Intracluster distances
are minimized

Intercluster distances
are maximized

Euclidean Distance Based Clustering in 3-D space.
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining. Clustering.
40
Aplicare: Segmentarea pieei
Scopul: sub-divizionare a pieii n subseturi
distincte de clieni care pot fi posibil alese ca
int de pia i ar putea fi atinse
cu diferite proceduri de marketing.


Abordare:
Colectarea diferitor atribute a clienilor pe baza informaiilor
legate de stilul de via i locaiunea geografic.
Gsirea grupuri de clieni similari.
Msurarea calitii clusterilor prin respectarea abloanelor de
cumprare a clienilor n acelai cluster fa de cele din
clustere diferite.
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining.
Descoperirea regulilor de asociere.
41
Fiind dat un set de nregistrri care conin fiecare
un numr de articole dintr-o colecie dat;
S se produc reguli de dependen care vor
prezice ocurena unui element bazat pe
ocurena unui alt element.

TI D I tems
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Rules Discovered:
{Milk} --> {Coke}
{Diaper, Milk} --> {Beer}

Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining.
Descoperirea regulilor de asociere.
42
Aplicare: Gestionarea rafturilor n
supermarket
Scopul: Pentru a identifica elementele care sunt
cumprate mpreun de clienii suficient de des.



Abordare:
o Prelucrarea datelor de la punctul de vnzare
colectate cu scanere de coduri de bare pentru a
gsi dependenele ntre elemente.
o Regula clasic:
Dac un client cumpr scutec i lapte, apoi el este foarte
probabil s cumpere bere.
Deci, nu fii surprini dac gsii ase cutii de bere
aranjate alturi de scutece!
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining.
Descoperirea abloanelor secveniale.
43
Fiind dat un set de obiecte, cu fiecare obiect fiind
asociat cu propria cronologie a evenimentelor,
gsii regulile care prezic dependene secveniale
puternice ntre diferite evenimente.
Regulile sunt formate de primul ablon descoperit.
Ocurena evenimentelor ablon sunt guvernate de
constrngeri de sincronizare.
(A B) (C) (D E)
(A B) (C) (D E)
<= ms
<= xg
>ng <= ws
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Funcionaliti Data Mining.
Descoperirea abloanelor secveniale.
44
Exemple:

Log-urile de alarm n telecomunicaii,
(Inverter_Problem Excessive_Line_Current)
(Rectifier_Alarm) --> (Fire_Alarm)
Secvenele de tranzacii n punctele de vnzare,
Librrie, dipritura calculatoare:
(Intro_To_Visual_C) (C++_Primer) -->
(Perl_for_dummies,Tcl_Tk)
Magazin de articole sportive:
(Shoes) (Racket, Racketball) --> (Sports_Jacket)
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Modele i abloane.
45
Data Mining caut structuri de 2 tipuri:
abloane (patterns)
O structur caracteristic posedat de un mic
numr de observaii : o ni de clieni de mare
valoare sau din contra cu risc ridicat
Instrumente: classificare, reguli de asociere.
Modele
Construirea modelelor a fost ntotdeauna o
activitate a statisticienilor. Un model este un
rezumat global al relaiilor dintre variabile,
care s permit de a nelege fenomenele i de
a face predicii.
Introducere. Data Mining i KDD

Prezentare elaborat de lect. sup.

RUSU Viorel
Introducere. Data Mining i KDD
Modele i abloane.
46
DM nu se ocup cu estimarea i testarea de
modele pre-specificate, dar de descoperirea
modelelor folosind un proces de cutare
algoritmic de explorare a modelelor:
liniare sau nu,
explicite sau implicite: reele neuronale,
arbori de decizie, SVM, regresia logistic,
reelele Bayesian ...
Modelele nu provin din teorie, ci de la
explorarea datelor.

S-ar putea să vă placă și