Curs 5 - Data Mining

Sisteme de inteligenta afacerii
Data mining
Data Warehouse si Data mining
 Data mining este procesul de cautare automata de sabloane, tipare semnificative in volume
foarte mari de date.
 Trei tipuri de aplicatii de DW
 Procesarea informatiilor
 Interogari, analize statistice de baza, raportari folosind tabele, grafice, figuri
 Procesare analitica
 Analiza multidimensionala a datelor DW
 Operatii OLAP de baza, navigare prin date, pivotari, rotatii, sectionari
 Data mining
 Descoperire de cunostinte din modele ascunse
 Asocieri, construire de modele analitice, realizare de clasificari si predictii, si
prezentarea rezultatelor cu instrumente de vizualizare
 OLAM –Online Analitycal Data Mining
Despre data mining
 Este o colectie de metodologii, tehnici si algoritmi de analiza a datelor pentru
descoperirea de modele noi in date. Modelele trebuie sa fie valide, utile
si inteligibile
 Converteste datele in cunostinte valoroase care pot fi folosite ca suport
pentru decizii
 Este folosit pentru seturi mari de date
 Procesul este automatizat, nu e necesara interventia umana
 Data mining si Knowledge Discovery in Databases (KDD) sunt
considerate de unii autori ca reprezentand acelasi lucru. Altii considera data
mining-ul ca fiind pasul de analiza in procesul KDD, dupa curatarea si
transformarea datelor si inainte de vizualizare/ evaluarea rezultatelor
Despre data mining
 Implica metode care sunt la intersectia intre inteligenta artificiala, invatare
automata (machine learning), statistica si sisteme de baze de date.
 Cele mai valoroase rezultate obtinute prin DM sunt: clusterizarea,
clasificarea, estimarea, predictia si gasirea lucrurilor care apar impreuna.
 Principalele instrumente de DM includ:
• Arbori de decizie, • Algoritmi genetici

• Retele neuronale • Logica fuzzy
• Instrumente de vizualizare • Metode statistice clasice.
Data mining
 Pasii procesului de data minig:
1. Culegerea datelor - : colectarea datelor din baze de date sau prin cautari pe Web
2. Preprocesarea (pregatirea) datelor de analizat.
 Curatarea datelor: inlocuirea (sau stergerea) valorilor lipsa, eliminarea sau doar identificarea
valorilor extreme, eliminarea zgomotelor din date, inlaturarea inconsistentelor.
 Integrarea datelor: datele sunt preluate din surse multiple, cu tipuri de date si structure
diferite, sunt integrate si se elimina duplicatele si inconsistentele
 Transformarea datelor: normalizarea (sau standardizarea), sumarizari, generalizari,
construirea de noi atribute, etc.
 Reducerea datelor (sau extragerea caracteristicilor): doar atributele relevante sunt selectate
pentru procesare ulterioara
 Discretizarea: deoarece unii algoritmi lucreaza doar cu valori discrete, valorile
atributelor continue trebuie inlocuite cu valori discrete dintr-o lista predefinita
3. Analiza datelor sau aplicarea unui algoritm/metode de DM - se aplica algoritmii de DM si
se realizeaza extragerea si descoperirea de modele.
 Invatare supervizata
 Invatare nesupervizata
4. Vizualizarea si interpretarea rezultatelor algoritmului - deoarece DM extrage proprietati si
informatii ascunse din date, pentru a intelege si evalua rezultatele e necesara vizualizarea lor
5. Evaluarea rezultatelor: nu toate rezultatele obtinute prin DM sunt informatii valoroase. Pot
rezulta adevaruri statistice sau informatii care nu sunt utile in activitatea analizata. Expertii
sunt cei care vor evalua rezultatele
Data mining
Strategii de
data mining
Invatare Invatare
supervizata nesupervizata
Clasificare Estimare Previziune Clusterizare Analiza

cosului de
cumparaturi
Domenii de aplicabilitate
 Datele financiare din industria bancară și financiară sunt în general fiabile și de înaltă
calitate, ceea ce facilitează analiza sistematică a datelor și data mining. Unele cazuri tipice sunt
după cum urmează -
 Prognoza plății împrumutului și analiza politicii de creditare a clienților.
 Clasificarea și gruparea clienților pentru campanii de marketing.
 Detectarea spălării banilor și a altor infracțiuni financiare
 Data Mining are o mare aplicabilitate în retail deoarece colectează o cantitate mare de date din
vânzări, istoricul achizițiilor clienților, transportul mărfurilor, consumul și serviciile.
 DM ajută la identificarea modelelor și tendințelor de cumpărare a clienților, care conduc la o
calitate îmbunătățită a serviciilor pentru clienți, la o bună păstrare și satisfacție a clienților.
Exemple de exploatare a datelor din industria de retail:
 Analiza multidimensională a vânzărilor, clienților, produselor, timpului și regiunii.
 Analiza eficacității campaniilor de vânzări.
 Analiza Retenției clientilor - Cati dintre clienti renunta la serviciile unei companii si apeleaza la
serviciile unui competitor? Analiza ratei renuntarii clientilor asista managerii de marketing sa
inteleaga motivele pentru care un client opteaza sau nu pentru un produs, sa-si imbunatateasca
relatia cu clientii si sa creasca gradul de fidelitate
 Recomandari de produse și vanzare incrucisata
 DM în industria telecomunicațiilor ajută la identificarea tiparelor de telecomunicații, a activităților
frauduloase, la utilizarea mai eficientă a resurselor și la îmbunătățirea calității serviciilor.
 DM este o parte foarte importantă a bioinformaticii. DM contribuie in urmatoarele zone:
 Alinierea, indexarea, căutarea similitudinii și analiza comparativă a secvențelor de nucleotide
multiple.
 Descoperirea modelelor structurale și analiza rețelelor genetice și a căilor proteice.
Povesti de succes
 Arbori de decizie construiti pe baza istoricului imprumuturilor acordate de
banci pentru a decide daca sa acorde un imprumut
 Modele ale comportamentului de calatori utilizate pentru a gestiona vanzarea
cu discount a biletelor de avion, camerelor de hotel, etc.
 “Scutece si bere" Observatia ca acei clienti care cumpara scutece au probabilitate
mai mare decat media de a cumpara si bere a permis supermarket-urilor sa
amplaseze Berea langa scutece. Si chips-urile langa. Au crescut vanzarile la toate trei.
 Skycat si Sloan Sky Survey: clusterizarea corpurilor ceresti in functie de
nivelul lor de radiatii in diferite benzi, a permis astronomilor sa diferentieze intre
galaxii, stele in formare si alte tipuri de obiecte ceresti.
 Compararea genotipului unor persoane care au/ nu au anumite afectiuni au
permis descoperirea unor seturi de gene responsabile pentru cele mai multe din
cazurile de diabet. Acest gen de DM va deveni tot mai util, odata ce genomul uman
este construit
Metode de data mining
 Metode predictive - utilizeaza niste variabile pentru a
prezice valoarea altor variabile.
 - Clasificarea – se bazeaza pe date cunoscute, etichetate si algoritmii de
clasificare construiesc modele pentru a clasifica date noi
 - Regresia
 - Detectarea deviatiilor (ex: fraude, intruziuni)
 Metode descriptive algoritmii gasesc modele care

descriu structura interna a setului de date.
 - Clusterizarea – identifica grupuri de obiecte similare (CLUSTERE) din
setul de date, dar si posibile obiecte isolate, valorile extreme.
 - Descoperirea regulilor de asociere
 - Descoperirea pattern-urilor secventiale
Metode predictive
Clasificarea
 consta in gruparea cazurilor pe baza unui atribut predictibil.
 Fiecare caz contine un set de atribute, dintre care unul este atributul de clasificare (atributul
predictibil).
 Operatia consta in gasirea unui model care descrie atributul predictibil ca o functie de alte
atribute luate ca valori de intrare.
 In setul de date, clasa este atributul cu doua stari: Da si Nu.
 Pentru a antrena un model de clasificare, trebuie cunoscute valorile clasei fiecarui caz din setul
de date, valori pe care le gasim de obicei in datele istorice.
 Prin urmare, daca C: D(a1,a2,...an) -->V, atunci C(xi)=y, y cunoscut, xi Є D, unde D(a1,a2,...an)
este setul de date al modelului ce urmeaza a fi instruit.
 Algoritmii de data mining care necesita un set de date pe care sa se realizeze o operatie de
antrenare-instruire se numesc algoritmi dirijati.
 Exemple consacrate de algoritmi de clasificare sunt:
 arborii de decizie;
 retelele neuronale;
 Naïve Bayes.
Metode predictive
Regresia
 Este similara clasificarii, diferenta majora intre cele doua modele este
aceea ca in cazul regresiei atributul predictibil este un numar continuu.
 Tehnicile de regresie au fost studiate de sute de ani in domeniul
statisticii. Regresia liniara si regresia logistica sunt cele mai utilizate
metode de regresie. Alte tehnici de regresie sunt arborii de regresie si
retelele neuronale.
 Exemplu de problema rezolvata prin acest model: calcularea vitezei
vantului in functie de temperatura, presiunea aerului si umiditate.
Metode descriptive
Clusterizarea
 Clustering-ul se mai numeste si segmentare si este utilizat in
identificarea gruparilor naturale a cazurilor, grupari bazate pe un
set de atribute.
 Cazurile din cadrul aceluiasi grup au mai multe valori similare
ale atributelor.
 Segmentarea este o operatie de data mining nedirijata, nu exista
nici un atribut care sa conduca procesul de instruire, toate
atributele parametri de intrare sunt tratate in mod egal.
 Cei mai multi algoritmi de clustering isi construiesc modelul
prin iteratii care se opresc cand modelul este acoperit in
intregime, adica atunci cand limitele acestor segmente sunt
stabilizate.
Metode descriptive
Clusterizarea
 Clustering-ul se mai numeste si segmentare si este utilizat in identificarea gruparilor
naturale a cazurilor, grupari bazate pe un set de atribute.
 Cazurile din cadrul aceluiasi grup au mai multe valori similare ale atributelor.
 Segmentarea este o operatie de data mining nedirijata, nu exista nici un atribut care sa
conduca procesul de instruire, toate atributele parametri de intrare sunt tratate in
mod egal.
 Cei mai multi algoritmi de clustering isi construiesc modelul prin iteratii care se
opresc cand modelul este acoperit in intregime, adica atunci cand limitele acestor
segmente sunt stabilizate.
Algoritmul de segmentare grupeaza, de exemplu, pe baza celor doua atribute varsta si
venit setul de date in trei segmente:
 Cluster 1: cuprinde populatia tanara cu un
venit scazut;
 Cluster 2: cuprinde populatia de varsta medie
cu venituri;
 Cluster 3: cuprinde populatia de varsta
inaintata cu un venit scazut.
Metode si tehnici aplicate in
cazuri concrete de business
Probleme analitice Exemple Algoritmi
Clasificare: Incadrarea  Analiza riscului de credite  Arbori de decizie
cazurilor in clase  Analiza renuntarii clientilor  Naïve Bayes
predefinite  Retinerea clientilor  Retele neuronale
Segmentarea:  Analiza profilului clientilor  Clustering
Taxonomia gruparii  Campaniile de mail  Sequence
cazurilor similare clustering
Asocierea: Calcularea  Analiza cosului de cumparaturi  Arborii de decizii
avasata pentru corectii  Analiza avansata a datelor  Asocierile
Prognoza seriilor de  Previzionarea vanzarilor  Serii de timp
timp: previziuni  Previzionarea preturilor
actiunilor la bursa
Predictia (analiza  Cotatia primele de asigurare  Toti algoritmii
seriilor): Predictia unei  Predictia venitului clientilor
valori pentru un caz nou
pe baza valorilor
cazurilor similare
Analiza deviatiei:  Detectarea fraudelor cartilor  Toti algoritmii
descoperirea cazurilor de credit
unui segment analizat  Analiza intruziunii in retelele
difera de toate cele informatice
celelalte cazuri
DM in DW
 Volume f. mari de date – milioane de inregistrari, mii de
atribute
 Se realizeaza procesul ETL si se incarca si gestioneaza datele
in sistem multidimensional
 Se ofera acces utilizatorilor de business care isi vor realiza
analizele dorite prin aplicatii software specifice
 Rezultatele sunt prezentate sub forma de tabele sau grafice
Arhitectura sistem OLAM
(Multidimensional
database)
Aplicatii DM
 AT&T utilizeaza o aplicatie de data mining pentru identificarea apelurilor internationale frauduloase;
 sistemul american FAIS (Financial Crimes Enforcement Network AI System) utilizeaza data mining
pentru identificarea activitatilor de spalare a banilor in cadrul tranzactiilor foarte mari de bani;
 Banca Americii utilizeaza data mining pentru identificarea clientilor care utilizeaza anumite
produse ale bancii si care sunt produsele preferate ale clientilor, in scopul crearii de mixuri de
produse care sa satisfaca exigentele clientilor.
 US West Communications, furnizor de servicii de comunicatii cu peste 25 milioane de clienti,
utilizeaza data mining pentru a determina tendintele si nevoile clientilor pe baza unor parametri de
tipul: dimensiunea familiei, varsta medie a membrilor familiei si adresa de rezidenta.
 Twentieth Century Fox analizeaza incasarile de box-office pentru a identifica care actori, filme
si scenarii vor fi apreciate in diverse arii de marketing.

Curs 5 - Data Mining

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 5 - Data Mining

Încărcat de

Drepturi de autor:

Formate disponibile

Sisteme de inteligenta afacerii

• Arbori de decizie, • Algoritmi genetici

Clasificare Estimare Previziune Clusterizare Analiza

 Metode descriptive algoritmii gasesc modele care

S-ar putea să vă placă și