Sunteți pe pagina 1din 6

Platforme Informatice pentru Productie si Servicii

Data-mining process

1
Data-mining process

- asistarea deciziei medicale (recomandarea


unui tratament privind un anumit
I. INTRODUCERE diagnostic).
Pentru extragerea acestor informații utile,
Data-mining, adică extragerea de se parcurge următorul proces:
cunoștințe din date este un proces de analiză a ● Colectare: există date din diferite surse
unei mulțimi mari de date si extragerea (senzori, documente scrise, servere web)
informațiilor relevante din acestea prin diferite ● Curățire: eliminarea datelor eronate și
metode, în vederea descoperirii de pattern-uri tratarea valorilor absemte
folositoare. ● Procesare: transformarea datelor într-un
Sarcina reală de extragere a datelor este format standardizat
analiza automată a unor cantități mari de date ● Analiza: identificarea tiparelor, a
pentru a extrage tipare necunoscute anterior. asocierilor sau a relațiilor existente în date
Aceste tipare pot fi văzute ca un rezulat al datelor ● Extragere cunoștințe: formularea unor
de intrare și pot fi utilizate mai apoi în analize reguli concise și aplicabile (care ar putea fi
suplimentare. De exemplu, etapa de extragere a folosite de către utilizatori)
datelor poate identifica mai multe grupuri din Acest proces este numit descoperirea
date care pot fi utilizate pentru a obține rezultate cunoștințelor, iar termenul data mining se referă
mai exacte de către un sistem de asistență doar la o etapă a acestui proces.
decizională.
Diferența dintre analiza datelor și
extragerea datelor este că, analiza datelor este
utilizată pentru testarea modelelor din cantitatea
de date (exemplu: analiza eficienței unei
campanii de marketing, indiferent de cantitatea
de date), iar extragerea datelor folosește învățarea
automată și modele statistice pentru a descoperi
anumite tipare într-un volum mai mare de date.

Ce înțelegem prin data mining ?


Exemplificare

La ora actuală se colectează un volum Exemplu: se consideră o bază de date ce


foarte mare de date de diferite tipuri și provenind conține date despre clienții unei bănci.
din diferite surse, de exemplu: tranzacții - căutarea clienților ce locuiesc într-un
comerciale (hipermarket-uri), tranzacții anumit oraș nu este o prelucrare pentru
financiare (bancomate), interacțiuni sociale data-mining
(rețele sociale), date medicale, documente - determinarea numărului de clienți care au
electronice, etc. Toate aceste date încorporează o în cont o anumită sumă, nu este o
mulțime de conoștințe care ar trebui extrase în prelucrare pentru data-mining
diferite scopuri: Aceste probeme se rezolvă prin interogări
- pentru a genera recomandări (ex: în simple ale bazei de date.
activitatea de marketing, pentru a sugera Însă, pe de altă parte:
produse clienților) - identificarea clienților cărora li se poate
- detectarea comportamentului anormal acorda un împrumut
(acces fraudulos la un bancomat)

2
- identificarea operațiilor anormale într-un În contextul de azi, mediul de afaceri
cont produce mari volume de date care sunt utilizate
Aceste probleme necesită expertiză în operațiuni curente. În procesul de analiză,
umană și instrumente de data mining. informația care paote fi extrasă din bazele de date
Astfel, data mining încearcă identificarea poate fi exploatată pentru construirea unor
de pattern-uri și relații ascunse, care nu sunt modele sau pentru identificarea unor relații între
întotdeauna evidente. înregistrările din baza de date. Tehnicile de date
mining permit extragerea informațiilor și
realizarea de previziuni pornind de la date
II. DOMENII ÎNRUDITE istorice.
Tehnicile de data mining au fost grupate în
Procesul de data-mining are trei domenii categorii, în funcție de tipul de probleme pe care
generice de la care a împrumutat atât tehnici de le pot modela:
lucru, cât și terminologie, însă cu toate acestea Clasificarea și regresia reprezintă cea mai
există o diferență între aceste domenii și data largă categorie de aplicații, constând în
mining. Aceste domenii sunt: construirea de modele în scopul previzionării
● Statistica reprezintă cea mai longevivă apartenenței la un set de clase (clasificare) sau a
rădăcină, fără de care data-mining nu ar exista. unor valori (regresie). Există câteva tehnici
Unele tehnici din data-mining se bazează pe dedicate rezolvării problemelor de clasificare și
statistică (exemplu: Analiza exploratorie a regresie, dintre care arborii decizionali, tehnica
datelor, utilizată pentru a identifica relații Bayes, rețelele neuronale, k-NN.
sistematice între variabile atunci când nu există Tehnicile de învăţare supervizate au drept
informații suficiente despre acestea). Statistica scop să genereze mecanisme de inducţie
oferă suport teoretic pentru studiul evenimentelor automată cu mare putere predictivă prin
și metode pentru testarea ipotezelor, însă nu extragerea informaţiilor conţinute în baza de date
studiază preprocesarea datelor sau vizualizarea şi transformarea lor într-o baza de cunoştinţe.
rezultatelor, ce fac parte din data mining. Există două mari clase de algoritmi de inducţie :
● Inteliența artificială este un domeniu ce Algoritmi de clasificare - când variabila în
ajută la dezvoltarea data mining prin tehnici de legatură cu care se realizează predicţia este de tip
procesare a informației bazate pe modelul calitativ (nominală sau ordinală) sau este
raționamentului uman. Învățarea automată cantitativă cu valori discrete.
(machine learning) reprezintă o arie importantă a Algoritmi de regresie - când variabila în
inteligenței artificiale în raport cu data-mining, legătura cu care se realizează predicţia este
astfel se realizează extragerea de modele din date cantitativă continuă (ia valori reale).
printr-un proces de învățare. Însă, inteligența Clasificarea reprezintă procesul prin care se
artificială se bazează pe îmbunătățirea caută proprietăţi comune în seturi de obiecte din
performanței agenților de învățare, iar data clase de date şi se clasifică în clase diferite în
mining se concentrează pe întregul proces de conformitate cu un model de clasificare.
descoperire de cunoștințe, de la organizarea Clasificarea permite crearea modelelor pentru
datelor, eliminarea celor incomplete, învățare și prezicerea membrilor unei clase. Scopul
cunoaștere până la vizualizarea rezultatelor. clasificării este în primul rând analiza datelor
● Sisteme de baze de date reprezintă o a treia antrenate şi dezvoltarea pe baza acestor date a
rădăcină a data-mining, procurând materialul care unui model, o descriere exactă pentru fiecare
trebuie utilizat, cele mai multe date sunt stocate clasă folosind trăsăturile disponibile ale datelor.
în baze de date. Clasificatorul poate fi folosit pentru a prezice
valorile variabilelor de ieşire folosind valorile de
intrare de îndată ce tiparul a fost învăţat prin
III. CLASIFICAREA TEHNICILOR DE intermediul datelor de antrenament. În aplicaţii
DATA MINING data mining în business clasificarea este întâlnită
des. De exemplu, clasificarea se întâlneşte în

3
detectarea fraudei, unde clasificarea încearcă să caracteristicilor disponibile algoritmului de
identifice dacă tranzacţia este legală. Alte clustering.
exemple de utilizare a metodei de clasificare sunt ● Selectarea caracteristicilor reprezintă
definirea profilului cumpărătorului, analiza procesul de identificare a celor mai utile
tratamentelor ineficiente, diagnosticarea caracteristici utilizate în procesul de grupare.
medicală, aprobări de credite. Este o modalitate de a efectua una sau mai multe
Analiza asocierilor și succesiunilor transformări ale datelor de intrare.
(denumită și analiza coșului de cumpărături) este ● Definirea unei măsuri de proximitate în
o tehnică ce generează modele descriptive ce cadrul unei mulțimi. Proximitatea elementelor
evidențiază reguli de corelație între atributele este măsurată printr-o funcţie de distanţă definită
unui set de date. pe perechi de elemente. Măsurile de asemanare
Analiza de tip cluster (gruparea) este o pot fi folosite şi pentru a caracteriza similitudinea
tehnică descriptivă utilizată pentru gruparea conceptuală dintre doua sau mai multe elemente.
entităților similare dintr-o bază de date, formând ● Procesul de clustering poate fi realizat în
astfel grupuri de obiecte comune în datele de mai multe feluri. Datele de ieşire pot fi „hard”
intrare. Tehnicile de grupare în clustere se (separarea elementelor în grupe clar determinate)
bazează pe algoritmi din sfera rețelelor sau fuzzy (în care fiecare element are un grad
neuronale, algoritmi demografici, k-NN. variabil de apartenenţă la fiecare din grupele
Clusterele sunt adesea folosite pentru rezultate)
schimbarea și detectarea deviației în cadrul ● Extragerea rezultatelor reprezintă procesul
cărora scopul este identificarea obiectelor care nu de obţinere a rezultatelor într-o formă cât mai
se încadrează în grup. Obiectele din același grup simplă şi reprezentativă. Extragerea rezultatelor
trebuie să aibă profile similare, iar obiectele din reprezintă o descriere concisă a fiecarei grupe
grupuri diferite trebuie să aibă profile distincte. obţinute, de obicei prezentate sub formă unor
Schimbarea și detectarea deviației se aplică într-o elemente reprezentative. Toţi algoritmii de
multitudine de domenii, precum este detectarea clusterizare ar trebui să conducă la obţinerea unor
tranzacțiilor frauduloase (frauda de telefoane sau grupe/clase pentru orice mulţime de date de
a cardurilor bancare), detectarea tratamentelor intrare. Dacă în urma procesului de clustering
medicamentoase nepotrivite înainte de a fi prea folosind un anumit algoritm nu se obţine
târziu. gruparea elementelor, atunci se aplicţ un alt
În e-business clustering este folositoare algoritm care poate furniza rezultate mai bune
deoarece poate lucra cu colecţii mari de date şi decat cel anterior.
foloseste la realizarea diferitelor grupe pe baza ● Analiza validitătii grupelor efectuează o
caractericilor comune ale obiectelor. Poate fi evaluare a rezultatelor procesului de clustering,
folosită şi inaintea aplicării metodei de de obicei un criteriu de optimizare. Se verifică
clasificare. De exemplu, dacă folosim metoda dacă rezultatele grupării spaţiale sunt corecte.
clustering pentru o listă de profile ale Așa cum am amintit și în acest capitol, în
utilizatorilor, un cadru (schelet) al diferitelor domeniul data mining se utilizează și alte tehnici
tipuri de clienţi poate fi construit. Această avansate, atât în clasificare, cât și în alte domenii
metodă de clustering are aplicaţii diverse în: de exploatate automată a datelor, metode pe care
marketing, suport clienţi şi determinarea le vom discuta mai jos:
fraudelor (daca comportamentul unui utilizator - Clasificatori bayesieni (Tehnica Bayes)
de telefon celular sare imediat de la un cluster la - k-Nearest Neighbor (k-NN)
altul, aceasta poate indica un jaf de telefon sau o - rețele neuronale (Neural networks)
clonare ). - arbori decizionali
Etapele procesului de clustering: TEHNICA BAYES
● Stabilirea elementelor supuse procesului
de grupare este o etapă principală, care uneori După cum am menționat și în capitolul
include și stabilirea numărului de gupe, tipul anterior, această tehnică face parte din metodele
folosite în rezolvarea problemelor de clasificare

4
și își datorează numele ministrului britanic cunosc valorile lui Y. Predictia este data de
Thomas Bayes (1702-1761). media valorilor lui Y aferente “vecinilor”
Tehnica permite analiza relației dintre identificati în setul de date.
fiecare variabilă independentă și variabila Avantajele tehnicii
dependentă, prin calcularea unei probabilități Tehnica permite clasificarea în multiple
condiționate pentru fiecare din aceste relații. clase și modelarea relațiilor neliniare dintre date.
Când o noua instanță se dorește a fi clasificată, Chiar dacă de multe ori pot apărea dificultăți în
predicția se realizează prin combinarea efectelor stabilirea unei metrici eficiente, algoritmul este
variabilelor independente asupra variabilei unul dintre puținele care acceptă ca input date de
dependente. Pentru instanțele care aparțin setului natură diferită (contină, categorică, booleană
de date utilizat, la calcularea probabilităților etc.).
predicția este 100% corectă, însă pentru
instanțele din afara setului, eficiența algoritmului REȚELE NEURONALE
este putenic afectată de prezența unor
probabilități condiționate egale sau foarte În cardul acestei tehnici, ce are la bază
aproape de zero. concepte din domeniul inteligenței artificiale,
Avantajele tehnicii neuronul artificial reprezintă unitatea de bază
Tinând seama de faptul că pentru calculul pentru prelucrarea informaței. Rețeaua neuronală
probabilităților nu este nevoie decât de o singură artificială reprezintă un ansamblu de neuroni
parcurgere a setului de date, algoritmul prezintă artificiali, legați prin conexiuni. Aceste rețele
avantajul important al unei viteze mari de sunt sisteme dinamice, al căror comportament
construire a modelului de clasificare. poate fi caracterizat prin urmărirea stărilor la
Ca avantaj semnificativ, algoritmul momente diferite de timp. Starea unei retele la un
prezintă capacitatea de a realiza predicții din moment dat este definita de ansamblul nivelurilor
informații parțiale. Pentru realizarea unei de activare a neuronilor si de intensitatile
predicții, algoritmul nu are obligatoriu nevoie de conexiunilor dintre neuroni. De asemenea,
toate atributele independente, cele identificate a rețeaua mai este definită și de parametrii ficși:
fi irelevante pot fi eliminate din algoritm. configuratia conexiunilor si tipul functiilor de
activare.
TEHNICA k-NN Avantajele tehnicii
Această tehnică poate realiza predicții
Tehnica k-Nearest Neighbor este, de rapide pentru instanțe noi, deci poate trimite un
asemenea, utilizată în probleme de clasificare. răspuns în timp real.
Principiul tehnicii constă în: o instanță nouă este De asemenea, aplicatiile de pâna acum au
clasificată prin analiza proximității sale (gradul demonstrat aplicabilitatea acestei tehnici în
de similitudine) cu alte instanțe dintr-un set de domenii dificil de modelat, precum vederea
date cunoscut. electronica sau recunoastere vocala. Spre
Fie un set de date compus din instanțe deosebire de celelalte tehnici de data mining,
care au următoarea structură: retelele neuronale nu restrictioneaza output-ul la
- n atribute numerice independente {Xi, un singur atribut. Folosind o arhitectura de retea
i=1,n}; potrivita se pot obtine predictii simultane pentru
- m atribute booleene sau categorice mai multe variabile, ceea ce poate însemna o
independente {Aj, j=1,m}; eficientizare semnificativa a proceselor de
- un atribut-obiectiv Y, reprezentând explorare a datelor.
variabila dependentă a cărui valoare va
trebui estimată pentru noile instanțe. ARBORI DECIZIONALI
Pentru a previziona valoarea
atributuluiobiectiv al unei instante noi, După cum îi spune și denumirea,
algoritmul cauta în setul de date k înregistrari rezultatul se prezintă sub forma unui graf de tip
“apropiate” de acea instanta, pentru care se arbore. Output-ul major al unui model bazat pe

5
arbori decizionali este arborele în sine. Procesul Tabelul 1 – Analiza comparativă a tehnicilor de
de instruire care creeaza arborele este numit data mining
inductie. Inductia presupune, ca si în cazul 1 - Tehnica Bayes
retelelor neuronale, parcurgerea de câteva ori a 2 - k-NN
setului de date de instruire, cu deosebirea ca în 3 - Rețele neuronale
cazul arborilor, timpul de instruire si implicit 4 - Arbori decizionali
numarul de baleieri ale setului de date este mult
mai mic decât la retelele neuronale. Mai precis, Criterul de comparație 1 2 3 4
numarul de parcurgeri ale setului de instruire este Rapiditate în etapa de instruire + - - +
egal cu numarul de niveluri în arbore. Rapiditate în aplicarea modelului + + + +
Avantajele tehnicii Instruire eficientă pe seturi largi de + - - +
Majoritatea algoritmilor care construiesc date
arbori decizionali pot fi aplicati fara restrictii Operare eficientă pe seturi de date cu - - - +
legate de tipul datelor. Algoritmii de construire a nr. mare de atribute
arborilor decizionali necesita un numar redus de Capacitate de generare a unor output- - - + -
parcurgeri a setului de date utilizat în inductie. uri complexe (mai multe atribute
Consecinta directa a acestei caracteristici simultan)
functionale este rapiditatea procesului de inductie Capacitate de generare a unor output- - - - +
si aplicarea eficienta asupra seturilor mari de uri de natură vizuală
date. Forma outputului permite nu numai Output cu potențial descriptiv + - - +
realizarea de previziuni si clasificari, ci si Utilizare în probleme de predicție - + + -
descrierea relatiilor existente între variabilele Utilizare în probleme de clasificare + + + +
independente si variabila dependenta. În plus, Nu comportă restricții legate de tipul - + - +
forma grafica a outputului faciliteaza analiza datelor de input
relatiilor. Exista aplicatii care permit Soluția (modelul) nu depinde de + + - +
reprezentarea arborelui sub forma unui set de experiența utilizatorului
reguli care, pentru arbori de dimensiuni mari,
Transparența modelului față de + - - +
este mai usor de înteles.
utilizator
IV. CONCLUZII
V. BIBLIOGRAFIE
În concluzie, data mining este folosit
pentru a lua un volum mare de date și a le
transorma în cunoștințe folositoare. Data mining 1. Introducere in data mining -
se referă la procesele de selectare a unor relații http://math.ucv.ro/~gorunescu/courses/D
necunoscute anterior cu scopul obținerii unui M/curs1.pdf
rezultat curat și folositor. 2. https://staff.fmi.uvt.ro/~daniela.zaharie/d
Așa cum am prezentat și mai sus, unele m2018/ro/Curs/curs1/dm2018_curs1.pdf
tehnici de data mining sunt mai eficiente decât 3. Tehnici data mining, Valentin
altele, existând situații în care pentru rezolvarea MILITARU-
unei probleme se poate folisi o unica opțiune (de http://revistaie.ase.ro/content/27/militaru.
exemplu, arborii decizionali sunt singura pdf
alternativă pentru analiza seturilor de date cu 4. http://www.utgjiu.ro/revista/ec/pdf/2011-
număr mare de variabile, rețelele neuronale 03/21_CLAUDIA_ELENA_DINUCA.pd
reprezintă unica soluție pentru probleme în care f
output-ul are o formă vectorială). 5. https://ro.wikipedia.org/wiki/Minarea_dat
Astfel, în tabelul de mai jos este descrisă elor_(Data_mining)#cite_note-10
o analiză comparativă între tehnicile descrise
anterior.

S-ar putea să vă placă și