Sunteți pe pagina 1din 3

● Ce este data mining ?

Data mining sau extragerea de cunostinte din date este un proces de analiza a unei multimi mari de
date si extragerea informatiilor relevante prin diferite metode, in vederea descoperirii unor tipare.

● Ce intelegem prin data mining ?

La ora actuala se colecteaza un volum foarte mare de date de diferite tipuri si porvenind din diferite
surse, de ex: tranzactii comerciale, tranzactii financiare, interactiuni sociale. Toate aceste date ar
trebui extrase in diferite scopuri, iar pentru extragerea informatiilor utile se parcurge urmatorul
proces:

- Colectarea datelor
- Curățire: eliminarea datelor eronate și tratarea valorilor absemte
- Procesare: transformarea datelor într-un format standardizat
-Analiza: identificarea tiparelor sau a relațiilor existente în date
- Extragere cunoștințelor: formularea unor reguli concise și aplicabile (care ar putea fi
folosite de către utilizatori)
Acest proces fiind prezentat in figura de mai jos, iar dupa cum observam termenul de
data mining se refera doar la o etapa din acest proces
Exemplu: se consideră o bază de date ce conține date despre clienții unei bănci.
- căutarea clienților ce locuiesc într-un anumit oraș nu este o prelucrare pentru data-
mining
- determinarea numărului de clienți care au în cont o anumită sumă, nu este o prelucrare
pentru data-mining
Aceste probeme se rezolvă prin interogări simple ale bazei de date.
Însă, pe de altă parte:
- identificarea clienților cărora li se poate acorda un împrumut
- identificarea operațiilor anormale într-un cont
Aceste probleme necesită expertiză umană și instrumente de data mining.

● Analiza datelor

Procesul de data-mining are trei domenii generice de la care a împrumutat atât tehnici de
lucru, cât și terminologie

- Statistica – unele tehnici din data mining au rădăcini şi se bazează pe metode statistice
- Inteligenta artificiala - extragerea de modele din date printr-un proces de Sisteme de baze
de date- ele procura materialul care trebuie utilizat, cele mai multe date sunt stocate in baze
de date

● Data mining: Tehnici


Tehnicile de data mining au fost grupate pe categorii in functie de tipul de probleme pe care le pot
modela. Astfel avem tehnici de:
- Clasificare: ce reprezinta cea mai larga categorie de aplicatii
Metodele de clasificare cauta proprietati comune in seturi de obiecte din clase de date si le
clasifica in clase diferite in conformitate cu un model de clasificare
- Asocierea este o categorie de metode ce genereaza modele descriptive si evidentiaza reguli
de coleratie intre atributele unui set de date
- Analiza de tip cluster (gruparea) realizeaza gruaprea entitatilor similare dintr-o baza de date
formand grupuri de obiecte comune in datele de intrare

● Tehnica Bayes
Se bazeaza pe probabilitati conditionate. Tehnica permite analiza relatiei dintre fiecare variabila
independenta si variabila dependenta, prin calcularea unei probabilitati conditionate pentru fiecare
din aceste relatii. Când o noua instanță se dorește a fi clasificată, predicția se realizează prin
combinarea efectelor variabilelor independente asupra variabilei dependente
Un exemplu clasic si concret la aceasta tehnica ar fi: atunci cand un nou nascut observa
rasaritul soarelui pentru prima data. El nu stie daca soarele va rasari si maine, astfel
probabilitate ca soarele sa rasara este egala cu probabilitatea ca soarele sa nu rasara. A doua zi
soarele rasare, iar el isi actualizeaza probabilitatile. Astfel, asteptarile initiale existente se
actuaizeaza de la incertitudine maxima la aproape sigur
Avantaje: Tinând seama de faptul că pentru calculul probabilităților nu este nevoie decât de o
singură parcurgere a setului de date, algoritmul prezintă avantajul unei viteze mari de
construire a modelului de clasificare.

● k-NN
Este o tehnica prin care datele sunt clasificate in grupe

Avantaj: Tehnica permite clasificarea în multiple clase și modelarea relațiilor neliniare


dintre date. algoritmul este unul dintre puținele care acceptă ca input date de natură diferită
(contină, categorică, booleană etc.).
● Arbori decizionali
După cum îi spune și denumirea, rezultatul se prezintă sub forma unui graf de tip arbore.
Procesul de instruire care creeaza arborele este numit inductie. Inductia presupune
parcurgerea de câteva ori a setului de date de instruire, numarul de parcurgeri ale setului de
instruire fiind egal cu numarul de niveluri în arbore.
în cazul arborilor, timpul de instruire si implicit numarul de baleieri ale setului de date este
mult mai mic decât la retelele neuronale.
Avantaje: Majoritatea algoritmilor care construiesc arbori decizionali pot fi aplicati fara
restrictii legate de tipul datelor
Algoritmii de construire a arborilor decizionali necesita un numar redus de parcurgeri a
setului de date utilizat în inductie. Consecinta directa a acestei caracteristici functionale este
rapiditatea procesului de inductie si aplicarea eficienta asupra seturilor mari de date.

● Retele neuronale
Aceasta tehnica are la baza concepte din domeniul inteligentei artificiale,
neuronul artificial reprezintă unitatea de bază pentru prelucrarea informaței. Aceste rețele
sunt sisteme dinamice, al căror comportament poate fi caracterizat prin urmărirea stărilor la
momente diferite de timp. Starea unei retele la un moment dat este definita de ansamblul
nivelurilor de activare a neuronilor si de intensitatile conexiunilor dintre neuroni. De
asemenea, rețeaua mai este definită și de parametrii ficși: configuratia conexiunilor si tipul
functiilor de activare.
Avantaje: Această tehnică poate realiza predicții rapide pentru instanțe noi, deci poate
trimite un răspuns în timp real.

● Concluzii
Acest tabel concentreaza un set de cateva caracteristici, notand pentru feicare tehnica
prezentata anterior daca satisface criteriul respectiv sau nu. Astfel putem realiza o comparatie
intre aceste tehnici dupa aceste criterii si putem obersa ca unele tehnici sunt mai eficiente
decât altele, existând situații în care pentru rezolvarea unei probleme se poate folisi o unica
opțiune (de exemplu, arborii decizionali sunt singura alternativă pentru analiza seturilor de
date cu număr mare de variabile, rețelele neuronale reprezintă unica soluție pentru probleme
în care output-ul are o formă vectorială).

S-ar putea să vă placă și