Documente Academic
Documente Profesional
Documente Cultură
Data mining sau extragerea de cunostinte din date este un proces de analiza a unei multimi mari de
date si extragerea informatiilor relevante prin diferite metode, in vederea descoperirii unor tipare.
La ora actuala se colecteaza un volum foarte mare de date de diferite tipuri si porvenind din diferite
surse, de ex: tranzactii comerciale, tranzactii financiare, interactiuni sociale. Toate aceste date ar
trebui extrase in diferite scopuri, iar pentru extragerea informatiilor utile se parcurge urmatorul
proces:
- Colectarea datelor
- Curățire: eliminarea datelor eronate și tratarea valorilor absemte
- Procesare: transformarea datelor într-un format standardizat
-Analiza: identificarea tiparelor sau a relațiilor existente în date
- Extragere cunoștințelor: formularea unor reguli concise și aplicabile (care ar putea fi
folosite de către utilizatori)
Acest proces fiind prezentat in figura de mai jos, iar dupa cum observam termenul de
data mining se refera doar la o etapa din acest proces
Exemplu: se consideră o bază de date ce conține date despre clienții unei bănci.
- căutarea clienților ce locuiesc într-un anumit oraș nu este o prelucrare pentru data-
mining
- determinarea numărului de clienți care au în cont o anumită sumă, nu este o prelucrare
pentru data-mining
Aceste probeme se rezolvă prin interogări simple ale bazei de date.
Însă, pe de altă parte:
- identificarea clienților cărora li se poate acorda un împrumut
- identificarea operațiilor anormale într-un cont
Aceste probleme necesită expertiză umană și instrumente de data mining.
● Analiza datelor
Procesul de data-mining are trei domenii generice de la care a împrumutat atât tehnici de
lucru, cât și terminologie
- Statistica – unele tehnici din data mining au rădăcini şi se bazează pe metode statistice
- Inteligenta artificiala - extragerea de modele din date printr-un proces de Sisteme de baze
de date- ele procura materialul care trebuie utilizat, cele mai multe date sunt stocate in baze
de date
● Tehnica Bayes
Se bazeaza pe probabilitati conditionate. Tehnica permite analiza relatiei dintre fiecare variabila
independenta si variabila dependenta, prin calcularea unei probabilitati conditionate pentru fiecare
din aceste relatii. Când o noua instanță se dorește a fi clasificată, predicția se realizează prin
combinarea efectelor variabilelor independente asupra variabilei dependente
Un exemplu clasic si concret la aceasta tehnica ar fi: atunci cand un nou nascut observa
rasaritul soarelui pentru prima data. El nu stie daca soarele va rasari si maine, astfel
probabilitate ca soarele sa rasara este egala cu probabilitatea ca soarele sa nu rasara. A doua zi
soarele rasare, iar el isi actualizeaza probabilitatile. Astfel, asteptarile initiale existente se
actuaizeaza de la incertitudine maxima la aproape sigur
Avantaje: Tinând seama de faptul că pentru calculul probabilităților nu este nevoie decât de o
singură parcurgere a setului de date, algoritmul prezintă avantajul unei viteze mari de
construire a modelului de clasificare.
● k-NN
Este o tehnica prin care datele sunt clasificate in grupe
● Retele neuronale
Aceasta tehnica are la baza concepte din domeniul inteligentei artificiale,
neuronul artificial reprezintă unitatea de bază pentru prelucrarea informaței. Aceste rețele
sunt sisteme dinamice, al căror comportament poate fi caracterizat prin urmărirea stărilor la
momente diferite de timp. Starea unei retele la un moment dat este definita de ansamblul
nivelurilor de activare a neuronilor si de intensitatile conexiunilor dintre neuroni. De
asemenea, rețeaua mai este definită și de parametrii ficși: configuratia conexiunilor si tipul
functiilor de activare.
Avantaje: Această tehnică poate realiza predicții rapide pentru instanțe noi, deci poate
trimite un răspuns în timp real.
● Concluzii
Acest tabel concentreaza un set de cateva caracteristici, notand pentru feicare tehnica
prezentata anterior daca satisface criteriul respectiv sau nu. Astfel putem realiza o comparatie
intre aceste tehnici dupa aceste criterii si putem obersa ca unele tehnici sunt mai eficiente
decât altele, existând situații în care pentru rezolvarea unei probleme se poate folisi o unica
opțiune (de exemplu, arborii decizionali sunt singura alternativă pentru analiza seturilor de
date cu număr mare de variabile, rețelele neuronale reprezintă unica soluție pentru probleme
în care output-ul are o formă vectorială).