Sunteți pe pagina 1din 6

DATA MINING TEHNOLOGII DEDICATE EXTRAGERII

CUNOSTINTELOR
Obiective:
- nsusirea tehnologiei Data Mining de extragere a cunostintelor din
colectiile de date existente;
- nsusirea unor tehnici Data Mining pentru obtinerea unor solutii n
cadrul problemelor decizionale.
Concepte cheie: Data Mining; tehnici Data Mining.
Existenta unor volume imense de date a pus problema reorientrii utilizrii lor de la
un proces de exploatare retrospectiv ctre unul prospectiv. Data Mining poate avea mai
multe definitii, ns toate converg n esent ctre miezul problemei, si anume c acest
concept reprezint un proces de extragere de informatii noi din colectiile de date
existente. Termenul de dat are semnificatia de descriere a unui eveniment bine
determinat care se produce n lumea real si este perfect verificabil.
Prin tehnologia Data Mining se prelucreaz date care refer perioade anterioare
(date istorice), care sunt examinate si sunt deja cunoscute, pe baza lor
constituindu-se un model. Acest model va putea fi aplicat situatiilor noi de
acelasi tip cu cele deja cunoscute. Informatiile care se pot obtine prin Data
Mining sunt predictive sau descriptive. De exemplu directionarea actiunilor de
marketing pot constitui o problem tipic predictiv. Detectarea fraudelor
produse cu carduri bancare reprezint o problem tipic de aplicatie descriptiv.
Dezvoltarea tehnicilor de Data Mining se explic prin acumularea de volume pe
care acestea le-au derulat de-a lungul anilor. De asemenea, concurenta tot mai acerb
precum si cresterea exigentelor pietei au determinat firmele s ia tot mai mult n
considerare potentialul urias pe care l ofer arhivele de date. Alturi de arhivele de date
memorate pe suporturi informatice mai exist nc doi factori care au dus la necesitatea
Data Mining: existenta si perfectionarea algoritmilor si a produselor program dedicate
precum si cresterea capacittii de memorare si prelucrare a calculatoarelor care permit
tratarea corelativ a volumelor mari de date.
Este de remarcat c depozitele de date pot fi surse pentru Data Mining, iar
rezultatele obtinute pot completa cmpurile nregistrrilor din depozitele de date, care
apoi pot fi valorificate prin proiectiile multidimensionale specifice OLAP.
Potentialul oferit de Data Mining se ncorporeaz n procesele comerciale ale
firmelor, iar cutarea informatiilor nu devine un scop n sine ci este util doar dac este
transformat ca actiune. Astfel firmele pot alege s reactioneze sau nu la situatiile diverse
create de realitate (diminuarea numrului de clienti, scderea vnzrilor, pierderea unor
piete de desfacere etc.). Pasul urmtor dup aceast alegere este exploatarea propriu-zis
a datelor utiliznd diversi algoritmi.
De multe ori, actiunea de Data Mining poate fi un esec si nu o reusit, fiind posibil
ca msurile luate s nu fie adecvate informatiilor obtinute.
Toate elementele considerate anterior conduc spre ideea de ciclu n utilizarea Data
Mining n cursul cruia sunt patru etape:
- definirea oportunittilor comerciale si a datelor
- obtinerea de informatii din colectiile de date existente prin tehnici Data Mining;
- adoptarea deciziilor si actiunilor n urma informatiilor rezultate;

- cuantificarea ct mai corect a rezultatelor concrete pentru a identifica si alte ci de


exploatare a datelor.
Cutarea cunostintelor si verificarea ipotezelor
Tehnicile de Data Mining se pot aplica att ascendent, ct si descendent. Pentru abordarea
descendent se iau n considerare ipotezele formulate n prealabil prin alte mijloace.
Abordarea ascendent urmreste extragerea de cunostinte sau informatii noi din date
disponibile, aceast cutare putnd fi dirijat sau nedirijat.
Cutarea dirijat presupune c se ia n considerare un atribut sau un cmp, ale crui
valori se explic prin celelalte cmpuri. Cutarea nedirijat identific relatiile sau
structurile din datele examinate fr a asigura prioritate unui cmp sau a altuia. Ceea ce
se exploateaz prin Data Mining sunt colectii de date constituite pentru alte scopuri
(exemplu tranzactii derulate pe o perioad de timp). Deseori la acest tip de date se adaug
si cele provenite din alte surse cum statistici oficiale care privesc evolutia n ansamblu a
economiei, date privind concurenta sau msuri legislative. De aceea se foloseste tot mai
des notiunea de informatie ascuns n sensul c este aproape imposibil detectarea
corelatiilor sau raporturile pe care datele le ncorporeaz n mod intrinsec.
Rezultatele obtinute sunt cu att mai relevante cu ct ele se bazeaz pe un volum
mare de date. Datele pot fi exploatate pentru a obtine informatii prin diverse tehnici cum
sunt: retele neuronale, arbori de decizie, algoritmi genetici, analiza grupurilor,
rationamente bazate pe cazuri, analiza legturilor. Aceste tehnici pot fi asociate cu tehnici
statistice cum sunt regresiile sau analiza factorial. Data Mining nu este capabil, ca
tehnic, s rezolve orice problem de
gestiune. De fapt ceea ce poate oferi se rezum la cteva actiuni cum sunt:
clasificarea, estimarea, predictia, gruparea, analiza gruprilor, care folosite la
locul potrivit pot deveni utile pentru o multime de probleme din domeniul
decizional.
Destinatia si caracteristicile actiunilor oferite de Data Mining
Clasificarea are ca scop plasarea obiectelor prelucrate ntr-un grup limitat
de clase predefinite. De exemplu, vnzarea unui produs nou se poate ncadra ntr-una din
urmtoarele categorii de risc: sczut, mediu, ridicat. Obtinute n mod clasificat vor fi
reprezentate sub form de nregistrri care la rndul lor sunt
compuse din atribute sau cmpuri. Ca tehnici de Data Mining pentru clasificare
sunt arborii de decizie si rationamentul bazat pe cazuri.
Estimarea va atribui o valoare unei variabile pe baza celorlalte date de
intrare. Rezultatele obtinute n urma estimrii sunt valori continue. Pentru acest
tip de prelucrri se pot utiliza retelele neuronale.
Predictia poate clasa nregistrrile luate n considerare n functie de un
anumit comportament sau o valoare viitoare estimat. De aceea se va recurge la
o colectie de exemple care vizeaz date din trecut, n care valorile variabilei de
previzionat sunt deja cunoscute. Cu ajutorul lor se va construi un model care va
putea explica comportamentul observat. Aplicnd acest model nregistrrilor
care fac obiectul prelucrrii, se va obtine o predictie a comportamentului sau a
valorilor acestora n viitor.
Gruparea poate duce la determinarea acelor obiecte care apar cel mai
frecvent mpreun. Un exemplu este analiza cosului gospodriei n evalurile

statistice.
Analiza grupului urmreste o dividere a populatiei eterogene n grupuri
mai omogene, care poart numele de clustere.
n aceast tehnic nu se pleac de la un set predeterminat de clase si nici
din exemple din trecut. Segmentarea pe grupuri se face n functie de similitudinile
obiectelor.
Explorarea datelor continut si etape
Programele care realizeaz implementarea algoritmilor pentru Data Mining nu sunt
suficiente. Ele trebuie alimentate cu date care provin din diverse surse organizate pentru
alte scopuri. De aceea este necesar un proces de curatare a acestora si de uniformizare
pentru a fi explorate asa cum sunt ele furnizate de programe, continutul lor trebuind a fi
analizat de specialisti care vor identifica informatiile utile pe care acestea (rezultatele) le
conin. Avnd n vedere aceste particularitti, tehnicile de Data Mining se pot utiliza
numai n procese specifice complexe si de cele mai multe ori neliniare. Se pot astfel
distinge etapele:
- definirea problemei;
- identificarea surselor de date;
- colectarea si selectarea datelor;
- pregtirea datelor;
- definirea si construirea modelului;
- evaluarea modelului;
- integrarea modelului.
Definirea problemei const n sesizarea unei oportunitti sau necesitti de afaceri.
De aceea se va delimita ceea ce urmeaz a fi rezolvat prin Data Mining, obiective
urmrire si rezultate scontate. Problema ce urmeaz a fi rezolvat prin Data Mining este o
parte component a oportunittii organizatiei, dar nu se identific cu ea. De asemenea
problema trebuie s primeasc o form adecvat pentru a putea fi tratat cu aceast
tehnic.
Identificarea surselor de date const n stabilirea structurii generale a datelor
necesare pentru rezolvarea problemei, precum si regulile de constituire a acestora si
localizarea lor. Fiecare surs de date va fi examinat pentru o familiarizare cu continutul
su si pentru identificarea incoerentelor sau a problemelor de definire.
Colectarea si selectia datelor este etapa n care se face extragerea si depunerea ntr-o
baz comun a datelor care urmeaz a fi utilizate ulterior.
Aceast etap ocup un timp mare, cam 80% din timpul total, iar existenta
depozitelor de date constituie un real avantaj.
n functie de limitele echipamentelor de calcul folosite, de produsele program
aplicate colectiilor de date si nu n ultimul rnd de bugetul disponibil se
poate prelucra ntregul fond de date disponibil sau un esantion. Dac optiunea aleas este
dirijat spre lucrul cu esantionare, atunci trebuie respectate toate
regulile si cerintele de selectare a acestora.
Pregtirea datelor. Datele sunt de obicei stocate n colectii de date care au fost
construite pentru alte scopuri. De aceea firesc este s existe o faz preliminar de
pregtire nainte de extragere prin Data Mining. Transformrile la care sunt supuse datele
pentru Data Mining se refer la: valori extreme, valori lips, valori de tip text, tabele.

Tratarea valorilor extreme se poate face prin ncadrarea ntre anumite limite cuprinse
ntre medie si un numr de abatere standard prin excludere sau limitare sau prin izolarea
vrfurilor.
n cazul valorilor lips se pot elimina cmpurile cu valori nule din
nregistrri, sau se pot completa cmpurile cu date de valori medii, deoarece
existenta lor poate duce la o functionare incorect a algoritmilor de Data Mining.
Valorile de tip text ridic probleme ntruct separarea prin spatii a cuvintelor duc la
aparitia de valori diferite. Din acest motiv este indicat eliminarea lor, dar dac
prelucrarea lor nu poate fi eliminat, solutia cea mai pertinent este de codificare prin
tabele de corespondente, n care s se evidentieze toate sirurile valide de caractere.
Rezumarea se aplic atunci cnd datele sunt considerate a reprezenta detalii
nesemnificative pentru rezolvarea problemei, sau cnd numrul de exemple este
insuficient.
Codificarea incoerent apare n momentul n care obiecte identice sunt
reprezentate diferit n unele din sursele utilizate. Incompatibilittile arhitecturale
informatice se refer la diferentele existente ntre modul de reprezentare intern a
valorilor datorat crerii lor cu sisteme din generatii diverse.
Definirea si construirea modelului este etapa care se apropie cel mai mult de
notiunea de Data Mining si se refer la crearea modelului informatic care va efectua
exploatarea. Etapa de definire si construire a modelului este nsotit de faza de instruire
sau nvtare, depinznd de tehnicile de Data Mining utilizate.
Indiferent de aceste tehnici toate au de parcurs dou etape: nvtarea si
testarea. nvtarea presupune existenta unui set suficient de reprezentativ de
exemple complete de la care se porneste pentru a identifica relatiile de legtur
ntre valorile cmpurilor sau atributelor. Se consider ca fiind ncheiat procesul
de nvtare, n momentul n care rezultatele obtinute prin model se apropie suficient de
mult de solutiile continute de datele dup care s-a nvtat. Nu ntotdeauna rezultatele sunt
cele scontate si atunci modelul va fi supus testrii cu
date diferite de cele folosite pentru nvtare, dar care aparin aceleiasi colecii. n
aceast etap sunt formulate alte dou obiective, si anume: obtinerea de date preclasate si
distribuirea acestora n seturi de nvtare, testare sau evaluare.
Evaluarea modelului are ca scop de a determina corect valorile n care
modelul are capacitatea de a determina corect valorile pentru cazurile noi.
Modelul va fi astfel aplicat asupra ultimei prti din datele preclasate care sunt
dedicate evalurii. Procentul de eroare ce se stabileste acum va fi considerat c
va fi acceptat si pentru datele noi.
Performantele unui model se vor aprecia cu matricea de confuzie care
are rolul de a compara situatia real cu cea pe care modelul o furnizeaz. Integrarea
modelului este etapa n care se finalizeaz procesul, prin ncorporarea modelului n SIAD
ca element de baz, sau prin includerea sa ntrun
proces decizional general din organizatie.
Rationamentul bazat pe cazuri
Prin aceast tehnic se caut o rezolvare a problemelor aprute prin analogie cu
experienta acumulat. Aceast metod se poate aplica pentru clasificri si pentru
predictii. Cazurile pe care este bazat rationamentul sunt memorate ca nregistrri

compuse din setul de atribute care descriu fiecare caz. Un caz nou este prezentat tot ca o
nregistrare, numai c n cmpurile n care valoarea trebuie determinat sunt vide. Pentru
a determina aceste valori se caut nregistrrile cu care nregistrarea caz nou se
aseamn si continutul acestora se consider a fi rspunsul. Prin urmare se poate afirma
c exist dou functii fundamentale de prelucrare:
a) msurarea distantei dintre membrii fiecrui cuplu de nregistrri, pentru a afla vecinele
cele mai apropiate;
b) combinarea rezultatelor obtinute de la vecine n rspunsul propus pentru cazul
curent.
Msurarea distantei dintre cmpuri. Se numeste distant expresia modului n care se
evalueaz similitudinea. Distanta are ca proprietti: poate fi definit si se prezint ca un
numr real; distanta de la un element la el nsusi este totdeauna nul; sensul de msurare
este fr semnificatie n maniera c distanta de la elementul A la elementul B este egal
cu distanta de la B la A si nu exist un punct C intermediar lui A si B prin a crei
parcurgere s se scurteze drumul de la A la B.
Ca moduri de calcul pentru distanta cmpurilor numerice se enumer:
- diferenta ntre valoare absolut |A-B|;
- ptratul diferentei (A-B)2;
- diferenta ntre valoare absolut normalizat |A-B| (diferenta maxim). Ultima variant
produce rezultate cu valori cuprinse ntre 0 si 1. Msurarea distantei ntre nregistrri.
Cnd apare necesitatea de a considera simultan mai multe cmpuri ale nregistrrii, se
calculeaz distanta pentru fiecare cmp n parte, iar rezultatul se combin ntr-o valoare
mic care reprezint distanta nregistrrii respective.
Se vor enumera cteva procedee de combinare a distantei cmpurilor: nsumarea,
nsumarea normalizat (suma distantelor/suma maxim), distanta euclidian (rdcina
ptrat din suma ptratelor distantelor). Distanta euclidian evidentiaz cel mai bine
nregistrrile pentru care toate cmpurile sunt vecine. Combinarea rezultatelor presupune
aflarea celor mai apropiati vecini, iar solutia problemei se obtine prin combinarea
rspunsurilor obtinute de la acestia.
Fiecare vecin poate avea diverse variante de rspuns, dar se vor lua n calcul doar
cei care sunt mai apropiati. Rezultatul ce obtine majoritatea va fi atribuit cazului curent.
Cerinta minim este ca numrul votantilor s fie impar, pentru a
evita situatiile de nedeterminare.
Metodele care se bazeaz pe vot dau rezultate satisfctoare n situatiile n
care rspunsurile asteptate sunt de tip enumerativ. O alt solutie posibil este interpolarea
valorilor nregistrrilor vecine care ns introduce o aplatizare a rezultatelor care se
nscriu ntre cele dou limite folosite n calcul. De asemenea,
se poate constata c rezultate bune se obtin prin metode de regresie statistic aplicate
asupra valorilor date de vecinii cei mai apropiati. Se obtine ecuatia unei
drepte sau a unei curbe care permite calcularea mai precis a valorilor aferente
cazului curent.
Se poate concluziona c rationamentul bazat pe cazuri este o tehnic de Data
Mining suficient de bun si care se poate aplica unui mare numr de probleme, caz n
care conduce la solutii acceptabile. Toate acestea sunt valabile dac volumul de date pe
care se bazeaz este bine ales si concludent. Ca avantaje pentru aceast metod se pot
enumera:

- aplicarea unui mare numr de tipuri de date, pe structuri de date


complexe, iar cmpurile tip text sunt mai bine tratate dect n alte tehnici;
- luarea n considerare a orict de multor cmpuri;
- rezultatele obtinute sunt explicite;
- elementele de noutate care apar n procesul de nvtare sunt usor de nglobat si de
folosit n rationamente.
Ca orice metod prezint si unele dezavantaje dintre care se pot mentiona:
volumul mare de memorie si resurs timp de prelucrare relativ mare, si de
asemenea, timpul de prelucrarea mare pentru aplicarea functiilor de distant
asupra tuturor nregistrrilor si cmpurilor necesare pentru obtinerea rezultatelor.

Powered by http://www.referat.ro/
cel mai tare site cu referate

S-ar putea să vă placă și