Documente Academic
Documente Profesional
Documente Cultură
DataMining-Tehnologiidedicateextragerii 7ecbf
DataMining-Tehnologiidedicateextragerii 7ecbf
CUNOSTINTELOR
Obiective:
- nsusirea tehnologiei Data Mining de extragere a cunostintelor din
colectiile de date existente;
- nsusirea unor tehnici Data Mining pentru obtinerea unor solutii n
cadrul problemelor decizionale.
Concepte cheie: Data Mining; tehnici Data Mining.
Existenta unor volume imense de date a pus problema reorientrii utilizrii lor de la
un proces de exploatare retrospectiv ctre unul prospectiv. Data Mining poate avea mai
multe definitii, ns toate converg n esent ctre miezul problemei, si anume c acest
concept reprezint un proces de extragere de informatii noi din colectiile de date
existente. Termenul de dat are semnificatia de descriere a unui eveniment bine
determinat care se produce n lumea real si este perfect verificabil.
Prin tehnologia Data Mining se prelucreaz date care refer perioade anterioare
(date istorice), care sunt examinate si sunt deja cunoscute, pe baza lor
constituindu-se un model. Acest model va putea fi aplicat situatiilor noi de
acelasi tip cu cele deja cunoscute. Informatiile care se pot obtine prin Data
Mining sunt predictive sau descriptive. De exemplu directionarea actiunilor de
marketing pot constitui o problem tipic predictiv. Detectarea fraudelor
produse cu carduri bancare reprezint o problem tipic de aplicatie descriptiv.
Dezvoltarea tehnicilor de Data Mining se explic prin acumularea de volume pe
care acestea le-au derulat de-a lungul anilor. De asemenea, concurenta tot mai acerb
precum si cresterea exigentelor pietei au determinat firmele s ia tot mai mult n
considerare potentialul urias pe care l ofer arhivele de date. Alturi de arhivele de date
memorate pe suporturi informatice mai exist nc doi factori care au dus la necesitatea
Data Mining: existenta si perfectionarea algoritmilor si a produselor program dedicate
precum si cresterea capacittii de memorare si prelucrare a calculatoarelor care permit
tratarea corelativ a volumelor mari de date.
Este de remarcat c depozitele de date pot fi surse pentru Data Mining, iar
rezultatele obtinute pot completa cmpurile nregistrrilor din depozitele de date, care
apoi pot fi valorificate prin proiectiile multidimensionale specifice OLAP.
Potentialul oferit de Data Mining se ncorporeaz n procesele comerciale ale
firmelor, iar cutarea informatiilor nu devine un scop n sine ci este util doar dac este
transformat ca actiune. Astfel firmele pot alege s reactioneze sau nu la situatiile diverse
create de realitate (diminuarea numrului de clienti, scderea vnzrilor, pierderea unor
piete de desfacere etc.). Pasul urmtor dup aceast alegere este exploatarea propriu-zis
a datelor utiliznd diversi algoritmi.
De multe ori, actiunea de Data Mining poate fi un esec si nu o reusit, fiind posibil
ca msurile luate s nu fie adecvate informatiilor obtinute.
Toate elementele considerate anterior conduc spre ideea de ciclu n utilizarea Data
Mining n cursul cruia sunt patru etape:
- definirea oportunittilor comerciale si a datelor
- obtinerea de informatii din colectiile de date existente prin tehnici Data Mining;
- adoptarea deciziilor si actiunilor n urma informatiilor rezultate;
statistice.
Analiza grupului urmreste o dividere a populatiei eterogene n grupuri
mai omogene, care poart numele de clustere.
n aceast tehnic nu se pleac de la un set predeterminat de clase si nici
din exemple din trecut. Segmentarea pe grupuri se face n functie de similitudinile
obiectelor.
Explorarea datelor continut si etape
Programele care realizeaz implementarea algoritmilor pentru Data Mining nu sunt
suficiente. Ele trebuie alimentate cu date care provin din diverse surse organizate pentru
alte scopuri. De aceea este necesar un proces de curatare a acestora si de uniformizare
pentru a fi explorate asa cum sunt ele furnizate de programe, continutul lor trebuind a fi
analizat de specialisti care vor identifica informatiile utile pe care acestea (rezultatele) le
conin. Avnd n vedere aceste particularitti, tehnicile de Data Mining se pot utiliza
numai n procese specifice complexe si de cele mai multe ori neliniare. Se pot astfel
distinge etapele:
- definirea problemei;
- identificarea surselor de date;
- colectarea si selectarea datelor;
- pregtirea datelor;
- definirea si construirea modelului;
- evaluarea modelului;
- integrarea modelului.
Definirea problemei const n sesizarea unei oportunitti sau necesitti de afaceri.
De aceea se va delimita ceea ce urmeaz a fi rezolvat prin Data Mining, obiective
urmrire si rezultate scontate. Problema ce urmeaz a fi rezolvat prin Data Mining este o
parte component a oportunittii organizatiei, dar nu se identific cu ea. De asemenea
problema trebuie s primeasc o form adecvat pentru a putea fi tratat cu aceast
tehnic.
Identificarea surselor de date const n stabilirea structurii generale a datelor
necesare pentru rezolvarea problemei, precum si regulile de constituire a acestora si
localizarea lor. Fiecare surs de date va fi examinat pentru o familiarizare cu continutul
su si pentru identificarea incoerentelor sau a problemelor de definire.
Colectarea si selectia datelor este etapa n care se face extragerea si depunerea ntr-o
baz comun a datelor care urmeaz a fi utilizate ulterior.
Aceast etap ocup un timp mare, cam 80% din timpul total, iar existenta
depozitelor de date constituie un real avantaj.
n functie de limitele echipamentelor de calcul folosite, de produsele program
aplicate colectiilor de date si nu n ultimul rnd de bugetul disponibil se
poate prelucra ntregul fond de date disponibil sau un esantion. Dac optiunea aleas este
dirijat spre lucrul cu esantionare, atunci trebuie respectate toate
regulile si cerintele de selectare a acestora.
Pregtirea datelor. Datele sunt de obicei stocate n colectii de date care au fost
construite pentru alte scopuri. De aceea firesc este s existe o faz preliminar de
pregtire nainte de extragere prin Data Mining. Transformrile la care sunt supuse datele
pentru Data Mining se refer la: valori extreme, valori lips, valori de tip text, tabele.
Tratarea valorilor extreme se poate face prin ncadrarea ntre anumite limite cuprinse
ntre medie si un numr de abatere standard prin excludere sau limitare sau prin izolarea
vrfurilor.
n cazul valorilor lips se pot elimina cmpurile cu valori nule din
nregistrri, sau se pot completa cmpurile cu date de valori medii, deoarece
existenta lor poate duce la o functionare incorect a algoritmilor de Data Mining.
Valorile de tip text ridic probleme ntruct separarea prin spatii a cuvintelor duc la
aparitia de valori diferite. Din acest motiv este indicat eliminarea lor, dar dac
prelucrarea lor nu poate fi eliminat, solutia cea mai pertinent este de codificare prin
tabele de corespondente, n care s se evidentieze toate sirurile valide de caractere.
Rezumarea se aplic atunci cnd datele sunt considerate a reprezenta detalii
nesemnificative pentru rezolvarea problemei, sau cnd numrul de exemple este
insuficient.
Codificarea incoerent apare n momentul n care obiecte identice sunt
reprezentate diferit n unele din sursele utilizate. Incompatibilittile arhitecturale
informatice se refer la diferentele existente ntre modul de reprezentare intern a
valorilor datorat crerii lor cu sisteme din generatii diverse.
Definirea si construirea modelului este etapa care se apropie cel mai mult de
notiunea de Data Mining si se refer la crearea modelului informatic care va efectua
exploatarea. Etapa de definire si construire a modelului este nsotit de faza de instruire
sau nvtare, depinznd de tehnicile de Data Mining utilizate.
Indiferent de aceste tehnici toate au de parcurs dou etape: nvtarea si
testarea. nvtarea presupune existenta unui set suficient de reprezentativ de
exemple complete de la care se porneste pentru a identifica relatiile de legtur
ntre valorile cmpurilor sau atributelor. Se consider ca fiind ncheiat procesul
de nvtare, n momentul n care rezultatele obtinute prin model se apropie suficient de
mult de solutiile continute de datele dup care s-a nvtat. Nu ntotdeauna rezultatele sunt
cele scontate si atunci modelul va fi supus testrii cu
date diferite de cele folosite pentru nvtare, dar care aparin aceleiasi colecii. n
aceast etap sunt formulate alte dou obiective, si anume: obtinerea de date preclasate si
distribuirea acestora n seturi de nvtare, testare sau evaluare.
Evaluarea modelului are ca scop de a determina corect valorile n care
modelul are capacitatea de a determina corect valorile pentru cazurile noi.
Modelul va fi astfel aplicat asupra ultimei prti din datele preclasate care sunt
dedicate evalurii. Procentul de eroare ce se stabileste acum va fi considerat c
va fi acceptat si pentru datele noi.
Performantele unui model se vor aprecia cu matricea de confuzie care
are rolul de a compara situatia real cu cea pe care modelul o furnizeaz. Integrarea
modelului este etapa n care se finalizeaz procesul, prin ncorporarea modelului n SIAD
ca element de baz, sau prin includerea sa ntrun
proces decizional general din organizatie.
Rationamentul bazat pe cazuri
Prin aceast tehnic se caut o rezolvare a problemelor aprute prin analogie cu
experienta acumulat. Aceast metod se poate aplica pentru clasificri si pentru
predictii. Cazurile pe care este bazat rationamentul sunt memorate ca nregistrri
compuse din setul de atribute care descriu fiecare caz. Un caz nou este prezentat tot ca o
nregistrare, numai c n cmpurile n care valoarea trebuie determinat sunt vide. Pentru
a determina aceste valori se caut nregistrrile cu care nregistrarea caz nou se
aseamn si continutul acestora se consider a fi rspunsul. Prin urmare se poate afirma
c exist dou functii fundamentale de prelucrare:
a) msurarea distantei dintre membrii fiecrui cuplu de nregistrri, pentru a afla vecinele
cele mai apropiate;
b) combinarea rezultatelor obtinute de la vecine n rspunsul propus pentru cazul
curent.
Msurarea distantei dintre cmpuri. Se numeste distant expresia modului n care se
evalueaz similitudinea. Distanta are ca proprietti: poate fi definit si se prezint ca un
numr real; distanta de la un element la el nsusi este totdeauna nul; sensul de msurare
este fr semnificatie n maniera c distanta de la elementul A la elementul B este egal
cu distanta de la B la A si nu exist un punct C intermediar lui A si B prin a crei
parcurgere s se scurteze drumul de la A la B.
Ca moduri de calcul pentru distanta cmpurilor numerice se enumer:
- diferenta ntre valoare absolut |A-B|;
- ptratul diferentei (A-B)2;
- diferenta ntre valoare absolut normalizat |A-B| (diferenta maxim). Ultima variant
produce rezultate cu valori cuprinse ntre 0 si 1. Msurarea distantei ntre nregistrri.
Cnd apare necesitatea de a considera simultan mai multe cmpuri ale nregistrrii, se
calculeaz distanta pentru fiecare cmp n parte, iar rezultatul se combin ntr-o valoare
mic care reprezint distanta nregistrrii respective.
Se vor enumera cteva procedee de combinare a distantei cmpurilor: nsumarea,
nsumarea normalizat (suma distantelor/suma maxim), distanta euclidian (rdcina
ptrat din suma ptratelor distantelor). Distanta euclidian evidentiaz cel mai bine
nregistrrile pentru care toate cmpurile sunt vecine. Combinarea rezultatelor presupune
aflarea celor mai apropiati vecini, iar solutia problemei se obtine prin combinarea
rspunsurilor obtinute de la acestia.
Fiecare vecin poate avea diverse variante de rspuns, dar se vor lua n calcul doar
cei care sunt mai apropiati. Rezultatul ce obtine majoritatea va fi atribuit cazului curent.
Cerinta minim este ca numrul votantilor s fie impar, pentru a
evita situatiile de nedeterminare.
Metodele care se bazeaz pe vot dau rezultate satisfctoare n situatiile n
care rspunsurile asteptate sunt de tip enumerativ. O alt solutie posibil este interpolarea
valorilor nregistrrilor vecine care ns introduce o aplatizare a rezultatelor care se
nscriu ntre cele dou limite folosite n calcul. De asemenea,
se poate constata c rezultate bune se obtin prin metode de regresie statistic aplicate
asupra valorilor date de vecinii cei mai apropiati. Se obtine ecuatia unei
drepte sau a unei curbe care permite calcularea mai precis a valorilor aferente
cazului curent.
Se poate concluziona c rationamentul bazat pe cazuri este o tehnic de Data
Mining suficient de bun si care se poate aplica unui mare numr de probleme, caz n
care conduce la solutii acceptabile. Toate acestea sunt valabile dac volumul de date pe
care se bazeaz este bine ales si concludent. Ca avantaje pentru aceast metod se pot
enumera:
Powered by http://www.referat.ro/
cel mai tare site cu referate