Sunteți pe pagina 1din 9

Data mining

Concepte. Tehnici. Aplicatii

Student: Grecu Razvan Prof. Indrumator: Prof. Ivan Cosmina

Abstract
Data mining-ul are multe aplicatii, acestea variind de la jocuri la inginerie, marketing, medicina si multe altele. Putem spune ca transforma datele in informatii, si informatiile in cunostinte; ca si conceptul de knowledge discovery din domeniul inteligentei artificiale, ori analiza statistica, prin data mining se incearca sa se descopere noi reguli si pattern-uri din colectiile de date prezentate, insa, difera de conceptele anterioare prin volumul de date. Prin tehnologia Data Mining se prelucreaza date care refera perioade anterioare (date istorice), care sunt examinate si sunt deja cunoscute, pe baza lor constituindu-se un model. Acest model va putea fi aplicat situatiilor noi de acelasi tip cu cele deja cunoscute. Informatiile care se pot obtine prin Data Mining sunt predictive sau descriptive. Aceste capabilitati ale data mining-ului pot fi exploatate insa si in scopuri negative, cum ar fi 'minarea' datelor personale sau alte incalcari ale intimitatii unui utilizator.

Cuprins

Introducere
In general, Data Mining (KDD) este procesul prin care se analizeaza datele din perspective diferite si le sumarizeaza in informatii utile. Software-ul de Data Mining este unul din multe utilitare analitce pentru a analiza date, din mai multe dimensiuni si unghiuri, sa le categorizeze si sa sumarizeze relatiile identificate. Data Mining-ul poate fi considerat ca procesul de gasire a corelatiilor sau a modelelor intre colectii mari de date in baze de date relationale mari. Desi termenul de Data Mining este un termen relativ nou, tehnologia din spate nu este. Companiile au folosit computere puternice sa caute prin volumele de informatii de la supermarketuri si sa analizeze rapoarte de ani. Totusi, inovatiile continue in puterea de procesare a calculatoarelor, capacitatea de stocare si software-urile statistice cresc dramatic acuratetea analizei in timp ce costul scade. Datele sunt orice numere, caractere, text sau evenimente ce pot fi procesate de un computer. Azi, organizatiile acumuleaza cantitati vaste de date in formaturi diferite si baze de date diferite: - date operationale / tranzactionale - date nonoperationale

- metadate Modelele, asociatiile sau relatiile intre toate datele pot oferi informatii, iar informatia poate fi convertita in cunostinta, despre modele trecute si trenduri viitoare. Avansurile dramatice in capturarea de date, puterea de procesare, transmisia de date, permit organizatiilor sa-si integreze bazele de date intr-un data warehouse. Data warehouse-ing-ul este definit ca un proces management si preluare de date centralizate. Desi este un termen nou, precum Data Mining-ul, conceptul in sine exista de mult. Dezvoltarea tehnicilor de Data Mining se explic prin acumularea de volume pe care acestea le-au derulat de-a lungul anilor. De asemenea, concurenta tot mai acerb precum si cresterea exigentelor pietei au determinat firmele s ia tot mai mult n considerare potentialul urias pe care l ofer arhivele de date. Alturi de arhivele de date memorate pe suporturi informatice mai exist nc doi factori care au dus la necesitatea Data Mining: existenta si perfectionarea algoritmilor si a produselor program dedicate precum si cresterea capacittii de memorare si prelucrare a calculatoarelor care permit tratarea corelativ a volumelor mari de date. Este de remarcat c depozitele de date pot fi surse pentru Data Mining, iar rezultatele obtinute pot completa cmpurile nregistrrilor din depozitele de date, care apoi pot fi valorificate prin proiectiile multidimensionale specifice OLAP. Potentialul oferit de Data Mining se ncorporeaz n procesele comerciale ale firmelor, iar cutarea informatiilor nu devine un scop n sine ci este util doar dac este transformat ca actiune. Astfel firmele pot alege s reactioneze sau nu la situatiile diverse create de realitate (diminuarea numrului de clienti, scderea vnzrilor, pierderea unor piete de desfacere etc.). Pasul urmtor dup aceast alegere este exploatarea propriu-zis a datelor utiliznd diversi algoritmi. De multe ori, actiunea de Data Mining poate fi un esec si nu o reusit, fiind posibil ca msurile luate s nu fie adecvate informatiilor obtinute.

Cutarea cunostintelor si verificarea ipotezelor


Tehnicile de Data Mining se pot aplica atat ascendent, cat si descendent. Pentru abordarea descendenta se iau n considerare ipotezele formulate n prealabil prin alte mijloace. Abordarea ascendenta urmareste extragerea de cunostinte sau informatii noi din date disponibile, aceasta cautare putand fi dirijata sau nedirijata. Cautarea dirijata presupune ca se ia n considerare un atribut sau un camp, ale carui valori se explica prin celelalte campuri. Cautarea nedirijata identifica relatiile sau structurile din datele examinate fara a asigura prioritate unui camp sau a altuia. Ceea ce se exploateaza prin Data Mining sunt colectii de date constituite pentru alte scopuri (exemplu tranzactii derulate pe o perioada de timp). Deseori la acest tip de date se adauga si cele provenite din alte surse cum statistici oficiale care privesc evolutia n ansamblu a economiei, date privind concurenta sau masuri legislative. De aceea se foloseste tot mai des notiunea de informatie ascunsa n sensul ca este aproape imposibila detectarea corelatiilor sau raporturile pe care datele le ncorporeaz n mod intrinsec. Rezultatele obtinute sunt cu atat mai relevante cu cat ele se bazeaza pe un volum mare de date.

Datele pot fi exploatate pentru a obtine informatii prin diverse tehnici cum sunt: retele neuronale, arbori de decizie, algoritmi genetici, analiza grupurilor, rationamente bazate pe cazuri, analiza legaturilor. Aceste tehnici pot fi asociate cu tehnici statistice cum sunt regresiile sau analiza factoriala. Data Mining nu este capabil, ca tehnic, s rezolve orice problem de gestiune. De fapt ceea ce poate oferi se rezuma la cteva actiuni cum sunt: clasificarea, estimarea, predictia, gruparea, analiza gruprilor, care folosite la locul potrivit pot deveni utile pentru o multime de probleme din domeniul decizional.

Destinatia si caracteristicile actiunilor oferite de Data Mining


Clasificarea are ca scop plasarea obiectelor prelucrate ntr-un grup limitat de clase predefinite. De exemplu, vanzarea unui produs nou se poate ncadra ntr-una din urmatoarele categorii de risc: scazut, mediu, ridicat. Obtinute n mod clasificat vor fi reprezentate sub forma de inregistrari care la randul lor sunt compuse din atribute sau campuri. Ca tehnici de Data Mining pentru clasificare sunt arborii de decizie si rationamentul bazat pe cazuri. Estimarea va atribui o valoare unei variabile pe baza celorlalte date de intrare. Rezultatele obtinute n urma estimrii sunt valori continue. Pentru acest tip de prelucrari se pot utiliza retelele neuronale. Predictia poate clasa inregistrarile luate n considerare in functie de un anumit comportament sau o valoare viitoare estimata. De aceea se va recurge la o colectie de exemple care vizeaza date din trecut, in care valorile variabilei de previzionat sunt deja cunoscute. Cu ajutorul lor se va construi un model care va putea explica comportamentul observat. Aplicand acest model inregistrarilor care fac obiectul prelucrarii, se va obtine o predictie a comportamentului sau a valorilor acestora n viitor. Gruparea poate duce la determinarea acelor obiecte care apar cel mai frecvent impreuna. Un exemplu este analiza cosului gospodariei n evaluarile statistice. Analiza grupului urmareste o dividere a populatiei eterogene in grupuri mai omogene, care poarta numele de clustere. In aceasta tehnica nu se pleaca de la un set predeterminat de clase si nici din exemple din trecut. Segmentarea pe grupuri se face in functie de similitudinile obiectelor.

Explorarea datelor continut si etape


Programele care realizeaza implementarea algoritmilor pentru Data Mining nu sunt suficiente. Ele trebuie alimentate cu date care provin din diverse surse organizate pentru alte scopuri. De aceea este necesar un proces de curatare a acestora si de uniformizare pentru a fi explorate asa cum sunt ele furnizate de programe, continutul lor trebuind a fi analizat de specialisti care vor identifica informatiile utile pe care acestea (rezultatele) le contin. Avand in vedere aceste particularitati, tehnicile de Data Mining se pot utiliza numai n procese specifice complexe si de cele mai multe ori neliniare. Se pot astfel distinge etapele: - definirea problemei;

- identificarea surselor de date; - colectarea si selectarea datelor; - pregtirea datelor; - definirea si construirea modelului; - evaluarea modelului; - integrarea modelului. Definirea problemei consta in sesizarea unei oportunitati sau necesitati de afaceri. De aceea se va delimita ceea ce urmeaza a fi rezolvat prin Data Mining, obiective urmarire si rezultate scontate. Problema ce urmeaza a fi rezolvata prin Data Mining este o parte componenta a oportunitatii organizatiei, dar nu se identifica cu ea. De asemenea problema trebuie sa primeasca o forma adecvata pentru a putea fi tratata cu aceast tehnica. Identificarea surselor de date consta n stabilirea structurii generale a datelor necesare pentru rezolvarea problemei, precum si regulile de constituire a acestora si localizarea lor. Fiecare sursa de date va fi examinata pentru o familiarizare cu continutul sau si pentru identificarea incoerentelor sau a problemelor de definire. Colectarea si selectia datelor este etapa n care se face extragerea si depunerea ntr-o baza comuna a datelor care urmeaza a fi utilizate ulterior. Aceast etapa ocup un timp mare, cam 80% din timpul total, iar existenta depozitelor de date constituie un real avantaj. In functie de limitele echipamentelor de calcul folosite, de produsele program aplicate colectiilor de date si nu n ultimul rand de bugetul disponibil se poate prelucra intregul fond de date disponibil sau un esantion. Daca optiunea aleasa este dirijata spre lucrul cu esantionare, atunci trebuie respectate toate regulile si cerintele de selectare a acestora. Pregatirea datelor. Datele sunt de obicei stocate n colectii de date care au fost construite pentru alte scopuri. De aceea firesc este sa existe o faza preliminara de pregatire nainte de extragere prin Data Mining. Transformarile la care sunt supuse datele pentru Data Mining se refera la: valori extreme, valori lipsa, valori de tip text, tabele. Tratarea valorilor extreme se poate face prin incadrarea ntre anumite limite cuprinse intre medie si un numar de abatere standard prin excludere sau limitare sau prin izolarea varfurilor. In cazul valorilor lipsa se pot elimina campurile cu valori nule din inregistrari, sau se pot completa campurile cu date de valori medii, deoarece existenta lor poate duce la o functionare incorect a algoritmilor de Data Mining. Valorile de tip text ridica probleme ntrucat separarea prin spatii a cuvintelor duc la aparitia de valori diferite. Din acest motiv este indicata eliminarea lor, dar dac prelucrarea lor nu poate fi eliminata, solutia cea mai pertinenta este de codificare prin tabele de corespondente, n care sa se evidentieze toate sirurile valide de caractere. Rezumarea se aplica atunci cand datele sunt considerate a reprezenta detalii nesemnificative pentru rezolvarea problemei, sau cnd numarul de exemple este insuficient. Codificarea incoerenta apare in momentul n care obiecte identice sunt reprezentate diferit n unele din sursele utilizate. Incompatibilitatile arhitecturale informatice se refera la diferentele existente ntre modul de reprezentare interna a valorilor datorat crearii lor cu sisteme din generatii

diverse. Definirea si construirea modelului este etapa care se apropie cel mai mult de notiunea de Data Mining si se refera la crearea modelului informatic care va efectua exploatarea. Etapa de definire si construire a modelului este nsotita de faza de instruire sau nvatare, depinznd de tehnicile de Data Mining utilizate. Indiferent de aceste tehnici toate au de parcurs doua etape: invatarea si testarea. Invatarea presupune existenta unui set suficient de reprezentativ de exemple complete de la care se porneste pentru a identifica relatiile de legatura intre valorile campurilor sau atributelor. Se considera ca fiind incheiat procesul de invatare, in momentul in care rezultatele obtinute prin model se apropie suficient de mult de solutiile continute de datele dup care s-a invatat. Nu intotdeauna rezultatele sunt cele scontate si atunci modelul va fi supus testarii cu date diferite de cele folosite pentru invatare, dar care apartin aceleiasi colectii. In aceasta etapa sunt formulate alte doua obiective, si anume: obtinerea de date preclasate si distribuirea acestora n seturi de invatare, testare sau evaluare. Evaluarea modelului are ca scop de a determina corect valorile n care modelul are capacitatea de a determina corect valorile pentru cazurile noi. Modelul va fi astfel aplicat asupra ultimei parti din datele preclasate care sunt dedicate evaluarii. Procentul de eroare ce se stabileste acum va fi considerat ca va fi acceptat si pentru datele noi. Performantele unui model se vor aprecia cu matricea de confuzie care are rolul de a compara situatia reala cu cea pe care modelul o furnizeaz. Integrarea modelului este etapa n care se finalizeaza procesul, prin incorporarea modelului in SIAD ca element de baza, sau prin includerea sa intr-un proces decizional general din organizatie.

Rationamentul bazat pe cazuri


Prin aceasta tehnica se cauta o rezolvare a problemelor aparute prin analogie cu experienta acumulata. Aceasta metoda se poate aplica pentru clasificari si pentru predictii. Cazurile pe care este bazat rationamentul sunt memorate ca nregistrari compuse din setul de atribute care descriu fiecare caz. Un caz nou este prezentat tot ca o nregistrare, numai ca in campurile in care valoarea trebuie determinata sunt vide. Pentru a determina aceste valori se cauta nregistrarile cu care nregistrarea caz nou se aseamana si continutul acestora se consider a fi rspunsul. Prin urmare se poate afirma c exist dou functii fundamentale de prelucrare: a) msurarea distantei dintre membrii fiecrui cuplu de nregistrri, pentru a afla vecinele cele mai apropiate; b) combinarea rezultatelor obtinute de la vecine n rspunsul propus pentru cazul curent. Msurarea distantei dintre cmpuri. Se numeste distant expresia modului n care se evalueaz similitudinea. Distanta are ca proprietti: poate fi definit si se prezint ca un numr real; distanta de la un element la el nsusi este totdeauna nul; sensul de msurare este fr semnificatie n maniera c distanta de la elementul A la elementul B este egal cu distanta de la B la A si nu exist un punct C intermediar lui A si B prin a crei parcurgere s se scurteze drumul de la A la B.

Ca moduri de calcul pentru distanta cmpurilor numerice se enumer: - diferenta ntre valoare absolut |A-B|; - ptratul diferentei (A-B)2; - diferenta ntre valoare absolut normalizat |A-B| (diferenta maxim). Ultima variant produce rezultate cu valori cuprinse ntre 0 si 1. Msurarea distantei ntre nregistrri. Cnd apare necesitatea de a considera simultan mai multe cmpuri ale nregistrrii, se calculeaz distanta pentru fiecare cmp n parte, iar rezultatul se combin ntr-o valoare mic care reprezint distanta nregistrrii respective. Se vor enumera cteva procedee de combinare a distantei cmpurilor: nsumarea, nsumarea normalizat (suma distantelor/suma maxim), distanta euclidian (rdcina ptrat din suma ptratelor distantelor). Distanta euclidian evidentiaz cel mai bine nregistrrile pentru care toate cmpurile sunt vecine. Combinarea rezultatelor presupune aflarea celor mai apropiati vecini, iar solutia problemei se obtine prin combinarea rspunsurilor obtinute de la acestia. Fiecare vecin poate avea diverse variante de rspuns, dar se vor lua n calcul doar cei care sunt mai apropiati. Rezultatul ce obtine majoritatea va fi atribuit cazului curent. Cerinta minim este ca numrul votantilor s fie impar, pentru a evita situatiile de nedeterminare. Metodele care se bazeaz pe vot dau rezultate satisfctoare n situatiile n care rspunsurile asteptate sunt de tip enumerativ. O alt solutie posibil este interpolarea valorilor nregistrrilor vecine care ns introduce o aplatizare a rezultatelor care se nscriu ntre cele dou limite folosite n calcul. De asemenea, se poate constata c rezultate bune se obtin prin metode de regresie statistic aplicate asupra valorilor date de vecinii cei mai apropiati. Se obtine ecuatia unei drepte sau a unei curbe care permite calcularea mai precis a valorilor aferente cazului curent. Se poate concluziona c rationamentul bazat pe cazuri este o tehnic de Data Mining suficient de bun si care se poate aplica unui mare numr de probleme, caz n care conduce la solutii acceptabile. Toate acestea sunt valabile dac volumul de date pe care se bazeaz este bine ales si concludent. Ca avantaje pentru aceast metod se pot enumera: - aplicarea unui mare numr de tipuri de date, pe structuri de date complexe, iar cmpurile tip text sunt mai bine tratate dect n alte tehnici; - luarea n considerare a orict de multor cmpuri; - rezultatele obtinute sunt explicite; - elementele de noutate care apar n procesul de nvtare sunt usor de nglobat si de folosit n rationamente. Ca orice metod prezint si unele dezavantaje dintre care se pot mentiona: - volumul mare de memorie si resurs timp de prelucrare relativ mare - timpul de prelucrarea mare pentru aplicarea functiilor de distanta asupra tuturor nregistrrilor si cmpurilor necesare pentru obtinerea rezultatelor.

Aplicatii
Data Mining in Social Media
Social Media (un grup de aplicatii bazate pe Internet care permit crearea si schimbul de Continut Generat de Utilizator; in alte cuvinte, retele de socializare, si alte servicii Web ce permit conectarea si comunicarea cu alte persoane folosind serviciile) a ctigat n ultimul deceniu o atenie remarcabila. Acest lucru este atribuit accesibilitatii accesarii site-urilor de reea de socializare, cum ar fi Twitter, Google+, Facebook i altele prin intermediul Internetului i a tehnologiilor Web 2.0.

Site-urile SM sunt cunoscute pentru propagarea informatiilor, exprimarea de opinii si sentimente si recenzii asupra anumitor produse. Stiri, dezbateri politice, politica guvernamentala sunt alte subiecte discutate pe aceste site-uri. Chiar daca unele opinii gasite pe site-uri SM ajuta utilizatorii si alte entitati in luarea de decizii folositoare, altele sunt simple supozitii si prin urmare derutante. Opiniile userilor pe astfel de site-uri (Facebook, Twitter, Youtube etc.) sunt in principiu pozitive, negative sau neutre (neutru fiind tratat de regula ca o opinie ne-exprimata), care pot fi descoperite folosind metode traditionale, dar este cu totul inadecvat avand in vedere volumul urias de informatii generat de aceste site-uri. Tehnicile de Data Mining sunt capabile sa se ocupe de cele trei caracteristici dominante ale SM-urilor : volum, zgomot/anomalii si dinamism. Colectiile de date din SM sunt foarte voluminoase si necesita o procesare automatizata a informatiei pentru a putea fi analizata intr-un timp rezonabil. Seturile de date din site-urile SM sunt deasemenea caracterizate de perturbatii, cum ar fi mesaje spam, sau tweet-uri irelevante. Dinamismul regasit in colectiile de date din site-urile SM le fac sa evolueze rapid in timp, iar tehnicile de Data Mining sunt versatile in a se ocupa cu astfel de date dinamice. Utilizarea tehnicilor de Data Mining pe date din SM ajuta la dezvoltarea

motoarelor de cautare. Analiza opiniilor asupra unui film a demonstrat ca machine learning-ul este o tehnica mai buna decat altele. Folosind o combinatie intre clasificarea naiva Bayes, clasificarea MC(Maximum Entropy) si SVM (Support Vector Machine) reiese ca SVM produce cele mai bune rezultate. Twitter s-a dovedit a fi cea mai utilizata aplicatie de microblogging disponibila azi. Avand aproximativ 500 de milioane de utilizatori inregistrati (Iunie, 2012), Twitter a devenit un mediu credibil de exprimare a opiniilor, dar si un mediu de propagare a informatiei, inca din 2007 cand a fost lansat. Datele de pe Twitter (tweet-uri) se pot considera ca si stiri in timp real. Reteaua raporteaza informatii utile din perspective diferite pentru a avea o intelegere mai buna. Tweet-urile postate online pot fi stiri, evenimente importante, sau subiecte de interes local, national sau chiar global. Astfel de evenimente sunt postate in timp real, in mod global, generand un volum mare de date foarte rapid. In ianuarie 2013, cetatenii Japoniei au stabilit un record, de revelion, ajungand la 33,388 de tweeturi pe secunda. Din martie 2013, Twitter genereaza aproximativ 340 de milioane de tweeturi zilnic. Multe organizatii, indivizi si chiar entitati guvernamentale urmaresc activitatile de pe retea cu scopul obtinerii cunoasterii reactiei audientei la tweeturile ce ii afecteaza. Utilizatorii de Twitter urmaresc alti utilizatori pe retea, si astfel pot sa citeasca tweet-urile utilizatorilor urmariti. Acest lucru, este deasemenea si o modalitate de a filtra tweet-urile importante din numarul urias de tweeturi postate pe retea zilnic.Un mod tipic de a eticheta un tweet este de a-i atribui un numar de hashtaguri (#<tag>), care ii descriu continutul. Astfel, putem folosi tweet-urile sa analizam modelele asociate cu evenimente prin detectarea dinamicii postarilor.

Concluzii

Bibliografie

S-ar putea să vă placă și