Documente Academic
Documente Profesional
Documente Cultură
Abstract
Data mining-ul are multe aplicatii, acestea variind de la jocuri la inginerie, marketing, medicina si multe altele. Putem spune ca transforma datele in informatii, si informatiile in cunostinte; ca si conceptul de knowledge discovery din domeniul inteligentei artificiale, ori analiza statistica, prin data mining se incearca sa se descopere noi reguli si pattern-uri din colectiile de date prezentate, insa, difera de conceptele anterioare prin volumul de date. Prin tehnologia Data Mining se prelucreaza date care refera perioade anterioare (date istorice), care sunt examinate si sunt deja cunoscute, pe baza lor constituindu-se un model. Acest model va putea fi aplicat situatiilor noi de acelasi tip cu cele deja cunoscute. Informatiile care se pot obtine prin Data Mining sunt predictive sau descriptive. Aceste capabilitati ale data mining-ului pot fi exploatate insa si in scopuri negative, cum ar fi 'minarea' datelor personale sau alte incalcari ale intimitatii unui utilizator.
Cuprins
Introducere
In general, Data Mining (KDD) este procesul prin care se analizeaza datele din perspective diferite si le sumarizeaza in informatii utile. Software-ul de Data Mining este unul din multe utilitare analitce pentru a analiza date, din mai multe dimensiuni si unghiuri, sa le categorizeze si sa sumarizeze relatiile identificate. Data Mining-ul poate fi considerat ca procesul de gasire a corelatiilor sau a modelelor intre colectii mari de date in baze de date relationale mari. Desi termenul de Data Mining este un termen relativ nou, tehnologia din spate nu este. Companiile au folosit computere puternice sa caute prin volumele de informatii de la supermarketuri si sa analizeze rapoarte de ani. Totusi, inovatiile continue in puterea de procesare a calculatoarelor, capacitatea de stocare si software-urile statistice cresc dramatic acuratetea analizei in timp ce costul scade. Datele sunt orice numere, caractere, text sau evenimente ce pot fi procesate de un computer. Azi, organizatiile acumuleaza cantitati vaste de date in formaturi diferite si baze de date diferite: - date operationale / tranzactionale - date nonoperationale
- metadate Modelele, asociatiile sau relatiile intre toate datele pot oferi informatii, iar informatia poate fi convertita in cunostinta, despre modele trecute si trenduri viitoare. Avansurile dramatice in capturarea de date, puterea de procesare, transmisia de date, permit organizatiilor sa-si integreze bazele de date intr-un data warehouse. Data warehouse-ing-ul este definit ca un proces management si preluare de date centralizate. Desi este un termen nou, precum Data Mining-ul, conceptul in sine exista de mult. Dezvoltarea tehnicilor de Data Mining se explic prin acumularea de volume pe care acestea le-au derulat de-a lungul anilor. De asemenea, concurenta tot mai acerb precum si cresterea exigentelor pietei au determinat firmele s ia tot mai mult n considerare potentialul urias pe care l ofer arhivele de date. Alturi de arhivele de date memorate pe suporturi informatice mai exist nc doi factori care au dus la necesitatea Data Mining: existenta si perfectionarea algoritmilor si a produselor program dedicate precum si cresterea capacittii de memorare si prelucrare a calculatoarelor care permit tratarea corelativ a volumelor mari de date. Este de remarcat c depozitele de date pot fi surse pentru Data Mining, iar rezultatele obtinute pot completa cmpurile nregistrrilor din depozitele de date, care apoi pot fi valorificate prin proiectiile multidimensionale specifice OLAP. Potentialul oferit de Data Mining se ncorporeaz n procesele comerciale ale firmelor, iar cutarea informatiilor nu devine un scop n sine ci este util doar dac este transformat ca actiune. Astfel firmele pot alege s reactioneze sau nu la situatiile diverse create de realitate (diminuarea numrului de clienti, scderea vnzrilor, pierderea unor piete de desfacere etc.). Pasul urmtor dup aceast alegere este exploatarea propriu-zis a datelor utiliznd diversi algoritmi. De multe ori, actiunea de Data Mining poate fi un esec si nu o reusit, fiind posibil ca msurile luate s nu fie adecvate informatiilor obtinute.
Datele pot fi exploatate pentru a obtine informatii prin diverse tehnici cum sunt: retele neuronale, arbori de decizie, algoritmi genetici, analiza grupurilor, rationamente bazate pe cazuri, analiza legaturilor. Aceste tehnici pot fi asociate cu tehnici statistice cum sunt regresiile sau analiza factoriala. Data Mining nu este capabil, ca tehnic, s rezolve orice problem de gestiune. De fapt ceea ce poate oferi se rezuma la cteva actiuni cum sunt: clasificarea, estimarea, predictia, gruparea, analiza gruprilor, care folosite la locul potrivit pot deveni utile pentru o multime de probleme din domeniul decizional.
- identificarea surselor de date; - colectarea si selectarea datelor; - pregtirea datelor; - definirea si construirea modelului; - evaluarea modelului; - integrarea modelului. Definirea problemei consta in sesizarea unei oportunitati sau necesitati de afaceri. De aceea se va delimita ceea ce urmeaza a fi rezolvat prin Data Mining, obiective urmarire si rezultate scontate. Problema ce urmeaza a fi rezolvata prin Data Mining este o parte componenta a oportunitatii organizatiei, dar nu se identifica cu ea. De asemenea problema trebuie sa primeasca o forma adecvata pentru a putea fi tratata cu aceast tehnica. Identificarea surselor de date consta n stabilirea structurii generale a datelor necesare pentru rezolvarea problemei, precum si regulile de constituire a acestora si localizarea lor. Fiecare sursa de date va fi examinata pentru o familiarizare cu continutul sau si pentru identificarea incoerentelor sau a problemelor de definire. Colectarea si selectia datelor este etapa n care se face extragerea si depunerea ntr-o baza comuna a datelor care urmeaza a fi utilizate ulterior. Aceast etapa ocup un timp mare, cam 80% din timpul total, iar existenta depozitelor de date constituie un real avantaj. In functie de limitele echipamentelor de calcul folosite, de produsele program aplicate colectiilor de date si nu n ultimul rand de bugetul disponibil se poate prelucra intregul fond de date disponibil sau un esantion. Daca optiunea aleasa este dirijata spre lucrul cu esantionare, atunci trebuie respectate toate regulile si cerintele de selectare a acestora. Pregatirea datelor. Datele sunt de obicei stocate n colectii de date care au fost construite pentru alte scopuri. De aceea firesc este sa existe o faza preliminara de pregatire nainte de extragere prin Data Mining. Transformarile la care sunt supuse datele pentru Data Mining se refera la: valori extreme, valori lipsa, valori de tip text, tabele. Tratarea valorilor extreme se poate face prin incadrarea ntre anumite limite cuprinse intre medie si un numar de abatere standard prin excludere sau limitare sau prin izolarea varfurilor. In cazul valorilor lipsa se pot elimina campurile cu valori nule din inregistrari, sau se pot completa campurile cu date de valori medii, deoarece existenta lor poate duce la o functionare incorect a algoritmilor de Data Mining. Valorile de tip text ridica probleme ntrucat separarea prin spatii a cuvintelor duc la aparitia de valori diferite. Din acest motiv este indicata eliminarea lor, dar dac prelucrarea lor nu poate fi eliminata, solutia cea mai pertinenta este de codificare prin tabele de corespondente, n care sa se evidentieze toate sirurile valide de caractere. Rezumarea se aplica atunci cand datele sunt considerate a reprezenta detalii nesemnificative pentru rezolvarea problemei, sau cnd numarul de exemple este insuficient. Codificarea incoerenta apare in momentul n care obiecte identice sunt reprezentate diferit n unele din sursele utilizate. Incompatibilitatile arhitecturale informatice se refera la diferentele existente ntre modul de reprezentare interna a valorilor datorat crearii lor cu sisteme din generatii
diverse. Definirea si construirea modelului este etapa care se apropie cel mai mult de notiunea de Data Mining si se refera la crearea modelului informatic care va efectua exploatarea. Etapa de definire si construire a modelului este nsotita de faza de instruire sau nvatare, depinznd de tehnicile de Data Mining utilizate. Indiferent de aceste tehnici toate au de parcurs doua etape: invatarea si testarea. Invatarea presupune existenta unui set suficient de reprezentativ de exemple complete de la care se porneste pentru a identifica relatiile de legatura intre valorile campurilor sau atributelor. Se considera ca fiind incheiat procesul de invatare, in momentul in care rezultatele obtinute prin model se apropie suficient de mult de solutiile continute de datele dup care s-a invatat. Nu intotdeauna rezultatele sunt cele scontate si atunci modelul va fi supus testarii cu date diferite de cele folosite pentru invatare, dar care apartin aceleiasi colectii. In aceasta etapa sunt formulate alte doua obiective, si anume: obtinerea de date preclasate si distribuirea acestora n seturi de invatare, testare sau evaluare. Evaluarea modelului are ca scop de a determina corect valorile n care modelul are capacitatea de a determina corect valorile pentru cazurile noi. Modelul va fi astfel aplicat asupra ultimei parti din datele preclasate care sunt dedicate evaluarii. Procentul de eroare ce se stabileste acum va fi considerat ca va fi acceptat si pentru datele noi. Performantele unui model se vor aprecia cu matricea de confuzie care are rolul de a compara situatia reala cu cea pe care modelul o furnizeaz. Integrarea modelului este etapa n care se finalizeaza procesul, prin incorporarea modelului in SIAD ca element de baza, sau prin includerea sa intr-un proces decizional general din organizatie.
Ca moduri de calcul pentru distanta cmpurilor numerice se enumer: - diferenta ntre valoare absolut |A-B|; - ptratul diferentei (A-B)2; - diferenta ntre valoare absolut normalizat |A-B| (diferenta maxim). Ultima variant produce rezultate cu valori cuprinse ntre 0 si 1. Msurarea distantei ntre nregistrri. Cnd apare necesitatea de a considera simultan mai multe cmpuri ale nregistrrii, se calculeaz distanta pentru fiecare cmp n parte, iar rezultatul se combin ntr-o valoare mic care reprezint distanta nregistrrii respective. Se vor enumera cteva procedee de combinare a distantei cmpurilor: nsumarea, nsumarea normalizat (suma distantelor/suma maxim), distanta euclidian (rdcina ptrat din suma ptratelor distantelor). Distanta euclidian evidentiaz cel mai bine nregistrrile pentru care toate cmpurile sunt vecine. Combinarea rezultatelor presupune aflarea celor mai apropiati vecini, iar solutia problemei se obtine prin combinarea rspunsurilor obtinute de la acestia. Fiecare vecin poate avea diverse variante de rspuns, dar se vor lua n calcul doar cei care sunt mai apropiati. Rezultatul ce obtine majoritatea va fi atribuit cazului curent. Cerinta minim este ca numrul votantilor s fie impar, pentru a evita situatiile de nedeterminare. Metodele care se bazeaz pe vot dau rezultate satisfctoare n situatiile n care rspunsurile asteptate sunt de tip enumerativ. O alt solutie posibil este interpolarea valorilor nregistrrilor vecine care ns introduce o aplatizare a rezultatelor care se nscriu ntre cele dou limite folosite n calcul. De asemenea, se poate constata c rezultate bune se obtin prin metode de regresie statistic aplicate asupra valorilor date de vecinii cei mai apropiati. Se obtine ecuatia unei drepte sau a unei curbe care permite calcularea mai precis a valorilor aferente cazului curent. Se poate concluziona c rationamentul bazat pe cazuri este o tehnic de Data Mining suficient de bun si care se poate aplica unui mare numr de probleme, caz n care conduce la solutii acceptabile. Toate acestea sunt valabile dac volumul de date pe care se bazeaz este bine ales si concludent. Ca avantaje pentru aceast metod se pot enumera: - aplicarea unui mare numr de tipuri de date, pe structuri de date complexe, iar cmpurile tip text sunt mai bine tratate dect n alte tehnici; - luarea n considerare a orict de multor cmpuri; - rezultatele obtinute sunt explicite; - elementele de noutate care apar n procesul de nvtare sunt usor de nglobat si de folosit n rationamente. Ca orice metod prezint si unele dezavantaje dintre care se pot mentiona: - volumul mare de memorie si resurs timp de prelucrare relativ mare - timpul de prelucrarea mare pentru aplicarea functiilor de distanta asupra tuturor nregistrrilor si cmpurilor necesare pentru obtinerea rezultatelor.
Aplicatii
Data Mining in Social Media
Social Media (un grup de aplicatii bazate pe Internet care permit crearea si schimbul de Continut Generat de Utilizator; in alte cuvinte, retele de socializare, si alte servicii Web ce permit conectarea si comunicarea cu alte persoane folosind serviciile) a ctigat n ultimul deceniu o atenie remarcabila. Acest lucru este atribuit accesibilitatii accesarii site-urilor de reea de socializare, cum ar fi Twitter, Google+, Facebook i altele prin intermediul Internetului i a tehnologiilor Web 2.0.
Site-urile SM sunt cunoscute pentru propagarea informatiilor, exprimarea de opinii si sentimente si recenzii asupra anumitor produse. Stiri, dezbateri politice, politica guvernamentala sunt alte subiecte discutate pe aceste site-uri. Chiar daca unele opinii gasite pe site-uri SM ajuta utilizatorii si alte entitati in luarea de decizii folositoare, altele sunt simple supozitii si prin urmare derutante. Opiniile userilor pe astfel de site-uri (Facebook, Twitter, Youtube etc.) sunt in principiu pozitive, negative sau neutre (neutru fiind tratat de regula ca o opinie ne-exprimata), care pot fi descoperite folosind metode traditionale, dar este cu totul inadecvat avand in vedere volumul urias de informatii generat de aceste site-uri. Tehnicile de Data Mining sunt capabile sa se ocupe de cele trei caracteristici dominante ale SM-urilor : volum, zgomot/anomalii si dinamism. Colectiile de date din SM sunt foarte voluminoase si necesita o procesare automatizata a informatiei pentru a putea fi analizata intr-un timp rezonabil. Seturile de date din site-urile SM sunt deasemenea caracterizate de perturbatii, cum ar fi mesaje spam, sau tweet-uri irelevante. Dinamismul regasit in colectiile de date din site-urile SM le fac sa evolueze rapid in timp, iar tehnicile de Data Mining sunt versatile in a se ocupa cu astfel de date dinamice. Utilizarea tehnicilor de Data Mining pe date din SM ajuta la dezvoltarea
motoarelor de cautare. Analiza opiniilor asupra unui film a demonstrat ca machine learning-ul este o tehnica mai buna decat altele. Folosind o combinatie intre clasificarea naiva Bayes, clasificarea MC(Maximum Entropy) si SVM (Support Vector Machine) reiese ca SVM produce cele mai bune rezultate. Twitter s-a dovedit a fi cea mai utilizata aplicatie de microblogging disponibila azi. Avand aproximativ 500 de milioane de utilizatori inregistrati (Iunie, 2012), Twitter a devenit un mediu credibil de exprimare a opiniilor, dar si un mediu de propagare a informatiei, inca din 2007 cand a fost lansat. Datele de pe Twitter (tweet-uri) se pot considera ca si stiri in timp real. Reteaua raporteaza informatii utile din perspective diferite pentru a avea o intelegere mai buna. Tweet-urile postate online pot fi stiri, evenimente importante, sau subiecte de interes local, national sau chiar global. Astfel de evenimente sunt postate in timp real, in mod global, generand un volum mare de date foarte rapid. In ianuarie 2013, cetatenii Japoniei au stabilit un record, de revelion, ajungand la 33,388 de tweeturi pe secunda. Din martie 2013, Twitter genereaza aproximativ 340 de milioane de tweeturi zilnic. Multe organizatii, indivizi si chiar entitati guvernamentale urmaresc activitatile de pe retea cu scopul obtinerii cunoasterii reactiei audientei la tweeturile ce ii afecteaza. Utilizatorii de Twitter urmaresc alti utilizatori pe retea, si astfel pot sa citeasca tweet-urile utilizatorilor urmariti. Acest lucru, este deasemenea si o modalitate de a filtra tweet-urile importante din numarul urias de tweeturi postate pe retea zilnic.Un mod tipic de a eticheta un tweet este de a-i atribui un numar de hashtaguri (#<tag>), care ii descriu continutul. Astfel, putem folosi tweet-urile sa analizam modelele asociate cu evenimente prin detectarea dinamicii postarilor.
Concluzii
Bibliografie