Sunteți pe pagina 1din 7

Data mining n depozitul de date

Student: A LEXANDRA C ERNELEANU Masterat: S.I.M.P.R.E, ANUL I

1 Prezentare data mining


1.1

Introducere

Acumularea progresiv a unor seturi mari de date eterogene, nsotit de cresterea puterii computationale a a si dezvoltarea tehnologiilor pentru bazele de date, au determinat cresterea atentiei ndreptate spre data mining, ca un nou mijloc pentru descoperirea de informatii utile n datele istorice, ndeosebi afara tehnologiilor avansate, succesul data miningului, cel din cele stocate n depozitele de date. In putin n cadrul marilor companii, poate atribuit si schimb rilor din mediul de afaceri. De exem a plu, cresterea competitiei n comertul electronic si ndep rtarea barierelor pentru noii competitori, a saturarea anumitor segmente de piata au m rit necesitatea unor strategii mbun tite si exibile a a at care s permit companiilor managementul ecient al relatiilor cu clientii. a a Dimensiunea mare a datelor stocate a constituit nc de la nceput un impediment n valori a care informatiei stocate n bazele de date. Fundamentul teoretic si instrumentele necesare rezolv rii a acestei probleme constituie subiectul domeniului Descoperirea cunostintelor n bazele de date (KDD - Knowledge Discovery in Databases). Desi multi ani termenii de data mining si KDD au fost interschimbabili, s-a ajuns la un consens care i identica ca dou concepte diferite.Astfel, din a punct de vedere formal, data mining a fost denit n [2] ca un pas n procesul KDD ce const n a a aplicarea de algoritmi de descoperire si analiz de date, care n timp computational acceptabil vor a produce o multime de patternuri pe datele studiate. Pasii suplimentari pentru extragerea cunostintelor, cum ar prepararea, selectia si curarea at datelor, selectarea cunostintelor a priori adecvate si interpretarea corespunz toare a rezultatelor a sunt esentiale pentru garantarea acuratetii cunostintelor obtinute din date. Suportul pentru analiza datelor l constituie depozitul de date, care reuneste date tranzactionale curate, transformate si catalogate cu scopul de a le face disponibile pentru data mining, OLAP, at market research si suport de decizie (Marakas si OBrien 2009). Depozitul de date preg teste a terenul pentru analiza datelor prin dou faciliti importante: curare datelor si accesul la acestea. a at at Curarea datelor se refer la reconcilierea datelor provenind din surse distincte, cu reprezent ri, at a a codic ri si formate diferite, tratarea cazurilor c nd anumite date lipsesc, eliminarea anomaliilor a a si a erorilor.Accesul la date istorice la care nu ar fost posibil prin interogare direct (de exemplu, a datele stocate ofine) trebuie asigurat prin metode uniforme si bine denite, care s favorizeze opti a mizarea acestui proces: denormalizare, sumarizare, statistici ale acces rii si reorganizare dinamic a a a index rii. a

1.2

Pasi pentru descoperirea cunostintelor n bazele de date

Procesul de descoperire a cunostintelor n bazele de date este interactiv si iterativ, implic nd a numerosi pasi la care este nevoie de puterea de decizie a utilizatorului. Vom prezenta, n con tinuare, c teva dintre cei mai reprezentative etape ale acestui proces (g. 1): a Primul pas const n ntelegerea domeniului de aplicabilitate, separarea cunostintelor prelima inare si identicarea scopului acestui demers din punctul de vedere al utilizatorului. Al doilea pas const n identicarea multimii de date int : selectarea unei multimi, sau a a t a unei submultimi de variabile sau a unui esantion de date pe care se va efectua c utarea. a Al treilea pas este reprezentat de curarea datelor si preprocesare. Operatiile de baz inat a clud, dac este cazul, nl turarea zgomotului si a informatiei irelevante, culegerea informatiilor a a necesare pentru modelarea acestor situatii, completarea valorilor lips , nlocuirea sinonimelor cu a

Figura 1: Etapele procesului de descoperire a cunostintelor

identicatori standard. Al patrulea pas const n reducerea dimensiunii datelor si proiectarea bazelor de date, adoptarea a celor mai bune strategii n acest sens depinz nd de scopul proiectului. Prin metodele de transfor a mare si reducere a dimensiunii, num rul efectiv al variabilelor luate n calcul poate s scad sau se a a a poate g si o modalitate invariant de reprezentare a datelor. a a Al cincilea pas este reprezentat de identicarea celei mai bune metode de data mining pentru scopul proiectului, cum ar clasicarea, estimarea, previziunea (nvare supervizat ) sau clus at a terizare si analiza cosului de cump r turi(nvare nesupervizat ). aa at a Pasul sase implica analiza si selectarea modelului si a ipotezelor: alegerea algoritmului de data mining si selectarea metodelor pentru c utarea patternurilor n structurile de date. Acest a proces include deciderea asupra unor modele si parametri care ar putea adecvati (de exemplu, modelele pentru variabilele categoriale sunt diferite de modelele pentru vectori de numere reale) si asocierea unei metode particulare de data mining cu criteriile generale ale procesului de de scoperire a cunostintelor n date (de exemplu, un utilizator nal poate mai degrab interesat n a ntelegerea modelului dec t n capacitile sale predictive). a at Pasul sapte este reprezentat efectiv de procesul de data mining: c utarea patternilor care a prezint interes ntr-o form particular de reprezentare sau o multime de astfel de reprezent ri, a a a a incluz nd regulile sau arborii de clasicare, regresie sau clustering. Utilizatorul poate mbun ti a a at semnicativ procesul de data mining prin asistarea si luarea deciziilor corecte in pasii precedenti. Urm toarea etap (a opta) const n interpretarea patternurilor descoperite, cu posibilitata a a tea revenirii asupra oric rui pas de la 1 la 7 pentru mai multe reiter ri. Acest pas poate implica a a vizualizarea patternurilor extrasi si a modelelor sau vizualizarea datelor obtinute prin aplicarea modelelor. Pasul nou , si ultimul, reprezint tratarea cunotintelor obtinute: utilizarea direct a acestora, a a a ncorporarea cunotintelor intr-un alt sistem pentru utilizarea viitoare sau simpla documentare a acestora si raportarea c tre p rtile interesate. Aceast etap implic si rezolvarea potentialelor a a a a a conicte date de cunostintele anterioare sau extrase. Procesul de descoperire a cunostintelor n depozitul de date poate implica iteratii ample, sau

chiar iteratii ntre oricare alti doi pasi. Dup ce am prezentat procesul de KDD n general, ne vom a concentra atentia asupra data miningului, care a primit p n acum cea mai mare atentie n literatura a a de specialitate.

1.3

Strategii de data mining

Se pot distinge dou directii spre care tind aplicatiile de acest tip: (1) vericarea si (2) dea scoperirea cunostintelor. Prin vericare, sistemul este limitat doar la vericarea ipotezelor utiliza torului. Prin descoperire, sistemul identic patternuri n mod autonom. Procesul de descoperire a al cunotintelor poate mai apoi mp rtit in predictie prin care se urm resc patternuri pentru pre a a vizionarea comportamentului anumitor entiti, si n descriere prin care sistemul g seste patternuri at a pentru reprezentarea datelor ntr-o forma usor recogniscibil de c tre oameni. a a Procesul de data mining implic si realizarea de inferente pornind de la modelele lumii a reale. Sunt utilizate dou abord ri matematice: (1) statistice si (2) logice. Abordarea statistic a a a permite componente nedeterministice n model, n timp ce modelul logic este pur deterministic. Majoritatea metodelor de data mining se bazeaz pe tehnici experimentate n nvarea automat a at a a masinilor, recunoasterea patternilor si statistic . Trebuie precizat c din multitudinea de metode a a prezentate n literatura de specialitate, doar c teva reprezint tehnici fundamentale. Reprezentarea a a de baz a modelului utilizat de o anumit metod provine din mbinarea c torva optiuni: polia a a a a noame, curbe spline, functii booleene. Asadar, majoritatea metodelor provin din hibridizarea unor tehnici si principii de baz , pentru a integra avantajele procedurilor complementare si a anula a p rtile slabe ale ec ruia n parte. a a Clasicarea este o metod de nvare supervizat care mapeaz (clasic ) o entitate din a at a a a baza de date n una sau mai multe clase predenite. Exemplele de metode de clasicare includ clasicarea tendintelor pe piata nanciar si identicarea automat a obiectelor de interes ntr-un a a depozit de date care stocheaz imagini. a Regresia este metoda prin care se descriu asociatiile ntre dou seturi de variabile, cu ajutorul a unor formule, de obicei liniare. Aplicatiile regresiei sunt numeroase, printre care si previzionarea cererii consumatorilor pentru un nou produs, n functie de r spunsul la campaniile de publicitate a organizate. Clustering este un task descriptiv care ncearc s identice o multime nit de categorii a a a (sau clustere) pentru a descrie datele. Categoriile pot , la r ndul lor, exclusive si exhaustive a sau s prezinte o reprezentare mai bogat , cum ar categoriile ierarhice sau partial suprapuse. Un a a exemplu de aplicatie de clustering const n identicare unor subcategorii omogene de consumatori a n baza de date a v nz rilor. a a Sumarizarea implic metode pentru g sirea unei descrieri compacte ale unei submultimi a a de date. Un exemplu simplu ar calcularea mediei si a deviatiei standard pentru toate c mpurile. a Tehnicile de sumarizare se aplic la exploatarea interactiv a analizei datelor si generarea automat a a a rapoartelor.

1.4

Data mining si datele cu caracter personal

Existenta unor mari baze de date cuprinz nd informatii centrate pe clienti, de exemplu compor a tamentul preferential al unui consumator individual sau informatiile detaliate cu privire la tracul web al unui utilizator, nu ofer doar oportuniti din punct de vedere data mining, dar ridic o serie a at a consecinta, ngrijorarea cu privire la ntreag ntreb ri referitoare la protectia spatiului privat. In a a

aceste probleme este n continu crestere, determin nd conceptualizarea diferitelor modele de pri a a vacy si dezvoltarea de proceduri de analiz a acestora. Modelele de privacy, cum ar k-anonimity a au ca scop, dup stergerea identicatorilor unei multimi de date, tuplurile de atribute care ar putea a servi ca semi-identicatori (de exemplu v rsta, codul postal) s rate valori identice peste cel putin a a k nregistr ri, ceea ce mpiedic reidenticarea instantelor si un anumit nivel de privacy. a a Obtinerea k-anonimitii poate necesita anumite transform ri ale atributelor initiale, prin at a care informatia trebuie tratat astfel nc t rezultatul s nu constituie o piedic pentru aplicarea a a a a algoritmilor de data mining. S-au pus la punct, astfel, o serie de metode prin care identicarea nregistr rilor prin atribute semi-identicatoare devine aproape imposibil . Cu toate acestea, ast a a fel de precautii devin inutile dac datele sunt relationate unele cu altele. De exemplu, un astfel a de caz a fost raportat cu ocazia competitiei Netix. O baz de date contin nd rating-urile pentru a a lme de la utilizatori anonimi a fost pus la dispozitie n ncercarea de a dezvolta si test anumiti a algoritmi. S-a demonstrat c utilizatorii puteau reidenticati prin relationarea rating-ului anonim a cu alte surse, ceea ce indic riscul de nc lcare grav a politicii de privacy n cazul seturilor de a a a date nl ntuite. De cealalt parte, exist o puternic dorinta de partajare a multimii datelor cu a a a a colaboratorii si antrenarea n actiuni de data mining. ultima perioad , se ncearc punerea la punct a unor algoritmi care s echilibreze balanta In a a a ntre privacy si acuratetea datelor, prin facilitarea accesului la tehnicile de data mining dar evitarea partaj rii datelor ntre entitile participante. a at

2 Studiul detect rii intruziunii utiliz nd data mining a a


Studiul detect rii intruziunii reprezint na din cele mai importante directii de cercetare, studiind-use a u posibilitatea integr rii logicii fuzzy cu metodele de data mining folosind algoritmi genetici pentru a detectia intruziunii. Motivul introducerii logicii fuzzy este dat de existenta unei mari cantiti de at date f r o logic de separare ntre operatille normal si anomalii. Regulile de asociere fuzzy pot aa a dirijate pentru a descoperi corelatii abstracte ntre diferite nivele de securitate. Componentele retelelor capabile s detecteze intruziunile se numesc Sisteme de detectare a a intruziunii (Intrusion Detection Systems - IDS). Tehnicile pentru detectarea intruziunii au fost folosite nc din anii 80 si, depinz nd de tipul si sursa informatiei folosite pentru identicarea a a breselor de securitate, se clasic n host-based sau network based. a Sistemele host-based utilizeaz informatia de pe local host, cum ar comportamentul procea selor, integritatea sierelor si logurile de sistem pentru a detecta evenimentele. Sistemele network based utilizeaz activitatea din retea pentru a efectua analiza. Combinatii ale celor dou tipuri a a sunt posibile. Depinz nd de modalitatea prin care este detectat intruziunea, un IDS este clasicat a a mai departe ca ind bazat pe semn tur sau bazat pe anomalie. Sistemele bazate pe semn tur a a a a ncearc sa potriveasc activitile observate cu anumiti patterni bine deniti care poart numele a a at a de semn tur . Sistemele bazate pe detectarea anomaliilor caut orice evidenta a unei activiti dea a a at viate de la ceea ce este considerat utilizarea normal a sistemului. Aceste sisteme sunt capabile s a a a detecteze atacurile pentru care nu exist un pattern bine denit (cum ar un atac nou sau o variatie a a unui atac existent). Un sistem hibrid este capabil ns s detecteze mai bine anomaliile. Tehni a a cile de data mining au fost utilizate pentru determinarea patternurilor n seturile de date. Concret, dou tehnici de data mining au fost propuse si utilizate pentru detectarea anomaliilor: asocierea a regulilor si determinarea frecventei. Algoritmul de asociere a regulilor g seste corelatii ntre ntre a atributele utilizate pentru descrierea multimii de date. Pe de alt parte, tehnica frecventei unui a anumit eveniment sunt eciente pentru detectarea patternurilor secventiali dintr-o succesiune de evenimente. Prin utilizarea algoritmilor genetici, performanta functiilor fuzzy poate mbun tit a at a

precum si a celor de selectie a datelor din depozitul de date. Rezultatele experimentale conrm ecienta acestui sistem. Metoda a fost testat pe o retea a a av nd 60 de noduri conectate la un server al unui computer local. Deoarece colectarea efectiv a a a unor date de intruzie este foarte dicil , anumite date normale cu un comportament diferit sunt a tratate ca un echivalent si utilizate pentru antrenarea sistemului. Algoritmul de asociere bazat pe logica fuzzy a fost aplicat pentru patru monitorizarea a patru parametri ai retelei. Cum setul de date este unul simulat si nu are o dimensiune sucient de mare, algoritmii genetici au selectat aproape toti cei patru parametri. Datele referitoare la tracul n retea a fost partitionat apoi n 4 multimi, n funcie de momentul zilei la care au fost colectate, si anume dimineata, la pr nz, seara si noaptea a t rziu. Aceste multimi au fost alese deoarece este cel mai probabil ca patternurile pentru acestea a s prezinte un aspect foarte diferit. a Mul ctimile utilizate pentru antrenarea aplicatiei, colectate n aceeasi perioad , sunt folosite a pentru obtinere regulilor de asociere, prin metoda fuzzy. Similaritatea ec rui set de reguli care a a fost derivat din acestea este comparat cu datele de test pentru diferite perioade. Rezultatele au a a demonstrat c similaritatea regulilor este foarte probabil pentru regulile de asociere obtinute pe a a date colectate n perioada serii sau noaptea t rziu. Aceasta conduce la concluzia c posibilitatea a a intruziunii n retea este mai mare pentru datele obtinute seara sau noaptea t rziu si, surprinz tor a a foarte sc zut n perioada diminetii sau a pr nzului. Acest fapt se poate explica prin accesul a a a redus la porturile de retea pentru a accesa reteaua n acele momente. O alt observatie important a a este aceea c sistemul este capabil s identice patternurille pentru utilizatorii care au ncercat s a a a acceseze reteaua n intervale de timp neobisnuite pentru acestia, desi sunt utilizatori autorizati. De exemplu, un utilizator care se logheaz n sistem de 5 ori dimineata si o dat seara, comportamentul a a s u poate detectat rapid de acest sistem. a Posibilitatea de aplicare cu succes al unui astfel de algoritm de data mining pentru sistme on-line, caracterizate printr-o cantitate mare de date si printr-o uctuatie deosebit acestora este a deosebit de important pentru companiile care se bazeaz pe un num r foarte mare de tranzactii a a a electronice. Analiza datelor prin algoritmul prezentat este capabil sa avertizeze asupra compora tamentului diferit al unui utilizator, de ncercarea de intruziune a acestuia n zone n care nu are permisiunea s fac si poate preveni ncercarea de fraud sau repetarea fraudelor anterioare, prin a a a capacitatea de nv are a sistemului. a

3 Concluzii
Instrumentele data mining vor continua s se maturizeze si din ce n ce mai multe organizaii vor a adopta acest gen de tehnologie , ncorporat n instrumente software din ce n ce mai performante. Initiativele data mining provin cel mai adesea din zona departamentelor de marketing si v nz ri a a care detin baze de date cu volume foarte mari, adeseori provenind din datele stocate online, sunt generate cu instrumente software care acentueaz si garanteaz calitatea datelor din depozitele de a a date iar evolutiile din ultima perioad impun analize detaliate, analitice, pe perioade de timp, pe a zone si segmente diferite pentru a oferi r spunsuri operative si ecace n contextul globaliz rii si a a a cresterii competitivitii. at

Bibliograe
[1] Robert Stahlbock, Sven F. Crone, Stefan Lessman Data Mining, vol. 8, ed. Springer Dec 2009

[2] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, From Data Mining to Knowledge Discovery in Databases, 1996 [3] Curs Business Intelligence [4] Credit risk evaluation of Online Personal Loan Applicants: A Data Mining Approach Pavel Brusilovskiy, David Johnson, Sept 2008 [5] Intrusion Detection Using Data Mining Along Fuzzy Logic and Genetidc Algorithsms, Y.Dhalakhmi, Dr.I.Ramesh Barbu [6] Tehnologii informatice inteligente de accesare multidimensional a bazelor i depozitelor de date de marketing Gheorghe Orzan, Revista de Marketing Online vol.1 nr. 2

S-ar putea să vă placă și