Sunteți pe pagina 1din 8

ANALIZA DATELOR STOCATE N DEPOZITE MARI DE DATE Maria ANDRONIE, Mihai ANDRONIE Facultatea de Management Financiar Contabil- Universitatea

Spiru Haret, andronie_maria@hotmail.com Rezumat Analiza datelor stocate n depozite mari de date se poate face fie numai prin folosirea tehnicilor de analiz integrate n sistemul informatic de gestiune a datelor aferent depozitului respectiv, fie i prin utilizarea unor tehnici avansate de analiz integrate n sisteme dedicate de tip data mining, n funcie de nivelul de analiz necesar utilizatorului n fundamentarea deciziilor manageriale. Indiferent de complexitatea sa, procesul de analiz poate fi aplicat asupra datelor stocate n orice tip de depozit de date, precum i asupra fluxurilor de date. Cele mai uzuale depozite de date asupra crora se aplic, n funcie de necesiti, i un proces de analiz avansat a datelor, denumit n literatura de specialitate proces data mining, sunt bazele de date i depozitele de date (data warehouses). n principiu, ntr-un proces data mining se execut tehnici data mining care pot fi comune mai multor tipuri de depozite de date sau pot fi diferite de la un tip de depozit la altul. Implementarea tehnicilor data mining care permit analiza avansat a datelor stocate n depozite mari de date n vederea obinerii informaiilor de baz pentru adoptarea celor mai eficiente decizii de conducere reprezint o provocare pentru specialitii n domeniu. Cuvinte cheie Data mining, baz de date, data warehouse, analiza datelor, proces data mining. DATA ANALISYS STORED IN DATA WAREHOUSE Abstract Data analysis stored in a data warehouse can be performed either through integrated analyzing techniques in the information system or through advanced techniques integrated in dedicated data mining systems in accordance with the required level of analysis required by the management. Regardless its complexity, the analysis process can be applied on stored data in any type of data deposit and in the same time to the data flows. The most common data deposits to be analyzed using advanced techniques, so called data mining process, are data bases and data warehouses. Usually in a data mining process there are applied several data mining techniques that can be common to several data deposits or can be different from a data deposit to another. Implementing of data mining techniques allowing an advanced analysis of the stored data in order to extract information needed to take the most efficient decision in a management process is a challenge for the specialists in the domain. Key Words Data mining, database, data warehouse, data analysis. Cadrul general Analiza datelor stocate n depozite mari de date se poate face fie numai prin folosirea tehnicilor de analiz integrate n sistemul informatic de gestiune a datelor aferent depozitului respectiv, fie i prin utilizarea unor tehnici avansate de analiz integrate n sisteme dedicate de tip data mining, n funcie de nivelul de analiz necesar utilizatorului n fundamentarea deciziilor manageriale.

500

Indiferent de complexitatea sa, procesul de analiz poate fi aplicat asupra datelor stocate n orice tip de depozit de date, precum i asupra fluxurilor de date. Cele mai uzuale depozite de date asupra crora se aplic, n funcie de necesiti, i un proces de analiz avansat a datelor, denumit n literatura de specialitate data mining process, sunt bazele de date i depozite de date (data warehouses). Bazele de date implicate ntr-un proces data mining pot fi relaionale, tranzacionale, obiecturale i avansate. Bazele de date avansate sunt, prin definiie, colecii de date create i gestionate cu ajutorul unor programe care integreaz mecanisme avansate de manipulare a datelor cu structuri complexe, semistructurate sau nestructurate, a datelor spaio-temporale, multimedia, cu schimbri dinamice, cu lungime variabil etc. Din categoria bazelor de date avansate fac parte bazele de date relaional-obiecturale i bazele de date orientate pe aplicaii specifice, ca de exemplu bazele de date temporale, secveniale, time- series, spaiale i spaiotemporale, text, multimedia i eterogene, inclusiv fiierele de date nestructurate sau semistructurate, fluxurile i secvenele de date, precum i World Wide Web- WWW. Implementarea tehnicilor data mining care permit analiza avansat a datelor stocate n depozite mari de date n vederea obinerii informaiilor de baz pentru adoptarea celor mai eficiente decizii de conducere reprezint o provocare pentru specialitii n domeniu. Depozite de date asupra crora se poate aplica procesul data mining Baza de date relaional este construit n jurul unui model relaional de date caracterizat prin aceea c folosete structuri relaionale de date de tip tabel (relaii bidirecionale) corelate ntre ele (relaii predefinite), care sunt create i gestionate cu ajutorul unui set de programe (software) mpreun cu care formeaz un sistem baz de date relaional, denumit n mod uzual Sistem de Gestiune a Bazei de Date relaional. Analiza datelor stocate ntr-o baz de date relaional se face prin formularea de interogri care au ca rezultat rspunsul ateptat. Spre exemplu, pentru analiza datelor stocate n baza de date relaional a unei universiti se pot formula interogri de tipul afieaz lista studenilor nscrii n anul I de studiu, afieaz numrul total al studenilor care au pltit taxa de colarizare, grupai pe faculti i centre de nvmnt etc. Aplicarea unui proces data mining asupra datelor stocate ntr-o baz de date relaional presupune o analiz mai n detaliu a acestora, care s conduc la determinarea tendinelor de evoluie sau a modelelor de date. Spre exemplu, sistemele data mining pot analiza datele aferente studenilor unei universiti pentru a stabili evoluia numrului de studeni care se vor nscrie n urmtorii ani, innd cont de profilul facultilor, de valoarea taxei de colarizare, de condiiile de studiu oferite etc. Pot detecta deviaii de la starea de fapt tiut, ca de exemplu faculti sau forme de nvmnt la care numrul studenilor nscrii nu este cel ateptat, n comparaie cu perioada anterioar, pe baza crora se pot fundamenta decizii manageriale adecvate. Se precizeaz c bazele de date relaionale sunt mulimi de date structurate (model logic) bidimensional care definesc unul dintre cele mai comune i mai bogate tipuri de depozite de date, motiv pentru care st la baza studiului procesului data mining. Baza de date tranzacional este construit n jurul unui model relaional de date caracterizat prin aceea c folosete o structur relaional bidimensional de date n care fiecare tranzacie (operaie de schimb) se reprezint printr-o nregistrare care include: codul tranzaciei (identificator), ca de exemplu: Cod_vnzare, Cod_cumprare, Cod_schimbValutar etc.; lista codurilor (identificatoarelor) produselor sau serviciilor tranzacionate mpreun, ca de exemplu lista codurilor produselor vndute mpreun, lista codurilor articolelor cumprate mpreun, lista codurilor operaiilor de schimb valutar efectuate ntr-o zi (care implic diferite monezi) etc. Bazele de date tranzacionale sunt create i gestionate cu ajutorul unui set de programe dedicate mpreun cu care formeaz un sistem baz de date tranzacional, practic un caz 501

particular de Sistem de Gestiune a Bazei de Date relaional care include suplimentar mecanisme pentru crearea i manipularea structurii relaionale specifice. Relaia specific tehnologiilor bazelor de date tranzacionale, cunoscut n literatura de specialitate sub denumirea de relaie cuib, determin formatul mpachetat de stocare a datelor bazat pe corespondena dintre identificatorul unei tranzacii i identificatorii produselor sau serviciilor tranzacionate n cadrul acesteia. n fond, relaia cuib este tot o relaie bidimensional care se poate exprima generic ca tabel bidirecional sau sub forma unei formule matematice (fig. 1).
CodTranzacie CodTranzacie1 CodTranzacie2 ... CodTranzacieN ListCodElementTranzacionat CodElementTranz11, CodElementTranz12, ... , CodElementTranz1i CodElementTranz21, CodElementTranz22, ... , CodElementTranz2j
...

CodElementTranzN1, CodElementTranzN2, ... , CodElementTranzNk

CodTranzacie = (ListCodElementTranzacionat) unde N = numrul de tranzacii efectuate n perioada de timp analizat i, j, k = numrul de produse i/sau servicii tranzacionalte mpreun

Fig.1. Reprezentarea generic a relaiei cuib Fiecare identificator implicat ntr-o relaie cuib este implicat, prin definiie, i ntr-o relaie bidimensional standard care determin formatul standard de stocare a datelor, cunoscut i sub denumirea de format nempachetat de stocare a datelor, acceptat deopotriv att de tehnologia bazelor de date relaionale ct i de tehnologia bazelor de date tranzacionale. Altfel spus, unei relaii cuib i se pot asocia relaiile bidimensionale (tabelele bidirecionale) standard din care fac parte identificatorii (codurile produselor i/sau serviciilor care se tranzacioneaz) din componena sa. Din acest motiv, formatul de stocare a datelor definit de o relaie cuib este considerat o mpachetare a formatelor de stocare a datelor definite de relaiile bidimensionale standard asociate acesteia. n acest context, se poate spune c relaia cuib definete formatul mpachetat de stocare a datelor, n timp ce relaia bidimensional standard definete formatul nempachetatde stocare a datelor. Tehnologia bazelor de date tranzacionale accept stocarea datelor att n formatul mpachetat definit de relaia cuib, ct i n formatul nempachetat definit de relaia standard, singurul format acceptat de tehnologia bazelor de date relaionale. Analiza datelor stocate ntr-o baz de date tranzacional se face prin formularea de interogri care au ca rezultat rspunsul ateptat, tipic pentru o baz de date. Spre exemplu, pentru analiza datelor stocate n baza de date tranzacional a unei universiti se pot formula interogri de tipul ci studeni au pltit taxa de colarizare?, afieaz toi studenii care au pltit taxa de colarizare la un centru de nvmnt etc. Aplicarea unui proces data mining asupra datelor stocate ntr-o baz de date tranzacional impune o analiz mai complex a acestora, n principal pentru identificarea seturilor de elemente tranzacionate frecvent mpreun, analiz pe baza creia se pot stabili strategii de cretere a tranzaciilor. Astfel, sistemele data mining pot face analiza datelor din coul de pia pe baza creia se poate determina strategia adecvat de maximizare a vnzrilor. Spre exemplu, pot formula rspunsul la interogri de tipul ce produse se vnd bine mpreun? (calculatoarele i imprimantele etc.), pe baza cruia se poate oferi clienilor o reducere n anumite condiii (se ofer clienilor care cumpr conserve de pete i lmi care sunt perisabile etc.). Se precizeaz c bazele de date tranzacionale se asociaz bazelor de date relaionale care conin detalii cu privire la produse i/sau servicii ce fac obiectul unor tranzacii (vnzri, cumprri, schimburi etc.) cu scopul de a oferi utilizatorilor acces rapid la datele aferente tranzaciilor efectuate. 502

Data warehouse este un depozit de date construit, de regul, n jurul unui model multidimensional de date. Este caracterizat, n principiu, prin aceea c se modeleaz ca o structur de baz de date multidimensional, n care fiecare dimensiune corespunde unui atribut sau unui set de atribute i fiecare celul stocheaz o valoare total, ca de exemplu totalul vnzrilor unui articol sau numrul studenilor nscrii la o facultate, ntr-o perioad dat de timp. Un asemenea depozit este creat i gestionat cu ajutorul unui set de programe care includ mecanisme specifice de manipulare a datelor cu structuri multidimensionale. Ca structur (mod de organizare), un data warehouse poate fi: un depozit relaional de date, cu model logic format dintr-o mulime de tabele de date (relaii bidimensionale) i relaiile dintre ele; un depozit multidimensional de date, cu model logic format dintr-o mulime de cuburi de date (relaii tridimensionale) i relaiile dintre ele, n care fiecare cub stocheaz o submulime de date corelate. Data warehouse este un depozit de stocare, pe termen lung, a datelor provenite de la mai multe surse (baze de date distincte, cu structur diferit), organizate astfel nct s faciliteze managementul decizional. Datele provenite de la diverse surse, amplasate fizic n locuri diferite, sunt stocate n mod uzual ntr-un singur loc, cu o structur unificat i n mod tipic rezumate. Acest mod de organizare intern permite analiza mai uoar a datelor vehiculate de organismele economice care-i desfoar activitatea pe arie geografic ntins, prin filiale sau puncte de lucru care au, fiecare, propriul set de baze de date (companie cu mai multe sedii, universitate cu multe centre de nvmnt etc.). De regul, data warehouse este rezultatul unui proces de curire, de integrare, de transformare, de ncrcare, ocazional de reducere (pentru a obine o reprezentare mai mic a datelor originale fr a pune n pericol integritatea lor) i, periodic, de actualizare a datelor din baze de date independente, situate n locuri diferite (fig. 2).
sursa de date 1 amplasat n locul A
curire integrare sursa de date 2 transformare amplasat n locul B ncrcare actualizare

Utilizator 1

Data warehouse

instrumente de interogare i de analiz

Utilizator 2

Utilizator k sursa de date n amplasat n locul Z

Fig. 2. Data warehouse- schem bloc

De regul, ntr-un data warehouse datele sunt descrise centralizat sau, altfel spus, n rezumat. Spre exemplu, se stocheaz un centralizator al nscrierilor la universitate pentru fiecare facultate i centru de nvmnt. Analiza datelor stocate ntr-un sistem data warehouse se face prin vizualizarea multidimensional a datelor i a totalurilor precalculate nsumndu-le pe nivelele de detaliu cerute de utilizator. Pentru asta se folosete, de regul, cubul de date, model logic de date organizate tridimensional ce ofer posibilitatea vizualizrii datelor pe trei dimensiuni i pe diferite nivele de detaliu, permind totodat efectuarea de precalculate i accesul rapid la datele respective. Sistemele data warehouse prezint un set de tehnici de analiz a datelor denumite, generic, tehnici sau operaii OLAP (On- Line Analitycal Processing) deoarece permit vizualizarea multidimensional a datelor i rezumarea acestora pe diferite nivele de detaliu, operaii recomandate pentru procesrile on- line. Operaiile OLAP corespund, se adapteaz i rspund unor puncte de vedere diferite ale utilizatorilor, permindu-le acestora s analizeze datele pe diferite nivele de detaliu cu scopul de a-i fundamenta deciziile. 503

Aplicarea unui proces data mining asupra datelor stocate ntr-o data warehouse impune necesitatea unor instrumente de analiz mai puternice dect instrumentele de analiz OLAP, care s permit o analiz automat i mai n detaliu a datelor. Baza de date obiectural (orientat- obiect) este construit n jurul unui model obiectural de date caracterizat prin aceea c folosete aceleai structur, cunoscut sub denumirea de obiect, att n baza de date, ct i n programele care manipuleaz datele, realizndu-se astfel o coresponden direct ntre cele dou. Un obiect software definete generic un element real din domeniul de activitate pentru care s-a realizat produsul software (aplicaia) al crui component este. Baza de date obiectural (orientat- obiect) folosete structuri obiecturale de date (obiecte software) care sunt create i gestionate cu ajutorul unui set de programe dedicate mpreun cu care formeaz un sistem baz de date obiectural denumit n mod uzual Sistem de Gestiune a Bazei de Date obiectural (orientat- obiect). Analiza datelor stocate ntr-o baz de date obiectural se face la fel ca analiza datelor stocate ntr-o baz de date relaional, adic prin formularea de interogri care au ca rezultat rspunsul ateptat. Difer numai tehnicile de formulare a interogrilor i de obinere a rspunsului care sunt adaptate lucrului cu structuri obiecturale (obiecte software). Aplicarea unui proces data mining asupra datelor stocate ntr-o baz de date obiectural presupune, ca i n cazul datelor stocate ntr-o baz de date relaional, o analiz mai n detaliu a acestora folosind tehnici de analiz complexe, care s conduc la determinarea tendinelor de evoluie sau a modelelor de date. Se precizeaz c bazele de date obiecturale sunt mulimi de date organizate (model logic) obiectural (sub form de obiecte software), ce definesc depozite de date posibil a fi utilizate de produsele software (aplicaii) destinate mediului de afaceri modern, complex i distribuit n teritoriu, care vehiculeaz volume mari i foarte mari de date ce trebuie gestionate, prelucrate i analizate n timp real. n consecin, se impune utilizarea unor tehnici performante de data mining pentru identificarea tendinelor de evoluie i a modelelor de date. Baza de date relaional- obiectural este construit n jurul unui model relaionalobiectural de date caracterizat prin aceea c extinde modelul relaional de date astfel nct s permit manipularea unor structuri complexe de date de tip obiect software. Baza de date relaional- obiectural folosete structuri relaional- obiecturale de date (obiecte software) care sunt create i gestionate cu ajutorul unui set de programe dedicate mpreun cu care formeaz un sistem baz de date relaional- obiectural denumit n mod uzual Sistem de Gestiune a Bazei de Date relaional- obiectural. Analiza datelor stocate ntr-o baz de date relaional- obiectural este tipic pentru datele stocate ntr-o baz de date, constnd n formularea de interogri i obinerea rspunsurilor ateptate, ca rezultat. Trebuie ns precizat c tehnicile de analiz dezvoltate trebuie s permit manipularea conceptelor specifice tehnologiei bazelor de date relaional- obiecturale. Aplicarea unui proces data mining asupra datelor stocate ntr-o baz de date relaionalobiectural presupune o analiz n detaliu a acestora care s conduc la determinarea tendinelor de evoluie sau a modelelor de date, analiz care implic dezvoltarea unor tehnici avansate de manipulare a obiectelor complxe, a tipurilor de date complexe, a ierarhiilor de clase i subclase specifice. Deoarece majoritatea aplicaiilor sofisticate cu baz de date necesit manipularea structurilor i obiectelor complexe, bazele de date relaional- obiecturale au devenit cele mai populare n industrie i aplicaii avansate. Bazele de date temporale, secveniale i time- series sunt tipurile de baze de date care depoziteaz date dependente de trecerea timpului (valori de parametri sau evenimente). Astfel, prin definiie: - baza de date temporal nmagazineaz, n mod tipic, date relaionale ce variaz continuu n timp; spre exemplu, bazele de date care nregistreaz evoluia cursului valutar, evoluia strii de sntate a pacientului, evoluia depozitelor bancare etc.; 504

- baza de date secvenial nmagazineaz, n mod tipic, secvene de date ordonate, cu sau fr referire direct la momentele de timp la care s-au produs; spre exemplu, secvenele de cumprturi ale clientului, irurile de clic-uri pentru acces pe Web etc.; - baza de date time- series (serii de date obinute msurtori repetate n timp) nmagazineaz, n mod tipic, secvene de date obinute prin msurtori repetate periodic (pe or, zilnic, sptmnal, lunar, trimestrial etc.); spre exemplu, datele de inventariere periodic a stocurilor, de monitorizare a fenomenelor naturii etc. Analiza datelor stocate ntr-o asemenea baz de date este tipic pentru datele stocate ntro baz de date, constnd n formularea de interogri i obinerea rspunsurilor ateptate, ca rezultat. Aplicarea unui proces data mining asupra datelor stocate ntr-o asemenea baz de date presupune o analiz mai n detaliu a acestora, care s conduc la determinarea tendinelor de evoluie sau a modelelor de date, ca n cazul datelor stocate n orice baz de date. Concret ns, tehnicile data mining pot fi folosite pentru a descoperi caracteristicile evoluiei unui element sau tendina schimbrilor elementelor nregistrate (date) n baza de date, asemenea informaii fiind necesare n fundamentarea deciziilor manageriale i n planificarea strategiei de dezvoltare. Spre exemplu, datele de schimbare a stocului pot fi minate pentru a descoperi tendinele pe baza crora se poate face planificarea strategiilor de aprovizionare (cnd este cel mai bine s actualizezi stocul?). Asemenea analize necesit, n mod obligatoriu, definirea unor uniti de timp. Spre exemplu, timpul poate fi descompus n funcie de anii fiscali (pentru determinarea bazei de calcul a impozitelor), de anii academici (pentru evaluarea studiilor preuniversitare, de licen etc.) sau de anii calendaristici (pentru evaluarea vnzrilor pe unitatea de produs, cheltuielilor de producie etc.). La rndul lor, anii pot fi descompui n semestre, trimestre, luni etc., n funcie de specificul domeniului de activitate care genereaz datele dependente de timp sau de nivelul de detaliu solicitat pentru analiza acestora. Bazele de date spaiale i spaio-temporale sunt tipurile de baze de date care depoziteaz date legate de spaiu, constante sau variabile n timp. Astfel, prin definiie: - bazele de date spaiale nmagazineaz, n mod tipic, date legate de spaiu constante n timp; spre exemplu, bazele de date geografice, denumite i baze de date hart, bazele de date de proiectare asistat de calculator, bazele de date medicale, bazele de date de imagini din satelit etc. - bazele de date spaio- temporale nmagazineaz, n mod tipic, date legate de spaiu care se schimb n timp (variabile); spre exemplu, bazele de date care nregistreaz micarea obiectelor spaiale, micarea organismelor vii etc. Analiza datelor stocate ntr-o asemenea baz de date este tipic pentru datele stocate ntro baz de date, constnd n formularea de ntrebri i obinerea rspunsurilor ateptate, ca rezultat. Aplicarea unui proces data mining asupra datelor stocate ntr-o asemenea baz de date presupune o analiz mai n detaliu a acestora, care s conduc la determinarea tendinelor de evoluie sau a modelelor de date, ca n cazul datelor stocate n orice baz de date. Spre exemplu, tehnicile data mining pot fi folosite pentru a descoperi modele de date care descriu caracteristicile caselor aflate lng o categorie special de locaii (lng o gar, un aeroport, un parc etc), climatul zonelor montane aflate la diferite altitudini (zon de cmpie, de deal, de munte etc. Aplicarea procesului data mining asupra datelor stocate n bazele de date geografice este vital pentru determinarea tendinelor de evoluie n cele mai variate domenii de activitate uman care depind de distribuia n spaiu i/sau timp a datelor vehiculate. Bazele de date text i multimedia sunt tipurile de baze de date care depoziteaz date ce descriu elementele unui domeniu de activitate uman prin cuvinte, imagini i sunete. Astfel, prin definiie: - baza de date text nmagazineaz, n mod tipic, date care descriu elementele domeniului de informatizat n cuvinte, sub form de propoziii sau paragrafe; spre exemplu, specificaii de produse, liste de erori, rapoarte de sintez etc. 505

baza de date multimedia nmagazineaz, n mod tipic, date care descriu elementele domeniului de informatizat prin imagini audio- video; spre exemplu, baze de date de imagini obinute satelit, de emisiuni TV (videotec), de anatomie etc. Bazele de date text i multimedia pot fi: nestructurate (neorganizate pe baza unui model), ca de exemplu documentele sau anumite pagini Web n format document, create cu ajutorul procesoarelor de text (Microsoft Word) sau aplicaiilor de calcul tabelar (Microsoft Excel); semistructurate (parial organizate pe baza unui model), ca de exemplu mesajele email i paginile Web n format HTML/XML; structurate (organizate pe baza unui model), ca de exemplu datele de tip dicionar (de termeni, de imagini etc.) sau catalog de bibliotec (de imagini, audio, video sau combinaii ale acestora). Asupra datelor stocate n baze de date text i multimedia se aplic tehnicile de analiz i de data mining specifice tehnologiei bazelor de date care se utilizeaz la crearea i gestionarea lor, precum i tehnici specifice de analiz, adaptate la particularitile datelor care se analizeaz. Astfel, minarea datelor text urmrete descoperirea descrierilor generale coninute n documentele text disponibile, aflarea cuvintelor cheie sau a asocierilor de coninut, precum i a comportrii de grup a obiectelor text. Pentru asta, tehnicile data mining standard se integreaz cu tehnici de regsire a datelor i de construire sau de utilizare a ierarhiilor specifice pentru datele text (ca de exemplu dicionare), precum i cu tehnici de clasificare a termenilor orientate pe disciplin (ca de exemplu medicin, legislaie, economic etc.). Bazele de date multimedia conin, preponderent, date imagine, audio i video, dar i date text care descriu n cuvinte elementele cu coninut media. Se implementeaz, n mod uzual folosind tehnologia bazelor de date relaionalobiecturale care permite dezvoltarea unor aplicaii complexe cu baze de date. Ca o caracteristic esenial, trebuie s suporte obiecte de dimensiuni mari i foarte mari deoarece obiectele de date multimedia, ca de exemplu cele video, pot necesita spaiu de depozitare de capaciti mari i foarte mari. n consecin, pentru analiza datelor multimedia i aplicarea unui proces data mining asupra acestora se impune integrarea tehnicilor standard cu tehnicile de cutare i de nmagazinare care permit manipularea obiectelor de dimensiuni mari i foarte mari. Baza de date eterogen este, prin definiie, baza de date format dintr-un set (grup) de baze de date autonome interconectate, care comunic ntre ele pentru a formula rspunsul la anumite ntrebri. Este baza de date cu semantic acoperitoare semanticilor bazelor de date componente, n condiiile n care elementele dintr-o baz de date component pot diferi cu mult, ca semnificaie i mod de reprezentare (semantic), de elementele dintr-o alt baz de date component. Practic, este baza de date format, de regul, din baze de date create i gestionate folosind diferite tipuri de Sisteme de Gestiune a Bazelor de Date (ierarhice sau de reea, relaionale sau obiecturale, relaional- obiecturale, inclusiv procesoare de text sau de tabele), care ruleaz pe diferite tipuri de sisteme de calcul, sub diferite tipuri de sistem de operare (Dos, Windows, Unix, Linux, Apple etc.) instalate pe diferite configuraii hardware. Analiza datelor i aplicarea unui proces data mining asupra datelor stocate ntr-o baz de date eterogen este dificil deoarece asimilarea semanticilor specifice bazelor de date componente ntr-o semantic acoperitoare, unic, este dificil, impunnd integrarea tehnicilor de analiz i data mining standard cu tehnici specifice data mining (cu rol de asimilare a semanticilor diferite). n fond, transferul datelor ntre componentele bazei de date eterogene (baze de date create i gestionate folosind tehnologii diferite de baze de date) este foarte dificil de realizat deoarece necesit reguli precise de transformare de la un mod de reprezentare la altul, care impun implementarea unor tehnici dedicate. Baza de date eterogen este rezultatul evoluiei tehnologiilor bazelor de date, n contextul evoluiei tehnologilor digitale, multimedia i de comunicaie. Practic, evoluia tehnologic n domeniul tehnicii de calcul, n general, i al bazelor de date, n special, determin organismele economice (firme, instituii sau alte categorii de ageni economici) s- i formeze baze de date eterogene, fie pentru a avea acces la datele vehiculate n timp (baze de date motenite), fie pentru 506

a asigura schimbul de date cu alte organisme economice, fiecare cu propriul sistem informatic care are propriul mod de organizare i de reprezentare a datelor. Fluxul de date (data stream) este un ir de date, care intr i ies ntr-un/dintr-un punct de observaie, caracterizate prin volum uria (teoretic infinit), schimbare dinamic i curgere conin, de la intrare ctre ieire, ntr-o ordine definit. Spre exemplu, datele tiinifice i inginereti produse n mediu dinamic (tensiunea de alimentare, traficul de reea etc.), datele time- series (schimbarea stocurilor, monitorizarea factorilor de mediu) etc. Analiza datelor i aplicarea unui proces data mining asupra fluxurilor de date reprezint o provocare deoarece nu pot fi nmagazinate n nici o categorie de depozit de date. Aplicarea unui proces data mining asupra fluxurilor de date implic descoperirea modelelor generale de date i a schimbrilor dinamice produse n interiorul fluxurilor de date minate. De exemplu, pentru a detecta deranjamentele reelei de calculatoare pe baza fluxului mesajelor de eroare care pot fi descoperite prin gruparea fluxurilor de date, se construiesc modele dinamice sau se compar modelele care apar frecvent, cele curente (de acum) cu cele anterioare (de acum ceva timp n urm). World Wide Web- WWW i serviciile de distribuire a datelor asociate lui, ca de exemplu produsele software Yahoo, Google etc. furnizeaz servicii informatice on-line bogate de-a lungul ntregii lumi. Practic, obiectele dat, stocate n diferite tipuri de baze de date mai mult sau mai puin avansate, sunt legate mpreun pentru a facilita accesul interactiv al utilizatorilor la informaii. Utilizatorii caut informaii n funcie de interesul lor, trecnd de la un obiect la altul prin legturi predefinite. Web mining const n dezvoltarea analizei datelor Web, precum i a metodelor de minare. Are rol n nelegerea distribuiei informaiei pe Web, n caracterizarea i clasificarea paginilor Web, n descoperirea dinamicii Web, precum i n determinarea asociaiilor sau a altor tipuri de relaii ntre diferite pagini Web, utilizatori, comuniti i activiti bazate pe Web. Concluzii Evoluia tehnologiei informaiei, multimedia i de comunicaie, nsoit de dezvoltarea unor organisme economice cu volum mare de activitate distribuit pe o arie geografic extins au determinat crearea unor categorii distincte de depozite de date cu structuri mai mult sau mai puin complexe i au creat posibilitatea implementrii unor tehnici adecvate de analiz a volumelor mari de date astfel stocate. n esena lor, tehnicile data mining realizeaz analiza avansat a datelor utilizatorului pentru a pune n eviden modele de date importante n stabilirea direciilor de evoluie a diferitelor domenii de activitate (economic, tiinific, medical, educaional etc.) pe care le desfoar organismele economice cu scopul de a- i atinge obiectivele specificate n documentele de constituire. Practic, aplicarea tehnicilor data mining asupra datelor selectate de utilizator prin interogarea depozitului de date disponibil, cel mai adesea de tip baz de date sau data warehouse are ca rezultat extragerea modelelor de date de interes n fundamentarea deciziilor manageriale aferente domeniului de activitate care genereaz datele analizate. Bibliografie Jiawei Han, Micheline Kamber, Data Mining- Concepts and Technique, Second Edition, Morgan Kaufmann Publishers, San Francisco CA 2006, ISBN-13 978-1-55860-901-3/ ISBN-10 1-55860-901-6; David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, Eastern Economy Edition, Prentice-Hall of India, New Delhi 2006, ISBN-81-203-2457-9; http://www.webopedia.com/: Webopedia: Online Computer Dictionary for Computer and Internet technology definitions; http://www.techweb.com/encyclopedia/ : Tech Encyclopedia online http://techdictionary.com/: Tech Dictionary , the New high tech online computer dictionary. 507

1.

2. 3. 4. 5.

S-ar putea să vă placă și