Sunteți pe pagina 1din 8

ANALIZA DATELOR STOCATE ÎN DEPOZITE MARI DE DATE Maria ANDRONIE, Mihai ANDRONIE Facultatea de Management Financiar Contabil- Universitatea Spiru Haret, andronie_maria@hotmail.com

Rezumat Analiza datelor stocate în depozite mari de date se poate face fie numai prin folosirea tehnicilor de analiză integrate în sistemul informatic de gestiune a datelor aferent depozitului respectiv, fie şi prin utilizarea unor tehnici avansate de analiză integrate în sisteme dedicate de tip data mining, în funcŃie de nivelul de analiză necesar utilizatorului în fundamentarea deciziilor manageriale. Indiferent de complexitatea sa, procesul de analiză poate fi aplicat asupra datelor stocate în orice tip de depozit de date, precum şi asupra fluxurilor de date. Cele mai uzuale depozite de date asupra cărora se aplică, în funcŃie de necesităŃi, şi un proces de analiză avansată a datelor, denumit în literatura de specialitate proces data mining, sunt bazele de date şi depozitele de date (data warehouses). În principiu, într-un proces data mining se execută tehnici data mining care pot fi comune mai multor tipuri de depozite de date sau pot fi diferite de la un tip de depozit la altul. Implementarea tehnicilor data mining care permit analiza avansată a datelor stocate în depozite mari de date în vederea obŃinerii informaŃiilor de bază pentru adoptarea celor mai eficiente decizii de conducere reprezintă o provocare pentru specialiştii în domeniu.

Cuvinte cheie Data mining, bază de date, data warehouse, analiza datelor, proces data mining.

DATA ANALISYS STORED IN DATA WAREHOUSE

Abstract Data analysis stored in a data warehouse can be performed either through integrated analyzing techniques in the information system or through advanced techniques integrated in dedicated data mining systems in accordance with the required level of analysis required by the management. Regardless its complexity, the analysis process can be applied on stored data in any type of data deposit and in the same time to the data flows. The most common data deposits to be analyzed using advanced techniques, so called data mining process, are data bases and data warehouses. Usually in a data mining process there are applied several data mining techniques that can be common to several data deposits or can be different from a data deposit to another. Implementing of data mining techniques allowing an advanced analysis of the stored data in order to extract information needed to take the most efficient decision in a management process is a challenge for the specialists in the domain.

Key Words Data mining, database, data warehouse, data analysis.

Cadrul general Analiza datelor stocate în depozite mari de date se poate face fie numai prin folosirea tehnicilor de analiză integrate în sistemul informatic de gestiune a datelor aferent depozitului respectiv, fie şi prin utilizarea unor tehnici avansate de analiză integrate în sisteme dedicate de tip data mining, în funcŃie de nivelul de analiză necesar utilizatorului în fundamentarea deciziilor manageriale.

500

Indiferent de complexitatea sa, procesul de analiză poate fi aplicat asupra datelor stocate în orice tip de depozit de date, precum şi asupra fluxurilor de date. Cele mai uzuale depozite de date asupra cărora se aplică, în funcŃie de necesităŃi, şi un proces de analiză avansată a datelor, denumit în literatura de specialitate data mining process, sunt bazele de date şi depozite de date (data warehouses). Bazele de date implicate într-un proces data mining pot fi relaŃionale, tranzacŃionale, obiecturale şi avansate. Bazele de date avansate sunt, prin definiŃie, colecŃii de date create şi gestionate cu ajutorul unor programe care integrează mecanisme avansate de manipulare a datelor cu structuri complexe, semistructurate sau nestructurate, a datelor spaŃio-temporale, multimedia, cu schimbări dinamice, cu lungime variabilă etc. Din categoria bazelor de date avansate fac parte bazele de date relaŃional-obiecturale şi bazele de date orientate pe aplicaŃii specifice, ca de exemplu bazele de date temporale, secvenŃiale, „time- series”, spaŃiale şi spaŃio- temporale, text, multimedia şi eterogene, inclusiv fişierele de date nestructurate sau semistructurate, fluxurile şi secvenŃele de date, precum şi World Wide Web- WWW. Implementarea tehnicilor data mining care permit analiza avansată a datelor stocate în depozite mari de date în vederea obŃinerii informaŃiilor de bază pentru adoptarea celor mai eficiente decizii de conducere reprezintă o provocare pentru specialiştii în domeniu.

Depozite de date asupra cărora se poate aplica procesul data mining Baza de date relaŃională este construită în jurul unui model relaŃional de date caracterizat prin aceea că foloseşte structuri relaŃionale de date de tip tabel (relaŃii bidirecŃionale) corelate între ele (relaŃii predefinite), care sunt create şi gestionate cu ajutorul unui set de programe (software) împreună cu care formează un sistem bază de date relaŃional, denumit în mod uzual Sistem de Gestiune a Bazei de Date relaŃional. Analiza datelor stocate într-o bază de date relaŃională se face prin formularea de interogări care au ca rezultat răspunsul aşteptat. Spre exemplu, pentru analiza datelor stocate în baza de date relaŃională a unei universităŃi se pot formula interogări de tipul ”afişează lista studenŃilor înscrişi în anul I de studiu”, ”afişează numărul total al studenŃilor care au plătit taxa de şcolarizare, grupaŃi pe facultăŃi şi centre de învăŃământ etc. Aplicarea unui proces data mining asupra datelor stocate într-o bază de date relaŃională presupune o analiză mai în detaliu a acestora, care să conducă la determinarea tendinŃelor de evoluŃie sau a modelelor de date. Spre exemplu, sistemele data mining pot analiza datele aferente studenŃilor unei universităŃi pentru a stabili evoluŃia numărului de studenŃi care se vor înscrie în următorii ani, Ńinând cont de profilul facultăŃilor, de valoarea taxei de şcolarizare, de condiŃiile de studiu oferite etc. Pot detecta deviaŃii de la starea de fapt ştiută, ca de exemplu facultăŃi sau forme de învăŃământ la care numărul studenŃilor înscrişi nu este cel aşteptat, în comparaŃie cu perioada anterioară, pe baza cărora se pot fundamenta decizii manageriale adecvate. Se precizează că bazele de date relaŃionale sunt mulŃimi de date structurate (model logic) bidimensional care definesc unul dintre cele mai comune şi mai bogate tipuri de depozite de date, motiv pentru care stă la baza studiului procesului data mining. Baza de date tranzacŃională este construită în jurul unui model relaŃional de date caracterizat prin aceea că foloseşte o structură relaŃională bidimensională de date în care fiecare tranzacŃie (operaŃie de schimb) se reprezintă printr-o înregistrare care include:

codul tranzacŃiei (identificator), ca de exemplu:

Cod_vânzare, Cod_cumpărare, Cod_schimbValutar etc.;

lista codurilor (identificatoarelor) produselor sau serviciilor tranzacŃionate împreună, ca de exemplu lista codurilor produselor vândute împreună, lista codurilor articolelor cumpărate împreună, lista codurilor operaŃiilor de schimb valutar efectuate într-o zi (care implică diferite monezi) etc.

Bazele de date tranzacŃionale sunt create şi gestionate cu ajutorul unui set de programe dedicate împreună cu care formează un sistem bază de date tranzacŃional, practic un caz

501

particular de Sistem de Gestiune a Bazei de Date relaŃional care include suplimentar mecanisme pentru crearea şi manipularea structurii relaŃionale specifice. RelaŃia specifică tehnologiilor bazelor de date tranzacŃionale, cunoscută în literatura de specialitate sub denumirea de relaŃie „cuib”, determină formatul „împachetat” de stocare a datelor bazat pe corespondenŃa dintre identificatorul unei tranzacŃii şi identificatorii produselor sau serviciilor tranzacŃionate în cadrul acesteia. În fond, relaŃia „cuib” este tot o relaŃie bidimensională care se poate exprima generic ca tabel bidirecŃional sau sub forma unei formule matematice (fig. 1).

CodTranzacŃie

ListăCodElementTranzacŃionat

CodTranzacŃie 1

CodElementTranz 11 , CodElementTranz 12 ,

, CodElementTranz 1i

CodTranzacŃie 2

CodElementTranz 21 , CodElementTranz 22 ,

, CodElementTranz 2j

CodTranzacŃie N

CodElementTranz N1 , CodElementTranz N2 ,

, CodElementTranz Nk

1 , CodElementTranz N 2 , , CodElementTranz N k CodTranzac Ń ie = (List ă

CodTranzacŃie = (ListăCodElementTranzacŃionat)

unde

N = numărul de tranzacŃii efectuate în perioada de timp analizată i, j, k = numărul de produse şi/sau servicii tranzacŃionalte împreună

Fig.1. Reprezentarea generică a relaŃiei “cuib”

Fiecare identificator implicat într-o relaŃie „cuib” este implicat, prin definiŃie, şi într-o relaŃie bidimensională standard care determină formatul standard de stocare a datelor, cunoscut şi sub denumirea de format neîmpachetat de stocare a datelor, acceptat deopotrivă atât de tehnologia bazelor de date relaŃionale cât şi de tehnologia bazelor de date tranzacŃionale. Altfel spus, unei relaŃii „cuib” i se pot asocia relaŃiile bidimensionale (tabelele bidirecŃionale) standard din care fac parte identificatorii (codurile produselor şi/sau serviciilor care se tranzacŃionează) din componenŃa sa. Din acest motiv, formatul de stocare a datelor definit de o relaŃie „cuib” este considerat o „împachetare” a formatelor de stocare a datelor definite de relaŃiile bidimensionale standard asociate acesteia. În acest context, se poate spune că relaŃia „cuib” defineşte formatul „împachetat” de stocare a datelor, în timp ce relaŃia bidimensională standard defineşte formatul „neîmpachetat”de stocare a datelor. Tehnologia bazelor de date tranzacŃionale acceptă stocarea datelor atât în formatul „împachetat” definit de relaŃia cuib”, cât şi în formatul „neîmpachetat” definit de relaŃia standard, singurul format acceptat de tehnologia bazelor de date relaŃionale. Analiza datelor stocate într-o bază de date tranzacŃională se face prin formularea de interogări care au ca rezultat răspunsul aşteptat, tipic pentru o bază de date. Spre exemplu, pentru analiza datelor stocate în baza de date tranzacŃională a unei universităŃi se pot formula interogări de tipul “câŃi studenŃi au plătit taxa de şcolarizare?“, “afişează toŃi studenŃii care au plătit taxa de şcolarizare la un centru de învăŃământ“ etc. Aplicarea unui proces data mining asupra datelor stocate într-o bază de date tranzacŃională impune o analiză mai complexă a acestora, în principal pentru identificarea seturilor de elemente tranzacŃionate frecvent împreună, analiză pe baza căreia se pot stabili strategii de creştere a tranzacŃiilor. Astfel, sistemele data mining pot face analiza datelor din coşul de piaŃă pe baza căreia se poate determina strategia adecvată de maximizare a vânzărilor. Spre exemplu, pot formula răspunsul la interogări de tipul “ce produse se vând bine împreună?“ (calculatoarele şi imprimantele etc.), pe baza căruia se poate oferi clienŃilor o reducere în anumite condiŃii (se oferă clienŃilor care cumpără conserve de peşte şi lămâi care sunt perisabile etc.).

Se precizează că bazele de date tranzacŃionale se asociază bazelor de date relaŃionale care conŃin detalii cu privire la produse şi/sau servicii ce fac obiectul unor tranzacŃii (vânzări, cumpărări, schimburi etc.) cu scopul de a oferi utilizatorilor acces rapid la datele aferente tranzacŃiilor efectuate.

502

Data warehouse este un depozit de date construit, de regulă, în jurul unui model multidimensional de date. Este caracterizat, în principiu, prin aceea că se modelează ca o structură de bază de date multidimensională, în care fiecare dimensiune corespunde unui atribut sau unui set de atribute şi fiecare celulă stochează o valoare totală, ca de exemplu totalul vânzărilor unui articol sau numărul studenŃilor înscrişi la o facultate, într-o perioadă dată de timp. Un asemenea depozit este creat şi gestionat cu ajutorul unui set de programe care includ mecanisme specifice de manipulare a datelor cu structuri multidimensionale. Ca structură (mod de organizare), un data warehouse poate fi:

un depozit relaŃional de date, cu model logic format dintr-o mulŃime de tabele de date (relaŃii bidimensionale) şi relaŃiile dintre ele;

un depozit multidimensional de date, cu model logic format dintr-o mulŃime de cuburi de

date (relaŃii tridimensionale) şi relaŃiile dintre ele, în care fiecare cub stochează o submulŃime de date corelate. Data warehouse este un depozit de stocare, pe termen lung, a datelor provenite de la mai multe surse (baze de date distincte, cu structură diferită), organizate astfel încât să faciliteze managementul decizional. Datele provenite de la diverse surse, amplasate fizic în locuri diferite, sunt stocate în mod uzual într-un singur loc, cu o structură unificată şi în mod tipic rezumate. Acest mod de organizare internă permite analiza mai uşoară a datelor vehiculate de organismele economice care-şi desfăşoară activitatea pe arie geografică întinsă, prin filiale sau puncte de lucru care au, fiecare, propriul set de baze de date (companie cu mai multe sedii, universitate cu multe centre de învăŃământ etc.). De regulă, data warehouse este rezultatul unui proces de curăŃire, de integrare, de transformare, de încărcare, ocazional de reducere (pentru a obŃine o reprezentare mai mică a datelor originale fără a pune în pericol integritatea lor) şi, periodic, de actualizare a datelor din baze de date independente, situate în locuri diferite (fig. 2).

sursa de date 1 amplasată în locul A sursa de date 2 amplasată în locul
sursa de date 1
amplasată în locul A
sursa de date 2
amplasată în locul B
sursa de date n
amplasată în locul Z
curăŃire integrare transformare încărcare actualizare Fi
curăŃire
integrare
transformare
încărcare
actualizare
Fi
Utilizator 1 Utilizator 2 Data warehouse instrumente de interogare şi de analiză Utilizator k
Utilizator 1
Utilizator 2
Data
warehouse
instrumente
de interogare
şi de analiză
Utilizator k

2 Data warehouse- schemă bloc

De regulă, într-un data warehouse datele sunt descrise centralizat sau, altfel spus, în rezumat. Spre exemplu, se stochează un centralizator al înscrierilor la universitate pentru fiecare facultate şi centru de învăŃământ. Analiza datelor stocate într-un sistem data warehouse se face prin vizualizarea multidimensională a datelor şi a totalurilor precalculate însumându-le pe nivelele de detaliu cerute de utilizator. Pentru asta se foloseşte, de regulă, cubul de date, model logic de date organizate tridimensional ce oferă posibilitatea vizualizării datelor pe trei dimensiuni şi pe diferite nivele de detaliu, permiŃând totodată efectuarea de precalculate şi accesul rapid la datele respective. Sistemele data warehouse prezintă un set de tehnici de analiză a datelor denumite, generic, tehnici sau operaŃii OLAP (On- Line Analitycal Processing) deoarece permit vizualizarea multidimensională a datelor şi rezumarea acestora pe diferite nivele de detaliu, operaŃii recomandate pentru procesările on- line. OperaŃiile OLAP corespund, se adaptează şi răspund unor puncte de vedere diferite ale utilizatorilor, permiŃându-le acestora să analizeze datele pe diferite nivele de detaliu cu scopul de a-şi fundamenta deciziile.

503

Aplicarea unui proces data mining asupra datelor stocate într-o data warehouse impune necesitatea unor instrumente de analiză mai puternice decât instrumentele de analiză OLAP, care să permită o analiză automată şi mai în detaliu a datelor. Baza de date obiecturală (orientată- obiect) este construită în jurul unui model obiectural de date caracterizat prin aceea că foloseşte aceleaşi structură, cunoscută sub denumirea de obiect, atât în baza de date, cât şi în programele care manipulează datele, realizându-se astfel o corespondenŃă directă între cele două. Un obiect software defineşte generic un element real din domeniul de activitate pentru care s-a realizat produsul software (aplicaŃia) al cărui component este.

Baza de date obiecturală (orientată- obiect) foloseşte structuri obiecturale de date (obiecte software) care sunt create şi gestionate cu ajutorul unui set de programe dedicate împreună cu care formează un sistem bază de date obiectural denumit în mod uzual Sistem de Gestiune a Bazei de Date obiectural (orientat- obiect). Analiza datelor stocate într-o bază de date obiecturală se face la fel ca analiza datelor stocate într-o bază de date relaŃională, adică prin formularea de interogări care au ca rezultat răspunsul aşteptat. Diferă numai tehnicile de formulare a interogărilor şi de obŃinere a răspunsului care sunt adaptate lucrului cu structuri obiecturale (obiecte software). Aplicarea unui proces data mining asupra datelor stocate într-o bază de date obiecturală presupune, ca şi în cazul datelor stocate într-o bază de date relaŃională, o analiză mai în detaliu a acestora folosind tehnici de analiză complexe, care să conducă la determinarea tendinŃelor de evoluŃie sau a modelelor de date. Se precizează că bazele de date obiecturale sunt mulŃimi de date organizate (model logic) obiectural (sub formă de obiecte software), ce definesc depozite de date posibil a fi utilizate de produsele software (aplicaŃii) destinate mediului de afaceri modern, complex şi distribuit în teritoriu, care vehiculează volume mari şi foarte mari de date ce trebuie gestionate, prelucrate şi analizate în timp real. În consecinŃă, se impune utilizarea unor tehnici performante de data mining pentru identificarea tendinŃelor de evoluŃie şi a modelelor de date. Baza de date relaŃional- obiecturală este construită în jurul unui model relaŃional- obiectural de date caracterizat prin aceea că extinde modelul relaŃional de date astfel încât să permită manipularea unor structuri complexe de date de tip obiect software. Baza de date relaŃional- obiecturală foloseşte structuri relaŃional- obiecturale de date (obiecte software) care sunt create şi gestionate cu ajutorul unui set de programe dedicate împreună cu care formează un sistem bază de date relaŃional- obiectural denumit în mod uzual Sistem de Gestiune a Bazei de Date relaŃional- obiectural. Analiza datelor stocate într-o bază de date relaŃional- obiecturală este tipică pentru datele stocate într-o bază de date, constând în formularea de interogări şi obŃinerea răspunsurilor aşteptate, ca rezultat. Trebuie însă precizat că tehnicile de analiză dezvoltate trebuie să permită manipularea conceptelor specifice tehnologiei bazelor de date relaŃional- obiecturale. Aplicarea unui proces data mining asupra datelor stocate într-o bază de date relaŃional- obiecturală presupune o analiză în detaliu a acestora care să conducă la determinarea tendinŃelor de evoluŃie sau a modelelor de date, analiză care implică dezvoltarea unor tehnici avansate de manipulare a obiectelor complxe, a tipurilor de date complexe, a ierarhiilor de clase şi subclase specifice. Deoarece majoritatea aplicaŃiilor sofisticate cu bază de date necesită manipularea structurilor şi obiectelor complexe, bazele de date relaŃional- obiecturale au devenit cele mai populare în industrie şi aplicaŃii avansate. Bazele de date temporale, secvenŃiale şi „time- series” sunt tipurile de baze de date care depozitează date dependente de trecerea timpului (valori de parametri sau evenimente). Astfel, prin definiŃie:

- baza de date temporală înmagazinează, în mod tipic, date relaŃionale ce variază continuu în timp; spre exemplu, bazele de date care înregistrează evoluŃia cursului valutar, evoluŃia stării de sănătate a pacientului, evoluŃia depozitelor bancare etc.;

504

- baza de date secvenŃială înmagazinează, în mod tipic, secvenŃe de date ordonate, cu sau fără referire directă la momentele de timp la care s-au produs; spre exemplu, secvenŃele de cumpărături ale clientului, şirurile de clic-uri pentru acces pe Web etc.;

- baza de date “time- series” (serii de date obŃinute măsurători repetate în timp) înmagazinează, în mod tipic, secvenŃe de date obŃinute prin măsurători repetate periodic (pe oră, zilnic, săptămânal, lunar, trimestrial etc.); spre exemplu, datele de inventariere periodică a stocurilor, de monitorizare a fenomenelor naturii etc. Analiza datelor stocate într-o asemenea bază de date este tipică pentru datele stocate într-

o bază de date, constând în formularea de interogări şi obŃinerea răspunsurilor aşteptate, ca rezultat. Aplicarea unui proces data mining asupra datelor stocate într-o asemenea bază de date presupune o analiză mai în detaliu a acestora, care să conducă la determinarea tendinŃelor de evoluŃie sau a modelelor de date, ca în cazul datelor stocate în orice bază de date. Concret însă, tehnicile data mining pot fi folosite pentru a descoperi caracteristicile evoluŃiei unui element sau tendinŃa schimbărilor elementelor înregistrate (date) în baza de date, asemenea informaŃii fiind necesare în fundamentarea deciziilor manageriale şi în planificarea strategiei de dezvoltare. Spre exemplu, datele de schimbare a stocului pot fi ”minate” pentru a descoperi tendinŃele pe baza cărora se poate face planificarea strategiilor de aprovizionare (când este cel mai bine să actualizezi stocul?). Asemenea analize necesită, în mod obligatoriu, definirea unor unităŃi de timp. Spre exemplu, timpul poate fi descompus în funcŃie de anii fiscali (pentru determinarea bazei de calcul a impozitelor), de anii academici (pentru evaluarea studiilor preuniversitare, de licenŃă etc.) sau de anii calendaristici (pentru evaluarea vânzărilor pe unitatea de produs, cheltuielilor de producŃie etc.). La rândul lor, anii pot fi descompuşi în semestre, trimestre, luni etc., în funcŃie de specificul domeniului de activitate care generează datele dependente de timp sau de nivelul de detaliu solicitat pentru analiza acestora. Bazele de date spaŃiale şi spaŃio-temporale sunt tipurile de baze de date care depozitează date legate de spaŃiu, constante sau variabile în timp. Astfel, prin definiŃie:

- bazele de date spaŃiale înmagazinează, în mod tipic, date legate de spaŃiu constante în timp; spre exemplu, bazele de date geografice, denumite şi baze de date “hartă”, bazele de date de proiectare asistată de calculator, bazele de date medicale, bazele de date de imagini din satelit etc.

- bazele de date spaŃio- temporale înmagazinează, în mod tipic, date legate de spaŃiu care se schimbă în timp (variabile); spre exemplu, bazele de date care înregistrează mişcarea obiectelor spaŃiale, mişcarea organismelor vii etc. Analiza datelor stocate într-o asemenea bază de date este tipică pentru datele stocate într- o bază de date, constând în formularea de întrebări şi obŃinerea răspunsurilor aşteptate, ca rezultat. Aplicarea unui proces data mining asupra datelor stocate într-o asemenea bază de date presupune o analiză mai în detaliu a acestora, care să conducă la determinarea tendinŃelor de evoluŃie sau a modelelor de date, ca în cazul datelor stocate în orice bază de date. Spre exemplu, tehnicile data mining pot fi folosite pentru a descoperi modele de date care descriu caracteristicile caselor aflate lângă o categorie specială de locaŃii (lângă o gară, un aeroport, un parc etc), climatul zonelor montane aflate la diferite altitudini (zonă de câmpie, de deal, de munte etc. Aplicarea procesului data mining asupra datelor stocate în bazele de date geografice este vitală pentru determinarea tendinŃelor de evoluŃie în cele mai variate domenii de activitate umană care depind de distribuŃia în spaŃiu şi/sau timp a datelor vehiculate. Bazele de date text şi multimedia sunt tipurile de baze de date care depozitează date ce descriu elementele unui domeniu de activitate umană prin cuvinte, imagini şi sunete. Astfel, prin definiŃie:

- baza de date text înmagazinează, în mod tipic, date care descriu elementele domeniului de informatizat în cuvinte, sub formă de propoziŃii sau paragrafe; spre exemplu, specificaŃii de produse, liste de erori, rapoarte de sinteză etc.

505

- baza de date multimedia înmagazinează, în mod tipic, date care descriu elementele domeniului de informatizat prin imagini– audio- video; spre exemplu, baze de date de imagini obŃinute satelit, de emisiuni TV (videotecă), de anatomie etc. Bazele de date text şi multimedia pot fi:

nestructurate (neorganizate pe baza unui model), ca de exemplu documentele sau anumite pagini Web în format document, create cu ajutorul procesoarelor de text (Microsoft Word) sau aplicaŃiilor de calcul tabelar (Microsoft Excel);

semistructurate (parŃial organizate pe baza unui model), ca de exemplu mesajele e- mail şi paginile Web în format HTML/XML;

structurate (organizate pe baza unui model), ca de exemplu datele de tip dicŃionar (de

termeni, de imagini etc.) sau catalog de bibliotecă (de imagini, audio, video sau combinaŃii ale acestora). Asupra datelor stocate în baze de date text şi multimedia se aplică tehnicile de analiză şi de data mining specifice tehnologiei bazelor de date care se utilizează la crearea şi gestionarea lor, precum şi tehnici specifice de analiză, adaptate la particularităŃile datelor care se analizează. Astfel, “minarea” datelor text urmăreşte descoperirea descrierilor generale conŃinute în documentele text disponibile, aflarea cuvintelor cheie sau a asocierilor de conŃinut, precum şi a comportării de grup a obiectelor text. Pentru asta, tehnicile data mining standard se integrează cu tehnici de regăsire a datelor şi de construire sau de utilizare a ierarhiilor specifice pentru datele text (ca de exemplu dicŃionare), precum şi cu tehnici de clasificare a termenilor orientate pe disciplină (ca de exemplu medicină, legislaŃie, economic etc.). Bazele de date multimedia conŃin, preponderent, date imagine, audio şi video, dar şi date text care descriu în cuvinte elementele cu conŃinut media. Se implementează, în mod uzual folosind tehnologia bazelor de date relaŃional- obiecturale care permite dezvoltarea unor aplicaŃii complexe cu baze de date. Ca o caracteristică esenŃială, trebuie să suporte obiecte de dimensiuni mari şi foarte mari deoarece obiectele de date multimedia, ca de exemplu cele video, pot necesita spaŃiu de depozitare de capacităŃi mari şi foarte mari. În consecinŃă, pentru analiza datelor multimedia şi aplicarea unui proces data mining asupra acestora se impune integrarea tehnicilor standard cu tehnicile de căutare şi de înmagazinare care permit manipularea obiectelor de dimensiuni mari şi foarte mari. Baza de date eterogenă este, prin definiŃie, baza de date formată dintr-un set (grup) de baze de date autonome interconectate, care comunică între ele pentru a formula răspunsul la anumite întrebări. Este baza de date cu semantică acoperitoare semanticilor bazelor de date componente, în condiŃiile în care elementele dintr-o bază de date componentă pot diferi cu mult, ca semnificaŃie şi mod de reprezentare (semantică), de elementele dintr-o altă bază de date componentă. Practic, este baza de date formată, de regulă, din baze de date create şi gestionate folosind diferite tipuri de Sisteme de Gestiune a Bazelor de Date (ierarhice sau de reŃea, relaŃionale sau obiecturale, relaŃional- obiecturale, inclusiv procesoare de text sau de tabele), care rulează pe diferite tipuri de sisteme de calcul, sub diferite tipuri de sistem de operare (Dos, Windows, Unix, Linux, Apple etc.) instalate pe diferite configuraŃii hardware. Analiza datelor şi aplicarea unui proces data mining asupra datelor stocate într-o bază de date eterogenă este dificilă deoarece asimilarea semanticilor specifice bazelor de date componente într-o semantică acoperitoare, unică, este dificilă, impunând integrarea tehnicilor de analiză şi data mining standard cu tehnici specifice data mining (cu rol de asimilare a semanticilor diferite). În fond, transferul datelor între componentele bazei de date eterogene (baze de date create şi gestionate folosind tehnologii diferite de baze de date) este foarte dificil de realizat deoarece necesită reguli precise de transformare de la un mod de reprezentare la altul, care impun implementarea unor tehnici dedicate. Baza de date eterogenă este rezultatul evoluŃiei tehnologiilor bazelor de date, în contextul evoluŃiei tehnologilor digitale, multimedia şi de comunicaŃie. Practic, evoluŃia tehnologică în domeniul tehnicii de calcul, în general, şi al bazelor de date, în special, determină organismele economice (firme, instituŃii sau alte categorii de agenŃi economici) să- şi formeze baze de date eterogene, fie pentru a avea acces la datele vehiculate în timp (baze de date moştenite), fie pentru

506

a asigura schimbul de date cu alte organisme economice, fiecare cu propriul sistem informatic

care are propriul mod de organizare şi de reprezentare a datelor. Fluxul de date (data stream) este un şir de date, care intră şi ies într-un/dintr-un punct de observaŃie, caracterizate prin volum uriaş (teoretic infinit), schimbare dinamică şi curgere conŃină, de la intrare către ieşire, într-o ordine definită. Spre exemplu, datele ştiinŃifice şi inginereşti produse în mediu dinamic (tensiunea de alimentare, traficul de reŃea etc.), datele ”time- series” (schimbarea stocurilor, monitorizarea factorilor de mediu) etc. Analiza datelor şi aplicarea unui proces data mining asupra fluxurilor de date reprezintă

o provocare deoarece nu pot fi înmagazinate în nici o categorie de depozit de date. Aplicarea unui proces data mining asupra fluxurilor de date implică descoperirea modelelor generale de date şi a schimbărilor dinamice produse în interiorul fluxurilor de date „minate”. De exemplu, pentru a detecta deranjamentele reŃelei de calculatoare pe baza fluxului mesajelor de eroare care pot fi descoperite prin gruparea fluxurilor de date, se construiesc modele dinamice sau se compară modelele care apar frecvent, cele curente (de acum) cu cele anterioare (de acum ceva timp în urmă). World Wide Web- WWW şi serviciile de distribuire a datelor asociate lui, ca de exemplu produsele software Yahoo, Google etc. furnizează servicii informatice on-line bogate de-a lungul întregii lumi. Practic, obiectele dată, stocate în diferite tipuri de baze de date mai mult sau mai puŃin avansate, sunt “legate” împreună pentru a facilita accesul interactiv al utilizatorilor la informaŃii. Utilizatorii caută informaŃii în funcŃie de interesul lor, trecând de la un obiect la altul prin legături predefinite. Web mining constă în dezvoltarea analizei datelor Web, precum şi a metodelor de “minare”. Are rol în înŃelegerea distribuŃiei informaŃiei pe Web, în caracterizarea şi clasificarea paginilor Web, în descoperirea dinamicii Web, precum şi în determinarea asociaŃiilor sau a altor tipuri de relaŃii între diferite pagini Web, utilizatori, comunităŃi şi activităŃi bazate pe Web.

Concluzii EvoluŃia tehnologiei informaŃiei, multimedia şi de comunicaŃie, însoŃită de dezvoltarea unor organisme economice cu volum mare de activitate distribuită pe o arie geografică extinsă au determinat crearea unor categorii distincte de depozite de date cu structuri mai mult sau mai puŃin complexe şi au creat posibilitatea implementării unor tehnici adecvate de analiză a volumelor mari de date astfel stocate. În esenŃa lor, tehnicile data mining realizează analiza avansată a datelor utilizatorului pentru a pune în evidenŃă modele de date importante în stabilirea direcŃiilor de evoluŃie a diferitelor domenii de activitate (economic, ştiinŃific, medical, educaŃional etc.) pe care le desfăşoară organismele economice cu scopul de a- şi atinge obiectivele specificate în documentele de constituire. Practic, aplicarea tehnicilor data mining asupra datelor selectate de utilizator prin interogarea depozitului de date disponibil, cel mai adesea de tip bază de date sau data warehouse are ca rezultat extragerea modelelor de date de interes în fundamentarea deciziilor manageriale aferente domeniului de activitate care generează datele analizate.

Bibliografie

1.

Jiawei Han, Micheline Kamber, Data Mining- Concepts and Technique, Second Edition, Morgan Kaufmann Publishers, San Francisco CA 2006, ISBN-13 978-1-55860-901-3/ ISBN-10 1-55860-901-6;

2.

David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, Eastern Economy Edition, Prentice-Hall of India, New Delhi 2006, ISBN-81-203-2457-9;

3.

http://www.webopedia.com/: Webopedia: Online Computer Dictionary for Computer and Internet technology definitions;

4.

http://www.techweb.com/encyclopedia/ : Tech Encyclopedia online

5.

http://techdictionary.com/: Tech Dictionary ™, the New high tech online computer dictionary.

507