Documente Academic
Documente Profesional
Documente Cultură
Cursul 5
sau alte metode matematice aplicate unui volum foarte mare de date. Aceste metode
matematice reclam folosirea unui software specializat deosebit de complex. Analiza
matematic a datelor aflate n astfel de depozite de date a cptat denumirea de data
mining (minerit al datelor). Din volumul foarte mare de date se extrag numai datele
relevante, celelalte fiind ignorate. Pentru astfel de aplicaii datele trebuie bine organizate
i indexate pentru o uoar regsire si utilizare.
Pentru a ne da seama de dimensiunile fenomenului vor fi oferite cteva cifre
semnificative [VILA97]. Un depozit de date este alctuit din baze de date coninnd intre
1 i peste 10 terrabyte, aceste cifre neavnd dect un caracter orientativ. Exist astfel i
depozite de date coninnd zeci de terrabyte. Crearea unui astfel de depozit cost n jur de
3 milioane $. Din acest cost, o treime o reprezint serviciile profesionale. O alt treime se
cheltuiete pentru software-ul necesar extragerii, prelucrrii, depozitrii i analizrii
datelor, iar ultima treime este destinat sistemelor hardware necesare i stocrii datelor.
De obicei, depozitele de date i dubleaz dimensiunile n primele 12 pn la 18 luni.
Aceast cretere exponenial poate fi pe de o parte semnul sigur al succesului
implementrii depozitelor dar, pe de alta parte, poate deveni o problem, dac sistemele
nu sunt construite de la nceput suficient de elastice i de deschise.
Cursul 5
unei companii, un data mart conine datele pertinente unui anumit compartiment al
companiei. Departamentele pot folosi n comun datele lor, conectnd mpreun data
mart-urile aferente diferitelor compartimente ale companiei i formnd astfel o
infrastructur specific pe baza creia se poate crea un sistem de suport al deciziei mai
uor de construit i mai elastic.
Un data mart care poate utiliza serverele existente, structura informaional
existent (un LAN sau un Intranet) cu mai puin de 500 GB, cost ai puin de 1 milion de
dolari i se implementeaz,de obicei, n 90 de zile. Companiile de software au nceput
deja s ofere pe pia produsele necesare pentru a construi aceste data marts.
Rolul unui depozit de date este de a oferi o imagine coerent asupra datelor
relative la activitatea unei organizaii i a contextului n care acesta acioneaz. Utilizarea
acestei colecii poate consta din extragerea unor rapoarte (la cerere sau cu o anumit
periodicitate), extragerea unor date pentru a fi utilizate de aplicaiile de birotic
(programe de calcul tabelar, procesoare de text, programe de prezentare etc.), dar mai ales
pentru a fi utilizate de ctre aplicaii specializate de analiz. Acestea ar putea fi mprite
n dou categorii:
instrumente de analiz on-line (OLAP - On Line Analytical Processing aplicaii axate pe analiz multidimensional);
instrumente pentru "minerit" n date (data mining - aplicaii axate pe
descoperirea unor abloane semnificative n colecii de date).
Cursul 5
asamblate dintr-o varietate de surse, sunt corectate de erori, li se asigur
calitatea necesar i abia apoi devin utilizabile;
calitatea datelor din depozitele de date este un factor determinant pentru
procesul de reculegere a datelor. Se ntlnete frecvent situaia n care datele
sunt de bun calitate, dar nu sunt colectate n ntregime sau au un caracter
opional.
Pentru obinerea acestor caracteristici este necesar redundana datelor. Dac n
sistemul operaional redundana este eliminat (prin procesul de normalizare) pentru a
evita anomaliile de actualizare, n depozitul de date redundana este creat n mod
intenionat (prin denormalizare i sumarizare) pentru a permite un acces mai rapid la date.
Raiunea pentru care este creat depozitul de date este, n cele din urm,
integrarea datelor. Datele sunt adunate pentru a rspunde nevoilor informaionale ale
ntregii organizaii, asigurnd faptul c rapoartele generate pentru diversele
compartimente vor conine aceleai rezultate. Sistemul operaional este adesea imposibil
de folosit pentru analiz, fiind de cele mai multe ori format din subsisteme semiindependente, create la momente diferite, de echipe diferite, n maniere diferite.
Integrarea datelor n cadrul depozitului de date se refer la diferite aspecte:
modaliti unice de codificare, sistem de uniti de msur consistente,
sistem stabil de reprezentare fizic a datelor,
convenii clare privind modul de reprezentare a datelor calendaristice,
convenii unice privind denumirile datelor.
Cursul 5
Surse de date
Depozitul de date
Instrumente BI
Interogari
Interogari
Stocare
Stocare
centralizata
centralizata
ET
ET
L
L
Data
Data
Warehouse
Warehouse
OLAP
OLAP
Data
Data Mining
Mining
Fisiere
Baze de date
Surse externe
Rapoarte
Rapoarte
Data Marts
Cursul 5
uzual const n reprezentarea tabelar sau grafic a datelor. Valoarea final a
unui depozit de date este determinat de avantajele pe care le ofer
utilizatorului n diferite procese de luare a deciziilor i analiz. Aplicaiile
suport de decizie ale clienilor, care ne dau noi informaii despre bugete,
prognoze, recomandri cu privire la alocarea resurselor i multe altele se afl
n modulele data marts la acest nivel al arhitecturii.
Utilizatori IT
Modulul Operational
Secventiale
Incarcare
Date operationale
Ne-relationale Relationale
Transformarea datelor
Filtrare
Externe
Conditionare
Depozitul de date
Modulul Central
Replicare si distribuire
Data Marts
Cunoastere/Data Mining
Modulul Strategic
Cursul 5
ntreinut i mai puin scump [INMO99].Ciclul de implementare al unui data
mart este mai curnd msurat n sptmni dect n luni sau ani.
3. Depozitul virtual (Virtual warehouse) este un set de viziuni (views) asupra
bazelor de date relaionale. Pentru eficiena procesrilor interogrilor, unele
din viziunile de agregare pot fi materializate. Un depozit virtual este uor de
construit, dar problema extragerii i prelucrrii datelor revine n mod exclusiv
serverului de baze de date, ceea ce poate conduce la un timp de prelucrare
mare, ns se elimin necesitatea stocrii datelor ntr-un depozit real
[HOLL00].
2.3.3. Migrarea datelor
"Migrare sau reproiectare?" este una din primele ntrebri cnd se ia n
considerare migrarea ctre o nou baz de date. Uneori, simpla migrare a bazei de date nu
este suficient, ci este necesar reproiectarea ntregului sistem informatic. Aceast situaie
apare cnd procesele interne ale firmei s-au schimbat n aa msur nct nu mai pot fi
acoperite de sistemul existent, iar efortul de adaptare a acestuia nu se justific economic.
Avantajele pe care le confer reproiectarea sistemului informatic sunt:
posibilitatea de a ncepe de la zero i a elimina slbiciunile structurale;
adoptarea de noi tehnologii;
crearea unei fundaii proaspete pentru noul sistem.
Reproiectarea sistemului informatic creaz ns i o serie de neajunsuri:
analiza, proiectarea i implementarea unui nou sistem solicit mult timp i resurse
fiind o investiie important. De cele mai multe ori, departamentul de IT
nsrcinat cu realizarea noului sistem nu poate s ntrein i vechiul sistem n
acelai timp;
este posibil ca noul sistem s fie mai puin funcional dect vechiul, anumite
funcii putnd fi uitate.
Nu exist un rspuns facil la ntrebarea "Migrare sau reproiectare?". Fiecare caz
trebuie analizat individual prin prisma avantajelor i dezavantajelor. Alegerea poate fi
ns i una combinat: reproiectare i migrare parial sau reproiectarea sistemului dup
ncheierea migrrii pe noile echipamente.
Schimbarea bazei de date nu este doar un simplu proces de transfer de date, ci
implic i conversia schemei bazei de date (definiii de tabele, viziuni, restricii de
integritate etc.), ct i a funciilor, procedurilor i pachetelor stocate n baza de date.
Principalii factorii ce trebuie luai n considerare cnd se migreaz la o alt baz de date:
1. Diferenele de sintax SQL ntre principalele SGBD-uri;
2. SGBD-urile de top precum Oracle, SQL Server i DB2 pun la dispoziie
dezvoltatorilor posibilitatea de integra n baza de date diferite restricii de
integritate, ct i algoritmi. Toate aceste elemente i obiecte sunt foarte importante
pentru funcionarea corect a aplicaiilor i dac baza de date surs le conine
trebuie s ne asigurm c i baza de date destinaie le suport i le putem converti;
3. Bazele de date pot conine sute sau chiar mii de obiecte (tabele, viziuni,
proceduri). Din aceast cauz se recomand folosirea unui asistent de migrare,
care s automatizeze cele mai multe sarcini, iar n sarcina administratorului bazei
Cursul 5
de date, s rmn doar corecii minore i de finee. O alt problem este i
interdependena dintre obiectele bazei de date. Aproape orice procedur face
referiri la tabele, viziuni sau la alte proceduri, iar aceast interdependen trebuie
meninut i dup migrare. Din aceast cauz, dac spre exemplu numele unei
tabele din Oracle este un nume rezervat n MySQL acesta va trebui schimbat, sau
pus ntre ghilimele i fcut modificarea n toate viziunile, funciile/
procedurile/pachetele stocate, cheile externe care fac apel sau refer tabela
respectiv. Un astfel de exemplu este LIMIT, care nu este cuvnt rezervat n
Oracle, dar este n MySQL;
4. Volumul mare de date face ca transferul s dureze i zeci de ore n funcie de
metoda de export-import folosit.
Etapele Migrrii datelor
Migrarea datelor se realizeaz n trei etape: export i conversie, transfer i procesare
i import.
Cursul 5
pentru crearea structurii bazei de date. Aceste fiiere ASCII conin att datele exportate
ct i scripturile necesare derulrii importului i depind de baza de date destinaie.
Etapa 2: Transfer i procesare
Aceast etap este una opional i este folosit n cazul proiectelor n care
fiierele de export trebuie dintr-un motiv sau altul s fie transferate. Acest lucru este
frecvent n cazul migrrii bazelor de date distribuite geografic sau cnd nu se poate stabili
o conexiune direct ntre baza de date surs i cea destinaie. n faza de procesare,
scripturile rezultate din transfer pot fi modificate pentru anumite nevoi particulare
neacoperite de asistentul de migrare folosit.
Etapa 3: Import
Scriptul rezultat dup prima etap i eventual prelucrat n cea de a doua este
executat pe baza de date destinaie. Structura bazei de date este creat cu ajutorul
utilitarelor specifice fiecrei baze de date care permit execuia de scripturi SQL. Cele mai
importante sunt:
SQL Plus pentru Oracle;
CLP (Command Line Processor) pentru IBM DB2;
ISQL pentru Ms SQL Server i SyBase;
linia de comand MySQL.
Utilitarele pentru ncrcarea datelor din fiierele ASCII sunt de asemenea
specifice bazei de date. Cele mai importante sunt:
SQL Loader pentru Oracle;
LOAD/IMPORT pentru IBM DB2;
BCP pentru SQL Server i Sybase;
LOAD DATA INFILE pentru MySQL;
BUTIL pentru Persasive SQL.
n general, n cazul migrrii este necesar mai puin timp i efort, procesul fiind n
general sigur, cu o probabilitate sczut de eec. n plus, investiia fcut n vechiul
sistem nu este pierdut, dar este evident c slbiciunile acestuia nu vor fi eliminate n
totalitate de migrarea la un nou sistem de gestiune a bazelor de date.