Documente Academic
Documente Profesional
Documente Cultură
Tehnologii de Integrare A Sistemeor in Format Ice
Tehnologii de Integrare A Sistemeor in Format Ice
SISTEMELOR INFORMATICE
76
ca puncte principale de integrare. Soluţiile de integrare orientată pe date pot
fi grupate în trei categorii:
copii multiple ale bazei de date ;
federalizarea datelor;
procesarea interfeţei.
77
• replicare snapshot master-slave;
• capturarea detaliilor tranzacţiilor
• replicare incrementală a tranzacţiilor master-slave;
• implementarea sincronizării la nivel de linie master-master
utilizând SQL Server;
• implementarea replicării snapshot master-slave utilizând SQL
Server;
• replicare master-slave în cascadă.
Replicarea datelor
78
Multe baze de date, care includ soluţii “middleware” oferă servicii
pentru replicarea datelor. Replicarea prin intermediul serviciilor este
realizată prin plasarea unui strat software între două sau mai multe baze de
date. Pe de o parte, datele sunt extrase dintr-o bază de date sau din mai
multe baze de date şi sunt apoi plasate în bazele de date ţintă. Multe dintre
aceste soluţii oferă servicii de transformare precum şi abilitatea de a
modifica schema şi conţinutul astfel încât acestea să aibă sens pentru baza
de date ţintă.
Avantajele replicării bazelor de date sunt simplitatea şi costurile
scăzute. Replicarea este uşor de implementat, iar tehnologia este ieftină.
Din păcate, aceste avantaje sunt eliminate dacă sunt necesare metode ataşate
datelor. În acest caz, trebuie luată în considerare orientarea bazată pe
servicii.
79
colectarea şi distribuirea datelor, pe măsură ce acestea sunt necesare, către
bazele de date fizice.
Avantajul folosirii acestui software este că poate lega tipuri
diferite de date într-un model unificat care suportă schimbul de informaţie.
Figura 2.5 XML, reprezentare text simplă a unor date de complexităţi diferite
83
elementelor descriu conţinutul elementului, iar structura descrie relaţiile
dintre elemente. Un document XML este considerat bine format, dacă poate
fi citit de un parser XML şi dacă formatul său se potriveşte cu specificaţiile
XML. Se pot defini atribute ale elementelor şi descrie caracteristici ale
elementelor în tagul de început. Un parser XML citeşte documente XML şi
extrage datele ce urmează a fi accesate de alt program. Parserul este parte
componentă a nivelului middleware. (Figura 2.6)
Pentru ca aplicaţiile ce folosesc XML să poată fi integrate, ele
trebuie să externalizeze informaţia sub formă de XML. Tehnologia
middleware-XML gestionează extragerea informaţiei din sistemul sursă,
conversia ei în XML şi plasarea informaţiei în sistemul destinaţie, tot
procesul fiind automat şi transparent pentru utilizator. Aşa cum s-a mai
specificat, XML este bazat pe text şi, astfel, o informaţie care în mod
normal poate fi stocată pe 512 KB, se poate mapa într-un fişier XML de 20
ori mai mare, acest fapt reprezentând unul din dezavantajele utilizării XML.
86
În plus, XSLT poate realiza şi alte tipuri de procesare de text şi
operaţii de transformare, care includ crearea formatelor de date standard
bazate pe text ca PDF-uri sau alte formate.
Transformarea unui document XML folosind XSLT necesită doi
paşi. Primul pas constă într-o transformare structurală, unde datele sunt
transformate, de la o structură de intrare la o structură de ieşire. Acest pas
implică selectarea datelor, gruparea lor, sortarea lor sau agregarea lor în
funcţie de necesităţile transformării. De exemplu, în cadrul unui document
XML se poate face conversia de la dolari americani la franci francezi.
Această transformare este bazată pe o rată de conversie valutară, fie pe o
valoarea statistică fie pe o valoare citită dintr-o bază de date aflată la
distanţă.
87
Standardul ebXML a fost creat pentru a înlocui EDI sau alte
standarde folosite în comerţul electronic. Acesta este un sistem bazat pe
mesaje XML pentru schimbul de informaţie şi poate conţine un depozit
pentru a permite accesul simultan la informaţie. Sistemul de mesaje suportă
orice tip de date, tranzacţii EDI şi informaţie binară. Mai mult decât atât,
ebXML suportă acorduri de tranzacţionare între parteneri – o funcţie
fundamentală a subsistemelor partener EDI-ebXML poate fi folosit astfel
pentru a reprezenta acordurile de servicii de afaceri.
Ca şi alte standarde (ebXML-ul nu este un produs) vine cu un set de
reguli, care permit producătorilor de aplicaţii şi integrare de aplicaţii să-si
proiecteze produsele pentru a susţine acest standard.
88
Figura 2.8 SOAP oferă mecanisme de comunicare între client şi server
89
• definiţii PortType;
• definiţii de conectare, care descriu conexiunea între PortType şi
protocoale (SOAP, HTTP, GET/POST);
• definiţii de servicii.
Ca urmare, se poate spune că WSDL oferă o abordare standard
serviciilor Web. De asemenea, WSDL oferă un mecanism automat de
generare a proxy-urilor pentru serviciile Web folosind un limbaj standard.
Acest standard este analog IDL (Interface Definition Languages) şi se
găseşte atât în COM cât şi în CORBA. Cu alte cuvinte, este un simplu
contract între client şi server.
WSDL defineşte o gramatică XML pentru descrierea serviciilor de
reţea ca o colecţie de puncte finale de comunicaţie, care pot face transfer de
informaţie. Definirea serviciilor WSDL oferă o modalitate pentru
automatizarea comunicării între aplicaţii (Figura 2.9).
90
Figura 2.9 Definirea serviciilor prin WSDL
91
2.3.1. Baze de date centralizate şi distribuite
92
concurenţi. Sistemul de baze de date distribuite trebuie gestionat astfel încât
distribuirea, concurenţa şi eventualele eşecuri să fie transparente,
asigurându-se că operaţiile de citire (cererile) şi operaţiile de scriere
(actualizările) se execută astfel încât să nu apară nici o diferenţă faţă de
situaţia unei baze de date cu un singur utilizator [TRAI82]. Transparenţa din
toate aceste puncte de vedere poate fi destul de scumpă, iar în practică ea
este realizată doar în măsura în care permite obţinerea unor performanţe
acceptabile.
Colecţiile de date pot fi distribuite pe mai multe calculatoare, care se
pot afla în aceeaşi locaţie fizică sau în locaţii fizice diferite. O bază de date
este distribuită sub formă de partiţii/fragmente distincte, care pot fi replicate
pe mai multe noduri din reţea. Pe lângă fragmentare şi replicare, există şi
alte tehnici de proiectare a bazelor de date distribuite, alegerea uneia dintre
acestea realizându-se în funcţie de nevoile afacerii şi de
sensibilitatea/confidenţialitatea datelor care vor fi stocate în baza de date.
Sistemele distribuite se folosesc în mai multe domenii ale
informaticii (sisteme de baze de date, reţele de calculatoare, sisteme de
operare etc.). Totuşi, toate sistemele distribuite, indiferent de tipul lor, au
câteva caracteristici şi obiective de realizare comune. Aceste aspecte
comune le prezentăm în paragraful de faţă.
Caracteristicile principale ale sistemelor distribuite
1. Suport pentru partajarea resurselor: aceleaşi resurse sunt folosite de
mai mulţi utilizatori. Acest lucru se realizează prin două modele:
• modelul client – server, în care unul sau mai multe servere
gestionează baza de date şi rezolvă cererile transmise de clienţi. În
acest model există două tipuri de procese:
93
o procesele client, care execută sarcini care solicită de la server
resurse partajate;
o procesele server, care activează resursele de un anumit tip şi
întoarc răspunsul.
• modelul bazat pe obiecte, în care, într-o execuţie de program, fiecare
entitate este văzută ca un obiect cu interfaţă publică de acces. De
asemenea, fiecare resursă partajată este văzută ca un obiect.
2. Deschiderea: Sistemul poate fi extins, în orice moment, pe diferite căi.
În acest sens, sistemul deţine: mecanisme de comunicare interprocese,
interfeţe publice pentru acces la resurse partajate şi resurse, care sunt
eterogene.
3. Concurenţa şi paralelismul: În acelaşi timp, mai mulţi utilizatori,
folosesc în mod eficient aceleaşi resurse. Aspectele care trebuie
implementate de sistem sunt: simultaneitate privind mai mulţi utilizatori
şi mai multe procese, să separe activităţile de utilizatori, să asigure
independenţa proceselor faţă de resurse şi de activităţi.
4. Scalabilitate: Sistemul acţionează efectiv şi eficient pe diferite scale
(datorită eterogenităţii resurselor).
5. Toleranţă la accidente: Sistemul se bazează pe redundanţa hardware şi
pe acoperirea software.
6. Transparenţa: Se referă la gradul de independenţă între componentele
sistemului (resurse, operaţii, utilizatori etc.), la funcţionare. În asigurarea
transparenţei se ţine cont de: separarea componentelor sistemului,
necesitatea comunicaţiei şi de tehnici de integrare şi management.
94
C.J. Date a întocmit 12 reguli conform cărora se poate stabili dacă un
SGBD este distribuit sau nu. Ca o sinteză a regulilor, se poate afirma că
distribuirea datelor nu trebuie să afecteze în nici un fel utilizatorii (SGBD-ul
va asigura o transparenţă totală a distribuirii datelor).
R1. Autonomia locală: fiecare nod are control local asupra datelor şi este
independent de celelalte noduri din punct de vedere al funcţiilor de bază:
securitate, controlul concurenţei, backup şi recuperare.
R2. Independenţa faţă serverul central: fiecare nod trebuie să acţioneze
independent, fără să depindă de un server central sau un alt nod.
R3. Continuitatea: activitatea într-un sistem distribuit se desfăşoară fără
întreruperi pentru întreţineri sau reparaţii.;
R4. Transparenţa localizării: nici un utilizator/program are nevoie să ştie
unde şi cum sunt amplasate datele folosite.
R5. Independenţa fragmentării: SGBDD va trebui să poată reconstrui
automat, în orice moment, o colecţie de date din fragmentele sale.
R6. Independenţa replicării: utilizatorii/programele nu trebuie să ştie dacă
datele au fost replicate şi cum anume.
R7. Interogări distribuite: o interogare poate fi executat pe orice nod din
reţea care conţine date utile execuţiei cererii. La răspunsul interogării pot să
participe mai multe noduri, fără ca beneficiarul să fie conştient de acest
lucru.
R8. Tranzacţii distribuite: o tranzacţie poate să acceseze şi să modifice date
din mai multe noduri, fără ca beneficiarul să fie conştient de acest lucru.
R9. Independenţa faţă de hardware: nodurile pe care se găsesc datele pot fi
calculatoare de diferite tipuri şi puteri.
R10. Independenţa faţă de software: nu trebuie să aibă importanţă
sistemele de operare care există pe noduri (eterogene).
95
R11. Independenţa faţă de reţea: BDD şi SGBDD trebuie să poată fi
implementate pe orice platformă de reţea corespunzătoare, iar diferitele
protocoale utilizate în reţea, nu trebuie să afecteze funcţionarea BDD.
R12. Independenţa faţă de SGBD: la nivel de nod local pot “rula” diferite
SGBD-uri.
96
Pentru a realiza fragmentarea SGBDD respectă anumite reguli şi
metode.
REGULILE ce trebuie respectate la fragmentare:
• completitudinea semnifică faptul că întreaga colecţie globală
trebuie descompusă în fragmente. Rezultă că orice înregistrare dintr-o
colecţie globală trebuie să se regăsească într-un fragment;
• reconstrucţia semnifică faptul că orice colecţie globală
trebuie să poată fi recompusă, oricând, din fragmentele sale;
• disjuncţia semnifică faptul că fragmentele în care se
descompune o colecţie globală trebuie să fie exclusive. Rezultă că o
înregistrare din colecţia globală nu poate să se regăsească în două
sau mai multe fragmente ale sale.
97
b) Distribuirea prin replicare este operaţia de stocare a unor porţiuni
dintr-o bază de date, sub formă de copii, pe mai multe calculatoare
(noduri) dintr-o reţea.
Dacă un utilizator actualizează o copie locală atunci SGBDD
actualizează automat toate copiile acelor date.
Pentru a putea realiza distribuirea prin replicare un SGBDD
utilizează anumite metode: date nereplicate, date replicate parţial, date
replicate total.
98
concurenţa accesului la date este minimă, timpul de actualizare este
mare şi timpul de regăsire este mic.
99
organizaţii şi permite interogarea dinamică şi analiza detaliată a
tuturor informaţiilor.”
Spre deosebire de sistemele operaţionale, structurile de date într-un
depozit de date sunt optimizate pentru o regăsire şi o analiză rapidă. Datele
sunt istorice şi sunt actualizate la intervale regulate de timp, în funcţie de
cerinţele de raportare.
Definiţia lui William Inmon, cunoscut drept părintele acestui
concept (de altfel deţine şi trademark-ul pentru datawarehouse) este extrem
de concisă: “un depozit de date este o colecţie de date orientată pe subiecte,
integrată, având istorice şi nevolatile destinată sprijinirii procesului de luare
a deciziilor manageriale” (“A data warehouse is a subject-oriented,
integrated, time-variant and nonvolatile collection of data in support of
management's decision making process”) [INMO96]
În viziunea lui Ralph Kimball [KIMB96] depozitul de date oferă
acces la datele organizaţionale, datele obţinute sunt consistente şi pot fi
separate sau combinate în funcţie de fiecare dimensiune sau aspect al
afacerii. Depozitul de date include, de asemenea un set de instrumente
pentru interogare, analiză şi prezentare a informaţiilor; reprezintă locul în
care sunt publicate datele folosite. Calitatea datelor conţinute în depozit
reprezintă o premiză pentru reingineria afacerii.
După Barry Devlin [DEVL97], un depozit de date înseamnă o
stocare a datelor, unitară, completă şi consistentă, obţinută dintr-o varietate
de surse, disponibilă utilizatorilor finali într-un mod uşor perceptibil şi
utilizabil în contextul afacerii.
Sam Anahory [ANDE97] subliniază finalitatea depozitelor de date,
precizând că un depozit de date include datele şi procesele manageriale care
100
fac informaţiile disponibile, permiţând managerilor să ia decizii corect
fundamentate.
Există o serie de firme binecunoscute care şi-au adus contribuţia în
definirea, dezvoltarea şi popularizarea tehnologiilor de data warehouse
precum: IBM, Software AG, Oracle, Microsoft, Prism Solution etc.
Creşterea volumului de informaţii, precum şi perfecţionarea
software-ului de exploatare a acestuia, au condus la o nouă calitate a
folosirii datelor prin analize care pot releva conducerii organizaţiei
informaţii greu sau chiar imposibil de obţinut pe alte căi. Se pot obţine astfel
informaţii privind preferinţele clienţilor, profilul lor, distribuţia etc.
Astfel se pot furniza conducerii date, cum ar fi de exemplu: în ce
regiune a ţării se vinde mai bine un anumit produs, care sunt preferinţele
unui anumit segment de piaţă etc.
Este evident că astfel de informaţii nu se pot obţine decât folosind
anumite prelucrări, cum ar fi analiza multidimensională, anumite metode
statistice de prognoză sau alte metode matematice aplicate unui volum
foarte mare de date. Aceste metode matematice reclamă folosirea unui
software specializat deosebit de complex. Analiza matematică a datelor
aflate în astfel de depozite de date a căpătat denumirea de data mining
(minerit al datelor). Din volumul foarte mare de date se extrag numai datele
relevante, celelalte fiind ignorate. Pentru astfel de aplicaţii datele trebuie
bine organizate şi indexate pentru o uşoară regăsire si utilizare.
Pentru a ne da seama de dimensiunile fenomenului voi oferi câteva
cifre semnificative [VILA97]. Un depozit de date este alcătuit din baze de
date conţinând intre 1 şi peste 10 terrabyte, aceste cifre neavând decât un
caracter orientativ. Există astfel şi depozite de date conţinând zeci de
terrabyte. Crearea unui astfel de depozit costă în jur de 3 milioane $. Din
101
acest cost, o treime o reprezintă serviciile profesionale. O altă treime se
cheltuieşte pentru software-ul necesar extragerii, prelucrării, depozitării şi
analizării datelor, iar ultima treime este destinată sistemelor hardware
necesare şi stocării datelor. De obicei, depozitele de date îşi dublează
dimensiunile în primele 12 până la 18 luni. Această creştere exponenţială
poate fi pe de o parte semnul sigur al succesului implementării depozitelor
dar, pe de alta parte, poate deveni o problemă, dacă sistemele nu sunt
construite de la început suficient de elastice şi de deschise.
Cheltuieli cu
Cheltuieli cu serviciile
software-ul pentru profesionale
extragerea,
prelucrarea,
depozitarea şi
analiza datelor Cheltuieli cu
sistemele
hardware şi
stocarea datelor
102
operaţii extrem de dificile dacă trebuie repetate la fiecare adăugare a unor
noi servere în sistem.
Pentru a evita aceste probleme, se poate alege o cale de mijloc şi se
poate crea un sub-depozit care să conţină numai datele relevante pentru
analiza necesară. Astfel de sub-depozite sunt numite data marts şi pot fi
făcute să funcţioneze pe configuraţii mai modeste decât depozitele de date.
Un astfel de data mart este un depozit de date specific unui anumit
subset de cerinţe sau unui anumit departament din cadrul organizaţiei. În
timp ce un depozit de date conţine datele care pot fi utilizate pentru a
răspunde oricărei întrebări privind afacerile unei companii, un data mart
conţine datele pertinente unui anumit compartiment al companiei.
Departamentele pot folosi în comun datele lor, conectând împreună data
mart-urile aferente diferitelor compartimente ale companiei şi formând
astfel o infrastructură specifică pe baza căreia se poate crea un sistem de
suport al deciziei mai uşor de construit şi mai elastic.
Un data mart care poate utiliza serverele existente, structura
informaţională existentă (un LAN sau un Intranet) cu mai puţin de 500 GB,
costă ai puţin de 1 milion de dolari şi se implementează,de obicei, în 90 de
zile. Companiile de software au început deja să ofere pe piaţă produsele
necesare pentru a construi aceste data marts.
Rolul unui depozit de date este de a oferi o imagine coerentă asupra
datelor relative la activitatea unei organizaţii şi a contextului în care acesta
acţionează. Utilizarea acestei colecţii poate consta din extragerea unor
rapoarte (la cerere sau cu o anumită periodicitate), extragerea unor date
pentru a fi utilizate de aplicaţiile de birotică (programe de calcul tabelar,
procesoare de text, programe de prezentare etc.), dar mai ales pentru a fi
103
utilizate de către aplicaţii specializate de analiză. Acestea ar putea fi
împărţite în două categorii:
instrumente de analiză on-line (OLAP - On Line Analytical
Processing - aplicaţii axate pe analiză multidimensională);
instrumente pentru "minerit" în date (data mining - aplicaţii
axate pe descoperirea unor şabloane semnificative în colecţii
de date).
104
privire la acest lucru şi este sfătuit să aştepte până ce vor fi
complet încărcate;
• datele într-un depozit de date pot fi separate şi combinate pentru
a oferi un acces cât mai rapid şi un timp de răspuns cât mai
mic sistemului;
• depozitele de date nu reprezintă doar datele, ci şi un set de
utilitare pentru a interoga, analiza, prezenta informaţiile;
• datele din depozite sunt utilizate direct în analize, fără alte
prelucrări suplimentare. Datele nu sunt doar acumulate la un loc
şi păstrate ci sunt asamblate dintr-o varietate de surse, sunt
corectate de erori, li se asigură calitatea necesară şi abia apoi
devin utilizabile;
• calitatea datelor din depozitele de date este un factor
determinant pentru procesul de reculegere a datelor. Se întâlneşte
frecvent situaţia în care datele sunt de bună calitate, dar nu sunt
colectate în întregime sau au un caracter opţional.
Pentru obţinerea acestor caracteristici este necesară redundanţa
datelor. Dacă în sistemul operaţional redundanţa este eliminată (prin
procesul de normalizare) pentru a evita anomaliile de actualizare, în
depozitul de date redundanţa este creată în mod intenţionat (prin
denormalizare şi sumarizare) pentru a permite un acces mai rapid la date.
Raţiunea pentru care este creat depozitul de date este, în cele din
urmă, integrarea datelor. Datele sunt adunate pentru a răspunde nevoilor
informaţionale ale întregii organizaţii, asigurând faptul că rapoartele
generate pentru diversele compartimente vor conţine aceleaşi rezultate.
Sistemul operaţional este adesea imposibil de folosit pentru analiză, fiind de
105
cele mai multe ori format din subsisteme semi-independente, create la
momente diferite, de echipe diferite, în maniere diferite.
Integrarea datelor în cadrul depozitului de date se referă la diferite
aspecte:
modalităţi unice de codificare, sistem de unităţi de măsură
consistente,
sistem stabil de reprezentare fizică a datelor,
convenţii clare privind modul de reprezentare a datelor
calendaristice,
convenţii unice privind denumirile datelor.
106
Surse de date Depozitul de date Instrumente BI
Interogari
Interogari
Stocare Data
ET
centralizata Warehouse OLAP
OLAP
L
Data
Data Mining
Mining
Fisiere
Baze de date Rapoarte
Rapoarte
Surse externe
Data Marts
107
baza pe care se construieşte un depozit de date consistent, de
înaltă calitate..
2) Modulul central al depozitului de date este reprezentat de
SGBD şi de serverul pe care acesta rulează şi de modul în care
este implementat depozitul. Există în acest moment două modele
de implementare:
a. implementarea unui sistem distribuit, descentralizat unde
datele sunt păstrate în unităţi independente (Independent
Data Marts), fiecare conţinând datele relevante pentru un
anumit aspect al operaţiilor unei instituţii;
b. implementarea unei surse de date unice, centralizate şi
integrate la care au acces utilizatorii din toate
departamentele unei instituţii.
3) Modulul strategic, de afaceri este nivelul la care datele sunt
prezentate analistului pentru interpretare. Prin folosirea
diferitelor unelte de acces la informaţie şi a tehnologiilor data
mining disponibile, utilizatorii pot obţine informaţii care îi vor
ajuta în procesele de stabilire a strategiei firmei. Instrumentele de
cereri grafice, prezentările, rapoarte scrise, browser-ele Web,
instrumente de vizualizare a datelor, toate aparţin acestui nivel.
Interpretarea uzuală constă în reprezentarea tabelară sau grafică a
datelor. Valoarea finală a unui depozit de date este determinată
de avantajele pe care le oferă utilizatorului în diferite procese de
luare a deciziilor şi analiză. Aplicaţiile suport de decizie ale
clienţilor, care ne dau noi informaţii despre bugete, prognoze,
recomandări cu privire la alocarea resurselor şi multe altele se
află în modulele data marts la acest nivel al arhitecturii.
108
U tilizatori IT
D ate operationale
M od ulul O perational
S ecventiale N e-relationaleR elationale Externe
D epozitul de date
M od ulul C en tral
R eplic are si distribuire
D ata M arts
U tilizatori finali
111
pachetelor stocate în baza de date. Principalii factorii ce trebuie luaţi în
considerare când se migrează la o altă bază de date:
1. Diferenţele de sintaxă SQL între principalele SGBD-uri;
2. SGBD-urile de top precum Oracle, SQL Server şi DB2 pun la
dispoziţie dezvoltatorilor posibilitatea de integra în baza de date
diferite restricţii de integritate cât şi algoritmi. Toate aceste elemente
şi obiecte sunt foarte importante pentru funcţionarea corectă a
aplicaţiilor şi dacă baza de date sursă le conţine trebuie să ne
asigurăm că şi baza de date destinaţie le suportă şi le putem converti;
3. Bazele de date pot conţine sute sau chiar mii de obiecte (tabele,
viziuni, proceduri). Din această cauză se recomandă folosirea unui
asistent de migrare, care să automatizeze cele mai multe sarcini, iar
în sarcina administratorului bazei de date, să rămână doar corecţii
minore şi de fineţe. O altă problemă este şi interdependenţa dintre
obiectele bazei de date. Aproape orice procedură face referiri la
tabele, viziuni sau la alte proceduri, iar această interdependenţă
trebuie menţinută şi după migrare. Din această cauză, dacă spre
exemplu numele unei tabele din Oracle este un nume rezervat în
MySQL acesta va trebui schimbat, sau pus între ghilimele şi făcută
modificarea în toate viziunile, funcţiile/ procedurile/pachetele
stocate, cheile externe care fac apel sau referă tabela respectivă. Un
astfel de exemplu este „LIMIT”, care nu este cuvânt rezervat în
Oracle, dar este în MySQL;
4. Volumul mare de date face ca transferul să dureze şi zeci de ore în
funcţie de metoda de export-import folosită.
Etapa 3: Import
Scriptul rezultat după prima etapă şi eventual prelucrat în cea de a
doua este executat pe baza de date destinaţie. Structura bazei de date este
creată cu ajutorul utilitarelor specifice fiecărei baze de date care permit
execuţia de scripturi SQL. Cele mai importante sunt:
• SQL Plus pentru Oracle;
• CLP (Command Line Processor) pentru IBM DB2;
• ISQL pentru Ms SQL Server şi SyBase;
• linia de comandă MySQL.
Utilitarele pentru încărcarea datelor din fişierele ASCII sunt de
asemenea specifice bazei de date. Cele mai importante sunt:
114
• SQL Loader pentru Oracle;
• LOAD/IMPORT pentru IBM DB2;
• BCP pentru SQL Server şi Sybase;
• LOAD DATA INFILE pentru MySQL;
• BUTIL pentru Persasive SQL.
În general, în cazul migrării este necesar mai puţin timp şi efort,
procesul fiind în general sigur, cu o probabilitate scăzută de eşec. În plus,
investiţia făcută în vechiul sistem nu este pierdută, dar este evident că
slăbiciunile acestuia nu vor fi eliminate în totalitate de migrarea la un nou
sistem de gestiune a bazelor de date.
115
TEHNOLOGII DE INTEGRARE A SISTEMELOR INFORMATICE....76
2.1.Integrarea orientată pe date................................................................76
2.1.1. Menţinerea unor copii ale datelor...............................................77
2.1.2 Federalizarea datelor....................................................................79
2.1.3 Integrarea datelor prin intermediul interfeţelor...........................81
2.2. Standarde utilizate la integrarea datelor............................................82
2.2.1. XML, XSLT, ebXML.................................................................82
2.2.2. SOAP, WSDL, UDDI.................................................................88
2.3. Tehnologii informatice de integrare a datelor...................................91
2.3.1. Baze de date centralizate şi distribuite........................................92
2.3.2. Depozite de Date ........................................................................99
2.3.2.1. Caracteristici ale depozitelor de date.................................104
2.3.2.2. Arhitectura depozitelor de date..........................................106
2.3.3. Migrarea datelor........................................................................110
116