Documente Academic
Documente Profesional
Documente Cultură
Business Intelligence
ETL Jobs
Extrage
Prima parte a unui proces de ETL implică extragerea datelor din sursa sistemelor.
Majoritatea proiectelor de depozite de date consolideaza datele din diferite surse
de sisteme. Fiecare sistem separat poate utiliza, de asemenea, o organizare
diferită a datelor / format. Formatele frecvente de surse de date sunt bazele de
date relationale si fisierele plate (text), dar pot include structuri de baze de date
non-relaţionale, cum ar fi Information Management System (IMS) sau alte
structuri de date, cum ar fi Virtual Storage Access Method (VSAM) sau Indexed
Sequential Access Method (Isam), sau chiar şi preluarea din surse externe, cum
ar fi prin intermediul web spider sau capturi de date de pe ecran. Extragerea
converteşte datele într-un format de prelucrare a transformarii.
Incarcã
Faza “Încarcă” incarcă datele în obiectivul final, de obicei, depozitul de date (DW
Data Warehouse). În funcţie de cerinţele organizaţiei, acest proces variază foarte
mult. Unele depozite de date pot suprascrie informaţiile existente cu date
cumulative, actualizate periodica (ex. în fiecare săptămână), în timp ce alte
depozite de date (sau chiar alte părţi ale aceluiaşi depozit de date) pot adăuga
date noi într-o formă de istorizare a datelor, de exemplu, în fiecare oră. Pentru a
înţelege acest lucru, luati în considerare un depozit de date care este necesar
pentru a menţine inregistrarile vânzărilor pe anul precedent. Apoi, depozitul de
date va rescrie orice date care sunt mai vechi de un an cu date noi. Cu toate
acestea, introducerea de date pentru orice fereastra “un an” vor fi făcute într-o
manieră istorizatã. Sincronizarea şi domeniul de aplicare pentru a înlocui sau
adăuga datele sunt alegeri de proiectare strategice subordonate timpului
disponibil şi nevoilor mediului de afaceri. Sisteme mai complexe pot menţine o
istorie şi o pistă de audit a tuturor modificărilor datelor încărcate în depozitul de
date.
Provocãri
Seria de valori ale datelor sau calitatea datelor într-un sistem operaţional poate
depăşi aşteptările proiectantilor, la momentul validarii cand regulile de
transformare sunt specificate. Profilarea datelor unei surse în timpul analizei
datelor este recomandata [who?] pentru a identifica condiţiile datelor care vor
trebui să fie gestionate de specificatiile regulii “transformã”. Aceasta va conduce
la o modificare a regulilor de validare puse în aplicare în mod explicit şi, implicit,
Timpul disponibil pentru a extrage datele din sursa sistemelor se poate schimba,
ceea ce poate însemna ca aceeaşi cantitate de date ar putea fi procesate în mai
puţin timp. Unele sisteme ETL trebuie să fie scalabile pentru a procesa terabytes
de date sau pentru a actualiza depozite de date cu zeci de terabytes de date.
Creşterea volumului de date poate solicita modele care sunt scalabile. Aceste
modele pot satisface fluxuri de date care se integreaza cu cozile mesajelor sau
captura schimburilor de date in timp real. Toate acestea sunt necesare pentru
transformare continuă şi actualizarea depozitelor de date.
Preluat de pe http://www.ctobi.net