Sunteți pe pagina 1din 6

ETL

ETL:
Sursele de date
Proiectarea ETL
Erori de structura
Erori de date
Sursele de date
Sistemul informaional al unei firme conine doua categorii de date:
date interne,
date externe:
date externe secundare si
date externe primare.
Datele interne sunt cele pe care le regsim in interiorul ntreprinderii printre care amintim
rapoartele de comerciale, rapoartele financiare etc.
Datele externe se refera in principal la mediul extern in care ntreprinderea ii desfoar
acti!itatea.
Datele externe secundare sunt ac"i#iionate pentru di!erse scopuri si pu$licate de ctre
organisme pu$lice sau pri!ate
Datele externe primare sunt ac"i#iionate direct de ctre ntreprindere de la partenerii prin
intermediul anc"etelor in scopul utili#rii lor pentru proiecte deci#ionale anterior definite.
Datele interne
%epre#inta toate datele care se pot gasi in cadrul intreprinderii si care pot fi utili#ate in
procesul deci#ional. &ceste date pro!in in principal din patru surse:
' Sistemul informational conta$il
' Sistemul informational de productie
' Sistemul informational comercial
' &nc"etele si studiile desfasurate anterior,
(atele o$inute din anc"etele desfurate de ntreprindere sunt considerate ca date
externe primare doar in momentul reali#rii anc"etelor, ulterior prin conser!area acestora in
sistemul informaional al ntreprinderii acestea de!in date interne.
)n general sistemul conta$il este cel care furni#ea# !olumul cel mai important de date si
informaii sistemului deci#ional. * anali#a a datelor furni#ate de sistemul conta$il poate orienta
acti!itatea ntreprinderii ctre o anumita direcie i poate defini necesitatea ac"i#iiilor de date
externe primare si secundare.
Datele externe secundare
(atele externe secundare sunt cele pu$licate de ctre organisme:
gu!ernamentale +),S- sau
pri!ate.
&cestea sunt utile in procesul de anali#a, ele put.nd sa descrie talia si e!oluia cererii
pentru un produs, sau talia si compo#iia unei piee sau structura unui sector de acti!itate.
(atele secundare externe permit de asemenea identificarea ipote#elor de cercetare
specifice si orientarea ctre culegerea de date primare cu a/utorul c"estionarelor.

0
Principalul a!anta/ al utili#rii acestor date re#ida in faptul ca pot fi o$inute repede si
cu costuri reduse.
(atele externe secundare sunt in general ac"i#iionate in scopuri care nu au legtura cu
pro$lema de cercetare din cadrul organi#aiei care le consulta. Este destul de rar sa se gseasc
exact datele cutate. (e cele mai multe ori acestea ofer un rspuns parial. 1u cat pro$lematica
studiata este mai specifica ntreprinderii cu at.t posi$ilitatea ac"i#iiei de date secundare externe
este mai mica. Este posi$il ca nicio data externa necesara procesului de anali#a sa nu existe sau sa
nu fie disponi$ila. )n acest ca# singura !arianta o repre#int o$inerea acestor date prin
intermediul unor anc"ete.

(atele externe secundare pot pro!eni din sectorul pu$lic +organisme pu$lice ),S
&gentii gu!ernamentale- sau pri!at +anc"ete efectuate de institutii pri!ate-.
&ceste doua surse de date externe pre#int fiecare puncte forte si puncte sla$e, fiind in
fapt complementare. )n ta$loul urmtor sunt comparate punctele tari si cele sla$e a datelor
externe secundare pro!enite din cele doua surse de date pu$lic si pri!at
Datele externe secundare
Metodologia tiinifica
(atele pro!enite din sectorul pu$lic ser!esc in principal ca fundamente al deci#iilor
politice. &c"i#iia acestora fiind finanat din fonduri pu$lice, impune organi#aiilor care au ca
sarcina colectarea lor sa aplice o metodologie riguroasa pentru a asigura !aliditatea acestor date
fapt care nu este ntotdeauna !ala$il si in ca#ul organi#aiilor pri!ate.

Standardizarea datelor
(atele pro!enite din sectorul pu$lic sunt regrupate dup o clasificare standard care
facilitea# comparaia acestora de la un an la altul, ceea ce nu este posi$il in ca#ul datelor
pro!enite din sectorul pri!at deoarece acestea sunt in principal re#ultatul unor studii punctuale.
Posibilitatea realizrii de serii temporale
Standardi#area permite datelor pro!enite din sectorul pu$lic sa cree#e serii temporale.

2
Date publice Date private
3etodologie tiinific + -
Standardi#area datelor + -
Serii temporale + -
&ccesi$ilitate + +/-
4rad de agregare - +
4rad de actuali#are - +
Accesibilitate
(atele pro!enite din organi#aiile pu$lice sunt uor de reperat si pot fi consultate in
principiu gratuit. (atele pro!enite de la organismele pri!ate sunt dificil de accesat datorita
confidenialitii iar ac"i#iia acestora presupune in principiu eforturi financiare.
Gradul de agregare
(atele colectate de ctre organismele pri!ate, prin natura anc"etelor pe care le de#!olta,
sunt mai puin agregate dec.t cele colectate de ctre organismele pu$lice.

Gradul de actualitate a informaiei
1omplexitatea studiilor efectuate de organi#aiile pu$lice si riguro#itatea impusa de
metodologiile tiinifice au ca efecte pu$licarea datelor cu o nt.r#iere de 256 ani. Prin contrast
colectarea datelor de ctre organismele pri!ate se face a!.ndu5se in !edere e!enimente recente de
interes imediat pentru firme.
Datele externe primare
(atele externe primare se o$in prin interogarea directa a actorilor !i#ai de studiul iniiat
de ctre ntreprindere. &cest proces de colectare se numete anc"eta sau sonda/. &c"i#iia datelor
externe primare se efectuea# pornind de la o pro$lema predefinita. &cestea sunt ulterior
anali#ate si interpretate in scopul asistrii procesului deci#ional.
(eci#ia de a colecta date externe primare tre$uie $ine anali#ata a!.ndu5se in !edere
!aloarea informaiei o$inute in raport cu costul asociat procesului de ac"i#iie.
Aplicatia ETL
&limentarea unui depo#it de date se reali#ea# ca o succesiune de di!erse operaii de
extragere, transformare i ncrcare a datelor, dintr5un mediu eterogen +$a#ele de date
operaionale i cele externe- ntr5un mediu mult mai omogen, urmrindu5se utili#area acestora n
procesul de anali#.
Pentru a prote/a utili#atorul de interpretri eronate, n urma procesului de anali#, este
important s se asigure o calitate intrinsec a depo#itului de date, calitate care depinde de
procesul de construcie dar i de cel al alimentrii cu date.
&stfel identificarea i corectarea 7erorilor8 din datele depo#itului, ce se pot manifesta su$
forma de lipsuri, greeli de interpretare semantic etc., de!ine a$solut necesara pentru a asigura o
calitate superioar datelor ce !or sta la $a#a anali#elor, deci implicit a re#ultatelor o$inute.
Gravitatea i importana 7erorilor8 sunt dou noiuni ce sunt str.ns legate de asigurarea
unui $un control al calitii.
Gravitatea este legat de costul controlului pentru detectarea unei 7erori8 ntr5un lot de
date sau costul reparrii defectelor identificate i se msoar n funcie de complexitatea
algoritmilor utili#ate i !olumul datelor afectate.
Importana este legat de utilitatea datelor afectate i impactul acestora n agregatele
produsului final, depo#itul de date, adic 9materia prim8 a utili#atorilor unui sistem de asistare a
deci#ie.
6
Aplicatia ETL - Pregtirea datelor
Pregtirea datelor presupune epurarea acestora i transformarea caracteristicilor lor din
sistemele operaionale n forma definit pentru depo#itul de date pentru a asigura un acces
uniform.
&cest proces presupune punerea n concordan a formatelor datelor, curirea,
transformarea i agregarea acestora. Prin curire se nelege eliminarea du$lurilor, eliminarea sau
repararea !alorilor eronate i extrapolarea !alorilor care lipsesc.
:n procesul de pregtire a datelor denumit de literatura de specialitate la modul general
procesul de transformare a datelor, se disting dou categorii de 7erori8 +defecte- i anume
una referitoare la sc"eme +modele- i
cealalt referitoare la date.
La r.ndul su erorile la ni!el de sc"em sunt
erori de structur sau
de tip +proprieti ale atri$utelor-
iar erorile la ni!el de date pot fi
de acoperire +pro$leme de c"ei- sau
preci#ie +pro$leme de !alori-.
Aplicatia ETL Tipul de erori

Exemple erori
;
Tip date
Erori
&coperire
(ate Sc"ema
Structur<
Preci#ie
Erori sc"ema
0. structur Ta$ela Client ntr5o surs de date i ta$ela Partener n alt surs de date= la
acest ni!el se sta$ilete pentru fiecare ta$el din depo#it ce ta$ele ii !or corespunde n surse, iar
pentru fiecare c.mp din depo#it ce c.mp surs i corespunde.
2. tip date cod client este c.mp numeric iar cod partener este c.mp text
Erori date:
0. acoperire se refer la c.mpurile c"eie
2. preciie 5 se refer la c.mpurile nonc"eie
Aplicatia ETL - Pregtirea datelor
(etectarea erorilor de!ine astfel o condiie esenial pentru asigurarea fia$ilitii datelor
de transferat i implicit pentru asigurarea coerenei depo#itului de date.
Epurarea datelor nu nseamn c datele din sistemele operaionale nu sunt de calitate,
incoerente, false, fapt ce nu poate fi eliminat n totalitate, ci faptul c n cadrul fluxului de date
generat ntre surse i depo#itul de date pot aprea conflicte i redundane care tre$uie re#ol!ate.
Tocmai de aceea un numr mare de erori pro!in din categoria celor puse n e!iden nu
la 7surs8 ci n cadrul procesului de transfer i transformare. >iecare restricie de integritate sau
de coeren introdus pentru datele din depo#it corespunde unei detectri de incoerene
caracteristice constr.ngerii respecti!e.
!n concluie se poate afirma c erorile pro!in
at.t de la sursele de date manifest.ndu5se su$ forma lipsei de date sau greelilor
semantice sau ortografice,
dar n cea mai mare msur acestea pro!in ca urmare a dificultilor de inte"rare a
datelor +termenul de eroare fiind asimilat dificultilor- generate de diferenele de tip a
atri$utelor i de modele.
)ntegrarea datelor presupune re#ol!area pro$lemelor de eterogenitate a sc"emelor
+modelelor- i a semanticii.
Aplicatia ETL Integrarea schemelor
#aa inte"rrii sc$emei unui depo#it de date este particular pentru dou moti!e :
sc"ema re#ultat nu este o sc"em conceptual integrat definiti! ci e!oluti! i
utili#atorul depo#itului de date, n general, nu pre#int o nelegere glo$al a sc"emei, el
fiind n primul r.nd un decident.
Sc"ema glo$al +modelul conceptual- a depo#itului de date este re#ultatul unui proces de
re5enginering. Sc"ema o$inut nu este fix ca n ca#ul $a#elor de date clasice, aici ele pot fi
supuse unor sc"im$ri ulterioare. &cest aspect dinamic se datorea# faptului c necesarul de date
din depo#itul de date este n principal g"idat de cererile utili#atorilor mai degra$ dec.t de
anali#a situaiei existente.
)ntegrarea e!oluti! a sc"emelor presupune compararea acestora i ela$orarea unui set
de aseriuni inter5sc"eme care s indice ec"i!alena, inclu#iunea sau neasemnarea a dou
o$iecte.
(up etapa de comparaie a sc"emelor, se !a ela$ora sc"ema glo$al a depo#itului.
Se !or pune n e!iden asocierile dintre c.mpurile surs i cele destinaie prin procesul
de mapping al datelor. &ceste asocieri se pot pune n e!iden la ni!ele diferite pornind de la
ta$el sau fiier, la ni!el de c.mp sau pri din c.mp.
Aplicatia ETL - Integrarea datelor
?
)nconsistenele datelor pot fi locale la ni!el de nregistrare, la ni!el de surs sau pot
sur!eni prin punerea n comun a dou surse.
)nconsistenele se pot datora pre#enei datelor false, confruntrii datelor semantic
identice dar sintactic diferite etc.
Printre inconsistenele ce apar n mod frec!ent n confruntarea dintre mai multe surse
putem aminti:
diferena de codare pentru acelai o$iect pro!enit din surse diferite 3@> sau 0@2=
diferena de uniti %*, EA%*=
diferena de granularitate =
diferena de pla/ de !aloare =
diferena de actuali#are=
impreci#ia=
utili#area sinonimelor =
modul diferit de descriere a aceleai date ntr5un text li$er ex adresa=
diferena de coninut ntr5un text li$er=
diferena ling!istic a ni!elului de percepie ntr5un text li$er.
Principalele preocupri referitoare la procesul de curare a datelor s5au ndreptat ctre
te"nicile de reconciliere ntre dou nregistrri.
An aspect particular l constituie modalitatea de a$ordare a acestui proces n funcie de
diferena de tratament ntre atri$utele c"eie i cele non5c"eie dar semantic importante i atri$utele
cu o mai mic importan.
&ceast ierar"i#are conduce la o reconciliere strict, care presupune egalitatea tuturor
c.mpurilor din tuplu, sau reconciliere le/er +flou- care presupune egalitatea c.mpurilor c"eie i
similaritatea c.mpurilor non5c"eie.
B

S-ar putea să vă placă și