Documente Academic
Documente Profesional
Documente Cultură
1. Descrieţi arhitectura simplificată a Depozitelor de date și dați detalii privind
instrumentele ETL și OLAP utilizate în proiectul dvs.
Esenta unui depozit de date consta intro baza de date de dimensiuni foarte mari continand
informatiile pe le poti folosi, utilizatorii finali( clienti furnizori companii de publicitate).
In depozitul de date intilanim, mai multe tipuri de date care corespund diferitelor cerinte
informationale ale utilizatorilor: date detailiate, date agregate, metadate. Metadatele descriu
datele continute in depozitul de date si modul in care ele sunt obtinute si stocate. Prin metadate
se precizeaza strucgtura datelor provinienta lor, reguli de transformare, de agregare si calcul.
Metadatele joaca un rol esential in alimentarea depozitului de date. Ele sunt utilizate in toate
etapele de incarcare a datelor si sunt consultate si actualizat pe tot parcursul intregului ciclu de
viata al depozitului. Includerea datelor agregate in depozit de determina o crestere a redundantei
datelor, este necesara deoarece in acest fel se pot asigura un timp mediu de raspun cat mai redus.
Sursele pt DD sunt: bazele de date operationale curente, bazele de date vechi arhivate, si bazele
de date externe.
Construirea DD presupune urmat etape:
Proces de extragere a datelor si copierea lor in DD.se transf date in formatul depozitului.
Proces de curatirea datelor pt a fi corecte, si pot fi de increde pt decizii
Proces de incarcare a datelor corecte in DD
Proces de creare de agregari ale datelor: totaluri,subtotualuri,, valori medii etc. care vor fi
folosite de utiliz
DD sunt destinate managerilor, analistilor, si specialistitlor implicati inluarea deciziilor strategice
privind organizatia,
Instrumentele OLAP se bazeaza pe reprezentarea multidimensionalaa datelor(cubul de date) prin
operatiuni rollup, drilldown, slice etc.
Instrumentele data mining asigura transformarea datelor in cunostinte.(se utiliz tehnici de
statistica, inteligenta artificiala)
Pt proiectul nostru am folosit serverul OLAP generat de SQL Analysis Manager
2. Descrieţi faptele, dimensiunile şi măsurile utilizate în construirea cubului de date
din proiectul dvs.
tabela de fapte :inventory_fact_1998: product_id, time_id, warehoure_id, store_id, units_ordered,
units_shipped, warehouse_sales, warehouse_cost, supply_time, store_invoice.
Dimensiunile utilizate pentru construirea cuburilor sunt:
Customer, Product, Warehouse, Store, Promotion, Employee, Time
Măsuri folosite pentru definirea cubului: Warehouse Cost, Warehouse Sales, Units
Ordered, Units Shipped
3. Descrieţi modelul multidimensional de date utilizat în proiectul dvs. şi expuneţi,
apoi, avantajele acestuia
Pentru a răspunde cerinţelor, tehnologia OLAP furnizează o prezentare multidimensională a datelor stocate
în depozitele de date, creând structuri multidimensionale denumite cuburi. Cubul este definit prin măsurile şi
dimensiunile pe care le conţine. Dimensiunile utilizate pentru construirea cuburilor sunt:
Customer, Product, Warehouse, Store, Promotion, Employee, Time
4. Descrieţi riscurile asociate unui proiect de depozit de date şi detaliaţi categoriile de
riscuri întâlnite de dvs. în realizarea proiectului.
Riscuri organizationale tin de structura echipei,si de cultura
organizatiei.Sustinatorul proiectului treb sa vina din zona de manag strategic si nu din IT,
initiativa DD treb sa fie orientata pe afacere.Acest rol nu treb dat unui comitet!, Provin si
de utilizatorii finali care pot obstructiona voit sau nu evol proiectului. Se poate sa ne
defineasca clar cerintele,sau daca nu sunt de acord cu proeictul ca nu au cunostinte
informatice.
Riscuri tehnologice se ref la tehnolog selectate pt planificarea si folosirea DD.
Pot proveni de la sist operational actual, sau din integrarea noilor tehnologii in arhitectura
IT a aorganiz. Folosirea inacdevata a tehnolog DD, alit scazut a sist operationale
existente,, utiliz de instrumente nepotrivite. Nu se pot folosi mai multe minidepozite,
deoarece totul treb sa fie intrun cadru unic. Calit scazuta a sist operationale poate det
echipa sa se concentreze pe “curatirea” si verif datelor de intrare neglijand esentialul
depozitului.Un sist operational defectuos va ridica problem la extragerea, transformarea
si incarcarea depozitelor de date.Instrumentele pt utilizatori treb bine analizate pentru a
stabili ce instrumente va fol fiecrae categorie.(conducere executive:nu treb instr
informatice avansate, pt utilizatorii cu experienta It trebuie sa nu fie prea simple.
Riscuri legate de manag proiectului au un umpact mare datorita resurselor
implicate si compexitatii crescute. Definirea nerealista a anvergurii proiecului. Se
recomanda implemetare incrementala, caesta metoda reduce riscurilesi minimizeaza
pierderile.Practica a dovedid ca pt operatii backend(extragere, integrare,verificarea calit
datelor, agregare, incarcare)treb 6080% din durata proiectului, iar pt front end
(instrumente OLAP,rapoate , interogari)2040%.Partea de backend trebuie foarte bine
gandita deoarece ea sprijina componenta frontend, care nu poate fi implementata pana
nu e gata frontundul.
Riscuri legate de proiectarea DD echipa treb sa faca diferenta intre sistemele
OLTP si cele DD. Sist OLTP mizeaza pe normalizarea relatiilorpt inreg eficieta a
tranzactiilor, DD treb gandit ca un cub multidimensionalcare contine tabele
denormalizate, agregari, variabile etc.O greseala este alegerea gresita agradului de
granularitate.DD contine date atomice si sintetice(agregate). Ogranularitate prea mare nu
permite obt rapoartelor detaliate, un grad scazut de granuraritate necesita un nr mare de
agregari si la capacitate sporita de stocare.
5. Enumerați rolurile cheie în dezvoltarea unui DD și detaliați rolul personalului de
specialitate.
Roluri cheie : Sustinatorul proiectului, manager IT, managerul proiectului
Sustinatorul proiectului – situat la un nivel inalt in ierarhia organiz, ofera sustinere
strategica si directioneaza mersul proiectului, se asigura ca obiectivele proiectului sunt in
concordanta cu obiectivele strategice ale org, face lobby eficient in org, pt alocare de fonduri
manager IT responsabil cu punerea in lucru a res.umane si tehnologice pt
proiect,tehnolog DD este una de varf la ora actuala dar este dependenta de sist. Operationale
traditionale si implica fol unor resurse aflate la disp manag IT.Rolul e important in toate fazele
managerul proiectului – este resp. Cu toate activit tehnice ref la implement DD.treb sa
fie un profesionist IT
Rolul personalului de specialitate :Managerul IT
In procesul de implementare manag IT:
Incarcarea regulata a DD – DD treb permanent incarcat cu date noi, volumul de munca
ce se depune pt aceasta depinde de rezultatele fazelor de extragere si tranf a datelor precum si de
frecventa cu care se realizeaza actualizarile.Incarcarea DD este sarcina echipei de intretinere a
DD , echipa subordonata Manag IT
Aplicatiile – dupa ce a fost implementat DD diversii utilizatori finali vor cere dezvoltarea
unor aplicatii, destul de personalizate, care sa se sprijine pe continutul DD.Acestea vor fi dezv de
o echipa sub manag IT
Optimizarea DD Administratorul DD monitoriz activit legate de fol datelor, statistici cu
interogaile cele mai frevente, acestea vor fi fol pt imbunatatirea DD.(indexare, agregari)
Sprijinerea utilizatorilor – raspunsuri, inform utile, de la cei care fol DD. Cela mai
frecvente vor fi luate in consid pt imbunatatirea DD.
6. Expuneți principalele aspecte privind modificarea subsistemelor componente
ale unui depozit de date
Evoluția sistemelor sursă
Utilizarea unor noi surse de date externe
Optimizarea bazelor de date Folosirea opțiunilor de interogare paralelă
Folosirea strategiilor de indexare
Anularea verificării integrității referențiale
7. Expuneți principalele tendințe în tehnologia DD
Mark Humphries,1999, Data Warehousing a schitat urmat evolutie:
Cresterea ofertei de tehnologii tip DD – Cerinta pt DD creste insemanca ca va creste si
numarul celor care dezvolta prduse DD.micii prod fuzioneaza(Apercus Tehnologies si Carleton
Corporation 1997), Firme deja existente pe piata sist de gestiunea BD vor sa asigure si facilitati
DD(achizitia Logic Works de catre Platinum Tehnologies 1998)
Sporirea utilizarii tehnolog DD in diferite domenii La inceput au fost fol telecomunicatii,
banci si comert cu amanuntul. Acum sist sanitar, asigurari, transfort, ind farmaceutica In top
telecomun+banci aloca 15% din buget pt DD.
Maturizarea tehnologiilor Data Mining – fiind din ce in ce mai folosite acestea se
maturizeaza, Initiativele data minig vin din dep de marketing si vanzare cu amanuntul.Proiectele
data minig vor accentua importanta calitatii datelor din DD.
Disponibilitatea solutiilor bazate pe web – tehnolog Ddsunt influentate de popularitatea
tehnolog Web de aceea din ce in ce mai multe instrumente de acces la date vor suporta facilitati
web, pt a oferi utilizatorilor acces de la distant. Exista rezerv privind securitatea.
8. Prezentaţi arhitectura depozitelor de date cu exemplificari din proiectul dvs.
Arhitectura DD pe trei niveluri
Nivelul de jos nivelul inferior este
DD din Microsoft visual studio
– este constituit din serverul
DD, e de obicei un sistem de baze de date relationale.Datele din bazele de date operationale si
surse externe sunt extrase folosing “gateway” – aplicatii tip interfata ce permite programelor
client sa genereze cod SQL pt a fi executat de server. Astfel datele sunt extrase, curatate,
transformate si incarcate in depozitul de date.
Nivelul mediu – la noi nivelul mediu este serverul OLAP generat de SQL Analysis Manage r
Nivelul superior – nivelul superior e Microsoft Sql Server Management Studio este nivelul
client ce contine instrumente pt generarea interogarilor si a rapoartelor , instrumente de data
mining
9.Prezentaţi aspectele importante urmărite la iniţierea şi susţinerea unui proiect DD și
detaliați situațiile când se justifică un asemenea proiect.
Inainte ca sustinatorul proiectului sa sa fie de acord cu aces rol, el se va informa si va
trebui convins de oportunitatile proiectului,
Cum vor fi afectate procesele decizionale in urma implemetarii?
Cum va reusi DD sa imbunatateasca procesele financiare, activit de marketing si activt
operationale?
Cand se justifica un proiect DD?
Care sunt costurile unui proiect DD
Ce riscuri potentisle pot afecta un proiect DD?
Cand este organiz pregatita pentru un proiect DD?
Care sunt avatajele si rezulattele uni DD si cum se masoara?
Cand se justifica:
Insuficienta partajare a informatiilor compatimentele au aceeasi clienti dar nu
comunica intre ele si se pierd oportunitati privind stabilirea profilului clientulor, sau acestora li
se solicita de multe ori aceleasi informatii.
Avantaje:
Pot fi luate decizii mai eficiente in domeniul gestiunii clientilor
Pot fi explorate noi oportunitati de afaceri
Clientii sunt tratati ca entitati individuale
Grupuri diferite care produc rapoarte contradictorii exista mai multe versiuni ale
“adevarului ”,
Decidentii treb sa analizele date conflictuale.
Beneficii
dupa rez probl:o viziune consistenta asupra operatiunilor companiei., se pot lua
decizii mai bune, bazate pe analize corecte.
Procesul de creare a rapoartelor este foarte anevoios rapoarte au o importanta critica si
trebuiesc obtinute repede pentru a fi folositoare.
Beneficiii proces de rapoarte imbunatatit, ramane mult timp pt analiza datelor, decidentii nu sint
nevoiti sa lucreze cu date invechite.
Rapoartele nu sunt dinamice si nu favorizeaza stilul de interogare adhoc odata rezolvata
aveasta problema decidentii pot obtine mai multe detalii atunci cand au nevoie, iar analizele ref
la tendinte si relatii cauzale vr fi posibile.
Rapoartele care necesita date istorice sunt dificil de realizat organiz nu va fi capabila sa
anticipeze evenimentele si schimbarile de comportament iar cererile clientilor vor veni ca o
surpriza.
10. Prezentaţi două definiţii ale depozitelor de date şi analizaţi apoi caracteristicile
depozitelor de date
Sam Anahory subliniazã finalitatea depozitelor de date precizind cã un depozit
de date include ,.datele și procesele manageriale care fac informați1e disponibile,
permițând managerilor sá ja decizii corect fundainentate”.
In concordanță cu W. H. Inmon, liderul în construirea sistemelor data warehouse, „un depozit de
date este o colecție de date orientate pe subiecte, integrate, istorice și nevolatile destinată
sprijinirii procesului de luare a deciziilor manageriale”.
Barry Devlin: un DD inseamna”o stocare a datelor unitara, completa si consistenta obtinuta
dintro varietate de surse, disponibila utilizatorilor finali intrun mod ushor perceptibil si
utilizabil in contextul afacerii”
Orientarea pe subiecte – un DD se facalizeaza pe subiecteale activitatii intreprinderii:clienti,
vanzari, profituri.DD se focalizeaza pe modelarea si analiza datelor pentru luarea deciziior.DD
ofera o viziune simpla si concisa la subiectul specific.
Integrarea un DD este contruit prin integrarea unor multiple surse heterogene:bd relationale,
fisiere, inregistrari privind tranzactii online. Tehnicile de curatare a datelor si de integrare sunt
aplicate pentru a asigura concordanta cu DD.
Caracterul istoric – datele sunt stocate pt a furniza perspectiva istorica 510 ani in urma, astfel
se poate vede evolutia in timp.
Persistenta datelor datele dintrun DD sunt permanente si nu pot fi modificate.Actualizarea
DD inseamna adaugare de date noi fara a modif sau sterge datele existente.Un DD este stocat
separat de datele transformate sau alte aplicatii.Un DD solicita doar 2 operatiuni: incarcarea
initiala a datelor si accesul la date.
11. Prezentaţi structura unei echipe pentru dezvoltarea unui proiect de depozit de date şi
descrieţi rolurile care au fost indeplinite de dvs.
● Roluri ce se recomnda a fi facute de pers din interiorul org: Comitetul de
conducere, Grupul reprezentativ al utilizatorilor, Managerul de proiect, Analistii,
Proiectantul depozitului de date, Administratul metadatelor,
Programatorii(extragere, transformare si incarcare date), Administratorul depozitului,
Sustinatorul proiectului
● O pers poate avea simultan mai multe roluri
Comitetul de conducere =reprez ai nivelului executiv pt fiec tip de utiliz ai DD. Sustinatorul
proiectului face parte din acest comitet cel mai probail este seful. Acesta primeste rapoarte
periodice in timpul implemetarii
Grupul utilizatorilor trebuie sa fie reprezentativ, ei stabilesc formatul rapoartelor, specifica
datele cerute, reguli de afaceri, interogari predefinite, testeaza iesirile din DD, pe durata analizei
erintelor si a proiectarii DD acestia petrec 80% din timp pt proiect,.la fel si in faza de
testare(utilitatii si corectitudinii) a proiectului.
Conducatorul depozitului – raporteaza comitetului evolutia proiectului, responsabil pt intalniri
la termene prestabilite, de predare proiect, este manager econ, impreuna cu manag de proiect
defineste strategia DD,
Managerul proiectului – experienta bogata IT+gestiune proiectelor, este responsabil de
implemetarea proiectului, si +conduc depozit definesc strategia DD
Analistii economici – fac leg dintre utilizatori si tehnicienii din echipa de proiectare, ei sunt cei
care modeleaza cerintele.rol critic in gestiunea asteptarilor utiliz finali
Arhitectul DD – analizeaza cerintele si proiecteaza structutrile de date din DD.El treb sa
rezolve problemele aparute la evolutia depozitului
Administratorul Metadatelor – defineste metadatele standard si gestioneaza dictionarul de
metadate din DD.
Fig:
Sustinatorul proiectului(comitetul de conducere)
Conducatorul depozitului,manager proiect depozit,arhitect DD
Administrator metadate, arhitect tehnic si de retea
Analist economic, utilizator reprezentativ, instructor, administrator BD, Programatori pt conversie
si extragere, administrator BD sursa