Documente Academic
Documente Profesional
Documente Cultură
Desnos
Entrept de donnes 1
(data warehouse)
Introduction
1 Prsentation
Le concept dentrept de donnes a t formalis pour la premire fois en 1990 par Bill Inmon. Il
sagissait de constituer une base de donnes oriente sujet, intgre et contenant des informations
historises, non volatiles et exclusivement destines aux processus daide la dcision.
En effet, la simple logique de production (produire pour rpondre une demande) ne suffit plus pour
prenniser l'activit d'une entreprise. Elle est un systme ouvert sur son environnement au coeur des
systmes d'informations confronte des phnomnes conomiques et sociaux lourd de consquences.
Pour faire face aux nouveaux enjeux, lentreprise doit collecter, traiter, analyser les informations de son
environnement pour anticiper. Mais cette information produite par l'entreprise est surabondante, non
organise et parpille dans de multiples systmes oprationnels htrognes et peut provenir de toutes
les places de marchs (mondialisation des changes).
Il devient fondamental de rassembler et dhomogniser les donnes afin de permettre l'analyse des
indicateurs pertinents pour faciliter la prise de dcisions. Lobjet de lentrept de donnes est de dfinir
et dintgrer une architecture qui serve de fondation aux applications dcisionnelles.
Dfinition :
Un entrept de donnes est une collection de donnes thmatiques, intgres,
non volatiles et historises pour la prise de dcisions (Bill Inmon)
Linfrastructure technique mise en uvre est capable dintgrer, dorganiser, de stocker et de coordonner
de manire intelligible des donnes produites au sein du Systme dInformation (issues des applications de
production) ou importes depuis lextrieur du SI (loues ou achetes) dans lesquelles les utilisateurs
finaux puisent des informations pertinentes laide doutils de restitution et danalyse (OLAP2,
Datamining3 ).
Les points clefs garantissant le succs d'un entrept de donnes sont les suivants :
- Les informations d'un entrept de donnes doivent tre accessibles et fiables (de qualit).
- La conception d'un entrept de donnes doit rpondre un besoin de ROI4 lev.
- La rponse aux demandes trs diverses des utilisateurs.
- Lentrept de donnes doit voluer avec les besoins des utilisateurs et du systme d'information.
J.-F. Desnos
Donnes dcisionnelles
Donnes intgres
Un Entrept de donnes est un projet d'entreprise et concerne les diffrents services et mtiers de
l'entreprise. Lintgration de donnes, au sein dun entrept de donnes, est donc un processus dterminant
sur la qualit et la quantit dinformations disponibles aux utilisateurs pour le processus de dcision.
Cette phase, que nous verrons plus en dtail avec les outils ETL6, implique que les donnes doivent tres
mises en forme et unifies afin d'avoir un tat cohrent. Pour parfaire cette cohrence, lintgration
5 Datamart ou Magasin de donnes : petit entrept de donnes, en gnral spcialis dans un domaine mtier
6 ETL : acronyme de Extract Transform and Load
J.-F. Desnos
ncessite une forte normalisation de donnes. Mais aussi la matrise de la smantique, la prise en compte
des contraintes rfrentielles et des rgles de gestion. Ces notions sont nonces, dtailles et administres
au sein des mtadonnes de lentrept de donnes.
C'est ainsi que l'on pourra donner une bonne vision de l'entreprise via l'utilisation d'indicateurs.
Donnes historises
L'historisation est ncessaire pour suivre dans le temps l'volution des diffrentes valeurs des indicateurs
analyser. Ainsi, un rfrentiel temps doit tre associ aux donnes afin de permettre l'identification dans la
dure de valeurs prcises.
Donnes non volatiles
Afin de conserver la traabilit des informations et des dcisions prises, les informations stockes au sein
de lentrept de donnes ne peuvent tre supprimes.
Modlisation de donnes
J.-F. Desnos
7 Cube : Une construction multidimensionnelle forme de la conjonction de plusieurs dimensions. Chaque cellule est
dfinie par une seule valeur de chaque dimension.
J.-F. Desnos
Les indicateurs les plus utiles dune table de faits sont numriques et additifs. Ladditivit des attributs
dune table de faits est cruciale pour les outils dcisionnels. Les utilisateurs demandent rarement lanalyse
dune seule ligne. Dans notre exemple, constater les ventes de produits sur une anne pour les magasins
dune rgion demande l'analyse de plusieurs milliers de lignes la fois.
Pour autant, tous les attributs utiles ne sont pas additifs. Certains sont semi additifs et ne peuvent tre
additionns que pour certaines dimensions.
Dautres sont non additifs et ne peuvent pas tre additionns par dimensions. Pour cette dernire catgorie,
on utilise des fonctions d'agrgations tel que, le calcul de moyenne, le ratio ou le comptage de lignes.
Les dimensions
Les tables de dimensions sont les entits complmentaires la conception de la table de faits. Elles
contiennent, autant que possible, des attributs sous forme de descriptions textuelles permettant de qualifier
ou dexpliquer lactivit.
Des attributs de dimensions, nombreux, permettent de varier les possibilits danalyse (par tranches ou en
ds). Ces attributs rendent utilisables et intelligible les donnes de lentrept de donnes. Ils tablissent, en
quelque sorte une interface homme/entrept de donnes.
En gnral, les tables de dimensions tendent tre peu profondes mais elles sont larges (l'inverse de la
table de faits), en dautres termes elles ont peu de lignes mais beaucoup de colonnes.
Tables de dimension "Produit"
Cl produit (CP)
Description du produit
Numro US (cl naturelle)
Description de la marque
Description de la catgorie
Description du rayon
Description du type d'emballage
et bien d'autre attributs
J.-F. Desnos
Le schma en flocon
Dans un schma en flocon, cette mme table de faits, rfrence les tables de dimensions de premier
niveau, au mme titre que le schma en toile. La diffrence rside dans le fait que les dimensions sont
dcrites par une succession de tables ( laide de clefs trangres) reprsentant la granularit de
l'information. Ce schma vite les redondances dinformation mais ncessite des jointures lors des
agrgats de ces dimensions.
Les schmas en constellation de faits
Dans un schma en constellation, plusieurs modles dimensionnels se partagent les mmes dimensions,
c'est--dire, les tables de faits ont des tables de dimensions en commun.
Pour conclure, les diffrences entre ces trois modles sont faibles et ne peuvent donner lieu des
comparaisons de performance. Ce sont des schmas issus de la modlisation dimensionnelle utiliss par
les outils dcisionnels.