Sunteți pe pagina 1din 30

UNIVERSITE MOHAMMED V AGDAL Facult des Sciences Rabat

DATAWAREHOUSE
Architecture et technique de ce composant de l'informatique dcisionnelle. Impact sur l'architecture du systme d'information (alimentation, restitution, serveur). Les volutions pour le DATAWAREHOUSE distribu.

Ralis par :

Abbes RHARRAB Brahim JIHAD Mohcine ELJABIRY Nada LAMNAKER

1. 2. 3. 4. 5. 6.

7.

Introduction Quelques dfinitions Systme d'information dcisionnel Architecture dun DataWarehouse Alimentation du DataWarehouse Lvolution du DataWarehouse Conclusion

Linformatique dcisionnelle (en anglais : DSS pour Decision Support System ou encore BI pour Business Intelligence) dsigne les moyens, les outils et les mthodes qui permettent de collecter, consolider, modliser et restituer les donnes, matrielles ou immatrielles, d'une entreprise en vue d'offrir une aide la dcision et de permettre aux responsables de la stratgie d'entreprise davoir une vue densemble de lactivit traite. Ce type dapplication utilise en rgle gnrale un entrept de donnes (ou DataWarehouse en anglais) pour stocker des donnes transverses provenant de plusieurs sources htrognes (techniquement Excel, DB2, Oracle, SQL SERVEUR..., et fonctionnellement RH, Production, Compta, finance...) et fait appel des traitements par lots pour la collecte de ces informations.

Qui sont mes meilleurs clients?

Pourquoi et comment le chiffre daffaire a baiss? A combien slvent mes ventes journalires?

Quels franais consomment beaucoup de poisson?

Besoin: prise de dcisions stratgiques et tactiques

Pourquoi: besoin de ractivit


Qui: les dcideurs (non informaticiens) Comment: rpondre aux demandes danalyse des donnes, dgager des informations qualitatives nouvelles

Datawarehouse
Dfinition de Bill Inmon (1996): Le datawarehouse est orient sujets, cela signifie que les donnes collectes doivent tre orientes mtier et donc tries par thme; Le datawarehouse est compos de donnes intgres, C.A.D qu'un nettoyage pralable des donnes est ncessaire dans un souci de rationalisation et de normalisation; Les donnes du datawarehouse doivent tre historises, donc dates. L'organisation des donnes est conue pour que les personnes intresses aient accs rapidement et sous forme synthtique l'information stratgique dont elles ont besoin pour la prise de dcision.

Le Datawarehouse nest pas un produit ou un logiciel mais un environnement, qui se btit et ne sachte pas.

Datamart
Sous ensemble d'un entrept de donnes, contenant des informations se rapportant un secteur d'activit particulier de l'entreprise ou un mtier qui y est exerc (commercial, marketing, comptabilit, etc).

ETL (Extract, Transform, Load)


Outil informatique destin extraire des donnes de diverses sources (bases de donnes de production, fichiers, Internet, etc.), les transformer et les charger dans un entrept de donnes.

Datamining
Ou ( forage de donnes ), a pour objet lextraction d'un savoir ou d'une connaissance partir de grandes quantits de donnes, par des mthodes automatiques ou semiautomatiques.

Cube et hypercube
Reprsentation abstraite d'informations multidimensionnelles exclusivement numriques utilise par l'approche OLAP (On-line Analytical Processing)

Aujourdhui la situation de march est telle, que toute entreprise possde un systme dinformation dcisionnel. Celui-ci pourra tre plus ou moins complexe et labor, allant du simple tableau sous Excel lentrept de donnes. Le service attendu dun systme dcisionnel est davoir une vue synthtique de lentreprise, ceci dans le but de pouvoir prendre des dcisions stratgiques concernant les directions et engagement prendre. Datamarts du service Compta

DataWarehouse de lEntreprise

Datamart du service RH

Tout systme dinformation dcisionnelle, telle que le DataWarehouse mettent en uvre cinq fonctions fondamentales :

sont

les

La collecte Lintgration La diffusion La prsentation Ladministration

En pratique, les fonctions de collecte et d'intgration sont troitement lies entre elles, et sont gnralement associes au DATAWAREHOUSE. De mme, diffusion et prsentation sont des fonctions fortement "orientes sujet", tournes vers l'utilisateur et son mtier, manipulant des contenus forte valeur ajoute informationnelle et non des donnes brutes; elles sont donc fortement imbriques logiquement et techniquement.

La chane dcisionnelle est compose de trois parties : Alimentation du DataWarehouse Modlisation Restitution des donnes : Analyse et prise des dcisions

Bases de production

Prise de Dcision

DataWarehouse

Base multi dimensionnelle

Les systmes oprationnels, bases de donnes indispensable la vie dune entreprise, permet davoir une activit journalire (gestion de stocks, base de fournisseurs/clients, etc.). Ceci nest pas le rle dun datawarehouse, coupl des outils de datamining il na pour unique but de faciliter la prise de dcision en apportant une vue synthtise de lensemble des donnes de lentreprise parpilles dans toutes ces bases oprationnelles.

Un DataWarehouse est caractris par quatre concepts : Orients sujet: On dit dun DW quil est orient sujet car il regroupe en son sein des
informations des diffrents mtiers (fabrication, achats, qualit) de lentreprise.

bases de diffrents types (excel, oracle, etc.) pour faire face a ce problme un DW est intgr, il regroupe ainsi lintgralit des donnes de lentreprise. Cela a comme avantage direct de simplifier la politique daccs aux donnes aux utilisateurs tout en facilitant laccs pour la prise de dcision. figes dans le temps.

Intgrs: Souvent chaque mtier dune entreprise stocke ses informations dans des

Historiss: C'est--dire que les donnes contenues dans un entrept de donnes reste Non-volatiles: Apres le chargement des donnes dans le DW, celles-ci nvolues plus.

Les donnes sont non-volatiles. Cela permet de figer les informations au moment de lalimentation du DW

Les mta-donnes: donnes sur les donnes. permettent de stocker des informations telles que le nom de la base de production dont la donne est extraite, la date et lheure de la dernire extraction, etc

Il ya trois parties interdpendante qui relve la construction dun Datawarehouse: Ltude pralable qui va dfinir les objectifs, la dmarche suivre, le retour sur investissement, Ltude du modle de donnes qui reprsente le DW conceptuellement et logiquement Ltude de lalimentation du Datawarehouse

Ltude pralable

Etude des besoins:


Dfinir les objectifs du DW Dterminer le contenu du DW et son organisation Recenser les donnes ncessaires un bon fonctionnement du DW Choisir les dimensions Choisir les mesures de fait Choisir la granularit des faits

Cots de dploiement:
Ncessite des machines puissantes, souvent une machine parallle Capacit de stockage trs importante (historisation des donnes) Equipes de maintenance et dadministration Les cots des logiciels

Modlisation

Un DW est bas sur une modlisation multidimensionnelle qui reprsente les donnes dans un cube Un cube permet de voir les donnes suivant plusieurs dimensions:
Tables de dimensions La table des faits contient les mesures et les cls des dimensions

Plusieurs schmas types sont proposs pour reprsenter un DW:


Schma en toile; Schma en flocon;

Modlisation
Schma en toile Une (ou plusieurs) table(s) de faits : identifiants des tables de dimension ; une ou plusieurs mesures . Plusieurs tables de dimension : descripteurs des dimensions.

Modlisation
Schma en flocon Raffinement du schma toile avec des tables normalises par dimensions

Une architecture informatique dcisionnelle est gnralement constitue des lments suivants : Les bases de production contenant les informations Le STAGING Area, zone de stockage des donnes avant traitement. Le DATAWAREHOUSE, lentrept de donne lui-mme. Les DATAMARTS, cubes affichant une vue mtier.

Online

dsigne les bases de donnes multidimensionnelles ou cubes destines l'analyse. OLAP a t dfini par TED CODD en 1993 au travers de 12 rgles que doit respecter une base de donnes si elle veut adhrer au concept OLAP. OLAP est un mode de stockage prvu pour lanalyse statistique des donnes. Une base de donnes OLAP peut se reprsenter comme un cube N dimensions

Analytical

Processing

(OLAP),

(1) Relational OLAP (ROLAP)


Donnes sont stockes dans un SGBD relationnel Un moteur OLAP permet de simuler le comportement d'un SGBD multi-dimensionnel Avantages/inconvnients
Souplesse, volution facile, permet de stocker de gros volumes. Mais peu efficace pour les calculs complexes

(2) Multidimensional OLAP (MOLAP)


Structure de stockage en cube Accs direct aux donnes dans le cube Avantages/inconvnients
Rapide. Ne supporte pas de trs gros volumes de donnes

(3) Hybrid OLAP (HOLAP)


Donnes stockes dans SGBD relationnel (donnes de base) + structure de stockage en cube (donnes agrges)

Un hypercube OLAP (ou cube OLAP) est une reprsentation abstraite d'informations multidimensionnelles exclusivement numrique utilis par l'approche OLAP (acronyme de On-line Analytical Processing). Cette structure est prvue des fins d'analyses interactives par une ou plusieurs personnes (souvent ni informaticiens ni statisticiens) du mtier que ces donnes sont censes reprsenter. Les cubes OLAP ont les caractristiques suivantes :

obtenir des informations dj agrges selon les besoins de lutilisateur. simplicit et rapidit daccs capacit manipuler les donnes agrges selon diffrentes dimensions un cube utilise les fonctions classiques dagrgation : min, max, count, sum, avg, mais peut utiliser des fonctions dagrgations spcifiques

Les donnes contenues dans un datawarehouse sont issues des diffrentes bases de donnes de lentreprise. Ces bases de production, systmes oprants de lentreprise, correspondent lensemble des applications informatiques utilises au quotidien dans lentreprise pour son activit (gestion de production, gestion bancaire, gestion commerciale,...). Les informations qui y sont stockes, propres chaque application, peuvent parfois tre utilises par dautres programmes, par lintermdiaire de transferts de donnes, couramment appels interfaces.
Nous allons donc voir dans ce chapitre les outils et les mthodes permettant dalimenter un datawarehouse tout en minimisant limpact sur les systmes de productions.

Loutil dalimentation permet de paramtrer des rgles de gestion, propres lentreprise et son secteur dactivit. Ces rgles visent elles aussi assurer la cohrence entre les donnes et ne stocker dans lentrept de donnes que des informations pralablement mises en relation les unes avec les autres. Dfinition
Extract-Transform-Load est connu sous lacronyme ETL (ou parfois : datapumping). Il s'agit d'une technologie informatique middleware permettant d'effectuer des synchronisations massives d'information d'une banque de donnes vers une autre. Selon le contexte, on traduira par alimentation , extraction , transformation , constitution ou conversion , souvent combins. Cette technologie est base sur trois outils : des connecteurs servant exporter ou importer les donnes dans les applications (Ex : connecteur Oracle ou SAP...) des transformateurs qui manipulent les donnes (agrgations, filtres, conversions...) des mises en correspondance (mappages).

De part sa nature, un datawarehouse est aliment via les informations de lentreprise. Or ces informatique sont stock sous les formes les plus htrogne. On peut retrouver ainsi plusieurs type de base de donnes (access, DB2, MySQL,), des tableurs, des fichiers a plats Il existe une quasi infinit de format de source. En gnrale, on retrouve trois types de contraintes la mise en uvre dun datawarehouse : Alimentation des donnes de production aux normes des donnes du rfrentiel. Organisation du stockage des informations. Sur le plan fonctionnel, garantir lintgrit des donnes par des dfinitions uniques et rutilisables par tous les utilisateurs.

Extract: L'extraction des donnes est la premire des tapes des systmes ETL. Le but de cette tape, est comme son nom lindique : la lecture et lextraction des donnes du systme source. Transform: La transformation est la tche la plus complexe et qui demande beaucoup de rflexion. Load: Le chargement permet de transfrer les donnes vers leur destination finale.

Quelques Outils d'ETL : Apatar CloverETL GeoKettle Pentaho Data Integration Scriptella Talend Open Studio

Actuellement il existe trois catgories doutils ETL : Engine-based : les transformations sont excutes sur un serveur ETL, disposant en gnral dun rfrentiel. Ce genre doutil dispose dun moteur de transformation ; Database-embedded : les transformations sont intgres dans la base de donnes. Cette fonctionnalit est trs consommatrice de ressource sur la base de donnes. Code-generators : les transformations sont conues et un code est gnr. Ce code est dployable indpendamment de la base de donnes. La mise en place d'un systme ETL demande une expertise spciale et fait appel plusieurs types de ressources humaines.

Ces dernires annes, le datawarehouse et le datamining ont volus en optimisant certains process ou stockage. Mais cest surtout le hardware, toujours plus puissant, plus rapide qui a permis de traiter ce volume de donne toujours plus important. Aujourdhui, il est courant de voir des datawarehouses de plusieurs traoctets !!! Mais une vritable rvolution est en train de natre. Certaines socits, comme SUN, IBM, SAS, spcialises dans le business intelligence autrement dis dans linformatique dcisionnelle, ont russi porter le datawarehouse et surtout les outils de datamining sur une plateforme distribue de type grille (grid computing)

Un datawarehouse correctement aliment permet au dcideur, personne en charge des dcisions majeures dune entreprise, d'tablir des statistiques d'volution ou de construire des plans. Cela est rendu possible par le fait quun datawarehouse regroupent lensemble des donnes de lentreprise. Mais extraire une synthse partir dun tel volume de donne (souvent de lordre de plusieurs traoctets) nai pas chose aise. Il faut une architecture du systme adquate. Les donnes peuvent tre spares par vue mtier au sein de mini datawarehouse nomm datamarts et coupl avec un mode de stockage en cube OLAP

S-ar putea să vă placă și