Documente Academic
Documente Profesional
Documente Cultură
Introduction
L’enjeu des années 2000 pour les entreprises :
• Augmentation de la réactivité.
• Augmentation de la concurrence.
• Diversité des produits.
• Ouverture des marchés, etc.
Contexte de la BI
Besoin: Améliorer les performances décisionnelles de l'entreprise :
• Décisions stratégiques
• Décisions rapides
Problématique
Problèmes à prendre en compte
Distribuée
Hétérogène
Très Détaillée
– A traiter :
Synthétiser / Résumer
Visualiser
Analyser
NON informaticiens
Défi : Transformer leur système d’information qui avait une vocation de production à un SI
décisionnel dont la vocation de pilotage devient majeure.
Applications
Banque, Assurance
Commerce
– ciblage de clientèle
Économétrie
Web
– Restructuration des sites
Systèmes transactionnels
Le transactionnel réfère à un mode d’exploitation de données tourné vers la saisie, le
stockage, la mise à jour, la sécurité et l’intégrité des données.
Le système transactionnel réfère aux bases de données développées afin de gérer les
transactions quotidiennes
Très souvent plusieurs de ces systèmes existent indépendamment les uns des autres
dans les grandes organisations
Ajout
Effacement
Requêtes simples
Obstacles à l’analyse dans les systèmes transactionnels
Les bases de données transactionnelles sont habituellement normalisées de telle
sorte que la duplication des données est minimum :
– Nombre élevé de tables donc nombre élevé de jointures nécessaires entre les
tables (performance pauvre)
De plus, les types d’analyses servant aux processus de décision des organisations
nécessitent:
– Données historiques
Entrepôts de données
Origine de deux besoins distincts mais complémentaires :
“Un DataWarhouse (DW) est une collection de données thématiques, intégrées, non
volatiles et historisées, organisées pour la prise de décision.”
Caractéristiques :
Le business intelligence :
regroupe l’ensemble des moyens pour répondre aux besoins utilisateurs, de mise à
disposition et d’analyse des données relatives à leurs activités.
Fonctions essentielles de l’Informatique Décisionnelle
Datamart
Sous-ensemble d’un entrepôt de données
DW de l’entreprise
Flux sortant:
Nettoyage
Normalisation…
Zone de présentation
Rapports
Requêtes…
Cycle de vie décisionnel
La planification
Il est essentiel de bien comprendre les utilisateurs et leurs besoins, sinon l'entrepôt
deviendra rapidement un exercice vain de la part de l'équipe des concepteurs.
Les besoins une fois définis constituent le point de départ de trois trajectoires parallèles que
sont la technologie, les données et les interfaces utilisateurs.
Cette étape est fondamentale. En effet il n'y a pas de secret. Si vous voulez travailler dans le
décisionnel vous êtes obligé de connaître le métier de l'entreprise pour laquelle vous
travaillez. Alors si vous êtes nouveaux, familiarisez-vous avec les termes utilisés, regardez sur
l'intranet de l'entreprise ou sur leur site. Il y'a beaucoup d'informations cachées là dedans. Et
une astuce qui m'a beaucoup aidé c'est de se familiariser avec les différents
logiciels/progiciels utilisés dans l'entreprise. Ne les utilisez pas en environnement de
production mais créez plutôt votre propre environnement de test sur lequel vous êtes libre
pour vos tests. Je peux vous assurer que cela est très utile ! Vous pouvez aussi utiliser le bon
vieux SQL pour faire de petites requêtes afin de se faire une idée des données disponibles
dans le référentiel métier.
Un autre élément tout aussi important que l'étude de l'environnement est la connaissance
et l'interview des acteurs métiers. Bien évidemment il faudra tout d'abord bien connaître
l'organigramme de l'entreprise et savoir qui s'occupe de quoi. Et si on ne connaît pas bien
l'organigramme on pourrait prévoir les bonnes questions à poser aux bonnes personnes.
Après interview, il est toujours bien de faire un compte rendu de réunion. A partir des
comptes rendus de réunion il faudra d'abord classer les besoins en thèmes ou sujets
d'analyse.
Chaque département ou secteur de l'entreprise a ses propres besoins et ces besoins peuvent
faire appel au même processus. Par exemple, les marketeurs (département marketing)
peuvent avoir besoin d'analyser l'intéressement des jeunes à une catégorie de produits. De
même, les commerciaux (département vente) peuvent avoir besoin de connaître le chiffre
d'affaire de la région Ile-de-France en termes d'achat de portables par exemple. Ces deux
catégories de besoins utilisent tous les deux le processus " commande ". On risque de
répéter le même processus si l'on tient compte de la demande de chacun des deux
départements séparément.
Structure physique
Architecture technique
o des besoins
o de l'environnement existant
Composants
o SGBD
o Outils d'extraction
o Outils de restitution
Une fois les produits évalués et sélectionnés, ceux-ci doivent être installés et testés
afin de garantir une intégration adéquate d'un bout à l'autre de l'environnement de
l'entrepôt.
Applications utilisateurs
Déploiement
o La technologie
o Des données
II. La Modélisation
Cycle de vie décisionnel
L’analyse
Le but du jeu est de déceler les axes d'analyses (les dimensions) avec leurs attributs
ainsi que les éléments à analyser (les faits).
Savoir comment les analystes organisent leurs raisonnements, savoir ce que voient
les décideurs avant de décider, connaître les indicateurs de bonne santé de
l'entreprise et de la concurrence.
Une manière très pratique de modéliser un cas en BI se fait comme suit (table
décisionnelle) :
Modélisation Entité/Association
Avantages:
– Normalisation:
Modélisation des DW
Nouvelle méthode de conception autour des concepts métiers
– Table de faits
– Table de dimensions
– Modèle en étoile
– Modèle en flocon
Faits (définition)
Fait:
– C'est une information qui contient les données observables (les faits) que l'on
possède sur un sujet et que l'on veut étudier, selon divers axes d'analyse(les
dimensions).
Fait:
Additif
Semi additif
Non additif
Contient les données observables (les faits) sur le sujet étudié selon divers axes
d’analyse (les dimensions)
Une table de faits contient les clés associées aux dimensions. Il s'agit des clés
étrangères vers les dimensions.
Elles sont numériques et sont utilisées pour faire des SUM, AVG...
Les mesures (Mes1, Mes2,…Mesn) doivent référer et avoir un lien direct avec les clés des
dimensions (Date Cal, Id Dim1, Id Dim2, ..., Id DIM) dans la même table.
Répondre à la question :
– Exemple: une ligne de commande par produit, par client et par jour
Dimension: définition
Une dimension est une ''table'‘ qui représente un axe d'analyse selon lequel on veut
étudier les données observables(les faits) qui, donnent aux utilisateurs des
renseignements nécessaires à la Prise de décision.
On appelle donc ''dimension'' un axe d'analyse. Il peut s'agir des Clients ou des
Produits d'une entreprise, d'une Période de temps.
Table de dimension
Axe d’analyse selon lequel vont être étudiées les données observables (faits)
Exemple:
Une clé de substitution (Surrogate key) est une clé non significative utilisée afin de
substituer la clé naturelle (Business Key) qui provient des systèmes opérationnels.
Dans un système opérationnel, on utilise une clé artificielle afin d'identifier d'une
façon unique un élément de l'entité : (client_id pour l'entité client, emp_id pour
l'entité Employé).
La clé de substitution ne doit pas être confondue avec la clé artificielle attribuée par
les systèmes opérationnels.
La clé de substitution est alors utilisée dans un entrepôt de données pour remplacer
et compléter la clé artificielle du système opérationnel.
Les Fonctionnalités
Les avantages
Performance : Accélère l'accès aux données du moment où l'on va utiliser un index
numérique vu que le type de données de la clé de substitution est numérique.
Indicateur effectif : En général est 'O' si l'enregistrement est toujours actif (Date
retrait est nulle), 'N' sinon.
La dimension Temps
Commune à l’ensemble du DW
Jour
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
– Temps :
« Raider » en « Twix »
Avantage:
Inconvénients:
Avantages:
Inconvénient:
Avantages:
Inconvénient:
– Solution:
Exemple :
Si l'on veut préserver l'historique des changements d'adresse dans la dimension
«Clients» dans un pays où 70% de la population déménage une fois par année (le 1er
juillet par exemple au Canada).
La dimension «Clients» devient dans ce cas une dimension à évolution rapide (RCD:
Rapid Changing Dimension)
Modélisation d’un DW
Modèle en étoile
o Avantages:
Facilité de navigation
o Inconvénients:
Alimentation complexe.
Modèle en flocon
Une table de fait et des dimensions décomposées en sous hiérarchies.
La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit
qu’elle a la granularité la plus fine.
o Avantages:
o Inconvénients:
Il s’agit d’une structure qui résulte de la meilleure combinaison des deux types de
modèles précédents.
Seules quelques dimensions seront normalisées, souvent il s’agit des plus grandes
tables et celles contenant le plus de redondance.
Modèle en constellation
Modélisation multidimensionnelle
Exemples :
– Grandes distribution :
CA annuel : 80 000 M
Volume du DW :
– Téléphonie :
Volume du DW :
– 100 millions * 1 095 jours * 24 octets = 3,94 To
– Cartes de crédit :
Volume :
• Un cube OLAP est une structure de données supérieure aux bases de données
relationnelles grâce à une analyse rapide des données.
• Les cubes peuvent afficher et additionner de grandes quantités de données.
• OLAP est un type d'application informatique orienté vers l'analyse sur-le-champ
d'informations selon plusieurs axes.
• Cette structure est prévue à des fins d'analyses interactives par une ou plusieurs
personnes (souvent ni informaticiens ni statisticiens) du métier que ces données sont
censées représenter.
⇒ « Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des
données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation »
(Caron, 1998)
Objectifs attendus
Catégorie de logiciels : S’exprime par une grande quantité de produits logiciels disponibles
sur le marché ;
Exploration et analyse rapide : OLAP vise à assister l’usager dans son analyse en lui facilitant
l’exploration de ses données et en lui donnant la possibilité de le faire rapidement ;
Facilité : L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces
complexes, et il interroge directement les données, en interagissant avec celles-ci
Rapidité :
Plusieurs niveaux d’agrégation : Les données peuvent être groupées à différents niveaux de
granularité (niveau de détail des données emmagasinées dans une base de données).
⇒ les regroupements sont pré-calculés, par exemple, le total des ventes pour le mois
dernier calculé à partir de la somme de toutes les ventes du mois.
Les règles
Edgar .Frank. Codd définit 12 règles de base permettant de qualifier le concept global
nommé OLAP :
Vocabulaire OLAP
Dimension :
Une dimension peut être définie comme un axe d’analyse selon lequel les données seront
analysées
Une dimension contient des membres organisés en hiérarchie, chacun des membres
appartenant à un niveau hiérarchique (ou niveau de granularité) particulier
- Ex. Pour la dimension Temps, les années, les mois et les jours peuvent être des
exemples de niveaux hiérarchiques. 1998 est un exemple de membre du niveau
Année.
Fait/Mesure :
Une mesure est un élément de donnée sur lequel portent les analyses, en fonction des
différentes dimensions
Cube :
Voyons maintenant comment peut-on utiliser ce cube. Pour cela, nous allons nous intéresser
aux différentes vues de ce cube.
Vue n° 2 : On s'intéresse aux ventes de la catégorie "vêtements pour enfants" (tous les
magasins durant toute les mois)
Vue n° 3 : On s'intéresse à toutes les ventes durant le mois de Février (toutes catégories
confondues et dans tous les magasins)
Vue n° 4 : On s'intéresse aux ventes du magasin d'ANNECY dans la catégorie "vêtements
pour enfants" durant le mois de Février)
Opérateurs OLAP
• Opérateurs liés à la structure
• Opérateurs liés à la granularité
• Opérateurs ensemblistes
Drill down sur la mesure ‘CA’ selon la valeur ''Lyon'‘ de la dimension ‘’ville ‘’
Rotate :
Pivoter (pivot, swap) : Rotation des axes du cube pour fournir une vue alternative des
données (Exemple: interchanger 2 dimensions).
Base de données :
Serveur OLAP :
Module client :
Serveur ROLAP
Client OLAP
Base de données
relationnelle
(étoile ou flocon) Vue
multidimensionnelle
Les données détaillées de base de l’entrepôt sont stockées dans une base de
données relationnelle et les données agrégées sont stockées dans une base de
données multidimensionnelle;
Le serveur HOLAP accède à les deux bases de données et les présente au module
client, selon une vue multidimensionnelle dans le cas des données de la BD
relationnelle ;
Structure multidimensionnelle
OLTP vs OLAP
Les Outils
Un marché fragmenté :
– Constitution du DataWarehouse
– Stockage
– Extraction d’Information
– Outils Métier
Quelques systèmes
• Intelligent miner d’IBM (couplé avec le SGBD DB2) : Classification, association,
régression, analyse de séquences, regroupement
• Entreprise miner de SAS : Multiples outils d’analyse statistique, classification, …
• Mine set de Silicon graphics. : Classification, association et divers outils statistiques.
Très puissant en termes de visualisation
• Clémentine de SPSS : En plus des fonctionnalités classiques, l’utilisateur peut y
rajouter ses propres algorithmes
• DBMiner de DBMiner technologie. : Il se distingue par le fait qu’il incorpore les
fonctionnalités d’OLAP
Le processus ETL
Le plan ETL est comme suit :
• Phase d'ETL ;
Extraction de données ;
Transformation de données ;
Alimentation d'un ED ;
• ETL sous SQL server.
Après avoir conçu le modèle des données, comment alimenter l'ED ?
Processus d'ETL
(Extracting – Transforming – Loading)
Il est important de savoir que la réalisation de l'ETL constitue 70% d'un projet décisionnel en
moyenne. Et ce n'est pas pour rien, ce système est complexe et ne doit rien laisser
s'échapper.
Problèmes rencontrés
• Souvent peu d’entreprises ont des logiciels qui permettent la création d’ETL, car ce
sont des outils coûteux. Il faut souvent réaliser l’alimentation à la main.
• La fréquence de mise à jour du DataWareHouse (quotidiennement,
hebdomadairement, mensuellement, …) peut influencer sa structure.
• Penser à la volumétrie des sources de données et à la fréquence de mise à jour.
• Faire attention aux environnements trop mouvants, c’est à dire aux mises à jour trop
fréquentes.
• Synchroniser l’alimentation des différents Data Mart qui composent son outil
décisionnel sinon on peut obtenir des rapports dans la phase de RESTITUTION
faussés.
Extraction
• Extraire des données des systèmes de production
• Dialoguer avec différentes sources:
Base de données,
Fichiers,
……
• Utilise divers connecteurs :
ODBC,
SQL natif,
Fichiers plats
Transformation
• Rendre cohérentes les données des différentes sources ;
Transformer, nettoyer, trier, unifier les données ;
Exemple: unifier le format des dates
(MM/JJ/AA JJ/MM/AA).
• Etape très importante, garantit la cohérence et la fiabilité des données ;
Chargement
• Insérer ou modifier les données dans l’entrepôt
• Utilisation de connecteurs:
ODBC,
SQL natif,
Fichiers plats
Exemple ETL : Charger les données d’une table (dbo.clients) d’une BD(source) vers une autre
table (dbo.custumer) d’une autre BD(destination) avec modification des données.
1. Dans BIDS, cliquez sur "Fichier", sur "Nouveau" puis sur "Project".
2. nous allons donc choisir Projet Integration Services, Après validation par OK.
5. Vous vous trouvez désormais dans l'onglet flux de contrôle (Data Flow), dans cet
onglet, sélectionner l’outil Source OLE DB et le faire glisser sur l’espace de travail.
6. . Double cliquer dessus, vous êtes maintenant dans le menu OLE DB Source editor ,
dans l'onglet gestionnaire de Connexions (Connexion manager) , sélectionner la
base de données et la table dont vous voulez exporter les données.
7. Puis passer dans l'onglet Colonnes (Column) vérifier que les colonnes de la table sont
bien toutes présentes et sélectionner celles dont vous voulez exporter le contenue.
8. Ensuite, sélectionner l'outil colonne dérivée (Derived Column) , reliez le à
l’outil Source OLE DB puis double cliquez dessus
9. Vous vous trouverez ensuite dans le menu éditeur de transformation de la colonne
dérivée (Derived Column Transformation Editor), c'est dans ce menu que la
modification des données se fait, vous pouvez insérer une colonne ou effectuer des
modifications grâce aux différents outils se trouvant à droite de la fenêtre. Il vous
suffit de remplir les champs se trouvant en bas de la fenêtre, donnez un nom à votre
colonne, choisir d'en créer une ou d'en remplacer une, puis choisir le contenu de
votre colonne. Dans notre cas, nous allons modifier le nom des clients, dans la table
destinataire, la colonne nom indiquera les noms en majuscule.
10. Sélectionner ensuite l'outil Destination OLE DB et le faire glisser sur l'espace de
travail et relier l'outil colonne dérivée (Derived Column) à l'outil Destination OLE DB
Puis double cliquer dessus.
11. Dans le menu éditeur de destination OLE DB (OLE DB Destination Editor), dans
l'onglet gestionnaire de Connexions (Connexion manager), choisissez la table
destinataire du chargement.
12. Puis dans l'onglet Mappages, vérifier que les colonnes soient bien reliées
correctement.
13. Puis lancer le chargement par un clic droit sur la tache de flux de données (Data
Flow Task) et cliquer sur Exécuter la tâche, vous constaterez que le transfert de
données sous SSIS 2008 à bien été fait (la tache de flux de données devient verte)
et que la modification de la colonne a été prise en compte et chargée dans la table
destinataire.
Vérifier le chargement des données dans la bd destination.
V. Bibliographie
Sites Web
• http://www.dw-institute.com/
The Data Warehouse Institute
• http://pwp.starnetic.com/larryg/
Infos dont accès à des livres blancs sur le DW
• http://www.promotheus.eds-fr/themes/dw/
Institut Promotheus, thème DW
• http://www.cait.wustl.edu/cait/papers/prism/
Société Prisme fondée par W.H. Inmon
• http://www.olapcouncil.org/
Outils OLAP
• http://www.mediatid.fr/datawarehouse
forum concernant le Data Warehouse
Livres
• Jean Michel Franco, «Le Data Warehouse / Le Data Mining», Eyrolles, 1997
• Ralph Kimball, «Entrepôts de Données», Intl Thomson Pub.,1997, ISBN 2-84180-
021-0
• Rob Mattison,» Data Warehousing -Strategies, Technologies and Technics», IEEE
Computer Society 1996, ISBN 0-07- 041034-8
• W. H. Inmon, «Building the Data Warehouse», ed. Wiley, 1996
• W. H. Inmon, «Managing the Data Warehouse», ed. Wiley,1997