Business Intelligence Cours

I.
Business intelligence (BI)

Vision globale d’une entreprise :
Introduction
L’enjeu des années 2000 pour les entreprises :
• Augmentation de la réactivité.
• Augmentation de la concurrence.
• Diversité des produits.
• Ouverture des marchés, etc.
Quels outils donner au décideur pour comprendre, piloter et gérer ?
Contexte de la BI
Besoin: Améliorer les performances décisionnelles de l'entreprise :
• Décisions stratégiques
• Décisions rapides
Pourquoi: besoin de réactivité face à la concurrence.
Qui : les décideurs (non informaticiens)

Comment: en répondant aux demandes d’analyse.
Problématique
Problèmes à prendre en compte
– Une grande masse de données :
Distribuée
Hétérogène
Très Détaillée
– A traiter :
Synthétiser / Résumer
Visualiser
Analyser
– Pour une utilisation par :
des experts et des analystes d'un métier
NON informaticiens
Les entreprises passent à l’ère de l’information.
Défi : Transformer leur système d’information qui avait une vocation de production à un SI
décisionnel dont la vocation de pilotage devient majeure.
Applications
Banque, Assurance
– déterminer les profils client
– Risque d'un Prêt, Prime plus précise
Commerce
– ciblage de clientèle
– déterminer les promotions
– aménagement des rayons (2 produits en corrélation)
Économétrie
– prédiction de trafic autoroutier
Web
– Restructuration des sites
Quelques métiers du décisionnel

Customer Relationship Management (gestion de la relation client) :
Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre

l’efficacité du marketing client.
Supplier Relationship Management (gestion de la relation fournisseur):
Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.
Human Capital Management (gestion de la relation avec les employés):
Aligner les stratégies RH, les processus et les technologies.
Systèmes transactionnels
Le transactionnel réfère à un mode d’exploitation de données tourné vers la saisie, le
stockage, la mise à jour, la sécurité et l’intégrité des données.
Par exemple, les systèmes de gestion des transactions boursières ou bancaires,
Le système transactionnel est généralement une base de données, développée par

application, stockant les données courantes d’une organisation, c’est-à-dire qu’il n’y
a pas de données d’archives dans les systèmes transactionnels » (Bédard et al. 1997)
Le système transactionnel réfère aux bases de données développées afin de gérer les
transactions quotidiennes
Ces bases de données supportent habituellement des applications particulières

telles que les inventaires de magasins, les réservations d’hôtel, etc.
Le contenu est fait de données actuelles, pas d’archives
Les données sont très détaillées (détails de chacune des transactions)
La mise à jour s’effectue par de nouvelles transactions
Très souvent plusieurs de ces systèmes existent indépendamment les uns des autres
dans les grandes organisations
Opérations dans les systèmes transactionnels
Ajout
Effacement
Mise à jour des enregistrements
Requêtes simples
Obstacles à l’analyse dans les systèmes transactionnels
Les bases de données transactionnelles sont habituellement normalisées de telle
sorte que la duplication des données est minimum :
– Assure l’intégrité des données
– Simplifie la mise à jour des données
Cependant, une très forte normalisation complexifie l’analyse des données:
– Nombre élevé de tables donc nombre élevé de jointures nécessaires entre les
tables (performance pauvre)
– Temps de traitement long
– Élaboration complexe des requêtes
Difficulté d’optimiser le fonctionnement des systèmes transactionnels.
De plus, les types d’analyses servant aux processus de décision des organisations
nécessitent:
– Données sommaires (agrégées ou résumées) sur l’ensemble de l’organisation

(provenant des différentes BD dispersées de l’organisation et intégrées)
– Données historiques
– Réponses rapides (requêtes surtout de type agrégatif), interfaces à l’usager

faciles à utiliser
Système de production vers système décisionnelle
Entrepôts de données
Origine de deux besoins distincts mais complémentaires :
Besoin pour une entreprise d’avoir un panorama complet de son

information
Besoin pour un département de mieux gérer les données de

l’entreprise
D’après BILL Inmon :
“Un DataWarhouse (DW) est une collection de données thématiques, intégrées, non
volatiles et historisées, organisées pour la prise de décision.”
Caractéristiques :
orientation sujets («métiers»): à la différence des organisations traditionnelles

organisées par processus fonctionnel
données intégrées: divers sources de données ;
données non volatiles: ne pas supprimer les données du DW;
données datées: trace des données
Le business intelligence :
regroupe l’ensemble des moyens pour répondre aux besoins utilisateurs, de mise à
disposition et d’analyse des données relatives à leurs activités.
Fonctions essentielles de l’Informatique Décisionnelle
Datamart
Sous-ensemble d’un entrepôt de données
Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de

l’entreprise
DW de l’entreprise
Intérêt des datamart

Nouvel environnement structuré et formaté en fonction des besoins d’un métier ou
d’un usage particulier
Moins de données que DW
– Plus facile à comprendre, à manipuler
– Amélioration des temps de réponse

Utilisateurs plus ciblés: DM plus facile à définir
Les flux de données

Flux entrant
– Extraction: multi-source, hétérogène
– Transformation: filtrer, trier, homogénéiser, nettoyer
– Chargement: insertion des données dans l’entrepôt
Flux sortant:
– Mise à disposition des données pour les utilisateurs finaux
Les différentes zones de l’architecture

Zone de préparation (Staging area)
– Zone temporaire de stockage des données extraites
– Réalisation des transformations avant l’insertion dans le DW:
Nettoyage
Normalisation…
– Données souvent détruites après chargement dans le DW
Zone de stockage (DW, DM)
– On y transfère les données nettoyées
– Stockage permanent des données
Zone de présentation
– Donne accès aux données contenues dans le DW
– Peut contenir des outils d’analyse programmés:
Rapports
Requêtes…
Cycle de vie décisionnel
La planification
La planification aborde la définition et l'étendue du projet de l'entrepôt, y compris

l'appréciation du niveau de maturité de l'organisation face à ce type d'approche.
Elle se concentre sur les besoins en termes de ressources et de niveau de qualification,

couplés aux affectations des tâches, à leurs durées et à leur séquence.
La planification dépend bien évidemment des besoins.
Définition des besoins
Il est essentiel de bien comprendre les utilisateurs et leurs besoins, sinon l'entrepôt
deviendra rapidement un exercice vain de la part de l'équipe des concepteurs.
Les besoins une fois définis constituent le point de départ de trois trajectoires parallèles que
sont la technologie, les données et les interfaces utilisateurs.
Etude du domaine métier :
Cette étape est fondamentale. En effet il n'y a pas de secret. Si vous voulez travailler dans le
décisionnel vous êtes obligé de connaître le métier de l'entreprise pour laquelle vous
travaillez. Alors si vous êtes nouveaux, familiarisez-vous avec les termes utilisés, regardez sur
l'intranet de l'entreprise ou sur leur site. Il y'a beaucoup d'informations cachées là dedans. Et
une astuce qui m'a beaucoup aidé c'est de se familiariser avec les différents
logiciels/progiciels utilisés dans l'entreprise. Ne les utilisez pas en environnement de
production mais créez plutôt votre propre environnement de test sur lequel vous êtes libre
pour vos tests. Je peux vous assurer que cela est très utile ! Vous pouvez aussi utiliser le bon
vieux SQL pour faire de petites requêtes afin de se faire une idée des données disponibles
dans le référentiel métier.
Interview des acteurs clés du métier
Un autre élément tout aussi important que l'étude de l'environnement est la connaissance
et l'interview des acteurs métiers. Bien évidemment il faudra tout d'abord bien connaître
l'organigramme de l'entreprise et savoir qui s'occupe de quoi. Et si on ne connaît pas bien
l'organigramme on pourrait prévoir les bonnes questions à poser aux bonnes personnes.
Après interview, il est toujours bien de faire un compte rendu de réunion. A partir des
comptes rendus de réunion il faudra d'abord classer les besoins en thèmes ou sujets
d'analyse.
Chaque département ou secteur de l'entreprise a ses propres besoins et ces besoins peuvent
faire appel au même processus. Par exemple, les marketeurs (département marketing)
peuvent avoir besoin d'analyser l'intéressement des jeunes à une catégorie de produits. De
même, les commerciaux (département vente) peuvent avoir besoin de connaître le chiffre
d'affaire de la région Ile-de-France en termes d'achat de portables par exemple. Ces deux
catégories de besoins utilisent tous les deux le processus " commande ". On risque de
répéter le même processus si l'on tient compte de la demande de chacun des deux
départements séparément.
Cycle de vie décisionnel : Modèle dimensionnel

C'est la définition des besoins qui détermine quelles sont les données requises pour
répondre aux besoins d'analyse des utilisateurs.
Le résultat de cette analyse est le modèle dimensionnel.
Structure physique
Définition des structures physiques nécessaires pour l'implémentation physique du modèle

dimensionnel.
o Détermination des règles de nommage des objets

o Environnement de la base de données.
o Indexation primaire
o La conception du modèle physique est fortement dépendante du système utilisé
pour l'entrepôt.
Préparation des données
La conception de la zone de préparation des données (staging area) constitue

généralement la tache la plus sous-estimée du projet entrepôt de données.
Le processus de préparation se déroule en trois phases majeures :

o Extraction
o Transformation
o Chargement
Architecture technique
La définition de l'architecture technique globale à mettre en œuvre nécessite la prise

en compte :
o des besoins
o de l'environnement existant
Composants
A partir de l'étude de l'architecture technique il faut sélectionner les composants

spécifiques
o Plate-forme(s) matérielle(s) et logicielle(s)
o SGBD
o Outils d'extraction
o Outils de restitution
Une fois les produits évalués et sélectionnés, ceux-ci doivent être installés et testés
afin de garantir une intégration adéquate d'un bout à l'autre de l'environnement de
l'entrepôt.
Applications utilisateurs
Définition d’une série d’application standard destinée aux utilisateurs finaux.
Les spécifications de l'application décrivent les maquettes d'états, les critères de

sélection laissés à l'utilisateur et les calculs nécessaires.
Déploiement
Le déploiement est le point de convergence de :
o La technologie
o Des données
o Des applications utilisateurs.
Une planification est indispensable pour gérer le déploiement qui comprend

également
o la formation des utilisateurs,

o le support utilisateur,
o la prise en compte des demandes d'évolution et de correction.
II. La Modélisation
Cycle de vie décisionnel
L’analyse
Le but du jeu est de déceler les axes d'analyses (les dimensions) avec leurs attributs
ainsi que les éléments à analyser (les faits).
L'étude approfondie de ce qui se passe dans l'entreprise :
Documents échangés, rapports périodiques, interviews des personnes clés, étude

des besoins.
Il faut vraiment faire un travail d'acteur, et rentrer dans la peau de chaque

utilisateur :
Savoir comment les analystes organisent leurs raisonnements, savoir ce que voient
les décideurs avant de décider, connaître les indicateurs de bonne santé de
l'entreprise et de la concurrence.
Une manière très pratique de modéliser un cas en BI se fait comme suit (table
décisionnelle) :
Modélisation Entité/Association
Avantages:
– Normalisation:
Éliminer les redondances
Préserver la cohérence des données
– Optimisation des transactions
– Réduction de l’espace de stockage
Inconvénients pour un utilisateur final:
– Schéma très/trop complet:
Contient des tables/champs inutiles pour l’analyse
– Pas d’interface graphique capable de rendre utilisable le modèle E/A
– Inadapté pour l’analyse
Modélisation des DW
Nouvelle méthode de conception autour des concepts métiers
– Ne pas normaliser au maximum
Introduction de nouveaux types de table:
– Table de faits
– Table de dimensions
Introduction de nouveaux modèles:
– Modèle en étoile
– Modèle en flocon
Faits (définition)
Fait:
– Un fait est la plus petite information analysable.
– C'est une information qui contient les données observables (les faits) que l'on
possède sur un sujet et que l'on veut étudier, selon divers axes d'analyse(les
dimensions).
Fait:
– Ce que l’on souhaite mesurer
Quantités vendues, montant des ventes…
– Trois types de faits:
Additif
Semi additif
Non additif
Additif: additionnable suivant toutes les dimensions
– Quantités vendues, chiffre d’affaire
– Peut être le résultat d’un calcul:
Bénéfice = montant vente - coût
Semi additif: additionnable suivant certaines dimensions
– Solde d’un compte bancaire:
Pas de sens d’additionner sur les dates
Σ sur les comptes: on connaît ce que nous possédons en banque
Non additif: fait non additionnable quelque soit la dimension
– Prix unitaire: l’addition sur n’importe quelle dimension donne un nombre

dépourvu de sens
Structure de base d'une ''table‘’ de fait
Table principale du modèle dimensionnel
Contient les données observables (les faits) sur le sujet étudié selon divers axes
d’analyse (les dimensions)
Caractéristiques d'une ''table‘’ des faits

Une table de faits contient les valeurs numériques de ce qu'on désire mesurer.
Une table de faits contient les clés associées aux dimensions. Il s'agit des clés
étrangères vers les dimensions.
En général une table de faits contient un petit nombre de colonnes
Une table de faits contient plus d'enregistrements qu'une table de dimension
Les informations dans une ''table'‘ de faits sont caractérisées:
Elles sont numériques et sont utilisées pour faire des SUM, AVG...
Les données doivent être additives ou semi additives
Les mesures (Mes1, Mes2,…Mesn) doivent référer et avoir un lien direct avec les clés des
dimensions (Date Cal, Id Dim1, Id Dim2, ..., Id DIM) dans la même table.
Granularité de la table de faits
Répondre à la question :
– Que représente un enregistrement de la table de faits?
La granularité définit le niveau de détails de la table de faits:
– Exemple: une ligne de commande par produit, par client et par jour
Dimension: définition
Une dimension est une ''table'‘ qui représente un axe d'analyse selon lequel on veut
étudier les données observables(les faits) qui, donnent aux utilisateurs des
renseignements nécessaires à la Prise de décision.
On appelle donc ''dimension'' un axe d'analyse. Il peut s'agir des Clients ou des
Produits d'une entreprise, d'une Période de temps.
Table de dimension
Axe d’analyse selon lequel vont être étudiées les données observables (faits)
Contient le détail sur les faits
Dimension = axe d’analyse
– Client, produit, période de temps…
Contient souvent un grand nombre de colonnes
– L’ensemble des informations descriptives des faits
Contient en général beaucoup moins d’enregistrements qu’une table de faits

Dimension-composantes
Composante 1 : surrogate key ou clé de substitution
Exemple:
Une clé de substitution (Surrogate key) est une clé non significative utilisée afin de
substituer la clé naturelle (Business Key) qui provient des systèmes opérationnels.
Dans un système opérationnel, on utilise une clé artificielle afin d'identifier d'une
façon unique un élément de l'entité : (client_id pour l'entité client, emp_id pour
l'entité Employé).
La clé de substitution ne doit pas être confondue avec la clé artificielle attribuée par
les systèmes opérationnels.
La clé de substitution est alors utilisée dans un entrepôt de données pour remplacer
et compléter la clé artificielle du système opérationnel.
Les Fonctionnalités
Remplacer la clé artificielle ou naturelle : Effectivement une clé de substitution

remplace la clé artificielle en terme d'utilisation, ce n'est plus la clé naturelle qui sera
utilisée pour faire les jointures avec les tables de faits et les autres tables de
dimension.
Compléter l'information : La clé de substitution n'a aucun sens en terme d'affaire,

elle est utilisée dans l'ED seulement, La clé artificielle ou naturelle dans la dimension
est toujours nécessaire pour pouvoir faire la correspondance entre l'élément de
dimension (un client par exemple) dans l'ED et l'élément de la table (des clients) dans
le système opérationnel.
Les avantages
Performance : Accélère l'accès aux données du moment où l'on va utiliser un index
numérique vu que le type de données de la clé de substitution est numérique.
Indépendance du système source : On ne peut garantir que la clé d'affaire ne change

pas dans les systèmes sources.
Historique des changements et granularité infinie : Si l'on désire garder l'historique

des changements de la dimension selon certains critères, on doit gérer la clé de
substitution. On se retrouve facilement avec plusieurs enregistrements de la même
clé d'affaire dans la dimension.
Dimension: Composante 2 : attributs
En plus de la clé de substitution ou de la clé naturelle, d'autres attributs sont ajoutés

à la dimension. Ces attributs sont descriptifs et représente l'information utile sur la
dimension (Le salaire d'un employé, l'adresse d'un client...)
Dimension: Composante 3: clés specials
Date effective : Date à la quelle l'enregistrement à été créé, de préférence dans le

système d'enregistrements (System of records).
Date retrait : Date à laquelle l'enregistrement a été retiré du système

d'enregistrements.
Indicateur effectif : En général est 'O' si l'enregistrement est toujours actif (Date
retrait est nulle), 'N' sinon.
La dimension Temps
Commune à l’ensemble du DW
Reliée à toute table de faits

Dimension Temps
Clé temps (CP)
Jour
Mois
Trimestre
Semestre
Année
Num_jour_dans_année
Num_semaine_ds_année
Granularité d’une dimension

Une dimension contient des membres organisés en hiérarchie :
– Chacun des membres appartient à un niveau hiérarchique (ou niveau de

granularité) particulier
– Granularité d’une dimension : nombre de niveaux hiérarchiques
– Temps :
Année – semestre – trimestre – mois
Évolution des dimensions

Dimensions à évolution lente (SCD: Slowly Changing Dimension)
– Un client peut se marier, avoir des enfants…
– Un produit peut changer de noms ou de formulation:
« Raider » en « Twix »
« yagourt à la vanille » en « yagourt saveur vanille »
– Gestion de la situation, 3 solutions:
Écrasement de l’ancienne valeur
Versionnement (Ajout d’un nouvel enregistrement)
Valeur d’origine / valeur courante
Écrasement de l’ancienne valeur :

– Correction des informations erronées
Avantage:
– Facile à mettre en œuvre
Inconvénients:
– Perte de la trace des valeurs antérieures des attributs
– Perte de la cause de l’évolution dans les faits mesurés
Ajout d’un nouvel enregistrement:
– Utilisation d’une clé de substitution
Avantages:
– Permet de suivre l’évolution des attributs
– Permet de segmenter la table de faits en fonction de l’historique
Inconvénient:
– Accroit le volume de la table
Ajout d’un nouvel attribut:
– Valeur origine/valeur courante
Avantages:
– Avoir deux visions simultanées des données :
Voir les données récentes avec l’ancien attribut
Voir les données anciennes avec le nouvel attribut
– Voir les données comme si le changement n’avait pas eu lieu
Inconvénient:
– Inadapté pour suivre plusieurs valeurs d’attributs intermédiaires
Dimensions à évolution rapide

– Subit des changements très fréquents (par ex tous les mois) des attributs dont
on veut garder l’historique.
– Solution:
Isoler les attributs qui changent rapidement
Exemple :
Si l'on veut préserver l'historique des changements d'adresse dans la dimension
«Clients» dans un pays où 70% de la population déménage une fois par année (le 1er
juillet par exemple au Canada).
La dimension «Clients» devient dans ce cas une dimension à évolution rapide (RCD:
Rapid Changing Dimension)
Modélisation d’un DW
Modèle en étoile
Le schéma en étoile tire son nom de sa configuration
o Une table de fait centrale et des dimensions
o Les dimensions n’ont pas de liaison entre elles
o Avantages:
Facilité de navigation
Nombre de jointures limité
o Inconvénients:
Redondance dans les dimensions
Toutes les dimensions ne concernent pas les mesures
Alimentation complexe.
Modèle en flocon
Une table de fait et des dimensions décomposées en sous hiérarchies.
On a un seul niveau hiérarchique dans une table de dimension.
La table de dimension de niveau hiérarchique le plus bas est reliée à la table de fait. On dit
qu’elle a la granularité la plus fine.
Modèle floconné = Modèle en étoile + normalisation des dimensions
o Avantages:
Normalisation des dimensions
Économie d’espace disque
o Inconvénients:
Modèle plus complexe (jointure)
Requêtes moins performantes

Modèle mixte
Il s’agit d’une structure qui résulte de la meilleure combinaison des deux types de
modèles précédents.
Seules quelques dimensions seront normalisées, souvent il s’agit des plus grandes
tables et celles contenant le plus de redondance.
Modèle en constellation
La modélisation en constellation consiste à fusionner plusieurs modèles en étoile qui

peuvent utiliser des dimensions communes.
Un modèle en constellation comprend donc plusieurs tables de faits et des tables de

dimensions communes ou non à ces tables de faits.
Modélisation multidimensionnelle
Exemples :
– Grandes distribution :
CA annuel : 80 000 M
Prix moyen d’un article d’un ticket : 5
Nombre d’articles vendus pour un an : 80 * 109 / 5 = 16 * 109
Volume du DW :
16*109 *3 ans * 24 octets = 1,54 To (1,54*1024 = 1 540 Go)
– Téléphonie :
Nombre d’appels quotidiens : 100 millions
Historique : 3 ans * 365 jours= 1 095 jours
Volume du DW :
– 100 millions * 1 095 jours * 24 octets = 3,94 To
– Cartes de crédit :
Nombre de clients : 50 millions
Nombre moyen mensuel de transactions : 30
Volume :
– 50 millions * 26 mois * 30 transactions * 24 octets = 1,73 To
III. L'analyse en ligne: OLAP

OLAP
• Un cube OLAP est une structure de données supérieure aux bases de données
relationnelles grâce à une analyse rapide des données.
• Les cubes peuvent afficher et additionner de grandes quantités de données.
• OLAP est un type d'application informatique orienté vers l'analyse sur-le-champ
d'informations selon plusieurs axes.
• Cette structure est prévue à des fins d'analyses interactives par une ou plusieurs
personnes (souvent ni informaticiens ni statisticiens) du métier que ces données sont
censées représenter.
⇒ « Il s’agit d’une catégorie de logiciels axés sur l’exploration et l’analyse rapide des
données selon une approche multidimensionnelle à plusieurs niveaux d’agrégation »
(Caron, 1998)
Objectifs attendus
Catégorie de logiciels : S’exprime par une grande quantité de produits logiciels disponibles
sur le marché ;
Exploration et analyse rapide : OLAP vise à assister l’usager dans son analyse en lui facilitant
l’exploration de ses données et en lui donnant la possibilité de le faire rapidement ;
Facilité : L’usager n’a pas à maîtriser des langages d’interrogation et des interfaces
complexes, et il interroge directement les données, en interagissant avec celles-ci
Rapidité :
• OLAP exploite une pré-agrégation des données;

• L’usager devient opérationnel en très peu de temps
⇒ L’usager peut se concentrer sur son analyse et non sur le processus (les moyens
utilisés pour l’analyse)
Approche multidimensionnelle: Visualisation multidimensionnelle des données.
Plusieurs niveaux d’agrégation : Les données peuvent être groupées à différents niveaux de
granularité (niveau de détail des données emmagasinées dans une base de données).
⇒ les regroupements sont pré-calculés, par exemple, le total des ventes pour le mois
dernier calculé à partir de la somme de toutes les ventes du mois.
Les règles
Edgar .Frank. Codd définit 12 règles de base permettant de qualifier le concept global
nommé OLAP :
1. Une vue multidimensionnelle des données.

2. La transparence vis à vis de l'utilisateur qui doit accéder à la BD par l'intermédiaire
d'outils simples (tableur, par ex).
3. La BD doit disposer d'un modèle et d'outils permettant d'accéder à de multiples
sources, d'effectuer les conversions et extractions nécessaire pour alimenter la Base
OLAP.
4. Le modèle de données, le nombre de dimensions ou le nombre de niveaux
d'agrégation doivent pouvoir changer, sans remettre en cause le fonctionnement de
la base.
5. Architecture Client/serveur.
6. Toutes les dimensions définies dans le modèle de données doivent être accessibles
pour chacune des données.
7. Gestion des matrices creuses. Les parties vides du cube multidimensionnel doivent
être stockées de manière à ne pas détériorer les temps d'accès.
8. Accessibilité simultanément par plusieurs utilisateurs.
9. Toutes les données stockées ou calculées dans le cube doivent être accessibles.
Toutes les tranches de cube doivent être visualisées.
10. Manipulation aisée dans les données pour les utilisateurs.
11. Outil de présentation des données (Simplicité des rapports).
12. Nombre illimité de dimensions et de niveaux d'agrégation (nombre illimité
d'éléments sur les dimensions).
Vocabulaire OLAP
Dimension :
Une dimension peut être définie comme un axe d’analyse selon lequel les données seront
analysées
- Exemple : Temps, Découpage administratif, Produits.
Une dimension contient des membres organisés en hiérarchie, chacun des membres
appartenant à un niveau hiérarchique (ou niveau de granularité) particulier
- Ex. Pour la dimension Temps, les années, les mois et les jours peuvent être des
exemples de niveaux hiérarchiques. 1998 est un exemple de membre du niveau
Année.
Fait/Mesure :
Une mesure est un élément de donnée sur lequel portent les analyses, en fonction des
différentes dimensions
- Exemple : coût des travaux, nombre d’accidents, ventes, dépenses.
Un fait représente la valeur d’une mesure
Cube :
Un ensemble de mesures organisées selon un ensemble de dimensions (aussi hyper cube)
- Ex. Un cube de ventes qui comprend :

Les dimensions Temps, Produit, Magasin;
La mesure Ventes en Dh.
Les cubes OLAP ont les caractéristiques suivantes :
• obtenir des informations déjà agrégées selon les besoins de l’utilisateur ;

• simplicité et rapidité d’accès ;
• capacité à manipuler les données agrégées selon différentes dimensions ;
• un cube utilise les fonctions classiques d’agrégation : min, max, count, sum, avg.
Exemple de cube OLAP

Dans notre exemple, nous allons nous intéresser aux ventes de tous les magasins "XXX".
Voyons maintenant comment peut-on utiliser ce cube. Pour cela, nous allons nous intéresser
aux différentes vues de ce cube.
Vue n° 1 : On s'intéresse à toutes les ventes du magasin d'ANNECY (toutes catégories

confondues durant toute les mois).
Vue n° 2 : On s'intéresse aux ventes de la catégorie "vêtements pour enfants" (tous les
magasins durant toute les mois)
Vue n° 3 : On s'intéresse à toutes les ventes durant le mois de Février (toutes catégories
confondues et dans tous les magasins)
Vue n° 4 : On s'intéresse aux ventes du magasin d'ANNECY dans la catégorie "vêtements
pour enfants" durant le mois de Février)
Opérateurs OLAP
• Opérateurs liés à la structure
• Opérateurs liés à la granularité
• Opérateurs ensemblistes
Multi-représentations du cube vente

Les différentes opérations d’agrégation
Roll up ou drill up
Roll up / Forage vers le haut / Agrégation de données : Passage de mesures détaillées à

résumées en remontant dans la hiérarchie de la dimension. (Exemple : visualiser les ventes
par année au lieu de par mois).
Roll up sur la dimension ‘’Produits’’
Roll up sur les dimensions ‘’Produits’’ et ''Dates''
Roll up sur les 3 dimensions ''Produits'',''Dates'' et ''Villes''

Drill down :
Drill down: forage de données vers le bas
Drill down sur la mesure ‘CA’ selon la dimension ‘’ville ‘’
Résultat du drill down :
Drill down sur la mesure ‘CA’ selon la valeur ''Lyon'‘ de la dimension ‘’ville ‘’
Le résultat du Drill down donne:
Rotate :
Pivoter (pivot, swap) : Rotation des axes du cube pour fournir une vue alternative des
données (Exemple: interchanger 2 dimensions).
Les composantes OLAP

L’architecture OLAP consiste en trois services :
Base de données :
• Doit supporter les données agrégées ou résumées

• Les données qu’il contient peuvent provenir d’un entrepôt ou d’un marché de
données
• Doit posséder une structure multidimensionnelle c’est-a-dire basée sur
• un SGDB multidimensionnel ou relationnel)
Serveur OLAP :
• Gère la structure multidimensionnelle dans le SGBD

• Gère l’accès aux données de la part des usagers
Module client :
• Permet aux usagers de manipuler et d’explorer les données

• Affiche les données sous forme de graphiques statistiques et de tableaux
Selon le type de base de données accédé, plusieurs configurations sont possibles :

multidimensionnelles, relationnelle ou hybride :
1. MOLAP (OLAP multidimensionnel)

Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont
stockées dans une base de données multidimensionnelle (souvent appelée cube
ou hypercube)
Une base de données multidimensionnelle utilise une structure propriétaire au
logiciel utilisé (≈ matrice)
Le serveur MOLAP extrait les données de l’hypercube et les présente directement
au module client
2. ROLAP (OLAP Relationnel)
Les données détaillées de base ainsi que les données agrégées de l’entrepôt sont
stockées sous forme de tables dans une base de données relationnelle
La base de données relationnelle doit être structurée selon un modèle particulier
(étoile, flocon, …)
Le serveur extrait les données par des requêtes SQL et interprète les données selon
une vue multidimensionnelle avant de les présenter au module client
Serveur ROLAP
Client OLAP
Base de données
relationnelle
(étoile ou flocon) Vue
multidimensionnelle
3. HOLAP (OLAP Hybride)

Architecture qui consiste en un croisement des architectures MOLAP et ROLAP;
Les données détaillées de base de l’entrepôt sont stockées dans une base de
données relationnelle et les données agrégées sont stockées dans une base de
données multidimensionnelle;
Le serveur HOLAP accède à les deux bases de données et les présente au module
client, selon une vue multidimensionnelle dans le cas des données de la BD
relationnelle ;
4. MOLAP vs ROLAP vs HOLAP

Critère de ROLAP MOLAP HOLAP
comparaison
Stockage des données BD relationnelle BD BD relationnelle

de base (détaillées) multidimensionnelle
Stockage des BD relationnelle BD BD

agrégations multidimensionnelle multidimensionnelle
Performance des Le moins performant Le plus performant Performance moyenne
requêtes
(habituellement)
Structure multidimensionnelle
OLTP vs OLAP
Les Outils
Un marché fragmenté :
– Constitution du DataWarehouse
– Stockage
– Extraction d’Information
– Outils Métier
Quelques systèmes
• Intelligent miner d’IBM (couplé avec le SGBD DB2) : Classification, association,
régression, analyse de séquences, regroupement
• Entreprise miner de SAS : Multiples outils d’analyse statistique, classification, …
• Mine set de Silicon graphics. : Classification, association et divers outils statistiques.
Très puissant en termes de visualisation
• Clémentine de SPSS : En plus des fonctionnalités classiques, l’utilisateur peut y
rajouter ses propres algorithmes
• DBMiner de DBMiner technologie. : Il se distingue par le fait qu’il incorpore les
fonctionnalités d’OLAP
IV. Charger le DW : ETL
Le processus ETL
Le plan ETL est comme suit :
• Phase d'ETL ;
Extraction de données ;
Transformation de données ;
Alimentation d'un ED ;
• ETL sous SQL server.
Après avoir conçu le modèle des données, comment alimenter l'ED ?
Processus d'ETL
(Extracting – Transforming – Loading)
Il est important de savoir que la réalisation de l'ETL constitue 70% d'un projet décisionnel en
moyenne. Et ce n'est pas pour rien, ce système est complexe et ne doit rien laisser
s'échapper.
Avoir une Des données

mauvaise fausses, Décisions
information donc erronées.
dans l'entrepôt inutilisables
Définition d’un ETL

• Offre un environnement de développement
• Offre des outils de gestion des opérations et de maintenance
• Permet de découvrir, analyser et extraire les données à partir de sources
hétérogènes
• Permet de nettoyer et standardiser les données
• Permet de charger les données dans un entrepôt
• Pour alimenter le DataWareHouse, on utilise un ETL (Extract, Transform and Load),
outil basé sur le principe de métabases.
• Décrit les données, leur provenance et les transformations effectuées.
• Permet d’agréger, classifier, normaliser et nettoyer les données extraites.
• Les concepteurs doivent mettre en place une stratégie de mise à jour pour
l’historisation et prévoir la volumétrie.
• L’alimentation peut être en batch ou file de l’eau. Les ETL peuvent être intégrés aux
outils de modélisations ou de restitution.
• Les ETL peuvent se concevoir de 2 manières :
manuellement : en lançant des scripts (PL/SQL, …)
avec des logiciels (qui sont chers)
• Permet d’analyser, décrire, expliquer et exposer
Etapes à suivre
1. Identifier les sources
Où ? Fichiers, SGBDR, ERP, Internet, …
Comment ? Réseau local, MAN, WAN, transferts des fichiers.
Quand ?
2. Construire le référentiel
3. Définir la fréquence des chargements
4. Décrire le niveau d’historisation
5. Expliquer la volumétrie
6. Analyser la qualité des données
7. Exposer la complexité des transformations
8. Considérer la reprise des données
9. Gérer les rejets
10. Mettre en place les sauvegardes/restaurations
Problèmes rencontrés
• Souvent peu d’entreprises ont des logiciels qui permettent la création d’ETL, car ce
sont des outils coûteux. Il faut souvent réaliser l’alimentation à la main.
• La fréquence de mise à jour du DataWareHouse (quotidiennement,
hebdomadairement, mensuellement, …) peut influencer sa structure.
• Penser à la volumétrie des sources de données et à la fréquence de mise à jour.
• Faire attention aux environnements trop mouvants, c’est à dire aux mises à jour trop
fréquentes.
• Synchroniser l’alimentation des différents Data Mart qui composent son outil
décisionnel sinon on peut obtenir des rapports dans la phase de RESTITUTION
faussés.
Extraction
• Extraire des données des systèmes de production
• Dialoguer avec différentes sources:
Base de données,
Fichiers,
……
• Utilise divers connecteurs :
ODBC,
SQL natif,
Fichiers plats
Transformation
• Rendre cohérentes les données des différentes sources ;
Transformer, nettoyer, trier, unifier les données ;
Exemple: unifier le format des dates
(MM/JJ/AA JJ/MM/AA).
• Etape très importante, garantit la cohérence et la fiabilité des données ;
Chargement
• Insérer ou modifier les données dans l’entrepôt
• Utilisation de connecteurs:
ODBC,
SQL natif,
Fichiers plats
ETL avec SQL Server

SQL Server Intégration Services (SSIS):un outil de gestion de flux de données.
Exemple ETL : Charger les données d’une table (dbo.clients) d’une BD(source) vers une autre
table (dbo.custumer) d’une autre BD(destination) avec modification des données.
1. Dans BIDS, cliquez sur "Fichier", sur "Nouveau" puis sur "Project".
2. nous allons donc choisir Projet Integration Services, Après validation par OK.
3. la fenêtre ci-dessous apparait

4. Pour commencer, vous allez glisser l’outil tache de flux de données (Data Flow
Task) sur votre espace de travail dans l'onglet flux de contrôle (Control Flow). Puis
double cliquez dessus.
5. Vous vous trouvez désormais dans l'onglet flux de contrôle (Data Flow), dans cet
onglet, sélectionner l’outil Source OLE DB et le faire glisser sur l’espace de travail.
6. . Double cliquer dessus, vous êtes maintenant dans le menu OLE DB Source editor ,
dans l'onglet gestionnaire de Connexions (Connexion manager) , sélectionner la
base de données et la table dont vous voulez exporter les données.
7. Puis passer dans l'onglet Colonnes (Column) vérifier que les colonnes de la table sont
bien toutes présentes et sélectionner celles dont vous voulez exporter le contenue.
8. Ensuite, sélectionner l'outil colonne dérivée (Derived Column) , reliez le à
l’outil Source OLE DB puis double cliquez dessus
9. Vous vous trouverez ensuite dans le menu éditeur de transformation de la colonne
dérivée (Derived Column Transformation Editor), c'est dans ce menu que la
modification des données se fait, vous pouvez insérer une colonne ou effectuer des
modifications grâce aux différents outils se trouvant à droite de la fenêtre. Il vous
suffit de remplir les champs se trouvant en bas de la fenêtre, donnez un nom à votre
colonne, choisir d'en créer une ou d'en remplacer une, puis choisir le contenu de
votre colonne. Dans notre cas, nous allons modifier le nom des clients, dans la table
destinataire, la colonne nom indiquera les noms en majuscule.
10. Sélectionner ensuite l'outil Destination OLE DB et le faire glisser sur l'espace de
travail et relier l'outil colonne dérivée (Derived Column) à l'outil Destination OLE DB
Puis double cliquer dessus.
11. Dans le menu éditeur de destination OLE DB (OLE DB Destination Editor), dans
l'onglet gestionnaire de Connexions (Connexion manager), choisissez la table
destinataire du chargement.
12. Puis dans l'onglet Mappages, vérifier que les colonnes soient bien reliées
correctement.
13. Puis lancer le chargement par un clic droit sur la tache de flux de données (Data
Flow Task) et cliquer sur Exécuter la tâche, vous constaterez que le transfert de
données sous SSIS 2008 à bien été fait (la tache de flux de données devient verte)
et que la modification de la colonne a été prise en compte et chargée dans la table
destinataire.
Vérifier le chargement des données dans la bd destination.
V. Bibliographie
Sites Web
• http://www.dw-institute.com/
The Data Warehouse Institute
• http://pwp.starnetic.com/larryg/
Infos dont accès à des livres blancs sur le DW
• http://www.promotheus.eds-fr/themes/dw/
Institut Promotheus, thème DW
• http://www.cait.wustl.edu/cait/papers/prism/
Société Prisme fondée par W.H. Inmon
• http://www.olapcouncil.org/
Outils OLAP
• http://www.mediatid.fr/datawarehouse
forum concernant le Data Warehouse
Livres
• Jean Michel Franco, «Le Data Warehouse / Le Data Mining», Eyrolles, 1997
• Ralph Kimball, «Entrepôts de Données», Intl Thomson Pub.,1997, ISBN 2-84180-
021-0
• Rob Mattison,» Data Warehousing -Strategies, Technologies and Technics», IEEE
Computer Society 1996, ISBN 0-07- 041034-8
• W. H. Inmon, «Building the Data Warehouse», ed. Wiley, 1996
• W. H. Inmon, «Managing the Data Warehouse», ed. Wiley,1997

Business Intelligence Cours

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Business Intelligence Cours

Încărcat de

Drepturi de autor:

Formate disponibile

I.

Business intelligence (BI)

Quels outils donner au décideur pour comprendre, piloter et gérer ?

Pourquoi: besoin de réactivité face à la concurrence.

Qui : les décideurs (non informaticiens)

– Une grande masse de données :

– Pour une utilisation par :

des experts et des analystes d'un métier

Les entreprises passent à l’ère de l’information.

– déterminer les profils client

– Risque d'un Prêt, Prime plus précise

– déterminer les promotions

– aménagement des rayons (2 produits en corrélation)

– prédiction de trafic autoroutier

Quelques métiers du décisionnel

Améliorer la connaissance client, identifier et prévoir la rentabilité client, accroitre

Supplier Relationship Management (gestion de la relation fournisseur):

Classifier et évaluer l’ensemble des fournisseurs. Planifier et piloter la stratégie Achat.

Human Capital Management (gestion de la relation avec les employés):

Aligner les stratégies RH, les processus et les technologies.

Par exemple, les systèmes de gestion des transactions boursières ou bancaires,

Le système transactionnel est généralement une base de données, développée par

Ces bases de données supportent habituellement des applications particulières

Le contenu est fait de données actuelles, pas d’archives

Les données sont très détaillées (détails de chacune des transactions)

La mise à jour s’effectue par de nouvelles transactions

Opérations dans les systèmes transactionnels

Mise à jour des enregistrements

– Assure l’intégrité des données

– Simplifie la mise à jour des données

Cependant, une très forte normalisation complexifie l’analyse des données:

– Temps de traitement long

– Élaboration complexe des requêtes

Difficulté d’optimiser le fonctionnement des systèmes transactionnels.

– Données sommaires (agrégées ou résumées) sur l’ensemble de l’organisation

– Réponses rapides (requêtes surtout de type agrégatif), interfaces à l’usager

Besoin pour une entreprise d’avoir un panorama complet de son

Besoin pour un département de mieux gérer les données de

D’après BILL Inmon :

orientation sujets («métiers»): à la différence des organisations traditionnelles

données intégrées: divers sources de données ;

données non volatiles: ne pas supprimer les données du DW;

données datées: trace des données

Destiné à répondre aux besoins d’un secteur ou d’une fonction particulière de

Intérêt des datamart

Moins de données que DW

– Plus facile à comprendre, à manipuler

– Amélioration des temps de réponse

Les flux de données

– Extraction: multi-source, hétérogène

– Transformation: filtrer, trier, homogénéiser, nettoyer

– Chargement: insertion des données dans l’entrepôt

– Mise à disposition des données pour les utilisateurs finaux

Les différentes zones de l’architecture

– Zone temporaire de stockage des données extraites

– Réalisation des transformations avant l’insertion dans le DW:

– Données souvent détruites après chargement dans le DW

Zone de stockage (DW, DM)

– On y transfère les données nettoyées

– Stockage permanent des données

– Donne accès aux données contenues dans le DW

– Peut contenir des outils d’analyse programmés:

La planification aborde la définition et l'étendue du projet de l'entrepôt, y compris

Elle se concentre sur les besoins en termes de ressources et de niveau de qualification,