Sunteți pe pagina 1din 82

LOGO

Institut Supérieur
de Gestion de Tunis

Khalfaoui Achraf : achrafkhalfaoui@yahoo.fr

Les entrepôts de données


1
LOGO
Objectifs

L’étudiant devra :

Savoir les notions de base des Data


Warehouses

Avoir une idée sur les Data Marts

Savoir quelques méthodes de navigation à


travers les données en utilisant un outil OLAP

2
LOGO
Références

 Cours de Mr Jalel Akaichi : « Systèmes


d’information décisionnels(DW, Data Mining) »

 Cours de Mr Gouider : « Les entrepôts de


données »

 Cours de Emmanuelle Grislin && Didier Donsez:


«Systèmes d’information décisionnels»

…
3
LOGO
Plan

1 Introduction

2 Notions générales sur DW

3 Data Marts

4 Les outils OLAP

4
LOGO
Introduction (1/2)

 Une grande masse de données:


 Distribuées, hétérogènes, très détaillées,
volatiles, peu adaptées à l’analyse…
Qui sont mes Pourquoi et
meilleurs comment le
clients? chiffre
d’affaire a
baissé?

Quels A combien
Tunisiens s’élèvent mes
consomment ventes
beaucoup de journalières?
poisson?
5
LOGO
Introduction (2/2)

 Comment répondre aux demandes des décideurs?


 En donnant un accès rapide et simple à l’information
stratégique
 En donnant du sens aux données

Mettre en place un système d’information dédié


aux applications décisionnelles:
un data warehouse

6
LOGO
Définition d’un DW (1/4)

 «Le data Warehouse est une collection de


données orientées sujet, intégrées, non volatiles
et historisées, organisées pour le support d’un
processus d’aide à la décision»(Bill Inmon,1996)
 Orientées sujet
les données d’un DW sont organisées par thème,
par opposition à celles des SI transactionnelles
qui sont généralement organisées par
processus fonctionnels.

7
LOGO
Définition d’un DW (2/4)

 Intégrées
Les données proviennent de plusieurs sources
hétérogènes. Avant d’être intégrer au sein du
DW, elles doivent être mise en forme et unifiées
afin d’assurer la cohérence.

8
LOGO
Définition d’un DW (3/4)

9
LOGO
Définition d’un DW (4/4)

 Historisées
 Les données persistent dans le temps
 Mise en place d’un référentiel temps
Image de la base en Mai 2005 Image de la base en Juillet 2006
Prénom Ville Prénom Ville
Base de
production Achraf Bizerte Achraf Tunis
Noussair Bardo Noussair Sousse

Calendrier Code Prénom Ville


Code Année Mois 1 Achraf Bizerte
Entrepôt
1 2005 Mai 1 Noussair Bardo
de
données 2 2006 Juillet 2 Achraf Tunis
10
2 Noussair Sousse
LOGO
DW VS BD

Critère Système de production DW

Niveau de détail des Très détaillé Synthétique, parfois


informations détaillé

Utilisateurs Une ou quelques Plusieurs fonctions de


fonctions de l’entreprise l’entreprise

Données figées Non- évolution en temps Oui- sorte d’archivage


réel

Historique Non Oui

Opérations sur les Ajout/MAJ/consultation Consultation uniquement


données

11
LOGO
Architecture d’un DW (1/3)

12
LOGO
Architecture d’un DW (2/3)

13
LOGO
Architecture d’un DW (3/3)

14
LOGO
Le processus ETL

15
LOGO
Extraction (1/3)

 Extraction
• Elle contient la découverte des données
(d’identifier dans les systèmes sources les
données à importer dans le DW )
• Extraire des données des systèmes de production
• Dialoguer avec différentes sources :
 Base de données,
 Fichiers,
 Web…

16
LOGO
Extraction (2/3)

Extraction

Extraction logique Extraction physique

Traite la quantité des Traite l’aspect technique


données qu’on va de l’opération de
extraire l’extraction

17
LOGO
Extraction (3/3)

 Extraction logique
 L’extraction totale
Extraire toutes les données dans un seul coup
 L’extraction incrémentale(partielle)
A chaque fois, extraire une partie des données
 Extraction physique
 L’extraction directe (Charger les données
directement au DW)
 L’extraction indirecte(passer par staging area)

18
LOGO
La transformation

 Transformation
• Rendre les données cohérentes avec la
structure du DW: Transformer, nettoyer, trier,
unifier les données
 Exemple: unifier le format des dates
(MM/JJ/AA JJ/MM/AA)
• Etape très importante, garantit la cohérence et
la fiabilité des données
• Pour transformer des données existants dans
une base de données :
SQL, PL/SQL, Table functions.
19
LOGO
Table function

CREATE FUNCTION updateInv(itemNo VARCHAR(20), amount INTEGER)


RETURNS TABLE (productName varchar(20), quantity INTEGER)
UPDATE Inventory as I
SET quantity = quantity + amount WHERE I.itemID = itemNo;
RETURN
SELECT I.itemName, I.quantity FROM Inventory as I WHERE
I.itemID = itemNo;
END

SELECT productName, quantity


FROM TABLE(updateInv('ISBN-0-8021-3424-6', 5)) AS T

PRODUCTNAME QUANTITY
-------------------- -----------------------------
Feng Shui at Home 15
20
LOGO
Le chargement (1/2)

 Chargement

• Insérer les données dans l’entrepôt de données


• Pour le chargement des données:
 SQL*Loader
 External tables
 OCI and direct-path APIs
 Export/import
 Data Pump

21
LOGO
Le chargement (2/2)

 Exemple de chargement avec SQL* loader


• Il charge un fichier plat dans une table existante
• Lors de l’utilisation de cette méthode, on ne
peut plus accéder aux données du fichier plat
qu’après le chargement de ces données.

LOAD DATA INFILE sh_sales.dat APPEND INTO


TABLE sales
FIELDS TERMINATED BY "|"
(PROD_ID, CUST_ID, TIME_ID, CHANNEL_ID,
PROMO_ID, QUANTITY_SOLD, AMOUNT_SOLD)
22
LOGO
La structure d’un DW

1 2 3
Les données détaillées Les données agrégées Les méta-données 

Les données Elles correspondent à Il s'agit « de


provenant des des éléments données sur les
systèmes de d'analyse données ».
production sont représentatifs des
intégrées à ce niveau. besoins des
utilisateurs.

23
LOGO
Stratégies de stockage (1/3)

 Structure directe simple


On fait des mises à jour du DW avec des laps de
temps importants.

24
LOGO
Stratégies de stockage (2/3)

 Structure de cumul simple


On stocke les données de chaque mise à jour, les
mises à jour étant fréquentes (par exemple tous
les jours).

25
LOGO
Stratégies de stockage (3/3)

 Par résumé déroulant


A chaque mise à jour, on stocke les données
détaillées, et on synthétise les anciennes
données en fonction de leur âge.

26
LOGO
Modélisation d’un DW (1/4)

 Faits
Un sujet d’analyse. Il est formé de mesures
correspondant aux informations de l’activité
analysée.

 Dimensions
Les critères suivant lesquels on souhait évaluer le
fait.

27
LOGO
Modélisation d’un DW (2/4)

 Le modèle en étoile

28
LOGO
Modélisation d’un DW (3/4)

 Le modèle en flocon

29
LOGO
Modélisation d’un DW (4/4)

 Le modèle en constellation

30
LOGO
TAF Exercice modélisation (1/2)

 Soit une entreprise « ACH Automobile Co » qui


voulait construire un entrepôt de données.
 La mesure utilisée est le prix de la voiture
 On veut répondre aux requêtes suivantes:
 Trouver le total des ventes par semaine ,mois ,
…pour chaque vendeur
 Trouver le total des ventes par semaine ,mois ,
…pour chaque modèle de voiture
 Trouver le total des ventes pour tous les
vendeurs pour une ville donnée, région et état
31
LOGO
TAF Exercice modélisation (2/2)

 Les dimensions:
 Temps ( jour, semaine, mois, année )
 Vendeur ( nom, ville, état, région, téléphone )
 Voiture ( numSerie, modèle, couleur, catégorie )

TAF
Etablir le schéma conceptuel de l’éventuel DW

32
LOGO
Définition d’un data Mart

 Un Data Mart (magasin de données) est une


vue partielle du DW mais orientée métier.
 C’est un sous-ensemble du DW contenant des
informations se rapportant à un secteur
d’activité particulier de l’entreprise.
Data marts du
service Marketing

Data mart du
DW de l’entreprise service Ressources
33
Humaines
LOGO
Intérêt des data marts

 Nouvel environnement structuré et formaté en


fonction des besoins d’un métier ou d’un usage
particulier.

 Moins de données que DW


 Plus facile à comprendre, à manipuler
 Amélioration de temps de réponse

 Utilisateurs plus ciblés: DM plus facile à définir


34
LOGO
Data Warehouse vs Data Mart

Data Warehouse Data Mart

Cible utilisateur Toute l’entreprise Département

Base de données SQL type serveur SQL milieu de gamme,


d’entreprise bases
multidimensionnelles
Modèles de données A l’échelle de l’entreprise Département

Sources de données Multiples Quelques unes

Taille Centaine de GO et plus Une à 2 dizaines de GO

Temps de mise en 9 à 18 mois 6 à 10 mois


place

Coûts >900.000 euros 80.000 à 500.000 euros

35
LOGO

36
LOGO
OLAP

 « Il s’agit d’une catégorie de logiciel axés sur


l’exploitation et l’analyse rapide des données
selon une approche multidimensionnelle à
plusieurs niveaux d’agrégation » (Caron,1998)

37
LOGO
Les 12 règles d’OLAP

 1) une vue multidimensionnelle des données.


 2) La transparence vis à vis de l’utilisateur.
 3) La BD doit disposer d’un modèle et d’outils
permettant d’accéder à de multiples sources.
 4) Le modèle de données, le nombre de
dimensions doivent pouvoir changer, sans
remettre en cause le fonctionnement de la base.
 5) Architecture Client/Serveur.
 6) Toutes les dimensions doivent être
accessibles pour chacune des données.
38
LOGO
Les 12 règles d’OLAP

 7°) Gestion des matrices creuses.


 8°) Accessibilité simultanément par plusieurs
utilisateurs.
 9°) Toutes les données stockées ou calculées
dans le cube doivent être accessibles
 10°) Navigation aisée dans les données pour les
utilisateurs, de manière intuitive.
 11°) Outil de présentation des données.
 12°) Nombre illimité de dimensions et de
niveaux d’agrégation.
39
LOGO
Architecture d’OLAP

 Elle consiste en trois services:


Base de données
*Doit supporter les données agrégés ou résumés
*Doit posséder une structure mulitdimensionelle(SGBD
multidimentionnel ou relationnel)

Serveur OLAP
*Gére la structure multidimentionelle dans le SGBD
*Gére l’accés aux données de la part des utilisateurs

Module client
*Permet aux usagers de manipuler et d’explorer les données
*Affiche les données sous forme de graphiques statistiques ou de
tableaux
40
LOGO
Les avantages d’OLAP

 Ouverture à d’autres outils et supports de


restitution(Reporting, Data Mining…)
 L’usager n’a pas à maîtriser des langages
d’interrogation et des interfaces complexes
 Exploiter le modèle multidimensionnel pour
augmenter la performance des analyses (temps
de réponse,…)

41
LOGO
Les types d’OLAP

 ROLAP(Relational OLAP)
• Données stockées dans une base de données
relationelles
• Un moteur OLAP permet de simuler le
comportement d’un SGBD multidimensionnel

42
LOGO
Les types d’OLAP

 MOLAP (Multi-dimensional OLAP)


• Utilise un système multidimensionnel pour gérer
les structures multidimensionnels
• Un accès direct aux données dans le cube

43
LOGO
Les types d’OLAP

 HOLAP (Hybrid OLAP)


• Tables de faits et tables de dimensions stockées
dans une base relationnelle
• Données agrégées stockées dans un cube

44
LOGO
Les types d’OLAP

 ROLAP VS MOLAP VS HOLAP


Critère de ROLAP MOLAP HOLAP
comparaison
Stockage des BD relationnelle BD BD relationnelle
données de base multidimensionnelle
(détaillées)

Stockage des BD relationnelle BD BD


agrégations multidimensionnelle multidimensionnelle

Performance des Le moins Le plus performant Performance


requetes performant moyenne

45
LOGO
Quelques interfaces d’outils
OLAP

46
LOGO
Quelques interfaces d’outils
OLAP

47
LOGO
Quelques interfaces d’outils
OLAP

48
LOGO
Quelques méthodes de
navigation dans les données
 L’outil OLAP propose des méthodes de
navigation dans les données:
 Drill-up/down
 Rotate
 Slicing
 Scoping
…

49
LOGO
Quelques méthodes de
navigation dans les données
 Drill-up/down

50
LOGO
Quelques méthodes de
navigation dans les données
 Rotate

51
LOGO
Quelques méthodes de
navigation dans les données
 Slicing

52
LOGO
Quelques méthodes de
navigation dans les données
 Scoping

53
LOGO
Le marché du décisionnel

54
LOGO
Quelques solutions open
source
ETL Entrepôt OLAP Reporting Data
de Mining
données
Octopus MySql Mondrian Birt Weka
Kettle Postgresql Palo Open Report R-Project
CloverETL Greenplum/ Jasper Orange
Talend Bizgres Report Xelopes
JFreeReport

Intégré
Pentaho (Kettle, Mondrian, JFreeReport,
Weka)
SpagoBI
55
LOGO
Conclusion

« Le défi du datawarehouse, c'est le passage


de l'informatique de gestion à la gestion de
l'information ». J.P. Minarro

Perspectives (thèmes de recherche)


 La qualité des données
 Dynamic Data warehouses (Comment
maintenir un DW lors de changement de
schéma des sources externes ?)

56
LOGO

57
LOGO
Historique des DW

 1988 - Barry Devlin and Paul Murphy ont publié


l'article « Une architecture pour les systèmes
d'information financiers » où ils ont utilisé pour
la première fois le terme "Data warehouse".
 1990 - Red Brick Systems a créé Red Brick
Warehouse, un système spécifiquement dédié à
la construction de l'Entrepôt de données.
 1996 - Bill Inmon a publié un article intitulé
"Building the Data Warehouse »

58
LOGO
Base multidimensionnelle

 Elle stocke les données de manière à permettre une


analyse multidimensionnelle
 Le modèle multidimensionnel comporte les tables
dimensionnelles et une plusieurs tables de faits. La table
de faits contient une clé multiple composée d’un
ensemble de clés étrangères. Chaque clé étrangère
permet de relier la table de faits à une table
dimensionnelle
 Le modèle multidimensionel peut etre mis en œuvre sur
une plateforme relationellle.Dans ce cas, les données
peuvent etre présentées sous trois schémas possible
(étoile, flocon ,constelleation)
59
LOGO
Base multidimensionnelle

 Une cellule est l’intersection des différents dimensions.


Le calcul de chaque cellule est réalisé au chargement
donc le temps de réponse est stable quelque soit la
requête.
 Avec le besoin grandissant de stocker toujours plus de
données et d’y accéder d’une manière toujours plus
rapide, de nouvelles méthodes ont été développé
(modèle multidimensionnel)
 En réalité, une base multidimensionnel est contenue
dans une seule table , chaque cellule,étant caractérisée
par une dimension et une mesure

60
LOGO
Base multidimensionnelle

 Conception multidimensionelle:
1/ Faits
2/ Dimensions:
3/ Grain: niveau de détail
 La multidimensionelité est la clef de la technologie
OLAP.OLAP n’est que purement et simplement une
base de données multi.
 Les bases de données relationelles s’adaptent très mal
à un contexte analytique.En analyse, l’utilisateur doit
disposer d’un modèle intuitif et capable le résultat de
nombreux calculs d’agrégation(ce qui d’un point de vue
relationel ,constitue une redondance)
61
LOGO
Base multidimensionelle

 La modélisation multidimensionnelle propose


d’analyser des indicateurs numériques dans un
contexte précisé par le croisement de plusieurs
dimensions, généralement présentées sous
forme d’arbres hiérarchiques
 Au delà de trois dimensions, cela devient
mathématiquement un hyper cube (plus difficile
de représenter graphiquement)

62
LOGO
Base relationnelle

 BD hiérarchique
 BD réseau
 BD relationnelle
 BD orienté objet
 BD XML
 C’est une BD structuré suivant les principales de
l’algébre relationnelle. Elle est mis en œuvre au moyen
d’un SGBD. L’objectif relationnel ne fait pas référence
aux liens entre les tables mais aux tables elle-méme.
L’algébre relationnelle une collection d’opérateurs
appliqué aux relations.

63
LOGO
Base relationnelle

 Dans les BDR, les données sont structurés dans des


tables qui s’éloignent légèrement de la pure notion de
l’objet relation:
1/ dans la ligne d’une table, certaines infos peuvent être
absente(marqueur NULL) alors qu’une relation doit avoir
chaque n-uplet (ou tuple) valué
2/ La table n’a pas l’obligation de comporter une clé alors
que la relation doit être sans doublon.
 La relation est un objet mathématique dans la théorie
relationelle,tandis que la table est l’objet logique dans
l’univers de SGBD.
 Une table elle-méme est une relation, mais entre les
différentes colonnes qui la 64composent.
LOGO
Base relationnelle

 La notion de clef est prépondérante pour les


relations.
 Pour accéder aux données, on utilise les
différentes opérateurs relationelles: projection,
restriction, jointure , union, intersection ,
diffétence, produit cartésien.
 Dans une BDR, le but est de séparer les infos
aux maximum pour éviter les doublons et la
redondance, et d’empecher la perte de qualité
d’information.
65
LOGO
Diagram

Title
Add your text

ThemeGallery ThemeGallery
is a Design Digital is a Design Digital
Content & Contents Content & Contents
mall developed by mall developed by
Guild Design Inc. Guild Design Inc.

66
LOGO
Cycle Diagram

Add Your Text


Text
Text

Text Cycle name

Text

Text

67
LOGO
Diagram

Text

Add Your Add Your


Title Text Title Text
• Text 1 Text • Text 1
• Text 2 • Text 2
• Text 3 Text • Text 3
• Text 4 • Text 4
• Text 5 • Text 5
Text

Text

68
LOGO
Diagram

Text Text

Text Concept Text

Text Text

Add Your Text

69
LOGO
Diagram

Add Your Text


Add Your Text

Add Your Text


Add Your Text

Add Your Text


Add Your Text

Add Your Text


Add Your Text

70
LOGO
Diagram

Add Your Text

Add Your Text Add Your


Title

Add Your Text

71
LOGO
Diagram

Text Text Text

Add Your Text Add Your Text Add Your Text

72
LOGO
Diagram

Text

Text

Text Add Your Title


Text

73
LOGO
Diagram

Add Your Text Add Your Text

Add Your Text Title Add Your Text

Add Your Text Add Your Text

74
LOGO
La structure d’un DW

1 2 3
Les données détaillées Les données agrégées Les méta-données 

Elles reflètent des Elles correspondent à Il s'agit « de données


évènements les plus des éléments d'analyse sur les données ».
récents. Les données représentatifs des
provenant des systèmes besoins des utilisateurs.
de production sont
intégrées à ce niveau.

75
t
r Tex
You xt
r Te
You
2004
Diagram

t
r Tex
You xt
r Te
You
2003

76
t
r Tex
You xt
r Te
You
2002 Tex
t
r
You xt
r Te
You

2001
LOGO
LOGO
Progress Diagram

Phase
Phase 11 Phase
Phase 22 Phase
Phase 33

77
LOGO
Block Diagram

TEXT TEXT TEXT TEXT

TEXT TEXT TEXT TEXT

78
LOGO
Table

TEXT TEXT TEXT TEXT TEXT

Title A

Title B

Title C

Title D

Title E

Title F

79
LOGO
3-D Pie Chart

Text2
Text3

Text1
Text4

Text5

80
LOGO
Marketing Diagram

Add
Add Your
Your Text
Text

Add Your Title here

Text1 Text1 Text1 Text1

81
LOGO

82

S-ar putea să vă placă și