Documente Academic
Documente Profesional
Documente Cultură
Data mining
Motivations et architecture
Le multidimensionnel
Le data mining
La recherche de règles associatives
Conclusion
1. OLTP et OLAP
Reports
Appli. &
DM
Analysis
OLTP DW OLAP
DM
DM
Introduction DW 2 G. Gardarin
Explosion de l ’OLAP
Facteurs économiques & technologiques
18
16
14
CA en Milliards de $
12
10
8
6
4
2
0
1994 1995 1996 1997 1998 1999 2000 2001
Années
Introduction DW 3 G. Gardarin
Motivations des entreprises
Besoin des entreprises
z accéder à toutes les données de l’entreprise
z regrouper les informations disséminées
z analyser et prendre des décisions rapidement (OLAP)
Exemples d'applications concernées
z Bancaire : suivi des clients, gestion de portefeuilles
mailing ciblés pour le marketing
z Grande distribution : marketing, maintenance, ...
produits à succès, modes, habitudes d’achat
préférences par secteurs géographiques
z Télécommunications : pannes, fraudes, mobiles, ...
classification des clients, détection fraudes, fuites de clients
Introduction DW 4 G. Gardarin
Le data warehouse
Entrepôt de données
z Ensemble de données historisées variant dans le
temps, organisé par sujets, consolidé dans une base
de données unique, géré dans un environnement de
stockage particulier, aidant à la prise de décision dans
l’entreprise.
Trois fonctions essentiels :
z collecte de données de bases existantes et
chargement
z gestion des données dans l’entrepôt
z analyse de données pour la prise de décision
Introduction DW 5 G. Gardarin
Architecture type
Clients
Présentation
décisionnel Tables, graphes,
cubes
Autres Applications
Analyseur
BD
Entrepôt Datawarehouse
Intégrateur
Transformation, Fusion
Extraction, Filtrage
Validation
Extracteur Extracteur
Source Extracteur
Disquettes
Données
BD source opérationnelles
Données externes
BD légataires
Introduction DW 6 G. Gardarin
Datamart (Magasin de données)
sous-ensemble de données [extrait du data
warehouse] et ciblé sur un sujet unique
Bases
Data Warehouse
multidimensionnelles
Bases de
production
Data Marts
SGBD
relationnel
Outils Outils
d’alimentation d ’extraction Bases
Bases externes relationnelles
Introduction DW 7 G. Gardarin
Extraction des données
ETL = Extracteur+Intégrateur
z Extract + Transform + Load
Types de transformations
z Accès unifiés aux données
z Amélioration et agrégation des données
Mapping
• Jointure, projection, agrégation (SUM, AVG)
• Application des "business rules"
Cleaning
• Élimination valeurs erronées
• Extrapolation valeurs manquantes
8 G. Gardarin
Principaux ETL (JDNet)
Acta Avec ses eCaches, Acta se
propose de rendre accessible en
Fournisseur historique du premier
connecteur à SAP. Partenaire
ETI Parfois citée comme plate-
forme ETL de référence par
Extraction standard depuis:
fichiers plats (C et Cobol),
ActaWorks quasi-temps réel les données notamment de Siebel, Peoplesoft ETI.Extract certains acteurs, mais pas Siebel, les SGBDR, Informix,
les plus souvent accédées. L'un et JDEdwards. Interfaçage avec ceux de la business Teradata, Oracle Financials,
des éditeurs de référence dans Business Objects, Cognos, intelligence, ETI.Extract PeopleSoft HRMS, SAP R3 et
le domaine de l'ETL, qui s'étend Hyperion, Actuate et Brio. fonctionne avec des librairies BW... Librairies pour toutes les
sur la partie middleware en pour supporter les entrepôts bases de données ci-dessous,
intégrant aussi les transactions. de données et des plugins sauf Hyperion, sur systèmes
additionnels en prolongement anciens et plus récents. Plugins
d'applications précises. ETI.Accelerator pour Siebel,
SQL/Teradata et les middleware
MQ (IBM, Tibco...).
http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
9 G. Gardarin
L'entrepôt
Base relationnelle
z Support de larges volumes (qq 100 gigas à qq téras)
z Historisation des données (fenêtres)
z Importance des agrégats et chargements en blocs
Base spécialisée
z Base multidimensionnelle
z Combinaison des deux
Machine support
z Multiprocesseurs
z Mémoire partagée, cluster, bus partagé, etc.
10 G. Gardarin
Principaux DW (Jdnet)
Hyperion EssBase est l'entrepôt de
données multi-
Ce n'est pas à la base de
données de se connecter aux Entrepôt de données
Essbase dimensionnel de référence applications mais aux multi-dimensionnel avec
sur le marché de la applications de se connecter Les solutions qui accèdent
des extensions de divers
business intelligence. à la base de données. Les à Teradata sont a priori un
types dont des formules
Possibilité de compléter accès vers Essbase sont NCR de data mining. Réputé
peu moins nombreuses que
avec l'offre analytique nombreux. Se reporter aux Teradata Database pour Hyperion Essbase,
d'Hyperion ou des solutions autres catégories pour savoir notamment pour ses
Microsoft, IBM DB2, Oracle
tierces. qui accède à quelles sources. capacités de montée en
et Sybase.
charge sous Unix et
Windows 2000.
Dernière version de la
base de données
IBM DB2/Universal DataBase
est la base de données
Même remarque que pour
Hyperion, en particulier pour relationnelle de l'éditeur,
DB2/UDB, relationnelle d'IBM. En DB2 qui est relativement Oracle 9i est retaillée
Informix XPS et Red Brick Même remarque que pour
rachetant Informix et son répandue. Se renseigner sur dans une optique qui
activité bases de données, les solutions qui peuvent Oracle approfondit les fonctions
Hyperion et Microsoft, car
Big Blue a récupéré ses accéder nativement aux Oracle 9i Oracle 8i est encore très
dédiées à la business
entrepôts de données différents SGBD OLAP répandue.
intelligence. Peut
multi- propriétaires d'Informix.
dimensionnels: également fonctionner
XPS (datawarehouse), comme entrepôt de
et Red Brick (datamart). données OLAP.
http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
11 G. Gardarin
Bilan Entrepôt
Le datawarehouse regroupe,
historise, résume les données de
l ’entreprise
Le concepteur définit schéma
exportés et intégrés
z des choix fondamentaux !
z Ciblage essentiel !
Le datamart c’est plus ciblé et plus
petit.
Questions ?
z Peut-on ajouter des données au niveau
de l ’entrepôt ?
Introduction DW 12 G. Gardarin
2. Le multidimensionnelle
Dimensions:
z Temps
z Géographie
z Produits
z Clients
z Canaux de ventes.....
Indicateurs:
z Nombre d’unités vendues
z CA
z Coût
z Marge.....
Le multidimensionnel 13 G. Gardarin
Le data cube et les dimensions
Axe d'analyse: La géographie
(Pays - région - ville)
Variables analysées:
Nb unités, CA, marge...
Le multidimensionnel 15 G. Gardarin
La navigation multidimensionnelle
Région
Temps en semaines
Réduction selon 1 dimension
Produits Zoom selon une dimension
France
Le multidimensionnel 16 G. Gardarin
Les vues d'un cube
Partant d'un cube 3D, il est possible d'agréger
selon une dimension tournante
On obtient un treillis de vues (calculable en SQL)
NumPro, NumFou, Date
Le multidimensionnel 17 G. Gardarin
ROLAP versus MROLAP
SQL+Cube SQL+Cube
Opérateurs Cache Cube
décisionnels
Analyseur
SQL
Optimiseur
Analyseur
Opérateurs Optimiseur
Opérateurs décisionnels
relationnels Opérateurs
Cache SGBD relationnels Cache SGBD
Le multidimensionnel 18 G. Gardarin
Les principaux fournisseurs
Oracle
z Express = Datacube
z Report = Reporting
Business Object
z BusinessQuery = Requêtage
z BusinessObject = Requêtage+Analyse+Reporting
z WebIntelligence = Datacube
Cognos
z Impromptu = Reporting
z Powerplay = Datacube
z Query = Requêtage
Hyperion
z ESS Base = Base MOLAP
z ESS Analysis= Analyse+Datacube
19 G. Gardarin
Bilan Multidimensionnel
La modélisation
multidimensionnelle est adaptée
à l ’analyse de données
Le datacube est au centre du
processus décisionnel
z transformation et visualisation 3D
z une algèbre du cube :
Slice, Dice, Rollup, Drilldown
Questions ?
z Combien de datacubes à partir de N
variables ?
Le multidimensionnel 20 G. Gardarin
3. Qu’est-ce-que le data mining ?
Data mining
z ensembles de techniques d'exploration de données afin
d'en tirer des connaissances sous forme de modèles
présentées à l ’utilisateur averti pour examen
Données Data
entrepôt mining Connaissances
Découverte de Compréhension
Connaissances modèles Prédiction
z analyses (distribution du trafic en fonction de l ’heure)
z scores (fidélité d ’un client), classes (mauvais payeurs)
z règles (si facture > 10000 alors départ à 70%)
Moteur Moteur
DM DM
Confiance
Entrées
X
Sortie
Y
Apprentissage sur la base
Utilisation pour prédire le futur
Qualification par degré de confiance
Segmentation
z arbres de décision
z réseaux d'agents
durée
27 G. Gardarin
Règles associatives
La découverte de règles
z découverte de relations plus fines entre données
z du style si X alors Y
si Achat(Vin) alors Achat(Boursin) (10%, 15%)
si Achat(Pain) & Achat(Fromage) alors Achat(Vin) (70%, 80%)
Support : probabilité absolue P(XY)
z |XY|/ |BD| = % de transactions vérifiant la règle
Confiance : probabilité conditionnelle P(Y/X)
z |XY|/|X| = % de transactions vérifiant l'implication
Comment extraire les règles intéressantes ?
z exemple : Supp.> 0.1 et Conf.> 0.7
z comment optimiser les calculs d'indicateurs ?
Techniques de fouille 28 G. Gardarin
Nombreux algorithmes
Réduire le nombre de passes (I/O)
Réduire le temps CPU
Nombreux algorithmes
z Apriori [Agrawal & Imielinski & Swami]
z Apriori-tid [Agrawal & Srikant]
z Partition[Savasete & Omseinski & Navatgr]
z Dynamic Counting [Brin & Ullman & Tsur]
z Bitmap [Gardarin & Pucheral & Fei]
z ...
Conclusion DM 31 G. Gardarin
Principaux produits
SAS de SAS
z Statistiques, arbres de décision, réseaux de neurones, règles
Intelligent Miner d'IBM
z Statistiques, arbres de décision, règles associative, textes
SPSS et Clementine de SPSS
z classification, modèles fonctionnels (agents), statistiques
Knowledge Seeker d'Angoss
z statistiques, classification, arbres de décision
Oracle
z Rachat de Thinking Machines
Microsoft OLE DB for Data Mining
z Arbres de décisions, règles associatives, etc.
Conclusion DM 32 G. Gardarin
Caractéristiques d'outils (Jdnet)
L'offre intègre
DD/Marketer pour générer Tout comme IBM, il s'agit
CRM Front-office: Siebel, Pour les commentaires, se
les modèles prédictifs d'une extension à la base de
AIMS, Broadvision (eCRM). reporter à IBM deux cases
données Oracle 9i, et non
Data Distilleries (segmentation), DD/Sire
L'intégration est déjà Oracle au dessus. Oracle 9i Data
d'un produit surajouté
DD Series pour déployer les 9i Data Mining Mining est intégré à Oracle
programmée avec Siebel réclamant une intégration à
recommandations, et Customer Intelligence
7.0. travers une API Java ou
DD/Expert pour construire (tableau 1).
les scenarii. C++.
http://solutions.journaldunet.com/0110/011025_crm_tableau2.shtml
33 G. Gardarin
Le marché du BI
BI= Business Intelligence
Conclusion DM 35 G. Gardarin