Documente Academic
Documente Profesional
Documente Cultură
Version 1.1
Le 15 Juin 1998
SOMMAIRE GENERAL
PRESENTATION (page INTRODUCTION) LA PROBLEMATIQUE DE L'ENTREPRISE (page LA PROBLEMATIQUE DE L'ENTREPRISE) LE DATA WAREHOUSE (page LE DATA WAREHOUSE) OLAP ET ANALYSE MULTIDIMENSIONNELLE (page LE CONCEPT OLAP) LE DATA MINING (page INTRODUCTION AU DATA MINING) DIVERS : ETHIQUE, WEB, (page DATA MINING ET ETHIQUE)
C:\CNAM\Data.doc
Page 1
Version 1.1
Le 15 Juin 1998
SOMMAIRE DETAILLE
Page
1 - INTRODUCTION...............................................................................................................................................................10 2 - LA PROBLEMATIQUE DE L'ENTREPRISE...............................................................................................................11 2.1 - INTRODUCTION........................................................................................................................................................11 2.1.1 - LENTREPRISE..........................................................................................................................................................11 2.1.2 - LE DCIDEUR..........................................................................................................................................................13 2.1.3 - LES NIVEAUX DE PROCCUPATIONS DU DCIDEUR..........................................................................................................13 2.1.4 - RESUME..............................................................................................................................................................14 2.2 - LE SYSTME DCISIONNEL DE LORGANISATION.........................................................................................14 2.2.1 - LA RSOLUTION DE PROBLME....................................................................................................................................15
2.2.1.1 - Le Problme..................................................................................................................................................................15 2.2.1.2 - La Rsolution du Problme...........................................................................................................................................15 2.2.1.3 - Lespace de Rsolution.................................................................................................................................................16 2.2.1.3.1 - Lespace des tats.................................................................................................................................................16 2.2.1.3.2 - Les Oprateurs.....................................................................................................................................................16 2.2.1.3.3 - La Rduction de la Diffrence..............................................................................................................................16 2.2.1.3.4 - lHeuristique........................................................................................................................................................17 2.2.1.3.5 - En rsum............................................................................................................................................................17 2.2.2.1 - STI................................................................................................................................................................................17 2.2.2.2 - la Reprsentation du STI...............................................................................................................................................18 2.2.2.3 - Matire traite : Signes et Symboles.............................................................................................................................19 2.2.2.4 - Les dcalages espace, temps, forme du STI..................................................................................................................19 2.2.2.5 - La dfinition de Simon..................................................................................................................................................19 2.2.2.6 - En Rsum....................................................................................................................................................................19 2.2.3.1 - La Perception de lenvironnement.................................................................................................................................20 2.2.3.2 - La reprsentation mentale et les niveaux de proccupation...........................................................................................21 2.2.3.3 - Les composantes du modle..........................................................................................................................................21 2.2.3.4 - Llment dclencheur du problme.............................................................................................................................22 2.2.3.4.1 - Variation entre 2 valuations de la reprsentation du modle...............................................................................22 2.2.3.4.2 - Variation de ltat des proccupations..................................................................................................................22 2.2.3.5 - Le Projet de lOrganisation...........................................................................................................................................22 2.2.3.6 - En Rsum....................................................................................................................................................................23 2.2.4.1 - Les Phases de la Prise de dcision.................................................................................................................................24 2.2.4.2 - Echelle des proccupations et chelle de normalisation des Dcisions..........................................................................25 2.2.4.3 - Structuration du processus de dcision..........................................................................................................................28 2.2.4.3.1 - Introduction..........................................................................................................................................................28 2.2.4.3.2 - Rle des conseils extrieurs..................................................................................................................................29 2.2.4.3.3 - Processus de structuration et de Normalisation....................................................................................................29 2.2.4.3.3.1 - Dfinitions...................................................................................................................................................29 2.2.4.3.3.2 - Dveloppement du Processus......................................................................................................................30 2.2.4.4 - La Reprsentation.........................................................................................................................................................31 2.2.4.4.1 - Reprsentation, Structuration, Process.................................................................................................................31 2.2.4.4.2 - Les Niveaux de Reprsentations...........................................................................................................................32 2.2.4.4.3 - Equilibration et Modles......................................................................................................................................33 2.2.4.4.4 - Les Niveaux de Reprsentation............................................................................................................................34 2.2.4.4.5 - Modle.................................................................................................................................................................34 2.2.4.4.6 - 1er Espace de rsolution.......................................................................................................................................34 2.2.4.4.7 - 2d Espace de Rsolution.......................................................................................................................................35 2.2.5.1.1 - Les Modles Fonction optimise.......................................................................................................................36 2.2.5.1.2 - Hypothses de la rationalit limite......................................................................................................................36 2.2.5.1.3 - Consquences.......................................................................................................................................................36 2.2.5.1.4 - Rationalit Limite et Dcision Satisfaisante.......................................................................................................37 2.2.5.1.5 - rationalit limite et paradigme STI.....................................................................................................................38 2.2.5.1.6 - Rationalit limite dans les programmes..............................................................................................................39
OU
2.2.4 - LA DECISION.............................................................................................................................................................24
2.2.6 - LE SIAD
C:\CNAM\Data.doc
Page 2
Version 1.1
Le 15 Juin 1998
2.2.8 - LE SYSTME DCISIONNEL...........................................................................................................................................50 2.3 - LE CONTENU INFORMATIF DU SYSTME DCISIONNEL..............................................................................53 2.3.1 - CONTENU INFORMATIF ELEMENTAIRE............................................................................................................................53
2.3.1.1 - Acte economique..........................................................................................................................................................53 2.3.1.1.1 - Structure de lacte conomique............................................................................................................................53 2.3.1.1.2 - le Contrat..............................................................................................................................................................54 2.3.1.1.3 - Lenvironnement..................................................................................................................................................54 2.3.1.1.4 - base de faits..........................................................................................................................................................54 2.3.1.1.5 - Base de Comprhension.......................................................................................................................................55 2.3.1.2 - Les Activits.................................................................................................................................................................56 2.3.1.2.1 - Les Activits Industrielles....................................................................................................................................56 2.3.1.2.2 - Les Activits Administratives..............................................................................................................................56 2.3.1.2.3 - Les Activits Associatives....................................................................................................................................56 2.3.2.1 - le diagnostic externe......................................................................................................................................................56 2.3.2.2 - Analyse de lEnvironnement.........................................................................................................................................57 2.3.2.3 - Le diagnostic interne.....................................................................................................................................................58 2.3.2.4 - Approche Cration de Valeur........................................................................................................................................58 2.3.2.5 - Conclusion....................................................................................................................................................................59 2.3.2.6 - LEnsemble des dcisions stratgiques.........................................................................................................................59 2.3.3.1 - Passage du compliqu au complexe..............................................................................................................................61 2.3.3.2 - La Mondialisation.........................................................................................................................................................61 2.3.3.3 - Le client........................................................................................................................................................................61 2.3.3.4 - Des contingences volutives.........................................................................................................................................61 2.3.3.5 - Un niveau scolaire occidental lev..............................................................................................................................61 2.3.3.6 - Le dveloppement des alliances, des rseaux dentreprises...........................................................................................61 2.3.3.7 - La 4me rvolution du Savoir.......................................................................................................................................62
2.2.7.1.1 - Thorie.................................................................................................................................................................41 2.2.7.1.2 - Mthode...............................................................................................................................................................41 2.2.7.1.3 - Modle.................................................................................................................................................................41 2.2.7.1.4 - Processeur dtats.................................................................................................................................................41 2.2.7.1.5 - S.T.I.....................................................................................................................................................................41 2.2.7.1.6 - Organisation de lensemble des modles..............................................................................................................41 2.2.7.1.7 - La recherche Heuristique sur les modles............................................................................................................42 2.2.7.1.8 - La recherche Heuristique sur les valeurs..............................................................................................................42 2.2.7.1.9 - Organisation de lensemble des modles..............................................................................................................42 2.2.7.2 - Systme de gestion de bases de donnes.......................................................................................................................42 2.2.7.2.1 - La Thorie Base de donnes ...........................................................................................................................42 2.2.7.2.2 - La mthode...........................................................................................................................................................42 2.2.7.2.3 - Le Modle............................................................................................................................................................42 2.2.7.2.4 - Ltat....................................................................................................................................................................43 2.2.7.2.5 - le processeur d'tat...............................................................................................................................................43 2.2.7.2.6 - Dmarche Heuristique sur les Modles................................................................................................................43 2.2.7.3 - Gnrateur de systmes experts....................................................................................................................................43 2.2.7.3.1 - La Thorie............................................................................................................................................................43 2.2.7.3.2 - Remarque.............................................................................................................................................................44 2.2.7.3.3 - Exemple dune base de faits.................................................................................................................................44 2.2.7.3.4 - Prsentation succincte des systmes experts.........................................................................................................44 2.2.7.3.5 - Reprsentation des connaissances........................................................................................................................45 2.2.7.3.6 - Reprsentation des faits........................................................................................................................................45 2.2.7.3.7 - Infrence incertaine..............................................................................................................................................46 2.2.7.3.8 - Choix dune rgle applicable................................................................................................................................46 2.2.7.3.9 - Le moteur dinfrence..........................................................................................................................................47 2.2.7.3.10 - Types de Fonctionnement : Chanage avant, arrire, mixte...............................................................................47 2.2.7.3.11 - Logique des Prdicats.........................................................................................................................................47 2.2.7.3.12 - La Thorie..........................................................................................................................................................47 2.2.7.3.13 - La Mthode........................................................................................................................................................48 2.2.7.3.14 - Le Modle..........................................................................................................................................................48 2.2.7.3.15 - Etat.....................................................................................................................................................................48 2.2.7.3.16 - Oprateur...........................................................................................................................................................48 2.2.7.3.17 - Processeur dtat................................................................................................................................................48 2.2.7.3.18 - Recherche Heuristique sur les modles..............................................................................................................48 2.2.7.3.19 - Remarques..........................................................................................................................................................49
2.3.4 - CONCLUSION............................................................................................................................................................62 2.4 - CONCLUSION DE LA PROBLEMATIQUE.............................................................................................................62 2.4.1 - SYSTME DCISIONNEL................................................................................................................................................62 2.4.2 - POSTIONNEMENT DES OUTILS DAIDE A LA DECISION..........................................................................................................62
2.4.2.1 - Positionnement du Data Warehouse..............................................................................................................................63 2.4.2.2 - Autres Outils dcisionnels.............................................................................................................................................65 2.4.2.3 - Tableur et Modles.......................................................................................................................................................65 2.4.2.4 - Positionnement de lanalyse multidimensionnelle.........................................................................................................66
C:\CNAM\Data.doc
Page 3
Version 1.1
Le 15 Juin 1998
2.4.3 - CONCLUSION............................................................................................................................................................69
2.4.2.5 - Positionnement du Data Mining....................................................................................................................................67 2.4.2.6 - Positionnement du Systme Expert...............................................................................................................................68 2.4.2.7 - Positionnement du tableau de Bord...............................................................................................................................68 2.4.2.8 - Positionnement des E.I.S (Executive Information System)...........................................................................................68
3 - LE DATA WAREHOUSE..................................................................................................................................................70 3.1 - PRSENTATION........................................................................................................................................................70 3.2 - POURQUOI UN DATA WAREHOUSE.....................................................................................................................71 3.2.1 - LA PROBLMATIQUE DES ENTREPRISES............................................................................................................................71 3.2.2 - LA RALIT DES SYSTMES DINFORMATIONS....................................................................................................................72 3.2.3 - LES OBJECTIFS..........................................................................................................................................................73 3.3 - DFINITION................................................................................................................................................................74 3.4 - LES CONCEPTS DE BASE........................................................................................................................................76 3.4.1 - LA STRUCTURE..........................................................................................................................................................76 3.4.2 - LES ARCHITECTURES...................................................................................................................................................78
3.4.2.1 - Larchitecture relle......................................................................................................................................................78 3.4.2.2 - Larchitecture virtuelle..................................................................................................................................................78 3.4.2.3 - Larchitecture remote....................................................................................................................................................79 3.4.2.4 - Synthse........................................................................................................................................................................79
4 - LA CONSTRUCTION DU DATA WAREHOUSE.........................................................................................................82 4.1 - LES APPLICATIONS..................................................................................................................................................83 4.2 - LES COMPOSANTS FONCTIONNELS....................................................................................................................83 4.2.1 - LACQUISITION..........................................................................................................................................................83 4.2.2 - LE STOCKAGE...........................................................................................................................................................84 4.2.3 - LACCS..................................................................................................................................................................84 4.3 - LES INFRASTRUCTURES.........................................................................................................................................84 5 - LA CONCEPTION DU DATA WAREHOUSE..............................................................................................................86 5.1 - DCOUVRIR ET DFINIR LES INITIATIVES........................................................................................................87 5.1.1 - LTUDE STRATGIQUE...............................................................................................................................................87 5.1.2 - LE PLAN DACTION.....................................................................................................................................................87 5.2 - LINFRASTRUCTURE...............................................................................................................................................88 5.2.1 - LINFRASTRUCTURE TECHNIQUE....................................................................................................................................88 5.2.2 - LINFRASTRUCTURE ORGANISATIONNELLE........................................................................................................................89 5.3 - LA FORMATION........................................................................................................................................................89 5.4 - LA MISE EN UVRE DES APPLICATIONS...........................................................................................................89 6 - LADMINISTRATION DES DONNES.........................................................................................................................91 6.1 - LES MTADONNES................................................................................................................................................91 6.2 - LE RFRENTIEL DU DATA WAREHOUSE.........................................................................................................92 6.3 - LA MISE EN UVRE.................................................................................................................................................93 6.3.1 - SCURIT.................................................................................................................................................................93 6.3.2 - GESTION DES PERFORMANCES.......................................................................................................................................94 6.3.3 - BATCHS...................................................................................................................................................................95 7 - LE DATA MART................................................................................................................................................................96 7.1 - DFINITION................................................................................................................................................................96 7.2 - MISE EN PLACE.........................................................................................................................................................97 8 - LE CONCEPT OLAP.........................................................................................................................................................99 8.1 - PRSENTATION........................................................................................................................................................99 8.2 - LES 12 RGLES OLAP...............................................................................................................................................99 8.2.1 - TYPOLOGIE DES REGLES O.L.A.P........................................................................................................................102 8.2.2 - COMMENTAIRES.......................................................................................................................................................103 9 - ANALYSE MULTIDIMENTIONNELLE.....................................................................................................................104 9.1 - LE MODLE..............................................................................................................................................................105 9.1.1 - LES DIMENSIONS......................................................................................................................................................105 9.1.2 - LES VARIABLES........................................................................................................................................................106 9.2 - NAVIGATION DANS LES DONNES...................................................................................................................107 9.2.1 - DRILL-DOWN, DRILL-UP...........................................................................................................................................107 9.2.2 - SLICE AND DICE......................................................................................................................................................107 9.2.3 - DATA SURFING.......................................................................................................................................................108 C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 4
Version 1.1
Le 15 Juin 1998
9.3 - PROBLEME DES MATRICES CREUSES...............................................................................................................108 10 - MODELISATION...........................................................................................................................................................109 10.1 - MODLISATION RELATIONNELLE..................................................................................................................110 10.1.1 - MODLE DE DONNES NORMALIS.............................................................................................................................110 10.1.2 - MODLE DE DONNES DNORMALIS.........................................................................................................................110 10.2 - MODLISATION DIMENSIONNELLE................................................................................................................111 10.2.1 - MODLISER EN TOILE............................................................................................................................................111 10.2.2 - MODLISER EN FLOCON..........................................................................................................................................111 11 - STOCKAGE DES DONNEES.......................................................................................................................................113 11.1 - LE STOCKAGE DES DONNES EXTERNES.....................................................................................................113 11.2 - OPTIMISATION PHYSIQUE.................................................................................................................................114 11.2.1 - AGREGATION DE TABLES...........................................................................................................................................114 11.2.2 - PARTITIONNEMENT DE TABLES...................................................................................................................................115 11.3 - LES MTA-DONNES...........................................................................................................................................116 12 - LES DIFFERENTS OUTILS OLAP.............................................................................................................................117 12.1 - LES OUTILS MOLAP.............................................................................................................................................117 12.2 - LES OUTILS ROLAP..............................................................................................................................................118 13 - L'ALIMENTATION DU DATA WAREHOUSE........................................................................................................120 13.1 - LES PHASES DE L'ALIMENTATION.................................................................................................................120 13.2 - LA DECOUVERTE DES DONNES.....................................................................................................................121 13.3 - L'EXTRACTION DES DONNES.........................................................................................................................121 13.4 - LA TRANSFORMATION DES DONNES...........................................................................................................122 13.5 - LE CHARGEMENT DES DONNES....................................................................................................................122 14 - QUELQUES CHIFFRES...............................................................................................................................................124 14.1 - LE MARCH DU DATA WAREHOUSE..............................................................................................................124 14.2 - LE RETOUR SUR INVESTISSEMENTS..............................................................................................................125 15 - INTRODUCTION AU DATA MINING.......................................................................................................................126 15.1 - L'ENVIRONNEMENT DE L'ENTREPRISE..........................................................................................................126 15.2 - PRESENTATION DU DATA MINING..................................................................................................................126 15.3 - DEFINITION............................................................................................................................................................128 15.4 - LE DATA MINING ET LA RECHERCHE OPERATIONNELLE........................................................................128 15.5 - STATISTIQUES ET DATA MINING.....................................................................................................................129 16 - LA RECHERCHE DE CONNAISSANCES.................................................................................................................130 16.1 - LES STATISTIQUES..............................................................................................................................................130 16.1.1 - INDICATEURS DE TENDANCE CENTRALE................................................................................................130 16.1.2 - INDICATEURS DE DISPERSION..................................................................................................................130 16.1.3 - RELATIONS ENTRE VARIABLES..................................................................................................................131 16.2 - LES SCHEMAS DINFERENCE............................................................................................................................132 16.2.1 - LABDUCTION................................................................................................................................................132 16.2.2 - LA DEDUCTION.............................................................................................................................................133 16.2.3 - LINDUCTION................................................................................................................................................133 17 - LES TACHES DU DATA MINING..............................................................................................................................134 17.1 - LA CLASSIFICATION...........................................................................................................................................134 17.2 - LESTIMATION......................................................................................................................................................135 17.3 - LA PREDICTION....................................................................................................................................................135 17.4 - LE REGROUPEMENT PAR SIMILITUDES.........................................................................................................135 17.5 - LANALYSE DES CLUSTERS..............................................................................................................................136 17.6 - LA DESCRIPTION..................................................................................................................................................136 17.7 - LOPTIMISATION..................................................................................................................................................136 17.8 - ILLUSTRATION DES TACHES DU DATA MINING.........................................................................................137 17.9 - SYNTHESE..............................................................................................................................................................138 18 - LE CERCLE VERTUEUX............................................................................................................................................139 19 - METHODOLOGIE DE DATA MINING.....................................................................................................................140 19.1 - LE TEST DHYPOTHESES....................................................................................................................................140 19.1.1 - PROCESSUS DU TEST D'HYPOTHESE........................................................................................................140
19.1.1.1 - Gnrer de bonnes ides............................................................................................................................................140
C:\CNAM\Data.doc
Page 5
Version 1.1
Le 15 Juin 1998
19.1.2 - SYNTHESE.......................................................................................................................................................144 19.2 - LA DECOUVERTE DE CONNAISSANCES.........................................................................................................145 19.2.1 - LA DECOUVERTE DE CONNAISSANCES NON DIRIGEE..........................................................................145
19.2.1.1 - METHODOLOGIE DE DECOUVERTE NON DIRIGEE.......................................................................................146 19.2.1.1.1 - Identifier les sources de donnes disponibles...................................................................................................146 19.2.1.1.2 - Prparer les donnes pour l'analyse..................................................................................................................146 19.2.1.1.2.1 - Regrouper les donnes et les transformer................................................................................................147 19.2.1.1.2.2 - Distribuer les donnes.............................................................................................................................147 19.2.1.1.3 - Construire et instruire le programme informatique...........................................................................................148 19.2.1.1.4 - Evaluer le modle informatique........................................................................................................................149 19.2.1.1.5 - Appliquer le modle informatique de nouvelles donnes...............................................................................149 19.2.1.1.6 - Identifier les cibles potentielles pour la dcouverte de connaissances dirige..................................................149 19.2.1.1.7 - Gnrer de nouvelles hypothses tester.........................................................................................................150 19.2.1.2 - SYNTHESE..............................................................................................................................................................150
19.1.1.2 - Dterminer les donnes pour tester les ides.............................................................................................................141 19.1.1.3 - Localiser les donnes................................................................................................................................................141 19.1.1.4 - Prparer les donnes pour l'analyse...........................................................................................................................142 19.1.1.4.1 - Dfinir le bon niveau de rsum.......................................................................................................................142 19.1.1.4.2 - Les architectures informatiques incompatibles.................................................................................................142 19.1.1.4.3 - Le codage incohrent des donnes....................................................................................................................142 19.1.1.4.4 - Les donnes textuelles......................................................................................................................................143 19.1.1.4.5 - Les valeurs manquantes....................................................................................................................................143 19.1.1.5 - Construire des modles informatiques.......................................................................................................................143 19.1.1.6 - Evaluer les modles informatiques............................................................................................................................144
20 - L'EVALUATION............................................................................................................................................................152 21 - PRESENTATION RAPIDE DES TECHNIQUES......................................................................................................153 21.1 - ANALYSE DU PANIER DE LA MENAGERE.....................................................................................................153 21.2 - LE RAISONNEMENT BASE SUR LA MEMOIRE...............................................................................................153 21.3 - LA DETECTION AUTOMATIQUE DE CLUSTERS............................................................................................153 21.4 - L'ANALYSE DES LIENS........................................................................................................................................154 21.5 - LES ARBRES DE DECISION.................................................................................................................................154 21.6 - LES RESEAUX DE NEURONES...........................................................................................................................154 21.7 - LES ALGORITHMES GENETIQUES....................................................................................................................155 21.8 - LES AGENTS INTELLIGENTS OU KNOWBOT.................................................................................................155 21.9 - LE TRAITEMENT ANALYTIQUE EN LIGNE (TAEL).......................................................................................155 22 - ANALYSE DU PANIER DE LA MENAGERE...........................................................................................................156 22.1 - PRESENTATION....................................................................................................................................................156 22.2 - UTILISATION.........................................................................................................................................................156 22.3 - FONCTIONNEMENT.............................................................................................................................................157 22.3.1 - CONSTRUIRE LE TABLEAU DES COOCCURRENCES...........................................................................................................157 22.3.2 - LIRE ET INTERPRTER LE TABLEAU.............................................................................................................................158 22.4 - LES REGLES...........................................................................................................................................................158 22.4.1 - GNRER DES RGLES............................................................................................................................................158 22.4.2 - TYPOLOGIE DES RGLES..........................................................................................................................................159
22.4.2.1 - La rgle utile.............................................................................................................................................................159 22.4.2.2 - La rgle triviale.........................................................................................................................................................159 22.4.2.3 - La rgle inexplicable.................................................................................................................................................159
22.5 - METTRE EN UVRE LA TECHNIQUE..............................................................................................................160 22.5.1 - LA TAXINOMIE...............................................................................................................................................160 22.5.2 - LES ARTICLES VIRTUELS.............................................................................................................................160 22.5.3 - LES REGLES DE DISSOCIATION.................................................................................................................160 22.5.4 - LES SERIES TEMPORELLES.........................................................................................................................161 22.6 - EVALUER LES RESULTATS................................................................................................................................161 22.6.1 - LA FRQUENCE.....................................................................................................................................................161 22.6.2 - LE NIVEAU (OU TAUX) DE CONFIANCE........................................................................................................................161 22.6.3 - LE NIVEAU DE SUPPORT.............................................................................................................................162 22.6.4 - LE TAUX D'AMLIORATION.......................................................................................................................................162 22.7 - LES POINTS FORTS...............................................................................................................................................162 22.8 - LES POINTS FAIBLES...........................................................................................................................................163 22.9 - QUAND L'UTILISER ?...........................................................................................................................................163 22.10 - SYNTHESE............................................................................................................................................................163 23 - LE RAISONNEMENT BASE SUR LA MEMOIRE...................................................................................................164 C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 6
Version 1.1
Le 15 Juin 1998
23.1 - PRESENTATION....................................................................................................................................................164 23.2 - UTILISATION.........................................................................................................................................................164 23.3 - FONCTIONNEMENT.............................................................................................................................................166 23.4 - METTRE EN UVRE LE RBM.............................................................................................................................167 23.4.1 - LA FONCTION DE DISTANCE......................................................................................................................167 23.4.2 - LA FONCTION DE COMBINAISON..............................................................................................................168 23.5 - EXEMPLE................................................................................................................................................................168 23.6 - LES POINTS FORTS DU RBM..............................................................................................................................170 23.7 - LES POINTS FAIBLES DU RBM..........................................................................................................................170 23.8 - SYNTHESE..............................................................................................................................................................170 24 - LA DETECTION AUTOMATIQUE DE CLUSTERS...............................................................................................171 24.1 - PRESENTATION....................................................................................................................................................171 24.2 - UTILISATION.........................................................................................................................................................171 24.3 - FONCTIONNEMENT.............................................................................................................................................171 24.3.1 - METHODE DES K-MOYENNES....................................................................................................................171 24.3.2 - METHODE PAR AGGLOMERATION............................................................................................................172 24.4 - MISE EN UVRE...................................................................................................................................................172 24.5 - EXEMPLES..............................................................................................................................................................172 24.5.1 - METHODE DES K-MOYENNES....................................................................................................................172 24.5.2 - METHODE PAR AGGLOMERATION............................................................................................................174 24.6 - EVALUER................................................................................................................................................................176 24.7 - LES POINTS FORTS...............................................................................................................................................176 24.8 - LES POINTS FAIBLES...........................................................................................................................................176 24.9 - SYNTHESE..............................................................................................................................................................176 25 - LES ALGORITHMES GENETIQUES........................................................................................................................177 25.1 - PRESENTATION....................................................................................................................................................177 25.2 - UTILISATION.........................................................................................................................................................177 25.3 - FONCTIONNEMENT.............................................................................................................................................177 25.3.1 - NOTIONS DE GENETIQUE...........................................................................................................................177 25.3.2 - LES ALGORITHMES GENETIQUES..............................................................................................................178 25.4 - MISE EN UVRE DES ALGORITHMES GENETIQUES...................................................................................178 25.4.1 - PREPARATION DES DONNEES....................................................................................................................178 25.4.2 - FONCTION D'EVALUATION.........................................................................................................................178 25.4.3 - GENERATION DES DESCENDANTS............................................................................................................179 25.4.4 - PROCESSUS DE SELECTION........................................................................................................................180 25.4.5 - MANIPULATIONS GENETIQUES.................................................................................................................181
25.4.5.1 - Hybridation...............................................................................................................................................................181 25.4.5.2 - Mutation....................................................................................................................................................................181 25.4.5.3 - Inversion...................................................................................................................................................................181
25.4.6 - FIN DU PROCESSUS......................................................................................................................................182 25.4.7 - SYNOPTIQUE..................................................................................................................................................182 25.5 - EXEMPLE................................................................................................................................................................183 25.6 - LES POINTS FORTS...............................................................................................................................................184 25.7 - LES POINTS FAIBLES...........................................................................................................................................184 25.8 - SYNTHESE..............................................................................................................................................................184 26 - LES AGENTS INTELLIGENTS OU KNOWBOT.....................................................................................................185 26.1 - PRESENTATION....................................................................................................................................................185 26.2 - UTILISATION.........................................................................................................................................................185 26.3 - LES CONSEILLERS ELECTRONIQUES..............................................................................................................186 26.3.1 - LES AGENTS NEGOCIATEURS.....................................................................................................................186 26.3.2 - LES AGENTS VENDEURS..............................................................................................................................186 26.4 - KNOWBOT ET DATA MINING............................................................................................................................186 26.5 - EXEMPLE................................................................................................................................................................187 26.6 - SYNTHESE..............................................................................................................................................................187 27 - LES RESEAUX BAYESIENS.......................................................................................................................................188 27.1 - PRSENTATION....................................................................................................................................................188 27.1.1 - RAPPEL SUR LA THORIE DES GRAPHES.......................................................................................................................188 27.2 - FONCTIONNEMENT.............................................................................................................................................189 27.3 - MISE EN PLACE.....................................................................................................................................................190 27.3.1 - PRPARATION DES VARIABLES...................................................................................................................................190 27.3.2 - SLECTION DES VARIABLES.......................................................................................................................................190 27.3.3 - IDENTIFICATION DES DPENDANCES...........................................................................................................................190 C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 7
Version 1.1
Le 15 Juin 1998
27.3.4 - MATRICE DES PROBABILITS.....................................................................................................................................191 27.4 - LES POINTS FORTS...............................................................................................................................................191 27.4.1 - BONNE RSOLUTION...............................................................................................................................................191 27.4.2 - BONNE VISIBILIT..................................................................................................................................................191 27.4.3 - BONNE DCOUVERTE DE RELATIONS...........................................................................................................................191 27.5 - LES POINTS FAIBLES...........................................................................................................................................191 27.5.1 - MAUVAISE ADAPTATION...........................................................................................................................................191 27.5.2 - PEU DOUTILS......................................................................................................................................................192 27.5.3 - MAUVAISE PERFORMANCE........................................................................................................................................192 28 - LES ARBRES DE DECISIONS....................................................................................................................................193 28.1 - PRSENTATION....................................................................................................................................................193 28.2 - FONCTIONNEMENT.............................................................................................................................................193 28.2.1 - CART................................................................................................................................................................194 28.2.2 - C4.5..................................................................................................................................................................196
28.2.2.1 - Nombre de sorties dun nud variable......................................................................................................................196 28.2.2.2 - Mthode de dtermination de lordre des bifurcations...............................................................................................196 28.2.2.3 - Elagage.....................................................................................................................................................................196 28.2.2.4 - Ensemble de rgles....................................................................................................................................................196 28.2.3.1 - Dveloppement de larbre.........................................................................................................................................197
28.2.3 - CHAID.............................................................................................................................................................197
28.3 - MISE EN PLACE.....................................................................................................................................................197 28.3.1 - PRPARATION DES DONNES.....................................................................................................................................197 28.3.2 - ENRICHISSEMENT DES DONNES................................................................................................................................198 28.3.3 - CRATION ET VALIDATION DE LARBORESCENCE............................................................................................................198 28.4 - LES POINTS FORTS...............................................................................................................................................198 28.4.1 - SIMPLICIT DUTILISATION.......................................................................................................................................198 28.4.2 - BONNE LISIBILIT...................................................................................................................................................198 28.4.3 - BONNE ADAPTATION...............................................................................................................................................199 28.5 - LES POINTS FAIBLES...........................................................................................................................................199 28.5.1 - MAUVAISE PERFORMANCE........................................................................................................................................199 28.5.2 - COT DE LAPPRENTISSAGE.....................................................................................................................................199 29 - LES RESEAUX DE NEURONES.................................................................................................................................200 29.1 - PRSENTATION....................................................................................................................................................200 29.2 - FONCTIONNEMENT.............................................................................................................................................200 29.2.1 - NEURONE FORMEL.................................................................................................................................................200 29.2.2 - RGLE DACTIVATION.............................................................................................................................................201 29.2.3 - ORGANISATION EN COUCHES....................................................................................................................................201 29.2.4 - RGLE DAPPRENTISSAGE........................................................................................................................................202 29.3 - MISE EN PLACE.....................................................................................................................................................202 29.3.1 - PRPARATION DES DONNES.....................................................................................................................................202 29.3.2 - DTERMINATION DES ENTRES ET DES SORTIES.............................................................................................................202 29.3.3 - CONSTITUTION DE LA BASE DEXEMPLES.....................................................................................................................202 29.3.4 - CODAGE DES ENTRES............................................................................................................................................203 29.3.5 - OPTIMISATION DU JEU DE DONNES...........................................................................................................................203 29.3.6 - DTERMINATION DES PARAMTRES.............................................................................................................................203 29.3.7 - PHASE DAPPRENTISSAGE........................................................................................................................................204 29.4 - LES POINTS FORTS...............................................................................................................................................205 29.4.1 - SOUPLESSE...........................................................................................................................................................205 29.4.2 - BONNE RSOLUTION...............................................................................................................................................205 29.4.3 - BONNE ADAPTATION...............................................................................................................................................205 29.4.4 - OUTILS DISPONIBLES..............................................................................................................................................205 29.5 - LES POINTS FAIBLES...........................................................................................................................................205 29.5.1 - CODAGE DES ENTRES............................................................................................................................................206 29.5.2 - LISIBILIT............................................................................................................................................................206 29.5.3 - DTERMINATION DE LA TAILLE..................................................................................................................................206 29.5.4 - NON OPTIMALIT...................................................................................................................................................206 29.5.5 - PERFORMANCE......................................................................................................................................................206 30 - MISE EN PLACE...........................................................................................................................................................207 30.1 - POSER LE PROBLME..........................................................................................................................................207 30.2 - RECHERCHE DES DONNES..............................................................................................................................207 30.3 - SLECTION DES DONNES................................................................................................................................208 30.4 - NETTOYAGE DES DONNES..............................................................................................................................208 30.5 - ACTIONS SUR LES VARIABLES.........................................................................................................................208 C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 8
Version 1.1
Le 15 Juin 1998
30.6 - RECHERCHE DU MODLE..................................................................................................................................209 30.7 - EVALUATION DU RSULTAT............................................................................................................................209 30.8 - INTGRATION DE LA CONNAISSANCE...........................................................................................................209 31 - CHOISIR LE BON OUTIL...........................................................................................................................................210 31.1 - CARACTRISTIQUES INFORMATIQUES.........................................................................................................211 31.2 - GAMMES DE PRIX ET DE PUISSANCE.............................................................................................................211 31.3 - ADQUATION DE LOUTIL.................................................................................................................................212 31.4 - NIVEAU DE COMPTENCE.................................................................................................................................212 32 - DATA MINING ET ETHIQUE.....................................................................................................................................213 33 - OUVERTURE INTERNET.......................................................................................................................................214 33.1 - ACCS DES PAGES STATIQUES....................................................................................................................214 33.2 - ACCS DES PAGES DYNAMIQUES...............................................................................................................215 33.3 - LE WEB ET L'AIDE LA DCISION..................................................................................................................216 34 - CONCLUSION................................................................................................................................................................217 34.1 - LES OUTILS DAIDE LA DCISION...............................................................................................................217 34.2 - LES PERSPECTIVES POUR LENTREPRISE......................................................................................................217 34.3 - CONCLUSION........................................................................................................................................................218 35 - GLOSSAIRE...................................................................................................................................................................219 36 - INDEX..............................................................................................................................................................................229 37 - TABLES...........................................................................................................................................................................232 37.1 - TABLE DES FIGURES...........................................................................................................................................232 37.2 - TABLE DES GRAPHIQUES..................................................................................................................................232 37.3 - TABLES DES TABLEAUX....................................................................................................................................233 38 - BIBLIOGRAPHIE..........................................................................................................................................................235 39 - SITES INTERNET.........................................................................................................................................................238
SITES INTERNET
C:\CNAM\Data.doc
Page 9
Version 1.1
Le 15 Juin 1998
1 INTRODUCTION
"L'information au bout des doigts"; un slogan publicitaire apparu au dbut des annes 1990 qui refltait bien le fait que les entreprises commenaient de plus en plus sintresser linformatique dcisionnelle. Loutil client du Data Warehouse a pour principal objectif de permettre un utilisateur daccder de manire simple et ergonomique un serveur de donnes et de valoriser linformation rcupre. Cet outil daide la dcision doit rpondre aux diffrents besoins des utilisateurs. Les requteurs leur permettent en toute autonomie un accs l'information en libre service sans se soucier des chemins d'accs celle-ci. Ils veulent galement analyser les donnes mises leur disposition et visualiser les informations (les indicateurs) par rapport diffrents axes danalyse ce qui ncessite de s'appuyer sur une information pr-package et fortement structure. Les outils OLAP (On Line Analytical Processing) rpondent ces besoins. Les outils de Data Mining vont plus loin et permettent aux utilisateurs "mtier" d'extraire de la connaissances de ses donnes grce des mcanismes d'induction.
C:\CNAM\Data.doc
Page 10
Version 1.1
Le 15 Juin 1998
1.1.1 LENTREPRISE
Dans un souci dexhaustivit, nous nous appuyons sur le schma des secteurs institutionnels ci-dessous.
Socits et quasi-Socits Institutions Financires Socits d'Assurance Administration Publique Administration Prive
Mnages
March
C:\CNAM\Data.doc
Page 11
Version 1.1
Le 15 Juin 1998
Nous dsignons donc sous le terme Entreprise toute organisation humaine devant grer sa raison dtre et/ou sa prennit au travers des objectifs cits ci-dessus (scurit, dveloppement, rentabilit). Par voie de consquence, cette organisation humaine est dote dun centre de dcision. Ainsi, par le terme entreprise , nous couvrons : chacun des secteurs institutionnels de la comptabilit nationale (Franais et Etrangers). Les Socits et quasi socits Les Institutions Financires Les Socits dAssurance Les Mnages Les Administrations Publiques Les Administrations Prives.
les associations (Franaises et trangres). toute autre organisation que celles cites ci-dessus. La figure Les secteurs institutionnels illustre les relations de march ou les relations concurrentielles et les relations non concurrentielles de la part des administrations. La gnralisation du concept entreprise sappuie sur la similitude de problmatique quand il sagit de conduire une organisation travers le temps et lespace dans un contexte en perptuelle mouvance sachant que la prise de dcision ne peut relever du rflexe. Trois exemples de problme rsoudre ou de dfi relever pour des organisations appartenant des secteurs institutionnels diffrents.
Objectif de Dveloppement Gagner x% de part de March Contrainte Taux de rmunration du => Recherche de Solution capital de y% fix par les actionnaires Travailler Budget => Recherche de Solution Constant
Socit
Administration Rpondre (Secteur Hospitalier l'augmentation de la Franais ) demande Association but non lucratif
Remarque : lobjectif de rentabilit dune association est assimil lquilibre financier de lexercice.
C:\CNAM\Data.doc
Page 12
Version 1.1
Le 15 Juin 1998
1.1.1 LE DCIDEUR
Dans lorganisation ainsi dfinie, le dcideur peut-tre le responsable de cette organisation ou le responsable dune fonction de cette organisation. Nous associons le terme Dcideur et la responsabilit vis vis de la prennit de lorganisation.
1 2 3 4 5 6 7
Nous adoptons cette chelle des niveaux de proccupation pour dfinir le contexte gnral de la prise de dcision dans lentreprise et nous disons que lespace des dcisions du dcideur est structur par les niveaux de ses proccupations.
C:\CNAM\Data.doc
Page 13
Version 1.1
Le 15 Juin 1998
1.1.1 RESUME
Le terme Entreprise dsigne toute organisation humaine devant grer sa raison dtre et/ou sa prennit au travers des objectifs de scurit, de dveloppement, de rentabilit et se trouvant par voie de consquence dote dun centre de dcision.
Le terme Dcideur est celui qui engage la prennit ou la raison dtre de lOrganisation.
Lespace des dcisions du dcideur est structur par les niveaux de ses proccupations.
C:\CNAM\Data.doc
Page 14
Version 1.1
Le 15 Juin 1998
S0
S2
S1
S3 S4
St
Partant de la situation initiale (ou tat) S0, comment atteindre la situation St (ou tat terminal, ou la solution) ?
C:\CNAM\Data.doc
Page 15
Version 1.1
Le 15 Juin 1998
Version 1.1
Le 15 Juin 1998
1.1.1.1.4 lHeuristique. L'ensemble du procd qui me permet de me promener dans l'espace d'tats, s'appelle une heuristique. 1.1.1.1.5 En rsum
La rsolution de problme part d'une reprsentation formalisable en un espace d'tats et d'une aptitude explorer intelligemment cet espace d'tats. Les tats, les oprateurs permettant de passer d'un tat un autre et les informations dont on peut disposer chaque tat, forment une reprsentation implicite du problme. C'est cet ensemble que Newell et Simon appellent l'espace de rsolution.
1 Paradigme , du grec paradigma , signifie modle ; Le mot paradigme sera pris au sens de T.S.Kuhn ( rle des paradigmes dans lhistoire des sciences ), cest dire, il reprsente lensemble des contingences environnementales dans lequel volue le systme. 2 On trouvera dans Demailly et Le Moigne (1986) de nombreux clairages sur la gnse du paradigme, en particulier un article historique de Simon (1986 a). C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 17
Version 1.1
Le 15 Juin 1998
Le paradigme STI sappuie sur 3 postulats noncs par Simon : Postulat 1 : Il est possible de construire une thorie de l'esprit au niveau du traitement de l'information. Thorie o les processus informationnels en sont les fondements premiers Postulat 2 : L'tude des processus dcisionnels est possible un niveau d'agrgation qui est celui du traitement de linformation. c'est--dire celui de la manipulation des signes . Postulat 3 : Pour dcrire le processus du traitement de linformation dans un STI, il est pos, en attendant la preuve du contraire, que le cerveau est larchtype3 des STI. . Remarque : Ce dernier postulat est le corollaire du postulat pos par Simon : Pour rsoudre des problmes avec des machines, faisons comme les gens font . Remarquons qu ce niveau dagrgation, on ne dcrit pas les phnomnes physiologiques du cerveau, mais on sintresse aux flux dinformations. A des niveaux dagrgation plus bas, des modles connexionnistes peuvent tre beaucoup plus proche de la ralit du fonctionnement des neurones.
Mmoires
Processeurs
Emetteurs / Rcepteurs
Environnement
3 Archtype , du grec arkhetupon , signifie modle original ( premier) ou modle idal sur lequel est fait un ouvrage ou une oeuvre. C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 18
Version 1.1
Le 15 Juin 1998
Ainsi, cette reprsentation sappuie sur les postulats noncs ci-dessus. Le cerveau reoit des stimuli par le biais de nos cinq sens. Ces stimuli sont convertis, grce des mdiations chimiques, en signaux lectriques ou ioniques transmis par les neurones. L'information est donc reue par nos rcepteurs et circule. Une partie de cette information est stocke dans la mmoire. ( les processus physiologiques et lorganisation plus ou moins connus oprant le stockage en mmoire ne nous intressent pas ce niveau de considration.). Les stimuli reus et transmis au cerveau, ainsi que les informations mmorises, sont ensuite traits pour produire des rponses nerveuses qui actionnent nos muscles.
1.1.1.5 EN RSUM
STI ou Systme de Traitement de lInformation est le sigle qui dsigne le contexte gnral du traitement de l'information et de la rsolution de problme. Ce STI peut tre vu comme un modle deux archtypes : le cerveau et les ordinateurs.
C:\CNAM\Data.doc
Page 19
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 20
Version 1.1
Le 15 Juin 1998
Lchelle des niveaux de proccupations jouera le rle de rfrentiel. (Rfrentiel non dfinitif dans son contenu).
C:\CNAM\Data.doc
Page 21
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 22
Version 1.1
Le 15 Juin 1998
Nous intgrons maintenant le projet dans le schma dcisionnel. Cest lui le rfrentiel du modle de la reprsentation mentale de lenvironnement.
Niveau des Reprsentations Mentales Environnement de l'Organis ation Es pace de Rsolution de Problmes Niveaux de Proccupations Machine Mmoires / Proces seurs Dcideur Comptences Intellectuelles / Humaines 1 2 3 4 5 6 7 Philos ophie Culture Politique Stratgique Tactique Logistique Tche Projet
1.1.1.1 EN RSUM
Le Modle du systme dcisionnel se dcompose : Niveau Conceptuel : les Reprsentations du Projet, du modle de la position de lorganisation dans lenvironnement, de l'espace de rsolution de problme des Niveaux de Proccupations Niveau Physique : LHomme, La Machine lEnvironnement.
C:\CNAM\Data.doc
Page 23
Version 1.1
Le 15 Juin 1998
1.1.2 LA DECISION
Soit laxiome suivant : entre les deux issues mutuellement exclusives d'une alternative, l'individu X qui choisit une issue la suite d'un processus mental, appel rflexion, aurait pu tout aussi bien choisir l'autre. Nous appelons ce choix : dcision ou plus prcisment prise de dcision . Nous considrons toujours qu'il y a correspondance biunivoque non ambigu entre une prise de dcision et un problme que l'on cherche rsoudre.
C:\CNAM\Data.doc
Page 24
Version 1.1
Le 15 Juin 1998
1 2 3 4 5 6 7
Peu Normalise
Bien Normalise
Jour, Heure
Ponctuel
Poste de Travail
C:\CNAM\Data.doc
Page 25
Version 1.1
Le 15 Juin 1998
1 2 3 4 5 6 7
Peu Normalise
Maximum
De mme, nous donnons un espace-temps dimpact des dcisions prises selon le niveau de proccupation et le niveau dagrgation croissant vers la partie haute des niveaux de proccupations. Quelques caractristiques de ces dcisions4 Dcision Frquence Caractre Programme Bien Normalise Eleve do leffort normaliser le processus Routine Un programme au droulement fix : Il existe un processus connu et explicitable permettant de traiter les informations intrantes dans le STI. Disparue facturations, achats, etc. Peu Normalise faible ou peu leve exceptionnel par sa nouveaut ou son enjeu Formalise la dmarche de rsolution du problme que se pose le dcideur ncessiterait un gros effort. Utilise le choix dune campagne de publicit.
4 A Dcision bien normalise et peu normalise correspondent en anglais les expressions Programmed decision et NonProgrammed decision . Cf Levine et Pommerol C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 26
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 27
Version 1.1
Le 15 Juin 1998
Nous considrons que le dernier tage lexcution de la tche sur le poste de travail est absorb dans un management dquipe au niveau des du service incluant
Echelle de Normalisation des Dcisions Trs faiblement Normalise bien n. bien n. Peu Normalise bien n. bien n. bien n. Bien Normalise peu normalise peu normalise peu normalise peu normalise peu normalise
1.1.1.1.2 Rle des conseils extrieurs Un rle de structuration et de normalisation des problmes dorganisation qui se posent que quelques fois dans une entreprise mais qui sont frquents si on considre une population dorganisations. Ce Rle est interactif ; cest parce que le cabinet Conseil a accompagn une entreprise en lui proposant telle dmarche pour rsoudre son problme que ce mme cabinet peut amliorer sa mthode, ses modles grce au retour dexpriences. 1.1.1.1.3 Processus de structuration et de Normalisation
1.1.1.1.3.1 Dfinitions
Structure Canonique Une structure canonique est une structure facile trouver ou retrouver pour une large classe de sujets, partageant une mme culture. Exemple : La dcision d'accorder un prt un client est en gnral mal structure; car il n'y a pas de reprsentation canonique des clients et de leurs capacits rembourser. Cependant lorsqu'un systme expert est ralis pour faire ce travail la dcision devient normalise, mais auparavant elle aura t structure.
C:\CNAM\Data.doc
Page 28
Version 1.1
Le 15 Juin 1998
Qualit de la structuration Le problme, ou la dcision, parat bien structure lorsque la formulation du problme, ou des actions possibles, s'effectue l'aide d'un modle et d'une reprsentation canonique. Exemple : la paye est structure par les modles comptables ; l'approvisionnement par certains modles de la recherche oprationnelle, etc. Structuration et Modlisation. La structuration est la notion descriptive du processus de rsolution. La modlisation est davantage la dcomposition en fonctions. Ce sont les facettes d'un mme processus qui permet de rendre intelligible un contexte de dcision.
1.1.1.1.1.1 Dveloppement du Processus
Au dpart la dcision observe est baptise spontane, automatique, intuitive, on se plat y reconnatre crativit, exprience, motion, bref il s'agit de dcisions non structures. Ensuite, quand on le peut, on passe la phase de structuration et de modlisation
Normalisation impossible avec la structure choisie Dcision non structure Structuration Modlisation
Normalisation
C:\CNAM\Data.doc
Page 29
Version 1.1
Le 15 Juin 1998
Schma : Branche Basse de la figure Structuration et Normalisation Les dcisions empruntant le chemin du bas sont celles pour lesquelles la normalisation suit aisment la structuration et la modlisation, elles se prsentent frquemment et entrent dans les modles classiques de comptabilit, de programmation linaire, ou de tout autre modle normalis. Ici, la structuration canonique conduit des programmes classiques qui fonctionnent bien. La procdure de dcision devient routine. Schma : Branche Haute. Dans la branche du haut, on trouve les oprations qui dans leur modlisation classique ne sont pas solubles par des algorithmes efficaces si bien que le problme est structur, mais la dcision est en gnral prise l'exprience , la suite de procdures essai erreur par des professionnels qualifis. Toutefois , un problme ou une dcision peut passer du chemin du bas au chemin du haut si l'on refuse la structuration dominante .
1.1.1.1 LA REPRSENTATION
Structurer, mais d'aprs quel modle ? Dans cette optique, le problme central est celui de la modlisation, c'est--dire de la structuration des problmes non structurs. Pour le dcideur, le problme rsoudre ne se prsente en gnral pas sous forme d'oprations simples; il y a un travail pour passer de la perception la reprsentation. 1.1.1.1.1 Reprsentation, Structuration, Process L'approche intelligence artificielle a permis de bien distinguer entre reprsentation, c'est-dire une certaine structuration descriptive de la connaissance (matrice du tableur ou les fiches d'un logiciel comme hypercard) et le processing (par exemple, le calcul sur les cellules du tableur) qui est le modle, en fait l'application au sens mathmatique du terme.
C:\CNAM\Data.doc
Page 30
Version 1.1
Le 15 Juin 1998
1.1.1.1.2 Les Niveaux de Reprsentations Ce passage de la perception la reprsentation n'est pas immdiat. D'autant plus que la reprsentation admet aussi des niveaux qui correspondent plus ou moins aux niveaux de traitement. Les diffrents niveaux de reprsentation que l'on peut observer dans la rsolution de problmes sont dcrits dans la figure ci-dessous avec des exemples, les exemples du niveau n+l correspondent des sous reprsentations du niveau n.
Thorie
Mthode
Recherche Oprationnelle Gomtrie Statistiques Base de Donnes Programmation Linaire Gomtrie analytique Rgression Relationnelle
Modle
Ecriture des quations ( contraintes, fonction conomique ) Repres Equations et Courbes Choix des variables
Donnes
Nombres rels ou nombres entiers Domaine de variation des coordonnes Sries de donnes statistiques Domaines des attributs
La structuration apparat comme un pralable la normalisation. Ainsi, pour un problme donn, faisons le choix d'une rsolution par la recherche oprationnelle et optons pour la programmation linaire. Une reprsentation est construite partir des concepts pertinents ou objets : machines, ouvriers, nombre d'heures ouvres, etc., ces objets sont lis dans un modle qui met sous forme d'quations les contraintes et donne la fonction conomique. Enfin dans un dernier niveau, on dfinit quelles seront les variables entires et les variables continues.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 31
Version 1.1
Le 15 Juin 1998
Il va de soi que les niveaux prcdents ne sont pas indpendants entre eux et que certains choix sont simultans, comme par exemple celui des objets et des valeurs, parfois mme la reprsentation modle-objets-valeurs se forme de faon concomitante dans la tte d'un individu. Notons aussi que la dtermination de la thorie et de la mthode stricto sensu se font souvent ensemble, si bien qu'on peut les regrouper en un terme de mthode ou mieux, de planification. Nous dsignerons les deux niveaux infrieurs de reprsentation sous le nom de modle ou modlisation. Cette partition en deux niveaux correspond alors ce qui a t observ lors de la rsolution de problmes, le niveau suprieur tant celui des plans de Newell et Simon (1972). Comme nous venons de le dire, l'indpendance entre les niveaux de reprsentation n'est pas de rgle. Piaget a mme montr que les niveaux de reprsentation ne s'acquirent que progressivement, en passant de l'un l'autre grce un processus d'abstraction rflchissante . 1.1.1.1.3 Equilibration et Modles Pour Piaget, toute action se place dans le cadre d'une reprsentation (pour nous d'un modle) qui s'enrichit par assimilation (attraction de nouveaux objets par le modle) et accommodation (particularisation du modle), l'ensemble de ce processus d'enrichissement en fonction des expriences (actions et rsultats des actions) s'appelle l'quilibration. L'chec de l'quilibration va conduire un autre modle suivant le schma suivant inspir de Courbon et Stabell (1986) et Ramaprasad (1987). Action Rsultat de laction espr diffrent de celui espr quilibration russie quilibration impossible renforcement du modle spcialisation ou gnralisation du modle construction dun nouveau modle par abstraction rflchissante.
Tableau 5 : Modle-Action-Equilibration
C:\CNAM\Data.doc
Page 32
Version 1.1
Le 15 Juin 1998
1.1.1.1.4 Les Niveaux de Reprsentation Il nous semble que chaque niveau de reprsentation, sauf le plus bas, est fixable , le niveau modle, le niveau mthode le niveau thorie. A chacun de ces niveaux de fixation correspondent des STI diffrents. STI 1 : Quand la mthode est fixe, le systme doit possder une mmoire des modles et des processeurs de modles. STI 2 :Quand le modle est fix, les objets le sont aussi ipso facto, seules les valeurs peuvent changer. Dans ce cas l, des processeurs arithmtico-logiques simples sont suffisants pour procder. Exemple : dans les anciennes bases de donnes de type fichier, on est juste capable d'ajouter des donnes et de faire des interrogations prdtermines. 1.1.1.1.1 Modle Dfinition : Un modle a toujours une traduction immdiate en un programme informatique. Le modle correspond au processing et la computation s'exerce sur les reprsentations. 1.1.1.1.1 1er Espace de rsolution Nous avons donc un premier espace de rsolution form de modles. C'est--dire qu'un tat de cet espace est un modle, les oprateurs de cet espace sont des oprateurs de choix de modles, la rduction de la diffrence se rfre la validit des modles. Ce systme de production fonctionne pour le choix du modle.
C:\CNAM\Data.doc
Page 33
Version 1.1
Le 15 Juin 1998
1.1.1.1.2 2d Espace de Rsolution A un tage au-dessous, pour un modle fix, le systme, afin d'valuer les rsultats, fonctionne dans un espace de rsolution form d'tats du type objets valus, un objet valu tant un couple (objet, valeur). Les oprateurs portent sur les valeurs, la rduction de la diffrence porte sur le rsultat. Disons enfin qu'il existe des STI pour lesquels les mthodes ne sont pas fixes. C'est le cas par exemple en statistique. Le systme vous donne le choix, mthode de Box-Jenkins ou l'analyse des donnes, puis vous choisissez votre modle relatif la mthode slectionne, enfin vous choisissez vos sries. En rsum, les reprsentations forment le bagage culturel acquis qui nous permet d'interprter nos perceptions et d'effectuer une premire structuration statique des informations qui nous parviennent de l'environnement. Une reprsentation est structure quand on peut lui associer un modle. Les 4 Niveaux de reprsentation peuvent se dcomposer en 2 niveaux sur lesquels des STI peuvent oprer la rsolution de problme par dmarche heuristique : 1. Le niveau mthode-Modle 2.Le niveau Modle-Objet valu.
C:\CNAM\Data.doc
Page 34
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 35
Version 1.1
Le 15 Juin 1998
1.1.1.1.1 Rationalit Limite et Dcision Satisfaisante la rationalit limite se rsume la recherche d'une dcision satisfaisante et l'affirmation que l'on peut organiser rationnellement le processus temporel de recherche de cette dcision. C'est--dire que la rationalit est dans la procdure. Ce que cherche le dcideur c'est une action satisfaisante compte tenu de ses fins. Cependant, la rationalit limite ne doit pas tre comprise comme le refus de tout apport normatif. Le Paradigme de la Prise de dcision dirait que : la prise de dcision est un processus temporel, faisant appel de faon non squentielle et parfois rcursive aux fonctions information, conception, choix, feed-back . A cause de nos limites cognitives, ce processus n'est pas rationnel dans son ensemble (rationalit limite), ce qui entrane qu'il n'est pas dterministe en ce sens qu' situation gale, deux individus diffrents arriveront deux dcisions diffrentes, mais que la faon de chercher (problem solving) tend tre rationnelle compte tenu des capacits, des acquis et des reprsentations de chaque individu (rationalit procdurale).
Remarque :
En admettant mme que l'on puisse donner un sens l'expression dcision optimale , le cot de la recherche de l'optimalit risque d'tre prohibitif (c'est par exemple le cot d'tude de toutes les actions possibles). Mettre le cot de la recherche dans la fonction optimiser ne rsout pas le problme car l'on entre alors dans un jeu de spcularit infinie. En effet, il faudrait aussi considrer le cot de la recherche du cot, etc. Nous positionnons les qualits de la rationalit sur lchelle des proccupations.
C:\CNAM\Data.doc
Page 36
Version 1.1
Le 15 Juin 1998
Rationalit de la dcision
1.1.1.1.1 rationalit limite et paradigme STI Le lien avec le paradigme STI consiste dire que : Les processus rationnels sont normalisables et programmables un processeur peut donc remplacer le cerveau et, de fait, les recherches heuristiques sur ordinateur sont de la rationalit limite en action . Les raisonnements sont formalisables en rgles de production. Une telle rgle se met alors sous la forme : SI situation ALORS action.
C:\CNAM\Data.doc
Page 37
Version 1.1
Le 15 Juin 1998
1.1.1.1.2 Rationalit limite dans les programmes la rationalit est dans le processus de dcision; la rationalit limite en action conduit explorer intelligemment un espace de rsolution. Il existe un programme permettant cette dmarche heuristique donc cette gestion des points de contrle. Les possibilits aux points de contrle ( passage dun tat un autre ) sont les suivantes : un nud (tat) donn, choisir un oprateur. un nud donn, dcider si l'on doit continuer partir de l ou pas ; un nud donn, dterminer s'il mrite d'tre conserv en mmoire pour un ventuel retour arrire ; quand on dcide d'abandonner un nud, choisir le nouveau nud d'o l'on va continuer le processus. Ainsi, il existe diverses mthodes qui vont permettre de diffrencier les heuristiques. L'valuation qui consiste savoir si l'tat o l'on se trouve est digne d'intrt, soit pour continuer l'exploration partir de lui, soit pour tre mis en rserve afin d'tre dvelopp par la suite, cette valuation est le point le plus important de toute recherche heuristique.
5 SIAD , le terme anglais est Decision Support System ou DSS. C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels
Page 38
Version 1.1
Le 15 Juin 1998
1.1.1.1.2 Interactif Interactif avait un sens fort dans les annes 70, car ils sopposaient saisie par cartes perfores , traitement par lot . Aujourdhui, les accs la machine sont des transactions interactives Homme Machine. Toutefois, le sens Interactif des annes 70 na pas chang. Le SIAD tait interactif parce quil laissait le contrle lHomme pour choisir ou dcider du modle appliquer lors de ltape suivante. Nous verrons dans le paragraphe suivant 3 siad lmentaires qui mettent la disposition de lutilisateur des bibliothques de mthodes et de modles et laissent au dcideur, le soin de btir son cheminement heuristique. En effet, les objets valus, correspondant un tat, sont dfinis, un certain nombre de computations, effectues par un processeur d'tat, fournissent, suivant un programme informatique non interactif, des extrants (des donnes de sortie), ce sont ces dernires valeurs qui vont tre apprcies par l'utilisateur pour dcider de la suite de la recherche heuristique. Nous pouvons donc affirmer au niveau le plus bas
un SIAD est un programme de recherche heuristique dont la fonction d'valuation se prsente chaque tape sous la forme d'un modle.
1.1.1.1.3 SIAD & Aide la dcision Aide la dcision s'oppose prise de dcision automatique et par consquent processus sens unique. la notion d'aide la dcision s'interprte comme une aide la recherche des solutions satisfaisantes en utilisant un systme de recherche heuristique. Un SIAD est un systme qui augmente la qualit des processus de dcision plutt que leur productivit. il faut, lors de la modlisation, utiliser certains modles normatifs et largir les connaissances et les capacits du dcideur ; par exemple, introduire la dcision multicritre alors qu'elle tait monocritre, introduire du qualitatif quand le dcideur n'utilisait que des raisonnements numriques, etc.
C:\CNAM\Data.doc
Page 39
Version 1.1
Le 15 Juin 1998
1.1.2.1 LE TABLEUR
1.1.2.1.1 Thorie la Thorie de rsolution de problme : tout problme se rsout l'aide de comptes. 1.1.2.1.2 Mthode La mthode est le moyen mis en uvre : une matrice informatique. La mthode consiste mettre des items dans un tableau matriciel. La mthode du tableur est fixe. 1.1.2.1.3 Modle On construit le modle en choisissant des objets (concepts) et les relations (quations) entre les objets. 1.1.2.1.4 Processeur dtats Cette grille de calcul (processeur d'tat) met jour le tableau aprs chaque modification. 1.1.2.1.5 S.T.I. Le modle tant fix, on entre dans un systme de rsolution de problme o chaque tat est une grille et les oprateurs sont ceux qui servent modifier les valeurs de la grille. 1.1.2.1.6 Organisation de lensemble des modles Il n'y a pas d'exploration de style systme de production sur l'ensemble des modles, le changement ce niveau est irrvocable . Cest lutilisateur qui gre sa base de modles; celle-ci nest pas explicite; sa construction en est laisse lutilisateur. Les modles sont contenus en puissance dans les fonctions du du tableur mises la disposition de lutilisateur. Ou plutt, je dois organiser le changement.
C:\CNAM\Data.doc
Page 40
Version 1.1
Le 15 Juin 1998
1.1.2.1.7 La recherche Heuristique sur les modles La recherche heuristique nest pas aide par la machine; cest lutilisateur de grer cette dmarche en construisant les modles qui lui semblent opportuns de crer pour rduir la diffrence. Au niveau suprieur, le modle peut varier, changement de variables explicatives, des quations, etc. 1.1.2.1.8 La recherche Heuristique sur les valeurs Cest par une rduction de diffrence par rapport au rsultat que va sorganiser la recherche heuristique des bonnes valeurs. Exemple : les items des soldes intermdiaires de gestion seraient placs dans les lignes de la matrice et aux colonnes correspondraient des priodes de temps (annes, mois ou jours). le problme est : Augmentation de la capacit d'autofinancement de lentreprise. la dcision doit permettre dapporter une solution ou au moins une amlioration. 1.1.2.1.9 Organisation de lensemble des modles Une extraction de base de donnes correspond un sous-modle; dplacement dans les sous-modles.
C:\CNAM\Data.doc
Page 41
Version 1.1
Le 15 Juin 1998
1.1.1.1.2 Ltat Soit une requte pour connatre les clients qui paient plus de 30 jours. Ltat est la relation engendre par la requte 1.1.1.1.3 le processeur d'tat Le processeur dtat est le processeur de requte qui fait les jointures, les projections et les slections ncessaires pour valuer l'tat engendr (relation) par ma demande. 1.1.1.1.4 Dmarche Heuristique sur les Modles le SGBD permet d'introduire de nouveaux attributs et de nouvelles relations. c'est--dire de changer les modles. Par contre, on volue de modles en modles plus large ou plus complet. Le choix du modle M+1, en gnral, est tel que le modle M est contenu dans le modle M+1. ( dans le cas contraire, il y a risque de pertes de donnes ) Par contre, on peut tre amen travailler sur des sous-modles. Toutefois, tout est possible. Remarque : A ce mtaniveau l'valuation porte en partie sur la valeur des concepts. Un SGBD est donc un SIAD deux niveaux tout comme le tableur. Il nexiste pas daide dans le choix du modle suivant. Cela implique : Le dcideur doit connatre sa bibliothque de modles pour une meilleure dmarche heuristique.
C:\CNAM\Data.doc
Page 42
Version 1.1
Le 15 Juin 1998
1.1.1.1.1 Remarque Selon la rationalit prsente dans les processus de dcision (Cf. le paragraphe sur la rationalit limite) , les raisonnements sont formalisables sous forme de rgles de production du type : SI situation ALORS action Type dductif : si a vraie alors b vraie; cette rgle est une infrence, la partie gauche, la prmisse, la partie droite , la conclusion. 1.1.1.1.1 Exemple dune base de faits niveau des investissements = important environnement social = bon cadre juridique = stable protection environnement = croissante environnement = acceptable rseau commercial = adapt sous-traitance = instable faisabilit technique = moyenne risque faisabilit = moyen 1.1.1.1.1 Prsentation succincte des systmes experts Un systme expert comprend une base de faits, un ensemble de rgles et une structure de contrle. En gnral, la base de faits est divise en 2 parties : la base de faits elle-mme et la base des faits que lon voudrait prouver ou buts . Le fonctionnement du Systme Expert correspond la figure ci-dessous.
C:\CNAM\Data.doc
Page 43
Version 1.1
Le 15 Juin 1998
Contrle
Base de faits
Excution de la Rgle
Non
Oui FIN
1.1.1.1.2 Reprsentation des connaissances On distingue : Les connaissances assertionnelles, connaissances de la base de faits ou connaissances dclaratives ou faits bruts. Les connaissances contenues dans les rgles sont des connaissances opratoires. Lensemble des rgles et des faits constituent une base de connaissances. Les connaissances du systme de contrle sont des connaissances de stratgies de contrle. Elles disent dans quel ordre appliquer les rgles pour rsoudre le problme. 1.1.1.1.1 Reprsentation des faits Une reprsentation des faits est souvent du type <ATTRIBUT><OBJET><VALEUR> Exemple < Rendement-81><Action Michelin><7%> Elle peut se faire selon diffrentes mthodes dont lemploi des prdicats ou lutilisation des Frame ou forme-objet o une unit dinformation regroupe un certain nombre de rubriques.
C:\CNAM\Data.doc
Page 44
Version 1.1
Le 15 Juin 1998
TOTAL firme
FAIT PARTIE DE PETROLE Cours + haut Cours + bas Rendement 84 Dividende Croiss ance CA
ELF firme PETROLE ET FAIT PARTIE DE CHIMIE Cours + haut Cours + bas Rendement 84 Dividende Croiss ance CA
Nom Capital Social EST UNE firme TOTAL Montant Nombre Actionnaires Act Principaux 1 2
Nom Capital Social EST UNE firme ELF Montant Nombre Actionnaires Act Principaux 1 2
Nom Production EST UNE firme ELF Nb Units France Nb Units USA
1.1.1.1.1 Infrence incertaine Cette notion permet dattribuer un niveau de confiance une rgle. soit un nombre compris entre 0 et 1. 1.1.1.1.2 Choix dune rgle applicable Les propositions dune base de faits sont vraies. ( A B ) C Le systme examine si A et B sont contenues dans le fichier base de faits si oui, alors ( A B ) C devient une rgle applicable si le systme dcide de lappliquer alors C est dtache et ajoute la base de faits.
C:\CNAM\Data.doc
Page 45
Version 1.1
Le 15 Juin 1998
1.1.1.1.3 Le moteur dinfrence Le moteur dinfrence est le module qui gre les oprations filtrage, slection, excution, test darrt. Ces oprations forment le cycle du moteur dinfrence. La Restriction => limitation du nombre de rgles filtrer Le Filtrage => lection dun groupe de rgles lexcution. La Slection => ordonnancement squentiel des rgles prsenter lexcution. LExcution de la rgle => gnration dun fait nouveau ( en gnral ) Test darrt. 1.1.1.1.4 Types de Fonctionnement : Chanage avant, arrire, mixte. Un Systme gouvern par les faits fonctionne en chanage avant . SI a ALORS b ; soit a vraie, et b un fait que nous considrons comme un fait vrai que nous voudrions prouver Un Systme gouvern par les buts fonctionne en chanage arrire . SI a b c ALORS d ; pour dmontrer d vraie, il faut dmontrer que a vraie, b vraie, c vraie. Ainsi le processus commence, dmontrons que a vraie , si a est elle mme le rsultat dune condition , le systme devra remonter aux prmisses de la condition et ainsi de suite. Puis faire le mme processus sur b et sur c. Le Systme est chanage mixte sil est gouvern la fois par les faits et par les buts. 1.1.1.1.5 Logique des Prdicats Soit la rgle suivante : SI INDICE-BRANCHE (y, HAUSSE) et si APPARTIENT (x,y) ALORS ACHETER (x) exemple si y = Ptrole et si indice-branche est en hausse et si x=TOTAL alors on peut acheter des actions Total Cette formulation des rgles permet une application indpendante des faits. 1.1.1.1.6 La Thorie Nous reprenons la prsentation canonique des siad lmentaires Thorie, Mthode, Modle La thorie : tout problme peut tre rsolu la suite de raisonnements qui sont dcomposables en rgles logiques. Des rgles logiques, soit au sens de : la logique des propositions ( mode 0+ ). de lemploi de variables dans la logique des prdicats ( mode 1 ).
C:\CNAM\Data.doc
Page 46
Version 1.1
Le 15 Juin 1998
1.1.1.1.1 La Mthode La mthode est l'emploi de rgles conjointement avec une structuration des connaissances ad hoc : rseaux smantiques, certains rseaux de formes-objets. 1.1.1.1.1 Le Modle Ici, le modle n'est pas fix, il correspond la base de rgles qui sera ralise.
Exemple :
je souhaite acheter une PME. Pour cela je vais faire un modle d'valuation des PME. Je ferai intervenir des concepts quantitatifs (comme le chiffre d'affaires, le rsultat brut d'exploitation, etc.), et qualitatifs (comme la qualit des dirigeants et du personnel). Ce modle ou base de rgles me permet de faire de multiples valuations de PME. 1.1.1.1.2 Etat Chaque tat est un tat de la PME (paramtres qualitatifs et quantitatifs, c'est--dire base de faits). 1.1.1.1.3 Oprateur Des oprateurs permettent de changer ces paramtres. 1.1.1.1.4 Processeur dtat L'valuation d'un tat (processeur d'tat) porte sur le rsultat de l'expertise et l'obtention d'une valuation de la PME qui semble raliste. 1.1.1.1.5 Recherche Heuristique sur les modles Il existe un deuxime niveau de recherche heuristique, c'est celui qui permet de faire varier les modles de l'entreprise. Chaque tat est un modle de l'entreprise (sous forme de rgles, d'objets et de relations entre les objets, un graphe de schmas par exemple). Les oprateurs sont des oprateurs de modification des objets et des relations entre objets (schmas).
C:\CNAM\Data.doc
Page 47
Version 1.1
Le 15 Juin 1998
1.1.1.1.6 Remarques Chaque tat, sous forme de base de rgles est stockable en mmoire et fonctionne avec tout tat du niveau infrieur ou base de faits. L'valuation ce niveau porte sur la qualit de la base de rgles, sa richesse, sa cohrence et sa compltude. En Rsum : les 3 Thories de rsolution de problme runies disent ceci : Pour rsoudre un problme, il faut dabord accder aux bonnes donnes ( le SGBD remplit lopration de filtre ( recherche heuristique sur les modles), puis positionner les items dans une matrice et leurs valeurs dans les cellules de la matrice ( le tableur remplit ce rle de matrice ) enfin rechercher, par une dmarche heuristique, la succession de modles qui vous amnera la solution du problme par rduction progressive de la diffrence. Ces rsolutions gnrent de la connaissance qui peuvent alimenter une base de connaissance ( base de faits et base de connaissances procdurales (rgles )) dun systme expert sur laquelle le moteur dinfrence gnrera de nouvelles connaissances ou confirmera des faits ou des hypothses.
Remarque
la base du SGBD est un ensemble de tables contenant les bonnes donnes. Tableur et Base du SGBD ont donc la mme structure cellulaire. Sur le SGBD, la mthode consiste permettre dtablir des liens entre les cellules. Sur le tableur, la mthode permet ltablissement des expressions de fonction entre les cellules. Ainsi, un transfert dune base de donnes vers un tableur est une opration miroir ou neutre.
C:\CNAM\Data.doc
Page 48
Version 1.1
Le 15 Juin 1998
Projet
1 2 3 4 5 6 7
Ainsi, la structure de la machine intgre les 3 siad lmentaires et la partie du schma Reprsentation mentale intgre de lensemble des Thories, Mthodes et Modles, celles et ceux qui sont reconnus par la machine.
C:\CNAM\Data.doc
Page 49
Version 1.1
Le 15 Juin 1998
Ensemble des Thories, Mthodes, Modles des Reprsentations Mentales Ensemble des Mthodes et Modles reconnus par la machine
Machine
Sstmes Experts : Base de Connaissances
Dcideur
TABLEUR
( Dialogue )
SGBD
Mmoires / Processeurs
Cette partie a permis de dfinir des concepts utiles cerner le Systme dcisionnel de lorganisation . Le Systme Homme-machine Les caractristiques de la dcision. En rsum, nous rappelons les chelles lies lchelle des proccupations du dirigeant ou du dcideur.
C:\CNAM\Data.doc
Page 50
Version 1.1
Le 15 Juin 1998
Niveaux de Proccupations
Priode de Rfrence
Impact temporel
Domaines Impacts
1 2 3 4 5 6 7
Anne(s)
Long terme
Organisatio n
Peu Normalise
Bien Normalise
Jour, Heure
Ponctuel
Poste de Travail
1 2 3 4 5 6 7
Peu Normalise
Maximum
A partir de la structure du systme dcisionnel , nous positionnerons les outils daide la dcision dans la conclusion finale de la Problmatique Entreprise .
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 51
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 52
Version 1.1
Le 15 Juin 1998
Exemple dAdministration :
Le service dtat civil de la mairie est ouvert du Lundi au Vendredi de 9h 12h, de 14h 17h et le Samedi de 9h 11h. Les actes conomiques de ce service sont les dlivrances de fiches dtat civil, de certifications conformes de photocopie, dextrait de naissance, etc... La structure de lacte : 2 Tiers ( Contrat dchange ( n actes conomiques)). Acte conomique ( tiers1, tiers2, produit, prix dchange, date, No de contrat ) 1.1.1.1.1 le Contrat Le contrat pourrait tre dfini de la faon suivante : Contrat ( No , tiers 1, tiers 2 ( Type dactes conomiques ou prestations, Liste des clauses ) ) Exemple : Clauses Juridiques, dassurance, de livraison, de facturation, de rglement, de garantie, de service aprs-vente, de maintenance, de fin de vie du produit, etc... ) Si n tiers interviennent dans un contrat, on peut toujours dcomposer en m contrats de tiers pris 2 2. 1.1.1.1.2 Lenvironnement Lenvironnement de lacte conomique est constitu dabord du contrat et ensuite de ltat de la conjonction conomique, du march, et de nombreux facteurs denvironnement que nous reprendrons daprs le schma des forces de Porter. Cet environnement est constitu de tous les vnements perus et reprs par lorganisation et qui ont eu un impact sur elle. 1.1.1.1.3 base de faits La Base des actes conomiques est la base des faits.
C:\CNAM\Data.doc
Page 53
Version 1.1
Le 15 Juin 1998
1.1.1.1.4 Base de Comprhension la base des vnements relatifs la comprhension sont : les contrats, les vnements non rptitifs fort impact, lvolution extrieure. Nous prsentons un modle MCD schmatique du contenu informatif du systme dcisionnel. Exemple d'vnements : Une Campagne promotionnelle dans la valle du Rhne sur les fruits frais le dpart du responsable commercial lors du lancement dun nouveau produit, etc...
Environnement
Base de Faits
Contrat
Evnements Code Acte Economique Code Contrat_Code Produit_Code Date Prix Intitul Domaine Priode Espace
Figure 17 : modle des donnes simplifi du contenu informatif de base du systme dcisionnel
C:\CNAM\Data.doc
Page 54
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 55
Version 1.1
Le 15 Juin 1998
Politique
Dmographique
Lgislatif
Administratif
Social
Ecologique
C:\CNAM\Data.doc
Page 56
Version 1.1
Le 15 Juin 1998
Accroissement de la Diffrenciation
Productivit
Savoir-faire managriaux
C:\CNAM\Data.doc
Page 57
Version 1.1
Le 15 Juin 1998
Satisfaction de l'utilisateur
Profit du ProducteurVendeur
Prix
Cot
1.1.1.2 CONCLUSION
Le systme dcisionnel intgre lensemble du systme dinformation de lorganisation.
C:\CNAM\Data.doc
Page 58
Version 1.1
Le 15 Juin 1998
Lensemble des dcisions stratgiques prises ou prendre reprsentent lespace dtats dun espace de rsolution de problme.
Ef E4 E4 E t at O bje ct if
E3 E2 E2
E3
E1
E1
Ei
A ujo urd'h ui
+ 1 an
+ 2 an s
+ 3 an s
Amener lorganisation du point A initial au point B tat final est une gestion de projet qui peut se mener comme une gestion de projet canonique . La relecture, posteriori du chemin parcouru par rapport aux objectifs, se comprendra dautant mieux que les vnements importants auront t tracs.
C:\CNAM\Data.doc
Page 59
Version 1.1
Le 15 Juin 1998
1.1.2.2 LA MONDIALISATION
La mondialisation ou Lespace de libre change au sens anglo-saxon du terme.
1.1.2.3 LE CLIENT
Un client de plus en plus difficile satisfaire, versatile, et qui nest pas ncessairement argent entranant une organisation oriente vers le client et inversant de haut vers le bas, la traditionnelle pyramide hirarchique. Modification dorganisation Pyramide vers la Pyramide et le Rseau. Dveloppement du management par projet.
C:\CNAM\Data.doc
Page 60
Version 1.1
Le 15 Juin 1998
1.1.3 CONCLUSION
Montrez-moi votre systme dinformation, et je vous dirai qui vous tes . En effet, si la structure du contenu peut sexprimer relativement simplement dans les niveaux oprationnels de lorganisation ( structure des actes conomiques ); toute la varit des organisations et de leurs activits proviendra de cette partie environnementale ( Contrat, historique des vnements marquants ) et des richesses intellectuelles et humaines des dirigeants.
C:\CNAM\Data.doc
Page 61
Version 1.1
Le 15 Juin 1998
Ensemble des Thories, Mthodes, Modles des Reprsentations Mentales Ensemble des Mthodes et Modles reconnus par la machine
Machine
Sstmes Experts : Base de Connaissances
Dcideur
TABLEUR
( Dialogue )
SGBD
Mmoires / Processeurs
C:\CNAM\Data.doc
Page 62
Version 1.1
Le 15 Juin 1998
Machine
Dcideur
Data Warehouse
( Dialogue )
La taille du Data warehouse est globalement fonction de la taille des organisations. Sur lchelle des tailles des organisations, les amricains ont se sont servis de rapprochement avec les activits logistiques pour baptiser les collections de donnes dcisionnelles ; ainsi lentrept pour les grands volumes dinformations stockes, le Magasin pour des volumes plus faibles la taille de magasin ou de services dentreprise. Enfin pour les plus petites units, le vocabulaire na pas t fix, nous pourrions peut-tre choisir la Palette de donnes au sens de Palette de conditionnement en logistique. Faut-il affecter des volumes de donnes chacune des tailles dentrept de donnes ? Ce que lon peut dire : lunit de stockage est le Giga Octets. Cette unit est relative au stockage de donnes alaphanumriques. ( nous excluons limage, le son ,.. ) Plutt que de fixer des limites, nous donnons des ordres de grandeur au travers de 3 exemples : Mag Info gre la carte Cofinoga et dispose de 30 Tra-Octets en ligne soit 3.10^5 Go Une PME de fabrication de lingerie fminine destine aux grandes surfaces : CA 300 MF et dispose de 4 Go. Une base de documentation relative ces contrats dun consultant est de lordre de quelques Mo soit 0,01 Go environ.
C:\CNAM\Data.doc
Page 63
Version 1.1
Le 15 Juin 1998
Volume en Go 0,001 1
SGBD
"Palette de donnes"
Dpt
Uni Personnelle
PM(E,I) Organisations
Gdes Organisations
C:\CNAM\Data.doc
Page 64
Version 1.1
Le 15 Juin 1998
DE
LANALYSE
LAnalyse multidimensionnelle est un hyper tableur capable de projeter sur le plan de lcran ou de la feuille de papier un plan intressant choisi par lutilisateur parmi les plans de lhypercube. Ce tableur permet de nombreux niveaux dagrgation par dimension. Cet outil permet de quantifier. Un chapitre est consacr lanalyse multidimensionnelle et aux rgles OLAP. Ces rgles OLAP caractrisent le systme dcisionnel multidimensionnel et noncent des recommandations sur le modle de SGBD. Cest pourquoi nous avons fait rfrence dans la figure ci-dessous au SGBD.
Ensemble des Mthodes et Modles de SGBD Ensemble des Mthodes et Modles de TABLEURS Fonctions Mathmatiques, Financires, etc..
Analyse de Population
Dcideur
( Dialogue )
C:\CNAM\Data.doc
Page 65
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 66
Version 1.1
Le 15 Juin 1998
Ensemble des Mthodes et Modles de SGBD Ensemble des Mthodes et Modles de TABLEURS Fonctions Mathmatiques, Financires, etc..
Analyse de Population
Systme Expert
( Dialogue )
DES
E.I.S
(EXECUTIVE
Destins au comit de Direction, ces EIS ou tableaux de Bord ont intgr au cours de leur volution des accs de nombreuses bases pour permettre des indicateurs de synthse, lanalyse multidimensionnelle et bien sr la fonction de tableaux de Bord.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 67
Version 1.1
Le 15 Juin 1998
1.1.2 CONCLUSION
pour conclure cette problmatique, nous terminons par quelques questions dun dirigeant : Suis-je dans le vrai ? Mes choix sont-ils bons ? Comment prendre du recul par rapport un quotidien qui mabsorbe totalement ? Que deviendra mon entreprise dans les 2 ans qui viennent ? Au del dune bonne exprience des modles, des analyses et des arsenaux dinformatique dcisionnelle, il y a toujours une prise de risque; en gnral, il faut prendre un risque par Jour !!! Nous avons positionn Data Warehouse et Data Mining dans le systme dcisionnel de lorganisation, les chapitres suivants vont prsenter plus en dtail leurs caractristiques, leurs apports respectifs dans laide la dcision, et leur mise en uvre.
C:\CNAM\Data.doc
Page 68
Version 1.1
Le 15 Juin 1998
Le nouveau rle de linformatique est de dfinir et dintgrer une architecture qui serve de fondation aux applications dcisionnelles : le Data Warehouse.
C:\CNAM\Data.doc
Page 69
Version 1.1
Le 15 Juin 1998
A ce titre, le Data Warehouse doit tre rapproch de tous les concepts visant tablir une synergie entre le systme dinformation et sa stratgie.
C:\CNAM\Data.doc
Page 70
Version 1.1
Le 15 Juin 1998
Donnes oprationnelles
Donnes dcisionnelles
Orientes application, dtailles, prcises Oriente activit (thme, sujet), au moment de laccs condenses, reprsentes des donnes historiques Mise jour interactive possible de la part Pas de mise jour interactive de la part des utilisateurs des utilisateurs Accdes de faon unitaires par une Utilises par lensemble des analystes, personne la fois gres par sous-ensemble Cohrence atomique Cohrence globale Haute disponibilit en continu Exigence diffrente, haute disponibilit ponctuelle Uniques (pas de redondance en thorie) Peuvent tre redondantes Structure statique, contenu variable Structure flexible Petite quantit de donnes utilises par un Grande quantit de donnes utilise par traitement les traitements Ralisation des oprations au jour le jour Cycle de vie diffrent Forte probabilit daccs Faible probabilit daccs Utilises de faon rptitive Utilise de faon alatoire
Tableau 8 : diffrences entre donnes du systme de production et donnes dcisionnelles
C:\CNAM\Data.doc
Page 71
Version 1.1
Le 15 Juin 1998
Sil existe effectivement des informations importantes, il nen est pas moins ncessaire de construire une structure pour les hberger, les organiser et les restituer des fins danalyse. Cette structure est le Data Warehouse ou entrept de donnes . Ce nest pas une usine produire linformation , mais plutt un moyen de la mettre disposition des utilisateurs de manire efficace et organise. La mise en uvre du Data Warehouse est un processus complexe. Lobjectif atteindre est de recomposer les donnes disponibles pour en donner : une vision intgre et transversale aux diffrentes fonctions de lentreprise, une vision mtier au travers de diffrents axes danalyse, une vision agrge ou dtaille suivant le besoin des utilisateurs. Le Data Warehouse permet la mise en place dun outil dcisionnel sappuyant sur les informations pertinentes pour lentreprise, centres sur le mtier utilisateur.
IBM
BULL
HP
STOCKAGE
ACCES, VISUALISATION
IDENTIFIER
POINT FOCAL
C:\CNAM\Data.doc
Page 72
Version 1.1
Le 15 Juin 1998
Cette figure illustre lobjectif dun Data Warehouse, sorte de point focal stockant en un endroit unique toute linformation utile provenant des systmes de production et des sources externes. Avant dtre charge dans le Data Warehouse, linformation doit tre extraite, nettoye et prpare. Puis, elle est intgre et mise en forme de manire comprhensible par tre comprise par lutilisateur.
1.2 DFINITION
De nombreuses dfinitions ont t proposes, soit acadmiques, soit par des diteurs doutils, de bases de donnes ou par des constructeurs, cherchant orienter ces dfinitions dans un sens mettant en valeur leur produit. La dfinition la plus approprie est : Le Data Warehouse est une collection de donnes orientes sujet, intgres, non volatiles et historises, organises pour le support dun processus daide la dcision.
Orientes sujet
Le Data Warehouse est organis autour des sujets majeurs de lentreprise, contrairement aux donnes des systmes de production. Ceux-ci sont gnralement organiss par processus fonctionnels. Les donnes sont structures par thme. Lintrt de cette organisation est de disposer de lensemble des informations utiles sur un sujet le plus souvent transversal aux structures fonctionnelles et organisationnelles de lentreprise. Cette orientation sujet va galement permettre de dvelopper son systme dcisionnel via une approche par itrations successives, sujet aprs sujet. Lintgration dans une structure unique est indispensable car les informations communes plusieurs sujets ne doivent pas tre dupliques. Dans la pratique, une structure supplmentaire appele Data Mart (magasin de donnes) peut tre cre pour supporter lorientation sujet.
C:\CNAM\Data.doc
Page 73
Version 1.1
Le 15 Juin 1998
Donnes intgres
Un Data Warehouse est un projet dentreprise. Par exemple dans la distribution, le mme indicateur de chiffre daffaires intressera autant les forces de vente que le dpartement financier ou les acheteurs. Pour y parvenir, les donnes doivent tres intgres. Avant dtre intgres dans le Data Warehouse, les donnes doivent tres mises en forme et unifies afin davoir un tat cohrent. Par exemple, la consolidation de lensemble des informations concernant un client donn est ncessaire pour donner une vue homogne de ce client. Une donne doit avoir une description et un codage unique. Cette phase dintgration est trs complexe et reprsente 60 90 % de la charge totale dun projet.
Donnes historises
Dans un systme de production ; la donne est mise jour chaque nouvelle transaction. Dans un Data Warehouse, la donne ne doit jamais tre mise jour. Un rfrentiel temps doit tre associ la donne afin dtre capable didentifier une valeur particulire dans le temps.
Donnes non volatiles
La non volatilit des donnes est en quelque sorte une consquence de lhistorisation. Une mme requte effectue quelques mois dintervalle en prcisant la date de rfrence de linformation recherche donnera le mme rsultat. Le Tableau 10 ci-aprs prsente les principales diffrences entre le systme de production et le data warehouse :
C:\CNAM\Data.doc
Page 74
Version 1.1
Le 15 Juin 1998
D onnes agrges
N iveau de synthse
Mta Donnes
D onnes dtailles
N iveau d'historique
Elles refltent les vnements les plus rcents. Les intgrations rgulires des donnes issues des systmes de production vont habituellement tre ralises ce niveau. Les volumes traiter sont plus importants que ceux grs en transactionnel. Attention : le niveau de dtail gr dans le Data Warehouse nest pas forcment identique au niveau de dtail gr dans les systmes oprationnels. La donne insre dans le Data Warehouse peut tre dj une agrgation ou une simplification dinformations tires du systme de production. Exemple : ltude du panier de la mnagre ncessite de stocker le niveau de finesse du ticket de caisse.
C:\CNAM\Data.doc
Page 75
Version 1.1
Le 15 Juin 1998
Elles correspondent des lments danalyse reprsentatifs des besoins utilisateurs. Elles constituent dj un rsultat danalyse et une synthse de linformation contenue dans le systme dcisionnel, et doivent tre facilement accessibles et comprhensibles. La facilit daccs est apporte par des structures multidimensionnelles qui permettent aux utilisateurs de naviguer dans les donnes suivant une logique intuitive, avec des performances optimales. (Certains SGBD du march sont conus pour faciliter la mise en place des agrgations et la navigation au sein de celles-ci). La dfinition complte de linformation doit tre mise la disposition de lutilisateur pour une bonne comprhension. Dans le cas dun agrgat, linformation est compose du contenu prsent (moyenne des ventes, ) et de lunit (par mois, par produit,).
Les mta-donnes
Elles regroupent lensemble des informations concernant le Data Warehouse et les processus associs. Elles constituent une vritable aide en ligne permettant de connatre linformation contenue dans le Data Warehouse. Elles sont idalement intgres dans un rfrentiel. Les principales informations sont destines : A lutilisateur (smantique, localisation). Aux quipes responsables des processus de transformation des donnes du systme de production vers le Data Warehouse (localisation dans les systmes de production, description des rgles, processus de transformation). Aux quipes responsables des processus de cration des donnes agrges partie des donnes dtailles. Aux quipes dadministration de la base de donnes ( structure de la base implmentant le Data Warehouse). Aux quipes de production (procdures de changement, historique de mise jour,)
C:\CNAM\Data.doc
Page 76
Version 1.1
Le 15 Juin 1998
Un des objectifs du Data Warehouse est de conserver en ligne les donnes historises. Chaque nouvelle insertion de donnes provenant du systme de production ne dtruit pas les anciennes valeurs, mais cree un nouvelle occurrence de la donne. Le support de stockage dpend du volume des donnes, de la frquence daccs, du type daccs. Les supports les plus couramment utiliss sont les disques, les disques optiques numrique, les cassettes. La logique daccs aux donnes la plus utilise est la suivante : les utilisateurs commencent attaquer les donnes par le niveau le plus agrg, puis approfondissent leur recherche vers les donnes les plus dtailles (Drill Drown). Laccs des donnes se fait galement directement par les donnes dtailles et historises, ce qui conduit des brassages de donnes lourds, demandant des machines trs puissantes. Le Data Warehouse est une russite dans une entreprise lorsque le nombre dutilisateur accdant aux donnes de dtail augmente.
Version 1.1
Le 15 Juin 1998
Cette architecture nest pratiquement pas utilise pour le Data Warehouse. Les donnes rsident dans le systme de production. Elles sont rendues visibles par des produits middleware ou par des passerelles. Il en rsulte deux avantages : pas de cot de stockage supplmentaire et laccs se fait en temps rel. Linconvnient est que les donnes ne sont pas prpares.
1.1.1.4 SYNTHSE
Les diffrents lments d'apprciation sont repris dans le tableau rcapitulatif ci-dessous :
Utilisation Stockage
Avantages
Architecture relle Retenue pour les systmes dcisionnels SGBD spar du systme de production, aliment par des extractions priodiques Donnes prpares pour les besoins de la dcision
Cot de stockage supplmentaire, manque daccs temps rel
Donnes rsidant dans Combinaison des le systme de architectures relle et production virtuelle Pas de cot de stockage supplmentaire, accs en temps rel Donnes non prpares
Inconvnients
C:\CNAM\Data.doc
Page 78
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 79
Version 1.1
Le 15 Juin 1998
Infocentre Collection de donnes Orientes sujet Intgres Volatiles Actuelles Organises pour le support dun processus de dcision ponctuelle Outil
Data Warehouse Collection de donnes Orientes sujet Intgres Non volatiles Historises Organises pour le support dun processus daide la dcision Architecture
La mise en vidence des diffrences est exprime par les questions suivantes : Quels infocentres sont motivs par des objectifs business et sont au service de la stratgie de lentreprise ? Quels infocentres permettent de connatre la concurrence, danticiper les besoins ? investissement ? Quelles entreprises mesurent le retour sur
Linfocentre est un outil alors que le Data Warehouse est une architecture.
C:\CNAM\Data.doc
Page 80
Version 1.1
Le 15 Juin 1998
ACQUISITION
STOCKAGE IDENTIFIER
ACCES
Le cadre gnral dun Data Warehouse comporte trois domaines principaux : les applications, (acquisition, stockage, accs), les composants fonctionnels du Data Warehouse les infrastructures (technique et oprationnelle).
C:\CNAM\Data.doc
Page 81
Version 1.1
Le 15 Juin 1998
1.1.1 LACQUISITION
Elle se compose de trois phases : lextraction, la prparation et le chargement. systme de production. utilisables : donnes, Lextraction : collecter les donnes utiles dans le La prparation : plusieurs technologies sont les passerelles, fournies par les diteurs de base de
les utilitaires de rplication, utilisables si les systmes de production et dcisionnel sont homognes, les outils spcifiques dextraction (prix lev). La prparation inclus la mise en correspondance des formats de donnes, le nettoyage, la transformation et lagrgation. Le chargement : il constitue la dernire phase dalimentation. Il est indispensable de matriser la structure du SGBD (tables et index) pour optimiser au mieux le processus.
C:\CNAM\Data.doc
Page 82
Version 1.1
Le 15 Juin 1998
1.1.1 LE STOCKAGE
Le composant de base est le SGBD. Il doit tre spcifiquement adapt aux caractristiques de laccs dcisionnel. Du fait de limportance de lhistorique, la structuration physique des donnes est galement trs importante. Le SGBD apporte la transparence lvolution matrielle, lindpendance, que ce soit au niveau des types et du nombre de processeurs, des disques ou des mmoires, ainsi que la transparence lvolution des systmes dexploitation.
1.1.2 LACCS
Dfinir une architecture globale servant de support aux accs dcisionnels impose des choix technologiques non structurants. Il faudra mettre en place une infrastructure commune toutes les applications dcisionnelles, tout en laissant aux utilisateurs lopportunit dutiliser les solutions daccs les mieux adaptes leur problmatique. (Les outils du march sont les requteurs, les outils danalyse multidimensionnelle, les EIS, le Data Mining, Les SIG).
Piloter EIS Agent intgr aux outils Analyser, Naviguer Les bases OLAP Les outils ROLAP
Version 1.1
Le 15 Juin 1998
Il y a deux niveaux dinfrastructures : linfrastructure technique : lensemble des composants matriels et logiciels ( associer aux composants fonctionnels : alimentation, stockage et accs). linfrastructure oprationnelle : lensemble des procdures et des services pour administrer les donnes, grer les utilisateurs et exploiter le systme.
Pour la construction dun Data Warehouse, de manire gnrale, il faut : 1. Bien connatre les mtiers utilisateurs Impliquer les utilisateurs dans les projets, Faire participer lutilisateur la dfinition et lvolution des mta-donnes, Former lutilisateur pour laider comprendre la logique du Data Warehouse, Avoir un chef de projet orient utilisateur. 1. Assurer une vritable conduite de projet Le chef de projet fdre lensemble des besoins. Il organise et planifie les diffrentes phases de dploiement en fonction de la culture de lentreprise. (La principale source dchec serait humaine et non technique). Seules les entreprises exprimentes peuvent faire lconomie dun prototype. 2. Commencer petit et voir grand Il faut commencer petit, quil sagisse dun prototype ou dun Data Mart. 3. Grer lvolutivit alimentation et administration. Ce sont les points critiques du processus de construction du Data Warehouse.
C:\CNAM\Data.doc
Page 84
Version 1.1
Le 15 Juin 1998
Quatre caractristiques ont des effets dterminants sur la dmarche de conception dun Data Warehouse : Les volutions technologiques : un systme dinformation peut se construire par intgration dun certain nombre de composants, chacun pouvant tre choisi par rapport son contexte dutilisation. Lentreprise dfini son architecture en fonction de ses besoins. La stratgie de lentreprise : le Data Warehouse est trs proche de la stratgie de lentreprise. Lobjectif du Data Warehouse se dfinit en terme mtier. Il faut donc impliquer les utilisateurs ayant le plus de connaissances dans leur entreprise ou dans leur mtier. Lamlioration continue : un Data Warehouse doit voluer en fonction des demandes utilisateurs ou des nouveaux objectifs de lentreprise. La maturit de lentreprise : entreprises ont dj un systme dcisionnel. Dautres nont aucun acquis. certaines
Dans tous les cas, il nexiste pas de cadre fig pour la conception dun Data Warehouse. Chaque entreprise doit adapter le projet son contexte, en ne perdant pas les objectifs de vue. Cet objectif est de mettre en place un systme dinformation cohrent et intgr, le systme devant tre dcomposer en applications, chacune sintgrant dans le Data Warehouse. Il est possible de proposer trois phases pour la conception : Dfinir le pourquoi du Data Warehouse et les objectifs atteindre (impliquer les utilisateurs). Dfinir organisationnelle du Data Warehouse. linfrastructure technique et
C:\CNAM\Data.doc
Page 85
Version 1.1
Le 15 Juin 1998
Cette phase consiste en ltude stratgique du Data Warehouse et la dfinition du plan daction.
Impliquer les managers, les quipes oprationnelles, les quipes informatiques : phase didentification et de comprhension des enjeux mtier/entreprise. Identifier les projets Data Warehouse. Ltude stratgique permet didentifier la stratgie de lentreprise, son organisation, les processus quelle met en uvre, la culture de lentreprise. Le but est de dterminer les domaines pour lesquels la mise en place dun Data Warehouse peut tre le plus bnfique. A la fin de cette tude, des sous-projets ou initiatives vont tre dgags. Les acteurs consults doivent tre des spcialistes mtiers, convaincus de la ncessit et de limportance du Data Warehouse.
Version 1.1
Le 15 Juin 1998
Les projets envisags (initiatives) doivent avoir une mise en uvre courte ( environ six mois) et doivent tre bien dlimits. Il faut aussi valuer le capital informatique, cest--dire analyser les systmes de production sur lesquels le Date Warehouse doit sappuyer, ce qui ne peut pas tre fait sans voir lvaluation des initiatives. Plusieurs dcisions sont prendre en ce qui concerne les donnes dont a besoin lentreprise : Si les donnes existent dans les systmes de production, les initiatives sont envisageables. Si les donnes nexistent pas dans lentreprise, ni lextrieur (achat de fichiers), il faut revoir ou abandonner les initiatives. Si les donnes nexistent pas dans lentreprise, ni lextrieur, mais sont stratgiques pour lentreprise, il faut reporter. Si les donnes existent lextrieur, il faut prendre la dcision dachat. Les estimations ne doivent pas tre dtailles et doivent concerner le plus grand nombre possible dinitiatives. Ce sera sur cette base que la politique technologique du Data Warehouse sera dtermine.
1.1 LINFRASTRUCTURE
Il sagit de dterminer linfrastructure technologique et organisationnelle ncessaire la mise en place du Data Warehouse et la conduite du changement.
Version 1.1
Le 15 Juin 1998
La structure de stockage, sera-t-elle relationnelle, multidimensionnelle, hybride (Data Warehouse en relationnel, Data Mart en multidimensionnel). Choisir le matriel : selon les volumes envisags, les utilisateurs concerns, larchitecture vise, la flexibilit attendue. Organiser ladministration des systmes et la gestion de la scurit. Il faut vrifier que les solutions choisies fonctionnent entre elles. (Ne pas se fier aux plaquettes commerciales en ce qui concerne la portabilit).
1.1 LA FORMATION
Selon lexprience de lentreprise en matire de dcisionnel et des technologies utilises, un plan de formation sera ncessaire. Il sera impratif que les membres participants au projet soient favorables au changement.
accompagnements,
C:\CNAM\Data.doc
place
des
Page 88
Version 1.1
Le 15 Juin 1998
Ces tapes correspondent celles de mise en place dun projet informatique. Pendant ltape de spcification, les diffrentes tapes des initiatives sont dfinies et planifies de manire plus dtailles. Il est recommand de faire attention aux cots cachs que peuvent entraner les technologies informatiques. Ltape de mesure permet de faire le bilan de la ralisation et de capitaliser les russites et checs rencontrs pendant le dveloppement de lapplication. Deux visions du Data Warehouse cohabitent dans lapproche prcdente : Une vision entreprise : chaque projet dfini dans la premire phase (initiative) est construit de manire indpendante et rpond un objectif mtier dlimit, tout en sintgrant dans le Data Warehouse. Une vision projet : les projets identifis deviennent des applications. Donc le processus est itratif. Il nexiste pas de dmarche complte et universelle pour la mise en uvre dun data Warehouse. Toute approche doit tre adapte lentreprise.
C:\CNAM\Data.doc
Page 89
Version 1.1
Le 15 Juin 1998
Elles reprsentent toutes les informations ncessaires laccs, la comprhension et lexploitation des donnes du Data Warehouse.
Type dinformation Smantique Origine Rgle de calcul Rgle dagrgation Stockage, format Utilisation
Signification Que signifie la donne Do vient-elle, o, par qui est-elle cre ou mise jour Rgle de calcul, de gestion Primtre de consolidation O, comment est-elle stocke, sous quel format Programmes informatiques qui lutilisent, Machines : comment et sur lesquelles, disposition, Temps de conservation
Tableau 16 : dfinition dune mta-donne
C:\CNAM\Data.doc
Page 90
Version 1.1
Le 15 Juin 1998
La donne est forcment lie dautres objets du systme dinformation. Il est donc ncessaire de reprsenter, dcrire et stocker les interactions avec dautres donnes.
Types de lien Domaines, sujets Structure organisationnelle, structure gographique Concepts gnriques Applications, programmes Tables, colonnes Sites, machines
Signification Chaque donne va tre indexe par sujet ou domaine Une donne peut avoir des sens lgrement diffrents selon la personne qui la manipule Exemple : notion de produit se dclinant en lignes de produits, services,... Donne manipule par une ou plusieurs applications ou programmes Donne situe dans une ou plusieurs colonnes, tables et bases de donnes Localisation physique de la donne
Tableau 17 : interactions des donnes
Gnralement, pour reprsenter les mta-donnes, on utilise un symbolisme courant en informatique. Par exemple les modles de donnes MERISE : modle conceptuel de donnes et modle logique de donnes.
C:\CNAM\Data.doc
Page 91
Version 1.1
Le 15 Juin 1998
Simplifier techniquement les systmes dinformation : Diminuer le nombre de fichiers. Unifier la saisie et le stockage des informations. Organiser les mises jour et la diffusion des informations. Un rfrentiel de donnes pour le Data Warehouse est un rfrentiel de donnes dans lequel sont dcrits lorganisation et la localisation des donnes, ainsi que les rgles de consolidation des donnes agrges et historises. Il est conu de manire collecter lensemble des modles de donnes ncessaires la construction et lexploitation du Data Warehouse. La construction du rfrentiel est un projet quil est ncessaire de prvoir en parallle celui du data Warehouse.
1.1.1 SCURIT
Le Data Warehouse a pour vocation de laisser lutilisateur une totale autonomie en ce qui concerne la recherche et lanalyse des donnes. Cette libert doit cependant tre souvent restreinte, notamment pour des raisons de scurit. Loutil doit donc permettre dadapter lenvironnement de travail lutilisateur qui sy connecte selon sa fonction et donc ses droits. Afin de mener bien cette politique de scurit, les notions dutilisateur et de groupe dutilisateur sont indispensables. Cette notion doit nanmoins tre dissocie de la notion dutilisateur du serveur de donnes. Il est en effet prfrable que lutilisateur se connecte directement loutil daide la dcision et accde de manire transparente au serveur de donnes sans en connatre le nom dutilisateur et le mot de passe. Il ny a ainsi pas de risque que lutilisateur se connecte au serveur par dautres biais. Ce risque est dautant plus important que lutilisateur trouve le plus souvent sur son poste de travail les moyens de se connecter un serveur de donnes. Il peut par exemple se connecter partir dExcel un serveur de donnes, via le driver ODBC. Plus les autorisations pourront tre dfinies un niveau fin , plus lenvironnement de travail pourra tre facilement adapt chacun des profils dutilisateur. Au del du catalogue dans sa globalit, loutil doit donc permettre de dfinir des droits sur chacun de ses lments en restreignant le nombre de tables ou de colonnes disponibles ou, par un critre de recherche, le nombre de lignes accessibles.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 92
Version 1.1
Le 15 Juin 1998
Au del des droits concernant laccs aux donnes, la possibilit daffecter des privilges sur les requtes et rapports prdfinis est un facteur essentiel dans la dfinition dune stratgie de diffusion.
Version 1.1
Le 15 Juin 1998
1.1.1 BATCHS
La possibilit deffectuer des requtes en batch est une fonctionnalit essentielle dans un contexte de Data Warehouse o une requte peut avoir besoin de manipuler un volume important de donnes. Un scheduler, planificateur, peut alors permettre denvoyer une requte un instant donn ou intervalles rguliers. Imposer des plages horaires aux utilisateurs pour ces requtes coteuses est alors galement une ncessit. Ladministrateur peut grer les priorits daprs les requtes ou les utilisateurs. Le scheduler doit permettre non seulement denvoyer une requte mais une srie de requtes. Un mcanisme dalertes peut alors avertir lutilisateur si des valeurs sont exceptionnelles. On passe alors dune logique pull (lutilisateur part la recherche de linformation pertinente) une logique push (linformation vient vers lutilisateur quand elle est juge pertinente). Outre les requtes dfinies avec loutil daide la dcision, le scheduler peut galement permettre de lancer des requtes dadministration un instant donn, pendant des plages horaires peu occupes.
C:\CNAM\Data.doc
Page 94
Version 1.1
Le 15 Juin 1998
2 LE DATA MART
Avec un Data Warehouse, il y a des risques dchec. Rien ninvite lutilisateur se servir dun Data Warehouse. Le succs dun Data Warehouse dpend donc uniquement de son effective utilisation. Un des gros risques de la construction est de se cristalliser autour de la problmatique informatique et de se dtourner de lutilisateur. Le Data Mart minimise la complexit informatique. Il est donc plus facile de se concentrer sur les besoins utilisateurs.
2.1 DFINITION
Le Data Mart est une base de donnes moins coteuse que le Data Warehouse, et plus lgre puisque destine quelques utilisateurs dun dpartement. Il sduit plus que le Data Warehouse les candidats au dcisionnel. Cest une petite structure trs cible et pilote par les besoins utilisateurs. Il a la mme vocation que le Data Warehouse (fournir une architecture dcisionnelle), mais vise une problmatique prcise avec un nombre dutilisateurs plus restreint. En gnral, cest une petite base de donnes (SQL ou multidimensionnelle) avec quelques outils, et alimente par un nombre assez restreint de sources de donnes. Son cot ne dpasse pas deux trois millions de francs. Mais pour russir, il y a quelques prcautions prendre, gage de son volutivit vers le Data Warehouse. Data Warehouse Toute lentreprise Eleve SQL type serveur A lchelle de lentreprise Multi sujets, neutre Multiples Base de donnes Centaine de GO et plus 9 18 mois pour les 3 tapes > 6 millions de francs Unix Data Mart Dpartement Faible ou moyen SQL milieu de gamme, bases multidimensionnelles Dpartement Quelques sujets, spcifique Quelques unes Plusieurs bases distribues Une 2 dizaines de GO 6 12 mois (installation en plusieurs tapes) 500.000 3 millions de francs NT, petit serveur Unix
Cible utilisateur Implication du service informatique Base de donnes dentreprise Modles de donnes Champ applicatif Sources de donnes Stockage Taille Temps de mise en place Cot Matriel
C:\CNAM\Data.doc
Page 95
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 96
Version 1.1
Le 15 Juin 1998
Les Data Marts sont petits Les Data Marts sont moins complexes et plus facile dployer que les Data Warehouse Les Data Marts peuvent voluer facilement vers un Data Warehouse Les diffrents Data Marts indpendants peuvent tre dynamiquement coupler pour se mtamorphoser en Data Warehouse Les Data Marts ne se rsument qu une seule information mtier (exemple : ventes) Les Data Marts sont plus flexibles que les Data Warehouse Les Data Marts sont un nouveau concept.
Tableau 19 : les sept mythes du data mart (source : Gartner Groupe)
Donc le Data Mart peut prparer au Data Warehouse. Mais il faut penser grand, avenir, et adopter des technologies capables dvoluer.
C:\CNAM\Data.doc
Page 97
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 98
Version 1.1
Le 15 Juin 1998
Vue multidimensionnelle
L'utilisateur a l'habitude de raisonner en vue multidimensionnelle comme par exemple lorsqu'il souhaite analyser les ventes par produit mais aussi par rgion ou par priode. Ces modles permettent des manipulations simples : rotation, pivot ou vues par tranche, analyse de type permutations d'axes (slice and dice) ou en cascade (drill anywhere).
Transparence du serveur OLAP diffrents types de logiciels
Cette transparence se traduit pour l'utilisateur par un complment ses outils habituels garantissant ainsi sa productivit et sa comptence. Elle s'appuie sur une architecture ouverte permettant l'utilisateur d'implanter le systme OLAP sans affecter les fonctionnalits du systme central. Par ailleurs, l'utilisateur ne doit pas tre concern par l'intgration des donnes dans OLAP provenant d'un environnement homogne ou htrogne.
Accessibilit de nombreuses sources de donnes
Le systme OLAP doit donner accs aux donnes ncessaires aux analyses demandes. Les outils OLAP doivent avoir leur propre schma logique de stockage des donnes physiques htrognes, doivent accder aux donnes et raliser n'importe quelle conversion afin de prsenter l'utilisateur une vue simple et cohrente. Ils doivent aussi savoir de quel type de systmes proviennent les donnes.
Performance du systme de Reporting
L'augmentation du nombre de dimensions ou du volume de la base de donnes ne doit pas entraner de dgradation visible par l'utilisateur.
Architecture Client/Serveur
La plupart des donnes pour OLAP sont stockes sur des gros systmes et sont accessibles via des PC. Il est donc ncessaire que les produits OLAP soient capables de travailler dans un environnement Client/Serveur.
Dimensions Gnriques
Toutes les dimensions doivent tre quivalentes en structure et en calcul. Il ne doit exister qu'une seule structure logique pour toutes les dimensions. Toute fonction qui s'applique une dimension doit tre aussi capable de s'appliquer une autre dimension.
C:\CNAM\Data.doc
Page 99
Version 1.1
Le 15 Juin 1998
Le schma physique des outils OLAP doit s'adapter entirement au modle d'analyse spcifique cr pour optimiser la gestion des matrices creuses. En effet, dans une analyse la fois sur les produits et les rgions, tous les produits ne sont pas vendus dans toutes les rgions.
Support multi-utilisateurs
Les outils OLAP doivent supporter les accs concurrents, garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse.
Support multi-utilisateurs
Les outils OLAP doivent supporter les accs concurrents, garantir l'intgrit et la scurit afin que plusieurs utilisateurs accdent au mme modle d'analyse.
Calculs travers les dimensions
Les oprations doivent pouvoir s'effectuer sur toutes les dimensions et ne doivent pas faire intervenir l'utilisateur pour dfinir un calcul hirarchique.
Manipulation intuitive des donnes
Toute manipulation doit tre accomplie via une action directe sur les cellules du modle sans utiliser de menus ou des chemins multiples travers l'interface utilisateur.
Souplesse et facilit de constitution des rapports
La cration des rapports dans les outils OLAP doit permettre aux utilisateurs de prsenter comme ils le dsirent des donnes synthtiques ou des rsultats en fonction de l'orientation du modle.
Nombre illimit de niveaux d'agrgation et de dimensions
C:\CNAM\Data.doc
Page 100
Version 1.1
Le 15 Juin 1998
D'aprs EF CODD & Associates, les SGBD Relationnels n'ont jamais t conus pour fournir les puissantes fonctions de synthse, d'analyse et de consolidation communment appeles analyse multidimensionnelle des donnes. Ces types de fonctions ont toujours t prvus pour tre fournis par des outils spars, orients utilisateurs et complmentaires des SGBD Relationnels. Les tables vont tre transformes en un hypercube de donnes. Les donnes vont pouvoir tre visualises sous diffrents angles grce aux vues multidimensionnelles. OLAP, parce qu'il associe des mcanismes de navigation aux donnes, permet d'effectuer des analyses de manire interactive, l'oppos du requteur pour qui chaque requte est une fin en soi. Par contre, OLAP ne permet l'analyse d'information que dans un cadre prdfini, limitant ds lors l'autonomie potentielle de l'utilisateur. De ce fait requtes et outils OLAP doivent tre considrs comme complmentaires plutt que concurrents. Requtes et outils OLAP doivent tre considrs comme complmentaires plutt que concurrents.
SGBD_SIAD_2
2 Rgles
Tableur_SIAD_1
3 Rgles
Interface Utilisateur
2 Rgles
Version 1.1
Le 15 Juin 1998
Larchitecture est Client / Serveur Laccs possible plusieurs utilisateurs simultanment La performance demeure stable quelque soit le volume de donnes Le systme est transparent pour lutilisateur Le systme gre dynamiquement les Matrices Creuses SGBD_SIAD_2 Vue Conceptuelle Multidimensionnelle des donnes Accessibilit toutes les donnes utiles la dcision Tableur_SIAD_1 Nombre Illimit de Dimensions et Nombre illimit de niveaux dagrgation Toutes les dimensions sont quivalentes en structure et en calcul Il ny a pas doprations restrictives sur les dimensions Interface Utilisateur Souplesse de Cration de Rapports Manipulation intuitive des donnes
1.2.2 COMMENTAIRES
Codd fixe la mthode de SGBD; celle-ci est multidimensionnelle. Cet aspect est dvelopp dans le paragraphe suivant au travers des mthodes M_OLAP et R_OLAP. Accessibilit toutes les donnes utiles la dcision entrane la possibilits daccder plusieurs bases de donnes internes ou externes lentreprise. Consquence : Codd recommande larchitecture Client-Serveur. Aucun tableur noffre un nombre infini de dimensions et de niveaux dagrgation. 15 20 dimensions font partie des performances actuelles. Enfin, nous pourrions regrouper les rgles orientes Utilisateur : Systme & Architecture Laccs possible plusieurs utilisateurs simultanment La performance demeure stable quelque soit le volume de donnes Le systme est transparent pour lutilisateur SGBD_SIAD_2 Accessibilit toutes les donnes utiles la dcision Interface Utilisateur Souplesse de Cration de Rapports Manipulation intuitive des donnes
C:\CNAM\Data.doc
Page 102
Version 1.1
Le 15 Juin 1998
1 ANALYSE MULTIDIMENTIONNELLE
Les serveurs OLAP ont t conus pour s'intgrer dans un environnement client/serveur afin d'en retirer les possibilits offertes. Les utilisateurs disposant de postes de travail intelligents accdent un serveur de base de donnes multidimensionnelle. Celui-ci contient un hypercube prdfini dans lequel doit tre stocke la globalit des donnes. Ce qui ncessite de s'appuyer sur une information pr-package et fortement structure. Il permettra ainsi d'analyser la rpartition d'un indicateur comme le " chiffre d'affaire" en fonction des axes ou dimensions " clients ", " produit ", " temps". En outre, des hirarchies seront dfinies pour chaque axe d'analyse (par exemple, l'anne, puis la saison, le mois et la semaine, pour l'axe temps). Une fois cette structure multidimensionnelle tablie, l'outil OLAP propose des mthodes de navigation dans les donnes, comme le "drill-down" pour aller vers les informations dtailles dans une hirarchie, le "slice and dice" pour changer d'axe d'analyse.
Temps Client
4000 8000 7000 1000
3000 8000
12000
1000
2000 6000
8000
Produit
Tableau 21 : reprsentation sous forme de cube
C:\CNAM\Data.doc
Page 103
Version 1.1
Le 15 Juin 1998
Anne
Mois
Produit Priode
Dimensions d'analyse
Indicateurs numriques
Lutilisateur peut avoir besoin de personnaliser le modle dfini par ladministrateur en incorporant par exemple ses propres attributs dans les dimensions ou en modifiant certaines des hirarchies.
C:\CNAM\Data.doc
Page 104
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 105
Version 1.1
Le 15 Juin 1998
Marque
Segment
Individu
Socit
Article
Filiale
C:\CNAM\Data.doc
Page 106
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 107
Version 1.1
Le 15 Juin 1998
1 MODELISATION
Modliser est une tche dlicate car elle met en jeu des populations diffrentes. Les administrateurs de donnes et les utilisateurs "mtiers" doivent crer un modle global et cohrent pour l'entreprise. Les donnes du Data Warehouse doivent tre orientes " sujet ", facilement comprhensibles et utilisables par les utilisateurs. Le modle doit donc tre adapt leur dmarche de recherche et danalyse. Les modles relationnels normaliss ne sont alors pas toujours lidal. En effet, ils correspondent gnralement plus une vision " technique " et informaticienne des donnes qu une vision utilisateur. Ils peuvent rpondre aux requtes ensemblistes (liste des commandes dun client) ou dtailles (adresse et numro de tlphone dun client) mais adressent trs peu la notion danalyse qui est essentielle dans le monde dcisionnel. Ce concept est gnralement li une vision multidimensionnelle des donnes. Lutilisateur peut ainsi analyser des informations selon diverses perspectives, par rapport diffrents axes (par exemple les ventes par rapport aux dimensions temps, rgions et clients). La dnormalisation du modle des donnes, la redondance dinformations sont totalement envisageables dans un contexte de Data Warehouse car la non volatilit des donnes permet de ne pas se proccuper, lors de lutilisation du Data Warehouse, des problmes dintgrit des donnes ou de transaction. Afin de rpondre ce type de besoin tout en conservant la technologie des SGBD relationnels, il sera souvent ncessaire de modliser les donnes de manire particulire, en distinguant les diffrents axes et les indicateurs analyser. On parlera alors de modle en toile (star) ou en flocon (snowflake). Le serveur de donnes devra donc permettre la gestion de gros volumes dinformations et supporter les machines parallles. Afin doffrir lutilisateur une performance optimale, il sera indispensable dagrger physiquement les donnes (par exemple par rapport au temps), et souvent ncessaire de partitionner ces donnes. Cinq axes permettent de qualifier un modle dcisionnel : Lisibilit du point de vue de l'utilisateur final. Performances de chargement Performances d'excution Administration, c'est dire faire vivre le Data Warehouse Evolutivit, que tous les autres projets dcisionnels s'intgrent facilement Le choix entre modle dimensionnel (toile ou flocon) et le modle relationnel (normalis ou non) dpend du type du besoin dcisionnel construire.
C:\CNAM\Data.doc
Page 108
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 109
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 110
Version 1.1
Le 15 Juin 1998
TABLE de FAITS
Administration
CA Marge Unit
Concrtement, la table des faits est norme en nombre de lignes mais le volume de chaque ligne est limit. Les tables de dimensions sont elles beaucoup plus rduites. On accde aux tables des dimensions par une slection. Par exemple le CA pour les produits lectromnagers pour lanne 97 pour la rgion Nord. On y rcupre les identifiants qui seront les uniques points dentres la table des faits pour y trouver le CA correspondant. Une fois le modle dfini, la facult de naviguer dans les donnes est un apport important des outils OLAP (MOLAP, ROLAP).
C:\CNAM\Data.doc
Page 111
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 112
Version 1.1
Le 15 Juin 1998
ventes journalires
VENTES
Ventes mensuelles
Ventes annuelles
Cette technique d'optimisation trouve ses limites lorsque les bases des donnes atteignent un volume important. Autre inconvnient, l'administration est complexe.
C:\CNAM\Data.doc
Page 113
Version 1.1
Le 15 Juin 1998
Ventes Prigord
VENTES
Ventes Provence
Ventes Autres
C:\CNAM\Data.doc
Page 114
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 115
Version 1.1
Le 15 Juin 1998
Data Warehouse
Moteur MOLAP
Traitements
MOLAP agrge tout par dfaut. Plus le volume de donnes grer est important, plus les principes d'agrgations implicites proposs par MOLAP sont pnalisants dans la phase de chargement de la base, tant en terme de performances que de volume. La limite frquemment voque pour MOLAP tant de quelques giga octets.
C:\CNAM\Data.doc
Page 116
Version 1.1
Le 15 Juin 1998
MOLAP surpasse ROLAP pour des fonctionnalits avances comme la prvision ou la mise jour des donnes pour la simulation. Cependant, ces diffrences s'expliquent par une plus grande maturit en faveur de MOLAP, concept qui date de prs de vingt ans. MOLAP est incompatible avec d'autres modes d'accs aux donnes. Si MOLAP doit cohabiter avec d'autres techniques d'accs aux donnes (par requteur, par data mining, etc.), deux bases de donnes doivent cohabiter. En effet, MOLAP repose sur un moteur spcialis, qui stocke les donnes dans un format tabulaire propritaire (cube). Pour accder aux donnes de ce cube, on ne peut pas utiliser le langage de requte standard SQL, il faut utiliser une API spcifique. Le march des bases MOLAP tant plus rduit, il est plus difficile pour les diteurs qui le reprsentent d'investir sur de telles volutions.
Traitements Gnration de plans d'excution SQL afin d'obtenir des fonctionnalits OLAP.
Les outils ROLAP proposent le plus souvent un composant serveur, pour optimiser les performances lors de la navigation dans les donnes ou pour les calculs complexes. Avec
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 117
Version 1.1
Le 15 Juin 1998
ROLAP, il est dconseill d'accder en direct des bases de donnes de production pour faire des analyses srieuses, pour des raisons de performances. ROLAP n'agrge rien, mais tire parti des agrgats s'ils existent. De ce fait ROLAP est plus lourd administrer que MOLAP, puisqu'il demande de crer explicitement certains agrgats. Certains diteurs, comme Informix avec Mtacube ou Oracle avec Discoverer 2000, pallient cependant cette faiblesse avec des outils d'administration aptes conseiller pour une politique d'agrgation adquate. ROLAP est donc mieux adapt aux gros volumes. En s'appuyant sur les bases relationnelles, rfrence du march, ROLAP tire partie des volutions de celles-ci (adaptation aux architectures hardware sophistiques, extensions objets, etc.).
EDITEUR
ARBOR SOFTWARE ORACLE DIMENSIONAL INSIGHT INFORMIX MICROSTRATEGY PLATINUM TECHNOLOGY
PRODUIT
ESSBASE EXPRESS CROSS TARGET METACUBE DSS AGENT INFOBEACON
MOLAP
ROLAP
C:\CNAM\Data.doc
Page 118
Version 1.1
Le 15 Juin 1998
Donnes de production
Outils clients Aide la dcision (interrogation, analyse) Data Mining (extraction de connaissances)
Modlisation, Chargement, Stockage, Optimisation SGBD Architecture parallle Acclrateurs de requtes Adaptation modles spcifiques
C:\CNAM\Data.doc
Page 119
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 120
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 121
Version 1.1
Le 15 Juin 1998
Pour raliser ce transfert des donnes, on peut utiliser le transfert de fichiers ou le transfert de bases bases. Le transfert de fichiers consiste crer au moment de l'extraction des donnes, un ensemble de fichiers qui seront transfrs sur le systme cible afin d'alimenter la base dcisionnelle. La transformation des donnes s'effectuera alors soit la constitution des fichiers, soit leur arrive sur la cible. Le transfert de base base est plus complexe, en effet chaque donne est extraite de la base source, nettoye si ncessaire, et transfre sur la base cible. Des logiciels contrlent souvent les phases d'extraction, de transport et de chargement. Ils crent un enchanement automatis et grent les mises jour mais ils sont rarement capables de s'occuper galement du nettoyage des donnes Il faut donc souvent combiner les outils pour alimenter un Data Warehouse. EDITEUR EXTRACT SUITE PASSPORT WAREHOUSE MANAGER VALITY TECHNOLOGIE PRODUIT ETI CARLETON PRISM SOLUTIONS INTEGRITY DATA REENGINEERING
C:\CNAM\Data.doc
Page 122
Version 1.1
Le 15 Juin 1998
Tableau 32 : rpartition du revenu du march du Data Warehouse Donnes en millions de francs (source Gartner Group)
Les chiffres suivants prsentent les rsultats dune tude ralise en 1996 par le Data Warehousing Institute. Au niveau des dploiements, ces chiffres sont impressionnants : plus de 40 % des socits ont dbut la mise en place de leur Data Warehouse et plus de 30 % ont prvu de le faire dans les 3 ans. Au niveau des volumes de donnes, la majorit des systmes en place ne dpassent pas 100 gigaoctets, mais peu sont de taille infrieure 5 gigaoctets. Le march mondial du data warehouse reprsentait 300 millions de dollars en 1995. Il devrait atteindre 800 millions de dollars en 2000 (source Meta Group) Plus de la moiti des entreprises amricaines ont achet un outil de datamining en 1997 (source IDC)
C:\CNAM\Data.doc
Page 123
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 124
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 125
Version 1.1
Le 15 Juin 1998
Ces outils ne sont plus destins aux seuls experts statisticiens mais doivent pouvoir tre employs par des utilisateurs connaissant leur mtier et voulant lanalyser, lexplorer. Seul un utilisateur connaissant le mtier peut dterminer si les modles, les rgles, les tendances trouves par loutil sont pertinentes, intressantes et utiles lentreprise. Ces utilisateurs nont donc pas obligatoirement un bagage statistique important, du moins est-ce lobjectif vis. Loutil doit donc soit tre ergonomique, facile utiliser et rendant transparentes toutes les formules mathmatiques et termes techniques utiliss, soit permettre de construire une application cl en main, rendant lutilisateur transparentes toutes les techniques utilises. On pourrait dfinir le DATA MINING comme une dmarche ayant pour objet de dcouvrir des relations et des faits, la fois nouveaux et significatifs, sur de grands ensembles de donnes. On devrait ajouter que la pertinence et l'intrt du data mining sont conditionns par les enjeux attachs la dmarche entreprise, qui doit tre guide par des objectifs directeurs clairement explicits ("amliorer la performance commerciale", "mieux cibler les prospects", "fidliser la clientle", "mieux comprendre les performances de production"...). Le succs du concept de DATA WAREHOUSE et le nombre croissant de bases de donnes dcisionnelles disponibles dans les entreprises, dynamise fortement l'offre data mining. Cette offre tend se dmocratiser, en cherchant rendre accessible au plus grand nombre, les divers outils du data mining. Pour cela, elle adopte de plus en plus un caractre "moderne" et "convivial", parfois "bote noire" pour ne pas dire "bote magique". Pour qui connat depuis longtemps les outils de statistique et d'analyse de donnes, ce phnomne peut paratre curieux. On sait depuis longtemps procder des classifications automatiques, construire et exploiter des modles performants, rechercher des corrlations entre variables... On connat mme dans bien des cas l'incertitude attache aux prvisions ralises, ce qui permet de relativiser ou pondrer les prises de dcisions correspondantes (ce dernier point est aussi essentiel que de dterminer les dcisions elles-mmes...). On peut cependant faire aux mthodes "traditionnelles" le reproche de ne pas avoir t vulgarises. Le jargon qu'elles utilisent, les outils mathmatiques (mal connus du grand public) sur lesquels elles s'appuient, les hypothses pralables et validations requises pour une mise en uvre rigoureuse... sont autant de freins un usage rpandu de ces mthodes. Si des outils plus "rcents", comme les rseaux de neurones ou les arbres de dcisions, connaissent un certain succs, ils le doivent leurs performances (dans certains domaines), mais probablement aussi leurs qualits de convivialit, lies une terminologie souvent plus accessible, leur prsentation rsolument "pratique" et l'occultation des mcanismes et algorithmes internes qui les rgissent.
C:\CNAM\Data.doc
Page 126
Version 1.1
Le 15 Juin 1998
Pour autant, les problmes de mise en uvre, de comprhension des phnomnes et de validation des rsultats subsistent. Ils sont mme dans une certaine mesure amplifis par la simplicit apparente de ces outils, qui n'incite pas toujours la rigueur. Une synthse positive et optimiste des diffrents outils et courants pourrait consister amliorer la convivialit des mthodes traditionnelles et proposer un cadre mthodologique rendant plus fiable et rigoureuse l'utilisation des outils plus rcents.
1.3 DEFINITION
Le terme de Data Mining signifie littralement forage de donnes. Comme dans tout forage, son but est de pouvoir extraire un lment : la connaissance. Ces concepts sappuient sur le constat quil existe au sein de chaque entreprise des informations caches dans le gisement de donnes. Ils permettent, grce un certain nombre de techniques spcifiques, de faire apparatre des connaissances. Nous appellerons Data Mining l'ensemble des techniques qui permettent de transformer les donnes en connaissances. L'exploration se fait sur l'initiative du systme, par un utilisateur mtier, et son but est de remplir l'une des tches suivantes : classification, estimation, prdiction, regroupement par similitudes, segmentation (ou clusterisation), description et, dans une moindre mesure, l'optimisation.
C:\CNAM\Data.doc
Page 127
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 128
Version 1.1
Le 15 Juin 1998
de la classe ou sa valeur,
ni
mode (valeur la plus frquemment trouve) ou la mdiane (valeur du reprsentant de la moiti de leffectif). La mdiane prsente lavantage de ne pas tre sensible aux valeurs exceptionnelles (contrairement la moyenne).
Lcart type (
) dfini ainsi :
( xi x)
n
(la majorit des individus est entre moyenne - 2 et moyenne + 2 ). Ces indicateurs sont utiliss pour valuer des valeurs manquantes, mettre en vidence les valeurs exceptionnelles et donner une premire synthse des donnes.
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 129
Version 1.1
Le 15 Juin 1998
Lorsque le coefficient de corrlation est significatif, il y a souvent confusion entre ces diffrentes possibilits, surtout entre causalit et hasard. Dautres techniques : rgressions simples ou multiples (linaires ou non), ajustements vers des lois statistiques (loi normale, binomiale, hypergomtrique, de Poisson, ...) permettent de modliser les sries, et facilitent les estimations. Elles ne seront pas dveloppes dans cet ouvrage. Ces techniques statistiques permettent de savoir sil existe une relation entre plusieurs variables, de faire des prvisions ou estimations. Le but de ce type danalyse est souvent de rechercher des liens de causalit La recherche de connaissances par lutilisation de mthodes statistiques est souvent limite car on ne peut tudier simultanment que quelques variables (une deux). Les problmes sont en gnral plus complexes et mettent en uvre plusieurs dizaines de variables. Pour rpondre ces besoins, il a fallu crer de nouveaux algorithmes, parfois issus de la recherche oprationnelle, alliant la recherche intelligente et les statistiques.
C:\CNAM\Data.doc
Page 130
Version 1.1
Le 15 Juin 1998
1.2.1 LABDUCTION
Pour mieux exprimer ce quest labduction, le plus simple est den prsenter un exemple : Toutes les voitures ont 4 roues La Peugeot 106 a 4 roues
La Peugeot 106 est une voiture
Cette technique est notamment utilise dans les outils daide au diagnostic mdical pour dcouvrir la maladie la plus probable depuis une liste de symptmes. Il faut cependant tre trs vigilant avec ce type de raisonnement car il peut produire des rsultats aberrants ou triviaux : Toutes les voitures ont un moteur, lAirbus 320 a un moteur lAirbus 320 est une voiture. Pour viter ce type de comportement, il suffit davoir un ensemble descriptif (ici : 4 roues) suffisamment riche. Il aurait suffit de prciser : toutes les voitures ont 4 roues, un moteur, un volant, de 3 5 portes, sont inscrites sur les registres des mines, etc... pour diminuer considrablement le risque derreurs. Tous les possesseurs de la carte jeune ont moins de 25 ans. Cette information est certes vraie mais risque de ne prsenter aucun intrt.
C:\CNAM\Data.doc
Page 131
Version 1.1
Le 15 Juin 1998
1.2.2 LA DEDUCTION
Cest le type de raisonnement le plus utilis et le plus familier. Son atout majeur est quil ne laisse pas de place au doute. Exemple : La Peugeot 106 est une voiture Toutes les voitures ont 4 roues
La Peugeot 106 a 4 roues
1.2.3 LINDUCTION
Cest la technique la plus communment utilise par le data mining. Elle consiste tirer des conclusions partir dune srie de faits. Exemples : Exemple 1 La Clio a 4 roues La Peugeot 106 a 4 roues La Laguna a 4 roues La Corsa a 4 roues
Toutes les voitures ont 4 roues (100 %)
Exemple 2 La Clio a 4 roues La Peugeot 106 a 4 roues La Laguna a 4 roues La Corsa a 4 roues Un patin roulettes a 4 roues Les voitures ont 4 roues (80 %)
La certitude nest pas absolue et sera donc associe une probabilit. Plus les faits corroborant lhypothse sont nombreux, plus la probabilit que la conclusion soit exacte est forte.
La recherche dinformations se fait gnralement par des mcanismes dinduction. La dduction est plutt utilise pour vrifier la cohrence des informations.
C:\CNAM\Data.doc
Page 132
Version 1.1
Le 15 Juin 1998
1.1 LA CLASSIFICATION
La classification se fait naturellement depuis dj bien longtemps pour comprendre et communiquer notre vision du monde (par exemple les espces animales, minrales ou vgtales). La classification consiste examiner des caractristiques dun lment nouvellement prsent afin de laffecter une classe dun ensemble prdfini. [BERRY97] Dans le cadre informatique, les lments sont reprsents par un enregistrement et le rsultat de la classification viendra alimenter un champ supplmentaire. La classification permet de crer des classes dindividus (terme prendre dans son acception statistique). Celles-ci sont discrtes : homme / femme, oui / non, rouge / vert / bleu, ... Les techniques les plus appropries la classification sont : les arbres de dcision, le raisonnement bas sur la mmoire, ventuellement lanalyse des liens.
C:\CNAM\Data.doc
Page 133
Version 1.1
Le 15 Juin 1998
1.1 LESTIMATION
Contrairement la classification, le rsultat dune estimation permet dobtenir une variable continue. Celle-ci est obtenue par une ou plusieurs fonctions combinant les donnes en entre. Le rsultat dune estimation permet de procder aux classifications grce un barme. Par exemple, on peut estimer le revenu dun mnage selon divers critres (type de vhicule et nombre, profession ou catgorie socioprofessionnelle, type dhabitation, etc ...). Il sera ensuite possible de dfinir des tranches de revenus pour classifier les individus. Un des intrts de lestimation est de pouvoir ordonner les rsultats pour ne retenir si on le dsire que les n meilleures valeurs. Cette technique sera souvent utilise en marketing, combine dautres, pour proposer des offres aux meilleurs clients potentiels. Enfin, il est facile de mesurer la position dun lment dans sa classe si celui ci a t estim, ce qui peut tre particulirement important pour les cas limitrophes. La technique la plus approprie lestimation est : les rseaux de neurones.
1.1 LA PREDICTION
La prdiction ressemble la classification et lestimation mais dans une chelle temporelle diffrente. Tout comme les tches prcdentes, elle sappuie sur le pass et le prsent mais son rsultat se situe dans un futur gnralement prcis. La seule mthode pour mesurer la qualit de la prdiction est dattendre ! Les techniques les plus appropries la prdiction sont : Lanalyse du panier de la mnagre Le raisonnement bas sur la mmoire Les arbres de dcision les rseaux de neurones
C:\CNAM\Data.doc
Page 134
Version 1.1
Le 15 Juin 1998
1.1 LA DESCRIPTION
Cest souvent lune des premires tches demandes un outil de data mining. On lui demande de dcrire les donnes dune base complexe. Cela engendre souvent une exploitation supplmentaire en vue de fournir des explications. La technique la plus approprie la description est : Lanalyse du panier de la mnagre
1.1 LOPTIMISATION
Pour rsoudre de nombreux problmes, il est courant pour chaque solution potentielle dy associer une fonction dvaluation. Le but de loptimisation est de maximiser ou minimiser cette fonction. Quelques spcialistes considrent que ce type de problme ne relve pas du data mining. La technique la plus approprie loptimisation est : Les rseaux de neurones
C:\CNAM\Data.doc
Page 135
Version 1.1
Le 15 Juin 1998
Nous retrouvons les fichiers militaires, affectations, garnisons, et carrires. Sur cet exemple, voyons comment utiliser chaque tche du data mining. Nous supposons que le travail de prparation des donnes est fait.
La classification
Dterminer le grade en fonction du sexe, de l'ge, l'anciennet, le salaire et les affectations. Dterminer le sexe en fonction de l'ge, l'anciennet, le salaire et les affectations.
Lestimation
L'estimation se fait sur des variables continues : Estimer l'ge en fonction du grade, sexe, anciennet et affectations Estimer le salaire en fonction de l'ge, sexe, anciennet et affectations
La prdiction
Dans cet exemple, nous pouvons prdire par exemple quelle sera la prochaine affectation d'un militaire.
C:\CNAM\Data.doc
Page 136
Version 1.1
Le 15 Juin 1998
En utilisant cette technique, nous pouvons dterminer des rgles de type : le militaire qui est sergent entre 25 et 30 ans sera lieutenant colonel entre 45 et 50 ans (fiabilit de n %).
La segmentation (ou clusterisation)
Nous pouvons essayer de segmenter les militaires en fonction de leurs parcours (suivi de la carrire) et affectations.
La description
Dans cet exemple, la description se fera surtout autour des indicateurs statistiques traditionnels : ge moyen, pourcentage de femmes, salaire moyen
Loptimisation
L'exemple qui suit est fictif : Compte tenu des effectifs ncessaires dans chaque grade pour chaque garnison et connaissant les contraintes: on ne peut revenir dans une garnison qu'au moins 5 ans aprs en tre sorti, un militaire doit changer d'affectation au moins tous les 3 ans, comment affecter au mieux les militaires l'anne prochaine ?
1.2 SYNTHESE
Les sept tches du data mining sont : La classification, Lestimation, La prdiction, Le regroupement par similitudes, La segmentation (ou clusterisation), La description, Loptimisation.
C:\CNAM\Data.doc
Page 137
Version 1.1
Le 15 Juin 1998
2 LE CERCLE VERTUEUX
On ne met pas en uvre une technique de data mining pour faire une simple exploration. Il faut l'inscrire dans un contexte plus global, appel le cercle vertueux. Celui-ci est compos de quatre tapes : Identifier le domaine d'tude Prparer les donnes Agir sur la base de donnes Evaluer les actions La premire tape consiste identifier le domaine d'tude. Il faut rpondre aux questions : de quoi parlons nous et que voulons nous faire ? A ce stade, on dfinit un objectif gnral. Lorsque le domaine est dlimit, il faut recenser les donnes relatives au domaine, puis les regrouper pour en faciliter l'exploration. Nous parlons de regroupement logique, ce qui inclus le client / serveur, mme si ce n'est pas recommand. La troisime tape consiste mettre en uvre une ou plusieurs techniques de data mining pour une premire analyse. Aprs valuation et tude des rsultats, des actions sont mises en uvre. La dernire tape consistera valuer ces actions, et par-l mme la performance du data mining, voire le retour sur investissements. L'achvement du premier cycle dbouche souvent sur l'expression de nouveaux objectifs affins, ce qui nous ramne la premire tape
C:\CNAM\Data.doc
Page 138
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 139
Version 1.1
Le 15 Juin 1998
Le client a dmnag dans une ville o la Utilisation accrue des distributeurs banque n'a pas d'agence. automatiques et localisation diffrente de ces distributeurs. Le client s'est mari; le conjoint restant fidle Rduction du solde et du nombre des son ancienne banque ils y ont maintenant transactions, demande de changement de un compte joint. nom (si c'est une cliente). Le client a chang de travail et n'est plus Arrt des versements mensuels. pay par virement. Le client a chang de travail et il existe une La plupart des transactions au distributeur agence d'une autre banque trs proche de son automatique se passent un autre endroit, qui bureau. appartient une banque diffrente.
Tableau 36 : causes possibles de clture d'un compte bancaire.
A partir de cette analyse, il est devenu ais de dterminer les donnes utiles pour permettre de valider chacune des hypothses.
C:\CNAM\Data.doc
Page 140
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 141
Version 1.1
Le 15 Juin 1998
1.1.1.1.4 Les donnes textuelles Les donnes textuelles (champs au format texte) posent beaucoup de problmes et sont souvent non utilises. Il est trs difficile d'extraire d'un champ texte une donne, sauf ci le champ correspond un codage connu ou s'il est trs contraint (code postal, numro de scurit sociale ou de plaque d'immatriculation de vhicule,). La mthode de codage la plus simple et la plus utilise consiste crer un tableau de transcodage avec un champ contenant une valeur possible et le rsultat cod. On pourra ainsi transformer les diffrentes orthographes possibles d'une commune (avec toutes les formes d'abrviations imaginables) pour ressortir le code postal ou rechercher dans un texte d'adresse les mots : Angleterre, Ecosse, Irlande, Pays de galles, et y associer un code pays. Il faut noter cependant que depuis quelques mois apparaissent des outils de text mining qui facilitent ces tches. 1.1.1.1.5 Les valeurs manquantes Ce type de problme est frquent et bien connu des enquteurs et statisticiens : que faire des valeurs manquantes ? Il existe quatre possibilits : supprimer la colonne, ne pas prendre en compte la ligne, codifier la donne pour la signaler manquante, valuer cette valeur. Les deux premires solutions sont viter car elles nous privent de donnes qui pourraient tre trs importantes. Reprer les donnes manquantes est une possibilit intressante car ces absences peuvent tre significatives d'une population ou d'un comportement. Habituellement la dernire solution est retenue. De nombreuses techniques statistiques et de data mining permettent de faire des estimations fiables. Quoi qu'il en soit, les valeurs manquantes mritent une attention particulire, surtout si elles sont nombreuses. Dans ce dernier cas, les estimations ne seront pas fiables et les rsultats de l'analyse par les techniques de data mining seront fausses !
C:\CNAM\Data.doc
Page 142
Version 1.1
Le 15 Juin 1998
1.1.2 SYNTHESE
Pour mettre en uvre une mthode de data mining dans le cadre du test d'hypothse, la mthodologie est la suivante :
Gnrer de bonnes ides Dterminer quelles donnes permettront de tester ces ides Localiser les donnes Prparer les donnes pour l'analyse. Construire des modles informatiques Evaluer les modles informatiques
C:\CNAM\Data.doc
Page 143
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 144
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 145
Version 1.1
Le 15 Juin 1998
C'est la premire tape qui consiste regrouper, rapatrier, transcoder, transformer les donnes. Il faut faire face aux incompatibilits entre les diffrents systmes informatiques de l'entreprise, importer les donnes externes, regrouper l'ensemble dans un format propice l'exploitation par une application de data mining. Parfois, on souhaitera agrger les donnes ou les regrouper. Enfin, il est souvent utile de rajouter des champs supplmentaires, issus de rsultats de calculs ou transformations depuis des champs existants. Ceci est particulirement vrai si l'on cherche des relations entre champs ou pour suivre des volutions dans le temps. A titre d'exemple, on pourrait citer : Index d'obsit = taille / poids Ecart de solde = solde prcdent - solde actuel Densit = population / surface Taux de transport = nombre de passagers * nombre de kilomtres Ces travaux sont prvus voire automatiss dans le cadre de la mise en uvre d'un data warehouse.
1.1.1.1.1.1 Distribuer les donnes
Une fois les donnes obtenues, il va falloir les distribuer en trois parties : Ensemble d'apprentissage Ensemble de test Ensemble d'valuation Ces trois ensembles devront tre distincts (n'avoir aucun enregistrement en commun). L'ensemble d'apprentissage est utilis pour construire le modle initial. C'est depuis cet ensemble que le systme va calculer ses diffrents paramtres. Une fois les paramtres calculs, il faut vrifier comment ils se comportent sur l'ensemble de test. Celui-ci va permettre d'ajuster les valeurs trouves l'tape prcdente et les rendre moins sensibles l'ensemble d'apprentissage. Enfin, les paramtres seront tests sur l'ensemble d'valuation. Si les rsultats obtenus sont proches de ceux attendus, on pourra alors valider le systme. Dans le cas contraire, il faudra analyser les raisons de cette diffrence. Pour mesurer la validit des rsultats obtenus, on utilisera les outils statistiques traditionnels (le khi2 par exemple).
C:\CNAM\Data.doc
Page 146
Version 1.1
Le 15 Juin 1998
Comment construire ces ensembles ? Il n'existe pas de rponse simple cette question. Dans certains cas, on utilisera les mthodes statistiques d'chantillonnage pour constituer ces ensembles. Cependant, surtout si l'on se trouve dans un contexte de data warehouse, il est prfrable de prendre de grands volumes (au moins 10 000 enregistrements) pour tre sr que statistiquement l'ensemble est reprsentatif (loi de la probabilit forte des grands nombres). Il faut cependant respecter quelques rgles : Dans une analyse statistique traditionnelle, il est frquent de choisir les variables analyser pour tenter par exemple de dterminer la corrlation de l'une par rapport une autre. De mme, on supprime souvent certains champs trop complexes ou insuffisamment aliments (valeurs absentes). Dans une approche de data mining, il est prfrable de soumettre l'ensemble des donnes et laisser l'outil dterminer lui-mme les donnes utiles car les champs absents ou complexes peuvent dboucher sur des connaissances importantes ! Enfin, il faut tre vigilant dans la constitution des ensembles. Il faut se rappeler en permanence que leur but n'est pas d'tre reprsentatifs de la population d'origine mais qu'il s'agit d'un ensemble d'apprentissage. C'est partir de ces donnes que le systme va se crer ses rgles et paramtres. Il est donc souvent utile de surdimensionner certains ensembles utiles l'apprentissage. Par exemple, une entreprise pourrait s'intresser aux clients susceptibles de rpondre favorablement une offre commerciale. Supposons que dans les donnes historiques de l'entreprise seul 1 % des clients aient rpondu favorablement cette offre. Il sera souhaitable d'augmenter significativement (au moins 10 %) cette population pour que le logiciel d'exploitation puisse identifier facilement cette population et reconnatre parmi les nouveaux clients ceux qui sont susceptibles d'tre intresss par cette offre. On procdera de la mme manire pour mettre en vidence toute population prsentant un profil intressant pour l'entreprise : recherche de bons ou mauvais clients, de fraudeurs, etc 1.1.1.1.2 Construire et instruire le programme informatique Dans cette tape se ralisent les premires oprations d'analyse de donnes (terme considrer dans son acception statistique). Il s'agit de rechercher la ou les techniques mettre en uvre et raliser / mettre en uvre le programme.
C:\CNAM\Data.doc
Page 147
Version 1.1
Le 15 Juin 1998
1.1.1.1.3 Evaluer le modle informatique La plus grande difficult est de dterminer le volume d'apprentissage optimal. Pour ce faire, il faut tester les donnes connues et inconnues. Si les donnes connues sont trop importantes, on risque de trouver des paramtres d'estimation trs prcis sur cette population mais qui donneront des valeurs trs mdiocres sur une population inconnue. Le rsultat sera similaire si le volume d'apprentissage est trop faible. Il faut donc trouver un compromis, comme illustr sur la figure qui suit.
1.1.1.1.4 Appliquer le modle informatique de nouvelles donnes Lorsque le modle ou l'apprentissage est effectu, il faut l'appliquer de nouvelles donnes. Cette tape permet au systme d'appliquer ses connaissances a ces donnes. 1.1.1.1.5 Identifier les cibles potentielles pour la dcouverte de connaissances dirige Dans la suite logique de l'tape prcdente, l'utilisateur va exploiter les conclusions et connaissances. Cela dbouche sur de nouvelles interrogations qui se traduisent gnralement par une approche de dcouverte de connaissances dirige.
C:\CNAM\Data.doc
Page 148
Version 1.1
Le 15 Juin 1998
1.1.1.1.6 Gnrer de nouvelles hypothses tester C'est la dernire tape : les nouvelles connaissances gnres aux tapes prcdentes permettent de gnrer de nouvelles hypothse, qu'il faut retravailler. Nous entrons ici dans le cadre du test d'hypothses.
1.1.1.2 SYNTHESE
Dans un processus de dcouverte de connaissances non dirige, il faut : Identifier les sources de donnes prclasses Prparer les donnes pour l'analyse Construire et instruire le programme informatique Evaluer le modle informatique Appliquer le modle informatique de nouvelles donnes Identifier les cibles potentielles pour la dcouverte de connaissances dirige Gnrer de nouvelles hypothses tester
C:\CNAM\Data.doc
Page 149
Version 1.1
Le 15 Juin 1998
1.1.2.1 METHODOLOGIE
Au niveau mthodologique, le principe est le mme que pour la dcouverte de connaissances non dirige. La seule diffrence est que dans le cas prcdent, les connaissances gnres dbouchent soit vers un test d'hypothse, soit vers un processus de dcouverte de connaissances diriges. Pour mmoire (voir explications au chapitre prcdent), voici les tapes raliser : Identifier les sources de donnes prclasses Prparer les donnes pour l'analyse Construire et instruire le programme informatique Evaluer le modle informatique
1.1.1.1 SYNTHESE
Dans un processus de dcouverte de connaissances dirige, il faut : Identifier les sources de donnes prclasses Prparer les donnes pour l'analyse Construire et instruire le programme informatique Evaluer le modle informatique
C:\CNAM\Data.doc
Page 150
Version 1.1
Le 15 Juin 1998
2 L'EVALUATION
On a souvent tendance ngliger ou sous estimer les problmes d'valuation. L'entreprise qui entreprend une dmarche de data mining, surtout si elle est associe la mise en uvre d'un data warehouse, engage des dpenses trs importantes et attend par consquent un retour d'investissement. Pour assurer la rentabilit finale d'un projet, il va falloir en mesurer l'efficacit tout au long du processus. Chaque modle, chaque rgle doit tre valu, valid. Une technique d'valuation consiste tablir le rapport du rsultat obtenu sur une population cible (depuis un outil de data mining) par celui qui aurait t obtenu sur la population totale. Ce rapport s'appelle taux de support ou taux de surconcentration. En fait, il mesure l'amlioration. Mais ce rapport doit tre pris avec prcaution car il ne tient pas compte de l'effectif de chaque classe : si l'on obtient un taux trs lev sur une population de trois ou quatre individus statistique, la rgle perd tout son attrait alors qu'une autre rgle avec un taux trs faible peut avoir un impact bien plus important. De nombreuses techniques de data mining possdent leurs propres rgles d'valuation. A celles-ci, nous pouvons ajouter les outils statistiques traditionnels : calculs de moyennes, carts types, Khi2, ratios de gestion, etc mais le problme de l'valuation est plus complexe qu'il ne semble. Pour illustrer ces propos, voici quelques exemples : Si une rgle permet d'esprer un gain de clientle de 5% et un gain de bnfice de 1% mais qu'un autre rgle permet un gain de clientle de 1% avec un gain de bnfice de 2%, laquelle sera la meilleure ? Si nous rajoutons les cots lis la mise en uvre des solutions trouves, quelle est la meilleure solution ? Il n'y a pas de rponse priori pour ces problmes stratgiques. La manire la plus sage de raisonner en terme de data mining est de dfinir prcisment au pralable l'objectif de l'analyse. L'valuation en sera d'autant plus aise. Un objectif est prcis, chiffr et situ dans le temps. On saura si l'objectif est atteint que si ce dernier est pos. Ceci parat vident mais l'exprience montre que c'est loin d'tre toujours le cas ! Idalement, les outils ou critres de l'valuation finale sont dfinis en mme temps que l'objectif. L'valuation doit tre prsente tout au long de la dmarche de data mining !
C:\CNAM\Data.doc
Page 151
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 152
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 153
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 154
Version 1.1
Le 15 Juin 1998
2.2 UTILISATION
L'analyse du panier de la mnagre est utilise pour dcouvrir des rgles d'association et son but principal est donc descriptif. Dans la mesure ou les rsultats peuvent tre situs dans le temps, cette technique peut tre considre comme prdictive. On utilise souvent cette technique comme point de dpart d'une analyse car les rgles exprimes sont claires et explicites pour l'utilisateur mtier. Lorsqu'une rgle est identifie comme intressante exploiter, on se tourne alors vers un processus de test d'hypothses ou de dcouverte dirige pour mieux explorer les donnes, mais en faisant appel d'autres techniques.
C:\CNAM\Data.doc
Page 155
Version 1.1
Le 15 Juin 1998
CLIENT 1 2 3 4 5
ARTICLES ACHETES Jus d'orange, eau minrale Lait, jus d'orange, nettoyant vitres Jus d'orange, dtergent Jus d'orange, dtergent, eau minrale Nettoyant vitres, eau minrale
Tableau 37 : liste des achats par client pour l'analyse du panier de la mnagre.
Jus d'orange Jus d'orange Nettoyant vitres Lait Eau minrale Dtergent 4 1 1 2 1
Nettoyant vitres 1 2 1 1 0
Lait 1 1 1 0 0
Eau minrale 2 1 0 3 1
Dtergent 1 0 0 1 2
Il est possible de crer un tableau non plus deux dimensions mais n. On indiquera alors le nombre d'occurrences pour chaque n-upplet. Mais au-del de deux, on perd en lisibilit et
C:\CNAM\Data.doc Valeur C : Ingnierie des systmes dcisionnels Page 156
Version 1.1
Le 15 Juin 1998
surtout le tableau crot de manire exponentielle (un tableau de dimension n pour p articles p ncessite d'alimenter n cellules), ce qui gnre beaucoup de matrices creuses. Nous dconseillons ces tableaux, d'autant que l'intrt pour l'exploitation est limit.
Ds que le tableau des cooccurrences est tabli, une premire lecture simple permet d'obtenir les premiers renseignements : Une lecture sur la diagonale (fond jaune) permet de connatre le nombre d'units vendues de chaque article, L'article le plus vendu est le jus d'oranges, Le jus d'oranges et l'eau minrale sont plus vendus ensembles que tout autre couple d'articles, Le lait n'est jamais achet en mme temps que l'eau minrale ou le dtergent, Le dtergent n'est jamais achet en mme temps que le nettoyant vitres ou le dtergent.
C:\CNAM\Data.doc
Page 157
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 158
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 159
Version 1.1
Le 15 Juin 1998
1.2.1 LA FRQUENCE
A chaque rgle, il faut associer une mesure de confiance ou de probabilit. On peut commencer par une mesure statistique simple de probabilit : la frquence. La rgle vue dans le paragraphe prcdent est vraie pour deux clients sur cinq, soit 40% des clients.
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 161
Version 1.1
Le 15 Juin 1998
1.2 SYNTHESE
L'analyse du panier de la mnagre est un moyen de trouver les groupes d'articles qui vont ensembles lors d'une transaction. C'est une technique de dcouverte de connaissances non dirige (de type analyse de clusters) qui gnre des rgles et supporte l'analyse des sries temporelles (si les transactions ne sont pas anonymes). Les rgles gnres sont simples, faciles comprendre et assorties d'une probabilit, ce qui en fait un outil agrable et directement exploitable par l'utilisateur mtier.
C:\CNAM\Data.doc
Page 162
Version 1.1
Le 15 Juin 1998
2.2 UTILISATION
Le RBM s'adapte bien aux bases de donnes relationnelles, qui sont les plus courantes dans le domaine de gestion. Sa mise en uvre est simple, ce qui en fait un outil apprci. On peut l'utiliser pour estimer des lments manquants, dtecter des fraudes, dterminer le meilleur traitement d'un malade, prdire si un client sera intress ou non par telle offre, ou pour classifier les rponses en texte libre. La police Amricaine a utilis cette mthode rcemment pour identifier (efficacement dans le cas prsent) un criminel. En fonction des indices, un criminel virtuel a t cr. Prsent par le RBM une base de criminels connus, celui-ci s'est retrouv positionn prs du vritable criminel !
C:\CNAM\Data.doc
Page 163
Version 1.1
Le 15 Juin 1998
2.3 FONCTIONNEMENT
Pour illustrer le fonctionnement du RBM, prenons un exemple simple. Considrons les ventes de voitures Renault, ventiles en fonction de l'ge et du nombre d'enfants de l'acheteur (voir Tableau 40). Vhicule Clio Espace Clio Megane Safrane Laguna Espace Clio Megane Safrane Laguna Espace Age 25 32 28 30 50 35 40 30 34 52 38 34 Enfants 0 4 1 2 1 2 3 1 2 2 1 5 Vhicule Clio Megane Laguna Safrane Clio Megane Laguna Clio Megane Laguna Safrane Age 27 30 39 55 24 33 38 22 35 39 54 Enfants 1 2 0 0 1 2 2 0 1 2 1
C:\CNAM\Data.doc
Page 164
Version 1.1
Le 15 Juin 1998
La consultation du graphique montre des zones bien nettes et permettent de dterminer, pour un nouveau client dont on connat l'ge et le nombre d'enfants, le modle susceptible de l'intresser. Sur le graphique suivant, nous avons plac trois nouveaux clients (reprsents par les toiles numrotes). La notion de distance est la distance mtrique. Dans ce cas, nous conseillerons au client 1 une Espace, au client 2 une Clio, au client 3 une Safrane :
Graphique 4 : positionnement de trois nouveaux clients
Cet exemple est volontairement simpliste mais son unique objectif est pdagogique. Dans une tude relle, le vendeur est suffisamment comptent pour connatre ces informations. De 3 plus, les zones seraient moins nettement dfinies. Enfin, il faudrait rajouter toutes les dclinaisons possibles pour un mme modle.
1
C:\CNAM\Data.doc
Page 165
Version 1.1
Le 15 Juin 1998
Pour les donnes numriques, les trois fonctions de distance les plus courantes entre une valeur A et une valeur B sont : La valeur absolue de la diffrence : |A-B| Le carr de la diffrence : (A-B) La valeur absolue normalise : |A-B| / (diffrence maximale) L'avantage de la valeur absolue normalise est qu'elle se trouve toujours entre 0 et 1, ce qui supprime les problmes d'chelles. Cependant, l'utilisateur reste libre de crer sa propre fonction. Pour les autres types de donnes, c'est l'utilisateur de dfinir sa propre fonction de distance. Par exemple, pour comparer le sexe d'un individu, on pourra affecter la valeur 1 s'ils sont de sexe diffrent ou la valeur 0 s'ils sont identiques (voir rgle de l'identit). Pour une catgorie socioprofessionnelle, il suffit de crer une mtrique. Pour des communes, pourquoi ne pas prendre la distance entre elles ou affecter une codification en fonction du type (urbaine, priurbaine, rurale) ou de la rgion. Il est toujours prfrable de faire une codification dont le rsultat se situera entre 0 et 1.
1.2 EXEMPLE
Pour notre exemple, considrons une liste de clients ayant dj rpondu une offre commerciale (par oui ou non). L'utilisateur mtier estime que les critres les plus dterminants sont le sexe, l'ge et le salaire net du dernier semestre. Soit la liste suivante de clients identifis : Numro A B C D E Age 27 51 52 33 45 Sexe F M M F M Salaire Acheteur 19000 Non 66000 Oui 105000 Non 55000 Oui 45000 Oui
Tableau 41 : rponse des clients une offre en fonction de l'ge, du sexe et du salaire
C:\CNAM\Data.doc
Page 166
Version 1.1
Le 15 Juin 1998
Considrons maintenant un nouveau client : une femme de 45 ans ayant un revenu de 100000 Francs. Dterminons si cette cliente sera intresse ou non par l'offre. La fonction de distance est dfinie ainsi : il s'agit d'une femme, donc la distance par rapport aux clients connus sera de 1 avec les hommes et de 0 avec les femmes. A ce chiffre, on ajoute la distance normalise du salaire et de l'ge, ce qui donne les tableaux des distances suivants : Client A B C D E Age 0.720 0.240 0.280 0.480 0.000 Sexe 0 1 1 0 1 Salaire 0.942 0.395 0.058 0.523 0.640 Distance totale 1.662 1.635 1.338 1.003 1.640
Les voisins les plus proches sont donc, dans l'ordre : D C B E A Utilisons maintenant la fonction de combinaison. Il va falloir dterminer le nombre de voisins retenus pour l'estimation de la rponse. Pour l'exemple, nous allons faire varier ce nombre de 1 5. Cela nous donne le tableau suivant : Nombre de voisins retenus Numro des voisins Rponses des voisins Dcompte des rponses Valeur retenue Evaluation 1 D O Oui 1 Non 0 Oui 100 % 2 DC O,N Oui 1 Non 1 ? 50 % 3 DCB O,N,O Oui 2 Non 1 Oui 66 % 4 DCBE O,N,O,O Oui 3 Non 1 Oui 75 % 5 DCBEA O,N,O,O,N Oui 3 Non 2 Oui 60 %
Il est prfrable de prendre un nombre impair car la rponse ne peut prendre que 2 valeurs et on vite ainsi les rponses incertaines (cas de 2 voisins). Si nous ne retenons que les trois voisins les plus proches, la rponse sera favorable avec une probabilit (ou plutt une esprance) de 66%. Il aurait t possible galement de donner un poids chaque contribution. Par exemple le premier voisin le plus proche aurait un poids de 3, le second un poids de 2 et le troisime un poids de 1. On peut galement affecter des poids chaque variable utilise dans la fonction de distance.
C:\CNAM\Data.doc
Page 167
Version 1.1
Le 15 Juin 1998
1.1 SYNTHESE
Le raisonnement bas sur la mmoire (RBM) est une technique de prdiction et de classification utilise dans le cadre de la dcouverte de connaissances dirige. Elle peut tre galement utilise pour l'estimation. Pour chaque nouvelle instance prsente, le systme recherche les voisins les plus proches et procde ainsi l'affectation ou estimation en les combinant entre eux. L'avantage du RBM est qu'il est facile comprendre, mettre en uvre, trs stable (les nouvelles donnes n'entranent pas de refaire fonctionner un systme de calcul) et supporte tout type de donnes. Les performances de cette technique sont assez bonnes.
C:\CNAM\Data.doc
Page 168
Version 1.1
Le 15 Juin 1998
2.2 UTILISATION
L'objectif de cette technique est de procder une classification du type regroupement par similitude. Chaque groupe est appel cluster. C'est une technique trs puissante et son champ d'application est important. Une utilisation classique consiste clusteriser une population puis, aprs tude de chaque cluster, faire une offre commerciale tout fait adapte la population.
2.3 FONCTIONNEMENT
Pour utiliser une des mthodes de dtection de clusters, il faut prvoir une fonction de distance qui mesure l'cart entre deux enregistrements (voir paragraphe LA FONCTION DE DISTANCEpage LA FONCTION DE DISTANCE).
C:\CNAM\Data.doc
Page 169
Version 1.1
Le 15 Juin 1998
2.5 EXEMPLES
Le mme exemple et problme est utilis pour illustrer les deux techniques. A des fins pdagogiques, celui-ci sera simple : classifier des individus selon leurs ges. Soit une liste alatoire d'individus dont les ges sont les suivants : 27 - 51 - 52 - 33 - 45 - 22 - 28 - 44 - 40 - 38 - 20 - 57
Version 1.1
Le 15 Juin 1998
Graine 1 (27) : 27 - 33 - 22 - 28 - 38 - 20 Graine 2 (51) : 51 - 45 - 44 - 40 Graine 3 (52) : 52 - 57 Pour le calcul des nouveaux centrodes, prenons la moyenne arithmtique de chaque cluster, soit 28 pour la graine 1, 45 pour la graine 2 et 54.5 pour la graine 3. Ces valeurs reprsentent les positions des nouvelles graines. Recommenons le processus de calcul de distance par rapport ces nouvelles valeurs. Cela donne le tableau suivant :
Graine 28 Graine 45 Graine 54.5 Minimum Affectation 27 0.03 0.49 0.74 0.03 1 51 0.62 0.16 0.09 0.09 3 52 0.65 0.19 0.07 0.07 3 33 45 22 28 44 0.14 0.46 0.16 0 0.43 0.32 0 0.62 0.46 0.03 0.58 0.26 0.88 0.72 0.28 0.14 0 0.16 0 0.03 1 2 1 1 2 40 0.32 0.14 0.39 0.14 2 38 0.27 0.19 0.45 0.19 2 20 0.22 0.68 0.93 0.22 1 57 0.78 0.32 0.07 0.07 3
Tableau 45 : calcul des distances entre chaque point et les nouvelles graines (centrodes)
L'affectation donne donc la rpartition suivante : Graine 1 (28) : 27 - 33 - 22 - 28 - 20 Graine 2 (45) : 45 - 44 - 40 - 38 Graine 3 (54.5) : 51 - 52 - 57 Moyenne = 26 Moyenne = 41.75 Moyenne = 53.33
En ritrant le processus, nous voyons qu'il ne modifie plus les affectations. Les clusters sont donc finaliss : Cluster 1: 27 - 33 - 22 - 28 - 20 Cluster 2: 45 - 44 - 40 - 38 Cluster 3: 51 - 52 - 57 Jeunes majeurs - Centrode = 26 Quadragnaires - Centrode = 41.75 Quinquagnaires - Centrode = 53.33
C:\CNAM\Data.doc
Page 171
Version 1.1
Le 15 Juin 1998
Positionnons un seuil 10% (0.1) chaque itration. Ainsi, nous aurons au maximum 10 tages. Ce seuil est fix alatoirement en fonction du niveau de regroupement souhait par l'utilisateur. L'ensemble des valeurs est ordonn en ordre croissant. Pour la premire itration, nous ne prenons que les valeurs ayant un seuil infrieur 10%, soit : 0.03 (52-51), 0.03 (27-28), 0.03 (44-45), 0.05 (38-40), 0.05 (20-22) 51 52 27 28 44 45 38 40 20 22 33 57
chaque cluster ainsi form est reprsent par son centrode (ici nous prendrons la moyenne), ce qui nous donne la nouvelle srie suivante : 27.5 - 51.5 - 33 - 44.5 - 21 - 39 - 57
C:\CNAM\Data.doc
Page 172
Version 1.1
Le 15 Juin 1998
Nous recommenons le processus avec cette nouvelle srie et le seuil de 20% (0.20). 27.5 51.5 33 44.5 21 39 57 27.5 0.00 0.67 0.15 0.47 0.18 0.32 0.82 51.5 0.67 0.00 0.51 0.19 0.85 0.35 0.15 33 0.15 0.51 0.00 0.32 0.33 0.17 0.67 44.5 0.47 0.19 0.32 0.00 0.65 0.15 0.35 21 0.18 0.85 0.33 0.65 0.00 0.50 1.00 39 0.32 0.35 0.17 0.15 0.50 0.00 0.50 57 0.82 0.15 0.67 0.35 1.00 0.50 0.00
Avec un seuil de 20%, nous regroupons les valeurs suivantes (dans l'ordre) : 0.15 (33-27.5), 0.15 (57-51.5), 0.15 (39-44.5)), 0.17 (33-39), 0.18 (21-27.5), 0.19 (44.551.5) Les liens 33-39 et 44.5-51.5 sont pris en compte au niveau 3 car il relie des groupes dj relis par des prdcesseurs. Cela nous donne le graphe suivant :
20
22
27
28
33
38
40
44
45
51
52
57
Une autre solution aurait pu consister grouper les lments entre eux en prenant dans l'ordre croissant les distances. Cela donnerait le graphe suivant :
20
22
27
28
33
38
40
44
45
51
52
57
Dans l'exemple prsent, cela donne sensiblement le mme graphe mais il peut tre trs diffrent.
C:\CNAM\Data.doc
Page 173
Version 1.1
Le 15 Juin 1998
2.6 EVALUER
Lorsque les clusters sont dtermins, par la mthode des K-moyennes, il faut valuer la qualit de chaque cluster. L'intrt de la technique est de regrouper des populations statistiques avec le plus grand degr de similarit. Une solution possible consiste tudier la variance de la distance de cette population. Un cluster solide sera constitu d'une population significative et d'une variance faible. D'autres valuations sont faire : Si la population d'un cluster est trop faible, il pourrait tre valable de grouper ce cluster avec un autre. Si un cluster est trop dominant, il sera prfrable de scinder la population en deux (dans et hors cluster) et de relancer le processus pour chaque sous groupe.
1.1 SYNTHESE
La dtection automatique de clusters est une technique de dcouverte de connaissances non dirige (ou apprentissage sans supervision). Elle consiste regrouper les enregistrements en fonction de leurs similitudes. Chaque groupe reprsente un cluster. C'est une excellente technique pour dmarrer un projet d'analyse ou de data mining. Les groupes de similitudes permettront de mieux comprendre les donnes et d'imaginer comment les utiliser au mieux.
C:\CNAM\Data.doc
Page 174
Version 1.1
Le 15 Juin 1998
2.2 UTILISATION
Les algorithmes gntiques trouvent de nombreux domaines d'applications. Ils sont utiliss dans l'industrie pour optimiser ou contrler les processus (pression d'un cylindre, temprature d'un four, etc), dans le domaines spatiaux (choix des meilleures implantations d'un distributeur automatique de billets de banque), dans le domaine marketing (choix des meilleurs candidats une offre) mais on les trouve surtout dans le data mining o ils vont optimiser les performances des systmes : modifier les paramtres d'une rgression, optimiser les poids des liaisons d'un rseau neuronal, isoler les variables qui permettent le mieux d'interprter le comportement des clients dans un arbre de dcision.
Version 1.1
Le 15 Juin 1998
2.4 MISE EN UVRE DES ALGORITHMES GENETIQUES 2.4.1 PREPARATION DES DONNEES
Pour pouvoir fonctionner correctement, les donnes doivent tre codes sous forme d'une squence de 0 et de 1. Les donnes numriques sont codes en binaires tandis que les autres variables sont codifies sur un ou plusieurs codes lmentaires. Par exemple sexe peut tre cod 1 pour les femmes et 0 pour les garons; nombre annuel de commandes peut tre 00 pour aucune, 01 pour une ou deux, 10 pour trois ou quatre, et 11 pour 5 et plus,
C:\CNAM\Data.doc
Page 176
Version 1.1
Le 15 Juin 1998
Tableau 51 : valuation des chromosomes Graphique 5 : rpartition des descendants sur un cercle
C:\CNAM\Data.doc
Page 177
Version 1.1
Le 15 Juin 1998
Lorsque les descendants sont dfinis, on peut procder des manipulations sur ceux-ci. Il existe trois types de manipulations : l'hybridation (ou croisement), la mutation ou l'inversion.
2.4.5.1 HYBRIDATION
L'hybridation ou croisement (cross-over en anglais) consiste permuter deux chromosomes partir d'un point choisi de manire alatoire.
C:\CNAM\Data.doc
Page 178
Version 1.1
Le 15 Juin 1998
2.4.5.2 MUTATION
La mutation consiste changer la parit d'un des lments pris au hasard :
2.4.5.3 INVERSION
L'inversion consiste intervertir deux caractres conscutifs :
50% 60 % des descendants vont subir une manipulation. Afin d'obtenir de bonnes performances, le taux d'hybridation est souvent lev (80% du taux de manipulation).
C:\CNAM\Data.doc
Page 179
Version 1.1
Le 15 Juin 1998
2.4.7 SYNOPTIQUE
Choix des n premiers chromosomes
-1Gnration des descendants -2Slection (choix pseudo-alatoire) d'une nouvelle gnration de n chromosomes -3Manipulations gntiques (hybridation, inversion, mutation) NON
Solution acceptable ?
C:\CNAM\Data.doc
Page 180
Version 1.1
Le 15 Juin 1998
2.5 EXEMPLE
Pour illustrer cette technique, nous allons prendre un exemple simple. Nous cherchons maximiser une valeur numrique code sur 8 caractres (de 00000000 11111111). Notre fonction d'valuation vaut f(x)=-x+256x. Initialisons la procdure avec les 4 chromosomes suivants, choisis au hasard : 00110011, 11001111, 00000111, 10101010 (soit 51, 207, 7 et 170) L'valuation de ces valeurs donne respectivement : 10455 - 10143 - 1743 - 14620 L'estimation moyenne est de 9240,25. La meilleure estimation correspond au point 170 (soit en binaire 10101010). Calculons les descendants. La rpartition sera la suivante : Chromosome 00110011 11001111 00000111 10101010 Total Valeur dcimale 51 207 7 170 Aptitude 10455 10143 1743 14620 36961 Frquence 0,28 0,27 0,05 0,40 1 Nombre de descendants 1 1 0 2 4
Nous voyons que le chromosome le moins bien adapt disparat. La gnration des descendants vaut : 00110011, 11001111, 10101010,10101010. Procdons maintenant aux manipulations gntiques : croisons les descendants 2 et 3 partir du quatrime caractre et oprons une mutation sur le troisime caractre 4me descendant et une inversion sur les deuxime et troisime caractre du 1er descendant. Cela nous donne la gnration suivante : 01010011,11001010,10101111,10001010. Evaluons cette nouvelle gnration : Chromosome 01010011 11001010 10101111 10001010 Total Valeur dcimale 83 202 175 138 Aptitude 14359 10908 14175 16284 55726 Frquence 0,26 0,20 0,25 0,29 1 Nombre de descendants 1 1 1 1 4
Nous constatons que la solution globale est meilleure (meilleur total) et que la solution 10001010 reprsente par le 4me descendant est la meilleure jusqu' prsent. En ritrant ce processus, nous constaterions que les solutions convergent vers la meilleure valeur assez rapidement.
C:\CNAM\Data.doc
Page 181
Version 1.1
Le 15 Juin 1998
1.1 SYNTHESE
Les algorithmes gntiques sont utiliss dans la dcouverte de connaissances dirige. Ils permettent de rsoudre des problmes divers, notamment d'optimisation, d'affectation ou de prdiction. Leur fonctionnement s'apparente celui du gnome humain. Le principe de fonctionnement est le suivant : les donnes sont converties en chanes binaires (comme les chanes d'ADN - acide dsoxyribo nuclique-). Celles-ci se combinent par slection, croisement ou mutation et donnent ainsi une nouvelle chane qui est value. En fonction du rsultat, les chanes les plus faibles cdent leur place aux plus fortes. Cette technique est particulirement intressante pour rsoudre des problmes d'affectation ou des problmes sur lesquels on peut poser une fonction d'valuation car elle peut trouver des solutions optimises parfois inexistantes dans les donnes d'origine.
C:\CNAM\Data.doc
Page 182
Version 1.1
Le 15 Juin 1998
1.1 UTILISATION
L'explosion d'Internet a considrablement accru les volumes d'informations accessibles. Pour s'en convaincre, il suffit de lancer une recherche sur un mot cl pour trouver quelques dizaines de milliers de sites en rapport. Une telle quantit de donnes reprsente plus un handicap qu'un avantage. Les agents intelligents ont trouv dans ce domaine un secteur tout fait adapt leurs fonctionnalits. Au service de l'utilisateur, ils sont capables de gnrer et d'excuter un plan de recherche, de rsoudre les problmes dans l'excution de ce plan et par interaction avec l'utilisateur, d'amliorer leurs comportements. Ces types d'agents ne relvent pas du data mining puisqu'ils ne font que reproduire un processus manuel. Cependant, avec le dveloppement du commerce lectronique sur le Web, de nouveaux agents "commerciaux" (les conseillers lectroniques), sont mis en place et on peut tout fait assimiler leurs fonctions aux tches du data mining.
C:\CNAM\Data.doc
Page 183
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 184
Version 1.1
Le 15 Juin 1998
1.4 EXEMPLE
Actuellement des expriences sont en place aux Etats-Unis. Sur abonnement, un utilisateur initialise le processus en remplissant un questionnaire sur ce qu'il aime et dteste. Par la suite, tous les achats lectroniques sont enregistrs et remonts vers la socit dtentrice du systme. Dans le mme temps, par analogie de gots et comportements, le systme fait des propositions individualises au client. Ce type de service est consultable par exemple sur http://www.firefly.com ou http://www.hotmail.com. Dbut 1998, la socit Microsoft a rachet la socit hotmail (qui propose ce type de services) et dispose ainsi de 9 millions d'abonns. En mai 1998, la socit firefly t rachete galement par Microsoft. Ce dernier envisage d'intgrer ce principe dans les versions futures de son navigateur (Internet Explorer). L'intrt de Microsoft pour ces technologies montre bien son enjeu stratgique et commercial.
1.5 SYNTHESE
Les agents intelligents ou Knowbot sont des entits logicielles autonomes dont les plus rcentes versions s'intgrent tout fait dans le processus de data mining. Certains iront jusqu' les considrer comme des outils de data mining. Certains d'entre eux, les plus labors, sont capables de suivre et mmoriser les mouvements, visites et achats sur Internet et permettent d'laborer des profils d'utilisateurs pour leur faire des offres commerciales "un un (one to one) ". L'utilisateur peut, quant lui, lancer des appels d'offres et mises en concurrence automatiquement grs par ces agents. Cette volution (tout comme celle du data mining) nous amnent nous poser des questions d'thique et de respect de la vie prive.
C:\CNAM\Data.doc
Page 185
Version 1.1
Le 15 Juin 1998
Figure 25 : un graphe
Un graphe peut tre connexe, totalement connexe, pondr et/ou orient. Graphe connexe : il existe un chemin entre chaque nud.
1 4 2
C:\CNAM\Data.doc
Page 186
Version 1.1
Le 15 Juin 1998
Graphe totalement connexe : il existe une arte entre chaque paire de nuds.
2.2 FONCTIONNEMENT
Un rseau Baysien est un graphe orient dans lequel les nuds reprsentent les variables et dans lequel les artes symbolisent les dpendances entre les variables. Il mesure la probabilit dapparition dun vnement connaissant le rsultat observ sur dautres variables.
C:\CNAM\Data.doc
Page 187
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 188
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 189
Version 1.1
Le 15 Juin 1998
En conclusion, les rseaux Baysiens ne sont pas bien adapts la prdiction ou la classification des donnes, mais les relations dcouvertes sont un bon point dentre pour dautres techniques, telles les rseaux de neurones ou les arbres de dcisions.
C:\CNAM\Data.doc
Page 190
Version 1.1
Le 15 Juin 1998
3.2 FONCTIONNEMENT
Un arbre de dcision est compos :
Dun nud racine par lequel entre les enregistrements, De questions, De rponses qui conditionnent la question suivante, De nuds feuilles qui correspondent un classement.
1 Noeud racine
Noeud fils
Noeud feuille
4 Noeuds feuilles
Le jeu de questions et rponses est itratif jusqu ce que lenregistrement arrive un nud feuille. Afin de dterminer quelle variable doit tre affecte chaque nud, la technique applique un algorithme sur chacun des paramtres et conserve le plus reprsentatif dun dcoupage Il existe trois algorithmes de calcul CART, C4.5 et CHAID.
C:\CNAM\Data.doc
Page 191
Version 1.1
Le 15 Juin 1998
3.2.1 CART
Cet algorithme a t publi en 1984 par L.Briemen. Il est utilis dans de nombreux outils du march. Processus
Trouver la premire bifurcation, Dvelopper larbre complet, Mesurer le taux derreur chaque nud, Calculer le taux derreur de larbre entier, Elaguer, Identifier les sous-arbres, Evaluer les sous-arbres, Evaluer le meilleur sous-arbre.
La premire bifurcation est celle qui divise le mieux les enregistrements en groupes. Ainsi pour dterminer le critre qui effectuera le meilleur partage entre les lments, un indice de diversit est calculer, selon la formule suivante : Max. de : diversit(avant division) (diversit fils gauche + diversit fils droit) Il existe diffrents modes de calcul pour lindice de diversit : - Min. (Probabilit(c1), Probabilit(c2)), - 2 Probabilit(c1)Probabilit(c2), - (Probabilit(c1)logProbabilit(c1))+ (Probabilit(c2)logProbabilit(c2))
C:\CNAM\Data.doc
Page 192
Version 1.1
Le 15 Juin 1998
Une fois la premire bifurcation tablie, nous avons donc le nud racine qui se spare en deux. Ltape suivante est donc de dvelopper larbre complet en divisant de la mme faon les nouveaux nuds cres, et ainsi de suite tant que le rsultat de la division a une valeur significative. Le dernier nud tant le nud feuille qui donne le classement final dun enregistrement. Larbre rsultant nest pas obligatoirement le meilleur, la prochaine tape est de calculer le taux derreur pour chaque nud. Si nous supposons que 11 enregistrements sur 15 sont classs correctement daprs lensemble dapprentissage, la probabilit pour ce nud est de 11/15 soit 0,7333. Le taux derreur attribu est de 1 0,7333 = 0,2667. Le calcul du taux derreur de chaque nud tant fait, il est possible de calculer le taux derreur de larbre entier soit : t : taux derreur dun nud P : probabilit daller au nud Taux derreur de larbre = (t * P) Soit dans lexemple, avec un taux derreur de (15/17) pour le nud Masculin ((11/15) * 0,80) + ((15/17) * 0,20) = 0,763 Le danger de larbre de dcision, tel quil est constitu lissue du premier passage, est que certains nuds feuilles ne contiennent pas suffisamment denregistrements pour tre significatifs. Il faut laguer, le plus complexe tant de trouver la bonne limite appliquer. Le choix des branches supprimer, se fait par lintermdiaire du taux derreur ajust dun arbre qui se calcule, sur chaque sous arbre possible, comme suit : Soit le compte des feuilles Taux derreur ajust = taux derreur + compte des feuilles Un premier sous arbre est candidat lorsque son taux derreur ajust devient plus petit ou gal au taux derreur ajust de tout larbre. Toutes les branches, qui nen font pas partie, sont lagues, et le processus recommence ainsi de suite jusquau nud racine. Il faut donc maintenant choisir parmi tous les sous arbres candidats. Pour cela, chaque sous arbre va tre excuter avec un ensemble de test, celui qui aura le plus petit taux derreur sera considr comme le meilleur. Enfin pour contrler lefficacit du sous arbre slectionn, un ensemble dvaluation va lui tre soumis. Son taux derreur obtenu donnera une estimation des performances de larbre.
C:\CNAM\Data.doc
Page 193
Version 1.1
Le 15 Juin 1998
3.2.2 C4.5
Algorithme dvelopp par J.Ross Quinlan. La version intrieure sappelait ID3, et est encore utilise dans quelques produits. Nous allons tudier ici les diffrences entre C4.5 et CART tant donn les nombreuses similitudes entre ces deux algorithmes.
3.2.2.3 ELAGAGE
C4.5 nutilise pas densemble de test, il lague son arbre partir des donnes dapprentissage en considrant que le taux derreur rel sera sensiblement pire, ce qui le conduit parfois, lorsque les nuds comportent peu denregistrements, supprimer des sousarbres complets.
C:\CNAM\Data.doc
Page 194
Version 1.1
Le 15 Juin 1998
3.2.3 CHAID
Algorithme publi en 1975 par J.A. Hartigan. Il est utilis dans les progiciels tels que SPSS et SAS. Comme pour CART et C4.5, nous allons tudier les diffrences entre CHAID et les deux algorithmes vus prcdemment.
C:\CNAM\Data.doc
Page 195
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 196
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 197
Version 1.1
Le 15 Juin 1998
Nous nous intresserons ici aux rseaux apprentissage supervis. Le rseau est construit partir de cas connus (telles donnes en entre doivent fournir tel rsultat).
4.2 FONCTIONNEMENT
Les composants sont :
Le neurone formel, Une rgle dactivation, Une organisation en couches, Une rgle dapprentissage.
X1
W1
Xn Wn
C:\CNAM\Data.doc
Page 198
Version 1.1
Le 15 Juin 1998
X1
W1 Fonction Sortie
Xn Wn
X1
X2
C:\CNAM\Data.doc
Page 199
Version 1.1
Le 15 Juin 1998
Nous ne dtaillerons que les trois premires tapes, les tapes suivantes ne prsentant pas de spcificit par rapport une mise en place informatique classique.
C:\CNAM\Data.doc
Page 200
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 201
Version 1.1
Le 15 Juin 1998
Le processus recommence ainsi, partir du choix de lexemple en entre, jusqu ce quun taux derreur minimal soit atteint.
C:\CNAM\Data.doc
Page 202
Version 1.1
Le 15 Juin 1998
1.1.1 SOUPLESSE
Les rseaux de neurones sont capables de traiter une gamme trs tendue de problme. Leur rsultat peut tre une prdiction, une classification ou encore une analyse de clusters.
C:\CNAM\Data.doc
Page 203
Version 1.1
Le 15 Juin 1998
1.2.2 LISIBILIT
Les rseaux de neurones ne fournissent pas lexplication de leur rsultat. Ce qui peut tre gnant si on cherche comprendre un phnomne.
1.2.5 PERFORMANCE
Le nombre de calculs effectuer pour dfinir un rseau optimal peut tre trs consommateur de puissance, ce qui peut donner de mauvaises performances cette technique.
C:\CNAM\Data.doc
Page 204
Version 1.1
Le 15 Juin 1998
2 MISE EN PLACE
Ce chapitre prsente une dmarche pour mettre en place un projet de Data Mining. Nous prendrons, pour illustrer, lexemple dun courtier en assurances qui lance trois nouvelles gammes.
C:\CNAM\Data.doc
Page 205
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 206
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 207
Version 1.1
Le 15 Juin 1998
Classific ation
Estimati on
Prdicti on
Descript ion
Statistiques normales Analyse du panier de la mnagre Raisonnement bas sur la mmoire Algorithmes gntiques Dtection de clusters Analyse des liens Arbres de dcision Rseaux de neurones
C:\CNAM\Data.doc
Page 208
Version 1.1
Le 15 Juin 1998
Plus de la moiti des entreprises amricaines ont achet un outil de datamining en 1997 (source IDC)
S im ples 1 MF
T echniques de m odlisation C om plexes G ros Intelligent serveurs M iner D ecisio n S A S S eries M ineset
1 50 K F
4T hought C lem entin e K n ow led ge S eeker D atam ind P redict A lice S cenario U tilisateur SPSS
5 KF
C om ptences requises
PC E xpert
C:\CNAM\Data.doc
Page 209
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 210
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 211
Version 1.1
Le 15 Juin 1998
3 OUVERTURE INTERNET
Internet, et son petit frre lchelle de lentreprise intranet, deviennent aujourdhui des lments incontournables du systme dinformation. Le succs rcent de cette technologie relativement ancienne est du lapparition du World Wide Web (WWW) en 1989, permettant un utilisateur daccder au rseau Internet travers un navigateur (browser). Ce dernier lui permet de visualiser les informations sous une forme ergonomique, sans avoir besoin de connaissances en informatique. Les pages visualises ne sont pas stockes sur le poste client mais sont envoyes, la demande, par un serveur Web. Elles sont crites en langage HTML (Hyper Text Markup Langage) et contiennent du texte format, des liens vers dautres documents ou dautres parties de la page prsente et des images.
C:\CNAM\Data.doc
Page 212
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 213
Version 1.1
Le 15 Juin 1998
C:\CNAM\Data.doc
Page 214
Version 1.1
Le 15 Juin 1998
Version 1.1
Le 15 Juin 1998
de connexion des data warehouse entre eux sous forme dun rseau de data warehouse rpartis la surface de la terre, disposant dun seul dictionnaire de donnes et de mta-donnes. ( cas dune multinationale ou par exemple un organisme de lONU). de convergence dun rseau de data warehouse rpartis la surface de la terre vers un data warehouse Central .
Concurrence Pays Etranger France Fournisseurs Produits de Substitution Nouveaux Entrants Concurrence Entreprise Clients Filire
Secteurs d'Activits
Nous pouvons penser que les perspectives dchanges dinformation ou de connexion entre les systmes dcisionnels au travers du WEB vont sauto-gnrer : cest dire, entrer dans le processus dinterconnexion gnrera de nouvelles opportunits stratgiques ( alliances, rachat, rseau dentreprises) qui, ralises, amneront de nouvelles architectures dcisionnelles et permettront douvrir dautres perspectives.
1.1 CONCLUSION
De ces possibilits, nous navons pas aujourdhui suffisamment dexpriences connues , si toutefois, il en existe. Ainsi, ce stade de la rflexion, nous passons le tmoin de ce travail aux prochains auditeurs de valeur C en informatique dcisionnelle. A eux, de rendre compte, danalyser et dexpliquer ce dont ils seront tmoins dans les perspectives WEB-Dcisionnel que nous commenons entrevoir ce jour.
C:\CNAM\Data.doc
Page 216
Version 1.1
Le 15 Juin 1998
2 GLOSSAIRE
Agent intelligent (Knowbot)
Un agent est une entit logicielle capable d'agir sur elle-mme et sur son environnement. Il dispose d'une reprsentation partielle de cet environnement et peut communiquer avec d'autres agents. Il poursuit un objectif individuel et son comportement est la consquence de ses observations, de ses comptences, et des interactions qu'il peut avoir avec d'autres agents et son environnement. Mcanisme se dclenchant automatiquement et envoyant des informations une application (alerteurs des SGBD relationnels), ou une information visuelle lutilisateur (alerteurs dans les outils clients du Data Warehouse). Interface de Programmation d'Applications. Interface permettant un langage de programmation d'accder un service de manire programme. On parle de l'API de Windows ou de celle de SQL Server. L'API de Windows va aider les applications grer tous les lments graphiques Windows (fentres, contrles, menus).
Alerteur
Arbre de dcision
Technique visuelle permettant de diviser des donnes en groupes bass sur les valeurs des variables. Elle permet de dterminer les variables significatives pour une variable donne. Base dont les donnes sont disperses sciemment (distribues) sur plusieurs serveurs lis par un rseau. Une application cliente peut avoir besoin d'accder aux donnes de X serveurs simultanment. On dit aussi Base Rpartie lorsque c'est le SGBD qui pilote les accs
Base de donne situe sur le poste client, contenant des donnes propres lutilisateur, voire des donnes partages rpliques. Dans les outils de Data Mining ou dinfocentre, le batch permet dexplorer de grandes masses de donnes (requtes lourdes) des heures creuses, sans trop solliciter le poste de lutilisateur, voire planifier lexcution des requtes (module souvent appel scheduler). Dans certains outils clients du Data Warehouse, cest la structure permettant lutilisateur de travailler sur une vue logique et oriente mtier des donnes quil souhaite visualiser. Valeur prise par une variable discrte. Deux types de classification existent : soit classer des lments dans des classes connues (par exemple
Valeur C : Ingnierie des systmes dcisionnels Page 217
Catalogue
Catgorie Classification
C:\CNAM\Data.doc
Version 1.1
Le 15 Juin 1998
les bons et les mauvais clients). On parlera aussi dapprentissage supervis. soit de regrouper les lments ayant des comportements similaires dans des classes, inconnues au dpart. On parlera alors de clustering, de segmentation ou dapprentissage non supervis.
Client
Poste de travail Utilisateur : machine dporte qui supporte le dialogue interactif avec l'utilisateur ou les applications, mais aussi les outils de prsentation, dinfocentre et de dveloppement. Cf. classification. variable pouvant prendre un nombre illimit de valeurs (par exemple, un rel). Dfinition un peu floue car rcupre par beaucoup dditeurs doutils daide la dcision. A lorigine, le data mining correspondait toutes les technologies avances susceptibles danalyser linformation dun Data Warehouse pour en tirer des tendances, pour segmenter linformations, ou pour trouver des corrlations dans les donnes. Aujourdhui, le terme a tendance caractriser tous les outils daide la dcision, le " mineur " tant soit loutil lui-mme soit lutilisateur. Aussi connu sous le nom de KDD (Knowledge Discovery Data), les outils de data mining permettent dextraire de la connaissance des donnes en dcouvrant des modles, des rgles dans le volume dinformation prsent dans les entreprises. Possibilit donne lutilisateur de naviguer de manire ergonomique et intuitive dans un modle multidimensionnel. Entrept de donnes . Base de donnes spcifique au monde dcisionnel et destine principalement analyser les leviers business potentiels. Daprs Bill Inmon, un Data Warehouse est intgr, orient sujet et contient des donnes non volatiles et historises
Processus de mise en uvre dun projet de Data Warehouse. Personne garante de la cohrence des donnes, des performances du systme, de sa scurit... Pour les outils disposant dun catalogue, cest le DBA qui le mettra en uvre.
C:\CNAM\Data.doc
Page 218
Version 1.1
Le 15 Juin 1998
Echange Dynamique de donnes. Protocole de Windows et d'OS/2 PM qui tabli un lien permanent entre 2 applications. Par exemple, 'Copier' un tableau Excel, le 'Coller avec Liaison' dans un document Word; Le document sera remis jour ds que le tableau volue. Les 2 applications doivent tre actives en mme temps. Il permet l'envoi de donnes et de commandes d'un logiciel demandeur (client) un logiciel fournissant les services (serveur). Un applicatif client DDE pourra ainsi compltement piloter l'applicatif serveur.
Dcouverte de rgles
Les outils permettant de dcouvrir des rgles vont partir dune hypothse et la tester au travers de requtes et de statistiques puis la modifier en fonction des rsultats. Ces systmes vont scruter la base de donnes, forger des hypothses et, si elles sont vrifies, les remonter lutilisateur. Variable cible de lanalyse de Data Mining, notamment pour les arbres de dcision. Des outils permettent de dtecter sur un ensemble de donnes celles prsentant des dviations par rapport des normes et des indicateurs de rfrence dcrits antrieurement. Axe danalyse associ aux indicateurs ; correspond le plus souvent aux sujets dintrts du Data Warehouse ; exemple : dimension temporelle, dimension client... Variable prenant ses valeurs (cf. catgorie) dans un ensemble limit. Bibliothque de liens dynamiques. Sous Windows, bibliothque de fonctions propres une application. Elles peuvent tre appeles par d'autres applications et sont charges la demande. Dans une structure multidimensionnelle, les donnes creuses sont des intersections de dimensions pour lesquels un fait ne sest pas produit (exemple : pas de vente de produit X la date T) ou nest pas physiquement stock (exemple : pas dagrgations physique associe aux vente de produits par gammes et par mois). 'Tirer et Laisser tomber'. Dans un environnement graphique, consiste 'prendre' un objet en cliquant dessus en maintenant le bouton enfonc, puis le dplacer (Drag) avec la souris jusqu' un autre endroit o, en relchant le bouton, on dpose (Drop) l'objet transport. Mcanisme de navigation dans une structure multidimensionnelle. Il permet danalyser une mme mtrique sur des axes danalyse diffrents (ex : ventes par priode, puis par produit).
Valeur C : Ingnierie des systmes dcisionnels Page 219
Dimension
Donnes creuses
Dragndrop
Drill across
C:\CNAM\Data.doc
Version 1.1
Le 15 Juin 1998
Echantillon
Ensemble de donnes tir, alatoirement ou non, du Data Warehouse et permettant deffectuer des tests et des recherches sur des volumes restreints. Executive Information System (littralement, systme dinformation des cadres). Environnement de prsentation de tableau de bord prsentant de manire synthtique et graphiques les performances dune activit (ex : sant dune entreprise, bilan des ventes...). Les donnes tudies dans un Data Warehouse se dcomposent en lignes et en colonnes. Chacune des lignes reprsente un lment de la base de donnes, un individu. Donne numrique servant de base la dfinition des indicateurs dans un modle multidimensionnel. Attention, ce terme est parfois utilis dans la littrature pour dcrire plus gnralement tout indicateur. Technique consistant prvoir le comportement dune variable par rapport ses attitudes passes. Un algorithme gntique est un algorithme lent, reprsentant les modles comme des gnes et des oprateurs gntiques et les faisant voluer soit par mutation (un gne au hasard est remplac), soit par cross-over (la place de deux sous-arbres est changes). Il est surtout utilis pour optimiser les paramtres associs des outils de prdiction ou de classification. Logiciel permettant un groupe de personnes de mener des actions communes ou synchronises dans un cadre commun. Le groupware est fond sur cinq technologies de base. - la gestion de documents multimdia - le workflow - le courrier lectronique - la gestion de confrences - la planification des runions.
Element
Fait
Forecasting
Gntique (algorithme)
Groupware
Interface Graphique pour Utilisateur, ou IHM. Windows, Presentation Manager, X/Motif en sont Caractre dun systme global intgrant plusieurs types de machines ou de SGBD. Dans un monde parfait, le systme htrogne, trs souvent distribu, doit tre transparent pour lutilisateur afin dintgrer automatiquement les systmes existants dune entreprise.
Valeur C : Ingnierie des systmes dcisionnels Page 220
C:\CNAM\Data.doc
Version 1.1
Le 15 Juin 1998
Hypercube Indicateur
Cube n dimensions. Structure sur laquelle repose la plupart des outils multidimensionnels. Information permettant de mesurer la performance de telle ou telle activit de lentreprise (ventes, gestion des stocks...). La plupart du temps, cette information est numrique (ex : chiffre daffaires, quantit en stock...). Mthode consistant tirer une conclusion dune srie de faits. Cette conclusion ne sera jamais sre 100 %. Ensemble de contraintes appliques aux mises jour dune base de donne permettant de garantir la cohrence des donnes. Ces contraintes peuvent tre des listes de valeurs respecter (non nullit et intgrit de domaine) ou bien des liens entre des tables (intgrit rfrentielle). Par exemple, une commande doit forcment rfrencer un client : le numro de client insr dans une ligne de la table commande doit exister dans la table client. Rapprochement entre deux tables par comparaison de valeurs communes, sur la base dun attribut commun. Jointure prservant les lignes dune premire table, mme si lattribut de jointure n'apparat pas dans la seconde. . Type d'interface o une fentre principale (Workplace), dans laquelle sont imbriques, des fentres secondaires gre toutes les actions possibles. Les Gestionnaires de Programme et de Fichiers de Windows en sont des exemples connus. Structure de base assurant les fonctions de communication d'entreprise. Interpersonnelle : communication entre utilisateurs Interapplicative : entre applications Applications groupware : entre groupes de travail
Induction Intgrit
Mta-donnes Mtabase
Donne dcrivant une donne . Ensemble de tables systmes utilises par les SGBD pour stocker la description des objets utilisateurs (tables, vues, droits, procdures stockes, ...) dune base Indicateur. Parmi les indicateurs pertinents, certains distinguent les faits, stocks physiquement dans la base dcisionnelle, des mtriques, drives de ces faits.
Mtrique
C:\CNAM\Data.doc
Page 221
Version 1.1
Le 15 Juin 1998
Middleware
Le logiciel du centre : infrastructure logicielle permettant de rendre larchitecture Client/Serveur la plus transparente possible. Dans un contexte dcisionnel, il est situ entre les outils daide la dcision et la base de donnes dcisionnelle. Un bon middleware permet davoir indpendance entre ces deux types de composants
Technique de modlisation consistant modliser une base dcisionnelle partir de lidentification des faits analyser et des dimensions danalyses qui leur sont associes Technique de modlisation dimensionnelle, consistant crer physiquement ce modle sur une base de donnes relationnelle. Ce modle distingue physiquement les tables de faits des tables de dimensions Technique de modlisation dimensionnelle, drive de la modlisation en toile. Dans ce modle, les tables de dimensions y sont dnormalises, cest dire dnues de redondances. Technique de modlisation consistant modliser une base de donnes en la dcomposant en entit et en relations corrlant ces entits Caractrise larchitecture ncessaire la mise en place dun systme multidimensionnel en sappuyant sur les bases de donnes multidimensionnelles Architecture matrielle faisant collaborer plusieurs processeurs (plusieurs centaines) possdant chacun sa propre mmoire. Base de donnes ddie au dcisionnel, stockant les donnes sous la forme dun tableau multidimensionnel. Ces SGBD sont une alternative aux SGBD relationnels. Voir aussi SIAD Mthode du plus proche voisin utilise pour faire de la classification supervise. Elle consiste examiner les lments, dont la classe est connue, proches de llment dont on veut dterminer la classe. Interface daccs aux SGBD (API + langage SQL) dfinie par Microsoft en 1992 et base sur le standard CLI. Du fait de son succs auprs des utilisateurs et des diteurs, ODBC est devenu un standard de fait. Il permet daccder des SGBD dditeurs diffrents en utilisant la mme interface de programmation. Plusieurs niveaux (Level 1 et Level 2) existent dans lAPI correspondant aux niveaux de fonctionnalits. Caractrise larchitecture ncessaire la mise en place dun systme dinformation dcisionnel. Soppose OLTP (On Line Transaction
Valeur C : Ingnierie des systmes dcisionnels Page 222
Modle en toile
Modle relationnel
MOLAP Multidimensional On Line Analytical Processing. MPP Massively Parallel Processing Multidimensionnel (SGBD)
Version 1.1
Le 15 Juin 1998
Processing), adressant les systmes dinformation transactionnels. OLAP est souvent utilis pour faire rfrence exclusivement aux bases de donnes multidimensionnelles. En effet, le concept a t formalis par le Dr Codd, sous la forme de douze rgles, dcrivant un modle idal danalyse dinformation. Il a t montr depuis quil a t possible de respecter ces rgles indpendamment de la structure de stockage utilise. De plus en plus, le terme est souvent utilis pour dsigner plus gnralement le dcisionnel dans ses aspects techniques.
OLE Object Linking and Embedding
Liaison et incorporation d'objets. Protocole Microsoft qui permet la cration de document composites ou la communication programme entre application (OLE Automation). Un document composite fait rfrence aux diverses applications qui ont permis de composer le document. Il est possible de visualiser alors des documents sans possder le logiciel qui les a engendrs. L'optimisation des questions est un aspect tout fait central des systmes relationnels; La requte SQL est transforme en une succession d'oprateurs relationnels (restriction, projection, jointure, union, ...); Loptimiseur est un composant logiciel charg de choisir l'ordre dans lequel ces oprations vont tre excutes. 1. Matriel dinterconnexion de rseaux locaux employant des protocoles de haut niveau diffrents. 2. Logiciel de traduction situ sur un serveur et permettant deux applications dinterfaces diffrentes de dialoguer.
Optimiseur
Passerelle
Passthru (mode)
Mode de communication particulier offert par certaines API qui permettent de passer le SQL directement au SGBD cible sans tenter de lanalyser. Ce mode permet au dveloppeur dapplications dutiliser les spcificits des SGBD. Poste de travail Utilisateur : machine dporte qui supporte le dialogue interactif avec l'utilisateur ou les applications, mais aussi les outils de prsentation, dinfocentre et de dveloppement. Modle de Client/Serveur. La partie concernant la gestion des donnes est assure par la composante serveur. La partie cliente prend en charge la prsentation, mais aussi la totalit de la logique applicative. Dans ce modle, l'utilisation d'un systme de gestion de base de donnes relationnelle scuris, permettant de prserver la cohrence, la permanence et l'intgrit des bases de donnes, est ncessaire. L'inconvnient de ce modle est principalement qu'il ncessite des flux levs sur le rseau (ensemble de requtes SQL et rcupration de rsultats de celles-ci). Par ailleurs, il impose de dcentraliser une partie importante de l'application sur le poste client et par consquent celui-ci devra tre puissant.
Valeur C : Ingnierie des systmes dcisionnels Page 223
Poste Client
C:\CNAM\Data.doc
Version 1.1
Le 15 Juin 1998
Rfrentiel
Structure de stockage des mta-donnes. Un rfrentiel fdre ces mta-donnes, contrairement aux catalogues, qui sont en gnral spcifiques chaque outil. On distingue le " Data Warehouse Repository ", fdrant les mta-donnes de la base dcisionnelle, de " lEnterprise Repository ", qui inclue dans la thorie toutes les mtadonnes de lentreprise, aussi bien transactionnelles que dcisionnelles Relation de cause effet entre des variables. Ainsi, la modification dune variable A pourra entraner la modification dune variable B. C'est une demande envoye au gestionnaire de Base de Donnes serveur. Si celui-ci permet la gestion des donnes, le langage utilis est le SQL. Dans une contexte dinfocentre, l'excution des questions sur un serveur est le plus souvent interprt. Outil permettant un utilisateur de gnrer des requtes SQL et de les envoyer un serveur de donnes relationnel. Ensemble des moyens qui permettent des ordinateurs de communiquer entre eux, quelle que soit leur localisation gographique. Dans le cas o le dialogue entre le client et le serveur concernerait laccs aux donnes, l'information transitant sur le rseau est la requte SQL, destine au SGBDR, qui retourne les tuples rsultats. Processus opaque permettant partir de valeurs en entre de dcouvrir une valeur en sortie. Les rseaux neuronaux sont constitus de neurones, aussi appels nuds, et dinterconnexions entre ces nuds, liens permettant denvoyer des signaux de neurone neurone. Un rseau de neurone a pour caractristique de pouvoir apprendre et mettre profit son exprience pour ajuster le modle trouv en fonction, par exemple, de larrive de nouveaux lments.
Requteur Rseau
Rseau neuronal
Caractrise larchitecture ncessaire la mise en place dun systme multidimensionnel en sappuyant sur les technologies relationnelles. Cf. classification Composant logiciel et/ou matriel assurant la disponibilit, la distribution, le service transactionnel de l'information. Il gre le partage, la scurit et la cohrence de l'information. Il offre ses services des Clients avec lesquels il communique par le Rseau.
C:\CNAM\Data.doc
Page 224
Version 1.1
Le 15 Juin 1998
On dialogue avec le SGBDR grce des requtes crites en SQL, langage assez bien standardis. Les SGBDR (certains disent Serveur de bases de donnes) les plus avancs disposent de mcanismes de gestion des contraintes d'intgrit appels les Triggers, et aussi de capacit de traitements lis aux donnes: les Procdures Stockes. Environnement permettant de stocker et de structurer linformation dcisionnel. Ce terme est souvent utilis pour identifier les bases de donnes multidimensionnelles. Larrive des concepts de Data Warehouse fait perdre de limportance ce terme, qui fait fortement rfrence un type spcifique de technologie (et qui na pas dquivalent en anglais). Architecture matrielle faisant collaborer plusieurs processeurs (quelques dizaines) sur une seule mmoire partage. Langage de Requte Structur. Le langage SQL est un standard dfini par l'ANSI et l'ISO. Il est driv de l'algbre relationnel et de SEQUEL (System R74). Il constitue aujourd'hui le plus petit commun dnominateur des langages du march. Les techniques statistiques sont des techniques mathmatiques permettant de recueillir et danalyser des donnes. De faon gnrale, un systme rparti (ou distribu) est un ensemble de machines qui peuvent changer des informations par lintermdiaire dun rseau de communication. De plus, une architecture rpartie (ou distribue) se dfinit par un ensemble de stations de travail utilisables simultanment par des usagers. Il nexiste quun seul terme anglais pour dfinir ce type de systme : " distributed ".
SMP
Symmetric Multi
Processing SQL Structured Query Language
TCP/IP
Transmission Control Protocol/Internet Protocol: Protocole de communication permettant linterconnexion de rseaux htrognes. TCP/IP a t dfini pour le compte de DOD (Department Of Defense) dans les annes 1970. Il correspond aux couches paquets (3) et transport (4) de l'OSI. TCP/IP est devenu un standard de fait, supports par les rseaux locaux (Lan Manager, Netware), permettant daccder aux machines Unix, et aux systmes propritaires. TCP, service de transport orient connexion, correspond aux niveaux 4 et 5 du modle OSI. IP, assure linterconnexion et correspond au niveau 3.
Thta-jointure
C:\CNAM\Data.doc
Version 1.1
Le 15 Juin 1998
Variable
Les donnes tudies dans un Data Warehouse se dcomposent en lignes et en colonnes. Chacune des colonne reprsente une variable, une proprit des lments considrs. Outil permettant de visualiser de manire graphique les relations entre les donnes.
C:\CNAM\Data.doc
Page 226
Version 1.1
Le 15 Juin 1998
1 INDEX
1
12 Rgles dOLAP99
A
Abduction133 Accs84 Acquisition83 Acte conomique53 Activits56 ADN177 Agent intelligent185 Agent ngociateur186 Agent vendeur186 Agglomration172 Agrgation107, 172 Aide la dcision40 Algorithme de rtropropagation204 Algorithmes gntiques156, 177 Amplitude131 Analyse des clusters137 Analyse des liens155 Analyse du panier de la mnagre154, 157 Analyse pralable130 Arbre de dcision193 Arbres de dcision135, 155 Architecture78 Articles virtuels161 Axe105, 106, 107, 108, 118
B
Base de comprhension55 Base de faits54 Bilan130
C
C4.5194 CART194 Case Based Reasoning165 Causalit132 CBR165 Cellule106 Cellules creuses109 Cercle vertueux140 CHAID194 Chromosomes178 Classification135 Clusterisation135, 137 Clusters171 CNIL213 Coefficient de corrlation132 Combinaison168 Conception86 Confusion132 Connaissances (Recherche)131 Conseiller lectronique186 Construction82 Contenu informatif53 Corrlation132 Couche cache201 Covariance132
C:\CNAM\Data.doc
Page 227
Version 1.1
Le 15 Juin 1998
D
Data Mart96 Data mining accs dcisionnel84 dfinition129 mthodologie141 prsentation128 statistiques130 tches135 techniques154 Data Surfing109 Data Warehouse11 Dcision25 Dcision satisfaisante37 Dcouverte de connaissances dirige152 Dcouverte de connaissances non dirige146 Dduction134 Descendants179 Description135, 137 Dtection automatique de clusters154 Diagnostic externe56 Diagnostic interne58 Dimension100, 106, 107, 108, 109, 112 Dissociation161 Distance167 Distance interdcile131 Distance interquartile131 Donne72, 88 Donne agrge77 Donne dtaille76 Donne historise75, 78 Donnes (prparer)143 Drill up and Down100, 105, 108, 109 Droit213
E
Ecart absolu moyen131 Ecart type131 Echelle de proccupation27 EIS62 Entreprise12 Environnement21 Espace de rsolution34 Estimation135, 136 Ethique187, 213 Etude stratgique87 Evaluation145, 153, 178 Evaluer150, 162, 176
F
Fitness179 Fonction de comptition203 Fonction de normalisation203 Fonction de sommation203 Fonction de transfert203 Frquence162
G
Groupement par similitudes135, 136
H
Hasard132 Heuristique18
C:\CNAM\Data.doc
Page 228
Version 1.1
Le 15 Juin 1998
I
Indicateur105, 107, 118 Indicateurs Dispersion131 Tendance centrale131 Induction134 Infrence46, 133 Infocentre70, 80 Initiative83, 87 Interactif40 Internet185 Inversion181
K
Khi 2132 K-moyennes171 Knowbot185
M
Mdiane131 Mtadonne77, 91 Mta-donne117, 119 Mthodes traditionnelles131 Mtrique107 Modle de donne92 Modle en toile110, 112, 113, 119 Modle en flocon110, 112, 119 Modle normalis110, 111, 112 Modlisation33 Modlisation dimensionnelle112 Modlisation relationnelle111 MOLAP113, 118, 119, 120, 156 Moyenne131 Mutation181
N
Navigation102, 105, 108, 120 Neurone formel200 Niveau de confiance162 Niveau de support163 Niveaux de reprsentation32
O
OLAP99, 100, 112, 117, 118, 156 Optimisation135 Optimisation137 Outils210 Outils dcisionnels65
P
Paradigme STI18 Plan daction87 Planification33 Prdicats47 Prdiction135, 136 Probabilit dapparition189 Problmatique12 Problme16 Processus de dcision28
C:\CNAM\Data.doc
Page 229
Version 1.1
Le 15 Juin 1998
Raisonnement bas sur la mmoire154, 165 Rationalit limite36 Rationalit procdurale37 RBM154, 165 Recherche de connaissances131 Recherche oprationnelle129 Rgle dactivation201 Rgle dapprentissage202 Rgles159 Regroupement par similitudes136 Rponse commune132 Rseau Baysien188 Rseau de neurones200 Rseaux de neurones155 ROLAP113, 118, 119, 120, 156
S
Segmentation135, 137 Slection180 Selective pressure180 Sries temporelles162 SGBD42 SIAD39 Slice and Dice100, 105, 108, 109 Snowflake110 Sparcity109 Star110 Statistiques130, 131 STI18 Stockage84 Stratgie56 Structure76 Systme dcisionnel15, 50 Systme expert43 Systme oprationnel72
T
Table de faits107, 112, 113 Tableau de bord62 Tableau des cooccurrences158 Tableur41 Tches du data mining135 TAEL156 Taux d'amlioration163 Taux de confiance162 Taux de support163 Taxinomie161 Techniques de data mining210 Test d'hypothses141 Thorie des graphes188 Traitement analytique en ligne156
V
Valeurs manquantes130 Variable107
C:\CNAM\Data.doc
Page 230
Version 1.1
Le 15 Juin 1998
Version 1.1
Le 15 Juin 1998
2 : dterminer le volume optimal d'apprentissage.............................................149 3 : vente de voitures en fonction du nombre d'enfants et de l'ge du client......166 4 : positionnement de trois nouveaux clients....................................................167 5 : rpartition des descendants sur un cercle.....................................................179 6 : processus de slection des descendants.......................................................180 7 : march des logiciels de data mining............................................................211 7 : march des logiciels de data mining
Version 1.1
Le 15 Juin 1998
Tableau 38 : tableau des cooccurrences...............................................................................157 Tableau 39 : rappel du tableau des cooccurrences...............................................................158 Tableau 40 : ventes de voitures en fonction de l'ge et du nombre d'enfants......................166 Tableau 41 : rponse des clients une offre en fonction de l'ge, du sexe et du salaire......168 Tableau 42 : calcul des distances.........................................................................................169 Tableau 43 : tableau de synthse utilisant la fonction de combinaison...............................169 Tableau 44 : calcul des distances entre chaque graine et chaque point................................172 Tableau 45 : calcul des distances entre chaque point et les nouvelles graines (centrodes).173 Tableau 46 : tableau des distances entre chaque point.........................................................174 Tableau 47 : premires agglomrations...............................................................................174 Tableau 48 : calcul des distances avec les nouvelles valeurs...............................................175 Tableau 49 : deuxime et troisime niveau d'agrgation.....................................................175 Tableau 50 : fin de la construction de l'arbre.......................................................................175 Tableau 51 : valuation des chromosomes..........................................................................179 Tableau 52 : hybridation de deux chromosomes.................................................................181 Tableau 53 : mutation d'un chromosome.............................................................................181 Tableau 54 : inversion dans un chromosome.......................................................................181 Tableau 55 : synoptique du processus de mise en uvre des algorithmes gntiques........182 Tableau 56 : choisir le bon outil de data mining..................................................................210 Tableau 57 : niveau de comptence selon les techniques de data mining............................212 Tableau 57 : niveau de comptence selon les techniques de data mining
C:\CNAM\Data.doc
Page 233
Version 1.1
Le 15 Juin 1998
3 BIBLIOGRAPHIE
Ouvrages de rfrence
Jean-Michel Franco et EDS-Institut Promthus - Eyrolles, 1996 "Le Data Warehouse, le Data Mining" Michael J.A. Berry et Gordon S. Linoff, - Masson, 1997 "Data Mining:Techniques appliques au marketing, la vente et aux services clients" Ren Lefbure et Gilles Venturi - Eyrolles, 1998 "Le Data Mining" Pierre Lvine et Jean-Charles Pomerol - Editions Herms, 1990 "Systmes interactifs daide la dcision et systmes experts" Jean-Charles Pomerol, - Editions Herms, 1988 "Les systmes experts" Victor Sandoval - Editions Herms, 1997 "Linformatique dcisionnelle" Grard Balantzian - Editions Masson, 1992 "Les schmas directeurs stratgiques, Dmarche pratique" Olivier Crutti et Bruno Gattino - Editions Afnor, 1993 "Indicateurs et Tableaux de Bord" Herv Srieyx - 1993, Editions Calmann-Lvy "le Big bang des Organisations" Anis Bouayad, Pierre-Yves Legris - Editions Dunod, 1996 "Les Alliances Stratgiques" Martin Forest, Groupe Canadien Innovation, Grer le Savoir, le nouveau dfi des organisations , Journe dtudes du 8 Avril 1997, Maison des Professions de Lille.
C:\CNAM\Data.doc
Page 234
Version 1.1
Le 15 Juin 1998
Articles
IEEE Parall & Distributed Technology, "Parallelism speeds data mining", 1995 Inist CNRS, "Power Tools for Data Drilling", 1996 Cover story, "Data Marts : Low cost, High Appeal", 1996 Objectif, "BussinessMiner : le Data Mining pour tous", 1997 Le monde informatique Novembre 1996 Le monde informatique Fvrier 1997 01 Informatique n 1442 Fvrier 1997 et n 1499 du 22 Mai 1998 Dcision Micro&Rseaux n248 Mars 1996 Sciences & vie micro - Juin 1998
Enregistrement (sur cassette)
Building the Data Warehouse - William H. INMON - 2 Ed 1996 WILEY Le Data Warehouse - Jean Michel FRANCO - 1997 Eyrolles Le dveloppement des applications CLIENT/SERVEUR William H. INMON - 1991 MASSON (QED) Entrepts de donnes - Ralph KIMBALL - 1996 Thomson Publishing (WILEY) Data Mining - Techniques appliques au marketing, la vente et aux services clients Michael J.A. BERRY - Gordon LINOFF - 1996 MASSON (Wiley) Le Client-Serveur Georges et Olivier Gardarin - Ed Eyrolles
C:\CNAM\Data.doc
Page 235
Version 1.1
Le 15 Juin 1998
Articles
Platinum Technology (http://www.platinum.com) Managing the Data Warehouse throughout its lifecycle Putting Metadata to work in the warehouse The Olap Report (http://www.olapreport.com) What is OLAP ? Kenan Technologies (http://www.kenan.com) Multidimensional DataBase Technology D2K (http://www.d2k.com) What is a Data Mart ? - W.H. Inmon Informatiques Magazine Avril 1996 Mars 1997 Juin 1997 Janv 1998 Fv 1998 N 16 Naviguer dans le data warehouse N 26 Data Mining : Comment explorer ses donnes N 30 Aide la dcision - les meilleurs outils N 40 Dossier Data Mart N 41 Dcisionnel : Progiciel ou sur-mesure ?
Support de cours DESS SIAD de la socit OSIS Plaquette commerciale de Business et Dcision (CDROM, Articles de presse) Salon des Eis Paris Salon des EIS Lille
C:\CNAM\Data.doc
Page 236
Version 1.1
Le 15 Juin 1998
4 SITES INTERNET
Les sites les plus riches : Institut Promthus sur http://www.prometheus.eds.fr The DataWarehousing Center sur http://pwp.starnetinc.com/larryg http://www.kdnuggets.com (en Anglais) http://www.elseware.fr Vous pouvez galement consulter : http://www.01-informatique.com/techno/fiches/F1396.htm http://www.ordinateur-individuel.com/dos_1455/dos1455-7.html http:// www.businessdecision.com/mining.htm http://www.grimmersoft.com http://www.mygale.org:80/05/jargonf/dtb/thm02.htm http://www.lmi.fr:80/lmi/736/736p11.html http://wwwperso.hol.fr:80/~nuvoloni/AD.HTM http://yphise.com/etudes/fr/jrnl28.htm http://www.grd-publications.com/tech/t_001.htm http://www.datamodeling.com/ http://www.fr.ibm.com/france/pole/m3p_pr4.htm http://www.idg.fr/lmi/700/700p28.html http://www.cognos.com/international/fr/presse19.html http://institut.inforoute.cgs.fr/idecis.htm http://www.businessdecision.com/r2.htm http://www.lmi.fr/lmi/756/756p10.html
C:\CNAM\Data.doc
Page 237