Documente Academic
Documente Profesional
Documente Cultură
L'ESSENTIEL
SE FORMER
RETOURS
D'EXPRIENCE
TUDES, DVELOPPEMENT,
INTGRATION
EXPLOITATION
ET ADMINISTRATION
BUSINESS INTELLIGENCE
AVEC SQL SERVER 2005
RSEAUX
& TLCOMS
6639389
ISBN 978-2-10-050536-4
www.dunod.com
BERTRAND BURQUIER
est consultant et ingnieur
en systmes dinformation,
spcialis dans la Business
Intelligence. Il dirige depuis
1985 le cabinet de conseil
BuroFormatic. Il est
galement formateur en
entreprise et enseigne la
Business Intelligence
lInstitut de management de
luniversit de Savoie.
BUSINESS INTELLIGENCE
APPLICATIONS
MTIERS
Bertrand Burquier
B. BURQUIER
INFOPRO
BUSINESS
INTELLIGENCE
AVEC
Bertrand Burquier
BUSINESS
INTELLIGENCE
AVEC
Bertrand Burquier
Consultant et ingnieur en systmes dinformation
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
11
14
25
25
26
26
29
30
2.1.1 Le cycle en V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
30
32
33
IV
34
35
.
.
.
.
.
.
.
36
37
38
39
41
42
43
45
2.3.1
2.3.2
2.3.3
2.3.4
2.3.5
2.3.6
2.3.7
2.4.1
2.4.2
2.4.3
2.4.4
2.4.5
Fonction Commerciale . . . . . . . . . . . . . .
Fonction Direction gnrale . . . . . . . . . . .
Fonction Ressources humaines . . . . . . . . . .
Fonction Production et recherche dveloppement
Fonction Logistique et approvisionnements . . . .
Fonction Achats . . . . . . . . . . . . . . . . .
Fonction Informatique tudes Exploitation .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
55
56
56
57
61
62
62
65
67
67
68
69
73
74
74
75
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
2.5.1
2.5.2
2.5.3
2.5.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
53
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
46
46
47
49
49
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
84
84
85
86
89
92
4.2 Les amliorations de SQL Server 2005 par rapport la version 2000 . . .
94
94
94
96
4.3.1
4.3.2
4.3.3
4.3.4
.
.
.
.
.
.
.
.
96
97
97
98
. . . . . . . . .
98
98
99
101
101
112
5.3 Migrer une base SQL Server 2000 vers SQL Server 2005 . . . . . . . . .
113
114
129
145
146
6.1.1
6.1.2
6.1.3
6.1.4
6.1.5
6.1.6
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
99
146
154
155
163
167
169
VI
Les expressions . . . . .
Les variables . . . . . . .
Les configurations . . . .
La gestion des vnements
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
171
172
174
176
Mesures . . . . . . . . . . . . . . . . . . . .
Dimensions . . . . . . . . . . . . . . . . . .
Le schma en flocons . . . . . . . . . . . . .
Crer le projet Mon Premier Cube laide
de lenvironnement UDM dAnalysis Services .
. . . . . . . . . . . . . 197
. . . . . . . . . . . . . 197
. . . . . . . . . . . . . 198
. . . . . . . . . . . . . 199
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
(KPI)
. . . .
. . . .
. . . .
. . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
230
232
239
242
244
245
246
249
249
250
250
250
252
253
256
257
8.3 Recommandations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
258
259
260
289
289
290
291
294
308
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
309
318
318
321
323
324
10.3.1
10.3.2
10.3.3
10.3.4
10.3.5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
287
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
265
265
270
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
264
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
262
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
La scurit . . . . . . . .
Les rapports lis . . . . . .
Lexcution de rapports . .
Lhistorisation des rapports
Abonnements aux rapports
.
.
.
.
.
.
.
.
.
.
.
.
260
261
261
261
261
262
262
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
9.1.1
9.1.2
9.1.3
9.1.4
9.1.5
9.1.6
9.1.7
.
.
.
.
.
.
.
. . . .
. . . .
cube ?
. . . .
. . . .
250
.
.
.
.
.
8.2.1
8.2.2
8.2.3
8.2.4
8.2.5
VII
.
.
.
.
.
VIII
. . . . . . . . . . . . . 362
13.3.1
13.3.2
13.3.3
13.3.4
13.3.5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
369
370
371
371
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
371
372
372
372
372
. . . . . . . . . 373
13.4.3
13.4.4
13.4.5
13.4.6
Livrables . . . . . . . . . . . . . . . . .
Planning pour le dploiement de la solution
Prototype/pilote . . . . . . . . . . . . . .
Oprations . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
IX
.
.
.
.
375
375
376
376
13.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
376
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
377
Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
379
A Petit historique de la BI . . . . . . . . . . . . . . . . . . . . . . . . . . .
383
386
391
395
E Glossaire de la BI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
405
Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
417
Introduction
Introduction
Introduction
ou contradictoires. Au-del du fait que linformatique est une fois de plus montre du doigt et discrdite, les dcisions qui devraient naturellement dcouler
de ces runions sont reportes sine die.
En revanche, les entreprises concurrentes qui ont dploy des outils de business intelligence perdent moins de temps en runion et en discussion striles, car
les indicateurs sont en permanence connus de tous, chaque cadre oprationnel disposant des leviers permettant dagir avec intelligence dans des dlais trs courts.
Que signifie le terme intelligence ?
Le Petit Larousse donne la dfinition suivante : facult de connatre, de comprendre .
Et lexpression business intelligence ?
Wikipedia (encyclopdie libre sur le net) donne la dfinition suivante de la
business intelligence (ou informatique dcisionnelle) :
Linformatique dcisionnelle (DSS, Decision Support System ou encore BI,
business intelligence) dsigne les moyens, les outils et les mthodes qui permettent
de collecter, consolider, modliser et restituer les donnes dune entreprise en
vue doffrir une aide la dcision et de permettre aux responsables de la stratgie
dune entreprise davoir une vue densemble de lactivit traite.
Cet ouvrage a pour ambition doffrir une vision mthodologique de la fabrication de la chane dcisionnelle, un tat de lart des outils disponibles, ainsi quun
mode opratoire permettant de raliser vous-mme le dploiement de fonctions
de business intelligence au service du mtier de votre entreprise.
Public concern
La business intelligence en tant quoutil de pilotage sadresse essentiellement aux
dcideurs confronts chaque jour des choix stratgiques et tactiques dans leur
entreprise. Il est donc bien naturel que les dirigeants (direction gnrale et directions oprationnelles) disposent dun langage commun partag avec les techniciens
de linformation. Cet ouvrage leur est particulirement destin car il prsente une
mthodologie de valorisation de linformation des fins stratgiques.
Les contrleurs de gestion, directions financires, commerciales, marketing, ressources humaines, production verront les aides que peut apporter la business intelligence leurs tches quotidiennes.
Les directeurs informatiques, responsables informatiques et bureautiques, disposeront dune mthode de mise en uvre de la chane dcisionnelle au service
des acteurs oprationnels de lentreprise.
Introduction
1
La business intelligence
1. La business intelligence
meilleur des cas, un dlai de quelques jours sera ncessaire aux programmeurs
pour dlivrer lesdits rapports. Dans le pire des cas ces dveloppements ne verront
jamais le jour soit de par la complexit apparente de la demande, soit tout
simplement par la non-disponibilit des dveloppeurs, trs chargs par ailleurs.
En ralit, on saperoit que les mtiers de linformatique voluent vers des
tches dadministration de systmes dinformation de plus en plus complexes,
qui ncessitent tous les jours davantage de soins et dattention, sans parler de la
scurit omniprsente. Paradoxalement, linformaticien est de plus en plus au
service de la machine et de moins en moins au service du mtier de lentreprise.
Malgr des russites videntes, le dploiement des ERP (progiciels de gestion
intgre) a ncessit des ressources importantes dans les entreprises qui les ont
mis en place. Des quipes de projet se sont bien souvent puises faire entrer
le mtier de lentreprise dans des standards. Tout naturellement, les entreprises
ont donc standardis leur mtier. Elles cherchent aujourdhui, juste titre,
des facteurs de diffrenciation.
La business intelligence est un systme permettant aux dirigeants danalyser
et dinterprter, laide doutils simples, les donnes complexes de lentreprise
et de son environnement conomique.
Les donnes brutes sont transformes et restitues dans des entrepts structurs,
afin de permettre danalyser et de suivre les indicateurs stratgiques de lentreprise.
Ces outils doivent permettre de dcouvrir et de partager la stratgie tous les
niveaux de lentreprise. Grce ses outils multidimensionnels la BI est particulirement adapte lanalyse immdiate. Elle offre la capacit de suivre au
quotidien les indicateurs mtiers et de les comparer aux objectifs oprationnels
dfinis par la direction.
Bien sr, le discours marketing ambiant tente de dmontrer quil suffit
dacqurir tel ou tel produit dcisionnel pour que la magie opre. Comme on dit
communment, si ctait aussi simple a se saurait . quoi serviraient alors
les SSII, les intgrateurs et les consultants spcialiss en systmes dcisionnels ?
Seraient-ils devenus inutiles parce que les diteurs ont mis en place des assistants
visant simplifier le processus de cration de la chane dcisionnelle ? Rien nest
moins sr.
Nous verrons au fil de cet ouvrage les piges quil est ncessaire de connatre
avant dentreprendre un projet BI. Nous dcouvrirons que la phase la plus dlicate de la chane dcisionnelle ne rside ni dans la conception du cube, ni dans
la restitution. Nous verrons galement quun cadre mthodologique est ncessaire la cration de lentrept de donnes, centre nvralgique des applications
dcisionnelles.
1. La business intelligence
Parmi ces innovations, il en est une qui offre la plus grande avance en
matire daide la dcision. La technologie OLAP (On Line Analytic Processing)
qui pendant quelques annes a servi de niche technologique certains diteurs
bien connus, vient de faire une avance remarquable du fait de lamlioration
des performances des ordinateurs et de la dcouverte de nouveaux algorithmes.
OLAP reprsente lavance la plus spectaculaire en matire de business intelligence depuis la dcouverte des bases de donnes relationnelles, dont les fondements ont t tablis par Chris Date et Edgar Codd en 1993.
Bien que de nombreux articles aient t publis dcrivant le fonctionnement
des technologies OLAP, trs peu ont mis en avant quand et comment
utiliser ces technologies dans le cadre de laide la dcision.
Dans ce chapitre, nous mettrons en vidence les deux volets de la prise de
dcision : le volet quelque peu mcaniste de la cration dinformation partir
des donnes de base et le volet humain, qui permettra de dcouvrir LA bonne
information.
Divers outils de reporting bass sur les bases de donnes relationnelles existent et sont largement utiliss dans les entreprises. Les tableurs sont galement
des outils dsormais banaliss. Bien que demeurant dconnects des systmes centraux, ils sont devenus indispensables aux financiers et contrleurs de gestion
dans des tches quotidiennes de collecte dinformations et de consolidation.
Mais quel que soit le soin apport la gestion de ces donnes, leur restitution
ne reprsente quune partie de la prise de dcision. Lautre partie, nos yeux la
plus importante, est de savoir comment les dcisionnaires consomment les
informations, les comprennent et agissent enfin.
10
1. La business intelligence
11
12
1. La business intelligence
des vues diffrentes permettent dobserver le chemin parcouru, le chemin qui reste
parcourir et lorientation que prend lavion.
Lorsque nous observons ces images, nous navons pas ide de la masse de donnes quil est ncessaire de collecter dans le but de restituer sur lcran une vue
comprhensible par le voyageur. Et lorsque lcran steint, nous nous trouvons
subitement plong dans linconnu. On ne peut alors que faire des suppositions
sur lidentification de la rgion survole.
Maintenant, le commandant de bord vous invite pntrer dans le cockpit
de lavion afin de vous faire dcouvrir le tableau de bord de pilotage mis sa
disposition. Aprs quelques explications simples des crans daffichage, vous dcouvrez la signification des diffrentes jauges et autres voyants lumineux.
Progressivement, vous vous familiarisez avec les indicateurs tels que position
(latitude, longitude), altitude, vitesse, consommation de krosne, temprature
extrieure, etc. Les cadrans donnent un ensemble dinformations qui situent prcisment laronef dans son environnement gographique en trois dimensions.
Concentr sur son tableau de bord, le copilote actionne un levier qui permet
lavion de corriger imperceptiblement sa trajectoire puis de se stabiliser nouveau.
13
Les voyants affichent immdiatement de nouvelles donnes refltant la nouvelle orientation de lavion. La trace est immdiatement perceptible dans la cabine
pour lensemble des passagers.
Quel parallle avec la business intelligence ?
Le plan de vol (dpart Roissy, arrive Los Angeles 11 heures plus tard) reprsente
le plan de vol suivre afin de mener lavion bon port dans le dlai convenu
davance.
En business intelligence, nous parlerons de la stratgie de lentreprise.
La trace que laisse lavion sur lcran matrialise la collecte de donnes de
positionnement et de progression de lavion. Ces donnes sont naturellement stockes dans la bote noire de lappareil. La mmoire du vol est ainsi historise dans
ce dispositif ultra-scuris, pouvant rsister aux chocs les plus violents. Lensemble
des voyageurs visualise en cabine ces informations de positionnement grce
lcran GPS.
En business intelligence, nous parlerons de processus ETL (Extract, Transforming, Loading) qui reprsente le mcanisme dalimentation et de stockage des
donnes de lentreprise dans un entrept centralis (datawarehouse). Lentreprise
structure ses donnes parses, les rend homognes, les stocke et les dlivre.
Les indicateurs de vol fournis au copilote grce aux diffrents cadrans mis
sa disposition forment son espace danalyse, qui vise suivre la progression de
lavion.
En business intelligence, nous disposerons de manire similaire doutils de
visualisation des indicateurs de performance sous forme de reporting, danalyse
multidimensionnelle et de data mining (dcouverte des causes et des effets) synthtis dans un tableau de bord. Il sagit de focaliser les collaborateurs sur ce qui
est important et dattirer leur attention en permanence.
Tour cart de trajectoire est corrig par le pilote.
En business intelligence, nous parlerons dcarts sur objectifs prvisionnels,
doptimisation, de planning, de prvu/ralis.
Toute dcision de correction de trajectoire entrane une action dans le poste
de pilotage.
En business intelligence dentreprise, les carts entre le prvu et le ralis
vont engendrer des actions correctives.
Des indicateurs externes lavion (radar dtectant la prsence dun autre
avion proximit, perturbations atmosphriques prvisibles sur carte mto, fortes turbulences en vue), vont amener le pilote changer de trajectoire
14
1. La business intelligence
15
16
1. La business intelligence
17
cette connaissance transmise aux autres ne subit aucune dgradation. Cela veut
dire que grce son partage, la valeur de linformation est proportionnelle au
nombre de personnes qui la possdent.
Dans le contexte de la business intelligence, cela se traduit par le stockage
des donnes dans le datawarehouse. Cet entrept centralis offre de nombreux
accs aux utilisateurs qui observent tous la mme information. Et puisquelle est
utilise par des observateurs distincts, sa valeur est multiplie par le nombre de
personnes qui lutilisent.
Bernard Liautaud, prsident et PDG de Business Objects a crit dans un
ouvrage remarquable, que la valeur dune information augmente avec le carr
du nombre dutilisateurs pouvant accder linformation, multipli par le nombre de services dans lesquels ces utilisateurs travaillent . (e-business intelligence,
ditions Maxima).
Valeur de linformation =
(Nombre dutilisateurs) (Nombre de dpartements de lentreprise)
Cette formule est emprunte une rflexion de Bob Metcalfe, linventeur de
lInternet, qui avait formul la loi qui porte son nom comme suit : la valeur
dun rseau varie en fonction du carr du nombre dunits interconnectes .
Il ne fait pas de doute que plus le nombre de personnes disposant de la mme
information augmente, mieux elles communiquent et plus elles prennent des
dcisions collectives et pertinentes.
La transversalit de linformation peut sillustrer de la manire suivante : si
je fournis une quipe commerciale les outils pour analyser ses ventes par produit, par clients, par mois, par vendeur, cela constitue une arme qui sera utilise
dans la dmarche commerciale face aux clients. Cette mme information transmise au contrleur de gestion, qui ajoutera lindicateur du plan prvisionnel, lui
fournira immdiatement une vue complmentaire utile au pilotage.
18
1. La business intelligence
19
nes sur les ventes ralises depuis plusieurs annes peut apporter plus de valeur
sil sagit danalyser des tendances.
Lanalyse Client
Les termes CRM (Customer Relationship Management) et en franais GRC (gestion de la relation clients) ont t utiliss abondamment. Ils sont devenus en
quelque sorte des mots tarte la crme souvent vids de leur sens initial par
des vendeurs plus prompts vendre des licences en grand nombre plutt que
dcouter le besoin du client et dapporter une rponse adapte.
Pour amliorer la relation client, point nest besoin de monter une usine
gaz . Le challenge consiste mieux comprendre le client afin de lui apporter le
produit ou le service quil dsire. On le comprend bien, il sagit de satisfaire un
client grce son profil parfaitement identifi.
Les rubriques numres ci-dessous ont pour but daugmenter la visibilit des
services ventes, marketing et dune manire gnrale tout dpartement qui interagit avec le client final.
Profil Client
La plus grande partie des actions marketing consiste ratisser large et esprer
capturer le plus grand nombre de clients possibles. Aprs les tudes trs dtailles
de Martha Rodgers consacres au marketing one to one , les entreprises prennent de plus en plus conscience que les prospects sont diffrents les uns des autres
et que leur approche doit tre adapte en fonction du profil du prospect. Des
informations comportementales, prfrentielles, gographiques et sociologiques
concernant le prospect permettent dadapter individuellement le discours.
Le ciblage marketing
La connaissance des ressemblances et dissemblances permet de constituer des
ensembles de prospects ayant des comportements similaires afin dlaborer une
communication adquate.
20
1. La business intelligence
La personnalisation
Lanalyse fine du caddie, que ce soit au supermarch ou sur un site marchand en
ligne, permet en temps rel de connatre les produits achets en magasin ou sur
le site et den dduire immdiatement des analyses fines et deffectuer les actions
qui simposent. cet gard, le navigateur web est un formidable outil de dcouverte de linternaute, tant les traces numriques laisses lors de ses recherches et
hsitations sont rvlatrices du comportement de ce dernier. Le serveur web a
la capacit dinteragir avec linternaute afin de laider dans sa recherche ou mme
de suggrer des achats complmentaires.
Les cookies permettent lidentification dun individu sur un site. Lors dun
accs ultrieur il devient possible de dialoguer intelligemment avec linternaute
et dagir en tant que conseil auprs de celui-ci.
Le filtrage collaboratif
Si vous tes dj all sur des sites de ventes en ligne tels quAmazon.com ou
Fnac.com, cette notion de filtrage collaboratif ne vous a sans doute pas chapp.
Lors du choix dun CD ou dun livre, le site vous suggre des achats alternatifs
ou complmentaires bass sur les prfrences dautres clients. Linformation affiche sur la page web est trs suggestive : Les gens qui ont achet le produit X
ont galement achet le produit Y. Les processus de filtrage collaboratif valuent
la similitude des prfrences entre des groupes de consommateurs. Ces recommandations crent en gnral des opportunits de cross-sell (ventes croises) et de
up-sell (ventes additionnelles).
La satisfaction du client
Un des avantages induits par le profilage est de connatre la satisfaction dun
client par rapport des produits ou services. Un rapide sondage permet de collecter le niveau de satisfaction dun client, de comparer par rapport lensemble
des clients. Lhistorisation des donnes permet de connatre la tendance de la
satisfaction gnrale de la cible et naturellement de ragir avant quil ne soit
trop tard.
La dure de vie dun client
Comment les entreprises dterminent quels sont leurs meilleurs clients ? Quand
on connat le cot induit par la recherche et lacquisition dun nouveau client,
la dure de vie dun client devient naturellement une mesure de profitabilit.
Lanalyse Client permet de mettre en place des indicateurs afin de mesurer la
dure de vie dun client.
La fidlit du client
On a coutume de dire que les meilleurs nouveaux clients dune entreprise sont
les clients actuels. Cela veut dire que les plus belles opportunits de raliser de
21
nouvelles ventes se font auprs des clients de lentreprise qui sont heureux de
travailler avec vous et satisfaits de vos produits et services.
Lanalyse des clients en portefeuille est une aide efficace.
Lanalyse de la productivit
Ce domaine danalyse trs rpandu gnre un grand nombre dindicateurs et
danalyses.
Lanalyse des produits dfectueux
Alors que les entreprises se battent quotidiennement afin damliorer la qualit
des produits quelles fabriquent, des facteurs affectent le nombre de produits
dfectueux, dont les causes sont les matires premires utilises ou les personnels
qui les fabriquent. Il est ais de suivre ces facteurs grce aux indicateurs de productivit.
Le suivi du planning et loptimisation des ressources
La comprhension de lutilisation des ressources qui composent lactif dune
usine (machines, personnel, rendements attendus, matires premires, entrepts,
production en flux tendus, etc.) peut tre grandement facilite par lusage de la
business intelligence.
Le reporting financier
Les contraintes svres lies lindustrie obligent les entreprises et maintenant
les administrations (LOLF, loi organique relative aux lois de finances promulgue le 1er aot 2001) fournir de nombreux rapports financiers afin de prsenter
leurs rsultats. Ces contraintes se sont encore alourdies suite aux scandales financiers qui ont dfray rcemment la chronique. Indpendamment de leur carac-
22
1. La business intelligence
tre obligatoire, les analyses qui en rsultent sont un excellent moyen de prendre
le pouls de lentreprise et de reprer des secteurs ncessitant une surveillance
particulire.
Dans cet esprit, le Congrs amricain a fait adopter en juillet 2002 la loi
Sarbane-Oxley contraignant ainsi les entreprises cotes communiquer rapidement leurs rsultats financiers.
Larticle 404 de la loi vise renforcer la fiabilit de linformation financire
dlivre et rend obligatoire lutilisation dun cadre danalyse reconnu en matire
de contrle interne et cite en substance le rfrentiel COSO (Committee of Sponsoring Organizations, association amricaine ayant pour objectif dtablir des rgles
de contrle financier interne et damliorer la qualit des reporting financiers).
La gestion du risque
Cest la capacit trouver des solutions pour minimiser les consquences des
vnements associs une situation.
La prcision de lobservation dans le suivi de lactivit et de la productivit
offre aux gestionnaires la capacit de prendre de meilleures dcisions, par exemple sur lallocation de ressources dans le but de rduire le risque de lorganisation.
De plus lanalyse du risque peut apporter des rponses dans le cadre de la ngociation de contrats avec les fournisseurs et les partenaires en gnral.
La mise en place du nouveau rglement Ble 2 vise amliorer la qualit du
systme bancaire grce la transparence dans la gestion des risques oprationnels.
Le juste temps
Le concept de production en juste temps doit aboutir une diminution des
risques lis la volatilit des prix des produits. Il est fortement recommand de
pouvoir corrler les informations reues au travers du canal de ventes afin de
ragir le plus rapidement en termes dapprovisionnement et de production.
23
Lanalyse du comportement
Il est utile de reprer des modles de comportement qui sont le prsage dvnements significatifs. Ce type danalyse fait un usage abondant des donnes afin
de reprer des modles susceptibles de gnrer tel ou tel vnement. Le but de
lanalyse consistera donc reprer la mise en place de tels modles dans le but
de prdire lapparition des phnomnes attendus. Ces tudes sont fortement utilises en analyse technique boursire. Lanalyse dune action sur une dure significative permet de mettre en vidence des modles susceptibles de prdire des
changements de tendance. Lanalyse chartiste est base sur ces phnomnes.
Les tendances dachats
Bien quil soit possible de connatre avec prcision le cycle de vie des produits,
il existe des tendances qui chappent ce schma. Les cas les plus parlants sont
les produits effet de mode. Lapproche des ftes de Nol rend parfois difficile
toute prvision, faisant flamber tel article de jouet ou seffondrer tel autre produit. Dans le domaine de la mode, il est frquent dobserver une corrlation entre
la tenue vestimentaire dune star invite une mission grand public et le dcollage soudain des ventes du mme article en magasins.
24
1. La business intelligence
Lactivit du Web
Nous lavons dj signal prcdemment, lanalyse du comportement dachat sur
un site de commerce lectronique est relativement aise. Elle donne de surcrot
des indications dachat et de tendance en temps rel. Cette dtection des modles de comportement dachat peut tre lorigine dun modelage du site afin de
mieux prendre en compte les attentes des internautes.
La dtection des fraudes
Les comportements abusifs ou frauduleux sont frquemment modlisables. Par
exemple dans le domaine de la sant, il est ais de constater que certains praticiens ont tendance prescrire des mdicaments onreux ou en surnombre. Une
fois ces comportements modliss, zoomer sur les auteurs de tels actes devient
un jeu denfant.
Lattrition du client
Un problme rcurrent pour un grand nombre dorganisations est lattrition du
client ou la capacit de ce dernier quitter son fournisseur habituel. Dans les
industries caractre comptitif, il est bien plus profitable de convaincre un
client de rester fidle un fournisseur avant quil nait pris la dcision de le
quitter plutt quaprs. On constate cela frquemment dans la lutte effrne que
se livrent les oprateurs tlphoniques pour conqurir de nouveaux clients. Les
cots de sduction de ces nouveaux clients sont proprement exorbitants. Le reprage des clients susceptibles de quitter lentreprise par une observation fine des
modles de comportements (historiques des appels et des plaintes) permettrait
de proposer des offres personnalises susceptibles de retarder le dpart voire
mme de lviter.
25
26
1. La business intelligence
27
Disposer doutils danalyse conviviaux et accessibles en tous lieux (y compris sur Internet) sans laide dun spcialiste.
Rduire les cots de mise disposition des informations stratgiques de
lentreprise.
Librer les ressources humaines des contraintes fortes des systmes informatiques au profit du mtier de lentreprise.
Scuriser linformation selon le profil des utilisateurs.
Assurer la qualit et la pertinence de linformation.
Augmenter la ractivit des personnels et la souplesse de lentreprise grce
la connaissance.
Permettre de dcouvrir des informations enfouies dans les donnes, que
ltre humain ne pourrait extraire seul.
Faciliter la prise de dcision grce la cohrence des donnes.
Partager la vrit de linformation.
Accder sans dlai linformation.
2
Lapproche
mthodologique
30
2. Lapproche mthodologique
Expression des
besoins
Et faisabilit
31
Recette et Mise
en production
Analyse et
spcifications
Intgration
Conception
Tests
Dveloppements
Et
programmation
Priorit lapplication
Il est vital que lapplication fonctionne selon les spcifications demandes. Il ne
sert rien de documenter lexcs des procdures techniques. On le sait, les
programmes ont tendance tre modifis rgulirement mais pas la documentation associe rendant cette dernire suspecte. Il est prfrable de commenter
abondamment les programmes et de mettre jour les lignes de commentaires
lors de lapport de modifications. Il est infiniment plus utile dobtenir en ligne
un commentaire sur lorigine dune information (clic droit ou aide) plutt que
den chercher le sens dans un cahier gnralement introuvable au moment
opportun. La documentation fonctionnelle doit tre accessible en ligne.
Il est galement important de dfinir un binme technique (deux personnes
ayant une bonne comprhension des processus informatiques, une forte complmentarit et pouvant assurer un dpannage en cas dabsence de lautre).
La collaboration avec lutilisateur
Le client ou utilisateur final doit tre impliqu chaque tape du dveloppement. Le primtre du projet doit tre dfini avec soin lors du contrat initial
(cahier des charges). Mais le client doit pouvoir intervenir trs tt et collaborer
avec lquipe ralisatrice afin dapporter un feed-back continu. Il sagit dviter
leffet tunnel trop souvent observ dans les projets denvergure. Le client cherchant se rassurer doit pouvoir se projeter dans son application future aussi bien
32
2. Lapproche mthodologique
33
Dfinir
larchitecture
technique
Slection et
installation
des outils
Croissance
et
volution
Technologie
Planification
du projet
Analyse
des
besoins
mtiers
Modlisation
dimensionnelle
des donnes
Modlisation
physique
des donnes
tapes du
chargement du
datawarhouse
Dploiement
Donnes
Maintenance
Spcification
de
lapplication
Dveloppement
de lapplication
Application
34
2. Lapproche mthodologique
35
Quelle est
ma stratgie
de dveloppement ?
Mes
actionnaires,
quattendentils de moi ?
Que dois-je
apporter mes clients ?
Que font mes concurrents ?
36
2. Lapproche mthodologique
Nouveaux clients
Nombre de commandes
Activit
Qualit
Contribution/cot
Par agence
Cot
37
Promotions
Engagements publicitaires
Par secteur
Cot
Cot des stocks obsoltes
Indices dvolution dachat de vente
Observation
Suivi de la comptitivit
Concurrence
Effectifs
Embauches
Humains
Dmissions
Primes verses
Nouveaux projets
Croissance du march
Rentabilit des capitaux investis
Fonds de roulement
Taux de rotation des clients, fournisseurs, stocks
Carnet de commandes
Indice de qualit selon mtier de lentreprise
Qualit
Dlai de livraison
Nombre de rclamations
38
2. Lapproche mthodologique
Frais gnraux
Par nature
Frais commerciaux
Par secteur
Sous-traitance
Indices dvolution dachat de vente
Suivi de la comptitivit
Observation
Concurrence
Grands projets dinvestissements
Nouveaux projets
Effectifs (internes/externes), embauches,
dmissions
Humains
Taux dabsentisme
Moral des troupes
Frquence des accidents du travail
Par dpartement
Par catgorie
Activit
Productifs/Improductifs
Nombre de dparts en priode dessai
Dlai moyen dun recrutement
ge moyen
Par catgorie
% de postes en binme
Nombre dannonces ncessaires
pour pourvoir un poste
Nombre de licenciements
Turnover
Cot moyen dun recrutement
Cot
Salaires
Par dpartement,
catgorie
Humains
M3oral des troupes
Mobilit du personnel
Activit
Standard/rel
Valeur ajoute
Par atelier
39
40
2. Lapproche mthodologique
Quantits produites
Tonnes, units
Maintenance prventive
Niveau des stocks/activit par nature
matires premires,
produits semi-finis,
produits finis
Cot
Sous-traitance
nergie
Planning de production
Observation
Carnet de commandes
volution du prix des matires premires
Effectif interne/externe
Embauches dmissions
Humains
Absentisme/turnover
Qualification du personnel
Taux dimproductifs
Standard/rel
Qualit
Retards de livraison
En jours et en valeur
Matires premires
et produits semi-finis
Par transposteur/
m3 transport
Par fournisseur
Cot
Observation
Carnet de commandes
41
42
2. Lapproche mthodologique
Effectif interne/externe
Embauches dmissions
Humains
Absentisme/turnover
Qualification du personnel
Par commande,
par personne
Qualit
Total/par fournisseur
volution du march
Carnets de demandes dachats
Effectif interne/externe
Embauches dmissions
Humains
Absentisme/turnover
Qualification du personnel
Dveloppement
Par projet
43
44
2. Lapproche mthodologique
Heures dtudes
Activit
Lignes produites
Par programmeur/
priode
Nombre de transactions
Par heures
Par logiciel/personnel,
tudes/exploitation
Salaires
Ingnieurs, techniciens,
dveloppeurs
Cot
Heures machines de tests/Production
Heures ingnieur
Cot moyen par transaction
45
Carnet de commandes
Nouvelles applications
Planning prvisionnel de charge
Observation
Idem
Remplacement de matriel/amortissement
Nouvelles versions des logiciels/utilit
Effectif interne/externe
Embauches/dmissions
Humains
% de sous-traitance
Qualification du personnel
46
2. Lapproche mthodologique
47
lautre, observer des tendances. Ils dtectent parfois des anomalies dans les systmes sous-jacents.
Ces gestionnaires observent les donnes un niveau lev de synthse. Ils
prouvent rarement le besoin daccder des informations dtailles. Ils sinterrogent sans cesse sur la manire dont les affaires se droulent, passent rapidement
de rapports en analyse, de requtes en nouvelles interrogations dans le but de
dceler du sens dans la marche de lentreprise. Les rponses leurs interrogations
doivent tre immdiates, quelques secondes tout au plus et ceci quelle que soit
la complexit de la requte.
Le reporting est souvent lobjet principal du datawarehouse (80 % des cas).
Aujourdhui il nest plus question dimprimer des listings volumineux dans lesquels bien souvent une seule ligne (en gnral la dernire) est utile pour lanalyse. Il sagit au contraire de mettre en place un reporting utile et personnalis
en fonction du besoin du lecteur. Dans les chapitres qui suivent, nous verrons
comment un utilisateur peut souscrire un abonnement tel ou tel rapport, le
recevoir dans sa messagerie quotidiennement ou mettre en place des alertes afin
dtre prvenu lors de telle ou telle transaction ou franchissement de seuil.
48
2. Lapproche mthodologique
rence The data warehouse toolkit, Practical techniques for building dimensional data
warehouses, Editions Wiley, parle alors de base de donnes scintillante. On comprend bien que des changements constants dans la base ou des r-critures sur
des donnes anciennes sont de nature perturber les analyses. Un systme OLTP
en perptuel mouvement ne produira pas deux analyses identiques des
moments diffrents dans une mme journe.
Ces problmes de changements permanents sont dfinitivement rsolus par
la mise en uvre de lentrept de donnes dont lobjet est de stocker une succession dinstantans en provenance du systme oprationnel et selon une frquence rgulire. Un peu comme des gologues capables dexpliquer la formation
des montagnes en observant les couches successives de sdiments, le datawarehouse permet de reconstituer lvolution de lactivit dune organisation grce
des photographies instantanes prises des priodes rgulires. De la mme faon
que les gologues creusent les couches sdimentaires afin danalyser les volutions dans le temps, le manager utilise la technique de forage (drill down) afin
de mesurer et de comprendre les actions qui se sont succdes dans la ralisation
des affaires.
Nous introduirons galement la notion de dimensions variation lente
(slowly changing dimensions). Cette technique est fondamentale pour reprsenter
correctement les variations qui se sont succdes dans le pass. En effet, il est
frquent que des modifications surviennent dans les gammes de produits, chez
les clients et fournisseurs. Bien souvent, le manager souhaitera conserver la trace
de ces variations.
La technique des instantans statiques qui alimentent rgulirement le
datawarehouse rgle deux problmes connus dans les bases transactionnelles :
la diffrence de lOLTP, le datawarehouse est au repos lorsque les utilisateurs lancent leurs requtes car le scintillement nest pas permis.
Le soin apport lors du stockage des informations dans le datawarehouse
autorise une reprsentation temporelle des donnes qui nest pas native
dans les systmes OLTP. Avec le datawarehouse, il est en effet possible de
rapprocher des informations de ventes ou de production sur des priodes
de temps comparables. Il est naturel danalyser les donnes sur plusieurs
annes en year to date (cumul depuis le dbut de lanne). Il est galement
ais de connatre les nouveaux clients depuis telle date ou au contraire
ceux qui ont quitt lentreprise.
Nous verrons dans le chapitre 5 comment lETL (Integration Services dans
SQL Server 2005) permet de mettre en uvre le processus de stockage des instantans dans le datawarehouse.
49
50
2. Lapproche mthodologique
Le modle dimensionnel est compos dune table centrale entoure dun certain nombre de tables. la diffrence dun modle entit-relation, la table centrale est la seule qui prsente des jointures avec les autres tables. La table centrale
est appele table de faits, et les autres tables, tables de dimensions.
Dans le schma en toile de la figure 2.5, la table de faits centrale est InternetSales. Cette table historise lensemble des ventes effectues sur Internet. Les
tables dimensionnelles caractrisent les clients, les produits et le temps.
51
Qui ?
Quoi ?
O ?
Indicateurs
(Combien ?)
quipes
diteur
Enseigne
CA & Qt vendues
Reprsentants
Catg. Prod.
Libraire
CA & Qt retournes
Collection
Remise en % et valeur
Titre de louvrage
Retours en % et valeur
52
2. Lapproche mthodologique
Indicateurs
Temps
De rsultat
Gographie
Usine
Canaux de ventes
Organisation
Pices en rebut
Cot
Temps (calendaire/fiscal)
Budget/ralis
Contribution/marges
Ratios
De moyens
Matire consomme/unit produite
Heures de main douvre
Davancement et plan daction
% personnel form
Nombre de cercles de qualit
Denvironnement
Cours des matires premires
Taux de change
Taux financier
Dans la figure 2.7, les flches reprsentant les artes du cube symbolisent les
axes dobservation (Gographie, Produits et Temps). Les cellules du cube matrialisent les mesures ou indicateurs (nombre dunits, CA, marge, etc.).
53
Indicateurs :
Nb units, CA, marge...
Axe danalyse : Les produits
(diteur, Collect, titre)
Axe danalyse : Le temps
(Anne, trimestre, mois, jour)
54
2. Lapproche mthodologique
gage (SQL) afin daccder aux donnes utilisateurs ou aux mtadonnes (structure des tables).
Rgle 5 : Un systme de gestion de donnes relationnel peut accepter plusieurs
langages et plusieurs interfaces utilisateurs. Cependant, il doit y avoir au moins
un langage dont les commandes sont exprimables grce une syntaxe bien spcifie exprime sous forme de chanes de caractres. Ces commandes sont :
la dfinition des donnes;
la dfinition des vues;
la manipulation des donnes (interactive et laide de programmes);
les contraintes dintgrit;
les autorisations;
les limites de transaction (dbut, fin, commit).
Rgle 6 : Toutes les vues que lon peut thoriquement mettre jour peuvent aussi
tre mises jour par le systme (ce qui inclut insertion, modification, suppression).
Rgle 7 : La possibilit de manipuler une relation de la base ou relation drive
comme un oprande unique sapplique non seulement la recherche de donnes
mais aussi linsertion, la modification et la destruction.
Rgle 8 : Les programmes dapplication et les interfaces cran demeurent logiquement inchangs si on modifie les mthodes de stockage ou les mthodes daccs.
Rgle 9 : Les programmes dapplication et les interfaces cran demeurent logiquement inchangs si des modifications sont effectues dans les tables.
Rgle 10 : Les contraintes dintgrit spcifiques pour une base de donnes relationnelle doivent tre dfinissables dans le langage de manipulation de la base
et stockables dans le catalogue, et non dans les programmes dapplication :
Intgrit de lentit : aucun composant de la cl primaire nest autoris
tre nul.
Intgrit rfrentielle : pour chaque cl trangre distincte non nulle dune
base de donnes relationnelle, il doit exister une cl primaire correspondante du mme domaine (dans une autre table).
Rgle 11 : Une base de donnes relationnelles est indpendante vis--vis de la
rpartition. Autrement dit, les programmes dapplication et les interfaces cran
demeurent logiquement inchangs :
si on introduit un nouveau modle de rpartition des donnes,
si les donnes sont distribues sur plusieurs serveurs (dans le cas o le
SGBD gre la rpartition).
55
56
2. Lapproche mthodologique
Rgle 11 : Toute manipulation de donnes doit tre intuitive. Elle doit tre
accomplie via une action directe sur les cellules du modle sans utiliser de menus
ou des chemins multiples travers linterface utilisateur.
Rgle 12 : Doit offrir une souplesse et une grande facilit de constitution des
rapports. Doit permettre de prsenter les rsultats sous forme de donnes synthtiques ou en fonction de lorientation du modle.
OLAP (cubes
analytiques)
Utilisateur
Collaborateur, cadre
oprationnel
Fonction
Saisie journalire
Aide la dcision
Base de donnes
Oriente mtier
Donnes
Dynamique
Historique
Usage
Rpt
Lecture/criture
Transaction (insertion/
suppression, mise jour).
Langage SQL
Requte complexe
hirarchique.
Langage MDX
Nb enregistrements utiliss
Quelques enregistrements
Millions denregistrements
Nb utilisateurs
Centaines
Dizaines
Volume de la Base
GB
TB
Accs
Unit de travail
57
58
2. Lapproche mthodologique
un ensemble de rapports une population dindividus dtermine. Certains projets ont pour but de comprendre le sens des donnes sous-jacentes et de produire
des informations utiles destination des dcisionnaires soucieux de la performance de leur organisation.
Par exemple, dans le cas dune relation de partenariat entre deux acteurs, la
fourniture dinformation sur un tat de compte ou des factures en cours est un
schma de type centr sur les donnes. Le but tant de fournir aux utilisateurs un
accs ais et rapide des enregistrements spcifiques pour un compte donn.
Dans un tel projet, on ne recherche pas connatre lusage qui sera fait de telles
donnes par lutilisateur. Le seul objectif est de fournir des donnes sans se soucier de leur interprtation.
Dun autre ct, la mise disposition dinformation dans le but de permettre
un dcisionnaire de mieux contrler le niveau dinventaire ou de suivre les
ventes au quotidien dun produit afin doptimiser le circuit de livraison et le
niveau de stock, est un projet BI orient comprhension. Parce quune rponse
une question induit naturellement toute une srie dautres questions/rponses,
dont le cheminement nest pas connu par avance, loutil qui permettra dapporter
une aide ce schma sera bas sur un modle Multidimensionnel.
Quel est le pourcentage de donnes pour lesquelles la lecture est connue
davance, et quel est le pourcentage des informations connues dynamiquement ?
Dans le premier cas les rapports traditionnels sont bien adapts. Les donnes et
calculs associs, vues et filtres divers sont prdfinis. Ces rapports statiques dans
leur forme, sont disposs sur des serveurs de rapports et dlivrs tels quels auprs
des managers oprationnels.
Si au contraire, votre projet ncessite de raliser des requtes dynamiques et
non prdfinies, les outils analytiques OLAP sont les plus judicieux. Ils le sont
double titre.
Les utilisateurs peuvent naviguer verticalement dans une unit fonctionnelle et transversalement travers les dpartements de lentreprise.
Les informaticiens disposent doutils trs sophistiqus permettant de laisser
la machine le soin de rpondre des interrogations complexes qui ncessiteraient des jours de programmation dans des environnements de dveloppement traditionnels.
Voici deux exemples de requtes quil est ais de traiter au travers dun systme OLAP et trs complexe avec le langage SQL de base :
Quels sont les clients dont la part cumule progresse le plus vite depuis le
dbut de lanne ?
59
Quelle est la variation des ventes cumules et compares sur trois ans pour
mes cinquante plus gros clients ?
Comment les donnes sont-elles fournies ?
Les outils de reporting ont tendance produire des rapports avec des prsentations formates. Les technologies OLAP sont optimises pour des analyses
temps rel (navigation non prvisible, calculs la vole, et scnarios de type
what if permettant de raliser des simulations sur les donnes oprationnelles). Ces technologies permettent des restitutions dynamiques au travers de navigateurs Internet ou peuvent tre encapsuls dans des tableurs.
Quels sont les types dinterrogation et de temps de rponse
attendus par les utilisateurs ?
Dun ct, les rapports prdfinis sont envoys limprimante qui par dfinition est un priphrique lent. Cette tche est le plus souvent planifie et peut
durer des heures. Dun autre ct, un utilisateur analyste navigue sur des Giga
octets de donnes ralisant des requtes complexes avec des temps de rponse
infrieurs la seconde.
Ltat de lart en matire de technologie OLAP, utilise des algorithmes dagrgation et de compression de donnes dans le but de garantir toutes les combinaisons utiles au sein du cube. Cette organisation permet de disposer de requtes
dont les temps de rponse sont quasi immdiats. Pour offrir des temps daccs
aussi rapides, il est impratif dagrger les donnes et de ne pas conserver le
niveau atomique gnralement stock dans les bases de production. Par exemple, si des centaines de transactions sont stockes pour le mme client dans la
mme journe, il suffira de stocker dans le cube une seule ligne reprsentant le
cumul journalier pour le client. Le niveau de granularit du cube est souvent un
agrgat des donnes de production.
En effet si cette condition nest pas respecte, on constate une hypertrophie
du cube pouvant amener une explosion de la structure.
On la compris, si lon doit analyser les donnes au niveau de la transaction,
la structure relationnelle est naturellement mieux adapte.
Quelles sont les tailles acceptables ?
Historiquement, les technologies OLAP ont montr certaines limitations
rduisant le champ des problmes quelles taient censes rsoudre. Les technologies OLAP rcentes ont considrablement repouss les limites de taille. Il nest
pas rare de rencontrer des cubes de quelques giga-octets avec des performances
tout fait acceptables.
Si les donnes sont volumineuses et utilises leur niveau le plus bas, le stockage relationnel est probablement le meilleur choix. En revanche, si les donnes
60
2. Lapproche mthodologique
sont volumineuses, mais que lanalyse seffectue un niveau agrg des donnes,
la structure OLAP est le meilleur choix.
Pourquoi un rfrentiel mtier unique ?
SQL, le langage des bases de donnes relationnelles, na pas t dfini pour
des calculs et filtrages complexes. Pour dtourner ces limitations, les utilisateurs
sorientent souvent vers le tableur afin de raliser des calculs complexes. Au
mieux, lutilisation de ces outils reprsente un risque cause de la technique du
copier-coller . Au pire ces techniques base de tableurs mnent lanarchie
des rapports o chaque collaborateur dispose de sa propre version de la vrit.
On observe trop frquemment dans les organisations des cadres passant une
bonne partie de leur temps consolider des tableaux rpartis dans un grand nombre de stations de travail. Nous verrons au chapitre 11 que le tableur Excel est
particulirement adapt lanalyse pour autant quil puise des donnes directement sur le serveur de DW.
La centralisation du rfrentiel mtier, utilis par les dcisionnaires pour llaboration des indicateurs cls de performance (KPI), apporte une comprhension
des affaires grce une standardisation des concepts et au partage collaboratif.
La vue synthtique des objets mtiers rpertoris dans le dictionnaire global de
lentreprise, amliore la comprhension, et la productivit lors de lextraction
des donnes et de la construction des tableaux.
Les donnes ont-elles besoin dtre agrges ou bien traites
au niveau le plus bas ?
Nous lavons vu, le but des bases multidimensionnelles est danalyser et de
manipuler de grandes quantits de donnes. Le type mme de structure cubique
permet la cration de nouveaux algorithmes dagrgation et de synthse. Lintrt dune telle structure est que les calculs dagrgation et de totalisation des
indicateurs sont stocks dans un rfrentiel unique, partag par tous. La restitution de linformation est ainsi considrablement fiabilise rduisant le risque
derreur dinterprtation.
Par ailleurs le type de structure rsultant de lorganisation des cubes induit
naturellement une vision commune et un partage naturel et complmentaire des
observations de chacun dans lentreprise.
Quel est le besoin de la modlisation de la dcision ?
De nouvelles recherches se sont dveloppes autour de la structure multidimensionnelle de donnes. De nouvelles possibilits sont alors apparues en particulier dans le domaine de lanalyse prdictive et de la segmentation.
Un type danalyse assez frquent est bas sur la question suivante que se
passerait-il si ? . En effet il peut tre intressant dans un modle conomique
61
de faire varier tel ou tel facteur sur les donnes relles de lentreprise et den
mesurer limpact. Une autre dmarche consiste ajouter ou retirer une variable
dans un contexte prvisionnel et den mesurer limpact immdiatement. Les
structures multidimensionnelles dites en criture permettent de stocker temporairement ces donnes de simulation et den mesurer les consquences sur
lensemble du modle.
Un autre volet consiste raliser des analyses prdictives. Certains algorithmes
statistiques permettent de se projeter dans le futur et ainsi de prvoir des rsultats
avant mme que la ralit ne se produise. Cette analyse est particulirement
utile aux gestionnaires qui basent leurs projections sur les donnes historiques
de lentreprise. Aujourdhui malheureusement, ce type danalyse est souvent ralis partir doutils disparates dans lentreprise, visant consolider manuellement
les informations puises dans les divers silos de donnes. On le comprend bien,
ces mthodes artisanales mme si elles rsultent dun travail commun non
ngligeable, ne permettent pas de profiter des bnfices lis la centralisation
et au partage de quantits importantes de donnes de lentreprise. Les technologies OLAP apportent naturellement des rponses cette problmatique.
En conclusion
Les techniques bases sur des structures de donnes relationnelles sont efficientes
lorsquelles visent distribuer des donnes dtailles aux utilisateurs au travers
de rapports prformats.
Les technologies OLAP sont plus appropries lorsque les utilisateurs dsirent
explorer et comprendre les donnes agrges afin de rpondre rapidement des
besoins stratgiques de lentreprise. Lutilisation partage dun rfrentiel mtier
de lentreprise favorise le dialogue et le partage naturel de la stratgie entre les
acteurs des diffrents dpartements de lentreprise.
62
2. Lapproche mthodologique
Transformation du modle multidimensionnel relationnel en modle hypercube OLAP. laboration de KPI (Indicateurs cl de performance). Fouille de
donnes visant dcouvrir du sens dans les entrepts. Cette recherche est
confie des algorithmes spcialiss de data mining grce Analysis Services.
Restitution de linformation sous forme de rapports ou danalyses croises
la demande. Reporting Services, Report Builder, Proclarity, Excel, participent la restitution.
Prsentation synthtique des rsultats danalyse dans un tableau de bord
(Business scorecard Manager intgr dans Sharepoint Portal).
Nous dvelopperons chacune des composantes partir du chapitre 5.
63
ERP
Prog. Gestion
intgre
Datamart
Processus
internes
Datamart
Clients
Datamart
Apprentissage
Structures de donnes
Multidimensionnelles
Analysis Services
Modeliser
Datamart
Finance
90 80
70 60
70
% %
50 40
50 60
% %
%
30 40
%
% %
%
%
%
Piloter
100 %
Restituer
CUBE OLAP
perspectives
multiples
Tableau de bord
BSM
Restitution et analyses
Excel, Proclarity
Comptabilit,
RH,
Production
Extraire,
Nettoyer,
Transformer,
rafraichir
SGBD (Oracle/
DB2, SQL, Ole
DB)
Entrepts
de donnes
Integration Services
Sources de
donnes multiples
Figure 2.8 Les diffrentes composantes du processus dcisionnel avec SQL Server 2005
64
2. Lapproche mthodologique
pendance lgard des informaticiens qui jusque-l taient les seuls concepteurs
de leurs requtes.
Nous le verrons plus loin, SQL Server 2005 apporte des rponses cette catgorie dutilisateurs grce Report Builder. (outil de cration de requtes et rapports usage des non-techniciens). Excel offre une rponse grce aux tableaux
croiss dynamiques connects directement sur les Cubes OLAP.
65
Incompltes
Enregistrements manquants.
Champs manquants conduisant des cellules vides.
Description denregistrements errons.
Incorrectes
Mauvaise codification (altration des codes dans le temps).
Agrgations dj ralises dans les sources de donnes.
Calculs errons. (champs numriques rsultant de calculs imprcis ou errons).
Enregistrements doublonns impactant les tables de faits.
Double excution du processus de chargement. Cette erreur peut se produire lors du dclenchement du processus sur la prsence dun fichier smaphore mal matris.
Mauvaise information entre dans le systme source telle quune inversion
de date 12/01/2006 ou 01/12/2006.
Incomprhensibles
Donnes en provenance dun champ unique devant tre clat en plusieurs champs dans le datawarehouse. Ex. : John F. Kennedy .
Codifications inconnues du systme. (Fuzzy lookup).
Donnes non structures en provenance de traitement de texte (nombres
formats avec des espaces en tant que sparateurs de milliers).
Jointures de tables avec des relations plusieurs plusieurs non identifies.
66
2. Lapproche mthodologique
Incohrentes
Codifications versatiles ( M et F ou 1 et 2).
Codifications changeantes lies des rorganisations dans lentreprise.
(Dimensions variation lente). Risque de perdre lantriorit de lhistorique.
Multiplication de codes diffrents pour une mme entit (ex. : client ou
produit ayant chang plusieurs fois de codification dans le temps).
Plusieurs codes distincts reprsentant la mme entit.
Noms et adresses lgrement diffrentes mais identifiant la mme entit.
Calculs dagrgations errons dans les sources de donnes (la somme des %
de deux nombres nest pas gale au % de la somme de ces deux nombres).
Le niveau de granularit des donnes doit tre comparable (ex. : les dpenses sont connues au niveau poste de charge, les budgets sont tablis au
niveau du regroupement de charges).
Les donnes agrges concernent des priodes diffrentes (ex. : fourniture
de donnes en provenance dorganismes extrieurs sur la base de la semaine,
alors que le traitement dalimentation est quotidien).
Les champs Null, espace ou vides ne possdent pas la mme codification
interne.
Manque dintgrit rfrentielle dans les donnes sources (chiffre daffaire
ralis sur le produit A alors que le client nest pas rfrenc).
La mise jour de la table de faits dans le datawarehouse est quotidienne
alors que la table de dimension associe est mensuelle (risque de non correspondance des donnes).
Des lignes de donnes peuvent intgrer les lignes dtail ainsi que les totaux
(risque de doubler les valeurs).
La phase de prparation du chargement des donnes dans le datawarehouse
(ETL) est longue, fastidieuse, et coteuse en temps. Elle ncessite de multiples
contrles afin dassurer une totale cohrence des donnes. Les journaux de chargement devront tre tudis avec attention. Des procdures dalertes en cas de
plantage devront tre mises en uvre (envoi de mail ou SMS). Des procdures de reprises doivent tre dfinies.
Il est ais de comprendre que la complexit dun entrept de donnes crot
de manire exponentielle avec le nombre de sources de donnes en entre.
Il ne faut pas non plus ngliger le fait que la connaissance des piges et de
leur identification peut disparatre avec les personnes.
Le poste dETL devra faire lobjet dune documentation extrmement prcise
et complte.
67
68
2. Lapproche mthodologique
Enterprise). Ils pourront galement se livrer des scnarios afin den mesurer les
impacts (Les cubes en criture associs des outils tels que Desktop Professionnal
de Proclarity, permettront aisment de rpondre ce type danalyse). Rappelons
quExcel dispose en standard de fonctions de simulations (Scnario) ou de rsolution de problme (Solver). Ces outils ncessitant une petite formation sont
malheureusement peu utiliss.
En conclusion nous pouvons affirmer que plus de 80 % des utilisateurs mtier
ne dsirent pas passer leur temps crer des rapports, ou manipuler de linformation. En revanche ils dsirent des rapports cibls, concis, avec des graphiques
clairs. Ils veulent passer le moins de temps possible dchiffrer et prendre rapidement les dcisions ncessaires laction. Les 20 % restant reprsentent les analystes. Ils font le plus grand usage doutils dynamiques et interactifs.
69
Profitabilit
par clients/produits
Finance.
Balance
Production
Gestion de la capacit
X
X
Comptes
Organisation
Revendeur
Clients
Produits
Processus Mtier
Ateliers
Temps
Ltape suivante consiste slectionner un processus mtier puis dcomposer les axes dimensionnels et introduire les indicateurs.
Prenons le processus mtier Analyse des ventes . Celui-ci se dcompose
selon le tableau 2.5.
Afin de communiquer de faon trs visuelle avec lutilisateur il est recommand de prsenter une bauche du rsultat final. Excel ou ACCESS permettront de maquetter lapplication finale et de simuler rapidement le rsultat
attendu.
Dans lexemple prsent la figure 2.9, Excel permet lutilisateur de se
dterminer rapidement sur le rsultat attendu par lutilisateur.
70
2. Lapproche mthodologique
Qts cdes
50 000
0
Qtes
vendues
Retours
Roman
Sciences
humaines
Informatique
Produits
Revendeur
Clients
Ligne
de produit
Grossiste
Enseigne
Distributeur
Groupement
Marques
VAR
Magasins
Organisation
Indicateurs
Jour
Catgorie
de produits
YTD
(cumul)
Collection
Remises
Produit
% remise
Croissance
par priode
Point de vente
Marge
Prix
moyen
Figure 2.10 Tableau crois dynamique avec Excel (Ici version 2007)
71
3
Comment reprsenter
les donnes ?
Laptitude reprsenter graphiquement des donnes numriques nest pas intuitive. Elle requiert certaines comptences qui doivent tre acquises. Ce chapitre
introduit les meilleures pratiques en matire de conception graphique.
Dans le monde des affaires, aucune information nest plus importante quune
information quantitative. Les nombres mesurent la performance, reprent les
opportunits et prvoient le futur. Linformation quantitative est souvent prsente sous forme de graphique. Malheureusement, la plupart des graphes utiliss
dans le monde des affaires sont mal conus. Pourquoi ? Tout simplement parce
que la plupart des auteurs qui les produisent, y compris des spcialistes tels que
les financiers et les dveloppeurs de rapports, nont pas t forms la reprsentation graphique efficace.
Ce chapitre est une introduction la reprsentation pratique des donnes,
dans le but dtablir une meilleure communication entre le crateur dun tableau
et son lecteur. Heureusement, les comptences ncessaires pour traduire et communiquer efficacement la plupart des donnes daffaires ne requirent pas un
diplme spcialis en statistiques. En fait, ces comptences sont aises acqurir
mais un apprentissage est nanmoins ncessaire.
Le processus tient dans les six tapes suivantes :
Prciser le message communiquer et identifier les donnes ncessaires
sa communication.
Dterminer si un tableau de chiffres, un graphe ou une combinaison des
deux est ncessaire la communication.
74
Graphique
75
Si vous dsirez connatre une valeur prcise telle que le taux de mai 1996, le
tableau permet dy rpondre de la meilleure faon possible. En revanche, si vous
dsirez connatre lvolution du taux sur lanne 1996 ou de la comparer avec
lanne 1997, le graphique sera une bien meilleure reprsentation (figure 3.2).
76
Le graphe ci-dessous (figure 3.3) met en vidence la distinction entre les donnes catgorielles reprsentes par ltiquette de chaque srie de donnes et les
donnes quantitatives sur laxe vertical des ordonnes.
77
tels que petit, moyen, grand, ou mauvais, mdiocre, moyen, bon, excellent ou
rouge vert, bleu, jaune.
Les donnes qui qualifient des intervalles non seulement dfinissent un certain ordre mais reprsentent galement des valeurs. Il sagit par exemple de sries
de plages de valeurs de taille gale. Exemple : tranche 1 de 0 99, tranche 2 de 100
199, tranche 3 de 200 299, tranche 4 de 300 399, etc.
Les sept relations en donnes quantitatives
Un nombre en tant que tel ne prsente pas dintrt. En revanche, lorsquil est
compar dautres nombres il prend tout son sens. 7 500 de consommation
lectrique dans mon immeuble cette anne nest pas trs rvlateur. En revanche
lorsque jobserve que cette valeur est 40 % suprieure celle de lanne dernire
pareille poque, cela devient une alerte qui sera probablement suivie dune
action (recherche de la cause et mise en place du remde).
La plupart des donnes quantitatives peuvent tre classifies selon leur mode de
relation entre elles. Voici les types de relation les plus frquemment rencontrs.
78
REGION (Tous)
Nombre de membres
18
40
107
Dposer
champs
de sries
ici
190
350
643
708
1279
0
200
400
600
800
1000
1200
1400
P.
D
Type de fonction
Di
Di
.G
Di
re
re
Vi
Au
re
.o
ct
Au
ct
c
ct
eu
tre
u
tre
eu
eu D.G
r d e- p
Pr
rg
di
r
r
.
f
s
o
'ac
G
ad
de
re
si
n
n
id
ct
ct
de
tiv
jo
ra
sit
r
en
io
io
in
it
nt
nt
n
al
e
n
t
t
10
Fonction
79
38,2%
35,0%
30,0%
25,0%
21,2%
20,0%
19,2%
15,0%
10,5%
10,0%
5,7%
Vice-pr
s ident
Dir ec te
ur d'ac
tiv it
on
Dir ec te
ur de s
ite
Autre fo
ncti
G ra nt
Autre d
ir ecti on
Dir ec te
ur gn
ral
P.D.G .
ou P r
sid ent
0,0%
D.G . a
djo int
3,2%
5,0%
Type de m em bres
Production Prvu/Ralis
30
25
en M
25
20
20
15
20
18
17
Prvu
14 13
10
Ralis
10
5
0
Janvier
fvrier
mars
Avril
Anne 2006
Figure 3.8 Graphe de type cart
Un exemple courant de ce type de graphe est celui qui rapproche des donnes
actuelles, par exemple des dpenses, par rapport des donnes prvues celles
dun budget.
Lexemple de la figure 3.9 prsente une variante du graphe dcart. Seul
lcart constat est reprsent. Il apparat soit en positif (au-dessus de laxe des
abscisses) soit en ngatif (en dessous de laxe des abscisses).
Dans le cas prsent on crera une mesure calcule cart telle que :
cart = Ralis Prvu.
carts de production
20
15
15
en M
80
10
3
5
2
fvrier
mars
0
Janvier
Avril
Anne 2006
Figure 3.9 Variante du graphe dcart
81
une meilleure performance que les prvisions. Nous observons galement que les
ventes de serveurs ont t bonnes jusquau dernier trimestre o elles ont chut
de manire significative par rapport aux prvisions.
Les flches quant elles, montrent les volutions de croissance. Les flches
sont orientes vers le haut lorsque la croissance est suprieure la priode prcdente, vers le bas lorsque la croissance est ngative.
5. Relation de distribution
Un graphe de distribution permet de reprsenter comment un ensemble de donnes se rpartit au sein dun spectre unique. Il permet de reprsenter des phnomnes de concentration ou dabsence de donnes. On peut parfois observer des
phnomnes de symtrie (courbe normale, ou courbe en cloche).
Lexemple de la figure 3.11 montre un pic de participation un club professionnel entre 44 et 55 ans, puis un dpart brutal 60 ans.
120
100
80
60
40
20
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
72
73
79
82
6. Relation de corrlation
Un graphe de corrlation mesure le rapport qui existe ou non entre deux variables. Dans lexemple ci-dessous il ne semble pas exister de rapport entre la taille
dun employ et son salaire (la rpartition des points est disparate).
Lorsquune corrlation est observe, les points ont tendance se superposer
une droite souvent matrialise par la diagonale du graphe (figure 3.12).
83
nont aucun lien entre elles et leur ordre ne prsente pas dimportance. Tout au
plus, est-il possible de prsenter les variables selon un ordre croissant ou dcroissant afin dtablir un classement.
Exemple de cheminement dune analyse des ventes
La figure 3.14 montre que les performances des ventes au troisime trimestre
ont t particulirement leves pour la Californie. Le lecteur peut souhaiter
tudier plus en dtails ces chiffres. Il peut tre amen se poser des questions
complmentaires, par exemple : dans quelles villes ces ventes ont-elles t
ralises ? Quels produits ont contribu ce rsultat et dans quelles proportions ?
Nous verrons plus loin que la technique du forage progressif (drill down) permet
de rpondre quasi instantanment de nombreuses questions selon un cheminement priori imprvisible.
Sries temporelles
Classement
84
Type de relation
Tout ou partie
Barres
Barres empiles
Secteurs dont les parties sont matrialises par un %
Dviation/cart/
Budget/Ralis
Frquence de distribution
Corrlation
Comparaison nominale
100 %
City
San Jose
2 304 K
74 %
Los Angeles
San Francisco
773 K
46 K
25 %
1%
Product
Alpha IIp750
Alpha IIp1K
Omega J 500
Ml-562
837 K
435 K
404 K
158 K
36 %
19 %
18 %
7%
Omega J 750 Mx
Mark Xl/136
10 derniers
141 K
65 K
262 K
6%
3%
11 %
85
Les villes sont maintenant regroupes par ligne de produits (PC et priphriques). Les ventes sont en hausse dans toutes les villes, lexception des ventes
de PC Los Angeles. (Los Angeles a subi une baisse de 77,6 % de ses ventes).
La croissance la plus leve a t enregistre pour les ventes de priphriques
San Jose, comme lindique la couleur claire en bas droite.
Supposons maintenant que vous souhaitiez connatre le profil des clients
lorigine de cette hausse des ventes de priphriques San Jose. Il faut afficher
uniquement les donnes relatives aux priphriques et dcomposer les ventes de
priphriques ralises San Jose par type de client (figure 3.17).
86
87
Les vues en perspective sont un outil trs utile pour dtecter les carts et
identifier ainsi les reprsentations de donnes qui sortent nettement de la norme.
Par exemple, la ville de New York (reprsentation de donnes en haut droite)
se distingue clairement puisquelle prsente la fois le volume de ventes et le
volume de factures le plus lev.
Cette vue en perspective fait ressortir dautres informations :
par rapport New York, Chicago (reprsentation de donnes comprise
entre 6 et 8 millions de dollars de ventes) a enregistr pratiquement autant
de factures, mais nettement moins de ventes;
aucune ville ne prsente un ratio trs dsquilibr Volume de factures faible/
Volume de ventes lev;
dans la zone reprsentant moins de 2 millions de dollars de ventes, une
ville prsente un volume de factures lev pour des ventes mdiocres (Cleveland).
4
Entrept de donnes
et analyse dcisionnelle
Ce chapitre prsente succinctement les outils ainsi que les nouvelles mthodes
de dveloppement de processus dcisionnels qui en dcoulent.
Lors des consultations de business intelligence et de tableaux de bord que
nous donnons en entreprise, nous sommes souvent confronts deux types de
raction de la part des managers et responsables informatiques.
Dun ct, les managers qui rflchissent en termes de mtier comprennent
aisment le concept dentrept de donnes centralisateur de toutes les informations de lentreprise et de leur historisation. Ils adhrent volontiers la notion
de tableau de bord de pilotage et comprennent spontanment le concept dindicateurs et daxes danalyse de leur mtier. Les responsables oprationnels sinterrogent mme sur le fait que de telles solutions nont pas dj t mises en place
dans leur organisation. Intuitivement, ils conoivent que linformatique devrait
les aider dans ce domaine. Et pourtant la technique de collecte des donnes de
lentreprise ressemble souvent au parcours du combattant avec ses innombrables
ressaisies manuelles, ses tableaux mensuels dconnects les uns des autres ne permettant aucune consolidation annuelle. Lanalyse sur deux annes nest souvent
pas lordre du jour. La synthse seffectue dans un document final souvent ralis grce un logiciel de PAO. Les cadres, dont la vocation est de rflchir
la stratgie de lentreprise, passent une grande partie de leur temps collecter
linformation. Privs de leur capacit danalyse, ils sinterrogent sur leur valeur
ajoute dans lorganisation. Par manque de temps et surtout doutils daide la
dcision, ils ne peuvent prendre suffisamment de hauteur. Ils restent dpendants
90
dun systme dinformation vis--vis duquel ils mesurent leur incapacit le faire
voluer.
Dun autre ct, les responsables des systmes dinformation passent une
grande partie de leur acticit maintenir en tat de fonctionnement des organisations techniques complexes. Les nombreuses fusions et acquisitions constates ces dernires annes ont contraint les responsables IT faire communiquer
des systmes qui a priori navaient rien de commun tant sur le plan technique
que fonctionnel. Par ailleurs, les systmes dcisionnels disponibles depuis quelques annes sur le march ncessitaient des quipes ultra-spcialises tous les
niveaux de la conception, les rendant de ce fait trs couteux.
Tableau 4.1 Rpartition des modules SQL Server 2005 par composants
Composant
Module SQL
Server 2005
Destination
dans lentreprise
Extract, Transform,
Load (ETL)
Integration services
Administrateur de bases
de donnes
Entrept de donnes
relationnel et
multidimensionnel
Base de donnes
relationnelle SQL Server
2005
Administrateur
et dveloppeur
Base de donnes
multidimensionnelle
analytique
Analysis services
Dveloppeur et utilisateur
ayant des connaissances
mtier (Key User)
Exploration de donnes
Statisticien et/
ou (Key User)
Cration de rapports
et modles de base
Reporting Services
Requtes et analyses
spcifiques
Analystes mtier
Dveloppement
dapplication BI
Dveloppeur
Administrateurs/
dveloppeurs
Services de notification
91
Outil disponible
Particularit
Synthse
Stockage
Analyse
Restitution
Gestion
Alertes
Transmission de messages de
notifications sur la base dvnements
programms
92
93
Scurit et disponibilit. Des amliorations en termes de capacit monter en charge, de disponibilit et de scurit offrent aux utilisateurs un
accs ininterrompu aux rapports et aux applications dcisionnelles.
Fonctionnalits danalyse au niveau de lentreprise. Un outil ETL amlior permet aux organisations dintgrer et danalyser plus facilement les
donnes en provenance de diverses sources dinformations. En analysant
les donnes sur une large gamme de systmes oprationnels, les organisations pourront obtenir un avantage sur leurs concurrents grce une
meilleure comprhension de leurs activits.
94
4.2 Les amliorations de SQL Server 2005 par rapport la version 2000
95
Par exemple si nous disposons de trois cubes diffrents, chacun prsente une
dimension Client propre. Dans le premier cube, la notion de client se dfinit
comme : toute personne qui a command un article depuis 2 ans . Dans le
deuxime, un client reprsente toute personne qui prsente un chiffre daffaires
de plus de 10 k . Dans le troisime cube, le client est toute personne qui
dispose dune adresse complte et valide . Nous le voyons, ces trois cubes ont
t dvelopps pour des dpartements diffrents et prsentent un sens diffrent.
Maintenant, imaginez que le directeur de chaque dpartement dcide de prsenter dans un tableau de synthse les dpenses annuelles de publicit ralises par
client. Les rsultats, bien que diffrents, paratront chacun cohrents. Si les
trois dirigeants tentent maintenant de confronter leurs rsultats, des carts sensibles apparatront. La raison en est que la dimension Client est interne chaque
cube et non partage par lensemble des trois cubes. Nous montrerons comment
UDM fournit une rponse lgante ce problme.
Dfi n 2 : Recopie multiple des donnes
Les modles classiques de BI maintiennent au moins deux copies des donnes
en plus de la donne originale; une dans le datawarehouse global, une autre dans
le datamart mtier. Comme les cubes sont indpendants, il nest pas rare non
plus de constater que les donnes sont dupliques entre les datamarts. Non seulement cette technique est trs coteuse en espace disque, mais elle met encore
une fois en vidence la notion de versions diffrentes de la vrit .
Dfi n 3 : La localisation des donnes est difficile
La localisation est le procd qui permet de prsenter linformation aux diffrents
utilisateurs dans leur propre langue et dans la monnaie de leur pays. Les systmes
actuels ne permettent pas de disposer de traductions des hirarchies de dimensions ainsi que des contenus des membres de dimensions.
Lors dune interrogation de la base articles, si votre langue naturelle est celle
de Molire, laquelle de ces deux rponses prfrez-vous recevoir du systme ?
Item : Road-550-W Yellow, 40 Same technology as all of our Road series bikes,
but the frame is sized for a woman. Perfect all-around bike for road or racing.
Ou
Article Vlo de route 550 W jaune, 40 quip de la mme technologie que
tous nos vlos de route, avec un cadre femme. Idal pour la promenade ou la
course sur route.
Dfi n 4 : Le schma en toile ne permet pas de modliser la complexit des donnes
Un modle dimensionnel traditionnel dvelopp avec Analysis Services de SQL
Server 2000 est un schma en toile constitu dune table de fait centrale et
dun certain nombre de dimensions. Il existe des options pour la cration de
96
4.3.1 Les vues des sources de donnes (Data Source Views, DSV)
Les systmes BI extraient leurs donnes dun grand nombre de sources diffrentes.
La nouvelle technologie du DSV permet ladministrateur du cube de concevoir
un accs aux donnes des ERP ou dautres systmes oprationnels. Les adminis-
97
98
99
5
Introduction
Integration Services
Quel que soit le projet de business intelligence, le processus dETL a pour seul but
de fournir de solides fondations au rfrentiel de donnes et aux fonctions de reporting et danalyse. Nous pensons que la phase dETL doit tre mene avec une vigilance toute particulire car elle conditionne la qualit de la chane dcisionnelle.
Ce chapitre a pour objectif de prsenter les diffrents composants dIntegration Services associ business intelligence Development Studio. Nous introduirons diffrents concepts tels que les flux de contrle et les flux de donnes. Nous
prsenterons les nombreux outils et assistants dont la vocation est de simplifier
le travail de programmation ou dadministration des techniciens de la business
intelligence. Afin dillustrer SSIS, nous procderons la gnration automatique
dun lot visant alimenter une table de dimension dans lentrept de donnes.
Nous prsenterons les diffrentes tches qui ont t cres automatiquement et
dcouvrirons leur contenu avant de crer un lot de toutes pices.
Nous donnerons galement un aperu de lensemble des tches inclus dans
les flux de contrle et les flux de donnes.
102
103
104
105
106
107
108
Dans ce chapitre, vous apprendrez utiliser SSIS pour crer un lot dont la
finalit sera de rcuprer des donnes en provenance de Access et Excel, puis
dinsrer ces donnes dans une table de dimension de lentrept de donnes.
Structure dun package SSIS
Business intelligence Development Studio (BIDS) est une interface conviviale
visant construire des packages Integration Services.
Lorsque nous utilisons BIDS, plusieurs onglets sont notre disposition.
109
110
Figure 5.8 Longlet prsentant lexplorateur des objets contenus dans un package
111
112
Figure 5.11 Liste des connecteurs standard disponibles dans DTS 2000
5.3 Migrer une base SQL Server 2000 vers SQL Server 2005
113
Excuter les lots DTS en utilisant le runtime DTS de SQL Server 2000.
Intgrer ou encapsuler les lots DTS dans une solution SSIS 2005.
Ces assistants sont disponibles dans les versions SQL Server 2005 Standard,
Enterprise ou Developer.
Lassistant de migration est intgr SSIS. Projet puis Migrer un package
DTS 2000.
Le site msdn de Microsoft recense les problmes connus lis la migration des
packages 2000 vers 2005 (http://msdn2.microsoft.com/fr-fr/library/ms143462.aspx).
114
115
116
La figure 5.15 montre une collection dune collection dobjets constitus des
fichiers contenus dans un rpertoire donn. La boucle ForEach balaie le rpertoire
la recherche de fichiers dont lextension est .SQL.
Figure 5.16
Variable utilisateur
dans lditeur
de boucle
117
118
Conteneur de squences
Le conteneur de squences regroupe un sous-ensemble de tches pour mieux
structurer le package. Il offre lavantage de pouvoir tre dsactiv, ce qui a pour
consquence de dsactiver toutes les tches qui le composent. Cette fonctionnalit est particulirement intressante en phase de dbogage. Il est possible galement de dfinir des proprits sur le conteneur plutt que sur chacune des
tches qui le composent.
119
Source
Transformation
Transformation
Destination
Figure 5.20 La tche de flux de donnes alimente une destination (table SQL Server,
fichier plat, etc.) partir des donnes sourcesTche de requte dexploration de donnes
Cette tche excute des requtes bases sur des modles prdictifs intgrs
Analysis Services. Par exemple, lors du chargement de donnes dans une base,
une telle requte peut prdire si un nouveau prospect est susceptible dacheter
ou non tel ou tel article et disoler les cas dans des tables intermdiaires. La
requte est une instruction DMX (Data Mining Extensions).
120
Tche de script
Cette tche permet au programmeur de raliser des fonctions non disponibles
dans les tches intgres de SSIS.
Name :
Auteur
Objectif :
Retour
Function ExecuteSQL
B. Burquier
Executes a SQL statement
ADO Recordset
Function Main()
Call Process_Control()
If OK_or_KO = "OK" then
Main = DTSTaskExecResult_Success
Else erreur
Main = DTSTaskExecResult_FAilure
End if
End Function
121
Sub Process_Control()
Dim rstResult
Requete de non correspondance
StrQuery = "SELECT FactFinance.CompanyId, FactFinance.AccountId,
FactFinance.ActivityId, FactFinance.CurrencyId, FactFinance.ProjectId, FactFinance.TimeId, FactFinance.AppealId, FactFinance.ScenarioId, FactFinance.DataCHF, FactFinance.DataLocalCurr,
FactFinance.LineDescription FROM FactFinance LEFT JOIN DimActivity ON
FactFinance.ActivityId = DimActivity.ActivityId WHERE DimActivity.ActivityId Is Null"
Get the ADO Recordset
Set rstResult = ExecuteSQL(strQuery)
If the Recordset is not empty then proceed
If Not (rstResult.Eof and rstResult.Bof) Then non vide
Msgbox "Non vide = failure"
OK_or_KO = "KO"
Else vide
MsgBox "vide = Success"
OK_or_KO = "OK"
End If
Clean up variables
Set rstResult = Nothing
End Sub
Name :
Function ExecuteSQL
Author :
B Burquier
Purpose :
Executes a SQL statement
Return
ADO Recordset
Function ExecuteSQL(mySQLCmdText)
instantiate the ADO objects
Dim myConn
Dim myRecordset
set myConn = CreateObject("ADODB.Connection")
set myRecordset = CreateObject("ADODB.Recordset")
set the connection properties to point to the database using
the constant
myConn.Open = DB_CONNECT_STRING
myRecordset.Open mySQLCmdText, myConn
Set ExecuteSQL = myRecordset
End Function
122
123
124
Figure 5.23
Excution
dun processus
de dcompression
dun fichier zipp
(expand.exe)
125
126
Tche FTP
Cette tche permet de tlcharger des fichiers de donnes entre serveurs. Par exemple, elle peut rcuprer quotidiennement tous les fichiers des ventes des succursales sur un serveur central excutant la consolidation dans le datawarehouse.
Tche MSMQ
La tche MSMQ (Microsoft Message Queuing) permet denvoyer et recevoir des
messages entre diffrents packages Integration Services ou denvoyer des messages une file dattente traite par une application personnalise. Par exemple,
la tche peut mettre en file dattente les messages destins aux ordinateurs portables hors connexion des reprsentants commerciaux.
127
Tche XML
La tche XML est utilise pour travailler avec des donnes XML. Il est possible
de remettre en forme un document XML et de lui appliquer une feuille de style
XSLT.
Tches du plan de maintenance
128
SQL script
EXECUTE sendmail_sp Service Broker
queue
SMTP Server
sqlimail90.exe
msdb
SQLiMail Configuration
sendmail_sp Stored Procedure
Service Broker
mailhost
Email messages
Logs
129
130
Les destinations comportent des colonnes dentre. Une destination crit directement dans une table de la base de donnes ou dans un dataset en mmoire.
Des colonnes de sortie derreur peuvent intercepter des traitements ne pouvant
aboutir, par exemple la mise jour dun champ de la table avec une valeur null
alors que ce champ nautorise pas les valeurs nulles.
Source DataReader
La source DataReader accde des donnes dun fournisseur.NET laide du
gestionnaire de connexion ADO.NET. Vous devez saisir une commande SQL
telle que SELECT * FROM sales.customer. Le mappage entre les colonnes externes et
les colonnes de sortie se ralise automatiquement, voir figure 5.30.
131
Figure 5.30
Mappage
des colonnes dans
le cas dune source
DataReader
132
Un fichier plat peut tre de format texte, avec des champs dlimits par des caractres spciaux, de largeur fixe, ou les deux.
Dans le formulaire de la figure 5.31, on prcisera le type de sparateur de ligne
et de colonnes (tabulateur, guillemet, virgule).
Le choix des paramtres rgionaux permet de dfinir le format des donnes
selon la localisation de la source (format date anglo-saxon ou franais, format
numrique, etc.). Dans la figure 5.31, on observe une source de donnes au format anglais (tats-unis).
Laffichage des colonnes aprs dfinition des types de colonne est montr
figure 5.32.
Source Excel
La source Excel extrait des donnes de feuilles de calcul Excel entires ou de
plages nommes. Les formats pris en compte sont Excel 3, 4, 5 et les versions 97
2005.
Source OLE DB
La source OLE DB pointe sur des tables relationnelles. La figure 5.33 prsente
les diffrents fournisseurs OLE DB fournis par le gestionnaire de connexion.
133
Agrgation
La transformation dagrgation permet de regrouper un certain nombre de lignes
du flux de donnes. La fonction dagrgation effectue un regroupement grce
la clause GROUP BY sur une ou plusieurs colonnes, puis applique une fonction dagrgation telle que Moyenne, Comptage, Comptage distinct, Somme, Max, Min.
Audit
La transformation daudit permet dajouter des colonnes au flux de donnes, afin
dobtenir des informations relatives lenvironnement au moment de lexcution. Les colonnes daudit concernent lidentifiant GUID, lidentificateur du
package, le nom ou la version du package, lheure laquelle le package a commenc, le nom de lordinateur et de la tche excute.
Colonne drive
Une colonne drive rsulte de lapplication dune fonction qui sapplique sur
dautres colonnes ou variables du package. Par exemple, la colonne drive NomComplet rsulte de lexpression Prnom + " " + Nom. Lexpression DATEPART ("year",
GETDATE()) renvoie lanne en cours.
Commande OLE DB
La transformation de commande OLE DB excute une instruction SQL pour
chaque ligne dun flux de donnes. Il est ainsi possible dexcuter une instruction
SQL qui insre, met jour ou supprime des lignes dune table de base de donnes.
DELETE FROM Dimcustomer WHERE CustomerKey = ?
134
Composant script
Ce composant permet dcrire du code de script personnalis. Le composant
script peut tre utilis en tant que source, transformation ou destination. On utilise
le composant script lorsquil sagit de lire un fichier dont le format nest pas pris
en charge par le gestionnaire de connexion de SSIS. Un script peut appliquer
plusieurs transformations simultanes. Un script peut naturellement excuter des
fonctions personnalises qui nexistent pas dans la bibliothque des fonctions
fournies nativement par SSIS.
Conversion de donnes
Ce composant permet de convertir les donnes dune colonne dentre en un
type de donnes diffrent. La donne convertie peut soit remplacer la colonne
existante, soit tre ajoute dans une nouvelle colonne.
Copie de colonnes
Cela permet de crer de nouvelles colonnes qui sont la copie de colonnes existantes. Les nouvelles colonnes permettent de fournir une plus grande flexibilit
dans le cadre de nouveaux calculs, de transformation ou de mapping avec des
colonnes de destination.
135
Figure 5.35 Visual Studio for Application souvre pour crer le script
136
transformation de dimension variation lente dirige ces lignes vers une sortie
nomme Sortie de mises jour dattribut de validation.
Les modifications dattribut dhistorique crent de nouveaux enregistrements
au lieu de mettre jour les enregistrements existants. La seule modification autorise dans un enregistrement existant est une mise jour dune colonne qui indique si lenregistrement est actif ou expir. Ce type de modification qui prserve
lhistorique quivaut une variation de type 2. La transformation de dimension
variation lente dirige ces lignes vers deux sorties : Sortie dinsertions dattribut
dhistorique et Nouvelle sortie.
Les modifications dattribut fixe indiquent que la valeur de colonne ne doit pas
changer. La transformation de dimension variation lente dtecte les modifications
et peut diriger les lignes modifies vers une sortie nomme Sortie dattribut fixe.
Membre infr indique que la ligne est un enregistrement de membre dduit
dans la table de dimension. Un enregistrement de membre infr est un membre
de dimension inconnu. Un enregistrement de membre infr minimal est cr
en prvision des donnes de dimension pertinentes, qui sont fournies dans un
chargement ultrieur des donnes de dimension. La transformation de dimension
variation lente dirige ces lignes vers une sortie nomme Sortie de mises jour
de membre dduit.
Comment fonctionne lassistant de cration de dimension variation lente
Slectionnez le gestionnaire de connexions pour accder la source de donnes
qui contient la table de dimension mettre jour.
Vous pouvez effectuer une slection dans une liste de gestionnaires de
connexions inclus dans le package.
Slectionnez la table ou vue de dimension mettre jour.
Aprs avoir choisi le gestionnaire de connexion, vous pouvez slectionner la
table ou la vue partir de la source de donnes.
Slectionnez les attributs cls sur les colonnes et mappez les colonnes dentre
aux colonnes de la table de dimension.
Vous devez slectionner au moins une colonne de cl dentreprise dans la table
de dimension et la mapper une colonne dentre. Dautres colonnes dentre
peuvent tre mappes des colonnes de la table de dimension en tant que mappages non-cls.
Slectionnez le type de modification pour chaque colonne :
Modification dattribut remplace les valeurs existantes dans les enregistrements.
137
138
lui affecter les valeurs Current et True pour les lignes actives et Expired et False
pour les lignes expires. Vous pouvez galement entrer des valeurs personnalises. Si vous utilisez deux colonnes de date, une de dbut et une de fin, vous
pouvez spcifier la date utiliser lors de la dfinition des valeurs de colonnes de
date en tapant une date ou en slectionnant une variable systme et en utilisant
sa valeur.
139
La figure 5.40 illustre un exemple de flux de donnes qui prend en charge les
modifications dattributs fixes, dattributs variables et dattributs dhistorique, et
les modifications denregistrements correspondants.
140
chantillonnage de ligne
Il permet de slectionner un sous-ensemble des donnes sources de manire alatoire. Lchantillonnage est bas sur un nombre de ligne extraire.
chantillonnage du pourcentage
Il permet de slectionner un sous-ensemble des donnes sources de manire alatoire. Lchantillonnage est bas sur un nombre de ligne correspondant un
pourcentage du flux dorigine.
Importation de colonne
Importe les donnes de fichiers vers les lignes dun dataset. Il est possible de
spcifier les colonnes de donnes extraire puis de slectionner ligne ligne le
fichier de destination.
Jointure de fusion
Elle tablit une fusion entre des donnes en provenance de deux flux de donnes.
Cela quivaut effectuer une jointure entre deux tables. Ainsi, par exemple,
une table Produits peut tre jointe une table Catgorie de produit par une cl
trangre (CatProd) permettant dtablir la jointure entre les deux tables. Il est
possible dtablir des jointures FULL, LEFT, INNER. Les colonnes qui tablissent la jointure doivent tre de type compatible. Les deux tables doivent tre
tries pralablement sur le champ permettant la jointure.
141
Multidiffusion
La transformation de multidiffusion dirige sa sortie vers une ou plusieurs sorties.
Chaque ligne dentre dirige ses donnes vers chaque sortie.
Nombre de lignes
Cette transformation dtermine le nombre de lignes dans le flux de donnes. Le
compteur est ensuite stock dans une variable du package. La variable peut
ensuite tre rcupre afin de modifier le flux de contrle ou le flux de donnes.
Recherche
Cette transformation excute une requte dans un ensemble de rfrence (table,
vue). Le paramtre dextraction est fourni par une colonne du flux dentre. La
table de rfrence renvoie un ou plusieurs champs en retour.
Recherche de terme
On recherche les occurrences dun ensemble de mots ou de phrases dans un flux
de donnes comportant du texte libre. Le rsultat de cette transformation est un
ensemble de lignes prcisant le comptage doccurrences trouves et le terme de
la table de rfrence.
Recherche floue
La transformation de recherche floue permet deffectuer des tches de nettoyage
dans le but de corriger, puis de standardiser les donnes. Lalgorithme de recherche floue permet galement de fournir des donnes manquantes. Cette transformation prsente un fort intrt lorsque les donnes en entre ont fait lobjet
dune saisie libre et nont pas t contrles la source.
Regroupement probable
La transformation de regroupement probable identifie des lignes de donnes susceptibles dtre des doublons. Une correspondance exacte garantit que seules les
colonnes possdant des valeurs identiques dans cette colonne seront regroupes.
Une correspondance approximative regroupe des lignes ayant des donnes
approchantes. Cest lutilisateur qui dfinit le score de similarit bas sur une
notion de distance entre deux chanes de caractres. Paris et Pari ont une distance de 1 car un seul caractre spare les deux mots. Idem pour Cathy et Kathy.
En revanche Kathy et Kathryn ont une distance de 2.
142
Tl. Domicile
Tl. Travail
Tl. Mobile
Fax
1234
04 50 60 01 02
01 69 30 03 04
06 80 47 13 15
2345
05 06 07 08 09
05 07 08 09 10
05 07 08 09 11
Type de tel
N de ligne
1234
Domicile
04 50 60 01 02
1234
Travail
01 69 30 03 04
1234
Mobile
06 80 47 13 15
2345
Domicile
05 06 07 08 09
2345
Travail
05 07 08 09 10
2345
Fax
05 07 08 09 11
Table de caractres
La transformation de table de caractres permet deffectuer des conversions sur
des colonnes de type chane de caractres. Il est possible de convertir des chanes
en minuscules ou majuscules, dinverser lordre des caractres.
Tri
Cette fonction trie les donnes dentre dans lordre croissant ou dcroissant et
copie les donnes tries dans la sortie. Plusieurs imbrications de tri sont possibles
et pour chaque colonne trie, il est possible de prciser lordre ascendant ou descendant.
143
Unir tout
La transformation dunion totale permet de combiner plusieurs entres en une
seule sortie. On reparle de concatnation des sources de donnes. La premire
entre fournit le format qui servira mapper les colonnes avec le flux de sortie.
Destinations du flux de donnes
144
6
Rgles dETL
et assistants
Nous lavons vu dans le chapitre prcdent, la grande force de business intelligence Visual Studio est de simplifier en profondeur la tche des programmeurs,
en offrant une large panoplie doutils dutilisation simple. Lessentiel des fonctions de manipulation des donnes se retrouve dans les flux de contrle et les
flux de donnes. Ces outils de base peuvent cependant drouter le dveloppeur
habitu raliser des tches identiques en codant des lignes en C++, C# ou VB.
En effet, le choc culturel nest pas neutre, car le dveloppeur habitu grer la
complexit va tre fortement concurrenc par la mise disposition de nouveau
outils simplificateurs. Lentreprise et son personnel devraient cependant y trouver un avantage de taille. En effet, la finalit de toute organisation est de rester
centre sur son propre mtier et non de grer la complexit des outils susceptibles
de laider dans son activit.
La rponse de SQL Server 2005 et son outil de dveloppement intgr business intelligence Development Studio consiste occulter une grande partie
de cette complexit et damener progressivement lutilisateur rflchir sur son
mtier.
Microsoft a envisag daccompagner le DBA dans son volution vers lenvironnement SQL Server 2005 et SSIS dispose dun grand nombre dassistants
permettant deffectuer ces migrations. Outre le fait quils prsentent une relle
utilit, ils ont le mrite dtre formateurs. Voyons dans le dtail quelques-uns
des assistants de haut niveau.
146
147
148
dimensionnelles seront stockes dans lentrept de donnes grce notre procdure dimport. Afin de simplifier, nous faisons lhypothse que les tables
Clients et Produits sont recres chaque transfert.
Voici laffichage de la table Produits dans Access (figure 6.3).
Choisissons la source de donnes Access et la base Comptoir.mbd (figure 6.4).
Choisissons la destination SQL Native Client sur le serveur local (figure 6.5).
149
Parmi la liste des sources disponibles dans Access, slectionnons la table Produits (figure 6.7).
150
Par dfaut, la table de destination porte le nom de la table en entre. Celuici est naturellement modifiable.
ce stade, il est possible dafficher le contenu de la table source grce au bouton Aperu.
151
152
tche de cration de table Produits (nomme Tche SQL de prparation dans la figure 6.10) :
CREATE TABLE [AdventureWorksDW].[dbo].[Produits] (
[Rf produit] int NOT NULL,
[Nom du produit] nvarchar(40) NOT NULL,
[N fournisseur] int,
[Code catgorie] int,
[Quantit par unit] nvarchar(30),
[Prix unitaire] money,
[Units en stock] smallint,
[Units commandes] smallint,
[Niveau de rapprovisionnement] smallint,
[Indisponible] bit NOT NULL
)
GO
tche de flux de donnes, elle-mme compose dun ensemble de soustches dveloppes dans longlet Flux de donnes (figure 6.11).
La figure 6.12 dtaille la source de donnes Produits et montre les colonnes
externes constitutives de la source OLE DB (Access). Loprateur a la capacit
de ne slectionner que certaines dentre elles et ou de renommer les champs en
sortie.
153
154
155
156
157
SET QUOTED_IDENTIFIER ON
GO
CREATE TABLE [dbo].[Clients](
[FirstName] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[MiddleInitial] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[LastName] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[BirthDate] [datetime] NULL,
[MaritalStatus] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[Gender] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[EmailAddress] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[YearlyIncome] [float] NULL,
[TotalChildren] [float] NULL,
[NumberChildrenAtHome] [float] NULL,
[Education] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[Occupation] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS
NULL,
[HouseOwnerFlag] [float] NULL,
[NumberCarsOwned] [float] NULL,
[AddressLine1] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[AddressLine2] [nvarchar](255) COLLATE
SQL_Latin1_General_CP1_CI_AS NULL,
[City] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS NULL,
[State] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS NULL,
[ZIP] [float] NULL,
[Phone] [nvarchar](255) COLLATE SQL_Latin1_General_CP1_CI_AS NULL
) ON [PRIMARY]
Revenons dans notre projet dimport des donnes dans Visual Studio.
Dans longlet Flux de donnes, glissons deux reprises une tche dexcution
de requte SQL. La premire consiste effectuer un DROP de la table Clients.
158
159
Depuis les sources de flux de donnes, faire glisser la source Excel sur longlet
Flux de donnes, puis double-cliquez sur la tche Source Excel.
Figure 6.19 La source Excel est cre. Le signe stop
droite indique que le fichier source nest pas prcis.
Le gestionnaire de connexion Excel souvre. Une nouvelle
connexion doit tre cre vers le fichier source Excel
Figure 6.20
Le gestionnaire
de connexion Excel
permet dtablir
un lien avec le fichier
Customers.xls
160
Sauvegardez tous les fichiers puis excutez le lot par la touche F5.
Les tches se droulent en parallle.
Stoppez le dbogage aprs excution.
Prenez la prcaution de contrler le contenu des deux tables Clients et Produits laide de Management Studio. Faire un clic droit sur le nom de la table
puis ouvrir la table. Observez le contenu de la table et le nombre denregistrements situ en bas de page.
Ajoutons prsent une tche denvoi de courriel ladministrateur afin dtre
prvenu en cas dachvement sans chec ou en cas dchec.
Dans longlet Flux de contrle, ajoutons deux tches Envoyer un message .
Crez une connexion SMTP pour lenvoi de courriel (figure 6.22).
161
Lditeur de tche denvoi de message lectronique permet de prciser le serveur SMTP denvoi de mail. Il permet de prciser le ou les destinataires du mail.
Les pices jointes peuvent tre des fichiers danomalies gnrs lors de lexcution
du package ou tout autre fichier. Les variables systmes ou utilisateurs peuvent
tre introduites dans le corps du texte rendant ainsi les messages dynamiques.
162
163
164
Choisir la destination.
165
166
167
Les paramtres attachs aux lots DTS 2000 ne sont pas rcuprs par SQL
Server 2005.
168
DeploymentOutputPath. Le fichier manifeste rpertorie les packages, les configurations de package et tous les divers autres fichiers du projet.
Installation du dploiement
L installation du dploiement permet de stocker le package sur le serveur Integration services.
LAssistant Installation de package vous accompagne dans le processus dinstallation des packages sur le systme de fichiers et sur SQL Server.
Clic droit sur <nom de projet>.SSISDeploymentManifest. puis deploy.
169
170
Lors de lexcution dun travail de lagent SQL prciser quil sagit dun package SQL Server Integration services et que la source de fichiers est Systme de
fichiers (pour les packages au format XML). Vous devez galement fournir lemplacement du package dploy prcdemment sur le serveur SSIS.
Avant de planifier lexcution du package vous pouvez le tester dans son environnement de production (Clic droit puis excuter le package).
Ci-dessus nous avons programm une excution du package leon 1.dtsx toutes les nuits du lundi au vendredi 0 h 00.
Le moniteur dactivit des travaux de SQL server Agent permet de suivre
lexcution des travaux et leur traabilit.
Vous pouvez galement consulter la visionneuse du fichier journal.
171
172
Les identificateurs sont utiliss dans des expressions qui sont inconnues jusqu
lexcution du package. Les identifiants peuvent reprsenter des variables :
@Filename
@_LoopCounter
@PakageName
Les identificateurs qui reprsentent des variables sont toujours prcds par
le caractre @.
Les fonctions mathmatiques sont supportes par les expressions.
Exemple
ABS(-1234)
fournit le rsultat
234
ROUND(12.3456)
fournit le rsultat
12.35
173
Les variables sont utilises pour passer des informations entre les diffrentes parties dun package. Elles peuvent tre passes dune tche de transformation de
donnes un autre ou dune tche de contrle vers le gestionnaire de connexion.
Cest le cas par exemple lorsquune tche a pour but de balayer tout un rpertoire
afin de traiter tour tour chacun des fichiers qui le compose. La tche recueille
donc chaque fichier puis passe dans une variable, au gestionnaire de connexion,
le nom du fichier en cours de traitement.
174
Les variables peuvent tre cres grce au bouton dajout de variable. Les
noms de variables et leur type doivent tre fournis lors de la cration. Il est possible galement dallouer une valeur initiale. Afin de prserver les performances
de SSIS lors de lexcution, les variables sont fortement types. Ltendue de la
variable dfinit la visibilit de celle-ci dans le package.
La tche dexcution SQL de la figure 6.40 est dveloppe ci-dessous. Cette
requte permet dinsrer des lignes dans la table AuditPkgExecution tout en
recueillant les valeurs partir de variables alimentes au cours de lexcution du
package. Dans la figure 6.41 les variables systme et utilisateurs sont transfres
aux paramtres. A leur tour, ces paramtres (dont le nom commene par le signe @)
sont transmis dans la requte SQL (voir requte ci-dessous).
Cet exemple montre comment il est possible dauditer les tches qui sexcutent dans un package. Dans lexemple ci-dessus on conserve la trace des traitements dans une table de lentrept de donnes(AuditPkgExecution) recevant
les variables systme ou utilisateur, en particulier le nom du package lanc et
la date de dbut de lexcution. Voici la requte correspondant la tche Get
PkgExecKey.
INSERT INTO AuditPkgExecution
(PkgName, PkgGUID, PkgVersionGUID, PkgVersionMajor, PkgVersionMinor,
ExecStartDT, ParentPkgExecKey)
Values
(@PkgName, @PkgGUID, @PkgVersionGUID, @PkgVersionMajor, @PkgVersionMinor, @ExecStartDT, @ParentPkgExecKey)
175
Dans le fichier XML de la figure 6.43 le nom du rpertoire a t pass en paramtres entre les balises ConfiguredValue.
176
177
7
Analysis Services
180
7. Analysis Services
Bien que non obligatoire pour la cration des cubes OLAP, ltape de cration
du datawarehouse est fortement conseille.
Une plate-forme de dveloppement flexible
Compare la version 2000, Analysis Services 2005 offre aux dveloppeurs en
entreprise et intgrateurs plus de flexibilit dans la modlisation des cubes et les
sources de donnes. Cette plate-forme propose en effet de nouveaux outils de
cration de cubes ainsi que huit nouveaux algorithmes de data mining. Ces amliorations aident les dveloppeurs dlivrer des solutions plus compltes tout en
rduisant le temps ncessaire au dveloppement et au dploiement.
181
la question : Quels sont les ventes ralises en quantit et valeur par point
de vente pour chaque collection douvrages ? . Sil le dsire, lanalyste peut simplement ajouter un critre supplmentaire afin dobtenir le mme tableau en
comparant 2004 avec 2005 en cumul depuis le dbut de lanne.
Le data mining en revanche, utilise des algorithmes de reconnaissance de
modles afin de dtecter des comportements particuliers, des corrlations ou des
tendances dans les donnes. Une fois dtects, ces modles et tendances sont
utiliss des fins de prdiction dans le cadre de processus daffaires telles que
prvisions des ventes, segmentation de populations dindividus aux comportements similaires. Ces techniques sont galement utilises afin de mettre en place
des systmes de ventes additionnelles (up-sell) ou ventes croises (cross-sell).
Les cubes OLAP et les techniques de data mining sont bases sur des donnes
collectes et agrges au sein des entrepts de donnes.
Rappelons que la finalit dun entrept de donnes (datawarehouse) est de
stocker et historiser des volumes importants de donnes. Ce processus a t illustr au chapitre prcdent grce SSIS. Nous lavons vu, les entrepts de donnes
sont aliments grce des outils ETL (Extract, Transform, and Load). Ces outils
ont pour vocation dextraire et de structurer les donnes en provenance des bases
de donnes oprationnelles dites OLTP (On Line Transactional Processing). La
phase dETL ralise galement un nettoyage des donnes suivi gnralement
dune phase dagrgation au sein des entrepts.
leur tour, ces donnes agrges font lobjet dune alimentation dans des
bases de donnes multidimensionnelles appeles cubes OLAP.
Un cube est dfini par un certain nombre de dimensions ou axes dobservation.
Au croisement de ces dimensions se trouvent des mesures ou indicateurs. En
gnral, le cube permet des analyses ad hoc et des requtes dynamiques ayant un
caractre naturel et intuitif.
Les utilisateurs accdent aux cubes OLAP grce des outils danalyse offrant
ainsi la capacit de raliser la vole des tableaux de synthse et rapports graphiques.
La structure hirarchise des dimensions permet une analyse en profondeur
des donnes grce la technique du drill down et du roll-up. Ces techniques permettent un forage progressif des donnes en passant du niveau le plus lev au
niveau de dtail le plus fin (drill down) ou selon un cheminement invers (drill up).
Par exemple, un utilisateur peut effectuer un drill down sur la dimension temporelle afin de visualiser des indicateurs de ventes ou de revenus par anne, puis
par trimestre, par mois et enfin par jour. Il sera alors ais de dceler des variations
saisonnires ou des tendances partir des graphes dynamiques gnrs automatiquement. De la mme manire, un chef de ventes sera capable danalyser, pour
7. Analysis Services
un produit donn, les ventes effectues la veille par point de vente puis dagrger
rapidement les donnes au niveau semaine, mois, trimestre ou anne (drill up).
Les technologies OLAP, par leur aspect dynamique, et synthtique compltent les outils de reporting tels que Reporting Services (inclus dans SQL Server
2005). Les outils de reporting sont gnralement utiliss afin de fournir des vues
statiques au travers de rapports instantans partir des donnes de lentrept.
la diffrence des outils de requtage OLAP, les fonctions de forage dynamique
et de changement daxes la demande y sont absentes.
Lexemple de la figure 7.2 montre la structure du cube faisant apparatre les
trois dimensions ou axes danalyse : dimension Produits, dimension Rgion, dimension Temps. La mesure analyse au croisement des trois axes est lindicateur de
volume en valeur.
9 000
Mars
Fevr.
Janvier
Est
Rgions
182
Ouest
Nord
Sud
Chaussure
Bonnet
Veste
Produit
Dans cet exemple, loutil de restitution du cube est le tableau crois dynamique dExcel. On observe lindicateur de volume du chiffre daffaires (9 000 )
ralis sur les ventes des vestes pour la rgion Ouest et pour le mois de mars. On
verra lors de ltude des outils de restitution que cette analyse ne prend que quelques secondes au manager oprationnel ou au contrleur de gestion dot de son
outil favori : Excel.
183
184
7. Analysis Services
Le nouveau langage de dfinition des donnes (DDL dans SSAS 2000) est
maintenant au format XML. XML/A (XML for Analysis) est le nouveau protocole qui assure la communication avec le serveur Analysis. Ainsi, de nouvelles
sortes dapplications sont rendues plus faciles dvelopper et permettent aux
postes client daccder directement des services web sans installation locale.
Les calculs sont centraliss sur le serveur et non plus sur le poste client supprimant ainsi le cache client et lamlioration des calculs complexes.
Le nouvel environnement de dveloppement dapplications est maintenant
unifi dans business intelligence Development Studio. Le nouvel environnement
dadministration est SQL Server Management Studio (Enterprise Manager dans
la version SQL Server 2000).
Un nouveau modle dautorisations daccs a t redfini. Les nouveaux rles
sont :
administrateur de serveur;
administrateur de base de donnes;
droits sur les objets de processus et de structure.
Le modle de scurisation des objets SSAS a t redfini :
scurisation par objets de la base de donnes;
cryptage des cubes;
SSAS sexcute avec le niveau le plus bas dautorisation;
les communications entre le client et le serveur sont cryptes assurant un
renforcement de la scurit face des techniques comme le sniffing ou le
spoofing.
La traabilit des vnements est maintenant possible grce au gestionnaire
de profil de SQL Server. Il existe un journal des audits daccs aux donnes et
aux applications. Un journal des erreurs est galement disponible.
Lamlioration des performances porte essentiellement sur le mode de restitution des cellules calcules.
les calculs effectus sur le serveur sont mis en cache;
loptimiseur de requtes redfinit les requtes clientes dans le but damliorer les performances;
les performances sur les rseaux tendus permettent des accs simultans
de plusieurs centaines dutilisateurs.
185
SQL Server Management Studio administre aussi bien les bases de donnes
SQL Server que les bases Analysis.
Dans la figure 7.3, le volet de gauche fait apparatre les composants de SQL.
On observe galement le serveur Analysis Services avec ses composants UDM.
La nouvelle console dadministration remplace en les regroupant Enterprise
Manager et Analysis Manager de SQL Server 2000.
Les requtes SQL et MDX sont analyses dans le mme outil.
Le nouveau modle objet AMO (Analysis Management Objects) remplace DSO.
Pour des raisons de compatibilit, DSO est support.
186
7. Analysis Services
187
188
7. Analysis Services
la technique des perspectives qui consiste crer une vue reprsentant un sousensemble de mesures et dimensions. Des niveaux daccs scuriss peuvent tre
attribus chaque perspective.
Il rsulte de cette nouvelle organisation de meilleures performances. Des
mesures peuvent renfermer des cellules ayant des valeurs nulles (et non zro).
Calculs et analyses
Une mesure est dite additive lorsquelle sagrge quel que soit le niveau dobservation (exemple : le total des ventes pour tous les produits, tous les clients et tous
les temps).
Au contraire, une mesure semi-additive peut tre additive pour certaines dimensions et pas pour dautres. Prenons lexemple dun tat des stocks dun entrept;
le nombre darticles en stock aujourdhui nest bien videmment pas la somme
de la situation constate hier augmente de celle daujourdhui. Dans SSAS, on
dispose nativement dagrgations semi-additives qui permettent de rsoudre des
problmatiques dinventaire telles que :
La moyenne des quantits et des valeurs en stock sur une priode donne.
La balance douverture et de clture sur une priode.
La variation dinventaire entre des priodes conscutives ou parallles.
Le niveau dinventaire minimum et maximum sur une priode donne.
La contribution relative dun article en stock par rapport la valorisation
total du stock.
Lassistant de calcul des dimensions temporelles apporte une aide non ngligeable dans le cas de calcul dagrgation comparer sur des priodes de temps diffrentes (calcul du cumul des ventes depuis le dbut de lanne compar sur les
trois dernires annes). Cette fonction est native alors quauparavant il tait
ncessaire de dvelopper une fonction MDX de type ytd().
MDX Scripts
Le langage multidimensionnel MDX (Multidimensional Expressions) est un langage dinterrogation des cubes, aussi complexe que puissant. SSAS 2005 propose
un nouveau modle de calcul qui simplifie la construction et la syntaxe des
requtes.
Des outils tels que les tableaux croiss dynamiques accdant aux cubes utilisent une technique intuitive de glisser-dposer. Derrire cette apparente simplicit, la technologie pivot table gnre des requtes en langage MDX occultant
ainsi la complexit de la syntaxe.
189
MDX est aussi le langage naturel utilis par SSAS pour construire les cubes.
Lorsquun cube est trait, les donnes sont mises jour seulement au niveau
de dtail le plus fin (le niveau feuille). Cest lorsque la demande sera formule
par lutilisateur que les niveaux dagrgation intermdiaires seront calculs la
vole . On imagine le gain despace procur par cette technologie.
Procdures stockes
Analysis Services 2005 introduit la notion de procdures stockes afin dtendre
les capacits de traitement (UDF). Une procdure stocke peut tre crite dans
nimporte quel langage tel que C++, VB ou C#. Les procdures stockes simplifient le dveloppement et limplmentation par la cration unique de scripts
cods rutilisables par dautres procdures stockes ou requtes des utilisateurs.
Les procdures stockes fournissent des mcanismes afin dtendre les fonctions
de base du langage MDX. Ces procdures permettent galement de raliser des
tches spcifiques comme le rafrachissement dun cube ou la mise jour partielle
dune portion du cube.
Indicateurs cls de performance
Une innovation de taille dans SSAS 2005 rside dans la mise disposition de
la technologie des KPI. Il sagit de suivre des indicateurs mtier pour lesquels des
objectifs ont t fournis pralablement. Typiquement, ces indicateurs se retrouvent dans des rapports, des portails dcisionnels et des tableaux de bord. Loutil
de restitution est le portail Business Scorecard Management non inclus dans
SQL Server 2005. Des outils tiers qui exploitent cette technologie sont dj disponibles sur le march (Panorama software, Proclarity, etc.). Les KPI sont ds
prsent pris en charge par les tableaux croiss dynamiques de Excel 2007.
Dune manire gnrale, un KPI est compos des lments suivants :
la valeur mesurer (ventes, profit, etc.);
lobjectif de la valeur atteindre (valeur ou pourcentage);
ltat de la mesure permettant de juger de lcart par rapport lobjectif.
Une expression MDX value une valeur courante de la mesure dans une
plage allant de 1 (trs mauvais) + 1 (trs bon);
la tendance : valeur prcisant si la valeur de la mesure se rapproche de
lobjectif ou sen loigne.
Voici une illustration de trois KPI affichs dans une page web (figure 7.4):
KPI du chiffre daffaires trimestriel (feu vert car le revenu dpasse le but
de 12,87 %);
190
7. Analysis Services
Satisfaction client
Le chiffre daffaire
trimestriel dpassera
les prvisions
de 12,87 %.
191
Grce ces mcanismes optimiss, il nest pas rare de constater que les donnes rafrachies et agrges sont accessibles plus rapidement dans la base OLAP
que dans la base relationnelle source.
Les paramtres ajustables du cache proactif sont :
La priode silencieuse qui dfinit la dure pendant laquelle la source de
donne na pas reu de nouvelle transaction avant de lancer le processus
de traitement. Ce paramtre est gnralement dfini moins de 10 secondes. Cette priode dattente protge le systme de reconstructions frquentes du cache dans le cas o il y aurait de nombreuses transactions de mises
jour sur la source relationnelle.
La priode de latence : dure qui garantit une priode maximale au-del
de laquelle un rafrachissement des donnes seffectue.
Lintervalle de latence : il sagit de la dure maximum entre la notification
de changement et le dmarrage du processus de cache proactif. Si la base
de donnes est rafrachie constamment, ce paramtre annule le paramtre
de priode de silence.
Lintervalle de reconstruction force : ce paramtre est utilis dans le but
de fournir un simple cache sur des systmes dont les bases de donnes
source ne disposent pas des fonctionnalits de notifications de mise jour.
LUDM remplace-t-il dfinitivement la construction du datamart ?
Le modle UDM permet dans certains cas de saffranchir de construire le datamart. En considrant les fonctionnalits cites prcdemment, il peut tre tentant
de passer directement du systme oprationnel (OLTP) au mode multidimensionnel (OLAP) via UDM.
Systme
Oprationnel
OLTP
UDM
(Oracle,
Db2, SQL Server)
Cube
Analysis
Services
OLAP
192
7. Analysis Services
Systme
Oprationnel
OLTP (Oracle,
DB2, SQL
Server)
Intgration
Services
Data Mart
Mtier
UDM
(Oracle,
DB2, SQL
Server)
Cube
Analysis
Services
OLAP
7.3 Mthodologie de cration dune base de donnes depuis une source existante
193
194
7. Analysis Services
195
196
7. Analysis Services
197
7.4.1 Mesures
Dans lexemple prsent ci-aprs, les mesures sont dfinies par la table VentesInternet et sont les suivantes :
quantit commande;
prix unitaire;
quantit tendue;
remise unitaire;
montant de la remise;
cot standard du produit;
cot total du produit;
montant des ventes;
montant de la taxe.
7.4.2 Dimensions
Notre manager veut effectuer des analyses selon divers axes dobservation.
Laxe clients se dcompose de la faon suivante :
rgion;
province;
ville;
198
7. Analysis Services
nom;
laxe produits;
catgorie de produit;
sous-catgorie;
ligne produit;
produit;
laxe du temps;
anne;
trimestre;
mois;
jour.
199
200
7. Analysis Services
Figure 7.9 Composants crs en standard lors de la cration dun projet SSAS
201
Figure 7.11
Le gestionnaire
de connexion
202
7. Analysis Services
203
204
7. Analysis Services
205
206
7. Analysis Services
Figure 7.22
Identifier les tables
de faits et de dimension
207
208
7. Analysis Services
Par dfaut, lassistant repre les champs au format numrique et tente den
crer des mesures. Dcochez les cls qui ne constituent pas des mesures dans la
base de faits.
Puis cliquez sur le bouton Suivant.
Lassistant dtecte automatiquement les hirarchies.
Puis cliquez sur le bouton Suivant.
Dployez les nouvelles dimensions dtectes afin de contrler les choix effectus par lassistant.
Vrifiez la pertinence des hirarchies et des attributs.
Puis cliquez sur le bouton Suivant.
209
210
7. Analysis Services
211
Structure de cube
Cet onglet permet de modifier larchitecture dun cube et den modifier les composants.
Utilisation de la dimension
Cet onglet permet de dfinir les relations entre des dimensions et des groupes
de mesures, ainsi que la granularit de chaque dimension au sein de chaque
groupe de mesures. Si vous utilisez plusieurs tables de faits, il se peut que vous
deviez identifier si les mesures sappliquant ou non une ou plusieurs dimensions.
Chaque cellule reprsente une relation potentielle entre le groupe de mesures et
la dimension intersecte.
Calculs
Cet onglet permet dtudier les calculs dfinis pour le cube, de dfinir de nouveaux calculs pour le cube dans sa totalit ou pour un sous-cube, de rorganiser
les calculs existants et de dboguer les calculs, pas pas, en saidant des points
darrt. Les calculs permettent de dfinir de nouveaux membres et mesures bass
sur des valeurs existantes, tels que des calculs de profit, et de dfinir des jeux
nomms.
KPI
Cet onglet permet de crer, diter et modifier les indicateurs de performance
cls (KPI) dans un cube. Ceux-ci permettent au concepteur de dterminer rapidement les informations utiles relatives une valeur et par exemple, de dterminer si la valeur dfinie est suprieure ou infrieure un objectif ou si la
tendance que suit la valeur dfinie augmente ou diminue.
Actions
Cet onglet permet de crer ou de modifier des extractions, des rapports et dautres
actions pour le cube slectionn. Il contient des informations contextuelles sur
les applications clientes, les commandes et les rapports auxquels les utilisateurs
finaux peuvent accder.
Partitions
Les partitions permettent de stocker les sections dun cube dans diffrents emplacements avec des proprits diffrentes, telles que des dfinitions dagrgations.
212
7. Analysis Services
Perspectives
Une perspective est un sous-ensemble dfini dun cube et sert rduire la complexit dun cube du point de vue de lutilisateur.
Traductions
Cet onglet permet de crer et grer les noms traduits des objets de cube, tels que
les noms de mois ou de produits.
Navigateur
Cet onglet permet dafficher les donnes du cube selon une prsentation proche
du tableau crois dynamique.
Lexplorateur de solutions prsente les nouvelles dimensions (figure 7.31).
Dans le menu de Visual studio slectionnez Fichiers puis cliquez sur Enregister tout.
213
214
7. Analysis Services
215
Vous allez crer de toute pice une nouvelle hirarchie Produit en incluant
la hirarchie LigneProduit et Produit.
Avant de crer cette nouvelle hirarchie et afin de mieux slectionner les
champs, vous allez observer le contenu de la table DimProduit partir de laquelle
vous allez reconstituer la hirarchie.
Dans longlet Vue Source de donnes, faites un clic droit sur la table DimProduit puis Explorer les donnes.
En cliquant sur len-tte de colonne, vous pouvez trier en ordre croissant ou
dcroissant les donnes (ici NomProduitFranais).
216
7. Analysis Services
Figure 7.38
Glisser dplacer
un champ de la vue
source de donnes
dans la hirarchie
217
Hirarchie temporelle
Dans lexplorateur de solutions, cliquez sur la dimen- Figure 7.39 Hirarchie
aprs introduction
sion Dim Temps. Dans longlet Hirarchie et niveaux,
dun nouveau champ
renommez la hirarchie en Dates.
Dans le menu Fichiers, choisissez alors Enregistrer
tout.
Pour afficher les donnes du cube dans le projet, il
est ncessaire de dployer le projet sur une instance
spcifie de Analysis Services, puis traiter le cube et
ses dimensions.
Le dploiement dun projet Analysis Services entrane
la cration des objets dfinis dans une instance de
Analysis Services. Le traitement des objets dans une
Figure 7.40 Renommer instance de Analysis Services, entrane la copie des
une hirarchie
donnes partir des sources de donnes sous-jacentes
dans les objets du cube.
Dployez le cube
Faites un clic droit sur MonPremierCube puis slectionnez Dployer.
218
7. Analysis Services
219
Figure 7.45 Le champ Ligne Produit dfinit les colonnes et Rgion dfinit les lignes
Glissez-dplacez la dimension temporelle Cl Date Commande vers lemplacement des champs de filtre. Dans la liste droulante dslectionnez toutes les
annes sauf 2003.
220
7. Analysis Services
En cliquant sur le signe + associ aux champs, vous allez pouvoir forer
dans la hirarchie des dimensions. Cette technique est galement appele drill
down. Le signe permet deffectuer un drill up.
221
Figure 7.49 Linterface est maintenant celle du tableau crois dynamique dExcel
222
7. Analysis Services
Afin dajouter les niveaux hirarchiques Sous-catgorie de produit et Catgorie de produit, il est ncessaire dajouter les deux tables correspondantes dans
la vue Base Entreprot.dsv.
Dans lexplorateur de solutions, cliquez avec le bouton droit sur la vue Base
entrepot.dsv.
Puis slectionnez concepteur de cube.
Dans longlet de dfinition de vue, vous allez ajouter deux tables supplmentaires. Dans le menu BI studio, choisissez Vue des sources de donnes puis
Ajouter/Supprimer des tables
223
Dans la partie droite de lcran (figure 7.51), cliquez sur la table dbo.DimProduit puis actionnez le bouton Ajouter des tables associes.
Retirez la table FaitVentesRevendeur qui nest pas utile pour le moment, puis
cliquez sur DimSousCatgorieProduit et actionnez de nouveau le bouton Ajouter des tables associes.
224
7. Analysis Services
Lassistant dtecte automatiquement les jointures entre les tables puis les
intgre automatiquement la vue.
225
Grce au glisser-dplacer, vous allez insrer le champ NomFranaisSousCatgorie au-dessus de ligne Produit. Vous allez faire de mme en amenant le
champ NomFranaisCatgorieProduit au-dessus du champ prcdent.
Renommez galement le titre de la hirarchie en Produit et Catgories.
226
7. Analysis Services
Figure 7.58 Il est possible de naviguer dans tous les attributs de la dimension
7.5 Conclusion
227
7.5 CONCLUSION
Ce chapitre nous a permis de comprendre les diffrentes tapes qui participent
la cration dun cube. Nous avons successivement dfini les sources de donnes.
Nous avons dfini un schma en flocon faisant apparaitre clairement la table de
faits centrale et les tables descriptives appeles dimensions. Lors de la cration
du cube lassistant a dtect le rle des tables en prsence. Il a dtermin la table
de faits comportant les mesures (mtriques), puis les tables dimensionnelles. Il
a dtermin le niveau de granularit et les liaisons entre tables de faits et tables
de dimension.
Le dploiement du cube sur le serveur Analysis Services a ensuite permis de
naviguer dans le cube grce loutil intgr BI studio.
Dans le chapitre suivant nous apporterons un clairage complmentaire en
prsentant de faon plus dtaille les composants essentiels du cube afin de
rpondre plus prcisment des problmatiques mtier.
8
Mthode
de conception
des cubes avec SSAS
Nous lavons vu, crer un cube OLAP avec lassistant ne prsente pas de difficult majeure, en particulier si lon respecte les paramtres standard fournis par
loutil. La base de donnes relationnelle sous-jacente est indispensable la fabrication du cube, mais de par sa structure tabulaire et linaire, elle reste difficilement exploitable pour lanalyse. Le langage SQL, seul outil de requtage, permet
de raliser des rapports simples bas sur des notions de listes dont la valeur ajoute consiste effectuer des regroupements matrialiss par des sous-totaux intermdiaires de colonnes et totaux gnraux. Un vritable serveur analytique
dispose de la couche OLAP offrant des performances constantes quelle que soit
la volumtrie. la vision purement squentielle de linformation, OLAP en apporte
une transverse permettant ainsi de mettre en relation des donnes non contigus
dans lentrept. Cette capacit dfinir des rapprochements structurs dans
lespace est rendue possible grce au langage MDX.
De telles performances sont rendues possibles grce une gestion simplifie
des agrgations. Celles-ci rsultent de calculs visant regrouper des donnes
numriques puises dans les tables de faits. Ces calculs sont prstocks dans le
cube OLAP des niveaux variables de regroupement, rendant possible un affichage instantan. Cette technique de regroupement de donnes sous forme pragrge est de loin plus efficace que la mthode ancienne qui consistait indexer
230
des vues SQL. Cette technique dindexation tait galement accompagne dune
mise niveau coteuse des matriels afin de rpondre toujours plus dexigence.
Lobjectif principal est de dterminer les agrgations qui rpondent le mieux
aux besoins mtier et didentifier la frquence de mise jour des agrgats. Un
autre enjeu consiste dcider de la faon de conserver lhistorique et particulirement sil est ncessaire de tracer les changements dtats successifs au niveau
des axes dobservation (produits, clients, fournisseurs, etc.).
La mise en place dagrgations permet de prvenir des risques de mauvaise
interprtation des donnes. En effet, dans un modle relationnel, comment
sassurer que lutilisateur qui dsire suivre son stock semaine par semaine ne va
pas par erreur additionner des stocks successifs au lieu de ne considrer que la variation constate dune semaine sur lautre. Nous lavons dj vu, il sagit l dune
notion de mesure semi-additive, totalement prise en compte par OLAP. Un autre
aspect naturellement pris en compte par OLAP est le rapprochement de donnes
des niveaux de granularit diffrents (budget dfini un niveau trimestriel,
compar des donnes journalires).
Une fois que les membres de lorganisation ont dcid des besoins mtiers,
ils vont alors prciser comment ils souhaitent y accder (Internet, intranet, via
Excel ou autre outil tiers) et la manire dont ils veulent naviguer au sein de
leurs donnes (forage progressif selon diffrents niveaux dagrgation).
231
directement aux tables des bases sources, Analysis Services accde celles-ci au
moyen dune couche dexposition qui simplifie grandement le processus de maintenance. Cest galement grce ces vues que le dveloppeur exposera les champs
de donnes selon des rgles de nommage mtier comprhensible par lutilisateur final.
Bien quil faille attendre que la phase de dfinition du datawarehouse soit termine avant dentamer celle de la construction des cubes OLAP, il nest cependant pas ncessaire que la phase dETL soit termine. Il est tout fait possible
et mme recommand de ne pas attendre la fin du processus Integration Services
pour dmarrer le projet SSAS. Bien souvent on se contentera de quelques donnes de test, que lon pourra modifier manuellement afin de crer diffrentes situations. Les rsultats seront dautant plus faciles contrler que les donnes sont
peu nombreuses (contrle des moyennes, et des mesures semi-additives). Le
temps de rafrachissement des cubes sera rduit dautant.
Crer le projet et la vue des sources de donnes
Afin de contrler une solution globale faisant intervenir des projets divers tels
que SSIS, SSAS, SSRS, il est fortement conseill de crer une seule solution
intgrant elle-mme les trois projets diffrents.
Cette stratgie permet de crer une vue des
sources de donnes qui sera partage dans lensemble de la solution. Les sources de donnes partages sont plus aises maintenir parce quelles sont
dfinies un endroit unique (figure 8.1).
Lassistant des sources de donnes peut en crer
une nouvelle base sur une existante dans la mme
solution ou crer une source de donnes base sur
un projet Analysis Services existant.
232
233
234
235
236
237
238
Rigid : signifie que les relations entre les membres ne changent jamais dans
le temps.
Flexible : indique un changement possible dans le temps.
Crer des hirarchies ou modifier les attributs de hirarchie de dimensions
La cration dune hirarchie rsulte dun besoin mtier ou de contraintes de
navigation.
Structure de dimension
Certaines hirarchies sont naturelles telles que anne/mois/jour ou catgorie de
produit/sous-catgorie de produit/produit. Dautres sont moins naturelles telles
que frquence de commande/nom du revendeur.
Les niveaux des hirarchies sont construits partir des attributs des hirarchies. Les proprits de chaque niveau sont galement empruntes aux attributs
correspondants et ne peuvent tre modifis au sein de chaque hirarchie.
Pour une hirarchie rgulire, utilisez la proprit HideMemberIf dun niveau
dune hirarchie pour masquer les membres manquants aux utilisateurs finaux.
Traductions
Les traductions permettent au serveur de prendre en charge les applications
clientes en adaptant le langage de prsentation selon la langue du client. Il est
utile de pouvoir traduire divers lments dun cube et de ses dimensions dans
une langue diffrente, de sorte que des personnes de divers pays puissent afficher
et comprendre le cube. Au moment de laffichage de la requte, un dialogue
239
Navigateur
Longlet Navigateur permet dexplorer les attributs ou les hierarchies de dimension. La figure 8.13 montre une navigation dans la hierarchie Product Categories.
Aprs toute modification dun attribut ou hirarchie il est ncessaire de se reconnecter au cube avant dexplorer nouveau les donnes.
Avant de parcourir les donnes il est ncessaire de traiter la dimension. Il
nest cependant pas ncessaire de dployer le cube ou de traiter la base de donnes du cube.
Dans la figure 8.13, si une traduction avait t dveloppe, la liste droulante
ferait apparatre les membres dans la langue adquate.
Figure 8.13 Choisir une hirarchie ou un attribut et parcourez la liste des donnes
240
241
242
243
Chaque table de faits dans la vue des sources de donnes constitue un groupe
de mesures.
Chaque dimension peut participer ou non une agrgation de mesure.
chaque intersection dune mesure et dune dimension, on peut trouver diffrents types de relations entre les tables de faits et les dimensions :
Aucune dimension : la table de faits et la table de dimension ne sont pas
associes.
Normale : la table de dimension est directement jointe la table de faits.
Fait : la table de dimension est la table de fait.
Rfrenc : la table de dimension est jointe une table intermdiaire, ellemme jointe la table de faits.
244
De nombreux calculs sont aiss crer tels que des sommes de mesures ou
des ratios. Les mesures calcules sajoutent la liste des mesures existantes. Pour
lutilisateur final, il nexiste pas de diffrences entre une mesure physique et une
mesure calcule.
Dans lexemple ci-dessous, nous crons une mesure calcule nomme MoyenneDesVentes dont lexpression de calcul est obtenue par glisser dplacer des mesures
245
246
247
La tendance.
La tendance est reprsente par des valeurs numriques qui se traduisent graphiquement par des flches.
Case
When IsEmpty
(
ParallelPeriod
(
[Date].[Calendar Time].[Calendar Year],
1,
248
[Date].[Calendar Time].CurrentMember
)
)
Then 0
When (
KpiValue("Reseller Revenue")
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
/
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
)
>=.02
Then 1
When (
KpiValue("Reseller Revenue")
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
/
(
KpiValue ("Reseller Revenue"),
ParallelPeriod([Date].[Calendar Time].[Calendar Year],
1, [Date].[Calendar Time].CurrentMember)
)
)
<=.02
Then 1
Else 0
End
Le rsultat affich dans le navigateur de longlet KPI est montr figure 8.20.
Microsoft dispose dores et dj dun outil trs labor de dfinition et de
restitution des KPI. Business Scorecard Manager permet de dfinir ses propres
KPI puis de les intgrer grce des webpart dans le portail maison SharePoint
Portal.
Les KPI sont maintenant interprts par les tableaux croiss dynamiques
dExcel version 2007.
249
250
de cube qui intgre des perspectives, vous devrez les supprimer avant de dployer
le cube.
8.1.10
Les traductions
8.1.11
Le navigateur de donnes
Figure 8.21 Longlet Partitions montre les partitions lies aux groupes de mesures
251
La colonne agrgations prcise le mode de stockage des agrgations de donnes. Dans certains cas, il sera ncessaire de crer plusieurs partitions pour un
mme groupe de mesures. Chaque partition dispose de sa propre source de donnes qui peut se traduire par une vue filtre. Les partitions sont associes dans
le groupe de mesure.
252
253
254
Dans le cas du mode ROLAP temps rel, les donnes sont directement stockes dans la table relationnelle. Il ny a pas besoin de notification ni de cache
proactif. Les donnes sont toujours jour mais ce au dtriment des performances.
Aprs le dploiement du cube, SQL Server Management Studio permet dobserver le cube et ses dimensions attaches chaque groupe de mesures.
255
Lorsque vous tablirez des partitions, soyez vigilants aux bornes que vous
devez dfinir dans la clause WHERE. BI Studio ne permet pas de dtecter si des donnes en provenance des tables de faits sont doubles ou manquantes.
Lors du dveloppement avec BI Studio, vous pouvez prciser ldition du serveur de dploiement (Enterprise ou Standard). Ce dispositif permet de fournir
BI Studio les fonctionnalits autorises ou non, et de signaler toute incohrence
avant le dploiement.
256
257
Dmarrer
Dmarre le processus de conception dagrgation.
Arrter
Arrte le processus de conception dagrgation.
Retraitement complet
Cette mthode consiste retraiter la totalit du cube chaque ajout de donnes
dans un groupe de mesures. Il sagit naturellement de la mthode la plus simple
mettre en uvre et probablement la plus sre. Elle est choisie par la plupart
des administrateurs. Elle est naturelle et mme conseille si les cubes ont une
faible volumtrie et, par consquent, un temps de retraitement court. Cette mthode
est proscrire si les mises jour des tables de faits sont quotidiennes avec des
volumtries trs leves (centaines de milliers denregistrements). Dans ce cas,
nous aurons recours la mthode de traitement incrmentiel.
Traitement incrmentiel
Le traitement incrmentiel consiste filtrer les donnes les plus rcentes des
tables de faits afin de ne traiter quun nombre rduit de lignes. Cette technique
est sduisante mais elle ncessite une trs grande rigueur lors de la phase dalimentation. Le risque naturel est de traiter deux fois les mmes donnes ou tout
simplement domettre de les traiter. Malheureusement, SQL Server 2005 ne dispose pas de solution intgre. Le dveloppeur doit mettre en place un mcanisme
daudit qui consiste marquer les lignes ayant fait lobjet dun traitement
afin de sassurer de ne pas les traiter une seconde fois. Labsence de traitement
ou un traitement partiel sont plus dlicats grer puisquils ne laissent aucune
trace. Dans ce cas, on pourra dvelopper un script MDX qui tablira un contrle
quotidien avec la base de production pour dtecter des carts ventuels et retraiter la partition incrimine.
258
8.3 RECOMMANDATIONS
Bien que les assistants soient nombreux dans Analysis Services, ce logiciel est
complexe et ncessite beaucoup de soin dans sa conception. Lors de la mise au
point initiale, testez, contrlez autant que vous le pourrez. Aprs la mise en production du cube, donnez-vous les moyens de croiser des donnes du cube avec
dautres sources telles que le datawarehouse sous-jacent. Il ny a rien de plus efficace pour jeter le discrdit sur votre uvre quun utilisateur qui lance en pleine
runion que le cube donne des rsultats incohrents. Testez avec les utilisateurs,
observez leur faon dinterprter et de contrler les donnes. Mettez en production les automates de contrle et faites-vous alerter par SSIS au moindre cart.
Soyez le premier alerter les utilisateurs quun dysfonctionnement a eu lieu plutt que dapprendre par un utilisateur que votre cube est faux.
9
Le data mining
Un diffuseur douvrages distribue plusieurs sortes de magazines : sciences humaines, philosophie, roman, sport et beaux-arts. Il souhaite mieux tudier ses clients
pour dcouvrir de nouveaux marchs ou vendre plus de nouveauts ses libraires.
Les questions quil se pose sont les suivantes :
Combien de libraires ont achet des ouvrages de sport cette anne ?
A-t-on vendu plus douvrages de sport cette anne que lanne dernire
la mme priode ?
Les libraires qui achtent des ouvrages de philosophie achtent-ils galement des ouvrages de beaux-arts ?
Quels sont les critres qui caractrisent une librairie oriente sport ou
sciences humaines ?
Comment puis-je prdire la perte des clients et les actions ncessaires pour
la rduire ?
Les rponses aux questions 1 et 2 peuvent tre fournies par de simples outils
de requtage de type SQL.
La question 1 trouvera une rponse en excutant une requte SQL sur la base
de donnes oprationnelle ou mieux sur lentrept de donnes. Les critres dextraction sont dans ce cas lanne de lachat et le type douvrage (sport).
La question 2 implique de conserver en ligne deux annes de ventes, puis de
comparer lagrgat des ventes ralises en Year to date (cumul depuis le dbut de
lanne) et den dduire lcart en valeur. La rponse sera fournie trs facilement
260
9. Le data mining
par une requte MDX excute sur le cube OLAP. Excel fournira une rponse,
grce au tableau crois dynamique.
La question 3 permet de dterminer la probabilit que la rgle dassociation
entre plusieurs lments est vrifie. Il sagit dun type de recherche dirige car
lobjectif est totalement identifi. Si la valeur de la probabilit est leve, le
diffuseur serait avis deffectuer des offres promotionnelles en associant les deux
produits. La rponse cette question sera fournie par un des algorithmes de data
mining.
La question 4 est de nature exploratoire. Il sagit de dcouvrir une rgle plutt
que de la vrifier. Cela est du ressort du data mining, technologie qui offre plusieurs algorithmes rpondant cette problmatique.
La question 5 est galement exploratoire et ncessite de conserver un historique afin de modliser les comportements dattrition (dpart volontaire du client).
Il y a lieu de mettre en uvre des indicateurs tels que quantits retournes, dlais
de paiements, impays. La notion temporelle est trs importante car elle permet
dobserver au fil du temps des changements parfois imperceptibles.
261
262
9. Le data mining
Rgression
la diffrence de la tche de classification, la rgression sert dterminer une
relation entre deux colonnes continues. La relation se prsente sous la forme
dune quation correspondant la droite reprsentant le mieux une srie de don-
263
nes. Par exemple, la droite dans le diagramme suivant est la meilleure reprsentation linaire possible des donnes. Cette notion est souvent utilise dans
la partie graphique dExcel.
Segmentation
La segmentation consiste former des groupes (clusters) homognes lintrieur
dune population afin de rpondre la question Quels attributs trouve-t-on en
commun dans chaque groupe ? La tche de segmentation prcde souvent les
autres tches afin de construire des groupes sur lesquels on applique des tches
de classification.
Association
Lassociation examine les comportements de groupes dindividus afin de dterminer quels liens existent entre eux. Les rgles dassociation sont souvent lies
au secteur de la distribution travers ce quon appelle lanalyse du panier de la
mnagre. Des sites dachats en ligne de produits culturels utilisent cette mthode
afin de rechercher les produits qui tendent tre achets ensemble et proposer
en ligne des offres complmentaires (vente additionnelle).
Un des principaux attraits de la mthode est la clart des rsultats produits.
En effet, le rsultat de la mthode est un ensemble de rgles dassociation dont
voici quelques exemples :
si un client achte des plantes, alors il achte du terreau;
264
9. Le data mining
Analyse de squence
Lalgorithme de squence permet danalyser un chemin ralis par le pass afin
den dduire la route probable dans le futur.
On applique souvent ce type dalgorithmes lanalyse des squences de clics
que les internautes effectuent sur un site web.
Lanalyse de squence sert galement dcouvrir lordre dans lequel un client
ajoute des lments dans son panier dachat sur un site de vente en ligne.
Toute socit qui offre un service dachat en ligne est intresse par cette
dmarche. En effet, pour acheter, les clients doivent se connecter au site. La socit
collecte des informations sur les pages que les internautes visitent et lordre dans
lequel ils consultent les pages. Il analyse galement quelles sont les pages les plus
consultes avant lacte dachat dun produit.
265
266
9. Le data mining
267
FROM
[dbo].[DimCustomer] c INNER JOIN (
SELECT
[CustomerKey]
,[Region]
,[Age]
,Sum(
CASE [EnglishProductCategoryName]
WHEN BikesTHEN 1
ELSE 0
END) AS [Bikes]
FROM
[dbo].[vDMPrep]
GROUP BY
[CustomerKey]
,[Region]
,[Age]
) AS [x]
ON c.[CustomerKey] = x.[CustomerKey]
La vue vDMPrep qui participe elle-mme la vue vTargetMail est base sur
le schma en flocon dont la table de fait centrale est FactInternetSales et les
tables dimensionnelles : Customers, DimProduct, DimProductSubcategory, DimProductCategory, DimCustomer, DimGeography, DimSalesTerritory.
268
9. Le data mining
11003
21768
25863
28389
11005
11011
Mountain100
Road-650
Road-150
Mountain100
Mountain100
Mountain100
Mountain100
Road-150
Road-150
Road-150
Road-150
Road-150
Road-150
Road-150
Road-650
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
Bikes
25249
16529
16483
13591
27606
13513
27645
16624
14501
CustomerKey
Model
EnglishProduct
59
North
America
Pacific
Pacific
Pacific
48
28
55
53
49
North
America
Europe
64
44
North
America
Europe
33
42
40
41
Pacific
Pacific
Pacific
Europe
59
68
North
America
North
America
38
Pacific
Region Age
High
Low
Moderate
High
High
Low
High
High
Moderate
High
Low
Moderate
High
High
High
2001
2001
2001
2001
2001
2001
2001
2001
2001
2001
2001
2001
2001
2001
2001
2002
2002
2002
2002
2002
2002
2002
2002
2002
2002
2002
2002
2002
2002
2002
Month
SO43717
SO43716
SO43715
SO43714
SO43711
SO43712
SO43702
SO43703
SO43705
SO43704
SO43698
SO43699
SO43697
SO43700
SO43701
OrderNumber
LineQuanNumber
tity
699,0982
3 578,2700
3 578,2700
3 578,2700
3 578,2700
3 578,2700
3 578,2700
3 578,2700
3 399,9900
3 374,9900
3 399,9900
3 399,9900
3 578,2700
699,0982
3 399,9900
Amount
269
270
9. Le data mining
Les donnes sources sont maintenant dfinies. Nous allons construire le modle
de publipostage cibl.
271
272
9. Le data mining
Lassistant effectue un choix parmi les types de donnes et les types de contenus.
Il est conseill de vrifier les choix effectus par lassistant. Compltez la slection des colonnes pertinentes en cochant les entres dsires.
Donnons le nom Publipostage Cibl la structure dexploration puis Decision_Tree au modle dexploration.
Avant de traiter le modle dexploration, nous ajouterons deux modles complmentaires respectivement bass sur les algorithmes Microsoft Clustering et
Microsoft Nave Bayes.
273
Le modle Nave Bayses ne traite que des donnes discrtes. Il ignore ainsi
les donnes comme le revenu annuel ou lge du client qui sont considrs comme
des variables continues.
Nous procdons ensuite au dploiement des modles et leur traitement.
274
9. Le data mining
275
276
9. Le data mining
En suivant larborescence selon les nuds les plus sombres, on observe que
la population des 39-53 ans est celle qui achte le plus de vlos (3 934 acheteurs). Parmi cette population, on observe que les acheteurs sont ceux qui nont
277
pas denfant au foyer, qui ont un revenu suprieur 26 000 et qui nhabitent
pas en Amrique du Nord. Il est possible dextraire cette population puis de
copier la liste dans Excel ou Word afin deffectuer un publipostage.
Effectuez un filtrage sur Bike Buyer = 1 pour obtenir uniquement les acheteurs de vlos.
Comprendre le rseau de dpendance.
Lorsque les critres sont nombreux, il nest pas toujours ais de comprendre les
facteurs qui participent la dtermination de la variable prvoir. Longlet de
rseau de dpendance permet de slectionner un nud puis laide des liens qui
pointent vers ce nud den connatre les attributs qui le dterminent. La rglette
278
9. Le data mining
279
Du tableau reprsent dans la figure 9.19, il est possible de dduire que les
acheteurs de vlos ont une forte probabilit de ne pas avoir denfants, de ne pas
tre de la rgion Amrique du Nord, de niveau bachelier, etc.
On observe que labsence des critres dge et de revenu dans lanalyse Nave
Bayses entrane des rsultats diffrents de ceux de lalgorithme darbre de dcision.
Il peut tre intressant de comparer deux groupes cte cte. Si lon dsire
comparer les acheteurs et les non-acheteurs, nous obtenons le graphe de la
figure 9.20.
On peut dduire du tableau qui prcde que les acheteurs de vlos ne possdent pas dauto alors que ceux qui nachtent pas de vlos possdent deux autos.
280
9. Le data mining
Figure 9.20 Longlet Discrimination dattribut permet une comparaison deux deux
Les acheteurs de vlos ont un enfant et habitent la rgion Pacifique, etc. Plusieurs
attributs peuvent se retrouver avec des poids relatifs diffrents.
Naviguer dans le modle clusters
Le diagramme cluster permet dtablir des relations entre des groupes homognes.
Les lignes qui relient les clusters sont plus denses si les liens entre clusters sont
troits. Le curseur gauche du diagramme permet dappliquer un filtre afin
docculter les liens les moins forts (figure 9.21).
Dans le diagramme ci-aprs, le cluster 6 (en bas) contient la plus grande quantit dacheteurs de vlos. Un lien avec le cluster 1 apparat comme trs troit.
valuer le modle
Maintenant que nous avons mis en place nos trois modles, nous devons les
valuer afin de dterminer lequel est le meilleur pour prdire le profil dacheteur.
Pour cela, nous allons appliquer successivement nos modles sur une table de
cas dont les rsultats sont dj connus. Le but tant de comparer la capacit de
prdiction de chaque algorithme avec la ralit.
Slectionner une table de cas (diffrente de la table qui a servi modliser).
281
282
9. Le data mining
La requte de prvision sexcute sur le serveur. La courbe idale est matrialise par la diagonale. Les algorithmes matrialiss par les trois courbes peuvent ainsi tre compars entre eux :
283
284
9. Le data mining
285
286
9. Le data mining
ON
[TM Decision Tree].[Marital Status] = t.[MaritalStatus] AND
[TM Decision Tree].[Gender] = t.[Gender] AND
[TM Decision Tree].[Yearly Income] = t.[YearlyIncome] AND
[TM Decision Tree].[Total Children] = t.[TotalChildren] AND
[TM Decision Tree].[Number Children At
Home] = t.[NumberChildrenAtHome] AND
[TM Decision Tree].[Education] = t.[Education] AND
[TM Decision Tree].[Occupation] = t.[Occupation] AND
[TM Decision Tree].[House Owner Flag] = t.[HouseOwnerFlag] AND
[TM Decision Tree].[Number Cars Owned] = t.[NumberCarsOwned]
Le rsultat de la requte peut tre envoy dans Excel puis trait en ne slectionnant que les acheteurs potentiels cest--dire Bike Buyer = 1.
9.4 Conclusion
287
Le code ProspectAlternate identifie prcisment le client. Lexpression permet de donner la prcision de la prdiction.
Dans Excel, nous trions la colonne Expression (Probabilit) en mode dcroissant. Trions galement la colonne Bike Buyer. Nous en dduisons les 1 041 acheteurs potentiels sur une population de 2 059.
Notre publipostage portera sur tout ou partie de cette population dacheteurs
(Bike Buyers = 1).
9.4 CONCLUSION
Ce chapitre nous a montr les nombreux assistants fournis par Analysis Services.
Nous esprons avoir convaincu le lecteur que le data mining nest pas rserv
aux grandes entreprises qui disposent dun large volume de donnes.
Il nest pas non plus indispensable dtre statisticien pour exploiter ces nouvelles possibilits. Les entreprises qui se donneront la peine dexploiter les nombreuses facettes de cet outil dcouvriront de nouvelles pistes jusque l encore
inexplores.
10
Reporting Services
290
mettait daccder aux cubes et deffectuer des analyses grce au tableau crois
dynamique. Or, nous lavons dj dit, lessentiel des donnes de lentreprise est
consult au moyen de rapports prdfinis. cette poque, Cognos et Business
Objects disposaient dj doutils de reporting tels que ReportNet et Crystal
Report. Microsoft na donc pas attendu la version 2005 de SQL pour offrir son
module de reporting.
Reporting Services regroupe un ensemble doutils, dinterfaces de programmation, de services run-time et doutils visant dfinir, gnrer, dployer, et grer
des rapports. Reporting Services comprend un moteur pour hberger et traiter
les rapports. Une interface de programmation permet galement dincorporer des
rapports dans diffrents environnements informatiques.
10.1.1
SSRS permet de crer des rapports pour une diffusion interne ou externe lentreprise. Reporting Services offre la possibilit daccder aussi bien aux bases de donnes oprationnelles quaux magasins de donnes ou cubes OLAP. Les rapports
peuvent tre diffuss largement par messagerie lectronique ou sur un portail web.
Lorsquun diteur de logiciel offre des solutions dERP bases sur SQL Server,
il peut intgrer Reporting Services dans sa solution afin de proposer des rapports
interactifs prdfinis.
Cette solution permet au client final de disposer dun outil lui permettant de
crer lui-mme ses propres rapports dynamiques. Ce nouvel outil, Report Builder,
isole la complexit de la base de donnes en exposant la couche mtier lutilisateur.
SSRS permet aux entreprises de mettre des rapports disposition sur le Web.
Elles peuvent en effet concevoir des extranets scuriss destination de leurs
clients et fournisseurs.
Voici quelques scnarios dutilisation de Reporting Services.
Rapports internes
Rapports Maison (vente, finance, DRH).
Administrables, accessibles via un portail ou intgrs aux solutions dentreprise.
Rapports embarqus
Afficher des rapports dans nimporte quelle application dentreprise (ERP,
CRM) ou analytique.
Architecture extensible et flexible.
291
Rapports collaboratifs
B2B, B2C, changes inter ou intra entreprises, etc.
Rapports externes
Publier des rapports via extranet, Internet.
Isolation de donnes, scurit extensible.
10.1.2
SSRS gre de manire centralise le cycle de vie dun rapport depuis sa cration
jusqu sa diffusion. Il utilise une architecture multiniveau illustre dans la figure 10.2.
Les principaux composants de SSRS sont donns dans le tableau 10.1.
Tableau 10.1 Composants de SSRS
Base de donnes
et sources
de donnes
Outils de cration
de rapports
Les formats
de rapports
Format libre.
Format tabulaire.
Format matriciel (tableau crois).
Graphique de donnes.
Filtrage dynamique lors de lexcution.
Regroupement en sous-totaux et totaux gnraux.
Tris ascendant/descendant.
Rapports lis activs par lien hypertexte avec passage
de paramtres.
Excution
de rapports
Exportation
Scurit
Web Service
Formatage
Report Processing
Report Server
WMI
Application
Interrogation
des donnes
URL
Administration
Cibles
(Courrier, Fichier,
Autres)
Formats
(HTML, Excel,
PDF, Autres)
Report Builder
Services Scurit
(NT, Passeport,
Autre)
Sources de donnes
(SQL, OLE DB, ODBC,
Oracle, clients)
Navigateur
292
10. Reporting Services
293
Direct.
Mise en cache. Capture instantane.
Historique des rapports excuts
conserv pour consultation ultrieure.
Scurit
Utilisateurs.
Groupes.
Rles.
Dfinir la scurit.
Planifier lexcution et la remise
de rapports.
Effectuer le suivi des rapports.
API de service web.
Options de remise
Excutions planifies.
Excutions pilotes par vnements.
Abonnements.
Rapport reu ou lien avec le serveur.
Abonnements pilots par les donnes.
294
Report Builder est un outil client qui permet aux utilisateurs non-programmeurs
de dfinir et dployer des rapports sans aucune connaissance de SQL Server.
Report Builder se base sur des modles conus laide du concepteur de modles
de rapports (Report Model Designer). Cet outil stocke les dfinitions de rapports
dans la base de donnes Report Server. Ces rapports peuvent ensuite tre modifis, complts et publis par lutilisateur lui-mme via linterface web.
295
296
Forks
2002
Q4
23543,1060
Bikes
Road Bikes
2002
Q1
3171787,6112
Components
Wheels
2002
Q4
163921,8870
Clothing
Socks
2003
Q3
6968,6884
Bikes
Road Bikes
2003
Q4
3734891,6389
Components
Mountain Frames
2002
Q3
608352,8754
Components
Handlebars
2002
Q4
18309,4452
Accessories
2003
Q3
41940,3364
Components
Road Frames
2003
Q2
457688,8401
Clothing
Vests
2003
Q4
66882,6450
297
298
Figure 10.10
Lassistant propose
un rsum
des actions effectues
lors de la cration
du rapport
299
Un clic droit sur la solution AdventureWorks Sample Reports permet de vrifier le paramtre de dploiement. TargetServeurURL doit fournir une adresse
telle que http://localhost/reportserver.
300
301
Figure 10.15
Le rsultat de la requte MDX
dans Proclarity
Figure 10.16
Le concepteur
de matrice dispose
les axes Produits
et Date en lignes
et colonnes
302
Figure 10.17
Rapport
des ventes
labor partir
dune source
OLAP Analysis
Services
Figure 10.18
Crer
une source
de donne
personnalise
de type Analysis
Services
303
La source de donnes doit prciser la chane de connexion. Celle-ci est fournie dans le formulaire des proprits de la source de donnes partage comme
dans lexemple de la figure 10.19.
304
Figure 10.21 Le mme rapport quen 10.17 avec introduction dun graphe
305
306
mme temps semble complexe. En ralit, Visual Studio offre un assistant pour
les paramtres de filtrage dune grande simplicit. Fort heureusement, nous
naurons pas modifier manuellement le code MDX gnr par lassistant.
Dans notre exemple, nous ajouterons successivement un filtre sur lanne puis
un second sur la catgorie de produit.
Depuis longlet Donnes, nous glissons lattribut CalendarYear dans la zone
rserve au filtrage matrialise par le texte <Slectionnez une dimension>. Aussitt une ligne nouvelle apparat permettant deffectuer une slection sur les
annes. Il est impratif de cliquer dans la case Paramtres afin de gnrer un
nouveau dataset au format MDX permettant ainsi de proposer une liste droulante lutilisateur. Cette fonction permet galement dimbriquer le fitrage dans
le dataset initial (AdventureWorksAS).
307
Figure 10.24
Le dataset de
filtrage est gnr
automatiquement
Figure 10.25
Formulaire
des paramtres
du rapport
308
309
10.3.1
La scurit
Gestionnaire de contenu
Lecteur
Mes rapports
Serveur de publication
Par exemple, un utilisateur auquel il a t attribu un rle de serveur de publication sera autoris publier, crer, voir et supprimer des rapports. En revanche,
il ne sera pas autoris crer de nouveaux rles.
310
Dans la plupart des cas, les droits daccs aux diffrents dossiers et objets
devront faire lobjet dune attribution spcifique de la part de ladministrateur.
Il existe une exception cette rgle : ladministrateur local dispose de toutes les
autorisations. Un utilisateur qui appartient au groupe local Administrateurs sur
le serveur qui hberge Reporting Services disposera de tous les droits.
Afficher
les modles
Afficher
les rapports
Afficher
les ressources
Afficher les sources
de donnes
Crer
des rapports lis
Dfinir la scurit
pour des lments
individuels
Grer
les abonnements
individuels
311
Grer lhistorique
de rapport
Grer tous
les abonnements
312
Gnrer
des vnements
Grer la scurit
du serveur
de rapports
Gestionnaire
de contenu
Lecteur
Mes rapports
Serveur de publication
313
Gnrateur Gestionnaire
Mes
Lecteur
Publication
de rapports de contenu
rapports
Afficher
les dossiers
OUI
OUI
OUI
OUI
NON
Afficher
les modles
OUI
OUI
OUI
NON
NON
Afficher
les rapports
OUI
OUI
OUI
OUI
NON
Afficher
les ressources
OUI
OUI
OUI
OUI
NON
Afficher
les sources
de donnes
NON
OUI
NON
OUI
NON
Crer
des rapports lis
NON
OUI
NON
OUI
OUI
Dfinir la
scurit pour
des lments
individuels
NON
OUI
NON
NON
NON
Grer les
abonnements
individuels
NON
OUI
OUI
OUI
NON
Grer
les dossiers
NON
OUI
NON
OUI
OUI
Grer
les modles
NON
OUI
NON
NON
OUI
Grer
les rapports
NON
OUI
NON
OUI
OUI
Grer
les ressources
NON
OUI
NON
OUI
OUI
Grer
les sources
de donnes
NON
OUI
NON
OUI
OUI
Grer
lhistorique
de rapport
NON
OUI
NON
OUI
NON
314
Rles
Gnrateur Gestionnaire
Mes
Lecteur
Publication
de rapports de contenu
rapports
NON
OUI
NON
NON
NON
OUI
OUI
NON
NON
NON
Gnrer
des vnements
Grer la scurit
du serveur de rapports
315
Les tches et les rles ont t dfinis. Il convient maintenant dattribuer des
utilisateurs ou groupes dutilisateurs Windows dans chaque rle.
Figure 10.29
Nouvelle attribution
de rle systme
Figure 10.30
Formulaire de nouvelle
attribution de rle systme
316
Cliquez sur Modifiez la scurit de llment Une confirmation de modification de lhritage des paramtres de scurit du dossier parent est demande
loprateur. Il est ainsi possible deffectuer une nouvelle attribution de rle.
317
Figure 10.33
Crer un nouvel utilisateur
Windows
318
lissue de ce traitement, voici les rles attribus au rpertoire AdventureWorks Sample Reports (figure 10.34).
10.3.2
10.3.3
Lexcution de rapports
319
cache de faon temporaire des copies de ce dernier pour liminer les temps
dattente lorsque plusieurs utilisateurs y accdent quelques minutes dintervalle.
Pour ouvrir cette page, slectionnez un rapport, cliquez sur longlet Proprits
situ en haut de la page, puis sur le menu Excution situ sur le ct gauche de
la page.
Prcisons les diffrents choix proposs.
Toujours excuter ce rapport avec les donnes les plus rcentes : Utilisez cette
option lorsque vous souhaitez que le rapport soit excut la demande ou
lorsquun utilisateur le slectionne. Si une copie du rapport est encore disponible en cache mmoire, lextraction ne sera pas excute et laffichage
du rapport sera instantan.
Ne pas mettre en cache les copies temporaires de ce rapport. Le rapport sera
toujours excut avec les donnes les plus rcentes. Chaque utilisateur qui
ouvre le rapport dclenche un accs la source de donnes.
320
Mettre en cache une copie temporaire du rapport place une copie temporaire
du rapport dans un cache lorsquun premier utilisateur ouvre le rapport.
Les performances sont meilleures pour les utilisateurs qui ouvrent le mme
rapport avec les mmes paramtres dextraction, car il ny aura pas daccs
la source de donnes.
Faire expirer la copie du rapport aprs un certain nombre de minutes. Saisissez
le nombre de minutes aprs lequel la copie temporaire nest plus valide.
Une fois cela, elle nest plus renvoye partir du cache. La prochaine fois
quun utilisateur ouvrira le rapport, le serveur de rapports retraitera ce dernier et replacera une copie du rapport actualis dans le cache.
Faire expirer la copie du rapport selon la planification suivante : ce paramtre
permet de dfinir une date et heure dexpiration pour un rapport. Pour
quun rapport mis en cache expire en fin de journe, par exemple, vous
pouvez slectionner une heure durant la nuit aprs laquelle la copie expire.
Effectuer le rendu de ce rapport partir dune capture instantane dexcution
du rapport : cette option permet de traiter un rapport comme un clich,
lheure planifie. Choisissez cette option lorsque vous souhaitez excuter
un rapport aux heures creuses. Contrairement aux copies mises en cache
qui sont cres lorsquun utilisateur ouvre le rapport, un clich est cr,
puis actualis, suivant une planification. Les clichs restent en service
jusqu ce quils soient remplacs par de nouvelles versions.
321
Les clichs gnrs par les paramtres dexcution de rapport ont les mmes
caractristiques que les clichs dhistorique de rapport. La seule diffrence
rside dans le fait quil nexiste quun seul clich dexcution de rapport et
plusieurs clichs dhistorique de rapport. Les clichs dhistorique de rapport
sont accessibles partir de la page Historique du rapport, qui stocke de
nombreuses instances dun rapport diffrents moments dans le temps.
Les utilisateurs ont accs aux clichs dexcution de rapport partir des
dossiers (comme pour les rapports actifs).
Crer une capture instantane du rapport lorsque vous cliquez sur le bouton
Appliquer de cette page : cliquez sur ce bouton pour rendre le clich disponible avant lheure de dbut planifie.
Dlai dexpiration de lexcution des rapports : spcifie si le traitement dun rapport doit tre interrompu aprs un certain nombre de secondes. Si vous
choisissez le paramtre par dfaut, le paramtre du dlai dexpiration spcifi dans la page Paramtres du site est utilis pour le rapport.
10.3.4
Cette fonctionnalit permet de conserver une trace des rapports excuts. Plutt
que de conserver des copies des donnes des instants diffrents, il sera plus
322
simple de conserver les instantans des rapports. Il est ainsi possible de conserver
des listes dinventaire, des ratios financiers ou des rapports de production diffrentes priodes et ainsi danalyser les tendances. Prcisons que ces analyses restent visuelles et que les rapports ne peuvent nouveau faire lobjet de rexcution.
Pour les analyses de tendance nous prfrerons naturellement la richesse des KPI
fournis avec Analysis Services.
10.3.5
323
Plusieurs types de souscription aux rapports sont proposs par Reporting Services.
Lorsquun utilisateur qui affiche un rapport dsire souscrire un envoi rgulier
du rapport, il cre un abonnement.
Il peut recevoir ses rapports soit par e-mail, soit dans un rpertoire partag.
La dernire option permet galement de placer le rapport dans un entrept de
documents index par une application telle que SharePoint Portal.
Le formulaire ci-dessous prsente les options lies la procdure dabonnement au rapport Company Sales.
La gestion des abonnements ncessite que le service SQL Server Agent soit
actif. Le gestionnaire dabonnements envoie les rapports via le compte SMTP.
Ce compte a t paramtr lors de la configuration de Reporting Services (exemple : smtp.wanadoo.fr).
324
Un lien dynamique vers le serveur permet de rafrachir le rapport et de retrouver une navigation dynamique (drill down sur les annes ou les catgories).
Dautres formats peuvent tre joints en pices attaches (PDF, CSV, Excel, etc.).
325
entre les diffrentes tables qui constituent une commande (entte de commande/
lignes de commande/clients/produits).
Un grand nombre dutilisateurs souhaite disposer dun environnement utilisateur de cration de rapports nimposant ni dutiliser Visual Studio ni de crer
des requtes SQL pour les rapports. Les utilisateurs et analystes souhaitent crer
des rapports directement sur les clients, les commandes, les ventes, etc. Certains
raisonnent au niveau concept mtier, ou domaine , et souhaitent exprimer
leurs requtes ce niveau plutt quau niveau du schma logique.
Report Builder permet de dcrire et de mettre en correspondance les entits
mtier avec la couche de schma logique. Cette mthode porte le nom de
SMDL (Semantic Model Definition Language).
Report Builder permet de crer des rapports de type tabulaire, matriciel ou
graphique. La cration dun rapport ncessite au pralable la mise disposition
dun modle de rapport. Ce modle est conu grce lassistant de cration dun
modle de rapport. Les modles de rapport portent lextension .smdl.
Lors de la publication du modle sur le serveur, de nombreuses entits et
champs drivs sont crs. Le tableau 10.10 donne la liste des options disponibles
lors de la gnration du modle de rapport.
Tableau 10.10 Options disponibles lors de la gnration du modle de rapport
Options
Description de loption
326
Options
Description de loption
Entits de recherche
Petites listes
Grandes listes
Dconseiller
le regroupement
327
Figure 10.43
Le formulaire liste les champs source
repris dans le modle
Figure 10.44
Lentit Sales Person
montre les colonnes
drives
Lorsque le modle de rapport est publi sur le serveur, le manager peut concevoir ses rapports personnaliss. Il manipule les donnes mtier en les filtrant, en
les groupant, en les triant ou en crant de nouvelles formules.
Lorsque le rapport est dfini, il peut tre enregistr sur le serveur de rapports.
Il devient donc disponible aux utilisateurs autoriss.
Le filtrage offre des conditions simples utiliser et intuitives.
328
10.5 Conclusion
329
10.5 CONCLUSION
Les managers oprationnels disposent de peu de temps pour se former aux techniques de la cration de rapports. Les informaticiens joueront pleinement leur
rle en prparant des rapports utiles aux personnels de lentreprise. La facilit
de comprhension des rapports et leur mise disposition rapide permettra aux
oprationnels de suivre les indicateurs essentiels et ainsi de partager avec la
direction, la vision de lentreprise.
11
Lanalyse de donnes
avec Excel
332
un lieu de ressaisie manuel mais un outil danalyse accdant aux donnes stratgiques.
Dans ce chapitre nous prsenterons les tableaux croiss dynamiques dExcel
accdant aux cubes OLAP 2000 ou 2005. Depuis la version dExcel 2000 le mode
opratoire daccs un cube OLAP est le mme. La version Excel 2007 (Office 12)
ne droge pas la rgle. Elle apporte cependant une fonctionnalit lie SSAS
2005 : les indicateurs cls de performance (KPI).
Microsoft a galement mis disposition des utilisateurs dExcel un complment nomm Office Excel pour SQL server Analysis services. Cet outil apporte
des fonctionnalits qui nexistent pas dans les tableaux croiss dynamiques, en
particulier laccs simultan plusieurs cubes, et les fonctionnalits dcriture
dans un cube OLAP. Nous prsentons cet outil dans ce chapitre.
Grce aux Office Web Components (OWC), Microsoft offre la possibilit dencapsuler des tableaux et graphes dynamiques dans des pages web. Cette fonctionnalit est trs prise des utilisateurs nomades qui peuvent ainsi accder leurs analyses
sur Excel via un navigateur web.
Avec Office Business Scorecard Manager 2005, Microsoft offre une ouverture
nouvelle aux managers soucieux de gouvernance dentreprise. Les indicateurs cls
de lentreprise sont prsents sous forme de tableaux de bord synthtiques. BSM
sintgre naturellement dans un portail maison, Sharepoint Portal.
Depuis avril 2006, la socit Proclarity, spcialise dans les outils de restitution sur plateformes MS OLAP, a t rachete par Microsoft. Nous montrons
lapport de cette socit dans la chane dcisionnelle de Microsoft.
333
Figure 11.1
Connexion
au serveur Analysis
Services 2005
Slectionnez la base de donnes (ou cube ou perspective) dsire. Il est ncessaire de crer une nouvelle source de donnes et de choisir un cube analyser.
Le fournisseur OLAP varie en fonction de la version du serveur Analysis Services. La version 8 correspond AS 2000, la version 9.0 MSAS 2005.
Figure 11.3
Liste de sources OLAP
334
Figure 11.4
Slectionner
lemplacement
du rapport
Le tableau crois peut tre cr dans la feuille Excel existante ou dans une nouvelle feuille. Le positionnement du tableau dans la feuille doit galement tre prcis.
Dans la figure 11.4 le tableau crois sera cr dans la feuille existante en cellule A3.
Lassistant fournit un modle de rapport Vierge que lutilisateur devra complter. Lespace de travail est compos de rgions qui ont chacune un rle spcifique.
Les champs de ligne et de colonnes reoivent les attributs ou hirarchies de dimensions. Voir figure 11.5.
Les champs de page permettent deffectuer un filtrage de la source de donnes
sur plusieurs critres.
335
Figure 11.7 Le tableau crois prsente les ventes effectues sur le territoire franais,
par catgorie de produit (lignes) et par annes calendaires (colonnes)
Figure 11.8
Options avances
de champ
dynamique
336
Figure 11.9 Liste des dix meilleures ventes de vlos (Road Bikes) de 2001 2004
337
La figure ci-dessus montre une slection des 10 meilleures ventes (Total sales
amount) tries en ordre dcroissant.
Il est possible dagrmenter la prsentation du tableau en appliquant diffrents types de formats. Dans la figure 11.9 le format standard a t appliqu.
Afin de rendre plus visuel le tableau il est possible dajouter une graphique
crois dynamique.
Le graphique crois dynamique est directement li au tableau crois. Le graphique est mis jour dynamiquement en fonction des choix effectus dans le
tableau. Un drill down dans le tableau entraine la mme opration dans le graphique et rciproquement.
Excel 2007 prsente des amliorations visuelles et de nouvelles fonctionnalits.
Figure 11.11 La nouvelle interface des tableaux croiss dynamiques dExcel 2007
Excel 2007 permet galement une restitution des KPI (Indicateurs cls de
performances) inclus dans Analysis services 2005.
Crer un cube local
Pour des collaborateurs nomades qui par dfinition se dplacent et qui ne disposent pas toujours dune connexion Internet il est parfois souhaitable de leur
fournir des outils danalyse. Les administrateurs pourront ainsi extraire des cubes
et les stocker sur des portables avec toutes les donnes ncessaires. Des aspects
de scurit doivent galement tre pris en compte.
338
Excel dispose dune fonction de cration de cube local partir dun cube
SSAS. Il sagit de la fonction OLAP hors connection du menu Tableau crois
dynamique.
Les paramtres constitutifs du tableau crois sont transfrs dans le cube local.
Figure 11.14
On choisit les dimensions
et les mesures exporter
339
Figure 11.15
Connexion OLAP
un cube OLAP
Il est noter que Microsoft Query, inclus dans Excel, dispose dun assistant
permettant de crer des cubes partir dune source relationnelle.
Depuis la version 2000, Excel permettait dj de raliser des cubes. Cette
fonctionnalit reste rudimentaire et ne sapplique qu des sources de donnes
peu volumineuses. Cette fonctionnalit ne doit pas occulter la recommandation
majeure de la business intelligence : partager un mme et unique rfrentiel dans
lentreprise.
Ces recommandations tant faites, nous prsentons succinctement les tapes
qui permettent de crer un cube avec Excel.
Dans MS Query aller dans Fichier puis Cration de cube OLAP.
Figure 11.16
Lassistant
de cration
de cube OLAP
partir de MS
Query
340
La requte porte une extension .oqy et est stocke par dfaut dans le rpertoire
requtes dExcel : C :\Documents and Settings\Administrateur\Application Data\
Microsoft\Requtes\AdventureWorks.cub.
Le tableau crois dynamique dExcel est loutil permettant de relire un cube
stock selon ce format.
11.2 Complment Microsoft Office Excel pour SQL Server Analysis Services
341
Figure 11.17 Le menu Analyse des cubes du complment Excel pour OLAP
342
Plusieurs filtrages peuvent tre associs. Les navigations drill down et drill up
sont disponibles. la diffrence du tableau crois dynamique, le tableau peut
tre scind. Des lignes et colonnes peuvent y tre ajoutes.
11.2 Complment Microsoft Office Excel pour SQL Server Analysis Services
343
344
Figure 11.22
Insertion
dun composant web
avec FrontPage
11.4 Conclusion
345
Par la suite, lutilisateur dfinit lui-mme les axes danalyse, filtre et trie les
donnes selon ses propres analyses.
11.4 CONCLUSION
De nombreux outils taient dj intgrs dans Office 2000 permettant deffectuer
toutes sortes de requtes et danalyses. MS Access et MS Excel sont largement
346
rpandus dans les entreprises. De nombreuses pme/pmi ont mis en place des
systmes dcisionnels efficaces grce de tels outils.
Les limitations de tels outils ont t voques plus haut. Grce SQL server
2005 et Analysis services, Microsoft a su concilier la puissance et la robustesse
dun systme centralis connects des outils fortement rpandus auprs des
managers dentreprises.
Pour les utilisateurs nomades dsireux deffectuer tous types danalyse tout en
restant connect leur entreprise, Microsoft ne disposait pas de solution satisfaisante. Depuis lacquisition de la socit Proclarity ce vide est combl. Nous
verrons dans le chapitre suivant les diffrentes solutions danalyse offertes via le web.
12
Lanalyse de donnes
sur le Web
Reporting Services, totalement orient Web, offre une lecture statique des donnes de lentrept et des cubes OLAP. Excel, grce aux OWC permet une lecture
plus dynamique des mesures et axes dimensionnels. Bien quExcel soit loutil
danalyse le plus rpandu et le mieux matris par les managers, il nen reste pas
moins que certains prrequis sont ncessaires : une licence Excel est ncessaire
sur chaque poste utilisateur et le composant OWC doit galement tre install
pour une lecture sur le Web.
Si lon dsire accder des informations danalyse dans un contexte extranet,
il est indispensable de disposer doutils qui ne ncessitent aucune installation
ct poste client.
Afin de rpondre cette attente, Microsoft a acquis cette technologie en
avril 2006, auprs de la socit Proclarity. La vocation de Proclarity fut pendant
des annes de dvelopper des outils de restitution autour des outils SQL Server
2000/2005 et du portail Sharepoint.
Microsoft annonce que les outils dvelopps par Proclarity feront partie intgrante de la suite dcisionnelle aux cts de Business Scorecard Manager. On y
trouve les fonctionnalits exposes dans les sections suivantes.
348
Derrire chaque indicateur cl de performance, le client analytique lger permet de rpondre la question Pourquoi ? . Proclarity propose des modes de
reprsentation inhabituels et complmentaires ceux dExcel, tels que larbre de
dcomposition, la carte de performance et la vue en perspective.
12.1.1
Larbre de dcomposition
349
Les donnes sont affiches sous forme de chiffres bruts et de pourcentages. Vous
pouvez trier les nuds du plus grand au plus petit ou inversement. En outre, les
graphiques de Pareto illustrent la rpartition des valeurs afin de permettre didentifier rapidement les groupes qui apportent la plus grande contribution un total.
350
ces accessoires, il suffit de placer le curseur sur les barres ou de cliquer sur
le nud Top 3 (3 premiers) afin dafficher son contenu.
Une diminution significative de la quantit daccessoires vendus est observe partir de la troisime barre. Cette situation pourrait ventuellement
faire lobjet dune analyse plus approfondie.
12.1.2
La carte de performance
Une carte de performances (figure 12.3) utilise des ratios de tailles et de couleurs
pour comparer les valeurs de deux mesures pour chaque lment de la vue :
la taille de case reprsente la premire mesure;
la couleur de case reprsente la seconde mesure.
En un seul coup dil, il est possible dvaluer limportance de ces mesures
appliques la requte. Par exemple, si la taille correspond aux ventes et la couleur, aux bnfices, vous pouvez :
valuez les performances en vous posant des questions telles que Quel
produit a ralis les plus fortes ventes au cours du quatrime trimestre
2002 ? (plus grande taille affiche dans langle suprieur gauche : SE200) et
Quel est le produit qui a ralis la meilleure progression ? (couleur claire
en bas gauche : CA 635).
Identifiez des opportunits damlioration en vous demandant : Pourquoi, malgr sa position en tte des ventes (case la plus grande), le produit
MI-562 a-t-il ralis une progression mdiocre (couleur la plus fonce) ?
Identifiez les exceptions en vous demandant : Pourquoi tel produit ralise-t-il des ventes infrieures aux autres produits doubles dune faible progression (petite taille et couleur noire) celles des autres produits durant la
mme priode ?
Figure 12.3
Carte
de performances
12.1.3
351
La vue en perspective
Une vue en perspective ressemble un nuage de points, ceci prs quelle offre
des informations plus dtailles et plus nombreuses. Elle affiche les performances
de grandes quantits de donnes en fonction de deux mesures. Elle permet de
rpondre des questions telles que :
Quels sont les clients avec lesquels je fais le plus de bnfices ? (Quelle est
la part du bnfice par rapport la rentabilit ?)
Quel est le rapport entre le chiffre daffaires prvisionnel et le chiffre daffaires rel ?
Quel est le rapport entre le budget et la situation relle ?
La vue en perspective (figure 12.4) est utilise pour mettre en vidence les
relations entre de nombreuses reprsentations de donnes. Elle permet deffectuer
une analyse sectorielle, dexpliciter dimportants volumes de donnes et dtablir
des correspondances entre plusieurs mesures simultanment au sein dune hirarchie.
Lorsque vous dplacez les rgles mobiles statistiques, vous pouvez vous concentrer sur un pourcentage donn de la valeur totale. Vous pouvez, par exemple, dplacer la rgle pour afficher les quatre-vingts premiers pour cent du chiffre daffaires
et 80 % des quantits.
352
Analytics Server est le composant central de la plate-forme de business intelligence (figure 12.5). Les utilisateurs peuvent manipuler leurs donnes, les analyser et communiquer des tableaux au moyen dune grande varit dinterfaces.
Les administrateurs disposent dun outil leur permettant de centraliser les
droits daccs aux librairies en un endroit unique.
Le serveur analytique centralise la dfinition de rapports pr-tablis dans un
livre (briefing book).
La publication du livre sur le serveur PAS autorise son exploitation via un
navigateur Internet. La figure 12.6 montre les diffrents onglets permettant deffectuer tous types de traitements sur les rapports. Longlet navigation rassemble des
fonctions de Drill down (forage vers le bas), de Drill Up (forage vers le haut),
Longlet Data Layout permet de disposer les mesures et les dimensions sur la
surface du dessin.
Longlet View permet de choisi le type de graphe. Longlet Sort effectue des
tris sur les donnes. Longlet Filter autorise des filtres sur les sources de donnes;
Ces onglets sont dtaills dans les figures 12.11 et suivantes.
Linterface dadministration est compose de deux parties : la gauche prsente
les composants tels que les librairies et les rles, la droite fournit les dtails des
rpertoires.
353
354
Les Librairies sont cres sur le serveur analytique par les utilisateurs autoriss
laide de Proclarity Professionnal. Lors de la cration dune librairie, le dossier
Books est cr. Il rassemble les rapports partags sur le serveur.
Le rpertoire Components contient les logiciels distribuables auprs des utilisateurs sur le Web. Par exemple, le composant Web Professional peut tre autoris au tlchargement afin de permettre la cration de rapports sur le Web.
Le rpertoire des Rles contient des groupes dutilisateurs.
Le rpertoire des Users contient les comptes individuels ajouts au serveur
analytique. Par dfaut PAS (Proclarity Analytic Server) refuse les droits de
publication ou de fournir des liens vers les livres de rapports via e-mail.
Le serveur Proclarity agit comme une sorte de portail intgrant des rapports
dorigines diffrentes telles que Reporting Services. La figure 12.9 montre lintgration dun Rapport des ventes labor avec Reporting Services dans une interface Proclarity.
Les outils disponibles dans linterface web sont nombreux. La figure 12.10
montre une slection de sets (ensemble de donnes). Les boutons ADD ou Remove
permettent dajouter ou de retirer les slections.
355
Longlet Navigation
Sur le web il existe deux modes de navigation : standard et Professional. Le mode
standard ne ncessite aucun ajout ou tlchargement de contrle activeX. Le mode
professional nest disponible que si lapplication Proclarity Professional est installe sur le poste client.
356
Dans la mme interface web, il est possible de recourir tous types de navigation (figure 12.11) tels que Drill down, Drill Up, Expand (dvelopper), Show
only (slectionner un membre seulement) ou Hide (cacher tel ou tel membre de
dimension).
Longlet View
Longlet View permet de choisir les types de graphiques, dajouter des options de
totalisation par ligne et colonnes ou de supprimer les hirarchies dimensionnelles.
Longlet Sort permet de trier toute colonne en ordre ascendant ou descendant
tout en prservant les groupes hirarchiques.
Longlet Filter permet de slectionner ou cacher des lignes selon les critres
habituels : les n meilleurs, les x valeurs les plus basses. Les valeurs au-dessus, audessous ou entre des bornes. Il est possible de fournir les valeurs en pourcentages
ou en sommes de mesures.
Lutilisateur dispose dun choix de fonctions (figure 12.13) permettant de sauvegarder ses vues personnelles afin dorganiser son propre environnement danalyse. Il peut galement imprimer sur limprimante disponible ou exporter les
357
donnes dans la version dExcel installe sur le poste utilisateur. Lenvoi par email permet de faire parvenir un lien au destinataire. Ce lien excute un accs
scuris au serveur afin de fournir des donnes dynamiques et jour.
Lenvoi par mail dun rapport au format PDF est
galement possible grce la fonction imprimer. La
figure 12.13 montre les diffrentes options denvoi de
documents (Imprimante, Excel, Messagerie lectronique, serveur PAS etc.)
Les utilisateurs qui disposent dune version Proclarity Professional installe sur le poste peuvent aussi
crer et publier de nouveaux rapports scuriss.
Figure 12.13
Diffrentes options
denvoi de documents
358
PAS gre toutes les connexions et les droits daccs aux cubes. Dans un environnement de clusters, PAS permet un accs simultan de plusieurs milliers
dutilisateurs.
Les techniques de caching optimisent les performances.
12.4 Conclusion
359
12.4 CONCLUSION
Ce chapitre a montr linnovation apporte par le logiciel Proclarity et ses diffrentes dclinaisons. Laccs aux tableaux via le web est une demande croissante
en particulier pour les oprateurs qui offrent des solutions dhbergement dapplications (ASP : Applications Services Providers).
Selon les informations en notre possession, Microsoft projette dinclure l logiciel
Proclarity dans son futur produit PerformancePoint. Une version de PerformancePoint integrera galement BSM. Le lecteur intress par PerformancePoint pourra
consulter le site http://office.microsoft.com/fr-fr/assistance/CH101649551033.aspx.
13
Passez laction !
Tous les projets ne se ressemblent pas et tous les chefs de projets sont diffrents.
Commenons par le premier constat. La gestion dun projet dcisionnel (BI)
est diffrente de celle dun projet traditionnel car elle implique un grand nombre
de technologies diffrentes, tant sur le plan logiciel que matriel. En outre, les
projets traditionnels de dveloppement de logiciels impliquent une mthodologie de dveloppement linaire, alors que les projets de BI exigent une approche
itrative. Lapproche itrative dbute par ltude des besoins, lbauche du modle
analytique, sa mise disposition auprs des utilisateurs et les corrections qui
simposent en fonction de ladquation des rsultats obtenus par rapport ceux
attendus et des contraintes dvolution du mtier.
Les projets BI exigent galement de lquipe projet davoir une plus grande
interaction avec un large primtre fonctionnel, rassemblant des interlocuteurs
comptents en systmes dinformation ainsi que des analystes et managers.
Pour russir dans le domaine de la BI, une quipe de projet doit tre compose
de membres ayant une forte composante mtier conjugue une bonne comptence technique.
Ces contraintes exigent souvent une connaissance approfondie sur le sujet
trait (finance, marketing, achats, etc.).
Naturellement, la matrise des technologies essentielles telles que lintgration de donnes, la modlisation ou lanalyse dentreprise est indispensable.
362
363
de projet BI aura assum par le pass plusieurs rles diffrents dans des projets
antrieurs.
En plus de lexprience pratique des projets BI, un chef de projet efficace doit
contrler ltendue du projet et de son budget. Ceci exige de sa part quil surveille
activement lavancement des tches, les livrables, le temps pass et les dpenses
occasionnes par chaque membre de lquipe projet. En contrlant activement
tous ces points, le chef de projet peut dterminer limpact dune demande de
changement et les risques de dpassement de budget.
Leadership
Tout le monde ne dispose pas des qualifications ou des qualits personnelles
ncessaires au contrle dun projet informatique. Un chef de projet doit pouvoir
tre source dinspiration et forcer le respect, vis--vis des membres de lquipe
projet mais galement vis--vis des commanditaires et des reprsentants de la
communaut dutilisateur. Cela exige du chef de projet de pouvoir grer les
attentes de ceux qui il rapporte directement aussi bien que de ceux qui lui
rapportent directement.
Le chef de projet doit construire une quipe forme dindividus qui possdent
diffrentes qualifications et si possible complmentaires. Dvelopper une quipe
aux comptences croises reprsente un rel dfi parce que les membres sont souvent issus de disciplines et de milieux diffrents. Cela exige du leader une volont
dunir des membres pour le bien commun de lquipe et le succs du projet.
Le chef de projet doit galement matriser la gestion des conflits et lart de
la ngociation. On constate cependant que beaucoup de dirigeants manquent
tout simplement de comptences dans lart de manager les hommes.
Comptences en organisation
Les meilleurs chefs de projet BI sont trs organiss et adhrent aux principes de
base de la gestion de projet. Cela exige deux de dvelopper et soumettre pour
approbation un plan formel de projet intgrant les livrables, les charges, la chronologie des tches et le budget.
Une fois que le planning a t approuv, le chef de projet surveille activement
lavancement des travaux par rapport au plan. La seule manire de communiquer
ltat davancement du projet est de tenir des runions hebdomadaires auxquelles
sont convis tous les membres de lquipe, les commanditaires du projet et le
comit de coordination de projet. En conduisant ces runions rgulirement, tous
les acteurs du projet sont informs de lavancement, des problmes ventuels et
des retards qui en dcoulent.
364
Comptences en communication
Pour tre un chef efficace, un individu doit galement tre un grand communicateur. Un chef de projet efficace transmet ses messages de manire comprhensible afin dtre entendu par lensemble des acteurs. Cela exige des capacits de
communication crite et orale. La communication claire et concise est indispensable au soutien de la solution par la communaut des utilisateurs.
Le succs dun projet BI est intimement li la comprhension de lutilit et
lefficacit de la solution dveloppe. Si les utilisateurs ne parviennent pas
utiliser simplement la solution ou ne comprennent pas les avantages quelle leur
fournit, pourquoi devraient-ils changer leur comportement ? La communication
efficace est essentielle aux attentes des gestionnaires. De plus elle instruit les
utilisateurs et encourage les individus accepter plus facilement le changement.
Qualits personnelles
De notre point de vue, il y a quelques traits personnels qui distinguent de bons
chefs de projet de ceux qui sont exceptionnels. Tout dabord, il y a lhonntet
et le dsir de franchise dans les communications. Un excellent chef de projet sait
nuancer son attitude, qui peut tre ferme et claire afin dinsister sur un point prcis
ou remplie de tact pour ne pas dtriorer des relations ou endommager des rapports entre individus. Lhonntet stimule la confiance et le respect entre les membres de lquipe projet et les sponsors.
En second lieu, les chefs de projet BI exceptionnels sont positifs, ce qui ne
signifie pas dun optimisme bat. Un optimiste espre toujours que le meilleur arrivera en dpit des difficults, et ne parvient pas anticiper les problmes avant quil
ne soit trop tard. Dautre part, une attitude positive inclut une certaine quantit
de scepticisme et une bonne comprhension des ralits de la situation.
Troisimement, les excellents chefs de projet BI sont clairvoyants et peuvent
identifier des sujets de proccupation avant quils ne deviennent de vrais problmes. Tandis que la perception est influence par lexprience, la capacit identifier
ces difficults rduit considrablement le risque et permet au projet de continuer
davancer.
Apprendre des expriences passes
Les excellents chefs de projet possdent de nombreuses qualits acquises au fil
de leur parcours professionnel, et sont influencs par leurs expriences prcdentes. Les caractristiques communes dun tel chef de projet sont ces traits qui les
distinguent de leurs confrres. Le succs dun projet BI repose sur le chef de projet
et sa capacit composer avec les courants politiques de lorganisation tout en
cherchant lappui du commanditaire de projet et du comit de coordination.
365
366
Exemple
La socit Adventure Works Cycles souhaite mettre en place un projet dcisionnel afin doffrir son personnel des outils dinterrogation et de reporting. Cependant, compte tenu de lengagement financier important, le sponsor du projet et
la direction gnrale veulent connatre le ROI gnr par le projet BI. Afin dtablir des lments de comparaison, on estime la charge de travail actuelle du
reporting 120 heures/mois.
On calcule les cots de la mise en place dun nouveau dveloppement BI. Ils
sont synthtiss dans le tableau suivant.
Dpenses
Matriel
Cot
5 000
25 000
35 000
Total
65 000
367
Maintenance et support :
Cot en
(2 000 h/an)
% du temps
de travail
Fonction
Administrateur de base de donnes
5%
7 500
Administrateur systme
5%
7 500
Administrateur rseau
5%
7 500
Total
22 500
Anne 0
Anne 1
Anne 2
Anne 3
108 000
108 000
108 000
108 000
5 000
Logiciel
25 000
2 500
2 500
2 500
Main duvre
35 000
22 500
22 500
22 500
Total investissement
65 000
25 000
25 000
25 000
83 000
83 000
83 000
Rsultats
conomie
n/a
Lconomie ralise sur les trois premires annes est de 249 000 .
Total de linvestissement des quatre premires annes = 140 000 .
ROI = [(249 000 140 000)/140 000)] 100
Soit un ROI de 78 % sur 3 ans.
Ce rendement peut tre considrablement accru dans le cas ou la socit
Adventure Works Cycles commercialisant un grand nombre de marques dcide
de fournir laccs aux donnes chacun des ses fournisseurs. Crant un portail
368
dcisionnel haute valeur ajoute pour ses fournisseurs, elle peut en attendre
un loyer mensuel bas par exemple sur le chiffre daffaires ralis.
Dans lexemple ci-dessus nous avons volontairement compar un systme
manuel un systme automatis. Nous navons pas intgr des notions telles que
lamlioration considrable de la qualit des donnes, de la rapidit de leur mise
disposition et de leur diffusion, ainsi que la disponibilit danalyses permettant
deffectuer des choix de gestion pertinents grce des observations quil tait
impossible de raliser dans un systme manuel.
369
SharePoint Portal Server, pour le partage des graphiques et tableaux croiss dynamiques sur lintranet ou le portail dentreprise;
optionnellement, MapPoint peut tre intgr au dispositif pour une reprsentation cartographique ou des fins de go-analyse ;
Proclarity, nouvel add-in de Microsoft, pour une meilleure visualisation
des donnes et un serveur de cubes sur le Web;
un serveur de Business Performance Management (Business Scorecard Management) permettant une mise en place et un suivi de tous types dindicateurs cls de performance.
Il est conseill davoir connaissance des volutions de ces deux produits dans
la stratgie Microsoft. En effet, Microsoft annonce Office PerformancePoint pour
le premier semestre 2007. Il sagit dune application de planification, de budgtisation et de prvisions. Daprs les informations en notre possession lors de la
rdaction de cet ouvrage, il semblerait que cette appellation englobe Proclarity
et Business Scorecard Management au sein de SharePoint.
Sources
DataMarts
Reporting
Analyses
dtailles
ERP
Outils familiers
(Excel,
Navigateur,)
CRM
Applications tierces
SQL
Server
LOB
Rapports
interactifs
Terminaux
Tableaux
de bord
Stockage
Analyse
Intgration
Services
Analysis
Services
Reporting
Reporting
Services
13.3.1
Laccs aux donnes disperses dans diffrentes parties du systme dinformation des entreprises, selon de multiples sources ncessite la mise en place de
370
protocoles. Simplifier cette tape est indispensable pour pouvoir ensuite manipuler les donnes, les confier aux utilisateurs et amliorer la diffusion dinformation dans lentreprise.
Un ETL extrait les donnes de sources htrognes, les transforme et les rinjecte dans une nouvelle base, le datawarehouse. Cela permet de nettoyer et transformer les donnes. Une seule source de donnes est ensuite interroge par loutil
de restitution.
Le module dETL qui porte le nom dIntegration Services (SSIS) permet une
intgration des donnes en provenance de diverses sources htrognes vers les
environnements daide la dcision (moteur OLAP, datamart, datawarehouse)
ou tout autre type dapplication. Les caractristiques majeures de SQL Integration services sont les suivantes :
service de transfert de donnes (ETL);
accs tous types de sources de donnes (SGBD tiers, mainframe, fichiers,
ODBC, XML, ERP, CRM);
transfert et conversion des donnes laide de scripts;
planification de lexcution des tches;
moteur dagrgation;
support des environnements 64 bits;
intgration avec le reste des composants;
les fonctions de SSIS sont exposes au travers dun modle objet;
migration depuis DTS 2000;
signature des packages laide des certificats;
visualisation en temps rel des donnes traites;
possibilit de crer des points de reprise;
dbogage facilit par linsertion de points darrt;
environnement de dveloppement intgr Visual Studio.
13.3.2
SQL Server 2005 gre la fois des bases de donnes de taille modeste mais aussi
de trs grandes bases de donnes (plusieurs dizaines de tra-octets).
Les fonctionnalits de partitionnement des donnes, de restauration (rcupration rapide et restauration en ligne), doprations de gestion (r-indexation
en ligne, etc.), disolation des transactions, permettent de mieux rpartir la
charge et de travailler sur une base en permanence disponible.
13.3.3
371
13.3.4
Compatibilit, ouverture
Intgration des donnes : des sources de donnes de tous types peuvent tre intgres dans les flux de transformation : Oracle, sources XML, services web, fichiers
plats, etc.
Mcanisme de rplication : SQL Server peut tre utilis comme rpliquat dune
base Oracle.
Chane dcisionnelle : le mcanisme UDM (Unified Dimensional Model) permet
lintgration dans la chane dcisionnelle de nimporte quelle source de donnes
(base ERP, CRM, relationnelle, multidimensionnelle).
Reporting : pour crer des rapports depuis des bases de donnes non Microsoft,
de produire des rapports avec des outils tiers dans des formats au standard du
march (PDF, XML, HTML, CSV, etc.).
SQL Server 2005 ajoute un support natif des services web et de XML dans
la base de donnes. Cela permet une gestion complte et optimise des documents XML dans la base de donnes et la possibilit douvrir les services du
moteur relationnel en utilisant des standards du march (services web).
SQL Server 2005 offre aussi une meilleure compatibilit avec les environnements Oracle, et des interfaces sont disponibles pour SAP.
13.3.5
372
13.3.6
Administration renforce
Ladministration se fait via des interfaces graphiques : SQL Server 2005 introduit
la console dadministration SQL Server Management Console qui permet
ladministration centralise de lensemble des services SQL Server (moteur relationnel, moteur OLPA, moteur ETL, serveur de reporting, mobilit) travers
un unique outil.
13.3.7
Scurit
SQL Server 2005 introduit de nouvelles fonctionnalits qui renforcent la scurit des donnes et des changes avec SQL Server :
chiffrement des donnes;
chiffrement des changes sur le rseau;
gestion des certificats;
filtrage des adresses IP pouvant invoquer un service web.
13.3.8
Analysis Services
13.3.9
Reporting
SQL Server 2005 comporte une plate-forme complte de reporting. De la cration de rapports au travers de Visual Studio, la mise disposition de ces rapports
lutilisateur via une intgration possible au portail ou des applications mtier.
373
Report Builder permet aux analystes mtier de crer des rapports et tableaux
avec des fonctions de navigation interactive au sein des rapports. Report Builder
est compltement intgr Reporting Services 2005. Les outils de reporting, une
fois dploys par les informaticiens, donnent aux managers une relle indpendance pour laccs leurs donnes.
Les diffrentes faons de crer un rapport
Il existe diffrentes manires de crer un rapport :
pour les dveloppeurs : Visual Studio;
pour lutilisateur final : Report Builder;
importation de rapports depuis Microsoft Access;
via des outils partenaires;
gnration de description de rapports en RDL.
Client Report Builder
Report Builder est destin aux utilisateurs finaux pour leur faciliter la cration
de rapports. Les utilisateurs nont pas besoin de comprendre la structure technique des donnes sous-jacentes.
Les rapports sont construits sur la base de modles dvelopps partir de
Reporting Services (table, matrice, graphique) et mis disposition des utilisateurs sur le portail intgr.
Les rapports sont directement sauvegards sur le serveur de rapports. Les rapports conus par les utilisateurs peuvent tre publis et partags sur le serveur.
374
figure 13.2 montre les diffrentes couches qui composent cette plate-forme (couche physique dalimentation, couche applicative, couche de restitution).
13.4.1
375
13.4.2
13.4.3
Livrables
13.4.4
376
13.4.5
Prototype/pilote
13.4.6
Oprations
13.5 CONCLUSION
Le lecteur aura pu sen rendre compte, MS SQL 2005 offre une rponse plus que
satisfaisante la mise en uvre de tout projet dcisionnel. Lapprentissage dun
tel outil permet de dcouvrir non seulement de nouveaux concepts lis au processus dcisionnels mais de les mettre rapidement en uvre grce une bote
outils immdiatement oprationnelle.
Lapparente facilit de dploiement dun projet dcisionnel ne doit cependant
pas occulter limprative ncessit de procder avec mthode. Tout commence
par la vision claire des objectifs atteindre. Les outils ne sont que le moyen de
mettre la stratgie au service de lentreprise.
Noublions jamais que la phase la plus importante du cycle dcisionnel est
laction !
Conclusion
Sans action lintelligence est vaine !
Une enqute rcente publie par le CIO (Le Monde Informatique) montre que le
moteur de la stratgie dcisionnelle est aliment 69 % par le pilotage de la
performance, 53 % par la rduction des cots oprationnels et 51 % par loptimisation de la productivit.
la question quels sont les facteurs cls de succs dun projet dcisionnel ,
86 % des dcideurs pensent que ladquation aux objectifs mtier est essentielle.
Viennent ensuite ladhsion des utilisateurs (78 %), limplication de la direction
gnrale (72 %), ladquation la stratgie de lentreprise (61 %) puis la rapidit
de mise en uvre (51 %). Enfin, les managers pensent que les fonctions dcisionnelles mettre en place sont prioritairement le reporting ad hoc (61 %), le
tableau de bord pour 59 %, le portail dcisionnel (54 %), et lanalyse multidimensionnelle (51 %).
Comme nous lavons vu dans cet ouvrage, des outils sont largement disponibles. De nombreux assistants logiciels tentent de banaliser les fonctions qui, il y
a peu encore, semblaient rserves des lites (statisticiens, prvisionnistes, spcialistes en intelligence artificielle ou systmes experts). La technologie daujourdhui
met porte de clic les analyses les plus complexes (data mining, simulations,
analyses prdictives). Rappelons que 80 % de la russite dun projet de business
intelligence provient de la qualit du datawarehouse. La mthodologie qui prside la conception de lentrept (cf. chapitre 2) est ce titre fondamentale.
Les logiciels sont largement compatibles avec les technologies OLAP de Microsoft. Que vous utilisiez des outils danalyse comme Excel, Powerplay de Cognos,
Business Objects, Hyperion, vous pouvez raliser rapidement et peu de frais un
systme dcisionnel. Le processus itratif dun projet dcisionnel permet de prendre en compte de plus en plus de besoins et ainsi de suivre la progression de
lactivit de toute entreprise.
378
Conclusion
Cependant, peu nombreux sont les dcideurs qui exploitent ces outils en totalit. Qui peut se vanter de connatre (et encore moins dappliquer) toutes les
fonctionnalits dExcel ? Aujourdhui les outils de BI sont extrmement aboutis
et vont mme bien au-del des besoins des dcideurs. Le vritable enjeu ne rside
pas dans le mode demploi des outils de BI, lesquels sont dots de plus en plus
dassistants (ils seront bientt banaliss comme ce fut le cas de la bureautique
dans les annes quatre-vingt-dix) mais bien davantage dans la capacit dutiliser
ces outils au service de la stratgie de lentreprise.
Appliquons ladage de Socrate, connais-toi toi-mme , notre sujet dtude.
Cest parce que lentreprise ralise un travail dintrospection sur elle-mme
quelle va pouvoir se situer dans le monde qui lentoure. Mais pour bien connatre
le monde, lentreprise doit exercer une veille permanente.
Le Corporate Performance Management (CPM), qui se dfinit comme un ensemble
de mthodes et doutils destins au contrle des performances de lentreprise, sappuie
dores et dj sur les fondements de la business intelligence. La chane de commandement dans les organisations passe du mode simulation au mode opratoire et rciproquement selon un cycle vertueux m par la stratgie globale de lentreprise.
La business intelligence nest ni un mirage, ni un miracle de la technologie.
Si elle na pas toujours t comprise, cest quelle na pas t suffisamment explique par ses promoteurs. Nous pensons quelle sintgre elle-mme dans une approche multidimensionnelle o les trois axes sont pragmatisme, rigueur et pdagogie.
Pragmatisme parce que la business intelligence simpose au-del des modes en
mettant en concordance technologie et stratgie dentreprise.
Rigueur dans le respect de rgles de lart et des mthodologies de gestion de
projets.
Pdagogie afin de rapprocher ceux qui conoivent les systmes et les mettent
en uvre de ceux qui les utilisent au quotidien.
Lauteur espre apporter sa modeste contribution au mouvement de dmocratisation de la business intelligence. Il forme et encadre en entreprise des tudiants en informatique lInstitut du management de luniversit de Savoie. Ces
jeunes, comptents, ouverts toutes les technologies, apportent des rponses
concrtes aux problmatiques rencontres dans les entreprises industrielles ou
de services.
Mais ne loublions jamais, le but principal de lducation nest pas le savoir,
mais laction. La connaissance seule ne suffit pas. La connaissance na de valeur
que si on lexploite. Sans action, lintelligence est vaine. Ce nest pas ce quon
sait qui est le plus important, mais plutt ce quon fait avec ce quon sait.
Et un dernier conseil ceux qui douteraient encore : il y a pire dans la vie
que de ne pas avoir russi, cest de ne pas avoir essay !
Bibliographie
380
Bibliographie
Bibliographie
381
A
Petit historique
de la BI
Voici un bref historique des tapes essentielles qui ont jalonn la longue marche
de ce que lon appelle aujourdhui la business intelligence.
Anne
vnement
Commentaire
1962
1970
Express
1982
Comshare System W
1984
Lancement de Metaphor
1985
Lancement de Pilot
Command Center
1990
Lancement de Cognos
Powerplay
384
Anne
vnement
A. Petit historique de la BI
Commentaire
1992
Lancement de Essbase
1993
1994
1995
1996
1996
Lancement de Business
Objects 4.0
1997
1998
1998
1999
Lancement de Microsoft
OLAP services
2000
2000
XML/A
2001
Oracle 9i OLAP
2002
Petit historique de la BI
Anne
vnement
385
Commentaire
2003
Anne de consolidation
2004
2004
2005
Si SQL Server 2005 intgre aujourdhui les techniques les plus abouties en
matire de BI, cest quil a hrit des nombreuses recherches qui se sont droules
depuis une quarantaine dannes.
B
Le march mondial
de la BI aujourdhui
387
volution
sur anne
prcdente
% de parts
de march
Microsoft ecosystem
28,0 %
Hyperion Solutions
incluant Brio Tech
19,3 %
14,0 %
7,4 %
Microstrategy
7,3 %
SAP (BW)
5,9 %
Cartesis
3,8 %
Systems Union
3,4 %
Oracle
3,4 %
Applix
10
3,2 %
diteur
388
CRM
40%
Dcisionnel
Dcisionnel
30%
ERP
20%
ETL
Data Mining
Reporting
Applications analytiques
670 M
ERP
ERP
452 M
Dcisionnel
CRM
10%
Logiciel global
Logiciel global
0%
-10%
Dcisionnel
ERP
CRM
Logiciel global
392 M
Scurit
2000
2001
2002
2003
32,0%
15,8%
117,7%
11,6%
27,6%
9,9%
6,8%
8%
7,2%
3,5%
-4,6%
-1,1%
8,4%
2,0%
-4,1%
0,6%
197 M
CRM
200
400
600
Analyse multidimensionnelle
Microsoft, Hyperion,
Microstrategy
Oracle, IBM
Data Mining
OLAP
Informatique
Dcisionnelle
KPI
ETL
IBM, Oracle, Microsoft
SGBD/R
Figure B.3 Panorama des diteurs
de solutions dcisionnelles
389
Tableau B.2 Liste des diteurs qui offrent des solutions dcisionnelles
diteur
SGBD/R
Moteur OLAP
Actuate
Ascential (IBM)
ETL
Nimble
Technology
DB2
DB2 OLAP
Server (Moteur
OLAP
dHyperion)
Business
Objects
Restitution
Actuate 7
e-Analysis
Actuate Query
DataStage
Business Data
Integrator
Enterprise
6 Crystal
Decisions
Decision
Stream
Serie 8
Impromptu
(requtage)
Powerplay
(analyse ad hoc)
Reportnet
(rapports web)
Informatica
PowerCenter
PowerExchange
Analytics
PowerAnalyser
Information
Builders
Iway
Cognos
PowerCube
Hummingbird
Desktop OLAP
Genio
BI Suite
Hyperion
Essbase
Brio
Performance
suite 8
Microstrategy
Moteur ROLAP
Microstrategy 7
(reporting
masse, ad hoc,
analyses multi
dim)
Microsoft
SQL Server
2005
OLAP
(Analysis
Services
et UDM)
Integration
Services
Excel, office
2007, Reporting
services,
Proclarity
Oracle
Oracle
Oracle 10 i R2
OLAP
Oracle BI
Warehouse
Datawarehouse
builder
Applications
analytiques
(OFA, OSA)
390
diteur
SGBD/R
Moteur OLAP
SAS
ETL
ETL
Sybase
Restitution
SAS activitybased
Management
IQ (moteur
SQL optimis
pour le
dcisionnel)
Sunopsis
Sunopsis v3.2
C
Les diffrentes versions
de SQL Server 2005
Express
Workgroup
Standard
Adapte aux
dveloppeurs pour
apprendre, construire
et dployer
La base de donnes
pour les petites entits
et les activits en
croissance
La plate-forme complte
pour la gestion et
lanalyse des donnes
destine aux entits
moyennes grandes
1 Proc
1 Go mmoire
4 Go base
Outil dadministration
simplifi
Scurit intgre
Support XML &
Amliorations T-SQL
Intgration .Net & CLR
Serveur de rapports
Import/Export
Client Rplication
Enterprise
La plate-forme intgre
pour la gestion et
lanalyse de donnes
des applications critiques
de lentreprise
2 Proc
3 Go mmoire
4 Proc
versions 32 & 64-bit
Pas de limitation +
Partitionnement
Outil dadministration
Management Studio
Miroir de BD limit
Cluster 2 noeuds
Integration Services
(ETL)
Oprations en ligne
et redmarrage
rapide
Analysis Services
(Serveur OLAP)
Clichs BD
SQL Agent
Assistant
doptimisation
Recherche en
texte intgral
Serveur de
Rplication limit
Transfert journaux
(Log shipping)
Rplication complte
Outils avancs
(ETL, OLAP et Data
Mining)
Notification Services
Serveurs de
rapports multiples
Data Mining
Gratuit
392
Exclusions :
pas de rplication Oracle.
pas de partitionnement des tables.
pas de cache pro-actif.
pas doprations on-line.
pas de partitionnement des cubes OLAP.
dition Enterprise
Haute disponibilit illimite.
ETL complet.
Data mining (dix algorithmes).
Rplication Oracle.
Replication SQL Server.
Dcisionnel illimit.
Trs haute performance (93 000 utilisateurs SAP concurrents).
393
D
Les profils dapprentissage
des diffrents acteurs
de la BI
396
formateur technique;
charg de lassistance technique et des oprations;
administrateur rseau.
Tableau D.1 Parcours de formation pour le profil Utilisateur professionnel SSIS
Thmes abords
pour lutilisateur
professionnel SSIS
Parcours dapprentissage
Cration de packages
Ajout de fonctionnalits
aux packages SSIS
397
Parcours dapprentissage
SSIS
Migration
des versions antrieures
des packages DTS
Enregistrement
et excution de packages
Contrle de lexcution
des packages
Parcours dapprentissage
SSIS
Programmation SSIS
398
Parcours dapprentissage
Programmation de flux
de donnes
Documentation
de rfrence sur le langage
SQL Server
Exemples de
programmation
Parcours dapprentissage
SSIS
Thmes abords
pour lArchitecte SSIS
399
Parcours dapprentissage
Utilisation dIntgration
services dans les solutions
dentreprise
Configuration systme
requise
Compatibilit descendante
Considration sur
les implications dun
dploiement international
Parcours dapprentissage
Concepts
Utilisation de OLAP
Utilisation de lexploration de donnes
Traitement des objets Analysis Services (dimensions,
mesures, cubes, etc.)
Langages
400
Thmes abords
pour lutilisateur
professionnel SSAS
Parcours dapprentissage
Outils
Parcours dapprentissage
Concepts
Administration
Dploiement
Langages
MDX
DMX
Outils
Prsentation de BIDS
Prsentation de SQL Server Management Studio
Parcours dapprentissage
Architecture dAnalysis Services
Concept de SSAS
Assemblys SSAS afin dtendre les fonctions
dentreprise de MDX et DMX
401
Parcours dapprentissage
Langages
MDX
DMX
Programmation de laccs
aux donnes
Schema Rowsets
XML for Analysis (XMLA) accs toutes les sources
multidimensionnelles standard.
ADOMD.NET (accs SSAS ou toutes bases
multidimensionnelles via TCP/IP ou HTTP)
Programmation
de ladministration
Parcours dapprentissage
Concepts
Planification
Autres composants
SSIS
SSRS
Moteur de base de donnes SQL Server
402
mations sur les processus et les ressources de lorganisation. Les tches associes
au rle dutilisateur de reporting se retrouvent dans les fonctions suivantes :
directeur commercial;
assistant de direction;
chef de projet.
Tableau D.9 Parcours de formation pour le profil Utilisateur professionnel de SSRS
Thmes abords
pour lutilisateur SSRS
Parcours dapprentissage
Concepts de SSRS
Recherche et affichage
des rapports
Exportation et Impression
des rapports
Abonnements aux
rapports
403
analyste financier;
contrleur de gestion;
analyste commercial.
Tableau D.10 Parcours de formation pour le profil Analyste de SSRS
Thmes abords
pour lAnalyste SSRS
Parcours dapprentissage
Concepts de SSRS
Conception et publication
des rapports
Conception de modles
de rapport
404
Parcours dapprentissage
Concepts de SSRS
Serveur de rapports
Dfinition de rapports
Rapports lis
Captures instantanes de rapport
Espace de nom de dossier du serveur de rapports
Comptes dans un dploiement de SSRS
Configuration
Scurit
Administration du serveur
E
Glossaire de la BI
action
Lance une action prdfinie sur un cube ou une partie dun cube. Une action
permet par exemple de lancer un rapport ou deffectuer un drill through en cliquant sur une cellule du cube.
analyse de scnarios
Technique adopte pour concevoir des scnarios caractre commercial en mettant jour des donnes, puis en analysant les effets des modifications apportes
aux donnes. Les analyses de scnarios font partie intgrante dExcel et de SQL
Server OLAP grce la technique dcriture diffre.
Analysis Server
Composant serveur dAnalysis Services spcialement conu pour crer et entretenir des structures de donnes multidimensionnelles et produire des donnes
multidimensionnelles en rponse aux requtes des clients. Voir aussi donnes
multidimensionnelles, OLAP.
attribut
Un fait dcrivant chaque position dune dimension.
agrgation
Action de calculer les valeurs associes aux positions parentes des dimensions
hirarchiques. Cette agrgation peut tre une somme, une moyenne ou toute
autre opration plus complexe.
406
E. Glossaire de la BI
axe
Ensemble de tuples o chaque tuple est un ensemble de membres issus de diffrentes dimensions. Un ensemble daxes dfinit les coordonnes dun jeu de donnes multidimensionnelles. Plus simplement, correspond une dimension du
cube. Voir aussi tranche, tuple.
Balanced Scorecard
Mthode consistant dcliner les objectifs dune entreprise en indicateurs de
performance cls.
BI (business intelligence)
Concept dsignant les moyens permettant de rassembler, intgrer, analyser et
partager des donnes de lentreprise afin doptimiser la prise de dcision. Par
extension, BI dsigne les solutions logicielles combinant des fins dcisionnelles
des fonctions dinterrogation de bases de donnes, de reporting, danalyse multidimensionnelle (ou OLAP), de data mining et de visualisation des donnes.
catgorie
Semploie pour dcrire ou classifier les donnes dtailles dune socit, par
exemple la date dune transaction, un produit donn, un client donn ou une
rgion commerciale. Les catgories peuvent tre regroupes en catgories plus
larges, par exemple les dates sont regroupes en mois et les mois en annes.
cellule
Une donne dfinie par une position de chaque dimension (comme dans le cas
dun document Excel).
Glossaire de la BI
407
champ
Zone dune fentre ou dun enregistrement stockant une valeur de donnes
unique. Certaines bases de donnes interprtent le champ comme un synonyme
de la colonne.
checkpoint
Point de contrle permettant une reprise des traitements de chargement des donnes dans un ETL.
cl de membre
Proprit dun niveau de dimension qui spcifie les identificateurs des membres
du niveau. La valeur de cette proprit peut dsigner une colonne dans laquelle
figurent les identificateurs ou une expression correspondant aux identificateurs.
connexion
Liaison tablie entre le complment et un cube Analysis Services.
cookies
Certains sites web enregistrent sur votre disque dur des informations votre sujet
(par exemple, la date de votre dernire connexion). On appelle ces informations
cookies . Internet Explorer enregistre les cookies dans le dossier Cookies de
Windows. Vous pouvez les supprimer sans aucun danger.
cross-sell
Technique de vente consistant proposer au client un produit li celui
demand, soit parce quil existe un lien technique, soit parce que ltude des
comportements des consommateurs montre lexistence dune corrlation entre
les ventes des deux produits.
cube
Ensemble de donnes organises et synthtises dans une structure multidimensionnelle dfinie par un ensemble de dimensions et de mesures. Dans le cas de
nombreuses dimensions, on parle d hypercube ). Bien quun hypercube com-
408
E. Glossaire de la BI
cube local
Cube cr et stock avec lextension .cub sur un ordinateur local. On parle galement de cube hors connexion.
cube virtuel
Cube logique fond sur un ou plusieurs cubes rguliers ou lis.
datamart
Sous-ensemble dun datawarehouse li un mtier de lentreprise (finance, marketing, RH, etc.) et conu pour rpondre aux besoins dun groupe spcifique
dutilisateurs en respectant les exigences de scurit de lentreprise. Lentreprise
peut construire des datamarts "Ventes", "Finance" ou "Ressources Humaines" en
ayant lassurance que les utilisateurs nont accs quaux donnes qui les concernent. Les datamarts simplifient galement le travail des services informatiques
en leur permettant de grer pour chaque communaut dutilisateurs des ensembles de donnes moins volumineux.
datamining
Mthode dexploitation automatique des donnes visant rvler les tendances,
rcurrences et corrlations entre les donnes. Bas sur des mthodes danalyse
statistique et/ou dintelligence artificielle, le data mining permet de dceler des
informations essentielles difficiles reprer lil nu telles que les corrlations entre des vnements, des relations de causes effets, des classifications,
des regroupements, des projections et des prvisions. On parle aussi de Web
mining.
datawarehouse
Entrept de donnes, isol des systmes oprationnels, permettant dagrger des
donnes thmatiques, intgres, non volatiles et historises, dans un but de faciliter la prise de dcision.
datastore
Base de donnes intermdiaire avant spcialisation.
dataweb
Accs une base de donnes via un serveur Internet et un navigateur web, quel
que soit sa plate-forme dhbergement, sa localisation ou le format des donnes.
Glossaire de la BI
409
dcisionnel
Processus dutilisation des connaissances issues des informations et des donnes
gnres par les processus mtier de lentreprise pour dterminer la meilleure
action entreprendre, la meilleure dcision prendre. Le reporting et lanalyse
sont des outils dcisionnels typiques. Lanalyse dcisionnelle aide la prise de dcisions stratgiques en permettant de visualiser les donnes de lentreprise laide
dindicateurs mtier.
descendant
Dans une hirarchie de dimension, membre associ au membre dun niveau suprieur de la mme dimension. Par exemple, dans une dimension de temps compose des niveaux Anne, Trimestre, Mois et Jour, Janvier est un descendant de
2005. Voir aussi enfant, parent, frre.
dimension
Attribut structurel dun cube constituant une hirarchie organise de catgories
(niveaux) qui dcrivent les donnes dune table de faits. Ces catgories dcrivent
gnralement un ensemble identique de membres sur lesquels les utilisateurs souhaitent fonder une analyse. Par exemple, une dimension gographique peut
inclure des niveaux Pays, Rgion, Dpartement et Ville. Voir aussi table de faits,
mesure, niveau.
dimension de temps
Dimension divisant le temps en niveaux, tels que Anne, Trimestre, Mois et
Jour. Dans Analysis Services, type spcial de dimension cre partir de la colonne
date/heure.
donnes source
Lignes ou enregistrements sous-jacents dune base de donnes fournissant les
donnes dun rapport.
410
E. Glossaire de la BI
criture diffre
Donnes de scnarios enregistres et crites dans le cube. Ces donnes sont disponibles pour une analyse ultrieure et peuvent tre consultes et partages par
dautres personnes ayant accs au cube. Voir aussi analyse de scnarios.
enfant
Membre du niveau infrieur suivant dans la hirarchie directement associ au
membre actuel. Par exemple, dans une dimension de temps compose des niveaux
Trimestre, Mois et Jour, Janvier est un enfant du trimestre 1 (Q1).
Glossaire de la BI
411
expression personnalise
Expression charge de renvoyer des donnes un rapport selon une ou plusieurs
conditions.
extraction
Action dextraire des donnes dtailles partir desquelles les donnes dune cellule du cube ont t synthtises. Voir drill through.
filtre de page
Filtre dans un rapport affichant des sous-ensembles de donnes.
frre
Dans une hirarchie de dimensions, membre spcifi du mme parent. Par exemple, dans une dimension de temps dote des niveaux Anne et Mois, les membres
Janvier 2005 et Fvrier 2005 sont des frres. Voir aussi enfant, descendant, parent.
frre (membre)
Dans une structure arborescente, lment sans lments subordonns. Par exemple, dans Analysis Services, un frre est un membre de dimension qui na pas de
descendants.
hirarchie
Les positions dune dimension organises selon une srie de relations (1 n) en
cascade. Cette organisation de donnes est comparable un arbre logique o
chaque membre na pas plus dun pre mais un nombre quelconque denfants.
Exemple de hirarchie temporelle : Anne/Trimestre/Mois/Jour.
hirarchie de dimension
Une des hirarchies dune dimension. Voir aussi hirarchie.
Historiser
Stocker des donnes pour leur utilisation long terme. Une fois historises, les
donnes ne sont plus volatiles, elles entrent dans lhistoire (dune entreprise, par
exemple). Voir datawarehouse.
412
E. Glossaire de la BI
Hypercube
Voir cube.
jeu de slection
Dfinit le niveau des donnes insrer dans un rapport.
jointure imbrique
Action de fusionner le contenu de deux ou plusieurs dimensions et de produire
un ensemble de rsultats qui englobe les lignes et les colonnes de chaque dimension. Par exemple, une jointure imbrique fusionne les donnes des villes de la
dimension Magasins et les donnes des boissons de la dimension Produits.
magasin de donnes
Base de donnes spcialement structure pour les requtes et lanalyse. Un magasin de donnes contient gnralement des donnes qui illustrent lhistorique
commercial dune organisation.
MDX
Voir expressions multidimensionnelles.
membre
lment dune dimension reprsentant une ou plusieurs occurrences de donnes.
Un membre peut tre unique ou non. Par exemple, 2004 et 2005 sont les membres uniques du niveau Anne dune dimension de temps tandis que Janvier
reprsente les membres non uniques du niveau Mois car la dimension de temps
peut rvler plusieurs fois le mois de janvier si elle contient des donnes sur
plusieurs annes.
membre calcul
Membre dune dimension dont la valeur est calcule laide dune expression.
Les valeurs des membres calculs peuvent provenir des valeurs dautres membres.
Par exemple, vous pouvez dfinir un membre calcul Profit en soustrayant la
valeur du membre Cots de celle du membre Ventes.
membre frre
Membre de dimension qui na pas de descendants.
Glossaire de la BI
413
mesure
Dans un cube, ensemble de valeurs, gnralement numriques, bases sur une
colonne dans la table de faits du cube. Les mesures sont des valeurs centrales qui
sont agrges et analyses. Voir aussi cube, table de faits.
mtadonnes
Les mtadonnes constituent lensemble des donnes qui dcrivent des rgles ou
processus attachs dautres donnes.
modle en toile
Arrangement de tables dans une base de donnes relationnelles. Au centre, on
trouve la table de faits; les branches de ltoile qui rayonnent partir de la table
de faits correspondent aux dimensions.
modle en flocon
Le modle en flocon reprend les principes du modle en toile; le flocon est une
toile dont les branches sont dcomposes en sous-hirarchies.
multidimensionnel
Structure de donnes ayant au moins trois dimensions indpendantes.
niveau
Nom dsignant un ensemble de membres dans une hirarchie de dimension o
tous les membres sont placs distance gale de la racine de la hirarchie. Par
exemple, une hirarchie de temps comprend les niveaux Anne, Mois et Jour. Voir
aussi dimension, hirarchie.
niveau hirarchique
Au sein dune hirarchie, les positions sont en gnral organises en niveaux.
Les positions dun mme niveau correspondent une classification prcise.
414
E. Glossaire de la BI
nom de membre
Proprit dun niveau de dimension qui spcifie les noms des membres du niveau.
La valeur de cette proprit peut dsigner une colonne dans laquelle figurent les
noms ou une expression correspondant aux noms.
parent
Membre du niveau suprieur suivant dans la hirarchie directement associ au
membre actuel. La valeur parente est gnralement une consolidation des valeurs
de tous ses enfants. Par exemple, dans une dimension de temps compose des
niveaux Trimestre, Mois et Jour, le trimestre 1 (Q1) est le parent de Janvier. Voir
aussi enfant, descendant, frre.
position
Une valeur dune dimension.
proprit de membre
Information supplmentaire stocke dans un cube OLAP Analysis Services et
dcrivant un membre de dimension.
rapport structur
Rapport dpendant de la structure des donnes source sous-jacentes et offrant
des fonctions danalyse avances. Le rapport au format structur fait lobjet dun
add-in dans Excel. Il est intgr Excel 2007.
Glossaire de la BI
415
reporting
Outil de mesure de faits a posteriori.
repository
Rfrentiel permettant de stocker les mtadonnes cest dire les donnes qui
dcrivent les donnes.
rollback
Permet dannuler un processus de mise jour dans une base de donnes relationnelle. La phase de Commit permet dappliquer dfinitivement les modifications
apportes dans la base.
supply chain
Gestion et optimisation de la chane logistique, de la fabrication dun produit
sa distribution finale.
table de faits
Table centrale dans un schma de magasin de donnes compose de mesures
numriques et de cls associant des faits des tables de dimension. Les tables de
faits renferment des donnes qui dcrivent des vnements inhrents une activit commerciale, tels que des transactions bancaires ou des ventes de produits.
Voir aussi magasin de donnes.
tableau de bord
Rapport dynamique compos dindicateurs cls dune activit, permettant davoir
une vision globale des performances; il sagit dun outil de mesure et de pilotage.
total visuel
Valeur de cellule agrge et affiche pour un membre de dimension et cohrente
avec les valeurs de cellules affiches pour ses enfants. Le total visuel dune cellule
416
E. Glossaire de la BI
peut tre diffrent du total rel si certains enfants de la cellule sont masqus. Par
exemple, si la fonction dagrgation est SUM, la valeur de cellule affiche pour
Espagne est 1000, celle de Portugal est 2000 et le total visuel pour Pninsule
ibrique est 3000.
tranche
Sous-ensemble de donnes dans un cube, spcifi en limitant une ou plusieurs
dimensions en fonction des membres de la dimension. Par exemple, des faits propres une anne donne forment une tranche dun ensemble de donnes portant
sur plusieurs annes. Voir aussi axe.
tuple
Ensemble ordonn de membres appartenant diffrentes dimensions. Par exemple, (Boston, [1995]) est un tuple compos de membres de deux dimensions : Gographie et Temps. Un membre unique est un cas dgnr de tuple qui peut tre
utilis comme expression sans parenthses. Voir aussi axe.
up-sell
Technique de vente consistant proposer au client un produit gnrant une
marge plus leve que celui demand, soit typiquement un produit plus cher.
Cette technique sappuie sur lidentification des besoins et habitudes de consommation des clients, et en particulier sur du marketing one-to-one et des outils CRM.
Index
A
Accs au dtail (drillthrough) 249
Action 13, 211, 249
ActiveX 344
Add-in Excel 368
Agent SQL Server 106
Agrgations 251
paramtrer les 256
Alimentation 13
Analyse 188
ad hoc 181, 332, 390
de cube 341
de donnes avec Excel 331
de squence 264
Analysis Services 179
Approche itrative 361
Arbre de dcomposition 84, 348
ASCII 304
Assistant
dexportation 146
dimportation 146
Association 263
Attribut 186
li 237
Attrition 24
B
Balanced scorecard 34, 64, 390
Ble 2 22
Base de donnes multidimensionnelle 181
BIDS 108
BO 62
Briefing book 352
BSC 34
Business intelligence 3, 11, 33, 245
Business Objects 377
Business Performance Management 369
Business Scorecard Management 67
Business Scorecard Manager 347
intgr 62
C
Cache proactif 96, 98, 183, 190
Calcul 188, 211, 244
Capture instantane 320
Carte de performance 85, 350
Cellule feuille 241
Checkpoint 46
Classification 262
Cl
trangre 222
principale 222
CLR (Common Langage Runtime) 183
418
D
Dashboard Server 358
Data mining 180, 181, 259
Datamart 94, 104
Dataset 294, 307
Datawarehouse 17, 45, 94
Date Chris 8
Dcision
stratgique 68
tactique 68
Decision tree 270, 283
Dnormalisation 105
Destination 130
Dveloppement linaire 361
E
chelle
nominale 76
ordinale 76
criture diffre 246
EIS (Executive Information System) 25
Enjeux du dcisionnel 7
Entrept de donnes 104
ERP 9, 46, 96
Espace danalyse 13
ETL (Extract, Transform, and Load) 46, 181
dentreprise 369
tude de faisabilit 32
Excel 377
2007 343
Explorateur de Package 110
Exploration vers le bas 301
Index
F
FASMI 56
Fichier plat 132
Filtre 219
Flux
de contrle 104, 108
de donnes 104, 109, 130
Fonction lookup 105
Fouille de donnes 62
FrontPage 344
FTP 107
Fuzzy lookup 65
G
Gestion
des rapports 308
du risque 22
Gestionnaire
dvnements 109
de rapports 293
Graphique crois dynamique 337
GRC 19
Groupe de mesures 187, 240
H
HOLAP (Hybride OLAP) 252
HTML 304
Hyperion 377
I
Indicateur
cl de performance 24, 189
de performance 64
externe 13
Infocentres 25
Informatique dcisionnelle 3
Inmon Bill 380
Integration Services (SSIS) 101
Intellicube 193
Intelligence comptable 245
Intervalle
de latence 191
de reconstruction force 191
IRR 365
419
J
Journal des audits 184
Juste temps 22
K
Kaplan Robert 34, 373
Key Users 62
Kimball Ralph 47, 94, 177, 380
KPI (Key Performance Indicator) 24, 47, 62,
80, 183, 211, 246, 390
L
Loi SOX 46
LOLF 21
Lot 104
M
Mapping 134
MapPoint 369
MDX
requte 300
script 183, 188
Membre
calcul 245
infr 136
non-feuille 241
Mesure 50, 181, 193, 197
calcule 244
semi-additive 230
Metadata 183
Microsoft Access 373
Microsoft Clustering 272
Microsoft Decision Trees 270
Microsoft Nave Bayes 272
Migration de lots DTS 163
Modle
Clusters 280
dautorisations 184
de donnes entit-relation 49
de rapports 294
Decision Tree 275
dimensionnel 49
multidimensionnel 183
Nave Bayes 278
relationnel 183
420
Modlisation 60
MOLAP (Multidimensional OLAP) 252
MS Access 345
MS Excel 345
MS Query 339
N
Nave Bayes 270, 283
Navigateur 212, 225, 239
de donnes 250
Navigation
en mode web 356
Professional 355
standard 355
Niveaux dabstraction 10
Norton David 34, 373
Notification Services 98
NPV 365
O
Office
2007 67
Excel pour SSAS 332, 340
PerformancePoint 369
Web Components 368
OLAP (On line Analytical Processing) 8, 55,
56, 57, 180, 230
OLTP (On Line Transactional Processing) 45,
46, 49, 53, 56, 181
Oprateur unaire 246
OWC (Office Web Components) 332, 344,
347
P
Package 104
automatisation de lexcution 169
dploiement 167
dynamique 171
enfant 123
parent 123
Panorama software 67
Paramtres 306
Partition 211
Partitionnement multiple 254
PAS (Proclarity Analytics Server) 351
PDF 304
Performances 184
Priode
de latence 191
silencieuse 191
Perspective 97, 187, 212, 249
PGI 9, 46
PivotTable 332
Plan 127
Planification 320
Planning 21
POC (proof of concept) 374
Powerplay 62, 377
Procdure stocke 183, 189
Processus 196
dapprentissage 11
de dcision 7
Proclarity 67, 84, 347, 348
for Business Scorecard 348
Professional 357
Productivit 21
Profils dapprentissage 395
Projet dcisionnel 374
Prototype 375
Pull 190
Push 190
R
Rapport
abonnement 323
clichs dhistorique 321
excution 318
historisation 321
li 318
matriciel 297
tabulaire 297
RDL 373
Recherche
exacte 105
floue 105
Rfrentiel 60
mtier 10
Rgion de donnes 294
Rgression 262
Relation
dcart ou de dviation 79
Index
de comparaison nominale 82
de corrlation 82
de distribution 81
Report Builder 64, 294, 324, 373
Reporting 15, 26, 47, 57
financier 21
interactif 344
Reporting Services 67, 289
droits 310
rles 312
tches 310
Rseau de dpendance 277
Retour sur investissement 365
ROI 365
ROLAP (Relational Olap) 252, 254
Rle 184, 187, 309
administrateur systme 314
utilisateur systme 314
Rollback 46
Roll-up 181
S
SAP NetWeaver business intelligence 99
Sarbane-Oxley 22
Scnario 68
Schma
en toile 49
en flocons 198
Scurit 309
Segmentation 263
Serveur de rapports (Report server) 293
Services de notification 99
SharePoint Portal 62, 67, 369
SMDL (Semantic Model Definition Language)
325
SMTP 323
Sniffing 184
Solution dcisionnelle 368
Solver 68
Source 129
de donnes 193, 199
Spoofing 184
SQL Server 2005
Enterprise 391, 393
Express 391
Express Manager 391
T
Table
de dimensions 50
de faits 50
Tableau
crois dynamique 64, 182, 332
de bord 11, 13, 25, 64
Tche
dexcution
de Package 123
DTS 2000 123
de processus 124
de requtes SQL 124
dinsertion en bloc 125
DDL 119
de flux de donnes 119
de script 120
de service Web 122
de systme de fichiers 122
de traitement Analysis Services 122
de transfert
dobjets SQL Server 123
de base de donnes 122
de connexions 122
de messages derreur 122
de procdures stockes 123
de travaux 126
Envoyer un message 125
FTP 126
Lecteur de donnes WMI 126
MSMQ 126
observateur dvnements WMI 126
XML 127
TIFF 304
Time Intelligence 245
Traabilit 184
421
422
Vue
des sources de donnes (Data Source
Views, DSV) 96, 193
en perspective 86, 351
U
UDM (Unified Dimensional Model) 64, 93,
94, 96, 97, 183, 191, 343
Up-sell 20
Webpart 248
Workflow 107
Writeback 183
V
Visual Studio 373
X
XML 92, 304
TYPE DOUVRAGE
L'ESSENTIEL
SE FORMER
RETOURS
D'EXPRIENCE
TUDES, DVELOPPEMENT,
INTGRATION
EXPLOITATION
ET ADMINISTRATION
BUSINESS INTELLIGENCE
AVEC SQL SERVER 2005
RSEAUX
& TLCOMS
6639389
ISBN 978-2-10-050536-4
www.dunod.com
BERTRAND BURQUIER
est consultant et ingnieur
en systmes dinformation,
spcialis dans la Business
Intelligence. Il dirige depuis
1985 le cabinet de conseil
BuroFormatic. Il est
galement formateur en
entreprise et enseigne la
Business Intelligence
lInstitut de management de
luniversit de Savoie.
BUSINESS INTELLIGENCE
APPLICATIONS
MTIERS
Bertrand Burquier
B. BURQUIER
INFOPRO
BUSINESS
INTELLIGENCE
AVEC
Bertrand Burquier