Documente Academic
Documente Profesional
Documente Cultură
en association avec
LOBSERVATOIRE
IVRE BLANC
Fvrier 2011
2.4.a Mettre en place une gestion du PRA par groupe dapplications (pour les reprises : rejeu, limination des doublons, etc.) 2.4.b Crer des points stables 2.4.c Revoir lurbanisation du SI 2.4.d Sen remettre aux constructeurs ( ?...) 2.4.e Un mix de ces quatre pistes
Chapitre 3 : Dclenchement du PRA et gestion de crise 3.1 Introduction 3.2 Rsum du chapitre 3.3 La gense : Le PRA naquit de lincident majeur 3.4 La gestion de crise : une organisation et un processus
3.5 Les critres de dclenchement 3.6 Des outils pour tablir ses priorits 3.7 Une organisation des quipes au service du PRA 3.8 Communication cible de crise 3.9 Retour une situation normale 3.10 Quelques leons tirer
3.5.a Un objectif de temps 3.5.b Un objectif de service 3.4.a Organisation 3.4.b Processus
28 28 28 29 30
32 36 38 39 40 41
32 35 30 31
Chapitre 4 : Validation probante du PRA 4.1 Introduction 4.2 Rsum du chapitre 4.3 Dfinitions 4.4 Quelques critres pour qualifier un exercice probant 4.5 cueils et bonnes pratiques Chapitre 5 : Maintien en Condition Oprationnelle du PRA 5.1 Introduction 5.2 Rsum du chapitre 5.3 Principes du MCO 5.4 MCO dun PRA froid 5.5 MCO dun PRA chaud 5.6 MCO dun PRA en haute disponibilit 5.7 Enjeux et gouvernance 5.8 cueils et bonnes pratiques Chapitre 6. Contrat de service et PRA 6.1 Introduction 6.2 Rsum du chapitre 6.3 Points prendre en compte en amont de la rdaction du contrat de service
6.4 La caractrisation des niveaux de service
6.3.a Cas gnral, que le contrat soit interne ou externe 6.3.b Zoom sur lexternalisation du PRA 6.3.c Primtre de lexternalisation du PRA
42 42 42 42 44 46 48 48 48 48 49 50 51 51 52 54 54 54 54
56
56 57 57 55 55 55
PAGE 3
6.4.a La contractualisation des niveaux de service du MCO du PRA 6.4.b La contractualisation des niveaux de services applicables aux oprations de tests du PRA 6.4.c La contractualisation des niveaux de services en cas de dclenchement du PRA
58 58
Chapitre 7 : Le vocabulaire PRA dans ce Livre Blanc Conclusion Annexes A propos du CCA Club de la Continuit dActivit A propos du CRIP Club des Responsable dInfrastructures et de Productivit
60 65 66 69 71
PAGE 4
AvantPropos
La veille dun incident, le ROI dun systme de scurit est nul, le lendemain il est infini Dennis Hoffman de RSA
Le groupe de travail PRA rassemble des membres du CRiP et des adhrents du Club de la Continuit dActivit (CCA). Il fonctionne comme un observatoire des plans de reprise dactivit, avec une dimension avant tout oprationnelle ; une approche qui se veut complmentaire des dmarches dtudes prospectives proposes par dautres groupes de travail du CRiP. Le paradoxe et la difficult qui caractrisent le domaine des PRA restent entiers : le retour sur investissement (ROI) et la rduction des cots psent dun ct ; les obligations rglementaires et la scurit tirent de lautre. Tout est illustr dans la petite citation de Dennis Hoffman. La difficult pour le groupe de travail PRA a consist ne pas proposer le nime rapport sur la ncessit dun PRA/PCA, sur les obligations rglementaires et lgales, sur la maturit des technologies, etc., mais apprhender certains sujets plus spcifiques et concrets, dans un objectif damlioration de nos pratiques : - Dfinitions et types darchitectures, - Gestion de la cohrence applicative, - Dclenchement du PRA et Gestion de crise, - Valeur probante dun PRA, - Maintien en Condition Oprationnelle, - Ngociation dun contrat doutsourcing du PRA, - Les concepts et le vocabulaire. Lobjectif de ce livre blanc est bien de partager des retours dexpriences, des schmas, des abaques, du vocabulaire... transposables au domaine dactivit de chacun. Paralllement cette approche, le groupe a lanc un questionnaire auprs de ses membres pour estimer approximativement la maturit des grands comptes franais en matire de PRA, tant en termes de stratgie quen termes dinnovation. Bonne lecture tous
PAGE 5
LiVRE BLANC
Edito rial
Bonjour tous, Aprs plusieurs mois de participation collgiale son laboration, nous vous livrons enfin le livre blanc sur les plans de reprise dactivit. Nous avons voulu offrir au lecteur un panorama de lexistant sur les PRA. Cependant depuis le lancement du groupe de travail, nous assistons une mutation des stratgies selon plusieurs axes : Lvolution des technologies dans les offres des fournisseurs (par exemple les nouvelles solutions de haute disponibilit chez les fournisseurs de baies de stockage, la gnralisation de la sauvegarde sur disques et lemprise croissante de la dduplication, les nouveaux usages de la virtualisation dans une optique de rsilience, etc.). Un accroissement de la contrainte dj exerce par les rgulateurs dans les domaines de la reprise et de la continuit dactivit (audits internes, audits par commissaires aux comptes, directive Solvency II, directive Ble 2, ) Le constat dune difficult grandissante maintenir en condition oprationnelle des infrastructures de secours complexes nonutilises. Lapparition dune nouvelle offre : le cloud computing. Au cours de nos changes, nous avons tous senti que ces nouvelles orientations mergeaient dun besoin de service grandissant, lui-mme issu de linterconnexion de nos partenariats, de lintensification de nos changes internationaux, dune complexification globale du fonctionnement des entreprises dans un environnement mondialis. Cela ma rappel les propos changs lors dune table ronde du dernier salon itiForums en juin 2010 : La nouvelle problmatique des risques : quelles consquences pour la continuit dactivit ? . Si je devais rsumer la teneur des dbats tenus ce jour-l, je titrerais Leffet papillon : bte noire de la gestion du risque ? . En deux mots : dans les dix dernires annes, se sont multiplis des phnomnes extrmes et peu probables (attentats du 11 septembre 2001, ouragan Katrina, crise mondiale de 2008, volcan islandais Eyjafjll, phnomnes climatiques extrmes, ) qui ont impact toutes les entreprises diverses chelles. On est pass de la gestion du risque la gestion de lincertitude ; avec un vieux constat : tout est interconnect et interdpendant. Ces vnements nous rappellent donc quil est judicieux de concevoir la continuit dactivit en cherchant en premier lieu dterminer ce qui est critique des processus et des hommes ; et ceci indpendamment de causes pouvant survenir. Le PRA, au fil de cette volution, passe du statut dassurance risques au statut de process oprationnel indispensable la continuit dactivit de lentreprise. Bonne lecture tous
PAGE 6
Bonjour tous, La notion de secours informatique suite un sinistre est ne en France, suite aux vnements de Mai 68. Les dirigeants de trois grandes socits industrielles franaises prirent alors conscience du risque de blocage qui menaait toute entreprise. Ils dcidrent en consquence de crer un centre informatique de secours mutualis, qui vit le jour dans les annes 1970 : le GT2I. Il faut rendre ici hommage son crateur Jol Moreau. Devenues conscientes du risque, les directions informatiques se mirent dvelopper des plans de secours informatique. On parlait alors essentiellement de sinistre physique : incendie, inondation, ... Le secours consistait raliser des sauvegardes quotidiennes sur bandes magntiques. Externaliser plusieurs centaines de bandes engendrait un gros travail logistique, et la faible fiabilit des supports magntique posait de nombreux problmes. Les moyens de secours informatiques taient en gnral mutualiss et fournis par des socits spcialises. Les mtiers de lentreprise taient rarement consults pour dterminer leurs besoins quant la disponibilit des applications sur lesquelles reposait leur activit. Les informaticiens dcidaient leur place. Les mtiers participaient tout de mme aux exercices de secours, et donnaient leur avis sur les conditions de reprise dactivit. Que de chemin parcouru depuis. Dautres types de sinistres ont tre pris en compte : ils touchaient les locaux de lentreprise, puis les hommes. Les plans de continuit dactivit de lentreprise (PCA) se sont dvelopps. Le plan de secours informatique devenu plan de reprise dactivit informatique (PRA) a t intgr dans ces PCA. Les conditions de reprise dactivit dtermines par les mtiers et valides par la direction gnrale ont ncessit des solutions de secours de plus en plus sophistiques. La technologie, ayant considrablement volu, a facilit ces volutions. Certains thmes de maturit diffrente restent couvrir au sein des entreprises : Le maintien en condition oprationnelle des PRA La validation probante des PRA afin dtre sr quils fonctionneront le jour o se produira rellement un sinistre La reprise dactivit partielle par domaine applicatif La prise en compte de la continuit dactivit dans la conception dapplications La prsence indispensable dhommes clefs pour assurer la reprise dactivit dans le dlai prvu Ce livre blanc vous donnera des pistes. Le bonheur est dans le PRA
PAGE 7
Edito rial
LiVRE BLANC
LES PARTICIPANTS
Les pilotes du groupe de travail : LUC FRANOIS VRIGNAUD TETE MACIF DEVOTEAM Nous remercions particulirement pour leur participation active : THIERRY SOLEIMAN RENAUD FLORIAN ALAIN RIC GERARD BECAULT BELLI BONNET CARRIERE CESAR TOMAN VILLERS CNP ASSURANCES AIR FRANCE CRiP SOLUCOM EDF GDF / SUEZ AEROPORT DE PARIS
Nous remercions pour leurs contributions : LUDOVIC GERARD THIERRY DIDIER GUY JOSE ANTONIO THIERRY FRDRIC MARIE-JOSE CHRISTIAN PATRICIA BEY FOURNET HARENG PLAT PRUDHOMME RODRIGES SELTZ SEVESTRE VANBAELINGHEM VALLY VIOLETTE INA CREDIT IMMOBILIER DE FRANCE SOLUCOM CNAV GROUPE CASINO POLE-EMPLOI PSA PEUGEOT CITRON CARREFOUR MINISTERE EDUCATION NATIONALE ARMEE DE TERRE THALES
Merci tous
PAGE 8
La Continuit dActivit sintgre dans la stratgie globale de lentreprise, et sert des objectifs de natures diffrentes : Garantir la continuit de lactivit de lentreprise Assurer la conformit rglementaire (Ble II, Solvency II, etc.) Rduire les cots de la gestion des risques Amliorer la scurit, la protection de ses donnes Dmontrer la prennit de lentreprise sur les marchs Devenir un partenaire plus attractif de par son niveau de rsilience Les grandes orientations concernant la continuit dactivit sont gnralement dcrites dans un document de stratgie dentreprise (politique de continuit), qui se voit dclin en plans de continuit dactivits (PCA), et dont le maillage dpend de la taille de lentreprise (plans applicables aux primtres entreprise, direction, dpartements, filiales, etc.) et des types de sinistres pris en compte.
Le PCA rsulte le plus souvent dune analyse dimpacts des risques majeurs capables daltrer la continuit dactivit des mtiers de lentreprise. Ces risques peuvent tre de divers types : destruction de donns, perte par sinistre du site de production, dni de service, incident doprateur tlcom, perte dnergie lectrique, vandalisme numrique et bien dautres.
PAGE 9
LiVRE BLANC
Le prsent livre blanc se focalise sur le PRA du SI et les moyens associs en termes de processus, mais nabordera pas les multiples aspects des technologies disponibles ligibles au PRA. Si le nombre darchitectures existantes crot danne en anne (architectures physiques, virtuelles, dmatrialises, architecture simple sans secours, avec sauvegarde locale, en PRA froid, en PRA chaud, en haute disponibilit, en tolrance de pannes, ) celles-ci peuvent se caractriser plus simplement par leur niveau de service.
PAGE 10
Dans la suite du prsent livre blanc nous avons choisi de nous limiter la typologie suivante :
Type de secours Haute disponibilit Reprise des donnes A la dernire transaction Reprise des traitements Sans interruption si lapplication est conue pour cela, sinon quelques minutes Solution de secours Clustering et mirroring sur un environnement ddi Rplication cohrente des donnes entre site de production et site de secours, environnement de secours ddi Sauvegardes sur mdias mis hors site, environnement de secours mutualis ou ddi
A chaud
Infrieur 4 heures
A froid
Nous nous sommes attachs prciser dans chaque chapitre les particularits de chaque type de PRA au regard des charges de MCO (maintien en condition oprationnelle) associes, du niveau de maturit requis en termes de MCO, des rgles doutsourcing ou encore des facilits de validation (test et exercice) du PRA.
Haute disponibilit
Pour la haute disponibilit, les quipements (serveurs et baies de stockage affects une application) du site de production et du site de secours cooprent en permanence pour assurer aux utilisateurs un service continu. Le dispositif maintient la cohrence des traitements et des donnes sur les baies de stockage entre le site primaire et le site de secours. Les donnes places sur les baies de stockage sont rpliques dans les deux sens pour quil ny ait pas dinterruption de service. Le dispositif de haute disponibilit impose une architecture technique et applicative spcifique, prise en compte ds la conception, et dans laquelle des serveurs sont ddis au secours et actifs en permanence, ou passifs mais automatiquement activs ds la dtection de lincident (ex : modle maitre/esclave avec heartbeat). Parfois, la puissance disponible sur le deuxime site est moindre que celle installe sur le site principal. Dans cette situation, il y a possibilit de dgradation des temps de rponse en cas dindisponibilit dun des deux sites, puisque le site rest actif prend en charge lensemble de lactivit et risque alors de se retrouver surcharg.
Remarque : La haute disponibilit ninclut pas la tolrance de panne. Le basculement en mode secours dans un dispositif de haute disponibilit peut engendrer une rupture temporaire de service (sans perte de donnes) alors que dans un modle de tolrance de panne il nexiste ni perte de donnes, ni coupure du service (et ceci grce des architectures matrielles spcifiques, avec des technologies du type partage de mmoire, de contexte, et autres).
PAGE 11
LiVRE BLANC
Secours chaud
Le secours chaud sappuie sur une recopie des donnes en continu du site de production vers le site de secours (en mode synchrone ou asynchrone). Les systmes dexploitation et les logiciels applicatifs sont identiques sur les deux sites mais les montes de version se font selon un contrat de service. La rplication des donnes des applications est gre, par des moyens spcifiques. Les serveurs de secours nentrent en activit quen cas de situation de secours rel ou de test. En dehors de ces priodes, ils sont dormants et nont pas accs aux donnes rpliques.
Secours froid
Le secours froid fonctionne par transfert des systmes dexploitation, des logiciels et des donnes des applications vers un site de secours. Ce transfert est ralis par sauvegarde puis restauration partir de supports de sauvegarde externaliss (bandes le plus souvent). La configuration de secours nest active quen cas de secours rel ou de test. En dehors de ces priodes, les serveurs et baies de stockage sont dormants ou utiliss dautres usages.
NB : Il ne faut donc pas confondre haute disponibilit et PRA ! La disponibilit rpond une exigence de continuit de service. Le PRA couvre les aspects de reprise dactivits aprs incident et/ou sinistre.
Il nexiste donc pas une solution, mais des solutions de PRA au regard des prrequis de la maitrise douvrage. Il faut aussi rester conscient que le souhait dune haute disponibilit de bout en bout reste souvent difficile raliser et maintenir. De plus, la continuit a un cot qui doit toujours rpondre aux enjeux et risques quelle couvre. Le choix dune solution de continuit dactivits par lentreprise est fonction dune part du temps accept dindisponibilit dun service et dautre part des cots associs cette indisponibilit (criticit de lapplication).
PAGE 13
LiVRE BLANC
Plan PRA :
Disponible dans 90 % des cas et test au moins 1 fois par an (maximum 3 fois par an) Plan PCA : Disponible dans 60 % des cas et test en moyenne 1 fois par an (maximum 2 fois par an) Niveau de service aprs dclenchement du PRA : Iso-production : 25 % Fonctionnement en mode dgrad, 80 % du nominal : Autres (selon engagement) : 15 % Dclenchement dun plan PRA sur les 3 dernires annes : Non : Oui : 75 % 25 % (causes: incidents sur infrastructure et problmes lectriques) 60 %
PAGE 14
Suite lexploitation des questionnaires, nous avons dtermin que les rpondants se situaient un niveau de maturit compris entre 3 et 4.
PAGE 15
LiVRE BLANC
2.1 Introduction
Du besoin de continuit la conception de larchitecture
La mise en place dun PCA, et celle du PRA qui en dcoule, constitue dabord une dcision stratgique pour une entreprise, mme si parfois des rglements externes le lui imposent (par exemple la Loi de Scurit Financire LSF, les directives du Comit de la rglementation bancaire et financire CRBF). Une fois la dcision de mettre en place un PRA prise, les choix stratgiques rsident dans les solutions retenir. Les choix organisationnels et darchitecture dcoulent dune analyse des impacts (financiers, sur limage de marque de lentreprise, rglementaires, consquences dune perte de productivit) relatifs une rupture dactivit (partielle ou totale) touchant les processus critiques de lentreprise, et des rponses quon choisit de leur donner. Un premier niveau dtude permet gnralement de prciser le primtre des processus ou activits secourir. Le besoin des mtiers en termes de continuit dactivits doit tre spcifi comme tout autre besoin. Certains critres ou notions, trs techniques, peuvent paraitre vidents du ct des fournisseurs de ressources (le service informatique ou sa composante production), mais tre inconnus ct client. Il y a donc lieu daider les mtiers sur ces aspects.
> Le niveau tolrable de dgradation du service en cas de fonctionnement en mode secours (exprim par exemple en pourcentage du SI secouru, ou en pourcentage de perte de capacit de traitement). En contrepoint, une autre valeur indique la dure acceptable de fonctionnement en mode dgrad (de quelques minutes plusieurs jours). > Lexistence de points de cohrence entre les applications qui communiquent entreelles, et ce afin de faciliter la resynchronisation des flux entre applications au moment de la reprise (voir infra). Une ngociation sera souvent ncessaire lissue dune premire expression du besoin mtier pour arbitrer entre le niveau de service attendu du SI et les limites du budget. Elle permet de repositionner le niveau relatif de couverture du plan de continuit Mtiers (PCM) par rapport au PRA.
PAGE 17
> Le volume maximal de perte de donnes admissible par les mtiers, volume spcifi sous la forme dune Perte Maximale de Donnes Tolrable (PMDT) ou dune Perte de Donnes Maximale Admissible (PDMA). PMDT et PDMA se verront traduits en une rponse technique le Recovery Point Objective (RPO) li la stratgie de sauvegarde, et qui prcise la dure maximale durant laquelle des donnes ont t perdues en cas de sinistre.
LiVRE BLANC
2.2 Architecture
Secours froid
Le secours froid constitue la plus simple des solutions de reprise dactivits, mais aussi celle laquelle recourir lorsque tout a chou. Dailleurs, une solution de PRA de type haute disponibilit ou chaud doit toujours tre accompagne dun secours froid. Dans cette configuration, le site de production et le site de secours sont indpendants. Le site de secours reproduit lidentique tout ou partie de larchitecture du site secourir. Les donnes sont restitues sur le site de secours par des sauvegardes de recours suite au sinistre. Les sauvegardes de recours sont des sauvegardes exhaustives, cohrentes et externalises ncessaires au secours. Elles doivent tre prises, idalement, un point de synchronisation dit point propre . La reprise dactivits se fait partir de ce point dancrage. Le plan de continuit mtiers (PCM) doit prvoir la reprise des traitements, en relation troite avec linformatique.
PAGE 18
Figure 7 : architecture de secours froid Les donnes restaures sur le site de secours sont intgres puisquissues de la prise de sauvegardes de recours. Les traitements effectus entre la dernire sauvegarde et le moment de lincident sont rejous, soit manuellement, soit partir des logs. Le PCM doit contrler la cohrence du point de reprise et supprimer les doublons dans les traitements refaits. En effet les mtiers possdent une plus grande connaissance pratique de leurs donnes que les quipes informatiques, ce qui les qualifie pour avoir la main sur ces oprations. Les programmes doivent tre prvus pour tre rejous. Ce cas idal prsuppose lexistence dun point de synchronisation souvent problmatique dfinir. Les traitements transactionnels et batch associs fonctionnent en gnral en permanence. Il est de ce fait difficile davoir un point unique de synchronisation des sauvegardes. Plusieurs techniques peuvent tre utilises pour assurer cependant la cohrence applicative : Des techniques de type boite noire aviation pour garder une trace des principales actions effectues entre le point de sauvegarde et le sinistre. Des techniques pour lapplication des logs des bases de donnes, si ils ont t externaliss. Attention aux interactions en cascade entre systmes multi-sites et / ou multipartenaires. Le plan de continuit mtiers, en association avec le service informatique doit dterminer, suite au sinistre, les modalits de la reprise dactivits. Ltude pralable peut amener renoncer la saisie des donns perdues, voire admettre un dlai de rgnration des donnes perdues conformment la convention de service ngocie avec le client, sur la base de lanalyse de risques.
PAGE 19
LiVRE BLANC
Vu le nombre de cas envisageables, la diversit des situations et des architectures, lautomatisation de la reprise dactivits nest pas possible techniquement. Des procdures manuelles de reprise et de contrle restent absolument ncessaires.
Secours chaud
Le site de production et le site de secours sont interconnects et darchitecture identique pour la partie secourue. Les donnes sont rpliques sur le site de secours.
Figure 8 : architecture de secours chaud La cinmatique du droulement de la reprise dactivits se droule comme suit, aprs la survenance du sinistre : Coupure de la rplication entre les deux sites. Lancement des procdures de sauvegarde totale des donnes sur le site de secours (mesure conservatoire et optionnelle pour pallier une perte totale des disques et des sauvegardes de production). Attention la dure de la sauvegarde. Lancement des procdures les plus appropries la reprise par domaine applicatif : - Activation de linfrastructure de secours et contrle de lintgrit technique de cette infrastructure. - Excution des procdures de reprise des donnes et contrle de lintgrit fonctionnelle. - Excution des procdures de reprise dactivits des traitements par domaine applicatif. - Les traitements et les donnes sont resynchroniss. Redmarrage des traitements sur le domaine applicatif de priorit la plus leve la moins leve, selon les procdures de reprise appropries (ouverture progressive des flux par domaine applicatif).
PAGE 20
Le site de secours devient site de production pour toutes les activits vitales de lentreprise. Il est quip lidentique de tous les lments secourus du site principal (robotiques, stockage, outillage, rseau, scurit).
Haute disponibilit
Le site de production et le site de secours sont interconnects, darchitecture identique, et fonctionnent comme un site de production unique. Les donnes sont obligatoirement identiques en permanence sur les deux sites. La haute disponibilit implique lautomatisation du basculement la dernire transaction avant sinistre. En gnral, la production se trouve rpartie sur les deux sites (fonctionnement en mode dual-site). Mais lexigence de certaines applications vis--vis des performances (temps de propagation des donnes), implique que la production se fasse parfois sur un seul site. Si les performances sont acceptables on prfrera mettre la rplication des donnes en mode synchrone. Actuellement la distance intersites pour ce mode de fonctionnement ne saurait excder une cinquantaine de km. La haute disponibilit repose souvent sur une architecture renforce au niveau de chacune des couches suivantes : Serveurs (physiques ou virtuels) : ils sont redonds et distants. Stockage de donnes : les baies sont distantes et rpliques. Rseau : il est totalement redond, y compris sur les deux sites. Ressources/environnement (lectricit, climatisation) : ils doivent tre redonds.
LiVRE BLANC
Les techniques de haute disponibilit peuvent se prsenter sous diffrentes chelles, de la simple redondance locale des serveurs avec ventuellement redondance des donnes, la mise en place de clusters distants avec baies de stockages en rplication. Cette dernire formule prsente tout son intrt pour faire face au risque de sinistre dune salle. Le plus souvent on utilise deux sites distants. Selon les attentes, les contraintes de maintien en condition oprationnelle on orientera son choix vers : 1. Dclarer un site comme principal et lautre de secours (la production ne fonctionne effectivement que sur le site principal). 2. Avoir les deux sites actifs simultanment (la production est rpartie sur les deux sites). Les deux sites doivent-ils tre de puissance identique ? Pas forcment, mais comme nous allons le voir une diffrence de capacit de traitement entre les deux sites posera toujours des problmes en cas de sinistre. - Cas 1 : les deux sites sont de puissance identique, alors le site de secours reprend en totalit lactivit du site principal. - Cas 2 : les deux sites ne sont pas de puissance identique, alors le site survivant ne peut pas assurer lensemble des traitements cumuls. Il faut donc prvoir soit un dlestage (fonctionnement dgrad) ; soit des moyens pour augmenter rapidement la puissance. (Il est possible de ngocier des cls dactivation de puissance (Power on Demand) en cas de PRA [ex : Capacity on Demand sur z Series chez IBM]) Dans les deux cas, si les systmes et applications sont prvus pour, le basculement est automatique et rapide (de quelques secondes quelques minutes). Par contre, selon la conception de lapplication, le basculement peut ncessiter la rouverture des sessions de travail. Ct donnes, des procdures de reprise doivent tre prvues avec les mtiers pour prendre en compte : La vrification et la reprise des transactions manuelles en cours au moment du basculement. La vrification et la reprise des batch en cours au moment du basculement. En cas dchec, la restauration des donnes simposera. La reprise froid partir des sauvegardes, mme dans ce type darchitecture, reste un ultime secours. Tableau comparatif entre la haute disponibilit intersites (deux sites distincts), inter-salles (deux salles au sein du mme btiment), inter-btiments (deux btiments sur un mme site).
PAGE 22
Le choix pourra se faire en fonction des possibilits de ralisation et du niveau de couverture recherch pour chaque risque.
Haute disponibilit Avantages / Inconvnients Performances Facilit de MCO Disponibilit
Inter-salles
+++
++
Risques dus lenvironnement partag (nergie, climatisation, rseau, accs, localisation perte du btiment, ...)
Inter-btiments
Bonnes (Rplication synchrone) Bonnes (Rplication synchrone) (NB : perte de temps en traitement batch) Dgradation selon distance (Rplication asynchrone)
+++
++
Lenvironnement commun est rduit. Selon larchitecture des rseaux et des ressources, le risque peut aussi tre rduit
+++
Intersites < 50 km
++
Intersites >50 km
+++
LiVRE BLANC
Il ny a quasiment plus aujourdhui dapplication ou mme de chane applicative fonctionnant en stand-alone : les changes multilatraux sont trs nombreux, rarement documents exhaustivement (en tous cas, leur criticit reste rarement dfinie) et concrtement, cela sest traduit ces dernires annes par la multiplication des projets EAI / bus applicatifs qui viennent dailleurs simplifier le secours, sils le prvoient ds le dbut. Du coup, il est quasiment impossible de dfinir un point de synchronisation global quotidien pour toutes les applications, ce qui conduirait arrter toutes les bases en mme temps pendant X heures, le temps de les sauvegarder et encore moins sil faut dfinir plusieurs de ces points par jour, en fonction de la dure dinterruption la plus exigeante. En consquence : il faut imprativement dcouper le SI en plaques prsentant des changes de flux minimum, et si possible regroupant des applications avec des besoins (dure maximale dinterruption admissible DMIA / PDMA) proches.
Utiliser des solutions techniques facilitant la synchronisation des sauvegardes / jeux de donnes rpliqus du PRA
Pour limiter la fentre ncessaire la synchronisation, il est dsormais possible de sappuyer sur les outils de snapshot ou quivalent. On passe de quelques heures quelques secondes dindisponibilit de la base de donnes. On est sr den possder une version cohrente (au sens du SGBD). Il est donc beaucoup plus facile de trouver un point de cohrence fonctionnelle. En utilisant en plus les outils de journalisation de la plupart des applications / SGBD, on se limite la rplication synchrone de volumes limits de donnes. La plupart des outils de SGBD savent dsormais grer la notion de groupes cohrents : cela demande nanmoins un travail de conception en amont (dfinition des dpendances entre bases), puis dimplmentation technique, en allant jusquaux tests. Dans le cas particulier des architectures orientes services (SOA) : mme sil est toujours possible de mettre en place des clusters au niveau des SGBD et des serveurs dapplication (Websphere, Tomcat), il ny a pas de solution idale pour secourir les queues managers . Il faut imprativement intgrer la dimension secours ds ltude darchitecture, et prvoir les mcanismes de resynchronisation des files dattente, qui aujourdhui ne sont pas automatiques.
A noter le cas particulier de la corruption de donnes : Plus on met en place des mcanismes visant une faible perte de donnes, plus on augmente les risques en cas de corruption. Le secours se retrouve corrompu quasi-instantanment en cas de problme et du coup, il faut imprativement mettre en place des mcanismes complmentaires pour remonter dans le temps de faon toujours synchrone : par exemple, en conservant un historique des snapshots synchroniss sur 24h (ce type dopration prsente un impact significatif sur les besoins de stockage).
Ne pas oublier que les Mtiers sont toujours indispensables lors de la validation de la cohrence fonctionnelle du PRA
Malgr tous les efforts fournis au niveau technique par les quipes de la DSI, seuls les mtiers sont in fine en mesure de confirmer la validit fonctionnelle et lexhaustivit des donnes restaures : les derniers contrles doivent donc revenir aux mtiers (par exemple : par un rapprochement de balances gestion / comptables dans le cas de reprise de donnes financires).
PAGE 24
De plus, sauf exception, toutes les applications ne sont pas secourues avec les mmes exigences : il y a donc forcment des besoins de resynchronisation manuelle . Et enfin, entre les plaques secourables dfinies plus haut, il faut forcment assurer une resynchronisation : en rejouant des fichiers, en saisissant des donnes manuellement, ou par dautres procds du mme type.
Impliquer les Mtiers ds la conception de larchitecture pour prparer la validation des PRA
Comme nous avons faire des ensembles dapplications vitales, il nest pas acceptable pour la matrise douvrage de prendre des risques inconsidrs pour effectuer un test. Une architecture de type PRA froid est gnralement isole du rseau de production principal, il est alors possible deffectuer des tests sur un rseau de secours indpendant. La difficult rside gnralement dans la mise en uvre des flux hors primtre PRA. Ce test reste alors partiel. Un PRA chaud se fait gnralement sur des machines du rseau de production. Le test le plus pertinent consiste basculer les utilisateurs nominaux sur les applications en PRA. Mais la difficult rside dans la fentre de basculement choisir pour viter un arrt de service (par exemple basculement de nuit). Larchitecture doit intgrer des mcanismes qui garantissent quaucune perte de donnes naura lieu lors dun basculement programm. Un PRA haute disponibilit sans perte de donnes peut se tester par des basculements intersites. On vitera par mesure de prcaution les priodes dactivit les plus charges. Larchitecture physique des sites, la distance entre sites, le type de connexion (fibre noire) doivent tre conu pour cela.
LiVRE BLANC
2.4 En conclusion
Comment passer du chaos lordre ? Voil qui pourrait rsumer la vocation dun chapitre sur la gestion de la cohrence applicative. En ces temps de complexit grandissante des SI, quelle est la solution optimale pour assurer un PRA ? Pas de rponse dfinitive, mme si nous le dplorons, mais pour clore ce chapitre nous vous proposons quelques pistes de rflexion complmentaires.
2.4.a Mettre en place une gestion du PRA par groupes dapplications (pour les reprises : rejeu, limination des doublons, etc.)
Une telle dmarche savre judicieuse dans un environnement o les groupes dapplications sont bien compris et matriss par les mtiers. De plus, dans certains cas le mtier possde des contrats de service dfinissant les changes avec dautres groupes dapplications ou mtiers (les scnarios de reprise sont alors intgrs au niveau fonctionnel, ou bien la reprise concerne des blocs fonctionnels plutt que des blocs techniques). Cette gestion du PRA doit tre prise en compte et formalise pour chaque application, voire dplace vers un outil ou une application spcialise (ce qui dpend de la taille du groupe dapplications, de la complexit du service, de la connaissance fonctionnelle, etc.)
de gestion spcialiss dans chaque zone et des points de passage auditables (monitoring des Firewalls + traitement des logs par exemple) complts par des outils globaux de gestion des flux et des reprises. Encore une piste prometteuse mais non universelle et qui suppose de longs mois de conception et probablement des annes de mise en place (pour les grands groupes multi-datacenters).
Les limites : lextension du primtre gr (et rput cohrent) se trouve limite par les contraintes de volumtrie, de dbits rseaux, ou une nouvelle fois de coordination dapplications trop nombreuses. Et pour lheure, le constat reste que la technologie rpond trs bien aux besoins de cohrence application par application mais ne prend que partiellement en compte les contraintes de cohrence entre applications. De plus, pour atteindre une relle cohrence fonctionnelle cette technologie doit tre intgre ds la conception de larchitecture afin den tirer le meilleur parti. Cela peut poser des problmes de compatibilit ou dvolutions ultrieures.
LiVRE BLANC
3.1 Introduction
Pour importants quils soient, les aspects techniques du PRA nen constituent quune partie. Le jour o survient un accident grave ou un sinistre, il faut dcider, et dcider vite, de la mise en uvre ou pas des moyens techniques pralablement dfinis, puis grer la situation de crise jusqu sa rsolution. Il sagit donc bien dans ce chapitre denvisager lorganisation pralable mettre en place. En effet, choisir de dclencher le PRA ne va pas de soi. Laccident nest peut-tre pas si grave. Et mme grave, ne saurait-on y remdier plus rapidement, avec une moindre perte de donnes, quen recourant au PRA ? Dans cette situation, qui donc prendra la dcision de dclencher les oprations de secours ? En sappuyant sur quels critres pertinents, dfinis auparavant par qui ? Noublions pas que dans le monde des plans de reprise informatiques, comme dans celui de lAssurance, la difficult consiste toujours bien prvoir les risques, et pondrer leur probabilit doccurrence selon la gravit de leurs ventuels impacts. Qui sera ensuite charg de lapplication des diffrentes parties de ce plan, pas seulement au sein du service informatique, mais aussi du ct des mtiers et de la direction gnrale ? Pour rpondre de faon efficace ces questions le jour du sinistre, un travail en amont simpose : qualification des process critiques, hirarchisation des priorits, tablissement dun organigramme clair pour les prises de dcision, gestion prvisionnelle des ressources humaines, prparation des communications autant de tches effectuer avant pour ne pas aggraver les consquences pendant. Cet ensemble de garde-fou ne garantit pas que le jour venu tout se droulera bien, mais il fournit un cadre au sein duquel agir. Or, dans une situation critique, par dfinition stressante, pouvoir sappuyer sur des procdures claires et compltes constitue un bon moyen dattnuer le choc.
Ce processus couvre trois domaines essentiels : 1 - Diagnostics, dcisions, actions 2 - Organisation 3 - Communication Il rpond ainsi aux questions : qui, quand, quoi, o, comment. Ce chapitre : Prsente dabord le principe de lescalade qui conduit transformer lincident en incident majeur, moment partir duquel se pose la question de dclencher le PRA. Donne donne voir comment dans lorganisation de crise se structurent les responsabilits, et qui dcide du dclenchement du PRA. Couvre la question des critres de dclenchement du PRA par type dincidents, et celle des outils capables de lier ces incidents lactivit de lentreprise. Les deux dernires parties portent sur le partage des tches entre quipes durant la crise, et sur les stratgies de communication mettre en place.
NB : Ce chapitre traite de la partie Informatique du PRA et ne couvrira pas les aspects mtiers (PCM).
LiVRE BLANC
la procdure dincident majeur dcrit les niveaux de coordination, descalade, de communication et de ressources quexigent ces vnements de haute priorit et de caractre exceptionnel. La procdure de gestion de crise vise fournir un cadre pour la prise en charge de ce type dincidents.
ITIL et les PRA : Pour plus dinformation voir article complmentaire en Annexe.
3.4.a Organisation
Pour rpondre lapparition dun incident majeur ou critique (sinistre), une Cellule Technique Oprationnelle (CTO), constitue de collaborateurs appartenant une ou plusieurs cellules techniques (N2-N3), prend en charge ltablissement du diagnostic et tente de rtablir le service aux utilisateurs au plus vite. Il arrive cependant que le dlai de rsolution sallonge. Lexprience montre en effet que les personnes en charge de lincident ont souvent une approche optimiste du temps de rsolution ncessaire. Alors se pose la question : partir de quel moment faut-il basculer vers le PRA en arrtant ou non la rsolution de lincident ? Qui prend la dcision ? Le niveau de validation dpend de la solution (diffrent entre un PRA en haute disponibilit et un PRA froid) mais en gnral la CCD (cellule de crise dcisionnelle) porte cette responsabilit. Cette dernire prend en charge la coordination, le suivi et la communication durant toute la dure de la crise. La CCO se compose doprationnels mtiers, elle a pour fonction de coordonner les oprations, de piloter le CTO, dorganiser les plans dactions, de collecter et danalyser les options soumettre la CCD, puis de faire excuter ces dcisions. Cette CCO reste mobilise durant toute la dure de la crise Il est souhaitable que la CCD soit compose de personnels autoriss prendre les dcisions les plus importantes, et valide en dernier recours le dclenchement du PRA et la communication qui sensuit. Selon la criticit du mtier, il peut tre opportun davoir une astreinte managriale par domaine (cadre de permanence).
PAGE 30
3.4.b Processus
Pour illustrer linteraction des entits susnommes dans le circuit de prise de dcisions, nous vous proposons un schma simplifi du processus oprationnel :
LiVRE BLANC
NB : Il nest pas utile que les diffrentes cellules soient physiquement prsentes (conf call ou autre).
Il est possible davoir des arbres de dcisions disposition de la CCD pour diminuer le dlai de prise de dcision et justifier lorientation prise. Lorganisation de ces cellules doit aussi faire lobjet dexercices. La difficult tant souvent dassurer la prsence de certains cadres dcisionnaires.
La fin du RTO est dcide par la CCD suite constat des mtiers ayant valid la reprise fonctionnelle des applications.
Il est conseill de se mettre daccord avec les mtiers sur la dure de prise de dcisions.
NB : Dans les schmas suivant les pavs bleu, orange et jaune de la zone RTO illustrent le diffrentiel temporel du dmarrage RTO selon les rgles dfinies par lentreprise.
NB : La rfection des travaux dj faits consiste appliquer lensemble des traitements intervenus entre la dernire sauvegarde de recours utilise et le moment du sinistre.
PAGE 33
NB : Ces paramtres RTO et RPO serviront dlments de base pour prendre la dcision de basculer.
LiVRE BLANC
Le point de non-retour est le point partir duquel il ne faut plus retourner en arrire (mme en cas de retour la normale sur le site primaire) mais continuer imprativement la bascule engage. En effet, le risque associ au retour ltat initial devient progressivement plus important que celui associ la continuation de la procdure de PRA en cours. Il faut alors toujours aller vers un tat connu, fiable et stable en utilisant le PRA test.
Exemple de critres et escalade par type de sinistre physique ou logique Sinistres physiques
Type de sinistre physique Critres Si certitude de coupure de lalimentation lectrique suprieure 12 heures ouvres Problme lectrique Coupure lectrique gnralise touchant les salles informatiques quelle que soit la dure estime de redmarrage. Si non matrise en 5mn dun incendie proche ou lintrieur du btiment Informatique Dans tous les cas Si le matriel dune salle informatique a t touch Si intrusion non matrise dans lenceinte du btiment informatique Dans tous les cas Si impact sur le fonctionnement du SI (tlphonie, rseau, serveurs, ) Si dure probable dinterruption suprieure 4 heures ouvres Si temprature suprieure 25 dans locaux informatiques et si certitude de dfaillance de la climatisation suprieure 4 heures Dans tous les cas Passage de niveau 1 en niveau 2 : (voir tableau supra) Alerte du responsable dastreinte Escalade
Incendie Dgagement intempestif de CO/gaz inertes Dgts des eaux Intrusion dans le btiment Evacuation force du personnel Vandalisme Coupure de laccs tlcoms dans les locaux darrive tlcoms Climatisation de la salle informatique Blocage daccs au btiment informatique
PAGE 34
Incident ou panne qualifi de Priorit 1 (rsolution en moins de 4 heures) impactant uniquement linformatique
NB : Les chiffres en gras correspondent des paramtres spcifiques qui varient pour chaque entreprise
LiVRE BLANC
Figure 17 : le BIA
Cette opration se base sur diffrentes approches mais pourrait idalement inclure les items suivants : Un dcoupage des missions, des fonctions, des process de lentreprise Une description des processus, listant les processus entrants et sortants et leurs interactions avec les processus tiers Une description des temps maximaux dinterruption admissibles (DMIA) avant impact sur le mtier avec les objectifs de reprise (RTO) correspondant Une valuation des impacts financiers et oprationnels dcoulant de linterruption Une description des ressources techniques et humaines ncessaires pour supporter ces processus Une description des impacts juridiques possibles Une description des incidents passs et de leurs impacts Avant datteindre une maturit suffisante dans la description complte de la matrice dAnalyse dImpact Mtiers, une approche plus simple peut suffire ; condition quelle inclue les DMIA souhaits par les mtiers et valids par la DG.
PAGE 36
La DSI peut proposer aux mtiers trois niveaux de reprise dactivits : Un niveau or correspondant au secours haute disponibilit Un niveau argent correspondant au secours chaud Un niveau bronze correspondant au secours froid Les RTO / RPO correspondants ces trois solutions sont proposs aux mtiers avec leurs cots associs.
Il existe dautres types de matrices, comme la matrice technique dimpacts mtiers utilise plutt par les oprationnels au sein des DSI :
Elle permet de mesurer rapidement limpact dun incident technique (panne dun serveur, perte dun rack, dysfonctionnement dune baie de stockage, ) sur une population particulire, sur un applicatif, sur la convention de service.
PAGE 37
LiVRE BLANC
NB : Dans le cas des bascules automatiques, il faudra sassurer de disposer dindicateurs dtats en consquence (alarme sur bascule).
La bonne organisation mettre en place pour le dclenchement dun PRA peut se composer de : Une quipe en charge du PRA qui travaille avec les quipes de production prsentes sur site au moment de la survenue du sinistre. Des astreintes au niveau dcisionnel comme oprationnel. Un accord avec la DRH concernant les conditions de travail en situation de crise : heures supplmentaires, drogation la dure lgale quotidienne de travail, travail le dimanche ou la nuit (voir livre CCA). Ce qui nous emmne rappeler que ce sujet devrait tre couvert dans le cadre du volet Ressources Humaines du PCA/PRA selon 3 axes : Faire connatre : tablir un dispositif et des dmarches RH spcifiques sappliquant en cas dincident majeur impactant lentreprise. Savoir faire : formation et organisation des quipes exploitant le SI en heures non-ouvrables. Faire adhrer : dfinir les rgles du jeu applicables dans le cadre dune situation exceptionnelle (astreintes, rmunration, compensations). Il sagit de trouver un quilibre entre la stratgie de continuit, les besoins mtiers et les ressources disponibles dans la situation de crise.
PAGE 38
Communication Interne
Il est ncessaire davoir prvu lavance une communication interne destine lensemble des employs de lentreprise, quils soient directement impliqus ou non. Les informations communiquer sont valides par la CCD. Ces informations sont transmises par le DRH ou ses dlgus. Les moyens utiliser : messagerie, intranet, alertes SMS, courriers, cascades tlphoniques. Certaines entreprises disposent aussi dun site internet de crise (Accs scuris) hberg chez un tiers. Pour pallier une dfaillance de la messagerie interne, il peut tre ncessaire de disposer dune messagerie de crise externe. Les SMS sont privilgier. Les messages dalertes comportent usuellement les lments suivants : Historique Incident : Niveau de criticit: Fort/Moyen/Faible Niveau de vigilance (attaque scurit) : Site Impact : Impact Mtiers : Impact Utilisateur: Cartographie de limpact: Processus Incident Dclench : Heure du dclenchement : Dlai de rtablissement estim : Frquence de communication :
LiVRE BLANC
A retenir pour une communication efficace : - Alerter sans alarmer - Communiquer rgulirement - Informer de faon claire et transparente
Une fois le PRA activ et la bascule vers les moyens de secours effectue, il reste parcourir lautre moiti du chemin, souvent la plus dlicate, car la moins teste. La dcision de revenir une situation normale est prise par la CCD sur avis de la CCO. Le retour arrire nest pas toujours dcrit dans le PRA car il dpend de la nature du sinistre : Retour envisageable sur le site de production aprs quelques jours ou quelques semaines, par exemple lissue du temps de rhabilitation du site suite un dgt des eaux. On considre gnralement quil est acceptable de ne plus disposer de PRA pendant cette phase. Mais il faut alors muscler les scurits et veiller particulirement la mise horssite des sauvegardes. Retour impossible sur le site de production, par exemple destruction totale du site dans un incendie. Il est alors ncessaire de revoir limplantation des applications sur dautres datacenters existants (rserve despace) et ceci dans un dlai raisonnable afin de restaurer le niveau de service en cas de nouveau sinistre majeur. Avant de retourner en situation normale, il faut sassurer davoir un systme de sauvegarde externalise. Nous avons vu que dans un PRA les ruptures de disponibilit et les pertes de donnes dpendent du niveau de service choisi : froid, chaud, en haute-disponibilit. Cependant, le retour en arrire tant une opration programme, et non pas provoque par un incident, on essaiera den rduire les effets au maximum, en se fixant une dure dinterruption minimale et connue, et une perte de donnes nulle. Comme pour la bascule en PRA, le retour en production normale doit aussi faire lobjet de tests.
PAGE 40
En Synthse: le manque de formalisation est souvent mise en avant : tant au niveau des processus, de la communication que sur lorganisation RH.
Disposez-vous dun diagramme descalade clairement tabli et diffus ? OUI : NON : 62% 38%
Quelle matrice daide la dcision utilisez-vous ? Critres dfinis dans le PCA : Convention de service : Dcision mtier : 25% 35% 40%
Disposez-vous dune communication prtablie : Oui : Non : 60% (communication interne) 40%
Dans le cas dun dclenchement de PRA de nuit avec rappel de salaris : quelle organisation, quel amnagement RH, ... avez-vous mis en place ? Dispositif exceptionnel prvu par les RH : Rgulation post-incident : 50% 50%
PAGE 41
LiVRE BLANC
4.1 Introduction
Lorsquun sinistre se produit, la cellule de crise dcisionnelle se pose toujours la mme question : le PRA est-il oprationnel ? Assurera-t-il la reprise de lactivit dans le dlai prvu ? Les tests et exercices constituent le seul moyen dapporter une rponse crdible ces questions. On peut mme affirmer quun PRA non test rgulirement est un PRA qui nexiste pas. Dans cette logique, quelle suite de tests et dexercices probants faut-il dfinir et raliser afin dacqurir la quasi-certitude quau moment voulu le PRA fonctionnera ?
4.3 Dfinitions
Test et exercice (dfinitions issues du Livre Blanc du Club de la Continuit dActivit : Lexique structur de la continuit dactivit) : Il est ncessaire de faire une distinction entre test et exercice : Le test est destin apprcier la validit dune modification (innovation, mise niveau, correction, ) et produit un rsultat binaire (russi ou non russi). Le test a un caractre exploratoire qui peut conduire un chec. Lexercice constitue un entrainement, et correspond lentretien dun savoir-faire, la rptition dune mise en situation matrialise par un scnario de sinistre. Il sert maintenir le niveau de comptence de lensemble des participants, et prparer les utilisateurs finaux.
Type dexercice
Lorganisation dun test ou exercice rsulte souvent dun compromis entre le risque pris lors de sa ralisation et le caractre probant que lon en attend. En consquence, une grande majorit des tests prsentent un primtre plus rduit que celui dune crise relle, par exemple ils ne dbutent pas de faon inopine, mais sont prpars lavance et planifis. Pour les plans de secours froid et chaud (comme nous le verrons plus bas, la haute disponibilit constitue un exemple part), lexercice sera simul ou rel, prpar ou impromptu. Un plan de validation complet du PRA doit prendre en compte ces quatre types dexercices.
PAGE 42
Les exercices de type prpars et simuls sont videmment les premiers pratiquer de par leur faible caractre perturbateur.
Exercice simul Exercice rel La date de lexercice est connue de tous les participants. La production est arrte, le secours prend le relais (Primtre en fonction des dcideurs). La date de lexercice est inconnue de tous les participants. La production est arrte, le secours prend le relais (Primtre en fonction des dcideurs).
Prpar
La date de lexercice est connue de tous les participants. Il ny a pas darrt de la production.
La date de lexercice est inconnue de tous les participants. Inopin Le fonctionnement en mode secours est valid, mais il ny a pas darrt de la production.
Les exercices de type prpars et rels vrifient que le fonctionnement sur le site de secours seffectue dans des conditions acceptables. Les exercices de type simuls et inopins vrifient la ractivit des participants dans des conditions proches des conditions relles, mais sans faire courir de risque au bon fonctionnement de la production.
NB : Le passage dun mode dexercice lautre dpend de la maturit du PRA, du niveau de comptence atteint par les quipes, de la confiance dans les processus mis en place, mais aussi de la volont de rpondre des contraintes oprationnelles fortes.
On note ainsi que certaines entreprises du CRiP, par exemple celles qui se trouvent fortement soumises des rgulations bancaires, ou encore des services publics, excutent souvent des exercices de PRA en conditions relles. La dure de lexercice varie alors selon le mode de bascule (ex : bascule technique le week-end et fonctionnement rel en mode PRA durant la semaine ; bascule en HD ; ).
PAGE 43
LiVRE BLANC
Dans ce cas, la ralisation et la validation de lensemble des cahiers de tests techniques et fonctionnels sur le site de secours constituent un pralable au GO/NOGO pour lexcution du test du PRA en production. Lactivit mtier peut ensuite sexcuter dans ce nouvel environnement devenu similaire lenvironnement de production. La phase de retour arrire, pour revenir sur le site de production primaire, est toujours critique car elle oblige respecter deux tapes prliminaires : 1 - Qualifier les donnes enregistres sur le site de secours pour sassurer de la cohrence entre les deux sites. 2 - Resynchroniser les donnes sans perte pour les mtiers (mise jour des donnes commerciales, des annuaires, des messageries, ).
Pour valuer la valeur probante des exercices de PRA nous proposons une liste non exhaustive de critres ligibles. Ces critres visent un double but : parfaire le PRA suite un exercice ; valuer la maturit du PRA avant son dclenchement. 1. Le primtre du PRA sest-il avr adquat aux besoins ngocis avec les mtiers partir de leurs exigences : applications secourues, processus de gestion de crise, nombre de personnes impliques ? 2. Le scnario de sinistre pris en compte tait-il raliste et valid par la direction des risques ou son quivalent ? 3. Les conditions de reprise dactivits observes (RTO, RPO) ont-elles t conformes aux conditions attendues par les mtiers (DMIA, PMDT) ? 4. Lentrainement des dcideurs et des oprationnels : Limplication des responsables (et de leurs remplaants) pour dcider du dclenchement a-t-elle t satisfaisante ? Limplication des hommes cls oprationnels a-t-elle t satisfaisante ? Les hommes cls oprationnels sont-ils en nombre suffisant pour assurer le bon droulement du PRA tout moment ? 5. Les dernires mises jour du PRA ont-elles t testes ? 6. Les exercices ont-ils t rejous par une autre quipe ? En effet, les procdures crites doivent toutes tre r-excutables par des personnes ne les ayant pas crites. 7. Les conditions de stress des participants taient-elles suffisantes ? 8. Les exercices ont-ils rvl des erreurs ? Dans le cas contraire, on se demandera si lobservation a t suffisamment fine. Ou on considrera avoir russi un exercice probant. Ces erreurs doivent tre diagnostiques, faire lobjet dun plan dactions correctives, et ce plan doit faire lui-mme lobjet dun rapport dexcution. 9. Les conditions darrt simulant le sinistre comportaient-elles assez dlments alatoires pour viter que lexercice ne se droule dans des conditions trop propres et donc peu ralistes ? Pourra-t-on ventuellement reprendre lactivit avec une perte de donnes ? 10. Des exercices inopins avec une prparation limite ont-ils t raliss ? 11. Le test/exercice a-t-il t contrl par des observateurs internes ou externes indpendants ? 12. La dure de lexercice a-t-elle t suffisante pour caractriser un scnario de sinistre raliste ? Un jour ne suffit peut tre pas ?
PAGE 45
LiVRE BLANC
NB : Ces critres ne sont pas des conditions ncessaires et suffisantes pour qualifier de probant un exercice. Pour ce faire, il doit atteindre les objectifs pralablement tablis par une entit de lentreprise (Risques, Mtiers) diffrente de la DSI. Il doit aussi faire lobjet dun compte rendu valid et sign par les parties prenantes. Rappel : Les correctifs apports suite aux incidents doivent faire lobjet dun procs-verbal de mise en place annexs au compte rendu. NB : Le risque pris lors de la ralisation dun exercice de PRA ne doit pas tre suprieur au risque que lon cherche couvrir !
Cependant, lexercice inopin est celui qui se rapproche le plus des conditions relles, et par consquent le plus probant.
PAGE 46
Ce qui a t test est-il reproductible par dautres personnes ? Oui : Non : Ne sait pas : 60 % 20 % 20 %
Les tests / exercices sont-ils contrls par des observateurs internes ou externes indpendants ? Oui : Non : 80 % 20 %
Les conditions de reprise dactivits (RTO, RPO) sont-elles mesures ? RTO mesur : RPO mesur Ne sait pas : 48 % 26 % 26 %
Faites-vous des exercices inopins ou seulement un moment propice ? Moment propice : Inopin : Quel est le niveau de prparation des tests ? Prpar : Inopin : Ne sait pas : 79 % 16 % 5% 80 % 16 %
Raisons pour lesquelles il ny a pas de tests inopins ? Manque maturit : 21 % Trop lourd : 21 % Impratif de production : 14 % Veto de la Direction Gnrale : 7% Pas de tests suffisant : 7% Test de gestion de crise inopin uniquement : 7 % Pas de demande : 7% Ne sait pas : 7%
PAGE 47
LiVRE BLANC
5.1 Introduction
Si lexercice de PRA permet de valider les procdures, les process, et les types darchitectures techniques de reprise, la plus grande difficult dans le temps reste de maintenir le PRA jour ! Deux solutions complmentaires pour garantir ce bon entretien : la frquence leve des exercices (voir statistiques dans les chapitres prcdents) et le maintien continuel en condition oprationnelle (MCO). Tous les oprationnels partagent une mme prconisation : il faut traiter le Maintien en Condition Oprationnelle des PRA la mme frquence que les livraisons en production. Une contrainte de plus diront certains mais la gestion du risque (encore une fois) est mre de suret Selon les types de PRA, la mthode change.
Tenue jour des procdures techniques : de restauration, de synchronisation des donnes et de bascule des changes. Maintien des comptences ncessaires la bonne conduite du PRA : acteurs des cellules de crise, personnels soumis aux astreintes oprationnelles, personnels soumis aux astreintes de la matrise douvrage. Dterminer les types de changements grer et la mthode applicable chaque type de changement: volution des quipements et des OS, des changes, Inclure les corrections des erreurs mises en vidence au cours des exercices prcdents. Le Maintien en Condition Oprationnelle du PRA doit tre trait de la mme faon que celui de la Production. Ainsi toute analyse dimpacts en production (voir cellule de mise en production du type CAB - Change Advisory Board - ou autre) suite modifications (livraisons, incidents, ) devra prendre en compte le PRA. On devra sassurer du dploiement lidentique des modifications et volutions sur tous les sites informatiques hbergeant le PRA, internes comme externes, pour maintenir la cohrence des architectures. Lors de nouveaux dploiements, la question du test unitaire de compatibilit entre sites reste dfinir : test technique unitaire ou test de plus grande ampleur impliquant les mtiers (exercices). Une attention particulire sera porte aux environnements multipartenaires de par les dpendances et incidences quils induisent dans le PRA. Il faut bien garder lesprit que toute priode de transition, toute modification ou volution non-encore propage globalement, met le PRA en tat dinstabilit. Durant une phase de modification, il existe, selon la stratgie employe (mise jour synchrone /asynchrone), le besoin de dfinir un dlai de validation. Durant ce dlai, toute bascule en PRA devient critique, car ltat du site secondaire gnrera des incidents corrigs par le MCO sur le site primaire. Pendant cette priode dinstabilit : - tout exercice est proscrire. - si un sinistre a lieu, il faut mettre niveau le second site avant toute autre opration. La CTO/CCO devra imprativement fournir la CCD un tat du site de bascule avant dclenchement du PRA. La suite du chapitre dcrit le Maintien en Condition Oprationnelle par type de solution de secours.
PAGE 49
LiVRE BLANC
Dans cette situation, il est souvent admis dcraser ce qui tait install sur le site de secours selon deux stratgies majeures et complmentaires : - Vision image (ghost, RDP, PVS, NIM, ) - Vision applicative (sauvegarde complte applicative,). La question cl reste de sassurer de la disponibilit technique et oprationnelle de linfrastructure du site distant, par exemple par une surveillance minimale des serveurs, clusters, dispositifs de stockage prsents sur ce site. Une des difficults du modle du PRA froid consiste maintenir sur le site de secours un volant de ressources disponibles ou mobilisables compatibles en termes de plateforme et de capacits (RAM, CPU, stockage) avec les exigences de la production. A dfaut, il faut prvoir des procdures de commandes acclres dquipements avec les fournisseurs (attention au dlai dapprovisionnement). Ces ressources de secours peuvent tre chez un prestataire spcialis (site mutualis). Mise disposition, maintien niveau, priodes de tests, sont alors dfinies par contrat. Si lon dispose de deux sites, une rpartition judicieuse entre ressources de production et autres (dveloppement, intgration, etc..) peut galement satisfaire les besoins de secours, avec des ressources connues, mises jour, mobilisables et surtout non dormantes, ce qui diminue dautant le cot dinfrastructure du secours froid. Dans tous les cas cela suppose de disposer dune cartographie complte et jour des ressources, y compris des ressources dormantes.
PAGE 50
Avantage : Le PRA est test rgulirement. Le temps dindisponibilit pour les utilisateurs est faible.
Le MCO dun PRA chaud requiert une gestion des changements plus rigoureuse que celle dun PRA froid. Il faudra sassurer par tests unitaires de la bonne installation des volutions sur le site secondaire. Attention aux carts non tests !
NB : Il faut sassurer que les constructeurs offrent des solutions de mise niveau rtrocompatibles.
PAGE 51
LiVRE BLANC
Pilotage : Chaque entreprise possde ses propres structures de pilotage mais au travers de notre questionnaire nous observons quelles restent la plupart du temps noyes dans la Production. Le MCO est laffaire de tous ! Cependant le pilotage du Maintien en Condition Oprationnelle du PRA est indispensable. Le pilotage du MCO du PRA est confi au responsable du plan de reprise dactivits. Il coordonne lensemble des acteurs intervenant sur le MCO : exploitants, responsables dapplications, responsable mtiers, gestionnaires de risques. Il contrle le travail de ces acteurs et valide le caractre oprationnel de cette maintenance par des tests et des exercices. Un comit de maintien en condition oprationnelle statue sur les budgets mettre en uvre pour assurer la mise niveau du PRA lors de la prise en compte de nouveaux risques ou lors de modifications des conditions de reprise demandes par les mtiers.
NB : Suite aux exercices, il est souhaitable de qualifier le caractre oprationnel du PRA dun domaine applicatif ou dune application.
Quelle est lorganisation des quipes responsables du PRA ? Equipe ddie PRA : Noy la Production : Autres : 48 % 35 % 17 %
Quels outils sont utiliss pour le MCO du PRA ? Intranet Documentaire: Excel/Word : Progiciel : Microsoft Project : 30 % 17 % 17 % 9%
Quel est le dlai de mise jour du site de secours : Immdiat : Dpend du service : Dpend de la disponibilit : 30 % 22 % 9%
Comment est effectu le contrle des mises jour et de la cohrence ? Humain : Logiciel : Humain et logiciel : Autres : 43 % 22 % 13 % 22 %
PAGE 53
LiVRE BLANC
6.1 Introduction
Dans quelle mesure la notion de contrat de service sapplique-t-elle aux PRA ? En cas de problme, qui assume quelles responsabilits ? Peut-on aller jusqu un engagement de rsultats ? La rdaction de ce chapitre diffre des prcdents par sa construction : interrogative, multiparagraphes, car la contractualisation reste souvent un exercice difficile. Difficile car sensible: dans sa description, dans les attendus, dans son mode de pilotage, dans lengagement juridique associ. Nous avons donc choisi daborder le sujet sous laxe des Questions/Points de vigilance qui permettra dapprhender plus sereinement le sujet.
et cest bien l que rside toute la difficult : ne rien oublier. Nous vous proposons quelques axes de rflexions avant rdaction.
Une ncessit : adapter le niveau de service (et donc le cot) du PRA aux enjeux mtiers rels (cf. BIA). On nexternalise que ce quon matrise, cela vaut aussi pour le PRA. Un PRA implique la reprise dun ensemble de services un niveau dtermin pour les activits vitales de lentreprise. Peut-on obtenir un engagement de rsultats qualifi ? Lexprience montre que la chose est rare, mais pas inexistante, et que la question doit-tre pose. Dans tous les cas, il faut dfinir prcisment ce qui tient aux engagements de moyens et aux engagements de rsultats. Attention, ces engagements sont prciser aussi bien lors dune ngociation en interne entre lquipe IT et les mtiers, que dans le cas dune ngociation avec un prestataire externe. Une bonne pratique universelle : ngocier des pnalits en cas de non-respect des engagements lis aux diffrentes composantes du PRA. Il faut formaliser des processus dalerte et de gestion de crise, que le PRA fonctionne en interne ou en externe en y incluant le prestataire.
LiVRE BLANC
Lexternalisation du secours chaud ou froid est envisageable en ce qui concerne le maintien en condition oprationnelle et la reprise dactivits. Le pilotage de la production sur le site de secours, suite accident ou sinistre, ne peut pas tre dlgu et doit rester de la responsabilit de lentreprise. Le client idal pour un PRA externalis ? Les SI les moins exigeants, ceux qui ne disposent pas de moyens prexistants, voire ceux qui nont pas encore mis en place de PRA. Il existe un certain nombre davantages dans cette situation : - Le prestaire apporte lexpertise technique. - La souplesse du dimensionnement, qui relve de la responsabilit du prestataire. - Labsence de gestion des infrastructures pour lentreprise. - Un aiguillon externe pour avancer : en effet, externaliser un PRA constitue un bon moyen de se forcer avancer en interne sur la dfinition de celui-ci si la chose na pas encore t faite.
Les mesures prendre en cas dcart constat entre site principal et site de secours. La gestion dincidents, accompagne ventuellement de pnalits, et la remonte dincidents survenus sur le site de secours. Les habilitations et astreintes des personnels impliqus dans le PRA et leur gestion dans le temps. Les responsables de la tenue jour des procdures oprationnelles (exploitant, SI, mtiers, permanence managriale). La dfinition des arrts programms pour maintenance du site de secours. La gestion des drogations de disponibilit du PRA, par exemple sous la forme dun dlai de consignation (dure prvue dune intervention de maintenance sur le site de secours qui le rend indisponible) associ un dlai de restitution (en cas durgence, en combien de temps le site de secours peut-il tre restaur dans un tat utilisable dans le cadre du PRA, par exemple en revenant un tat antrieur lopration de maintenance). Dans tous les cas, linterruption de disponibilit du site de secours ne pourra pas excder son dlai de mise disposition tel que dfini contractuellement. En rsum, il peut exister des oprations de maintenance de longue dure sur le site de secours, qui se traduisent par son indisponibilit, du moment quil est possible de remettre rapidement ce site en service en cas durgence.
6.4.b La contractualisation des niveaux de services applicables aux oprations de tests du PRA
Elle devra prciser les points suivants : Nature et frquence des exercices de PRA, pnalits applicables en cas de nonrespect de ce calendrier. Les exercices de PRA programms se feront sans perte de donnes (exercices rels). En cas dexercice de PRA inopin, une perte de donnes infrieure x mn sera tolrable. Dfinition de la prparation de lexercice de PRA (revues des procdures, valuation des risques et actions visant les rduire, organisation des ressources,...) La ralisation et vrification de la bascule aller puis retour vers le site de secours selon la procdure adapte au contexte.
LiVRE BLANC
Dlai de restitution des donnes et de reprise des flux perdus durant le sinistre (attention, certaines formes de rcupration sont de type SI et concernent des donnes brutes, dautres sont de type mtiers et demandent une rorganisation des donnes au sein des applications.) Les indicateurs de performances des processus en mode PRA doivent tre les mmes quen production normale aprs la priode de bascule de 4 h. Prciser la fourniture des services associs au fonctionnement en mode secours avec laccompagnement de proximit des acteurs participants. La remise en conformit du site de repli aprs exercice. Conditions du retour une situation normale (par exemple effacement scuris des donnes sensibles sur le site de secours). La ralisation du bilan des oprations et la dfinition, avec lensemble des acteurs, dun plan dactions correctives ou damlioration. Le dlai maximum de fonctionnement en mode PRA et les conditions de sortie chance. Lexternalisation ventuelle des sauvegardes sur le site de secours, voire la gestion des oprations de production sur ce site, si elles sont prises en charge par lquipe du prestataire externe.
PAGE 59
LiVRE BLANC
PAGE 61
LiVRE BLANC
Lquivalent traduit en vision Anglo-Saxonne : BCM= BIA + MCBS/RP + BCP Business Continuity Management = Business Impact Analysis and Risk Analysis + identification of Mission Critical Business Services that must be recovered in an event of a failure and Remediation Plan +Business Continuity Plan
BCP= EM+CM+CP+DRP+BRP Business Continuity Plan = Emergency Management + Crisis Management + Contingency Plans + Disaster Recovery Plans + Business Resumption Plans
> Rsilience
Source : AFNOR Capacit dune organisation rsister un incident, un accident, une crise dans des environnements adverses, puis revenir un tat normal. Source : Joint Forum 2006 La capacit dun acteur de lindustrie financire, dune autorit financire ou dun systme financier absorber limpact dune perturbation oprationnelle majeure et poursuivre les oprations ou les services critiques. Commentaire CCA : Une nuance peut tre apporte en franais entre : Rsilience : qualit de celui qui se rtablit vite Robustesse : qualit de ce qui reoit des coups sans trop en souffrir En anglais Robustness nest pas employ. Un bon PCA concoure la robustesse ; un bon PRA la rsilience.
PAGE 63
LiVRE BLANC
PAGE 64
Conclusion
Au bout de la patience, il y a le ciel Proverbe africain
Laventure rdactionnelle de ce livre touche sa fin et nous souhaiterions rappeler que ce document constitue une approche technique, qui naurait de sens sans lexistence, les attentes, les exigences, de continuit des mtiers. Pensez leur transmettre ce document. Il sera intressant denvisager dans un prochain livre blanc daborder la notion de Plan de Continuit dActivits (PCA) charge des mtiers. Car cest ce couple Mtiers/DSI qui doit converger vers une approche commune dans lcriture de La Solution raisonnable et acceptable en matire de risques et de cots pour lentreprise. Et ce sans oublier que le PRA, si complet soit-il, ne peut jamais couvrir tous les risques. Et ce sans oublier non plus que si puissants soient les moyens techniques actuels, la reprise dactivits ne pourra jamais tre absolument garantie. Il est indispensable dy sensibiliser la direction gnrale. Il ne faut pas oublier quun systme dinformation est un cosystme en perptuelle volution, et que le PRA doit en tre le reflet. Alors quelque soit la cause du sinistre, il y aura en situation de crise des ajustements apporter pour lesquels seul lentrainement et lagilit des hommes de lart pourront rpondre. Gardons lesprit, quen marge de tout cela, Monsieur PRA doit rester un homme de bon sens, qui revient toujours aux fondamentaux : quelle est la priorit ? Quel est le cur de mtier, Je citerai en exemple ce PCA o en cas de sinistre de lentreprise, lactivit principale est assure par un comptable avec un carnet de chque. Faites simple mais pas simpliste. Pour finir, aprs lavnement du web 2.0, larriv dans nos entreprises des collaborateurs 2.0 (gnration Y), lmergence de linterconnexion par le cloud, on assiste maintenant la venue du Telco 2.0, phnomne de convergence des rseaux et des services. Alors dans cette mouvance internationale, le PRA 2.0 mergera t-il ?
PAGE 65
LiVRE BLANC
Annexes
Liens
Livre Rouge sur la continuit dactivit : Livre FFIEC sur le BCP
http://www.redbooks.ibm.com/redbooks/pdfs/sg246547.pdf http://www.ffiec.gov/ffiecinfobase/booklets/bcp/bus_continuity_plan.pdf
Ouvrages
Livre blanc du Club de la Continuit dActivit : Lexique structur de la Continuit dActivit
http://www.clubpca.eu
Guide des bonnes pratiques de la Continuit dActivit lattention des Directions des Ressources Humaines
http://www.clubpca.eu
Articles Complmentaires
ITIL et la continuit dActivit
Source internet : http://www.newsitweb.info/nov06/itil_nov06.html
Lobjectif principal du processus de gestion de la continuit des services est de remettre en conditions oprationnelles les infrastructures informatiques pour supporter les fonctions mtiers de lentreprise en cas de destruction partielle ou totale des quipements. Il ne sagit pas forcment de tout reprendre (dailleurs ITIL propose une option de reprise qui peut paratre singulire mais qui pourtant est de toute premire importance: ne rien faire). En effet, le plan de reprise intgre la notion de fonction mtier vitale pour concentrer les efforts sur les fonctions les plus critiques et ignorer sil le faut, dautres fonctions annexes.
PAGE 66
Implmentation : partir de la stratgie de continuit dcide, lorganisation projet est mise en place pour dfinir le planning dimplmentation et laborer les techniques de reprise pour lensemble des solutions couvertes par le plan. Les activits de cette tape sont: mise en place de lorganisation, planning dimplmentation, dveloppement des dispositifs de secours, dploiement des mesures de rduction des risques, dveloppement des procdures de reprise et tests de reprise. Gestion oprationnelle : en mode production, le processus veille la sensibilisation des ressources et la formation des experts identifis. Le processus de gestion des changements sassure que toute modification pouvant impacter la reprise est analyse et intgre aux solutions de secours. Les activits de cette tape sont: ducation et sensibilisation, audits, plans de tests, gestion des changements et formations.
PAGE 67
Exigences et stratgie : cest le travail danalyse (impact et risques) qui doit amener lquipe projet dfinir les stratgies de reprise. Les objectifs du processus y sont dfinis en accord avec les exigences des directions mtiers. Trois fonctions composent cette tape: analyse dimpact, analyse des risques, stratgie de continuit.
LiVRE BLANC
PAGE 68
A propos du
Le Club de la Continuit dActivit
Association rgie par la loi de 1901, dote dun Bureau et dun Conseil dAdministration Cre en 2007, pour changer sur la Gestion de la Continuit dActivit (GCA) Runit des entreprises et des administrations de toutes tailles, de tous secteurs, de tous pays (une centaine dadhrents) Ouverte tous praticiens concerns : Responsable de la Continuit dActivit (entreprise, administration), Directeur des risques, Professeur, Etudiant (maitrise) Son objet est de runir tous les praticiens uvrant dans le domaine de la Gestion de la Continuit dActivit afin de : Partager leurs visions : retour dexprience, bonnes pratiques Parfaire leurs matrises : solutions, rglementation, normes Prenniser leurs actions : intgration de la Gestion de la Continuit dActivit dans la stratgie de lentreprise Notre mode de fonctionnement A linitiative dun adhrent voulant approfondir et confronter son exprience, une runion dchanges et de retour dexprience est organise (matinale de la continuit). A lissue de cette runion, un document tat de lart est produit et un groupe de travail peut tre constitu pour approfondir le sujet. Ce groupe produira un livre blanc et les rsultats seront prsents lors dune matinales de la continuit.
11 Groupes de travail
Concepts & vocabulaires de la Gestion de la Continuit dActivit - Elaboration dun lexique structur de tous les concepts en regroupant tous les vocabulaires employs aux USA, UK et France. Proposition de dfinition et commentaire du CCA Contact : Franois TTE - franois.tete@devoteam.com Pandmie grippale > gestion des grands risques - Elargir aux grands risques. Le groupe convient quil serait judicieux de poursuivre les rflexions sur le thme des grands risques, ceux sur lesquels leffort de comprhension des phnomnes et des enjeux ncessite une rponse globale, la fois dans lentreprise mais galement au niveau du pays. Contact : Pierre Dominique LANSARD pierre-dominique1.lansard@orange-ftgroup.com Juridique - Regroupement des textes juridiques concernant la continuit dactivit PCA et RH - Elaboration dun guide de bonnes pratiques de la Continuit dActivit lattention des RH. Contact : Guy PLAGNARD - guy.plagnard@cnp.fr PRA - Elaboration du prsent livre blanc PRA Contact : Franois TTE - franois.tete@devoteam.com PCA - Elaboration dun livre blanc PCA Contact : Patrick MORRISSEY - pmorrissey@auditware.fr Pr normalisation - Etude des normes existantes ; Proposition dune liste de critres pour valuer un PCA Contact : Pierre Dominique LANSARD pierre-dominique1.lansard@orange-ftgroup.com. Risque pnal et juridique en Continuit dActivit -La vocation du groupe de travail est dapprhender la responsabilit de lentit qui met en uvre le plan de continuit, de sa dfaillance, voire de son absence. Contact : Jean-Michel Icard jmicard@gmail.com Accompagnement de crise du leader (en cration) - sa solitude dans laction urgente - le recours des mthodes de crise - ladaptation du pilotage de lactivit dans lurgence - lidentification des dcisions rdhibitoires (sans retour possible en arrire) - la communication au service de la continuit dactivit - les conflits dintrt entre les stakeholders - tout moyen aidant le dcideur maintenir la continuit de lactivit de son organisation pendant laction. Contact : Hubert DUNANT hubert.dunant@emat.terre.defense.gouv.fr La continuit dactivit et la supply chain (en cration) - Partager nos visions et dmarches sur les briques fondamentales de la continuit dactivit des flux et des activits logistiques - Alerter sur des exigences croissantes sur le management des risques de la supply chain Le ROI (Return Of Investment) dun PCA (en cration) La performance, les rsultats attendus qui peuvent facilement tre chiffrs, intressent directement les responsables dentreprise ; les dispositifs de matrise des risques qui leur sont proposs ont un cot immdiat, et intrt plus difficilement chiffrable. Quelle approche peut-on avoir pour tudier simultanment les potentialits ngatives et positives dun projet ou dune activit future ?
Valoriser sa fonction
A propos du
Investir dans la production
Thmatiques
Jai trouv trs intressante linitiative du CRiP de runir des Responsables de production en charge dinformatiques clientes varies dans un cercle o ninterviennent pas les fournisseurs. Cela permet de confronter ses propres ides aux retours dexpriences dautres socits plus avances sur certains sujets. Une dmarche dautant plus indispensable que nous nous trouvons, dans le mtier de la production informatique, particulirement exposs des situations de grands changements, tels que la virtualisation dans ses multiples dimensions ou le cloud computing. Japprcie particulirement ce souci dapporter, partager et recevoir tout en mme temps ces indispensables retours dexprience.
Jean-Paul AMOROS GDF SUEZ CTO/Directeur de la Production Informatique, membre du Bureau Excutif du CRiP
Le Bureau excutif
Prsident : Philippe SERSOT CA-CIB - CTO Vice-prsidents : Marc LIMODIN LA BANQUE POSTALE Directeur des Techniques et Infrastructures Franois STEPHAN - THALES Directeur Technique Eric STERN ORANGE-FRANCE TELECOM Responsable Expertise Environnement Technique Nol CAVALIERE PSA PEUGEOT-CITRON Responsable de lArchitecture Technique Claude CORIAT RENAULT Responsable Stratgie et Politiques Techniques Jean-Paul AMOROS - GDF SUEZ CTO /Directeur de la Production Informatique Olivier MAUPATE - IT Director Pascal PICCHIOTTINO BOUYGUES TELECOM Responsable Dpartement Infrastructure SI Rseau Frdric DIDIER CREDIT FONCIER Directeur Production Informatique Secrtaire : Michel GROSBOST Trsorier : Gilles ALBERT SOCIETE GENERALE Technology Strategy Manager
PAGE 71
Plus de 115 grandes entreprises franaises adhrent ou sont en cours dadhsion au CRiP
TOTAL MAAF LOREAL GROUPAMA SI DARVA CREDIT AGRICOLE SA ADP GSI AEROPORTS DE PARIS ERDF GIE ALLIANZ INFORMATIQUE EIFFAGE AIR LIQUIDE MINISTERE DES FINANCES RENAULT CCR ASSET MANAGEMENT AREVA LA FRANCAISE DES JEUX SWISS LIFE KEOLIS AUCHAN INTERNATIONAL TECHNOLOGY AVIVA SOCIETE GENERALE AXA TECH LAFARGE BRED MUREX NEXTER GROUP NORBERT DENTRESSANGLE BOUYGUES TELECOM CASINO THALES GROUP CNES VALLOUREC MANPOWER FRANCE RTE FRANCE BIC CHOREGIE FRANCE TELEVISIONS CA SITS DISNEY DIRECTION DES DOUANES CREDIT IMMOBILIER DE FRANCE DANONE DCNS CNP ASSURANCES INA CPSIAT ARMEE DE TERRE CREDIT FONCIER EDF ESSILOR INTERNATIONAL FM LOGISTIC LOUIS VUITTON MALLETIER GENERALI GDF SUEZ SFR SI2M (MALAKOFF MEDERIC) VENTE PRIVEE.COM I-BP AIR FRANCE MACIF ARAMICE MINISTERE DE LINTERIEUR CARREFOUR GROUPE IMS GROUP NATIXIS GROUPE ADEO OECD ORANGE FT GROUPE PMU ARKEMA RESEAU FERRE DE FRANCE RHODIA SAINT GOBAIN SANOFI AVENTIS CA SILCA CAISSE DES DEPOTS LA BANQUE POSTALE GCE TECH (CAISSE EPARGNE) CREDIT AGRICOLE CIB CANAL + APHP PSA PEUGEOT-CITROEN RATP ALSTOM SCOR STIME POLE EMPLOI DEXIA LA POSTE MINISTERE DE LA DEFENSE SNCF GENERALE DE SANTE VOLVO IT SPIE DIM TECHNIP ETAM SUPERMARCHES MATCH EULER HERMES PRAXIS SERVIER GROUPE PREVOIR PIERRE FABRE AGIRC-ARRCO COFACE BUREAU VERITAS COFIDIS CFAO VALEO Etc
Le CRiP (Association Loi 1901) compte 115 grandes entreprises ou entits utilisatrices des technologies de linformation, adhrentes ou en cours dadhsion. Il rassemble une communaut de plus de 900 membres, responsables dinfrastructure ou de production. Le CRiP est un cercle de confiance, lieu dchanges et dinformations entre les diffrents membres confronts aux mmes dfis financiers, technologiques et organisationnels.
PAGE 72
Objectifs
- Etre plus performant dans les mtiers de linfrastructure et de la production - Partager nos visions et retours dexpriences - Echanger et travailler sur les technologies les ressources humaines les organisations et processus les approches financires des projets les relations avec les offreurs - Promouvoir notre fonction au sein des entreprises - Sappuyer sur les travaux du CRiP pour asseoir une position au sein de notre entreprise - Crer un rseau de communication rapide et efficace entre dirigeants.
Principes daction
Respect de la loyaut Les membres du CRiP ont pour principe la loyaut lgard des autres participants afin dinstaurer et de maintenir des relations de confiance durables. Participation active Les socits adhrentes au CRiP et leurs reprsentants membres du CRiP sengagent contribuer activement la vie du Club en apportant leur exprience et leur savoir-faire aux travaux collectifs. Les socits adhrentes sengagent - rpondre dans un dlai convenable aux diffrents questionnaires qui pourraient leur tre envoys - faire participer au moins un de leurs reprsentants au moins un groupe de travail - favoriser la participation de leurs reprsentants aux plnires du CRiP - promouvoir le CRiP au sein de leur organisation Les membres reprsentants sengagent - se comporter en ambassadeur du CRiP et promouvoir le CRiP auprs de leurs pairs et des fournisseurs - participer activement dans la mesure de leurs comptences, de leurs moyens, et de leurs autorisations internes aux confrences CRiP/ itiForums, soit en tant que membre dun comit de programme, travers un tmoignage, une table ronde ou en aidant la production de contenu.
Principes de comportement
Confidentialit Chaque membre du CRiP sengage ne pas divulguer des tiers les informations professionnelles prsentes, sauf accord explicite des membres metteurs et du bureau excutif du Club. Chacun des participants, membre permanent ou occasionnel, sinterdit dutiliser directement ou indirectement, des fins personnelles, des informations sensibles quil pourrait dtenir dans le cadre du Club. Conflits dintrts Chaque membre du CRiP se doit dviter toute situation de conflit entre les intrts du Club et ses intrts personnels ou ceux de ses proches. Le Club est un club dutilisateurs. Cependant certains de ses membres peuvent appartenir des socits adhrentes qui possdent dans leurs missions une offre de service pour les autres adhrents. Il est impratif dans ce cas que les reprsentants membres de ces dites socits aient un comportement irrprochable et nutilisent pas ce cercle de confiance pour promouvoir les offres de services de la socit qui les emploie.
PAGE 73
STOCKAGE
Anim par Franois DESSABLES
Architecte SAN Stockage PSA PEUGEOT-CITRON
MTIERS
Anim par Marc LIMODIN
Directeur des Techniques et des Infrastructures LA BANQUE POSTALE
Objectifs :
Identifier et partager les bonnes pratiques dans le domaine du stockage, tablir le cadre dusage des diffrentes technologies.
Objectifs :
Thmes :
Traiter de lvolution des mtiers de linfrastructure et de la production, des problmatiques de ressources humaines et des problmatiques dorganisation.
- Virtualisation du stockage/de la sauvegarde - Dduplication - Sauvegarde sur disques - Rplication CRiP Thmat ique - Convergence LAN-SAN Stockage - Architectures. Livre Blanc Analyse et Tendance du Stockage (dit en novembre 2009)
Thmes :
- Panorama des mtiers et de leurs changements, - Sous-traitance, - Gestion des ressources humaines de production. Livre Blanc Mtier (prvu en 2011)
14 dcembre
2011
Objectifs :
Identifier les meilleures pratiques en production pour le datacenter de demain et pour loptimisation de la consommation des composants dinfrastructure
Thmes :
- Optimisation nergtique - PUE, dfinition dindicateurs - Outillages de mesure - Bonne gestion du froid - Green IT, design de site
Livre Blanc Analyse et Tendance, vers le Datacenter idal (dit en juin 2009 loccasion dItiforums)
Dossier Technique Datacenters : Efficacit Energtique et indicateurs de performances (dit en mars 2010)
PAGE 74
LOW COST
Anim par Frdric DIDIER
Objectifs :
Directeur Production Informatique CREDIT FONCIER Inventorier les pratiques dinfrastructure de rupture capables de fournir des services bas cot et les pratiques associes.
Thmes :
- Logiciels open source, - Bring-your-own-PC, - Appliances, - Diffrenciation des classes de service dans le datacenter, - Utilisation de services et matriels grand public.
Objectifs : Recenser les expriences et les solutions, analyser les enjeux, dcrire la dmarche projet. Thmes :
- Solutions, arguments en faveur de la virtualisation, bonnes pratiques, piges et limites, impacts sur les projets les hommes et les services, les gains financiers et de niveaux de services. Dossier Technique Hyperviseur (dit en Dcembre 2010)
CLOUD COMPUTING
Anim par Franois STEPHAN
Directeur IT Transformation THALES
Objectifs :
Comprendre et analyser les technologies du cloud computing pour dterminer leurs conditions dusage.
BASES DE DONNES
Anim par Jean-Paul VEZARD
Objectifs : Thmes :
Ancien Responsable DBA la SOCIT GNRALE Etudier les problmes doptimisation des SGBD. - Mtrologie, - Solutions de tolrance aux pannes, - Mthodes de mutualisation, - SGBD open source.
Thmes :
- Dfinition des concepts, - Gains attendus et constats, - Scurit, - Typologie des usages, - Modles priv-public-mixte, - Retours dexpriences et roadmaps des membres du CRIP. Livre Blanc Analyse et Grandes Tendances du Cloud Computing (dit en juin 2010 loccasion dItiforums)
z/OS
Objectifs :
Grer, optimiser et mieux matriser les cots sur Mainframe, identifier les bonnes pratiques, inventorier les volutions et optimisations possibles.
Thmes :
Analyser les modles de standardisation et de mise en oeuvre de modules oprationnels pour la construction du SI.
Thmes :
- Perception de larchitecture technique dentreprise, - Dfinition du mtier darchitecte technique, - Bonnes pratiques, - Rfrentiels et outils de cartographie. PAGE 75
PRA
CMDB
Objectifs :
Objectifs :
Thmes :
- Concepts et vocabulaire PRA, - Architectures, - Cohrence applicative, - Critres de dclenchement, - Maintien en conditions oprationnelles, - Validit probante dun PRA. Livre Blanc Plan de Reprise dactivits (PRA) (dit en fvrier 2011)
En association avec
Thmes :
- Primtre et niveau de dtail de la CMDB, - Fiabiliser ses donnes, - Gains attendus, - Piges viter lors de la cration dune CMDB, - Exemples concrets de rsultats de mise en place. Livre Blanc - Comment construire et tirer bnfice dune CMDB ? (dit en juin 2010 loccasion de la Convention CRIP)
GOUVERNANCE ORCHESTRATION
Anim par Hugues FONDEUX
Objectifs :
Charg de Mission Evolution de lInfrastructure PSA PEUGEOT CITROEN Etudier lautomatisation des processus dexploitation informatique et tablir les bonnes pratiques associes.
Objectifs :
Dterminer les conditions de mise en place de modles de gouvernance dans linformatique de production.
Thmes :
Thmes :
- Gestion de fermes de serveurs, - Provisioning, - Acclration des PRA, - Traitement automatis dincidents, - Outils du march, - Difficults rencontres, - Analyse de rentabilit.
- Oprations dalignement mtier, - Gouvernance des contrats, - Valeur ajoute dans des environnements fortement externaliss. Fiche Pratique Alignement Stratgique de la Production Informatique aux Mtiers de lEntreprise (dite en mars 2010)
Thmes :
Thmes :
- Inventaire des bonnes pratiques - Analyse des modles existants - Mthodes de benchmarking des cots - Construction dun rfrentiel de cots Infrastructure et Production PAGE 76
- Haute disponibilit des rseaux - Convergence SAN-LAN - Le collaboratif - La mobilit, les nouveaux terminaux (tablettes, smartphones, ByoPC) - Rseaux et Cloud Computing
Les Observatoires des Directeurs dInfrastructure et de Production sont une initiative du CRiP. Ces observatoires regroupent lensemble des documents produits par les groupes de travail. A lusage des membres du CRiP, ces documents sont de plusieurs types : Enqute et Analyse des tendances Livre Blanc : les meilleures pratiques Guide de rdaction dappel doffre Fiches pratiques Les Enqutes et Analyses de tendances sont issues de questionnaires renseigns par les membres du CRiP. Lanalyse des rsultats recueillis permet de mesurer et dobserver lvolution des enjeux des CTOs et de leurs infrastructures. En outre, elle met en relief les grandes tendances lies aux principaux challenges des productions informatiques. Dans le cadre de lObservatoire des Directeurs dInfrastructure et de Production, chaque groupe de travail actif apporte une contribution importante dans llaboration de documents de rfrence. Actuellement, 16 groupes de travail CRiP sont actifs : DataCenter, Stockage, Could Computing, Low Cost, z/OS, Mtiers, CMDB, PRA, Architecture Technique dEntreprise, Virtualisation Serveur & Poste de Travail, Gouvernance, Bases de donnes, Efficacit Energtique, Orchestration, Rseaux, Mobilit & Collaboratif, et Matrise des Cots.
Les livrables du
Thmatiques
Depuis trois ans, bon nombre de documents ont t publis. Parmi les plus significatifs, on mentionnera : - Livre Blanc Enqute et Analyse des Tendances Serveurs - Enqute et Analyse des Oprations informatiques - Enqute et Analyse des tendances lies au Datacenter - Livre Blanc Meilleures Pratiques du DataCenter - Enqute et Analyse des Tendances du Stockage - Enqute et Analyse des Tendances CMDB - Dfinitions et Concepts, Enqute et Analyse des Tendances du Cloud Computing - Fiche Pratique Alignement Stratgique de la Production Informatique aux Mtiers de lEntreprise - Dossier Technique Datacenters : Efficacit Energtique et indicateurs de performances - Dossier dAnalyse Technologique : Les Hyperviseurs serveurs x86 Tous ces ouvrages produits ou en cours de production deviennent inluctablement une rfrence importante pour les CTOs. Ils permettent de saffranchir dtudes parfois longues et coteuses et de se benchmarker par rapport aux grandes tendances actuelles. Plus gnralement, ils constituent des outils reconnus pour lamlioration de la productivit.
Vritable associ du CRiP, ITIFORUMS est charg de la communication, de la production et de la diffusion des documents et vidos issus des travaux du CRiP, de lorganisation des vnements (Convention, CRiP Thmatiques, CERCLE i) , du rfrencement fournisseurs, de la relation avec les partenaires stratgiques du CRiP, et de la relation avec les partenaires fournisseurs du CRiP (prsence de porte-parole aux vnements propritaires, voyages dtude, etc..)
PAGE 77
LEtat de lArt et la Traduction Oprationnelle des Services et Technologies dans la vraie vie de lEntreprise
Des confrences Utilisateurs qui font le point sur les travaux du CRiP. Les thmes traits dans les sessions sont ceux des 16 groupes de travail actifs du CRiP. Chaque session fournit lauditeur les cls de comprhension de la technologie, prsente lEtat de lart et la traduction oprationnelle des technologies et services dans la vraie vie de lEntreprise travers des retours dexpriences utilisateurs.
CONVENTION ANNUELLE
CNIT, Paris - La Dfense
PAGE 78
Contacts
Club des Responsables dInfrastructure et de Production contact@crip-asso.fr www.crip-asso.fr
En application de la loi du 11 mars 1957, il est interdit de reproduire intgralement ou partiellement le prsent ouvrage, sur quelque support que ce soit, sans autorisation du CRiP.
www.crip-asso.fr