Sunteți pe pagina 1din 122

BIG DATA,

LACCLRATEUR
DINNOVATION

Livre blanc de linstitut


G9+

En partenariat avec
INTRO duction
INTRODUCTION 4

PARTIE I : LE BIG DATA : POURQUOI PARLER DE


RVOLUTION ? 16

A- Big Data : dune dfinition classique un procd 18

I. La typologie des 3 V
II. Big Data : un concept large
III. Le Big Data : la dfinition par le procd

B- Big Data : en quoi est-il rvolutionnaire ? 24

I. La rvolution par la technique


II. La mise en donne du monde
III. Le principal dfi technique : linteroprabilit

PARTIE II : LALGORITHME, CHEF DORCHESTRE DE LA


RVOLUTION BIG DATA 36

A- Comment construit-on un algorithme ? 38

I. Quest-ce quun algorithme ?


II. Comment labore-t-on un algorithme ?
III. Lalgorithme autonome grce au machine-learning ?

B- Vers lalgorithmisation du monde ? 46

I. Lalgorithme : une construction humaine et politique


II. Connatre et prdire lalgorithme
III. Notre futur rduite une formule mathmatique ?

C- Penser la gouvernance des algorithmes 52

I. Lalgorithme : humain, trop humain ?


II. Trois scnarios pour rguler le Big Data

PARTIE III : LA RVOLUTION INDUSTRIELLE DU BIG DATA :


UN LEVIER DE CROISSANCE DANS DE NOMBREUX SECTEURS 58

A- Le Big Data, moteur de croissance et de mutations 60

I. Premier marqueur - Lhybridation des mtiers


II. Deuxime marqueur - Evolution des industries traditionnelles vers des business-model
sous forme de service
III. Troisime marqueur - Des business-model qui se rapprochent de ceux des startups
IV. Quatrime marqueur - Le modle Full-stack startup

B- Le Big Data : Une rvolution qui transforme tous les secteurs de notre conomie 62

C- Futurs usages des objets connects et big data ? 90

D- Quels sont les enjeux juridiques de cette rvolution ? 96

PARTIE IV : LA FRANCE LHEURE DU BIG DATA 104

A - Ltat, utilisateur exemplaire des technologies Big Data 106


B - Lcosystme franais : de vrais atouts pour devenir leader europen du Big Data 110
C - tre en tte de la rflexion sur la nouvelle rgulation lre de la donne 116

CONCLUSION 118

Copyright Date de parution: dcembre 2014


VICE-PRSIDENT
DE LINSTITUT G9+

ADMINISTRATEUR
DE RENAISSANCE NUMRIQUE
Nous avons choisi en 2013 danalyser le
potentiel du march des objets connects et
ses dynamiques internationales en publiant,
sur la base dentretiens avec les meilleurs
spcialistes, notre livre blanc les nouveaux
eldorados de lconomie connecte et en
lui ddiant avec succs notre rencontre an-
nuelle.

Luc Bretones

2014 est donc tous les secteurs (oprateurs tl-


com, banques, assurances, indus-
naturellement lanne triels, distributeurs, transporteurs...).
du Big Data prdictif La rencontre des donnes issues
de ces objets connects, quelles
pour lInstitut G9+ qui vient dorga- proviennent de grands groupes ou
niser au premier semestre la prin- dautres acteurs, peut permettre de
cipale confrence sur le sujet en constituer des collections indites
France sous le titre ils font parler de type Big Data, dont le volume,
les donnes pour acclrer linno- la prcision, la richesse et la porte
vation . seront la source dnormment
danalyses pousses, dopportunits
Nous voyons en effet, dans lexplosion de croisement et de corrlations par
des donnes gnres par les objets lintermdiaire de services et dap-
connects et les activits humaines, plications qui sauront rvler des
lmergence ultra rapide dun nou- informations de plus haut niveau.
veau paradigme, celui de la mise en Dans le mme temps, les donnes
donne de nos vies et des potentiels gnres par les particuliers et les
danalyse de corrlations relatives. entreprises sont dsormais quasi ex-
clusivement numriques et en crois-
Plus prcisment, la multiplication sance volumique exponentielle.
des objets connects va accl- Souvenons-nous quen 2007, dj,
rer lmergence de gisements de seulement 7 % des donnes res-
donnes personnelles pour de nom- taient au format analogique,
breux acteurs conomiques dans or les donnes numriques font

Copyright Date de parution: dcembre 2014


05
plus que doubler tous les 14 mois. nouveau paradigme, sur notre
Axelle Lemaire, secrtaire dEtat au vie prive bien sr, mais gale-
numrique, ny voit-elle pas le p- ment sur notre libre arbitre, notre
trole du XXIme sicle ? Certains choix individuel, face une dic-
prconisent mme de les intgrer tature potentielle de la prvision.
systmatiquement au bilan des
entreprises. Et pour cause, la va- Il semble que le principe de pr-
leur de lconomie globale, aprs caution appliqu au Big Data por-
stre dveloppe et concentre terait un coup darrt au potentiel
massivement dans le logiciel, qui, important de ce nouveau march.
comme le dcrit si justement Marc Pour autant, il conviendra de dfi-
Andreessen1 , dvore le monde , nir rapidement les conditions dutili-
tend prendre un nouveau virage sations secondaires innovantes des
et une forme encore plus labore, donnes collectes ou accdes.
celle de lanalyse mais surtout de la De mme, lanonymisation parfaite
possession des donnes du monde. des donnes tant impossible par-
tir dun certain volume, et la mise
Ce mouvement vers les acteurs qui jour de tout ou partie des graphes
contrlent les donnes, au-del sociaux porte dalgorithme, ces
des experts capables de les analy- conditions devront assurer aux indivi-
ser, prpare des bouleversements dus et organisations un strict respect
majeurs dans la chane de valeur et les moyens de leur protection.
conomique mondiale et dans les
business modles des entreprises. Comme lhumanit a su le faire avec
les prcdentes rvolutions tech-
Sommes-nous lore dune mer- nologiques, je suis convaincu que
gence oligopolistique de gants mon- lusage du Big Data sera rgul ; ce
diaux de la donne, ou au contraire nest quune question de temps et
de nouvelles socits agiles, ultra ex- dapprentissage .Quant au dtermi-
pertes de ce domaine et bnficiant nisme potentiellement extrme induit
de la taille sans la masse ? Dans par la mise en donnes du monde,
un monde ainsi mis en donnes, les gardons lesprit que le gnie hu-
mathmatiques, les statistiques et la main ne dpend pas du Big Data,
programmation deviendront-elles pas plus que linvention de la voi-
les nouvelles langues vivantes, aus- ture na fait lobjet dune demande
si incontournables que fondamen- prvisible des cavaliers, ou ceux de
tales ? Que devons-nous attendre lIpad dun besoin exprim par les
des Etats en matire dorientation de utilisateurs dordinateurs personnels.
lducation dune part et dinvestis-
sement en infrastructure de lautre ? Dans ce monde de donnes mises
nu en temps rel, je pense que
Et au-del des opportunits, quels les dimensions humaines de dis-
sont les risques engendrs par ce cernement, dexprience et de

(1) Entre 2006 et 2014, le classement Financial Times 500 par secteur conomique mentionne une progression de
+116% des services logiciels et informatiques 1 744 928,4 millions de dollars contre une progression de seulement
+7% pour le secteur tlcom fixe et mobile.
(2) Selon lexpression du professeur Brynjolfsson (MIT Digital Business)

06
(3) Paul Ohm, professeur, Universit du Colorado Boulder

Copyright Date de parution: dcembre 2014


crativit, seront encore plus cru-
ciales, encore plus diffrenciantes.

Et comme le note Kenneth Cukier


dans son ouvrage Big data, la rvo-
lution des donnes est en marche, le
monde prsent du Big Data nous pa-
ratra sous peu aussi dpass que les
quatre kilo octets de mmoire vive
de lordinateur de bord dApollo 11.

Copyright Date de parution: dcembre 2014


07
FONDATEUR
DE 1000MERCIS-NUMBERLY

ADMINISTRATEUR
DE RENAISSANCE NUMRIQUE

08
Si le Big Data reprsente une avance
technologique gnralement peu contes-
te, ses possibilits dutilisation cristal-
lisent trop souvent les doutes et les peurs
dune large partie de la population.

Thibaut Munier

Big Data : une triple de cette vision restrictive et de consi-


drer avec au moins autant datten-
opportunit ne pas tion les immenses opportunits que
laisser passer cette rvolution contient en germe.

Le Big Data doit avant toute chose


Si le Big Data reprsente une avan- tre considr comme une rvo-
ce technologique gnralement lution technologique dans la ca-
peu conteste, ses possibilits duti- pacit de collecte, de stockage et
lisation cristallisent trop souvent les dexploitation des donnes. Apparu
doutes et les peurs dune large par- sur la cte Ouest des Etats Unis la
tie de la population. La complexit suite du dveloppement massif des
du sujet et la varit des domaines usages digitaux4, le Big Data consti-
impacts conduisent parfois faire tue aujourdhui une triple opportuni-
des amalgames htifs et dange- t pour les consommateurs, les entre-
reux, ainsi quon a pu le voir aprs prises et la croissance de notre pays.
les rvlations de Snowden sur les
systmes de surveillance massive.
Une opportunit pour les internautes
A linstar de nombreuses innovations et les consommateurs
technologiques, le Big Data peut
certes donner lieu des drives li- Grce ces nouvelles capacits
berticides qui doivent videmment de stockage et de traitement des
tre identifies, rgules et si possible donnes, les consommateurs ont
radiques. Mais il parat tout aussi progressivement pu dcouvrir des
fondamental de ne pas se contenter services nouveaux, quils ont par-

(4) En fvrier 2001 Doug Laney, analyste au Meta Group, publie une note de recherche intitule 3D Data Manage-
ment: Controlling Data Volume, Velocity, and Variety. 10 ans plus tard les 3 Vs sont les 3 dimensions gnralement
utilises pour dfinir le Big Data bien que le concept napparaisse pas dans larticle de Laney.

Copyright Date de parution: dcembre 2014


09
fois plbiscits, entranant des be- Cest par le dveloppement dal-
soins plus grands encore et souvent gorithmes sophistiqus que chaque
une nouvelle grappe dinnovations. marque peut esprer donner du sens
aux donnes collectes et simplifier la
titre dexemple de ces nouveaux vie de ses clients en limitant le nombre
usages directement issus de les- de messages et en recrant de la va-
sor du Big Data, on pourrait citer les leur lors de chaque interaction. Par
moteurs de comparaison de prix qui une communication et des services
ncessitent bien sr dimmenses ca- beaucoup plus pertinents, il sagit
pacits de traitement de donnes en quelque sorte pour les entreprises
en temps rel et qui permettent de rendre chaque consomma-
chaque mois des millions dinter- teur la valeur des donnes confies.
nautes dacheter mieux et moins
cher dans de multiples secteurs.
Une opportunit pour les entreprises
Une autre demande forte des
consommateurs qui a pu com- Grce au Big Data les entreprises
mencer tre adresse grce ont galement devant elles des
aux technologies du Big Data opportunits formidables pour
concerne la communication directe revoir leur chane de valeur et
Marques-Consommateurs. transformer leurs points de vente.

Devant lafflux de messages sou- Avec les produits connects, il de-


vent non cibls et sans intrt pour vient en effet envisageable pour une
leurs destinataires, les internautes marque de capter de faon auto-
ont jou de leurs contre-pouvoirs matique et anonyme une quantit
digitaux : plaintes, dsinscriptions, importante dinformations sur lutilisa-
non ractions, rclamant avec tion de chaque produit pour en am-
force une communication plus per- liorer la qualit, la dure de vie et en
tinente de la part des marques cas de panne (par exemple pour
dont ils sont par ailleurs des clients une voiture) pour tablir le diagnos-
exigeants et souvent fidles. tic et dfinir la rparation ncessaire.

Grce aux possibilits offertes notam- Le Big Data permet enfin beau-
ment par les bannires publicitaires coup dentreprises denvisager une
achetes aux enchres en temps transformation de leurs points de
rel (Real Time Bidding) il devient au- vente et du rle de leurs vendeurs.
jourdhui possible pour les marques Equip dune tablette un vendeur
de reconnatre leurs clients sur les dif- pourra par exemple accder
frents terminaux de connexion quils lhistorique dactivits de ses clients
utilisent, et ainsi de les solliciter beau- ou des recommandations per-
coup moins frquemment mais sonnalises et ainsi complter son
bon escient, dtre globalement plus propre jugement en face face
intelligentes et moins envahissantes. sur un point de vente afin dap-

10 Copyright Date de parution: dcembre 2014


porter un meilleur conseil dans le tue aujourdhui un champ unique
cadre dune relation enrichie et dopportunits et elles mritent une
dun mtier totalement rinvent. grande attention si nous voulons
peser dans ce dbat global qui est
Connatre et comprendre un dj ouvert. De nombreuses ques-
consommateur nempche dail- tions relatives aux donnes, leur
leurs pas la surprise et linattendu : collecte et leur utilisation notam-
tout algorithme de recommanda- ment par la robotique vont en effet
tion peut tre intgr une dimen- se poser dans des domaines aussi
sion de srendipit, dexploration varis que la protection des don-
ou de hasard pour viter un syst- nes personnelles, la sant ou la
matisme rapidement inefficace. place de lhomme dans la socit.

Etudiants, entrepreneurs, dcideurs,


Une opportunit pour la croissance ou chercheurs doivent tous ensemble
et lemploi dans notre pays participer cette construction et
ce dbat qui ne peuvent quavan-
Du fait de la qualit de ses structures cer de pair. Avec une double exi-
denseignement et de recherche en gence : tre rapide car la concur-
mathmatiques appliques, notre rence est mondiale et pragmatique
pays possde tous les atouts pour car cest en faisant quon comprend
tre aux premiers rangs dans la for- les enjeux.
mation des Data Scientists et
dans la cration dentreprises et de
nouveaux usages qui en dcoule-
ront. Cest dans lenvironnement ac-
tuel une opportunit rare en termes
demploi et de croissance et il ne se-
rait pas concevable de la ngliger.

En conclusion, le Big Data offre au-


jourdhui un vaste champ dap-
plications possible, et demeurent
aux prmices de leur dveloppe-
ment5. Ces technologies et leurs
applications mritent bien quon
les observe sans navet ni a prio-
ri, dun il critique et avec discer-
nement, mais de faon dabord
positive et entrepreneuriale avec
ambition et lenvie de construire.

Aprs tout, le Big Data ne sera que


ce que nous en ferons. Il consti-

(5) LAssociation franaise des diteurs de logiciels (Afdel) a ainsi estim que la cration de valeur lie au Big Data
pourrait atteindre en France 2.8 milliards deuro et 10 000 emplois directs dici cinq ans. Le cabinet amricain
Gartner estime de son ct que le secteur Big Data crera 4,4 millions demplois dans le monde dici 2015, dont
1,9 million aux tats- Unis.

Copyright Date de parution: dcembre 2014


11
PRSIDENTE
INSTITUT G9+

ADMINISTRATRICE
INGNIEURS ET SCIENTIFIQUES DE FRANCE

DIRIGEANTE IT
TRANSITION

08
La gestion des donnes tait jusque l rser-
ve des domaines dexpertise, spcialistes
chacun de son mtier.

Valentine Ferrol

Big Data : un levier productivit si les donnes utilises


correspondent une facette de la
supplmentaire pour ralit que nous cherchons tudier.
imaginer, construire, En faisant parler les donnes, en
sinspirer leur donnant du relief chaque ac-
teur a potentiellement accs
une meilleure comprhension du
Dimension industrielle contexte de sa filire, son entreprise,
de son mtier, peut en percevoir
La gestion des donnes tait jusque les volutions (service ou produit).
l rserve des domaines dexper- Cette mise en perspective g-
tise, spcialistes chacun de son m- nre galement une sorte dEm-
tier. Quils soient techniques : stoc- pathie avec tous les acteurs de
kage, sauvegarde, archivage au sein la chaine de valeur quils soient
de datawarehouse ; ou fonctionnels collaborateurs, fournisseurs, par-
: mathmaticiens, traders, exploi- tenaires, clients. Cette coopra-
tants de centrale lectrique, contr- tion enrichie est le facteur-cl
leurs ariens ou encore les services de succs de notre conomie.
publics, la sant, la culture etc
La performance - performance de la
chaine de valeur de nos entreprises Dimension socitale
et de lconomie de demain - rside
dans le bon fonctionnement des r- Les traces que nous laissons volontai-
seaux qui cooprent llaboration rement ou involontairement, direc-
des produits ou services. Le Big Data tement ou indirectement, de part
est un gisement colossal de gain en nos comportements, nos actions, les

Copyright Date de parution: dcembre 2014


13
objets que nous utilisons, nos propos, et des femmes bel et bien vivants,
notre appartenances telle ou telle avec notre quotidien, nos motions,
communaut sont autant de data nos valeurs et nos rves.
utilises pour des tudes sociodmo-
graphiques, socioconomiques, so- Que portent donc ces fameuses
ciologiques. Ces data sont elles aussi Data, devenues Big ? Imaginer,
utilises grce des algorithmes trs concevoir, modliser, implmenter
sophistiqus qui ont pour objectif de et aussi observer. Observer pour (re)
prdire nos comportements aussi trouver le sens et souvrir vers de nou-
bien individuellement que par ca- velles inspirations. Prendre en compte
tgorie ou groupe dindividus. lampleur de cette priode que nous
traversons, certes une priode de
Et quen est-il donc lorsque la signi- crise permanente mais aussi fabu-
fication, la porte, le contenu as- leuse car porteuse de tant davenirs
socis ces traces changent de potentiels. Lampleur de cette rvo-
sens ? Car tous les codes voluent, lution que nous sommes en train de
se cassent et se reconstruisent vivre et dans laquelle aujourdhui
une vitesse folle : langues, lan- nous avons la possibilit et lambition
gages, codes informatiques, codes de redevenir partie prenante.
culturels, les strotypes, le fonc-
tionnement en tribu de com- Alors, je dis oui aux big data !
munauts qui se font et se dfont. Hackons ensemble, et que ce soit
Quelle valeur et quelle validit dans pour le meilleur !
le temps peuvent avoir les prdic-
tions ainsi constitues ? A chaque
modlisation et chaque algorithme
sont associes des hypothses quil
convient de (re)prciser, des para-
mtres intrinsquement volutifs quil
convient de rajuster, qui mettent
en scne des donnes collectes
dans un contexte trs spcifique.

Il convient donc aussi de mettre


lpreuve de manire continue les
comportements ainsi modliss. Cela
revient modliser de manire dy-
namique lvolution des algorithmes
pour tendre les rendre intelligents.
Pour autantnous vivons dans un
monde rel. Augment ? Souvent.
Connect ? De plus en plus. Mais
dans un monde qui est toujours bel et
bien rel. Nous sommes des hommes

14 Copyright Date de parution: dcembre 2014


15
PARTIE I

LE BIG DATA :

POURQUOI PARLER
DE RVOLUTION ?
Depuis des annes, les mathmati- Outre la technologie mise en place,
ciens laborent des modles math- laspect rvolutionnaire du Big Data
matiques pour faire parler des jeux repose dans la multitude dap-
de donnes. Cela commence par plications possibles, qui touche
un simple modle statistique, bas tous les pans de notre socit. Les
sur un jeu de quelques informations, ocans de donnes disponibles
un modle prdictif labor, bas sont au centre des choix strat-
sur des milliards de donnes, permet- giques des organisations, alimentent
tant de prvoir demain quelle rgion le dbat public (vie prive notam-
du monde sera la plus touche par ment) et modifient les comporte-
une maladie ou comment rguler le ments des individus (sant/bien-
trafic pour viter les pics de pollution. tre, gots culturels, vie sociale...).

Si le traitement de donnes mas- Cette premire partie a pour ambi-


sives existe depuis dj des dizaines tion de dfinir les facteurs qui font
dannes, notamment dans les pra- que le Big Data peut tre considr
tiques de marketing cibl utilises comme une rvolution aujourdhui.
par toutes les grandes entreprises Poser le postulat de cette rvolution
depuis leur fichier clients, pourquoi par la donne et son traitement exige
le terme de rvolution est-il alors un travail de dfinition et de compr-
tant employ aujourdhui ? Le Big hension du concept de Big Data, sou-
Data reprsente-t-il un vrai tournant, vent nglig par des discours marke-
et pour quels acteurs ? Sagirait-il ting peu enclins sattarder sur cette
dune rvolution mathmatique, question. Quelle dfinition pour le Big
technologique, politique et sociale ? Data ? Quelles sont ses implications
tangibles ? Qui en sont les acteurs ?
Pour Henri Verdier, Administrateur
gnral des Donnes en France, la Cest ce changement de para-
rvolution de la donne que nous digme qui nous permet de parler
traversons est le troisime acte de de rvolution dans son sens le plus
la rvolution numrique6. Cette der- strict : un bouleversement violent
nire a dbut dans les annes 1980 dans notre perception du monde.
avec la rvolution informatique et
laugmentation fantastique de la La valeur de linformatique tait de
puissance de calcul des ordinateurs, crer des outils pour manipuler les
puis, partir des annes 1990, la r- donnes puis dans la cration des
volution Internet qui mit en rseau les process qui manipulent ces outils.
ordinateurs et, avec lavnement du Maintenant, on se rend compte que
web 2.0, les humains du monde entier. la valeur se trouve dans la donne
La rvolution de la donne sest elle-mme .
faite jour avec lintensification de
nos pratiques en ligne et la massi- Galle Recourc, Directrice
fication des capteurs, commen- Scientifique, Evercontact.
cer par nos tlphones mobiles.

Copyright Date de parution: dcembre 2014


17
A BIG DATA : DUNE DFINITION
STATIQUE UN PROCD

Demandez nimporte quel chief data officer de dfinir Big Data et il va se


mettre regarder ses chaussures. En ralit, il y a de forte chance pour que
vous obteniez autant de dfinitions diffrentes que le nombre de personnes
auxquelles vous poserez la question

MIT Review 7

Au cours des dernires annes, dfinir le terme "Big Data" sest rvl tre
un exercice prilleux. Quel est le critre de dfinition premier : le volume
de donnes traites ? Le logiciel de traitement de la donne ? La nature
des traitements qui leurs sont appliqus ?

I. LA TYPOLOGIE DES 3 V Gartner, dans son rapport 3D Data


Management: Controlling Data Vo-
Dans le maquis des dfinitions, les 3V lume, Velocity, and Variety 8. Om-
se distinguent comme le plus petit niprsente dans la littrature sur le
dnominateur commun. Apparue Big Data, elle identifie trois critres
en 2001, elle est le fruit des ana- dfinitionnels : le volume, la vitesse
lyses de Doug Laney, employ de et la varit des jeux de donnes.

(7) Big Data Gets Persona, MIT Review, Octobre 2013


(8) Cabinet Gartner, Janvier 2012, http://blogues.gartner.com/doug-laney/files/2012/01ad949-3D-Data-Mana-
gement-Controlling-Data-Volume-Velocity-and-Variety.pdf

18 Copyright Date de parution: dcembre 2014


de manipuler de larges volumes
de donnes (Volume), possible-
ment disparates (Varit), nces-
sitant ou non dtre manipules en
temps rel (Vlocit). Selon le be-
soin, on va privilgier tel ou tel mo-
Volume dule de notre plate-forme, pour op-
timiser le traitement des donnes.
Le volume de donnes trait est
considr comme le premier cri- Ainsi, la vlocit est cruciale quand
tre pour quun ensemble de don- il sagit de scorer un visiteur lors de
nes relve du Big Data. Pourtant, son parcours sur site, pour nourrir
ce premier V est le moins oprant et les plate-formes de ciblage publi-
le plus variable en fonction du sec- citaires ; a contrario, on privilgie-
teur et de lorganisation concerns ra la capacit traiter en fort vo-
: o faut-il placer le curseur ? Peut- lume des donnes varies, quand
on parler de seuil au dessus duquel il sagit danalyser froid la valeur
on entrerait dans le monde du Big lifetime dun client, ou de croiser
Data ? Pour Florian Douetteau, fon- les parcours digitaux avec la base
dateur de Dataiku, ce critre confine CRM dun client pour affiner le risque
au non-sens : Jongler entre pta et dattrition de sa base client .9 De
tra octet, aprs tout, il ny a quun plus, la problmatique du seuil se
facteur mille entre les deux ... ! . pose aussi pour ce deuxime critre.

Vitesse (Velocity) Varit

Ce critre de vitesse renvoie la fa- La varit des donnes traites est


cult de traiter les jeux de donnes un enjeu singulier au Big Data et in-
en un temps record, voire, le plus carne par l un critre important
souvent, en temps rel. Cela permet de leur dfinition. La diversit des
de crer des services directement sources et des formats des jeux de
fonds sur les interactions prsentes. donnes reprsente un vritable dfi
Pourtant, parmi les organisations qui technologique. titre dexemple, le
traitent du Big Data, toutes noffrent CRM customer relationship mana-
pas cette instantanit ou nen ont gement, gestion de la relation client
tout simplement pas besoin : Nous dune entreprise peut contenir des
disposons dune plate-forme de mi- donnes issues des rseaux sociaux,
ning propritaire qui nous permet des cartes de fidlit physiques ain-

(9) Entretien avec Arnaud Massonnie, Co-fondateur et Directeur Gnral de lagence fifty-five

Copyright Date de parution: dcembre 2014


19
si que de linteraction en magasin. multitude de ralits - ce qui, pour
Agrger ces donnes pour les trai- certains acteurs, rend leur dfinition
ter ensemble est la premire diffi- complexe. Dans son rapport en mai
cult que rencontrent entreprises 2011, McKinsey crivait : Il est impor-
et organisations et souligne lenjeu tant de noter que la dfinition peut
primordial de linteroprabilit des varier par secteur, en fonction de
donnes. La suggestion du cabinet quels types de logiciels sont dispo-
NewVantage Partners de rempla- nibles et de la taille des jeux de don-
cer le terme Big Data par Mashup nes dans telle ou telle industrie .
Data est cet gard trs significatif10.
Cette difficult dfinir ce quest
le Big Data provient de la diversit
des acteurs qui se sont empars de
cette expression. Chaque dfinition
est ainsi colore diffremment en
fonction dobjectifs et dintrts11.
Ainsi, il nest pas surprenant de
constater que la dfinition dOracle
Valeur et Vracit ? met laccent sur linfrastructure
qui constitue le cur de son ac-
En outre, il est frquent de voir la dfi- tivit : Le Big Data est le rsultat
nition des 3 V complte par un 4me de lexploitation dune base de
voire un 5me V, pour vracit, qui donnes traditionnelle, enrichie
recouvre la prcision et lexactitude par des donnes non structures.
des donnes, et valeur, portant son
attention sur la capacit intrinsque De la mme manire, Intel fonde la
de la donne de crer de la valeur. sienne sur son exprience avec ses
clients : Les opportunits offertes par
le Big Data sont issues des organisa-
II. BIG DATA : UN CONCEPT tions gnrant environ 300 terabytes
de donnes par semaine. Le type
LARGE AUX DIFFRENTES
le plus rpandu de donnes ana-
ACCEPTIONS lyses de cette faon sont les tran-
sactions commerciales, suivies des
documents, emails, donnes cap-
La terminologie et les frontires du
teur, blogues et medias sociaux.
Big Data sont floues parce que ce
Microsoft, quant lui, insiste sur le
concept connat des champs dap-
besoin en puissance de calcul : Big
plications trs diffrente - Romain La-
Data est le terme de plus en plus em-
combe, Charg de linnovation et du
ploy pour dcrire le processus qui
dveloppement de la mission Etalab
applique la puissance informatique
: machine learning et intelligence
Sant, sport, ressources humaines,
artificielle un jeu massif et sou-
transports urbains : comme mode
vent trs complexe dinformations .
opratoire, le Big Data recouvre une

(10) Big Data Executive Survey, 2013, Cabinet NVP, http://newvantage.com/wp-content/uploads/2012/12/NVP-Big-


Data-Survey-Themes-Trends.pdf
(11) Dfinitions collectes dans Undefined By Data: A Survey of Big Data Definitions, Jonathan Stuart Ward and Adam
Barker, School of Computer Science at University of St Andrews, UK, Octobre 2013, p.1

20 Copyright Date de parution: dcembre 2014


III. LE BIG DATA : LA DFINITION rognes et non exploitables telles
PAR LE PROCD quelles. Cette tape est essen-
tielle car elle conditionne le tra-
Les deux points prcdents illustrent vail danalyse : seules des donnes
la difficult dfinir le Big Data nettoyes et cohrentes peuvent
comme un fait statique. Pour mieux dlivrer du sens. Lagrgation de
apprhender la notion, il convien- donnes provenant de sources dif-
drait de distinguer ce qui est nou- frentes constitue le dfi majeur.
veau nombre de donnes et nou-
velles opportunits technologiques
de ce qui ne lest pas : son principe Analyse
de fonctionnement.
ce stade, les donnes sont intero-
prables entre elles et prtes tre
Un fonctionnement traditionnel en analyses. Les applications Big Data
trois temps varient naturellement dun secteur
et dun acteur lautre. On peut
On peut dfinir le Big Data comme distinguer trois utilisations majeures12 :
un processus de traitement de
la donne qui comporterait trois Dtecter et optimiser : Lafflux et le
tapes : collection, agrgation et croisement de donnes en temps
analyse. Ce nest qu travers ces rel permettent une comprhension
trois actions que des ensembles de fine de lenvironnement. La prise de
donnes, si vastes et vloces soient- dcision est facilite et les activits
ils, deviennent du Big Data. peuvent tre pilotes plus efficace-
ment.
La collection des donnes
Tracer et cibler : La granularit des
Construire une base de donnes donnes analyses autorise la d-
ncessite de rcolter une multi- couverte et le suivi un niveau trs
tudes dinformations gnres tant fin, par exemple lindividu dans le
par la navigation en ligne (du clic cadre dune population dun pays.
au surlignage dun texte), les objets
connects de notre quotidien, les or- Prvoir et prdire : Les vastes don-
ganisations publiques ou prives qui nes disponibles sur un phnomne
librent des jeux de donnes (Open ou une population permettent de
Data), etc. construire des modles prdictifs.
Leurs capacits sont puissantes mais
prsentent des limites dans lantici-
Agrgation pation de phnomnes nouveaux.
Ce fonctionnement sinscrit dans les
Lobjectif est de prparer une base pas du datawarehousing une tech-
de donnes oprationnelles par- nique vieille de plus de trente ans (cf
tir de donnes initialement ht- encadr).

(12) Institut de lEntreprise, Faire entrer la France dans la 3me Rvolution Industrielle, Mai 2014, p.19

Copyright Date de parution: dcembre 2014


21
Nouvelles donnes,
anciennes techniques ?

Quest ce que le datawarehouse ?

Un datawarehouse (ou entrept de donnes) est un serveur


informatique dans lequel est centralis un volume important
de donnes consolides partir des diffrentes sources de
renseignements d'une entreprise. L'organisation des don-
nes est conue pour que les personnes intresses aient
accs rapidement et sous forme synthtique l'information
stratgique dont elles ont besoin pour la prise de dcision.

Le datawarehouse sest dvelopp tout au long des annes


1980 simultanment lessor de linformatique dans le monde
de lentreprise. La principale diffrence entre le datawar-
ehouse et les Big Data ne reside pas dans le fonctionnement
mais plutt dans le volume et la complexit des donnes trai-
tes. Le Big Data renvoie ainsi aux jeux de donnes dont le vo-
lume dpasse les capacits de collecte du datawarehousing.

On peut mme remonter lorigine du Big Data encore plus


en arrire. En effet, si les progrs technologiques dans le
stockage et le traitement des donnes ont permis lmer-
gence du Big Data, les analyses qui en sont dduites
restent en partie fondes sur des techniques statistiques an-
ciennes. Pour Christophe Benavent, chercheur en marke-
ting Paris-10 et membre de notre panel, une partie Big
Data nest quune industrialisation du thorme de Bayes
(ndlr: thorme fondateur de la statistique formul en 1761).

Il y a confusion entre les diffrentes tapes du traitement des


ensembles Big Data : Les pratiques corrlatives et prdictives
sur les bases de donnes sont employes depuis plusieurs d-
cennies voire plusieurs sicles. Ce qui change rellement, cest
le volume de donnes traites et comment elles sont agrges.
, Samuel Gota, doctorant Tlcom ParisTech - Sociologie
de la production et de la libration de donnes publiques.

22 Copyright Date de parution: dcembre 2014


Big Data = big bang ou big bluff?

Le Big Data, cest avant tout le marketing qui nous dit : il


y a de la valeur exploiter les donnes disponibles .

Arnaud Massonnie, Co-fondateur et Directeur Gnral de


lagence fifty-five

Linnovation du Big Data est difficile cerner. Son fonctionne-


ment sinscrit dans celui de techniques plus anciennes. Il est
galement difficile de dlimiter une dfinition prcise du Big
Data. On peut alors se demander si cette rvolution ne serait
quen ralit un phnomne marketing qui comme une bulle
retomberait dans peu de temps. Les entreprises sont de plus en
plus nombreuses saisir lintrt danalyser les donnes clients.
Mais cette prise de conscience consiste-elle en soi une rvo-
lution indite ? Il semblerait plutt que cet actuel tat desprit
des dpartements marketing drive de la ncessit des en-
treprises de crer de lattraction autour de projets nouveaux
comme le souligne Arnaud Massonnie, Le marketing sest
empar du sujet de lexploitation des donnes et a rinvent
des choses existantes pour vendre linnovation, la rupture
. In fine, derrire le terme Big Data, il sagit essentiellement
de savoir valoriser et explorer son patrimoine data, au service
de lexprience client ou de la performance oprationnelle. .

Pour un certain nombre de penseurs du numrique, le pouvoir


transformateur du Big Data est une idologie ou un phno-
mne de mode. Sans nier la ralit des chiffres, ils adoptent
une posture critique qui fournit une base thorique lem-
ballement mdiatique autour du Big Data, et un contre-
point intressant dans la littrature foisonnante sur le sujet

Clyde Thompson de Wired, dcrit son ouvrage Smarter Than You


Think linfluence du biais de la nouveaut dans lapprhen-
sion des technologies innovantes. Il explique que les contem-
porains de lapparition dune technologie tendent toujours
perdre le recul ncessaire pour juger le potentiel dune tech-
nologie. Rien de surprenant donc ce que les analystes riva-
lisent de milliards de dollars pour estimer le poids du Big Data.

O se cache la rvolution du Big Data ? Sceptiques ou non, le


constat de lentre dans lre de la donne massive est una-
nime. Il convient alors didentifier et de comprendre les leviers
de cette transition vers une socit o de plus en plus de faits de-
viennent des informations valoriser dans des bases de donnes .
Deux facteurs convergent : dune part, nos comportements
et notre environnement produisent plus de donnes que ja-
mais, et dautre part, nous disposons de la technologie n-
cessaire pour stocker et analyser ces ocans de donnes.

Copyright Date de parution: dcembre 2014


23
B BIG DATA :
EN QUOI EST-IL RVOLUTIONNAIRE ?

Les progrs technologiques ont rduit le cot de crer, capturer, analyser


et stocker de linformation au sixime de ce quil tait.

Rapport Podesta 14

I. LA RVOLUTION PAR LA TECHNIQUE

Les progrs techniques et la baisse des prix associe dans la gestion de la


donne sont les premiers facteurs dmergence du Big Data. Ces pro-
grs concernent la fois les logiciels de traitement de donnes et lar-
chitecture informatique ncessaire son transit et son stockage.

Le tera data existe dj depuis trs longtemps car nous avons toujours
stock les donnes. Ce qui fait un projet Big Data, cest la technologie
que lon utilise. Avec ces technologies, ce qui change, cest la puissance
et la rapidit du calcul qui nous permet dtre davantage time to market
et de capter de faon plus automatique les comportements clients.

Ekbel Bouzgarrou, Chief Technologie Officier, Air France KLM

(14) Rapport Big Data: seizing opportunities, preserving values, Executive Office of the President, Mai 2014 -
http://www.whitehouse.gov/sites/default/files/docs/big_data_privacy_report_may_1_2014.pdf

24 Copyright Date de parution: dcembre 2014


Une architecture agile : le cloud familiers du traitement de donnes.
computing Mais surtout, le cloud permet lana-
lyse de ces donnes en temps rel.
Avant la popularisation de linforma-
tique dans les nuages, les donnes
taient rattaches lentrept de Lcosystme Hadoop : clef den-
donnes (datawarehouse) dans le- tre dans le monde du Big Data
quel elles taient stockes. Ainsi, au
sein dune entreprise ou dune orga- Pour Samuel Gota, doctorant T-
nisation, chaque dpartement pos- lcom ParisTech, Avec le NoSQL,
sdait son propre silo de donnes et Hadoop est le point de dpart tech-
il tait ncessaire de relier physique- nologique Big Data . Hadoop a
ment les entrepts de donnes pour t cr en 2004 par Doug Cutting
les mutualiser. Aujourdhui, le cloud qui voulait agrandir la taille de lin-
computing stocke les donnes en dex de son moteur Open Source
ligne et les rend ainsi accessibles Nutch. Le terme ne dsigne pas un
sans contrainte de lieu ni de temps. logiciel particulier mais un environ-
nement technologique dont le but
Cette dmatrialisation du stockage est de raliser des traitements sur
de donnes constitue la premire des volumes massifs de donnes.
couche technologique indispen-
sable pour le traitement Big Data. Son fonctionnement se base sur le
Un tiers des donnes seront stoc- principe des grilles de calcul : rpar-
kes dans le cloud dici 202015, se- tir lexcution dun traitement sur
lon Stphane Grumbach de lINRIA. des grappes de serveurs cest--dire
plusieurs ordinateurs indpendants.
Pour que les donnes donnent lieu La grande innovation de Hadoop
des opportunits innovantes, il est n- rside dans cette distribution de lin-
cessaire de disposer dimportantes formation. Les architectures plus tra-
capacits de calcul. Or, ces moyens ditionnelles adossent le traitement
sont principalement disponibles dans de donnes une grappe unique.
de grands data centers. Le cloud
computing permet de dpasser Ltude de linstitut IDC16 souligne
cette difficult en louant puissance que lcrasante majorit (98 %) des
de calcul et espace de stockage. En entreprises portant des projets Big
effet, peu dentreprises et dorga- Data ont recourt Hadoop. Nan-
nisations possdent linfrastructure moins, le prix pour la migration de
ncessaire pour traiter du Big Data. ses bases de donnes sur Hadoop
reste un frein : 45 % des entreprises
Le cloud computing permet deux interroges ont d dpenser entre
grandes innovations. Tout dabord, $100.000 et $500.000 et 30 % dentre
une dmocratisation du Big Data. elles, plus de $500.000. Troquer une
Cette innovation devient acces- architecture base sur un entrept
sible des PME ou aux acteurs peu de donnes pour un projet Hadoop

(15) Stphane Grumbach, Big Data, the global imbalance, octobre 2012 ; www.fr.slideshare.net/slidesharefing/
lift12fr-stephane-grumbach
(16) http://www.redhat.com/rhecm/rest-rhecm/jcr/repository/collaboration/sites%20content/live/redhat/web-ca-
binet/static-files/library-assets/Trends%20in%20enterprise%20Hadoop%20deployments

Copyright Date de parution: dcembre 2014


25
reprsente donc un cot elev. nomme MapReduce. Modle
Nanmoins, cette dernire tech- de programmation, elle permet la
nologie est en moyenne cinq fois manipulation des donnes en trs
moins chre quun datawarehouse grande quantit, distribues sur le
classique. Ce chiffre comprenant cluster de nuds de serveurs qui
le matriel, le logiciel et le dploie- composent larchitecture de la so-
ment de linfrastructure. Sans comp- lution Big Data dploye. Cest ain-
ter quune plateforme Big Data si que des donnes non structures
stocke environ cinq fois plus dinfor- peuvent faire lobjet dun traitement
mations quun datawarehouse tra- analytique et que cette dcoupe
ditionnel. Aux donnes de ventes, en blocs acclre le traitement,
sont en effet associes toutes les jusqu se rapprocher du temps rel.
informations relatives aux compor-
tements des clients en magasin, sur En fin de processus de lanalyse du
le web ou les rseaux sociaux, etc. Big Data, grce Map Reduce,
lanalyse des rsultats prend la forme
de tableaux de bord, de reporting
ou de graphiques qui refltent les
interactions ou les corrlations entre
CHIFFRE CL : les donnes. Linterprtation de
ces sorties passe alors par ladop-
15 minutes : cest le temps tion dun raisonnement prdictif :
que met dsormais Sura- cest l le changement majeur op-
venir Assurances, du Cr- r par les technologies Big Data.
dit Mutuel, pour simuler
les sommes provision-
ner sur trente ans pour Une structuration spcifique des
ses quelques deux millions bases de donnes : le NoSQL
demprunteurs, grce aux
technologies Hadoop. Le NoSQL (Not only SQL) est un type
Hier, il fallait 24 heures pour de systmes de gestion de base
ce mme calcul. de donnes (SGBD). Leur fonction
est de manier un grand volume
de donnes et une plus grande
chelle (habilit dun produit r-
pondre une mutation dordre
de grandeur de la demande).

Map reduce : Leur grande innovation est de


larchitecture analytique pouvoir contenir des donnes h-
trognes. En effet, le NoSQL se
Hadoop est compos dune archi- distingue des SGBD relationnelles
tecture de dveloppement ddie (SGBDR) qui sont construits pour
aux calculs parallles et distribus, stocker des donnes normalises :

(17) http://www.zdnet.fr/actualites/quelle-est-l-activite-sur-internet-en-1-minute-39763269.htm
(18) http://www.liberation.fr/economie/2013/11/03/15-milliards-d-objets-connectes-et-moi- emoi_944254
(19) http://www.lesnumeriques.com/video-poids-lourd-reseau-n9201.html

26 Copyright Date de parution: dcembre 2014


les champs et les relations entre les messages instantans sur Facebook.
tables respectent le mme modle. Ce dernier soccupe galement de
Le NoSQL est majoritairement utilis la gestion de 50 milliards de photos17.
par les sites grand trafic ou par des
rseaux sociaux comme Facebook
ou Twitter. Apparu la fin des an- 2) Les objets connects
nes 2000 aux Etats-Unis, le NoSQL a
perfectionn les analyses en temps Selon la Commission euro-
rel, les statistiques et les capacits penne, un Europen dispose en
de stockage. Ce type de base de moyenne de deux objets connec-
donnes permet de soutenir la volu- ts en 2012. En 2015, il en dispose-
mtrie trs importante du Big Data. ra sept. En 2020, il y aurait entre 30
et 80 milliards de nouveaux ob-
jets connects dans le monde18.
II. LA MISE EN DONNE DU MONDE
3) Les technologies mobiles
Le Big Data est n de lexplosion
On considre quun smartphone g-
de linformation disponible
nre environ 60 gigabytes chaque
anne. Si on multiplie ce chiffre par
Galle Recourc,
le nombre de smartphones dans le
Directrice scientifique, Evercontact
monde soit environ un milliard, on
obtient une production de donnes
Au del dun volume gigantesque,
par an de 56 exabytes soit la totali-
cest la diversit des sources de don-
t de la bande passante consom-
nes qui donne au Big Data toute
me en 2013, dans le monde19.
son ampleur. Deux leviers principaux
Le terme Big Data prend alors tout
soutiennent cette croissance de la
son sens. En 2018, les prvisions es-
production de donnes : lefface-
timent quil y aura 3,3 milliards de
ment de la frontire entre compor-
smartphones dans le monde20.
tements online et offline et la mise
disposition des donnes publiques.
On identifie aujourdhui quatre
4) Les comportements numriques
grands facteurs responsables de lex-
scruts, analyss et stocks
plosion de la production de donnes
par nos comportements connects.
A chaque minute coule, on
compte sur Internet 700 000 re-
cherches Google, 12 000 annonces
1) Les rseaux sociaux
sur Craigslist, 600 nouvelles vidos
Youtube et 1 500 articles de blogues
A chaque minute coule, on 21
. Selon IDC, on comptera en 2016
compte sur internet au niveau mon-
dans le monde plus de deux milliards
dial : 98 000 tweets, 695 000 mises
dordinateurs connects Internet22.
jour de statuts et onze millions de

(20) http://www.lefigaro.fr/flash-eco/2013/03/08/97002-20130308FILWWW00351-33-milliards-de-smart-
phones-en-2018.php
(21) ibid rfrence 17
(22) http://pro.01net.com/editorial/562702/pres-de-deux-milliards-dordinateurs-connectes-dici-2016/

Copyright Date de parution: dcembre 2014


27
PDG
DIMAGE & DIALOGUE GROUP
Une des application du Big Data
consiste recueillir et analyser en temps
rel des milliers de donnes diffuse sur
Internet

Olivier Gurin

Les outils Big Data - Dun ct les analyses quantitatives


marquent-ils la fin des et qualitatives des contenus publis
sondages dopinion sur le web partir du Text Mining
qui va permettre danalyser la vo-
classiques ? lumtrie, les thmatiques, la tonalit
et les sentiments exprims au sujet
dune organisation, dune marque,
dune personnalit ou dun produit.
Pour comprendre lopinion, pour-
quoi aller interroger des personnes, - De lautre ct, la technique, sou-
effectuer des enqutes longues et vent trs pertinente dans la mise en
coteuses, parfois biaises par la uvre de stratgies dinfluence,
forme de lenqute alors quil suffit celle du Link-Mining qui va per-
de simplement rcolter et analyser mettre didentifier (ou non) une
les milliers davis publis spontan- communaut dintrt sur un sujet,
ment et gratuitement sur le web 2.0 ? de cartographier cette commu-
naut pour mieux comprendre les
Cette analyse de lopinion sur Inter- diffrentes opinions exprimes, les
net offre de nombreuses opportunits suiveurs , contributeurs et in-
tant pour la communication dune fluenceurs de cette communaut.
organisation ou dune marque, que
pour la sphre civile ou journalistique. Attention, de trs nombreux logiciels
dits de-rputation se vantent
Aujourdhui, il y a deux manires de doprer de telles analyses, mais
procder pour recueillir et analyser souvent aux travers de mthodolo-
les opinions. gies ou dalgorithmes peu fiables.

Copyright Date de parution: dcembre 2014


29
Avec lanalyse de cette masse de donnes haute valeur
ajoute, nous pouvons aller plus loin, dans la mesure o ces
donnes sont traites en temps rel. En effet, il est possible,
au sein de lnorme bruit gnr par les milliers de conver-
sations, de dtecter les signaux faibles, cest--dire, linfor-
mation qui va prendre de limportance rapidement voire
mme gnrer du buzz et parfois, des crises. Cest, bien
entendu, un moyen de mesurer la notorit ou linfluence
dune entit sur internet mais surtout au sein dun environne-
ment, dune communaut et auprs dinfluenceurs.

Ce lien permanent hyper personnalis et en temps rel


avec lopinion est en train de bouleverser les strat-
gies et lorganisation des organisations en les obligeant
revoir leurs modles, leurs produits et leurs services.

Enfin, un cran plus loin, nous pouvons entreprendre dex-


trapoler voire de faire du prdictif bas sur ces millions
de donnes. Avec le think tank Renaissance Numrique,
image & dialogue group a men de telles analyses lors
des dernires lections europennes et municipales. En
avril-mai 2014, en recueillant les propos de 145 candidats
aux Europennes, il apparaissait dj que le Front Na-
tional remportait un cho trs important. Le dcoupage
gographique de nos donnes permettait galement
de prdire, plusieurs semaines avant les lections, le trs
fort impact rencontr par ce parti dans certaines rgions.

30 Copyright Date de parution: dcembre 2014


Leffacement de la frontire entre En 2013, dans son rapport annuel23,
comportements online et offline la socit Ericsson annonait que
le nombre dabonnements avec
Tout dabord, parce que les indi- un smartphone tait de 1,1 milliard
vidus connectent de plus en plus fin 2012 et [] quil atteindra 3,3
leur quotidien et gnrent par l milliards dici la fin 2018 . Que
mme de plus en plus de donnes ce soit lenvoi dun message, luti-
facilement exploitables. Ainsi, cha- lisation dune application, une re-
cune de nos actions en ligne, du cherche sur Internet, un coup de fil,
clic au temps parcouru sur une un email, une photo ou une vido
page, des images ou commen- partage ou tlcharge le smart-
taires posts sur les rseaux sociaux, phone gnre et stocke une masse
produit une multitude de donnes. de donnes trs importante qui peut
avoir un intrt pour une quantit
De plus, les objets connects et les infinie de services : gestion des flux
capteurs intelligents font exploser les automobiles, offres commerciales
compteurs en transmettant un flux spcialises Une utilisation bn-
permanent de donnes. Les voitures, fique est son usage par les autorits
llectromnager domestique, les mdicales en cas de pandmie. En
vtements et le mobilier urbain de- Afrique, des scientifiques utilisent ces
viendront des sources inextinguibles donnes pour dterminer lorigine
de donnes. Pour Jean-Luc Errant, des foyers du paludisme et la locali-
directeur de CityzenSciences, dici sation des individus malades. La fina-
2020, les objets connectes seront lit est alors doptimiser la logistique
le principal adjuvant du Big Data et la distribution des traitements24.

(23) Ericsson, rapport annuel 2012 : Bringing the networked society to life
(24) http://m.technologyreview.com/featuredstory/513721/big-data-from-cheap-phones/

Copyright Date de parution: dcembre 2014


31
Le traitement informatique
de la langue et de limage

La structuration de linformation vise transformer


le texte en langage informatique. Les linguistes-in-
formaticiens dveloppent une grammaire de d-
tection qui structure linformation textuelle pour la
rendre comprhensible par une machine. Lentre-
prise Evercontact, par exemple, analyse les signa-
tures des mails pour en extraire automatiquement
des fiches de contact. De la mme manire, dun
mail, dun tweet mais aussi dune image ou photo
poste sur un rseau social, il est possible dextraire
une donne quantifiable traduisant une motion,
un sentiment ou une satisfaction.

IL FAUT CRER DE LINTELLIGENCE PARTIR


DES OCTETS QUI CIRCULENT

GALLE RECOURC,
DIRECTRICE SCIENTIFIQUE DE EVERCONTACT

Cette discipline, o la France possde une filire


dexcellence, participe la croissance exponen-
tielle de la production de donnes. Elle permet
llaboration dune couche de services intelligents
o la donne cre est mise au service de lutili-
sateur.

Le web smantique (ou langage naturel ou en-


core le web de donnes) apparat aujourdhui
comme la nouvelle qute du Saint Graal des cher-
cheurs en informatique. Il soppose au web actuel
dit syntaxique.

Cette volution consiste rendre le web intelligent


cest--dire que les informations ne seront plus seu-
lement stockes mais galement comprises par les
ordinateurs. Le web smantique permettrait ainsi

32 Copyright Date de parution: dcembre 2014


dagrger diffrentes donnes par exemple pour
une image : la localisation, la date, lidentit des
personnes y figurant, son auteur

Les possibilits de recherches seraient bien plus


nombreuses. Le web de donnes transformerait
galement dautres aspects : recherche intelli-
gente, classement documentaire, e-commerce

Dans son article The Prose of the Machines 25 Will
Oremus sintresse lmergence des robots jour-
nalistes le terme de systmes-journalistes est plus
adquat. Yahoo ou le site de vente en ligne de
voiture Edmunds utilisent ces logiciels pour crire
respectivement des articles sur les rsultats de
football amricain et pour des descriptions dau-
tomobiles.

Ces systmes ne remplaceront pas les journalistes


de sitt. Le cerveau humain semble pour lins-
tant irremplaable pour lcriture darticles de
fond. Ces systmes ne parviennent pas non plus
adopter un ton humoristique. Ce qui spare ces
systmes des journalistes nest pas la qualit dcri-
ture des machines, cest la qualit des donnes.
Plus les donnes sont riches et diversifies, plus les
systmes seront capables de fournir une analyse
fine.

Ils prsentent de nombreux intrts : ils peuvent


rdiger de courts articles sur des brves pour un
cot proche de zro, une fois le systme achet
et install. Le principal logiciel dcriture automa-
tique Automated Insights a rdig plus de 300 mil-
lions textes en 2013 un rythme de 9.5 textes par
seconde. Lobjectif du groupe pour 2014 est de
tripler ce chiffre.

(25) Publi le 14 juillet 2014 sur Slate.com - http://www.slate.com/ar-


ticles/technology/technology/2014/07/automated_insights_to_write_ap_
earnings_reports_why_robots_can_t_take_journalists.html

Copyright Date de parution: dcembre 2014


33
La libration des donnes essuie de nombreux refus alors que
ces donnes doivent tre publiques.
LOpen Data constitue une autre Il saisit alors la Commission dac-
source de gisement de donnes. cs aux documents administratifs
Cette dynamique de libration des (CADA) pour obtenir enfin les infor-
donnes publiques est porte par mations quil recherchait. E.Schlum-
de nombreuses administrations. berger dcide alors en 2013 de crer
Malgr de nombreux freins tech- vroomvroom.fr, un site qui recense
niques et politiques, ce mouvement le taux de russite de lensemble
reprsente une opportunit pour des auto-coles franaises et qui
obtenir de nouvelles donnes. Ce- contre rmunration dveloppe
pendant, le volume de ces jeux de la visibilit de certaines dentre elles
donnes publiques reste faible re- sur le web. Lentrepreneur dclare:
lativement aux autres sources de LOpen Data, cest un produit dap-
donnes dcrites prcdemment. pel pour donner envie aux gens de
Pour Samuel Gota, doctorant T- venir nous voir. Montiser la data
lcom ParisTech, ce nest pas son seule, a me parait compliqu. Ce
volume que lOpen data apporte au quil faut cest montiser la rsolu-
Big Data mais la fiabilit : les don- tion dune problmatique. La data,
nes publiques deviennent des don- cest un levier parmi dautres 26.
nes de rfrence .
Les dbouchs de la libration des
Guillaume, fondateur de LMP, star- donnes ne sont pas uniquement
tup en stratgie lectorale qui d- conomiques. Elles peuvent ga-
veloppe des modles prdictifs, sou- lement tre politiques. La victoire
ligne que les donnes fournies par dObama en 2008 sexplique en
lINSEE sont un carburant indispen- partie par le choix innovant de
sable son activit : taLab a fait son quipe de campagne de re-
un travail remarquable pour rendre cruter de jeunes talents spcialiss
accessibles tous des milliers de dans la collecte et lanalyse de don-
jeux de donnes . nes. Lquipe dmocrate utilisait
la technique du data-crunching, en
La libration des donnes est un le- franais le croqu de donnes .
vier de croissance. En rendant ac-
cessibles certaines informations, des En sappuyant sur des systmes sp-
entrepreneurs peuvent y identifier cialiss dans le calcul (algorithmes)
une offre pas encore prsente sur de haute vitesse capables dana-
le march. Edouard Schlumberger lyser un grand volume de donnes,
aprs un chec lexamen du per- le bureau de campagne dObama
mis de conduire, dcide de se rins- parvenait identifier prcisment les
crire dans une nouvelle auto-cole. attentes de llectorat. En effet, le
Il contacte alors les prfectures de croisement dinformations diverses
police pour accder aux taux de comme lge de llecteur, son ori-
russite des diffrentes agences. Il gine ethnique, sa structure fami-

(26) http://lentreprise.lexpress.fr/open-data-liberer-les-donnees-mais-pour-quoi-faire_1534854.html#DdYzEouT-
CiE7Arm8.99

34 Copyright Date de parution: dcembre 2014


liale, sa catgorie sociale permet manire. Depuis les annes 1980, il
de dresser le modle de llecteur existe de nombreux outils de stoc-
moyen du secteur tudi. Obama kage de donnes dont les infrastruc-
pouvait ainsi moduler et person- tures ne sont pas identiques. Elles ne
naliser son discours et rpondre au sarticulent pas entre elles : on parle
mieux aux attentes des lecteurs. alors dabsence dinteroprabilit.
Cette technique a galement per- Un des intrts du Big Data est le
mis un meilleur ciblage dans lorgani- croisement de donnes. Il serait par
sation de la rcolte de fonds ou dans exemple intressant de regarder la
lidentification des lecteurs indcis. relation entre le nombre daccidents
Par ailleurs, dans sa politique mme, de la route et lusage des trans-
en tant que Prsident des Etats-Unis, ports publics dans un secteur donn
Barack Obama a cherch don- pour observer sil existe un lien de
ner une vraie impulsion au mouve- causalit entre les deux lments.
ment de la libration des donnes
par les administrations. En 2009, il a Si ces deux jeux de donnes dis-
demand aux organismes fdraux posent dinfrastructures diffrentes,
de publier un maximum de don- il est impossible dtudier cette re-
nes possibles et cr data.gov. lation en temps rel. Le grand dfi
relever pour que la rvolution du
Ce site est pass de 47 ensembles Big Data rponde ses promesses
de donnes en 2009 prs de 450 est de trouver une architecture in-
000 provenant de 172 organismes au teroprable travers notamment
moment de son 3me anniversaire ladoption de normes communes.
en juillet 2012. LOrganisation internationale de
expliquent Viktor Mayer-Schn- la normalisation (ISO) et plus parti-
berger et Kenneth Cukier27. Deux culirement le Comit Technique
startups amricaines illustrent les Commun sur les technologies de
dynamiques de march et de ser- linformation (JTC1) est en train de
vice quengendre lOpen data : dresser un tat des lieux afin davan-
OPower , qui utilise des donnes cer des solutions sur cette ques-
nergtiques et climatiques pour ai- tion. La publication de leurs travaux
der des familles rduire leur facture na pas encore de date prvue.
dlectricit et de gaz, et iTriage
qui aide les Amricains choisir des Lenjeu de linteroprabilit ne d-
professionnels de sant correspon- pend pas uniquement dune ques-
dant leurs besoins prs de chez eux. tion de normes. Une des innovations
du Big Data est de pouvoir croiser
un trs grand nombre de jeux de
donnes provenant de bases cla-
III. LE PRINCIPAL DFI
tes. Le problme de lagrgation
TECHNIQUE : LINTEROPRABILIT et de lindexation se pose alors.
Les donnes sont l. Nanmoins, elles
nont pas t stockes de la mme

(27) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, mars 2013

Copyright Date de parution: dcembre 2014


35
PARTIE II

LALGORITHME :

CHEF
DORCHESTRE
DE LA RVOLUTION
BIG DATA
Un des aspects de la rvolution Big Data, on la
vu, repose sur des technologies plus puissantes
et accessibles et de lexplosion du nombre de
donnes disponibles. Mais un autre moteur in-
dispensable cette nouvelle donne est la puis-
sance de formules mathmatiques permettant
de faire parler les donnes : les algorithmes.

Au dpart une simple formule statistique, les al-


gorithmes permettent aujourdhui, partir dun
traitement de donnes consquent, dtablir des
modles corrlatifs qui prvoient et prviennent
des lments futurs.


Ainsi, au coeur du Big Data se trouve les algo-
rithmes : tels des chefs dorchestre, ils mettent
en musique des jeux de donnes massifs. Ils or-
donnent, trient, hirarchisent les gigantesques
bases de donnes, et les rendent intelligibles
via un modle de corrlation ou de prdiction.
Pour lutilisateur, ce sont eux qui transforment des
ocans de donnes en des services personnaliss
en temps rel.

Copyright Date de parution: dcembre 2014


37
A COMMENT CONSTRUIT-ON
UN ALGORITHME ?

De gigantesques ramifications dans lesquelles se succdent des dcisions


binaires suivant une suite de rgles pr-tablies.

Christophe Steiner

I. QUEST CE QUUN ALGORITHME ?

Formule mathmatique, un algorithme dsigne initialement la suite de calculs


ncessaires pour effectuer une opration complexe. Aujourdhui lomnipr-
sence du calcul informatique dans nos vies quotidiennes a largi cette dfini-
tion une suite dinstructions et de processus requis pour raliser une tche,
explique Dominique Cardon, sociologue au sein du dpartement SENSE des
Orange Labs, et professeur associ lUniversit de Marne la Valle-Paris Est.

Christophe Steiner, auteur de Automate This: How Algorithms Came to Rule


Our World (non traduit en franais) dfinit les algorithmes comme des gi-
gantesques ramifications dans lesquelles se succdent des dcisions bi-
naires suivant une suite de rgles pr-tablies.

38 Copyright Date de parution: dcembre 2014


Aujourdhui, les algorithmes de re- Complmentarit
cherche, de recommandation ou
de suggestion structurent notre ma- Quels sont les ouvrages qui com-
nire de naviguer sur Internet et pltent louvrage choisi ?
la nature mme du rseau. Appli-
qus une autre chelle, comme Diversit
celle de la ville, les algorithmes
permettent de rguler la circula- Au sein de cette thmatique, quels
tion des transports en commun. sont les ouvrages les plus loigns
de louvrage choisi ? Pour fournir la
liste de recommandations finales,
II. COMMENT LABORE-T-ON UN ces trois questions fondamentales
ALGORITHME ? sont pondres par les informations
disponibles sur lutilisateur (ge, loca-
lisation, habitude de lecture, nota-
Un algorithme trouve donc sa dfini- tions dautres ouvrages).
tion et sa formule dans sa finalit. Se-
lon quil recommande, ordonne ou
dduit, il sera construit diffremment. Algorithme de prdiction

La puissance et la qualit dun al-


Construire un algorithme de gorithme drivent directement de
recommandation la qualit et de la quantit de don-
nes que nous pouvons collecter
Pour Thibaut Munier, fondateur de Rand Hindi, fondateur de Snips.
1000mercis-numberly, Administrateur Guillaume Liegey, fondateur du ca-
de Renaissance Numrique, un algo- binet LMP, souligne que llaboration
rithme de recommandation comme de modles prdictifs se fait en deux
celui dAmazon, qui conseille sur tapes :
le choix dun livre en fonction des
choix prcdents du consomma- Identifier les variables et rassem-
teur, est compos de trois types de bler les donnes pertinentes.
calcul distincts qui correspondent
trois questions diffrentes. Il est ton- Celles-ci sont de natures diffrentes :
nant de constater quel point ces donnes publiques fournies par lIN-
questions relvent du bon sens hu- SEE sur les chiffres du chmage, les
main plus que du savoir scientifique : donnes lectorales passes four-
nies par le ministre de lIntrieur et
les donnes politiques publiques ou
Similarit rcoltes sur le terrain (popularit du
gouvernement et notorit du can-
Quels sont les ouvrages qui abordent didat). Il est ensuite ncessaire de
une thmatique ou un genre similaire nettoyer ces donnes : colmater les
louvrage choisi ? trous, corriger les erreurs et assurer
leur interoprabilit.

Copyright Date de parution: dcembre 2014


39
Affecter les pondrations. encore, de parler dune vritable r-
volution par le Big Data. Lapprentis-
Selon les analyses escomptes, sage automatique, ou machine-lear-
toutes les donnes croises dans une ning, est la discipline de lintelligence
mme base ne recouvrent pas le artificielle qui vise dvelopper la
mme intrt, do la ncessit de capacit des machines et des logi-
les pondrer. ce stade, lquipe ciels apprendre de leurs rsultats.
du cabinet LMP utilise des modles
de rgression pour estimer les pon- Les algorithmes utiliss pour dve-
drations de chaque variable lopper ces systmes permettent
laide de logiciels comme Stata ou un systme dadapter ses compor-
MathLab. Les donnes de llection tements et rponses de faon au-
prcdente sont rentres dans ce tonome, en fonction dune base de
nouvel algorithme et compares aux donnes empiriques.
rsultats connus : les pondrations
sont ensuite modifies jusqu ce Pour reprendre lexemple prcdent
que les prdictions de lalgorithme des campagnes lectorales, on parle
correspondent aux rsultats rels. de machine-learning dans le cas o
lalgorithme rectifie tout seul les pon-
drations des donnes en fonction
III. LALGORITHME AUTONOME du rsultat obtenu llection prc-
GRCE AU MACHINE dente, et rectifie sa formule pour ne
pas rpter les inexactitudes repres
-LEARNING ?
dans llection suivante. En dautres
termes, lalgorithme apprend et
Aujourdhui, pour produire un algo-
se corrige de faon autonome.
rithme intressant, les technologies
de machine-leaning doivent tre au
Lapprentissage automatique entre
cur de son fonctionnement
donc pleinement dans les stratgies
danalyse prdictives, puisquil consi-
Rand Hindi, fondateur de Snips.
dre que les corrlations entre les
jeux de donnes suffisent pour prvoir
Le machine learning est linnovation
les nouveaux modles appliquer.
mathmatique qui permet, une fois

40 Copyright Date de parution: dcembre 2014


41
SENIOR DATA SCIENTIST
CHEZ PARKEON
En cole dingnieur, on apprend
aux tudiants les fondements de
la thorie de linformation. Rapi-
dement, llve connat les trois
niveaux (donnes, information et
connaissance) ainsi que la transi-
tion entre ces concepts.

Mehdi Chouiten

Machine Learning En dehors du stockage et de lac-


cessibilit des donnes, la forte
et valorisation valeur cre par le Big Data r-
des donnes side dans linterprtation et lex-
ploitation de ces donnes.
De manire trs basique, une infor- Une exploitation statistique de ces
mation peut tre vue comme lin- donnes est souvent faite pour
terprtation dune ou plusieurs don- analyser des situations, des com-
nes. La connaissance peut tre vue portements dutilisateurs, des pa-
comme linterprtation dune ou ramtres qui impactent les don-
plusieurs informations. Par exemple : nes et, le cas chant, essayer
Pierre et Paul ont obtenu 9 et 8 res- den dduire des rgles business.
pectivement lexamen de Machine
Learning = donnes 9 > 8 = informa- Outre lexploitation classique offline
tion Pierre est meilleur que Paul en de ces donnes, les algorithmes de
Machine Learning = connaissance. Machine Learning permettent din-
corporer lexploitation des donnes
Par ce petit exemple, on com- de manire dynamique au systme
prend aisment que les donnes qui permettra dune part de prdire
en elles-mmes sont dune utilit des situations futures. Et, dans un
trs limite. Leur intrt rside es- second temps adaptera automati-
sentiellement dans lexploitation quement son fonctionnement ce
que lon en fait. Le parallle peut quil apprend non seulement des
tre fait avec la matire premire donnes disposition ainsi que des
utilise pour la fabrication dun ob- rgles business tablies manuel-
jet forte valeur ajoute technolo- lement par des experts du mtier.
gique. La valeur dun smartphone
par exemple reprsente plusieurs mil- Le fonctionnement typique dun sys-
liers de fois celle du plastique et des tme dapprentissage se droule
mtaux utiliss pour sa fabrication. en plusieurs tapes. Lobjectif est de

Copyright Date de parution: dcembre 2014


43
construire en premier lieu un modle bas sur des donnes connues
et valides. Ce modle sert comprendre quel est limpact des
diffrentes donnes sur un objectif dtermin (Etape 1 de la figure
ci-dessous). Par exemple : pour un client de site de e-commerce,
comment lge, le genre, le nombre damis inscrits sur le site, et le
pays de rsidence affectent son panier dachat moyen. Une fois le
modle constitu, il peut tre exploit pour prdire le panier dachat
moyen dun nouveau client (Etape 2 de la figure ci-dessous).

Enfin, en fonction dobjectifs atteindre et connaissant la manire


dont les donnes influent sur ces objectifs (rgles business), nous
pouvons dcider des actions mener.

Dans lexemple prcdent, nous pouvons par exemple dcider


de crer un systme de parrainage si nous remarquons que le
nombre damis inscrits sur le site affecte le panier dachat moyen.
Selon le cas, certaines de ces dcisions peuvent tre semi-automa-
tises en mettant disposition dun algorithme, un jeu doprations
possibles associes des objectifs / contraintes (rgles business).

A titre dexemple, pour un gant du commerce en ligne, des


exemples de rgles business peuvent tre :

- Maximiser le revenu par client dans les pays o la part de march


est suprieure ou gale 10 %
- Maximiser les parrainages pour les pays o la part de march est
infrieure 10 %
- Quand les surfaces de stockage sont remplies 80%, minimiser
pour chaque produit la variable (temps de stockage * surface oc-
cupe)

Figure 1. Processus typique dapprentissage,


dexploitation des donnes et cration de valeur

Dans un systme disposant de suffisamment de donnes, il est ima-


ginable de se projeter dans une solution ne contenant que lobjec-
tif atteindre et o les rgles mtier sont elles-mmes dduites par
le systme. Aujourdhui, ce sont ces rgles qui ncessitent le plus de
temps et de ressources humaines (data analysts notamment). Les
algorithmes et concepts mathmatiques utiliss pour la prdiction
sont trs similaires dune tche lautre. Cest notamment la d-
finition des objectifs et des contraintes qui savre tre la tche la
plus complexe.

44 Copyright Date de parution: dcembre 2014


1

MACH. LEARN
APPRENTISSAGE MODLES

DONNES PASSES
CONNUES

MACH. LEARN
PRDICTION
DONNES DONNES
INCOMPLTES PRVISIONNELLES

3
RGLES
MTIER ACTIONS
MACH. LEARN MENER
DCISION NOUVELLES
/ACTION PRVISIONS
JEU OPTIMISES
DOPRATIONS

VALEUR
CRE

Pour les chercheurs en Machine Learning, le Saint Graal serait de


disposer - la manire des tissus crbraux humains - dalgorithmes
gnriques qui sadaptent chaque tche et dmontrent une ca-
pacit identifier delles-mmes les features les plus pertinentes
pour la russite dun objectif.

En effet, un cerveau humain est capable dapprendre en


utilisant les mmes tissus, distinguer une moto dun vlo
(tche et features visuelles) aussi bien quil peut distin-
guer une voix dun bruit tiers (tche et features sonores).

Les chercheurs poursuivant cet objectif appellent cela le


Deep Learning. Au-del du Buzzword, les applications sont
infinies. Bien que le deep learning nen soit qu ses balbu-
tiements, il est dj appliqu par Google (notamment dans
la classification dimages par le contenu et non plus unique-
ment en se basant sur les mots cls prsents sur la page).

Copyright Date de parution: dcembre 2014


45
B VERS LALGORITHMISATION
DU MONDE ?

Si vous tudiez un systme dinformations sans tenir compte de sa structure,


ses rseaux et ses composantes, vous passez ct de dimensions essen-
tielles : qui relvent de lesthtique, la justice et linnovation

Susan Leighn

Lagencement de notre fil Facebook, les recommandations dachats Amazon


ou bien le Page Rank Google sont autant dexemples quotidiens qui mettent
en lumire la place des algorithmes pour slectionner linformation laquelle
nous avons accs (dans un modle corrlatif) et ordonner lordre des choses
venir (dans un modle prdictif).

La puissance de ces formules mathmatiques invite sinterroger sur le pri-


mtre leur accorder dans lagencement du monde par lhumain. Si un al-
gorithme peut grer mathmatiquement les flux des transports urbains, faire
baisser la criminalit et la pollution, alors quelle est la place du maire dans la
ville intelligente ?

(28) http://peerproduction.net/issues/issue-1/peer-reviewed-papers/caring-about-the-plumbing/
(29) Bruno Latour, La Vie de laboratoire : la Production des faits scientifiques), 1988
(30) http://www.framablogue.org/index.php/post/2010/05/22/code-is-law-lessig
(31) Dominique Cardon, revue Rseaux, Politiques des algorithmes, numro 177, http://www.cairn.info/revue-re-
seaux-2013-1-page-9.htm#no2

46 Copyright Date de parution: dcembre 2014


I. LALGORITHME : UNE En dcidant de ce qui doit tre vu,
CONSTRUCTION HUMAINE ils encouragent ou dcouragent la
ET POLITIQUE confrontation et la discussion, parti-
cipent la construction de lagenda
public et slectionnent les bons inter-
Si vous tudiez un systme din- locuteurs 31.
formations sans tenir compte de sa
structure, ses rseaux et ses com- Pour Ted Striphas, auteur The Late
posantes, vous passez ct de Age of Print, la personnalisation
dimensions essentielles : qui re- des contenus proposs sur Internet
lvent de lesthtique, la justice grce aux algorithmes de recom-
et linnovation 28 - Susan Leigh mandation, reprsente un change-
ment dcisif dans la culture occi-
Avant mme la naissance dInternet, dentale. Pour lui, la massification des
Bruno Latour affirmait que la structu- algorithmes dans la programmation
ration dun systme dinformation culturelle tend crer une culture
tait de la politique par dautres algorithmique . Cest bien lessence
moyens 29. En 2001, Lawrence Les- mme des activits culturelles qui
sing, dans son clbre article de est remise en question : le choix
Code is Law , insistait sur la puissance et la hirarchisation des hommes,
rgulatrice du code dans la manire des uvres et des ides 33.
dont nous vivons le cyberespace 30.
Sur ce point, lexprience de Net-
Aujourdhui, cette question de la flix est clairante : la plateforme de
construction humaine et politique diffusion a segment son public en
de lalgorithme se pose avec plus 76 897 micro-genres cinmatogra-
dintensit parce que les algorithmes phiques, tels que films daction et
ont pntr de nombreux domaines daventure violents et suspens des
de notre vie quotidienne et struc- annes 1980 ou encore comdies
turent notre accs linformation. romantiques propos de mariages
ayant remportes des Oscars 34.
Dun ct, lapproche algorithmique
est une ncessit pour rendre intelli- Plus encore, sa srie succs, House
gible la masse dinformations dispo- of Cards, a t produite en fonction
nibles, de lautre, utilise mauvais des donnes des expriences cultu-
escient, elle peut orienter compl- relles de ses utilisateurs35. Le scnario
tement la connaissance et donc la et le casting dHouse of Cards sont
dcision dun individu. En effet, les une compilation des prfrences de
algorithmes dcident de ce qui est ses utilisateurs analyse sous le crible
pertinent ou non pour lutilisateur. De du Big Data : la srie est une reprise
fait, ils dterminent dans le cas dun dune srie britannique succs des
moteur de recherche par exemple, annes 1990 produite par la BBC. Les
ce qui doit tre vu et ce qui doit res- donnes de Netflix ont pu lier les gots
ter cach, ou dans le cas dun algo- de ses utilisateurs pour ce drame poli-
rithme prdictif, ce qui doit advenir tique avec un intrt pour les films r-
ou non. Pour Dominique Cardon, ce aliss par David Fincher ou ceux dans
pouvoir est minemment politique : lesquels joue lacteur Kevin Spacey.

(32) https://medium.com/futurists-views/algorithmic-culture-culture-now-has-two-audiences-people-and-machines-
2bdaa404f643
(33) Ibid
(34) http://www.theatlantic.com/technology/archive/2014/01/how-netflix-reverse-engineered-hol-
lywood/282679/

47
(35) http://rebellionlab.com/is-big-data-the-future-starting-point-of-creation/

Copyright Date de parution: dcembre 2014


48
thique de la dcision l're de l'al-
gorithme : un robot a-t-il le droit de
vie ou de mort ?

Dans son ouvrage Thorie du Drone36, Grgoire Cha-


mayou donne un exemple extrme du pouvoir des al-
gorithmes. Ce sont des algorithmes qui ont dtermin
les cibles des drones amricains la frontire du Pakis-
tan et de lAfghanistan en scannant les communica-
tions des habitants et en valuant ainsi leur inclinaison
perptrer des actions terroristes. La liste de ces cibles
est in fine ratifie par la Maison-Blanche.

Dans la zone dmilitarise qui spare la Core du Sud


de sa voisine du Nord, des robots sur roues de la socit
Samsung Techwin sont capables de dtecter par infra-
rouges la prsence dtres humains. Ils sont pour le mo-
ment actionns par des soldats mais disposent dune
technique de tir automatique sactivant la dtection
de la chaleur.

Ainsi, si les drones-tueurs ne sont pas encore des armes


de guerre effectives, il convient de s'interroger sur la li-
mite d'autonomie dcisionnelle donner un robot,
surtout quand il peut dcider de la vie ou de la mort
d'un tre humain. C'est la question qu'a soulev l'ONU
en avril 2014 dans le cadre de la Convention sur cer-
taines armes classiques (CCA). D'un ct l'on avance
les arguments de rduction des budgets de dfense ou
de scurit des soldats, de l'autre on affirme qu'un ro-
bot dnu de compassion et d'empathie ne peut avoir
droit de vie sur quelqu'un.

On peut dfinir comme robot-tueur tout systme qui a


lautonomie dinterprtation dune situation, danalyse
du risque et de prise de dcision. Entre son capteur de
danger et laction ralise, il existe tout une chane qui
repose sur une sorte dintelligence artificielle "

Emmanuel Remy
Spcialiste des questions de dfense37

Les robots-tueurs prsentent un cas pratique qui inter-


roge les limites juridiques, philosophiques et thiques
que posent les algorithmes grs de faon autonome.

(36) Grgoire Chamayou,Thorie du Drone, La Fabrique, 2013


(37 http://www.france24.com/fr/20140514-robots-tueurs-sont-plus-a-craindre-
le-cyberespace-ailleurs-armee-drone-ethique/

Copyright Date de parution: dcembre 2014


49
II. CONNATRE ET PRDIRE PAR mcanismes causaux derrire le dia-
LALGORITHME bte, pourtant, elle est incapable
de prdire avec prcisions les hy-
perglycmies ou hypoglycmies.
Adosss au Big Data, les algorithmes
reprsentent une avance extraor-
dinaire pour la recherche. Ils per-
mettent dtablir des corrlations qui III. NOTRE FUTUR RDUIT UNE
seraient restes invisibles avec une FORMULE MATHMATIQUE ?
base de donnes plus rduite. Ces
corrlations peuvent tre la base de
mise en place de modles prdictifs. Le futur nest pas une dclaration
du pass Benjamin Sarda, Directeur
Ce saut quantitatif a boulevers par Marketing chez Orange Healthcare
exemple la recherche gntique. La
dtection dun des gnes respon- Toutefois, il convient de se deman-
sables de la schizophrnie tait im- der si toute corrlation peut servir
possible en analysant seulement 3 500 de base une vrit scientifique.
malades mais quand les chercheurs Dans le sens o le modle dductif
ont pu faire fonctionner les algo- de la corrlation rpond la rgle
rithmes avec 35 000 cas, la dtection de la falsifiabilit de Popper, certai-
a t trs rapide : il y a un point din- nement : mais peut-on baser sur ces
flexion partir duquel tout change 38. corrlations nos hypothses futures ?
Derrire cette rflexion, se trouve La donne brute est un mythe, elle
lide que le quantitatif, un certain est toujours construite, elle ne vient
niveau, modifie le qualitatif. Ce bond pas de la nature mais de linstrument
est similaire au passage de la physio- qui la mesure
logie la biochimie : en changeant
dchelle, de nouveaux phnomnes Christophe Benavent, chercheur en
se font jour et des nouvelles tech- marketing Paris-10
niques dinterventions apparaissent.
Pour la recherche, le Big Data repr-
Avec le Big Data, il sagit du quoi, et sente un gisement fantastique din-
non du pourquoi. Il nest pas toujours formations. Nanmoins, celles-ci ne
ncessaire de connatre la cause peuvent se convertir directement et
dun phnomne ; laissons plutt les automatiquement en connaissance.
donnes parler elles-mmes ! 39 Lutilisation massive de ces donnes
est plus complexe quil ny parat. En
Ainsi, quand la recherche de la cau- effet, toute donne comporte une
salit est un chec, il peut tre perti- part darbitraire, quelle provienne
nent de se fier au modle corrlatif. de linstrument de mesure ou de
La mdecine bnficie, par exemple, lorganisation qui la collecte ; selon
dune comprhension trs fine des

(38) Manolis Kellis, Importance of Access to Large Populations, Big Data Privacy Workshop: Advancing the State
of the Art in Technology and Practice, Cambridge, MA, March 3, 2014,
(39) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, mars 2013

50 Copyright Date de parution: dcembre 2014


le mot de Bruno Latour, il ny a pas ds une vingtaine de variables),
de donnes, il y a des obtenus . les analyses classiques vont inexo-
rablement tendre vers un rsultat
Pour Thomas Lefvre, mdecin de moyen et deviendront aveugles
sant publique, ingnieur Mines-T- aux spcificits de chaque objet.
lcom, docteur en sciences, cher- Loutil statistique ne sera plus ca-
cheur associ lIRIS (CNRS/INSERM/ pable de diffrencier deux individus
EHESS/Paris 13), deux thories statis- : pour une population dindividus
tiques remettent en question la puis- dfinis par de nombreux traits (leurs
sance prdictive des algorithmes. gnes, leur taille, ge, sexe, etc.),
mme si beaucoup prsenteront
Les attracteurs tranges : des caractristiques trs diffrentes,
loutil statistique va les assimiler...
Dans les annes 1960, le mtoro-
logue E. Lorenz dmontre en trois
quations simples lexistence dat- En plus de ces limites statistiques, les al-
tracteurs dit tranges. Autrement gorithmes prdictifs, parce quils sont
dit, que certains systmes sont in- uniquement bass sur des donnes
trinsquement sujets des variations antrieures ce quils essayent de
imprdictibles moyen terme au ni- prdire, ne sont pas capables dan-
veau individuel, cest--dire que deux ticiper des variations dans le futur.
sujets initialement infiniment proches
et semblables peuvent voluer com- Un algorithme prdictif est extr-
pltement diffremment bien que mement puissant pour prolonger
pris globalement, le systme auquel la courbe mais est aveugle pour
ils appartiennent prsente un com- anticiper linnovation. Cest tout le
portement bien dlimit dans les- sens du trait dhumour de C&WS,
pace . Si les algorithmes prdictifs Si Henry Ford avait demand des
sont performants pour un ensemble algorithmes Big Data ce que les
dindividus, ils sont incapables de clients dsiraient, ils lui auraient r-
prdire avec certitude ou prcision pondu des chevaux plus rapides
les volutions individuelles. Cela a
des implications trs fortes, dans le La question de fond est celle de la
domaine de la sant notamment. finalit : est-ce que vous voulez com-
prendre ou est-ce que vous voulez
La maldiction de la dimension : prdire ?

Richard Bellman, mathmaticien Thomas Lefvre, mdecin de sant


amricain a mis au point ce concept publique, ingnieur Mines-Tlcom,
relativement jeune et encore peu docteur en scienceshercheur asso-
diffus dans le monde universitaire. ci lIRIS (CNRS/INSERM/EHESS/Paris
Cette thorie dmontre que pour 13)
des systmes prsentant de nom-
breuses variables (possiblement,

Copyright Date de parution: dcembre 2014


51
C PENSER LA GOUVERNANCE
DES ALGORITHMES

Les progrs de lingnierie algorithmique, les possibilits dautomatisation


quelle ouvre () nous obligent construire ds maintenant un corpus
danalyse et de rflexion qui pourra seul nous laisser en situation de
comprendre les enjeux de cette deuxime vague dexternalisation :
lexternalisation de nos stratgies dcisionnelles, motionnelles, affectives.

Olivier Ertzscheid

Olivier Ertzscheid40 : matre de confrences en Sciences de linformation


et de la Communication lUniversit de Nantes

I. LALGORITHME : HUMAIN, TROP HUMAIN ?

Parce quils constituent un prisme de lecture et de comprhension du rel


de plus en plus prsents, les algorithmes et les donnes doivent faire lobjet
de rgles de gouvernance rflchies. Plusieurs exemples mettent en lumire
comment une utilisation malintentionne ou malencontreuse des technolo-
gies Big Data peut transformer un algorithme en une machine discriminer,
systmique et silencieuse.

(40) http://ecrans.liberation.fr/ecrans/2014/05/12/bienvenue-dans-le-world-wide-orwell_1015427 (41)


http://europepmc.org/articles/PMC2545288/pdf/bmj00275-0003.pdf
(41) http://europepmc.org/articles/PMC2545288/pdf/bmj00275-0003.pdf
(42) http://knowledge.wharton.upenn.edu/article/the-social-credit-score-separating-the-data-from-the-noise/

52 Copyright Date de parution: dcembre 2014


Le risque de lerreur humaine dterminent laccs au crdit et
les taux pratiqus. Ces algorithmes
Afin dliminer le biais humain et de compltent le credit score officiel
limiter le poids administratif dans son de leurs clients43. Deux exemples :
processus dadmission, luniversit de
mdecine St Georges en Angleterre La startup Neo Finance qui analyse
a mis en place en 1988 un modle la qualit des connections Linkedin
algorithmique de slection des tu- dun individu pour estimer les reve-
diants41. Durant les annes qui sui- nus futurs et la stabilit de lemploi
virent, le nombre dtudiants fminins de son client ;
et dorigines trangres chuta sv-
rement, jusqu ce que deux pro- Lenddo, base Honk Kong, puise
fesseurs de luniversit dcouvrent dans les donnes Facebook et Twit-
la prsence de biais discriminants ter pour dresser un profil social de
dans la composition de lalgorithme. chaque client.

En ralit, lalgorithme se basait sur Les pondrations affectes chaque


les anciennes donnes dadmissions variable restent inconnues et ne per-
de luniversit, une poque o les mettent pas de prjuger de lutilisation
femmes et les tudiants issus de com- qui est faite de ces donnes. Cepen-
munauts trangres taient minori- dant, lutilisation de tels algorithmes
taires. Lalgorithme a transpos cette ouvre la porte des pratiques discri-
ingalit passe et refusait des candi- minantes et intensifie les ingalits.
datures. Luniversit fut condamne
par la justice britannique et coopra En effet, ces pratiques permettent
activement pour rparer sa faute. aux individus qui disposent des res-
sources damliorer leur accs au
Il est intressant alors de consta- crdit en dynamisant artificielle-
ter, dune part que lalgorithme est ment leurs profils en ligne. Nou-
bien le fruit dun cerveau humain, blions pas quil suffit de quelques
puisquil vient mme en reproduire dollars pour acheter des followers
les failles et les limites ; et dautre sur Twitter. Ainsi, des algorithmes
part que les formules ne peuvent discriminants se superposent et am-
exister en pleine autonomie, mais plifient les ingalits existantes44.
ncessitent toujours un contrle
et une gouvernance humaine.
Quand on rduit une personne
une somme de statistiques et de
Les algorithmes rendent invisibles probabilits, on la transforme en
des pratiques discriminantes une caricature culturelle qui en dit
plus sur les maux de notre soci-
En avril 2014, le Wall-Street Journal42 t que sur les valeurs et comporte-
a rvl que des compagnies de ment rels de cette personne. 45
crdits amricaines utilisaient des
donnes issues des rseaux sociaux explique Ccilia Rabess dans un
pour construire les algorithmes qui article de The Bold Italic.

(43) Aux Etats-Unis, un credit score est affect chaque titulaire dun compte bancaire en fonction de ses revenus et
ses mouvements financiers. Il est standardis et est partag par toutes les institutions financires. Cette pratique est
strictement encadre par le Equal Credit Opportunity Act.
(44) Gandy, Oscar (2010). Engaging Rational Discrimination: Exploring Reasons for Placing Regulatory Constraints
on Decision Support Systems, Ethics and Information Technology 12, no. 1, 2942.

53
(45) http://www.thebolditalic.com/articles/4502-can-big-data-be-racist

Copyright Date de parution: dcembre 2014


54
La nouvelle fracture
numrique : celle de la donne ?

Aujourdhui, beaucoup des outils Big Data sont


calibrs pour un habitant de Manhattan qui
va gnrer de larges quantits dinformations.
Mais parmi les individus connects et dont les
donnes sont collectes, nombre dentre eux
gnrent une quantit trop faible de donnes
pour entrer dans le primtre danalyse des
entreprises qui utilisent les techniques Big Data
pour formuler leurs offres et leurs produits. Cest
ainsi quaprs laccessibilit et le haut dbit,
une nouvelle facette de la fracture numrique
se construit : celle du Big Data.

Pour Jonas Lerman, membre du Minister of State


amricain, il ne sagit pas simplement de passer
ct de promotions, mais bel et bien dtre
pnalis conomiquement et exclu de la vie
politique :

Les magasins nouvriront peut tre pas dans


leurs quartiers, jugs moins attractifs pour les
entreprises, tuant dans luf des possibilits
demploi () et ne seront plus dans le primtre
dintrt des partis politiques, qui est une condi-
tion dune citoyennet pleine.

Jonas Lerman suggre que les acteurs publics


fournissent des garanties ces Big Datas mar-
ginalized groups afin quils ne soient pas exclus
de la vie dmocratique. Cest paradoxalement
aux Etats-Unis, o la protection de la vie prive
en ligne est plus faible quen Europe, que le d-
bat sur cette nouvelle forme de fracture num-
rique est le plus vif 46.

(46) Pour aller plus loin dans ce dbat : Jonas Lerman, Big Data and
Its Exclusions, Stanford Law Review, septembre 2013, http://www.
stanfordlawreview.org/online/privacy-and-big-data/big-data-and-its-
exclusions

Copyright Date de parution: dcembre 2014


55
En se gardant de gnraliser les de contrle et rgulation aux algo-
deux exemples prcdents, les rithmes impliquerait que les donnes
risques inhrents lalgorithmisa- utilises et les calculs effectus soient
tion du monde rendent nces- accessibles afin de voir si les pratiques
saire llaboration de mcanisme mises en place sont respectueuses
de contrle. Ceux-ci renforceraient des enjeux de vie prive et dthique.
la confiance des individus dans le
Big Data et serait, terme, bn- Le premier frein cette dmarche
fiques pour lensemble des acteurs. rside dans la complexit tech-
nique : la composition dun algo-
rithme requiert des comptences
II. TROIS SCNARIOS POUR RGU- trs leves en mathmatiques et
en statistiques pour tre dcryp-
LER LE BIG DATA
te. De plus, limmense majorit
des algorithmes est la proprit
des entreprises qui les utilisent ; elle
Notre incapacit dcrire et com-
est donc de fait protge par les
prendre linfrastructure technolo-
lois nationales et internationales
gique rduit notre porte critique,
de proprit intellectuelle, ce qui
nous laissant la fois impuissants et as-
complexifie la tche du rgulateur.
sez souvent vulnrables. Linfrastruc-
ture ne doit pas tre fantme. 47
Les algorithmes sont des secrets
bien gards et rendre publiques leurs
- Julian Oliver, membre du collec-
recettes poserait des problmes de
tif artistique berlinois Weise 7 qui a
concurrence et de manipulation
imagin des Hommes en gris : des
- Governing Algorithms : a provoca-
hommes qui captent et rcoltent
tion piece48
les donnes quchangent nos or-
dinateurs avec les routeurs des
hotspots Wi-Fi que nous utilisons, r-
Quel rgulateur ? Trois scenarios
compens en 2010 Ars Electronica.

Une volution vers davantage de


Quand un dluge dinformations
transparence est la condition pr-
financires a d tre gr au dbut
alable la mise en place dune
du XXme sicle, sont apparus les
rgulation. Se pose ensuite la ques-
comptables et les auditeurs.
tion de linstance de contrle.
Viktor Mayer-Schnberger
et Kenneth Cukier 49
Une exigence : la transparence
Le contrle des algorithmes laune
de la lgislation en vigueur demande
Lapplication du principe de trans-
une expertise technique semblable
parence par une ou plusieurs entits
celle dun Data Scientist et implique

(47) http://www.internetactu.net/2014/02/26/les-algorithmes-sont-ils-notre-nouvelle-culture/
(48) http://governingalgorithms.org/resources/provocation-piece/
(49) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, p.219

56 Copyright Date de parution: dcembre 2014


la cration dune nouvelle catgo- aux utilisateurs une utilisation juste
rie dexperts. Celle-ci serait stricte- de leurs donnes et prserveraient
ment encadre et pourrait agir en la confiance avec les utilisateurs.
interne et en externe des entreprises.
Ces rgulateurs posent alors la
Ces algorithmists50 rpondraient puissance publique un nouveau
une demande du march pour an- dfi : celle didentifier les comp-
ticiper et viter les problmes vo- tences ncessaires et de les re-
qus plus haut et rpondre au besoin cruter au juste prix du march.
de plus de transparence et de scu-
rit des utilisateurs. Comme dans des Lintensification et complexification
domaines aussi varis que la mde- du trajet de linformation doivent
cine et le droit, les pratiques seraient faire lobjet dune rgulation adap-
encadres par une rglementation te. Celle-ci doit prendre en compte
et un code dontologique stricts. le rle clef que jouent les algorithmes
et llaboration dune forme de r-
gulation centre sur la vrification
a) Lhypothse dune rgulation par par des tiers certifis semble pouvoir
le haut, o les experts-contrleurs se- permettre de fluidifier le march tout
raient employs par une institution en prservant la confiance des utili-
publique, est pertinente pour laudit sateurs.
des algorithmes luvre dans les
organisations publiques. Ils pourraient
sappliquer de la mme manire que
des contrles administratifs ou de s-
curit. Cette instance conseillerait les
agences de ltat sur les meilleures
utilisations possibles des algorithmes.

b) Ces missions de contrles pour-


raient galement tre effectues
par des entreprises agrmentes,
la manire des cabinets de
comptabilit ou daudit. Ces or-
ganisations seraient certifies par
une institution de rfrence, qui
pourrait tre la CNIL ou une autre
institution publique ou ministre.

c) Les entreprises utilisatrices des al-


gorithmes pourraient elles-mmes as-
surer le contrle en interne. la ma-
nire des mdiateurs en place dans
des grands mdias, elles assuraient

(50) Big Data: A Revolution That Will Transform How We Live, Work & Think, Viktor Mayer-Schnberger et Kenneth
Cukier, p.219

Copyright Date de parution: dcembre 2014


57
PARTIE III

LA RVOLUTION
INDUSTRIELLE DU
BIG DATA :

UN LEVIER DE
CROISSANCE DANS
DE NOMBREUX SECTEURS
Copyright Date de parution: dcembre 2014
59
A$
LE BIG DATA,
MOTEUR DE CROISSANCE
ET DE MUTATIONS

Le Big Data est la rvolution technologique qui est le nerf de la guerre dune
rvolution industrielle en cours

Franois Bourdoncle

Franois Bourdoncle, fondateur et CEO de FB & Cie, rapporteur du plan Big


Data pour le Ministre du Redressement productif

Le Big Data est lcho dune dynamique transversale tous les secteurs de
lconomie qui fait de la donne la source de valeur principale. Dans ce nou-
veau paradigme o la donne devient matire premire, les conomies tra-
ditionnelles doivent questionner leur modle conomique.

linstar de llectricit au tournant XIXme sicle, le Big Data est le dclen-


cheur dune nouvelle rvolution industrielle. Franois Bourdoncle identifie
quatre marqueurs de cette rvolution :

60 Copyright Date de parution: dcembre 2014


I. PREMIER MARQUEUR - nimiser la prise de risque et devient
LHYBRIDATION DES MTIERS un avantage comptitif dcisif.

Issus des deux premires rvolutions III. TROISIME MARQUEUR - DES


numriques, les gants de lindus- BUSINESS-MODEL QUI SE RAP-
trie numrique possdent dimpor- PROCHENT DE CEUX DES STAR-
tantes rserves de liquidits et une TUPS
flexibilit organisationnelle qui leur
permettent de conqurir de nou- Les modles conomiques classiques
veaux marchs bien au-del de leur des startups, qui consistent dga-
activit traditionnelle. Parce que le ger un trs grand volume de liquidi-
numrique a pntr toutes les fa- ts pour linvestir trs rapidement sur
cettes de notre quotidien, le cloison- un nouveau march, migrent vers
nement entre les marchs devient lindustrie lourde. La leve de fonds
de plus en plus labile. Les entreprises dun milliard de dollars dUber pour
capables de donner du sens une semparer du march de la logis-
chane de donnes parses sont tique urbaine est significative. Cela
avantages. Cest par exemple la est rendu possible par les capitaux
stratgie de Google qui investit au- auxquels ont accs les fonds dinves-
tant dans la domotique que dans la tissement amricains aprs la crois-
sant ou lautomobile afin de relier sance phnomnale de lconomie
toutes ces activits dans un mme numrique partir des annes 1990.
ensemble et chane de valeur.
IV. QUATRIME MARQUEUR - LE
II. DEUXIME MARQUEUR - VO-
MODLE FULL-STACK STARTUP
LUTION DES INDUSTRIES TRA-
DITIONNELLES VERS DES BU- Ce dernier marqueur correspond
SINESS-MODEL SOUS FORME DE lvolution des entreprises vers une
SERVICE matrise totale de la production. Le
meilleur exemple est la dcision de
Consquence de ces nouveaux en- Netflix, originellement distributeur de
trants sur les marchs traditionnels, contenu, de produire ses propres sries
les entreprises vont devoir recen- pour ne plus dpendre dHollywood.
trer leur modle conomique au- L encore, cette volution implique
tour de lexploitation de la donne une comprhension fine des usages
et sur le service personnalis qui en et un rapport direct avec le client.
dcoule, plutt que sur un produit Sous linfluence de ces quatre mar-
uniforme. Autolib est lexemple queurs, tous les pans de notre cono-
phare de cette servicisation de mie, toutes les strates de notre socit
lindustrie automobile. Cest donc la seront contraints doprer une muta-
connexion numrique directe avec tion profonde pour mettre la donne
le client qui est essentielle pour com- au centre de leur organisation. Cette
prendre les usages et in-fine vendre partie identifie la transition numrique
le service. La connaissance prcise par le Big Data de plusieurs secteurs
des comportements permet de mi- de notre conomie traditionnelle.

Copyright Date de parution: dcembre 2014


61
B LE BIG DATA, UNE RVOLUTION QUI
TRANSFORME TOUS LES SECTEURS
DE NOTRE CONOMIE

Le Big Data peut en particulier aider rduire les pertes et le gaspillage


au niveau du transport et de la distribution des produits agricoles.

LE BIG DATA ET LAGRICULTURE

CHIFFRES CLS :

20 milliards de dollars : ce sont les bnfices supplmentaires


obtenus par Monsanto grce ses technologies Big Data en 2013

10 000 : cest le nombre dexploitants franais qui utilisent les


techniques de lagriculture de prcision

62 Copyright Date de parution: dcembre 2014


La technologie Big Data intresse de cultures, les besoins en eau et en-
plus en plus les industries agricoles grais, et ce jusqu 48 heures
comme en tmoigne le rachat de lavance. En France, dj 10 000 ex-
Climate Corp, entreprise danalyse ploitants utiliseraient les techniques
des donnes, par Monsanto. Alors de lagriculture de prcision se-
que la population mondiale va d- lon lInstitut national de Recherche
passer les 9 milliards dindividus dici en Informatique et Automatique.
2050 et que les besoins alimentaires Pour ce qui est de llevage, les
grandissent, le Big Data esquisse une applications du Big Data peuvent
des solutions pour amliorer et opti- aller du suivi des animaux, la
miser la production agricole mon- dtection anticipe dinfections
diale. (par exemple des infections mam-
maires la couleur du lait) jusqu
Diminuer les risques inhrents la ladaptation de lalimentation.
culture du sol
Encourager une agriculture plus
Avec la baisse des cots des cap- respectueuse de lenvironnement
teurs connects, il devient de plus
en plus attrayant pour les exploi- La transition vers une agriculture
tants agricoles de se procurer des connecte permet de grer des
systmes danalyse et de prvision systmes dirrigation intelligents, ca-
des alas climatiques. Donnes m- pables de sactiver automatique-
torologiques, pollinisation, qualits ment en fonction des donnes de pr-
des sols ou de lair (temprature, cipitations ou de scheresse du sol.
humidit), les analyses agricoles
gagnent en prcision ce qui im- La socit Libellium fournit des cap-
pacte directement les rendements teurs connects des vignerons es-
agricoles. Monsanto estime ainsi pagnols qui grce eux ont amlio-
20 milliards de dollars les bnfices r significativement la productivit
supplmentaires obtenus grce de leurs exploitations : la productivit
cette agriculture de prcision . des vignobles a augment de 15 % et
les pesticides ont t rduits de 20 %.
La socit amricaine Farm Intelli-
gence travaille par exemple dans le Le Big Data peut en particulier ai-
Minnesota avec les producteurs de der rduire les pertes et les gas-
mas et de soja pour aider identifier pillages au niveau du transport et
les signes avant-coureurs de puce- de la distribution des produits agri-
rons ou de maladies des plantations. coles. Au Brsil par exemple, de
nombreuses routes vtustes peuvent
Par ailleurs, des images ariennes tre rapidement impraticables pour
des exploitations prises depuis des les camions de transport la suite
satellites ou des drones donnent de fortes pluies. Les donnes m-
des informations cruciales sur la torologiques et les cartes des r-
croissance des plantes et peuvent, seaux routiers permettent alors en
couples avec des donnes m- temps rel de changer les itinraires
torologiques, tablir des modles et damliorer les rseaux de dis-
prdictifs analysant les qualits des tribution, en minimisant les pertes.

Copyright Date de parution: dcembre 2014


63
LE BIG DATA ET LASSURANCE Si lassurance accde ces don-
nes, il lui sera alors facile de faire
voluer ses produits, ses garan-
ties et ses mthodes de gestion
de risques pour envisager une
offre extrmement personnalise
CHIFFRES CLS :
en fonction du profil de lassur.
800 millions deuros : Cest la
Cette motivation explique pour-
somme investie par Axa en
quoi les assurances rflchissent
2014, sur trois ans, dans des
toutes aujourdhui aux moyens de
projets digitaux au niveau
mettre en place une collecte din-
mondial
formations massives sur le mode de
vie de leurs assurs. Avec les objets
67% : cest le nombre
connects et les applications sant,
dacheteurs dassurance qui,
fini les longues fiches de renseigne-
aux Etats-Unis, ont obtenu
ments et les questionnaires rem-
leur tarif en ligne
plir par lassur ! On peut alors ima-
giner de nouvelles offres, aux tarifs
presque personnaliss, pour assurer
nos risques quotidiens, amenes
Lassurance, dont le modle co- voluer en temps rel, en fonction
nomique est bas sur la gestion du de la vie quotidienne de chacun.
risque et donc la connaissance des
individus et les analyses statistiques, Au-del de la tarification au plus
est logiquement un des secteurs les proche des risques, le Big Data offre
plus impacts par lessor du Big Data. la possibilit deffectuer une lutte
contre la fraude lassurance re-
En effet, lhyperconnectivit des indi- doutablement efficace en iden-
vidus et ainsi la rcolte de donnes tifiant de manire automatique
massives permettent une connais- les comportements anormaux.
sance trs prcise des modes de
vie de chacun : lhygine de vie de Les assureurs auto ont t les premiers
lindividu peut tre calcule grce explorer les opportunits Big Data
aux applications quantified self, la avec des formules Pay as you drive .
qualit de sa conduite est limpide Les assureurs amricains Progressive
si la voiture est connecte ou go- et Allstate viennent ainsi de lancer
localise, ou encore, la gestion du des offres o le calcul de la prime
foyer est transparente si laccs est prend en compte non seulement
donn aux compteurs intelligents le nombre de kilomtres parcourus
deau ou dlectricit. Avec cette mais aussi une valuation du com-
nouvelle volumtrie de donnes, portement de lassur travers des
cest la matire premire de las- donnes comme lheure laquelle
sureur qui volue en profondeur. il prend la route, le nombre de freins

64 Copyright Date de parution: dcembre 2014


brusques, le nombre dacclrations de la CNIL qui aujourdhui regarde
rapides et la vitesse. Restitues sur dun il attentif les pratiques des ap-
un espace priv en ligne, ces don- plications Quantified self ou des bo-
nes une fois analyses donnent tiers connects aux voitures donnant
lieu des tarifs minors ou majors. lieu des offres Pay-as-you-Drive.
On peut trs vite imaginer, par
Les dfis relever pour faire entrer exemple, les drives ingalitaires
lassurance dans lre Big Data dun systme de sant o les as-
surances se fondent sur lanalyse
des donnes personnelles pour fi-
La collecte de la donne naliser les tarifs de prise en charge.

Puisque celle-ci constitue la matire Lassurance nouvel acteur pour la


premire du march de lassurance, prvention
cette dernire doit satteler nouer
des partenariats avec des entrepre- Ce pouvoir de collecte et dana-
neurs des objets connects ou ap- lyse des donnes, et les opportunits
plications mobiles pour collecter les quil fait natre, invite naturellement
donnes la source : linstar du par- les assureurs, mme de mieux
tenariat Withings / Axa nou en 2014 comprendre les risques encourus
qui propose dquiper gratuitement partir dun comportement type,
leur client de bracelets connects. devenir des acteurs de la prven-
tion. Ainsi, lre du Big Data pour
Certification de la donne lassureur rime-t-elle avec lmer-
gence de nouvelles responsabilits ?
Si les sources de donnes sont multi-
ples lre du Big Data, tablir leur Lassurance doit prendre
traabilit est de plus en plus com- conscience delle-mme comme
plexe. Aussi, le cheminement de la dun agrgateur et dun gestion-
donne, son changement de statut, naire de donnes. Lassurance
peut se rvler tre un vrai casse- transforme des donnes en services
tte pour lactuaire charg de vri- de protection. Le service de lassu-
fier et certifier la donne. Pour Omp- rance consiste en effet isoler dans
timind Winter51, lactuaire de demain la masse des donnes disponibles
pourrait devenir le correspondant celles qui ont un caractre prdic-
du rgulateur sur les questions de tif et peuvent servir organiser des
conformit dans le recueil et lusage services de protection contre les
du Big Data . consquences patrimoniales dv-
nements futurs.
Protection de la vie prive
Franois Ewald, Professeur hono-
Dans ce secteur particulirement, le raire au CNAM et International Re-
dploiement du Big Data doit tre search Fellow de la Law School
encadr par le rgulateur linstar de lUniversit du Connecticut52

(51) Optimind Winter, Dossier technique dinformation Big Data, Octobre 2013, http://www.optimindwinter.com/
wp-content/themes/optimind/upload_dbem/2013/10/201310_Dossier_technique_Optimind_Winter_Big_Data.pdf
(52) Entretien avec Franois Ewald, Big Data et assurance , Institut Montparnasse, http://www.institut-montpar-
nasse.fr/big-data-et-assurance/

Copyright Date de parution: dcembre 2014


65
LE BIG DATA ET LA CULTURE Aux Etats-Unis, des chercheurs de
luniversit Stony Brook (New York)
ont dvelopp un algorithme ca-
pable de prdire avec 84 % le
succs dun livre. Le principe ? Le
CHIFFRES CLS : programme se base sur lanalyse
dautres romans qui ont t choisis
Le magazine Forbes a estim pour leur succs littraires (rcom-
0,03 dollar la valeur dun got penses/critiques). A linstar des logi-
individuel exprim sur un lien ciels anti-plagiat, le systme tudie
culturel 53 le degr de similarit entre la base
dtude et luvre en question.
Aujourdhui, 52 % des com-
mentaires sur Facebook Selon le programme, les lments qui
portent sur les programmes font dun livre un succs sont le choix
diffuss la tlvision 54 des prpositions, noms, pronoms, d-
terminants et adjectifs ( linverse,
Sur Netflix, 75 % des pro- les mauvais livres utiliseraient plus de
grammes consomms le sont verbes et dadverbes qui renvoient
grce au systme de recom- des mots dactualits, des clichs,
mandation. Prs de 800 ing- des lieux communs). Les bons livres
nieurs travaillent, au sein de aborderaient plus le vocabulaire de
lentreprise, llaboration et la rflexion que celui de laction56
lamlioration de ces algo-
rithmes de recommandation.
Le Big Data au service dune meil-
leure diffusion pour une grande inte-
raction avec le public
La culture comprend deux dimen-
sions. La premire relve de lintime Les acteurs de lindustrie culturelle
; nos pratiques culturelles dvoilent ont un double-dfi rsoudre : ins-
nos gots, nos hobbies, nos aspira- taurer et assurer une relation privil-
tions notre identit, en somme. gie avec ses clients. Le Big Data leur
La culture renvoie galement des permet datteindre cet objectif. En
pratiques sociales et communau- scrutant et en analysant les rseaux
taires. La donne personnelle cultu- sociaux principalement lindus-
relle possde ainsi une valeur par- trie culturelle est en mesure dob-
ticulire : La donne personnelle server quelles sont les attentes du
culturelle renferme des informations moment, mais aussi de les anticiper.
contextuelles fortes et permet de
qualifier de faon assez prcise le Les donnes personnelles culturelles
pouvoir dachat de ltre numrique permettent galement de prolon-
mais aussi de prvoir son comporte- ger lexprience culturelle et la rela-
ment 55. tion entre acteurs et usagers cultu-

(53) http://www.strategies.fr/etudes-tendances/tendances/224438W/le-big-data-au-service-de-la-culture.html
(54) Comportements culturels et donnes personnelles au cur du Big data EY & Forum dAvignon, 2013 : p.12
(55) Ibid
(56) http://substance.etsmtl.ca/un-algorithme-pour-predire-le-succes-litteraire-la-maniere-de-triz/

66 Copyright Date de parution: dcembre 2014


rels. Aprs une exprience culturelle Le Big Data : nouveaux gains pour
que ce soit un spectacle ou la visite lindustrie ?
dune exposition, la collecte et le Lcosystme de la culture voit ses
traitement des informations rela- sources de financement tarir cause
tives lvnement donnent lieu du contexte conomique difficile.
la cration de communauts web Largement dpendante des deniers
ou de services complmentaires. publics par le pass, la culture doit
trouver de nouvelles sources de fi-
nancement. Le rapport EY & Forum
Lutilisation du Big Data dans le tou- dAvignon 2013 prsente une nou-
risme : lexemple suivre. velle piste de rflexion intressante :

En 2012, le Comit Rgional de Tou- Un projet culturel pourrait demain


risme Cte dAzur et Orange ont valoriser, au moment de son finance-
quantifi et modlis les dplace- ment, sa capacit gnrer des don-
ments des touristes dans la rgion. nes pour le distributeur, au mme
En utilisant les donnes de ses clients titre quil peut gnrer des ventes.
notamment et en les croisant avec Les plans de financement de projets
les informations gographiques de cinmatographiques ou discogra-
lI.G.N, Orange est parvenu pro- phiques pourraient, par exemple,
duire des analyses quant aux d- intgrer la valorisation des donnes
placements des touristes, le temps nouvelles collectes : un producteur
pass, les lieux les plus visits, nombre excutif cderait un coproducteur
de nuites La finalit de lopra- le droit dadministrer la communaut
tion tait doptimiser lexprience de luvre cre, et les revenus pu-
touristique : emplacement des struc- blicitaires ventuellement gnrs.
tures dhbergement, de restau-
ration mais aussi de sadapter aux
coutumes nationales des visiteurs57.

Cette initiative peut tre reprise pour


dautres zones touristiques en France.
Son principe peut galement tre
appliqu une chelle plus mo-
deste. Un muse pourrait analyser
de la sorte les donnes mises par
ses visiteurs afin damliorer sa logis-
tique dorganisation (estimation en
temps rel de lattente pour lachat
des tickets) doptimiser le parcours
de lexposition (rendre plus acces-
sibles les uvres qui plaisent le plus)
ou lemplacement de ses services
annexes (boutiques, restaurants).

(57) http://reseauculture21.fr/wp-content/uploads/2014/07/EtudeATELIER_FA_2013.pdf

Copyright Date de parution: dcembre 2014


67
UNIVERSIT PARIS DAUPHINE

VICE PRSIDENT
DE RENAISSANCE NUMRIQUE
Le commerce lectronique, quil soit
mobile, desktop ou sur tablette, gnre
quantit de donnes qui sont la base des
web analytics que tout e-commerant se
doit de suivre avec attention.

Henri Isaac

Le commerce lectronique, LE BIG DATA POUR OPTIMISER LES


quil soit mobile, desktop ou INTERFACES MARCHANDES
sur tablette, gnre quanti- Afin damliorer les interfaces de
t de donnes sites marchands, de trs nombreuses
socits proposent dutiliser des tests
A/B qui visent exposer deux groupes
qui sont la base des web analytics de clients deux pages diffrentes
que tout e-commerant se doit de afin de dterminer la plus efficace
suivre avec attention. Si les volum- en terme de souscription ou de vente
tries consquentes de donnes ont ou de tout autre problmatique der-
longtemps t lapanage des prin- gonomie. Si cette mthodologie pr-
cipaux sites de-commerce, le dve- sente un intrt avr, elle prsente
loppement constant de ce secteur en revanche des limites ds lors que
amne de nombreux sites grer lon introduit simultanment plu-
des volumes croissants de donnes sieurs changements sur une page.
lies au trafic, la navigation,
lachat, la relation client. Si les mthodes du Big Data sont
depuis longtemps utilises dans la
Larrive des technologies Big Data recommandation de produits et
change radicalement la donne dans doffres (cf. suivant), elles inves-
ce secteur et ce sur plusieurs pro- tissent dsormais le champ de la
blmatiques propres au commerce conception dinterfaces en analy-
lectronique : la conception des sant simultanment en temps rel des
interfaces marchandes, la recom- milliers - voir des millions- de parcours
mandation et la personnalisation, de navigation en y appliquant des
le pricing, la gestion du catalogue. analyses statistiques afin de dtermi-

Copyright Date de parution: dcembre 2014


69
ner linterface la plus performante. La gestion dynamique des prix
La socit Content-Square58 est trs (Dynamic Pricing)
illustrative des mthodes du Big Data
appliques la conception dinter-
face. Un des principaux apports des Boomerang Commerce59 permet
mthodes Big Data est leur capaci- aux e-commerants d'ajuster leurs
t fournir des lments de rponse prix en temps rel en fonction de
dans des dlais fortement rduits ceux d'Amazon et d'autres e-com-
(quelques jours versus plusieurs mois). merants. Le logiciel parcours les
sites de la concurrence et analyse
les prix d'un produit donn. Il peut
ensuite ajuster le prix automatique-
Ladaptation de loffre dun site et ment, la hausse ou la baisse.
les algorithmes de recommandation Il peut aussi faire des suggestions au
lieu d'un ajustement automatique,
et par exemple proposer d'augmen-
Un des enjeux du e-merchandising ter un prix par rapport la concur-
est de fournir une assistance la rence, afin d'accrotre des marges
vente sans vendeur. Une mthode dans une catgorie de produits.
pour y parvenir consiste dtec- Ainsi, les e-commerants ont la possi-
ter un client et adapter loffre bilit d'automatiser leurs prix en fonc-
de produits au profil, la naviga- tion de nombreux facteurs, comme
tion. Longtemps apanage de sites leur stock, les changements de prix de
marchands aux ressources impor- la concurrence, l'heure du jour ou la
tantes, les algorithmes de person- mto. Boomerang Commerce offre
nalisation et de recommandation aussi de tester diffrentes stratgies
deviennent accessibles avec des de prix via un indice de perception
offres SaaS nombreuses (Sparkow, des prix pour un produit donn. Il per-
Tynyclues, Nosto, Ezako, NuuKik, met aussi d'optimiser les prix en fonc-
Target2Sell, PlanetWorld, etc.). tion des canaux de distribution utiliss.

Les moteurs de recommandation Le Big Data est utilis pour valuer


sappuient tous sur de lapprentis- limpact dun changement de prix
sage artificiel (machine learning) sur le chiffre daffaires, et ainsi aider
afin dapprendre des comporte- chaque entreprise tablir la meil-
ments des internautes. La disponi- leure stratgie de prix en fonction de
bilit dApache Mahout (https:// ses objectifs. Les volumes des catalo-
mahout.apache.org), logiciel open- gues (SKUs) et le nombre de concur-
source de machine learning issu du rents surveiller en temps rel nces-
projet Hadoop, va encore acc- sitent de recourir des technologies
lrer le dploiement du Big Data de Big Data pour le stockage des
sur de nombreux sites marchands. donnes et des algorithmes dap-
prentissage (machine learning) qui
reposent ici sur la thorie des jeux60.

(58) http://www.content-square.fr/
(59) http://www.boomerangcommerce.com
(60) http://www.ecommercebytes.com/cab/abn/y14/m07/i18/s02

70 Copyright Date de parution: dcembre 2014


Performance des catalogues passage un modle plat difficile
e-commerce envisager. En contrepartie, le mo-
dle EAV prsente un cot important
pour certaines oprations basiques.
Les catalogues des e-commerants Ainsi pour obtenir un produit ou une
peuvent comporter de trs nom- liste de produits, il est ncessaire de
breuses rfrences de produits g- procder des oprations de join-
nrant des bases de donnes de ture assez lourdes pour rcuprer l'en-
plusieurs milliers, centaines de mil- semble des attributs du produit. Sur un
liers, voire plusieurs millions de pro- petit catalogue, c'est tout fait ac-
duits dans le cas des marketplaces61. ceptable. Mais ds lors qu'il s'agit de
manipuler une base de plusieurs mil-
Les bases de donnes des progiciels lions de produits, le cot de ces op-
e-commerce doivent donc stocker rations devient vite prohibitif. Sur une
des fiches-produits avec des don- base de 5 millions de produits avec une
nes trs htrognes un livre ne moyenne de 20 attributs produits, on
se reprsente pas avec les mmes effectuerait des oprations de jointure
attributs qu'un aspirateur. En outre sur une centaine de millions de lignes.
les caractristiques des produits
peuvent voluer dans le temps. Ds lors, le recours une base NoSQL
L'une des techniques classiques em- documentaire comme MongoDB
ploye pour rpondre cette pro- est une solution idale pour amlio-
blmatique dans une base de don- rer les performances. La SSLL Smile
nes relationnelle est de proposer un a ainsi ralis une adaptation du
modle dit Entity-Attribute-Value62. progiciel e-commerce Magento en
y intgrant MongoDB63. Cette solu-
Le principe de cette modlisation est tion de base de donne NoSQL per-
de sparer les donnes fixes du pro- met de grer des catalogues de trs
duit de ses attributs qui sont stocks grande envergure avec des perfor-
dans des tables spcifiques (5 tables mances daffichage (temps de r-
au total dans le progiciel E-com- ponse) et de recherche optimises64 .
merce Magento, par exemple).

Ce modle prsente un avantage


important par rapport au stockage
plat des donnes lorsqu'il s'agit
d'oprer la mise jour du modle
de stockage des produits puisqu'il
n'est pas ncessaire de modifier la
structure des tables de stockage.
Cette opration est en effet trs dif-
ficile oprer ds lors que le volume
contenu dans une table devient im-
portant. Cela rend trs clairement le

(61) A titre dexemple, un site come Pcheur.com gre un catalogue de plus de 154 000 produits, Amazon.fr pos-
sde lt 2014 plus de 119 millions de rfrences et Amazon.com 253 millions. Source : Export.com
(62) voir une prsentation pdagogique de ce modle : http://www.magentix.fr/divers/modele-eav-magento-da-
tabase.html
(63) disponible sur GitHub https://github.com/Smile-SA/mongogento

71
(64) http://www.ecommerce-performances.com/

Copyright Date de parution: dcembre 2014


LE BIG DATA ET LA FINANCE cires sont les premires avoir
embauch en masse des profils
type Data-Scientists, notamment
travers la formation dexcellence
Polytechnique ENSAE qui est de-
CHIFFRES CLS :
venue la rfrence mondiale.
Aujourdhui, le secteur bancaire
98 % : cest le pourcentage
est le premier client des entreprises
de baisse du cot du stoc-
informatiques qui fournissent lin-
kage pour un gigabit de
frastructure de gestion du Big Data.
data financire. Ainsi, une
entreprise oprant plus de 20
La vente ou lachat automatiss
millions doprations quoti-
dactifs boursiers en lespace de
diennes fait passer le cot de
quelques nanosecondes est une pra-
stockage de 17$ 21 cents
tique en place travers les places
par gigabit avec une archi-
boursires du monde entier. Pour
tecture Hadoop 65 .
certains, elle favorise la spculation
outrance et est le reflet dune fi-
nance dconnecte des enjeux de
Sur les marchs europens et am- lconomie relle, alors que pour
ricains, sept transactions financires dautres, le Trading Haute Frquence
sur dix sont automatises : le Big est un moyen efficace de dgager
Data, par le truchement du Tra- les liquidits ncessaires au march.
ding Haute Frquence, sont au
cur des organismes financiers. Un algorithme ne peut pas fonction-
ner seul : il doit tre rgulirement
Les entreprises financires sont par- contrl, corrig et rorient ! Pour
mi les premires avoir compris que autant, le rle de lhumain reste pri-
la donne tait la nouvelle source de mordial et la machine ne sera jamais
valeur - Stphane Buttigieg, Directeur que lcho de ses choix, comme le
gnral adjoint Institut Louis Bachelier souligne Stphane Buttigieg Auto-
matises ou pas, les dcisions prises
Ds les premiers pas de linforma- par la machine sont toujours le re-
tique dans les annes 1980, le monde flet dune intelligence humaine .
de la finance a tent de matriser les
nouveaux flux dinformations num- Les spculations sur les matires pre-
riques. Ce quon appelait alors le mires au dbut des annes 1990
Business Intelligence rpondait aux ou encore la crise des SubPrimes
mmes problmatiques que le Big de 2008 sont le fruit de dcisions
Data. La diffrence fondamentale humaines et leurs mcanismes
rside dans le volume alors trait. ne sont pas lis la gnralisa-
tion du Trading haute frquence.
Les banques, les socits das- En 2011, le piratage du compte
surances et les entreprises finan- Twitter de lAssociated Press par

(65) http://inside-bigdata.com/2014/10/13/adopting-big-data-finance/

72 Copyright Date de parution: dcembre 2014


des hackers syriens et la diffusion des affaires numriques la Sloan
dun prtendu attentat contre la School of Management du MIT.
Maison-Blanche a bern les algo-
rithmes de Wall Street : en lespace Le Big Data provoque un change-
de quelques instants, le march sest ment dchelle dans les tudes du
effondr et a ncessit lintervention comportement des travailleurs : de
humaine pour revenir la normale. la frquence des emails envoys
au moindre clic de souris, lintgrali-
t de lactivit de milliers de travail-
leurs peut tre analyse et mise au
service de lefficacit de lentre-
LE BIG DATA ET LA GESTION DES
prise. Ces donnes nouvelles ta-
RESSOURCES HUMAINES blissent des modles corrlatifs qui
identifient les variables explicatives
de la performance des employs.

CHIFFRES CLS : Bank of America a quip 900 de


ses employs de badges dve-
22 % : augmentation de la lopps pour tudier leurs mouve-
performance des centres ments et interactions afin de com-
dappels Xerox qui ont au- prendre la faon dont ils travaillent.
tomatis leur recrutement Rsultat : une productivi-
t augmente de 10 %66.
4 millions : le nombre de pro- La socit Citizen invite ses em-
fils de dveloppeurs analyss ploys renseigner leur rgime ali-
et classs par lalgorithme de mentaire, leurs activits sportives
Gild et leur temps de sommeil afin de
dterminer comment augmen-
ter leur productivit au travail.
Aprs lOrganisation Scientifique du
Lutilisation de nouvelles technolo-
Travail de Taylor, le Big Data est la
gies peut toutefois se heurter des
nouvelle rvolution des techniques
barrires juridiques en France. Lga-
de travail et doptimisation de la
lement, la surveillance des salaris
chane de production.
rpond un cadre lgal strict. Si elles
peuvent tre places dans un couloir,
Plus de productivit grce aux don-
les camras de vidosurveillance par
nes
exemple ne peuvent servir espion-
ner un employ. Un dispositif tel que
Nous assistons une Rvolution
mis en place par Bank of America se-
de la mesure, et cette rvolution va
rait sanctionn par la CNIL en France.
transformer lconomie de lorgani-
sation et lconomie personnelle -
Lautomatisation du recrutement :
Erik Brynjolfsson, directeur du Centre
une nouvelle mritocratie ?

(66) http://internetactu.blogue.lemonde.fr/2013/05/03/le-recrutement-et-la-productivite-a-lheure-des-big-data/

Copyright Date de parution: dcembre 2014


73
Nous allons bientt assister la proli- LE BIG DATA ET LCOSYSTME
fration des systmes de recrutement SPORTIF
automatique qui feront automati-
quement correspondre les candidats
aux emplois. Imaginez quau lieu
de recevoir des recommandations
de films de Netflix vous receviez des CHIFFRES CLS :
propositions demploi de Monster ou
LinkedIn - et que ces emplois soient 25 par seconde : cest le
effectivement bons pour vous. nombre dinformations
Tomas Chamaro-Premuzic, contri- qumettaient les joueurs de
buteur lHarvard Business Review la Mannschaft quips de
matriel connect pendant
I no longer look at somebodys CV la Coupe du monde 2014
to determine if we will interview them
or not, - Teri Morse, responsable des
ressources humaines Xerox Services
Xerox, leader du march des impri- Lmergence du Big Data dans le
mantes, a confi aux algorithmes de monde du sport constitue une tape
la startup spcialise Evolv le rem- clef dans le dpassement des limites
placement de 22 000 oprateurs et des exploits sportifs. Le Big Data
pour ses centrales dappels67. Afin de permet daffiner avec prcision les
prdire quels seront les employs les mouvements, les tactiques et les
plus fidles et les plus performants, prouesses des joueurs sur le terrain,
Evolv a crois les rsultats de tests de confortant la tendance contempo-
personnalits avec les donnes four- raine un culte de la performance
nies par Xerox sur les comportements comme lobserve le sociologue
de ses employs en central dappel. Alain Erhenberg. Les sportifs, mdias
Xerox bnficie alors dun portrait de et publics cherchent toujours plus
lemploy idal et peut automatiser quantifier, chiffrer et objectiver les
sa dcision en fonction de lcart performances sportives, les analyser
du candidat par rapport cet idal sous le crible de la puissance des al-
type. Les rsultats contredisent les gorithmes et in fine tirer de nouvelles
ides reues : par exemple, une ex- stratgies permettant de poursuivre
prience pralable dans un centre leffort vers le dpassement de soi.
dappel ne conditionne par ncessai-
rement une performance plus haute.
Les joueurs, gnrateurs de donnes
Cependant, lautomatisation du re-
crutement exclut les candidats qui Selon Philippe Gargov, le Big Data
ne se trouvent pas dans le primtre reprsente les troisime et qua-
des outils scanns par le recruteur : trime gnrations de statistiques
un candidat qui ne dispose pas de utilises dans le monde du sport :
profil Linkedin est-il une moins bonne
recrue que celui qui lalimente ? La golocalisation : ces vastes

(67) http://www.ft.com/intl/cms/s/2/e3561cd0-dd11-11e3-8546-00144feabdc0.html#ixzz374JVEd7M

74 Copyright Date de parution: dcembre 2014


plages de donnes servent alors instantan des supports connec-
analyser en dtails les mouvements ts des donnes sur la prcision, la
des joueurs sur le terrain et affiner puissance ou langle des tirs dune
les tactiques de dplacements. frappe et daccumuler leurs histo-
Ds 2012, le club du Paris Saint-Ger- riques. lavenir, lensemble de ces
main sest ainsi dot de brassards dispositifs high-tech pourrait tre utili-
GPS quips sur ses joueurs lors s en temps rel pour permettre aux
des entranements pour capter entraieurs de changer de tactiques
leurs dplacements et leurs efforts. en cours de match, ainsi qutre
largi de nombreux autres sports.
Les donnes physiologiques : une
quatrime gnration de statistiques
fournies par le Big Data sintresse Quantifier, chiffrer, rationnaliser les
aux donnes de sant des joueurs prouesses sportives : quelle place
travers des capteurs physiologiques. pour lhumain ?

Lquipe nationale dAllemagne a Il y a vingt ans, on ne pesait ni les


largement eu recourt au Big Data chevaux ni les cavaliers avant une
pour la prparation de la Coupe course hippique. Dsormais, on pse
du monde 2014 grce aux logiciels les chevaux, on regarde leur poids,
de traitement de donnes de la so- on les mesure, on collecte un certain
cit allemande SAP capable de nombre dinformations qui ont un rle
rcolter plus de 25 informations la crucial sur les paris sportifs. Le Big Data
seconde. Dun ct, des capteurs permet de dmultiplier les sources
biomtriques poss sur les joueurs dinformations, ce qui permet daffi-
permettent de collecter des don- ner le suivi de performances des uns
nes physiques telles que le rythme et des autres et in fine les paris spor-
cardiaque, les acclrations et d- tifs. Le Big Data, cest le perfection-
clrations ou les distances parcou- nement de linformation. Jean-Luc
rues, de lautre des camras four- Errant, Directeur de Cityzen Sciences
nissent des donnes vido captures
sous plusieurs angles dtaillant les Nanmoins, le Big Data ne rempla-
trajectoires des joueurs sur le terrain. cera pas lhumain selon Jean-Luc
Errant. Les analyses algorithmiques
ne permettent pas tant de prdire
LInternet des objets sempare du avec exactitude les rsultats spor-
sport tifs - car malgr limmensit des
donnes la part dincertitude reste
En plus de connecter les joueurs, grande - que damliorer la compr-
ce sont tous les objets sportifs que hension des performances sportives
lon connecte : du ballon de bas- et surtout de prvenir des situations
ket-ball augments 94fifty pour Nike risque dans une dmarche orien-
au ballon de football Smart Ball te vers le bien-tre des joueurs.
pour Adidas, afin de transmettre en

Copyright Date de parution: dcembre 2014


75
DIRECTEUR
AFFAIRES JURIDIQUES
ET AFFAIRES PUBLIQUES

MICROSOFT
Dans un monde de plus en plus
interconnect, lheure o les flux
de donnes saccroissent de faon
exponentielle

Marc Moss

LE BIG DATA ET LA VILLE Dans un monde de plus en plus in-


terconnect, lheure o les flux de
donnes saccroissent de faon ex-
ponentielle et o les capacits ana-
lytiques des machines senrichissent
CHIFFRES CLS : continuellement, le Big data repr-
sente la prochaine vague techno-
Prs de 50 % de la popu- logique qui impactera durablement
lation mondiale vit au- et positivement les services rendus
jourdhui dans une zone ur- par les collectivits et renforcera le
baine potentiel des agents publics et des
citoyens. Adosse la puissance du
25 % : cest le pourcentage Cloud computing lie la diffusion
de rduction de la consom- des objets connects et aux rseaux
mation lectrique de la ville sociaux, la rvolution du Big data -
de Seattle grce lana- que prolongent les potentialits du
lyse prdictive et loptimi- Machine Learning - constitue une op-
sation des quipements portunit afin de changer les choses.
lectriques contrls par
des logiciels
Les donnes sont une ressource
Le march des villes intelli- prcieuse, un vritable actif.
gentes devrait atteindre 39
milliards de dollars en 2016, Toutes les villes du monde sont
contre 10 milliards en 2010 submerges de donnes, mais
selon ABI Research. ne savent pas toujours comment
les utiliser de faon pertinente.

Copyright Date de parution: dcembre 2014


77
Les villes ont besoin de solutions qui Cest aussi confier aux agents munici-
permettent aux donnes de circuler au paux des appareils et des applications
sein dune infrastructure, intgrant des de qualit professionnelle en leur don-
capteurs, des compteurs, des canaux nant la possibilit de rester connects
de mdias sociaux et des marchs via un appareil mobile avec leur bureau
de donnes publiques collectant des et leurs collgues, quel que soit lendroit
informations cruciales, mais aussi des o ils se trouvent, afin que le service ap-
systmes de back-end o les donnes port aux citoyens ne soit pas interrom-
peuvent tre transformes en informa- pu ds quils quittent leur lieu de travail.
tions et en ressources que la popula-
tion et les machines savent exploiter. Prenant en compte les usages des
agents, le projet CityNext a mis au
Pour y parvenir durablement, il im- point des offres sur mesure qui auto-
porte que la confiance, la scurit et risent et facilitent le paramtrage et
la protection soient au coeur de la col- lutilisation de divers types dappareils,
lecte et du traitement des donnes. quils fonctionnent sous des systmes
dexploitation Windows, Android,
Aujourdhui, nous sommes la fois des ou Apple. Les agents ont des ides
tmoins et des acteurs privilgis de bien prcises quant aux appareils
ces grandes volutions qui aident les quils souhaitent utiliser et nous pen-
mtropoles rpondre aux attentes sons que linteroprabilit offre plus
de leurs citoyens et de leurs agents. En de flexibilit et de confort de travail.
mettant lhumain et ses droits fonda-
mentaux au centre de leurs priorits et LAutorit portuaire de Hambourg
en sappuyant sur des partenaires stra- (HPA) gre le plus grand port dAlle-
tgiques, les villes renforcent leur rle de magne. Elle souhaitait tirer parti des
moteurs de linnovation et du progrs. appareils nomades de ses agents pour
accrotre la mobilit de ses collabora-
teurs. La HPA a collabor avec Micro-
La ville intelligente passe par la soft et son partenaire, Blue Communi-
connexion des agents municipaux cations Software, pour adopter une
solution Office 365 ProPlus, base sur
La modernisation numrique des le Cloud, afin de permettre ses col-
villes doit sappuyer sur linnovation laborateurs dtre productifs quelque
en privilgiant lindividu et les usages soit lappareil utilis ou lendroit o ils se
et en laissant le soin au secteur pu- trouvent dans le port. Les problmes de
blic, aux entreprises et aux citoyens compatibilit ont ainsi t rsolus et le
de btir lavenir de leurs villes. Privil- risque dinterruption limit conduisant
gier lindividu signifie mobiliser toutes une rduction de 75 % du temps consa-
les ides, toutes les nergies et toute cr par les administrateurs la gestion
lexpertise des habitants de la ville du dploiement. Autant de temps
pour crer une cit plus dmocra- disponible pour un meilleur service.
tique, plus durable et plus efficace.

78 Copyright Date de parution: dcembre 2014


Les Big Data pour valoriser le potentiel tion de la consommation lectrique
humain de la ville de 25% grce lanalyse prdictive
et loptimisation des quipements
De nombreux projets dinnovation lectriques contrls par des logiciels.
urbaine de grande ampleur ont
pour principal objet de rendre les in-
frastructures intelligentes en y in- Pas de ville intelligente sans Open
tgrant des capteurs et en accrois- Data
sant les capacits des rseaux. Bien
que cet lment soit essentiel, se li- La ville intelligente se dploie gale-
miter aux infrastructures engendre le ment grce louverture des don-
risque de passer ct de lnorme nes publiques et la cration dun
potentiel humain quoffre la ville. Les cosystme de dveloppeurs imagi-
villes de la prochaine gnration natifs et crateurs dapplications mo-
comptent sur les personnes au sein biles. Lexemple de lentreprise grant
de lEtat et des collectivits, dans les les transports du Grand Manchester
entreprises et les citoyens pour btir (Transport for Greater Manchester)
via linnovation une cit durable en tmoigne : Transport for Grea-
dans toutes ses sphres : cono- ter Manchester utilise la plateforme
mique, environnementale et sociale. Windows Azure, pour hberger des
donnes publiques recueillies. Il est
Les technologies Big Data peuvent ai- maintenant possible de connatre en
der les villes relever des dfis de plus temps rel la localisation des trans-
en plus pressants. Aprs des annes ports en communs mais galement
de collaboration avec des maires du le nombre de places disponibles
monde entier, Microsoft a identifi plus sur les itinraires les plus utilises68.
de 40 domaines dapplications rpar-
tis dans huit secteurs critiques : ner-
gie et eau ; btiments, infrastructures
et planification ; transports ; scurit
publique et justice ; tourisme, loisir et
culture ; ducation ; sant et services
sociaux ; administration publique.

Lune des applications concrtes


du Big data sillustre en matire de
consommation dnergie avec les
rseaux intelligents (Smart grids) et
lanalyse prdictive. La ville de Seattle
sest associe Microsoft, Accenture,
un fournisseur dlectricit local et
une structure but non lucratif, pour
crer un programme de btiment in-
telligent qui rend possible une rduc-

(68) http://www.microsoft.com/casestudies/Case_Study_Detail.aspx?casestudyid=710000003034

Copyright Date de parution: dcembre 2014


79
UNIVERSIT PARIS DAUPHINE

VICE PRSIDENT
DE RENAISSANCE NUMRIQUE
Le marketing fait dores et dj lob-
jet dune rvolution profonde grce la
donne. Larrive des donnes en volume
et en temps rel conduit dimportantes
transformations des outils, des mthodes
et des comptences ncessaires pour ana-
lyser et comprendre les comportements
dun prospect, dun client.

Henri Isaac

LE BIG DATA ET LE MARKETING intensit, frquences dutilisation :


les variables tudier sont infinies).

De nombreuses mthodologies, au La micro-localisation : des capteurs


cur du marketing sont question- type iBeacon localisent un client au
nes : les tudes, la notion mme sein dun centre commercial pour lui
de campagne. Au-del de la fonc- proposer les promotions les plus adap-
tion marketing elle-mme, cest tes son parcours, au mtre prs.
un nouveau paradigme de pilo-
tage de lentreprise qui est en jeu. Les dispositifs de reconnaissance
faciale disposs dans les affiches pu-
blicitaires prsentes dans le mtro
Le consommateur de plus en plus parisien.
dcrypt

Dabord, lomniprsence des cap- Ciblage comportemental et re-


teurs gnrateurs de donnes, la ciblage (retargeting)
Rvolution des capteurs 69 se-
lon les termes de Christophe Be- Le ciblage comportemental (Beha-
navent, dmultiplie les possibilits de vioral Targeting), dsigne l'ensemble
connaissance du consommateur. des technologies et des outils qui
permettent d'afficher des publicits,
Lopinion et lattitude sont identi- des contenus ditoriaux en adqua-
fies au travers de lanalyse auto- tion avec le comportement d'un
matique des sentiments et de lana- internaute. Cette technique publi-
lyse usages dun service (temps, citaire consiste employer des l-

(69) http://www.butter-cake.com/big-data-christophe-benavent-de-letude-a-laction-en-marketing/

Copyright Date de parution: dcembre 2014


81
ments comportementaux, comme ajoutent des donnes des Data
l'historique des pages visites, les re- Management Platform (DMP) afin,
cherches effectues sur les sites, les daugmenter la valeur de ces inven-
produits mis en panier et/ou ache- taires pour les diteurs en qualifiant
ts en ligne, le clic sur bannire pu- leurs audiences, et de cibler plus
blicitaire, pour dterminer avec prcisment les internautes du ct
prcision les centres d'intrt d'un des annonceurs. Ces techniques
internaute ou d'un mobinaute. La dachat en temps rel sont appe-
construction de ces profils, leur ana- les Real Time Biding (RTB). Cet co-
lyse et leur commercialisation n- systme publicitaire en ligne repose
cessitent des technologies Big Data. fondamentalement sur des techno-
Le ciblage comportemental est d- logies Big Data par les volumes de
sormais trs largement utilis par les donnes traites, les algorithmes
annonceurs. Il est dsormais mieux mobiliss et les comptences nces-
compris avec le dveloppement du saires pour btir de telles mthodes.
retargeting, dont lentreprise fran-
aise Crito est le leader mondial. Alors que les techniques du RTB ont
historiquement t utilises pour
acheter/vendre des inventaires pu-
Du Real Time Biding (RTB) lachat blicitaires excdentaires, lachat pro-
programmatique grammatique est une gnralisation
et automatisation des achats mdias
Lexplosion des inventaires publici- tous les inventaires publicitaires (y
taires en ligne a conduit des vo- compris les Private MarketPlaces,
lumes despaces invendus cons- PMP)70. La croissance de lachat pro-
quents qui ont finalement t vendus grammatique est forte en France
aux enchres par les diteurs. Pro- (hausse de 125 % en glissement an-
gressivement, les techniques de nuel 2012/13) et 22 % au premier se-
dachat-vente despace ont volu. mestre de 2014 71. La conception des
Les diteurs ont construits des plate- campagnes et lachat despace re-
formes de ventes (Sell-Side Platform, posent donc dsormais de plus en plus
SSP) o les agences peuvent ache- sur des comptences Big Data, tant
ter des audiences en temps rel. pour les diteurs et les annonceurs.

Les annonceurs ont, quant eux,


construit des plateformes dachat CRM, DMP et gestion de campagnes
(Demand-Side Platform, DSP). Les
espaces sont commercialiss aux Le dveloppement de lachat pro-
enchres (plusieurs annonceurs grammatique et des technologies de
peuvent saffronter pour acheter un reciblage (re-marketing) fait voluer
profil dinternaute) et tout se droule les frontires traditionnelles entre les
dans un temps qui est infrieur la mtiers du marketing. La capacit
seconde et de lordre de la millise- didentifier les profils des internautes
conde. De chaque ct, les acteurs permet galement, lorsque lon lie la

(70) voir IAB Europe, AppNexus and WARC, (2014), Why and How Programmatic is Emerging as key to Real-
Time Marketing Success , June
(71) Observatoire de le-Pub SRI et PwC
(72) http://www.orange-business.com/fr/big-data-analytics
(73) http://www.visitprovence.org/agence_flux_vision_tourisme.asp

82
(74) Voir par exemple les donnes de Google sur le sujet : http://www.thinkwithgoogle.com/tools/customer-jour-
ney-to-online-purchase.html

Copyright Date de parution: dcembre 2014


base de donnes client enrichie (par travers de cet exemple le boulever-
exemple par les donnes des rseaux sement potentiel que le Big Data ap-
sociaux), la plateforme DMP (Data porte dans le champ du marketing.
Management Platform) ncessaire
aux campagnes digitales, de per-
sonnaliser les messages, leur conte- Continuous commerce
nu, leur nature. Outre lefficacit
accrue des campagnes et loptimi- Ce que le Big Data contribue certai-
sation des budgets, ces transforma- nement le plus transformer cest
tions lies lutilisation des technolo- la notion mme de campagne et
gies Big Data modifient les mtiers de donc la faon dexcuter une stra-
la relation client qui se rapprochent tgie marketing. Les processus de
des mtiers du media planning. dcisions dachat des clients se
sont complexifis74 (rseaux sociaux,
App mobile, magasin, TV, tablette,
Le Big Data au service de la concep- ordinateur, catalogue, affichage,
tion et de linnovation produit radio, presse, etc.) du fait dune in-
formation disponible abondante et
La possibilit daccder de nou- accessible pour le consommateur75.
velles donnes massives en temps rel
constitue une rupture forte dans la fa- De nouveau vocable apparus dans
on daborder les tudes, la concep- le champ du marketing illustrent
tion et ladaptation des offres et ser- bien cette complexit croissante :
vices. A cet gard, loffre Flux Vision72 pre-marketing76 et re-marketing77 ne
dOrange Business Service constitue sont que les phases plus complexes
un exemple intressant de ces trans- et denses dun processus continu
formations dans la conception des et temps rel que lentreprise doit
offres. Cette offre permet toute so- analyser, suivre et sur lequel agir.
cit daccder en temps rel aux Certains, comme Ogilvy parlent de
donnes de dplacement des uti- continuous commerce78. La nces-
lisateurs du rseau mobile Orange. saire matrise de cette complexit
et du temps rel ne font que renfor-
LOffice du Tourisme des Bouches- cer lutilisation des outils Big Data.
du-Rhne utilise ces outils pour ana-
lyser en temps rel les flux touristiques
dans le dpartement73. Il obtient ain- De nouvelles organisations et com-
si en temps rel des donnes sur les ptences ncessaires
vnements, les lieux, les flux de d-
placement, la dure des sjours, les Larrive des mthodologies Big Data
lieux visits. Les donnes anonymi- bouscule quelque peu les mtiers
ses identifient plusieurs catgories historiques du marketing. Loutillage
de touristes : les locaux, les excursion- croissant des dcisions marketing,
nistes, les trangers (grce aux don- le pilotage des actions et de leur
nes de roaming). On peroit bien au budget ncessitent de nombreuses

(75) voir les donnes de Google par pays et secteurs disponibles sur le processus de dcision dachat en ligne :
http://www.thinkwithgoogle.com/tools/customer-journey-to-online-purchase.html.
(76) Voir par exemple le cas dans lautomobile http://www.largus.fr/actualite-automobile/le-marketing-est-mort-
vive-le-pre-marketing-5132379.html
(77) http://www.thinkwithgoogle.com/products/remarketing.html

83
(78) http://continuouscommerce.ogilvydo.com

Copyright Date de parution: dcembre 2014


nouvelles comptences79. Au ct LE BIG DATA ET LA SCURIT
du Directeur Marketing (Chief Mar- PUBLIQUE
keting Officer, CMO), on voit ap-
paratre des Chief Data Officer, voir
des Chief Digital Officer. Si lenjeu
du digital pour les entreprises nest
pas fonctionnel, il nen demeure pas CHIFFRES CLS :
moins que la fonction marketing est
en premire ligne dans cette phase 20 % : cest le nombre de
rapide de transformation. Si de nou- crimes qui aurait t commis
veaux mtiers au sein de la fonction en moins Santa Cruz grce
marketing mergent (data scientist, lquipement des quipes
data analyst, data visualizer), ce sont de police de technologies
la plupart des mtiers historiques qui prdictives fondes sur le
voluent profondment avec le digi- Big Data
tal (tudes, media planning, RP, etc.)

Ce qui est en jeu, cest la matrise


des outils digitaux, des mthodo-
logies et de la culture de cet en- Une surveillance grande chelle,
vironnement mouvant. Nombreux rempart contre le terrorisme ?
sont ceux qui appellent une nou-
velle relation entre la Direction Mar- La protection et la dfense des
keting et la Direction des Systmes citoyens sont des missions rga-
dinformation (DSI)80. Dautres ap- liennes pour lesquelles le Big Data
pellent un directeur technique au permet une efficacit accrue.
sein de la direction marketing81. Ce Toutefois, cest dans ce domaine
dbat concerne dailleurs tout au- que la tentation Orwelienne est la
tant les agences qui conseillent ou plus prsente, limage du scan-
excutent les dcisions marketing. dale mondial dclench par les
Elles font face des enjeux tout rvlations dEdward Snowden.
aussi complexes : comment attirer
des data scientists ? Comment faire Les documents fournis par cet an-
voluer et prserver la culture cra- cien consultant informatique tra-
tive lre de la mathmatisation vaillant pour la National Security
des dcisions et des campagnes ? Agency (NSA) ont lev le voile sur
certaines de ses pratiques contraires
Au-del de lorganisation de la di- au respect de la vie prive. Dans
rection marketing ou des agences, un contexte de risque terroriste
cest le renouvellement constant de accru, lutilisation du Big Data ne
ces comptences qui est le vritable peut se rduire une caricature
enjeu. o les donnes deviendraient lins-
trument dune police politique.

(79) http://www.journaldunet.com/solutions/analytics/metier-big-data-data-scientist.shtml
(80) http://www.accenture.com/us-en/Pages/insight-cmo-cio-alignment-digital-summary.aspx
(81) Brinker, Scott, McLellan, Laura (2014), The Rise of the Chief Marketing Technologist , Harvard Business
Review. Jul/Aug, Vol. 92, Issue 7/8, pp. 82-85

84 Copyright Date de parution: dcembre 2014


Surveiller pour ne plus punir ? Gestion des risques et scurit
publique
La capacit du Big Data tracer,
cibler et suivre un individu permet La scurit publique, cest aussi la
de renforcer le contrle des popu- gestion des risques quotidiens des
lations, notamment dans le cadre citoyens : accidents de la route,
de menace terroriste. La coop- scandales sanitaires, etc. Dans ces
ration avec des entreprises gn- domaines l galement, les ana-
ratrices de donnes, comme des lyses prdictives permises par les
fournisseurs daccs internet ou des technologies Big Data peuvent tre
oprateurs tlphoniques, autorise des leviers defficacit redoutables.
un niveau de profilage trs lev.
Ellis-Car est une startup qui, grce
Par ailleurs, les capacits prdic- une solution permettant de connec-
tives du Big Data ouvrent la porte ter les flottes automobiles, souhaite
une lutte contre le crime a priori, prdire les accidents de la route. Un
linstar du monde dcrit par Philip module embarqu sous le volant du
K. Dick dans Minority Report. La col- vhicule permet de rcuprer un
lecte et le traitement des donnes certain nombre de donnes sur ltat
permettraient de cartographier de de la voiture mais aussi sur le com-
faon trs fine les zones les plus portement du conducteur (vitesse,
risque et, grce aux technologies acclromtre, donnes GPS etc).
de Machine Learning, de prvoir,
peut-tre, le prochain crime ou dlit. Toutes ces informations sont ensuite
stockes par les serveurs de la startup
Un groupe de chercheurs de lUCLA, qui les conjugue toutes les donnes
men par le professeur Jeff Bran- ouvertes lies la mto et la cir-
tingham, a analys 13 millions de culation par exemple. partir de l,
crimes. Avec laide du mathmati- un nouvel algorithme permettrait de
cien George Mohler de luniversit raliser des prdictions sur les risques
de Santa Clara, ils ont appliqu sur daccident. Le crateur de cette
ce corpus les algorithmes prdictifs startup, Rand Hindi, auditionn pour
drivs de ceux annonant les r- ce prsent livre blanc, a t dsign
pliques dun tremblement de terre. jeune innovateur franais de lanne
Le logiciel, exploit par la police de lors du concours organis par la MIT
Los Angeles, est maintenant capable Technology Review en avril dernier.
de dfinir une zone de quelques
centaines de m2 o un crime de-
vrait se produire dans les 12 heures.

long terme, le risque thique est de


glisser vers une pnalisation des in-
tentions .

Copyright Date de parution: dcembre 2014


85
BUREAU DE LINSTITUT G9+

ASSOCIE TLCOMS DIGITAL ET


MDIAS CHEZ SIA PARTNERS
Limmortalit serait-elle porte de main ? Cest
ce que la croissance fulgurante des technolo-
gies NBIC (Nanotechnologies, Biotechnologies,
Intelligence Artificielle et Sciences Cognitives)
dans le secteur de la sant laisserait imaginer
terme.

Isabelle Denervaud

LE Big data et la qute permet dj de dtecter certaines


maladies gntiques ou prdispo-
de limmortalit sitions des maladies. Cet examen
interdit en France permet galement
En effet, la recherche dans ce sec- de fournir un traitement personnalis
teur pourrait terme faire des mi- aux patients selon leur patrimoine g-
racles grce la croissance expo- ntique. Sergei Brin, co-fondateur de
nentielle des donnes issues des Google, a publi en 2008 lanalyse
objets connects, de la gnomique de son ADN et sa sa forte probabilit
ou de la biologie molculaire. Lan- de dvelopper la maladie de Parkin-
nonce rcente par Google dun son Il a chang ses habitudes de
projet de recherche de diagnostic vie pour minorer cette ventualit.
de maladies comme le cancer bas
sur lutilisation de nanoparticules ar- Demain, la constitution et lexploi-
tificielles en constitue un exemple tation de bases de donnes sur le
frappant. Lassaut pour dpasser la gnome pourraient ouvrir la voie
mort est donc officiellement lanc une recherche grande chelle
mais jusquo ira-t-on pour prolonger sur les maladies gntiques, la r-
la vie ? gnration des organes grce aux
cellules souches ou encore la greffe
Un champ des possibles inspiration- dorganes artificiels. Limmortalit
nel... ne serait donc plus qu quelques
pas si on imagine remplacer les or-
Dans la sant, le squencement du ganes dfaillants par de nouveaux
gnome dont le cot devrait pas- artificiels et chaque jour plus endu-
ser de 1000$ 100$ dici 2020 1 , rants. En France, Carmat a dj r-

1
Le Monde, 2014

Copyright Date de parution: dcembre 2014


87
alis deux greffes de cur artificiel protection et la commercialisation
depuis le dbut de 2014, et a d- des donnes de sant, dont le pa-
montr que malgr le dcs du pre- trimoine gntique, restent gale-
mier patient deux mois aprs lop- ment sans rponse aujourdhui. Les
ration en mars, le concept dune donnes de bien-tre sont quant
telle prothse est bien valid. Ainsi, elles dj utilises pour ajuster au
un deuxime patient a bnfici mieux les prix des contrats dassu-
de cette greffe de cur artificiel et rance selon le comportement des
dautres laboratoires et chercheurs clients, comme chez Axa o des r-
sintressent dores et dj au d- ductions sont actives en fonction
veloppement dautres organes ar- du nombre de pas raliss par jour.
tificiels, comme le foie, les reins ou La prdictibilit personnalise des
encore les poumons, qui pourraient risques pour affiner les tarifs peut tre
un jour remplacer le don dorgane. double tranchant pour le finance-
ment de la sant, notamment pour
les mutuelles, o les cotisations varia-
et sans limites thiques ? bilises des membres pourraient pro-
voquer un dangereux dsquilibre...
Si les perspectives dallongement
de lesprance de vie se profilent
dj, de nombreux points thiques Vers un meilleur des mondes ?
demeurent en suspens, comme
celui de leugnisme induit par les Le dbat autour du progrs tech-
technologies NBIC et le Big Data. nique et scientifique apparat au-
La dtection prnatale de mala- jourdhui encore plus quhier un
dies gntiques, telles que la triso- incontournable. Il a t rcurrent
mie 21, est dj possible aujourdhui dans lhistoire, comme la illustre la
grce au squenage de lADN longue priode de transition prc-
prsent dans le sang de la mre. dant la diffusion des ides humanistes
au XVIIIe sicle. Un nouvel quilibre
Pour les spcialistes du domaine est rechercher entre idal, valeurs,
comme Alexandre Laurent, ce nest science et progrs, dans un monde
que la premire tape du tri des em- en acclration continue : une trans-
bryons 2 : demain, ira-t-on jusqu parence sur la collecte, lutilisation
choisir les bons embryons selon les et la commercialisation des donnes
gnes quils comportent ? Cette pos- personnelles est attendue. Avec le
sibilit est dj ltude en Chine vieillissement de la population mon-
o le Beijing Genomics Institute tu- diale et son impact sur les dpenses
die le patrimoine gntique de 2200 de sant, en particulier dans les
personnes avec un QI suprieur pays dvelopps, les Etats ont tout
160 pour identifier les gnes de lin- intrt initier le dbat et mobiliser
telligence. La slection et la modifi- les citoyens et entreprises pour non
cation des gnes dici quelques an- seulement traiter la question cono-
nes ne semblent plus une utopie. La mique, mais aussi dlimiter les terrains

2
Usbek & Rica, 2014

88 Copyright Date de parution: dcembre 2014


de jeux des exprimentations pour
garantir un niveau de confiance.

En une dcennie peine, les NBIC et


le Big Data se sont imposs dans le
domaine de la sant comme poten-
tiel ultime remde aux maux mdi-
caux de lhumanit. En labsence de
cadre lgal et thique dfini, gants
du web, acteurs de la pharmaceu-
tique et start-up spcialises nont
pas attendu pour investir dans la re-
cherche et lexprimentation de so-
lutions pour allonger lesprance de
vie humaine. Cependant, un nouvel
quilibre reste encore construire au
vu des interrogations conomiques,
politiques et philosophiques soule-
ves, entre libert et dterminisme in-
dividuel, afin de dessiner ensemble les
esquisses dun meilleur des mondes
possibles , diffrent de celui dcrit
par Aldous Huxley dans son roman en
1930, ou de celui de Candide dans
le conte philosophique de Voltaire.

Copyright Date de parution: dcembre 2014


89
C$ FUTURS USAGES DES
OBJETS CONNECTS ET BIG DATA ?

Loffre dobjets connects est trs en avance sur les usages. Le flot de donnes
grandissant dobjets connects soutient la croissance du Big Data qui, son tour,
facilite lexplosion des usages.

Yannick Lacoste, Jean-Franois Vermont


CEO - beConect.com Chaiman - beConect.com

Pour sa croissance, le Big Data attend beaucoup de linternet des objets,


que lon nomme et cest peu dire le web 4.0. Prvoir lvolution du Big
Data passe donc, en partie du moins, par la connaissance de ce que sera
cet inter- net des objets que lon voit comme la prochaine grande rvolution
du web.
Quelle projection, quelle anticipation, quelle esquisse peut-on faire de lvo-
lution de ce secteur prometteur ? Nous avons choisi danalyser ce mar-
ch par la dynamique dvolution des usages, qui est, selon nous, le meil-
leur moyen dy parvenir.

Aujourdhui, le march et les usages des objets connects peuvent se ranger


en plusieurs catgories distinctes.

90 Copyright Date de parution: dcembre 2014


mdecin sur deux ayant un smart-
Grand public phone utilisait une application sant.*

Lusage auprs du grand public se Finalement, un ensemble dusages


propage en cercles concentriques divers apparat, allant de la locali-
partir de besoins initiaux simples sation dobjets, perdus ou vols, au
pour la maison connecte, le fitness microscope connect. ce titre,
(et les fameux wearables) et les loi- il est intressant de noter toute la
sirs, pensons notamment aux drones. richesse crative en cours qui, par-
fois et contre toute attente, amne
Au sein de la maison, le monitoring un usage massif et quasi instan-
(et plus largement la scurit) ainsi tan de lobjet peine cr, alors
que la gestion intelligente de lclai- quils tait inconnu auparavant.
rage sont les deux principaux points Par exemple, une valise connecte
dentre en terme dusage. Atten- vient tout juste de rcolter 1,2 M$
tion ! On ne dira plus domotique via un financement participatif.
pour ces nouveaux usages terme
renvoyant un contrle plutt d- Professionnels
centr de lusager mais bien mai-
son connecte ou intelligente . Il sagit ici traditionnellement de lin-
ternet industriel, ou du machine to
Les deux logiques de Big Data sont machine , qui repose sur des pro-
dailleurs trs diffrentes : on passe cessus de production qui sappuient
dun contrle unique, le plus sou- sur des composants communiquant
vent par le biais dun spcialiste, entre eux et avec les acteurs de
un contrle multiple directement lcosysteme de lentreprise : four-
par les usagers et les systmes de nisseurs, clients pour la personnali-
traitement intelligent nodaux. On sation des commandes, ressources
touche ensuite aux besoins plus vo- humaines ddies lexcution
lus qui ncessitent des transfor- de la production, logisticiens pour
mations parfois plus coteuses lvacuation de la production, etc.
des objets traditionnels : chauffage, Cet usage est en profonde mutation.
climatisation, lectromnagers.
Lcosystme, jadis centr sur les
La sant est un autre usage majeur professionnels, devient dsormais
qui, en raison de sa forte rglemen- multicentrique. Le client en est un
tation, se dveloppe dabord par picentre vident, par exemple
des usages simples : tensiomtre, dans lautomobile, mais aussi diff-
pse-personne, brosse dents Ce rentes communauts jadis indpen-
qui ne lempche pas dentrer, len- dantes le deviennent. Pensons
tement mais srement, dans les hpi- une communaut dutilisateurs de
taux et dans les pratiques mdicales voitures qui partageraient des infor-
en gnral. En 2012 dj, plus dun mations entre eux, ou encore une

(82) http://www.euractiv.fr/sections/innovation-entreprises/la-commission-europeenne-met-la-protection-des-
donnees-en-haut-de
*http://vidalfrance.com/presse/premier-barometre-sur-les-medecins-utilisateurs-dun-smartphone/

Copyright Date de parution: dcembre 2014


91
interaction entre le conces-
sionnaire et son client, entre
un utilisateur et des stations-es-
sence ou centres de services. Glo-
balement, on considrera les fonc-
tionnalits des objets connects
comme une rsultante de la jux-
taposition de plusieurs couches :

- les possibilits et caractris-


tiques des capteurs aptes col- cette nouvelle gnration de cap-
lecter des donnes mesurables teurs est leur implantation dans une
: vitesse, acclration, compo- lentille oculaire souple afin de corri-
sition chimique, temprature ; ger la vue. Un vritable exploit, fruit
de quinze annes de recherche.
- les modalits de transmission des
in- formations collectes : RFID, Blue- Les mthodes de captation des
Too- th, WiFi, 4G, satellite data ; donnes changes se diversi-
fient galement et se miniatu-
- les mthodes de captation, risent (bornes relais de capta-
de stockage et danalyse des tion), ou sappuient, lorsquelles le
donnes, cette dernire tant peuvent, sur des appareils existants,
particulirement importante ; comme les tlphones mobiles.

- les fonctionnalits support Un grand nombre dacteurs agissent


aux services rendus lutili- pour transformer les objets privs et
sateur, qui peuvent tre par publics en vritable bornes de col-
exemple un retour dinformation. lecte. Dans le domaine du mobi-
lier urbain, Citelium transforme par
Chaque couche de cette pile consti- exemple ses rverbres en antenne
tutive des objets connects fait lob- 4G, en borne Wifi, en support de
jet dintenses efforts de recherche, de camra ou en borne de recharge.
dveloppement et damlioration.
Paralllement, les outils de traitement
Les capteurs notamment se mnia- du flux de donnes, de stockage et
turisent et se diversifient de faon danalyse dveloppent chaque jour
ingnieuse dans leur aptitude leur puissance (Cloud, Big Data).
collecter des donnes. Aussi, les Les fonctionnalits ouvertes aux uti-
convertisseurs des variations de va- lisateurs se dveloppent sans limite,
leurs physiques des capteurs en et dpassent le plus souvent lima-
data se perfectionnent et sont de ginaire dles utilisateurs potentiels.
plus en plus conomes en nergie.
quoi peut servir une brosse dents
Une illustration impressionnante de connecte ? La rponse donne par

92 Copyright Date de parution: dcembre 2014


certains concepteurs : crer une
animation familiale parents-enfants dopen innovation, ni de cration
par un concours de celui qui se lave collaborative dans laquelle cra-
le mieux les dents avec des points teurs et consommateurs exercent
gagner, des goodies, des paris, et la une coresponsabilit de cration. Il
possibilit de partager les rsultats sagit dune mcanique commu-
avec le dentiste. Nous laissons le lec- nautaire dans laquelle des initia-
teur apprcier la puissance de lima- teurs sinvestissent dans la cration
ginaire des crateurs de ces objets. tous azimuts dobjets connects
aux fonctions les plus rares, les plus
Le nombre dentrepreneurs, din- innovantes, en apparence futiles
venteurs, de dcouvreurs, de d- pour certaines dentre elles, dans
veloppeurs et de chercheurs mobi- lesquelles linitiateur recherche un
liss crot de faon exponentielle. vote, un assentiment des utilisateurs
Loffre prend certes beaucoup venir par tout type de mcanisme
davance par rapport aux usages, social, comme par exemple la pos-
mais cet usage elle le cre ! sibilit de prcommander des pro-
duits en cours de dveloppement.
Doit-on sattendre un effet souf-
fl, une bulle qui va se dgonfler Le ressort de la cration de la de-
et dcevoir les prvisions optimistes mande repose sur lappel aux be-
de dveloppement du Big Data ? soins, aux dsirs et aux fantasmes
des premiers utilisateurs vouloir
Comme lexprimait Jacques Attali non seulement un objet, mais un
le 25 novembre 2014 lors de la conf- objet et une communaut dappar-
rence du G9+ sur le thme In- tenance, Dans un premier temps,
ternet va-t-il tuer le capitalisme la communaut des utilisateurs de
? , les rvolutions venir seraient ces nouveaux objets compltement
plu- tt du ct des biotechnologies hybrides relient nolens volens les uti-
et des nanotechnologies que de lin- lisateurs entre eux, avec les orga-
ternet des objets et du Big Data. nisations qui les mettent en place.

Une rponse est chercher dans la Pour maximiser leur chance de suc-
dynamique de cration de ce mar- cs, les initiateurs sont prts faire
ch, qui en est dailleurs dj un. pivoter leur modle et prendre en
Aujourdhui se met en place un m- compte les remarques des utilisateurs
canisme de cration dusage fon- et le rsultat des observations, dans
d sur un web 4.0, web symbiotique une approche web 4.0 entirement
pour reprendre lexpression de Jol en ligne avec laspect social des
de Rosnay dans lequel le rel et le objets et la numrisation des activits
virtuel se rejoignent dans un conti- en mode ralit augmente. Si lon
nuum de perception et daction. rsume, lalchimie qui se met en
place est fonde sur une hypersti-
Il ne sagit pas dune mcanique mulation des initiateurs, lenvie,

Copyright Date de parution: dcembre 2014


93
ou la ncessit, de servir une com- responsable du site et le publicitaire
munaut aux quatre tages de la avec lequel il a pass un accord.
pile constitutive des objets connec- En temps rel, la navigation est d-
ts. Cette alchimie repose gale- cortique et les cookies de tous les
ment sur un gisement de latences et sites consults sont pris en compte,
dattentes de consommateurs, les- dgageant ainsi son historique duti-
quels souhaitent vivre une existence lisation. Les donnes clients des sites
augmente et une forte intgra- consults sont rapprochs des mo-
tion sociale dans leur communaut. dles dinfluence qui dterminent,
grce au traitement que permet
Ce modle est extrmement dy- le Big Data, des corrlations que
namique, gnrateur dinventions, lon nimaginait pas il y a quelques
dusages et de marchs. En se limi- annes et qui dterminent les mes-
tant ce niveau dobservation, nous sages et les publicits que vous al-
pourrions en conclure que le Big Data lez recevoir pendant et aprs votre
sera fortement propuls par tous les consultation, soit par email, soit
flux de donnes capter, stocker, lors dune navigation ultrieure.
analyser, rediriger et scuriser.
Toutefois, des freins puissants Les rsultats sont l, le modle
peuvent venir casser la croissance dinfluence est tabli, et cela
du march des objets connects. fonctionne : les internautes sont in-
Ces freins viennent du fait que les fluencs et oprent des transac-
objets connects touchent lintime tions en conformit avec les mo-
et au personnel. Les donnes col- dles dinfluences mis en uvre.
lectes peuvent tre utilises pour
enfermer lutilisateur dans une rela- Maintenant, projetons-nous dans
tion conditionne et oblige , au le domaine des objets connects.
sens ancien du terme qui voque
une nouvelle allgeance venir. Sans rgulation, ni autolimitation,
ni moyen de rsistance, des infor-
Il est probable que certains ac- mations bien plus personnelles et
teurs conomiques et institution- intimes quune navigation internet
nels collecteront des donnes seront collectes, dissques et mis
dans le but premier de dvelop- dans des modles dinfluence, voire
per des stratgies dinfluence et de de contrle. Pensons simplement
contrle, et ce en marge des at- la mesure du rythme cardiaque :
tentes des futurs consommateurs. que diriez-vous de recevoir une pu-
Pour le comprendre, prenons une blicit pour lachat dun dfibrilla-
analogie avec le reciblage publici- teur alors quun stress rcent vous
taire sur internet (le retargeting). Lors- aurait conduit avoir une mesure
quun internaute navigue sur un site, anormale ?... Ou encore plus prs de
nous, les failles de scurit actuelles
plusieurs acteurs suivent sa naviga- sur lespoir dun eldorado et sur
tion et ses cookies, principalement le des camras de surveillance rvles

94 Copyright Date de parution: dcembre 2014


par des sites comme insecam.com. conomiques et institutionnels, ou
de fonctionner dans un mode d-
Avec la forte probabilit que cer- grad pour certains objets connec-
tains acteurs conomiques et ins- ts que lutilisateur jugerait pertinent.
titutionnels soient malveillants et
cherchent considrer les consom- Une conclusion provisoire est que le
mateurs comme une ressource Big Data est promis un bel avenir
exploiter et contrler leur profit, pour les dix prochaines annes, et ce
et non pas au profit de leurs clients travers lexplosion des usages des
et usagers, un cart grandissant objets connects qui seraient conus
risque de se former entre les at- et exploits dans une logique de res-
tentes des consommateurs et les pect et de bienveillance envers leurs
fournisseurs dobjets connects. utilisateurs, ce qui il faut le dire est
encore loin dtre une vidence.
De fortes tensions sont attendre
dans ce scnario, et il est tout Avec les objets connects, les four-
fait imaginable que se produisent nisseurs de solution touchent lin-
quelques scandales mdiatique- time, et donc une matire sensible,
ment mis en scne dans les pays d- voire potentiellement explosive.
mocratiques dnonant des acteurs Les acteurs conomiques, institu-
exploitant sans scrupule des donnes tionnels et tatiques, devront re-
intimes et crant un rapport din- connatre que les donnes person-
fluence ressemblant de labus de nelles ne leur appartiennent pas, et
faiblesse. Il est alors aussi imaginable que des mcanismes de contrle
que le march des objets connects par des autorits techniques, par
passe de lenthousiasme le plus d- des lois et des juges, sont indis-
brid une plus grande mfiance. pensables leur propre russite.

Lavenir du march des objets Nous recommandons au lecteur in-


connects reposera donc sur le d- tress par le futur du Big Data et
veloppement de mcanismes des objets connects de se faire
de confiance, titre dexemples : son avis tout simplement en ache-
tant des objets connects, en les
- la proprit des donnes accorde utilisant, en les observant et en
lutilisateur et linterdiction faite aux sintressant au dbat sur la vie
acteurs dexploiter ces donnes sans prive en lien avec le Big Data.
un consentement explicite, dont la Pour ceux qui souhaiteraient pro-
forme reste dailleurs imaginer ; longer le dbat, vous pouvez
joindre les auteurs dans la rubrique
- la possibilit de se mettre en mode contact de beconect.com. Ils se-
maison , par analogie au mode ront ravis dchanger sur les thmes
avion des tlphones mobiles, abords, dont les enjeux soci-
afin de se dconnecter tout mo- taux sont extrmement puissants.
ment des remontes vers les acteurs

Copyright Date de parution: dcembre 2014


95
D$ QUELS SONT LES ENJEUX JURIDIQUES
DE CETTE RVOLUTION ?

Un tat transparent sur son fonctionnement et protecteur des liberts


personnelles : voil les deux conditions dune dmocratie lre du Big Data

Romain Lacombe,
Charg de linnovation et du dveloppement de la mission Etalab

Dune part, la prsentation des diffrentes applications du Big Data pr-


sentent un potentiel conomique, social et politique norme. Ces pro-
grs technologiques viennent questionner de nouveaux enjeux thiques.
Ils concernent la vie prive des individus, la rationalisation des choix et la
place de lhumain dans les processus de dcisions, la confiance accorde
la technologie, la capacit de rguler des formules mathmatiques, etc.

La demande pour plus de transparence est une modification structurelle


face laquelle les instances de rgulations et les entreprises nont dautres
choix que de sadapter

Yves-Alexandre de Montjoye, chercheur associ au MIT

96 Copyright Date de parution: dcembre 2014


Pour la puissance publique, la rvo- Big Data : lenjeu de la rgulation est
lution des donnes provoque par lutilisation de la donne, non sa col-
le Big Data bouleverse le cadre l- lecte
gislatif et rglementaire en place,
structur en France autour la loi
Informatique et Liberts de 1978. La rgulation actuelle des donnes,
Le lgislateur est confront une centre sur la modalit de sa col-
double problmatique : comment lecte et non sur sa finalit, interdit
continuer assurer la protection les croisements de jeux de donnes
des donnes prives lre du Big de diffrentes natures et leurs utili-
Data sans bloquer limmense po- sations par les entreprises. Pourtant,
tentiel dinnovation quil propose ? la donne est ladjuvant essentiel
de la rvolution industrielle en cours
En phase de concertation, le r- et les conditions de son utilisation
gulateur rflchit de nouveaux font maintenant partie des condi-
modles de rgulation, constatant tions de croissance des entreprises.
un certain essoufflement de la loi
actuelle base sur le principe de la Le discours alarmiste sur les donnes
notification et du consentement. Le personnelles nourrit une dfiance qui
rgulateur est en attente du Gene- est un frein pour le dveloppement de
ral Data Regulation Plan europen lconomie numrique de la France
lordre du jour de lactuelle man-
dature europenne qui a jusquen Thibaut Munier, Fondateur de
2015 pour achever ce texte82. Cette 1000mercis-numberly, Administra-
rflexion est partage par ladmi- teur de Renaissance Numrique.
nistration amricaine qui jusquici
a adopt, comme de coutume, crite en 1978 en raction au pro-
une approche de self-regulation. jet SAFARI qui visait croiser les fi-
chiers nominatifs de ladministration,
Le problme majeur est que la loi de la Loi Informatique et Liberts doit
1978 est structure autour de la col- oprer un changement de fond si
lecte des donnes et de la finalit de lon veut permettre aux entreprises
cette collecte : si vous ne collectez dexploiter le potentiel conomique
des donnes que pour X motif, vous de leur base de donnes. lheure
ne pourrez pas les utiliser pour un mo- actuelle, les autorisations de croi-
tif Y, Y tant juge incompatible avec sement des donnes sont dlivres
X. Franois Bourdoncle, Prsident par la CNIL au cas par cas, en fonc-
de FB&Cie, co-fondateur dExalead, tion de chaque entreprise. Ce pro-
et co-rapporteur du plan Big Data cessus ralentit la pntration du Big
pour le Ministre de lEconomie Data dans les entreprises franaises.

(82) http://www.euractiv.fr/sections/innovation-entreprises/la-commission-europeenne-met-la-protection-des-
donnees-en-haut-de

Copyright Date de parution: dcembre 2014


97
La fin de l'anonymisation des
donnes = la fin de la vie prive ?

Avec la multitude de donnes collectes sur une


personne et ses diffrentes activits, il sera toujours
possible aujourd'hui de retrouver lorigine et donc
l'identit d'une donne, en la croisant avec les
autres informations contenues dans d'autres jeux
de donnes. Des tudes rcentes montrent les li-
mites techniques de l'anonymisation comme pro-
tection efficace de la vie prive.

- En 2006, AOL avait ouvert les donnes de re-


cherche de ses utilisateurs pour quelles puissent
faire lobjet de recherches : les historiques de re-
cherche sur trois mois de 658 000 utilisateurs ont
t publiques. En thorie, les donnes avaient t
anonymises et les utilisateurs ntaient identifis
que par un numro. Pourtant, lensemble des re-
qutes dun internaute peut savrer suffisant pour
identifier un individu. Ainsi, le New York Times est
parvenu identifier une utilisatrice du New Jersey
sur la base des ses recherches pour acqurir une
nouvelle maison.

- Dans son tude Unique dans la foule , lquipe


du MIT du professeur Sandy Pentland83 a dmon-
tr que dans la base de donnes anonymises
dun oprateur de tlphone dun million et demi
de personnes, il suffisait de quatre lments spa-
tio-temporels pour identifier 95 % des participants
de lexprience. Ces lments peuvent tre par
exemple un statut sur Facebook avec la men-
tion dun lieu, mais aussi lusage dune borne libre
daccs Wifi. En dautres termes, la prvisibilit de
nos dplacements quotidiens nous rend identi-
fiables malgr lanonymisation des mtadonnes
(date et heure de lappel, rcepteur et metteur
de lappel).

Bien que la puissance de calcul djoue les mca-


nismes danonymisation, cela ne veut pas dire que
toute vie prive est impossible l're de la collecte
des donnes et que l'on peut lire dans un jeu de
donnes comme dans un livre. C'est donc sur cet
aspect, lindividu derrire une donne que sest
concentr le rgulateur jusquici.

98 Copyright Date de parution: dcembre 2014


La CNIL donne accs aux donnes
de soins des assurs Axa dans un
cadre exprimental

Remis en 2003, le rapport Barbusiaux prconisait


dautoriser, sous conditions, les complmentaires
sant davoir accs aux donnes de sant de leurs
assurs. Ainsi, la CNIL a permis Axa, en 2010, dans
un cadre exprimental, dobtenir les donnes de
soins en pharmacie de ses assurs sant en pr-
servant le secret mdical. Lexprimentation a t
mene auprs dun panel de 41 000 assurs dans
dix dpartements de France.

Le but final est de proposer aux assurs des ga-


ranties pouvant mieux correspondre leurs be-
soins (remboursement optique en fonction du d-
faut visuel, remboursement des mdicaments non
pris en charge par la Scurit sociale, etc) ,

explique Axa dans un communiqu.

Ici, par la multiplication, le croisement et lanalyse


de donnes, la voie vers une mdecine plus per-
sonnalise, plus performante et moins coteuse a
t ouverte.

(83) Yves-Alexandre de Montjoye, Csar A. Hidalgo, Michel Verleysen &


Vincent D. Blondel, Unique in the Crowd: The privacy bounds of human
mobility, Scientific Reports 3, Article number: 1376, Mars 2013 - http://
www.nature.com/srep/2013/130325/srep01376/full/srep01376.html

Copyright Date de parution: dcembre 2014


99
QUELQUES PISTES ACTUELLEMENT le paramtrage mme des plate-
EN COURS DEXAMEN EN EUROPE formes en ligne. Lavantage de la
ET DANS LE MONDE POUR FAIRE Privacy by Default rside dans le fait
que ce modle de rgulation syst-
VOLUER LE CADRE JURIDIQUE
mique ne souffre pas du volume ou
QUI ENCADRE LES DONNES PER- de la varit des donnes collectes
SONNELLES
La Privacy by Default est au coeur de
la politique europenne de rgula-
tion des donnes personnelles. Lan-
Privacy by Default cienne vice-prsidente de la Com-
mission Europenne, Viviane Reding,
en a fait le 3me pilier du General
We live in a Track-Me world, one Data Regulation Plan, aux cts de
from which opting out is, as a prac- la transparence et du droit loubli.
tical matter, often not possible.

Lauren E.Willis, Universit de Berkeley Privacy by Design

La Privacy by Default consiste para- N durant les annes 90 aux tats-


mtrer par dfaut les plus hautes op- Unis, le concept de Privacy by De-
tions de protection des donnes per- sign consiste mettre la protection
sonnelles dans les produits et services des donnes prives au coeur de
numriques. Elle est fonde sur trois la conception mme du produit :
constats : (1) le paramtrage initial celles-ci sont protges a priori par
propos nest pas modifi par luti- le design du produit ou service et
lisateur, (2) lutilisateur est favorable non plus par un contrle a posterio-
une meilleure protection de ses ri. Son implantation dans larchitec-
donnes personnelles, (3) les entre- ture mme du produit ou service
prises devront tre plus transparentes permet dapporter une rponse
pour convaincre lutilisateur dou- globale la protection des don-
vrir ses options de confidentialit. nes personnelles, adapte au Big
Data. Cest le modle en place,
En somme, le concept de Privacy par exemple, dans la gestion des
by Default considre que lutilisa- donnes traites par les cam-
teur nest pas suffisamment inform ras de surveillance aux tats-Unis.
et comptent pour tre le seul res-
ponsable de la protection de sa vie Prsente dans les textes euro-
prive. En effet, en 2013, 63 % des pens, au coeur des rflexions
utilisateurs Facebook aux tats-Unis de la CNIL, la Privacy by Design
nont jamais essay de rgler leurs implique de lourds investisse-
options de confidentialit. Celles-ci ments et manque dapplications
doivent donc tre garanties dans concrtes de la part des entreprises.

100 Copyright Date de parution: dcembre 2014


Le modle mergent de protection La restitution de leurs donnes aux
par certifications individus : les projets VRM dans le
monde

Cest le processus qui dtermine


la finalit des donnes qui importe: Le principe dun projet VRM, pour
pourquoi les croise-t-on ? Comment Vendor Relationship Management,
? Aussi, ce que lon doit rguler et est de restituer aux individus toutes les
juger cest la lgitimit des traite- informations quils dlivrent par leur
ments qui sont faits par le croise- comportement. Le VRM ne suffit pas
ment des donnes en fonction de constituer un cadre juridique struc-
la finalit du processus lui-mme turant pour le Big Data mais cela peut
et non la finalit de la collecte tre un levier vers plus dautonomie
et de libert pour les citoyens. Les
Franois Bourdoncle, Prsident de initiatives de Self Data tentent de
FB&Cie, co-fondateur dExalead, mettre mal lambigut autour de
et co-rapporteur du plan Big Data la notion de donnes personnelles,
pour le Ministre de lEconomie. la fois perues comme une manne
par les entreprises et comme un
La rflexion autour de ce nouveau danger pour les opinions publiques.
modle de rgulation est encore
jeune. Il t mis en avant par John Renaud Francou, porteur du projet
Podesta dans son rapport pour la MesInfos pour La FING, indique ain-
Maison Blanche et par le rapport Big si que 78 % des consommateurs ne
Data remis par Franois Bourdoncle font pas confiance aux entreprises
et Paul Hermelin, PDG de Cap Ge- pour lexploitation de leurs donnes
mini France, au Ministre du Redres- personnelles : lasymtrie entre entre-
sement productif en 2014. Il fait cho prises et consommateurs dans le do-
linadquation entre le cadre maine de la rcolte et de la gestion
Notice & Consent et le contexte Big des donnes personnelles engendre
Data o la collection apparat in- un dlitement de la confiance de
contrlable. ces derniers et la monte dun d-
sir de plus en plus fort de contrle
Lide sous-jacente est de ne pas et de matrise de ses donnes.
couper le robinet des donnes
la base mais bien de contrler leur En France, cest La FING qui, de-
usage responsable a posteriori. Cette puis novembre 2013, mne ce type
rgulation sectorielle soppose une dexprience avec le projet Mes
tradition europenne de lgislation Infos. Lexprimentation a ainsi r-
avanant par grands textes fon- uni pendant six mois 300 individus
dateurs, comme cest le cas en ce volontaires clients dau moins deux
moment avec le General Data Pro- des huit entreprises partenaires qui
tection Regulation actuellement en ont accept de participer ce re-
cours de rdaction par la Commission. tour de data, parmi lesquelles Axa,

Copyright Date de parution: dcembre 2014


101
le Crdit coopratif, la Banque pos- tion de la vie prive dans le panel
tale, les Mousquetaires, Orange, des exprimentateurs mais qui ne
la Socit gnrale, Google et So- se concrtise pas directement par
local. Une plateforme scurise une utilisation plus prcautionneuse
de cloud personnel a t mise en des services en ligne proposs.
ligne sur laquelle les quelques 300
testeurs pouvaient avoir accs Linitiative de la FING et la mou-
lensemble de leurs donnes telles vance de Self Data repose
que leurs relevs de comptes ban- sur des projets similaires mens :
caires, leurs historiques dachats,
leurs donnes de golocalisation aux Etats-Unis, avec le pro-
ou encore de communications. jet Blue Button qui permet, en un
clic, de tlcharger ses donnes
Dans le mme temps la FING a lan- dans les secteurs de lnergie,
c en partenariat avec des dve- de la sant ou de la formation ;
loppeurs et des coles un concours
de cration dapplications et de ser- au Royaume-Uni qui a mis en
vices capables de rutiliser de faon place avec le soutien des pouvoirs
innovante les donnes mises en jeu. publics le projet MiData : les entre-
prises participantes sengagent
Facilitation du quotidien, classe- rendre aux individus les donnes
ments, alertes, self-coaching, mise personnelles et transactionnelles les
en relation, bons de rduction, la concernant, dans un format lisible.
crmonie a ainsi t loccasion
de prsenter les quelques trente
concepts et la dizaine de prototypes
labors pour loccasion, limage
de lapplication Moi qui propose
de fournir chaque mois dans une
dmarche de quantitative self un
relev de lensemble des activits
de lutilisateur, comme le nombre
de kilomtres parcourus ou lvo-
lution des achats au supermarch.

Une quipe de sociologues a ac-


compagn lexprience et men
une srie denqutes quantitatives
et qualitatives pour rendre compte
du ressenti des 300 testeurs. Les r-
sultats ont montr la confirmation
du phnomne du privacy para-
dox : un niveau de proccupation
lev pour les questions de protec-

102 Copyright Date de parution: dcembre 2014


103
PARTIE IV

LA FRANCE
LHEURE DU BIG DATA
Les enjeux et dynamiques qui traversent la
rvolution du Big Data exigent des dcideurs
politiques et conomiques quils saisissent le
phnomne et sattlent favoriser son av-
nement en France.

Depuis plusieurs annes, les gouvernements


successifs montrent leur intrt pour le Big Data
et le levier conomique quil reprsente. Les
politiques publiques concernant le Big Data se
trouvent la confluence de deux problma-
tiques :

- Lquation entre vie prive et comptitivit.


La France ne doit pas laisser chapper de po-
tentiels leviers de croissance, tout en agissant
dans un cadre lgal protecteur des liberts in-
dividuelles.

- Adapter lconomie traditionnelle aux mo-


dles conomiques bass sur lanalyse de
la donne. De nombreux pans de lcono-
mie franaise peuvent tre bouleverss par
les acteurs qui matrisent la donne et qui ne
craignent pas de remettre en cause les qui-
libres conomiques traditionnels. Les grandes
entreprises nationales voient dj natre un
nouveau type de concurrence face auquel
elles peinent innover.

Copyright Date de parution: dcembre 2014


105
A LTAT, UTILISATEUR EXEMPLAIRE
DES TECHNOLOGIES BIG DATA

titre dexemple, pour faire tomber les peurs et parce que ces outils sont
redoutablement efficaces, la puissance publique pourrait tre le premier
acteur adopter en masse les technologies Big Data pour llaboration et
lvaluation de ses politiques publiques.

La rvolution de la donne constitue pour ltat une opportunit de dynamiser


les services publics, la lutte contre le chmage ou la gestion des hpitaux. Une
bonne matrise du Big Data permet une meilleure connaissance et un meilleur
suivi des citoyens et offre galement, dans un contexte de rduction budg-
taire, la possibilit doptimiser lallocation des ressources.

Diffrents exemples illustrent la puissance du Big Data au service de lintrt


gnral :

La prdiction dans le domaine de la sant.

En 2009, une universit canadienne a dvelopp une plateforme danalyse


en temps rel des flux de lHpital des Enfants Malades de Toronto. Ltablis-
sement est parvenu prvoir ainsi lapparition dinfections nosocomiales 24h
avant les premiers symptmes84.

(84) IHTT, Transforming Health Care Through Big Data, 2013, p.8

106 Copyright Date de parution: dcembre 2014


Le ciblage dans la lutte contre la des eaux uses grce des sys-
fraude. tmes danalyse de consommation,
rduisant de 10 20 % la consom-
Avec cent millions deuros de mation et la facture nergtique.
fraudes dtectes en 2009, Ple Em-
ploi compte sur un meilleur traage
des utilisateurs pour limiter la fraude. La prdiction en matire de crimes
La Cour des Comptes85 prconise le et dlits.
croisement des donnes avec la S-
curit Sociale mais galement des Dans sa nouvelle Minority Report,
acteurs privs comme les banques Philip K.Dick dpeint un monde o
et les oprateurs tlphoniques. Il les crimes sont devenus impossibles
serait par exemple possible de d- grce trois mutants qui ont le pou-
tecter si un bnficiaire rside voir de prdire lavenir. La ralit
ltranger alors que cela est interdit. dpasse la fiction. Le logiciel Pre-
Des systmes similaires ont t mis dPol predictive policing fonc-
en place pour lutter contre la fraude tionne sur un algorithme dessin par
et lvasion fiscale dans plusieurs un mathmaticien, un anthropo-
pays. (cf encadr page suivante) logue et un criminologue. En agr-
geant des donnes aussi diverses
que la composition dmographique
Une meilleure gestion des villes. dun quartier ou lhistorique des in-
fractions passes par exemple, les
La population mondiale rside main- autorits policires peuvent distin-
tenant en majorit dans des zones guer les zones o les prochaines in-
urbaines. La part des urbains au fractions sont les plus probables.
sein de la population mondiale at-
teindra 70 % en 2050, soit 6 milliards De cette manire, les forces de
dindividus. Le Big Data apporte de lordre peuvent dpcher des
nombreuses rponses aux dfis en- hommes sur des zones risques et
gendrs par cette urbanisation en empcher une infraction de se pro-
pleine explosion. Les agents munici- duire. Les premiers tests du logiciel
paux doivent en effet assurer la qua- PredPol ont t raliss ds 2011 par
lit des services publics tout en veil- la police de Santa Cruz, en Califor-
lant une bonne gestion financire nie. Diffrentes villes ont rpt lex-
: le contexte actuel valorisant le pr- prience : New York, Los Angeles
cepte du faire plus avec moins. Dans la mgalopole californienne,
A Issy-les-Moulineaux, la municipalit PredPol a t utilis entre novembre
a dcid de travailler avec dix en- 2011 et mai 2012. Les crimes et in-
treprises pour dvelopper IssyGrid, le fractions ont diminu de 13 % alors
premier rseau de quartier intelligent que dans le reste de lEtat qui na
en France. Parmi diffrentes innova- pas dploy cette technologie
tions, ce rseau a permis doptimiser ce chiffre a augment de 0,4 %.
la gestion de leau et le traitement

(85) www.ccomptes.fr/content/download/.../2_6_Pole_emploi_tome_II.pdf

Copyright Date de parution: dcembre 2014


107
Le Big Data : nouvel arme contre
la fraude lassurance maladie.

Lexemple amricain du Fraud


Prevention System

En moyenne le montant de la fraude lassu-


rance sant quivaut presque 7 % de la tota-
lit des dpenses de sant dun pays soit pour
2014 un cot mondial quivalant 376 milliard
deuros.

La situation est particulirement inquitante


aux Etats-Unis. La fraude lassurance sant re-
prsente entre 3 et 10 % du total des dpenses
de sant soit entre 75 et 250 milliards de dollars
par an. Alors que le vieillissement de la popula-
tion sacclre et que le nombre de maladies
chroniques augmente, les autorits ont dcid
dagir en consquence.

En juin 2011, le Ministre de la sant amricain


a dploy le Fraud Prevention System (FPS).
Cette technologie fonctionne selon des tech-
nologies du Big Data. Il collecte et agrge des
donnes. Puis un protocole danalyse fond sur
des algorithmes examine au fur et mesure les
demandes de remboursement prsentes. Ces
demandes sont notes en fonction du risque
de fraude. Si une demande semble prsen-
ter de forts risques de fraude, les autorits sont
alertes avant de procder au remboursement
afin de vrifier lauthenticit du document.

Le contrle de donnes fonctionne sur quatre


types dalgorithmes :

- Rules-based models : filtrent les demandes de


remboursement. Ils identifient par exemple les
factures qui portent un numro didentification
Medicare vol ou utilis de manire anormale.

108 Copyright Date de parution: dcembre 2014


- Anomaly models : dtectent les comporte-
ments anormaux en les comparant des com-
portements de rfrence. Par exemple, un
fournisseur de soins de sant facturant bien plus
de services de soins que 99 % des fournisseurs
analogues en une seule journe sera identifi.

- Predictive models : valuent des comporte-


ments laune de cas prcdemment identi-
fis comme frauduleux.

- Network models : analysent des liens asso-


cis entre diffrents acteurs. Par exemple, les
services dun fournisseur li ayant un comporte-
ment frauduleux seront identifis comme frau-
duleux grce lanalyse de localisation.

Un retour sur investissement avantageux

Linvestissement pour construire et mettre en


place le FPS ft relativement lourd : environ 41
millions de dollars. Mais le retour sur investisse-
ment est trs intressant. En effet, le systme
prventif a permis Medicare dconomiser
210 millions de dollars. Ainsi pour un dollar d-
pens, cinq dollars ont t conomiss.

Informations et chiffres issus du livre blanc Dun


systme de sant curatif un modle prventif
grce aux outils numriques , Renaissance Nu-
mrique, Septembre 2014

Ltat pourrait ainsi, en utilisant les technologies


Big Data, tre valeur dexemple pour encoura-
ger dune part le march franais du Big Data
se dvelopper, et dautre part encourager
les grandes entreprises traditionnelles senga-
ger dans le secteur du Big Data.

Copyright Date de parution: dcembre 2014


109
B LCOSYSTME FRANAIS :
DE VRAIS ATOUTS POUR DEVENIR
LEADER EUROPEN DU BIG DATA

De nombreuses startups et agences spcialises sont nes de cette


ncessit de matriser la donne pour les entreprises et organisations.

Un cosystme en trois strates

De nombreuses startups et agences spcialises sont nes de cette ncessit


de matriser la donne pour les entreprises et organisations. Cet cosystme
florissant se compose de trois couches distinctes :

La production de la donne.

Il sagit des startups qui participent la production et collecte des donnes


en fabriquant des capteurs, linstar du tee-shirt connect produit par City-
zenSciences, ou en rendant accessibles des donnes publiques, comme, par
exemple, Kel Quartier qui dessine le portrait-robot dune zone urbaine : re-
venu moyen des habitants, taux dinscurit ou densit du tissu commercial.

110 Copyright Date de parution: dcembre 2014


Les outils de traitement et danalyse dial en 2015, en France, il est estim
de la donne. seulement 387 millions deuros en
2013. Notons toutefois, que la hausse
Ce sont les entreprises qui proposent du secteur est estime 40 %. Si la
aux grands groupes des solutions hausse prvue est donc dtermi-
technologiques et des conseils pour nante, reste que le march franais,
mieux matriser la donne. cheval qui dispose pourtant de tout un co-
entre lorganisation dune agence systme franais prt dvelopper
et dune startup, elles dveloppent des projets Big Data, reste frileux.
des outils en interne quelles asso-
cient ceux existants comme Ha-
doop. En France, 1000mercis-nu-
mberly et Fifty-Five font figure de
leader du march qui connat un
taux de croissance formidable.
Fondes plus rcemment, des en-
treprises comme Dataiku, Captain
Dash et Squids Solution font ga-
lement parties dj des acteurs
de ce march dit de lanalytics .

Les applications qui exploitent la


donne pour proposer de nouveaux
services.

Cette dernire strate dentreprises


met en action les donnes disponibles
pour concevoir des applications in-
novantes. Ces donnes peuvent
tre publiques, comme lapplication
Transilien dvelopp par lentreprise
Snips et qui exploitent les donnes
fournies par le STIF, ou bien prives.

Cest par exemple le cas de Cri-


to qui utilise les donnes fournies
par ses clients pour fournir une so-
lution de re-ciblage publicitaire
travers un puissant algorithme.
Si IDC estime que le poids des tech-
nologies et services lis lanalyse
et lexploitation des donnes en
grande quantit en temps rel at-
teindra 16,9 milliards au niveau mon-

Copyright Date de parution: dcembre 2014


111
Les Etats-Unis :
Passage obligatoire pour les
entreprises franaises de Big
Data ?

Le savoir-faire technique, la taille et la ma-


turit du march amricain restent suprieurs
au march franais Thibaut Munier, Fondateur
de 1000mercis-numberly, Administrateur de
Renaissance Numrique.

Selon Transparency Market Research86 qui va-


lue les chiffres du march du Big Data dans le
monde, lAmrique du Nord capte aujourdhui,
elle seule, prs de 55 % du march mondial.
Sur ce march, les entreprises amricaines que
sont HP, Teradata, Opera Solution, Mu Sigma
and Splunk Inc dtenaient, en 2012, 60 % du
march.

Ainsi, pour les startups spcialises dans la mise


en place de projets Big Data, dmarcher en
France nest pas ais.
Nous avons de belles russites ici, mais en rgle
gnrale les grands groupes franais restent
trop frileux pour confier leurs jeux de donnes
une startup. Au-del du risque, ils nidenti-
fient pas encore clairement le retour sur inves-
tissement direct du passage une approche
data-driven. Aux Etats-Unis, le march est plus
mature et nous ne rencontrons pas ce type de
barrire explique Marine Romezin, Communi-
cations Manager chez Squid Solutions, qui vient
douvrir un bureau San Francisco.

(86) Transparency Market Research, Big Data Market - Global Scenario,


Trends, Industry Analysis, Size, Share and Forecast, 2012 - 2018,
http://www.transparencymarketresearch.com/big-data-market.html
(87) On peut noter les rapprochements autour de cursus spcialiss
Big Data entre Grenoble Ecole de Management et lEMSI, entre lEPSI et
lIDRAC, HEC et Tlecom Paris Tech.

112 Copyright Date de parution: dcembre 2014


VALORISER LE SAVOIR-FAIRE une comprhension des enjeux
FRANAIS POUR MATRISER LE commerciaux, financiers et mana-
BIG DATA griaux ;

Lducation suprieure franaise la gestion de projets Big Data qui


et la recherche sont les deux le- va de la phase de collecte auprs
viers pour la matrise technique des des diffrents acteurs pertinents,
flots de donnes ; condition sine la visualisation et la comprhension
qua non lactivation du Big Data. des analyses fournies par les techno-
Elles sont traverses par une probl- logies Big Data.
matique commune : approfondir
linterdisciplinarit pour rpondre
aux dfis techniques du Big Data Cette hybridation des profils de-
mande aux instituts dducation su-
Le nouveau besoin en experts op- prieure de se recomposer, limage
rationnels saccrot fortement et les de linflation des doubles formations
formations proposes par les universi- coles dingnieurs coles de com-
ts scientifiques et les coles ding- merces 87. tant donne la diversit
nieurs sont fortement valorises. Sans des mtiers du Big Data et des com-
quaucun chiffre ne fasse autorit ptences requises, tous les degrs
sur le sujet, on peut raisonnablement de luniversit sont concerns, des
estimer que vingt-mille trente-mille formations technologiques et sp-
nouveaux professionnels seront n- cialises aux masters et doctorats.
cessaires chaque anne pour r-
pondre aux besoins des entreprises
et des organisations franaises, Le leader de demain ne sera ni
structurer et valoriser leurs don- ingnieur, ni manager : ce dont
nes et automatiser leurs services. nous avons besoin aujourdhui,
cest de caractres hybrides, ca-
La conduite de projets Big Data de- pables de manier les donnes
mande plusieurs comptences r- mais galement daller chercher,
pondant des formations distinctes : de trouver les bases de donnes
intressantes compiler, etc.
bagage technique, fourni en Nicolas Glady, Professeur Associ,
France par les coles dingnieurs ou Titulaire de la Chaire Accenture
les facults de mathmatiques et de Strategic Business Analytics, ESSEC
statistiques ;

On peut noter les rapprochements autour de cursus spcialiss Big Data entre Grenoble Ecole de Management et
lEMSI, entre lEPSI et lIDRAC, HEC et Tlecom Paris Tech.

Copyright Date de parution: dcembre 2014


113
Quest ce quun Data Scientist ?
Un Data Scientist cest plus quun statisticien avec un Mac !
Ce trait dhumour de Florian Douetteau fondateur de Dataiku
rvle toute lambigut du mtier de Data Scientist, la fois sta-
tisticien, ingnieur et chef de projet.

Une solide formation en statistiques et en mathmatiques est n-


cessaire pour pouvoir dcrypter les donnes, formuler des intuitions et
in fine transformer la masse dinformations en intelligence au service
dune organisation.

Lefficacit dun Data Scientist provient galement de sa capa-


cit se plonger dans des bases de donnes pour les nettoyer, les
rendre oprationnelles et construire des modles prdictifs. Rand
Hindi, fondateur de Snips, dplore le manque dexprience pratique
des tudiants franais dans llaboration de ce genre de modle :
la majorit des tudiants en mathmatiques anglais ont t ame-
n construire des modles durant leurs tudes, notamment dans le
cadre de cours de finance quantitative : cest un vrai manque des
tudiants franais .

Transformer les mthodes de travail et de prise de dcisions laune


des connaissances obtenues grce au Big Data est la dernire fa-
cette du mtier de Data-Scientist. Elle requiert des comptences en
management et en business pour parvenir mettre le Big Data aux
services des quipes de lentreprise.

En octobre 2012, la Harvard Bu- croise des mathmatiques, de la


siness Review affirmait que Data statistique, de linformatique et du
Scientist tait le mtier le plus sexy management. Face cette hybri-
du XXIme sicle et, face la p- dation des comptences, les coles
nurie dindividus qualifis, prvoyait dingnieurs et les universits88 ont
une future guerre des talents. Le adapt leurs cursus pour proposer
cabinet Gartner prvoit la cration des formations spcialement d-
de quatre millions et demi demploi dies au Big Data. Les entreprises
pour rpondre aux besoins du Big sarrachent ces tudiants extrme-
Data dans le monde dici 2015. ment qualifis et les salaires la sor-
tie dcoles grimpent rapidement89.
Les mtiers de la donne requirent
des comptences spcifiques, la Paralllement, on assiste une mi-

(88) Lcole Polytechnique, ENSAE, les coles Centrales, ParisTech et les facults dOrsay et de Jussieu on rgulire-
ment t cit par notre panel
(89) tude de lentreprise amricainde Kforce et accessible sur http://www.lemondeinformatique.fr/actualites/lire-
les-salaires-des-8-competences-les-plus-recherchees-en-big-data-56610.html

114
(90) https://www.gov.uk/government/news/73-million-to-improve-access-to-data-and-drive-innovation

Copyright Date de parution: dcembre 2014


gration des employs de la finance quils jouent aussi bien un rle clef
quantitative, notamment des tu- dans linnovation technologique
diant issus du cursus X ENSAE, vers que dans les dbats sur la rgula-
les socits technologiques. Cela est tion. Ils forment et attirent les talents,
d dune part, la baisse dattrac- nouent des partenariats avec des
tivit de la finance et, dautre part, entreprises nationales et conseillent
limaginaire positif du monde de la ltat sur les politiques publiques.
startup qui, par ricochet, valorise les
mtiers de linformatique. De plus, les
salaires des socits technologiques Les exemples anglo-saxons montrent
tendent saligner avec ceux de la marche suivre :
lindustrie financire et constituent
une incitation supplmentaire. En fvrier 2014, lAngleterre a in-
vesti 98 millions deuros dans quatre
Lexcellence des coles ding- centres de recherche qui interrogent
nieurs franaises et des formations le rle de la donne dans les probl-
universitaires en mathmatiques et matiques sant, urbanisme, nergie
statistiques forment chaque anne et culture 90.
des milliers dtudiants trs comp- La Maison-Blanche a lanc, en
tents Florian Douetteau, fondateur Novembre 2013, un plan dinvestis-
de Dataku . sement de 200 millions deuros pour
la recherche en Big Data pour les
Cependant, le recrutement ltran- grandes entreprises et les universits,
ger, notamment dans les Ivy League notamment dans le domaine de la
amricaines et en Angleterre, reste sant 91.
une option pour beaucoup dem-
ployeurs franais. Pour Rand Hindi, Pour canaliser lexpertise franaise,
fondateur de Snips, un tudiant sor- la cration dun centre franais,
tant de Stanford sera bien plus com- voire europen, de recherche sur
ptent oprationnellement quun la donne permettrait dallier re-
tudiant de lENS ou de lX . cherche fondamentale en statis-
tiques et en mathmatiques et tra-
vaillerait des applications dans tous
Soutenir la cration dun centre de les domaines de laction publique.
recherche interdisciplinaire sur la Par exemple, linstar de lOpenPDS
donne dvelopp par une quipe du MIT,
des solutions techniques pour prot-
En parallle de la formation, la re- ger la vie prive de manire struc-
cherche acadmique autour du Big turelle (Privacy by Design) pour-
Data doit tre un levier dinnovation raient merger dun tel institut.
pour les organisations. Lexemple des
centres de recherche amricains,
comme le MIT cit de nombreuses
reprises dans ce livre blanc, souligne

(91) http://www.whitehouse.gov/sites/default/files/microsites/ostp/Data2Action%20Press%20Release.pdf

Copyright Date de parution: dcembre 2014


115
C TRE EN TTE DE LA RFLEXION
SUR LA NOUVELLE RGULATION
LRE DE LA DONNE

De nombreuses startups et agences spcialises sont nes de cette


ncessit de matriser la donne pour les entreprises et organisations.

Parce quil nappartient ni la technique, ni aux intrts conomiques des


entreprises de dcider de lavenir de la socit, le lgislateur franais et
europen doit permettre nos conomies de tirer pleinement profit des
promesses du numrique, sans avoir abandonner un haut niveau de pro-
tection de la vie prive.

Penser la rglementation des risques algorithmiques

Lappareil lgislatif peut savrer trop lourd compar une rgulation par cas
ou par secteurs, dans le souci toujours de prserver les opportunits cono-
miques du Big Data. Les algorithmes luvre dans le Big Data ont une in-
fluence politique, culturelle et scientifique de plus en plus importante. Ils sont
dcisifs pour la personnalisation des contenus et services proposs lutilisateur
mais peuvent recler des biais discriminants. Lopacit qui entoure leur com-
position interdit une prise en compte des risques inhrents leur massification.

116 Copyright Date de parution: dcembre 2014


117
conclu sion
SIX PROPOSITIONS DU G9+ POUR FAIRE DE LA FRANCE UN ACTEUR
MOTEUR DE LA RVOLUTION BIG DATA

PROPOSITION 1 : Dployer sur 3 ans PROPOSITION 3 : Dvelopper une


des programmes test dutilisation de offre de formation couvrant lint-
technologies Big Data dans certains gralit de la chane de mtiers relis
secteurs des politiques publiques au Big Data.
pour dgager des conomies di-
rectes : par exemple dans le cadre
de la lutte contre la fraude lassu- PROPOSITION 4 : Valoriser lexpertise
rance maladie, ou dans la gestion franaise en mathmatiques, statis-
de certaines politiques publiques de tiques et tlcommunications et par-
sant. Les acteurs publics doivent venir les hybrider autour de projets
alors obtenir des drogations de la et centres de recherches communs.
CNIL. De telles initiatives dynamise-
raient tout lcosystme Big Data,
en promouvant la coopration entre PROPOSITION 5 : Faire merger le
les startups expertes de ces techno- dbat de lvolution de la rgula-
logies et les grands groupes dten- tion Big Data au sein du gouverne-
teurs de donnes complmentaires. ment, des Parlements franais et eu-
ropens et des CNIL europennes :
lthique de la dcision lre des
PROPOSITION 2 : Une loi sur lOpen algorithmes ou encore la rgulation
data pour contraindre les adminis- par le traitement et le processus de
trations stratgiques ouvrir leurs croisement de la donne sont des
donnes concernant les vne- enjeux dont les pouvoirs publics et
ments et statistiques qui touchent la socit civile doivent se saisir.
directement la vie, la sant et le Evoluer vers une rgulation unifie
patrimoine des personnes . linstar pour lEurope permettant aux ac-
de lEstonie, contraindre par la loi les teurs europens innovants de b-
organisations publiques ouvrir leurs nficier dun march continental.
donnes les diffuser sur la plate-
forme data.gov.fr, le portail national PROPOSITION 6 : Rflchir la pos-
des donnes publiques en France. sibilit daudit des algorithmes par
Inscrire dans cette mme loi, la gra- un rgulateur certifi sur la protec-
tuit des donnes : Aujourdhui lar- tion de la vie personnelle lre
ticle 15 de la loi de Juillet 1978 (mise du Big Data : pour les entreprises
jour en 2003) postule que les don- comme pour les acteurs publics.
nes publiques peuvent avoir un Cela permet une forme dune rgu-
prix92. Cette facilit financire dac- lation qui se focalise sur la manire
cs aux donnes dynamiserait lco- dont les donnes sont utilises et
systme de startup et interdit sa cap- non comment elles sont collectes.
tation par un groupe dentreprises.

(92) La rutilisation dinformations publiques peut donner lieu au versement de redevances


Art. 15, Loi n 78-753 du 17 juillet 1978 portant diverses mesures damlioration des relations entre ladministra-
tion et le public et diverses dispositions dordre administratif, social et fiscal, http://legifrance.gouv.fr/affichTexte.
do?cidTexte=JORFTEXT000000339241

Copyright Date de parution: dcembre 2014


119
Liste des personnes auditionnes pour le livre blanc :

Christophe Benavent Olivier Gurin,


Chercheur en marketing Paris-10 Pdg dimage & dialogue group
Adhrent de Renaissance Numrique
Franois Bourdoncle
Prsident de FB&Cie, co-fondateur Rand Hindi
dExalead, co-rapporteur du Fondateur de Snips
plan Big Data pour le Ministre
de lEconomie Romain Lacombe
Charg de linnovation et du
Ekbel Bouzgarrou dveloppement de la mission Etalab.
Chief Technologie Officier
Air France KLM Thomas Lefvre
Mdecin de sant publique
Stphane Buttigieg Ingnieur Mines-Tlcom
Institut Louis Bachelier, Docteur en sciences
Chercheur associ lIRIS
Mehdi Chouiten (CNRS/INSERM/EHESS/Paris 13)
Data Scientist senior chez Parkeon
Guillaume Liegey
Yves-Alexandre De Montjoye Fondateur de Liegey-Muller-Pons
Doctorant au MIT, laboratoire de
dynamique humaine du Media Lab Arnaud Massonie
Co-fondateur et Directeur Gnral
Florian Douetteau de lagence fifty-five
Fondateur de Dataiku
Thibaut Munier
Jean-Luc Errant Administrateur de
Fondateur de la socit Cityzen Renaissance Numrique
Sciences-Cityzen Data
Galle Recourc
Nicolas Glady Directrice scientifique,
Professeur Associ Evercontact
Titulaire de la Chaire Accenture
Strategic Business Analytics Marine Romezin
Communications Manager
Samuel Gota, chez Squid Solutions
Doctorant Tlcom ParisTech

Equipe de rdaction du livre blanc :

Luc Bretones Basile Michardiere


Vice prsident Charg de mission
Institut G9+ Renaissance Numrique

Henri Isaac Camille Vaziaga


Vice prsident de Dlgue gnrale
Renaissance Numrique Renaissance Numrique

Jean-Franois Vermont Pierre Balas


Trsorier Institut G9+ Charg de mission
Renaissance Numrique

Copyright Date de parution: dcembre 2014

S-ar putea să vă placă și