Documente Academic
Documente Profesional
Documente Cultură
p.3 : Introduction
p.5 : Le moteur du Machine Learning, son fonctionnement
p.7 : Les pilotes du Machine Learning, les Data Scientists
p.8 : Le carburant du Machine Learning, les donnes
p.10 : Le fuselage du Machine Learning, le design stratgique
p.11 : Les missions ou cas dapplication du Machine Learning
p.12 : Focus sur une mission, lassurance crdit
p.15 : Focus sur dautres missions, maintenance prdictive,
segmentation clients, systmes de recommandation
Glossaire
Big Data : Le Journal Officiel du 22 aot 2014 prconise dutiliser en franais le mot mgadonnes.
Il en donne la dfinition suivante : donnes structures ou non, dont le trs grand volume requiert
des outils danalyse adapts.
Data management platform (DMP) : appele en franais plateforme de gestion des donnes, elle
sert accumuler et classer les donnes des internautes interagissant avec un site web pour
ensuite permettre de mieux cibler les publicits en ligne.
Deep Learning : ou apprentissage profond. Famille de mthodes de Machine Learning,
permettant un apprentissage automatique diffrent par niveau de dtail, en utilisant des rseaux
de neurones artificiels.
Hadoop : Plateforme danalyse ddie lanalyse des Big Data, utilisant une technique dite de
stockage et de calcul distribus.
Internet of Things (IoT): ou internet des objets (objets connects). Cette expression reprsente
lextension du rseau internet des objets (souvent des capteurs) ou des lieux. Les donnes
transmises par ces objets doivent ensuite tre analyses et corrles dautres donnes,
notamment laide du Machine Learning.
Small Data : Il ny pas de dfinition officielle pour les Small Data. Cest plutt en opposition aux
Big Data, les petites donnes qui concernent la vie de tous les jours de lentreprise (ex :
donnes des tickets de caisse, nombre de clients ayant pntr dans le magasin...) et souvent non
exploites par les entreprises. Ds lors que ces donnes sont exploites et que leur utilit est
avre, ces petites donnes devenues intelligentes sont souvent appeles Smart Datas.
Stratgie SEA (Search Engine Advertisement): ou rfrencement payant, elle consiste la mise
en place de rponses payantes dans les pages de rsultats dun moteur de recherche.
2
Introduction
3
Nous allons exposer dans ce livre blanc :
ce quest prcisment le Machine Learning,
ses possibilits,
ses limites,
travers plusieurs cas dapplications :
4
Le moteur du Machine Learning
Dfinition
Cest la seule quation retenir de ce livre blanc ! Ainsi le Machine Learning dveloppe
des algorithmes qui vont apprendre de manire automatise des modles statistiques
partir de donnes dapprentissage. Ceci peut se faire de manire supervise, non
supervise, par renforcement Il y a beaucoup de mthodes mais nous allons nous
concentrer sur un des mcanismes de base qui concerne lapprentissage supervis.
5
On fournit donc la machine une base de donnes des ventes de maisons ralises
dans la rgion cible (potentiellement des milliers de vente), qui contient pour chaque
maison toutes ses caractristiques (potentiellement des centaines) ainsi que les prix de
vente rellement enregistrs.
Le modle de Machine Learning, via ses coefficients, volue donc itrativement, chaque
fois quune maison de la base de donne est analyse. A la fin, il est optimis pour que la
comparaison des prix prdits avec les prix rels sur toute la base de donnes des maisons
soit la meilleure possible. On dit que la machine a appris le modle, en tant supervise
car les rponses (prix de vente rels) lui taient fournies. A ce moment-l, on peut fournir
la machine des caractristiques de maisons dont on ne connat pas le prix de vente, et le
modle permet alors de le prdire.
6
Les pilotes du Machine Learning
Examinons maintenant le profil de ceux qui construisent des modles de Machine
Learning. A ct des deux autres profils techniques mis en jeu par le processus Big Data -
les Data Strategists et les Data Architects - le Data Scientist dfinit, met en place et pilote
le modle de Machine Learning pertinent sur une plateforme danalyse mise sa
disposition. Voici le dtail des comptences quil doit matriser.
Positionn auprs des Mtiers, le Data Scientist exploite, analyse et value la richesse
des donnes existantes pour tablir des scnarios Machine Learning permettant de
comprendre et danticiper de futurs leviers mtiers ou oprationnels.
Il doit comprendre les aspects et contraintes Mtiers des donnes quil manipule
pour en extraire des analyses pleinement utiles au client.
Il doit savoir manipuler les donnes analyser, cest--dire possder de bonnes
connaissances ETL - extraction, transformation, chargement (load en anglais) - et
pouvoir assurer un nettoyage mthodique des donnes pour une utilisation
optimale du Machine Learning.
Il doit matriser les thories mathmatiques et statistiques qui sous-tendent les
modles de Machine Learning quil met en uvre, afin den connatre au mieux la
pertinence et les limites.
Le Machine Learning tant le procd dapprentissage de la machine, le Data
Scientist met en uvre ses modles au moyen de code informatique. Il doit donc
matriser les langages informatiques et les librairies associes qui lui permettront
de coder ses algorithmes sur diffrents types de plateformes analytiques.
Enfin, lanalyse des donnes permet laide la dcision. Le Data Scientist doit donc
possder de fortes comptences en visualisation des donnes ainsi quen
prsentation des rsultats de ses analyses. Pour faire passer un message de
manire optimale, les meilleures pratiques de visualisation mnent lintgrer au
sein dune histoire (storytelling) qui permet den gommer le ct technique et de
le personnaliser.
7
Le carburant du Machine Learning
Comme nous lavons vu ci-dessus, la machine ingre les donnes pour en extraire
des caractristiques qui vont tre directement corrles la valeur prdire. Les donnes
correspondent donc au carburant faisant fonctionner un modle de Machine Learning.
Ainsi, la pertinence des caractristiques, leur qualit et leur quantit sont des critres
dterminants pour la prcision des prdictions du modle. Cest pourquoi le Machine
Learning est souvent considr dans une dmarche globale darchitecture et danalyse Big
Data (cest notamment lapproche de Myriad !), que nous allons brivement dcrire.
Etape stratgie : Le processus Big Data commence par une rflexion stratgique
de lentreprise concernant lutilit et la valeur que va apporter lanalyse
prdictive son business. De cette rflexion, qui peut tre accompagne par des
experts, dcoule une identification des sources de donnes pertinentes pour lalgorithme
de Machine Learning, internes ou externes, leur type (structur ou non), leur importance
relative, leur difficult et cot de rcupration. Cette phase est dirige par le Data
Strategist dont nous parlerons ci-dessous.
8
Cette tape, ralise par le Data Architect, est cruciale la fois pour la qualit des
donnes utilises par le modle de Machine Learning le nettoyage des donnes
correspondant au raffinage du carburant du modle - mais aussi pour permettre un
fonctionnement rapide et optimis des algorithmes utiliss sur la plateforme analytique.
Ltape darchitecture correspond ainsi au raffinage du carburant et la mise en place
dun systme dinjection rapide pour le moteur quest le Machine Learning.
Etape analyse : Une fois la plateforme construite, le pilote, ou Data Scientist, dont
nous avons tudi le profil ci-dessus, peut alors tester diffrents modles de
Machine Learning pour lanalyse souhaite par lentreprise et dployer le plus adapt et
efficient.
9
Le fuselage du Machine Learning
Il reste un aspect que nous avons brivement abord en parlant des donnes : la
mise en uvre du Machine Learning au niveau de la stratgie de votre entreprise, comme
pierre angulaire dun projet Big Data. Nous ne parlons plus ici darchitecture ou de choix
de modle et dalgorithmes, mais plutt de design et dapproche stratgique. Il existe bien
videmment plusieurs choix dans lapproche stratgique de mise en uvre du Machine
Learning : on peut opter pour un gros porteur comme un logiciel danalyse avec des
algorithmes prenregistrs ou pour un modle avec design sur-mesure par rapport la
mission demande (cf encadr ci-dessous). Cela dpend bien entendu du besoin de
lentreprise.
Approche sur-mesure
10
Les missions du Machine Learning: Cas dapplications
E-commerce Industrie
Ressources humaines
Energie,
Automatisation de recherche de profils transport,
(avec le Natural Language Processing)
Evaluation des risques de dparts luxe,
Optimisation du marketing de telecom
recrutement
11
Focus sur une mission: le cas de lassurance-crdit
Face ces enjeux, lassurance XCC aurait pu opter pour la solution classique, savoir le
doublement de ses effectifs dagents ddis au traitement des demandes de
remboursement. Mais elle lui a prfr un projet Big Data exploitant la puissance du
Machine Learning.
12
Afin de dterminer le retour sur investissement de la partie centrale de ce projet,
savoir lautomatisation du traitement des demandes de remboursement par le Machine
Learning (algorithme de Classification), lentreprise Myriad a ralis un PoC (test) sur un
chantillon des donnes de lassurance XCC. Nous prsentons ici les rsultats, trs
parlants, de ce PoC.
Rsultats du PoC2 :
2 Les chiffres des rsultats ont t modifis pour lanonymat de lassurance XCC. Cependant
les performances (dlais, pourcentages de rduction des cots, dacclration de traitement)
sont celles qui ont t ralises.
13
Scnario 1 :
Scnario 2 :
Le deuxime scnario sest concentr sur une optimisation des cots, avec notamment
une rduction de 26% de ces cots par rapport au scnario de doublement des
effectifs et un dlai moyen de traitement de 14 jours. Lerreur de traitement est alors
proche de celle du scnario initial, bien que celle-ci puisse encore tre rduite par un
nettoyage des donnes comme mentionn ci-dessus. Comme 55% des dossiers sont
traits automatiquement, il reste 45% de vrifications manuelles. Ceci donne un
effectif proche de celui du scnario initial, mais avec cette fois-ci une charge de travail
optimale et non pas double.
Cet exemple de lassurance crdit montre quavec un cot de mise en place faible
devant les cots de traitement mensuel, le Machine Learning peut aider lassurance XCC
dans lautomatisation du traitement de ses demandes de remboursement en amliorant
ses statistiques de faon impressionnante : 26 % de rduction des cots, et
diminution des dlais de moiti.
14
Focus sur dautres missions
Aprs avoir vu de manire approfondie la mthodologie de mise en place
du Machine Learning dans le cadre de lassurance crdit, ainsi que les rsultats chiffrs
que cela produit, nous allons tudier de manire plus synthtique dautres cas dusage
dont nous ne dcrirons que la partie spcifique.
Maintenance prdictive
Dans le secteur de lindustrie, lutilisation du Machine
Learning vient se gnraliser pour la maintenance prdictive.
On connecte des dizaines de capteurs sur la chane de production
mesurant les diffrents signaux pertinents relatifs au bon
fonctionnement de la chane.
Puis lutilisation de lhistorique des donnes de cette chane de production, et
notamment de son tat de fonctionnement, permet dentraner un modle de Machine
Learning appel Rgression. Celui-ci peut ensuite :
diagnostiquer en temps rel ltat de fonctionnement de la chane de production,
analyser les risques futurs de dfaillance technique et identifier sur quelle pice,
dterminer en consquence un plan de maintenance prdictive de la machine
en minimisant son temps darrt.
Segmentation clients
La segmentation des clients est un lment cl du marketing dans le secteur du
commerce lectronique : elle permet de regrouper dans diverses catgories des
consommateurs aux comportements similaires et danalyser ces comportements pour
ensuite optimiser les recommandations des produits, les campagnes marketing, et ainsi
les ventes de lentreprise.
Cette segmentation clients peut se faire au
sein dune plateforme de gestion de donnes (DMP)
ou avec des algorithmes spcifiques adapts au
client. Le modle gnral de Machine Learning utilis
sappelle le Clustering, qui est un exemple
dapprentissage non supervis, contrairement aux
modles (Classification, Rgression) que nous avons
vus ci-dessus.
Dans lespace multi-dimensionnel de toutes
les caractristiques des consommateurs (par exemple, la frquence des achats, le prix
moyen des achats, la ractivit face aux produits recommands, lappartenance au
programme de fidlit, les informations dmographiques comme lieu, ge, sexe
potentiellement des centaines de caractristiques), chaque consommateur est reprsent
par un vecteur. Une distance adapte au type de segmentation voulue permet alors de
regrouper les vecteurs proches , dobtenir des catgo-
ries de consommateurs et danalyser toutes leurs caractristiques communes.
15
Systme de personnalisation et recommandation
Dautres techniques de Machine Learning sont utilises dans le cas des systmes
de recommandation ou de personnalisation par lindustrie, le-commerce, le luxe, la
grande distribution ainsi que par les rseaux sociaux comme LinkedIn et Facebook. Ces
techniques avances se nomment filtrage collaboratif ou factorisation de matrices. A titre
dillustration, voyons comment fonctionne le filtrage collaboratif dans le cas de la
recommandation de produits.
Dans ce quon appelle une matrice de co-occurrence, on repre toutes les paires de
produits qui sont frquemment achets ensemble. Puis, par un algorithme statistique,
on en dduit une distance entre les produits codant cette apptence tre achets
ensemble. La machine dtermine alors, pour chaque consommateur ayant achet un
produit particulier, quel serait le produit le plus pertinent lui recommander, cest--
dire celui minimisant la distance avec le produit dj achet.
16
A propos de lauteur
Axel de Goursac est directeur des oprations de Myriad. Aprs avoir t diplm de
l'Ecole Polytechnique et de l'Ecole Normale Suprieure de Paris, il a soutenu en 2009
une thse de doctorat en Mathmatiques et Physique aux Universits de Paris-Sud et
de Mnster (Allemagne). Puis, il a obtenu un poste de manager de projets de recherche
l'Universit Catholique de Louvain et au Fond National de la Recherche scientifique
(FNRS, Belgique) en Mathmatiques et applications. Passionn de science et de
technologie, il est galement un chercheur internationalement reconnu et un expert
en Machine Learning. Il dirige maintenant le dpartement oprationnel de Myriad, ses
Data scientists, architects et strategists.
Myriad est une socit de service qui assure le conseil et le dploiement de solutions
Big Data. Myriad offre aux Entreprises une vritable expertise dans les domaines
analytiques, de Science des Donnes et dArchitecture. Aujourdhui, les socits
reconnaissent quil est ncessaire de saffranchir dune organisation des donnes en
silos pour en rvler la valeur. Cela suppose de mettre en place une source unique
pour les donnes de lentreprise, quelles soient ou non structures. Myriad
accompagne ses clients dans le cadre de leur transformation vers le Big Data et leur
fournit une assistance globale pour limplmentation de cette transformation, allant
dune stratgie de donnes claire au Machine et Deep Learning.
Sa spcificit rside la fois dans une approche sur-mesure, de haut niveau technique,
mais aussi rsolument oriente business, ainsi que sur une mthode progressive claire
Dcouvrir/Concevoir/Dployer, qui permet ses clients davoir le contrle total de
leurs initiatives Big Data. Pour assurer la matrise des Cots et du ROI, une approche
progressive base sur des cas dutilisations rels dfinis par les mtiers est essentielle
pour Myriad. Cette approche est un lment cl pour comprendre le business de ses
clients, leur permettre de rester la pointe et laborer une carte numrique qui
transforme leurs donnes en un vritable avantage comptitif durable.
17
Fonde en 2005, TheCodingMachine accompagne ses clients sur des missions de
conseil technologique et sur des projets de dveloppement d'applications Web avec
un engagement au forfait. Spcialise dans le dveloppement de sites Internet,
dextranets, dintranets et dapplications Web mtiers en PHP et en JavaScript,
TheCodingMachine pilote plus de 50 projets par an.
Travaillant aussi bien pour des grands comptes privs et publics, pour des PME-PMI
que pour des startups, l'investissement continu dans la R&D permet
TheCodingMachine de toujours proposer une expertise la pointe de l'innovation et
des technologies web.
Mme si nous aimons les nouvelles technologies, nous savons quelle nest quun
moyen pour concrtiser vos projets. Aussi, nous recherchons toujours quel est le
meilleur business model ou ce quil faut dvelopper rapidement afin de maximiser
votre investissement.
18