Projet Machine Learning

ARTICLE SUR LE CANCER DU SEIN
Détection des tumeurs malignes (cancéreuses ) et tumeurs
bénignes (non cancéreuses)
PRESENTE PAR : SANGARE ADAMA Master 1 INFORMATIQUE
INTRODUCTION
123 Ivoiriennes meurent, chaque année, du cancer du sein. Une mortalité souvent
liée à une détection extrêmement tardive de la maladie, lorsque celle-ci est devenue
incurable.
Le cancer du sein est une tumeur maligne de la glande mammaire. Autrement dit,
c'est un cancer qui naît dans les unités cellulaires dont la fonction est de sécréter le
lait, les unités ducto-lobulaires du sein, essentiellement chez la femme. 8 cancers du
sein sur 10 se déclarent après 50 ans. Une tumeur maligne est un amas de cellules
cancéreuses, elle a tendance à envahir les tissus voisins. Elle peut entraîner des
métastases : des cellules cancéreuses s’échappent de la tumeur primitive et vont
coloniser une autre région du corps, pour y former une nouvelle tumeur qu’on appelle
tumeur secondaire ou métastase. Une tumeur bénigne n'est pas un cancer,
contrairement à une tumeur maligne. Elle se développe lentement, localement, sans
produire de métastases, et ne récidive pas si elle est enlevée complètement
Parmi les symptômes de cette maladie , nous avons : Une bosse au sein, qu'elle
soit fixe ou mobile ; des écoulements spontanés provenant du mamelon;
une rétraction du mamelon (le mamelon est tourné vers l’intérieur); Un changement
d’apparence de la peau d’un sein etc.
La lute contre cette maladie, consiste à prélever un échantillon de la tumeur à des
fins d’examen. Il faut d’abord savoir si la tumeur est cancéreuse puis si c’est le cas,
connaître le type de cancer . Les tests effectués sur celui-ci influenceront le choix du
traitement (la chirurgie ; la radiothérapie ; la chimiothérapie ; la thérapie hormonale et
la thérapie ciblée). Cette méthode d’ examination basée sur les tests s’avère
inefficace a cause de sa lenteur et le manque de precision .qui peut être fatal.
Nous proposons donc un système de détection du type de tumeur (cancéreuse ou
non) très efficace basé sur les machines à vecteurs de support Pour contribuer à
la lutte contre cette maladie dangereuse .
1
I. LES FORETS ALEATOIRES
L’algorithme des « forêts aléatoires » (ou Random Forest parfois aussi traduit par
forêt d’arbres décisionnels) est un algorithme de classification qui réduit
la variance des prévisions d’un arbre de décision seul, améliorant ainsi leurs
performances. Pour cela, il combine de nombreux arbres de décisions dans une
approche de type bagging.
L’algorithme des « forêts aléatoires » a été proposé par Leo Breiman et Adèle Cutler
en 2001. Dans sa formule la plus classique, il effectue un apprentissage en parallèle
sur de multiples arbres de décision construits aléatoirement et entraînés sur des
sous-ensembles de données différents. Le nombre idéal d’arbres, qui peut aller
jusqu’à plusieurs centaines voire plus, est un paramètre important : il est très
variable et dépend du problème. Concrètement, chaque arbre de la forêt aléatoire
est entrainé sur un sous ensemble aléatoire de données selon le principe du
bagging, avec un sous ensemble aléatoire de features (caractéristiques variables
des données) selon le principe des « projections aléatoires ». Les prédictions sont
ensuite moyennées lorsque les données sont quantitatives ou utilisés pour un vote
pour des données qualitatives, dans le cas des arbres de classification. L’algorithme
des forêts aléatoires est connu pour être un des classifieurs les plus efficaces « out-
of-the-box » (c’est-à-dire nécessitant peu de prétraitement des données). Il a été
utilisé dans de nombreuses applications, y compris grand public, comme pour la
classification d’images de la caméra de console de jeu Kinect* dans le but d’identifier
des positions du corps.
L’ALGORITHME D’APRENTISSAGE :
La base du calcul repose sur l'apprentissage par arbre de décision. La proposition de
Breiman3 vise à corriger plusieurs inconvénients connus de la méthode initiale,
comme la sensibilité des arbres uniques à l'ordre des prédicteurs, en calculant un
ensemble de B arbres partiellement indépendants.
Une présentation rapide de la proposition peut s'exprimer comme suit :
1. Créer B nouveaux ensembles d'apprentissage par un double processus

d'échantillonnage :
1. sur les observations, en utilisant un tirage avec remise
d'un nombre N d'observations identique à celui des
données d'origine (technique connue sous le nom
de bootstrap),
2. et sur les 𝒎 < √P prédicteurs, en n'en retenant qu'un
échantillon de cardinal (la limite n'est qu'indicative).
2
Sur chaque échantillon, on entraîne un arbre de décision selon une
des techniques connues, en limitant sa croissance par validation
croisée.
2. On stocke les B prédictions de la variable d'intérêt pour chaque

observation d'origine.
3. La prédiction de la forêt aléatoire est alors un simple vote majoritaire
Figure 1 : Principes de construction d’une forêt aléatoire
II. PRESENTATION DES DONNEES ET DU

SYSTEME
1. PRESENTATION DONNEES
Nos données nous sont fournis par laboratoires d’anatomie pathologique du

centre hospitalier universitaire (CHU) de Treichville, Les caractéristiques sont
calculées à partir d'une image numérisée d'un aspirat à l'aiguille fine (FNA) d'une
masse mammaire. Ils décrivent les caractéristiques des noyaux cellulaires présents
dans l'image.
1) numéro d'identification
2) Diagnostic (M = maligne, B = bénigne)
De 3 à 30 ) Dix caractéristiques à valeur réelle sont calculées pour chaque noyau
cellulaire:
a) rayon (moyenne des distances du centre aux points du périmètre)

b) texture (écart type des valeurs d'échelle de gris)
3
c) périmètre
d) zone
e) douceur (variation locale des longueurs de rayon)
f) compacité (périmètre ^ 2 / surface - 1,0)

g) concavité (gravité des parties concaves du contour)
h) points concaves (nombre de parties concaves du contour)
i) symétrie
j) dimension fractale ("approximation du littoral" - 1)
La moyenne, l'erreur standard et le "pire" ou le plus grand (moyenne des trois

valeurs les plus élevées) de ces caractéristiques ont été calculées pour chaque image,
résultant en 30 fonctionnalités. Par exemple, le champ 3 est le rayon moyen, le champ
13 est l'erreur standard du rayon ,le champ 23 est le pire rayon .
Toutes les valeurs des caractéristiques sont recodées avec quatre chiffres significatifs.
Valeurs d'attribut manquantes: aucune.
Répartition des classes: 357 bénins, 212 malins.
Voici comment se présente notre volume de données dans l’éditeur de texte Jupiter
4
Figure 2 : une partie de notre volume de donnée
Figure 2 : Imagerie médicale d’échantillons de cellules atteintes de tumeurs bénignes (à

gauche) ou malignes (à droite) (au niveau du sein). Crédits images: Pigeons (Columba livia) as
Trainable Observers of Pathology and Radiology Breast Cancer Images. Richard M. Levenson
Elizabeth A. Krupinski Victor M. Navarro Edward A. Wasserman
2. PRESENTATION DU SYSTEME
Le système que nous proposons est composé de quatre grandes phases :

➢ analyse
➢ La phase de preparation ;
➢ La phase d’entrainement ;
➢ La phase d’évaluation ;
➢ La phase de prédiction.
Figure 3 : présentation de notre système
5
Pour commencer il faut analyser et explorer toutes les pistes possibles pour récupérer les
données en entrée de notre système. En effet, les données constituent l'expérience, les
exemples que nous allons fournir à votre algorithme afin qu'il puisse apprendre et devenir
plus performant. Une fois qu’on a les données , on passe à l'étape du prétraitement (pre-
processing ) .Il faut ensuite créer le model , l’apprendre et l’évaluer, afin de savoir si les
prédictions sont justes .
III. LE ANALYSE ( PRETRAITEMENT )
Il est très important de s’assurer qu’il n’y a pas de valeurs aberrantes ni manquantes dans
nos données il faut donc transformer le volume de donnée en l’adaptant au format du
développement de model de machine Learning. Pour cela , nous allons
• Eliminer les valeurs manquantes dans notre volume de donnée

• Transformer toutes les variables catégorielle en variable numérique
• Sélectionner les variables et éliminer celles dont la variance est nulle ( qui ne varie
presque pas )
Après ces étapes notre données se présente comme suit avec (1 = maligne, 0 = bénigne)
6
Figure 4 notre volume de donnée prétraité
Nous allons maintenant scinder nos données en deux parties

• Un train-set dont les données sont utilisées pour entrainer notre model
• Un test-set réserver uniquement a l’évaluation de notre model
Nous utilisons ici 80% de nos données mélanges de façons aléatoire pour
l’entrainement ; afin que le model soit bien entrainé et 20% pour l’évaluation
7
IV. ENTRAINEMENT DU MODEL
comme convenus , nous allons utiliser les données contenus dans
notre train-set ici pour l’entrainement du model .
Ce sont ces données qui vont être utilisées pour rendre les prédictions du
réseau de neurones plus robustes. Il faut les voir comme une sorte de
phase de calibration.
Ainsi notre courbe d’apprentissage est la suivant
Figure 5 : la courbe d’apprentissage de notre model
Nous avons en abscise les données du train_set et en ordonné les

pourcentages
Nous remarquons que le model apprend parfaitement tous les données
qu’on lui a fournie car il a un score de 100% .
8
V. EVALUATION DU MODEL
Pour évaluer le model il faut lui fournir maintenant les données restantes ; le
test-set qu’il n’a pas vu durant son entrainement .
Ainsi , on pourra connaitre sa performance .
Voici donc affiché les deux courbes et leurs scores
Figure 6 : la courbe d’apprentissage et de validation de notre model
Nous avons en abscise les données du train_set et en ordonné les

pourcentages
On remarque que la courbe de validation croie jusqu’à se stabliliser
autour des 95%
9
On obtient la matrix de confusion suivante
Rappelons que l’évaluation a été réalisée sur le test-set qui comptait
114 patients dont 67 qui avaient une tumeur bénigne et 47 une tumeur
maligne
Tumeur maligne Tumeur bénigne Total

Symptômes détectés 46 1 47
Pas de symptôme 3 64 67
Total 49 65 114
Appelons "positive" la classe correspondant à la Tumeur bénigne(non cancéreuse)

et "négative" l’autre classe(cancéreuse). Si on trouve que la tumeur est cancereuse
quand elle l’est vraiment , on fait une prédiction "positif" qui est correcte, c’est un vrai
positif. Si par contre cette prédiction est incorrecte, il s’agit d’un faux positif. Et ainsi de
suite. On appelle aussi parfois "erreur de type I" les faux positifs, et "erreur de type
II" les faux négatifs.
On définit ainsi le rappel ("recall" en anglais), ou sensibilité ("sensitivity" en anglais),
est le taux de vrais positifs, c’est à dire la proportion de positifs que l’on a correctement
identifiés. C’est la capacité de notre modèle à détecter toutes les cellules cancéreuse :
𝑻𝑷
𝑹𝒂𝒑𝒑𝒆𝒍 =
𝑻𝑷 + 𝑭𝑵
On s’intéressera donc aussi à la précision, c’est-à-dire la proportion de prédictions

correctes parmi les points que l’on a prédits positifs. C’est la capacité de notre modèle
à ne déclencher d’alarme que pour un vrai incendie.
𝑻𝑷
𝒑𝒓é𝒄𝒊𝒔𝒊𝒐𝒏 =
𝑻𝑷 + 𝑭𝑷
Pour finir cette longue liste, on s’intéresse aussi souvent à la spécificité ("specificity"
en anglais), qui est le taux de vrais négatifs, autrement dit la capacité à détecter tout
les cas ou il y’a une cellule cancéreuse détectées. C’est une mesure complémentaire
de la sensibilité.
𝑻𝑵
𝑺𝒑é𝒄𝒊𝒇𝒊𝒄𝒊𝒕é =
𝑭𝑷 + 𝑻𝑵
✓ Rappel = 98 %
✓ Spécifié = 94 %
✓ Précision = 96 %
10
CONCLUSION
Pour lutter efficacement contre le cancer du sein , nous avons mis en place un système de
détections du type de tumeur( maligne ou bénigne ), basé sur les réseaux de neurones de
convolution. Nous avons obtenir de très bon résultats , et nous pensons qu'une optimisation
du foret aléatoire peut aider a avoir des résultats encore plus meilleurs. En effet, La probabilité
du système à prédire que la tumeur est cancéreuse quand cela est vrai dans la réalité est de
𝟒𝟔/𝟒𝟕soit 𝟗𝟖 %, raison pour laquelle notre système est un très bon outil de détection. Pour
finir ,notre système peut être plus efficace si nous obtenons un plus grand volume de donnée
nous aimerons avoir donc les donnée de tous les laboratoires d’anatomie pathologique
d’Afrique, ce qui rendra notre système plus meilleur.
BIBLIOGRTAPHIE
[01] Data science : fondamentaux et études de cas: Machine

Learning avec Python et R (Français) Broché – 1 octobre 2015
[02] Lerman, L. (2011). Les systèmes de détection d’intrusion bases sur du
machine Learning.
[03] Delalleau, O. (2012). Apprentissage machine efficace : théorie et
pratique.
Thèse de doctorat, Université de Montréal.
[04] La Data Science par la pratique Par Didier Sampaolo, CTO
[05] https://www.rfi.fr/fr/emission/20181021-quelle-prise-charge-le-
cancer-sein-cote-ivoire
[06] https://www.rfi.fr/fr/emission/20181021-quelle-prise-charge-le-
cancer-sein-cote-ivoire
[07] Revue des provisions dossier/dossier avec des méthodes de machine

Learning MEMOIRE pour l’obtention du Diplôme Universitaire
d’actuariat de l’ISFA de lion présenté par Gaël Gibaud
11

Projet Machine Learning

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Projet Machine Learning

Încărcat de

Drepturi de autor:

Formate disponibile

ARTICLE SUR LE CANCER DU SEIN

Détection des tumeurs malignes (cancéreuses ) et tumeurs

bénignes (non cancéreuses)

PRESENTE PAR : SANGARE ADAMA Master 1 INFORMATIQUE

1. Créer B nouveaux ensembles d'apprentissage par un double processus

échantillon de cardinal (la limite n'est qu'indicative).

2. On stocke les B prédictions de la variable d'intérêt pour chaque

Figure 1 : Principes de construction d’une forêt aléatoire

II. PRESENTATION DES DONNEES ET DU

Nos données nous sont fournis par laboratoires d’anatomie pathologique du

a) rayon (moyenne des distances du centre aux points du périmètre)

f) compacité (périmètre ^ 2 / surface - 1,0)

La moyenne, l'erreur standard et le "pire" ou le plus grand (moyenne des trois

Figure 2 : Imagerie médicale d’échantillons de cellules atteintes de tumeurs bénignes (à

Le système que nous proposons est composé de quatre grandes phases :

Figure 3 : présentation de notre système

III. LE ANALYSE ( PRETRAITEMENT )

• Eliminer les valeurs manquantes dans notre volume de donnée

Nous allons maintenant scinder nos données en deux parties

Figure 5 : la courbe d’apprentissage de notre model

Nous avons en abscise les données du train_set et en ordonné les

Figure 6 : la courbe d’apprentissage et de validation de notre model

Nous avons en abscise les données du train_set et en ordonné les

Tumeur maligne Tumeur bénigne Total

Appelons "positive" la classe correspondant à la Tumeur bénigne(non cancéreuse)

On s’intéressera donc aussi à la précision, c’est-à-dire la proportion de prédictions

[01] Data science : fondamentaux et études de cas: Machine

[07] Revue des provisions dossier/dossier avec des méthodes de machine

S-ar putea să vă placă și