Documente Academic
Documente Profesional
Documente Cultură
INTRODUCTION
123 Ivoiriennes meurent, chaque année, du cancer du sein. Une mortalité souvent
liée à une détection extrêmement tardive de la maladie, lorsque celle-ci est devenue
incurable.
Le cancer du sein est une tumeur maligne de la glande mammaire. Autrement dit,
c'est un cancer qui naît dans les unités cellulaires dont la fonction est de sécréter le
lait, les unités ducto-lobulaires du sein, essentiellement chez la femme. 8 cancers du
sein sur 10 se déclarent après 50 ans. Une tumeur maligne est un amas de cellules
cancéreuses, elle a tendance à envahir les tissus voisins. Elle peut entraîner des
métastases : des cellules cancéreuses s’échappent de la tumeur primitive et vont
coloniser une autre région du corps, pour y former une nouvelle tumeur qu’on appelle
tumeur secondaire ou métastase. Une tumeur bénigne n'est pas un cancer,
contrairement à une tumeur maligne. Elle se développe lentement, localement, sans
produire de métastases, et ne récidive pas si elle est enlevée complètement
Parmi les symptômes de cette maladie , nous avons : Une bosse au sein, qu'elle
soit fixe ou mobile ; des écoulements spontanés provenant du mamelon;
une rétraction du mamelon (le mamelon est tourné vers l’intérieur); Un changement
d’apparence de la peau d’un sein etc.
La lute contre cette maladie, consiste à prélever un échantillon de la tumeur à des
fins d’examen. Il faut d’abord savoir si la tumeur est cancéreuse puis si c’est le cas,
connaître le type de cancer . Les tests effectués sur celui-ci influenceront le choix du
traitement (la chirurgie ; la radiothérapie ; la chimiothérapie ; la thérapie hormonale et
la thérapie ciblée). Cette méthode d’ examination basée sur les tests s’avère
inefficace a cause de sa lenteur et le manque de precision .qui peut être fatal.
Nous proposons donc un système de détection du type de tumeur (cancéreuse ou
non) très efficace basé sur les machines à vecteurs de support Pour contribuer à
la lutte contre cette maladie dangereuse .
1
I. LES FORETS ALEATOIRES
L’algorithme des « forêts aléatoires » (ou Random Forest parfois aussi traduit par
forêt d’arbres décisionnels) est un algorithme de classification qui réduit
la variance des prévisions d’un arbre de décision seul, améliorant ainsi leurs
performances. Pour cela, il combine de nombreux arbres de décisions dans une
approche de type bagging.
L’algorithme des « forêts aléatoires » a été proposé par Leo Breiman et Adèle Cutler
en 2001. Dans sa formule la plus classique, il effectue un apprentissage en parallèle
sur de multiples arbres de décision construits aléatoirement et entraînés sur des
sous-ensembles de données différents. Le nombre idéal d’arbres, qui peut aller
jusqu’à plusieurs centaines voire plus, est un paramètre important : il est très
variable et dépend du problème. Concrètement, chaque arbre de la forêt aléatoire
est entrainé sur un sous ensemble aléatoire de données selon le principe du
bagging, avec un sous ensemble aléatoire de features (caractéristiques variables
des données) selon le principe des « projections aléatoires ». Les prédictions sont
ensuite moyennées lorsque les données sont quantitatives ou utilisés pour un vote
pour des données qualitatives, dans le cas des arbres de classification. L’algorithme
des forêts aléatoires est connu pour être un des classifieurs les plus efficaces « out-
of-the-box » (c’est-à-dire nécessitant peu de prétraitement des données). Il a été
utilisé dans de nombreuses applications, y compris grand public, comme pour la
classification d’images de la caméra de console de jeu Kinect* dans le but d’identifier
des positions du corps.
L’ALGORITHME D’APRENTISSAGE :
La base du calcul repose sur l'apprentissage par arbre de décision. La proposition de
Breiman3 vise à corriger plusieurs inconvénients connus de la méthode initiale,
comme la sensibilité des arbres uniques à l'ordre des prédicteurs, en calculant un
ensemble de B arbres partiellement indépendants.
Une présentation rapide de la proposition peut s'exprimer comme suit :
2
Sur chaque échantillon, on entraîne un arbre de décision selon une
des techniques connues, en limitant sa croissance par validation
croisée.
1. PRESENTATION DONNEES
3
c) périmètre
d) zone
e) douceur (variation locale des longueurs de rayon)
Voici comment se présente notre volume de données dans l’éditeur de texte Jupiter
4
Figure 2 : une partie de notre volume de donnée
2. PRESENTATION DU SYSTEME
5
Pour commencer il faut analyser et explorer toutes les pistes possibles pour récupérer les
données en entrée de notre système. En effet, les données constituent l'expérience, les
exemples que nous allons fournir à votre algorithme afin qu'il puisse apprendre et devenir
plus performant. Une fois qu’on a les données , on passe à l'étape du prétraitement (pre-
processing ) .Il faut ensuite créer le model , l’apprendre et l’évaluer, afin de savoir si les
prédictions sont justes .
Il est très important de s’assurer qu’il n’y a pas de valeurs aberrantes ni manquantes dans
nos données il faut donc transformer le volume de donnée en l’adaptant au format du
développement de model de machine Learning. Pour cela , nous allons
Après ces étapes notre données se présente comme suit avec (1 = maligne, 0 = bénigne)
6
Figure 4 notre volume de donnée prétraité
7
IV. ENTRAINEMENT DU MODEL
comme convenus , nous allons utiliser les données contenus dans
notre train-set ici pour l’entrainement du model .
Ce sont ces données qui vont être utilisées pour rendre les prédictions du
réseau de neurones plus robustes. Il faut les voir comme une sorte de
phase de calibration.
Ainsi notre courbe d’apprentissage est la suivant
8
V. EVALUATION DU MODEL
Pour évaluer le model il faut lui fournir maintenant les données restantes ; le
test-set qu’il n’a pas vu durant son entrainement .
Ainsi , on pourra connaitre sa performance .
Voici donc affiché les deux courbes et leurs scores
9
On obtient la matrix de confusion suivante
Rappelons que l’évaluation a été réalisée sur le test-set qui comptait
114 patients dont 67 qui avaient une tumeur bénigne et 47 une tumeur
maligne
Pas de symptôme 3 64 67
Total 49 65 114
𝑻𝑷
𝒑𝒓é𝒄𝒊𝒔𝒊𝒐𝒏 =
𝑻𝑷 + 𝑭𝑷
Pour finir cette longue liste, on s’intéresse aussi souvent à la spécificité ("specificity"
en anglais), qui est le taux de vrais négatifs, autrement dit la capacité à détecter tout
les cas ou il y’a une cellule cancéreuse détectées. C’est une mesure complémentaire
de la sensibilité.
𝑻𝑵
𝑺𝒑é𝒄𝒊𝒇𝒊𝒄𝒊𝒕é =
𝑭𝑷 + 𝑻𝑵
✓ Rappel = 98 %
✓ Spécifié = 94 %
✓ Précision = 96 %
10
CONCLUSION
Pour lutter efficacement contre le cancer du sein , nous avons mis en place un système de
détections du type de tumeur( maligne ou bénigne ), basé sur les réseaux de neurones de
convolution. Nous avons obtenir de très bon résultats , et nous pensons qu'une optimisation
du foret aléatoire peut aider a avoir des résultats encore plus meilleurs. En effet, La probabilité
du système à prédire que la tumeur est cancéreuse quand cela est vrai dans la réalité est de
𝟒𝟔/𝟒𝟕soit 𝟗𝟖 %, raison pour laquelle notre système est un très bon outil de détection. Pour
finir ,notre système peut être plus efficace si nous obtenons un plus grand volume de donnée
nous aimerons avoir donc les donnée de tous les laboratoires d’anatomie pathologique
d’Afrique, ce qui rendra notre système plus meilleur.
BIBLIOGRTAPHIE
11