Sunteți pe pagina 1din 25

PRDIRE LE SALAIRE

ANNUEL

IGA
MARRAKECH

Prsenter par : ELGHALMI Salma LANSSARI Issam

PLAN

INTRODUCTION
DFINITION DE LA BASE DE DONNES
SOURCE ET CITATION
INFORMATION SUR LA BASE DE DONNES
DFINITION DES ATTRIBUTS
ALGORITHMES UTILISS
RND TREE (RANDOM FOREST)
ID3 (ITRATIF DICHOTOMISER 3)
C4.5
LDA (LINEAR DISCRIMINANT ANAYSIS)
SVM (SUPPORT VECTOR MACHINES SVM)
RSULTATS ET ANALYSE
CONCLUSION

DFINITION DE LA BASE
DE DONNES

IGA
MARRAKECH

Prsenter par : ELGHALMI Salma LANSSARI Issam

INTRODUCTION

Le revenu d'une personne est


l'ensemble des droits sur les ressources
disponibles qui lui sont attribus au
cours d'une priode donne sans
prlvement sur son patrimoine
le revenu est trs important dans les
tudes et les apprciations des notions
comme : le niveau de vie, le pouvoir
d'achat, le genre de vie , etc...
le salaire peut se diffre selon plusieurs
critres.

INTRODUCTION

IGA
MARRAKECH

Prsenter par : ELGHALMI Salma LANSSARI Isssam

CITATIONS ET SOURCE

Ces donnes ont t extraites de la base de bureau


du recensement trouv
http://www.census.gov/ftp/pub/DES/www/welcome.h
tml
Propritaires originaux de base de donnes:
US Census Bureau.
Donateur de base de donnes:
Ronny Kohavi et Barry Becker, Data Mining et
visualisation Silicon Graphics. email: ronny@sgi.com
Date de rception (bases de donnes peuvent
changer au fil du temps, sans changement de nom)
19/05/96

INFORMATIONS SUR LA BASE DES


DONNES

BUT : examiner les donnes sur le revenu qui dpasse


50 K$/an sur la base de donnes du recensement.
Pays :
tats-Unis, au Cambodge, en Angleterre, Porto-Rico,
Canada, Allemagne, loignes des tats-Unis (GuamUSVI-etc), l'Inde, le Japon, la Grce, du Sud, la Chine,
Cuba, l'Iran, le Honduras, les Philippines, l'Italie, la
Pologne, la Jamaque , Vietnam, Mexique, Portugal,
Irlande, France, Rpublique Dominicaine, le Laos,
l'quateur, de Taiwan, Hati, la Colombie, la Hongrie, le
Guatemala, le Nicaragua, l'Ecosse, la Thalande, la
Yougoslavie, El-Salvador, Trinadad-et-Tobago, le Prou,
Hong, Holand-Pays-Bas .

INFORMATIONS SUR LA BASE DES


DONNES

Nombre d'instances :

48842 cas, mlange de continu et discret


45222 si des instances avec des valeurs
inconnues sont limines

Dfinition des attributs


ATTRIBUTE

CATEGORY

INFORMATIONS

Age

Workclass

9 valeurs

Fnlwgt

Education

16 valeurs

education-num

marital-status

7 valeurs

Occupation

15 valeurs

Relationship

6 valeurs

Race

5 valeurs

Sex

2 valeurs

capital-gain

capital-loss

hours-per-week

native-country

42 valeurs

ALGORITHMES UTILISS

IGA
MARRAKECH

Prsenter par : ELGHALMI Salma LANSSARI Issam

RND TREE (RANDOM


FOREST)

Une fort alatoire est une mthode de classification


des diffrents arbres de dcision non corrles
terme a t invent par la fort alatoire Leo
Breiman en 2001
Tous les arbres de dcision cultives dans un certain
type de randomisation au cours du processus
d'apprentissage
Une dcision dans cette fort et la classe avec le
plus de votes va dcider du classement final.
En plus d'une classification de la fort alatoire
peuvent galement tre utiliss pour la rgression.

ID3 (ITRATIF
DICHOTOMISER 3)

utilise des arbres de dcision.


Invent par Les chercheurs australiens J.
Ross Quinlan publis cet algorithme pour
la premire fois en 1986
ID3 est le prcurseur de l'algorithme C4.5
utilis lorsque grande quantit de donnes
aucune assurance que des arbres sont
bien appris

C 4.5

algorithme d'apprentissage de concept


dvelopp comme une extension de
l'algorithme ID3 par Ross Quinlan
comporte de manire similaire
l'algorithme de CART
Nutilise pas la division binaire

LDA (Linear Discriminant


Anaysis)

une gnralisation de discriminant


linaire de Fisher
lie l'analyse de variance
a variables indpendantes continues et
une variable dpendante catgorielle
la reconnaissance pour trouver une
combinaison linaire des d'objets ou
vnements utilise comme un
classificateur linaire pour la rduction
de la dimensionnalit plus tard avant la
classification

SVM ( Support vector


machines )

ensemble d'algorithmes d'apprentissage


dvelopps par Vladimir Vapnik et son
quipe chez AT & T Labs
lis aux problmes classification et de
rgression
SVM construit un modle qui prdit le
genre d'un nouvel chantillon
construit un ensemble d'hyperplans sur
un espace de haute utilis dans la
classification

RSULTATS ET ANALYSE

IGA
MARRAKECH

Prsenter par : ELGHALMI Salma LANSSARI Issam

RND TREE

ID3

C 4.5

LDA

LDA

SVM

CONCLUSION

IGA
MARRAKECH

Prsenter par : ELGHALMI Salma LANSSARI Issam

Conclusion

Le salaire Annuel reste toujours un bon indice


pour mesurer le dveloppement d'un pays
nous avons propos une approche Data
Mining qui utilise des donnes rels de
diffrents pays avec diffrents attributs afin
de mieux prdire le salaire
on constat que Rnd tree est le plus efficace
soit en ce qui concerne les bonnes prcisions
de prdictions et les taux derreurs assez
faible ainsi la qualit de dduire larbre .

MERCI POUR VOTRE


ATTENTION

IGA
MARRAKECH

Prsenter par : ELGHALMI Salma LANSSARI Issam

S-ar putea să vă placă și