Sunteți pe pagina 1din 30

Problmedeclassification

Classificationnonsupervise:
Mthodesdepartitionnement

Classification
Regrouperdesobjetsengroupes,ouclasses,oufamilles,ou
segments,ouclusters,desorteque:
2objetsdunmmegroupeseressemblentle+possible
2objetsdegroupesdistinctsdiffrentle+possible
nombredesgroupesestparfoisfix

Classification
Lesobjetsclassersont
desindividus
desvariables
Mthodedescriptive:
pasdevariablecibleprivilgie
dcriredefaonsimpleuneralitcomplexeenlarsumant

Exempledeclassification

Classification
Applications
Marketing:
dcouperlaclientleensegmentsdotschacunduneoffreetdune
communicationspcifique
Mdical:
dterminerdesgroupesdepatientssusceptiblesdtresoumisdes
protocolesthrapeutiquesdtermins,chaquegrouperegroupanttousles
patientsragissantidentiquement
Sociologie:
dcouperlapopulationengroupeshomognesdupointdevue
sociodmographique,Styledevie,opinions,attentes
Dtectiondesprofilsdeclientsdebanques:
clientstendancepargne,clientstendancecrditconsommation,
clientstendancecrdithabitat

Questcequunbonregroupement?

Unebonnemthodederegroupementpermetdegarantir

Unegrandesimilaritintragroupe

Unefaiblesimilaritintergroupe

Qualitdunregroupement

Laqualitdpendde:lamesuredesimilarit
utiliseparlamthodeetdesonimplmentation

Mesuredesimilarit

Matricededonnes

x11

...

x
i1
...
x
n1

Matricedesimilarit

...

x1f

...

x1p

...

...

...

...

xif

...

...
xip

...
...

...

...
...

xnf

...
xnp

d(2,1)

d(3,1)

d ( n,1)

0
d ( 3, 2 )
:
d ( n, 2 )

0
:
...

... 0

Mesuredesimilarit

Mtriquepourlasimilarit:Lasimilaritestexprimeparlebiais
dunemesurededistance

Lesdfinitionsdedistancesonttrsdiffrentesquelesvariables
soientdesintervalles(continues),catgories,boolennesou
ordinales

Enpratique,onutilisesouventunepondrationdesvariables

10

Mesuredesimilarit
Lamesuredpenddelanaturedesattributs

Intervalles:

Binaires:

catgories,ordinales,ratio:

Diffrentstypes:

11

LesvariablesdetypeIntervalle(discrtes)

Personne1
Personne2
Personne3
Personne4

Age
50
70
60
60

Salaire
11000
11100
11122
11074

Mesurerlasimilaritentrelesdiffrentespersonnes
Calculerladistance
12

LesvariablesdetypeIntervalle(discrtes)

DistancedeMinkowski:

d (i, j) q (| x x | q | x x | q ... | x x | q )
i1
j1
i2
j2
ip
jp
oi=(xi1,xi2,,xip)etj=(xj1,xj2,,xjp)sontdeuxobjetsp
dimensionnelsetqunentierpositif

Siq=1,destladistancedeManhattan

d (i, j) | x x | | x x | ... | x x |
i1 j1
i2 j 2
ip jp

13

LesvariablesdetypeIntervalle(discrtes)

Siq=2,destladistanceEuclidienne:

d (i, j) (| x x |2 | x x | 2 ... | x x |2 )
i1
j1
i2
j2
ip
jp

Proprits

d(i,j)0

d(i,i)=0

d(i,j)=d(j,i)

d(i,j)d(i,k)+d(k,j)

14

LesvariablesdetypeIntervalle(discrtes)

Standardiserlesdonnes

Calculerlcartabsolumoyen:

sf 1
n (| x1 f m f | | x2 f m f | ... | xnf m f |)

mf 1
n (x1 f x2 f

...

xnf )

Calculerlamesurestandardise(zscore)

xif m f
zif
sf
15

LesvariablesdetypeIntervalle(discrtes)

Standardiserlesdonnes
Personne1
Personne2
Personne3
Personne4

Age
50
70
60
60

Salaire
11000
11100
11122
11074

Personne1
Personne2
Personne3
Personne4

Age
-2
2
0
0

Age

60

Age

Msalaire=11074Msalaire=?

Salaire
?
?
?
?

16

LesvariablesdetypeIntervalle(discrtes)
DistancedeManhattan
Personne1
Personne2
Personne3
Personne4

Age
50
70
60
60

Salaire
11000
11100
11122
11074

d(p1,p2)=120
d(p1,p3)=132
Conclusion: p1 ressemble plus p2 qu
p3

distancenormalise(zScore)
Age

Salaire

Personne1

-2

-2

Personne2

0,70

Personne3

1,29

Personne4

d(p1,p2)=6,7
d(p1,p3)=5,29
Conclusion: ?

17

Lesvariablesdetypebinaires

Unetabledecontingencepourdonnesbinaires
Objetj

Objeti

1
0

1
a
c

0
b
d

sum
a b
cd

sum

ac

bd

a= nombre de
positions o i a 1 et j
a1

Exempleoi=(1,1,0,1,0)etoj=(1,0,0,0,1)

a=1,b=2,c=1,d=1

18

Mesuresdedistances

Coefficientdappariement(matching)simple(invariantpour
variablessymtriques):

d (i, j)

bc
a bc d

Exempleoi=(1,1,0,1,0)etoj=(1,0,0,0,1)
d(oi,oj)=3/5

CoefficientdeJaccard

d(oi,oj)=3/4

d (i, j)

bc
a bc
19

Variablesbinaires(I)

Variablesymtrique:Ex.lesexedunepersonne,i.ecoder
masculinpar1etfmininpar0cestpareilquelecodage
inverse

Variableasymtrique:Ex.TestHIV.Letestpeuttrepositif
oungatif(0ou1)maisilyaunevaleurquiseraplusprsente
quelautre.Gnralement,oncodepar1lamodalitlamoins
frquente

20

Variablesbinaires(II)

Exemple
Nom
Jack
Mary
Jim

Sexe
M
F
M

Fivre
Y
Y
Y

Toux
N
N
P

Test-1
P
P
N

Test-2
N
N
N

Test-3
N
P
N

Test-4
N
N
N

Sexeestunattributsymtrique

Lesautresattributssontasymtriques

YetP1,N0,ladistancenestmesurequesurlesasymtriques

d(jack, mary)
d(jack,

jim)

d(jim, mary)

1
0 1

1 1
1 1 1
1 2
1 1 2

0.33

0.67
0.75

Les plus similaires sont Jack et Mary atteints de la mme maladie

21

LesvariablesdetypeNominales

Unegnralisationdesvariablesbinaires,ex:rouge,vertetbleu

Mthode1:Matchingsimple

m:#dappariements,p:#totaldevariables

m
d (i, j)
p

Mthode2:utiliserungrandnombredevariablesbinaires

Crerunevariablebinairepourchaquemodalit(ex:variable
rougequiprendlesvaleursvraioufaux)

22

VariablesOrdinales

Unevariableordinalepeuttrediscrteoucontinue

Lordrepeuttreimportant,ex:classement

Peuventtretraitescommelesvariablesintervalles

remplacerxifparsonrang

rif {1,..., M f }

Remplacerlerangdechaquevariableparunevaleurdans[0,
1]enremplaantlavariablefdanslobjetIpar
rif 1
zif
M f 1
Utiliserunedistancepourcalculerlasimilarit

23

EnPrsencedeVariablesdediffrentsTypes

Pourchaquetypedevariablesutiliserunemesureadquate.

Onutiliseuneformulepondrepourfairelacombinaison

festbinaireounominale:
dij(f)=0sixif=xjf,sinondij(f)=1,oudistancedeJaccard
festdetypeintervalle:utiliserunedistancenormalise
zif r 1
M 1
festordinale
if

calculerlesrangsrifet

Ensuitetraiterzifcommeunevariabledetypeintervalle

24

Mthodesdeclassification

Mthodespartitionnement
kreprsentants(kmedoids)

25

Algorithmespartionnement

ConstruireunepartitionkclustersdunebaseDdenobjets

Leskclustersdoiventoptimiserlecritrechoisi

Algorithmeskmedoids

kmedoidsorPAM(Partitionaroundmedoids)(Kaufman&
Rousseeuw87):Chaqueclusterestreprsentparundesesobjets

26

Algorithmespartionnement

LamthodedesKMedoids(PAM)

Trouverdesobjetsreprsentatifs(medodes)danslesclusters(au
lieudelamoyenne)

Principe

Commencer avec un ensemble de medodes puis itrativement remplacer


unparunautresiapermetderduireladistanceglobale

Efficacepourdesdonnesdepetitetaille

27

AlgorithmedeskMedoides
Choisirarbitrairementkmedoides
Rpter
affecterchaqueobjetrestantaumedoideleplusproche
ChoisiralatoirementunnonmedoideOr
PourchaquemedoideOj
CalculerlecotTCduremplacementdeOjparOr
SiTC<0alors
RemplacerOjparOr
Calculerlesnouveauxclusters
Finsi
FinPour
Jusqucecequilnyaitplusdechangement

28

AlgorithmedeskMedoides

TCjhreprsentelegainendistanceglobalequelonvaavoiren
remplaanthparj

SiTCjhestngatifalorsonvaperdreendistance.Caveutdireque
lesclustersserontpluscompacts.

TCjh= idist(j,h)dist(j,i)= iCijh

29

AlgorithmedeskMedoides:Exemple

SoitA={1,3,4,5,8,9},k=2etM={1,8}ensembledesmedoides
C1={1,3,4}etC2={5,8,9}
E{1,8}=dist(3,1)2+dist(4,1)2+dist(5,8)2+dist(9,8)2=23

Comparons1et3M={3,8}C1={1,3,4,5}etC2={8,9}
E{3,8}=dist(1,3)2+dist(4,3)2+dist(5,3)2+dist(9,8)2=10
E{3,8}E{1,8}=13<0doncleremplacementestfait.

Comparons3et4M={4,8}C1etC2inchangset
E{4,8}=dist(1,4)2+dist(3,4)2+dist(5,4)2+dist(8,9)2=123nestpasremplacpar4

Comparons3et5M={5,8}C1etC2inchangsetE{5,8}>E{3,8}
30

Problmedeclassification

Fin
Classificationnonsupervise:
Mthodesdepartitionnement

S-ar putea să vă placă și