Documente Academic
Documente Profesional
Documente Cultură
Evolution,Biom
etrie
UE Description Statistique des Structures Biologiques
Dissemblance et diversite
D. Chessel
Notes de cours cssb9
On aborde les bases dun domaine plein davenir : celui de la mesure
de la biodiversite. Dissimilarites metriques, euclidiennes, ultrametriques : definitions et mode de calcul. Leurs usages. Typologie et
diversite sont deux concepts indissociables.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
6
7
8
3 Propri
et
es des dissimilarit
es
10
3.1 Dissimilarites euclidiennes . . . . . . . . . . . . . . . . . . . . . . 10
3.2 Que faire des distances non euclidiennes . . . . . . . . . . . . . . 13
3.3 Dissimilarites ultrametriques . . . . . . . . . . . . . . . . . . . . 15
4 Des
4.1
4.2
4.3
4.4
esp`
eces aux communaut
es
La question de la mesure de la diversite
Diversite et differences . . . . . . . . . .
Typologie sur differences . . . . . . . . .
Maximiser la diversite . . . . . . . . . .
R
ef
erences
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
18
18
23
25
30
35
D. Chessel
Introduction
Nous partirons dun probl`emes pose par des ornithologues de renom [2] decrit
dans :
http://pbil.univ-lyon1.fr/R/pps/pps023.pdf
Larticle contient toutes les donnees consignee dans lobjet ecomor :
library(ade4)
data(ecomor)
Chaque tableau esp`eces-habitats est en presence-absence ce qui definit le profil de chaque esp`ece du type 1000 pour les specialistes des milieux ouverts `a
0001 pour les foresti`eres strictes en passant par 1111 pour les esp`eces quon
rencontre partout. Les auteurs ont rajoute une quatri`eme region de reference
non mediterraneenne (Bourgogne), pour comparaison. Mais le nouveau cort`ege
a la propriete davoir une partie de ses esp`eces en commun avec la Provence.
Dans larticle une etoile indique quune esp`ece est commune au pool Provence et
au pool Bourgogne mais seul est mentionne le profil en Provence ce qui laisse `a
penser quil est le meme dans les deux regions. Or ce nest pas vrai et J. Blondel
ma transmis les precisions necessaires. La modification porte sur 13 des 129
esp`eces (et uniquement sur le profil dhabitat) mais oblige `a choisir entre deux
schemas :
D. Chessel
A gauche, on a repete les esp`eces en commun (la partie grise signale la repetition). A droite on a utilise leur profil global (la partie grise seule ne contient pas
uniquement des 0). La perturbation est petite mais a grande signification car
elle conduit `
a deux probl`emes differents. La forme de gauche est un ensemble de
quatre couples de tableaux ecologiques qui demande la comparaison de quatre
evolutions du contenu en traits biologiques entre les quatre types dhabitat. La
forme de droite est un couple unique qui envisage la variation en traits biologiques soit entre regions (analyse inter), soit entre strates dune meme region
(analyse intra), soit entre tous les elements (analyse simple). La situation est
encore compliquee par le schema des hypoth`eses de larticle (figure 1). On y
Fig. 1 1 - Mod`ele de la convergence bioclimatique, 2/3 - Absence de convergence, 4 - Mod`ele phylogenetique, 5 - Convergence bioclimatique ajustee (CAL
Californie, CH Chili, PR Provence, BU Bourgogne)
voit une typologie de regions soit faible (2) soit forte (3) soit organisee (1, 4, 5)
mais sans reference au gradient environnemental commun. Or comment sinteresser `
a la variation entre regions sans tenir compte que chacune dentre elles est
Logiciel R version 2.6.1 (2007-11-26) cssb9.rnw Page 3/36 Compil
e le 2008-03-31
Maintenance : S. Penel, URL : http://pbil.univ-lyon1.fr/R/cours/cssb9.pdf
D. Chessel
elle-meme une structure (et bien connue pour etre forte) ? La question est donc
tr`es ouverte. On a conserve les donnees sous la forme (A Lieu dalimentation, B
Regime alimentaire, C Morphometrie) :
names(ecomor)
[1] "forsub" "diet"
"habitat" "morpho"
"taxo"
"labels"
"categ"
La question est comment mesurer, comparer, decrire des structures faunistiques avec des cort`eges specifiques distincts. Peut-on sortir du comptage pur
et simple des esp`eces pour mesurer et comparer la biodiversite. Ces questions
sont dactualite [9], cest le moins quon puisse dire ! Lessentiel des questions
introduites ici sont developpees dans la th`ese de S. Pavoine [21].
2.1
D
efinitions
En mathematiques, on appelle distance definie sur un ensemble E une fonction d de E E dans R qui verifie pour tout x, y et z elements de E :
d (x, y) 0
d (x, y) = 0 x = y
d (x, y) = d (y, x)
d (x, y) d (x, z) + d (z, y)
En statistique, on appelle dissimilarite definie sur un ensemble fini I `a n elements (numerotes 1, 2,. . ., i, ..., n) une fonction d de I I dans R qui verifie
pour tout i et j :
dij 0
Logiciel R version 2.6.1 (2007-11-26) cssb9.rnw Page 4/36 Compil
e le 2008-03-31
Maintenance : S. Penel, URL : http://pbil.univ-lyon1.fr/R/cours/cssb9.pdf
D. Chessel
dii = 0
dij = dji
La dissimilarite est dite metrique (definition 1 dans [8]) si pour tout i, j et k
elements de I on a :
dij dik + dkj
Une dissimilarite est euclidienne (definition 2 dans [8]) si il existe n points dans
un espace euclidien dont les distances deux a deux sont exactement les dissimilarites considerees. On parle aussi de distance euclidienne mais le terme est
ambigu. Nous y reviendrons.
Une dissimilarite est ultrametrique si pour tout i, j et k elements de I on
a:
dij max(dik , dkj )
Nous verrons que cette notion est essentielle pour la mesure de la biodiversite.
En biologie, on utilise le terme de distance pour designer la difference mesuree entre deux individus, deux populations, deux sites, deux esp`eces, . . ., sans
se preoccuper de definition. Pour suivre la coutume, on appellera matrice de
distances une matrice contenant une dissimilarite observee. Les matrices de distances sont donc des matrices carrees (n lignes et n colonnes), contenant des
nombres positifs ou nuls, symetriques et ayant des elements nuls sur la diagodans la classe dist sous la forme dun
nale. Ces objets sont stockes dans
vecteur avec des attributs :
x <- matrix(rnorm(100), nrow = 5)
d <- dist(x)
d
as.matrix(d)
unclass(d)
D. Chessel
2.2
Distance de Mahalanobis
d=1
d=1
24
24
24
28
28
28
Utiliser la distance de Mahalanobis, cest utiliser la distance euclidienne ordinaire sur les coordonnees normalisees de lACP en lieu et place des donnees.
On utilise des donnees decorrelees, en particulier en prenant en compte leffet
taille au niveau dune seule variable (alors que cet effet compte dans la distance
ordinaire comme 95 % des variables). Cette operation est essentielle en morphometrie et est malheureusement importee dans bien dautres domaines o`
u elle ne
sert que de perturbation.
as.matrix(dist(x))[choix, choix]
8
24
28
8 0.000000 1.282952 1.777313
24 1.282952 0.000000 1.294394
28 1.777313 1.294394 0.000000
as.matrix(dist(w$l1))[choix, choix]
8
24
28
8 0.000000 1.646473 2.180075
24 1.646473 0.000000 1.073575
28 2.180075 1.073575 0.000000
as.matrix(dist.quant(x, meth = 3))[choix, choix]
8
24
28
8 0.000000 1.646473 2.180075
24 1.646473 0.000000 1.073575
28 2.180075 1.073575 0.000000
D. Chessel
2.3
Dissimilarit
es
ecologiques
Senegal
Niger
Niger
Volta
Ogun
Oueme
Mono
Pra
Tano
Bia
Komoe
Me
Agnebi
Bandama
Boubo
Sassandra
Mene
San Pedro
Nero
Dodo
Tabou
Cavally
Nipoue
Saint John
Saint Paul
Loffa
Mano
Moa
Sewa
Jong
Rokel
Little Scarcies
Kolente
Konkoure
Corubal
Geba
Gambie
La distance entre deux bassins, du point de vue faunistique est une fonction du
nombre desp`eces en commun a = n11 et tient compte que du nombre desp`eces
qui ne sont que dans le premier b = n10 ou dans le second c = n01 . Doit-on tenir
compte du nombre desp`eces absentes dans les deux d = n00 ?
Pour tous les couples on a en tout cas n = n11 + n10 + n01 + n00
La fonction dist.binary permet dutiliser 10 indices indiques par :
1 = JACCARD index (1901) S3 coefficient of GOWER & LEGENDRE
s1 = a/(a+b+c) --> d = sqrt(1 - s)
2 = SOCKAL & MICHENER index (1958) S4 coefficient of GOWER & LEGENDRE
s2 = (a+d)/(a+b+c+d) --> d = sqrt(1 - s)
3 = SOCKAL & SNEATH(1963) S5 coefficient of GOWER & LEGENDRE
s3 = a/(a+2(b+c)) --> d = sqrt(1 - s)
4 = ROGERS & TANIMOTO (1960) S6 coefficient of GOWER & LEGENDRE
s4 = (a+d)/(a+2(b+c)+d) --> d = sqrt(1 - s)
5 = CZEKANOWSKI (1913) or SORENSEN (1948) S7 coefficient of GOWER & LEGENDRE
s5 = 2*a/(2*a+b+c) --> d = sqrt(1 - s)
6 = S9 index of GOWER & LEGENDRE (1986)
s6 = (a-(b+c)+d)/(a+b+c+d) --> d = sqrt(1 - s)
7 = OCHIAI (1957) S12 coefficient of GOWER & LEGENDRE
s7 = a/sqrt((a+b)(a+c)) --> d = sqrt(1 - s)
8 = SOKAL & SNEATH (1963) S13 coefficient of GOWER & LEGENDRE
D. Chessel
2.4
Distances g
en
etiques, taxonomiques, phylog
en
etiques
Pour les donnees genetiques, les definitions des distances sont independantes
des modes dutilisation. Elles sont associees aux mecanismes temporels de la
derive des frequences alleliques et de la separation des populations. Le pourcentage dall`eles partages est une mesure de la proximite genetique entre deux
populations et ram`ene au cas precedent.
Plus generalement, soit A un tableau de frequences alleliques avec t populations (lignes) et m all`eles (colonnes). Soit le nombre de loci. Le locus j donne
m(j) all`eles.
X
m=
m(j)
j=1
a+
ij
akij
pkij =
k=1
akij
a+
ij
p+
ij =
pkij = 1
p+
i+ =
p+
ij =
p+
++ =
j=1
k=1
p+
i+ = tnu
j=1
k=1
k=1
Pm(k)
j=1
Pm(k)
pkaj pkbj
qP
P
j=1
(pkaj )
k=1
m(k)
j=1
(pkbj )
j=1
k=1
Coefficient de coancestralit
e ou distance de Reynolds
v
u P Pm(k) k
u k=1 j=1 (paj pkbj )2
D3 (a, b) = t P
Pm(k)
2 k=1 (1 j=1 pkaj pkbj )
D. Chessel
2 j=1 aj
k=1
D5 (a, b) =
k=1
S05
S20
S11
S17
S15
S02
S19
S14
S13
S23
S06
S18
S16
S08
S10
S03
S12
S25
S01
S21
S09
S24
S07
S22
S04
data(irishdata)
area.plot(irishdata$area.utm, clab = 0)
n0 <- neig(mat01 = irishdata$link > 0)
s.label(irishdata$xy.utm, lab = names(irishdata[[2]]), clab = 1,
neig = n0, add.plot = T)
dist.neig(n0)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
2 3
3 3 4
4 3 4 2
5 5 2 4 5
6 3 3 1 2 3
7 4 5 2 1 6 3
8 1 2 3 3 4 2 4
9 1 4 2 2 5 2 3 2
10 1 3 2 2 4 2 3 1 1
11 4 1 3 4 1 2 5 3 4 3
12 3 4 1 1 5 2 1 3 2 2 4
13 4 1 3 4 2 2 5 3 4 3 1 4
14 3 2 5 5 4 4 6 2 4 3 3 5 3
15 4 3 2 3 3 1 4 3 3 3 2 3 2 4
16 2 1 4 4 3 3 5 1 3 2 2 4 2 1 3
17 3 1 5 5 3 4 6 2 4 3 2 5 2 1 4 1
18 2 2 2 2 3 1 3 1 2 1 2 2 2 3 2 2 3
19 3 2 2 3 2 1 4 2 3 2 1 3 1 3 1 2 3 1
20 4 2 3 4 2 2 5 3 4 3 1 4 2 4 1 3 3 2 1
21 2 3 1 1 4 1 2 2 1 1 3 1 3 4 2 3 4 1 2 3
22 2 4 2 1 5 2 2 3 1 2 4 2 4 5 3 4 5 2 3 4 1
23 3 1 3 3 3 2 4 2 3 2 2 3 1 2 2 1 2 1 1 2 2 3
24 1 4 3 2 6 3 3 2 1 2 5 3 5 4 4 3 4 3 4 5 2 1 4
25 1 3 4 3 5 3 4 1 2 2 4 4 4 3 4 2 3 2 3 4 3 2 3 1
D. Chessel
E4
E5
E6
E7
E8
E9
E10
E11
E12
E13
E14
E15
data(taxo.eg)
w <- taxo.eg[[1]]
names(w)
[1] "genre"
"famille" "ordre"
row.names(w) <- sub("esp", "E", row.names(w))
w1 <- as.taxo(w)
wphy <- taxo2phylog(w1)
plot(wphy, cleaves = 2, cnod = 2)
dist.taxo(w1)^2
E3 E1 E2 E4 E5 E6 E7 E8 E9 E10 E11 E12 E13 E14
E1
2
E2
2 2
E4
2 2 2
E5
2 2 2 2
E6
2 2 2 2 2
E7
2 2 2 2 2 2
E8
8 8 8 8 8 8 8
E9
8 8 8 8 8 8 8 4
E10 8 8 8 8 8 8 8 6 6
E11 8 8 8 8 8 8 8 6 6
4
E12 8 8 8 8 8 8 8 6 6
6
6
E13 8 8 8 8 8 8 8 6 6
6
6
4
E14 8 8 8 8 8 8 8 6 6
6
6
6
6
E15 8 8 8 8 8 8 8 6 6
6
6
6
6
2
Les distances phylogenetiques ont ete abordees dans la fiche cssb3 de la presente
serie. Chaque discipline utilise ou cree des dissimilarites, par exemple lanalyse
des donnees textuelles :
http://www.cavi.univ-paris3.fr/lexicometrica/jadt/
On comprend que le passage par une matrice de dissimilarite, est un outil puissant pour associer des informations de type varie.
Propri
et
es des dissimilarit
es
3.1
Dissimilarit
es euclidiennes
D. Chessel
A
B
C
D
-1
2
2
1
-1
-1
1
2
2.0
1.5
0.5
3.606
1.0 0.5
0.0
1.0
1.414
3.162
3.606
1.0 0.5
0.0
0.5
1.0
1.5
2.0
Oublier alors cette representation et ne garder que les distances. Peut-on trouver
4 points sur un plan qui ont pour distances deux `a deux les valeurs ci-dessous ?
A
B
C
B 3.000
C 3.606 2.000
D 3.606 3.162 1.414
Sans doute ! Mais si on ne connat que les distances, il peut ne pas y avoir de
solutions. Le probl`eme et la solution sont de Gower [7]. En general, la question
est : etant donnee une matrice de distances D = [dij ] entre n entites existe t-il
n points Mi dans un espace euclidien de dimension p tels que :
2
d2ij = kMi Mj k
Si cest le cas, lespace poss`ede une base orthonormee dans laquelle le point Mi
a des coordonnees quon peut mettre sur la ligne i dun tableau X. La matrice
XXt contient alors les produits scalaires hMi | Mj i. Or :
2
1
1 Xn
2
2
mj = kMj k
kMi k
i=1
2
2n
1 Xn
2
kMi k
i=1
n
D. Chessel
Les carres des distances entre les lignes de X sont les carres des distances dorigine. Donc pour une
matrice de distance D quelconque de deux choses lune :
- ou bien 12 d2ij qui est symetrique a toutes ses valeurs propres positives
1
ou nulles. On dit quelle est euclidienne. La matrice X = U 2 donne les coordonnees dun nuage de points dont les distances sont celles de depart. X est
dite representation euclidienne de D. Ces coordonnees sont rangees par ordre
decroissant de variance et si on utilise les premi`eres pour voir une projection du
nuage sur ses axes principaux
on dit quon fait une Analyse en coordonnees principales (PCOA). - ou bien 21 d2ij qui est symetrique a des valeurs propres
negatives. On dit quelle nest pas euclidienne. La representation euclidienne
nexiste pas et la PCOA na pas lieu detre. En pratique on fait souvent comme
si en ignorant le probl`eme des valeurs propres negatives. Gower et Legendre
[8] ont etudie le caract`ere euclidien ou non de nombreuses distances et on sait
souvent si on choisit une methode de calcul qui donnera ou non une matrice de
distances euclidiennes. Par exemple toutes les distances basees sur des indices de
similarite sont euclidiennes alors que les distances les plus utilisees en genetique
ne le sont pas.
data(yanomama)
geo <- as.dist(yanomama$geo)
is.euclid(geo, T, T)
20000
40000
60000
80000 100000
D. Chessel
Cette matrice de dissimilarites nest pas euclidienne pour des raisons simples
darrondis imperatives lors de ledition. Il sagit de distances `a vol doiseau,
donc euclidienne par definition. On corrige le probl`eme par :
geo <- quasieuclid(geo)
s.label(dudi.pco(geo, scan = F)$li, sub = "Distances g
eographiques",
csub = 2, clab = 1.5)
76
45
12
13
11
16
1910
89
15
Distances gographiques
3.2
d = 50
18
17
12
14
1.0
1.0
1.5
Distances + 0.1
1.5
Distances
C
A
0.5
0.5
0.5
0.5
0.5
0.5
1.0
1.5
0.5
0.5
1.0
0.5
0.5
0.5
0.5
1.5
1.0
1.0
1.0
Distances +0.6
1.5
1.5
Distances +0.20083
0.5
0.5
1.5
0.5
0.5
1.0
1.5
D. Chessel
Il est impossible de construire une figure qui respecte ces distances. Si on ajoute
0.1 la figure grossit et on pense que cest la voie dune solution car la petite
distance augmente relativement plus vite que la grande.
Il existe une valeur unique (0.20083) qui donne les quatre points dans un
plan. Ensuite le quatri`eme point monte dans la troisi`eme dimension et la figure
nest plus plane mais la configuration encore euclidienne.
La fonction cailliez donne la constante avec la solution decrite dans [3].
gen <- as.dist(yanomama$gen)
is.euclid(gen)
[1] FALSE
gen <- cailliez(gen)
s.label(dudi.pco(gen, scan = F)$li, sub = "Distances g
en
etiques",
csub = 2, clab = 1.5)
d = 20
19
8
13
12
11
10 16
9
18
3
17
5
4
15
1
2
14
Distances gntiques
D. Chessel
d = 100
12
13
11
1718
10
19
16
15
14
4
1
3
2
9
8
6
7
Distances anthropomtriques
3.3
Dissimilarit
es ultram
etriques
D. Chessel
library(clue)
x = c(0, 1, 1, 2, 1, 9, 9, 10, 4, 4, 6, 6, 8)
y = c(1, 0, 1, 1, 2, 4, 5, 4, 8, 10, 8, 10, 10)
xy = cbind.data.frame(x, y)
par(mfrow = c(2, 2))
s.label(xy, clab = 2)
dxy <- dist(xy)
print(dxy, dig = 2)
1
2
3
4
5
6
7
8
9
10
11
12
2
1.4
3
1.0 1.0
4
2.0 1.4 1.0
5
1.4 2.0 1.0 1.4
6
9.5 8.9 8.5 7.6 8.2
7
9.8 9.4 8.9 8.1 8.5 1.0
8 10.4 9.8 9.5 8.5 9.2 1.0 1.4
9
8.1 8.5 7.6 7.3 6.7 6.4 5.8 7.2
10 9.8 10.4 9.5 9.2 8.5 7.8 7.1 8.5 2.0
11 9.2 9.4 8.6 8.1 7.8 5.0 4.2 5.7 2.0 2.8
12 10.8 11.2 10.3 9.8 9.4 6.7 5.8 7.2 2.8 2.0 2.0
13 12.0 12.2 11.4 10.8 10.6 6.1 5.1 6.3 4.5 4.0 2.8 2.0
hsxy <- hclust(dxy, "complete")
plot(hsxy, hang = -1)
ultrasxy <- cl_ultrametric(hsxy)
print(ultrasxy, dig = 2)
Dissimilarities using Ultrametric distances:
[,1]
[,2]
[,3]
[,4]
[,5]
[,6]
[,7]
[1,] 1.414214
[2,] 1.000000 1.414214
[3,] 2.000000 2.000000 2.000000
[4,] 2.000000 2.000000 2.000000 1.414214
[5,] 12.206556 12.206556 12.206556 12.206556 12.206556
[6,] 12.206556 12.206556 12.206556 12.206556 12.206556 1.000000
[7,] 12.206556 12.206556 12.206556 12.206556 12.206556 1.414214 1.414214
[8,] 12.206556 12.206556 12.206556 12.206556 12.206556 8.485281 8.485281
[9,] 12.206556 12.206556 12.206556 12.206556 12.206556 8.485281 8.485281
[10,] 12.206556 12.206556 12.206556 12.206556 12.206556 8.485281 8.485281
[11,] 12.206556 12.206556 12.206556 12.206556 12.206556 8.485281 8.485281
[12,] 12.206556 12.206556 12.206556 12.206556 12.206556 8.485281 8.485281
[,8]
[,9]
[,10]
[,11]
[,12]
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,] 8.485281
[9,] 8.485281 2.000000
[10,] 8.485281 2.828427 2.828427
[11,] 8.485281 2.828427 2.828427 2.000000
[12,] 8.485281 4.472136 4.472136 4.472136 4.472136
plot(dxy, ultrasxy)
abline(c(0, 1))
z <- dudi.pco(ultrasxy, scan = F)$li
z$A1 <- jitter(z$A1, amount = 0.2)
z$A2 <- jitter(as.numeric(z$A2), amount = 0.2)
s.label(z, clab = 0)
D. Chessel
d=2
10 12 13
9
Cluster Dendrogram
4
0
2
1
3
4
5
8
6
7
13
9
10
11
12
7
6 8
Height
12
11
5
1 3 4
2
dxy
hclust (*, "complete")
d=2
8 10
6
2
ultrasxy
10
12
dxy
13 points sont dans un plan. On connait leurs coordonnees. La matrice de distances euclidiennes (au sens strict) :
p
dab = (xa xb )2 + (ya yb )2
est envoye dans une classification hierarchique (se mefier, il y en a beaucoup !)
qui donne un dendrogramme (classe hclust). La classification donne une distance ultramerique, donc euclidienne et la representation euclidienne de cette
nouvelle distance est possible. Les CAH sont des pratiques qui concentrent laspect classification alors que la PCO concentre laspect ordination. On melange
souvent les deux.
Noter que la nouvelle distance est superieure ou egale `a la premi`ere pour tous
les couples (on dit quelle dominante) Cest la plus petite qui a cette propriete.
On dit que cest lultrametrique dominante minimale.
par(mfrow = c(1, 2))
hcxy <- hclust(dxy, "single")
plot(hcxy, hang = -1)
ultracxy <- cl_ultrametric(hcxy)
plot(dxy, ultracxy)
abline(c(0, 1))
D. Chessel
ultracxy
5
4
2
1
3
8
6
7
13
12
11
9
10
Height
Cluster Dendrogram
dxy
hclust (*, "single")
8 10
dxy
Avec cette methode, la nouvelle distance est toujours plus petite. On dit quelle
est sous-dominante. Mais cest la plus grande qui a cette propriete. On dit
que cest lultrametrique sous-dominante maximale. Dans la librairie de Kurt
Hornik, on trouve une fonction qui donne lultrametrique la plus proche, au
sens des moindres carres (crit`ere L2) ou des moindres differences en valeurs
absolues (crit`ere L1) :
par(mfrow = c(1, 2))
ultra2 <- ls_fit_ultrametric(dxy)
plot(ultra2)
plot(dxy, ultra2)
abline(c(0, 1))
2 4 6 8
5
1
3
2
4
8
6
7
13
9
10
11
12
ultra2
8 10
dxy
Pour en savoir plus, voir louvrage de reference pour les ecologues [14] ou les
documents de cours [29] [1] [13] disponibles sur le reseau. 1 .
Des esp`
eces aux communaut
es
4.1
Elle se pose d`es que lobjet detude est une collection, collection darbres dans
un foret, dindividus dans une communaute, collection de g`enes, de sequences,
collection dentites non toutes identiques.
1 Acc`
es :
www.imep-cnrs.com/mroux/algoclas.pdf
www.iup.univ-avignon.fr/Etudes/Master/TAIM//SupportsCours/Classification/
coursClassification.pdf
ses.enst.fr/lebart/DEA/CLassif.pdf
D. Chessel
La figure est explicite. Que vaut la variabilite des elements dune collection pour
une variable binaire (1 est-il plus divers que 2 ?) pour une variable quantitative
(la diversite est nulle en 4 mais, entre 3 et 5, lequel est-il le plus divers ?) pour
une variable quantitative et deux variables qualitatives (6) pour un ensemble de
variables complexes (7) pour des variables redondantes (8) pour des proportions
egales mais des effectifs differents (9-10) pour des choses non comparables (11)
ou des objets spatialises (12-13). La question nest pas simple et la bibliographie
associee est enorme.
Parmi les bases solides on retient que la diversite est une qualite definie pour
une distribution dobjets ranges par categories. On en a dabord parle pour
les individus dune communautes ranges par esp`ece (diversite taxonomique) ou
pour les individus dune societe ranges par categories de ressources (inegalite
sociale). Le nombre de categories (richesse) est lindice le plus immediat mais
quand les classes sont artificielles cest le mode de distribution entre classes qui
doit etre decrit :
Plus particuli`erement, le fait daugmenter uniformement de cinq semaines le nombre minimal de semaines dadmissibilite exacerberait
Logiciel R version 2.6.1 (2007-11-26) cssb9.rnw Page 19/36 Compil
e le 2008-03-31
Maintenance : S. Penel, URL : http://pbil.univ-lyon1.fr/R/cours/cssb9.pdf
D. Chessel
R (p) =
X
1
pi
1
p
i=1
1
1 =s1
pi
Lindice de Simpson
R (p) = (1 p)
s
X
pi (1 pi ) = 1
i=1
s
X
p2i
i=1
Lindice de Shannon
R (p) = ln (p)
s
X
pi ln (pi )
i=1
3
2
0
Raret
Richesse
Shannon
Simpson
0.0
0.2
0.4
0.6
0.8
1.0
Proportion
2 Lassurance-ch
omage et la redistribution du revenu - Ao
ut 1995 sur http://www11.hrsdc.
gc.ca/
D. Chessel
Definir la diversite par la richesse, cest donner une preference absolue aux esp`eces rares (valeur supreme de la coche naturaliste). Le formalisme de Hill [11]
a enrichi la collection dindices `a partir de
1
N 12 = ( p1 + p2 + ... ps )
4 a = 1 Shannon
N1 = lim (Na ) = exp
a1
s
X
pi ln (pi )
i=1
5 a = 2 Simpson inverse
N2 = P s
i=1
p2i
N Ni
Xs
n
1
E (Sn ) =
i=1
N
n
[12] 1 =
N
N 1
i
Ps
Ps
1 i=1 p2i
2 = 1 i=1 p2i
4 =
2
i=1 pi
1
2
i=1 pi N
1
Ps
Ps
5 =
3 =
Ps 1
i=1
p2i
P
1 si=1 p2i
Ps
2
i=1 pi
[17]
D=
Xs
i=1
ni (ni 1)
N (N 1)
Xs
i=1
p2i
[19]
E=
pPs
1
i=1
1
s
p2i
D. Chessel
[25]
pPs
2
1
i=1 pi
D=
1
1 N
On sait depuis longtemps que ces quantites sont tr`es correlees et, globalement,
explore le meme point de vue.
Une petite fonction pour choisir des couleurs :
editcolor <- function() {
w <- matrix(0, 21, 21)
par(mar = c(0.1, 0.1, 0.1, 0.1))
plot(c(1, 22), c(1, 22), type = "n")
rect(col(w), row(w), col(w) + 1, row(w) + 1, col = couleurs)
w <- as.numeric(locator(1))
w <- floor(w)
num <- (w[1] - 1) * 21 + w[2]
return(couleurs[num])
}
Implanter une petite fonction pour representer un vecteur dans le plan dexperience qui nous concerne :
foo1 <- function(z = runif(16), sub = "") {
sn1 <- c("I", "II", "III", "IV")
col1 <- c("chartreuse4", "steelblue2", "firebrick1", "springgreen")
reg.num <- rep(1:4, rep(4, 4))
str.num <- rep(1:4, 4)
plot(str.num, z, type = "n", xlim = c(0.5, 4.5), ax = F, xlab = "Strates")
axis(1, 1:4, sn1)
axis(2)
for (k in 1:4) lines(1:4, z[reg.num == k], type = "b", col = col1[k],
lwd = 2)
s.label(cbind.data.frame(str.num, z), lab = names(ecomor$habitat),
add.p = T)
title(main = sub, cex.main = 1.5)
}
D. Chessel
Pr2
Ca2
Ch2
Pr3
II
III
Bu2
Bu3
Ch3
Ca3
3.0
2.5
Pr4
Ch4
Pr1
2.0
10
20
Bu3
Ch3
Ca3
Pr1
Ca1
Ch1
Bu1
Bu4
30
Ca4
Bu2
Bu1
Shannon
3.5
Richesse
Pr2
Ca2
Ch2
Pr3
II
III
Ca1
Ch1
IV
Strates
30
Ca4
Bu2
Pr3
Bu3
Ch3
Ca3
10
I
5
II
III
IV
Pr1
Ca1
Ch1
Pr2
Ca2
Ch2
Pr3
II
III
Strates
4.2
Pr4
Ch4
Ca1
Ch1
Bu4
Bu1
20
Pr2
Ca2
Ch2
Bu3
Ch3
Ca3
Hill
Ca4
Bu4
Pr4
Ch4
Pr1
Bu2
IV
Strates
Simpson
Bu1
Ca4
Bu4
Pr4
Ch4
IV
Strates
Diversit
e et diff
erences
Nous sommes `
a pied duvre. Nous avons 16 habitats de 4 types dans 4
regions. Nous voulons comparer les habitats, comparer leur contenu, leurs proprietes. Nous voulons faire un bilan des ressemblances et des differences. Nous
voulons comparer la variabilite et faire un bilan typologique. Nous voulons avoir
plusieurs points de vue. Vaste programme.
Nous avons besoin dune theorie generale pour reperer les possibles : C.R.
Rao[26] [27] [28] nous la fournit. Les esp`eces sont differentes, plus ou moins. Les
habitats sont diversifies, plus ou moins en fonctions des differences des esp`eces
qui y sont. Les habitats sont plus ou moins differents entre eux selon les differences qui existent entre les esp`eces de lun et ceux de lautre. S. Pavoine [, p.
46] montre la naissance de cette idee en ecologie [10] o`
u elle sera confidentielle
jusqu`
a sa mise en usage en biologie marine [32], puis en genetique (les esp`eces
sont remplacees par des sequences nucleotidiques) [20] qui conduira aux travaux
de Rao.
On peut utiliser, comme on voudra :
le langage ecologique : un communaute est une collection ponderee desp`eces ;
le langage genetique : une population est une collection ponderee de g`enes ;
le langage statistique : une collection est une distribution ponderee de
categories.
Les categories de la collection sont au nombre de s. Une collection est un element
de lensemble :
P = {p = (p1 , , pi , , ps )
s
X
pi = 1}
i=1
D. Chessel
Les categories montrent des differences consignees dans une matrice de distances
a s lignes et s colonnes :
`
D = [dij ]
1is 1js
p+q
) divD (p) divD (q)
D (p, q) = 2 2divD (
2
Ces quelques elements dintroduction suffisent pour comprendre quil ne sagit
pas dun bricolage mais dune structure de raisonnement tr`es ouverte. En effet,
supposons que toutes les esp`eces soient egalement differentes entre elles :
i 6= j dij = 2
Alors la diversite dune collection est :
div(p) =
i=s
i=s X
X
pi pj ij =
i=s
X
i=1 i=1
pi (1 pi ) = 1
i=1
i=s
X
p2i
i=1
i=s
X
(pi + qi )2
i=1
) 2(1
i=s
X
i=1
p2i ) 2(1
i=s
X
qi2 ) =
i=1
i=s
X
(pi qi )2
i=1
Ce qui signifie que penser chaque esp`ece differente de chacune des autres exactement de la meme mani`ere, cest mesurer la diversite par lindice de Simpson
et assure la typologie des sites par une ACP centree.
d0 <- matrix(sqrt(2), nrow(ecomor$habitat), nrow(ecomor$habitat))
diag(d0) <- 0
d0 <- as.dist(d0)
quad1 <- divc(ecomor$habitat, d0)[, 1]
sim1 <- diversity(as.matrix(ecomor$habitat), index = "simpson",
MARGIN = 2)
all(abs(quad1 - sim1) < 1e-14)
[1] TRUE
D. Chessel
Diversit taxonomique
3.2
Pr3
Bu2
Ch3
Bu3
Ca3
Bu4
Ch4
Ca4
Ch2
II
III
Ca4
Bu3
Pr3
Bu4
Ch4
Pr4
Pr1
Bu1
III
IV
Pr2
Ch2
2.4
Ch1
Bu1
Ca1
Ch1
IV
II
Strates
Diversit comportementale
Diversit alimentaire
Pr4
Ca3
Bu3
Ch3
Ch4
Ca2
Bu2
Ch2
Pr2
Bu1
Pr1
Ca4
Bu4
Pr3
Ch1
Ca1
Strates
Ca2
Ca3
Ch3
Bu2
8 10
Ca1
Ca2
Pr4
Pr2
Pr1
2.8
14
Diversit morphologique
Pr2
Pr3
Pr1
Ch2
Ch1
Bu1
Bu2
Ca2
Ch3
Ca3
Bu3
Ca4
Pr4
Ch4
Bu4
II
III
IV
Ca1
II
III
IV
Strates
Strates
4.3
D. Chessel
E033
E034
E035
E070
E071
E001
E031
E100
E032
E069
E101
E102
E099
E030
E121
E048
E104
E057
E056
E127
E064
E025
E063
E098
E065
E066
E027
E026
E124
E067
E128
E129
E053
E051
E052
E094
E023
E024
E125
E093
E054
E055
E095
E050
E092
E126
E075
E076
E074
E077
E097
E061
E062
E096
E008
E106
E090
E045
E007
E105
E006
E029
E020
E021
E022
E049
E122
E058
E088
E047
E010
E044
E082
E078
E079
E080
E081
E083
E123
E028
E111
E015
E018
E019
E118
E119
E120
E016
E017
E112
E113
E114
E115
E116
E117
E046
E042
E009
E043
E089
E107
E108
E109
E011
E012
E013
E014
E091
E110
E084
E086
E040
E087
E041
E039
E085
E059
E060
E038
E073
E036
E002
E003
E004
E037
E072
E005
E103
E068
E102
E111
E119
E120
E112
E103
E101
E114
E115
E116
E104
E125
E105
E109
E106
E117
E099
E129
E075
E074
E082
E078
E081
E070
E076
E079
E080
E068
E071
E069
E098
E083
E089
E091
E086
E087
E073
E072
E095
E077
E088
E097
E085
E093
E096
E090
E084
E094
E092
E031
E064
E063
E065
E061
E044
E043
E040
E059
E060
E036
E033
E034
E056
E067
E054
E049
E058
E047
E042
E041
E037
E035
E030
E048
E066
E045
E046
E039
E038
E057
E051
E052
E062
E053
E032
E055
E050
E029
E011
E002
E028
E019
E014
E003
E005
E124
E123
E001
E026
E004
E126
E100
E024
E007
E006
E025
E027
E023
E008
E010
E015
E016
E017
E012
E108
E127
E020
E021
E022
E018
E009
E013
E121
E122
E118
E113
E107
E128
E110
Bu1
Bu2
Bu3
Bu4
Ca1
Ca2
Ca3
Ca4
Ch1
Ch2
Ch3
Ch4
Pr1
Pr2
Pr3
Pr4
Bu1
Bu2
Bu3
Bu4
Ca1
Ca2
Ca3
Ca4
Ch1
Ch2
Ch3
Ch4
Pr1
Pr2
Pr3
Pr4
Les colonnes du tableau habitats-esp`eces sont ordonnees, en haut, par la taxonomie. En bas, cest exactement le meme tableau `a une permutation des colonnes
pr`es.
Les categories de site dalimentation font une typologie des esp`eces, simple
avec trois grands types et des nuances. Voir le tableau suffit `a comprendre son
contenu :
D. Chessel
E033
E034
E035
E070
E071
E001
E031
E100
E032
E069
E101
E102
E099
E030
E121
E048
E104
E057
E056
E127
E064
E025
E063
E098
E065
E066
E027
E026
E124
E067
E128
E129
E053
E051
E052
E094
E023
E024
E125
E093
E054
E055
E095
E050
E092
E126
E075
E076
E074
E077
E097
E061
E062
E096
E008
E106
E090
E045
E007
E105
E006
E029
E020
E021
E022
E049
E122
E058
E088
E047
E010
E044
E082
E078
E079
E080
E081
E083
E123
E028
E111
E015
E018
E019
E118
E119
E120
E016
E017
E112
E113
E114
E115
E116
E117
E046
E042
E009
E043
E089
E107
E108
E109
E011
E012
E013
E014
E091
E110
E084
E086
E040
E087
E041
E039
E085
E059
E060
E038
E073
E036
E002
E003
E004
E037
E072
E005
E103
E068
foliage
ground
twig
E117
E116
E115
E114
E113
E112
E017
E016
E111
E076
E088
E124
E123
E041
E119
E118
E018
E058
E029
E056
E061
E002
E004
E120
E098
E122
E072
E037
E003
E049
E036
E060
E059
E022
E021
E074
E020
E047
E086
E026
E027
E121
E048
E068
E073
E091
E109
E006
E105
E007
E096
E062
E092
E095
E055
E054
E093
E125
E052
E051
E053
E066
E025
E064
E104
E030
E099
E069
E100
E032
E038
E005
E103
E084
E110
E014
E013
E108
E107
E089
E043
E009
E015
E028
E083
E081
E080
E079
E078
E082
E010
E045
E090
E106
E008
E077
E050
E024
E023
E094
E067
E063
E127
E057
E101
E102
E011
E012
E126
E001
E031
E075
E046
E087
E044
E128
E065
E071
E035
E033
E034
E042
E129
E097
E019
E085
E039
E070
E040
bush
trunk
aerial
foliage
ground
twig
bush
trunk
aerial
Lessentiel est dans le fait que la distance entre esp`eces, quand elle est euclidienne, introduit une distance entre sites qui est aussi euclidienne. On peut
alors faire une representation euclidienne des esp`eces et des sites dun seul coup.
Ils sont en effet dans un meme espace euclidien, parceque les esp`eces definissent
cet espace par leur distance et parce que les sites sont des centres de gravite
(distributions de frequences sur les esp`eces). On represente ainsi la typologie
des sites induite par la distances entre esp`eces. Un exemple dutilisation en microbiologie est dans [5]. En fait, cette strategie ici effleuree recouvre une tr`es
large gamme danalyses connues (voir [22]).
par(mfrow = c(2, 2))
d1 <- dist.quant(ecomor$morpho, 3)
q0 <- dpcoa(ecomor$habitat, d1, scan = F)$l2[,
foo1(q0, sub = "Typologie morphologique")
d2 <- dist.taxo(ecomor$taxo)
q0 <- dpcoa(ecomor$habitat, d2, scan = F)$l2[,
foo1(q0, sub = "Typologie taxonomique")
d3 <- dist(forsub)
q0 <- dpcoa(ecomor$habitat, d3, scan = F)$l2[,
foo1(q0, sub = "Typologie comportementale")
d4 <- dist.prop(ecomor$diet, 5)
q0 <- dpcoa(ecomor$habitat, d4, scan = F)$l2[,
foo1(q0, sub = "Typologie alimentaire")
1]
1]
1]
1]
D. Chessel
d = 0.2
Base
Pr3
A5
A3
A4
Eigenvalues
Pr2
Ch3
Pr1
Ch2
Ch4
Bu3
Bu4
Ch1
Ca4Ca3
Ca2
A1
Pr4Bu1
Bu2
Ca1
A2
d = 0.2
Rao Divcs
d = 0.2
x1
Pr3
Pr4 Bu1
Bu2
Pr2
Ch3
Ch4
Bu3
Bu4
Ca4 Ca3
Pr1
Ch2
Ca2
Ch1
Ca1
0.05
0.15
0.25
0.35
0.45
0.55
D. Chessel
Ca1
Ch4
Ch3
Pr3
Pr1
Pr2
II
III
Ca3
Ch3
Ch4
Ca4
Bu4
Pr4
IV
Pr1
Bu2
Pr2
Bu3
Pr3
Bu4
Bu1
II
III
IV
Pr4
Strates
Strates
Typologie comportementale
Typologie alimentaire
Ca1
Ch2
Pr2
Ca2
Ch4
Bu1
0.2
Bu2
II
Ca2
0.1
0.0
Pr3
Ch3
Ca3
Ch1
Pr1
Pr4
Ca4
Bu3
Bu4
III
IV
0.1
0.2
Pr1
0.3
Ch1
0.4
Ca1
Ch2
Ca2
0.0
Bu3
0.2
0.6
Bu2
Ch1
Ca1
0.2
Ca3
Ca4
Bu1
0.4
Ch2
Ca2
Typologie taxonomique
Ch1
0.0
0.4
0.8
Typologie morphologique
Ch2
Bu2
Pr2
Ca3
Pr3
Ch3
Bu3
Ca4
II
III
IV
Bu1
Strates
Ch4
Pr4
Bu4
Strates
Cette figure est assez extraordinaire. On nutilise de chaque analyse que le premier axe, qui est toujours clairement pertinent (verifier sur les valeurs propres)
et on represente la coordonnee factorielle des habitats. Ce qui frappe est la diversite des resultats. Chacun peut etre discute. La morphologie, profondement
liee `
a la taxonomie, donne une separation continentale. La convergence mediterraneenne est explicite pour les lieux dalimentation alors que loriginalite
de la Californie apparat dans les regimes alimentaires. Larchitecture vegetale
intervient surtout dans le troisi`eme. Ce qui conduit `a la classe des kdist :
d5 <- dist.binary(ecomor$habitat, 1)
ecomor.kd <- kdist(d1, d2, d3, d4, d5)
names(ecomor.kd) = c("morpho", "taxo", "forsub", "diet", "habitat")
s.corcircle(dudi.pca(as.data.frame(ecomor.kd), scan = FALSE)$co)
forsub
habitat
taxo
diet
morpho
D. Chessel
4.4
Maximiser la diversit
e
La seconde question abordee par S. Pavoine est ouverte dans [4]. Elle est
posee par des biologistes qui ont souhaite avoir une normalisation des mesures
de diversite. Si en multiplie par 2 une distance, la diversite quadratique est
multipliee par 4 et les probl`emes dunite de mesure sont directement poses. On
peut penser `
a normer par :
divD (p) =
1X
divD (p)
pi pj d2ij divD
(p) =
2 i,j
maxqP (divD (q))
D. Chessel
Pour une distance euclidienne, les points sont dans un espace euclidien et il
existe toujours une sph`ere plus petite qui contient tous les points. Les points
de cette sph`ere ont seuls un poids non nuls pour maximiser la diversite quadratique. La fonction divcmax donne une solution numerique dans tous les cas. La
figure montre comment repartir les francais pour maximiser le carre moyen de
la distance entre deux individus, ce qui experimentalement est sans interet. La
theorie dit que cest un fait general et que lentropie quadratique ne se maximise
pas avec une signification ecologique.
On montre alors [24] que ce defaut majeur disparat avec les distances ultrametriques. En effet, dans ce cas, il existe un point centre dune sph`ere sur
laquelle on trouve toutes les observations. La distribution qui maximise la diversite ne montre alors aucun poids nul. Ce poids est une mesure de loriginalite
de chaque element[23]. On comprend facilement son fonctionnement. Reprenons
les donnees morphometriques avec plus dattention :
morlog <- log(ecomor$morpho)
round(apply(morlog, 2, var), dig = 3)
wingl taill culml bilh billw tarsl midtl weig
0.150 0.159 0.157 0.224 0.156 0.208 0.160 1.213
Toutes les variables ont des variances comparables : le poids fait exception. Or
le poids est en g, equivalent dun mm3 en dimension, il aurait fallu travailler
avec la racine cubique du poids, donc avec le tiers du logarithme, donc avec une
variance 9 fois plus petite.
morlog$weig = morlog$weig/3
round(apply(morlog, 2, var), dig = 3)
wingl taill culml bilh billw tarsl midtl weig
0.150 0.159 0.157 0.224 0.156 0.208 0.160 0.135
morlog <- morlog - apply(morlog, 1, mean)
D. Chessel
d = 0.5
E074
E032
E100
E070
taill
E071
culml
E046
wingl weig
E034
E033
E035
E081
billw
tarsl
E078
midtl
E079
E056
bilh
E026
E071
E033
E034
E035
E078
E079
E081
4 Sources :
E070 Patagona gigas http://www.arthurgrosset.com/sabirds/gianthummingbird.html
E071 Sephaniodes sephaniodes http://www.greglasley.net/gbfire.html
E033
Archilochus
alexandri
http://weaselhead.org/learn/birds_black-chinned_
hummingbird.asp
E034 Calypte anna http://www.oceanoasis.org/fieldguide/caly-ann.html
E035 Calypte costae http://www.birdphotography.com/species/cohu.html
5 Sources :
E046 Chamaea fasciata http://stockpix.com/stock/animals/birds/songbirds/wrens/
4484.htm
E078 Pteroptochos tarnii http://www.avesdechile.cl/184.htm
E079 Pteroptochos megapodius http://www.camacdonald.com/birding/MoustachedTurca(NL)
.jpg
E081 Scelorchilus rubecula http://www.avesdechile.cl/174.htm
D. Chessel
E074
E032
E100
E056
E026
6 Sources :
E074 Sylviorthorhynchus desmursii http://www.avesdechile.cl/327.htm
E032
Zenaida
macroura
http://animaldiversity.ummz.umich.edu/site/accounts/
information/Zenaida_macroura.html
E100 Streptopelia turtur http://www.oiseaux.net/oiseaux/columbiformes/tourterelle.
des.bois.html
7 Sources :
E056 Pheucticus melanocephalus http://www.birdphotography.com/species/bhgr.html
E026 Pyrrhula pyrrhula http://www.oiseaux.net/oiseaux/passeriformes/bouvreuil.
pivoine.html
D. Chessel
La variance nest pas une bonne mesure biologique. Elle sinteresse bien
trop aux extremes. Elle consid`ere quon augmente la diversite en enlevant les
d = 0.5
d = 0.5
Apodiformes
Columbiformes
Cuculiformes
Tinamiformes
Passeriformes
Piciformes
Galliformes
0.025
0.075
0.125
Le debat methodes-donnees-procedures est alors une source inepuisable de recherches. Il faut bien sarreter `a un moment donne !
D. Chessel
R
ef
erences
[1] P. Bellot. Methodes de classification et de categorisation de textes, 2003.
[2] J. Blondel, F. Vuilleumier, L.F. Marcus, and E. Terouanne. Is there ecomorphological convergence among mediterranean bird communities of chile,
california, and france. In M.K. Hecht, B. Wallace, and R.J. MacIntyre,
editors, Evolutionary Biology, pages 141213. Vol. 18. Plenum Press, New
York, 1984.
[3] F. Cailliez. The analytical solution of the additive constant problem. Psychometrika, 48 :305310, 1983.
[4] S. Champely and D. Chessel. Measuring biological diversity using euclidean
metrics. Environmental and Ecological Statistics, 9 :167177, 2002.
[5] P.B. Eckburg, E.M. Bik, C.N. Bernstein, E. Purdom, L. Dethlefsen,
M. Sargent, S.R. Gill, K.E. Nelson, and D.A. Relman. Diversity of the
human intestinal microbial flora. Science, 308 :16351638, 2005.
[6] C. Gini. Variabilit
a e mutabilita. Technical report, Universite di Cagliari
III, Parte II, 1912.
[7] J.C. Gower. Some distance properties of latent root and vector methods
used in multivariate analysis. Biometrika, 53 :325338, 1966.
[8] J.C. Gower and P. Legendre. Metric and euclidean properties of dissimilarity coefficients. Journal of Classification, 3 :548, 1986.
[9] D.L. Hawksworth. Biodiversity. Measurement and Estimation. Chapman
& Hall with the Royal Society, 1995.
[10] J.A. Jr. Hendrickson and P.R. Ehrlich. An expanded concept of species
diversity. Notulae Naturae, 439 :16, 1971.
[11] M.O. Hill. Diversity and evenness : a unifying notation and its consequences. Ecology, 54 : 427-432 :54 : 427432, 1973.
[12] S.H. Hurlbert. The non-concept of species diversity : a critique and alternative parameters. Ecology, 52 : 577-586 :52 : 577586, 1971.
[13] L. Lebart. Quelques methodes de classification, 2003.
[14] L. Lebart, A. Morineau, and M. Piron. Statistique exploratoire multidimensionnelle. Dunod, Paris, 1995.
[15] P. Legendre and L. Legendre. Numerical ecology. Elsevier Science BV,
Amsterdam, 2nd english edition edition, 1998.
[16] J.C. Lingoes. Somme boundary conditions for a monotone analysis of symmetric matrices. Psychometrika, 36 :195203, 1971.
[17] A.E. Magurran. Ecological diversity and its measurement. Croom Helm
Limited, London, 1988.
D. Chessel