Sunteți pe pagina 1din 68

Université de Bretagne Sud

Institut Universitaire Professionnalisé


Informatique et Statistique
Rue Yves Mainguy
56000 Vannes

Rapport de stage

« Méthodes géostatistique pour


l’interpolation et la modélisation en 2D/3D
des données spatiales. »
Par Wilfried DESPAGNE
Master 2 / 2005-2006

Date de soutenance : Juin 2006

Données récoltées

Estimation Corrélation

Variogramme

Modélisation 3D

Coupe horizontale

Responsable de stage : Valérie MONBET, maître de conférence à UBS


Remerciements

C’est un plaisir pour moi de remercier l’ensemble des chercheurs du groupe LEMEL et plus
particulièrement Evelyne GOUBERT, David MENIER et Valérie MONBET. Ces derniers
m’ont accordé beaucoup de leur temps, m’ont fait bénéficier de leur savoir et de leur
expérience tout au long de ce travail. Ils ont été d’une aide précieuse pour comprendre la
problématique, la cerner et y répondre.

2
Résumé

Les travaux de recherche présentés dans ce rapport ont été effectués au sein du laboratoire
LEMEL (Laboratoire d’Etude et Modélisation des Environnements Littoraux). Il parcourt
différentes techniques d’interpolations spatiales. A partir d’un échantillon de données
sédimentologiques, géophysiques, et bathymétriques, il s’agit de réaliser des cartes 2D/3D
indiquant la profondeur au toit du socle rocheux à l’est de l’île aux Moines dans le Golfe du
Morbihan. Les méthodes d’interpolations sont également utilisées pour localiser des zones à
forte présence en crépidules au nord ouest de l’île de Bailleron. Ces deux applications
concrètes permettent d’opposer les méthodes déterministes aux méthodes géostatistiques. Les
fondements mathématiques des techniques d’interpolations spatiales sont analysés. Des
préconisations générales sont données, sur l’usage des modèles d’interpolation pour la
cartographie.

Mots-clés : coordonnées géographiques, interpolation, extrapolation, lissage, estimation,


sectorisation, variable régionalisé, géostatistique, variogramme, krigeage, validation croisée,
toit de substratum.

Summary

The research tasks presented in this memory were carried out within laboratory LEMEL
(Laboratory for Study and Modelling of the Littoral Environments). It goes through various
techniques of spatial interpolations. From a sample of ‘sedimentologics’, geophysics, and
bathymetric data, it involves of realizing 2D / 3D maps modelling the depth to the roof of the
rocky in the Morbihan’s bay. The methods of interpolations are also used to localize zones
with strong presence of ‘crépidules’ in the western North of Bailleron’s island. These two
concrete applications will oppose the determinist methods against the géostatistics methods.
The mathematical bases as well as their demonstrations are examined. General
recommendations are giving, on the usage of the models of interpolation for the mapping.

Keywords: geographic coordinated, interpolation, extrapolation, smoothing, estimation,


division into sectors, regionalized variable, geostatistic, variogram, model fitting, kriging,
model validation, roof of substratum.

3
REMERCIEMENTS.......................................................................................................................................................2
RÉSUMÉ...................................................................................................................................................................3
INTRODUCTION : PRÉSENTATION DE L’ÉTUDE..................................................................................................................6
CHAPITRE I : DIFFÉRENTS OUTILS DE CARTOGRAPHIE......................................................................8
1/ INTERPOLATION SPATIALE.......................................................................................................................................8
1.1/ Forme générale de l’interpolation linéaire..............................................................................................8
1.1.1/ Méthodes d’interpolation par partitionnement de l’espace ..............................................................................8
1.1.1.1/ Polygones de Thiessen .................................................................................................................................8
1.1.1.2/ Triangulation.................................................................................................................................................9
1.1.2 / Méthodes d’interpolation barycentriques.......................................................................................................11
1.1.2.1/ Plus proches voisins ...................................................................................................................................11
1.1.2.2/ Méthode de l’inverse des distances..............................................................................................................11
1.1.3/ Résumé...........................................................................................................................................................12
1.2/ Modèles d’estimation géostatistique......................................................................................................12
CHAPITRE II : MÉTHODES DE LA GÉOSTATISTIQUE LINÉAIRE......................................................14
1/ NOTATIONS ET DÉFINITIONS..................................................................................................................................14
1.1/ Notion de variable régionalisée et notion de champ..............................................................................14
1.2/ Notations................................................................................................................................................14
2/ HYPOTHÈSES DE BASE..........................................................................................................................................15
3/ VARIOGRAMME...................................................................................................................................................17
3.1/ Variogramme théorique et variogramme expérimental.........................................................................17
3.2/ Propriétés du variogramme...................................................................................................................18
3.3/ Modélisation du variogramme...............................................................................................................19
3.4/ Isotropie et anisotropie..........................................................................................................................20
3.5/ Cas multivarié : calcul des variogrammes croisés................................................................................20
4/ KRIGEAGE..........................................................................................................................................................21
4.1/ Hypothèses et contraintes......................................................................................................................21
4.2/ Estimateur de krigeage...........................................................................................................................23
4.3/ Cas multivariable : Cokrigeage.............................................................................................................23
4.4/ Conclusion..............................................................................................................................................24
CHAPITRE III : RECUEIL ET ANALYSE PRÉALABLE DE L’INFORMATION...................................25
1/ LOCALISATION DE LA ZONE D’ÉTUDE......................................................................................................................25
2/ SOURCE DES DONNÉES..........................................................................................................................................25
2.1/ Informations provenant des campagnes sismiques................................................................................26
2.1.1/ Recueil des données sismiques......................................................................................................................26
2.1.2/ Plan d’échantillonnage..................................................................................................................................27
2.2/ Bathymétrie : Information auxiliaire....................................................................................................28
3/ ETUDE EXPLORATOIRE DE L’ÉCHANTILLON DE LA VARIABLE D’INTÉRÊT........................................................................29
3.1/ Histogrammes et statistiques descriptives..............................................................................................29
3.2/ Comportements directionnels : Etude de stationnarité..........................................................................30
3.3/ Nuage de corrélation différée ou « h-scatter plots ».............................................................................31
3.4/ Description bivariée...............................................................................................................................32
4/ TRANSFORMATION DES COORDONNÉES....................................................................................................................33
5/ CONCLUSION......................................................................................................................................................34
CHAPITRE IV : ANALYSE VARIOGRAPHIQUE.........................................................................................35
1/ VARIOGRAMMES EXPÉRIMENTAUX..........................................................................................................................35
1.1/ Variogramme omnidirectionnel.............................................................................................................35
1.2/ Variogrammes directionnels..................................................................................................................36
1.3/ Anisotropie.............................................................................................................................................37
1.4/ Comportement à l’origine du variogramme...........................................................................................39
1.5/ Variogrammes croisés............................................................................................................................39
2/ AJUSTEMENT À UN MODÈLE..................................................................................................................................40
2.1/ Cas monovariable..................................................................................................................................40
2.2/ Validation croisée..................................................................................................................................42
3/ CONCLUSION......................................................................................................................................................44

4
CHAPITRE V : ESTIMATION PAR KRIGEAGE..........................................................................................45
1/ CHOIX DE LA GRILLE ET DU VOISINAGE DE KRIGEAGE ................................................................................................45
2/ RÉSULTATS OBTENUS PAR KRIGEAGE ORDINAIRE.......................................................................................................45
3/ RÉSULTATS OBTENUS PAR COKRIGEAGE ORDINAIRE...................................................................................................46
3.1/ Ajustement du variogramme croisé........................................................................................................47
3.2/ Validation Croisée..................................................................................................................................47
3.3/ Résultat du cokrigeage...........................................................................................................................49
4/ COMPARAISON GRAPHIQUE AVEC D’AUTRES MÉTHODES D’INTERPOLATION....................................................................51
1/ EPAISSEUR DE SÉDIMENT......................................................................................................................................52
2/ COURANTS MARINS..............................................................................................................................................52
CHAPITRE VII : LOCALISATION DES COLONIES DE CRÉPIDULES .................................................54
1/ PROBLÉMATIQUE.................................................................................................................................................54
2/ ZONE D’ÉTUDE...................................................................................................................................................54
3/ STATISTIQUES SPATIALES DESCRIPTIVES...................................................................................................................55
3.1 Position et dispersion..............................................................................................................................55
3.2 Sectorisation............................................................................................................................................56
3.3 Méthode des quadrats.............................................................................................................................56
3.4 Analyse spatiale exploratoire basée sur les distances ...........................................................................58
3.4.1 Méthode du voisin le plus proche....................................................................................................................58
3.4.2 Fonction de Ripley modifiée (L de Besag)......................................................................................................59
3.5 Conclusion de l’analyse spatiale descriptive..........................................................................................61
4 / MÉTHODE D’INTERPOLATION PAR PARTITIONNEMENT DE L’ESPACE.............................................................................61
4.1 Polygones de Thiessen.............................................................................................................................61
4.2 Interpolation par la méthode des plus proches voisins...........................................................................61
5.3 Interpolation suivant le nombre d’individus comptés ............................................................................62
5.4 Conclusion...............................................................................................................................................65
BIBLIOGRAPHIE................................................................................................................................................67

5
Introduction : présentation de l’étude

Les travaux de recherche présentés dans ce mémoire ont été effectués au sein du laboratoire
LEMEL (Laboratoire d’Etude et Modélisation des Environnements Littoraux). Il est rattaché à
la « Faculté de Science et Science de l’Ingénieur » de l’Université de Bretagne Sud. C’est un
groupe pluridisciplinaire (géologues, biologistes, mathématiciens, statisticiens...) qui s’attache
à modéliser les écosystèmes à l’interface terre/mer. Il passe pour cela par l’intermédiaire de
SIG (Système d’Information Géographique) afin d’acquérir, de consulter et de gérer
l’information géographique.

Ce mémoire de stage présente l’élaboration d’une carte de la profondeur au toit du socle


rocheux à l’ouest de l’île aux Moines et une carte localisant les crépidules au nord ouest de
l’île de Bailleron (golfe du Morbihan). Une image 3D au du toit du substratum fournit un outil
pour comprendre comment se répartissent les corps sédimentaires dans l’espace. Localiser les
zones à présence de crédidules permet de lutter contre cet envahisseur. La connaissance, des
profondeurs au toit du substratum* ou la quantité de crépidules**, en tout point d'une zone,
nécessite :

- d'une part, de nombreuses données de mesure géophysiques, bathymétriques


et sédimentologique que l'on rapporte à des coordonnées géographiques
précises (latitude / longitude)
- d'autre part, un outil d'interpolation permettant de calculer, à partir des
données de mesure, les profondeurs en tout point de la zone : il s'agit alors
d'une estimation mathématique de cette profondeur.

Il existe de nombreuses techniques d’interpolation définies comme :

- des méthodes d’interpolation déterministes


- des approches statistiques ou géostatistiques (stochastique)

Elles ont toutes leurs avantages et inconvénients. Mais dans tous les cas, le principe reste le
même : une valeur est estimée pour des sites non échantillonnés, sur la base d’observations
existantes.

Le premier chapitre du rapport recense différentes approches déterministes pour interpoler un


ensemble de données. Une description très générale en est fournit.
Le deuxième chapitre, propose une analyse des techniques géostatistiques et des conditions de
leur mise en œuvre. Les fondements mathématiques ainsi que leurs démonstrations sont
examinées. Le krigeage et l’analyse variographique, une étape préalable du krigeage, sont
analysés et commentés. Elles s’appuient sur une synthèse bibliographique.
Les chapitres III à VI présentent une application des méthodes géostatistiques pour aboutir un
modèle numérique de terrain au toit du substratum. Ils fournissent également des conseils sur
la nature de l’information qu’il est nécessaire de recueillir pour utiliser efficacement ces
méthodes. Ils préconisent une démarche à suivre pour interpréter les résultats. Ils mettent en
évidence les avantages et les limites des méthodes géostatistiques.
Le dernier chapitre dévoilera une application des méthodes d’analyse spatiale concernant
uniquement la position géographique des objets, et des méthodes non stochastiques présentées
* Substratum : base (souvent un socle rocheux ou cristallin) sur laquelle repose les sédiments.
** Crépidule : mollusque gastéropode

6
en première partie. Elles ont pour objectif d’identifier des zones géographiques occupées par
les crépidules.

7
Chapitre I : Différents outils de cartographie
1/ Interpolation spatiale

L’interpolation spatiale est une procédure qui consiste à estimer la valeur d’un attribut pour
des sites non échantillonnés. Dans le contexte de ce stage, nous utilisons l’interpolation
spatiale pour mettre en œuvre des algorithmes mathématiques ou probabilistes afin d’estimer
la profondeur de la roche entre les points d’échantillonnages.
Il existe de nombreuses méthodes d’interpolation parmi lesquels il faut faire un choix. Nous
distinguerons deux familles :

- les méthodes d’interpolation classiques basées sur des algorithmes purement


déterministes.
- Les méthodes d’estimation géostatistiques qui s’appuient sur une modélisation
probabiliste du phénomène étudié.

Les méthodes s’appliquent à des variables régionalisées, c'est-à-dire des fonctions numériques
qui prennent leurs valeurs dans des régions délimitées de l’espace appelées champ. Dans notre
cas, la variable régionalisée est la profondeur au toit du substratum. Le champ est la zone
d’étude décrite dans le chapitre III.

1.1/ Forme générale de l’interpolation linéaire

Pour estimer la valeur ponctuelle en un site, nous utilisons des combinaisons linéaires
pondérées. La distance entre les lieux d’observations a une influence sur ce que l’on observe.
Autrement dit, les valeurs dans deux localités voisines sont souvent plus semblables que dans
deux localités éloignées. Les poids doivent donc tenir compte non seulement de la disposition
des observations les unes par rapport aux autres, mais aussi de la distance entre le site à
estimer et les sites observés.

1.1.1/ Méthodes d’interpolation par partitionnement de l’espace

1.1.1.1/ Polygones de Thiessen

La méthode consiste à partitionner l’espace géographique en polygones, puis à attribuer une


valeur à chacun des polygones. Elle permet de déterminer un zonage où la valeur de la
variable à prédire est à priori la même que celle du site d’observation*.

Supposons que l’on désire estimer la valeur en un point S0 du champ (cf. figure 1.1). Ce point
appartient nécessairement à l’un des polygones d’influence des sites d’observations.

Un polygone d’influence pour l’observation C s’obtient en traçant les médiatrices des


segments joignant C aux sites voisins.

*
site d’observation : donnée source connue et localisée

8
On attribue à S0 et à tout point appartenant au même polygone, la valeur du site ayant ce
polygone d’influence. Sur la figure 1.1, la valeur estimée au point S0 sera identique à celle du
site C.

S0
Médiatrice C
Angle droit B

Figure 1.1

La méthode de Thiessen peut s’améliorer tout en gardant le même principe. L’idée de Sibson
est de construire un polygone de Thiessen autour du site à estimer. Dans un deuxième temps
calculer les surfaces d’intersection (P(S0,i)) entre le polygone précèdent et ceux des sites
voisins. Enfin, Sibson propose une estimation de S0 à l’aide d’une combinaison linéaire des
valeurs des sites voisins (Z(S0)) pondéré par les surfaces P(S0,i).

Notons, n : nombre d’observation


P(S0) : surface du polygone de Thiessen en S0
P(S0,i) : surface de l’intersection du polygone de l’observation i et celle de S0
Alors,
n
P( S0 , i)
Zˆ ( S0 ) = ∑
i= 1 P( S0 )
Z (S0 )

La méthode de Sibson a les propriétés suivantes :


- l’estimation en S0 est unique
- l’estimation est exacte : ∀ i = 1...n Zˆ ( Si ) = Z ( Si ) .

1.1.1.2/ Triangulation

La méthode d’interpolation par triangulation consiste à diviser le champ en triangles disjoints,


dont les sommets sont les sites échantillonnés, puis à interpoler à l’intérieur de chaque
triangle.

La construction des triangles n’est pas unique, différentes approches sont donc proposées.

9
Triangulation de Delaunay

On peut à partir du diagramme de Thiessen, en construire le dual. C’est à dire construire un


nouveau diagramme où cette fois, on relie par un segment toutes les paires de sites dont les
régions de Thiessen correspondantes sont adjacentes (les points séparés par une arête de
Thiessen).

Polygone de
Thiessen

Polygone de
Delaunay

Figure 1.2

On observe que la triangulation de Delaunay opère seulement dans l’enveloppe convexe des
sites d’observations et ne recouvre donc pas entièrement le champ.

Interpolation linéaire

Supposons que le point S à estimer se trouve à l’intérieur du triangle formé par les sites S1,S2,
S3 (figure 1.3). L’estimation de la valeur de la variable régionalisée au point S par
interpolation linéaire s’écrit :

S1 SS 2 Z ( S 3 ) + S1 SS 3 Z ( S 2 ) + S 2 SS 3 Z ( S1 )
Zˆ ( S ) =
S1 S 2 S 3

où |.| désigne la surface et Z(.) la valeur prise en (.).


S1

|S1SS3|
S
S3 |S1SS2|
|S2SS3|

S2
Figure 1.3

L’interpolation linéaire a les propriétés suivantes :


- l’estimation en S0 est unique

10
- l’estimation est exacte : ∀ i = 1...n Zˆ ( Si ) = Z ( Si )
- la triangulation ne permet pas d’extrapoler les valeurs au-delà de l’enveloppe
convexe des sites d’observation.

1.1.2 / Méthodes d’interpolation barycentriques

Les méthodes d’interpolations précédentes ne considèrent, pour estimer la valeur d’un site S0,
que les sites d’observation immédiatement voisins. Elles ignorent par conséquent une grande
partie de l’information disponible. Les méthodes barycentriques permettent de prendre en
compte un nombre plus important de données.

1.1.2.1/ Plus proches voisins

Le plan sur lequel se situe le point à interpoler est découpé en octants. La méthode de calcul
consiste en une interpolation sur les huit points de référence les plus proches du point à
interpoler, répartis dans les octants. L’importance d'un point de référence est d'autant plus
grande dans le résultat du calcul que sa distance au point à interpoler est faible.

P8(v8) P1(v1)

P7(v7)
8 8
P2(v2)

k= 1
vk ∏ d ( Pi, Pm)
m= 1
m≠ k
Pi(vi) vi = 8 8

P6(v6) P3(v3)
∑∏
k = 1 m= 1
d ( Pi, Pm)
m≠ k

L’algorithme est efficace lorsque l’on


P5(v5)
P4(v4)
dispose de beaucoup de points bien
répartis dans la fenêtre de calcul.

On peut imaginer découper l’espace en plus ou moins huit parties et prendre plus qu’un point
observé par partie. C’est en cela que l’on se rapproche de la méthode qui suit.

1.1.2.2/ Méthode de l’inverse des distances

La première étape est d’effectuer une recherche des sites qui vont intervenir dans l’estimation.
On peut par exemple se fixer un rayon de recherche dont le centre est la localisation de la
valeur à estimer. On ne retiendra que les sites Si appartenant au cercle.

Dans un deuxième temps on attribue à chaque site Si retenu un poids inversement


proportionnel à la distance entre ce site et le point à estimer S0. Considérons que l’on a retenu
n0 données dans le cercle alors on obtient comme estimateur :

11
n0
Z (S i )

i= 1 Si − S0
Zˆ ( S 0 ) = n0
1

i= 1 Si − S0

où |.| désigne la distance.

Les deux méthodes précédentes ont l’inconvénient de prendre en compte uniquement la


distance qui sépare les sites entre eux. Cela donne un poids important au groupement de
données, alors qu’il n’est pas nécessairement justifié.

1.1.3/ Résumé

Les méthodes ci-dessus ont la caractéristique de traiter uniquement les données de la variable
étudiée. Toutes définissent la valeur recherchée en un point comme une combinaison linéaire
pondérée des mesures disponibles.
Ce sont des méthodes implémentées dans la plus part des logiciels de Système d’Information
Géographique (SIG).
Ces techniques présentent néanmoins des défauts. Elles ignorent la structure spatiale de la
variable et produisent du coup des surfaces interpolées très lisses. Des situations locales très
spécifiques peuvent alors être omises (zones de fortes ou de très faibles valeurs). Nous
prenons le risque d’aboutir à des cartes peu réalistes. Enfin, aucun critère statistique pour
juger de la précision de ces cartes n’est formulé.

Si l’on veut optimiser la précision des estimations, il faudra utiliser d’autres outils qui feront
appel à des modèles probabilistes. La géostatistique et le krigeage en font partie. Nous allons
les étudier dans la suite.

1.2/ Modèles d’estimation géostatistique

Le mot géostatistique est un néologisme forgé à l’École des Mines. La géostatistique est née
des problèmes rencontrés dans le secteur de la mine : contrôle des teneurs, optimisation de
maille, cartographie des ressources, prévision des réserves récupérables, étude de scénarios
d’exploitation…
Daniel Kriege, géologue dans les mines d’or, proposa dans les années 60 une méthode
statistique pour estimer la teneur d’un bloc de minerai à partir d’échantillons pris autour du
bloc à exploiter. Dix ans plus tard, Georges Matheron développa un outil pour analyser la
continuité spatiale des teneurs appelé le « variogramme » et une méthode d’estimation basée
sur le « variogramme » appelée le « krigeage ». Nous étudierons ces deux méthodes.

Aujourd’hui, la géostatistique s’exprime dans des champs d’applications comme


l’océanographie, la météorologie, le génie civil, l’environnement, la géologie, la qualité de
l’air et des sols, la santé, etc.

Techniquement, la géostatistique utilise également une combinaison linéaire des données


observées, mais à la différence des méthodes classiques d’interpolation, elle tient compte à la
fois de l’information relative à leur position et du caractère aléatoire du phénomène étudié. De

12
plus, elle permet d’intégrer des informations auxiliaires dans l’estimation. Ces avantages font
considérablement améliorer les estimations dans le contexte spatial.

La mise en œuvre de la méthode de krigeage passe par une étape d’analyse des données. Elle
est destinée à décrire la structure spatiale de la variable régionalisée. La carte de
l’interpolation est alors accompagnée d’indicateurs de fiabilité des résultats.

13
Chapitre II : Méthodes de la géostatistique linéaire
La géostatistique se réfère aux méthodes d’analyse probabiliste pour étudier des phénomènes
corrélés dans l’espace appelés phénomènes régionalisés. A ce titre elle fournit différents outils
pour répondre au problème posé par la cartographie du socle rocheux dans le golfe du
Morbihan.

1/ Notations et définitions
1.1/ Notion de variable régionalisée et notion de champ

Une variable régionalisée quantifie des grandeurs mesurées sur l’espace géographique.
L’espace dans lequel cette variable prend ses valeurs est appelé champ.

Exemple de variable régionalisée : la profondeur du substratum sous le niveau zéro de la mer,


mesurée par des campagnes sismiques dans une zone géographique située à l’est de l’île aux
Moines, dans le golfe du Morbihan.
Exemple de champ : la zone géographique située entre la côte et l’est de l’île aux Moines.
Nous pourrons estimer les valeurs prises par la variable régionalisée dans cette zone.

1.2/ Notations

Z : la variable régionalisée
D : le champ (domaine sur lequel la variable régionalisée est définie)
s ∈ D : une position dans le champ
Z(s) : une valeur prise par la variable régionalisée au point s
Zˆ ( s ) : une estimation de Z(s)
h : la distance qui sépare deux points

Prenons un exemple dans le golfe du Morbihan

si est un l’emplacement
Z(s1) géographique.
Z(s2) Tous les si ont une
Z(s3) profondeur de roche :
Z(si).
Chaque profondeur de
roche est une variable
aléatoire. Ensemble elles
Niveau Zéro
Profondeur à estimer
forment une fonction
aléatoire de s.
Bathymétrie
La mesure faite au point
si est une réalisation
particulière de la fonction
Sédiments aléatoire Z(si).
Roche

14
Définissons à présent les hypothèses indispensables pour utiliser les techniques de la
géostatistique linéaire.

2/ Hypothèses de base

Une fonction aléatoire {Z(s), s ∈ D } est caractérisé par sa loi spatiale F. Elle correspond à la
loi de probabilité conjointe de (Z(s1), Z(s2), Z(s3), …, Z(sn)).

F (v1 , v2 ,..., vn ) = P{ ( Z ( s1 ) < v1 ), ( Z ( s2 ) < v2 ),..., ( Z ( sn ) < vn )}

Or cette fonction est très complexe par l’infinité des combinaisons possibles. Nous n’allons
donc pas pouvoir estimer la fonction de distribution conjointe. La géostatistique linéaire se
limite à la fonction de distribution d’ordre un F(v) et d’ordre deux FZ(si),Z(sj)(vi,vj) .

FZ ( s ) (v) = P{ Z ( s) ≤ v}
FZ ( si ), Z ( s j ) (vi , v j ) = P{( Z ( si ) ≤ vi ), ( Z ( s j ) ≤ v j )}
i ≠ j i=1,...,n et j=1,…,n

La première nous permet de calculer l’espérance de la fonction aléatoire Z en un point s.

+∞
E ( Z ( s )) = ∫ −∞
v • f Z ( s ) (v)dv
avec f Z ( s ) (v) = FZ ( s ) (v)
'

La fonction de distribution d’ordre deux, fourni la loi de probabilité entre les valeurs prises en
deux sites si et sj. On utilise la covariance pour quantifier le degré de ressemblance entre les
valeurs prises en si et sj et le variogramme pour mesurer la dissemblance entre les valeurs
prises aux sites si et sj.

cov(si , s j ) = E ( Z ( si ) Z ( s j )) − E ( Z ( si )) E ( Z ( s j ))

1
γ ( si , s j ) = Var[ Z ( si ), Z ( s j )] , (variogramme*)
2

Le problème qui se pose est que la variable régionalisée est observée qu'une seule fois à un
endroit précis. En d’autres termes, nous n’avons qu’une seule réalisation de la variable
aléatoire. Or pour estimer les moments d’ordre un et deux il nous faudrait un grand nombre
(>30) d’observations. Ce problème ne concerne pas la quantité d’information disponible mais
le fait que l’on essaie de décrire un phénomène unique (profondeur au toit du socle rocheux),
qui ne se répète pas, à l’aide de lois de probabilités.

Pour palier à ce problème nous posons comme hypothèse que la variable régionalisée est
stationnaire. Concrètement cela veut dire que deux paires de points espacés d’un même
vecteur h ont des caractéristiques (moyenne et covariance) semblables. Ou encore, la variable
régionalisée ne dépend pas de sa position dans l’espace, elle garde les mêmes caractéristiques

*
γ : cigle retenu pour désigner le variogramme

15
où que l’on se place. Cela nous permet de nous détacher de la localisation et de nous
restreindre uniquement à la distance qui sépare les points d’observations.

La traduction mathématique est la suivante :

Stationnarité du second ordre :

Une fonction aléatoire Z(s) est stationnaire du 2nd ordre quand l’espérance mathématique
existe et ne dépend pas du point s ; et que la covariance entre chaque paire ( Z(s+h) , Z(s))
existe et ne dépend que de h (distance).

- L’espérance mathématique ne dépend pas de s :

∀ s, E ( Z ( s )) = m constante indépendante de s

- La covariance entre Z(s) et Z(s+h) ne dépend que de h :

∀ s, s + h, cov( Z ( s + h), Z ( s) ) = C ( h) ne dépend que de h et non de s


C(h) est appelé fonction de covariogramme

- La variance existe en tout site s et est une constante indépendante du site s :

∀ s, Var ( Z ( s ) ) = cov( Z ( s ), Z ( s ) ) = C (0) = cons tan te

- Le covariogramme et le variogramme sont liés :

∀ s, s + h, Var ( Z ( s + h) − Z ( s) ) / 2 = γ (h) = C (0) − C (h)

Remarque : L’hypothèse de stationnarité d’ordre deux ne peut être validé de manière


rigoureuse et infaillible à l’aide d’un test statistique sur les données expérimentales (Arnaud et
Emery, 2000 p.107).

L’hypothèse intrinsèque :

On dit qu’une fonction aléatoire Z(s) est intrinsèque quand ses accroissements Z(s+h)-Z(s)
sont stationnaires d’ordre 2. C'est-à-dire que

- L’espérance des écarts est zéro :


E ( Z ( s + h) − Z ( s )) = 0 ∀ s et h fixé

- La variance des écarts ne dépend que de h :


Var ( Z ( s + h) − Z ( s )) = E [ ( Z ( s + h) − Z ( s ))²] = 2γ (h)

Cette hypothèse permet de dire que la variabilité entre les valeurs prises en deux points
différents ne dépend que de h (la distance entre ces points).

Toute fonction aléatoire stationnaire d’ordre deux est également intrinsèque (la réciproque est
fausse). Autrement dit, l’hypothèse de stationnarité intrinsèque est moins restrictive que la

16
stationnarité du second ordre. L’hypothèse intrinsèque ne requiert pas de connaître
l’espérance ni sa covariance de la variable aléatoire.

La fonction la plus utilisée en géostatistique pour décrire la continuité spatiale est le


variogramme. La continuité spatiale est réalisée lorsque les valeurs prises entre deux sites
proches l’un de l’autre sont similaires.

3/ Variogramme
3.1/ Variogramme théorique et variogramme expérimental

D’après Marcotte (cours de «géostatistique minière »), la nature n’est pas entièrement
imprévisible. Deux observations situées l’une près de l’autre devraient en moyenne se
ressembler davantage que deux observations éloignées. La différence entre les valeurs prises
par deux variables aléatoires est Z(s)-Z(s+h). C’est également une variable aléatoire dont on
peut calculer la variance. Cette variance devrait être plus petite lorsque les points sont
rapprochés (les valeurs se ressemblent plus en moyenne) et plus grande lorsque les points sont
éloignés. On appelle variogramme la demi-variance de cette différence.

1
γ ( h) = Var ( Z ( s + h) − Z (h))
2

L’outil mesure la « variabilité spatiale », c'est-à-dire la dissemblance entre les valeurs en


fonction de leurs séparations. Il décrit la continuité spatiale de la variable régionalisée.

Le variogramme théorique est défini comme :

1 1
γ ( h) = Var ( Z ( s + h) − Z (h)) = E [ ( Z ( s + h) − Z ( s ))²] = C (0) − C (h)
2 2

avec C (0) = Var ( Z ( s )) et C ( h) = Cov ( Z ( s + h), Z ( s ))

Démonstration :
1
γ ( h) = Var ( Z ( s ) − Z ( s + h) )
2
1
[ 1
]
= E ( Z ( s ) − Z ( s + h) ) − E [ Z ( s ) − Z ( s + h)]
2
2

2
2

or dans le cas d’une variable aléatoire stationnaire, E[Z(s)-Z(s+h)]=0


1
[
= E ( Z ( s ) − Z ( s + h) )
2
2
]
1
γ ( h) = Var ( Z ( s) − Z ( s + h) )
2
1
= [Var ( Z ( s) ) − 2 cov( Z (s), Z ( s + h) ) + Var ( Z ( s + h) ) ]
2

or si Z est stationnaire d’ordre deux alors Var(Z(s))=C(0)=constante

17
= C (0) − C (h)

Remarque :
- Un variogramme peut se calculer non seulement pour une distance donnée mais
aussi pour direction θ donnée : γ θ (h)
- La covariance mesure la ressemblance entre les valeurs en fonction de leur
éloignement alors que le variogramme mesure la dissemblance entre les valeurs en
fonction de leur éloignement.
- Dans l’hypothèse de stationnarité d’ordre 2, covariance et variogramme existent et
sont liés par la relation γ (h) = C (0) − C (h) . Dans l’hypothèse intrinsèque, seul le
variogramme existe. C’est pourquoi il est généralement préféré à la covariance
pour décrire et interprété la structure spatiale du phénomène étudié.
- Le variogramme réel d’une fonction aléatoire est généralement inconnu, mais il
peut être évalué à partir des données d’échantillonnages. On obtient ainsi le
variogramme expérimental proposé par Matheron (1962).

1 N ( h)
γˆ (h) = ∑ [ Z ( s i + h) − Z ( s i ) ] ²
2 N ( h) i = 1

N(h) est le nombre de paires dans la classe de distance h.


Z(si) est la profondeur de la roche au point de mesure si.

3.2/ Propriétés du variogramme

Le variogramme est une fonction de h, croissante et souvent caractérisé par quatre


paramètres :

- l’effet pépite : C0
- le palier : C+C0
- la portée : a

14
Palier : C0+C
12
semi-variogramme

10

8
C
6

2
Effet pépite :C0
0
0 5 10 15 20
distance : h Portées : a

18
Remarque : plus la fonction croit, moins les observations se ressemblent.

L’effet de pépite : Le comportement à l’origine du variogramme reflète le degré de régularité


spatiale de la variable régionalisée. Si le variogramme présente un saut abrupt à l’origine
(effet de pépite), cela indique une absence partielle de corrélation entre les valeurs prises en
deux sites très proches. C'est-à-dire qu’il y a une faible ressemblance entre les valeurs
régionalisées très voisines.

Le palier : Valeur du variogramme pour la distance égale à la portée.

La portée : Distance où deux observations ne se ressemblent plus du tout. Leur covariance est
nulle.

Remarques :
- Si le variogramme est borné alors la covariance existe et l’on peut présumer une
stationnarité du second ordre (Journel et Huijbergts, 1993 p.37).
- Si la variable régionalisée est stationnaire du second ordre alors le palier est égal à
la variance de cette même variable.

γ ( h) = σ ² − C ( h)

- Inversement, si un variogramme est non borné, il ne possède ni portée, ni palier.


La variance de la fonction n’est pas définie et elle n’est donc pas stationnaire du
second ordre.
- Arnaud et Emery (2000, p.126) affirment que le variogramme expérimental n’est
pas fiable pour des distances supérieures à la moitié du diamètre du champ D. Elles
sont peu nombreuses et augmentent la variance de la valeur γˆ (.) estimée.
- Les variogrammes directionnels permettent de détecter une éventuelle anisotropie.
(cf. § 3.4)

3.3/ Modélisation du variogramme

Le variogramme expérimental n’est pas défini partout, notamment aux distances h pour
lesquelles il n’existe pas de paire de points de mesures. Ainsi lui est-il ajusté une fonction
mathématique appelée modèle de variogramme. Marcotte recommande d’utiliser des modèles
éprouvés ou des modèles construit à partir de modèles éprouvés.

Type de modèles courants

 C
 C0 + h pour a≥ h≥ 0
- Linéaire : γ ( h ) =  a
 C 0 + C pour h> a

  3h h 3 
 C 0 + C  − 
3 
pour a≥ h≥ 0
- Sphérique : γ (h) =   2a 2a 
 C + C pour h> a
 0

19
  3h ²  
- Gaussien : γ (h) = C 0 + C  1 − exp −  
  a²  

  − 3h  
- Exponentiel : γ (h) = C 0 + C  1 − exp  
  a 

3.4/ Isotropie et anisotropie

Le variogramme ne dépend que de h, c'est-à-dire le vecteur de déplacement entre les points s


et s+h. Ce vecteur contient de l’information sur la distance entre ces deux points, par
l’intermédiaire de sa norme, ainsi que sur l’orientation de h. Si le variogramme ne dépend en
fait que de la norme de h, il est dit isotrope. S’il dépend aussi de la direction (θ) du vecteur de
translation, il est dit anisotrope.
Rappelons que la norme euclidienne d’un vecteur h=(si,sj) est |h|= si2 + s 2j .

Bien qu’il existe une très grande variété d’anisotropie, la plupart des ouvrages de
géostatistique montrent uniquement comment modéliser les anisotropies géométriques.

Les caractéristiques de l’anisotropie géométrique sont :

- Les variogrammes des différentes directions ont le même palier et même effet
pépite mais des portées différentes.
- Les portées maximales et minimales s’observent selon deux directions
orthogonales.

Pour revenir à une situation isotrope, le principe consiste à effectuer une transformation
linéaire des coordonnées spatiales c'est-à-dire une rotation en suivant les directions de plus
petite et plus grande continuité (application chap. IV § 1.3).

3.5/ Cas multivarié : calcul des variogrammes croisés

Nous avons vu qu’un des avantages des méthodes géostatistique (chap. I § 1.2) était de
pouvoir inclure dans le modèle d’interpolation des variables auxiliaires qui apportent de
l’information sur la variable cible. Pour décrire la structure de dépendance entre la variable
cible et les covariables il convient de calculer le variogramme croisé.

Soit Zp la variable principale et Zq la variable secondaire, alors

γˆ pq (h) =
1 N (h)
[ ][
∑ Z p ( s i ) − Z p ( s i + h) Z q ( s i ) − Z q ( s i + h)
2 N ( h) i = 1
]

L’analyse du variogramme croisé se fait de la même façon que celle du variogramme simple.
C'est-à-dire que l’on relève ses propriétés (effet de pépite, palier, porté, amplitude) et on y
ajuste une fonction.

20
4/ Krigeage

Cette section expose l’une des techniques de géostatistique d’estimation locale, connue sous
le nom de krigeage et cokrigeage ordinaire.
Nous cherchons à estimer la valeur d’une variable régionalisée z (profondeur au substratum)
en un point s0 quelconque du champ à partir des mesures observées z(si), i=1,..,n (n : nombre
de points observés). Le krigeage est un interpolateur exact (la valeur estimée sur un point de
mesure est égale à la valeur du point de mesure) et optimal (il minimise la variance sur
l'erreur d'estimation).
Il existe trois types de krigeage : le krigeage simple, le krigeage ordinaire et le krigeage
universel. Le krigeage ordinaire est le plus fréquemment utilisé en pratique car les hypothèses
de départ sont moins contraignantes que celle du krigeage simple. Seul le krigeage ordinaire
sera développé ici car il répond aux besoins de notre problématique.

4.1/ Hypothèses et contraintes

Le krigeage ordinaire ne requiert pas la connaissance de l’espérance de la variable


régionalisée. Autrement dit, on se place dans l’hypothèse d’une stationnarité intrinsèque. Il
n’en reste pas moins que la moyenne doit rester constante à l’échelle du voisinage de
krigeage.

Définition du voisinage de krigeage : Domaine du champ qui contient le site à estimer et les
données utilisées dans l’estimation.

Comme pour les méthodes barycentriques (chap. I § 1.1.3), le voisinage de krigeage se


résume à un cercle ou à une ellipse autour du point à estimer.

Le modèle de base de cette méthode s’énonce comme suit :

Z ( s ) = µ ( s ) + δ ( s)

avec s Є D (le champ), μ(s)=E(Z(s)) quasi-constante inconnue et δ(s) fonction aléatoire


stationnaire intrinsèque d’espérance nulle (E(δ(s))=0) et de structure de dépendance connue
(γ(|si-sj|) connu). Dans son mémoire (2005, p.31), S. Baillargeon explique que le caractère
quasi-constant de μ(s) signifie que l’espérance n’est pas contrainte à demeurer la même
partout dans le champ D. Elle doit par contre rester constante à l’intérieur de chaque voisinage
de krigeage.

En outre, l’estimateur du krigeage ordinaire doit vérifier les propriétés suivantes :

La linéarité : Zˆ ( s 0 ) est une combinaison linéaire des données Z(si) i=1,..,n.

n n
Zˆ ( s 0 ) = a + ∑
i= 1
ω i Z ( si ) avec ∑
i= 1
ωi =1

[
Le non-biais : Zˆ ( s 0 ) est sans biais : E Zˆ ( s0 ) − Z ( s0 ) = 0 ]

21
Démonstration
E ( Zˆ ( s0 ) − Z ( s0 ))
= E (a + ∑ i
ω i Z ( si ) − Z ( s0 ))

= E (a + ∑ i
ω i Z ( si )) − E ( Z ( s0 ))

or E ( Z ( si ) ) = E ( Z ( s0 ) ) = µ ( stationarité )
= a+ ∑i
ω i E ( Z ( si )) − µ

 
= a +  ∑ ω i − 1 × µ
 i 
 n

a = µ ×  1− ∑ ω i 
 i= 1 

Or μ étant inconnue, le seul moyen de garantir le non-biais de l’erreur est de poser :


n
a= 0 et ∑i= 1
ωi =1

Optimalité : c'est-à-dire que Var ( Zˆ ( s0 ) − Z ( s0 )) est minimale.

( ) ( ) ( )
Var Zˆ ( s0 ) − Z ( s0 ) = E  Zˆ ( s0 ) − Z ( s0 )  = E Zˆ ( s0 ) 2 − 2 E Zˆ ( s0 ) Z ( s0 ) + E Z ( s0 ) 2

2


[ ] ( )

 n  
2

( ) ω iω j E ( Z ( si ) Z ( s j ) ) = ∑ ω iω j cov( Z ( si ), Z ( s j ) ) + µ
n n n n
E Z ( s0 ) = E  ∑ ω i Z ( si )  =
ˆ 2  ∑∑ ∑ 2
  i= 1  
 i= 1 j = 1 i= 1 j= 1

car dans le cas d’une variable aléatoire stationnaire, E(Z(si))=E(Z(sj))=μ, d’où


E(Z(si))E(Z(sj))=μ²

( )
E Z ( s0 ) 2 = Var ( Z ( s0 )) + µ 2

[ ]
 n  n n
E Zˆ ( s0 ) Z ( s0 ) = E  ∑ ω i Z ( si ) Z ( s0 ) = ∑ ω i E ( Z ( si ) Z ( s0 ) ) = ∑ ω i cov( Z ( si ), Z ( s0 ) ) + µ 2

 i= 1  i= 1 i= 1

donc
( ) ω iω j cov( Z ( si ), Z ( s j ) )
n n n
Var Zˆ ( s0 ) − Z ( s0 ) = Var ( Z ( s0 ) ) − 2∑ ω i cov( Z ( si ), Z ( s0 ) ) + ∑∑
i= 1 i= 1 j= 1
n
Le but est de trouver le vecteur ω qui minimise cette variance sous la contrainte ∑i= 1
ωi =1

Pour y parvenir, on peut utiliser la méthode de Lagrange.

La fonction de Lagrange :
 n 
( )
n n n
L(λ , ω 1 ,..., ω n ) = Var ( Z ( s0 ) ) − 2∑ ω i cov( Z ( si ), Z ( s0 ) ) + ∑i = 1 ∑j = 1 i j
ω ω cov Z ( si ), Z ( s j ) + λ  ∑ ω i − 1
i= 1  i= 1 
λ est le multiplicateur de Lagrange

22
Minimiser cette fonction revient à trouver la solution du système :
 ∂ L(λ , ω 1 ,..., ω n )
∑j= 1 ω j cov( Z (si ), Z (s j )) + λ = 0
n

 = − cov ( Z ( si ), Z ( s 0 ) ) +
∂ω i
 n

 ∑i= 1 ω i = 1

Ce système peut se réécrire à l’aide du variogramme γ(h)=C(0)-C(h)

 n
 ∑ ω jγ ( si − s j ) − λ = γ ( si − s0 )

j= 1
n
∀ i = 1,..., n

 ∑i = 1 ω i = 1

La variance minimum est atteinte au point :

n
σ 2
ok (s0 ) = ∑
i= 1
ω i γ ( si − s 0 ) − λ

Cette fonction est appelée variance de krigeage. C’est la valeur minimale de la variance de
l’erreur de prévision.

4.2/ Estimateur de krigeage

Le krigeage est un interpolateur linéaire sans biais. Il prend en compte la géométrie des
données, les caractéristiques de la régionalisation et de la variance. Son but est de lisser les
données.

Ayant calculé les poids ωi par la résolution du système précédent, nous pouvons écrire
l’estimateur de la manière suivante :

n
Zˆ1 ( s 0 ) = ∑i= 1
ω i Z ( si )

4.3/ Cas multivariable : Cokrigeage

Il est possible d’améliorer les estimations obtenues par krigeage en ajoutant à la variable à
estimer, l’information fournie par d’autres variables (variables secondaires). La démarche à
suivre est la suivante.

Pour estimer la variable Z1 au point s0, on utilise une combinaison linéaire pondérée des
mesures concernant toutes les autres variables (Z2, …, Zp).

p ni
Zˆ ( s 0 ) = ∑∑
i= 1 j= 1
ω j ,i Z i ( s j ,i )

23
Les poids ωj,i sont solution du système :

 p ni
 ∑ ∑ ω j ,iγ i , q ( si , q − s j , q ) − λ q = γ q ( si , q − s0 ) q = 1... p
 i= 1 j= 1
 n1
 ∑ ω j ,1 = 1
 j= 1
 ni
 ∑ ω j ,i = 0 i = 2... p
 j= 1

Les λq sont des multiplicateurs de Lagrange.

Remarques :
- La variance d’estimation (ou de krigeage) obtenue par cokrigeage est toujours
inférieure à celle obtenue par krigeage.
- En pratique, on observe que le gain est moindre lorsque les variables sont peu
corrélées entre elles (Arnaud et Emery, 2000, p.195).
- L’estimation ponctuelle par (co)krigeage en un site d’observation est égale à la
valeur mesurée. D’autre part, la variance d’estimation associée est nulle.

4.4/ Conclusion

La méthode de krigeage est précédée par l’estimation d’une fonction variographique. C’est
cette fonction qui va tenir compte à la fois de la géométrie des données, des caractéristiques
de la régionalisation et de la précision de l’estimation. Il est donc important de souligner que
la qualité de l’estimation et l’appréciation de sa précision reposent uniquement sur le modèle
variographique utilisé. Il doit par conséquent, être le plus cohérent possible avec ce qui a été
observé.

Après avoir décrit les fondements mathématiques des méthodes d’interpolation spatiale, nous
nous efforçons, dans les chapitres suivants, à les appliquer sur des cas concrets.

24
Chapitre III : Recueil et analyse préalable de l’information
Les données observées constituent la matière première des méthodes d’interpolation. En
géostatistique elles ont la particularité d’être géo-référencées. L’objet de ce chapitre et de
présenter la zone du golfe du Morbihan retenue pour appliquer les méthodes d’interpolation
géostatistique, puis de présenter les données utilisées pour aboutir à une cartographie du socle
cristallin.

1/ Localisation de la zone d’étude

Vannes

Baden Arradon
pointe

Île d’Arz

Zone d’étude Île aux


Moines
Locmariaquer
Le Golfe du Morbihan :
Une petite mer intérieure Arzon
d’une superficie de 11 500 ha.

figure 3.1 : source IFEN

La zone d’étude se localise entre l’île aux Moines et Baden dans le golfe du morbihan. Le
passage étroit entre la pointe de l’île aux Moines et le continent provoque des courants
importants (figure 6.2). Ils sont à l’origine de formations sédimentaires hétérogènes. La
charge de sédiments et la force du courant génèrent de l’érosion et modèlent le fond marin.
Les courants assurent la mise en mouvement des particules sédimentaires, ce qui entraînent
l’érosion et l’entretient des chenaux. La proximité de la zone d’étude à l’atlantique fait que les
conditions hydrodynamiques y sont importantes par rapport aux secteurs à l’est de l’île aux
Moines. Elles expliquent les profondeurs bathymétriques de l’ordre de 10 à 15 mètres et des
fonds marins rocheux ou sableux.

2/ Source des données

Le golfe du Morbihan a fait l’objet de campagnes bathymétriques et sismiques. L’évaluation


de la profondeur de la roche dans le milieu marin, s’appuie sur ces relevés. Une partie du
travail consiste à relever l’information apportée par les données sismiques (support papier), et
de l’intégrer dans un Système d’Information Géographique. Les données bathymétriques sont
quant à elles ajoutées à la base d’information. Le tout constitue un échantillon de travail.

25
2.1/ Informations provenant des campagnes sismiques

2.1.1/ Recueil des données sismiques

La sismique est une technique de mesure qui consiste à enregistrer en surface des échos issus
de la propagation dans le sous-sol d'une onde sismique (figure 3.2). Ainsi les hétérogénéités
du sous-sol sont relevées. Le passage par exemple d'une couche rocheuse à une couche
sédimentaire va se traduire par la présence d'un réflecteur sur les enregistrements (figure 3.3).

Figure 3.2 (Ifremer)

Le temps d'arrivée de l'écho permet d’enregistrer la profondeur des obstacles rencontrés par
l’onde. En résumé, les études sismiques fournissent une image (profil) de la structure du sous-
sol. On peut y reconnaître la superposition de certaines couches de roche et/ou de sédiment
(figure 3.3).

La profondeur du fond marin et du substratum est relevée (au décimètre) tous les 70 mètres
(figure 3.4). Le profil fourni les profondeurs en « seconde temps double ». C'est-à-dire le
temps que l’onde envoyée par l’appareil met pour revenir à ce dernier. Cette unité peut être
convertie en mètre. La vitesse de propagation de l’onde est de 1500 m/s dans l’eau et de 1700
m/s dans les sédiments.

Fond marin Profil sismique Toit du substratum


0 marin

Couche sédimentaire

Réflecteur
s Gaz
s
tre

≈8

1000 mètres

Figure 3.3

26
Sismique geob10
Conversion du profil sismique en données numériques
0
0 100 200 300 400 500 600 700 800 900 1000 1100 1200 1300 1400
s
tre -2
mè -4
en
-6

Profondeur
-8

-10

-12

-14

-16

-18
Z_Eau Z_Sed_m
P-tir Z_Roche_m

Figure 3.4

Remarque : les données récoltées peuvent manquer de précision. Les problèmes suivants sont
rencontrés :

- Lors de la saisie sur papier avec un décimètre, une erreur de un à deux millimètres
est courante (1mm saisi correspond à 18cm de profondeur réelle).
- La conversion de seconde en mètre amène à faire un choix sur les arrondis.
- Le niveau zéro autrement dit le niveau de la mer n’est pas connu pour les profils en
notre possession. Il faudra admettre qu’il est approximativement égal au niveau de
référence utilisé par le SHOM (Service Hydrographique et Océanographique de la
Marine).

2.1.2/ Plan d’échantillonnage

Une campagne sismique permet d’obtenir des informations sur la nature et la géométrie de la
couverture sédimentaire. Pour rendre une collecte de données efficace, le rapport INERIS
(2003, p.52) conseille de disposer les échantillons selon un maillage régulier. A nombre
d’échantillons égal, la régularité de la maille facilite l’inférence de la structure spatiale et
garantie une meilleure précision. Toujours d’après le même rapport, il est prouvé que la
variance de l’erreur d’estimation d’un échantillonnage aléatoire stratifié est inférieure à celle
d’un échantillonnage aléatoire uniforme. (On peut retrouver ces affirmations dans l’ouvrage
de M. Arnaud et X. Emery, p113.)

En pratique, il n’est pas toujours possible de relever l’information suivant un maillage régulier
comme le préconise la théorie. En effet, les nombreux bancs de sable du golfe ne permettent
pas aux bateaux de naviguer partout.

Dans tous les cas, il est préconisé de resserrer la maille d’échantillonnage en quelques
endroits, afin de faciliter la modélisation du variogramme aux petites distances. C’est
pourquoi nous ajoutons aux données sismiques :

- des points de la base bathymétrique (chap. III § 2.2) mesurés sur des zones de
roche (figure 3.5).
- des points d’experts, estimés visuellement par des personnes familiarisées avec le
terrain (figure 3.5).

27
N
Port Blanc

Profil_13 Profil_10

Ile aux
Moines

Profil_09 Profil_11
Profil_12

Profil_34 Profil_08

Figure 3.5

Le nombre de points a également son importance. Un nombre de points trop faible rend le
variogramme « instable » et les résultats de l’estimation peu fiables. Selon Cressie (1993,
p.237) 30 paires de points par classe de distance seraient nécessaires à la construction du
variogramme. Dans le cas étudié nous disposons en moyenne de plus de 100 paires de points
par classes de distances (cf. chap.IV, § 1).

2.2/ Bathymétrie : Information auxiliaire

Un modèle numérique de terrain (MNT) est une représentation de la topographie (altimétrie


et/ou bathymétrie) d'une zone terrestre. En cartographie les altitudes sont habituellement
représentées par des courbes de niveaux. Le MNT en notre possession (source SHOM) utilise
un maillage régulier carré de 50 mètres. Il permet ainsi de reconstituer une vue en image de
synthèse du terrain (figure 3.6, image LIDAR : LIght Detection And Ranging).

Figure 3.6

28
La morphobathymétrie reflète très souvent la morphologie au toit du socle cristallin (D.
Menier, géologue). En effet la corrélation linéaire entre la profondeur des fonds marins et
celle au substratum est de 0,84. Le MNT peut donc fournir une information complémentaire
lors de la mise en œuvre du modèle de cokrigeage.

3/ Etude exploratoire de l’échantillon de la variable d’intérêt

La mise en oeuvre des techniques d’estimation géostatistique exige une analyse préalable des
données expérimentales. L’étude exploratoire a pour but d’apprécier la distribution des
données dans l’espace, d’appréhender leur degré d’homogénéité, de rechercher et de
visualiser les observations atypiques ou tout simplement de se familiariser avec la variable.
Il est ici rappelé que la variable d’intérêt étudiée est la profondeur à laquelle nous atteignons
la roche en milieu marin (le toit du socle cristallin ou substratum).

3.1/ Histogrammes et statistiques descriptives

L’étude de l’histogramme permet :


- d’apprécier la variabilité des données
- de détecter d’éventuelles valeurs aberrantes.

La droite d’Henry : si les probabilités sont alignées le long de la droite d’Henry, nous
pouvons supposer que la variable suit une distribution gaussienne.

Le box plot est une autre façon d’appréhender la distribution de la variable. Il a l’avantage de
mettre en valeur les quartiles. Les quartiles Q1, Q2 et Q3 sont les éléments essentiels de ce
graphique. Le quartile Q2 (ou médiane) partage la série de données en deux groupes
d’effectifs égaux. Le quartile Q1 partage le groupe dont les valeurs sont inférieures à la
médiane, en deux groupes d’effectifs égaux. Q3 fait de même pour le groupe dont les valeurs
sont supérieures à la médiane.

La distribution des profondeurs au toit du socle cristallin (rocheux) est représentée par les
trois graphiques de gauche de la figure 3.8. Ils montrent que les valeurs sont comprises entre 2
mètres au-dessus et 25 mètres en dessous du niveau zéro (référence SHOM). L’étendue de 27
mètres peut nous paraître importante. Mais en y regardant de plus près, on s’aperçoit que la
moyenne et la médiane sont toutes deux égale à -10 mètres. Il en résulte que 1/4 des valeurs
sont comprises entre -5 et -10 mètres et qu’un autre quart entre -10 et -15 mètres. Sachant
qu’il n’y a qu’un très petit nombre de valeurs supérieures à zéro ou inférieures à -20 mètres,
on peut parler d’une distribution équitablement répartie sur son étendue (25% des valeurs sur
5 mètres d’étendue).

La droite d’Henry et un test de normalité (Kolmogorov-Smirnov) montrent que la distribution


des profondeurs au toit du substratum ne suit pas une loi Gaussienne. Par contre le coefficient
d’asymétrie (cf. tableau du bas) et l’histogramme permettent de penser qu’elle s’en approche.

Si la propriété de normalité a l’avantage de définir complètement la distribution par sa


moyenne et son écart type, elle n’est pas une condition obligatoire en géostatistique linéaire.
Celle-ci ne fait aucune hypothèse particulière sur la distribution des valeurs. Toutefois d’après

29
C. Cressie (Statistics for Spatial Data, 1993 p.110), le krigeage a tendance à fournir de
meilleures prévisions lorsque les données suivent une loi normale.

Q3

Q2

Q1

Valeurs
extrêmes

Profondeur au toit du socle cristallin Valeurs du MNT


Figure 3.8

A titre d’exemple, l’histogramme des valeurs du MNT n’est pas symétrique. D’un côté, 75%
des profondeurs se regroupent entre +2 mètres et -8 mètres (10 m d’amplitude) et de l’autre
coté, 25% des valeurs s’étendent entre -8 mètres et -22 mètres (14 m d’amplitude). Certaines
valeurs extrêmes apparaissent autour des -20 mètres de profondeur. Alors pour estimer le
MNT, Cressie recommande soit une transformation des données par une fonction
mathématique pour rendre la distribution gaussienne, soit discrétiser en zones géographiques
afin que les profondeurs dans chaque zone soient proches les une des autres. Chaque zone
géographique est alors traitée individuellement.

Principales statistiques relatives aux deux variables

Variable d’intérêt Variable Secondaire


Minimum -25,3 -21,8
Maximum 2,1 2,3
Moyenne -9,9 -5,1
Médiane -9,9 -4
Ecart-type 6,1 5,2
Variance 36,8 27,7
Coefficient d’asymétrie -0,08 -0,9

Le coefficient d’asymétrie conforte le fait que la variable d’intérêt a une distribution presque
symétrique. Enfin, le coefficient de corrélation linéaire entre les deux variables est égal à 0,84
ce qui indique une forte dépendance entre les variables.

3.2/ Comportements directionnels : Etude de stationnarité

Pour étudier le comportement dans l’espace des variables observées, un outil exploratoire
synthétique consiste à visualiser les valeurs des variables le long des directions de
coordonnées.

30
Moyenne

Moyenne

Valeurs
atypiques Valeurs
atypiques

(Est-Ouest) (Sud-Nord) (Est-Ouest)


(Sud-Nord)
Comportement directionnel de la variable d’intérêt Comportement directionnel de la variable secondaire
Figure 3.9

Le tracé de l’évolution des profondeurs en fonction de la longitude (axe Est-Ouest) et de la


latitude (axe Sud-Nord) est un moyen de détecter la présence d’une dérive spatiale qui, si elle
existe, devrait se traduire graphiquement par une croissance ou une décroissance du nuage de
points.

Le nuage de points de la variable d’intérêt (figure 3.9 de gauche), est relativement homogène
autour de la moyenne dans la direction SN, en revanche les valeurs ont une légère tendance à
augmenter lorsque l'on se dirige de l’est vers l’ouest. Une hypothèse de stationnarité serait
adéquate dans la direction sud-nord (tendance linéaire de pente nulle), mais pas forcément
dans la direction est-ouest, pour laquelle la moyenne n’est pas constante. On pourrait avoir
recours à l’hypothèse de stationnarité intrinsèque pour décrire son comportement le long de
cette direction.

La variable MNT semble quant à elle être stationnaire au regard de son comportement
directionnel (nuage de point relativement homogène et dispersion à peu près constante le long
des directions principales).

Les valeurs atypiques indiquées sur la figure 3.9 sont pour certaines de fortes profondeurs
dues au canal causé par le passage étroit entre l’île aux Moines et le continent au nord de la
zone d’étude. Nous décidons de conserver ces données pour la suite de l’étude. Mais d’autres
sont des incohérences entre la source des données sismiques et celle du MNT. Elles se
localisent autour du profil 34 (figure 3.5) situé dans une zone rocheuse. Les points proches à
valeurs discordantes sont supprimés.

3.3/ Nuage de corrélation différée ou « h-scatter plots »

Pour un vecteur de séparation h donné, le nuage de corrélation différée est le nuage des points
formés par les couples de valeurs (z(si), z(si+h)) ; z(si) représente la profondeur de la roche au
point si.
Pour que cet outil soit pertinent, il faut que les observations soient équitablement réparties sur
l’ensemble du champ. Plus les valeurs prises aux sites si et si+h sont semblables, plus le nuage

31
est proche de la première bissectrice ; au contraire, plus ces valeurs sont différentes, plus le
nuage est diffus.
Le nuage de corrélation différé est donc un outil qui représente la structuration des valeurs
pour une certaine séparation (h).

lag=35mètre

Figure 3.10

Dans notre exemple la distance moyenne au voisin le plus proche est d’environ 50 mètres. La
figure 3.10 nous montre les nuages de corrélation différée pour un vecteur de séparation de
longueur 50 mètres (plus ou moins 5 mètres) orienté dans la direction est-ouest et sud-nord.
Les valeurs prises aux sites séparés par 50 mètres dans l’axe est-ouest se ressemblent plus que
celles prisent dans l’axe sud-nord. La corrélation est de 0,9 contre 0,8 pour l’axe SN.
Certains points se détachent particulièrement du nuage ; un examen détaillé à l’aide de la
figure 3.6 (carte LIDAR : LIght Detection And Ranging), révèle que ces valeurs proviennent
de zones de profondeur très localisées comme dans le chenal.

Nous pouvons déduire des « h-scatter plots », que l’écart moyen entre la valeur prise en un
site si et un autre en si+50 mètres se rapproche de zéro sur l’axe horizontal comme sur l’axe
vertical. L’analyse variographique nous confortera dans cette hypothèse.

3.4/ Description bivariée

Il est important d’examiner la relation entre la variable auxiliaire et la variable d’intérêt. Pour
ce faire, les techniques disponibles (coefficient de corrélation, covariance, graphiques)
requièrent des couples de données aux points d’observations s1 à sn. Etant donnée que la
variable régionalisé auxiliaire n’a pas été observée en ces points, une interpolation spatiale
doit être préalablement effectuée afin de prévoir ces valeurs régionalisées.

Le MNT (variable auxiliaire) est connu sur un quadrillage d’un espacement de 50 mètres. Il
en résulte que la distance maximum qui sépare une observation de la variable principale à la

32
plus proche observation de la variable secondaire est de moins de 50 mètres. Cette distance
est très petite à l’échelle du champ. C’est pourquoi nous avons décidé d’utiliser la méthode
d’interpolation des plus proches voisins. Les voisins les plus proche seront les plus
représentatifs de la donnée à estimer.

Ceci fait la figure 3.10 montre la dépendance linéaire des deux variables. Les points alignés
sur la bissectrice sont les points correspondant aux zones de roche (non couvert d’une couche
sédimentaire). Nous leur avions effectivement attribué la profondeur donnée par le MNT.

Le coefficient de corrélation entre la variable d’intérêt et la variable auxiliaire est de 0.84.


Mais si on ne prend pas en compte les points des zones de roches ce coefficient décent à 0,75.

Tous les points Sans les zones de roche

Y=0,75X-7,45

Figure 3.11

La droite de régression linéaire est alors définie comme suit :

Y=0,75X-7,45

Y : Profondeur au toit du socle cristallin


X : Profondeur à la surface du fond marin

4/ Transformation des coordonnées

Les coordonnées des points sont en longitude, latitude de projection WGS84. C’est un
système géodésique dont l’unité est exprimée en degrés.

Projection WGS84 : une projection est une correspondance entre les points de la terre et
ceux de la représentation plane. La projection WGS84 est un système universel, mais il en
existe un grand nombre suivant l’endroit où l’on se place sur le globe.

Pour revenir à un système de coordonnées planes (une unité en ordonné égale une unité en
abscisse), dans le but de calculer une distance euclidienne nous appliquons une transformation
sur les coordonnées.

Longitude = longitude*cos(latitude*π/180°)
Latitude = latitude
1 degré (longitude / latitude) ≈ 111,2 km

33
5/ Conclusion

L’étude exploratoire nous a permis de nous familiariser avec les données. Elle montre
comment la distribution de la profondeur au toit du socle cristallin se rapproche d’une loi
gaussienne. Il existe bien une relation forte entre cette profondeur et celle du fond marin.
Enfin, les nuages des valeurs le long des directions de coordonnées et les nuages de
corrélations différées permettent de vérifier la ressemblance des profondeurs dans un rayon de
50 mètres autour d’une observation. Il faut à présent étudier plus précisément la structure
spatiale de la variable d’intérêt. C’est l’analyse variographique qui va y répondre.

34
Chapitre IV : Analyse variographique
L’analyse variographique est l’étape préalable au krigeage. Le manque d’observations de la
variable à prédire, l’abondance d’information de la variable auxiliaire et l’information de
position (longitude/latitude) pour chacune des observations, nous ont emmené à choisir
l’interpolation par « krigeage ».

L’analyse variographique est menée afin d’estimer la fonction de la continuité spatiale de la


variable d’intérêt. Dans ce chapitre nous présentons les variogrammes expérimentaux selon
diverses directions, l’étude du comportement à courte distance et enfin l’ajustement d’un
modèle.

1/ Variogrammes expérimentaux
1.1/ Variogramme omnidirectionnel

Le variogramme caractérise la continuité spatiale de la variable régionalisée. Sur la figure 4.1,


on trouve le variogramme expérimental omnidirectionnel, calculé pour des distances multiples
d’un pas de 50 mètres. L’intervalle de confiance à 95% accordé à chaque point est indiqué par
une barre verticale. Cet intervalle de confiance est fonction de la variance et du nombre de
paires de points intervenant dans le calcul des points expérimentaux.

Variogramme Omnidirectionnel Zoom sur 1/2 de la distance maximale

Figure 4.1

En supposant que la distribution Z(si)-Z(si+h) pour i=1 à n, suit une loi gaussienne de
2γˆ ( h)
moyenne nulle et de variance 2γ(h), on a n qui suit une loi du chi 2 à n degrés de
2γ ( h)
libertés. L’intervalle de confiance à α=95% de la variance est alors donné par :

 n2γˆ (h) n2γˆ (h) 


 2 ; 2 
 1− α / 2 χ α / 2 
χ

n : nombre de paire de points intervenant dans le calcul des points expérimentaux

35
γˆ (h) : valeur du point expérimental à la distance h (cf. formule estimation du variogramme)
χ²α : fractile d’ordre α de la loi du χ² à n degrés de liberté

Avant même de regarder plus précisément les intervalles de confiances, Arnaud et Emery
(2000 p .126) recommandent de ne tenir compte dans le calcul du variogramme expérimental,
que les distances allant jusqu’à la moitié de la distance maximale rencontrée entre deux points
du champ (cf. figure 4.1 de droite). Au-delà, le nombre de couples de points intervenant dans
le calcul du variogramme décroît et lui fait perdre en robustesse (cf. chap. II § 3.2).

Le variogramme omnidirectionnel atteint un palier à une distance de 1100 mètres. On peut en


déduire que la variable régionalisée (profondeur au toit du substratum) est une réalisation
d’une fonction aléatoire stationnaire d’ordre 2 (M. Arnaud et X. Emery, 2000 p.122 / Journel
et Huijbergts, 1993 p.37).

1.2/ Variogrammes directionnels

La figure 4.3 montre les variogrammes directionnels, le long des quatre directions principales
du plan, d’orientation -35°, 55°, 100° 145° par rapport à la direction est-ouest. Ces directions
ont été choisies en fonction de l’orientation des profils 13 et 12 (cf. figure 3.5) et de la
géographie observée sur l’image LIDAR (figure 4.2).

embouchure pointe
N
baie 55°

dunes -35°

Figure 4.2

La bathymétrie de la zone d’étude montre une continuité spatiale dans la direction 55°. On
remarque que si l’on se déplace sur un axe du sud-ouest au nord-est, la profondeur du fond
marin reste sensiblement la même, alors que si l’on se déplace du nord-ouest au sud-est on
doit faire face à de forte variation de profondeurs. Cette morphologie est le résultat de la baie
formé au nord-ouest et de l’écoulement de l’eau provenant en grande force le l’embouchure
au nord-est.

36
σ²=38,5

Figure 4.3

Les variogrammes de la figure 4.3 sont sensiblement différents. La différence d’accroissement


à l’origine est le symptôme d’une anisotropie. C’est un paramètre qu’il faut prendre en
compte.

1.3/ Anisotropie

Une anisotropie caractérise un phénomène qui se déploie préférentiellement dans certaines


directions de l’espace.

Les notions d’anisotropie, de continuité maximale et minimale peuvent être schématisées de


la manière suivante :

55°
Anisotropie : Bien que la distance entre le
point central et celui en direction 55° soit
0.56km plus grande que celle entre le point central
et le point en direction -35°, les valeurs
prises en ces points sont très proche (la
corrélation est la même).
0.175km
-35° Direction de continuité maximale :
direction à plus forte porté.

On distingue deux types d’anisotropie.

L’anisotropie géométrique : On observe dans diverses directions des paliers et des


composantes pépitiques identiques mais des portées différentes. Les portées maximales (ag) et
minimales (ap) s'observent selon deux directions orthogonales (cf. chap. II § 3.4).

37
L’anisotropie zonale : On observe des paliers différents selon les directions. Il n’existe pas de
modèle d’ajustement pratique pour traiter ce type d’anisotropie.

En observant la figure 4.3, on remarque que les paliers ne sont pas identiques. Mais si l’on
considère que la variable régionalisée est stationnaire d’ordre 2, le palier est
approximativement égal à la variance. Les directions de continuités maximale et minimale
sont alors respectivement de 55° et -35° par rapport à l’axe ouest-est avec une portée de 1100
mètres et 250 mètres.

 Pour prendre en compte l’anisotropie géométrique, on peut intervenir sur la distance. On


peut ainsi évaluer γ(h,θ) en corrigeant la distance h.

2
 ag 
Soit hg = (hθ cos θ )² +  hθ sin θ 
a 
 p 

Le modèle isotrope avec une portée maximale ag=1100 mètres est alors γ(hg).

Distance d’origines Distances corrigées

Figure 4.4

L’accroissement à l’origine devient sensiblement identique pour les deux directions


principales. La nouvelle définition de la distance a pour effet d’atténuer l’anisotropie.

 Une autre façon de tenir compte de l’anisotropie est de faire un changement de repère.
Si θ est l’angle de rotation, dans notre cas θ=35°, la formule est la suivante :

 x1' y1'   x1 y1 
 '   cos(θ ) sin(θ ) 
 xi y i'  =  xi y i  • 
− sin(θ ) cos(θ )
 x n'
 y n'   x n y n  

De cette façon nous nous replaçons dans un système de coordonnés redressé de 35° dans le
sens inverse des aiguilles d’une montre. Pour prendre en compte les portées dans les deux
directions on résout le système

38
 x1'' y1''   x1' y1' 
 ''   ag 0  '  Nouvel axe
 xi y i''  •  = x y i' 
a p   'i
et unité
0
 x n''
 y n''    xn
 y n' 
Axe et unité
d’origine
ap : portée sur l’axe 0X
ag : portée sur l’axe 0Y

35°

C’est cette seconde méthode que l’on retient pour l’estimation par krigeage.

1.4/ Comportement à l’origine du variogramme

Le comportement du variogramme à l’origine, reflète le degré de régularité spatiale de la


variable régionalisée (cf. chap. II § 3.2).

- Un comportement de γˆ (h) à l’origine parabolique indique une grande régularité de


la variable régionalisée (continue et différentiable).
- Un comportement à l’origine linéaire montre que la variable régionalisée est moins
régulière (elle est continue mais pas différentiable)
- Une discontinuité à l’origine ou effet de pépite, signale une plus grande irrégularité
de la variable régionalisée. Il y a absence (partielle ou totale) de corrélation entre
les valeurs prises en deux sites très proches. (Journel et Huijbregts, 1993 p.38).

D’après de la figure 4.1 et 4.3, on constate que les variogrammes ont un comportement à
l’origine linéaire ( γˆ (h) ≈10*h). La profondeur au toit du socle cristallin est donc une variable
aléatoire continue.

1.5/ Variogrammes croisés

Cov=28,2

Figure 4.5
Comme dans le cas monovarié, l’inférence statistique nécessite des hypothèses de
stationnarité de la corégionalisation (ensemble des variables régionalisées).

39
Pour analyser les liens spatiaux entre la profondeur du substratum et la profondeur à la surface
du fond marin, la figure 4.5 (de droite) montre les variogrammes croisés selon les directions
principales d’anisotropie. A sa lecture, nous faisons l’hypothèse d’une stationnarité d’ordre
deux car ils atteignent tous deux un palier environ égal à la covariance.

D’autre part, nous observons que les variogrammes des deux variables régionalisées et le
variogramme croisé se ressemblent fortement. Ca nous emmène à choisir le même modèle de
base pour leurs ajustements.

2/ Ajustement à un modèle

Le variogrammme expérimental calculé et ses propriétés étudiées, il faut ajuster une courbe
théorique. Elle doit être définie pour toutes les distances et toutes les directions de l’espace.
Cependant toute fonction mathématique ne peut être utilisée comme modèle. Un modèle
variographique doit être une fonction de type négatif conditionnel (Cressie, 1993 p.86) c'est-à-
dire que :

n n

∑∑
i= 1 j = 1
ω i ω j 2γ ( si − s j ) ≤ 0
n
quel que soit {si : i=1,…,n} et {ωi : i=1,…,n / ∑i= 1
ω i = 0}

C’est pourquoi le modèle de variogramme est choisi parmi un ensemble de fonction dont on
sait qu’elles sont de type négatif conditionnel (cf. partie II, chap.3.3).

Remarque : quel que soit le mode d’ajustement retenu, la modélisation du variogramme aux
courtes distances est particulièrement importante.

2.1/ Cas monovariable

Des anisotropies dans les directions -35° et 55° ont été détectées dans le paragraphe 1.3. Il
convient d’ajuster le variogramme dans ces directions. D’autre le palier dans les directions
principales est égal à la variance de la variable régionalisée, soit 38,6. N’ayant pas observé
d’effet pépite, le comportement à l’origine de la variable aléatoire régionalisée est linéaire.
Ces observations amènent à choisir entre un modèle sphérique et un modèle exponentiel. Le
modèle sphérique est préférable, d’une part parce qu’il s’ajuste mieux sur les points de petite
distance du variogramme expérimental et d’autre part parce qu’après plusieurs essais il donne
de meilleurs résultats.
M. Arnaud et X. Emery montrent que la variance d’estimation (variance de krigeage) est plus
élevée dans le cas du modèle exponentiel ; l’explication vient du fait que ce dernier croît plus
rapidement que le modèle sphérique, ce qui traduit un phénomène qui se déstructure plus vite,
d’où une moins grande précision dans l’estimation.

40
Variogramme directionnel de la profondeur au toit du substratum

Direction -35°

Direction 55°

Figure 4.6

Le modèle choisi pour les deux directions s’écrit :

  3h h 3 
 38,6 ×  − 
3 
pour a≥ h≥ 0
γ ( h) =   2a 2a 
 38,6 pour h> a

a identifie la portée ;
a= 0.399 km dans la direction -35°
a= 0.699 km dans la direction 55°

Remarque : L’estimation du paramètre de la portée se fait en résolvant le problème :

 n 2

L = min  ∑ ω i ( γˆ (hi ) − γ (hi ) ) 
ˆ
 i = 1 

n : longueur du vecteur h
γˆ (hi ) : valeur estimée du variogramme pour la distance hi
γ(hi) : valeur de la fonction variographique pour la distance hi
ωi : poids accordé à la distance hi ( les poids sont inversement proportionnels à la distance).

D’autres fonctions variographiques ou paramètres d’ajustement auraient pu être choisis. C’est


pour cela qu’il est nécessaire de contrôler la qualité du modèle d’ajustement. On effectue à
cette fin une validation croisée.

Pour tester les résultats de la validation croisée, nous comparons ceux obtenus pour le modèle
précédent et ceux obtenus pour le modèle variographique qui ne tient pas en compte
l’anisotropie (cf. figure 4.7).

41
Variogramme omnidirectionnel de la profondeur au toit du substratum

Figure 4.7

 h 
γ (h) = 50 ×  1 − exp(− )
 0.412 

2.2/ Validation croisée

D’après le rapport INERIS (2003), la validation croisée doit être réalisée avant d’entreprendre
le krigeage. Elle fournit des critères statistiques de sélection dans le choix d’un modèle de
variogramme.

La validation croisée consiste à éliminer temporairement un point de l’ensemble des données


puis à estimer sa valeur par krigeage à l’aide des données restantes et du modèle de
variogramme qui a été ajusté. Cette opération est répétée pour tous les points.

Ainsi en tout point d’observation si, est calculé par krigeage, avec le modèle variographique
retenu, une valeur estimée Zˆ ( si ) et un écart-type de krigeage σok(si). Le rapport INERIS
recommande alors de calculer :

- la moyenne et la variance de l’erreur d’estimation (Z(si)- Zˆ ( si ) ),

- l’erreur quadratique moyenne (EQM=


1 n

n i= 1
[ 2
Z ( si ) − Zˆ ( si ) ) ]
- la moyenne de l’erreur relative (100*[Z(si)- Zˆ ( s ) ]/ Z(si)),
i

- la moyenne et la variance de l’erreur standardisée ([Z(si)- Zˆ ( si ) ]/ σok(si)),


- le coefficient de corrélation entre Z(si) et Zˆ ( s ) . i

La qualité du modèle est d’autant meilleure que :

42
- la moyenne des erreurs d’estimation et des erreurs réduites (standardisées) est plus
proche de 0, ce critère assure l’absence de biais,
- la variance des erreurs d’estimation est plus faible, ce critère traduit la robustesse
de l’estimateur et renseigne sur la précision de l’estimation,
- la variance des erreurs standardisées est plus proche de 1, ce critère indique que
l’écart-type de krigeage reflète correctement la précision de l’estimation,
- la moyenne des erreurs relatives est plus proche de 0, ce critère traduit la bonne
précision de l’estimateur,
- la corrélation entre Z(si) et Zˆ ( si ) est plus proche de 1 et le nuage de corrélation
plus resserré.

L’application aux données :

N=441 Modèle avec anisotropie Modèle isotrope


Erreur Quadratique Moyenne 3,34 3,18
Moyenne des erreurs d’estimation -0,01 -0,001
Ecart-type des erreurs d’estimation 1,83 1,78
Moyenne des erreurs relatives -22,16 % -21,18%
Moyenne des erreurs standardisées 0,003 0,0007
Ecart-Type des erreurs standardisées 0,66 0,63
Coefficient de corrélation 0,95 0,96
% de données dont l’erreur 99 96
standardisée est inférieure à 2,5

Modèle anisotrope
Modèle isotrope
ées
im ées
est im
rs est
leu rs
Va leu
Va

Vraies valeurs
Vraies valeurs
Nuage de corrélation entre valeurs vraies et estimées
Figure 4.7

Les nuages sont concentrés le long de la première bissectrice, ce qui indique une bonne
précision des estimations. Les deux modèles rendent une estimation globalement sans biais,
les erreurs d’estimation ne s’écartent pas fortement de 0. D’après Arnaud et Emery (200,
p.156), pour valider un modèle on espère au moins 95% de données dont l’erreur standardisée
est inférieure à 2,5. C’est le cas pour les deux modèles. Les écarts-types sont proches de 1, les
erreurs relatives n’excèdent pas 23%. En revanche quelques fortes profondeurs sont sous
estimées.

Il est également intéressant de localiser les erreurs d’estimation. La figure 4.8 nous les
montre.

43
Embouchure Pointe de l’île

Erreur d’estimation du modèle anisotrope Erreur d’estimation du modèle isotrope


Figure 4.8

Les cartes montrent que l’on estime mal aux endroits à fort dénivelés (à l’embouchure au
nord) et certains points au sud-est. Ces erreurs sont dues à des incohérences entre sources de
données différentes (MNT et Sismique, cf. chap. III § 2.1.2).

Après application des deux modèles, le géologue a préféré les résultats obtenus par le modèle
à anisotropie.

3/ Conclusion

Dans ce chapitre nous avons exposé les bases de l’analyse variographique et les avons
illustrées par une étude de cas réel. La recherche d’un modèle convenable est assez délicat et
nécessite une certaine expérience ou de nombreux essais. C’est une procédure qui ne peut être
automatisée. Elle nécessite également les connaissances du géologue ou de l’expert sur le
terrain pour valider la véracité du phénomène observé (régularité spatiale, variabilité à courtes
distances et anisotropie).

44
Chapitre V : Estimation par krigeage
L’étape de l’estimation par krigeage est relativement rapide si l’étude variographique a été
correctement menée. Il ne s’agit ici plus que de définir une grille d’estimation et un voisinage
de krigeage (cf. chap. II, § 4.1). L’estimation par krigeage peut alors être entièrement
automatisée.

1/ Choix de la grille et du voisinage de krigeage

Nous avons choisi la même grille que celle proposée par le SHOM pour représenter le MNT.
Elle facilitera la comparaison entre la morphobathymétrie et la morphologie au toit du socle
rocheux. C’est une grille régulière de points espacés d’une distance de 50 mètres. Au regard
de l’échelle de la zone d’étude (≈ 750 ha), le degré de détail de cette grille est élevé. Elle
permettra de calculer facilement les courbes de niveaux et de représenter la géographie au toit
du socle cristallin en trois dimensions.

Le choix du voisinage de krigeage est un peu plus délicat. Le nombre de points inclus dans le
voisinage doit être assez grand pour une estimation de précision. Il dépend également de la
continuité spatiale de la variable régionalisée. Le modèle variographique doit être acceptable à
l’échelle de ce voisinage. C'est-à-dire qu’il existe une dépendance spatiale. On pourra tester
plusieurs tailles de voisinage par validation croisée et choisir celle qui donne les meilleurs
résultats. Dans le cas présent nous avons retenu un voisinage de krigeage d’un rayon de 500m.
C’est entre la portée de continuité maximale et la portée de continuité minimale du
variogramme directionnel.

Enfin, le choix du système de krigeage qui a été fait est le krigeage ordinaire. Comme nous
l’avons relaté dans le chapitre II, § 4, il ne nécessite pas la connaissance de l’espérance de la
variable régionalisée. Au lieu de l’estimer, il est souvent préférable de la considérer comme
inconnue car elle peut varier d’une zone à l’autre du champ. Toutefois, nous rappelons qu’il
faut qu’elle reste constante dans le voisinage de krigeage.

2/ Résultats obtenus par krigeage ordinaire

Figure 5.1

45
La figure 5.1 montre le résultat de l’estimation par krigeage et l’écart-type de krigeage. Le
krigeage utilise le modèle variographique suivant :

  3h h3 
 38,6 ×  − 
3 
pour a≥ h≥ 0
γ ( h) =   2a 2a 
 38,6 pour h > a

avec une portée (a) qui diffère suivant la direction (cf. chap.4 prg. 2.1)
L’anisotropie est corrigée par un changement de repère (cf. chap.4 prg. 1.3).

Les profondeurs varient entre 3 et -25 mètres. Une mesure au-dessus de zéro n’est pas
aberrante. Cela vient du fait que le niveau zéro de référence est le niveau de l’eau au
coefficient le plus fort à marée basse.

L’écart-type de krigeage est un indicateur de la précision de l’estimation. Il est fiable car


l’écart-type des erreurs standardisé est proche de 1 (cf. validation croisée Chap. IV § 2.2). Il
quantifie la dispersion possible de la valeur vraie, mais inconnue, autour de la valeur estimée.
Par contre, il dépend uniquement du modèle de variogramme et de la configuration des
données dans le voisinage de krigeage.

A la vue de la figure 5.1, les variations spatiales de l’écart-type de krigeage indiquent la perte
de précision lorsqu’on s’éloigne des points de mesure. Elles renseignent sur les zones où
l’échantillonnage est suffisamment dense (faible écart-type, bonne précision au centre et au
sud de la zone d’étude) et sur celles où l’échantillonnage est trop espacé (grand écart-type,
mauvaise précision au nord de la zone d’étude).

3/ Résultats obtenus par cokrigeage ordinaire

Le cokrigeage renforce le krigeage standard en y ajoutant l’information apportée par une


deuxième variable. C’est un immense avantage quand l’information de la variable principale
vient à manquer. On peut aussi s’imaginer optimiser les coûts des campagnes
d’échantillonnage en prélevant la profondeur au toit du socle cristallin uniquement aux
endroits à fort volume sédimentaire.

Les principes de base du cokrigeage sont les mêmes que ceux du krigeage. On veut former
une estimation linéaire de la variable principale à partir d’observations de la variable
principale et de la variable secondaire.

nZ1 nZ 2
Zˆ ( s 0 ) = ∑
i= 1
ω i Z1 ( si ) + ∑
j= 1
ω j Z 2 (s j )

Mais, en plus de créer un variogramme qui représente les variations spatiales de la variable
principale entre deux points d’observation, le cokrigeage introduit la notion de variogramme
croisé (cf. chap. II § 3.5 ). Tout comme dans le cas du krigeage, le variogramme croisé est
modélisé. Il permet alors de résoudre les équations qui fournissent les valeurs des coefficients
de pondération en fonction des observations des deux variables utilisés. De la même manière,
une évaluation de l’erreur d’estimation est disponible en chaque point d’interpolation. D’autre

46
part cette variance d’estimation est toujours inférieure à celle obtenue par krigeage (Arnaud et
Emery, 200 p.195).

3.1/ Ajustement du variogramme croisé

Le variogramme croisé quantifie la corrélation spatiale entre la variable principale et la


variable secondaire.

Variogramme directionnel croisé


(Profondeur au toit du socle rocheux / Profondeur à la surface du fond

Direction -35°

Direction 55°

Figure 5.2

  3h h 3 
 28 ×  − 
3 
pour a≥ h≥ 0
γ ( h) =   2a 2a 
 28 pour h> a

Le palier est égal à la covariance entre la profondeur au toit du socle cristallin et celle à
surface du fond marin.

a identifie la portée ;
a=0.378 km dans la direction -35°
a=0.731 km dans la direction 55°

3.2/ Validation Croisée

La validation croisée est utilisée pour comparer deux approches. La première approche est la
même que précédemment, c'est-à-dire que nous avons construit un modèle variographique à
partir de données mesurées et de données d’expertise. Ces dernières ont été jugées par un
géologue connaissant le terrain (cf. chap. III § 2.1.2). Lors du krigeage standard nous avons
gardé ces points pour estimer l’ensemble du champ. Or ce ne sont pas des valeurs exactes. La
deuxième approche propose de bénéficier de l’information apportée par la deuxième variable
sans prendre en compte les points d’experts lors de l’estimation.
Nous n’avons pas montré la deuxième approche pour l’estimation par krigeage car les
résultats n’en valaient pas la peine.

47
Le tableau suivant montre les statistiques de la validation croisée.

N=441 / N=323 Estimation avec points experts Estimation sans points experts
Erreur Quadratique Moyenne 2,08 1,20
Moyenne des erreurs d’estimation -0,02 -0,01
Ecart-type des erreurs d’estimation 1,44 1,09
Moyenne des erreurs relatives -3,52 % -1,03%
Moyenne des erreurs standardisées -0,006 -0,003
Ecart-Type des erreurs standardisées 0,83 0,68
Coefficient de corrélation 0,97 0,98
% de données dont l’erreur 98 98
standardisée est inférieure à 2,5

Les indicateurs statistiques des deux méthodes sont proches. Néanmoins l’EQM est bien
meilleur quand on ne rajoute pas les points d’expertises. Nous supposons que c’est du aux
points d’expertises difficiles à estimer car ils ne reflètent pas forcément la réalité.

Avec points d’expertises Sans points d’expertises


ées ées
im im
est est
rs rs
leu leu
Va Va

points d’experts mal estimés

Vraies valeurs Vraies valeurs


Nuage de corrélation entre valeurs vraies et estimées (par cokrigeage)
Figure 5.3

La figure 5.3 compare les nuages de corrélations entre vraies valeurs et des valeurs estimées
des deux approches.

Les nuages sont bien plus concentrés le long de la diagonale que ceux de l’estimation par
krigeage, ce qui indique une meilleure précision des estimations.

Attardons-nous sur le nuage de gauche, un grand nombre de points d’une profondeur de 15


mètres ont été estimé entre 10 et 20 mètres. Après une recherche de localisation il s’avère que
ce sont des points d’expertises ; un élément de plus pour les juger non fiables. Il manque une
cohérence entre les points d’expertises et les points qui les entourent.

La figure 5.4 localise les erreurs d’estimation. Elles sont moins fortes que celle faites par
krigeage. Au lieu de varier entre -8 et 8 mètres elles ne fluctuent plus qu’entre -8 et 4 mètres.
Par contre, les erreurs les plus importantes se localisent toujours aux mêmes endroits.

48
Erreurs d’estimations

Figure 5.4

3.3/ Résultat du cokrigeage

A la vue de la figure 5.5, on s’aperçoit que les résultats obtenus par cokrigeage sont plus fins
que ceux obtenus par krigeage. Le chenal présente une plus forte rugosité, la profondeur
diminue en s’approchant de la côte et les monticules rocheux séparant le puits au centre de
celui au sud sont plus lisibles.

Avec points d’expertises

Puits

Sans points d’expertises

Figure 5.5

49
N’ayant pas de points de mesures au nord ni au niveau de l’embouchure, le cokrigeage n’a pas
pu estimer cette zone sans les points d’expertises. En revanche nous supposons que
l’estimation sans les points d’expertises, du centre de la zone d’étude, se rapproche plus de la
réalité car nous n’avons pas introduit de biais.

L’écart-type du cokrigeage est plus faible que celui du krigeage dans une grande partie de la
zone d’étude.

En d’autres termes, l’information apportée par la variable auxiliaire, fortement corrélée avec
la variable cible, permet de compenser en grande partie le manque d’information dû à un sous
échantillonnage de la variable cible. C’est là l’un des intérêts majeurs du cokrigeage, lorsque
les mesures de la variable cible viennent à manquer ou, qu’il est moins coûteux de récupérer
une ou plusieurs variables auxiliaires que de mesurer plus largement la variable cible.

Les figures suivantes (figures 5.6) montrent différentes représentations des résultats obtenus.

Lissage – visualisation 2D Courbes de niveaux

Lissage – visualisation 3D

Cartes des profondeurs au toit du socle rocheux


Figure 5.6

50
4/ Comparaison graphique avec d’autres méthodes d’interpolation

A titre de comparaison, nous avons dessiné la carte des profondeurs au toit du socle rocheux
en utilisant les résultats de quatre méthodes d’interpolation.

Cokrigeage Triangulation Delaunay

mètres mètres

Triangulation Thiessen Inverse des distances

mètres mètres

Figure 5.7

Les trois méthodes figurants à côté de celle par cokrigeage sont des techniques d’interpolation
automatisées, intégrées dans des logiciels de système d’information géographique (SIG).
Leurs procédures de calculs ont été définies dans le chapitre I.
Cette comparaison illustre les résultats des méthodes déterministes. Ils sont différents, mais
permettent néanmoins une représentation globale du phénomène à étudier.

51
Chapitre VI : Les épaisseurs de couches sédimentaires
1/ Epaisseur de sédiment

L’étude doit permettre d’aboutir à l’épaisseur des formations sédimentaires. C’est la


différence entre la profondeur des fonds marins et celle au toit du socle rocheux. La figure 6.1
a été obtenue à partir des profondeurs au toit du substratum estimées par cokrigeage et des
données bathymétriques délivrées par le SHOM.

Embouchure

Pointe de l’île
aux Moines

[0-1[ mètre
[1-3[ mètres
[3-5[ mètres
[5-10[ mètres
[10-15[ mètres

Figure 6.1

La baie est recouverte d’une couche sédimentaire de 5 à 10 mètres d’épaisseur. Des dunes
apparaissent le long ouest du chenal. Le socle rocheux du sud-est de la zone est dépourvu de
formation sédimentaire.

2/ Courants marins

La répartition, la nature et l’épaisseur des sédiments, mais aussi la profondeur du substratum,


dépendent des conditions hydrodynamiques.

Huit heures par jour, il se forme un tourbillon au centre ouest de la zone d’étude (figure 6.2).
Les particules de sédiments en suspension dans l’eau se posent alors au fond et attaquent la
roche. C’est pourquoi d’importantes masses de sédiments sont constatées.

Les courants en vive eau ramènent les sédiments entassés au nord de l’embouchure (figure 6.1
et 6.2), pour les déposer 500 mètres plus bas lorsque l’intensité du courant s’affaibli. A
l’inverse, en morte eau, les courants remontent ces mêmes masses de sédiments mais qui sont
pour une partie stoppés par la pointe de l’île aux Moines. Ainsi il se forme des monticules de
sédiments juste au sud de cette pointe.

La partie est de la zone est dépourvue de sédiment car constamment parcourue par les
courants.

52
Les courants étant très faibles dans la baie, les sédiments stagnent et ont peu d’effet érosif.

Courant en Vive eau à Courant en Vive eau à Courant en Vive eau à


PM -6h à Port Navalo PM -2h à Port Navalo PM +2h à Port Navalo
Intensité du courant en m/s
tourbillon => couche
sédimentaire important

Courant important =>


pas de dépôt sédimentaire

Courant en Vive eau à Courant en Morte eau à Courant en Morte eau à


PM +6h à Port Navalo PM -2h à Port Navalo PM +2h à Port Navalo

Figure 6.2
(Source : Modélisation hydrodynamique du GdM –
Direction des études et recherches EDF)

La concentration ou la dispersion de l’énergie formée par les courants explique les contrastes
des fonds marins.

53
Chapitre VII : Localisation des colonies de crépidules
1/ Problématique

En sédimentologie, un outil de prélèvement très utilisé est la benne (figure 7.1). Elle permet
d’explorer la composition des fonds marins.

Crépidules
Benne Figure 7.1

L’Ifremer définit la crépidule comme un mollusque gastéropode (crepidula fornicata)


originaire d’Amérique du nord et introduit involontairement en Europe. Elle s’étend
maintenant de la Suède à la Méditerranée. Son abondance fait qu’elle entre en compétition
alimentaire avec d’autres coquillages. Elle a par ailleurs un impact sur les fonds qu’elle
colonise (dépôts de coquilles et de déchets, envasement). C’est un mollusque qui a une
capacité extraordinaire de prolifération (jusqu'à 10 000 individus au mètre carré). Il a déjà
colonisé toute une partie de la côte bretonne

L’objectif de cette présentation est de montrer qu’à partir d’un semis de points on peut
analyser une structure spatiale*. Chacun des points (prélèvement par bennes) nous indique la
présence ou non de crépidules. La connaissance de la structure spatiale, nous permet d’utiliser
une méthode de lissage pour créer une carte des zones occupées par les crépidules. Nous
obtenons alors une idée du peuplement de cet envahisseur dans la zone étudiée.

2/ Zone d’étude

Golfe du Morbihan
Pour les besoins de cette étude, les relevés par bennes
Zone d’étude sont localisés dans un secteur à un kilomètre au nord
ouest de l’île Tascon. La surface représente un rectangle
de 900 mètres d’est en ouest et de 950 mètres du nord au
île d’Arz
île
sud. 70 bennes sont relevées sur une surface de 85 ha.
île aux
Tascon
Pour chaque prélèvement on note une présence ou non
Moines île
Bailleron
de crépidules.

*
Structure spatiale : la façon dont les éléments occupent l’espace

54
3/ Statistiques spatiales descriptives

Cette partie propose des méthodes d’analyse concernant uniquement la position des objets,
indépendamment de la valeur d’un attribut de ces objets. On présente des indicateurs
permettant de décrire la concentration ou la dispersion du semis étudié. Le semis est-il
concentré ou réparti avec quel degré de certitude ?

3.1 Position et dispersion

Intéressons-nous aux bennes à présences de crépidules. Compte tenu de leur positionnement,


le barycentre se trouve à 200 mètres au sud du point central de la zone d’étude. C’est une
première indication pour dire que les bennes à présence de crépidules ne sont pas également
réparties sur toute la zone d’étude.
Les trois indicateurs de tendance centrale sont convergents, le point médian et le point de
distance minimale se situent à moins de 50 mètres du barycentre.
La dispersion standard des crépidules autour du barycentre est d’environ 350 mètres (distance
euclidienne) à vol d’oiseau. L’ellipse de déviation standard (représente le coefficient
d’asymétrie) est un tout petit peu plus étirée de l’est à ouest que du nord au sud en raison de la
forme de la zone d’étude. Il est intéressant de constater que 60% des bennes à présences de
crépidules sont comprises dans l’ellipse. Cela indique une population concentrée dans un
espace restreint de la zone d’étude.

Zone de prélèvement

Prélèvements
Convexe des sans présence
bennes à de crépidules
présence de
crépidules avec présence
de crépidules

Point centrale de la
zone d’étude
950
mètres

Point médian Barycentre


Distance
minimale

Ellipse de
déviation

900
mètres

Figure 7.2

55
3.2 Sectorisation

La sectorisation consiste à rechercher des groupes de sites qui ont la même valeur (présence
ou non de crépidules) et qui minimise la distance entre les sites. C’est une façon d’examiner si
des groupes homogènes se forment.
En regardant la localisation des bennes à présence de crépidules et celle sans, des frontières
apparaissent naturellement (figure 7.3.1).

La figure 7.3.2 montre une classification en 7 groupes par la méthode des K points moyens.
C’est une méthode fondée sur la distance (euclidienne).

Sans crépidules

Figure 7.3.1 Figure 7.3.2

Le principe en est le suivant :

- choisir au hasard K centres provisoires (1)


- regrouper les sites les plus proches de ces centres (2)
- calculer le centre de gravité de chaque groupe formé (3)
- recommencer (2) et (3) jusqu'à ce que les centres ne bougent plus.

Les secteurs de la figure 3.2 ont un barycentre qui minimise la dispersion des bennes à
présence de crépidules et celles sans crépidules.

3.3 Méthode des quadrats

La répartition des bennes à présence de crépidules peut-elle être assimilée à une répartition
aléatoire à l’échelle de la zone d’étude ? Est-elle au contraire plutôt répartie ou plutôt
concentrée ?

Qu’est qu’une répartition aléatoire :

Soient (Q1 ,Q2 ,..., Qn) les localisations des n quadrats, l’hypothèse d’une répartition spatiale
complètement aléatoire est celle issue d’un processus ponctuel homogène de Poisson et
reposant sur deux principes :
– un principe d’uniformité, selon lequel chaque localisation de la zone d’étude possède
la même probabilité d’être habitée par des crépidules ;
– un principe d’indépendance, en vertu duquel l’occurrence d’un événement en un lieu
n’influence en aucune manière l’occurrence d’événements en d’autres lieux.

56
Autrement dit, on suppose que la zone d’étude est parfaitement homogène et qu’il n’existe
aucune interaction entre les individus localisés. Sous ces conditions, ce modèle purement
aléatoire peut être formalisé au moyen d’une distribution de probabilités de Poisson.

L’analyse par quadrat dénombre les sites dans les cellules du carroyage (quadrats) et compare
les effectifs observés aux effectifs théoriques résultant d’une loi binomiale ou de son
approximation par la loi de Poisson (λ=np).

On pose un carroyage constitué de 25 quadrats de 48400 m² (220m x 220m).


On va tester deux choses :
- (1) les bennes à présence de crépidules sont la réalisation d’une
distribution spatiale aléatoire,
- (2) les bennes sans présence de crépidules sont la réalisation d’une
distribution spatiale aléatoire.

(1) La densité moyenne est de 2,16 (54/25) bennes à présence de crépidules et l’écart type est
de 1,7 bennes par quadrat.
(2) La densité moyenne est de 0,64 bennes à présence de crépidules et l’écart type est de 1,03
bennes par quadrat.

Interprétation,
Indice Valeur calculée (1) Valeur calculée (2)
la distribution est :
D (rapport de la variance sur 1 : aléatoire
la moyenne) 1,34 1,67 >1 : concentrée
<1 : régulièrement espacée
ICS (indice de dimension des 0 : aléatoire
agrégats) 0,34 0,67 >0 : concentrée
<0 : régulièrement espacée
GI (indice de Green) 0 : aléatoire
0,01 0,02
1 : très concentrée
IMC (indice de voisinage x : aléatoire
moyen) 2,49 1,31 > x : concentrée
< x : régulièrement espacée
IP (indice d’hétérogénéité) 1 : aléatoire
1,15 2,05 >1 : concentrée
<1 : régulièrement espacée

Conclusion, on peut considérer que la répartition des bennes à présence de crépidules n’est
pas conforme à un processus de Poisson, mais qu’elle manifeste une concentration. On
remarque effectivement une densité est plus forte au sud qu’au nord.
Les bennes sans présence de crépidules, sont aussi réparties comme un semis de points
concentrés.

La méthode des quadrats présente des défauts :

- Elle est plus adaptée à l’analyse spatiale d’une population que d’un échantillon. Elle
considère que le semis et complet sur la zone d’étude. Exemple ‘localisation des villes
dans une région’.
- Les résultats changent suivant le maillage choisi. Un maillage plus fin conclura à une
répartition aléatoire des bennes.
- Elle ne prend pas en compte les observations voisines. Comme indiqué, elle sous-entend
qu’en théorie la densité de crépidules est la même dans tout sous-ensemble de la région

57
(quadrat). C'est-à-dire que si la distribution des sites était répartie de façon régulière il y
aurait une densité de 2.16 sites dans chaque carreau.

La méthode suivante tient compte des observations voisines et de la distance qui les sépare.

3.4 Analyse spatiale exploratoire basée sur les distances

Les méthodes suivantes font l’hypothèse que le semis de point étudié est homogène. C’est-à-
dire qu’on suppose que la densité est constante sur toute la zone d’étude.

3.4.1 Méthode du voisin le plus proche

Elle propose de comparer la distance moyenne d’un point à son plus proche voisin avec une
distance théorique attendue sous l’hypothèse nulle de distribution aléatoire.

Soit N observations sur un territoire d’une superficie S. La distance moyenne théorique au


1 S
voisin le plus proche est d 0 = =57,83 (S/N : densité du semis de points).
2 N

La distance moyenne à vol d’oiseau entre deux prélèvements, à présence de crépidules, les
plus proches dans la zone d’étude est de 52 mètres (distance euclidienne). La distance
moyenne attendu théorique entre deux présences de crépidules dans un semis de points généré
par un processus ponctuel aléatoire de même densité serait de 57 mètres. La statistique R est
égale à 0,9 (52/57). Elle est à comparer avec :

- le modèle concentré de référence qui a une statistique R égal à 0,


- le modèle aléatoire qui a une statistique R égal à 1,
- le modèle équirépartit dont le R est égal à 2,15.

Avec un R=0,9 nous nous rapprochons fortement d’une répartition aléatoire des crépidules.

On peut connaître la région critique d’acceptation de l’hypothèse nulle. L’intervalle de


confiance pour une distribution aléatoire au risque α=5% de se tromper est :

[d 0 − 1,96 • σ d0 ; d 0 + 1,96 • σ d0 ] = [ 49,77 ; 65,88]


0,26136
avec σ d0 = = 4,11
N2 /S

Il en résulte que la distribution est significativement aléatoire, car la distance observée


moyenne au voisin le plus proche (52,19) est comprise dans l’intervalle.

Elle serait significativement dispersée si la distance observée moyenne au voisin le plus


proche était supérieure à d 0 + (1,96 • σ d 0 ) = 65,88 ;
ou significativement concentré si la distance observée moyenne au voisin le plus proche était
inférieure à d 0 − (1,96 • σ d 0 ) = 49,77 pour α=5%.

Remarque : les résultats sont différents de ceux apporté par la méthode des quadrats.

58
L’extension de la méthode aux 20 premiers rangs de voisinage rend les résultats présentés
dans le tableau ci-dessous. La statistique R calculé est croissante avec l’augmentation des
ordres de voisinages. Ce qui montre que plus l’ordre de voisinage augmente et plus le semis
est régulièrement espacé.

Rang de Distance au plus Distance


voisinage proche voisin théorique Statistique R
1 52.19 57.83 0.90
2 88.45 86.74 1.01
3 112.44 108.43 1.03
4 136.01 126.50 1.07
5 155.83 142.31 1.09
6 171.94 156.55 1.09
7 190.72 169.59 1.12
8 212.38 181.71 1.16
9 226.85 193.06 1.17
10 239.60 203.79 1.17
11 254.94 213.98 1.19
12 265.91 223.71 1.18
13 276.83 233.03 1.18
14 287.35 241.99 1.18
15 297.66 250.63 1.18
16 309.94 258.99 1.19
17 320.64 267.08 1.20
18 333.50 274.94 1.21
19 344.34 282.57 1.21
20 354.22 290.01 1.22

D’autre part, si la distance au Kième voisin le plus proche est plus élevée que la distance
théorique attendue alors le semis de points est régulièrement espacé à cet ordre de voisinage.
Au contraire, une valeur observée faible indique un semis concentré.

La statistique du voisin le plus proche souffre de différents défauts. Elle utilise comme aire
d’étude le polygone formé par les points limitrophes et non pas une aire plus large qui serait
donnée par l’utilisateur. Selon Cressie (1993), la validité du test décline fortement avec
l’élévation de l’ordre K. Il recommande de ne pas dépasser un niveau K<2,5%N. Or dans
notre cas cette valeur est égale à 1,35. Les conclusions de l’extension aux 20 premiers rangs
sont donc à relativiser.
D’un autre côté la méthode des plus proches voisins est simple à utiliser et ne nécessite pas de
connaître toute la population.

3.4.2 Fonction de Ripley modifiée (L de Besag)

La fonction K de Ripley (1977, 1981) est une méthode plus récente pour analyser la structure
spatiale d’un semis de points. L’hypothèse de base est que la densité locale à l’intérieur d’un
cercle est égale à la densité de l’ensemble de la zone d’étude. Le principe est de calculer la
probabilité d’observer un nombre donné de points dans un cercle de rayon d autour d’un point
quelconque de la zone d’étude. La règle illustrée en figure 7.4 est répétée pour chacun des
points, pour en déduire des résultats moyens.

59
Nombre de voisins

Fonction de Ripley

6
4 4 4 4

Distance d’analyse R

Figure 7.4. Source : François Goreaud - Cemagref

Sous l’hypothèse nulle de la fonction de Besag, le semis de points est aléatoire. La figure 7.5
représente la courbe de la fonction L de Besag et celles des bornes de l’intervalle de confiance
de l’hypothèse nulle.

Bennes à présences de Crépidules Bennes sans présences de Crépidules

40 100

80

30

60

20 40

20
10

0 0 50 100 150 200 250 300 350


-20
0 50 100 150 200 250 300 350
-40
-10

-60

-20
-80

-30 -100

distance(mètres) distance(mètres)

LBesag H0min H0max LBesag H0min H0max

Figure 7.5

Lorsque la fonction de Besag est comprise dans l’intervalle de confiance, on admet que la
distribution observée est conforme à une distribution aléatoire de Poisson. Si la fonction de
Besag est plus élevée que la borne supérieure de l’intervalle de confiance, alors la distribution
est concentrée dans l’espace d’étude. Lorsque la statistique de Besag est plus faible que la
borne inférieure de l’intervalle de confiance, alors la distribution est régulièrement dispersée
dans l’espace d’étude.

Le calcul de la fonction L de Besag confirme et précise les conclusions tirées de l’analyse du


voisin le plus proche. En effet, il y une absence d’organisation spatiale significative sur le
semis de points avec présence de crépidules. Toutefois il existe une tendance à la
concentration dans les rayons de 10 mètres et de 160 mètres de distance.
Les bennes sans présence de crépidules sont significativement concentrées dans un rayon
allant de 130 mètres à 250 mètres.

L’avantage de cette méthode est qu’elle donne de l’information à plusieurs échelles de


distance.

60
3.5 Conclusion de l’analyse spatiale descriptive

Les méthodes précédentes servent à tester une hypothèse globale sur la configuration spatiale
de la zone d’étude. Elles permettent de savoir s’il existe un ordre spatial, mais ne sont pas
capables de situer les agrégats.
Les méthodes reposent sur une hypothèse d’homogénéité de la variable sur la zone d’étude.
Elle est contraignante et ne s’applique pas forcément à notre cas. Au contraire si l’on observe
des crépidules sur un site alors il y a de fortes chances qu’il y en ait à côté.
Les méthodes n’ont pas été pensées pour étudier un échantillon mais pour une population
connue sur l’ensemble de la zone d’étude. C’est pourquoi nous les utilisons seulement dans le
but de localiser les zones susceptibles d’intérêt.

4 / Méthode d’interpolation par partitionnement de l’espace

Les méthodes d’interpolations suivantes s’appuient sur une décomposition de la zone d’étude
(cf. chap. I). La méthode de partitionnement la plus fréquemment utilisé est celle de
Delaunay. Elle découle d’un découpage en polygones de Thiessen.

4.1 Polygones de Thiessen

Présence de
crépidules

Figure 7.6

On attribue à tout point appartenant au même polygone, la valeur du site ayant ce polygone
d’influence (cf. chap. I § 1.1).

La validation croisée (cf. chap. IV § 2.2) pour cette méthode rend 81,08% de bonne réponse.

4.2 Interpolation par la méthode des plus proches voisins

L’algorithme se base sur une décomposition de l’espace en polygones de Delaunay (cf. chap.
I § 1.1.1.2)

Ayant peu d’observations, et sachant que les crépidules vivent en colonie, si elles sont
présentes à un endroit il y a de forte chance que l’on en trouve juste à coté. D’où l’idée de

61
découper la zone d’études en une grille régulière à maille rectangulaire de côté mesurant 50
mètres. Elle est alors assez fine pour que chaque benne remontée corresponde à un carreau.

Tout point de la grille appartient à un triangle de Delaunay. La valeur du point que l’on
cherche à estimer sera celle du sommet le plus proche.

Figure 7.7

La validation croisée (cf. chap. IV § 2.2) pour cette méthode rend 82,43% de bonne réponse.

5.3 Interpolation suivant le nombre d’individus comptés

Les méthodes suivantes sont appelées abusivement des méthodes d’interpolation. Elles sont
plus précisément des méthodes de lissage. Elles permettent de réaliser une transition entre les
régions à valeurs observées différentes. Elles sont normalement utilisées lorsque les sites
d’observations sont disposés selon une grille régulière.

Les géologues ont aussi relevé pour certaines bennes remontées, la quantité de crépidule. Le
tableau ci-dessous donne quelques statistiques sur ces données.

Nombre de bennes 70 Médiane des crépidules comptés 25


Nombre de bennes avec crepidules 54 Maximum de crépidules dans une benne 87
Nombre de bennes avec comptage de crépidules 39 Moyenne des crépidules dans une benne 29
Minimum de crépidules dans une benne 4 Ecart type des crépidules dans une benne 19

On remarque que la moyenne est de 29 crépidules par bennes et que 50% des bennes à
présence de crépidules remontent plus de 25 crépidules. D’un autre coté, l’amplitude de 83
crépidules est élevée. Il en découle un écart type important.

La figure 8 présente les résultats obtenus suivant quatre méthodes de lissage.

62
Figure 7.8

- L’interpolation linéaire (cf. chap. I) se base sur la triangulation de Delaunay. Nous rappelons
que l’estimateur pour un point S inclus dans un triangle S1, S2, S3 s’écrit :

S1 SS 2 Z ( S 3 ) + S1 SS 3 Z ( S 2 ) + S 2 SS 3 Z ( S1 )
Zˆ ( S ) =
S1 S 2 S 3

avec |.| désignant la surface.

- L’interpolation cubique consiste à ajuster à l’intérieur de chaque triangle de Delaunay une


surface dont l’équation est un polynôme du troisième rang.
3 2

Ce polynôme est de la forme : Zˆ ( S ) = Zˆ ( x, y ) = ∑∑


i= 0 j= 0
α ij x i y j

- La méthode du plus proche voisin estime le site S en lui affectant la valeur du site observé le
plus proche.

- L’interpolation par splines ne se base pas comme les précédentes sur une triangulation de la

∫ ( Zˆ ' ' (S )) dS sous la contrainte Zˆ (S ) =


Si+ 1
2
zone d’études. Elle minimise i Z ( Si ) ∀ i = 1...n
Si

Remarque : les méthodes cubiques et splines produisent des surfaces à aspect très lisse alors
que les méthodes linéaires et plus proche voisin présentent des discontinuités.

63
Validation croisée des quatre méthodes présentées :

Linéaire Plus Proche Voisin Cubique Spline


% de bonnes réponses* 15,78 29,82 14,03 12,28
Moyenne de l’erreur d’estimation -0,58 -0,54 0,07 -1,07
Variance de l’erreur d’estimation 14,28 17,96 14,27 15,70
Erreur quadratique moyenne 200,33 317,49 199,55 243,51
Moyenne de l’erreur relative -0,01 -0,01 0,001 -0,02
Coefficient de corrélation 0,728 0,661 0,732 0,723
*% de bonnes réponses à plus ou moins trois crépidules près.

Le tableau ci-dessus permet de comparer les quatre modèles à partir de critères statistiques
(cf. chap. 4 § 2.2). La moyenne de l’erreur d’estimation des quatre modèles est proche de 0.
( )
Cela montre qu’ils sont sans biais ( E Zˆ ( S ) = Z ( S ) ). Par contre ceux ne sont pas des
estimateurs robustes (variance de l’erreur d’estimation élevée). L’avantage d’un estimateur
robuste est qu’il est insensible aux valeurs aberrantes. La moyenne de l’erreur relative,

100 ∗
[ ]
Zˆ ( S ) − Z ( S )
proche de 0, indique que les interpolations sont d’une bonne précision.
Z (S )

Si l’on compare les méthodes d’interpolation, la méthode cubique rend les meilleurs résultats
globaux. Mais si l’on y regarde de plus près (figure 7.9) on s’aperçoit qu’elle n’estime pas
correctement les sites sans présence de crépidules. Ils sont mieux estimés par la méthode du
plus proche voisin (PPV).
L’idée qui s’en suit est d’estimer les sites sans présence de crépidules par la méthode du PPV.
Les sites restant seront estimés par la méthode cubique. Le résultat se trouve en figure 7.10.

Figure 7.9 : Corrélation entre valeurs observées et


estimées

64
Figure 7.10

5.4 Conclusion

Nous venons de voir quatre méthodes d’interpolations et il en existe encore un grand nombre.
Il est difficile de préconiser une méthode plutôt qu’une autre. C’est pourquoi il est conseillé
d’utiliser systématiquement la validation croisée qui donne les moyens de comparer les
diverses méthodes. Les techniques déterministes ont l’avantage de pouvoir être automatisé,
mais à l’inverse du krigeage (méthode stochastique), elles ne prennent pas en compte la
structure spatiale du phénomène étudié. Leur but est avant tout d’aboutir à une carte
esthétique des valeurs estimées en produisant des surfaces à aspect très lisse.

65
Conclusion
L’objectif de ce travail a été de créer une carte de la bathymétrie au toit du socle rocheux dans
la partie orientale du golfe du Morbihan. A partir d’un semis de 461 points observation, il
était demandé d’estimer la valeur (profondeur de la roche sous la couche sédimentaire) des
points d’une grille de 3611 points. Une recherche bibliographique a permis d’étudier les bases
des techniques d’interpolations spatiales et notamment celle du krigeage ordinaire. Cette
dernière a été présentée d’un point de vue théorique et appliquée. Les fondements
mathématiques du krigeage et de son étape préalable, l’analyse variographique, ont été
examinés et discutés. Le choix de cette méthode a été motivé par le manque de données
disponibles de la variable à interpoler. Le cokrigeage (généralisation multivariable du
krigeage) est une des rares techniques d’interpolation qui permette d’intégrer des variables
auxiliaires dans la modélisation. Nous avons pu ainsi profiter de l’information apportée par le
modèle numérique de terrain, fait par le SHOM, pour estimer plus précisément la profondeur
de la roche sous la couche sédimentaire. Toute fois, les estimations produites auraient pu être
encore améliorées par d’autres variables auxiliaires comme la bathymétrie au début du XXème
siècle ou la force du courant. Mais à l’heure actuelle, ces données n’existent pas dans un
format numérique exploitable.

Cette application concrète a révélé l’importance de l’analyse variographique. Elle fait la force
et la faiblesse du krigeage. Elle permet en effet à l’instar des méthodes déterministes, de
modéliser la structure spatiale de la variable régionalisée (anisotropie, dépendance et
corrélation spatiale entre les observations) ; mais elle ne peut pas être automatisée. Un
mauvais ajustement du variogramme ne pourra jamais donner de bonnes estimations et
entraîne par ailleurs une mauvaise approximation des erreurs. C’est un point délicat car
l’avantage du krigeage par rapport à d’autres méthodes, est qu’il permet justement de mesurer
la précision de l’estimation fournie.

Les méthodes déterministes, comme celles d’interpolation par partitionnement de l’espace,


sont automatisées et peuvent par conséquent être facilement intégrées aux logiciels de
système d’information géographique (SIG). Certaines permettent d’interpoler des variables
qualitatives (méthode du plus proche voisin, méthode de Thiesen), ce que ne propose pas le
krigeage. C’est ainsi que l’on a pu tracer une carte du territoire occupé par des crépidules sur
la base d’un échantillon de prélèvements localisés.

Suivant le nombre de sites d’observation, leur dispersion géographique, les modalités de la


variable observée, il se peut qu’une méthode d’interpolation soit préférable à une autre. Il
n’en reste pas moins que l’utilisateur ne pourra pas faire l’économie de tester plusieurs
méthodes d’interpolation et utiliser la validation croisée pour valider ses résultats.

Ainsi au fil des chapitres, des méthodes déterministes et une méthode stochastique,
notamment géostatistique ont été approfondi, illustré et comparé. C’est ainsi que les objectifs
du stage, à savoir proposer des méthodes pour créer un modèle numérique de terrain à partir
d’un échantillon de données, ont été atteints.

Il aurait aussi été intéressant, d’étudier le suivi spatio-temporel de la couverture sédimentaire,


ou encore analyser la propagation des crépidules dans le temps. Des cartes à différentes
époques permettraient de mieux comprendre le déplacement des sédiments ou crépidules à
l'échelle du golfe et de localiser les zones critiques ainsi que leurs origines. Malheureusement
les données en notre possession ne sont pas assez détaillées pour profiter de ces techniques.

66
Bibliographie
Livres :

Michel ARNAUD & Xavier EMERY (2000) - Estimation et interpolation spatiale – Hermes

Peter A. BURROUGH & Rachael A. McDONNELLl (1998) - Principles of geographical


information systems - 2cd edition - Clarendon Press

Noel A.C.CRESSIE (1993) - Statistics for spatial data - Revised Edition - Wiley

Hubert JAYET (1993) - Analyse spatiale quantitative - Economica

A.G. JOURNEL & Ch.J. HUIJBREGTS (1993) - Mining Geostatistics - Academic Press

George MATHERON (1963) - Traité de géostatistique appliquée - Technip

Jean-Marc ZANINETTI (2005) - Statistique spatiale - Hermes

Jean-Thierry LAPRESTE (2005) - Introduction à MATLAB – Ellipses

MapInfo Professional – Guide de l’utilisateur 7.0

MapInfo – Vertical Mapper v.3

Sites Internet :

Sophie BAILLARGEON (2005) - Le krigeage, mémoire présenté à la l’université de Laval,


Québec - http://www.theses.ulaval.ca/2005/22636/22636.pdf

Laurent BERTINO et Hans WACKERNAGEL (2004) - Prévoir l’état de l’océan :


L’assimilation de données intègre observations et modèles numériques -
http://www.larecherche.fr/special/web/wxyz371.pdf

Edith GABRIEL (2004) - Détection des zones de changement abrupt dans les données
spatiales, thèse présenté à l’université de Montpellier II -
http://www.maths.lancs.ac.uk/~gabriel/papers/TheseGabriel.pdf

Yves GRATTON (2002) - Le krigeage, la méthode optimale d’interpolation spatiale -


http://www.iag.asso.fr/articles/krigeage_juillet2002.htm

Nicolas JEANNEE (2005) - La Géostatistique : concepts et applications pour l’estimation de


phénomènes spatialisés -
http://pastel.paristech.org/bib/archive/00001233/01/These_Jeannee.pdf

Caroline LAFLEUR (1998) - MATLAB Kriging Toolbox -


http://globec.whoi.edu/software/kriging/V3/intro_v3.html

Gildas LE CORE (1998) - Outil d’analyse par krigeage - http://www.faocopemed.org/vldocs/


0000028/publi15.pdf

67
Denis MARCOTTE - Cours de géostatistique minière & Cokriging with MATLAB -
http://geo.polymtl.ca/

Nargess MEMARSADEGHI (2004) - Cokriging Interpolation -


http://www.cs.umd.edu/~nargess/Publications/cokriging.pdf

Jean SCHWAENEN (1995) - Conversion de données géodésiques -


http://www.astrolab.be/observations/20040906%20Grazing%20Occultation%20Double
%20Star/ED50-WGS84.pdf

Rapport INERIS, LCSQA (Laboratoire Central de surveillance de la Qualité de l’Air)


- Guide d’utilisation des méthodes de la géostatistique linéaire (2003)
http://www.lcsqa.org/rapport/rap/prog2003/ineris/Etude14_1_guide_nelle_version.pdf
- Evaluation des incertitudes associées aux méthodes d’estimation géostatistiques (2003)
http://www.lcsqa.org/rapport/rap/prog2003/ineris/Etude15_rapport_incertitude_avril2004.pdf

68

S-ar putea să vă placă și