Sunteți pe pagina 1din 11

LA CURIEUSE LOI DE BENFORD

OU
UN MONDE PHYSIQUE AUTOSIMILAIRE

THIERRY ALHALEL

thierry.alhalel@laposte.net

Résumé : On s’intéresse dans cet article au premier chiffre significatif d de grandeurs physiques telles que la
densité, la solubilité ou la période radioactive des désintégrations β. Comme on va le voir, selon que ce chiffre
est 1 ou 9, la probabilité de l’obtenir n’est pas la même. On tentera ensuite de donner une explication générale
qui s’appliquera à l’ensemble du monde physique : l’autosimilarité.

I- Introduction :

C’est Simon Newcomb qui observa, semble-t-il le premier au XIXieme siècle, que les tables de
logarithmes utilisées couramment à l’époque étaient plus tachées et usées au début qu’à la fin. Cela impliquait
que les nombres dont on prenait le logarithme présentaient plus souvent un premier chiffre significatif (first
digit) petit (1 ou 2) que grand (8 ou 9).
Cela est bien sûr très surprenant, car le gros bon sens voudrait une probabilité identique pour chaque
valeur que ce soit 1 ou 7, soit p’ = 1 / 9 = 0,11111… quel que soit la valeur d du premier chiffre significatif.

Plus étonnant encore, cette constatation s’applique [1] à de nombreuses données physiques, y compris
par exemple la surface des îles du Pacifique, ou mieux encore les sommes portées sur les talons de chèques, et ce
quelle que soit l’unité utilisée : pouces carrés, centimètres carrés pour les surfaces, francs ou euros pour l’argent.

Dans les années 1930 Franck Benford proposa une loi empirique pour coller à cette curieuse
observation. Si on note d la valeur du premier chiffre significatif, la probabilité p d’avoir d lors d’une lecture
s’écrit :

1
p = log 10 (1 + )
d
Cela donne le tableau des probabilités :

d 1 2 3 4 5 6 7 8 9
Benford 0,301 0,176 0,124 0,0969 0,0791 0,0669 0,0579 0,0511 0,0457
Faux 0,111 0,111 0,111 0,111 0,111 0,111 0,111 0,111 0,111

Ce tableau montre qu’en moyenne il y a 47 % de chance de tomber au hasard sur d valant 1 ou 2, et 53


% de chance de tomber sur une valeur de d comprise entre 3 et 9 (inclus).

On va montrer l’évidence de cette loi sur des exemples très différents, puis on tentera de donner une
explication à un phénomène qui est bien plus qu’une curiosité.

On étudiera successivement la période de désintégration radioactive β, la solubilité dans l’eau à 0 °C,


la densité des corps organiques et inorganiques, et la succession des termes de la suite de Fibonacci.

1
II- Les désintégration β+ et β- :

On donne dans le tableau 1 suivant le symbole X du nucléide, son nombre de masse A, sa période
radioactive t1/2 exprimée en seconde, puis le premier chiffre significatif (1er ) correspondant :

Tableau 1 : désintégration β+ dans 45 exemples

X I I I Xe Xe Xe Xe
Te Te
Te Sb Sb Sb Sb Sb
A 121 122 124 118 119 120 123 115
116 119 112 113 114 115 116
t1/2 7560 210 3628 360 360 2400 7560 360
9000 5724 54 402 198 1860 3600
80 0
1er 7 2 3 3 3 2 7 3 9 5 5 4 1 1 3
X Sb Sn Sn Ag Ag Ag Ag Cd Cd Cd Rh Rh Rh Rh Pd
A 117 109 111 103 104 106 108 103 105 107 97 98 99 100 98
t1/2 1008 1086 2100 3960 4020 1440 145 600 3300 2340 1920 522 1382 7200 1020
0 0 400 0
1er 1 1 2 3 4 1 1 6 3 2 1 5 1 7 1
X Pd Pd Mo Mo Mo Tc Tc Tc Ru Ru Zr Zr Zr Nb Sr
A 99 101 88 89 91 92 93 94 93 95 86 81 87 90 81
t1/2 1320 3024 1620 420 929 264 9720 1758 50 6120 5940 600 5760 5256 1746
0 0 0 0
1er 1 3 1 4 9 2 9 1 5 6 5 6 5 5 1

Le tableau 2 récapitule la répartition chiffre par chiffre (ligne 1) du nombre d’occurrences (ligne 2), de
la probabilité p (occurrence / total), et enfin de la comparaison à la loi logarithmique de Benford (ligne 4).
On forme également le rapport (ligne 5) :

p − p Benford
R=
p + p Benford
qui permet de comparer les résultats obtenus avec ceux attendus par la loi logarithmique.

les 45 exemples comptés voient leur premier chiffre significatif se répartir comme suit dans le tableau 2 :

Tableau 2 : 1er chiffre significatif d : résultats sur 45 exemples

1er chif. 1 2 3 4 5 6 7 8 9 Total


d=
Occur 13 5 8 3 7 3 3 0 3 45
Proba p 0.288 0.111 0.177 0.0666 0.155 0.0666 0.0666 0 0.0666 0,997
Loi log 0.301 0.176 0.125 0.0969 0.0792 0.0669 0.0579 0.0511 0.0457 0,9997
R -0.022 -0.23 +0.17 -0.18 +0.32 -0.0022 +0.067 -1 +0.19

Il apparaît clairement sur ces 45 exemples que la valeur du chiffre significatif d influe sur la valeur de
la probabilité p. Cependant l’accord avec la loi de Benford :
1
p = log 10 (1 + ) n’est qu’approximatif.
d
Il convient donc d’augmenter les cas étudiés. Il serait fastidieux de dresser un tableau complet des
différents nucléides, on donne donc ci dessous les résultats portant sur 120 exemples issus de [2] :

2
Tableau 3 : 1er chiffre significatif d : résultats sur 120 exemples β+

1er chif. 1 2 3 4 5 6 7 8 9 total


d=
Occur 35 22 16 10 12 10 4 3 8 120
Proba p 0.292 0.183 0.133 0.083 0.1 0.083 0.033 0.025 0.066 0,998
Loi log 0.301 0.176 0.125 0.0969 0.0792 0.0669 0.0579 0.0511 0.0457 0,9997
R -0.015 +0.019 +0.031 -0.077 +0.11 +0.11 -0.27 -0.34 +0.18 -0,028

L’accord entre la loi de Benford et ces 120 exemples semble assez bon sur les chiffres significatifs 1 2 3
et comme on le visualiser sur le haut de la figure 1, qui compare chiffre à chiffre la probabilité p théorique selon
la loi de Benford (barre pleine) à la probabilité obtenue expérimentalement (cercles).

Figure 1 : Loi de Benford : désintégration β


desintegration beta+ : 120 exemples
0.4

0.3

0.2

0.1

0
1 2 3 4 5 6 7 8 9

desintegration beta+ et - : 392 exemples


0.4

0.3

0.2

0.1

0
1 2 3 4 5 6 7 8 9

Si les 3 premiers cas (1 2 et 3) correspondent bien à la loi logarithmique, le désaccord sur les valeurs
suivantes de p est certainement lié au peu de valeurs obtenues pour 4 et au delà (de l’ordre de la dizaine), ce qui
induit forcément des écarts à la loi de Benford.

De façon à multiplier les exemples, on peut confondre radioactivités β+ et β-, et porter l’échantillon
étudié à 392 cas. Les résultats se trouvent dans le tableau 4 et sont toujours issus de [2] :

3
Tableau 4 : 1er chiffre significatif : résultats sur 392 exemples

1er chif. 1 2 3 4 5 6 7 8 9 total


d=
Occur 112 56 58 35 37 35 18 20 21 392
Proba p 0.285 0.143 0.147 0.0892 0.0943 0.0982 0.0459 0.0510 0.0535 1,007
Loi log 0.301 0.176 0.125 0.0969 0.0792 0.0669 0.0579 0.0511 0.0457 0,9997
R -0.027 -0.10 +0.080 -0.041 +0.087 +0.19 -0.11 -0.098 +0.078 0,0065

Comme le montre le bas de la figure 1, il y a clairement une corrélation entre la valeur numérique du
premier chiffre significatif et le nombre de fois où il apparaît sur les 392 cas pris au hasard dans les tables de [2].
La correspondance n’est pas parfaite bien sûr, il conviendrait d’avoir un échantillon plus grand (ce que
l’on fera dans un cas particulier au paragraphe V). On peut cependant être intrigué par ce résultat et voir si on a
un comportement semblable pour d’autres données physiques.
On peut aussi observer les valeurs de R entre les tableaux 3 et 4 : le nombre de cas étudiés diminue les
écarts entre les observations et la loi de Benford. La valeur de R dans la colonne total est la moyenne des
valeurs de R de d= 1 jusqu’à d=9.

III- La solubilité des solutés dans l’eau froide ( à 0 °C) :

Cette deuxième série de données est toujours issue de [2]. Il s’agit de la solubilité s de divers solutés
inorganiques, dans l’eau à 0 °C, exprimée en grammes pour 100 cm3 d’eau.
Donnons juste un exemple : le sulfate de rubidium RbSO4 : s = 9,3 g / 100 cm3

On trouve dans le tableau 5 les résultats condensés, du chiffre significatif d= 1 au chiffre significatif 9 :

Tableau 5 : 1er chiffe significatif : résultats synthétiques concernant la solubilité s pour 207 cas

1er chif. 1 2 3 4 5 6 7 8 9 total


d=
Occur 62 34 30 22 21 13 8 11 6 207
Proba p 0.299 0.164 0.145 0.106 0.101 0.0628 0.0386 0.0531 0.0289
Loi log 0.301 0.176 0.125 0.0969 0.0792 0.0669 0.0579 0.0511 0.0457
R -0.0033 -0.035 +0.074 +0.045 +0.12 -0.032 -0.2 +0.019 -0.22

Là encore les résultats expérimentaux et ceux issus de la loi de Benford sont compatibles, le total de cas
étudiés étant très semblables au cas de la désintégration β+.

On peut visualiser ces résultats sur la figure 2, où la loi de Benford est donnée par les barres et les
résultats issus des tables sont représentés, pour chaque chiffre significatif, par un petit cercle.
Comme précédemment la comparaison est assez bonne pour les 1er chiffres significatifs 1 et 2, moins
bonne pour les suivants (toujours par manque de statistique).

4
Figure 2 : la solubilité s

solubilite s dans l eau froide : 207 exemples


0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
1 2 3 4 5 6 7 8 9

IV- Densité des corps organiques et inorganiques :

On a trouve ici un total de 635 valeurs, ce qui donne le tableau de résultats suivant :

Tableau 6 : 1er chiffre significatif : densité d

1er chif. 1 2 3 4 5 6 7 8 9 total


d=
Occur 195 140 90 52 36 30 17 27 48 635
Proba p 0.307 0.220 0.141 0.082 0.0566 0.0472 0.0267 0.0425 0.0755 0,9985
Loi log 0.301 0.176 0.125 0.0969 0.0792 0.0669 0.0579 0.0511 0.0457 0,9997
R +0.0099 +0.11 +0.060 -0.083 -0.16 -0.17 -0.37 -0.092 +0.25

La figure 3 montre la comparaison entre la loi de Benford et les résultats sur la densité d. Il y a à
nouveau corrélation, bien qu’imparfaite ( on peut cependant s’interroger ici sur le biais éventuellement introduit
en observant la surreprésentation du 9 et la sous représentation des valeurs intermédiaires 5,6,7).

5
Figure 3 : la densité d des corps organiques et inorganiques

densité des corps organiques et inorganiques : 635 exemples


0.35

0.3

0.25

0.2

0.15

0.1

0.05

0
1 2 3 4 5 6 7 8 9

Si il apparaît clairement, sur tous les exemples précédents, une relation entre la valeur du 1er
chiffre significatif et le nombre de fois où il intervient, il est nécessaire avant de continuer de disposer d’une
statistique plus importante sur un exemple que l’on facilement obtenir à partir d’un petit programme. Pour cela
on va étudier la suite de Fibonacci.

V- La reproduction des lapins ou la suite de Fibonacci

On raconte que Leonardo Fibonacci, au XIIIieme siècle, s’intéressa à la reproduction des lapins, selon
un schéma de croissance bien connu : le premier mois on dispose d’un couple impubère I, le deuxième mois ce
couple est devenu pubère P, le 3ieme mois P a engendré un couple impubère I (on dispose donc de I et P), le
4ieme mois on a PIP …..
On sait que ce mécanisme est régi par la suite récurrente de Fibonacci, ce qui s’écrit avec des notations
modernes :

u n + 2 = u n +1 + u n

avec les conditions initiales :


u1 = 1 et u2 =1

ce qui donne à chaque mois le nombre de couples ( I et P confondus) : 1,1 ,2 , 3 ,5 ,8 ,13 ,21…..

La question que l’on se pose maintenant est la suivante : comment se répartit le premier chiffre de
chaque nombre de Fibonacci entre 1 et 9 au fur et à mesure de la croissance de la suite ?
Evidemment, cette suite croissant très vite, il est nécessaire d’utiliser un logiciel de calcul comme
Mathematica® pour pouvoir analyser les résultats, sur des termes comportant des centaines de chiffres.
On donne dans le tableau ci-après les résultats pour les termes de la suite jusqu’au : 202 ieme, 1002
ieme, 5002ieme, 10002 ieme, 20002 ieme et enfin 30002 ieme terme.
A titre indicatif le 30002 ieme terme de la suite de Fibonacci est tel que son logarithme décimal est de
l’ordre de 6269, c'est-à-dire qu’il s’agit d’un nombre comportant quelques 6269 chiffres !

6
Tableau 7 : répartition du 1er chiffre pour la suite de Fibonacci
Chaque colonne donne la répartition du 1er chiffre significatif (entre 1 et 9) , pour un total de termes évalués du
premier jusqu’à Nombre.

Nombre : Nombre : Nombre : Nombre : Nombre : Nombre :


202 1002 5002 10002 20002 30002
1er chiffre d :
1 60 (29,7) 302 1506 3011 (30,1) 6020 9032 (30,1)
2 36 (17,8) 177 882 1762 (17,6) 3523 5284 (17,6)
3 25 (12,3) 125 625 1250 (12,4) 2499 3748 (12,5)
4 19 (9,40) 96 483 968 (9,68) 1938 2908 (9,69)
5 17 (8,41) 80 397 793 (7,93) 1584 2375 (7,91)
6 12 (5,94) 67 334 668 (6,68) 1339 2009 (6,69)
7 12 (5,94) 57 290 580 (5,79) 1159 1739 (5,79)
8 12 (5,94) 53 257 514 (5,14) 1025 1535 (5,11)
9 9 (4,45) 45 228 456 (4,55) 915 1372 (4,57)
Total 202 (99,9) 1002 5002 10002 (99,9) 20002 30002 (99,9)

Ainsi par exemple sur les 202 premiers termes de la suite, on trouve 60 fois le 1er chiffre 1 et 9 fois
seulement le premier chiffre 9.
Il apparaît clairement que la suite de Fibonacci suit une répartition de type Benford (dans le tableau on
trouve entre parenthèses le % de répartition). Plus le nombre de termes étudiés est important plus on se
rapproche de la loi de Benford idéale.
En comparant les 2 graphes de la figure 4 on constate que plus on augmente le nombre de termes plus
on suit fidèlement la loi de Benford (les cercles sont les points « expérimentaux ») : 202 termes en haut, 30002
termes en bas. Pour 30002 termes la correspondance est parfaite.

Figure 4 : suite de Fibonacci ( cercles) et loi de Benford (barres)


suite récurrente de Fibonacci : 202 termes
0.4

0.3

0.2

0.1

0
1 2 3 4 5 6 7 8 9

suite récurrente de Fibonacci : 30002 termes


0.4

0.3

0.2

0.1

0
1 2 3 4 5 6 7 8 9

7
VI- une tentative d’explication : l’invariance d’échelle

On donne dans ce paragraphe une explication qui est celle proposée par J. Havil [3] : l’invariance
d’échelle.

On définit la probabilité P qu’une variable aléatoire continue X ait une valeur comprise entre les valeurs
x0 (fixée) et x (variable) :

x
F ( x) − F ( x 0 ) = P( x 0 < X < x) = ∫ f (t )dt
x0

On a donc la relation entre la fonction F et la densité de probabilité f :

dF ( x)
f ( x) =
dx

On fait désormais l’hypothèse que la variable aléatoire X est invariante d’échelle, c'est-à-dire que P
reste inchangée après multiplication par un facteur d’échelle 1/a quelconque :

1
P ( x 0 < X < x) = P ( x 0 < . X < x) = P (a.x 0 < X < a.x)
a
ce qui donne en terme de fonction F et f :

F (a.x) − F (a.x 0 ) = F ( x) − F ( x 0 )

soit pour tout facteur a différent de 0 :

F (a.x) = F ( x) + cons tan te(a )

d’où en dérivant par rapport à x :

a. f (a.x) = f ( x)
1
f (a.x) = f ( x)
a

On introduit désormais la variable aléatoire logarithmique Y =log10X, ce qui permet d’écrire, à l’aide
des fonctions G et g définies de façon similaire à Fet f:

G ( y ) − G ( y 0 ) = P( y 0 < Y < y ) = P(10 y0 < X < 10 y ) = F (10 y ) − F (10 y0 )


G ( y ) − G ( y 0 ) = F ( x) − F ( x 0 )

8
En différentiant par rapport à y on trouve :

dG dF dF dx
g ( y) = = = . = f ( x).x. ln 10 = g (log 10 x)
dy dy dx dy

L’invariance d’échelle implique alors :

1
g (log10 a.x) = (a.x). f (a.x). ln 10 = (a.x). f ( x). ln 10 = x. f ( x). ln 10 = g (log10 x)
a
C'est-à-dire encore :

g ( y + log 10 a ) = g ( y )

Comme a est un facteur d’échelle quelconque, g est identique à lui-même quel que soit l’intervalle
choisi, ce qui implique que g est en fait une densité de probabilité constante.
Dès lors, pour toute grandeur physique s’écrivant β.10n (avec 1 ≤ β < 10 ), on peut utiliser
m
l’invariance d’échelle sur la grandeur β, avec un facteur multiplicatif 10 . Ainsi l’invariance d’échelle implique
que βest inchangé, seule la puissance de 10 est altérée.
La variable aléatoire y = log10β aura donc une densité de probabilité g constante sur l’intervalle [0,1],
puisque 1 ≤ β < 10 , c'est-à-dire que 0 ≤ log10 β <1.

Avec une valeur normalisée on trouve :

1 1

∫ g (t )dt = 1 = g ∫ dt
0 0

soit g=1 sur l’intervalle [0,1]

On peut calculer alors la probabilité que le premier chiffre significatif d vaille m ( d prenant ses valeurs
entre m = 1 et m = 9 inclus) :

P(d = m) = P(m ≤ x < m + 1) = P(log 10 m ≤ log 10 x < log 10 (m + 1)) = P(log 10 m ≤ y < log 10 (m + 1))
log( m +1)

P ( d = m) = ∫ g.dy
log m

soit finalement :

P (d = m) = log 10 (m + 1) − log 10 (m)


1
P (d = m) = log 10 (1 + )
m
On retrouve ainsi la loi empirique de Benford.

9
VII- Et le deuxième chiffre significatif ?

Il est possible désormais de se demander quelle est la probabilité associée à chaque valeur possible du
deuxième chiffre significatif d2 d’une grandeur physique. En utilisant les probabilités conditionnelles on peut
calculer P pour que d2 = m2 sachant que d1 ( le premier chiffre significatif) est égal à m1 :

On a nécessairement ( en notation scientifique) 10 ≤ d1d2 < 100, et si d1 prend ses valeurs entre 1 et 9,
d2 lui peut prendre toutes les valeurs entières entre 0 et 9 inclus.

1
P (d 1 = m1 , d 2 = m 2 ) = log 10 (1 + )
m1 m 2

En sommant sur toutes les valeurs de m1 on trouve alors la probabilité que d2= m2 quel que soit d1 :

m1= 9
1
P(d 2 = m 2 ) = ∑ log
m1=1
10 (1 +
m1 m 2
)

ce qui donne le tableau suivant :

d2 0 1 2 3 4 5 6 7 8 9
P 0,1197 0,1139 0,1088 0,1043 0,1003 0,09667 0,09337 0,09035 0,08757 0,0850

Il est clair que l’invariance d’échelle est moins facile à mettre en évidence sur le second chiffre significatif que
sur le premier.

VII- Conclusion :

Ces quelques exemples montrent, à l’évidence, que la répartition statistique du premier chiffre
significatif dépend de sa valeur d. Selon la loi de Benford :

1
p = log 10 (1 + )
d
la probabilité p de l’obtenir décroît à mesure que la valeur de d croît. De très nombreuses grandeurs physiques
semblent suivre cette loi.
On peut l’interpréter en disant que les phénomènes qui ressortissent de ces grandeurs sont
autosimilaires, c'est-à-dire invariants d’échelle. On retrouve ici un comportement naturel classique, lié à la notion
de fractales [4].
On peut définir une fractale comme une courbe qui n’est jamais lisse, c'est-à-dire que quel que soit le
grossissement adopté, on retrouve des détails identiques à l’échelle initiale. Pensons par exemple à un simple
chou-fleur : il présente un caractère autosimilaire, de l’ensemble jusqu’à une petite branche.
Il faut inviter le lecteur à faire ses propres essais à partir d’autres données. Il convient juste
d’éviter les grandeurs biaisées, telles que dates de naissance ou notes d’élèves. Par contre les taux de change, les
points d’ébullition, les surfaces de départements, les masses de particules élémentaires, les chaleurs spécifiques
….sont de bonnes grandeurs test.

Terminons en disant que l’on dispose ici d’une méthode potentiellement capable de détecter les fraudes
financières par exemple : statistiquement on s’attend à ce que les mouvements d’argent d’une société suivent la
loi de Benford. Tout écart significatif doit alors impliquer une fraude patente.

10
VIII- bibliographie :

[1] : L’univers des nombres Ian Stewart Belin pour la science 2000, Paris

Les données physiques de cet article sont issues de :

[2] : Handbook of chemistry and physics 64th edition CRC press Inc. 1984 Boca Raton Florida

concernant l’autosimilarité on pourra consulter :

[3] : Gamma : Exploring Euler’s constant Julian Havil Princeton University Press 2003, Princeton

Sur la suite de Fibonacci et les fractales on peut se reporter à :

[4] : Universalités et fractales Bernard Sapoval Champs Flammarion 1997, Paris

11

S-ar putea să vă placă și