Documente Academic
Documente Profesional
Documente Cultură
Mots cls : Loi de BENFORD, 1er chiffre significatif, logarithme, fraude, comptabilit
Rsum
Relevons au petit bonheur quelques nombres autour de nous : prix darticles divers dans
une publicit ou au hasard des rayons dun magasin, valeurs numriques extraites darticles de
journaux, donnes numriques en gographie (populations de villes ou de pays, altitudes de
montagnes, longueurs de fleuves, superficies de pays, ), donnes conomiques (PIB,
chiffres extraits de comptabilits dentreprises, cours de la bourse, ).
Pour les donnes releves, intressons-nous la proportion de chaque chiffre comme
premier chiffre significatif (i.e. le premier non nul gauche). A priori, on pourrait sattendre
une rpartition peu prs uniforme des chiffres.
Mais surprise : on constate exprimentalement que dans bien des ensembles de donnes
il y a plus de 1 que de 2, de 2 que de 3, de 3 que de 4, etc.
Et ce nest pas tout ! La proportion de chaque chiffre comme premier gauche est assez
souvent relativement stable et raisonnablement approchable par un logarithme (loi de
BENFORD).
Encore plus fort : dans bien des ensembles de donnes, les 2mes, 3mes, chiffres
significatifs ne se rpartissent pas nimporte comment mais tendent trs vite vers la rpartition
uniforme (conforme notre intuition) lorsquon avance vers la droite (loi de BENFORD
gnralise).
Ce rsultat (de 1881), assez contre-intuitif, a t longtemps considr comme une simple
curiosit mais depuis une vingtaine dannes, il est largement exploit notamment pour
dbusquer des fraudes (erreurs ou falsifications) dans les comptabilits entre autres aux Etats-
Unis et au Canada. Depuis peu, son utilisation tend se rpandre en Europe.
I.1 Logarithme
Le logarithme (dcimal) dun nombre positif a, not log a,
est la puissance laquelle il faut lever 10 pour obtenir a.
10 log a a
Ainsi :
log1000 3 car 103 1 000
log 0,01 2 car 10 2 0,01
log 2 0,301 car 10 0,301 2
Le premier chiffre significatif dun nombre est donc la partie entire de sa mantisse.
Pour chaque commune, nous prenons note du 1er chiffre significatif de son nombre
dhabitants. Pour les communes ci-dessus, par exemple, nous relevons donc : 9, 2, 4, 1, 8,
1 11 096 30,1 %
2 6 682 17,6 %
3 4 644 12,5 %
5 2 962 7 ,9%
6 2 411 6,7 %
7 2 062 5,8 %
8 1 801 5,1 %
9 1 608 4,6 %
35%
population
Frquence du 1erdes communes
chiffre significatif dufranaises
nombre dhabitants
des 36 722 communes franaises au 1er janvier 2009
30% (36 716 donnes, 6 communes sans habitant)
25%
20%
15%
10%
5%
0%
1 2 3 4 5 6 7 8 9
On constate quil y a peu prs un tiers de nombres commenant par 1, la moiti par 1 ou
2 et que en gros plus un chiffre est grand, moins il apparat.
Aprs observation dun grand ensemble de donnes (des milliers) dorigines diverses, il
se rend compte que bien souvent, la proportion de chaque chiffre c comme premier chiffre
significatif des valeurs est relativement stable et peut tre raisonnablement approche
c1
par un log (et plus prcisment par log ).
c
A cette poque, personne na prt la moindre attention son ide et larticle quil publie
dans lAmerican Journal of Mathematics est vite oubli !
Cette loi, trs surprenante, est absolument empirique mais elle colle relativement bien la
ralit pour pas mal de situations.
Elle a t longtemps considre comme une aimable curiosit mathmatique qui intrigue
et fait un peu rver lexistence de lois encore inconnues rgissant les mesures dans lunivers.
Il ny a quune bonne vingtaine dannes que cette loi a trouv des applications sous
limpulsion de lconomiste amricain Mark NIGRINI.
Total 1
35%
Frquence du 1er chiffre significatif
Benford dun ensemble de valeurs numriques
selon la loi de BENFORD
30%
25%
20%
15%
10%
5%
0%
1 2 3 4 5 6 7 8 9
35%
Frquences du 1er chiffre significatif
25%
20%
15%
10%
5%
0%
1 2 3 4 5 6 7 8 9
Le PIB pour 2011 et en dollars amricains de lensemble de (presque) tous les pays du
monde suit assez bien aussi la loi de BENFORD.
35%
Frquences du 1er chiffre significatif
BENFORD PIB en 2011
30% (183 donnes)
25%
20%
15%
10%
5%
0%
1 2 3 4 5 6 7 8 9
Dabord avec relativement peu de donnes en considrant le 2me tour, le 6 mai 2012 : il y a
deux candidats Hollande et Sarkosy, donc 2*96 = 192 donnes.
40%
Frquences du 1er chiffre significatif
30%
25%
20%
15%
10%
5%
0%
1 2 3 4 5 6 7 8 9
35%
Frquences du 1er chiffre significatif
BENFORD 1er tour
30% (960 donnes)
25%
20%
15%
10%
5%
0%
1 2 3 4 5 6 7 8 9
45%
Frquences du 1er chiffre significatif des prix de publicits franaises en ,
fin septembre - dbut octobre 2012
40%
BENFORD Colruyt Cora Carrefour
35% (145 donnes) (239 donnes) (882 donnes)
30%
25%
20%
15%
10%
5%
0%
1 2 3 4 5 6 7 8 9
40%
Frquences du 1er chiffre significatif des prix de publicits suisses en FS,
3me semaine 2010
35%
BENFORD Casino Manor Aldi Migros
30%
25%
20%
15%
10%
5%
0%
1 2 3 4 5 6 7 8 9
Les exemples illustrs ici montrent que le fait que des listes de prix suivent assez bien la
loi de BENFORD nest pas propre une monnaie particulire.
En prenant a = 1 et b = x, il en dcoule
x
P(1 mantisse x) log log x avec x entier entre 1 et 10
1
et donc
P (mantisse x ) log x
35%
BENFORD gnralis
30%
Proba 2me chiffre significatif
25%
20%
15%
10%
5%
0%
0 1 2 3 4 5 6 7 8 9
De la mme manire, on calcule les probabilits des diffrents chiffres comme 3me
chiffre significatif.
BENFORD gnralis
30%
proba 3me signe significatif
25%
20%
15%
10%
5%
0%
0 1 2 3 4 5 6 7 8 9
Avec la loi de BENFORD gnralise, plus un chiffre est loin droite du 1er chiffre
significatif, plus il est distribu uniformment, plus il se distribue donc conformment
notre intuition
Les exemples prcdents avec des prix montraient que la loi de BENFORD est peu prs suivie
par des listes de prix mme assez courtes (50 250 prix) ; quelles se rfrent des prix en FS
ou en . Ce nest donc pas particulier une unit.
Mais PINKHAM va plus loin et prouve que si on considre un ensemble de prix en qui
suivent peu prs la loi de BENFORD gnralise, ce sera toujours le cas si on les convertit en
FS ou en $ !
Roger PINKHAM a mme montr que la loi de BENFORD est lunique formulation pour
obtenir une loi invariante par changement dchelle.
Un peu de posie
La loi de BENFORD a beaucoup fait rver les scientifiques et en a amen plus dun se
poser la question : existe-t-il dans la nature, une sorte de loi universelle rgissant la proportion
de chacun des chiffres 1 9 comme 1er chiffre significatif ?
Si une telle loi existe, elle doit forcment tre valable indpendamment des units de
mesure humaines et par consquent, en tenant compte du rsultat de PINKHAM, cest
forcment la loi de BENFORD
Reste savoir si une telle loi naturelle rgit vraiment certaines mesures
APPLICATION 1:
Dtection de fraudes (erreurs ou falsifications de donnes)
dans les comptabilits !
Paul
Etats-Unis
Constatations exprimentales :
Rien ne permet daffirmer non plus que des donnes comptables qui suivent la loi de
BENFORD soient ncessairement honntes !
35%
Benford gnralis Ecole: 1er chiffre significatif
(105 donnes)
30%
25%
20%
15%
10%
5%
0%
0 1 2 3 4 5 6 7 8 9
Bien entendu, des donnes comptables ne suivent jamais exactement la loi de BENFORD.
Alors comment dcider, en pratique, si des donnes peuvent raisonnablement tre considres
comme suivant la loi de BENFORD ou si elles sen cartent significativement ?
Ici, la statistique nous vient en aide en offrant des techniques (les tests dhypothse) pour
trancher cette question objectivement . Mais que faut-il comprendre par l ? Simplement
que la rponse la question ne dpend pas de la personne qui doit y rpondre Il ne
manquerait plus que cela !
Test dhypothse
Un test dhypothse sert trancher si des carts entre des donnes releves au hasard dans
un document contrler et une loi thorique sont significatifs ou si les diffrences constates
sont imputables au seul hasard de lchantillonnage.
Nous donnons ici une ide volontairement trs gnrale et simpliste (pour tre accessible
aux non spcialistes) du droulement dun tel test. En effet, ce chapitre des statistiques est trs
vaste et assez complexe saisir.
1) On crit lhypothse quon souhaite tester, appele hypothse nulle et note H0 : Les
donnes suivent la loi thorique. .
2) Un test dhypothse est toujours assorti dun ou de plusieurs nombres qui quantifient le
degr de fiabilit quon peut accorder aux rsultats. En effet, puisquon travaille avec un
chantillon de valeurs tires au hasard dans les donnes, on ne peut jamais tre certain
100 % de la conclusion.
Revenons aux donnes extraites des comptes de lcole suisse considre plus haut.
APPLICATION 2
Dtection de fraudes plus gnrales
Cela valide lide de souponner des fraudes dans des listes de valeurs qui daprs des
expriences prcdentes devraient suivre approximativement la loi de BENFORD et sen
cartent manifestement ; ce peut par exemple tre des donnes dun inventaire ou des
rponses des questionnaires rentrs par des sondeurs ou des donnes denqutes en
sociologie ou
De nos jours sur Internet, on trouve des publicits pour des cours destins apprendre
dtecter des fraudes dans des donnes numriques. Certaines de ces publicits citent
explicitement la loi de BENFORD.
2) De mme, la loi de BENFORD ne vous sera daucune aide pour augmenter vos chances de
gagner une loterie ! En effet, le tirage est cens tre alatoire et chaque chiffre devrait
donc avoir une probabilit de 0,1 de sortir en premier.
3) Relevez les tailles des adultes que vous croisez. L non plus, pas de loi de BENFORD !
4) Pas plus dailleurs que dans la liste des numros de tlphone figurant sur votre agenda
car beaucoup de numros sont probablement de votre rgion
5) Les numros des maisons dans une rue donne ne suivent pas non plus la loi de BENFORD.
Ainsi, Vladimir ARNOLD et Andr AVEZ ont dmontr que la suite 2n satisfait la loi de
BENFORD. La dmonstration na rien dvident.
Et un coup dil rapide au dbut de la liste suivante fait dabord penser que la suite des 1ers
chiffres significatifs est priodique !
35%
Frquences du 1er chiffre significatif
BENFORD n200 1ers nombres de la suite 2n
= 200
30%
25%
20%
15%
10%
5%
0%
1 2 3 4 5 6 7 8 9
Ainsi des suites de nombres stalant sur plusieurs ordres de grandeur et de manire assez
rgulire sapprocheraient relativement bien de la loi de BENFORD.
Comme le suggre J.-P. DELAHAYE, peut-tre quun jour, quelque principe gnral qui
nous chappe encore aujourdhui, amnera une explication. Voil un beau sujet de rflexion
pour ceux dentre vous qui souhaitent prolonger
francoise.duchene@rpn.ch