Tarificationàpriori Provisionnement, Charpentier, 2010

1
Arthur Charpentier
Universit de Rennes 1 Universit de Montral 2010-2011
Statistique de l'assurance, STT 6705V Statistique de l'assurance II
cel-00550583, version 1 - 28 Dec 2010
partie 1 - assurance non-vie tarication & provisionnement
http ://freakonometrics.blog.free.fr/
cel-00550583, version 1 - 28 Dec 2010
Table des matires

1 La tarication a priori
1.1 Les modles linaires gnraliss . . . . . . . . . . . . . . . . . 1.1.1 Le cadre gnral des GLM . . . . . . . . . . . . . . . . Approche conomtrique de la tarication . . . . . . . Estimation des paramtres . . . . . . . . . . . . . . . . Interprtation d'une rgression . . . . . . . . . . . . . . . . . . . . . . .
5
7 7 9 10 13 16 16 19 23 24 24 26 30 31 34 34 38 40 41 44 47 47 50 50 57 58 60 60
cel-00550583, version 1 - 28 Dec 2010
1.1.2 1.1.3 1.1.4 1.1.5 1.1.6 1.1.7 1.1.8 1.2
Extension d'autres familles de lois
De la qualit d'une rgression . . . . . . . . . . . . . . Les variables tarifaires continues et la nonlinarit Les modles nonlinaires multivaris . .
. . . . . . . . . .
Modliser des variables indicatrices . . . . . . . . . . . . . . . 1.2.1 1.2.2 1.2.3 1.2.4 La rgression logistique ou probit . . . . . . . . . . . . Les arbres de rgression . . . . . . . . . . . . . . . . .
Probabilit d'avoir (au moins) un sinistre dans l'anne Probabilit d'avoir un gros sinistre dans l'anne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
Modliser la frquence de sinistralit 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 1.3.7 Un peu d'analyse descriptive La mthode des marges
. . . . . . . . . . . . . . . . . . . .
Prise en compte de l'exposition et variable oset
Prise en compte de la surdispersion . . . . . . . . . . . Les modles
zero-inated .
. . . . . . . . . . . . . . . .
Rgression simple versus rgression multiple . . . . . . Prdiction de la frquence par police . . . . . . . . . . . . . . . . . . . .
1.4
Modliser les cots individuels des sinistres 1.4.1 1.4.2 1.4.3
Modle Gamma et modle lognormal . . . . . . . . . . Modlisation des grands sinistres . . . . . . . . . . . .
Ecrtement des grands sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.5
Modliser les cots par police 1.5.1
Les modles Tweedie comme modle Poisson compos
2 Les provisions pour sinistres payer

2.1 La problmatique du provisionnment . . . . . . . . . . . . . . 3
63
63
TABLE DES MATIRES

2.1.1 2.1.2 2.2 2.3 Quelques dnitions et notations, aspects rglementaires et comptables . . . . . . . . . . . . . . . . . . . . . . . . . . 63 65 66 69 69 70 72 72 73 78 83 83 83 87 91 91 92 93 95 96 97 97 98 99 Formalisation du problme du provisionnement
Les cadences de paiements et la mthode Chain Ladder De Mack Merz & Wthrich 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 Le formalisme de Mack La notion de Quantier l'incertitude dans une prdiction
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
tail factor
Des estimateurs des paramtres l'incertitude sur le montant des provisions . . . . . . . . . . . . . . . . . . Un mot sur Munich-Chain Ladder . . . . . . . . . . . L'incertitude un an de Merz & Wthrich . . . . . . . Les modles facteurs, un introduction historique Les modles de de Vylder et de Chritophides . .
2.4
Rgression Poissonnienne et approches conomtriques . . . . 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5 2.4.6 . . . . .
cel-00550583, version 1 - 28 Dec 2010
La rgression poissonnienne de Hachemeister & Stanard 85 Incertitude dans un modle de rgression . . . . . . . . Le modle binomial-ngative Quel modle de rgression ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.5
Les triangles multivaris . . . . . . . . . . . . . . . . . . . . . 2.5.1 2.5.2 2.5.3 Hypohtse d'indpendance entre les triangles, et lois paramtriques . . . . . . . . . . . . . . . . . . . . . . . Le modle de Mack bivari . . . . . . . . . . . . . . . Modles conomtriques pour des risques multiples . . Le modle de Borhutter-Ferguson et l'introduction d'un avis d'expert 2.6.2 2.6.3 2.6.4 2.6.5 Benktander La mthode dite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.6
Borhutter-Fergusson, Benktander et les mthodes baysiennes 2.6.1
Cape-Code
Les approches Baysiennes . . . . . . . . . . . . . . . . 100 Approche baysienne sur les facteurs de dveloppement 104
Chapitre 1
La tarication a priori
Pour chaque police d'assurance, la prime est fonction de variables dites
cel-00550583, version 1 - 28 Dec 2010
de tarication. Gnralement, on considre des informations sur l'assur, comme l'ge ou le sexe pour un particulier, ou le secteur d'activit et le nombre de salaris pour une entreprise, des informations sur le bien assur, comme l'ge du vhicule, la puissance ou la marque en assurance auto, la surface du logement en multirisque habitation, le chire d'aaire de l'entreprise en perte d'exploitation, des informations gograhiques comme le revenu moyen dans la commune ou le dpartement, la densit de population, etc. La
frquence est le nombre de sinistres divis par l'exposition (correspon-
dant au nombre d'annes police) pour une police d'assurance, ou un groupe de polices d'assurance. La plupart des contrats tant annuels, on ramnera toujours le nombre de sinistres une exposition annuelle lors du calcul de la prime, et on notera d'exposition, on notera par police est alors
N Yi
la variable alatoire associe. Durant la priode les cots des sinistres, c'est dire les indemnits s'il n'y a pas eu de sinistres, ou sinon :
verses par l'assureur l'assur (ou une tierce personne). La charge totale
S=0
S = Y1 + + YN =
i=1
Yi .
Classiquement (et ce point sera important pour constituer la base de donnes)
Yi > 0
et
est alors le nombre de sinistres en excluant les sinistres
classs sans suite (i.e. de cot nul). La prime pure est
E(S ) = E(N ) E(Yi )
ds lors que les cots individuels
sont i.i.d., indpendants du nombre de sinistres. Dans le cas o la frquence et les charges sont htrognes, l'htrognit tant caractrise par une information
la prime pure devrait tre :
E(S |) = E(N |) E(Yi |).

5
CHAPITRE 1. LA TARIFICATION A PRIORI
tant inconnu, on utilise les variables tarifaires un ensemble de variables explicatives
Le facteur d'htrognit On cherche alors telles que
notre disposition pour obtenir un proxi de ces esprances conditionnelles.
X = (X1 , , Xk )
E(S |X ) = E(N |X ) E(Yi |X ).

Pour importer les bases de donnes, on utilise le code suivant (seuls les sinistres de responsabilit civile nous intressent),
sinistreUdM <- read.table("http://perso.univ-rennes1.fr/arthur.charpentier/sinis + header=TRUE,sep=";") > sinistres=sinistreUdM[sinistreUdM$garantie=="1RC",] > contratUdM <- read.table("http://perso.univ-rennes1.fr/arthur.charpentier/contr + header=TRUE,sep=";")
cel-00550583, version 1 - 28 Dec 2010
Pour consituer une base contenant les nombres de sinistres, le code est le suivant :
> > > > > > > > > > 1 2 3 4 5 6 1 2 3 4 5 6
T=table(sinistres$nocontrat) T1=as.numeric(names(T)) T2=as.numeric(T) nombre1 = data.frame(nocontrat=T1,nbre=T2) I = contratUdM$nocontrat%in%T1 T1=contratUdM$nocontrat[I==FALSE] nombre2 = data.frame(nocontrat=T1,nbre=0) nombre=rbind(nombre1,nombre2) base = merge(contratUdM,nombre) head(base) nocontrat exposition zone puissance agevehicule ageconducteur bonus 27 0.87 C 7 0 56 50 115 0.72 D 5 0 45 50 121 0.05 C 6 0 37 55 142 0.90 C 10 10 42 50 155 0.12 C 7 0 59 50 186 0.83 C 5 0 75 50 marque carburant densite region nbre 12 D 93 13 0 12 E 54 13 0 12 D 11 13 0 12 D 93 13 0 12 E 73 13 0 12 E 42 13 0
La base
nombre
contient, par police, le nombre de sinistres en respon-
sabilit civile dclar par l'assur pendant l'anne d'observation. Parmi les variables d'intrt,
1.1. LES MODLES LINAIRES GNRALISS

densite zone
est la densit de population dans la commune o habite le
conducteur principal, : zone A B C D E ou F, selon la densit en nombre d'habitants par km
2 de la commune de rsidence
: marque du vhicule selon la table suivante (1 Renault Nis-
marque
san ; 2 Peugeot Citron ; 3 Volkswagen Audi Skoda Seat ; 4 Opel GM ; 5 Ford ; 6 Fiat ; 10 Mercedes Chrysler ; 11 BMW Mini ;12 Autres japonaises et corennes ; 13 Autres europennes ; 14 Autres marques et marques inconnues)
region
SEE)
: code 2 chires donnant les 22 rgions franaises (code IN: ge du conducteur principal en dbut de la couver-
ageconducteur
ture,
agevehicule
: ge du vhicule en dbut de priode.
cel-00550583, version 1 - 28 Dec 2010
Nous disposons aussi d'un numro de police du conducteur et du vhicule.
no
permettant de fusionner
les deux bases, et donc d'associer la charge d'un sinistre les caractristiques
1.1 Les modles linaires gnraliss

Depuis quelques annes, l'outil principal utilis en tarication est le modle linaire gnralis, dvelopp par assurance est dtaille dans [17], [7], [22], et dont la mise en oeuvre en [6], [25] ou [9]. Dans cette section, nous allons prsenter le cadre des GLM, ainsi que leur mise en oeuvre sous
R,
avant de rentrer dans l'application en tarication dans les sections suivantes.
1.1.1 Le cadre gnral des GLM

Les modles linaires gnraliss sont une gnralisation du modle linaire Gaussien, obtenu en autorisant d'autres lois (conditionnelles) que la loi Gaussienne. Les lois possibles doivent appartenir la famille exponentielle, i.e. dont la densit (ou mesure de probabilit dans le cas discret) s'crit :
f (y |, ) = exp
y b() + c(y, )
Exemple 1.1 La loi normale N (, 2 ) appartient cette famille, avec =

, = 2 , b() = 2 /2 et c(y, ) = 1 2 y2 + log(2 2 ) , y R, 2
Exemple 1.2 La loi de Poisson P () appartient cette famille,

f (y |) = exp() y = exp y log log y ! , y N, y!
avec = log , = 1, b() = exp = et c(y, ) = log y !.
Exemple 1.3 La loi binomiale B(n, p) correspond au cas = log{p/(1 p)},

b() = n log(1 + exp()), = 1 et c(zy, ) = log n . y
Exemple 1.4 La loi Gamma est galement dans la famille exponentielle,

f (y |, ) = 1 1 ( )
y 1 exp y , y R+ ,
avec = , b() = log() et = 1 .

cel-00550583, version 1 - 28 Dec 2010
Pour une variable alatoire tielle, alors
dont la densit est de la forme exponen-
E(Y ) = b ()
de telle sorte que la variance de tions, la premire,
et Var(Y
) = b ()
apparat comme le produit de deux fonc-
fonction variance
= E(Y ), V ().
b () , qui dpend uniquement du paramtre
est appele
la seconde est indpendante de En notant
et dpend uniquement de
.
La
on voit que le paramtre
est li la moyenne
fonction variance peut donc tre dnie en fonction de dornavant
, nous la noterons
Exemple 1.5 Dans le cas de la loi normale, V () = 1, dans le cas de la loi

de Poisson, V () = alors que dans le cas de la loi Gamma, V () = 2 .
Notons que la fonction variance caractrise compltement la loi de la famille exponentielle. Chacune des lois de la famille exponentielle possde une fonction de lien spcique, dite de relier l'esprance
fonction de lien canonique,
permettant
g ( ) = .
Or,
au paramtre naturel . = b () donc g () = b ()1 .
Le lien canonique est tel que
Exemple 1.6 Dans le cas de la loi normale, = (link='identity'), dans le cas de la loi de Poisson, = log() (link='log') alors que dans le cas de la loi Gamma, = 1/ (link='inverse').
Sous
R,
la syntaxe des modles linaires gnralises est :
> glm(Y~X1+X2+X3+offset(Z), family =quasipoisson(link='log'), + data, weights)

ce qui correspond un modle
E(Yi |X i ) = i = g 1 X i + i
o
et Var(Yi |X i )
V (i ) i
est le vecteur des
Yi
que l'on cherche modliser (le nombre de si-
nistres de la police
par exemple),
X1, X2
et
X3
sont les variables explica-
tives qui peuvent tre qualitatives (on parlera de facteurs) ou quantitatives,
link='log' indique que g est la fonction log, family=poisson revient choiV identit, alors que family=quasipoisson revient choisir une fonction variance V identit avec un paramtre de dispersion estimer, offset correspond la variable i , et weights le vecteur i . Cette fonction glm calcule alors des estimateurs de et , entre autres, car comme pour le modle linaire gaussien (la fonction lm) on peut obtenir des
sir une fonction variance
cel-00550583, version 1 - 28 Dec 2010
prdictions, des erreurs, ainsi qu'un grand nombre d'indicateurs relatifs la qualit de l'ajustement.
1.1.2 Approche conomtrique de la tarication

Cette famille de lois (dite
exponentielle) va s'avrer tre particulirement

(Yi , X i ),
utile pour construire des modles conomtriques beaucoup plus gnraux que le modle Gaussien usuel. On suppose disposer d'un chantillon o les variables assur, et o
Xi
sont des informations exognes sur l'assur ou sur le bien
Yi
est la variable d'intrt, qui sera
une variable boolenne 0/1, par exemple l'assur d'un accident l'an dernier, une variable de comptage, valeurs dans d'accident de l'assur
a-t-il t victime
N,
par exemple le nombre
l'an pass,
une variable positive, valeurs dans
R+ , par exemple le cot du sinistre X,

les
i,
ou bien la dure entre la survenance et la dclaration du sinistre.
On supposera que, conditionnellement aux variables explicatives variables
sont indpendantes, et identiquement distribues. En particulier,
on partira d'un modle de la forme
f (yi |i , ) = exp
o l'on supposera que
yi i b(i ) + c(yi , )
g ( i ) = i = X i
pour une fonction de lien
g ()
donne (on gardera ainsi un score
linaire
en
les variables explicatives), et o, pour rappel,
i = E(Yi |X i )
La fonction lien est la fonction qui permet de lier les variables explicatives
la prdiction
alors que la loi apparat via la fonction variance, sur
10
la forme de l'htroscdasticit et l'incertitude associe la prdiction. Le petit exemple ci-dessous permet de visualiser sur un petit de donnes simple six rgressions GLM direntes,
> > > > > > > > > >
x <- c(1,2,3,4,5) y <- c(1,2,4,2,6) base <- data.frame(x,y) plot(x,y,pch=19,cex=1.5) regNId <- glm(y~x,family=gaussian(link="identity")) regNlog <- glm(y~x,family=gaussian(link="log")) regPId <- glm(y~x,family=poisson(link="identity")) regPlog <- glm(y~x,family=poisson(link="log")) regGId <- glm(y~x,family=Gamma(link="identity")) regGlog <- glm(y~x,family=Gamma(link="log"))
La prdiction (ainsi qu'un intervalle de conance) pour chacun de ces
cel-00550583, version 1 - 28 Dec 2010
modles est prsente sur la Figure 1.1. Le code de base pour obtenir la prdiction avec un intervalle de conance (
95%)
est simplement
> > > + > > >
plot(x,y,pch=19,cex=1.5) abs <- seq(0,7,by=.1) yp <- predict(regNId,newdata=data.frame(x=abs),se.fit = TRUE, type="response") lines(abs,yp$fit,lwd=2) lines(abs,yp$fit+2*yp$se.fit,lty=2) lines(abs,yp$fit-2*yp$se.fit,lty=2)
Remarque 1.1 De la mme manire qu'en conomtrie linaire, il est aussi
possible d'allouer des poids chacune des observations i . Mais nous n'en parlerons pas trop ici. Il peut s'agir de pondration dcroisantes avec le temps, attribues des annes trop anciennes, si l'on utilise des donnes sur une priode plus longue, par exemple.
1.1.3 Estimation des paramtres

La loi de estimateurs de
Y sachant X tant spcie, on obtient numriquement et par maximisation de la vraisemblance.
les
> logv=function(beta){ + L=beta[1]+beta[2]*sinistres$ageconducteur + -sum(log(dpois(sinistres$nombre,exp(L)))) + } > nlm(f = logv, p = beta) $minimum

Modle Gaussien lien identit
q
11
Modle Poisson lien identit

q
Modle Gamma lien identit

q
y
q q q
q q
q q
3 x
3 x
2 1
3 x
Modle Gaussien lien logarithmique

q
Modle Poisson lien logarithmique

q
Modle Gamma lien logarithmique

q
y
q q q
q q
q q
3 x
3 x
2 1
3 x
cel-00550583, version 1 - 28 Dec 2010
Figure 1.1 Prdiction par 6 modles linaires dirents, 3 lois et 2 fonctions de lien, avec les intervalles de conance de prdiction.
[1] 113429.7 $estimate [1] -3.157159895 -0.001900410 $gradient [1] 0.01069032 1.31089786 $code [1] 3 $iterations [1] 25 > glm(nombre~ageconducteur,data=sinistres,family="poisson")$coefficients (Intercept) ageconducteur -3.157198596 -0.001899561
Notons qu'il est aussi possible d'utiliser une rgression linaire pondre. En eet, on cherche maximiser ici une (log)-vraisemblance (ou une dviance comme nous le verrons plus tard), qui s'crit dans le cas des modles exponentiels,
log L =
i=1
Yi i b(i ) c(Yi , ) a( )
12

,
on note que le maximum de vrai-
mais comme on cherche les paramtres semblance du paramtre fonction
est atteint au mme point que le maximum de la
log L =
i=1
Le maximum est alors atteint en
[Yi i b(i )]
n
tel que
log L ==
Or
[Yi b (i )]
i=1
et donc
= 0. i
i = g (i ) = g (X i ) = b (i ), b (i )]
cel-00550583, version 1 - 28 Dec 2010
= g (X i )Xi i
On cherche alors rsoudre
[Yi i ]
i=1
g (X i ) X i, V(i )
Ce qui correspondrait la condition du premier ordre dans une rgression pondre, o la matrice de poids serait sinon
W = [wi,j ],
wi,j = 0
si
i = j,
et
wi,i =
1 1 1 = = 1 Var(Yi ) i g (X i )
Mais cette matrice de poids tant inconnue (elle dpend des paramtres que l'on cherche estimer), on met en place une itration de rgression pondre, la matrice de poids tant calcule partir des coecients de l'tape prcdante. Dans le cas d'une rgression log-Poisson, le code devient,
> > > > > + + + + + + + +
BETA=matrix(NA,101,2) REG=lm(nombre~ageconducteur,data=sinistres) beta=REG$coefficients BETA[1,]=beta for(i in 2:15){ eta=beta[1]+beta[2]*sinistres$ageconducteur mu=exp(eta) w=mu z=eta+(sinistres$nombre-mu)/mu REG=lm(z~sinistres$ageconducteur,weights=w) beta=REG$coefficients BETA[i,]=beta }

> BETA [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [,1] 0.04239008 -0.91696821 -1.81086687 -2.55133907 -3.00654605 -3.14670636 -3.15715335 -3.15719860 -3.15719860 -3.15719860 -3.15719860 -3.15719860 -3.15719860 -3.15719860 -3.15719860 [,2] -7.371466e-05 -1.418714e-04 -3.136888e-04 -6.958340e-04 -1.315441e-03 -1.803882e-03 -1.898126e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03
13
cel-00550583, version 1 - 28 Dec 2010
qui converge trs rapidement (vers les bonnes valeurs).
1.1.4 Interprtation d'une rgression

Considrons tout simplement une rgression de la frquence annuelle de sinistre sur l'ge du conducteur. On supposera un modle Poissonnien.
> reg1 <- glm(nombre~ageconducteur,data=nombre,family=poisson(link="log"), + offset=log(exposition)) > summary(reg1) Call: glm(formula = nombre ~ ageconducteur, family = poisson(link = "log"), data = nombre, offset = log(exposition)) Deviance Residuals: Min 1Q Median -0.5685 -0.3527 -0.2611 Coefficients: 3Q Max -0.1418 13.3247
Estimate Std. Error z value Pr(>|z|) (Intercept) -2.1369116 0.0207723 -102.87 <2e-16 *** ageconducteur -0.0101679 0.0004397 -23.12 <2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
14
(Dispersion parameter for poisson family taken to be 1) Null deviance: 171919 on 678012 degrees of freedom Residual deviance: 171373 on 678011 degrees of freedom AIC: 222190 Number of Fisher Scoring iterations: 6
Avec un lien logarithmique, le modle est multplicatif. Le multiplicateur est ici
> exp(coefficients(reg1)[2]) ageconducteur 0.9898836
cel-00550583, version 1 - 28 Dec 2010
Autrement dit, tous les ans, la probabilit d'avoir un accident diminue de
1 0.9898 = 1.011%.
par la suite sur la construction suivante :
Si l'on considre des classes d'ges (dnies
a priori, nous reviendrons optimale des classes), on obtient la rgression
> > > + >
seuils = c(17,21,25,30,45,55,65,80,120) nombre$agecut <- cut(nombre$ageconducteur,breaks=seuils) reg2 <- glm(nombre~agecut ,data=nombre,family=poisson(link="log"), offset=log(exposition)) summary(reg2)
Call: glm(formula = nombre ~ agecut, family = poisson(link = "log"), data = nombre, offset = log(exposition)) Deviance Residuals: Min 1Q Median -0.6566 -0.3522 -0.2601 Coefficients: (Intercept) agecut(21,25] agecut(25,30] agecut(30,45] agecut(45,55] agecut(55,65] agecut(65,80] agecut(80,120] 3Q Max -0.1413 13.2465 z value Pr(>|z|) -47.42 <2e-16 *** -12.60 <2e-16 *** -24.62 <2e-16 *** -31.58 <2e-16 *** -29.90 <2e-16 *** -32.16 <2e-16 *** -32.90 <2e-16 *** -18.39 <2e-16 ***
Estimate Std. Error -1.55416 0.03277 -0.52724 0.04186 -0.95181 0.03865 -1.08673 0.03441 -1.04649 0.03500 -1.19279 0.03709 -1.27536 0.03876 -1.24017 0.06743

--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
15
(Dispersion parameter for poisson family taken to be 1) Null deviance: 171919 on 678012 degrees of freedom Residual deviance: 170589 on 678005 degrees of freedom AIC: 221417 Number of Fisher Scoring iterations: 6
Notons qu'il est aussi possible de taper directement
cel-00550583, version 1 - 28 Dec 2010
> reg2 = glm(nombre~cut(ageconducteur,breaks=seuils),data=nombre, + family=poisson(link="log"),offset=log(exposition))

La classe de rfrence est ici celle des jeunes conducteurs
(17,21].
Re-
lativement cette classe, on note que toutes les classes ont une probabilit d'avoir un accident plus faible. Pour un conducteur de la classe note qu'il a jeune conducteur,
(30,45], on 66% de chances en moins d'avoir un accident dans l'anne qu'un
> exp(coefficients(reg2)[4]) cut(ageconducteur, breaks = seuils)(30,45] 0.3373169

Au lieu de comparer la classe des jeunes conducteurs, on peut aussi comparer au conducteur moyen.
> seuils = c(17,21,25,30,45,55,65,80,120) > reg2 = glm(nombre~0+cut(ageconducteur,breaks=seuils), + data=nombre,family=poisson(link="log"),offset=log(exposition))

Les multiplicateurs sont alors
> + > > + >
reg2b <- glm(nombre~1,data=nombre,family=poisson(link="log"), offset=log(exposition)) moyenne <- exp(coefficients(reg2b)) reg2c <- glm(nombre~0+cut(ageconducteur,breaks=seuils), data=nombre,family=poisson(link="log"),offset=log(exposition)) exp(coefficients(reg2c))/moyenne (17,21] a ainsi 2.86 fois plus de chance que l'assur
Une personne de la classe
moyen d'avoir un accident.
16

Les modles linaires gnraliss ont t dnis pour des lois (de
1.1.5 Extension d'autres familles de lois

Y , conditionnelles aux variables explicatives sont des lois quatre paramtres, calisation (e.g. la moyenne), o
X)
appartenant la famille exponen-
tielle. Il est toutefois possible de gnraliser. Les lois de
library(gamlss)
(, , , ),
est un paramtre de lo-
un paramtre d'chelle (e.g. l'cart-type), et
et
sont des paramtres d'asymtrie et d'paisseur de queue (e.g. la
skewness et la kurtosis). Ces quatre paramtres peuvent tre fonction des variables explicatives au travers d'une fonction de lien,
cel-00550583, version 1 - 28 Dec 2010
1 (X) = g 1 (X ) = g = g 1 (X ) 1 (X ) = g
Parmi les lois classiques, on retrouvera celles donnes dans la Table 1.1. loi Binomiale Normale Poisson Gamma inverse Gaussienne Gumbel lognormale binomiale ngative (Poisson-Gamma) Poisson-inverse Gaussien Weibull zero inated Poisson R
logit identit log logit log identit log log log log log
log log log log log log log logit
BI NO PO GA IG GU LNO NBI PIG WEI ZIP
Table 1.1 Les direntes lois et modles de library(gamlss)@.

Dans sa version la plus simple, on retrouve le modle propos par [11],
Yi = X i + i , modle en moyenne log 2 i = Z i + ui , modle en variance

o est
ui est un bruit i.i.d. suivant une loi Gamma. Cette fonction particulire obtenue l'aide de la fonction lm.disp de library(dispmod).
1.1.6 De la qualit d'une rgression

Pour mesurer les performances d'une rgression, ou plus gnralement d'un modle quel qu'il soit, il faut se donner une qui mesure la distance entre
fonction de risque R(, )
et sa prdiction
Y.
Classiquement, on utilise

la norme
17
L2 ,
correspond l'erreur quadratique
1 norme L , correspondant l'erreur absolue
R(Y, Y ) = [Y Y ]2 R(Y, Y ) = |Y Y |.
ou la
Si on reprend l'exemple de la section 1.1.2, les rsidus sont reprsent sur la Figure 1.2. Les rsidus de gauche sont les rsidus bruts, c'est dire la dirence entre
Yi
et
Yi .
A droite, ce sont les rsidus de Pearson, i.e.
i =
o
Yi Yi V (Yi )
est la fonction variance.
> RNIr <- residuals(regNId,type="response") > RNIp <- residuals(regNId,type="pearson")
cel-00550583, version 1 - 28 Dec 2010
Rsidus de Pearson
Gaussien, identit Poisson, identit Gamma, identit Gaussien, log Poisson, log Gamma, log
Gaussien, identit Poisson, identit Gamma, identit Gaussien, log Poisson, log Gamma, log
Rsidus (bruts)
1
q
Figure 1.2 Rsidus de la rgression.

Les rsidus de Pearson permettent de prendre en compte de l'htroscdasticit qui apparatra ds lors que l'on quite le modle Gaussien (la fonction variance ne sera alors plus constante). Pour le modle log-Poisson, les erreurs
L1
et
L2
sont respectivement
> cat("Erreur L1 =",sum(abs(RPL)) Erreur L1 = 4.196891 > cat("Erreur L2 =",sum((RPL)^2) Erreur L2 = 5.476764
[5] revient longuement sur l'analyse des rsidus dans le cadre de modles linaires gnraliss.
18

Rappelons que l'outil de base pour quantier la qualit de la rgression
est la
dviance
D( ) = 2[log L( |Y ) log L (Y )]
o
log L( |Y )
dsigne la log-vraisemblance du modle, et o
log L (Y )
est
la log-vraisemblance sature (obtenue avec un modle parfait).
cel-00550583, version 1 - 28 Dec 2010
> logLik(regPlog) 'log Lik.' -7.955383 (df=2) > deviance(regPlog) [1] 1.760214 > AIC(regPlog) [1] 19.91077 > -2*logLik(regPlog)+2*2 [1] 19.91077 attr(,"df")
Dans un souci de partimonie, on pnalise souvent log-vraisemblance par le nombre de paramtres, ce qui correspond au critre d'information d'Akaike (AIC, en multipliant par 2). On peut galement dnir le critre de Schwartz,
AIC : 2 log L( ) + 2k BIC : 2 log L( ) + k log(n)

Il existe aussi un critre d'Aikaike l'aide de la fonction encore
corrig (introduit par [15]) dans le cas

ou
o l'on a trop peu d'observations. Toutes ces fonctions peuvent tre obtenues
extractAIC
AIC
de
avec comme paramtre
library(aod) ou BIC de library(BMA), k=log(nrow(base)).
> AIC > BIC
cat("AIC (Poisson-log) =",extractAIC(regPlog,k=2)[2]) (Poisson-log) = 19.91077 cat("BIC (Poisson-log) =",extractAIC(regPlog,k=log(nrow(base)))[2]) (Poisson-log) = 19.12964
On peut comparer tous les modles via :
> AIC(regNId,regNlog,regPId,regPlog,regGId,regGlog) df AIC regNId 3 21.10099 regNlog 3 20.63884 regPId 2 19.86546 regPlog 2 19.91077 regGId 3 18.01344 regGlog 3 18.86736

1.1.7 Les variables tarifaires continues et la nonlinarit
19
Le but de la tarication (et plus gnralement de toute prdiction) est d'estimer une esprance conditionnelle,
E(S |X = x) = (x)
o
ou
S = (X1 , , Xk ) +
est problement une hypothse
: Rk R.
Supposer un modle
linaire
trop forte. Mais on se doute qu'estimer une fonction dnie sur dit
Rk
serait trop
complexe numriquement. Un bon compromis est propos par les modles
additifs.
A titre d'illustration, la Figure 1.3 permet de visualiser l'impact de la densit de population dans la commune de l'assur sur la frquence de sinistre. Les points noirs correspondent la frquence moyenne empirique observe pour dirents niveaux de densit
cel-00550583, version 1 - 28 Dec 2010
> > + > > + > > >
library(mgcv) reg.gam <- gam(nombre~s(densite),offset=log(exposition), family=poisson(link="log"),data=sinistres) dens.x <- seq(0,30000,100) pred <- predict(reg.gam,newdata=data.frame(densite=dens.x,expo=1), se=TRUE,type="response") plot(dens,pred$fit,col="blue",lwd=2) lines(dens,pred$fit+2*N1RC0as1$se.fit,col="red",lty=2) lines(dens,pred$fit-2*N1RC0as1$se.fit,col="red",lty=2)
Les modles GAM

Les modles additifs ont t introduits par [30] qui notait qu'estimer une fonction
: Rk R
serait numriquement trop complexe (et probablement
peu robuste). On cherche ici une dcomposition de la forme
S = 1 (X1 ) + + k (Xk ) +
o les fonctions
j : R R
sont supposes susament rgulires. En fait,
ce modle n'est valable que pour les variables Autrement dit, un modle additif serait
Xj
continues, les variables
qualitatives continuant - gnralement - intervenir sous une forme linaire.
S = 1 (X1 ) + 2 X2 +
o
X1
est l'ge du conducteur, et
X2
le carburant du vhicule. Notons qu'il
serait aussi possible de considrer un modle de la forme
S=
1,E (X1 ) + 1,D (X1 ) +
si si
X2 = X2 =
essence diesel
Ces deux types de modles sont estims ci-dessous.
20

q
0.15
q q q q q q q q q q q q q q q q q q
Frquence annuelle de sinistre
0.05
q q q q q q q q q q q q q q qq q q q q q q q q q q qq qq q qq q qq q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q qq qq q qq q q q q q
0.10
qq q
0.00
q q qq q qq q qq q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
5000
10000
15000 Densit de population
20000
25000
30000
cel-00550583, version 1 - 28 Dec 2010
Figure 1.3 Frquence individuelle en fonction de la densit de population

de la commune de rsidence du conducteur principal.
> > + > > > > + > > > > > > >
library(mgcv) reg <- gam(nombre~s(ageconducteur)+offset(exposition), data=sinistres,family=poisson) age <- seq(17,100) AGE <- data.frame(ageconducteur=age,exposition=1) Y <- predict(reg,AGE,type="response") reg = gam(nombre~s(ageconducteur)+carburant+offset(exposition), data=sinistres,family=poisson) AGE <- data.frame(ageconducteur=age,exposition=1,carburant="E") YE <- predict(reg,AGE,type="response") AGE <- data.frame(ageconducteur=age,exposition=1,carburant="D") YD <- predict(reg,AGE,type="response") plot(age,Y,type='l') lines(age,YD,col='blue') lines(age,YE,col='red')
Pour le premier type de modle, ou le code suivant pour le second,
> > + > > >
library(mgcv) reg <- gam(nombre~s(ageconducteur)+offset(exposition), data=sinistres,family=poisson) age <- seq(17,100) AGE <- data.frame(ageconducteur=age,exposition=1) Y <- predict(reg,AGE,type="response")

> + > > + > > > > reg <- gam(nombre~s(ageconducteur)+offset(exposition), data=sinistres[sinistres$carburant=="E",],family=poisson) YE <- predict(reg,AGE,type="response") reg <- gam(nombre~s(ageconducteur)+offset(exposition), data=sinistres[sinistres$carburant=="D",],family=poisson) YD=predict(reg,AGE,type="response") plot(age,Y,type='l') lines(age,YD,col='blue') lines(age,YE,col='red')
Ce petit exemple montre bien les limites de ces modles additifs.
21
cel-00550583, version 1 - 28 Dec 2010
Frquence annuelle de sinistres
0.00
0.05
0.10
0.15
0.20
20
40
60 Age du conducteur principal
80
100
Figure 1.4 Modle GAM addif, S = 1 (X1 ) + 2 X2 + o X2 dsigne

le type de carburant.
L'estimation de ces modles peut se faire de plusieurs manires sous R. Il y a tout d'abord la fonction propos par [13]. La fonction dologie dveloppe par
gam de library(gam), bas sur l'algorithme gam de library(mgcv) repose sur la mtholibrary(gmlss) glm
ou
[32]. Enn d'autres packages proposent aussi des
estimations de ces transformations nonlinaires, dont
library(gss). library(splines).
Une autre possibilit est galement d'uiliser la fonction de libert, i.e. le paramtre de lissage de la transformation,
avec la
On peut alors changer facilement le nombre de degrs
> library(splines) > reg3 <- glm(nombre~bs(ageconducteur,df=3)+offset(exposition), + data=nombre,family=poisson)
22

0.20 Frquence annuelle de sinistres 0.00 0.05 0.10 0.15
20
40
80
100
cel-00550583, version 1 - 28 Dec 2010
Figure 1.5 Modle GAM, S =

dsigne le type de carburant.
1,E (X1 ) + 1,D (X1 ) +
si si
X2 = X2 =
essence diesel
X2
La Figure 1.6 montre ainsi la prdiction de la frquence moyenne en fonction de l'ge, avec dirents paramtres de lissage.
Les modles MARS

Une autre classe de modle particulirement intressant a t prsente par [10], appels MARS,
Multiplicative Adaptative Regression Splines.
de la forme
On
considre ici une base de fonctions de
((x k )+ ). En particulier, par rapport un modle linaire simple Y = 0 + 1 X + , Y = 0 + 1 max{0, X k } + 1 max{0, k X } +
on considre ici un modle avec rupture,
devient galement un paramtre estimer.
> library(mda) > reg <- mars(sinistres$ageconducteur,sinistres$nombre,nk=10) > summary(lm(sinistres$nombre~reg$x-1)) Call: lm(formula = sinistres$nombre ~ reg$x - 1) Residuals: Min 1Q Median 3Q Max
23
Frquence annuelle de sinistres
0.04
0.06
0.08
0.10
0.12
0.02
3 degrs de libert 5 degrs de libert 10 degrs de libert
20
40
80
100
cel-00550583, version 1 - 28 Dec 2010
-0.08342 -0.03916 -0.03730 -0.03560 15.96203 Coefficients: Estimate Std. Error reg$x1 3.408e-02 4.528e-04 reg$x2 1.692e-04 2.007e-05 reg$x3 4.486e-03 1.694e-04 --Signif. codes: 0 *** 0.001 t value Pr(>|t|) 75.271 <2e-16 *** 8.432 <2e-16 *** 26.477 <2e-16 *** ** 0.01 * 0.05 . 0.1 1
Residual standard error: 0.2071 on 678010 degrees of freedom Multiple R-squared: 0.03526, Adjusted R-squared: 0.03526 F-statistic: 8261 on 3 and 678010 DF, p-value: < 2.2e-16 > age <- seq(17,100) > Y <- predict(reg,age) > plot(age,Y)
1.1.8 Les modles nonlinaires multivaris

On peut s'autoriser ventuellement encore un peu plus de souplesse en prenant en compte le couple constitu de deux variables continues,
S = (X1 , X2 ) +
o
: R2 R,
au lieu d'un modle GAM classique,
S = 1 (X1 ) + 2 (X2 ) +
24

0.10 Frquence annuelle de sinistre 0.00 0.02 0.04 0.06 0.08
20
40
80
100
cel-00550583, version 1 - 28 Dec 2010
Figure 1.7 Modle MARS, impact de l'ge du conducteur principal sur

la frquence de sinistres.
Cette option est propose par exemple dans
library(mgcv)
1.2 Modliser des variables indicatrices

Les bases des modles GLM tant poses, nous allons les utiliser en tarication, en modlisant tout d'abord des variables indicatrices individuels dans les prochaines sections.
0/1
dans un
premier temps, avant de modliser la frquence de sinistres, puis les cots
Remarque 1.2 Les modles sont trs utiliss en techniques de scoring an
de savoir s'il convient d'occtroyer un crdit quelqu'un.
1.2.1 La rgression logistique ou probit

La rgression logistique suppose que si
(Y |X ) = P(Y = 1|X ),
alors
(Y |X ) P(Y = 1|X ) = = exp (X ) 1 (Y |X ) P(Y = 0|X )

Dans le cas du modle probit, on suppose qu'il existe un modle latent Gaussien, tel que
Yi = X i + i
et que
Yi = 0
si
Yi < s,
et
Yi = 1
si
Yi > s,
et
i N (0, 2 ).
La synthaxe de ces deux modles est trs proche, car seule la fonction de lien change.
1.2. MODLISER DES VARIABLES INDICATRICES
25
frquence espre
cel-00550583, version 1 - 28 Dec 2010
teu
Figure 1.8 Frquence prdite Y , en fonction de l'ge du conducteur et de

l'anciennet du vhicule,
Y = (X1 , X2 ).
> > + > + > > > > > >
sinistres$touche <- sinistres$nombre>0 reglogit <- glm(touche~ageconducteur, data=sinistres,family=binomial(link="logit")) regprobit <- glm(touche~ageconducteur, data=sinistres,family=binomial(link="probit")) age <- seq(17,100) AGE <- data.frame(ageconducteur=age,exposition=1) Yl <- predict(reglogit,AGE,type="response") Yp <- predict(regprobit,AGE,type="response") plot(age,Yp-Yl,type="l") abline(h=0,lty=2)
On notera que ces deux modles donnent des prdictions trs proches,
comme le montre la Figure 1.13.
con
duc
ed
ge
uv h
icu
le
26

25 20
0.0 5
ge du vhicule
15
0.0
0.0 7
10
0.0 8
20
30
40
50 ge conducteur
60
70
80
cel-00550583, version 1 - 28 Dec 2010
Figure 1.9 Frquence prdite Y

2 X2 ).
par un modle GLM
Y = exp(0 + 1 X1 +
1.2.2 Les arbres de rgression

Les arbres de rgression sont des outils nonparamtriques de segmentation. Dans un arbre de dcision, on cherche dtecter des critres permettant de rpartir les individus en
classes, caractrises par
Y =0
et
Y = 1.
On
commence par choisir la variable, qui, par ses modalits, spare le mieux les individus de chacune des classes. On constitue alors un premier CART (
noeud.
On rintre alors la procdure sur chaque nouveau noeud. Dans la mthode
Classication And Regression Tree),
on regarde toutes les possibili-
ts. On continue soit jusqu' ce qu'il ne reste plus qu'un seul. individu dans chaque noeud, soit suivant un critre d'arrt. Les critres de discrimination et de constitution des noeuds sont gnralement les suivants, lorsque les variables explicatives
Xj sont qualitatives, ou discrtes, on 2 utilise la distance du (on parle d'arbre CHAID),

(mthode CART),
en prsence de variables de tous types, on peut utiliser l'indice de Gini ou l'entropie (mthode C5.0), Pour un varible continue, on distinguera une variable qualitative, on distinguera
{X1 s} et {X1 > s}. {X1 = x} et {X1 = x}.
Pour
Pour chacune des variables, on regarde l'ensemble des classications possibles. Quelles que soient les variables, on dnit :
> seuilagecond <- unique(nombre$ageconducteur) > seuilregion <- unique(nombre$region)

25
27
20
0.05
0.2
0.15
0.06
0.1
ge du vhicule
15
8 0.0
0.07
0.08
10
0.07
0.06
20
30
40
50 ge conducteur
60
70
80
cel-00550583, version 1 - 28 Dec 2010

2 (X2 ).
par un modle additif
Y = 1 (X1 ) +
Pour les variables quantitatives, on distingue :
> k=5 > classe0 <- nombre$ageconducteur<=seuilagecod[k] > classe1 <- nombre$ageconducteur>seuilagecod[k]
alors que pour les variables qualitatives,
> k=5 > classe0 <- nombre$region==seuilregion[k] > classe1 <- nombre$region!=seuilregion[k]
Une fois constitues les 2 classes, on calcule un des critres possibles. Si on regarde la dcomposition obtenue sur le premier noeud, on observe que pour les conducteurs de moins de 25 ans, la probabilit d'avoir un accident est de 10%, contre 5% pour les conducteurs de plus de 25 ans. Dans le cas des rgions, avec une distance du chi-deux, on cherche minimiser
2 =
classe{0,1} y {0,1}
o
2 [nclasse,y n classe,y ]
n classe,y y.
nclasse,y
dsigne le nombre de personnes dans la classe considre pour
lesquelles la variable
prend la modalit
> base=sinistres[sinistres$ageconducteur<=85,] > seuil=sort(unique(base$ageconducteur))
28

25 20
0.05
0.06
0.1
0.2
5 0.1
ge du vhicule
15
0.07
0.08
0.0
8 0.0
10
20
30
40
50 ge conducteur
60
70
80
cel-00550583, version 1 - 28 Dec 2010
par un modle additif
Y = (X1 , X2 ).
> TABLE=rep(NA,length(seuil)) > names(TABLE)=seuil > for(k in 1:(length(seuil)-1)){ + classe0 <- base$ageconducteur<=seuil[k] + classe1 <- base$ageconducteur>seuil[k] + M=matrix( + rbind(c(sum(base$touche[classe0]==FALSE), + sum(base$touche[classe0]==TRUE)), + c(sum(base$touche[classe1]==FALSE), + sum(base$touche[classe1]==TRUE))),2,2) + TABLE[k]=-chisq.test(M)$statistic } > which.min(TABLE) 23 6 > plot(seuil,TABLE)
Autrement dit le meilleur dcoupage possible est prcdente comme acquise,
(17,23]
et
(23,85]
A la seconde tape, on cherche une autre partition, en considrant la
> > + +
k1 = which(seuil==23) for(k in 1:(length(seuil)-1)){ if(k!=k1){ classe0 <- (base$ageconducteur<=seuil[k])&(base$ageconducteur<=seuil[k1])

25
29
ge du vhicule
10
15
20
20
30
40
50 ge conducteur
60
70
80
cel-00550583, version 1 - 28 Dec 2010
Figure
1.12 Frquence prdite
par un modle par classes jointes,
(X1 , X2 ) [a1 , b1 ] [a2 , b2 ].
+ classe2 <- (base$ageconducteur>seuil[k])&(base$ageconducteur>seuil[k1]) + classe1 <- 1-classe0-classe2 + M=matrix( + rbind(c(sum(base$touche[classe0]==FALSE), + sum(base$touche[classe0]==TRUE)), + c(sum(base$touche[classe1]==FALSE), + sum(base$touche[classe1]==TRUE)), + c(sum(base$touche[classe2]==FALSE), + sum(base$touche[classe2]==TRUE))),3,2) + TABLE[k]=-chisq.test(M)$statistic + }} > which.min(TABLE) 84 67 > plot(seuil,TABLE)
En l'occurence, on ne nous conseille ici pas d'autre classe (ou alors un ge trs avanc). On retrouvera ce dcoupage en deux classes dans la section sur les modles MARS par exemple. Parmi les autres critres, on peut aussi utiliser la distance de Gini,
G=
classe{0,1}
nclasse n
y {0,1}
nclasse,y nclasse
nclasse,y nclasse
30
Probabilit d'avoir au moins un accident
0.037
0.038
Diffrence relative (%) 20 40 60 80 100
0.035
0.036
cel-00550583, version 1 - 28 Dec 2010
0.034
0.05 20
0.00
0.05
40
60
80
100
Age du conducteur principal
Figure 1.13 Rgression logistique (logit) versus modle latent Gaussien

(probit) pour prdire la probabilit d'avoir au moins un accident dans l'anne, en fonction de l'ge du conducteur principal.
ou l'entropie,
E=
classe{0,1}
nclasse n
y {0,1}
nclasse,y log nclasse
nclasse,y nclasse
Les arbres permettent une lecture relativement aise pour l'utilisateur, et reposent sur des techniques nonparamtriques. Aussi, contrairement aux mthodes GLM que nous verrons par la suite, le choix des lois ou la recherche d'ventuelles nonlinarits n'intervient pas ici. Les arbres sont galement peu sensibles aux
outliers.
Mais les arbres, de par leur construction, posent
aussi certains soucis. En particulier, on ne peut pas revenir en arrire, et le squencement est trs important.
1.2.3 Probabilit d'avoir (au moins) un sinistre dans l'anne

A titre d'illustration, tudions la probabilit d'avoir au moins un sinistre dans l'anne. Par dfaut, l'arbre ne permet pas de dnir des classes, et on obtient autant de classes que l'on a d'ges,
31
q q q q
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
Distance du chideux
200
100
300
400
q q q q q q
600
500
20
30
40
50 Age du conducteur
60
70
80
cel-00550583, version 1 - 28 Dec 2010
(k,85].
Figure
1.14 Evolution de
lors du dcoupage en 2 classes
(17,k]
et
> > > > >
library(tree) arbre=tree((nombre>0)~ageconducteur,data=sinistres,split="gini") age=data.frame(ageconducteur=18:90) y=predict(arbre,age) plot(age$ageconducteur,y)

Si l'on souhaite coupe les branches de l'arbre, on peut utiliser l'option pour dire qu'on ne peut couper davantage qu' condition de consti-
mincut > + > > > + > >
tuer des classes dont le nombre d'invidus l'intrieur soit susement lev.
arbre2=tree((nombre>0)~ageconducteur,data=sinistres,split="gini", mincut = 20000) y2=predict(arbre2,age) lines(age$ageconducteur,y2,col="red",type="s",lwd=2) arbre3=tree((nombre>0)~ageconducteur,data=sinistres,split="gini", mincut = 100000) y3=predict(arbre3,age) lines(age$ageconducteur,y3,col="purple",type="s",lwd=2)
On obtient alors les classes dcrites sur la gure 1.16.
1.2.4 Probabilit d'avoir un gros sinistre dans l'anne

Cette tude sera particulirement intressante pour crter les gros sinistres (nous reviendrons sur ce point dans la section 1.4.3). On supposera
32
qqqqq
qq qq qq
10000
Distance du chideux
20000
30000
40000
qq qq
20
30
40
50 Age du conducteur
60
70
80
cel-00550583, version 1 - 28 Dec 2010
Figure
(23,k]
1.15 Evolution de
et
(k,85],
ou
2 lors du dcoupage (17,k], (k,23] et (23,85].
en 3 classes,
(17,23],
(arbitrairement) que les
gros sinistres sont ceux dont le montant dpasse 50
000
euros.
> > > +
library(tree) sinistres$GS <- sinistres$cout>50000 ARBRE <- tree(GS ~ puissance + zone + agevehicule , data=sinistres,split="gini")
Cet arbre tant manifestement trop tendu, on peut limiter en demandant
avoir au moins
5 000
assur par branche,
> ARBRE <- tree(GS ~ puissance + zone + agevehicule , + data=sinistres,split="gini",minsize = 5000) > ARBRE > ARBRE node), split, n, deviance, yval * denotes terminal node 1) root 26444 87.710 0.003328 2) zone: B,C,D,E,F 23080 68.790 0.002990 4) puissance < 5.5 8028 17.960 0.002242 8) zone: B,D,F 3442 3.995 0.001162 * 9) zone: C,E 4586 13.960 0.003053 * 5) puissance > 5.5 15052 50.830 0.003388
33
0.10
q q
Probabilit d'avoir au moins un accident
0.08
0.06
q q q q q qq qq qqqq q qqq q qqq qq q qq q qq q q qqq qqq q qq qqq q q q q q q qq q q q q qq q q q q q q q q q
0.04
qq
0.00
0.02
20
30
40
50
60
70
80
90
cel-00550583, version 1 - 28 Dec 2010
Figure
1.16 Prdiction par arbre de rgression, avec plus ou moins de
classes d'ge.
10) zone: B,C,E 10372 30.910 0.002989 20) agevehicule < 10.5 7541 17.960 0.002387 40) puissance < 7.5 5274 14.960 0.002844 80) agevehicule < 2.5 1291 5.972 0.004648 * 81) agevehicule > 2.5 3983 8.980 0.002260 * 41) puissance > 7.5 2267 2.996 0.001323 * 21) agevehicule > 10.5 2831 12.940 0.004592 * 11) zone: D,F 4680 19.910 0.004274 * 3) zone: A 3364 18.890 0.005648 *
On note qu'en fonction de la zone, de la puissance du vhicule et de l'anciennet du vhicule, on peut dterminer avec une bonne assurance la probabilit d'avoir un trs gros sinistre. Par exemple, pour les personnes n'habitant pas un endroit trop dense (les zones les plus denses correspondant
zone=A), en particulier les zones B, D et E, et si la puissance n'est pas trop leve, puissance<5.5 la probabilit d'avoir un trs gros sinistres est de l'ordre de 1/1000. La probabilit sera 4 fois plus grande si la le vhicule est puissant (puissance>5.5) et ancien, (agevehicule>10.5). Dans une zone
dense, la probabilit sera plus de 5 fois plus grande (quelles que soient les autres variables). Si on trace l'arbre, on obtient le dessin de la Figure 1.17
> plot(ARBRE) > text(ARBRE,cex=.9,col="blue")
34
zone:bcdef
puissance < 5.5 0.005648 zone:bdf agevehicule < 10.5 0.001162 0.003053 puissance < 7.5 agevehicule < 2.5 0.001323 0.004648 0.002260 0.004592 0.004274 zone:bce
cel-00550583, version 1 - 28 Dec 2010
Figure 1.17 Arbre de prdiction, pour expliquer la probabilit d'avoir (ou

pas) un gros sinistre, en fonction de la densit de population, de l'anciennet du vhicule, et de sa puissance.
1.3 Modliser la frquence de sinistralit

Dans cette section, nous allons rentrer davantage dans la modlisation par modles linaires gnraliss. Mais avant de commencer, il peut tre intressant de regarder un peu la base, et de faire un peu d'analyse descriptive pour comprendre la loi du nombre de sinistres par contrat.
1.3.1 Un peu d'analyse descriptive

La frquence de sinistres
Une hypothse forte de la loi de Poisson est que
E(N ) = Var(N )
Si l'on compare les valeurs numriques, cela donne l'ajustement suivant, si l'on estime le paramtre par la mthode des moments (ou par maximum de vraisemblance,
ML
qui ici concident) :
> library(vcd) > gof = goodfit(N,type= "poisson",method= "ML") > gof Observed and fitted values for poisson distribution with parameters estimated by `ML'
1.3. MODLISER LA FRQUENCE DE SINISTRALIT

Ajustement dune loi de Poisson 800
35
600 Frquence (racine carre)
400
200
10
11
12
13
14
15
16
cel-00550583, version 1 - 28 Dec 2010
Nombre de sinistres
Figure 1.18 Frquence empirique du nombre de sinistres par police d'assurance.
[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [16,] [17,]
count observed fitted 653047 653047 652055 23592 23592 25453 1299 1299 496 62 62 6 5 5 0 2 2 0 1 1 0 0 0 0 1 1 0 1 1 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0
La dirence entre la valeur prdite par le modle Poissonnien et les valeurs observes nous poussent essayer de mieux comprendre l'htrognit qui existe au sein de nos donnes.
36

Les facteurs sont des codications de variables
Les variables qualitatives, ou facteurs

qualitatives.
Dans la pour base, nous disposons de plusieurs variables qualitatives comme le carburant
carburant
cod en
pour essence et
pour diesel, ou encore
region
la rgion franaise (visualises sur la Figure 1.19)
10%
9%
8%
cel-00550583, version 1 - 28 Dec 2010
7%
6%
5%
Figure 1.19 Frquence empirique observe par rgion franaise.

Rgresser une variable quantitative (comme le nombre de sinistres) sur une variable factorielle correspond faire une
analyse de la variance.
> summary(lm(nombre~as.factor(region), data=nombre)) Call: lm(formula = nombre ~ as.factor(region), data = nombre) Residuals: Min 1Q Median 3Q Max -0.16115 -0.03477 -0.03477 -0.03477 15.96523 Coefficients: Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.161150 as.factor(region)0 -0.091614 as.factor(region)1 -0.102853 as.factor(region)2 -0.113822 as.factor(region)3 -0.112168 as.factor(region)4 -0.112059 as.factor(region)5 -0.115453 as.factor(region)6 -0.116853 as.factor(region)7 -0.119643 as.factor(region)8 -0.131576 as.factor(region)9 -0.129934 as.factor(region)10 -0.133945 as.factor(region)11 -0.134594 as.factor(region)12 -0.134683 as.factor(region)13 -0.126384 --Signif. codes: 0 *** 0.001 ** 0.002341 0.002763 0.002819 0.002815 0.002796 0.002760 0.002737 0.002711 0.002688 0.002798 0.002818 0.002804 0.002818 0.002858 0.002362 68.84 -33.16 -36.48 -40.43 -40.12 -40.60 -42.18 -43.10 -44.51 -47.03 -46.11 -47.77 -47.77 -47.12 -53.50 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 1 *** *** *** *** *** *** *** *** *** *** *** *** *** *** ***
37
cel-00550583, version 1 - 28 Dec 2010
0.01 * 0.05 . 0.1
Residual standard error: 0.2067 on 677998 degrees of freedom Multiple R-squared: 0.005699, Adjusted R-squared: 0.005678 F-statistic: 277.6 on 14 and 677998 DF, p-value: < 2.2e-16
ou directement, l'aide de la fonction
aov,
> summary(aov(nombre~as.factor(region), data=nombre)) Df Sum Sq Mean Sq F value Pr(>F) as.factor(region) 14 166 11.8542 277.56 < 2.2e-16 *** Residuals 677998 28956 0.0427 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
qui montre que la frquence de sinistres est sensiblement dirente d'une rgion l'autre.
Les variables quantitatives continues

Parmi les variables continues permettant d'expliquer la frquence de sinistres, on retiendra l'ge du vhicule
ageconducteur.
agevehicule,
ou l'ge du conducteur
On pourrait galement utiliser le bonus observ la sous-
cription du contrat
bonus. Cette variable est lie l'anciennet du permis et
peut s'avrer dlicate prendre en compte dans le modle. La Figure 1.20 montre la frquence empirique oberve en fonction de l'ge du conducteur principal (frquence brute).
> age = seq(18,100,by=1) > FREQ = rep(NA,length(age))
38

for(k in 1:length(FREQ)){ I=nombre$ageconducteur==age[k] X=nombre$nombre[I] W=nombre$exposition[I] FREQ[k]=weighted.mean(X/W,W) } plot(age,FREQ)
La moyenne empirique est ici corrige par l'exposition. La frquence an-
> + + + + + >
nuelle devrait tre le nombre de sinistres observ divis par l'exposition, et on met un poids proportionnel l'exposition.
cel-00550583, version 1 - 28 Dec 2010
0.30
0.25
0.20
0.15
q q q q qq qqq q qq q q qqqqqqq q q qqqq qq qq qq q qqq qq q q qq qqq qqq q q q q q q q q q q qq q q qqqqqqqqq
0.10
0.00
0.05
qqq
20
40
80
100
Figure
1.20 Frquence empirique par ge du conducteur principal. Le
trait horizontal montre la frquence moyenne d'un individu pris au hasard.
1.3.2 La mthode des marges

[1] a propos une mthode relativement simple pour faire de la tarication, appele
method of marginal totals.
Avant de prsenter cette mthode,
notons que [16] a retrouv cette mthode en faisant du maximum de vraisemblance sur un modle Poissonnien. Plaons nous dans le cas o les variables exogne
de risques. Alors
sont qualitatifs, de telle sorte que l'on puisse dnir des
classes
P(N = n|X = X ) = exp[X ]
n X n!
X = exp[X ]

ce qui donne une log-vraisemblance de la forme
39
L( |ni , X i ) =
i=1
[X i ] + ni log[X i ] log[ni !]
dont la condition du premier ordre donne les quations normales,
ni =
i,X i =X
pour toute classe de risque
X
i,X i =X
X.
Si on regarde le cas o les classes de risque sont constitus par la puissance du vhicule (dnie en tant que facteur),
cel-00550583, version 1 - 28 Dec 2010
> > + >
nombre$puissance=as.factor(nombre$puissance) marges=glm(nombre~puissance, data=nombre,family=poisson(link="log")) summary(marges)
Call: glm(formula = nombre ~ puissance, family = poisson(link = "log"), data = nombre) Coefficients: Estimate Std. Error z value Pr(>|z|) puissance4 -3.35967 0.01580 -212.70 <2e-16 puissance5 -3.19353 0.01397 -228.53 <2e-16 puissance6 -3.16181 0.01259 -251.14 <2e-16 puissance7 -3.25744 0.01337 -243.68 <2e-16 puissance8 -3.34965 0.02463 -135.98 <2e-16 puissance9 -3.20436 0.02862 -111.97 <2e-16 puissance10 -3.24813 0.02865 -113.36 <2e-16 puissance11 -3.24661 0.03742 -86.75 <2e-16 puissance12 -3.32324 0.05812 -57.17 <2e-16 puissance13 -3.14545 0.08482 -37.08 <2e-16 puissance14 -3.14705 0.09950 -31.63 <2e-16 puissance15 -3.41704 0.10206 -33.48 <2e-16 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
*** *** *** *** *** *** *** *** *** *** *** *** 1
(Dispersion parameter for poisson family taken to be 1) Null deviance: 1307478 on 678013 degrees of freedom Residual deviance: 175926 on 678001 degrees of freedom AIC: 226763
40
Number of Fisher Scoring iterations: 6 > exp(marges$coefficients[6]) puissance9 0.04058501

Ce que nous dit la mthode des marges est que cette valeur prdite correspond la moyenne empirique au sein de la classe de risque,
> I=(nombre$puissance=="9") > mean(nombre$nombre[I]) [1] 0.04058501
cel-00550583, version 1 - 28 Dec 2010
L'ide est la fois simple et naturelle sur les modles ne comportant que des classes de risques (et pas de variable continue).
1.3.3 Prise en compte de l'exposition et variable oset

Dans un modle collectif, on a besoin de connatre le nombre de sinistres survenus sur une police d'assurance. Dans l'optique de tarifer un contrat, il faut pouvoir prdire le nombre de sinistres qui surviendront, en moyenne, l'anne suivante. Or si certains polices n'ont t observes que 6 mois dans la base, il convient de pondrer la frquence de sinistre par l'exposition. Compte tenu de la proprit multiplicative d'un processus de Poisson, une police observe 1 an aura, en moyenne, 4 fois plus de sinistres qu'une police observe 3 mois. Dans le cas d'un modle log-Poisson, il est alors naturel de supposer que
Y |X P (exp[X + log(e)])
o
dsigne l'exposition, mesure en annes.
Dans le cas des rgressions de Poisson, cela peut se faire de la manire suivante
> reg=glm(nombre~0+puissance+region, + data=nombre,family=poisson(link="log"),offset=log(exposition))

On peut noter que la rgression pouvait s'crire
Y |X P (exp[0 + 1 X1 + + k Xk + e])
autrement dit, on rajoute l'exposition dans la rgression, tout en forant le coecient tre gal 1. Ceci lgitime ainsi la seconde criture possible
> reg=glm(nombre~0+puissance+region+offset(exposition), + data=nombre,family=poisson(link="log"))
41
On notera qu'il est possible d'intrgrer une variable oset dans la mthode des marges, en notant qu'il convient de faire une moyenne du nombre de sinistres, divis par la moyenne de l'exposition. Par exemple pour reprendre une rgression prsente en introduction
> seuils = c(17,21,25,30,50,80,120) > reg2 = glm(nombre~cut(ageconducteur,breaks=seuils),data=sinistres, + family=poisson(link="log"),offset=log(exposition)) > predict(reg2,newdata=data.frame(ageconducteur=20,exposition=1), + type="response") [1] 0.2113669 > I=(sinistres$ageconducteur>=17)&(sinistres$ageconducteur<=21) > mean(sinistres$nombre[I==TRUE])/mean(sinistres$exposition[I==TRUE]) [1] 0.2113669
cel-00550583, version 1 - 28 Dec 2010
Une autre manire d'crire cette grandeur est de faire une moyenne pondre (par l'exposition) du nombre annualis de sinistres,
> weighted.mean(sinistres$nombre[I==TRUE]/sinistres$exposition[I==TRUE], + w=sinistres$exposition[I==TRUE]) [1] 0.2113669
1.3.4 Prise en compte de la surdispersion

Dans une rgression poissonnienne, on suppose que dans une classe de risque (ou conditionnellement aux variables explicatives), la frquence et l'esprance concident, i.e. Var(Y
|X ) = E(Y |X ). Dans l'exemple ci-dessous, on
considre le nombre de sinistres RC. On consistue quelques classes tarifaires,
> + > + > + > > >
moyenne = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant, "puissance"")], mean) variance = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant, "puissance"")], var) taille = tapply(BASENB$expo , BASENB[,c("agecond","carburant", "puissance")], sum) plot(as.vector(moyenne),as.vector(variance)) abline(a=0,b=1,col="red") abline(lm(as.vector(variance)~as.vector(moyenne)),col="blue",lty=2)
On peut commencer par faire un premier test, an de voir si la pente de
la rgression semble signicativement dirente
> library(AER) > (regression=lm(as.vector(variance)~as.vector(moyenne), + weight=as.vector(taille))
42
1.0
Variance
0.4
0.6
0.8
0.2
q q q q q qq q q q qq q qq q qq q q q q q q q q q q qq q q q q q qq q q q q q qq q qq q q q qq q q q q q qq qq q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q qq q q q q
0.0
0.00
0.05
0.10 Moyenne par classe de risque
0.15
cel-00550583, version 1 - 28 Dec 2010
Figure
(Var(Y
1.21 Frquence moyenne et variance l'intrieur des classes de
risques obtenues en segmentant par type de carburant, par puissance et par ge de conducteur. Le trait continu correspond au cas de non-surdisperson
|X ) = E(Y |X )), et les traits pointills aux droites de rgression (avec
ou sans pondration par l'exposition).
Call: lm(formula = as.vector(variance) ~ as.vector(moyenne), weights = as.vector(taille)) Coefficients: (Intercept) as.vector(moyenne) -0.003966 1.200848 > linear.hypothesis(regression,"as.vector(moyenne)=1") Linear hypothesis test Hypothesis: as.vector(moyenne) = 1 Model 1: as.vector(variance) ~ as.vector(moyenne) Model 2: restricted model Res.Df RSS Df Sum of Sq F Pr(>F) 1 1653 67.658 2 1654 70.460 -1 -2.8024 68.468 2.623e-16 *** ---

Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
43
Une manire de prendre en compte la surdispersion peut tre de prendre non une loi de poisson, mais une loi quasipoisson, telle que Var(Y |X ) = E(Y |X ), o devient un paramtre estimer (tout comme la volatilit des rsidus dans une rgression linaire Gaussienne).
> regglm <- glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance), + offset=log(expo), data=BASENB,family=quasipoisson) > summary(regglm) Call: glm(formula = N1RC ~ as.factor(agecond) + carburant + as.factor(puissance), family = quasipoisson, data = BASENB[I, ], offset = log(expo)) (Dispersion parameter for quasipoisson family taken to be 1.583862) > (summary(regglm)$dispersion) [1] 1.583862
Pour tester la prsence d'une ventuelle surdispersion, on peut noter que la surdispersion correspond une htrognit rsiduelle, c'est dire un eet alatoire. Par exemple on peut supposer que
cel-00550583, version 1 - 28 Dec 2010
(Y |X = X , Z = z ) P (exp[X + z ])
de telle sorte que si
u = z E(Z |X = X ),
alors
(Y |X = X , Z = z ) P (exp[X + u])
On a un modle dit eets xes, au sens o
(Y |X = X ) P (exp[X + U ])
o
i.e. d'esprance
U = Z E(Z |X = X ). Par exemple, si on suppose que U (a, a), 1 et de variance 2 = 1/a, alors (Y |U = u) P (u)
o
= exp[X ]
de telle sorte que
E(Y |U = u) = Var(Y |U = u).

Mais si on regarde la loi nonconditionnelle, Var(Y
E(Y ) =
alors que
) = Var(E[Y |U ]) + E(Var(Y |)) = + 2 2 .
44

Var(Y
On peut alors proposer un test de la forme suivante : on suppose que
|X = X ) = E(Y |X = X ) + E(Y |X = X )2
on on cherche tester
H0 : = 0
contre
>0
Parmi les statistiques de test classique, on pourra considrer
T =
n i=1 [(Yi
i ) 2 Yi ]
n 2 i=1 i
rduite. On utilise simplement
2
qui suit, sous
cel-00550583, version 1 - 28 Dec 2010
H0 , une loi normale centre dispersiontest() de library(MASS).
> regpoisson=glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance),offset=lo + data=BASENB,family=poisson) > dispersiontest(regpoisson) Overdispersion test data: regpoisson z = 6.4039, p-value = 7.572e-11 alternative hypothesis: true dispersion is greater than 1 sample estimates: dispersion 1.069558
Une autre possibilit est de faire une rgression binomiale ngative (qui permettra de prendre en compte de la la fonction
glm.nb()
de
library(MASS).
surdispersion). Elle se fait l'aide de
> regbn <- glm.nb(N1RC~as.factor(agecond)+carburant+as.factor(puissance) + offset(log(expo)),data=BASENB[I,])
Poisson-Gamma. Dans library(gamlss) on parle de loi binomiale ngative de type I. Une loi de type II est obtenue en considrant un mlange Poissoninverse Gaussienne.
Remarque 1.3 La loi Binomial Ngative est obtenue comme un mlange
1.3.5 Les modles zero-inated

An d'viter l'ala moral, il n'est pas rare de mettre en place des contrats participatifs. En assurance, l'exemple le plus connu est probablement le mcanisme de bonus-malus. Une personne qui n'a pas d'accident responsable

une anne a le droit un rabais l'anne suivante (un
45
bonus) alors qu'une per-
sonne ayant eu un ou plusieurs sinistres subit une majoration de prime (un
malus).
D'un point de vue conomtrique, cette solution prsente un biais
puisqu'elle peut insiter des personnes ne pas dclarer certains sinistres (ds lors que la majoration excde le cot du sinistre). Il n'est alors pas rare d'observer
trop
de personnes non-sinistres dans la population totale (par
rappport un modle Poissonnien). Un modle dit
zero inated surpoids
est un mlange entre une masse en
et
un modle classique de comptage, typiquement un modle de Poisson, ou binomial ngatif. Pour modliser la probabilit de ne pas dclarer un sinistre (et donc d'avoir un exemple, en
0),
considrons un modle logistique par
i =
cel-00550583, version 1 - 28 Dec 2010
exp[X i ] 1 + exp[X i ] pi (k )
la probabilit que l'individu
Pour le modle de comptable, on note ait
sinistres. Aussi,
P(Ni = k ) =
Si
i + [1 i ] pi (0) si k = 0, [1 i ] pi (k ) si k = 1, 2,
pi correspond un modle Poissonnien, on peut alors montrer facilement 2 que E(Ni ) = [1 i ]i et Var(Ni ) = i i + i i [1 i ]. library(gamlss) propose la fonction ZIP (pour zero inated Poisson), mais aussi ZINBI (lorsque pi correspond une loi binomiale ngative), ou ZIPIG (pour un mlange Poisson-inverse Gaussien), par exemple. La library(pscl) propose galement une fonction zeroinfl plus simple d'utilisation, proposant aussi bien un modle de Poisson qu'un modle binomial ngatif. Il existe aussi des modles dits
zero adapted, o l'on suppose que
P(Ni = k ) =
Dans
k = 0, pi (k ) [1 i ] 1 pi (0)
si
si
k = 1, 2,
des fonctions
library(gamlss) il s'agit du modle ZAP. Comme auparavant, il existe ZANBI ou ZAPIG.
Ces modles ination zro peuvent tre particulirement utiles pour prendre en compte un excs de non-dclarations de sinistres, gnralement attribues une peur de perdre un niveau intressant de bonus-malus : la perte nancire associe au malus des annes suivantes peut excder l'indemnit verse aujourd'hui. On peut ajuster ici un modle zero-inated (logit) avec une loi de Poisson an d'expliquer la sinistralit en fonction de l'ge du conducteur (en prenant en compte l'ge via une fonction nonlinaire que l'on estimera l'aide de splines).
46

reg1 <- glm(nombre~ageconducteur,offset=exposition,data=nombre, family=poisson) reg2 <- glm(nombre~bs(ageconducteur,df=4),offset=exposition, data=nombre,family=poisson) reg3 <- zeroinfl(nombre~ageconducteur | ageconducteur, data = nombre,offset=exposition,dist = "poisson",link="logit") reg4 <- zeroinfl(nombre~bs(ageconducteur,df=4) | bs(ageconducteur), data = nombre,dist = "poisson",link="logit",offset=exposition)
La prdiction obtenue pour les ges usuels est prsente sur la Figure
> + > + > + > +
1.22. Si l'on ne prend pas en compte l'ge de manire nonlinaire, les deux modles prdisent sensiblement la mme chose.
cel-00550583, version 1 - 28 Dec 2010
0.04
0.06
0.08
0.10
0.12
0.02
Poisson, linaire Poisson, nonlinaire Zero inflated Binomiale Negative, linaire Zero inflated Binomiale Negative, nonlinaire
20
30
40
50
60
70
Age du conducteur princpal
Figure 1.22 Prdiction l'aide de modles zero-inated (logit) avec une

loi de Poisson de la sinistralit en fonction de l'ge du conducteur.
On peut s'intresser plus particulirement l'impact de l'ge sur la probabilit de ne pas dclarer de sinistres (correspondant au paramtre de la loi binomiale).
> > > >
age=seq(18,80) DT=data.frame(ageconducteur=age,exposition=1) Y4z <- predict(reg4,newdata=DT,type="zero") plot(age,Y4z)

On notera que l'interprtation en terme de niveau de bonus-malus semble
pertinente, en particulier si l'on regarde le
bonus moyen en fonction de l'ge
du conducteur, prsent sur la Figure 1.24 : le taux de bonus (et donc la

0.9
47
Probabilit de ne pas dclarer un sinistre
0.5
0.6
0.7
0.8
20
30
40
50 Age du conducteur princpal
60
70
80
cel-00550583, version 1 - 28 Dec 2010
Figure 1.23 Probabilit i du modle ination zro, interprte comme la

probabilit de ne pas dclarer un sinistre, en fonction de l'ge du conducteur.
prime) diminue avec l'ge, ce qui incite probablement ne pas dclarer certains petits sinistres responsables.
1.3.6 Rgression simple versus rgression multiple

Il est important de bien vrier les interractions entre les variables explicatifs dans la rgression, an d'tre certain que l'eet est bien additif.
1.3.7 Prdiction de la frquence par police

Nous avons vu qu'il tait possible d'ajuster un grand nombre de modles, en changeant la
loi
(Poisson, zero-inated Poisson, Binomiale Nga-
tive, Poisson-inverse Gaussienne) de la variable
N,
mais aussi la forme du
modle (l'ge intervenant tel quel, par classe, ou bien transforme de manire nonlinaire, par exemple). Une cinquantaine de modles ont t ajusts. An de comparer ces modles, on calcule le critre d'Akaike (AIC) ou de Schwarz (BIC). On peut aussi prdire la frquence pour quelques individus type,
> + + + + +
individus=data.frame( exposition=c(1,1,1), zone=c("B","C","D"), puissance=c(11,6,7), agevehicule=c(0,3,10), ageconducteur=c(40,18,65),
48
Niveau de bonus moyen
50
60
70
80
90
100
110
20
30
40
60
70
80
cel-00550583, version 1 - 28 Dec 2010
Figure
1.24 Niveau moyen de taux de bonus en fonction de l'ge du
conducteur.
+ + + + > 1 2 3 1 2 3
marque=c(1,2,10), carburant=c("D","E","D"), densite=c(11,24,93), region=c(13,13,7)) individus exposition zone puissance agevehicule 1 B 11 0 1 C 6 3 1 D 7 10 ageconducteur marque carburant densite region 40 1 D 11 13 18 2 E 24 13 65 10 D 93 7
Il est aussi possible d'utiliser les arbres de rgression an de mieux com-
prendre les dirences entre les modles.
> > > > + > >
I=sample(1:nrow(sinistres),size=150000,replace=FALSE) base1=sinistres[I,] base2=sinistres[-I,] reg1 = glm(nombre~puissance+agevehicule+ageconducteur+carburant+as.factor(regio data=base1,family=poisson,offset=log(exposition)) library(mgcv) reg2 = gam(nombre~zone+puissance+s(agevehicule)+s(ageconducteur)+carburant+as.f

q q
49
0.15
q q
q q q q q q q q q q qq q q q q q q q qq q q q q q q q qq q qq q qq q q qqq q qq q q q q q qq q q q
0.10
q q q q q q q
0.05
0.00
20
40
80
cel-00550583, version 1 - 28 Dec 2010
Figure
1.25 Frquence individuelle en fonction de l'ge du conducteur
principal.
+ > > > > > > > > >
data=base1,family=poisson,offset=log(exposition)) Y1=predict(reg1,newdata=base2) Y2=predict(reg2,newdata=base2) diff=(Y1-Y2) base2$INDIC = (diff>0) base2$diff = diff library(tree) arbre <- tree(diff~puissance+agevehicule+ageconducteur+carburant+zone+densite,data=base plot(arbre) text(arbre)
On cherche comparer sur quelles segments de population les modles donnent des prdictions sensiblement direntes. Les deux modles ont la mme stucture (log-Poisson), mais le premier ne prend pas en compte les aspects nonlinaires. Le premier n'intgre pas non plus la variable de densit de populaion. Visiblement, il y a une forte dirence de prdiction sur les rgions 'faiblement' peuples, sur les jeunes conducteurs, sur les vhicules neufs,
densite<482.5 ageconducteur<24.5 agevehicule<0.5
50
q q

q q q q q q q q
0.15
q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qqq q q q q q qq q q q q qqq q q qq q qq qqq qq q qq q qq qqq q qqq q q q q q q q qq q qq q q qq q qqq q q q q q q q q qq qq qq q qq qq qq q qq q q q qqqqq q qq qq q qqqqq q q q q q q q q q q q qq q q q qq q qq q q q q q qq qqq q q qqq q q q q q q q q q q q q q q q
0.10
q q
0.05
q q q
0.00
Diesel Essence 20 40 60 Age du conducteur principal 80
q q qqqq
cel-00550583, version 1 - 28 Dec 2010
Figure
principal, et du type de carburant.
1.4 Modliser les cots individuels des sinistres

Les cots de sinistres sont des variables positives. En prsence de cots xes (bris de glace par exemple), la loi des cots de sinistres sera une loi continue, avec des masses de Dirac (l on l'on observe des cots xes). La loi est alors
f (y ) = (1 p)f (y ) + p1(y = C )
o
dsigne la probabilit d'avoir un cot qui soit prcisment
C.
Dans
notre approche conomtrique, on peut envisager un modle de la forme
f (y |X = x) = (1 p(x))f (y |X = x) + p(x)1(y = C )
o
p(x) peut tre modlise par une rgression logistique, et o f (y |X = x)
est une loi positive
densit.
On peut alors chercher modliser cette loi continue.
1.4.1 Modle Gamma et modle lognormal

Les deux modles les plus classiques permettant de modliser les cots individuels de sinistre sont le modle Gamma sur les cots individuels dle Gaussien sur le logarithme des cots,
Yi Yi , ou log(Yi ), la
plutt un moloi lognormale
le modle log-normal sur les cots individuels n'appartenant pas la famille exponentielle.
1.4. MODLISER LES COTS INDIVIDUELS DES SINISTRES

q q q q
51
0.15
q q q q q q q q q q qq q q q q qq q q q qq qq q q q qqqqqq q qqqq q q q q qq q q qq q q q qqq q q q q q q q q q q q q q q q q q q q q q q qqqq q q qq q qq qq q q q q q q qq qq q q q q q q qqq q q q q q q q qqq qq q q q q q q q qq q q q q q q q q qq q q qqq qqq q qq q q qq q q q q q q qqqq q q qq qq q q q qq q q q q q q q q
q q
0.10
q q q q q q q
0.05
q q q
0.00
Voiture rcente (<5 ans) Voiture ancienne (>6 ans) 20 40 60 Age du conducteur principal 80
q qqq
cel-00550583, version 1 - 28 Dec 2010
Figure
principal, et de l'anciennet du vhicule.
Le(s) modle(s) Gamma

La loi Gamma, de paramtres
et
de densit
f (y ) =
vrie
1 y exp(y ), () = 2 .
pour
y 0,
E(Y ) =
et Var(X )
Autrement dit, le coecient de variation
vaut ici CV
Var(X )
E(Y )
1 =
qui peut tre analys comme un cocient de on peut crire Var(Y
dispersion. En fait, si = 1/,
)=
1 2 = E(Y )2 , 2
o on retrouve ici une fonction variance de forme quadratique. Le cas particulier
=1
corrrespond la loi
exponentielle.
Bien que le lien canonique de la loi Gamma soit la fonction inverse, il est plus frquent d'utiliser un lien logarithmique. En eet, la forme multiplicative donne des interprtations simples dans le cas des modles multiples.
> reggamma <- glm(cout~ageconducteur,family=Gamma(link="log"), + data=sinistres) > summary(reggamma)
52

q q q qq q
0.15
q q q q q q q q q q q q q q q q q
0.10
qq q q qq qq q q
q qq q q q q qq q qqq q q qq q q q q qq qqqq q qq q q q q q q q qqqqq q qq q qq q q qqq q q qqq q q q q q q q q q q q q qqqqqqq qq q qq q q q q q q q q q q q q q qq qq q qqqq q q q qq q qqq q q qq q q q q q q qq q q qq q q qq q q q q q qq q q q q q q qq qq qq q q qq q q q q qq qq q q q
q q q q q q q
0.05
0.00
Faible densit Densit leve 20 40 60 Age du conducteur principal 80
q qqq
cel-00550583, version 1 - 28 Dec 2010
Figure
principal, et de la densit de la rgion d'habitation.
Call: glm(formula = cout ~ ageconducteur, family = Gamma(link = "log"), data = sinistres) Deviance Residuals: Min 1Q Median -3.6322 -0.9769 -0.6110 Coefficients: 3Q Max -0.3917 52.5993
Estimate Std. Error t value Pr(>|t|) (Intercept) 8.180643 0.208009 39.328 <2e-16 *** ageconducteur -0.010440 0.004383 -2.382 0.0172 * --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 (Dispersion parameter for Gamma family taken to be 109.7107) Null deviance: 46482 on 26443 degrees of freedom Residual deviance: 45637 on 26442 degrees of freedom AIC: 458704 Number of Fisher Scoring iterations: 9

30000 30000
q q q q q q qq
53
30000
q q q
q q
erreur de prdiction (L1)
25000
25000
20000
20000
qq q q q q q q
q q qq
q q q q q q q q
20000
25000
qq q q q q
15000
15000
q q
q q q q qq q q q
q qq q
q q q q q qq q
15000
q q
q q q q q q q
q q
q q q qq
q q
0.02
0.04
0.06
0.08
0.10
0.05
0.10
0.15
0.20
0.02
0.04
0.06
0.08
0.10
0.12
0.14
frquence prdite, individu (1)
q q
q q q
qq q
q q q q q
q q
q q
q qq q q
q q
q q
12400
12400
q q
q q q q q q
qq q q
12400
q q
q q q q q q q q
q q q q q q
12200
12200
qq q q q q q q q
q q q
12200
qq q q qq q q
qq q q q qq
0.02
0.04
0.06
0.08
0.10
0.05
0.10
0.15
0.20
0.02
0.04
0.06
0.08
0.10
0.12
0.14
cel-00550583, version 1 - 28 Dec 2010
Figure 1.29 Estimation de E(N |X ) sur 3 individus type, l'aide d'une

cinquantaine de modle.
Si
on
s'intresse
la
valeur
prdite
pour
une
personne
d'ge
ageconducteur=50,
on obtient
> predict(reggamma,newdata=data.frame(ageconducteur=50), + type="response") 1 2118.879
Le modle lognormal
La rgression lognormale peut tre obtenue en considrant une rgression linaire (Gaussienne) sur le logarithme du cot,
log(Yi ) = X i + i
avec
i N (0, 2 ). En eet, par dnition de LN (, 2 ) si et seulement si log Y N (, 2 ).

cet criture est que
la loi lognormale,
Le principal soucis dans
2 = exp() = exp[E(log Y )] 2 2 Var(Y ) = exp 2 + exp 2 1 = exp( 2 ) = exp[Var(log Y )] E(Y ) = exp +

Autrement dit, il sera dlicat de passer des estimations faites partir du modle sur
log Y
des prdictions sur le cot
Y.
Une rgression sur le loga-
rithme des cots donnerait par exemple,
54
densite < 482.5 |
ageconducteur < 24.5
agevehicule < 0.5
ageconducteur < 24.5 agevehicule < 0.5 1.7940 2.0990 1.1990 1.8900
1.5410
0.7205
cel-00550583, version 1 - 28 Dec 2010
Figure 1.30 Comparaison de deux modles log-Poisson.

> reglm <- lm(log(cout)~ageconducteur,data=sinistres) > summary(reglm) Call: lm(formula = log(cout) ~ ageconducteur, data = sinistres) Coefficients: Estimate Std. Error t value (Intercept) 6.7501521 0.0224328 300.905 ageconducteur 0.0021392 0.0004727 4.525 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Pr(>|t|) < 2e-16 *** 6.06e-06 *** . 0.1 1
Residual standard error: 1.13 on 26442 degrees of freedom Multiple R-squared: 0.0007738, Adjusted R-squared: 0.0007361 F-statistic: 20.48 on 1 and 26442 DF, p-value: 6.059e-06 > sigma=summary(reglm)$sigma
Si on s'intresse la valeur prdite pour une personne d'ge
ageconducteur=50,
on obtient
> mu=predict(reglm,newdata=data.frame(ageconducteur=50)) > exp(mu+sigma^2/2) 1 1799.239

On notera que les deux modles donnent des rsultats
55
trs
sensiblement
dirents (en terme de signe par exemple). On peut comparer les prdictions sur la Figure 1.31 (sur laquelle des rgressions nonparamtriques ont t superposes).
Cot individuel d'un sinistre
cel-00550583, version 1 - 28 Dec 2010
1000
1500
2000
2500
3000
3500
Gamma Lognormal Gamma (splines) Lognormal (splines)
500
20
40
80
100
Figure 1.31 Rgressions lognormale versus Gamma, o le cot individuel

est expliqu par l'ge du conducteur. La Figure 1.32 montre les mmes types de modles si l'on cherche expliquer le cot par l'anciennet du vhicule. En particulier, la croissance du cot moyen en fonction de l'ge du vhicule est surprenante compte tenu de la baisse de la cote du vhciule l'argus, En fait, la divergence entre les deux modles vient du fait que le modle Gamma est trs sensible aux valeurs extrmes. Un avantage du modle lognormal est qu'en prenant le logarithme des cots, on attnue l'importance des sinistres de cot exceptionnel. En cartant les sinistres tels que
sinistres$cout>200000,
on obtient des modles comparables (et proches
de ce que donnait la rgression lognormale sur l'ensemble de la base)
> sinistrescap <- sinistres[sinistres$cout<200000,]

Nous reviendrons plus en dtails sur la prise en compte de ces sinistres exceptionnels (qui ici ont simplement t carts).
Prise en compte d'un montant maximal

Dans la plupart des assurances associes aux dommages matriels, les polices indiquent des montants maximals. Dans le cas o seul le vhicule
56

3500 Cot individuel d'un sinistre 1000 1500 2000 2500 3000
500
10
15
20
25
cel-00550583, version 1 - 28 Dec 2010
Anciennet du vhicule

est expliqu par l'anciennet du vhicule.
de l'assur est couvert, le montant maximal d'un sinistre matriel est la valeur du vhicule. Dans la garantie vol des contrats habitations, le montant maximal sera la valeur des biens assurs. Les
est ainsi une variable censure
par ce cot maximal (qui peut li la police).
library(Zelig) et library(HMisc) permettent de faire une rgreslibrary(Zelig) on va indiquer que tous les cots sont noncensurs
sion lognormale, dans le contexte des modles de dure. Pour utiliser la fonction (car ici on ne dispose pas de l'information)
> > + >
library(Zelig) regloglm <- zelig(Surv(cout, rep(1,length(cout))) ~ ageconducteur, model = "lognorm", data = sinistres) summary(regloglm)
Call: zelig(formula = Surv(cout, rep(1, length(cout))) ~ ageconducteur, model = "lognorm", data = sinistres) Value Std. Error z p (Intercept) 6.75015 0.022432 300.92 0.00e+00 ageconducteur 0.00214 0.000473 4.53 6.03e-06 Log(scale) 0.12183 0.004348 28.02 9.76e-173 Scale= 1.13

3500
57
Cot individuel d'un sinistre
1000
1500
2000
2500
3000
500
10
15
20
25
cel-00550583, version 1 - 28 Dec 2010
Anciennet du vhicule

est expliqu par l'anciennet du vhicule.
Log Normal distribution Loglik(model)= -221797.7 Loglik(intercept only)= -221807.9 Chisq= 20.47 on 1 degrees of freedom, p= 6.1e-06 Number of Newton-Raphson Iterations: 2 n= 26444
1.4.2 Modlisation des grands sinistres

Il existe un grand nombre de faons de dnir les lois queues paisses. La plus lgante d'un point de vue actuarielle est probablement la famille des lois
sous exponentielles (dcrites dans [?]). Une loi de fonction de survie

n 2, F n (x) =n x F (x) lim
sera dite sous-exponentielle si pour tout
ou bien, si
X1 , , Xn ,
sont des variables i.i.d. de loi
F,
P(X1 + + Xn > x) P(max{X1 , , Xn } > x).

Autrement dit, la loi de la charge totale dans un portefeuille a des queues des distributions qui se comportent comme le plus gros sinistres. Ce sont donc des lois qui sont trs inuences par ces trs gros sinistres. Parmi les lois de la famille sous-exponentielle, la loi lognormale,
f (y )
1 exp [log y ]2 /2 2 y
58

la loi de Weibull,
f (y ) xk1 exp[xk ]
si
k<1
mais la loi la plus utilise, en particulier en rassurance, n'est pas dans la famille exponentielle, la loi de Pareto,
f (y ) [ + y ]1
Dans ces familles de lois queues paisses, on va ainsi retrouver une autre classe relativement connue, savoir les lois dite Ces lois sont aussi dite
de type Pareto, au sens o

P(Y > y ) = y L(y )
variation rgulire.
est une fonction variation lente, i.e.
lim
L(tx) =1 L(x)
pour tout
t > 0.
cel-00550583, version 1 - 28 Dec 2010
Reverse Gumbel ou Power Exponential

note GB2. On suppose que
La
library(gamlss)
propose d'autres familles de lois, comme les lois
Il est possible de dnir une famille dite
beta gnralise de seconde espce,

1 2 )
on
log Y = + log
o
G (i , 1)
obtient la
loi gamma gnralise.
sont indpendantes. Si
est une constante (2
La densit de cette loi s'crit :
f (y ) y 1 exp
Supposons que
log y
1 + exp
log y
(1 +2 )
soit une fonction linaire des variables explicatives,
= X .
Alors
E(Y |X ) = C exp[(X )] = C exp[X ]

Ces modles sont dtaills dans [23].
1.4.3 Ecrtement des grands sinistres

Si l'on considre des modles conomtriques bass uniquement sur des variables catgorielles (en particulier des classes pour les variables continues) la prime pure est alors gnralement la moyenne empirique dans la classe considre (c'est en tous les cas ce que prconise par exemple la mthode des marges). Mais cette mthode devient alors vite trs sensible aux sinistres extrmes. An d'viter ce problme, il n'est pas rare d'crter les sinistres : on calcule la prime moyenne par groupe tarifaire en cartant les gros sinistres, qui
59
seront rpartis sur l'ensemble de la population. On peut bien entendu raner cette mthode en considrant des modles hirarchiques et en rpartissant simplement sur une surclasse. Supposons que les sinistres extrmes soient ceux qui dpassent un seuil
(connu). Rappelons que la formule des probabilits totales permet d'crire
que (dans le cas discret pour faire simple)
P(A) =
i
o
P(A Bi )
i
P(A|Bi ) P(Bi )
(Bi ) Bc
forme une partition de
En particulier
P(A) = P(A|B ) P(B ) + P(A|B c ) P(B c )

o dsigne le complmentaire de
B.
En passant l'esprance, et en tra-
vaillant sur des variables alatoires plutt que des ensembles, on peut crire
cel-00550583, version 1 - 28 Dec 2010
E(Y ) = E(Y |B ) P(B ) + E(Y |B c ) P(B c )

Si on prend comme cas particulier
B = {Y s}
et
B c = {Y > s},
alors
E(Y ) = E(Y |Y s) P(Y s) + E(Y |Y > s) P(Y > s).

nallement, on note que la probabilit
n'a jou aucun rle ici, et on peut
parfaitement la remplacer par une probabilit conditionnelle,
PX ,
i.e.
E(Y |X ) = E(Y |X , Y s) P(Y s|X ) + E(Y |X , Y > s) P(Y > s|X )

Le premier terme correspond aux sinistres `normaux' par une loi voque prcdemment (rgression Gamma par exemple). Pour le second terme, on noteta que
E[E(Y |X , Y > s)] = E(Y |Y > s).
Autrement dit, on peut tre
tent par ne plus distinguer par classe pour le cot moyen des trs trs gros sinistres. Mais on rpartira proportionnellement la frquence des gros sinistres sinistres. La prdiction sera donc base sur trois parties, la premire pour les sinistres usuels (plus petits que les sinistres excdant
s), et la seconde pour les grands sinistres (pour
par classe tarifaire, d'avoir un sinistre excdant le seuil
s), avec comme troisime terme que sera la probabilit, s.
> > > > > > > > > > >
seuil=500000 sinistres.inf = sinistres[sinistres$cout<=seuil,] sinistres.sup = sinistres[sinistres$cout>seuil,] sinistres$indic = sinistres$cout>seuil proba=gam(indic~s(ageconducteur),data=sinistres,family=binomial) probpred=predict(proba,newdata=data.frame(ageconducteur=age),type="response") reg=gam(cout~s(ageconducteur),data=sinistres.inf,family=Gamma(link="log")) Y.inf=predict(reg,newdata=data.frame(ageconducteur=age),type="response") Y.sup=mean(sinistres.sup$cout) Y=Y.inf*(1-probpred)+Y.sup*probpred plot(age,Y)
60

15000
ensemble des sinistres base crte 500 000 base crte 100 000
Cot moyen d'un sinistre
5000
10000
20
30
40
50
60
70
80
90
cel-00550583, version 1 - 28 Dec 2010
Figure 1.34 Estimation de E(Y |X ) avec ou sans crment (la surcrte ici
ici rpartie entre les assurs proportionnellement leur probabilit d'avoir un gros sinistre).
probpred
est ici la prdiction de
P(Y > s|X ).
La gure 1.35 montre
comment la charge surcrte est rpartie entre les assurs : pour un seuil contrairement aux assurs de 25 35 ans.
500 000 euros, les trs jeunes conducteurs (moins de 22 ans) paieront moins,
1.5 Modliser les cots par police

Dans certains cas, on ne dispose que de la charge totale annuelle par police d'assurance.
1.5.1 Les modles Tweedie comme modle Poisson compos

Les modles Tweedie peuvent tre vu comme des modles Poisson composs. On suppose que
Y =
k=0
o les
Zk
qu'ils suivent une loi Gamma
(Zk ) sont i.i.d., on on pourra supposer G (, ), indpendament de N P (). Alors
E(Y ) = E(N ) E(Zk ) =
1.5. MODLISER LES COTS PAR POLICE
61
Impact relatif
0.2
0.8
1.4
20
30
40
50
60
70
80
90
Impact relatif
0.2
0.8
1.4
20
30
40
50
60
70
80
90
cel-00550583, version 1 - 28 Dec 2010
Figure 1.35 Impact (relatif ) de l'crtement, pour un seuil 100 000 euros
en haut, et 500 000 en bas.
et Var(Y
2 ) + Var(N ) E(Zk )2 = ) = E(N ) E(Zk
2 + 2 2
Supposons qu'il existe
p ]1, 2[
et
>0
tels que
2p 1 , = p1 (p 1)p1 Y
et
2p (2 p)
alors on peut montrer que la loi de avec
appartient la famille exponentielle
E(Y ) =
o le paramtre alors
et Var(Y
) = p
V ( ) = p .
est un paramtre de dispersion, et la fonction variance est
An de mettre en oeuvre l'utilisation de ces modles, commenons par sommer les cots de sinistres par police.
> base=sinistres[,1:2] > head(base) nocontrat cout 1 139 303.00 2 190 1981.84 3 414 1456.55 4 424 989.64 5 424 9844.36
62
6 463 3986.67 > somme <- aggregate(base[,2],by=list(base[,1]),sum) > names(somme)=c("nocontrat","cout") > head(somme) nocontrat cout 1 139 303.00 2 190 1981.84 3 414 1456.55 4 424 10834.00 5 463 3986.67 6 606 1840.14 > sinistres <- merge(somme,nombre,all=TRUE) > sinistres$cout=replace(sinistres$cout,is.na(sinistres$cout),0)
cel-00550583, version 1 - 28 Dec 2010
On peut alors utiliser les modles Tweedie, par exemple avec un paramtre
p=1.3,
> regTw <- glm(cout~ageconducteur+agevehicule+as.factor(puissance), + data=sinistres, tweedie(1.3,0)) > summary(regTw) Call: glm(formula = cout ~ ageconducteur + agevehicule, family = tweedie(puis, 0), data = sinistres) Deviance Residuals: Min 1Q -19.384 -8.516 Coefficients: Median -8.019 3Q -7.481 Max 2389.532 Pr(>|t|) < 2e-16 *** 0.00132 ** 0.02330 * . 0.1 1
Estimate Std. Error t value (Intercept) 4.947441 0.224142 22.073 ageconducteur -0.014533 0.004525 -3.212 agevehicule 0.023133 0.010198 2.268 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05
(Dispersion parameter for Tweedie family taken to be 59123.96) Null deviance: 106887434 on 678012 degrees of freedom Residual deviance: 105804487 on 678010 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 8
Chapitre 2
Les provisions pour sinistres payer

cel-00550583, version 1 - 28 Dec 2010
Dans ce chapitre, nous allons tudier les mthodes pour calculer le montant des
provisions pour sinistres payer,
et plus particulirement, des m-
thodes permettant de quantier la marge d'erreur associe.
2.1 La problmatique du provisionnment

les provisions techniques sont les provisions destines permettre le rglement intgral des engagements pris envers les assurs et bnciaires de contrats. Elles sont lies la technique mme de l'assurance, et imposes par la rglementation. D'un point de vue plus formel, la
Comme le dnit [29], date
t,
la compagnie d'assurance est tenue de constituer une provision pour
les sinistres survenus avant la date
t qu'elle sera tenu d'indemniser. Elle doit
donc estimer le cot des sinistres survenus, et retrancher les montants dj verss. Il s'agit donc fondamentalement d'un problme de prvision. Parmi les mthodes reconnues par les autorits de contrles, les plus classiques sont bases sur les cadences de paiements. On raisonne pour cela par anne de survenance de sinistre, et on suppose une certaine rgularit dans la cadence de paiement.
2.1.1 Quelques dnitions et notations, aspects rglementaires et comptables

La plupart des mthodes prsentes ici sont dtailles dans [7], ou [33]. Classiquement, on notera
i (en ligne) l'anne de survenance, j (en colonne) l'anne de dveloppement, Yi,j les incrments de paiments, pour l'anne de dveloppement j , pour les sinistres survenus l'anne i, tableau 2.1
63
64
CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

Ci,j
les
paiments cumuls, au sens o Ci,j = Yi,0 + Yi,1 + + Yi,j , pour

de survenance
j , tableau 2.2 Pi la prime acquise pour l'anne i, tableau 2.3 Ni,j le nombre cumul de sinistres pour l'anne bout de j annes, tableau 2.4
l'anne de survenance 0 0 1 2 3 4 5 3209 3367 3871 4239 4929 5217 1 1163 1292 1474 1678 1865 2 39 37 53 103 3 17 24 22 4 7 10
vu au
5 21
cel-00550583, version 1 - 28 Dec 2010
Table 2.1 Triangle des incrments de paiements, Y

0 0 1 2 3 4 5 3209 3367 3871 4239 4929 5217 1 4372 4659 5345 5917 6794 2 4411 4696 5398 6020 3 4428 4720 5420 4 4435 4730 5 4456
= (Yi,j ).
Table 2.2 Triangle des paiements cumuls, C = (Ci,j ).

Year
0 4591
1 4672
2 4863
3 5175
4 5673
5 6431
Pi
Table 2.3 Vecteur des primes acquises, P

NA pour les valeurs PAID, PREMIUM, NUMBER
= (Pi ).
Formellement, toutes ces donnes sont stockes dans des matrices, avec des valeurs manquantes utilisera les triangles futures. Pour les importer, on et
INCURRED
> source(bases.R) > PAID [,1] [,2] [,3] [1,] 3209 4372 4411 [2,] 3367 4659 4696 [3,] 3871 5345 5398
[,4] [,5] [,6] 4428 4435 4456 4720 4730 NA 5420 NA NA
2.1. LA PROBLMATIQUE DU PROVISIONNMENT

0 0 1 2 3 4 5 1043.4 1043.0 965.1 977.0 1099.0 1076.3 1 1045.5 1027.1 967.9 984.7 1118.5 2 1047.5 1028.7 967.8 986.8 3 1047.7 1028.9 970.1 4 1047.7 1028.7 5 1047.7
65
Table 2.4 Triangle des nombres de sinistres, cumuls, en milliers, N

(Ni,j ).
cel-00550583, version 1 - 28 Dec 2010
[4,] 4239 5917 6020 [5,] 4929 6794 NA [6,] 5217 NA NA
NA NA NA
NA NA NA
NA NA NA
Le triangle des incrments se dduit facilement du triangle des cumuls
> INCREMENT <- PAID > INCREMENT[,2:nrow(PAID)] <- PAID[,2:nrow(PAID)]-PAID[,1:(nrow(PAID)-1)] > INCREMENT [,1] [,2] [,3] [,4] [,5] [,6] [1,] 3209 1163 39 17 7 21 [2,] 3367 1292 37 24 10 NA [3,] 3871 1474 53 22 NA NA [4,] 4239 1678 103 NA NA NA [5,] 4929 1865 NA NA NA NA [6,] 5217 NA NA NA NA NA
2.1.2 Formalisation du problme du provisionnement

Le provisionnement est un problme de prdiction, conditionelle l'information dont on dispose la date la date
n. On notera Fn
l'information disponible
n,
soit formellement
Hn = {(Xi,j ), i + j n} = {(Ci,j ), i + j n}
On cherche tudier, par anne de survenance, la loi conditionnelle de sachant la loi
Ci,
Hn , ou encore, si l'on de Ci,n sachant Hn . Si
suppose les sinistres clos au bout de
annes
l'on se focalise sur une anne de survenance
particulire, on pourra noter
Fi,ni = {(Xi,j ), j = 0, , n i)} = {(Ci,j ), j = 0, , n i)}

Cette notation permet de prendre en compte que l'information disponible change d'une ligne l'autre.
66

Hn Fi,ni
On cherchera par la suite prdire le montant des sinistres payer pour l'anne
i,
i.e.
Ci,n
(ni)
= E[Ci,n |Fi,ni ]
et la dirence entre ce montant et le montant dj pay constituera la provision pour sinistres payer,
Ri = Ci,n
(ni)
Ci,ni
cel-00550583, version 1 - 28 Dec 2010
On essayera ensuite de quantier l'incertitude associe cette prdiction. Comme on le verra les mthodes usuelles visaient calculer Var[Ci,n |Fi,ni ] ou Var[Ci,n
(ni)
ce que l'on appelera incertitude horizon ultime. Mais ce n'est pas ce que propose Solvabilit II, demandant plutt de mesurer une incertitude dite
un an. Pour cela, on va s'intresser la prdiction qui sera faite dans un an,
Ci,n
(ni+1)
= E[Ci,n |Fi,ni+1 ]
et plus particulirement le changement dans l'estimation de la charge ultime
n i = Ci,n
(ni+1)
Ci,n
(ni)
Si cette dirence est positive, on parle de On peut montrer que
an de pouvoir payer les sinistres), et si elle est ngative, on parle de
mali (il faudra goner la provision boni.
E[n i |Fi,ni ] = 0,
autrement dit, on ne peut esprer faire ni boni, ni mali, en moyenne. Les contraintes rglementaires imposes par Solvabilit II demandent de calculer Var[i
|Fi,ni ].
2.2 Les cadences de paiements et la mthode Chain Ladder

L'utilisation des cadences de paiements pour estimer la charge future date du dbut du XXme sicle. On suppose qu'il existe une relation de rcurrence de la forme
Ci,j +1 = j Ci,j
pour tout
i, j = 1, , n.
2.2. LES CADENCES DE PAIEMENTS ET LA MTHODE CHAIN LADDER67

Un estimateur naturel pour
j ,
bas sur l'exprience passe est alors
j =
nj i=1 Ci,j +1 pour tout nj i=1 Ci,j
j = 1, , n 1.
De telle sorte que l'on peut alors prdire la charge pour la partie non-observe dans le triangle,
Ci,j = n+1i ...j 1 Ci,n+1i .
cel-00550583, version 1 - 28 Dec 2010
> > > + +
n <- nrow(PAID) LAMBDA <- rep(NA,n-1) for(i in 1:(n-1)){ LAMBDA[i] <- sum(PAID[1:(n-i),i+1])/ sum(PAID[1:(n-i),i]) }
Notons qu'au lieu de calculer les facteurs de dveloppement, on peut aussi
des taux de dveloppement, cumuls ou non. Autrement dit, au lieu d'crire
Ci,j +1 = j Ci,j
pour tout
i, j = 1, , n,
ou
on suppose que
Ci,j = j Ci,n
On notera que
Yi,j = j Ci,n .
j =
k=j +1
1 k
et
j =
1 j j 1
si si
j=1 j>1
> cat("Lambda =",LAMBDA) Lambda = 1.380933 1.011433 1.004343 1.001858 1.004735 > GAMMA <- rev(cumprod(rev(1/LAMBDA))) > cat("Gamma =", GAMMA) Gamma = 0.7081910 0.9779643 0.9891449 0.9934411 0.9952873 > cat("Phi =", c(GAMMA[1],diff(GAMMA))) Phi = 0.708191033 0.269773306 0.011180591 0.004296183 0.001846141
0 1 1,01143 97,796% 26,977% 2 1,00434 98,914% 1,118% 3 1,00186 99,344% 0,430% 4 1,00474 99,529% 0,185%
n
1,0000 100,000% 0,000%
j j j
1,38093 70,819% 70,819%
Table
2.5 Facteurs de dveloppement,
= ( i ) ,
exprims en cadence
de paiements par rapport la charge utlime, en cumul (i.e. incrments (i.e.
),
puis en
).
68

On notera qu'il est possible de voir l'estimateur Chain-Ladder comme
une moyenne pondre des facteurs de transition individuels, i.e.
nj
j =
i=1
i,j i,j
i,j =
Ci,j et nj i=1 Ci,j C,j +1
i,j =
Ci,j +1 . Ci,j
Ainsi, pour la
Aussi, on peut obtenir ces coecients l'aide de rgressions linaires pondres sans constantes, en rgressant les premire valeur, sur les
C,j .
cel-00550583, version 1 - 28 Dec 2010
> x <- PAID[,1] > y <- PAID[,2] > lm(y ~ x + 0, weights=1/x) Call: lm(formula = y ~ x + 0, weights = 1/x) Coefficients: x 1.381
Une fois estim le facteur de dveloppement, rien de plus simple que de complter le triangle,
> TRIANGLE <- PAID > for(i in 1:(n-1)){ + TRIANGLE[(n-i+1):(n),i+1]=LAMBDA[i]*TRIANGLE[(n-i+1):(n),i]}

0 0 1 2 3 4 5 3209 3367 3871 4239 4929 5217 1 4372 4659 5345 5917 6794 7204.3 2 4411 4696 5398 6020 6871.7 7286.7 3 4428 4720 5420 6046.15 6901.5 7318.3 4 4435 4730 5430.1 6057.4 6914.3 7331.9 5 4456 4752.4 5455.8 6086.1 6947.1 7366.7 avec leur
Table
2.6 Triangle des paiements cumuls,
C = (Ci,j )i+j n
projection future
C = (Ci,j )i+j>n
Le montant de provisions est alors la dirence entre ce que l'on pense payer pour chaque anne de survenance (la dernire colonne) et que ce l'on a dj pay (la seconde diagonale)
> ultimate <- TRIANGLE.D[,6]*(1+0.00) > payment.as.at <- diag(TRIANGLE.D[,6:1]) > RESERVES <- ultimate-payment.as.at > cat("Total reserve =",RESERVES) Total reserve = 0.000 22.391 35.793 65.677 153.368 2149.656
2.3. DE MACK MERZ & WTHRICH

On note qu'ici tant total de rserves qu'il convient d'allouer.
69
sum(RESERVES) vaut 2426.885, ce qui correspond au mon-
Un algorithme plus rapide est d'utiliser directement la formule base sur le produit des coecients de transition. On a alors
> > > >
DIAG <- diag(triangle[,n:1]) PRODUIT <- c(1,rev(LAMBDA)) sum((cumprod(PRODUIT)-1)*DIAG)) 2426.885
2.3 De Mack Merz & Wthrich

La mthode dite
Chain Ladder, que nous venons de voir, est une mthode
dite dterministe, au sens o l'on ne construit pas de modle probabiliste
cel-00550583, version 1 - 28 Dec 2010
permettant de mesurer l'incertitude associe la prdiction du montant des rserves. Dirents modles ont t proposs partir des annes 90, partir du modles de Mack, jusqu' l'approche propose par Merz & Wthrich qui introduira la notion d'
incertitude un an.
2.3.1 Quantier l'incertitude dans une prdiction

Nous avons obtenu, par la mthode Chain Ladder un estimateur du montant de provision,
R.
Classiquement, pour quantier l'erreur associe un
estimateur, on calcul la
mean squared error - mse - associe,

E([R R]2 )
Formellement, comme mse, mais de mse
de prdiction, note msep (on ne prdit pas sur les donnes
est ici une variable alatoire, on ne parle pas de
passes, mais on utilisera les donnees pour calibrer un modle qui servira ensuite faire de la prdiction pour les annes futures). Aussi msep(R)
= E([R R]2 ).
Ce terme peut se dcomposer en deux (en faisant une approximation au premier ordre), au sens o
E([R R]2 ) E([R E(R)]2 ) + E([R E(R)]2 )

mse(R) Var(R)
o le terme de gauche est l'erreur d'estimation, compte tenu du fait que nous avons d estimer le montant de provisions partir de la partie suprieure du triangle, et le terme de droite est l'erreur classique de modle (tout modle comportant une partie rsiduelle orthogonale aux observations, et donc imprvisible).
70

En fait, en toute rigueur (et nous en aurons besoin par la suite), on
cherche plutt calculer un msep conditionnel l'information dont on dispose au bout de
annes, msepn (R)
= E([R R]2 |Hn ).
2.3.2 Le formalisme de Mack

[20] a propos un cadre probabiliste an de justier l'utilisation de la mthode Chain-Ladder. Pour cela, on suppose que Markovien, et qu'il existe
= (j )
et
(Ci,j )j 0 est un processus 2 (j ) tels que
E(Ci,j +1 |Hi+j ) = E(Ci,j +1 |Ci,j ) = j Ci,j 2 Var(Ci,j +1 |Hi+j ) = Var(Ci,j +1 |Ci,j ) = j Ci,j
cel-00550583, version 1 - 28 Dec 2010
On note que sous ces hypothses,
E(Ci,j +k |Hi+j ) = E(Ci,j +k |Ci,j ) = j j +1 j +k1 Ci,j

[20] rajoute une hypothse supplmentaire d'indpendance entre les annes de survenance, autrement dit pour tout
(Ci,j )j =1,...,n
et
Ci ,j
j =1,...,n
sont indpendant
i=i.
Une rcriture du modle est alors de supposer que
Ci,j +1 = j Ci,j + j
o les rsidus
Ci,j + i,j
(i,j )
sont i.i.d. et centrs. A partir de cette criture, il peut
paratre lgitime d'utiliser les mthodes des moindres carrs pondrs pour estimer ces coecients, en notant que les poids doivent tre inversement proportionnels la variance, autrement dit aux rsoudre
Ci,j , i.e. j donn, on cherche
nj
min
i=1
1 (Ci,j +1 j Ci,j )2 Ci,j j

donn. Si la premire hypothse est vrie,
Pour tester ces deux premires hypothses, on commence par reprsenter les
C,j +1
en fonction des
C,j
les points doivent tre aligns suivant une droite passant par l'origine.
> j=1 > plot(PAID[,j],PAID[,j+1],pch=19,col="red",cex=1.5) > abline(lm(PAID[,j+1]~0+PAID[,j]),col="blue",lwd=2)

La Figure 2.1 montre ainsi les nuages de points pour
j=1
et
j=2.
Pour la seconde, on peut tudier les rsidus standardiss ([20] parle de
weighted residuals),
i,j
Ci,j +1 j Ci,j . Ci,j
71
6000
6500
6000
5500
PAID[, j + 1]
5000
5000
PAID[, j + 1]
5500
4500
4500 4000 PAID[, j] 4500 5000
3500
4500
5000
5500 PAID[, j]
6000
6500
cel-00550583, version 1 - 28 Dec 2010
Figure 2.1 Nuage de points C,j +1 en fonction des C,j

droite de rgression passant par l'origine.
pour
j = 1, 2,
et
> j=1 > RESIDUS <- (PAID[,j+1]-LAMBDA[j]*PAID[,j])/sqrt(PAID[,j])

L'utilisation des rsidus standardiss nous donnent d'ailleurs une ide simple pour estimer le paramtre de volatilit.
2 j
1 = nj1
nj 1
i=0
Ci,j +1 j Ci,j Ci,j
ce qui peut aussi s'crire
2 j
1 = nj1
nj 1
i=0
Ci,j +1 j Ci,j
Xi,j
comme
(ce qui est rapprocher de l'criture du facteur de transition moyenne pondre des facteurs de transitions observs).
> > > > + + >
SIGMA=sqrt(SIGMA) f <- PAID[,2:n]/PAID[,1:(n-1)] SIGMA <- rep(NA,n-1) for(i in 1:(n-1)){ D <- PAID[,i]*(f[,i]-t(rep(LAMBDA[i],n)))^2 SIGMA[i] <- 1/(n-i-1)*sum(D[,1:(n-i)])} SIGMA[n-1] <- min(SIGMA[(n-3):(n-2)])
72
> SIGMA=sqrt(SIGMA) > cat("Volatilite =", SIGMA) Volatilite = 0.7248578 0.3203642 0.04587297 0.02570564 0.02570564
Cette mthode permet d'estimer les dirents paramtres intervenants dans le modle de [20].
2.3.3 La notion de tail factor

Classiquement on suppose que la premire ligne de notre triangle est close : il n'y a plus de sinistres ouverts, et donc le montant de provision pour cette anne de survenance est nul. Cette ligne servira de base pour tous les dveloppements ultrieurs. Cette hypothse peut tre un peu trop forte pour les branches droulement long. [21] a pos les bases des premiers modles toujours utiliss. On supposera qu'il existe alors un
cel-00550583, version 1 - 28 Dec 2010
> 1
tel que
Ci, = Ci,n .
Une mthode qui a souvent t utilise a repos sur l'ide que l'on pouvait projeter les linaire des
i par une extrapolation log(k 1)), puis on pose =
exponentielle (ou une extrapolation
k
k n
Mais mieux vaut faire attention, en particulier s'il y a des valeurs aberrantes.
> logL <- log(LAMBDA-1) > tps <- 1:5 > modeL <- lm(logL~tps) > tpsP <- seq(6:1000) > logLP <- predict(modeL,newdata=data.frame(tps=tpsP)) > lambda <- prod(exp(logLP)+1) > lambda > cat("Facteur moyen =", lambda) Facteur moyen = 1.146162
Autrement dit, cette mthode prvoit de rajouter premire anne close.
14%
de charge par
rapport la prdiction faite par les mthodes classiques, en supposant la
2.3.4 Des estimateurs des paramtres l'incertitude sur le montant des provisions
A partir de tous ces estimateurs, on peut estimer le msep du montant de provision par anne de survenance,
Ri ,
mais aussi agrg, toutes annes de
survenances confondues. Les formules sont donnes dans [21] ou [7].

On peut aussi utiliser la fonction
73
library(ChainLadder). > library(ChainLadder) > MackChainLadder(PAID) MackChainLadder(Triangle = PAID) 1 2 3 4 5 6
MackChainLadder
de
cel-00550583, version 1 - 28 Dec 2010
Latest Dev.To.Date Ultimate IBNR Mack.S.E CV(IBNR) 4,456 1.000 4,456 0.0 0.000 NaN 4,730 0.995 4,752 22.4 0.639 0.0285 5,420 0.993 5,456 35.8 2.503 0.0699 6,020 0.989 6,086 66.1 5.046 0.0764 6,794 0.978 6,947 153.1 31.332 0.2047 5,217 0.708 7,367 2,149.7 68.449 0.0318
Totals Latest: 32,637.00 Ultimate: 35,063.99 IBNR: 2,426.99 Mack S.E.: 79.30 CV(IBNR): 0.03
On retrouve l'estimation du montant total de provisions vaut
2,426.99, ainsi que 79.30. Les informations plot(),
msep(R) correspondant au par anne de survenance
R, IBNR, qui Mack S.E. qui vaut ici

sont indiqus dans la
premire partie du tableau. On obtient galement plusieurs graphiques en utilisant la fonction correspondant aux Figures 2.2, 2.3 et 2.4
2.3.5 Un mot sur Munich-Chain Ladder

La mthode dite
Munich-Chain-Ladder,
developpe dans [27], propose
d'utiliser non seulement les paiements cumuls, mais aussi une autre information disponible : l'estimation des charges des dirents sinistres faites par les gestionnaires de sinistres. Les triangles de paiements taient bass sur des mouvements nanciers ; ces triangles de charges sont bases sur des estimations faites par des gestionnaires compte tenu de l'information leur disposition. Les sinistres tardifs ne sont pas dedans, et certains sinistres seront classs sans suite. Toutefois, il peut paratre lgimite d'utiliser cette information. Dans la mthode
Munich-Chain-Ladder,
on dispose des triangles
(Ci,j )
correspond aux incrments de paiments, et sier/dossier. En reprenant les notations de
(i,j )
aux charges dites dos-
[27] on dnie les ratio paie-
74

Mack Chain Ladder Results
Chain ladder developments by origin period

7000
7000
Forecast Latest
6000
5000
6000
4000
Amount
Value
3000
5000
6 5
2 4000 4 3 2 1 1
2 1
2 1
2 1 1
cel-00550583, version 1 - 28 Dec 2010
1000
2000
Origin period
Development period
Figure 2.2 Comparaison entre la charge nale estime et la somme dj

paye, gauche, et les cadences de paiements prdites par la mthode Chain Ladder.
ment/charge, et charge/paiement,
Qi,j =
Ci,j i,j
et
1 Q i,j =
i,j Ci,j
C ]2 C ) = [j i,j
Comme dans le modle Chain-Ladder de base, on suppose que
E(Ci,j +1|F C ) = C j Ci,j E(i,j +1|F ) = j i,j

i+j i+j
et Var(Ci,j +1|F C et Var(i,j +1|F
i+j
i+j
]2 ) = [j i,j
On rajoute galement une information sur les
i,j .
Si
C i,j 1 =
on suppose que
Ci,j Ci,j 1
et
i,j 1 =
i,j i,j 1
1 1 Q i,j 1 E(Qi,j 1 |Fi+j C )
Var(Qi,j 1 |Fi+j C )
C C E(C i,j 1 |Fi+j ) = j 1 +
Var(i,j 1 |Fi+j )
et
E( i,j 1 |Fi+j ) = j 1 +
Var(i,j 1 |Fi+j )
Qi,j 1 E(Qi,j 1 |Fi+j )

Var(Qi,j 1 |Fi+j )
75
1.5
1.0
Standardised residuals
Standardised residuals 4500 5000 5500 Fitted 6000 6500
0.5
0.0
0.5
1.0
1.5
cel-00550583, version 1 - 28 Dec 2010
1.5 1
1.0
0.5
0.0
0.5
1.0
1.5
3 Origin period
Figure 2.3 Evolution des rsidus standardiss en fonction des Ci,j

i.
et des
On notera qu'il s'agit d'une extension du modle Chain-Ladder, et en particulier
C C C E( i,j 1 |Fi+j ) = E[E(i,j 1 |Fi+j )|Fi+j ) ] = j 1 .

Les termes
et
sont alors simplement des coecients de corrlation
conditionnelle. Plus prcisment
C = Cor(i,j 1 , Ci,j |FiC +j 1 )

Sous ces hypothses, il est possible de construire des estimateurs sans biais de
1 C E(Ci,j |Ci,j 1 ), de E(i,j |i,j 1 ), de E(Qi,j |Fi +j ) et de E(Qi,j |Fi+j ).
Pour estimer les deux dernires quantits, posons
Qj =
nj i=0 Ci,j nj i=0 i,j
1 Q1 j
On peut aussi estimer les variances conditionnelles. Par exemple
nj
Var(Qi,j ||Fi+j )
= ()1
i=0
i,j [Qi,j Qj ]2
76
1.5
1.0
Standardised residuals
Standardised residuals 1 2 3 Calendar period 4 5
0.5
0.0
0.5
1.0
1.5
cel-00550583, version 1 - 28 Dec 2010
1.5 1.0
1.0
0.5
0.0
0.5
1.0
1.5
1.5
2.0
2.5
3.0
3.5
4.0
Development period
et une expression analogue pour Var(Qi,j
|FiC +j ).
A partir de ces quantits, posons enn
i,j = Q
Qi,j Qj
Var(Qi,j |Fi+j )
= i,j
et
i,j 1
I ]2 [ [j i,j 1 j 1 ] 1
i,j 1 Q i,j 2 Q
i,j 1
L'estimateur Munich-Chain-Ladder est construit de manire intrative. Le dtails des formules est donn dans [27] ou [33].
> (MNCL=MunichChainLadder(Paid=PAID, + Incurred=INCURRED)) MunichChainLadder(Paid = PAID, Incurred = INCURRED) 1 2
Latest Paid Latest Incurred Latest P/I Ratio Ult. Paid Ult. Incurred Ult. P/I R 4,456 4,456 1.000 4,456 4,456 4,730 4,750 0.996 4,753 4,750

0 0 1 2 3 4 5 4795 5135 5681 6272 7326 7353 1 4629 4949 5631 6198 7087 2 4497 4783 5492 6131 3 4470 4760 5470 4 4456 4750 5 4456
77
Table 2.7 Triangle des estimations de charges dossier/dossier cumules,

= (i,j )
cel-00550583, version 1 - 28 Dec 2010
3 4 5 6 Totals
5,420 6,020 6,794 5,217
5,470 6,131 7,087 7,353
0.991 0.982 0.959 0.710
5,455 6,086 6,983 7,538
5,454 6,085 6,980 7,533
1 1 1 1
Paid Incurred P/I Ratio Latest: 32,637 35,247 0.93 Ultimate: 35,271 35,259 1.00
De mme que pour la fonction
MackChainLadder,
plusieurs graphiques
peuvent tre obtenus an de mieux comprendre les volutions des paiements, mais aussi de la charge dossier/dossier estime par les gestionnaires de sinistres, prsents sur les Figures 2.5 et 2.6. Si on compare les deux triangles, qui ont t complts en tenant compte des interactions, on obtient des choses relativement proches,
> MNCL$MCLPaid [,1] [,2] [,3] [,4] [,5] [,6] [1,] 3209 4372.000 4411.000 4428.000 4435.000 4456.000 [2,] 3367 4659.000 4696.000 4720.000 4730.000 4752.569 [3,] 3871 5345.000 5398.000 5420.000 5429.716 5455.324 [4,] 4239 5917.000 6020.000 6046.090 6057.284 6085.875 [5,] 4929 6794.000 6890.045 6932.247 6949.447 6982.539 [6,] 5217 7251.382 7419.621 7478.759 7502.149 7538.194 > sum(MNCL$MCLPaid[,6]-diag(MNCL$MCLPaid[,6:1])) [1] 2633.502 > MNCL$MCLIncurred [,1] [,2] [,3] [,4] [,5] [,6] [1,] 4975 4629.000 4497.00 4470.000 4456.000 4456.000 [2,] 5135 4949.000 4783.00 4760.000 4750.000 4750.415 [3,] 5681 5631.000 5492.00 5470.000 5454.691 5454.445
78
Munich Chain Ladder Results

7000
Munich Chain Ladder vs. Standard Chain Ladder

100
MCL Paid MCL Incurred
Mack P/I MCL P/I
6000
5000
Amounts
4000
3000
% 0 20 40
cel-00550583, version 1 - 28 Dec 2010
1000
2000
60
80
1 origin period
origin period
Figure 2.5 Comparaison des mthodes Chain Ladder, et Munich Chain

Ladder, en montant gauche, et en valeurs relatives droite.
[4,] 6272 6198.000 6131.00 6100.978 6084.986 6084.770 [5,] 7326 7087.000 6988.37 6984.274 6979.284 6979.732 [6,] 7353 7349.795 7493.64 7522.809 7532.206 7533.461 > sum(MNCL$MCLIncurred[,6]-diag(MNCL$MCLPaid[,6:1])) [1] 2621.823
2.3.6 L'incertitude un an de Merz & Wthrich

[24] ont tudier la variation du boni/mali d'une anne sur l'autre, c'est dire du changement dans la prdiction de la charge totale. Ils ont en particulier montr que msepcn1 (CDRi (t)) o
2 = Ci, i,n + i,n
i,n =
et
2 n i+1 n+1 2 ni+1 Sni+1
n1
+
j =ni+2
Cnj +1,j n+1 Sj
2 j n 2 j Sj
i,n =
1+
2 n i+1
n1
2 ni+1 Ci,ni+1
1+
j =ni+2
2 j n+1 2 ] 2 j [Sj
Cnj +1,j
79
Paid residual plot

2 2
Incurred residual plot
Incurred/Paid residuals
Paid/Incurred residuals 2 1 0 Paid residuals 1 2
cel-00550583, version 1 - 28 Dec 2010
2 2
0 Incurred residuals
Figure
2.6 Corrlations entre les triangles de dveloppement des paie-
ments, et des charges dossier/dossier.
[24] ont alors approch ce terme par
i,n
2 n i+1
n1
2 ni+1 Ci,ni+1
+
j =ni+2
Cnj +1,j n+1 Sj
2 j
2 j Cnj +1,j (1 + ui ) 1 +
en faisant tout simplement un dveloppement de la forme
ui ,
mais qui n'est valide que si
ui
est petit, soit ici
2 j
2 j
obtenue l'aide de trices
<< Cnj +1,j .
Ces fonctions peuvent tre obtenues l'aide de la fonction
source(MackMerzWuthrich.R).
MSEP_Mack_MW
Pour expliquer rapide-
ment les principales fonctions utilises, il faut commencer par nir les ma-
Gamma
et
Delta.
Mais avant tout, initialement les matrices et vecteurs
qui nous serviront par la suite,
I <- nrow(PAID) J <- ncol(PAID) diag <- diag_inv <- Phi <- Psi <- Delta <- Lambda <- Epsilon <- matrix(NA,I,1) S_I <- S_II <- matrix(NA,1,J)
80
cov_obs <- cov_reel <- matrix(0,I,J) msep_obs <- msep_reel <- matrix(NA,1,J+1) Delta[1] <- Phi[1] <- Psi[1] <- Epsilon[1] <- Lambda[1] <- 0
Le plus simple est alors d'utiliser les sorties de
MackChainLadder,
cel-00550583, version 1 - 28 Dec 2010
> > + > + + + > + + + > > > > > > +
Mack<-MackChainLadder(PAID) Mack$sigma[J-1] <- sqrt(min(Mack$sigma[J-2]^4/Mack$sigma[J-3]^2, min(Mack$sigma[J-2]^2,Mack$sigma[J-3]^2))) for (i in 1:I){ diag[i] = PAID[i,I-i+1] diag_inv[i] = PAID[I-i+1,i] } for (j in 1:J){ S_I[j] <- sum(PAID[1:(I-j),j]) S_II[j] <- sum(PAID[1:(I-j+1),j]) } S_I[I] <- 0 Delta[2] <- Mack$sigma[I-1]^2/(S_I[I-1]*(Mack$f[I-1])^2) Phi[2] <- 0 Psi[2] <- Mack$sigma[I-1]^2/(diag[2]*(Mack$f[I-1])^2) Epsilon[2] <- Mack$sigma[I-1]^2/(S_II[I-1]*(Mack$f[I-1])^2) Lambda[2] <- diag[2]*Mack$sigma[I-1]^2/((Mack$f[I-1]^2)* S_II[I-1]*S_I[I-1])
pour les premire valeurs. On fait ensuite une boucle pour incrmenter les vecteurs,
> for (i in 3:I){ + Delta[i] <- Mack$sigma[I-i+1]^2/(S_I[I-i+1]*(Mack$f[I-i+1])^2) + sum( + (diag_inv[(I-i+2):(J-1)]/S_II[(I-i+2):(J-1)])^2* + Mack$sigma[(I-i+2):(J-1)]^2/(S_I[(I-i+2):(J-1)]* + (Mack$f[(I-i+2):(J-1)])^2)) + Phi[i] <- sum((diag_inv[(I-i+2):(J-1)]/S_II[(I-i+2):(J-1)])^2* + Mack$sigma[(I-i+2):(J-1)]^2/(diag_inv[(I-i+2):(J-1)]* + (Mack$f[(I-i+2):(J-1)])^2)) + Psi[i] <- Mack$sigma[I-i+1]^2/(diag[i]*(Mack$f[I-i+1])^2) + Epsilon[i] <- Phi[i] + Mack$sigma[I-i+1]^2/(S_II[I-i+1]* + (Mack$f[I-i+1])^2) + + Lambda[i] <- diag[i]*Mack$sigma[I-i+1]^2/((Mack$f[I-i+1]^2)* + S_II[I-i+1]*S_I[I-i+1]) + sum( + (diag_inv[(I-i+2):(J-1)]/S_II[(I-i+2):(J-1)])^2* + Mack$sigma[(I-i+2):(J-1)]^2/(S_I[(I-i+2):(J-1)]* + (Mack$f[(I-i+2):(J-1)])^2))

+ } > Gamma = Phi + Psi
81
Une fois ces matrices dnies, on peut calculer les mse de prdiciton par anne de survenance
for (i in 1:I){ msep_obs[i] = Mack$FullTriangle[i,J]^2 * (Gamma[i] + Delta[i]) msep_reel[i] = Mack$FullTriangle[i,J]^2 * (Phi[i] + Delta[i]) }
Pour l'incertitude associe au montant total de provision (toutes annes confondues), il faut rajouter quelques calculs de covariance,
cel-00550583, version 1 - 28 Dec 2010
for (i in 2:(I-1)){ for (k in (i+1):I){ cov_obs[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k,J]*(Upsilon[i] cov_reel[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k,J]*(Phi[i] + } }
On en dduit alors le mse de prdiction pour
R,
> msep_obs[I+1] = sum(msep_obs[2:I]) + 2*sum(cov_obs) > msep_reel[I+1] = sum(msep_reel[2:I]) + 2*sum(cov_reel)

Cette mthode correspond l'approximation propose par mineurs) [24]. Pour faire le calcul exact, quelques petits changements sont apporter (mais assez
> facteur <- matrix(1,I,1) > Phi_exact[2] <- Psi_exact[2] <- 0 > Gamma_exact[2] <- Mack$sigma[I-1]^2/(diag[I-1]*(Mack$f[I-1])^2) > Epsilon_exact[2] <- Mack$sigma[I-1]^2/(S_II[I-1]*(Mack$f[I-1])^2) > for (i in 3:I){ + facteur[i] <-prod(1 + diag_inv[(I-i+2):(J-1)]*(Mack$sigma[(I-i+2):(J-1)]^2)/ + ((S_II[(I-i+2):(J-1)]*Mack$f[(I-i+2):(J-1)])^2)) + Phi_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(diag_inv[I-i+1]*(Mack$f[I-i+1])^2))* + (facteur[i]-1) + Psi_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(S_II[i]*(Mack$f[I-i+1])^2)) * Phi[i] / + (1 + Mack$sigma[I-i+1]^2/(diag_inv[I-i+1]*(Mack$f[I-i+1])^2)) + Epsilon_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(S_II[I-i+1]*(Mack$f[I-i+1])^2))* + facteur[i]-1 + Gamma_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(diag_inv[I-i+1]*(Mack$f[I-i+1])^2))* + facteur[i]-1 +}
82

vraie
valeur de
ce qui permet d'obtenir la
Gamma_exact.
i,n ,
stoche dans le vecteur
A partir de l, on peut calculer les mse de prdiction, comme
prcdemment,
cel-00550583, version 1 - 28 Dec 2010
> for (i in 1:I){ + msep_obs_exact[i] = Mack$FullTriangle[i,J]^2 * (Gamma_exact[i] + Delta[i + msep_reel_exact[i] = Mack$FullTriangle[i,J]^2 * (Phi_exact[i] + Delta[i] +} > for (i in 2:(I-1)){ + for (k in (i+1):I){ + cov_obs_exact[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k + (Upsilon_exact[i] + Lambda[i]) + cov_reel_exact[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[ + (Psi_exact[i] + Lambda[i]) + }} > msep_obs_exact[I+1] <- sum(msep_obs_exact[2:I]) + 2*sum(cov_obs_exact) > msep_reel_exact[I+1] <- sum(msep_reel_exact[2:I]) + 2*sum(cov_reel_exact) > msep_Mack <- array(0,c(1,I+1)) > msep_Mack[1:I] <- Mack$Mack.S.E[,I] > msep_Mack[I+1] <- Mack$Total.Mack.S.E > Vari <- array(0,c(1,I+1)) > for (i in 1:I){ + Vari[i] <- Mack$FullTriangle[i,J]^2 * Psi[i] + } > Vari[I+1] <- sum(Vari[1:I])
On dispose alors de l'ensemble des lments permettant d'avoir une vision un an de l'incertitude,
> result <- cbind(t(msep_Mack), t(sqrt(msep_obs)), t(sqrt(msep_obs_exact)) > result <- as.data.frame(result) > names(result) <- c("MSEP Mack","MSEP MW app.","MSEP MW ex.") > result MSEP Mack MSEP MW app. MSEP MW ex. 1 0.0000000 0.000000 0.000000 2 0.6393379 1.424131 1.315292 3 2.5025153 2.543508 2.543508 4 5.0459004 4.476698 4.476698 5 31.3319292 30.915407 30.915407 6 68.4489667 60.832875 60.832898 7 79.2954414 72.574735 72.572700
2.4. RGRESSION POISSONNIENNE ET APPROCHES CONOMTRIQUES83
2.4 Rgression Poissonnienne et approches conomtriques

Dans cette section, nous nous loignerons des modles rcursifs inspirs de la mthode Chain Ladder, et nous reviendrons sur des classes de modles trs utiliss dans les annes 70, appels
modles facteurs,
remis au got
du jour en proposant une lecture conomtrique de ces modles, permettant ainsi d'obtenir des intervalles de conance des direntes grandeurs.
2.4.1 Les modles facteurs, un introduction historique

Avant de prsenter l'utilisation des modles de rgression, on peut commencer par voquer des modles plus anciens. Par exemple Taylor (1977) supposait que
cel-00550583, version 1 - 28 Dec 2010
Yi,j = rj i+j ,
pour tout
i, j
i.e. un eet colonne, de cadence de paiement, et un eet diagonal, que Taylor interprte comme un facteur d'ination. Ce modle peut se rcrire, ds lors qu'il n'y a pas d'incrment positif,
log Yi,j = i + i+j

qui prend alors une forme linaire. On montrera par la suite que le cas
log Yi,j = i + j
s'apparent un modle de type Chain-Ladder. En eet, cela suppose que
Yi,j = ai bj
que l'on peut rapprocher du modle de dveloppement
Yi,j = Ci,n j .
[34]
avait galement propos d'utiliser une courbe d'Hoerl, c'est dire
log Yi,j = i + i log(j ) + i j.
2.4.2 Les modles de de Vylder et de Chritophides

Les quations normales s'crivent ici
i =
Yi,j j
j 2 j
et
j =
i Yi,j i 2 , i i
[4] a suggr de le
ce qui ne rsoud pas explicitement. Pour le rsoudre, rcrire comme un modle log-linaire, i.e.
log Yi,j N (ai + bj , 2 ),
pour tout
i, j
84

an <- 6; ligne <- rep(1:an, each=an); colonne <- rep(1:an, an) INC <- PAID INC[,2:6] <- PAID[,2:6]-PAID[,1:5] Y <- as.vector(INC) lig <- as.factor(ligne) col <- as.factor(colonne) reg <- lm(log(Y)~col+lig) summary(reg)
> > > > > > > >
Call: lm(formula = log(Y) ~ col + lig) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.9471 0.1101 72.188 6.35e-15 col2 0.1604 0.1109 1.447 0.17849 col3 0.2718 0.1208 2.250 0.04819 col4 0.5904 0.1342 4.399 0.00134 col5 0.5535 0.1562 3.543 0.00533 col6 0.6126 0.2070 2.959 0.01431 lig2 -0.9674 0.1109 -8.726 5.46e-06 lig3 -4.2329 0.1208 -35.038 8.50e-12 lig4 -5.0571 0.1342 -37.684 4.13e-12 lig5 -5.9031 0.1562 -37.783 4.02e-12 lig6 -4.9026 0.2070 -23.685 4.08e-10 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
cel-00550583, version 1 - 28 Dec 2010
*** * ** ** * *** *** *** *** *** 1
Residual standard error: 0.1753 on 10 degrees of freedom (15 observations deleted due to missingness) Multiple R-squared: 0.9975, Adjusted R-squared: 0.9949 F-statistic: 391.7 on 10 and 10 DF, p-value: 1.338e-11
On peut alors simplement utiliser cette rgression pour construire le triangle de base du modle,
Yi,j = exp[ai + bj ]
(la partie infrieure droite
constituant la prdiction). Comme nous l'avions not dans la Section 1.4.1, cet estimateur est toutefois biais,
> > >
logY <- predict(reg,newdata=data.frame(lig,col)) INCpred <- matrix(exp(logY),an,an) INCpred [,1] [,2] [,3] [,4] [,5] [,6] [1,] 2827.436 1074.641 41.02692 17.99380 7.721706 21.00000 [2,] 3319.436 1261.638 48.16599 21.12488 9.065354 24.65419

[3,] [4,] [5,] [6,] 3710.527 5102.488 4917.944 5217.000 1410.282 1939.333 1869.193 1982.857 53.84084 74.03860 71.36081 75.70020 23.61379 32.47222 31.29779 33.20098 10.133422 13.934856 13.430869 14.247588 27.55892 37.89732 36.52667 38.74783
Le montant de provision prdit est ici
> cat("Total reserve =",sum(exp(logY[is.na(Y)==TRUE]))) Total reserve = 2444.02

ce qui est un lgrement dirent de la prdiction obtenue par la mthode Chain Ladder. Si l'on corrige du biais (car obtient alors
exp(E(log(Y ))) = E(Y )),
on
cel-00550583, version 1 - 28 Dec 2010
> sigma=summary(reg)$sigma > INCpred <- matrix(exp(logY+sigma^2/2),an,an) > INCpred [,1] [,2] [,3] [,4] [,5] [,6] [1,] 2871.209 1091.278 41.66208 18.27237 7.84125 21.32511 [2,] 3370.826 1281.170 48.91167 21.45193 9.20570 25.03588 [3,] 3767.972 1432.116 54.67438 23.97937 10.29030 27.98557 [4,] 5181.482 1969.357 75.18483 32.97495 14.15059 38.48403 [5,] 4994.082 1898.131 72.46559 31.78233 13.63880 37.09216 [6,] 5297.767 2013.554 76.87216 33.71498 14.46816 39.34771 > cat("Total reserve =",sum(exp(logY[is.na(Y)==TRUE]+sigma^2/2))) Total reserve = 2481.857
2.4.3 La rgression poissonnienne de Hachemeister & Stanard

[12], [18] et enn [19] ont montr que dans une rgression log-Poisson sur les incrments, la somme des prdictions des paiments venir correspond l'estimateur Chain Ladder. On retrouve ici un rsultat pouvant tre reli la mthode des marges prsente dans la section 1.3.2.
> > > > > > > > > >
library(statmod) an <- 6; ligne <- rep(1:an, each=an); colonne <- rep(1:an, an) passe <- (ligne + colonne - 1)<=an; np <- sum(passe) futur <- (ligne + colonne - 1)> an; nf <- sum(passe) INC <- PAID INC[,2:6] <- PAID[,2:6]-PAID[,1:5] Y <- as.vector(INC) lig <- as.factor(ligne) col <- as.factor(colonne) CL <- glm(Y~lig+col, family=quasipoisson)
86
> summary(CL) Call: glm(formula = Y ~ lig + col, family = quasipoisson) Deviance Residuals: Min 1Q Median -2.3426 -0.4996 0.0000 3Q 0.2770 Max 3.9355
cel-00550583, version 1 - 28 Dec 2010
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 8.05697 0.02769 290.995 < 2e-16 lig2 -0.96513 0.02427 -39.772 2.41e-12 lig3 -4.14853 0.11805 -35.142 8.26e-12 lig4 -5.10499 0.22548 -22.641 6.36e-10 lig5 -5.94962 0.43338 -13.728 8.17e-08 lig6 -5.01244 0.39050 -12.836 1.55e-07 col2 0.06440 0.03731 1.726 0.115054 col3 0.20242 0.03615 5.599 0.000228 col4 0.31175 0.03535 8.820 4.96e-06 col5 0.44407 0.03451 12.869 1.51e-07 col6 0.50271 0.03711 13.546 9.28e-08 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1
*** *** *** *** *** *** *** *** *** *** 1
(Dispersion parameter for quasipoisson family taken to be 3.18623) Null deviance: 46695.269 on 20 degrees of freedom Residual deviance: 30.214 on 10 degrees of freedom (15 observations deleted due to missingness) AIC: NA Number of Fisher Scoring iterations: 4
Il y a ici un 2n 1 paramtres estimer, , = (c1 , , cn1 ) et = (r1 , , rn1 ). Compte tenu du choix des facteurs (ici un facteur ligne r et un facteur colonne c), une fois estims ces paramtres, il est possible de
prdire la partie infrieure du triangle trs simplement, i.e.

Yi,j = i,j = exp[ + ri + cj ]
> mu.hat1 <- exp(predict(CL,newdata=data.frame(lig,col)))*futur > cat("Total reserve =", sum(mu.hat1)) Total reserve = 2426.985 > mu.hat2 = predict(CL,newdata=data.frame(lig,col),type="response")*futur

> cat("Total reserve =", sum(mu.hat2)) Total reserve = 2426.985
On retrouve ici l'estimateur obtenu par la mthode Chain-Ladder. La valeur de rfrence est la valeur dans le coin suprieur gauche. Compte tenu de la forme logarithmique du modle, on a une interprtation simple de toutes les valeurs, relativement cette premire valeur
E(Yi,j |Fn ) = E(Y0,0 |Fn ) exp[ri + cj ].
Remarque 2.1 Dans certains triangle, il n'est pas rare d'avoir des
ments ngatifs
incr-
2.4.4 Incertitude dans un modle de rgression

cel-00550583, version 1 - 28 Dec 2010
Nous avions not auparavant qu'obtenir une estimation du montant de sinistres restant payer ne susait pas, et qu'il fallait avoir un intervalle de conance, au au moins une mesure de la dispersion du vrai montant autour de cette valeur prdite.
Les formules conomtriques fermes

Les modles de rgressions pourraient paratre trs intressants car il existe des formules ferms pour toutes sortes de prdiction. Par exemple, dans une rgression GLM avec un lien logarithmique, rappelons que
E(Yi,j |Fn ) = i,j = exp[i,j ]

ou encore
Yi,j = i,j = exp[i,j ].

La
delta method nous permet d'crire que

Var(Yi,j )
i,j i,j
Var(i,j ),
ce qui se simplie dans le cas o le lien est logarithmique, i.e.
i,j = i,j i,j

Aussi, pour une loi de Poisson surdisperse (comme dans [28]),
E [Yi,j Yi,j ]2 i,j + 2 i,j Var(i,j )

pour la partie infrieure du triangle. De plus, car il sera ncessaire de sommer tous les termes de la partie infrieure du triangle pour dterminer le montant total de provisions, Cov(Yi,j , Yk,l )
i,j k,l Cov(i,j , k,l ).
88

R=
i+j>n i+j>n Yi,j , alors
Le montant de provision que lon cherche estimer tant la somme des prdictions de paiements venir,
i,j + Var( )
E [R R]2
Remarque 2.2 Cette formule est malheureusement asymptotique, ce qui est

rarement le cas en provisionnement o l'on dispose de trs peu de donnes.
les valeurs manquantes. Pour programmer cette formule, il faut carter (un peu articiellement)
cel-00550583, version 1 - 28 Dec 2010
> Y2 <- Y; Y2[is.na(Y)] <- .001 > CL2 <- glm(Y2~lig+col, family=quasipoisson) > p <- 2*an-1; > phi.P <- sum(residuals(CL,"pearson")^2)/(np-p) > Sig <- vcov(CL) > X <- model.matrix(CL2) > Cov.eta <- X%*%Sig%*%t(X) > mu.hat <- exp(predict(CL,newdata=data.frame(lig,col)))*futur > pe2 <- phi.P * sum(mu.hat) + t(mu.hat) %*% Cov.eta %*% mu.hat > cat("Total reserve =", sum(mu.hat), "mse =", sqrt(pe2),"\n") Total reserve = 2426.985 mse = 131.7726
Les mthodes de simulations

Les mthodes de simulation sont une bonne alternative si on dispose de trop peu de donnes pour invoquer des thormes asymptotiques. Rappelons, comme le notait [20] qu'il existe 2 sources d'incertitude, l'erreur de modle (on parle de
process error) l'erreur d'estimation (on parle de variance error)
Il sera alors ncessaire d'utiliser deux algorithmes pour quantier ces deux erreurs. An de quatier l'erreur d'estimation, il est naturel de simuler des faux triangles (suprieurs), puis de regarder la distribution des estimateurs de montant de provisions obtenus pour chaque triangles (par exemple par la mthode Chain Ladder, l'aide de la fonction paravant). A l'tape
chainladder
dveloppe au-
b,
on gnre un pseudo triangle l'aide des rsidus de
Pearson. Rappelons que pour une rgression de Poisson,
i,j =
Yi,j mi,j . mi,j
En simulant des erreurs (qui sont supposes indpendantes et identiquement distribue),
b = ( b i,j ),
on pose alors
b Yi,j = mi,j +
mi,j b i,j .

Pour gnrer des erreurs, la mthode la plus usuelle est d'utiliser une simulation nonparamtrique, c'est dire que l'on va bootstrapper les rsidus parmi les pseudorsidus obtenus. Sinon il est aussi possible d'utiliser un modle paramtrique (par exemple supposer une loi normale, mme si rien thoriquement ne justie cette mthode). La distribution des rsidus peut tre obtenue par le code suivant :
cel-00550583, version 1 - 28 Dec 2010
> > > > > > > > > > > >
CL <- glm(Y~lig+col, family=quasipoisson) residus=residuals(CL,type="pearson") par(mfrow = c(1, 2)) hist(residus,breaks=seq(-3,5,by=.5),col="light green",proba=TRUE) u=seq(-4,5,by=.01) densite=density(residus) lines(densite,col="blue",lwd=1.5) lines(u,dnorm(u,mean(residus),sd(residus)),lty=2,col="red") plot(ecdf(residus)) lines(u,pnorm(u,mean(residus),sd(residus)),lty=2,col="red") Femp=cumsum(densite$y)/sum(densite$y) lines(densite$x,Femp,,col="blue",lwd=1.5)
Densit
1.0
Fonction de rpartition
q q
0.5
q q
0.8
q q q q
0.4
0.6
q q q q
0.3
0.4
q q q q
0.2
0.1
0.2
q q q q q
0.0
0 Rsidus
0.0
0 Rsidus
Figure 2.7 Histogramme et densit des rsidus ( gauche) et fonctions de

rpartition ( droite), avec l'ajustement Gaussien en pointills.
Les triangles obtenus peuvent tre visualiss sur la gure 2.4.4 Une fois simul un pseudo triangle d'incrments de paiments, on prdit un montant de provision
Rb
(par exemple via une mthode Chain Ladder).
b La variance des R correspond l'erreur d'estimation.
90

0 0 1 2 3 4 5 0.948 0.024 0.116 -1.082 0.130 0.000 1 -1.128 0.277 0.056 0.891 -0.211 2 -1.533 -2.213 -1.024 4.237 3 -0.489 0.792 -0.297 4 -0.427 0.414 5 0.000
1/2 Table 2.8 Le triangle des rsidus de Pearson, i,j = [Yi,j i,j ]. i,j
An de prendre en compte l'erreur de modle, plusieurs mthodes peuvent tre utilises. La premire, et la plus simple, consiste noter qu' partir du pseudo triangle frieure,
cel-00550583, version 1 - 28 Dec 2010
b , peut obtenir des prdictions pour la partie inYi,j
b . Compte tenu du modle Poissonnien, on peut alors simuler une Yi,j b trajectoire possible d'incrments de paiements en simulant les Yi,j l'aide b de loi de Poisson de paramtre Yi,j . Le code est alors le suivant
> CLsimul1=function(triangle){ + triangles=rpoisson(length(triangle),lambda=triangle) + return(sum(ULT-DIAG)) }

La seconde mthode est d'utiliser une relecture du modle de pose par dveloppement mique [20], pro-
[8]. A partir du pseudo triangle, on va utiliser les facteurs de
et les variances associs
2 j
obtenus sur le triangle initial.
On prolonge alors le triangle dans la partie infrience via le modle dyna-
b b b 2 b Ci,j +1 |Ci,j N (j Ci,j , j Ci,j ).

Le code est alors le suivant, o
muls, l
> + + + + + + + + +
triangle
est un triangle de paiements
correspond un vecteur de facteurs de dveloppement, et
cu-
un
vecteur de volatilits,
CLsimul2=function(triangle,l,s){ m=nrow(triangle) for(i in 2:m){ triangle[(m-i+2):m,i]=rnorm(i-1, mean=triangle[(m-i+2):m,i-1]*l[i-1], sd=sqrt(triangle[(m-i+2):m,i-1])*s[i-1]) } ULT=triangle[,m] DIAG=diag(triangle[,m:1]) return(sum(ULT-DIAG)) }

2.4.5 Le modle binomial-ngative
Ce modle a t propos par [31]. On suppose ici que
E(Xi,j |Fj 1 ) = [j 1 1] Ci,j 1

Var(Xi,j |Fj 1 )
= j 1 [j 1 1] Ci,j 1
Pour rappels, la rgression binomiale ngative se fait l'aide de la fonc-
glm.nb de library(MASS), ou l'option model = "negbin" dans la fonction Zelig.

tion
2.4.6 Quel modle de rgression ?

Comme nous l'avons mentionn dans le premier chapitre, deux para-
cel-00550583, version 1 - 28 Dec 2010
mtres fondamentaux interviennent dans une rgression linaire gnralise, la
fonction lien,
ou la
qui
lie
la
prdiction
aux
facteurs,
ici
Yi,j
E(Yi,j |Fn ) = exp[ + i + j ],

la
loi
fonction variance,
qui donne la forme de l'intervalle de
conance, ici Var(Yi,j |Fn )
= E(Yi,j |Fn ),
L'unique motivation du modle prcdent est qu'il permet d'obtenir exactement le mme montant que la mthode Chain Ladder. Mais aucun critre statistique n'a t voqu, pour l'instant, an de lgitimer ce modle. Les modles Tweedie sont une famille de Poissonnien. On suppose que la
surmodle,
incluant le modle
fonction lien,
est une fonction puissance, ou plutt une tranforme o
de Box-Cox, avec le cas la
fonction variance, qui donne la forme de l'intervalle de conance, ici

1 d'une loi Tweedie de paramtre
1 Yi,j = g [ + i + j ] limite g0 (x) = log(x).
g (x) = 1 [x 1]
si
>0
Var(Yi,j |Fn ) o les paramtres La densit
= E(Yi,j |Fn ) et sont inconnus.
mu
est ici
> + + + + + + + + + +
ftweedie = function(y,p,mu,phi){ if(p==2){f = dgamma(y, 1/phi, 1/(phi*mu))} else if(p==1){f = dpois(y/phi, mu/phi)} else {lambda = mu^(2-p)/phi /(2-p) if(y==0){ f = exp(-lambda)} else { alpha = (2-p)/(p-1) beta = 1 / (phi * (p-1) * mu^(p-1)) k = max(10, ceiling(lambda + 7*sqrt(lambda))) f = sum(dpois(1:k,lambda) * dgamma(y,alpha*(1:k),beta)) }} return(f)}
1. o le terme
densit s'entend au sens large, savoir une probabilit dans le cas discret.
92

An de juger de la pertinance de l'ajustement, on peut calculer la log-
vraisemblance du modle, en gardant un lien logarithmique par exemple (ce qui est parfois plus simple au niveau numrique, mais aussi au niveau de l'interprtation),
cel-00550583, version 1 - 28 Dec 2010
> + + + + + + + + + +
2
pltweedie <- function(puissance){ regt = glm(Y~lig+col, tweedie(puissance,0)) reserve = sum(fitted.values(regt)[!passe]) dev = deviance(regt) phi.hat = dev/n mu = fitted.values(regt)[passe] hat.logL = 0 for (k in 1:length(Y)){ hat.logL <- hat.logL + log(ftweedie(Y[k], puissance, mu[k], phi.hat)) } cat("Puissance =", round(puissance,3), "phi =", round(phi.hat,2), "Reserve (tot) =", round(reserve), "logL =", round(hat.logL,3),"\n") }
Si on calcule la log-vraisemblance pour
valeurs, comprises entre
et
(correspondant respectivement au cas d'une rgression Poisson et une r-
gression Gamma), on obtient
> library(statmod) > for(puissance in c(1,1.25,1.5,1.75,2)){pltweedie(puissance)} Puissance = 1 phi = 166.95 Reserve (tot) = 1345 logL = -Inf Puissance = 1.25 phi = 42.92 Reserve (tot) = 1216 logL = -151.72 Puissance = 1.5 phi = 15.8 Reserve (tot) = 996 logL = -145.232 Puissance = 1.75 phi = 9.02 Reserve (tot) = 609 logL = -153.997 Puissance = 2 phi = 6.78 Reserve (tot) = 125 logL = -170.614
La Figure 2.8 permet de visualiser l'inuence du paramtre de la puissance de la fonction variance. La Figure montre aussi l'volution du montant de provision
R, 1
et
Si l'on souhaite garder un lien logarithmique, le paramtre le plus vraisemblance pour la fonction variance est entre
2, = 1.38,
> optimize(pltweedie, c(1.01,1.99), tol=1e-4,maximum = TRUE) Puissance = 1.384 phi = 23.78 Reserve (tot) = 1114 logL = -144.902
2.5 Les triangles multivaris

Comme nous l'avions expliqu dans l'introduction, l'utilisation des triangles, et des mthodes de cadences de paiements, n'est possible que si les triangles sont stables, et homognes. Or il n'est pas rare qu'un triangle comporte des risques relativement dirents dans leur dveloppement. Par exemple en assurance auto, les accidents matriels et corporels sont sensiblement dirents.
2.5. LES TRIANGLES MULTIVARIS
93
1.0
1.2
1.4
1.6
1.8
2.0
cel-00550583, version 1 - 28 Dec 2010
puissance de la x fonction variance
Figure 2.8 volution de la log-vraisemblance prole en fonction de et

montant de provision
estim par GLM (avec un lien logarithmique).
2.5.1 Hypohtse d'indpendance entre les triangles, et lois paramtriques

En s'insiprant de l'ide de [20], on peut supposer que
Ri
suive une loi
2 ) pour LN (i , i
i = 1, 2. Si l'on suppose les risques indpendant, la loi de la
somme est simplement la convole des deux lois. On peut utiliser les familles de distribution au format
S4
et la
library(distr).
Rappelons que pour si
LN (, 2 ), = log[E(X )] 1 Var(X ) log 1 + 2 E(X )2

et
2 = log 1 +
Var(X )
E(X )2
A partir des moyennes et variances - donnes par la mthode de que les deux triangles sont
[20] par
exemple - on en dduit les lois des deux montants de provision. Si on suppose
indpendants, alors
> library(distr) > V=MackChainLadder(P.mat)$Total.Mack.S.E^2 > E=sum(MackChainLadder(P.mat)$FullTriangle[,n]+-diag(MackChainLadder(P.mat)$FullTriangle[n:1,])) > mu = log(E) - .5*log(1+V^2/E^2) > sigma2 = log(1+V^2/E^2) > LM = Lnorm(meanlog=mu,sdlog=sqrt(sigma2)) > V=MackChainLadder(P.corp)$Total.Mack.S.E^2 > E=sum(MackChainLadder(P.corp)$FullTriangle[,n]-
500 450 400 350 300 250 200 150 logvraisemblance
200
400
Montant de provisions 600 800 1000
1200
94

diag(MackChainLadder(P.corp)$FullTriangle[n:1,])) mu = log(E) - .5*log(1+V^2/E^2) sigma2 = log(1+V^2/E^2) LC = Lnorm(meanlog=mu,sdlog=sqrt(sigma2)) LT=LM+LC
+ > > > >
On peut alors comparer la loi convole, et la loi lognormale ajuste sur le triangle cumul,
cel-00550583, version 1 - 28 Dec 2010
> > > > + > > > > > > >
P.tot = P.mat + P.corp library(ChainLadder) V=MackChainLadder(P.tot)$Total.Mack.S.E E=sum(MackChainLadder(P.tot)$FullTriangle[,n]diag(MackChainLadder(P.tot)$FullTriangle[n:1,])) mu = log(E) - .5*log(1+V^2/E^2) sigma2 = log(1+V^2/E^2) u=seq(0,qlnorm(.95,mu,sqrt(sigma2)),length=1000) vtotal=dlnorm(u,mu,sqrt(sigma2)) vconvol=d(LT)(u) plot(u,vtotal) lines(u, vconvol)
1.5e05
Loi lognormale sur le triangle cumul Convolution des lois lognormales
0.0e+00
5.0e06
1.0e05
250000
300000
350000
400000
450000
500000
550000
Montant de provision, total
Figure 2.9 Distribution du montant de provision R = R1 + R2 .

Les quantiles 95% sont alors respectivement
> cat("Quantile convole =",q(LT)(.95)) Quantile convole = 434615.9
2.5. LES TRIANGLES MULTIVARIS

> cat("Quantile lognormal =",qlnorm(.95,mu,sqrt(sigma2))) Quantile lognormal = 467686.8
95
pour la loi convole et pour la somme des deux triangles. Deux interprtations sont alors possibles : supposer les triangles comme tant indpendants est probablement une hypothse trop forte et travailler sur un triangle agrg (et donc peu homogne) introduit une incertitude supplmentaire.
2.5.2 Le modle de Mack bivari

[26] a propos une mthode de type Chain-Ladder dans un cadre multivari. On note
cel-00550583, version 1 - 28 Dec 2010
i,j = (i,j )
et
(k)
i,j =
(k)
Ci,j
(k)
(k)
Ci,j 1 j = RK
C i,j = (Ci,j ) RK
(k )
On suppose qu'il existe
E[C i,j |C i,j 1 ] = (j 1 ) C i,j 1

et Cov[C i,j , C i,j |C i,j 1 ]
= ( C j 1 ) j 1 ( C j 1 )
Alors sous ces hypothses, comme dans le cas univari, on peut crire
n1
E[C i,n |C i,ni ] =

j =ni
L'estimateur du facteur de transition est
(j )C i,ni .
nj 1
j =
i=0
1 ( i,j ) j ( i,j )
nj 1
i=0
1 ( i,j ) j ( i,j )i,j +1
L'estimateur Chain-Ladder de la charge ultime est
n1
C i,n =
j =ni
(j )C i,ni .
Cet estimateur vrie les mmes proprits que dans le cas univari. En particulier, cet estimateur est un estimateur sans biais de mais aussi de
E[C i,n |C i,ni ]
E[C i,n ].
Il est aussi possible de calculer les mse de prdiction.
96

L'ide dans les modles conomtriques est de supposer que les
2.5.3 Modles conomtriques pour des risques multiples

rsidus
peuvent tre corrls,
cel-00550583, version 1 - 28 Dec 2010
> > > > > > > > > > > > > > > > > >
ligne = rep(1:n, each=n); colonne = rep(1:n, n) passe = (ligne + colonne - 1)<= n PAID=P.corp; INC=PAID INC[,2:n]=PAID[,2:n]-PAID[,1:(n-1)] I.corp = INC PAID=P.mat; INC=PAID INC[,2:n]=PAID[,2:n]-PAID[,1:(n-1)] I.mat = INC Ym = as.vector(I.mat) Yc = as.vector(I.corp) lig = as.factor(ligne) col = as.factor(colonne) base = data.frame(Ym,Yc,col,lig) regm=glm(Ym~col+lig,data=base,family="poisson") regc=glm(Yc~col+lig,data=base,family="poisson") res.corp=residuals(regc,type="pearson") res.mat=residuals(regm,type="pearson") plot(res.corp,res.mat)
rsidus de Pearson, sinistres matriel
40
60
20
q q
q q q q q q q q q q q q qq q q q q q q q q q q q q
q q
q qq q
q q q
20
q q
60
40
20
20
40
rsidus de Pearson, sinistres corporels
Figure 2.10 Nuage de points de rsidus de Pearson, obtenus sur un modle

log-Poisson,
(matriel , corporel ). i,j i,j
2.6. BORHUTTER-FERGUSSON, BENKTANDER ET LES MTHODES BAYSIENNES97

On notera que la corrlation n'est pas nulle.
> cat("Corrlation des rsidus =",cor(res.mat,res.corp)) Corrlation des rsidus = 0.2957895

Une fois note qu'il existe probablement une dpendance entre les deux triangles, il semble lgitime de la prendre en compte dans les algorithmes de simulations voqus dans la partie 2.4.4. pour l'erreur d'estimation, quand on tire les rsidus, on ne les tire pas indpendement dans les deux triangles. On tire alors les rsidus pour utilise
(i,j
une
matriel,b
, i,j
corporel
peut
paires de
si on dans
, b)
tirer une loi de Poisson bivarie bivarie (implmente
l'erreur,
on
rgression
Poissonnienne
library()bivpois
ou un vecteur Gaussien bivari.
cel-00550583, version 1 - 28 Dec 2010
Dans le second cas,
matriel Ci,j +1 corporel Ci,j +1
matriel m j Ci,j corporel c j Ci,j
m2 C matriel j i,j
c2 C corporel j i,j
2.6 Borhutter-Fergusson, Benktander et les mthodes baysiennes

Les deux premires mthodes que nous allons voir ont souvent t proposes comme une alternative la mthode Chain Ladder, car elles introduisent un
a priori sur la charge ultime.
2.6.1 Le modle de Borhutter-Ferguson et l'introduction d'un avis d'expert

Classiquement, on continue ici supposer que les annes de survenance sont indpendantes les unes des autres il existe
et des facteurs de dveloppement
1 , 2 , , n
- avec
n =
- tels que
E(Ci,1 ) = 1 i E(Ci,j +k |Ci,1 , , Ci,j ) = Ci,j + [j +k j ]i

Sous ces hypothses, pour tout
i, j E(Ci,j ) = j i .
Ce qui peut rappeler les
= (1 , 2 , , n ) sera estimer statistiquement, = i tant obtenu par avis d'expert, i tant un estimateur de E(Ci,n ). Moyennant ces deux estimations, on en dduit l'estimateur de E(Ci,n |Ci,1 , , Ci,j ) de la forme
modles facteurs voqus auparavant. Sauf qu'ici, seul
Ci,n = Ci,j + [1 j i ]i
98

L'estimateur propos par Bornhutter-Ferguson est alors simplement ob-
tenu partir de la mthode Chain-Ladder, en posant
j =
k=j +1
Enn, pour estimer
1 k
i , on suppose disposer d'un ratio sinistre/prime cible, par exemple de 105%, par anne de survenance. Dans ces conditions, on peut
alors estimer simplement le montant de provision,
cel-00550583, version 1 - 28 Dec 2010
> mu <- 1.05*PREMIUM > beta <- rev(cumprod(rev(1/LAMBDA))) > Cdiag = diag(PAID[,n:1]) > Cultime <- Cdiag+(1-c(1,rev(beta)))*mu > cat("Total reserve =",Cultime-Cdiag) Total reserve = 0.00 23.12 33.49 58.98
i prime 0 4591 4821 1,380 0,708 4456 0 1 4692 4927 1,011 0,978 4753 23 2 4863 5106 1,004 0,989 5453 33 3 5175 5434 1,002 0,993 6079 59 4 5673 5957 1,005 0,995 6925 131
131.26 1970.45
5 6431 6753
i i i Ci,n Ri
7187 1970
Table 2.9 Estimation du montant de provision par Borhutter-Ferguson,

avec un ratio sinistres/primes de
105%.
2.6.2 Benktander
L'estimateur de sur un estimateur telle que
a priori
[3], repris quelques annes plus tard par de la charge ultime
[14], repose
galement qu'il existe une cadence de paiemments
Ci,n , not i . On suppose = (1 , , n ), connue,
E(Ci,j ) = i j
Sous ces hypothses, le montant de provision devrait tre
Ri = Ci,n Ci,ni = [1 ni ]i
Au lieu de se baser uniquement sur
i ,
[3] avait propos un estimateur
crdibilis de la charge ultime, de la forme
CL ni Ci,n + [1 ni ]i

Il s'agit d'utiliser l'estimateur Chain-Ladder, moyenn avec l'estimation a priori de la charge ultime. Alors
CL BH + [1 ni ]i = Ci,n Ci,ni = [1 ni ] ni Ci,n Ri

On notera que
BH Ri = (1 ni )CiBF
est construite partir des facteurs de dve-
si la cadence
= (1 , , n )
loppement induits par la mthode Chain-Ladder. Une autre criture de cette expression est d'crire la charge ultime (et non plus le montant de provision),
CiBH = Ci,ni + (1 ni )CiBF = ni CiCL + (1 ni )CiBF

ce qui permet de voir la prdiction de Benktander comme une combinaison convexe des estimateurs Chain-Ladder et de Bornhuetter-Ferguson.
cel-00550583, version 1 - 28 Dec 2010
2.6.3 La mthode dite Cape-Code

Dans cette approche, on utilise l encore un avis d'expert. L'ide est de rcrire l'expression
Ci,n = Ci,ni + 1
sous la forme
Ci,ni Ci,n
Ci,n
Ci,n = Ci,ni + 1
o
Ci,ni Ci,n
LRi Pi ,
LRi
correspond au
la mthode dite
loss ratio pour l'anne i, i.e. LRi = Ci,n /Pi . L'ide de Cape-Code est d'crire une forme plus gnrale,
Ci,n = Ci,ni + (1 ni ) LRi Pi
ni
correspond une cadence de paiement, et peut tre estim par
la mthode Chain Ladder. Quant aux
LRi
il s'agit des
loss ratio
cibles,
correspondant un avis d'expert. On peut aussi proposer un mme ratio cible pour plusieurs annes de survenance. On posera alors
Ri = Ci,n Ci,ni = (1 ni )LRA Pi .

pour
i A,
LRA =
kA Cn,nk kA nk Pk
. i
partir de la mthode
Dans un premier temps, on peut calculer les Chain Ladder, i.e.
ni =
Ci,ni Ci,n
o la charge ultime est celle prdite pas la mthode Chain-Ladder.
100
> (PI <- 1-Cdiag/Cultime) [1] 0.000000 0.004713 0.006559 0.010855 0.022036 0.291809 > LR=TRIANGLE[,6]/PREMIUM > Cdiag <- diag(PAID[,n:1]) > Cultime <- TRIANGLE[,6] > cat("Coef. PI =", (Cultime-Cdiag)/(LR*PREMIUM)) Coef. PI = 0.00000 0.00471 0.00656 0.01085 0.02204 0.29181
Si on suppose ensuite que
A = {1, 2, , n},
alors
> LR=sum(TRIANGLE[,6])/sum(PREMIUM) > cat("Total reserve =", PI*LR*PREMIUM) Total reserve = 0.0000 24.5832 35.6120
62.7199
139.5729 2095.2682
cel-00550583, version 1 - 28 Dec 2010
On obtient ici un montant de provision total infrieur celui obtenu par la mthode Chain Ladder puisque
sum(R)
vaut ici
2357.756.
2.6.4 Les approches Baysiennes

Les approches Baysiennes ont t popularises en sciences actuarielles par la thorie de la crdibilit, correspondant une approche Baysienne dans un cadre linaire. Mais il est possible d'aller plus loin. Classiquement, supposons que l'on s'intresse dont la loi serait o trs gnralement,
f (| ),
= (Yi,j )
et
= (i,j ).
peut tre ici le triangle des
paiements cumuls , le triangle des incrments , ou le triangle des coecients de transition des cadences de paiements
=i,j +1 /i,j .
2 ). Exemple 2.1 Dans l'approche de [20], j = (j , j
Application aux cadences de paiements

2 ), , qui dpendra de = ( j ) o j = (j , j o, pour des simplicits de notations (et viter de confondre avec les i,j ) on note j le facteur de dveloppement sous-jacent.
Ici, on s'intresse la loi de
2 i,j |(j , j )
j ,
2 j Ci,j
Ici,
ne sont pas les paramtres d'intrt, et sont supposs estims spa-
rment (comme nous le faisions dj dans les modles linaires gnraliss). Quant aux
Ci,j ,
ils sont interprts ici comme des poids, et sont supposs
connus. La log-vraisemblance est ici
log L(| ) =
i,j
1 2
log
Ci,j 1 Ci,j 1 2 2 2 [i,j j ] j j

En utilisant la formule de Bayes, la log-densit de simplement
conditionnelle aux
est
log[g ( |)] = log[ ( )] + log[L(| )] + constante,

o
()
est une loi
a priori de
(par exemple un vecteur Gaussien).
L'algorithme de Gibbs et gnralisations

On cherche ici gnrer un ensemble de vecteurs alatoires
(1 , , m )
Rm . Contrairement aux mthodes de Monte Carlo o l'on
cherche gnrer des vecteurs indpendants les uns des autres, on va essayer de construire une suite de manire rcurente, vriant des proprits d'ergodicit.
cel-00550583, version 1 - 28 Dec 2010
On part d'un vecteur initial itre
(0) = (1 , , m ),
(k)
(0)
(0)
par exemple les va-
leurs obtenues par la mthode Chain Ladder puis on gnre, de manire
(k+1) 1 (k+1) 2 (k+1) 3 . . . (k+1) m1 (k+1) m
f (|2 , , m , ) (k+1) (k) (k ) f (|1 , 3 , , m , ) (k+1) (k+1) (k) (k) f (|1 , 2 , 4 , , m , ) f (|1 , 2 , m2 , m , ) (k+1) (k+1) (k+1) f (|1 , 2 , , m1 , )
(k+1) (k+1) (k+1) (k )
(k)
Ces lois conditionnelles n'ayant pas forcment de forme simple, l'algorithme de La ler ces direntes lois conditionnelle.
metropolis (d'acceptation-rejet) peut alors tre utiliser pour simuf,

qu'on ne sait pour tout
mthode de rejet est bas sur l'ide suivante

g
qui vrie
on souhaite tirer (indpendemment) suivant une loi pas simuler on sait simuler suivant une loi
f (x) M g (x),
x,
peut tre calcule.
L'agorithme pour tirer suivant rpter
est alors le suivant

tirer tirer
Y U
selon la loi
g [0, 1],
indpendamment de
selon la loi uniforme sur
Y,
f (Y ) . tant que U > M g (Y ) poser X = Y .
Exemple 2.1 On peut utiliser cette technique pour simuler une loi normale
partir d'une loi de Laplace (qui est une variable exponentielle avec un signe positif ou ngatif), de densit g (x) = 0.5 exp(|x|), avec M = 2e 1 . Mais cet algorithme est trs coteux en temps s'il y a beaucoup de rejets,
102
comme le montre le code suivant : ici, on note que l'on perd prs du quart des simulations.
> n=1000 > Y=rexp(n)* sample(c(-1,1),size=n,replace=TRUE) > U=runif(n) > dlaplace=function(x){.5*exp(-abs(x))} > M=sqrt(2*exp(1)/pi) > test=U<dnorm(Y)/(M*dlaplace(Y)) > mean(test) [1] 0.761 > X=Y[test==TRUE] > plot(density(X)) > curve(dnorm(x),add=TRUE,col="red",lty=2,xlab="")
cel-00550583, version 1 - 28 Dec 2010
Figure 2.11 Simulation d'une variable Gaussienne par une mthode de

rejet base sur une loi de Laplace.
adaptative rejection sampling est une extension de cet algorithme, condition d'avoir une densit log-concave. On parle aussi de mthode des cordes. On majore localement la fonction log f par des fonctions linaires,
L' autrement dit, on construit alors une enveloppe par une fonction le montre la gure 2.12 Formellement, on construit
log f . On majore alors f gn constitues de n fonctions linaires par morceaux, comme Li,j (x)
la droite reliant les points
(xi , log(f (xi )))
et
(xj , log(f (xj ))).
On pose alors
hn (x) = min {Li1,i (x), Li+1,i+2 (x)} ,

qui dnie alors une enveloppe de
log(f ) (par concavit de log(f ). On utilise
alors un algorithme de rejet avec comme fonction de rfrence
gn (x) =
exp(hn (x)) exp(hn (t))dt
normalise pour dnir une densit.
L'algorithme est alors le mme que prcdemment, savoir rprer

tirer tirer
Y U
selon la loi
gn [0, 1],
indpendamment de
Y,
f (Y ) tant que U > . exp(hn (Y )) poser X = Y .
q
5
q q
15
10
q
20
cel-00550583, version 1 - 28 Dec 2010
Figure 2.12 Majoration d'une log-densit par des fonctions linaires par
morceaux.
Enn, dans le cas des densits non log-concave, il est possible de rajouter une tape. En eet, dans la construction prcdente, la fonction toujours un majorant, mais ce n'est plus forcment une enveloppe de Il sut alors de rajouter une tape de rejet supplmentaire. Le plus simple est d'implmenter un algorithme de Gibbs, c'est dire crer une suite de variables
hn est log(f ).
X1 , X2 ,
par un processus itratif, Markovien.
Les variables ne sont plus indpendantes, mais en invoquant des rsultats d'ergodicit, les calculs de moyennes, de quantiles, ou de lois marginales restent valides. Supposons que l'on dispose de
Xk1 . Pour tirer Xk , on utilise l'algorithme [0, 1],

indpendamment de
prcdant, et la nouvelle tape de rejet est la suivante tirer
et de
Xk1 ,
si
U > min 1,
f (X ) min{f (Xk1 ), exp(hn (Xk1 ))} f (Xk1 ) min{f (X ), exp(hn (X ))}
alors garder
Xk = Xk1
sinon poser
Xk = X hn
est linaires par morceaux, avec comme
Ces fonctions exponentielles par morceaux sont inressantes car elles sont faciles simuler. La fonction noeuds
Nk ,
de telle sorte que
hn (x) = ak x + bk
pour tout
x [Nk , Nk+1 ].
104

gn (x) = In = exp(hn (x)) In
o
Alors
exp(hn (t))dt =
exp[hn (Nk+1 )] exp[hn (Nk )] . ak
On calcule alors une mthode
Gn , la fonction de rpartition associe gn , et on fait utilise d'inversion pour tirer suivant Gn .
2.6.5 Approche baysienne sur les facteurs de dveloppement

En s'inspirant de la relecture du modle de [20],
b b b 2 b Ci,j +1 |Ci,j N (j Ci,j , j Ci,j ).
cel-00550583, version 1 - 28 Dec 2010
nous pouvons supposer que les facteurs de dveloppements loi lognormale, comme le suggrait [2]. La Figure 2.13 montre la simulation de
i,j
suivent une
1000
valeurs
de montant de
provision, par cette mthode. La srie n'est pas i.i.d. mais elle vrie des proprits d'ergodicit qui autorisent en particulier l'tude de la distribution du montant de provision. Pour implmenter la mthode Baysienne, il faut commencer par dnir la fonction de log-vraisemblance associ au vecteur de facteurs de transition, not ici
g,
> + + + + + +
Log_Ln<-function(g,C=PAID,sigma2=SIGMA^2,f=PAID[,2:n]/PAID[,1:(n-1)]) {s=0 for(i in 1:(n-1)){ for(j in 1:(n-i)){ s<-s+0.5*(log(C[i,j]/sigma2[j])-(C[i,j]/sigma2[j])* (f[i,j]-exp(g[j]))^2)}} return(s)}

Commenons par initialiser les valeurs,
gamma<-log(LAMBDA) Mat_parametres<-gamma parametres<-gamma n_it<-1

On fait alors une boucle dnie par A un chaque
while(n_it <= nb_iteration_gibbs*length(parametres)).
itration de la boucle, on commence par initialiser la valeur chantillonner,
rg_var<-n_it-trunc(n_it/length(parametres))*length(parametres)+1 Xcur<-parametres[rg_var] n_seg<-20

On cre alors la segmentation de l'intervalle,
t1<-colSums(f+C[,1:ncol(C)-1]*matrix(rep(sigma2,nrow(f)),nrow(f),ncol(f), byrow = TRUE)-f,na.rm =TRUE) t2<-(colSums(f+C[,1:ncol(C)-1]-f,na.rm =TRUE))^2 V_gamma<-1/lambda^2*t1/t2 X_inf<-gamma-coef*sqrt(V_gamma) X_sup<-gamma+coef*sqrt(V_gamma) X<-seq(0,n_seg-1) X<-X_inf[rg_var]+X/(n_seg-1)*(X_sup[rg_var]-X_inf[rg_var]) X<-sort(X)
La premire tape importante de l'algorithme est de simuler un vecteur
Xu
partir de
gn,
step1<-FALSE while(step1==FALSE){ lg_vrais<-function(x,rg_var.){ param<-parametres param[rg_var.]<-x Log_Ln(param) } y<-lg_vrais(X[1],rg_var) for(k in 2:n_seg)y<-cbind(y,lg_vrais(X[k],rg_var)) Y<-y[1,] a=(Y[2:n_seg]-Y[1:(n_seg-1)])/(X[2:n_seg]-X[1:(n_seg-1)]) b=Y[1:(n_seg-1)]-a*X[1:(n_seg-1)] X_int=-(b[3:length(b)]-b[1:(length(b)-2)])/(a[3:length(b)]-b[1:(length(b)-2)]) Y_int=a[1:(length(b)-2)]*X_int+b[1:(length(b)-2)] X2=X Y2=Y for (k in 1:length(X_int)){ if(X_int[k]>=X[k+1] & X_int[k]<=X[k+2]) { if(Y_int[k]>=a[k+1]*X_int[k]+b[k+1]){ X2<-c(X2,X_int[k]) Y2<-c(Y2,Y_int[k]) }}} M<-rbind(X2,Y2) M<-M[,order(M[1,])] X2<-M[1,] Y2<-M[2,] a2=(Y2[3:(length(Y2)-1)]-Y2[2:(length(Y2)-2)])/(X2[3:(length(Y2)-1)] -X2[2:(length(Y2)-2)]) b2=Y2[2:(length(Y2)-2)]-a2*X2[2:(length(Y2)-2)] if(Y[1]>=a[2]*X[1]+b[2]){
cel-00550583, version 1 - 28 Dec 2010
106
cel-00550583, version 1 - 28 Dec 2010
a2<-c(a[1],a2) b2<-c(b[1],b2)} else { a2<-c(a[2],a2) b2<-c(b[2],b2)} if(Y[n_seg]>=a[n_seg-2]*X[n_seg]+b[n_seg-2]){ a2<-c(a2,a[n_seg-1]) b2<-c(b2,b[n_seg-1])} else { a2<-c(a2,a[n_seg-2]) b2<-c(b2,b[n_seg-2])} temp<-(exp(Y2[2:length(Y2)])-exp(Y2[1:length(Y2)-1]))/a2 m_n=sum(temp) G_n=rep(0,length(X2)) for(k in 1:length(temp)){ G_n[k+1]<-G_n[k]+temp[k]/m_n} U<-runif(1,0,1) k_Xu<-1 while(G_n[k_Xu+1]<=U) k_Xu<-k_Xu+1 Xu<-1/a2[k_Xu]*(log((U-G_n[k_Xu])*m_n*a2[k_Xu]+exp(Y2[k_Xu]))-b2[k_Xu])
Pour faire un algorithme de rejet, on tire ensuite une loi uniforme
U<-runif(1,0,1), et on peut ensuite lancer la seconde tape de l'algorithme val<-exp(lg_vrais(Xu,rg_var))/exp(a2[k_Xu]*Xu+b2[k_Xu]) lg_vrais(Xu,rg_var) if (U>val){ n_seg<-n_seg+1 X<-c(X,Xu) sort(X)} else{ Xa=Xu step1<-TRUE }}
La troisime tape est l'algorithme d'Hastings-Metropolis, autrement dit on pose
U<-runif(1,0,1),
puis la procdure est la suivante
k_Xcur<-1 while(X2[k_Xcur+1]<=Xcur& k_Xcur+1<=length(X2)) k_Xcur<-k_Xcur+1 k_Xa<-1 while(X2[k_Xa+1]<=Xa & k_Xa+1<=length(X2)) k_Xa<-k_Xa+1 num<-exp(lg_vrais(Xa,rg_var))*min(exp(lg_vrais(Xcur,rg_var)) ,exp(a2[k_Xcur]*Xcur+b2[k_Xcur])) denom<-exp(lg_vrais(Xcur,rg_var))*min(exp(lg_vrais(Xa,rg_var))

,exp(a2[k_Xa]*Xa+b2[k_Xa])) if (U>min(1,num/denom)){ Xm<-Xcur }else{Xm<-Xa} parametres[rg_var]<-Xm if(rg_var==length(parametres)) Mat_parametres<-rbind(Mat_parametres,parametres) n_it<-n_it+1
Ce qui constitue la n de la boucle. On dispose alors d'une matrice de paramtres
Mat_parametres,
que l'on va utiliser pour obtenir un vecteur de
montant de provisions par anne de survenance,
cel-00550583, version 1 - 28 Dec 2010
for (k in 1:nrow(Mat_parametres)){ lambda_hat<-exp(Mat_parametres[k,]) Mat_prov<-C for(l in (n+2):(n+n)){ i_dep<-l-n for (i in i_dep:n){ a<-lambda_hat[l-i-1]^2*Mat_prov[i,l-i-1]/sigma2[l-i-1] s<-sigma2[l-i-1]/lambda_hat[l-i-1] Mat_prov[i,l-i]<-rgamma(1,shape = a,scale = s )} } last<-rep(0,n) for (i in 1:n) last[i]<-Mat_prov[i,n+1-i] Res<-t(Mat_prov[,n])-last if(k==1){Mat_res<-cbind(Res,sum(Res))} if(k>1){Mat_res<-rbind(Mat_res,cbind(Res,sum(Res)))} }
Toute l'information est alors dans le vecteur lations du montant total apparait dans la
Mat_res. Un ensemble de simudernire ligne de Mat_res.
Tout le code prcdant peut tre obtenu l'aide de la commande
source(bayes-triangle). > source(bayes-triangle) > plot(B$reserves[,6]) > abline(h=2426.88) > apply(B$reserves,2,mean) [1] 0.00000 22.46982 35.78285
66.30972 152.50063 2150.45450 2427.51752
La Figure 2.14 montre ainsi la distribution du montant de provision obtenu par cet algorithme, ainsi que les ordres de grandeurs des quantiles
95%, 99%
quantile
et
99.5%.
est relativement robuste, avec 10 000 tirages.
En iterant cette fonction, on peut d'ailleurs noter que l'estimation du
95%
108
reserves (total)
cel-00550583, version 1 - 28 Dec 2010
2200
2300
2400
2500
2600
2700
200
400 iteration
600
800
1000
Figure 2.13 Gnration d'une suite de montants de provisions R.
0.005
1.00
q q
0.004
0.003
0.96
0.98
0.002
0.001
0.000
2100
2200
2300
2400
2500
2600
2700
0.90 2500
0.92
0.94
2550
2600
2650
2700
2750
reserves (total)
reserves (total)
Figure 2.14 Distribution du montants de provisions R, et estimation du

quantile 95%.
cel-00550583, version 1 - 28 Dec 2010
95% ValueatRisk
2500
2520
2540
2560
2580
2600
2000
4000
6000
8000
10000
Figure 2.15 Convergence du quantile 95% du montant de provision.
110
cel-00550583, version 1 - 28 Dec 2010
Bibliographie
[1] R.A. Bailey. [2]
cel-00550583, version 1 - 28 Dec 2010
Society of Actuaries, 50 :411, 1963. N. Balson. Mesure d'incertitude sur l'estimation des provisions de sinistres en Assurance Non Vie. Institut des Actuaires - ENSAE, 2008.
sualty excess reinsurance.
Insurance rates with minimum bias.
Proceedings of the
[3] G. Benktander. An approach to credibility in calculating ibnr for ca-
Actuarial Review, 3 :731, 1976.
[4] S. Christodes. Regression models based on log-incremental payments. In Institute of Actuaries, editor, [5] A.C. Davison and E.J. Snell. Chapman and Hall. [6] P. de Jong and G.H. Zeller.
Claims Reserving Manual, 1989.
Residuals and diagnostics.
D.V. Hinkley and E.J. Snell, editors,
Statistical Theory and Modelling.
In N. Reid
Data.
Generalized Linear Models for Insurance
Cambridge University Press, 2008.
[7] M. Denuit and A. Charpentier.
Mathmatiques de l'assurance non-vie : Tarication et provisionnement. Tome 2. Economica, 2005.

Analytic and bootstrap estimates
[8] P. D. England and R. J. Verrall.
[9]
[10]
Economics, 25 :281293, 1999. E.W. Frees. Regression modeling with actuarial and nancial applications. Cambridge University Press, 2009. J. Friedman. Multivariate additive regression splines. Annals of Statistics, 19(1) :167, 1991. Transactions of the Society of Actuaries Society of Actuaries,
46 :99
of prediction errors in claims reserving.
Insurance : Mathematics and
[11] H.U. Gerber and E.S.W. Shiu. Option pricing by esscher transforms. 191, 1994. [12] C. A. Hachemeister and J. N. Stanard. with static lag functions. In gal, 1975. [13] T. Hastie and R. Tibshirani. and Hall, 1990. 111
12th ASTIN Colloquium, Portimao, PortuGeneralized Additive Models.

Chapman
Ibnr claims count estimation
112
BIBLIOGRAPHIE
ASTIN Colloquium, Loen,
Norway, 1981.
[14] E. Hovinen. Additive and continuous ibnr. In
[15] C. M. Hurvich and C.-L. Tsai.
likelihood models in small samples. [16] J. Jung. 48, 1968.
Biometrics, 51 :10771084, 1995. On automobile insurance ratemaking. ASTIN Bulletin, 5 :41 Modern Actuarial
Model selection for extended quasi-
[17] M. ; Dhaene J. Kaas, R. ; Goovaearts and M. Denuit.
Risk Theory.
Springer Verlag, 2009.
[18] E. Kremer. Ibnr claims and the two-way model of anova.
Actuarial Journal, pages 4755, 1982.

or estimating ibnr claims reserves.
Scandinavian
[19] T. Mack. A simple parametric model for rating automobile insurance
ASTIN Bulletin, 21 :93109, 1991.
cel-00550583, version 1 - 28 Dec 2010
[20] T. Mack. Distribution-free calculation of the standard error of chainladder reserve estimates.
ASTIN Bulletin, 15 :133138, 1993.
[21] T. Mack. The standard error of chain-ladder reserve estimates : Recursive calculation and inclusion of a tail factor. 366, 1993. [22] P. McCullagh and J.A. Nelder. 1991. [23] R.J. McDonald, J.B. Butler. variables.
ASTIN Bulletin, 29 :361

CRC Press,
Generalized Linear Models.
Journal of Econometrics, 43 :227251, 1990.
Regression models for positive random
[24] M. Merz and M. V Wthrich. Modelling the claims development result for solvency purposes.
[25]
[26]
CAS E-Forum, pages 542568, 2008. E. Ohlsson and B. Johansson. Non-life insurance pricing with Generalized Linear Models. Springer Verlag, 2010. C. Prhl and K. D. Schmidt. Multivariate chain-ladder. In ASTIN Colloquium, Zurich, 2005.
a reserving method that reduces the gap between ibnr projections based on paid losses and ibnr projections based on incurred losses.
[27] G. Quarg and T. Mack. Munich chainladder
Variances, 2 :267299, 2004.
[28] A. E. Renshaw and R. J. Verrall. chain-ladder technique. [29] G. Simonet.
British Actuarial Journal, 4 :903923, 1998. Comptabilit des entreprises d'assurance. L'Argus de l'AsAnnals
A stochastic model underlying the
surance, 1998. [30] C.J. Stone. Additive regression and other nonparametric models.
of Statistics, 13(2) :689705, 1985.

and the chain-ladder technique.
[31] R. J. Verrall. An investigation into stochastic claims reserving models
mics, 26 :9199, 2000.
Insurance : Mathematics and Econo-
BIBLIOGRAPHIE
[32] S.N. Wood. Additive regression and other nonparametric models.
113
[33]
[34]
Annals of Statistics, 62(2) :413428, 2000. M. V. Wthrich and M. Merz. Stochastic Claims Reserving Methods in Insurance. Wiley Interscience, 2008. B. Zehnwirth. Interactive claims reserving forecasting system (ICRFS).
Benhar Nominees Pty Ltd. Tarramurra N.S.W., Australia., 1985.
cel-00550583, version 1 - 28 Dec 2010

Tarificationàpriori Provisionnement, Charpentier, 2010

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tarificationàpriori Provisionnement, Charpentier, 2010

Încărcat de

Drepturi de autor:

Formate disponibile

1

Statistique de l'assurance, STT 6705V Statistique de l'assurance II

cel-00550583, version 1 - 28 Dec 2010

partie 1 - assurance non-vie tarication & provisionnement

cel-00550583, version 1 - 28 Dec 2010

Table des matires

cel-00550583, version 1 - 28 Dec 2010

1.1.2 1.1.3 1.1.4 1.1.5 1.1.6 1.1.7 1.1.8 1.2

Extension d'autres familles de lois

Prise en compte de l'exposition et variable oset

Prise en compte de la surdispersion . . . . . . . . . . . Les modles

Rgression simple versus rgression multiple . . . . . . Prdiction de la frquence par police . . . . . . . . . . . . . . . . . . . .

Modliser les cots individuels des sinistres 1.4.1 1.4.2 1.4.3

Modle Gamma et modle lognormal . . . . . . . . . . Modlisation des grands sinistres . . . . . . . . . . . .

Ecrtement des grands sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Modliser les cots par police 1.5.1

Les modles Tweedie comme modle Poisson compos

2 Les provisions pour sinistres payer

TABLE DES MATIRES

cel-00550583, version 1 - 28 Dec 2010

Borhutter-Fergusson, Benktander et les mthodes baysiennes 2.6.1

cel-00550583, version 1 - 28 Dec 2010

frquence est le nombre de sinistres divis par l'exposition (correspon-

Classiquement (et ce point sera important pour constituer la base de donnes)

est alors le nombre de sinistres en excluant les sinistres

classs sans suite (i.e. de cot nul). La prime pure est

E(S ) = E(N ) E(Yi )

ds lors que les cots individuels

la prime pure devrait tre :

E(S |) = E(N |) E(Yi |).

CHAPITRE 1. LA TARIFICATION A PRIORI

tant inconnu, on utilise les variables tarifaires un ensemble de variables explicatives

Le facteur d'htrognit On cherche alors telles que

notre disposition pour obtenir un proxi de ces esprances conditionnelles.

E(S |X ) = E(N |X ) E(Yi |X ).

cel-00550583, version 1 - 28 Dec 2010

contient, par police, le nombre de sinistres en respon-

1.1. LES MODLES LINAIRES GNRALISS

est la densit de population dans la commune o habite le

conducteur principal, : zone A B C D E ou F, selon la densit en nombre d'habitants par km

: ge du vhicule en dbut de priode.

cel-00550583, version 1 - 28 Dec 2010

Nous disposons aussi d'un numro de police du conducteur et du vhicule.

1.1 Les modles linaires gnraliss

avant de rentrer dans l'application en tarication dans les sections suivantes.

1.1.1 Le cadre gnral des GLM

Exemple 1.1 La loi normale N (, 2 ) appartient cette famille, avec =

Exemple 1.2 La loi de Poisson P () appartient cette famille,

CHAPITRE 1. LA TARIFICATION A PRIORI

avec = log , = 1, b() = exp = et c(y, ) = log y !.

Exemple 1.3 La loi binomiale B(n, p) correspond au cas = log{p/(1 p)},

Exemple 1.4 La loi Gamma est galement dans la famille exponentielle,

avec = , b() = log() et = 1 .

dont la densit est de la forme exponen-

apparat comme le produit de deux fonc-

b () , qui dpend uniquement du paramtre

 la seconde est indpendante de En notant

on voit que le paramtre

fonction variance peut donc tre dnie en fonction de dornavant

Exemple 1.5 Dans le cas de la loi normale, V () = 1, dans le cas de la loi

fonction de lien canonique,

au paramtre naturel . = b () donc g () = b ()1 .

Le lien canonique est tel que

partie 1 - assurance non-vie tarication & provisionnement

Prise en compte de l'exposition et variable oset

avant de rentrer dans l'application en tarication dans les sections suivantes.

la seconde est indpendante de En notant

fonction variance peut donc tre dnie en fonction de dornavant

1.1.2 Approche conomtrique de la tarication

une variable positive, valeurs dans

Y sachant X tant spcie, on obtient numriquement et par maximisation de la vraisemblance.

Si l'on considre des classes d'ges (dnies