Sunteți pe pagina 1din 113

1

Arthur Charpentier
Universit de Rennes 1 Universit de Montral 2010-2011

Statistique de l'assurance, STT 6705V Statistique de l'assurance II

cel-00550583, version 1 - 28 Dec 2010

partie 1 - assurance non-vie tarication & provisionnement

http ://freakonometrics.blog.free.fr/

cel-00550583, version 1 - 28 Dec 2010

Table des matires


1 La tarication a priori
1.1 Les modles linaires gnraliss . . . . . . . . . . . . . . . . . 1.1.1 Le cadre gnral des GLM . . . . . . . . . . . . . . . . Approche conomtrique de la tarication . . . . . . . Estimation des paramtres . . . . . . . . . . . . . . . . Interprtation d'une rgression . . . . . . . . . . . . . . . . . . . . . . .

5
7 7 9 10 13 16 16 19 23 24 24 26 30 31 34 34 38 40 41 44 47 47 50 50 57 58 60 60

cel-00550583, version 1 - 28 Dec 2010

1.1.2 1.1.3 1.1.4 1.1.5 1.1.6 1.1.7 1.1.8 1.2

Extension d'autres familles de lois

De la qualit d'une rgression . . . . . . . . . . . . . . Les variables tarifaires continues et la nonlinarit Les modles nonlinaires multivaris . .

. . . . . . . . . .

Modliser des variables indicatrices . . . . . . . . . . . . . . . 1.2.1 1.2.2 1.2.3 1.2.4 La rgression logistique ou probit . . . . . . . . . . . . Les arbres de rgression . . . . . . . . . . . . . . . . .

Probabilit d'avoir (au moins) un sinistre dans l'anne Probabilit d'avoir un gros sinistre dans l'anne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3

Modliser la frquence de sinistralit 1.3.1 1.3.2 1.3.3 1.3.4 1.3.5 1.3.6 1.3.7 Un peu d'analyse descriptive La mthode des marges

. . . . . . . . . . . . . . . . . . . .

Prise en compte de l'exposition et variable oset

Prise en compte de la surdispersion . . . . . . . . . . . Les modles

zero-inated .

. . . . . . . . . . . . . . . .

Rgression simple versus rgression multiple . . . . . . Prdiction de la frquence par police . . . . . . . . . . . . . . . . . . . .

1.4

Modliser les cots individuels des sinistres 1.4.1 1.4.2 1.4.3

Modle Gamma et modle lognormal . . . . . . . . . . Modlisation des grands sinistres . . . . . . . . . . . .

Ecrtement des grands sinistres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.5

Modliser les cots par police 1.5.1

Les modles Tweedie comme modle Poisson compos

2 Les provisions pour sinistres payer


2.1 La problmatique du provisionnment . . . . . . . . . . . . . . 3

63
63

TABLE DES MATIRES


2.1.1 2.1.2 2.2 2.3 Quelques dnitions et notations, aspects rglementaires et comptables . . . . . . . . . . . . . . . . . . . . . . . . . . 63 65 66 69 69 70 72 72 73 78 83 83 83 87 91 91 92 93 95 96 97 97 98 99 Formalisation du problme du provisionnement

Les cadences de paiements et la mthode Chain Ladder De Mack Merz & Wthrich 2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 Le formalisme de Mack La notion de Quantier l'incertitude dans une prdiction

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

tail factor

Des estimateurs des paramtres l'incertitude sur le montant des provisions . . . . . . . . . . . . . . . . . . Un mot sur Munich-Chain Ladder . . . . . . . . . . . L'incertitude un an de Merz & Wthrich . . . . . . . Les modles facteurs, un introduction historique Les modles de de Vylder et de Chritophides . .

2.4

Rgression Poissonnienne et approches conomtriques . . . . 2.4.1 2.4.2 2.4.3 2.4.4 2.4.5 2.4.6 . . . . .

cel-00550583, version 1 - 28 Dec 2010

La rgression poissonnienne de Hachemeister & Stanard 85 Incertitude dans un modle de rgression . . . . . . . . Le modle binomial-ngative Quel modle de rgression ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5

Les triangles multivaris . . . . . . . . . . . . . . . . . . . . . 2.5.1 2.5.2 2.5.3 Hypohtse d'indpendance entre les triangles, et lois paramtriques . . . . . . . . . . . . . . . . . . . . . . . Le modle de Mack bivari . . . . . . . . . . . . . . . Modles conomtriques pour des risques multiples . . Le modle de Borhutter-Ferguson et l'introduction d'un avis d'expert 2.6.2 2.6.3 2.6.4 2.6.5 Benktander La mthode dite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.6

Borhutter-Fergusson, Benktander et les mthodes baysiennes 2.6.1

Cape-Code

Les approches Baysiennes . . . . . . . . . . . . . . . . 100 Approche baysienne sur les facteurs de dveloppement 104

Chapitre 1

La tarication a priori
Pour chaque police d'assurance, la prime est fonction de variables dites

cel-00550583, version 1 - 28 Dec 2010

de tarication. Gnralement, on considre  des informations sur l'assur, comme l'ge ou le sexe pour un particulier, ou le secteur d'activit et le nombre de salaris pour une entreprise,  des informations sur le bien assur, comme l'ge du vhicule, la puissance ou la marque en assurance auto, la surface du logement en multirisque habitation, le chire d'aaire de l'entreprise en perte d'exploitation,  des informations gograhiques comme le revenu moyen dans la commune ou le dpartement, la densit de population, etc. La

frquence est le nombre de sinistres divis par l'exposition (correspon-

dant au nombre d'annes police) pour une police d'assurance, ou un groupe de polices d'assurance. La plupart des contrats tant annuels, on ramnera toujours le nombre de sinistres une exposition annuelle lors du calcul de la prime, et on notera d'exposition, on notera par police est alors

N Yi

la variable alatoire associe. Durant la priode les cots des sinistres, c'est dire les indemnits s'il n'y a pas eu de sinistres, ou sinon :

verses par l'assureur l'assur (ou une tierce personne). La charge totale

S=0

S = Y1 + + YN =
i=1

Yi .

Classiquement (et ce point sera important pour constituer la base de donnes)

Yi > 0

et

est alors le nombre de sinistres en excluant les sinistres

classs sans suite (i.e. de cot nul). La prime pure est

E(S ) = E(N ) E(Yi )

ds lors que les cots individuels

sont i.i.d., indpendants du nombre de sinistres. Dans le cas o la frquence et les charges sont htrognes, l'htrognit tant caractrise par une information

la prime pure devrait tre :

E(S |) = E(N |) E(Yi |).


5

CHAPITRE 1. LA TARIFICATION A PRIORI

tant inconnu, on utilise les variables tarifaires un ensemble de variables explicatives

Le facteur d'htrognit On cherche alors telles que

notre disposition pour obtenir un proxi de ces esprances conditionnelles.

X = (X1 , , Xk )

E(S |X ) = E(N |X ) E(Yi |X ).


Pour importer les bases de donnes, on utilise le code suivant (seuls les sinistres de responsabilit civile nous intressent),

sinistreUdM <- read.table("http://perso.univ-rennes1.fr/arthur.charpentier/sinis + header=TRUE,sep=";") > sinistres=sinistreUdM[sinistreUdM$garantie=="1RC",] > contratUdM <- read.table("http://perso.univ-rennes1.fr/arthur.charpentier/contr + header=TRUE,sep=";")

cel-00550583, version 1 - 28 Dec 2010

Pour consituer une base contenant les nombres de sinistres, le code est le suivant :

> > > > > > > > > > 1 2 3 4 5 6 1 2 3 4 5 6

T=table(sinistres$nocontrat) T1=as.numeric(names(T)) T2=as.numeric(T) nombre1 = data.frame(nocontrat=T1,nbre=T2) I = contratUdM$nocontrat%in%T1 T1=contratUdM$nocontrat[I==FALSE] nombre2 = data.frame(nocontrat=T1,nbre=0) nombre=rbind(nombre1,nombre2) base = merge(contratUdM,nombre) head(base) nocontrat exposition zone puissance agevehicule ageconducteur bonus 27 0.87 C 7 0 56 50 115 0.72 D 5 0 45 50 121 0.05 C 6 0 37 55 142 0.90 C 10 10 42 50 155 0.12 C 7 0 59 50 186 0.83 C 5 0 75 50 marque carburant densite region nbre 12 D 93 13 0 12 E 54 13 0 12 D 11 13 0 12 D 93 13 0 12 E 73 13 0 12 E 42 13 0
La base

nombre

contient, par police, le nombre de sinistres en respon-

sabilit civile dclar par l'assur pendant l'anne d'observation. Parmi les variables d'intrt,

1.1. LES MODLES LINAIRES GNRALISS


  

densite zone

est la densit de population dans la commune o habite le

conducteur principal, : zone A B C D E ou F, selon la densit en nombre d'habitants par km

2 de la commune de rsidence
: marque du vhicule selon la table suivante (1 Renault Nis-

marque

san ; 2 Peugeot Citron ; 3 Volkswagen Audi Skoda Seat ; 4 Opel GM ; 5 Ford ; 6 Fiat ; 10 Mercedes Chrysler ; 11 BMW Mini ;12 Autres japonaises et corennes ; 13 Autres europennes ; 14 Autres marques et marques inconnues)   

region
SEE)

: code 2 chires donnant les 22 rgions franaises (code IN: ge du conducteur principal en dbut de la couver-

ageconducteur
ture,

agevehicule

: ge du vhicule en dbut de priode.

cel-00550583, version 1 - 28 Dec 2010

Nous disposons aussi d'un numro de police du conducteur et du vhicule.

no

permettant de fusionner

les deux bases, et donc d'associer la charge d'un sinistre les caractristiques

1.1 Les modles linaires gnraliss


Depuis quelques annes, l'outil principal utilis en tarication est le modle linaire gnralis, dvelopp par assurance est dtaille dans [17], [7], [22], et dont la mise en oeuvre en [6], [25] ou [9]. Dans cette section, nous allons prsenter le cadre des GLM, ainsi que leur mise en oeuvre sous

R,

avant de rentrer dans l'application en tarication dans les sections suivantes.

1.1.1 Le cadre gnral des GLM


Les modles linaires gnraliss sont une gnralisation du modle linaire Gaussien, obtenu en autorisant d'autres lois (conditionnelles) que la loi Gaussienne. Les lois possibles doivent appartenir la famille exponentielle, i.e. dont la densit (ou mesure de probabilit dans le cas discret) s'crit :

f (y |, ) = exp

y b() + c(y, )

Exemple 1.1 La loi normale N (, 2 ) appartient cette famille, avec =


, = 2 , b() = 2 /2 et c(y, ) = 1 2 y2 + log(2 2 ) , y R, 2

Exemple 1.2 La loi de Poisson P () appartient cette famille,


f (y |) = exp() y = exp y log log y ! , y N, y!

CHAPITRE 1. LA TARIFICATION A PRIORI

avec = log , = 1, b() = exp = et c(y, ) = log y !.

Exemple 1.3 La loi binomiale B(n, p) correspond au cas = log{p/(1 p)},


b() = n log(1 + exp()), = 1 et c(zy, ) = log n . y

Exemple 1.4 La loi Gamma est galement dans la famille exponentielle,


f (y |, ) = 1 1 ( )

y 1 exp y , y R+ ,

avec = , b() = log() et = 1 .


cel-00550583, version 1 - 28 Dec 2010
Pour une variable alatoire tielle, alors

dont la densit est de la forme exponen-

E(Y ) = b ()
de telle sorte que la variance de tions,  la premire,

et Var(Y

) = b ()

apparat comme le produit de deux fonc-

fonction variance
= E(Y ), V ().

b () , qui dpend uniquement du paramtre

est appele

 la seconde est indpendante de En notant

et dpend uniquement de

.
La

on voit que le paramtre

est li la moyenne

fonction variance peut donc tre dnie en fonction de dornavant

, nous la noterons

Exemple 1.5 Dans le cas de la loi normale, V () = 1, dans le cas de la loi


de Poisson, V () = alors que dans le cas de la loi Gamma, V () = 2 .
Notons que la fonction variance caractrise compltement la loi de la famille exponentielle. Chacune des lois de la famille exponentielle possde une fonction de lien spcique, dite de relier l'esprance

fonction de lien canonique,

permettant

g ( ) = .

Or,

au paramtre naturel . = b () donc g () = b ()1 .

Le lien canonique est tel que

Exemple 1.6 Dans le cas de la loi normale, = (link='identity'), dans le cas de la loi de Poisson, = log() (link='log') alors que dans le cas de la loi Gamma, = 1/ (link='inverse').
Sous

R,

la syntaxe des modles linaires gnralises est :

> glm(Y~X1+X2+X3+offset(Z), family =quasipoisson(link='log'), + data, weights)

1.1. LES MODLES LINAIRES GNRALISS


ce qui correspond un modle

E(Yi |X i ) = i = g 1 X i + i
o

et Var(Yi |X i )

V (i ) i

est le vecteur des

Yi

que l'on cherche modliser (le nombre de si-

nistres de la police

par exemple),

X1, X2

et

X3

sont les variables explica-

tives qui peuvent tre qualitatives (on parlera de facteurs) ou quantitatives,

link='log' indique que g est la fonction log, family=poisson revient choiV identit, alors que family=quasipoisson revient choisir une fonction variance V identit avec un paramtre de dispersion estimer, offset correspond la variable i , et weights le vecteur i . Cette fonction glm calcule alors des estimateurs de et , entre autres, car comme pour le modle linaire gaussien (la fonction lm) on peut obtenir des
sir une fonction variance

cel-00550583, version 1 - 28 Dec 2010

prdictions, des erreurs, ainsi qu'un grand nombre d'indicateurs relatifs la qualit de l'ajustement.

1.1.2 Approche conomtrique de la tarication


Cette famille de lois (dite

exponentielle) va s'avrer tre particulirement


(Yi , X i ),

utile pour construire des modles conomtriques beaucoup plus gnraux que le modle Gaussien usuel. On suppose disposer d'un chantillon o les variables assur, et o

Xi

sont des informations exognes sur l'assur ou sur le bien

Yi

est la variable d'intrt, qui sera

 une variable boolenne 0/1, par exemple l'assur d'un accident l'an dernier,  une variable de comptage, valeurs dans d'accident de l'assur

a-t-il t victime

N,

par exemple le nombre

l'an pass,

 une variable positive, valeurs dans

R+ , par exemple le cot du sinistre X,


les

i,

ou bien la dure entre la survenance et la dclaration du sinistre.

On supposera que, conditionnellement aux variables explicatives variables

sont indpendantes, et identiquement distribues. En particulier,

on partira d'un modle de la forme

f (yi |i , ) = exp
o l'on supposera que

yi i b(i ) + c(yi , )

g ( i ) = i = X i
pour une fonction de lien

g ()

donne (on gardera ainsi un score

linaire

en

les variables explicatives), et o, pour rappel,

i = E(Yi |X i )
La fonction lien est la fonction qui permet de lier les variables explicatives

la prdiction

alors que la loi apparat via la fonction variance, sur

10

CHAPITRE 1. LA TARIFICATION A PRIORI

la forme de l'htroscdasticit et l'incertitude associe la prdiction. Le petit exemple ci-dessous permet de visualiser sur un petit de donnes simple six rgressions GLM direntes,

> > > > > > > > > >

x <- c(1,2,3,4,5) y <- c(1,2,4,2,6) base <- data.frame(x,y) plot(x,y,pch=19,cex=1.5) regNId <- glm(y~x,family=gaussian(link="identity")) regNlog <- glm(y~x,family=gaussian(link="log")) regPId <- glm(y~x,family=poisson(link="identity")) regPlog <- glm(y~x,family=poisson(link="log")) regGId <- glm(y~x,family=Gamma(link="identity")) regGlog <- glm(y~x,family=Gamma(link="log"))
La prdiction (ainsi qu'un intervalle de conance) pour chacun de ces

cel-00550583, version 1 - 28 Dec 2010

modles est prsente sur la Figure 1.1. Le code de base pour obtenir la prdiction avec un intervalle de conance (

95%)

est simplement

> > > + > > >

plot(x,y,pch=19,cex=1.5) abs <- seq(0,7,by=.1) yp <- predict(regNId,newdata=data.frame(x=abs),se.fit = TRUE, type="response") lines(abs,yp$fit,lwd=2) lines(abs,yp$fit+2*yp$se.fit,lty=2) lines(abs,yp$fit-2*yp$se.fit,lty=2)

Remarque 1.1 De la mme manire qu'en conomtrie linaire, il est aussi

possible d'allouer des poids chacune des observations i . Mais nous n'en parlerons pas trop ici. Il peut s'agir de pondration dcroisantes avec le temps, attribues des annes trop anciennes, si l'on utilise des donnes sur une priode plus longue, par exemple.

1.1.3 Estimation des paramtres


La loi de estimateurs de

Y sachant X tant spcie, on obtient numriquement et par maximisation de la vraisemblance.

les

> logv=function(beta){ + L=beta[1]+beta[2]*sinistres$ageconducteur + -sum(log(dpois(sinistres$nombre,exp(L)))) + } > nlm(f = logv, p = beta) $minimum

1.1. LES MODLES LINAIRES GNRALISS


Modle Gaussien lien identit
q

11

Modle Poisson lien identit


q

Modle Gamma lien identit


q

y
q q q

q q

q q

3 x

3 x

2 1

3 x

Modle Gaussien lien logarithmique


q

Modle Poisson lien logarithmique


q

Modle Gamma lien logarithmique


q

y
q q q

q q

q q

3 x

3 x

2 1

3 x

cel-00550583, version 1 - 28 Dec 2010

Figure 1.1  Prdiction par 6 modles linaires dirents, 3 lois et 2 fonctions de lien, avec les intervalles de conance de prdiction.

[1] 113429.7 $estimate [1] -3.157159895 -0.001900410 $gradient [1] 0.01069032 1.31089786 $code [1] 3 $iterations [1] 25 > glm(nombre~ageconducteur,data=sinistres,family="poisson")$coefficients (Intercept) ageconducteur -3.157198596 -0.001899561
Notons qu'il est aussi possible d'utiliser une rgression linaire pondre. En eet, on cherche maximiser ici une (log)-vraisemblance (ou une dviance comme nous le verrons plus tard), qui s'crit dans le cas des modles exponentiels,

log L =
i=1

Yi i b(i ) c(Yi , ) a( )

12

CHAPITRE 1. LA TARIFICATION A PRIORI


,
on note que le maximum de vrai-

mais comme on cherche les paramtres semblance du paramtre fonction

est atteint au mme point que le maximum de la

log L =
i=1
Le maximum est alors atteint en

[Yi i b(i )]
n
tel que

log L ==
Or

[Yi b (i )]
i=1
et donc

= 0. i

i = g (i ) = g (X i ) = b (i ), b (i )]

cel-00550583, version 1 - 28 Dec 2010

= g (X i )Xi i

On cherche alors rsoudre

[Yi i ]
i=1

g (X i ) X i, V(i )

Ce qui correspondrait la condition du premier ordre dans une rgression pondre, o la matrice de poids serait sinon

W = [wi,j ],

wi,j = 0

si

i = j,

et

wi,i =

1 1 1 = = 1 Var(Yi ) i g (X i )

Mais cette matrice de poids tant inconnue (elle dpend des paramtres que l'on cherche estimer), on met en place une itration de rgression pondre, la matrice de poids tant calcule partir des coecients de l'tape prcdante. Dans le cas d'une rgression log-Poisson, le code devient,

> > > > > + + + + + + + +

BETA=matrix(NA,101,2) REG=lm(nombre~ageconducteur,data=sinistres) beta=REG$coefficients BETA[1,]=beta for(i in 2:15){ eta=beta[1]+beta[2]*sinistres$ageconducteur mu=exp(eta) w=mu z=eta+(sinistres$nombre-mu)/mu REG=lm(z~sinistres$ageconducteur,weights=w) beta=REG$coefficients BETA[i,]=beta }

1.1. LES MODLES LINAIRES GNRALISS


> BETA [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [,1] 0.04239008 -0.91696821 -1.81086687 -2.55133907 -3.00654605 -3.14670636 -3.15715335 -3.15719860 -3.15719860 -3.15719860 -3.15719860 -3.15719860 -3.15719860 -3.15719860 -3.15719860 [,2] -7.371466e-05 -1.418714e-04 -3.136888e-04 -6.958340e-04 -1.315441e-03 -1.803882e-03 -1.898126e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03 -1.899561e-03

13

cel-00550583, version 1 - 28 Dec 2010

qui converge trs rapidement (vers les bonnes valeurs).

1.1.4 Interprtation d'une rgression


Considrons tout simplement une rgression de la frquence annuelle de sinistre sur l'ge du conducteur. On supposera un modle Poissonnien.

> reg1 <- glm(nombre~ageconducteur,data=nombre,family=poisson(link="log"), + offset=log(exposition)) > summary(reg1) Call: glm(formula = nombre ~ ageconducteur, family = poisson(link = "log"), data = nombre, offset = log(exposition)) Deviance Residuals: Min 1Q Median -0.5685 -0.3527 -0.2611 Coefficients: 3Q Max -0.1418 13.3247

Estimate Std. Error z value Pr(>|z|) (Intercept) -2.1369116 0.0207723 -102.87 <2e-16 *** ageconducteur -0.0101679 0.0004397 -23.12 <2e-16 *** --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

14

CHAPITRE 1. LA TARIFICATION A PRIORI

(Dispersion parameter for poisson family taken to be 1) Null deviance: 171919 on 678012 degrees of freedom Residual deviance: 171373 on 678011 degrees of freedom AIC: 222190 Number of Fisher Scoring iterations: 6
Avec un lien logarithmique, le modle est multplicatif. Le multiplicateur est ici

> exp(coefficients(reg1)[2]) ageconducteur 0.9898836

cel-00550583, version 1 - 28 Dec 2010

Autrement dit, tous les ans, la probabilit d'avoir un accident diminue de

1 0.9898 = 1.011%.
par la suite sur la construction suivante :

Si l'on considre des classes d'ges (dnies

a priori, nous reviendrons optimale des classes), on obtient la rgression

> > > + >

seuils = c(17,21,25,30,45,55,65,80,120) nombre$agecut <- cut(nombre$ageconducteur,breaks=seuils) reg2 <- glm(nombre~agecut ,data=nombre,family=poisson(link="log"), offset=log(exposition)) summary(reg2)

Call: glm(formula = nombre ~ agecut, family = poisson(link = "log"), data = nombre, offset = log(exposition)) Deviance Residuals: Min 1Q Median -0.6566 -0.3522 -0.2601 Coefficients: (Intercept) agecut(21,25] agecut(25,30] agecut(30,45] agecut(45,55] agecut(55,65] agecut(65,80] agecut(80,120] 3Q Max -0.1413 13.2465 z value Pr(>|z|) -47.42 <2e-16 *** -12.60 <2e-16 *** -24.62 <2e-16 *** -31.58 <2e-16 *** -29.90 <2e-16 *** -32.16 <2e-16 *** -32.90 <2e-16 *** -18.39 <2e-16 ***

Estimate Std. Error -1.55416 0.03277 -0.52724 0.04186 -0.95181 0.03865 -1.08673 0.03441 -1.04649 0.03500 -1.19279 0.03709 -1.27536 0.03876 -1.24017 0.06743

1.1. LES MODLES LINAIRES GNRALISS


--Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

15

(Dispersion parameter for poisson family taken to be 1) Null deviance: 171919 on 678012 degrees of freedom Residual deviance: 170589 on 678005 degrees of freedom AIC: 221417 Number of Fisher Scoring iterations: 6
Notons qu'il est aussi possible de taper directement

cel-00550583, version 1 - 28 Dec 2010

> reg2 = glm(nombre~cut(ageconducteur,breaks=seuils),data=nombre, + family=poisson(link="log"),offset=log(exposition))


La classe de rfrence est ici celle des jeunes conducteurs

(17,21].

Re-

lativement cette classe, on note que toutes les classes ont une probabilit d'avoir un accident plus faible. Pour un conducteur de la classe note qu'il a jeune conducteur,

(30,45], on 66% de chances en moins d'avoir un accident dans l'anne qu'un

> exp(coefficients(reg2)[4]) cut(ageconducteur, breaks = seuils)(30,45] 0.3373169


Au lieu de comparer la classe des jeunes conducteurs, on peut aussi comparer au conducteur moyen.

> seuils = c(17,21,25,30,45,55,65,80,120) > reg2 = glm(nombre~0+cut(ageconducteur,breaks=seuils), + data=nombre,family=poisson(link="log"),offset=log(exposition))


Les multiplicateurs sont alors

> + > > + >

reg2b <- glm(nombre~1,data=nombre,family=poisson(link="log"), offset=log(exposition)) moyenne <- exp(coefficients(reg2b)) reg2c <- glm(nombre~0+cut(ageconducteur,breaks=seuils), data=nombre,family=poisson(link="log"),offset=log(exposition)) exp(coefficients(reg2c))/moyenne (17,21] a ainsi 2.86 fois plus de chance que l'assur

Une personne de la classe

moyen d'avoir un accident.

16

CHAPITRE 1. LA TARIFICATION A PRIORI


Les modles linaires gnraliss ont t dnis pour des lois (de

1.1.5 Extension d'autres familles de lois


Y , conditionnelles aux variables explicatives sont des lois quatre paramtres, calisation (e.g. la moyenne), o

X)

appartenant la famille exponen-

tielle. Il est toutefois possible de gnraliser. Les lois de

library(gamlss)

(, , , ),

est un paramtre de lo-

un paramtre d'chelle (e.g. l'cart-type), et

et

sont des paramtres d'asymtrie et d'paisseur de queue (e.g. la

skewness et la kurtosis). Ces quatre paramtres peuvent tre fonction des variables explicatives au travers d'une fonction de lien,

cel-00550583, version 1 - 28 Dec 2010

1 (X) = g 1 (X ) = g = g 1 (X ) 1 (X ) = g
Parmi les lois classiques, on retrouvera celles donnes dans la Table 1.1. loi Binomiale Normale Poisson Gamma inverse Gaussienne Gumbel lognormale binomiale ngative (Poisson-Gamma) Poisson-inverse Gaussien Weibull zero inated Poisson R

logit identit log logit log identit log log log log log

log log log log log log log logit

BI NO PO GA IG GU LNO NBI PIG WEI ZIP

Table 1.1  Les direntes lois et modles de library(gamlss)@.


Dans sa version la plus simple, on retrouve le modle propos par [11],

Yi = X i + i , modle en moyenne log 2 i = Z i + ui , modle en variance


o est

ui est un bruit i.i.d. suivant une loi Gamma. Cette fonction particulire obtenue l'aide de la fonction lm.disp de library(dispmod).

1.1.6 De la qualit d'une rgression


Pour mesurer les performances d'une rgression, ou plus gnralement d'un modle quel qu'il soit, il faut se donner une qui mesure la distance entre

fonction de risque R(, )

et sa prdiction

Y.

Classiquement, on utilise

1.1. LES MODLES LINAIRES GNRALISS


la norme

17

L2 ,

correspond l'erreur quadratique

1 norme L , correspondant l'erreur absolue

R(Y, Y ) = [Y Y ]2 R(Y, Y ) = |Y Y |.

ou la

Si on reprend l'exemple de la section 1.1.2, les rsidus sont reprsent sur la Figure 1.2. Les rsidus de gauche sont les rsidus bruts, c'est dire la dirence entre

Yi

et

Yi .

A droite, ce sont les rsidus de Pearson, i.e.

i =
o

Yi Yi V (Yi )

est la fonction variance.

> RNIr <- residuals(regNId,type="response") > RNIp <- residuals(regNId,type="pearson")

cel-00550583, version 1 - 28 Dec 2010

Rsidus de Pearson

Gaussien, identit Poisson, identit Gamma, identit Gaussien, log Poisson, log Gamma, log

Gaussien, identit Poisson, identit Gamma, identit Gaussien, log Poisson, log Gamma, log

Rsidus (bruts)

1
q

Figure 1.2  Rsidus de la rgression.


Les rsidus de Pearson permettent de prendre en compte de l'htroscdasticit qui apparatra ds lors que l'on quite le modle Gaussien (la fonction variance ne sera alors plus constante). Pour le modle log-Poisson, les erreurs

L1

et

L2

sont respectivement

> cat("Erreur L1 =",sum(abs(RPL)) Erreur L1 = 4.196891 > cat("Erreur L2 =",sum((RPL)^2) Erreur L2 = 5.476764
[5] revient longuement sur l'analyse des rsidus dans le cadre de modles linaires gnraliss.

18

CHAPITRE 1. LA TARIFICATION A PRIORI


Rappelons que l'outil de base pour quantier la qualit de la rgression

est la

dviance

D( ) = 2[log L( |Y ) log L (Y )]
o

log L( |Y )

dsigne la log-vraisemblance du modle, et o

log L (Y )

est

la log-vraisemblance sature (obtenue avec un modle parfait).

cel-00550583, version 1 - 28 Dec 2010

> logLik(regPlog) 'log Lik.' -7.955383 (df=2) > deviance(regPlog) [1] 1.760214 > AIC(regPlog) [1] 19.91077 > -2*logLik(regPlog)+2*2 [1] 19.91077 attr(,"df")
Dans un souci de partimonie, on pnalise souvent log-vraisemblance par le nombre de paramtres, ce qui correspond au critre d'information d'Akaike (AIC, en multipliant par 2). On peut galement dnir le critre de Schwartz,

AIC : 2 log L( ) + 2k BIC : 2 log L( ) + k log(n)


Il existe aussi un critre d'Aikaike l'aide de la fonction encore

corrig (introduit par [15]) dans le cas


ou

o l'on a trop peu d'observations. Toutes ces fonctions peuvent tre obtenues

extractAIC

AIC

de

avec comme paramtre

library(aod) ou BIC de library(BMA), k=log(nrow(base)).

> AIC > BIC

cat("AIC (Poisson-log) =",extractAIC(regPlog,k=2)[2]) (Poisson-log) = 19.91077 cat("BIC (Poisson-log) =",extractAIC(regPlog,k=log(nrow(base)))[2]) (Poisson-log) = 19.12964
On peut comparer tous les modles via :

> AIC(regNId,regNlog,regPId,regPlog,regGId,regGlog) df AIC regNId 3 21.10099 regNlog 3 20.63884 regPId 2 19.86546 regPlog 2 19.91077 regGId 3 18.01344 regGlog 3 18.86736

1.1. LES MODLES LINAIRES GNRALISS


1.1.7 Les variables tarifaires continues et la nonlinarit

19

Le but de la tarication (et plus gnralement de toute prdiction) est d'estimer une esprance conditionnelle,

E(S |X = x) = (x)
o

ou

S = (X1 , , Xk ) +
est problement une hypothse

: Rk R.

Supposer un modle

linaire

trop forte. Mais on se doute qu'estimer une fonction dnie sur dit

Rk

serait trop

complexe numriquement. Un bon compromis est propos par les modles

additifs.

A titre d'illustration, la Figure 1.3 permet de visualiser l'impact de la densit de population dans la commune de l'assur sur la frquence de sinistre. Les points noirs correspondent la frquence moyenne empirique observe pour dirents niveaux de densit

cel-00550583, version 1 - 28 Dec 2010

> > + > > + > > >

library(mgcv) reg.gam <- gam(nombre~s(densite),offset=log(exposition), family=poisson(link="log"),data=sinistres) dens.x <- seq(0,30000,100) pred <- predict(reg.gam,newdata=data.frame(densite=dens.x,expo=1), se=TRUE,type="response") plot(dens,pred$fit,col="blue",lwd=2) lines(dens,pred$fit+2*N1RC0as1$se.fit,col="red",lty=2) lines(dens,pred$fit-2*N1RC0as1$se.fit,col="red",lty=2)

Les modles GAM


Les modles additifs ont t introduits par [30] qui notait qu'estimer une fonction

: Rk R

serait numriquement trop complexe (et probablement

peu robuste). On cherche ici une dcomposition de la forme

S = 1 (X1 ) + + k (Xk ) +
o les fonctions

j : R R

sont supposes susament rgulires. En fait,

ce modle n'est valable que pour les variables Autrement dit, un modle additif serait

Xj

continues, les variables

qualitatives continuant - gnralement - intervenir sous une forme linaire.

S = 1 (X1 ) + 2 X2 +
o

X1

est l'ge du conducteur, et

X2

le carburant du vhicule. Notons qu'il

serait aussi possible de considrer un modle de la forme

S=

1,E (X1 ) + 1,D (X1 ) +

si si

X2 = X2 =

essence diesel

Ces deux types de modles sont estims ci-dessous.

20

CHAPITRE 1. LA TARIFICATION A PRIORI


q

0.15

q q q q q q q q q q q q q q q q q q

Frquence annuelle de sinistre

0.05

q q q q q q q q q q q q q q qq q q q q q q q q q q qq qq q qq q qq q q q q q q q q q q q q q q q q q q qq qq q q q q q q q q q qq qq q qq q q q q q

0.10

qq q

0.00

q q qq q qq q qq q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q

5000

10000

15000 Densit de population

20000

25000

30000

cel-00550583, version 1 - 28 Dec 2010

Figure 1.3  Frquence individuelle en fonction de la densit de population


de la commune de rsidence du conducteur principal.

> > + > > > > + > > > > > > >

library(mgcv) reg <- gam(nombre~s(ageconducteur)+offset(exposition), data=sinistres,family=poisson) age <- seq(17,100) AGE <- data.frame(ageconducteur=age,exposition=1) Y <- predict(reg,AGE,type="response") reg = gam(nombre~s(ageconducteur)+carburant+offset(exposition), data=sinistres,family=poisson) AGE <- data.frame(ageconducteur=age,exposition=1,carburant="E") YE <- predict(reg,AGE,type="response") AGE <- data.frame(ageconducteur=age,exposition=1,carburant="D") YD <- predict(reg,AGE,type="response") plot(age,Y,type='l') lines(age,YD,col='blue') lines(age,YE,col='red')

Pour le premier type de modle, ou le code suivant pour le second,

> > + > > >

library(mgcv) reg <- gam(nombre~s(ageconducteur)+offset(exposition), data=sinistres,family=poisson) age <- seq(17,100) AGE <- data.frame(ageconducteur=age,exposition=1) Y <- predict(reg,AGE,type="response")

1.1. LES MODLES LINAIRES GNRALISS


> + > > + > > > > reg <- gam(nombre~s(ageconducteur)+offset(exposition), data=sinistres[sinistres$carburant=="E",],family=poisson) YE <- predict(reg,AGE,type="response") reg <- gam(nombre~s(ageconducteur)+offset(exposition), data=sinistres[sinistres$carburant=="D",],family=poisson) YD=predict(reg,AGE,type="response") plot(age,Y,type='l') lines(age,YD,col='blue') lines(age,YE,col='red')
Ce petit exemple montre bien les limites de ces modles additifs.

21

cel-00550583, version 1 - 28 Dec 2010

Frquence annuelle de sinistres

0.00

0.05

0.10

0.15

0.20

20

40

60 Age du conducteur principal

80

100

Figure 1.4  Modle GAM addif, S = 1 (X1 ) + 2 X2 + o X2 dsigne


le type de carburant.

L'estimation de ces modles peut se faire de plusieurs manires sous R. Il y a tout d'abord la fonction propos par [13]. La fonction dologie dveloppe par

gam de library(gam), bas sur l'algorithme gam de library(mgcv) repose sur la mtholibrary(gmlss) glm
ou

[32]. Enn d'autres packages proposent aussi des

estimations de ces transformations nonlinaires, dont

library(gss). library(splines).

Une autre possibilit est galement d'uiliser la fonction de libert, i.e. le paramtre de lissage de la transformation,

avec la

On peut alors changer facilement le nombre de degrs

> library(splines) > reg3 <- glm(nombre~bs(ageconducteur,df=3)+offset(exposition), + data=nombre,family=poisson)

22

CHAPITRE 1. LA TARIFICATION A PRIORI


0.20 Frquence annuelle de sinistres 0.00 0.05 0.10 0.15

20

40

60 Age du conducteur principal

80

100

cel-00550583, version 1 - 28 Dec 2010

Figure 1.5  Modle GAM, S =


dsigne le type de carburant.

1,E (X1 ) + 1,D (X1 ) +

si si

X2 = X2 =

essence diesel

X2

La Figure 1.6 montre ainsi la prdiction de la frquence moyenne en fonction de l'ge, avec dirents paramtres de lissage.

Les modles MARS


Une autre classe de modle particulirement intressant a t prsente par [10], appels MARS,

Multiplicative Adaptative Regression Splines.

de la forme

On

considre ici une base de fonctions de

((x k )+ ). En particulier, par rapport un modle linaire simple Y = 0 + 1 X + , Y = 0 + 1 max{0, X k } + 1 max{0, k X } +

on considre ici un modle avec rupture,

devient galement un paramtre estimer.

> library(mda) > reg <- mars(sinistres$ageconducteur,sinistres$nombre,nk=10) > summary(lm(sinistres$nombre~reg$x-1)) Call: lm(formula = sinistres$nombre ~ reg$x - 1) Residuals: Min 1Q Median 3Q Max

1.1. LES MODLES LINAIRES GNRALISS

23

Frquence annuelle de sinistres

0.04

0.06

0.08

0.10

0.12

0.02

3 degrs de libert 5 degrs de libert 10 degrs de libert

20

40

60 Age du conducteur principal

80

100

cel-00550583, version 1 - 28 Dec 2010

-0.08342 -0.03916 -0.03730 -0.03560 15.96203 Coefficients: Estimate Std. Error reg$x1 3.408e-02 4.528e-04 reg$x2 1.692e-04 2.007e-05 reg$x3 4.486e-03 1.694e-04 --Signif. codes: 0 *** 0.001 t value Pr(>|t|) 75.271 <2e-16 *** 8.432 <2e-16 *** 26.477 <2e-16 *** ** 0.01 * 0.05 . 0.1 1

Residual standard error: 0.2071 on 678010 degrees of freedom Multiple R-squared: 0.03526, Adjusted R-squared: 0.03526 F-statistic: 8261 on 3 and 678010 DF, p-value: < 2.2e-16 > age <- seq(17,100) > Y <- predict(reg,age) > plot(age,Y)

1.1.8 Les modles nonlinaires multivaris


On peut s'autoriser ventuellement encore un peu plus de souplesse en prenant en compte le couple constitu de deux variables continues,

S = (X1 , X2 ) +
o

: R2 R,

au lieu d'un modle GAM classique,

S = 1 (X1 ) + 2 (X2 ) +

24

CHAPITRE 1. LA TARIFICATION A PRIORI


0.10 Frquence annuelle de sinistre 0.00 0.02 0.04 0.06 0.08

20

40

60 Age du conducteur principal

80

100

cel-00550583, version 1 - 28 Dec 2010

Figure 1.7  Modle MARS, impact de l'ge du conducteur principal sur


la frquence de sinistres.

Cette option est propose par exemple dans

library(mgcv)

1.2 Modliser des variables indicatrices


Les bases des modles GLM tant poses, nous allons les utiliser en tarication, en modlisant tout d'abord des variables indicatrices individuels dans les prochaines sections.

0/1

dans un

premier temps, avant de modliser la frquence de sinistres, puis les cots

Remarque 1.2 Les modles sont trs utiliss en techniques de scoring an
de savoir s'il convient d'occtroyer un crdit quelqu'un.

1.2.1 La rgression logistique ou probit


La rgression logistique suppose que si

(Y |X ) = P(Y = 1|X ),

alors

(Y |X ) P(Y = 1|X ) = = exp (X ) 1 (Y |X ) P(Y = 0|X )


Dans le cas du modle probit, on suppose qu'il existe un modle latent Gaussien, tel que

Yi = X i + i
et que

Yi = 0

si

Yi < s,

et

Yi = 1

si

Yi > s,

et

i N (0, 2 ).

La synthaxe de ces deux modles est trs proche, car seule la fonction de lien change.

1.2. MODLISER DES VARIABLES INDICATRICES

25

frquence espre

cel-00550583, version 1 - 28 Dec 2010

teu

Figure 1.8  Frquence prdite Y , en fonction de l'ge du conducteur et de


l'anciennet du vhicule,

Y = (X1 , X2 ).

> > + > + > > > > > >

sinistres$touche <- sinistres$nombre>0 reglogit <- glm(touche~ageconducteur, data=sinistres,family=binomial(link="logit")) regprobit <- glm(touche~ageconducteur, data=sinistres,family=binomial(link="probit")) age <- seq(17,100) AGE <- data.frame(ageconducteur=age,exposition=1) Yl <- predict(reglogit,AGE,type="response") Yp <- predict(regprobit,AGE,type="response") plot(age,Yp-Yl,type="l") abline(h=0,lty=2)
On notera que ces deux modles donnent des prdictions trs proches,

comme le montre la Figure 1.13.

con

duc

ed

ge

uv h

icu

le

26

CHAPITRE 1. LA TARIFICATION A PRIORI


25 20

0.0 5

ge du vhicule

15

0.0

0.0 7

10

0.0 8

20

30

40

50 ge conducteur

60

70

80

cel-00550583, version 1 - 28 Dec 2010

Figure 1.9  Frquence prdite Y


2 X2 ).

par un modle GLM

Y = exp(0 + 1 X1 +

1.2.2 Les arbres de rgression


Les arbres de rgression sont des outils nonparamtriques de segmentation. Dans un arbre de dcision, on cherche dtecter des critres permettant de rpartir les individus en

classes, caractrises par

Y =0

et

Y = 1.

On

commence par choisir la variable, qui, par ses modalits, spare le mieux les individus de chacune des classes. On constitue alors un premier CART (

noeud.

On rintre alors la procdure sur chaque nouveau noeud. Dans la mthode

Classication And Regression Tree),

on regarde toutes les possibili-

ts. On continue soit jusqu' ce qu'il ne reste plus qu'un seul. individu dans chaque noeud, soit suivant un critre d'arrt. Les critres de discrimination et de constitution des noeuds sont gnralement les suivants,  lorsque les variables explicatives

Xj sont qualitatives, ou discrtes, on 2 utilise la distance du (on parle d'arbre CHAID),


(mthode CART),

 en prsence de variables de tous types, on peut utiliser l'indice de Gini  ou l'entropie (mthode C5.0), Pour un varible continue, on distinguera une variable qualitative, on distinguera

{X1 s} et {X1 > s}. {X1 = x} et {X1 = x}.

Pour

Pour chacune des variables, on regarde l'ensemble des classications possibles. Quelles que soient les variables, on dnit :

> seuilagecond <- unique(nombre$ageconducteur) > seuilregion <- unique(nombre$region)

1.2. MODLISER DES VARIABLES INDICATRICES


25

27

20

0.05
0.2

0.15

0.06

0.1

ge du vhicule

15

8 0.0

0.07

0.08

10

0.07

0.06

20

30

40

50 ge conducteur

60

70

80

cel-00550583, version 1 - 28 Dec 2010

Figure 1.10  Frquence prdite Y


2 (X2 ).

par un modle additif

Y = 1 (X1 ) +

Pour les variables quantitatives, on distingue :

> k=5 > classe0 <- nombre$ageconducteur<=seuilagecod[k] > classe1 <- nombre$ageconducteur>seuilagecod[k]
alors que pour les variables qualitatives,

> k=5 > classe0 <- nombre$region==seuilregion[k] > classe1 <- nombre$region!=seuilregion[k]
Une fois constitues les 2 classes, on calcule un des critres possibles. Si on regarde la dcomposition obtenue sur le premier noeud, on observe que pour les conducteurs de moins de 25 ans, la probabilit d'avoir un accident est de 10%, contre 5% pour les conducteurs de plus de 25 ans. Dans le cas des rgions, avec une distance du chi-deux, on cherche minimiser

2 =
classe{0,1} y {0,1}
o

2 [nclasse,y n classe,y ]

n classe,y y.

nclasse,y

dsigne le nombre de personnes dans la classe considre pour

lesquelles la variable

prend la modalit

> base=sinistres[sinistres$ageconducteur<=85,] > seuil=sort(unique(base$ageconducteur))

28

CHAPITRE 1. LA TARIFICATION A PRIORI


25 20

0.05

0.06
0.1

0.2

5 0.1

ge du vhicule

15

0.07

0.08

0.0

8 0.0

10

20

30

40

50 ge conducteur

60

70

80

cel-00550583, version 1 - 28 Dec 2010

Figure 1.11  Frquence prdite Y

par un modle additif

Y = (X1 , X2 ).

> TABLE=rep(NA,length(seuil)) > names(TABLE)=seuil > for(k in 1:(length(seuil)-1)){ + classe0 <- base$ageconducteur<=seuil[k] + classe1 <- base$ageconducteur>seuil[k] + M=matrix( + rbind(c(sum(base$touche[classe0]==FALSE), + sum(base$touche[classe0]==TRUE)), + c(sum(base$touche[classe1]==FALSE), + sum(base$touche[classe1]==TRUE))),2,2) + TABLE[k]=-chisq.test(M)$statistic } > which.min(TABLE) 23 6 > plot(seuil,TABLE)
Autrement dit le meilleur dcoupage possible est prcdente comme acquise,

(17,23]

et

(23,85]

A la seconde tape, on cherche une autre partition, en considrant la

> > + +

k1 = which(seuil==23) for(k in 1:(length(seuil)-1)){ if(k!=k1){ classe0 <- (base$ageconducteur<=seuil[k])&(base$ageconducteur<=seuil[k1])

1.2. MODLISER DES VARIABLES INDICATRICES


25

29

ge du vhicule

10

15

20

20

30

40

50 ge conducteur

60

70

80

cel-00550583, version 1 - 28 Dec 2010

Figure

1.12  Frquence prdite

par un modle par classes jointes,

(X1 , X2 ) [a1 , b1 ] [a2 , b2 ].

+ classe2 <- (base$ageconducteur>seuil[k])&(base$ageconducteur>seuil[k1]) + classe1 <- 1-classe0-classe2 + M=matrix( + rbind(c(sum(base$touche[classe0]==FALSE), + sum(base$touche[classe0]==TRUE)), + c(sum(base$touche[classe1]==FALSE), + sum(base$touche[classe1]==TRUE)), + c(sum(base$touche[classe2]==FALSE), + sum(base$touche[classe2]==TRUE))),3,2) + TABLE[k]=-chisq.test(M)$statistic + }} > which.min(TABLE) 84 67 > plot(seuil,TABLE)
En l'occurence, on ne nous conseille ici pas d'autre classe (ou alors un ge trs avanc). On retrouvera ce dcoupage en deux classes dans la section sur les modles MARS par exemple. Parmi les autres critres, on peut aussi utiliser la distance de Gini,

G=
classe{0,1}

nclasse n

y {0,1}

nclasse,y nclasse

nclasse,y nclasse

30

CHAPITRE 1. LA TARIFICATION A PRIORI

Probabilit d'avoir au moins un accident

0.037

0.038

Diffrence relative (%) 20 40 60 80 100

0.035

0.036

cel-00550583, version 1 - 28 Dec 2010

0.034

0.05 20

0.00

0.05

40

60

80

100

Age du conducteur principal

Age du conducteur principal

Figure 1.13  Rgression logistique (logit) versus modle latent Gaussien


(probit) pour prdire la probabilit d'avoir au moins un accident dans l'anne, en fonction de l'ge du conducteur principal.

ou l'entropie,

E=
classe{0,1}

nclasse n

y {0,1}

nclasse,y log nclasse

nclasse,y nclasse

Les arbres permettent une lecture relativement aise pour l'utilisateur, et reposent sur des techniques nonparamtriques. Aussi, contrairement aux mthodes GLM que nous verrons par la suite, le choix des lois ou la recherche d'ventuelles nonlinarits n'intervient pas ici. Les arbres sont galement peu sensibles aux

outliers.

Mais les arbres, de par leur construction, posent

aussi certains soucis. En particulier, on ne peut pas revenir en arrire, et le squencement est trs important.

1.2.3 Probabilit d'avoir (au moins) un sinistre dans l'anne


A titre d'illustration, tudions la probabilit d'avoir au moins un sinistre dans l'anne. Par dfaut, l'arbre ne permet pas de dnir des classes, et on obtient autant de classes que l'on a d'ges,

1.2. MODLISER DES VARIABLES INDICATRICES

31

q q q q

qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq

Distance du chideux

200

100

300

400

q q q q q q

600

500

20

30

40

50 Age du conducteur

60

70

80

cel-00550583, version 1 - 28 Dec 2010

(k,85].

Figure

1.14  Evolution de

lors du dcoupage en 2 classes

(17,k]

et

> > > > >

library(tree) arbre=tree((nombre>0)~ageconducteur,data=sinistres,split="gini") age=data.frame(ageconducteur=18:90) y=predict(arbre,age) plot(age$ageconducteur,y)


Si l'on souhaite coupe les branches de l'arbre, on peut utiliser l'option pour dire qu'on ne peut couper davantage qu' condition de consti-

mincut > + > > > + > >

tuer des classes dont le nombre d'invidus l'intrieur soit susement lev.

arbre2=tree((nombre>0)~ageconducteur,data=sinistres,split="gini", mincut = 20000) y2=predict(arbre2,age) lines(age$ageconducteur,y2,col="red",type="s",lwd=2) arbre3=tree((nombre>0)~ageconducteur,data=sinistres,split="gini", mincut = 100000) y3=predict(arbre3,age) lines(age$ageconducteur,y3,col="purple",type="s",lwd=2)
On obtient alors les classes dcrites sur la gure 1.16.

1.2.4 Probabilit d'avoir un gros sinistre dans l'anne


Cette tude sera particulirement intressante pour crter les gros sinistres (nous reviendrons sur ce point dans la section 1.4.3). On supposera

32

CHAPITRE 1. LA TARIFICATION A PRIORI

qqqqq

qq qq qq

10000

Distance du chideux

20000

30000

40000

qq qq

20

30

40

50 Age du conducteur

60

70

80

cel-00550583, version 1 - 28 Dec 2010

Figure
(23,k]

1.15  Evolution de

et

(k,85],

ou

2 lors du dcoupage (17,k], (k,23] et (23,85].

en 3 classes,

(17,23],

(arbitrairement) que les

gros sinistres sont ceux dont le montant dpasse 50

000

euros.

> > > +

library(tree) sinistres$GS <- sinistres$cout>50000 ARBRE <- tree(GS ~ puissance + zone + agevehicule , data=sinistres,split="gini")
Cet arbre tant manifestement trop tendu, on peut limiter en demandant

avoir au moins

5 000

assur par branche,

> ARBRE <- tree(GS ~ puissance + zone + agevehicule , + data=sinistres,split="gini",minsize = 5000) > ARBRE > ARBRE node), split, n, deviance, yval * denotes terminal node 1) root 26444 87.710 0.003328 2) zone: B,C,D,E,F 23080 68.790 0.002990 4) puissance < 5.5 8028 17.960 0.002242 8) zone: B,D,F 3442 3.995 0.001162 * 9) zone: C,E 4586 13.960 0.003053 * 5) puissance > 5.5 15052 50.830 0.003388

1.2. MODLISER DES VARIABLES INDICATRICES

33

0.10

q q

Probabilit d'avoir au moins un accident

0.08

0.06

q q q q q qq qq qqqq q qqq q qqq qq q qq q qq q q qqq qqq q qq qqq q q q q q q qq q q q q qq q q q q q q q q q

0.04

qq

0.00

0.02

20

30

40

50

60

70

80

90

cel-00550583, version 1 - 28 Dec 2010

Age du conducteur principal

Figure

1.16  Prdiction par arbre de rgression, avec plus ou moins de

classes d'ge.

10) zone: B,C,E 10372 30.910 0.002989 20) agevehicule < 10.5 7541 17.960 0.002387 40) puissance < 7.5 5274 14.960 0.002844 80) agevehicule < 2.5 1291 5.972 0.004648 * 81) agevehicule > 2.5 3983 8.980 0.002260 * 41) puissance > 7.5 2267 2.996 0.001323 * 21) agevehicule > 10.5 2831 12.940 0.004592 * 11) zone: D,F 4680 19.910 0.004274 * 3) zone: A 3364 18.890 0.005648 *
On note qu'en fonction de la zone, de la puissance du vhicule et de l'anciennet du vhicule, on peut dterminer avec une bonne assurance la probabilit d'avoir un trs gros sinistre. Par exemple, pour les personnes n'habitant pas un endroit trop dense (les zones les plus denses correspondant

zone=A), en particulier les zones B, D et E, et si la puissance n'est pas trop leve, puissance<5.5 la probabilit d'avoir un trs gros sinistres est de l'ordre de 1/1000. La probabilit sera 4 fois plus grande si la le vhicule est puissant (puissance>5.5) et ancien, (agevehicule>10.5). Dans une zone
dense, la probabilit sera plus de 5 fois plus grande (quelles que soient les autres variables). Si on trace l'arbre, on obtient le dessin de la Figure 1.17

> plot(ARBRE) > text(ARBRE,cex=.9,col="blue")

34

CHAPITRE 1. LA TARIFICATION A PRIORI

zone:bcdef

puissance < 5.5 0.005648 zone:bdf agevehicule < 10.5 0.001162 0.003053 puissance < 7.5 agevehicule < 2.5 0.001323 0.004648 0.002260 0.004592 0.004274 zone:bce

cel-00550583, version 1 - 28 Dec 2010

Figure 1.17  Arbre de prdiction, pour expliquer la probabilit d'avoir (ou


pas) un gros sinistre, en fonction de la densit de population, de l'anciennet du vhicule, et de sa puissance.

1.3 Modliser la frquence de sinistralit


Dans cette section, nous allons rentrer davantage dans la modlisation par modles linaires gnraliss. Mais avant de commencer, il peut tre intressant de regarder un peu la base, et de faire un peu d'analyse descriptive pour comprendre la loi du nombre de sinistres par contrat.

1.3.1 Un peu d'analyse descriptive


La frquence de sinistres
Une hypothse forte de la loi de Poisson est que

E(N ) = Var(N )

Si l'on compare les valeurs numriques, cela donne l'ajustement suivant, si l'on estime le paramtre par la mthode des moments (ou par maximum de vraisemblance,

ML

qui ici concident) :

> library(vcd) > gof = goodfit(N,type= "poisson",method= "ML") > gof Observed and fitted values for poisson distribution with parameters estimated by `ML'

1.3. MODLISER LA FRQUENCE DE SINISTRALIT


Ajustement dune loi de Poisson 800

35

600 Frquence (racine carre)

400

200

10

11

12

13

14

15

16

cel-00550583, version 1 - 28 Dec 2010

Nombre de sinistres

Figure 1.18  Frquence empirique du nombre de sinistres par police d'assurance.

[1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [16,] [17,]

count observed fitted 653047 653047 652055 23592 23592 25453 1299 1299 496 62 62 6 5 5 0 2 2 0 1 1 0 0 0 0 1 1 0 1 1 0 0 0 0 2 2 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0

La dirence entre la valeur prdite par le modle Poissonnien et les valeurs observes nous poussent essayer de mieux comprendre l'htrognit qui existe au sein de nos donnes.

36

CHAPITRE 1. LA TARIFICATION A PRIORI


Les facteurs sont des codications de variables

Les variables qualitatives, ou facteurs


qualitatives.
Dans la pour base, nous disposons de plusieurs variables qualitatives comme le carburant

carburant

cod en

pour essence et

pour diesel, ou encore

region

la rgion franaise (visualises sur la Figure 1.19)

10%

9%

8%

cel-00550583, version 1 - 28 Dec 2010

7%

6%

5%

Figure 1.19  Frquence empirique observe par rgion franaise.


Rgresser une variable quantitative (comme le nombre de sinistres) sur une variable factorielle correspond faire une

analyse de la variance.

> summary(lm(nombre~as.factor(region), data=nombre)) Call: lm(formula = nombre ~ as.factor(region), data = nombre) Residuals: Min 1Q Median 3Q Max -0.16115 -0.03477 -0.03477 -0.03477 15.96523 Coefficients: Estimate Std. Error t value Pr(>|t|)

1.3. MODLISER LA FRQUENCE DE SINISTRALIT


(Intercept) 0.161150 as.factor(region)0 -0.091614 as.factor(region)1 -0.102853 as.factor(region)2 -0.113822 as.factor(region)3 -0.112168 as.factor(region)4 -0.112059 as.factor(region)5 -0.115453 as.factor(region)6 -0.116853 as.factor(region)7 -0.119643 as.factor(region)8 -0.131576 as.factor(region)9 -0.129934 as.factor(region)10 -0.133945 as.factor(region)11 -0.134594 as.factor(region)12 -0.134683 as.factor(region)13 -0.126384 --Signif. codes: 0 *** 0.001 ** 0.002341 0.002763 0.002819 0.002815 0.002796 0.002760 0.002737 0.002711 0.002688 0.002798 0.002818 0.002804 0.002818 0.002858 0.002362 68.84 -33.16 -36.48 -40.43 -40.12 -40.60 -42.18 -43.10 -44.51 -47.03 -46.11 -47.77 -47.77 -47.12 -53.50 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 <2e-16 1 *** *** *** *** *** *** *** *** *** *** *** *** *** *** ***

37

cel-00550583, version 1 - 28 Dec 2010

0.01 * 0.05 . 0.1

Residual standard error: 0.2067 on 677998 degrees of freedom Multiple R-squared: 0.005699, Adjusted R-squared: 0.005678 F-statistic: 277.6 on 14 and 677998 DF, p-value: < 2.2e-16
ou directement, l'aide de la fonction

aov,

> summary(aov(nombre~as.factor(region), data=nombre)) Df Sum Sq Mean Sq F value Pr(>F) as.factor(region) 14 166 11.8542 277.56 < 2.2e-16 *** Residuals 677998 28956 0.0427 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
qui montre que la frquence de sinistres est sensiblement dirente d'une rgion l'autre.

Les variables quantitatives continues


Parmi les variables continues permettant d'expliquer la frquence de sinistres, on retiendra l'ge du vhicule

ageconducteur.

agevehicule,

ou l'ge du conducteur

On pourrait galement utiliser le bonus observ la sous-

cription du contrat

bonus. Cette variable est lie l'anciennet du permis et

peut s'avrer dlicate prendre en compte dans le modle. La Figure 1.20 montre la frquence empirique oberve en fonction de l'ge du conducteur principal (frquence brute).

> age = seq(18,100,by=1) > FREQ = rep(NA,length(age))

38

CHAPITRE 1. LA TARIFICATION A PRIORI


for(k in 1:length(FREQ)){ I=nombre$ageconducteur==age[k] X=nombre$nombre[I] W=nombre$exposition[I] FREQ[k]=weighted.mean(X/W,W) } plot(age,FREQ)
La moyenne empirique est ici corrige par l'exposition. La frquence an-

> + + + + + >

nuelle devrait tre le nombre de sinistres observ divis par l'exposition, et on met un poids proportionnel l'exposition.

cel-00550583, version 1 - 28 Dec 2010

0.30

Frquence annuelle de sinistre

0.25

0.20

0.15

q q q q qq qqq q qq q q qqqqqqq q q qqqq qq qq qq q qqq qq q q qq qqq qqq q q q q q q q q q q qq q q qqqqqqqqq

0.10

0.00

0.05

qqq

20

40

60 Age du conducteur principal

80

100

Figure

1.20  Frquence empirique par ge du conducteur principal. Le

trait horizontal montre la frquence moyenne d'un individu pris au hasard.

1.3.2 La mthode des marges


[1] a propos une mthode relativement simple pour faire de la tarication, appele

method of marginal totals.

Avant de prsenter cette mthode,

notons que [16] a retrouv cette mthode en faisant du maximum de vraisemblance sur un modle Poissonnien. Plaons nous dans le cas o les variables exogne

de risques. Alors

sont qualitatifs, de telle sorte que l'on puisse dnir des

classes

P(N = n|X = X ) = exp[X ]

n X n!

X = exp[X ]

1.3. MODLISER LA FRQUENCE DE SINISTRALIT


ce qui donne une log-vraisemblance de la forme

39

L( |ni , X i ) =
i=1

[X i ] + ni log[X i ] log[ni !]

dont la condition du premier ordre donne les quations normales,

ni =
i,X i =X
pour toute classe de risque

X
i,X i =X

X.

Si on regarde le cas o les classes de risque sont constitus par la puissance du vhicule (dnie en tant que facteur),

cel-00550583, version 1 - 28 Dec 2010

> > + >

nombre$puissance=as.factor(nombre$puissance) marges=glm(nombre~puissance, data=nombre,family=poisson(link="log")) summary(marges)

Call: glm(formula = nombre ~ puissance, family = poisson(link = "log"), data = nombre) Coefficients: Estimate Std. Error z value Pr(>|z|) puissance4 -3.35967 0.01580 -212.70 <2e-16 puissance5 -3.19353 0.01397 -228.53 <2e-16 puissance6 -3.16181 0.01259 -251.14 <2e-16 puissance7 -3.25744 0.01337 -243.68 <2e-16 puissance8 -3.34965 0.02463 -135.98 <2e-16 puissance9 -3.20436 0.02862 -111.97 <2e-16 puissance10 -3.24813 0.02865 -113.36 <2e-16 puissance11 -3.24661 0.03742 -86.75 <2e-16 puissance12 -3.32324 0.05812 -57.17 <2e-16 puissance13 -3.14545 0.08482 -37.08 <2e-16 puissance14 -3.14705 0.09950 -31.63 <2e-16 puissance15 -3.41704 0.10206 -33.48 <2e-16 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1

*** *** *** *** *** *** *** *** *** *** *** *** 1

(Dispersion parameter for poisson family taken to be 1) Null deviance: 1307478 on 678013 degrees of freedom Residual deviance: 175926 on 678001 degrees of freedom AIC: 226763

40

CHAPITRE 1. LA TARIFICATION A PRIORI

Number of Fisher Scoring iterations: 6 > exp(marges$coefficients[6]) puissance9 0.04058501


Ce que nous dit la mthode des marges est que cette valeur prdite correspond la moyenne empirique au sein de la classe de risque,

> I=(nombre$puissance=="9") > mean(nombre$nombre[I]) [1] 0.04058501

cel-00550583, version 1 - 28 Dec 2010

L'ide est la fois simple et naturelle sur les modles ne comportant que des classes de risques (et pas de variable continue).

1.3.3 Prise en compte de l'exposition et variable oset


Dans un modle collectif, on a besoin de connatre le nombre de sinistres survenus sur une police d'assurance. Dans l'optique de tarifer un contrat, il faut pouvoir prdire le nombre de sinistres qui surviendront, en moyenne, l'anne suivante. Or si certains polices n'ont t observes que 6 mois dans la base, il convient de pondrer la frquence de sinistre par l'exposition. Compte tenu de la proprit multiplicative d'un processus de Poisson, une police observe 1 an aura, en moyenne, 4 fois plus de sinistres qu'une police observe 3 mois. Dans le cas d'un modle log-Poisson, il est alors naturel de supposer que

Y |X P (exp[X + log(e)])
o

dsigne l'exposition, mesure en annes.

Dans le cas des rgressions de Poisson, cela peut se faire de la manire suivante

> reg=glm(nombre~0+puissance+region, + data=nombre,family=poisson(link="log"),offset=log(exposition))


On peut noter que la rgression pouvait s'crire

Y |X P (exp[0 + 1 X1 + + k Xk + e])
autrement dit, on rajoute l'exposition dans la rgression, tout en forant le coecient tre gal 1. Ceci lgitime ainsi la seconde criture possible

> reg=glm(nombre~0+puissance+region+offset(exposition), + data=nombre,family=poisson(link="log"))

1.3. MODLISER LA FRQUENCE DE SINISTRALIT

41

On notera qu'il est possible d'intrgrer une variable oset dans la mthode des marges, en notant qu'il convient de faire une moyenne du nombre de sinistres, divis par la moyenne de l'exposition. Par exemple pour reprendre une rgression prsente en introduction

> seuils = c(17,21,25,30,50,80,120) > reg2 = glm(nombre~cut(ageconducteur,breaks=seuils),data=sinistres, + family=poisson(link="log"),offset=log(exposition)) > predict(reg2,newdata=data.frame(ageconducteur=20,exposition=1), + type="response") [1] 0.2113669 > I=(sinistres$ageconducteur>=17)&(sinistres$ageconducteur<=21) > mean(sinistres$nombre[I==TRUE])/mean(sinistres$exposition[I==TRUE]) [1] 0.2113669

cel-00550583, version 1 - 28 Dec 2010

Une autre manire d'crire cette grandeur est de faire une moyenne pondre (par l'exposition) du nombre annualis de sinistres,

> weighted.mean(sinistres$nombre[I==TRUE]/sinistres$exposition[I==TRUE], + w=sinistres$exposition[I==TRUE]) [1] 0.2113669

1.3.4 Prise en compte de la surdispersion


Dans une rgression poissonnienne, on suppose que dans une classe de risque (ou conditionnellement aux variables explicatives), la frquence et l'esprance concident, i.e. Var(Y

|X ) = E(Y |X ). Dans l'exemple ci-dessous, on

considre le nombre de sinistres RC. On consistue quelques classes tarifaires,

> + > + > + > > >

moyenne = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant, "puissance"")], mean) variance = tapply(BASENB$N1RC , BASENB[,c("agecond","carburant, "puissance"")], var) taille = tapply(BASENB$expo , BASENB[,c("agecond","carburant", "puissance")], sum) plot(as.vector(moyenne),as.vector(variance)) abline(a=0,b=1,col="red") abline(lm(as.vector(variance)~as.vector(moyenne)),col="blue",lty=2)
On peut commencer par faire un premier test, an de voir si la pente de

la rgression semble signicativement dirente

> library(AER) > (regression=lm(as.vector(variance)~as.vector(moyenne), + weight=as.vector(taille))

42

CHAPITRE 1. LA TARIFICATION A PRIORI

1.0

Variance

0.4

0.6

0.8

0.2

q q q q q qq q q q qq q qq q qq q q q q q q q q q q qq q q q q q qq q q q q q qq q qq q q q qq q q q q q qq qq q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q qq q q q q

0.0

0.00

0.05

0.10 Moyenne par classe de risque

0.15

cel-00550583, version 1 - 28 Dec 2010

Figure
(Var(Y

1.21  Frquence moyenne et variance l'intrieur des classes de

risques obtenues en segmentant par type de carburant, par puissance et par ge de conducteur. Le trait continu correspond au cas de non-surdisperson

|X ) = E(Y |X )), et les traits pointills aux droites de rgression (avec

ou sans pondration par l'exposition).

Call: lm(formula = as.vector(variance) ~ as.vector(moyenne), weights = as.vector(taille)) Coefficients: (Intercept) as.vector(moyenne) -0.003966 1.200848 > linear.hypothesis(regression,"as.vector(moyenne)=1") Linear hypothesis test Hypothesis: as.vector(moyenne) = 1 Model 1: as.vector(variance) ~ as.vector(moyenne) Model 2: restricted model Res.Df RSS Df Sum of Sq F Pr(>F) 1 1653 67.658 2 1654 70.460 -1 -2.8024 68.468 2.623e-16 *** ---

1.3. MODLISER LA FRQUENCE DE SINISTRALIT


Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1

43

Une manire de prendre en compte la surdispersion peut tre de prendre non une loi de poisson, mais une loi quasipoisson, telle que Var(Y |X ) = E(Y |X ), o devient un paramtre estimer (tout comme la volatilit des rsidus dans une rgression linaire Gaussienne).

> regglm <- glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance), + offset=log(expo), data=BASENB,family=quasipoisson) > summary(regglm) Call: glm(formula = N1RC ~ as.factor(agecond) + carburant + as.factor(puissance), family = quasipoisson, data = BASENB[I, ], offset = log(expo)) (Dispersion parameter for quasipoisson family taken to be 1.583862) > (summary(regglm)$dispersion) [1] 1.583862
Pour tester la prsence d'une ventuelle surdispersion, on peut noter que la surdispersion correspond une htrognit rsiduelle, c'est dire un eet alatoire. Par exemple on peut supposer que

cel-00550583, version 1 - 28 Dec 2010

(Y |X = X , Z = z ) P (exp[X + z ])
de telle sorte que si

u = z E(Z |X = X ),

alors

(Y |X = X , Z = z ) P (exp[X + u])
On a un modle dit eets xes, au sens o

(Y |X = X ) P (exp[X + U ])
o

i.e. d'esprance

U = Z E(Z |X = X ). Par exemple, si on suppose que U (a, a), 1 et de variance 2 = 1/a, alors (Y |U = u) P (u)
o

= exp[X ]

de telle sorte que

E(Y |U = u) = Var(Y |U = u).


Mais si on regarde la loi nonconditionnelle, Var(Y

E(Y ) =

alors que

) = Var(E[Y |U ]) + E(Var(Y |)) = + 2 2 .

44

CHAPITRE 1. LA TARIFICATION A PRIORI


Var(Y

On peut alors proposer un test de la forme suivante : on suppose que

|X = X ) = E(Y |X = X ) + E(Y |X = X )2

on on cherche tester

H0 : = 0

contre

>0

Parmi les statistiques de test classique, on pourra considrer

T =

n i=1 [(Yi

i ) 2 Yi ]
n 2 i=1 i
rduite. On utilise simplement

2
qui suit, sous

cel-00550583, version 1 - 28 Dec 2010

H0 , une loi normale centre dispersiontest() de library(MASS).

> regpoisson=glm(N1RC~as.factor(agecond)+carburant+as.factor(puissance),offset=lo + data=BASENB,family=poisson) > dispersiontest(regpoisson) Overdispersion test data: regpoisson z = 6.4039, p-value = 7.572e-11 alternative hypothesis: true dispersion is greater than 1 sample estimates: dispersion 1.069558
Une autre possibilit est de faire une rgression binomiale ngative (qui permettra de prendre en compte de la la fonction

glm.nb()

de

library(MASS).

surdispersion). Elle se fait l'aide de

> regbn <- glm.nb(N1RC~as.factor(agecond)+carburant+as.factor(puissance) + offset(log(expo)),data=BASENB[I,])

Poisson-Gamma. Dans library(gamlss) on parle de loi binomiale ngative de type I. Une loi de type II est obtenue en considrant un mlange Poissoninverse Gaussienne.

Remarque 1.3 La loi Binomial Ngative est obtenue comme un mlange

1.3.5 Les modles zero-inated


An d'viter l'ala moral, il n'est pas rare de mettre en place des contrats participatifs. En assurance, l'exemple le plus connu est probablement le mcanisme de bonus-malus. Une personne qui n'a pas d'accident responsable

1.3. MODLISER LA FRQUENCE DE SINISTRALIT


une anne a le droit un rabais l'anne suivante (un

45

bonus) alors qu'une per-

sonne ayant eu un ou plusieurs sinistres subit une majoration de prime (un

malus).

D'un point de vue conomtrique, cette solution prsente un biais

puisqu'elle peut insiter des personnes ne pas dclarer certains sinistres (ds lors que la majoration excde le cot du sinistre). Il n'est alors pas rare d'observer

trop

de personnes non-sinistres dans la population totale (par

rappport un modle Poissonnien). Un modle dit

zero inated surpoids

est un mlange entre une masse en

et

un modle classique de comptage, typiquement un modle de Poisson, ou binomial ngatif. Pour modliser la probabilit de ne pas dclarer un sinistre (et donc d'avoir un exemple, en

0),

considrons un modle logistique par

i =

cel-00550583, version 1 - 28 Dec 2010

exp[X i ] 1 + exp[X i ] pi (k )
la probabilit que l'individu

Pour le modle de comptable, on note ait

sinistres. Aussi,

P(Ni = k ) =
Si

i + [1 i ] pi (0) si k = 0, [1 i ] pi (k ) si k = 1, 2,

pi correspond un modle Poissonnien, on peut alors montrer facilement 2 que E(Ni ) = [1 i ]i et Var(Ni ) = i i + i i [1 i ]. library(gamlss) propose la fonction ZIP (pour zero inated Poisson), mais aussi ZINBI (lorsque pi correspond une loi binomiale ngative), ou ZIPIG (pour un mlange Poisson-inverse Gaussien), par exemple. La library(pscl) propose galement une fonction zeroinfl plus simple d'utilisation, proposant aussi bien un modle de Poisson qu'un modle binomial ngatif. Il existe aussi des modles dits

zero adapted, o l'on suppose que

P(Ni = k ) =
Dans

k = 0, pi (k ) [1 i ] 1 pi (0)
si

si

k = 1, 2,

des fonctions

library(gamlss) il s'agit du modle ZAP. Comme auparavant, il existe ZANBI ou ZAPIG.

Ces modles ination zro peuvent tre particulirement utiles pour prendre en compte un excs de non-dclarations de sinistres, gnralement attribues une peur de perdre un niveau intressant de bonus-malus : la perte nancire associe au malus des annes suivantes peut excder l'indemnit verse aujourd'hui. On peut ajuster ici un modle zero-inated (logit) avec une loi de Poisson an d'expliquer la sinistralit en fonction de l'ge du conducteur (en prenant en compte l'ge via une fonction nonlinaire que l'on estimera l'aide de splines).

46

CHAPITRE 1. LA TARIFICATION A PRIORI


reg1 <- glm(nombre~ageconducteur,offset=exposition,data=nombre, family=poisson) reg2 <- glm(nombre~bs(ageconducteur,df=4),offset=exposition, data=nombre,family=poisson) reg3 <- zeroinfl(nombre~ageconducteur | ageconducteur, data = nombre,offset=exposition,dist = "poisson",link="logit") reg4 <- zeroinfl(nombre~bs(ageconducteur,df=4) | bs(ageconducteur), data = nombre,dist = "poisson",link="logit",offset=exposition)
La prdiction obtenue pour les ges usuels est prsente sur la Figure

> + > + > + > +

1.22. Si l'on ne prend pas en compte l'ge de manire nonlinaire, les deux modles prdisent sensiblement la mme chose.

cel-00550583, version 1 - 28 Dec 2010

Frquence annuelle de sinistre

0.04

0.06

0.08

0.10

0.12

0.02

Poisson, linaire Poisson, nonlinaire Zero inflated Binomiale Negative, linaire Zero inflated Binomiale Negative, nonlinaire

20

30

40

50

60

70

Age du conducteur princpal

Figure 1.22  Prdiction l'aide de modles zero-inated (logit) avec une


loi de Poisson de la sinistralit en fonction de l'ge du conducteur.

On peut s'intresser plus particulirement l'impact de l'ge sur la probabilit de ne pas dclarer de sinistres (correspondant au paramtre de la loi binomiale).

> > > >

age=seq(18,80) DT=data.frame(ageconducteur=age,exposition=1) Y4z <- predict(reg4,newdata=DT,type="zero") plot(age,Y4z)


On notera que l'interprtation en terme de niveau de bonus-malus semble

pertinente, en particulier si l'on regarde le

bonus moyen en fonction de l'ge

du conducteur, prsent sur la Figure 1.24 : le taux de bonus (et donc la

1.3. MODLISER LA FRQUENCE DE SINISTRALIT


0.9

47

Probabilit de ne pas dclarer un sinistre

0.5

0.6

0.7

0.8

20

30

40

50 Age du conducteur princpal

60

70

80

cel-00550583, version 1 - 28 Dec 2010

Figure 1.23  Probabilit i du modle ination zro, interprte comme la


probabilit de ne pas dclarer un sinistre, en fonction de l'ge du conducteur.

prime) diminue avec l'ge, ce qui incite probablement ne pas dclarer certains petits sinistres responsables.

1.3.6 Rgression simple versus rgression multiple


Il est important de bien vrier les interractions entre les variables explicatifs dans la rgression, an d'tre certain que l'eet est bien additif.

1.3.7 Prdiction de la frquence par police


Nous avons vu qu'il tait possible d'ajuster un grand nombre de modles, en changeant la

loi

(Poisson, zero-inated Poisson, Binomiale Nga-

tive, Poisson-inverse Gaussienne) de la variable

N,

mais aussi la forme du

modle (l'ge intervenant tel quel, par classe, ou bien transforme de manire nonlinaire, par exemple). Une cinquantaine de modles ont t ajusts. An de comparer ces modles, on calcule le critre d'Akaike (AIC) ou de Schwarz (BIC). On peut aussi prdire la frquence pour quelques individus type,

> + + + + +

individus=data.frame( exposition=c(1,1,1), zone=c("B","C","D"), puissance=c(11,6,7), agevehicule=c(0,3,10), ageconducteur=c(40,18,65),

48

CHAPITRE 1. LA TARIFICATION A PRIORI

Niveau de bonus moyen

50

60

70

80

90

100

110

20

30

40

50 Age du conducteur principal

60

70

80

cel-00550583, version 1 - 28 Dec 2010

Figure

1.24  Niveau moyen de taux de bonus en fonction de l'ge du

conducteur.

+ + + + > 1 2 3 1 2 3

marque=c(1,2,10), carburant=c("D","E","D"), densite=c(11,24,93), region=c(13,13,7)) individus exposition zone puissance agevehicule 1 B 11 0 1 C 6 3 1 D 7 10 ageconducteur marque carburant densite region 40 1 D 11 13 18 2 E 24 13 65 10 D 93 7
Il est aussi possible d'utiliser les arbres de rgression an de mieux com-

prendre les dirences entre les modles.

> > > > + > >

I=sample(1:nrow(sinistres),size=150000,replace=FALSE) base1=sinistres[I,] base2=sinistres[-I,] reg1 = glm(nombre~puissance+agevehicule+ageconducteur+carburant+as.factor(regio data=base1,family=poisson,offset=log(exposition)) library(mgcv) reg2 = gam(nombre~zone+puissance+s(agevehicule)+s(ageconducteur)+carburant+as.f

1.3. MODLISER LA FRQUENCE DE SINISTRALIT


q q

49

0.15

q q

Frquence annuelle de sinistre

q q q q q q q q q q qq q q q q q q q qq q q q q q q q qq q qq q qq q q qqq q qq q q q q q qq q q q

0.10

q q q q q q q

0.05

0.00

20

40

60 Age du conducteur principal

80

cel-00550583, version 1 - 28 Dec 2010

Figure

1.25  Frquence individuelle en fonction de l'ge du conducteur

principal.

+ > > > > > > > > >

data=base1,family=poisson,offset=log(exposition)) Y1=predict(reg1,newdata=base2) Y2=predict(reg2,newdata=base2) diff=(Y1-Y2) base2$INDIC = (diff>0) base2$diff = diff library(tree) arbre <- tree(diff~puissance+agevehicule+ageconducteur+carburant+zone+densite,data=base plot(arbre) text(arbre)

On cherche comparer sur quelles segments de population les modles donnent des prdictions sensiblement direntes. Les deux modles ont la mme stucture (log-Poisson), mais le premier ne prend pas en compte les aspects nonlinaires. Le premier n'intgre pas non plus la variable de densit de populaion. Visiblement, il y a une forte dirence de prdiction  sur les rgions 'faiblement' peuples,  sur les jeunes conducteurs,  sur les vhicules neufs,

densite<482.5 ageconducteur<24.5 agevehicule<0.5

50
q q

CHAPITRE 1. LA TARIFICATION A PRIORI


q q q q q q q q

0.15

q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qqq q q q q q qq q q q q qqq q q qq q qq qqq qq q qq q qq qqq q qqq q q q q q q q qq q qq q q qq q qqq q q q q q q q q qq qq qq q qq qq qq q qq q q q qqqqq q qq qq q qqqqq q q q q q q q q q q q qq q q q qq q qq q q q q q qq qqq q q qqq q q q q q q q q q q q q q q q

Frquence annuelle de sinistre

0.10

q q

0.05

q q q

0.00

Diesel Essence 20 40 60 Age du conducteur principal 80

q q qqqq

cel-00550583, version 1 - 28 Dec 2010

Figure

1.26  Frquence individuelle en fonction de l'ge du conducteur

principal, et du type de carburant.

1.4 Modliser les cots individuels des sinistres


Les cots de sinistres sont des variables positives. En prsence de cots xes (bris de glace par exemple), la loi des cots de sinistres sera une loi continue, avec des masses de Dirac (l on l'on observe des cots xes). La loi est alors

f (y ) = (1 p)f (y ) + p1(y = C )
o

dsigne la probabilit d'avoir un cot qui soit prcisment

C.

Dans

notre approche conomtrique, on peut envisager un modle de la forme

f (y |X = x) = (1 p(x))f (y |X = x) + p(x)1(y = C )
o

p(x) peut tre modlise par une rgression logistique, et o f (y |X = x)

est une loi positive

densit.

On peut alors chercher modliser cette loi continue.

1.4.1 Modle Gamma et modle lognormal


Les deux modles les plus classiques permettant de modliser les cots individuels de sinistre sont  le modle Gamma sur les cots individuels dle Gaussien sur le logarithme des cots,

Yi Yi , ou log(Yi ), la
plutt un moloi lognormale

 le modle log-normal sur les cots individuels n'appartenant pas la famille exponentielle.

1.4. MODLISER LES COTS INDIVIDUELS DES SINISTRES


q q q q

51

0.15

q q q q q q q q q q qq q q q q qq q q q qq qq q q q qqqqqq q qqqq q q q q qq q q qq q q q qqq q q q q q q q q q q q q q q q q q q q q q q qqqq q q qq q qq qq q q q q q q qq qq q q q q q q qqq q q q q q q q qqq qq q q q q q q q qq q q q q q q q q qq q q qqq qqq q qq q q qq q q q q q q qqqq q q qq qq q q q qq q q q q q q q q

q q

Frquence annuelle de sinistre

0.10

q q q q q q q

0.05

q q q

0.00

Voiture rcente (<5 ans) Voiture ancienne (>6 ans) 20 40 60 Age du conducteur principal 80

q qqq

cel-00550583, version 1 - 28 Dec 2010

Figure

1.27  Frquence individuelle en fonction de l'ge du conducteur

principal, et de l'anciennet du vhicule.

Le(s) modle(s) Gamma


La loi Gamma, de paramtres

et

de densit

f (y ) =
vrie

1 y exp(y ), () = 2 .

pour

y 0,

E(Y ) =

et Var(X )

Autrement dit, le coecient de variation

vaut ici CV

Var(X )

E(Y )

1 =

qui peut tre analys comme un cocient de on peut crire Var(Y

dispersion. En fait, si = 1/,

)=

1 2 = E(Y )2 , 2

o on retrouve ici une fonction variance de forme quadratique. Le cas particulier

=1

corrrespond la loi

exponentielle.

Bien que le lien canonique de la loi Gamma soit la fonction inverse, il est plus frquent d'utiliser un lien logarithmique. En eet, la forme multiplicative donne des interprtations simples dans le cas des modles multiples.

> reggamma <- glm(cout~ageconducteur,family=Gamma(link="log"), + data=sinistres) > summary(reggamma)

52

CHAPITRE 1. LA TARIFICATION A PRIORI


q q q qq q

0.15

q q q q q q q q q q q q q q q q q

Frquence annuelle de sinistre

0.10

qq q q qq qq q q

q qq q q q q qq q qqq q q qq q q q q qq qqqq q qq q q q q q q q qqqqq q qq q qq q q qqq q q qqq q q q q q q q q q q q q qqqqqqq qq q qq q q q q q q q q q q q q q qq qq q qqqq q q q qq q qqq q q qq q q q q q q qq q q qq q q qq q q q q q qq q q q q q q qq qq qq q q qq q q q q qq qq q q q

q q q q q q q

0.05

0.00

Faible densit Densit leve 20 40 60 Age du conducteur principal 80

q qqq

cel-00550583, version 1 - 28 Dec 2010

Figure

1.28  Frquence individuelle en fonction de l'ge du conducteur

principal, et de la densit de la rgion d'habitation.

Call: glm(formula = cout ~ ageconducteur, family = Gamma(link = "log"), data = sinistres) Deviance Residuals: Min 1Q Median -3.6322 -0.9769 -0.6110 Coefficients: 3Q Max -0.3917 52.5993

Estimate Std. Error t value Pr(>|t|) (Intercept) 8.180643 0.208009 39.328 <2e-16 *** ageconducteur -0.010440 0.004383 -2.382 0.0172 * --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 (Dispersion parameter for Gamma family taken to be 109.7107) Null deviance: 46482 on 26443 degrees of freedom Residual deviance: 45637 on 26442 degrees of freedom AIC: 458704 Number of Fisher Scoring iterations: 9

1.4. MODLISER LES COTS INDIVIDUELS DES SINISTRES


30000 30000
q q q q q q qq

53

30000

q q q

q q

erreur de prdiction (L1)

erreur de prdiction (L1)

erreur de prdiction (L1)

25000

25000

20000

20000

qq q q q q q q

q q qq

q q q q q q q q

20000

25000

qq q q q q

15000

15000

q q

q q q q qq q q q

q qq q

q q q q q qq q

15000

q q

q q q q q q q

q q

q q q qq

q q

0.02

0.04

0.06

0.08

0.10

0.05

0.10

0.15

0.20

0.02

0.04

0.06

0.08

0.10

0.12

0.14

frquence prdite, individu (1)

frquence prdite, individu (2)

frquence prdite, individu (3)

q q

q q q

qq q

q q q q q

erreur de prdiction (L2)

erreur de prdiction (L2)

q q

q q

q qq q q

erreur de prdiction (L2)

q q

q q

12400

12400

q q

q q q q q q

qq q q

12400
q q

q q q q q q q q

q q q q q q

12200

12200

qq q q q q q q q

q q q

12200

qq q q qq q q

qq q q q qq

0.02

0.04

0.06

0.08

0.10

0.05

0.10

0.15

0.20

0.02

0.04

0.06

0.08

0.10

0.12

0.14

cel-00550583, version 1 - 28 Dec 2010

frquence prdite, individu (1)

frquence prdite, individu (2)

frquence prdite, individu (3)

Figure 1.29  Estimation de E(N |X ) sur 3 individus type, l'aide d'une


cinquantaine de modle.

Si

on

s'intresse

la

valeur

prdite

pour

une

personne

d'ge

ageconducteur=50,

on obtient

> predict(reggamma,newdata=data.frame(ageconducteur=50), + type="response") 1 2118.879

Le modle lognormal
La rgression lognormale peut tre obtenue en considrant une rgression linaire (Gaussienne) sur le logarithme du cot,

log(Yi ) = X i + i
avec

i N (0, 2 ). En eet, par dnition de LN (, 2 ) si et seulement si log Y N (, 2 ).


cet criture est que

la loi lognormale,

Le principal soucis dans

2 = exp() = exp[E(log Y )] 2 2 Var(Y ) = exp 2 + exp 2 1 = exp( 2 ) = exp[Var(log Y )] E(Y ) = exp +


Autrement dit, il sera dlicat de passer des estimations faites partir du modle sur

log Y

des prdictions sur le cot

Y.

Une rgression sur le loga-

rithme des cots donnerait par exemple,

54

CHAPITRE 1. LA TARIFICATION A PRIORI

densite < 482.5 |

ageconducteur < 24.5

agevehicule < 0.5

ageconducteur < 24.5 agevehicule < 0.5 1.7940 2.0990 1.1990 1.8900

1.5410

0.7205

cel-00550583, version 1 - 28 Dec 2010

Figure 1.30  Comparaison de deux modles log-Poisson.


> reglm <- lm(log(cout)~ageconducteur,data=sinistres) > summary(reglm) Call: lm(formula = log(cout) ~ ageconducteur, data = sinistres) Coefficients: Estimate Std. Error t value (Intercept) 6.7501521 0.0224328 300.905 ageconducteur 0.0021392 0.0004727 4.525 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 Pr(>|t|) < 2e-16 *** 6.06e-06 *** . 0.1 1

Residual standard error: 1.13 on 26442 degrees of freedom Multiple R-squared: 0.0007738, Adjusted R-squared: 0.0007361 F-statistic: 20.48 on 1 and 26442 DF, p-value: 6.059e-06 > sigma=summary(reglm)$sigma
Si on s'intresse la valeur prdite pour une personne d'ge

ageconducteur=50,

on obtient

> mu=predict(reglm,newdata=data.frame(ageconducteur=50)) > exp(mu+sigma^2/2) 1 1799.239

1.4. MODLISER LES COTS INDIVIDUELS DES SINISTRES


On notera que les deux modles donnent des rsultats

55

trs

sensiblement

dirents (en terme de signe par exemple). On peut comparer les prdictions sur la Figure 1.31 (sur laquelle des rgressions nonparamtriques ont t superposes).

Cot individuel d'un sinistre

cel-00550583, version 1 - 28 Dec 2010

1000

1500

2000

2500

3000

3500

Gamma Lognormal Gamma (splines) Lognormal (splines)

500

20

40

60 Age du conducteur principal

80

100

Figure 1.31  Rgressions lognormale versus Gamma, o le cot individuel


est expliqu par l'ge du conducteur. La Figure 1.32 montre les mmes types de modles si l'on cherche expliquer le cot par l'anciennet du vhicule. En particulier, la croissance du cot moyen en fonction de l'ge du vhicule est surprenante compte tenu de la baisse de la cote du vhciule l'argus, En fait, la divergence entre les deux modles vient du fait que le modle Gamma est trs sensible aux valeurs extrmes. Un avantage du modle lognormal est qu'en prenant le logarithme des cots, on attnue l'importance des sinistres de cot exceptionnel. En cartant les sinistres tels que

sinistres$cout>200000,

on obtient des modles comparables (et proches

de ce que donnait la rgression lognormale sur l'ensemble de la base)

> sinistrescap <- sinistres[sinistres$cout<200000,]


Nous reviendrons plus en dtails sur la prise en compte de ces sinistres exceptionnels (qui ici ont simplement t carts).

Prise en compte d'un montant maximal


Dans la plupart des assurances associes aux dommages matriels, les polices indiquent des montants maximals. Dans le cas o seul le vhicule

56

CHAPITRE 1. LA TARIFICATION A PRIORI


3500 Cot individuel d'un sinistre 1000 1500 2000 2500 3000

Gamma Lognormal Gamma (splines) Lognormal (splines)

500

10

15

20

25

cel-00550583, version 1 - 28 Dec 2010

Anciennet du vhicule

Figure 1.32  Rgressions lognormale versus Gamma, o le cot individuel


est expliqu par l'anciennet du vhicule.

de l'assur est couvert, le montant maximal d'un sinistre matriel est la valeur du vhicule. Dans la garantie vol des contrats habitations, le montant maximal sera la valeur des biens assurs. Les

est ainsi une variable censure

par ce cot maximal (qui peut li la police).

library(Zelig) et library(HMisc) permettent de faire une rgreslibrary(Zelig) on va indiquer que tous les cots sont noncensurs

sion lognormale, dans le contexte des modles de dure. Pour utiliser la fonction (car ici on ne dispose pas de l'information)

> > + >

library(Zelig) regloglm <- zelig(Surv(cout, rep(1,length(cout))) ~ ageconducteur, model = "lognorm", data = sinistres) summary(regloglm)

Call: zelig(formula = Surv(cout, rep(1, length(cout))) ~ ageconducteur, model = "lognorm", data = sinistres) Value Std. Error z p (Intercept) 6.75015 0.022432 300.92 0.00e+00 ageconducteur 0.00214 0.000473 4.53 6.03e-06 Log(scale) 0.12183 0.004348 28.02 9.76e-173 Scale= 1.13

1.4. MODLISER LES COTS INDIVIDUELS DES SINISTRES


3500

57

Cot individuel d'un sinistre

1000

1500

2000

2500

3000

Gamma Lognormal Gamma (splines) Lognormal (splines)

500

10

15

20

25

cel-00550583, version 1 - 28 Dec 2010

Anciennet du vhicule

Figure 1.33  Rgressions lognormale versus Gamma, o le cot individuel


est expliqu par l'anciennet du vhicule.

Log Normal distribution Loglik(model)= -221797.7 Loglik(intercept only)= -221807.9 Chisq= 20.47 on 1 degrees of freedom, p= 6.1e-06 Number of Newton-Raphson Iterations: 2 n= 26444

1.4.2 Modlisation des grands sinistres


Il existe un grand nombre de faons de dnir les lois queues paisses. La plus lgante d'un point de vue actuarielle est probablement la famille des lois

sous exponentielles (dcrites dans [?]). Une loi de fonction de survie


n 2, F n (x) =n x F (x) lim

sera dite sous-exponentielle si pour tout

ou bien, si

X1 , , Xn ,

sont des variables i.i.d. de loi

F,

P(X1 + + Xn > x) P(max{X1 , , Xn } > x).


Autrement dit, la loi de la charge totale dans un portefeuille a des queues des distributions qui se comportent comme le plus gros sinistres. Ce sont donc des lois qui sont trs inuences par ces trs gros sinistres. Parmi les lois de la famille sous-exponentielle,  la loi lognormale,

f (y )

1 exp [log y ]2 /2 2 y

58

CHAPITRE 1. LA TARIFICATION A PRIORI


 la loi de Weibull,

f (y ) xk1 exp[xk ]

si

k<1

mais la loi la plus utilise, en particulier en rassurance, n'est pas dans la famille exponentielle,  la loi de Pareto,

f (y ) [ + y ]1

Dans ces familles de lois queues paisses, on va ainsi retrouver une autre classe relativement connue, savoir les lois dite Ces lois sont aussi dite

de type Pareto, au sens o


P(Y > y ) = y L(y )

variation rgulire.

est une fonction variation lente, i.e.

lim

L(tx) =1 L(x)

pour tout

t > 0.

cel-00550583, version 1 - 28 Dec 2010

Reverse Gumbel ou Power Exponential


note GB2. On suppose que

La

library(gamlss)

propose d'autres familles de lois, comme les lois

Il est possible de dnir une famille dite

beta gnralise de seconde espce,


1 2 )
on

log Y = + log
o

G (i , 1)

obtient la

loi gamma gnralise.

sont indpendantes. Si

est une constante (2

La densit de cette loi s'crit :

f (y ) y 1 exp
Supposons que

log y

1 + exp

log y

(1 +2 )

soit une fonction linaire des variables explicatives,

= X .

Alors

E(Y |X ) = C exp[(X )] = C exp[X ]


Ces modles sont dtaills dans [23].

1.4.3 Ecrtement des grands sinistres


Si l'on considre des modles conomtriques bass uniquement sur des variables catgorielles (en particulier des classes pour les variables continues) la prime pure est alors gnralement la moyenne empirique dans la classe considre (c'est en tous les cas ce que prconise par exemple la mthode des marges). Mais cette mthode devient alors vite trs sensible aux sinistres extrmes. An d'viter ce problme, il n'est pas rare d'crter les sinistres : on calcule la prime moyenne par groupe tarifaire en cartant les gros sinistres, qui

1.4. MODLISER LES COTS INDIVIDUELS DES SINISTRES

59

seront rpartis sur l'ensemble de la population. On peut bien entendu raner cette mthode en considrant des modles hirarchiques et en rpartissant simplement sur une surclasse. Supposons que les sinistres extrmes soient ceux qui dpassent un seuil

(connu). Rappelons que la formule des probabilits totales permet d'crire

que (dans le cas discret pour faire simple)

P(A) =
i
o

P(A Bi )
i

P(A|Bi ) P(Bi )

(Bi ) Bc

forme une partition de

En particulier

P(A) = P(A|B ) P(B ) + P(A|B c ) P(B c )


o dsigne le complmentaire de

B.

En passant l'esprance, et en tra-

vaillant sur des variables alatoires plutt que des ensembles, on peut crire

cel-00550583, version 1 - 28 Dec 2010

E(Y ) = E(Y |B ) P(B ) + E(Y |B c ) P(B c )


Si on prend comme cas particulier

B = {Y s}

et

B c = {Y > s},

alors

E(Y ) = E(Y |Y s) P(Y s) + E(Y |Y > s) P(Y > s).


nallement, on note que la probabilit

n'a jou aucun rle ici, et on peut

parfaitement la remplacer par une probabilit conditionnelle,

PX ,

i.e.

E(Y |X ) = E(Y |X , Y s) P(Y s|X ) + E(Y |X , Y > s) P(Y > s|X )


Le premier terme correspond aux sinistres `normaux' par une loi voque prcdemment (rgression Gamma par exemple). Pour le second terme, on noteta que

E[E(Y |X , Y > s)] = E(Y |Y > s).

Autrement dit, on peut tre

tent par ne plus distinguer par classe pour le cot moyen des trs trs gros sinistres. Mais on rpartira proportionnellement la frquence des gros sinistres sinistres. La prdiction sera donc base sur trois parties, la premire pour les sinistres usuels (plus petits que les sinistres excdant

s), et la seconde pour les grands sinistres (pour

par classe tarifaire, d'avoir un sinistre excdant le seuil

s), avec comme troisime terme que sera la probabilit, s.

> > > > > > > > > > >

seuil=500000 sinistres.inf = sinistres[sinistres$cout<=seuil,] sinistres.sup = sinistres[sinistres$cout>seuil,] sinistres$indic = sinistres$cout>seuil proba=gam(indic~s(ageconducteur),data=sinistres,family=binomial) probpred=predict(proba,newdata=data.frame(ageconducteur=age),type="response") reg=gam(cout~s(ageconducteur),data=sinistres.inf,family=Gamma(link="log")) Y.inf=predict(reg,newdata=data.frame(ageconducteur=age),type="response") Y.sup=mean(sinistres.sup$cout) Y=Y.inf*(1-probpred)+Y.sup*probpred plot(age,Y)

60

CHAPITRE 1. LA TARIFICATION A PRIORI


15000

ensemble des sinistres base crte 500 000 base crte 100 000

Cot moyen d'un sinistre

5000

10000

20

30

40

50

60

70

80

90

cel-00550583, version 1 - 28 Dec 2010

Age du conducteur principal

Figure 1.34  Estimation de E(Y |X ) avec ou sans crment (la surcrte ici
ici rpartie entre les assurs proportionnellement leur probabilit d'avoir un gros sinistre).

probpred

est ici la prdiction de

P(Y > s|X ).

La gure 1.35 montre

comment la charge surcrte est rpartie entre les assurs : pour un seuil contrairement aux assurs de 25 35 ans.

500 000 euros, les trs jeunes conducteurs (moins de 22 ans) paieront moins,

1.5 Modliser les cots par police


Dans certains cas, on ne dispose que de la charge totale annuelle par police d'assurance.

1.5.1 Les modles Tweedie comme modle Poisson compos


Les modles Tweedie peuvent tre vu comme des modles Poisson composs. On suppose que

Y =
k=0
o les

Zk
qu'ils suivent une loi Gamma

(Zk ) sont i.i.d., on on pourra supposer G (, ), indpendament de N P (). Alors

E(Y ) = E(N ) E(Zk ) =

1.5. MODLISER LES COTS PAR POLICE

61

Impact relatif

0.2

0.8

1.4

20

30

40

50

60

70

80

90

Age du conducteur principal

Impact relatif

0.2

0.8

1.4

20

30

40

50

60

70

80

90

cel-00550583, version 1 - 28 Dec 2010

Age du conducteur principal

Figure 1.35  Impact (relatif ) de l'crtement, pour un seuil 100 000 euros
en haut, et 500 000 en bas.

et Var(Y

2 ) + Var(N ) E(Zk )2 = ) = E(N ) E(Zk

2 + 2 2

Supposons qu'il existe

p ]1, 2[

et

>0

tels que

2p 1 , = p1 (p 1)p1 Y

et

2p (2 p)

alors on peut montrer que la loi de avec

appartient la famille exponentielle

E(Y ) =
o le paramtre alors

et Var(Y

) = p

V ( ) = p .

est un paramtre de dispersion, et la fonction variance est

An de mettre en oeuvre l'utilisation de ces modles, commenons par sommer les cots de sinistres par police.

> base=sinistres[,1:2] > head(base) nocontrat cout 1 139 303.00 2 190 1981.84 3 414 1456.55 4 424 989.64 5 424 9844.36

62

CHAPITRE 1. LA TARIFICATION A PRIORI

6 463 3986.67 > somme <- aggregate(base[,2],by=list(base[,1]),sum) > names(somme)=c("nocontrat","cout") > head(somme) nocontrat cout 1 139 303.00 2 190 1981.84 3 414 1456.55 4 424 10834.00 5 463 3986.67 6 606 1840.14 > sinistres <- merge(somme,nombre,all=TRUE) > sinistres$cout=replace(sinistres$cout,is.na(sinistres$cout),0)

cel-00550583, version 1 - 28 Dec 2010

On peut alors utiliser les modles Tweedie, par exemple avec un paramtre

p=1.3,

> regTw <- glm(cout~ageconducteur+agevehicule+as.factor(puissance), + data=sinistres, tweedie(1.3,0)) > summary(regTw) Call: glm(formula = cout ~ ageconducteur + agevehicule, family = tweedie(puis, 0), data = sinistres) Deviance Residuals: Min 1Q -19.384 -8.516 Coefficients: Median -8.019 3Q -7.481 Max 2389.532 Pr(>|t|) < 2e-16 *** 0.00132 ** 0.02330 * . 0.1 1

Estimate Std. Error t value (Intercept) 4.947441 0.224142 22.073 ageconducteur -0.014533 0.004525 -3.212 agevehicule 0.023133 0.010198 2.268 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05

(Dispersion parameter for Tweedie family taken to be 59123.96) Null deviance: 106887434 on 678012 degrees of freedom Residual deviance: 105804487 on 678010 degrees of freedom AIC: NA Number of Fisher Scoring iterations: 8

Chapitre 2

Les provisions pour sinistres payer


cel-00550583, version 1 - 28 Dec 2010
Dans ce chapitre, nous allons tudier les mthodes pour calculer le montant des

provisions pour sinistres payer,

et plus particulirement, des m-

thodes permettant de quantier la marge d'erreur associe.

2.1 La problmatique du provisionnment


les provisions techniques sont les provisions destines permettre le rglement intgral des engagements pris envers les assurs et bnciaires de contrats. Elles sont lies la technique mme de l'assurance, et imposes par la rglementation. D'un point de vue plus formel, la
Comme le dnit [29],  date

t,

la compagnie d'assurance est tenue de constituer une provision pour

les sinistres survenus avant la date

t qu'elle sera tenu d'indemniser. Elle doit

donc estimer le cot des sinistres survenus, et retrancher les montants dj verss. Il s'agit donc fondamentalement d'un problme de prvision. Parmi les mthodes reconnues par les autorits de contrles, les plus classiques sont bases sur les cadences de paiements. On raisonne pour cela par anne de survenance de sinistre, et on suppose une certaine rgularit dans la cadence de paiement.

2.1.1 Quelques dnitions et notations, aspects rglementaires et comptables


La plupart des mthodes prsentes ici sont dtailles dans [7], ou [33]. Classiquement, on notera   

i (en ligne) l'anne de survenance, j (en colonne) l'anne de dveloppement, Yi,j les incrments de paiments, pour l'anne de dveloppement j , pour les sinistres survenus l'anne i, tableau 2.1
63

64

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


  

Ci,j

les

paiments cumuls, au sens o Ci,j = Yi,0 + Yi,1 + + Yi,j , pour


de survenance

j , tableau 2.2 Pi la prime acquise pour l'anne i, tableau 2.3 Ni,j le nombre cumul de sinistres pour l'anne bout de j annes, tableau 2.4
l'anne de survenance 0 0 1 2 3 4 5 3209 3367 3871 4239 4929 5217 1 1163 1292 1474 1678 1865 2 39 37 53 103 3 17 24 22 4 7 10

vu au

5 21

cel-00550583, version 1 - 28 Dec 2010

Table 2.1  Triangle des incrments de paiements, Y


0 0 1 2 3 4 5 3209 3367 3871 4239 4929 5217 1 4372 4659 5345 5917 6794 2 4411 4696 5398 6020 3 4428 4720 5420 4 4435 4730 5 4456

= (Yi,j ).

Table 2.2  Triangle des paiements cumuls, C = (Ci,j ).


Year

0 4591

1 4672

2 4863

3 5175

4 5673

5 6431

Pi

Table 2.3  Vecteur des primes acquises, P


NA pour les valeurs PAID, PREMIUM, NUMBER

= (Pi ).

Formellement, toutes ces donnes sont stockes dans des matrices, avec des valeurs manquantes utilisera les triangles futures. Pour les importer, on et

INCURRED

> source(bases.R) > PAID [,1] [,2] [,3] [1,] 3209 4372 4411 [2,] 3367 4659 4696 [3,] 3871 5345 5398

[,4] [,5] [,6] 4428 4435 4456 4720 4730 NA 5420 NA NA

2.1. LA PROBLMATIQUE DU PROVISIONNMENT


0 0 1 2 3 4 5 1043.4 1043.0 965.1 977.0 1099.0 1076.3 1 1045.5 1027.1 967.9 984.7 1118.5 2 1047.5 1028.7 967.8 986.8 3 1047.7 1028.9 970.1 4 1047.7 1028.7 5 1047.7

65

Table 2.4  Triangle des nombres de sinistres, cumuls, en milliers, N


(Ni,j ).

cel-00550583, version 1 - 28 Dec 2010

[4,] 4239 5917 6020 [5,] 4929 6794 NA [6,] 5217 NA NA

NA NA NA

NA NA NA

NA NA NA

Le triangle des incrments se dduit facilement du triangle des cumuls

> INCREMENT <- PAID > INCREMENT[,2:nrow(PAID)] <- PAID[,2:nrow(PAID)]-PAID[,1:(nrow(PAID)-1)] > INCREMENT [,1] [,2] [,3] [,4] [,5] [,6] [1,] 3209 1163 39 17 7 21 [2,] 3367 1292 37 24 10 NA [3,] 3871 1474 53 22 NA NA [4,] 4239 1678 103 NA NA NA [5,] 4929 1865 NA NA NA NA [6,] 5217 NA NA NA NA NA

2.1.2 Formalisation du problme du provisionnement


Le provisionnement est un problme de prdiction, conditionelle l'information dont on dispose la date la date

n. On notera Fn

l'information disponible

n,

soit formellement

Hn = {(Xi,j ), i + j n} = {(Ci,j ), i + j n}
On cherche tudier, par anne de survenance, la loi conditionnelle de sachant la loi

Ci,

Hn , ou encore, si l'on de Ci,n sachant Hn . Si

suppose les sinistres clos au bout de

annes

l'on se focalise sur une anne de survenance

particulire, on pourra noter

Fi,ni = {(Xi,j ), j = 0, , n i)} = {(Ci,j ), j = 0, , n i)}


Cette notation permet de prendre en compte que l'information disponible change d'une ligne l'autre.

66

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


Hn Fi,ni

On cherchera par la suite prdire le montant des sinistres payer pour l'anne

i,

i.e.

Ci,n

(ni)

= E[Ci,n |Fi,ni ]

et la dirence entre ce montant et le montant dj pay constituera la provision pour sinistres payer,

Ri = Ci,n

(ni)

Ci,ni

cel-00550583, version 1 - 28 Dec 2010

On essayera ensuite de quantier l'incertitude associe cette prdiction. Comme on le verra les mthodes usuelles visaient calculer Var[Ci,n |Fi,ni ] ou Var[Ci,n

(ni)

ce que l'on appelera incertitude horizon ultime. Mais ce n'est pas ce que propose Solvabilit II, demandant plutt de mesurer une incertitude dite

un an. Pour cela, on va s'intresser la prdiction qui sera faite dans un an,
Ci,n
(ni+1)

= E[Ci,n |Fi,ni+1 ]

et plus particulirement le changement dans l'estimation de la charge ultime

n i = Ci,n

(ni+1)

Ci,n

(ni)

Si cette dirence est positive, on parle de On peut montrer que

an de pouvoir payer les sinistres), et si elle est ngative, on parle de

mali (il faudra goner la provision boni.

E[n i |Fi,ni ] = 0,
autrement dit, on ne peut esprer faire ni boni, ni mali, en moyenne. Les contraintes rglementaires imposes par Solvabilit II demandent de calculer Var[i

|Fi,ni ].

2.2 Les cadences de paiements et la mthode Chain Ladder


L'utilisation des cadences de paiements pour estimer la charge future date du dbut du XXme sicle. On suppose qu'il existe une relation de rcurrence de la forme

Ci,j +1 = j Ci,j

pour tout

i, j = 1, , n.

2.2. LES CADENCES DE PAIEMENTS ET LA MTHODE CHAIN LADDER67


Un estimateur naturel pour

j ,

bas sur l'exprience passe est alors

j =

nj i=1 Ci,j +1 pour tout nj i=1 Ci,j

j = 1, , n 1.

De telle sorte que l'on peut alors prdire la charge pour la partie non-observe dans le triangle,

Ci,j = n+1i ...j 1 Ci,n+1i .

cel-00550583, version 1 - 28 Dec 2010

> > > + +

n <- nrow(PAID) LAMBDA <- rep(NA,n-1) for(i in 1:(n-1)){ LAMBDA[i] <- sum(PAID[1:(n-i),i+1])/ sum(PAID[1:(n-i),i]) }
Notons qu'au lieu de calculer les facteurs de dveloppement, on peut aussi

des taux de dveloppement, cumuls ou non. Autrement dit, au lieu d'crire

Ci,j +1 = j Ci,j

pour tout

i, j = 1, , n,
ou

on suppose que

Ci,j = j Ci,n
On notera que

Yi,j = j Ci,n .

j =
k=j +1

1 k

et

j =

1 j j 1

si si

j=1 j>1

> cat("Lambda =",LAMBDA) Lambda = 1.380933 1.011433 1.004343 1.001858 1.004735 > GAMMA <- rev(cumprod(rev(1/LAMBDA))) > cat("Gamma =", GAMMA) Gamma = 0.7081910 0.9779643 0.9891449 0.9934411 0.9952873 > cat("Phi =", c(GAMMA[1],diff(GAMMA))) Phi = 0.708191033 0.269773306 0.011180591 0.004296183 0.001846141
0 1 1,01143 97,796% 26,977% 2 1,00434 98,914% 1,118% 3 1,00186 99,344% 0,430% 4 1,00474 99,529% 0,185%

n
1,0000 100,000% 0,000%

j j j

1,38093 70,819% 70,819%

Table

2.5  Facteurs de dveloppement,

= ( i ) ,

exprims en cadence

de paiements par rapport la charge utlime, en cumul (i.e. incrments (i.e.

),

puis en

).

68

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


On notera qu'il est possible de voir l'estimateur Chain-Ladder comme

une moyenne pondre des facteurs de transition individuels, i.e.

nj

j =
i=1

i,j i,j

i,j =

Ci,j et nj i=1 Ci,j C,j +1

i,j =

Ci,j +1 . Ci,j
Ainsi, pour la

Aussi, on peut obtenir ces coecients l'aide de rgressions linaires pondres sans constantes, en rgressant les premire valeur, sur les

C,j .

cel-00550583, version 1 - 28 Dec 2010

> x <- PAID[,1] > y <- PAID[,2] > lm(y ~ x + 0, weights=1/x) Call: lm(formula = y ~ x + 0, weights = 1/x) Coefficients: x 1.381
Une fois estim le facteur de dveloppement, rien de plus simple que de complter le triangle,

> TRIANGLE <- PAID > for(i in 1:(n-1)){ + TRIANGLE[(n-i+1):(n),i+1]=LAMBDA[i]*TRIANGLE[(n-i+1):(n),i]}


0 0 1 2 3 4 5 3209 3367 3871 4239 4929 5217 1 4372 4659 5345 5917 6794 7204.3 2 4411 4696 5398 6020 6871.7 7286.7 3 4428 4720 5420 6046.15 6901.5 7318.3 4 4435 4730 5430.1 6057.4 6914.3 7331.9 5 4456 4752.4 5455.8 6086.1 6947.1 7366.7 avec leur

Table

2.6  Triangle des paiements cumuls,

C = (Ci,j )i+j n

projection future

C = (Ci,j )i+j>n

Le montant de provisions est alors la dirence entre ce que l'on pense payer pour chaque anne de survenance (la dernire colonne) et que ce l'on a dj pay (la seconde diagonale)

> ultimate <- TRIANGLE.D[,6]*(1+0.00) > payment.as.at <- diag(TRIANGLE.D[,6:1]) > RESERVES <- ultimate-payment.as.at > cat("Total reserve =",RESERVES) Total reserve = 0.000 22.391 35.793 65.677 153.368 2149.656

2.3. DE MACK MERZ & WTHRICH


On note qu'ici tant total de rserves qu'il convient d'allouer.

69

sum(RESERVES) vaut 2426.885, ce qui correspond au mon-

Un algorithme plus rapide est d'utiliser directement la formule base sur le produit des coecients de transition. On a alors

> > > >

DIAG <- diag(triangle[,n:1]) PRODUIT <- c(1,rev(LAMBDA)) sum((cumprod(PRODUIT)-1)*DIAG)) 2426.885

2.3 De Mack Merz & Wthrich


La mthode dite

Chain Ladder, que nous venons de voir, est une mthode

dite dterministe, au sens o l'on ne construit pas de modle probabiliste

cel-00550583, version 1 - 28 Dec 2010

permettant de mesurer l'incertitude associe la prdiction du montant des rserves. Dirents modles ont t proposs partir des annes 90, partir du modles de Mack, jusqu' l'approche propose par Merz & Wthrich qui introduira la notion d'

incertitude un an.

2.3.1 Quantier l'incertitude dans une prdiction


Nous avons obtenu, par la mthode Chain Ladder un estimateur du montant de provision,

R.

Classiquement, pour quantier l'erreur associe un

estimateur, on calcul la

mean squared error - mse - associe,


E([R R]2 )

Formellement, comme mse, mais de mse

de prdiction, note msep (on ne prdit pas sur les donnes

est ici une variable alatoire, on ne parle pas de

passes, mais on utilisera les donnees pour calibrer un modle qui servira ensuite faire de la prdiction pour les annes futures). Aussi msep(R)

= E([R R]2 ).

Ce terme peut se dcomposer en deux (en faisant une approximation au premier ordre), au sens o

E([R R]2 ) E([R E(R)]2 ) + E([R E(R)]2 )


mse(R) Var(R)

o le terme de gauche est l'erreur d'estimation, compte tenu du fait que nous avons d estimer le montant de provisions partir de la partie suprieure du triangle, et le terme de droite est l'erreur classique de modle (tout modle comportant une partie rsiduelle orthogonale aux observations, et donc imprvisible).

70

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


En fait, en toute rigueur (et nous en aurons besoin par la suite), on

cherche plutt calculer un msep conditionnel l'information dont on dispose au bout de

annes, msepn (R)

= E([R R]2 |Hn ).

2.3.2 Le formalisme de Mack


[20] a propos un cadre probabiliste an de justier l'utilisation de la mthode Chain-Ladder. Pour cela, on suppose que Markovien, et qu'il existe

= (j )

et

(Ci,j )j 0 est un processus 2 (j ) tels que

E(Ci,j +1 |Hi+j ) = E(Ci,j +1 |Ci,j ) = j Ci,j 2 Var(Ci,j +1 |Hi+j ) = Var(Ci,j +1 |Ci,j ) = j Ci,j

cel-00550583, version 1 - 28 Dec 2010

On note que sous ces hypothses,

E(Ci,j +k |Hi+j ) = E(Ci,j +k |Ci,j ) = j j +1 j +k1 Ci,j


[20] rajoute une hypothse supplmentaire d'indpendance entre les annes de survenance, autrement dit pour tout

(Ci,j )j =1,...,n

et

Ci ,j

j =1,...,n

sont indpendant

i=i.

Une rcriture du modle est alors de supposer que

Ci,j +1 = j Ci,j + j
o les rsidus

Ci,j + i,j

(i,j )

sont i.i.d. et centrs. A partir de cette criture, il peut

paratre lgitime d'utiliser les mthodes des moindres carrs pondrs pour estimer ces coecients, en notant que les poids doivent tre inversement proportionnels la variance, autrement dit aux rsoudre

Ci,j , i.e. j donn, on cherche

nj

min
i=1

1 (Ci,j +1 j Ci,j )2 Ci,j j


donn. Si la premire hypothse est vrie,

Pour tester ces deux premires hypothses, on commence par reprsenter les

C,j +1

en fonction des

C,j

les points doivent tre aligns suivant une droite passant par l'origine.

> j=1 > plot(PAID[,j],PAID[,j+1],pch=19,col="red",cex=1.5) > abline(lm(PAID[,j+1]~0+PAID[,j]),col="blue",lwd=2)


La Figure 2.1 montre ainsi les nuages de points pour

j=1

et

j=2.

Pour la seconde, on peut tudier les rsidus standardiss ([20] parle de

weighted residuals),

i,j

Ci,j +1 j Ci,j . Ci,j

2.3. DE MACK MERZ & WTHRICH

71

6000

6500

6000

5500

PAID[, j + 1]

5000

5000

PAID[, j + 1]

5500

4500

4500 4000 PAID[, j] 4500 5000

3500

4500

5000

5500 PAID[, j]

6000

6500

cel-00550583, version 1 - 28 Dec 2010

Figure 2.1  Nuage de points C,j +1 en fonction des C,j


droite de rgression passant par l'origine.

pour

j = 1, 2,

et

> j=1 > RESIDUS <- (PAID[,j+1]-LAMBDA[j]*PAID[,j])/sqrt(PAID[,j])


L'utilisation des rsidus standardiss nous donnent d'ailleurs une ide simple pour estimer le paramtre de volatilit.

2 j

1 = nj1

nj 1

i=0

Ci,j +1 j Ci,j Ci,j

ce qui peut aussi s'crire

2 j

1 = nj1

nj 1

i=0

Ci,j +1 j Ci,j

Xi,j
comme

(ce qui est rapprocher de l'criture du facteur de transition moyenne pondre des facteurs de transitions observs).

> > > > + + >

SIGMA=sqrt(SIGMA) f <- PAID[,2:n]/PAID[,1:(n-1)] SIGMA <- rep(NA,n-1) for(i in 1:(n-1)){ D <- PAID[,i]*(f[,i]-t(rep(LAMBDA[i],n)))^2 SIGMA[i] <- 1/(n-i-1)*sum(D[,1:(n-i)])} SIGMA[n-1] <- min(SIGMA[(n-3):(n-2)])

72

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

> SIGMA=sqrt(SIGMA) > cat("Volatilite =", SIGMA) Volatilite = 0.7248578 0.3203642 0.04587297 0.02570564 0.02570564
Cette mthode permet d'estimer les dirents paramtres intervenants dans le modle de [20].

2.3.3 La notion de tail factor


Classiquement on suppose que la premire ligne de notre triangle est close : il n'y a plus de sinistres ouverts, et donc le montant de provision pour cette anne de survenance est nul. Cette ligne servira de base pour tous les dveloppements ultrieurs. Cette hypothse peut tre un peu trop forte pour les branches droulement long. [21] a pos les bases des premiers modles toujours utiliss. On supposera qu'il existe alors un

cel-00550583, version 1 - 28 Dec 2010

> 1

tel que

Ci, = Ci,n .
Une mthode qui a souvent t utilise a repos sur l'ide que l'on pouvait projeter les linaire des

i par une extrapolation log(k 1)), puis on pose =

exponentielle (ou une extrapolation

k
k n

Mais mieux vaut faire attention, en particulier s'il y a des valeurs aberrantes.

> logL <- log(LAMBDA-1) > tps <- 1:5 > modeL <- lm(logL~tps) > tpsP <- seq(6:1000) > logLP <- predict(modeL,newdata=data.frame(tps=tpsP)) > lambda <- prod(exp(logLP)+1) > lambda > cat("Facteur moyen =", lambda) Facteur moyen = 1.146162
Autrement dit, cette mthode prvoit de rajouter premire anne close.

14%

de charge par

rapport la prdiction faite par les mthodes classiques, en supposant la

2.3.4 Des estimateurs des paramtres l'incertitude sur le montant des provisions
A partir de tous ces estimateurs, on peut estimer le msep du montant de provision par anne de survenance,

Ri ,

mais aussi agrg, toutes annes de

survenances confondues. Les formules sont donnes dans [21] ou [7].

2.3. DE MACK MERZ & WTHRICH


On peut aussi utiliser la fonction

73

library(ChainLadder). > library(ChainLadder) > MackChainLadder(PAID) MackChainLadder(Triangle = PAID) 1 2 3 4 5 6

MackChainLadder

de

cel-00550583, version 1 - 28 Dec 2010

Latest Dev.To.Date Ultimate IBNR Mack.S.E CV(IBNR) 4,456 1.000 4,456 0.0 0.000 NaN 4,730 0.995 4,752 22.4 0.639 0.0285 5,420 0.993 5,456 35.8 2.503 0.0699 6,020 0.989 6,086 66.1 5.046 0.0764 6,794 0.978 6,947 153.1 31.332 0.2047 5,217 0.708 7,367 2,149.7 68.449 0.0318

Totals Latest: 32,637.00 Ultimate: 35,063.99 IBNR: 2,426.99 Mack S.E.: 79.30 CV(IBNR): 0.03
On retrouve l'estimation du montant total de provisions vaut

2,426.99, ainsi que 79.30. Les informations plot(),

msep(R) correspondant au par anne de survenance

R, IBNR, qui Mack S.E. qui vaut ici


sont indiqus dans la

premire partie du tableau. On obtient galement plusieurs graphiques en utilisant la fonction correspondant aux Figures 2.2, 2.3 et 2.4

2.3.5 Un mot sur Munich-Chain Ladder


La mthode dite

Munich-Chain-Ladder,

developpe dans [27], propose

d'utiliser non seulement les paiements cumuls, mais aussi une autre information disponible : l'estimation des charges des dirents sinistres faites par les gestionnaires de sinistres. Les triangles de paiements taient bass sur des mouvements nanciers ; ces triangles de charges sont bases sur des estimations faites par des gestionnaires compte tenu de l'information leur disposition. Les sinistres tardifs ne sont pas dedans, et certains sinistres seront classs sans suite. Toutefois, il peut paratre lgimite d'utiliser cette information. Dans la mthode

Munich-Chain-Ladder,

on dispose des triangles

(Ci,j )

correspond aux incrments de paiments, et sier/dossier. En reprenant les notations de

(i,j )

aux charges dites dos-

[27] on dnie les ratio paie-

74

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


Mack Chain Ladder Results

Chain ladder developments by origin period


7000

7000

Forecast Latest

6000

5000

6000

4000

Amount

Value

3000

5000

6 5

2 4000 4 3 2 1 1

2 1

2 1

2 1 1

cel-00550583, version 1 - 28 Dec 2010

1000

2000

Origin period

Development period

Figure 2.2  Comparaison entre la charge nale estime et la somme dj


paye, gauche, et les cadences de paiements prdites par la mthode Chain Ladder.

ment/charge, et charge/paiement,

Qi,j =

Ci,j i,j

et

1 Q i,j =

i,j Ci,j
C ]2 C ) = [j i,j

Comme dans le modle Chain-Ladder de base, on suppose que

E(Ci,j +1|F C ) = C j Ci,j E(i,j +1|F ) = j i,j


i+j i+j

et Var(Ci,j +1|F C et Var(i,j +1|F

i+j

i+j

]2 ) = [j i,j

On rajoute galement une information sur les

i,j .

Si

C i,j 1 =
on suppose que

Ci,j Ci,j 1

et

i,j 1 =

i,j i,j 1
1 1 Q i,j 1 E(Qi,j 1 |Fi+j C )
Var(Qi,j 1 |Fi+j C )

C C E(C i,j 1 |Fi+j ) = j 1 +

Var(i,j 1 |Fi+j )

et

E( i,j 1 |Fi+j ) = j 1 +

Var(i,j 1 |Fi+j )

Qi,j 1 E(Qi,j 1 |Fi+j )


Var(Qi,j 1 |Fi+j )

2.3. DE MACK MERZ & WTHRICH

75

1.5

1.0

Standardised residuals

Standardised residuals 4500 5000 5500 Fitted 6000 6500

0.5

0.0

0.5

1.0

1.5

cel-00550583, version 1 - 28 Dec 2010

1.5 1

1.0

0.5

0.0

0.5

1.0

1.5

3 Origin period

Figure 2.3  Evolution des rsidus standardiss en fonction des Ci,j


i.

et des

On notera qu'il s'agit d'une extension du modle Chain-Ladder, et en particulier

C C C E( i,j 1 |Fi+j ) = E[E(i,j 1 |Fi+j )|Fi+j ) ] = j 1 .


Les termes

et

sont alors simplement des coecients de corrlation

conditionnelle. Plus prcisment

C = Cor(i,j 1 , Ci,j |FiC +j 1 )


Sous ces hypothses, il est possible de construire des estimateurs sans biais de

1 C E(Ci,j |Ci,j 1 ), de E(i,j |i,j 1 ), de E(Qi,j |Fi +j ) et de E(Qi,j |Fi+j ).

Pour estimer les deux dernires quantits, posons

Qj =

nj i=0 Ci,j nj i=0 i,j

1 Q1 j

On peut aussi estimer les variances conditionnelles. Par exemple

nj
Var(Qi,j ||Fi+j )

= ()1
i=0

i,j [Qi,j Qj ]2

76

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

1.5

1.0

Standardised residuals

Standardised residuals 1 2 3 Calendar period 4 5

0.5

0.0

0.5

1.0

1.5

cel-00550583, version 1 - 28 Dec 2010

1.5 1.0

1.0

0.5

0.0

0.5

1.0

1.5

1.5

2.0

2.5

3.0

3.5

4.0

Development period

et une expression analogue pour Var(Qi,j

|FiC +j ).

A partir de ces quantits, posons enn

i,j = Q

Qi,j Qj
Var(Qi,j |Fi+j )

= i,j
et

i,j 1
I ]2 [ [j i,j 1 j 1 ] 1

i,j 1 Q i,j 2 Q
i,j 1

L'estimateur Munich-Chain-Ladder est construit de manire intrative. Le dtails des formules est donn dans [27] ou [33].

> (MNCL=MunichChainLadder(Paid=PAID, + Incurred=INCURRED)) MunichChainLadder(Paid = PAID, Incurred = INCURRED) 1 2

Latest Paid Latest Incurred Latest P/I Ratio Ult. Paid Ult. Incurred Ult. P/I R 4,456 4,456 1.000 4,456 4,456 4,730 4,750 0.996 4,753 4,750

2.3. DE MACK MERZ & WTHRICH


0 0 1 2 3 4 5 4795 5135 5681 6272 7326 7353 1 4629 4949 5631 6198 7087 2 4497 4783 5492 6131 3 4470 4760 5470 4 4456 4750 5 4456

77

Table 2.7  Triangle des estimations de charges dossier/dossier cumules,


= (i,j )

cel-00550583, version 1 - 28 Dec 2010

3 4 5 6 Totals

5,420 6,020 6,794 5,217

5,470 6,131 7,087 7,353

0.991 0.982 0.959 0.710

5,455 6,086 6,983 7,538

5,454 6,085 6,980 7,533

1 1 1 1

Paid Incurred P/I Ratio Latest: 32,637 35,247 0.93 Ultimate: 35,271 35,259 1.00
De mme que pour la fonction

MackChainLadder,

plusieurs graphiques

peuvent tre obtenus an de mieux comprendre les volutions des paiements, mais aussi de la charge dossier/dossier estime par les gestionnaires de sinistres, prsents sur les Figures 2.5 et 2.6. Si on compare les deux triangles, qui ont t complts en tenant compte des interactions, on obtient des choses relativement proches,

> MNCL$MCLPaid [,1] [,2] [,3] [,4] [,5] [,6] [1,] 3209 4372.000 4411.000 4428.000 4435.000 4456.000 [2,] 3367 4659.000 4696.000 4720.000 4730.000 4752.569 [3,] 3871 5345.000 5398.000 5420.000 5429.716 5455.324 [4,] 4239 5917.000 6020.000 6046.090 6057.284 6085.875 [5,] 4929 6794.000 6890.045 6932.247 6949.447 6982.539 [6,] 5217 7251.382 7419.621 7478.759 7502.149 7538.194 > sum(MNCL$MCLPaid[,6]-diag(MNCL$MCLPaid[,6:1])) [1] 2633.502 > MNCL$MCLIncurred [,1] [,2] [,3] [,4] [,5] [,6] [1,] 4975 4629.000 4497.00 4470.000 4456.000 4456.000 [2,] 5135 4949.000 4783.00 4760.000 4750.000 4750.415 [3,] 5681 5631.000 5492.00 5470.000 5454.691 5454.445

78

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

Munich Chain Ladder Results


7000

Munich Chain Ladder vs. Standard Chain Ladder


100

MCL Paid MCL Incurred

Mack P/I MCL P/I

6000

5000

Amounts

4000

3000

% 0 20 40

cel-00550583, version 1 - 28 Dec 2010

1000

2000

60

80

1 origin period

origin period

Figure 2.5  Comparaison des mthodes Chain Ladder, et Munich Chain


Ladder, en montant gauche, et en valeurs relatives droite.

[4,] 6272 6198.000 6131.00 6100.978 6084.986 6084.770 [5,] 7326 7087.000 6988.37 6984.274 6979.284 6979.732 [6,] 7353 7349.795 7493.64 7522.809 7532.206 7533.461 > sum(MNCL$MCLIncurred[,6]-diag(MNCL$MCLPaid[,6:1])) [1] 2621.823

2.3.6 L'incertitude un an de Merz & Wthrich


[24] ont tudier la variation du boni/mali d'une anne sur l'autre, c'est dire du changement dans la prdiction de la charge totale. Ils ont en particulier montr que msepcn1 (CDRi (t)) o

2 = Ci, i,n + i,n

i,n =
et

2 n i+1 n+1 2 ni+1 Sni+1

n1

+
j =ni+2

Cnj +1,j n+1 Sj

2 j n 2 j Sj

i,n =

1+

2 n i+1

n1

2 ni+1 Ci,ni+1

1+
j =ni+2

2 j n+1 2 ] 2 j [Sj

Cnj +1,j

2.3. DE MACK MERZ & WTHRICH

79

Paid residual plot


2 2

Incurred residual plot

Incurred/Paid residuals

Paid/Incurred residuals 2 1 0 Paid residuals 1 2

cel-00550583, version 1 - 28 Dec 2010

2 2

0 Incurred residuals

Figure

2.6  Corrlations entre les triangles de dveloppement des paie-

ments, et des charges dossier/dossier.

[24] ont alors approch ce terme par

i,n

2 n i+1

n1

2 ni+1 Ci,ni+1

+
j =ni+2

Cnj +1,j n+1 Sj

2 j

2 j Cnj +1,j (1 + ui ) 1 +

en faisant tout simplement un dveloppement de la forme

ui ,

mais qui n'est valide que si

ui

est petit, soit ici

2 j

2 j
obtenue l'aide de trices

<< Cnj +1,j .

Ces fonctions peuvent tre obtenues l'aide de la fonction

source(MackMerzWuthrich.R).

MSEP_Mack_MW

Pour expliquer rapide-

ment les principales fonctions utilises, il faut commencer par nir les ma-

Gamma

et

Delta.

Mais avant tout, initialement les matrices et vecteurs

qui nous serviront par la suite,

I <- nrow(PAID) J <- ncol(PAID) diag <- diag_inv <- Phi <- Psi <- Delta <- Lambda <- Epsilon <- matrix(NA,I,1) S_I <- S_II <- matrix(NA,1,J)

80

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

cov_obs <- cov_reel <- matrix(0,I,J) msep_obs <- msep_reel <- matrix(NA,1,J+1) Delta[1] <- Phi[1] <- Psi[1] <- Epsilon[1] <- Lambda[1] <- 0
Le plus simple est alors d'utiliser les sorties de

MackChainLadder,

cel-00550583, version 1 - 28 Dec 2010

> > + > + + + > + + + > > > > > > +

Mack<-MackChainLadder(PAID) Mack$sigma[J-1] <- sqrt(min(Mack$sigma[J-2]^4/Mack$sigma[J-3]^2, min(Mack$sigma[J-2]^2,Mack$sigma[J-3]^2))) for (i in 1:I){ diag[i] = PAID[i,I-i+1] diag_inv[i] = PAID[I-i+1,i] } for (j in 1:J){ S_I[j] <- sum(PAID[1:(I-j),j]) S_II[j] <- sum(PAID[1:(I-j+1),j]) } S_I[I] <- 0 Delta[2] <- Mack$sigma[I-1]^2/(S_I[I-1]*(Mack$f[I-1])^2) Phi[2] <- 0 Psi[2] <- Mack$sigma[I-1]^2/(diag[2]*(Mack$f[I-1])^2) Epsilon[2] <- Mack$sigma[I-1]^2/(S_II[I-1]*(Mack$f[I-1])^2) Lambda[2] <- diag[2]*Mack$sigma[I-1]^2/((Mack$f[I-1]^2)* S_II[I-1]*S_I[I-1])

pour les premire valeurs. On fait ensuite une boucle pour incrmenter les vecteurs,

> for (i in 3:I){ + Delta[i] <- Mack$sigma[I-i+1]^2/(S_I[I-i+1]*(Mack$f[I-i+1])^2) + sum( + (diag_inv[(I-i+2):(J-1)]/S_II[(I-i+2):(J-1)])^2* + Mack$sigma[(I-i+2):(J-1)]^2/(S_I[(I-i+2):(J-1)]* + (Mack$f[(I-i+2):(J-1)])^2)) + Phi[i] <- sum((diag_inv[(I-i+2):(J-1)]/S_II[(I-i+2):(J-1)])^2* + Mack$sigma[(I-i+2):(J-1)]^2/(diag_inv[(I-i+2):(J-1)]* + (Mack$f[(I-i+2):(J-1)])^2)) + Psi[i] <- Mack$sigma[I-i+1]^2/(diag[i]*(Mack$f[I-i+1])^2) + Epsilon[i] <- Phi[i] + Mack$sigma[I-i+1]^2/(S_II[I-i+1]* + (Mack$f[I-i+1])^2) + + Lambda[i] <- diag[i]*Mack$sigma[I-i+1]^2/((Mack$f[I-i+1]^2)* + S_II[I-i+1]*S_I[I-i+1]) + sum( + (diag_inv[(I-i+2):(J-1)]/S_II[(I-i+2):(J-1)])^2* + Mack$sigma[(I-i+2):(J-1)]^2/(S_I[(I-i+2):(J-1)]* + (Mack$f[(I-i+2):(J-1)])^2))

2.3. DE MACK MERZ & WTHRICH


+ } > Gamma = Phi + Psi

81

Une fois ces matrices dnies, on peut calculer les mse de prdiciton par anne de survenance

for (i in 1:I){ msep_obs[i] = Mack$FullTriangle[i,J]^2 * (Gamma[i] + Delta[i]) msep_reel[i] = Mack$FullTriangle[i,J]^2 * (Phi[i] + Delta[i]) }
Pour l'incertitude associe au montant total de provision (toutes annes confondues), il faut rajouter quelques calculs de covariance,

cel-00550583, version 1 - 28 Dec 2010

for (i in 2:(I-1)){ for (k in (i+1):I){ cov_obs[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k,J]*(Upsilon[i] cov_reel[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k,J]*(Phi[i] + } }
On en dduit alors le mse de prdiction pour

R,

> msep_obs[I+1] = sum(msep_obs[2:I]) + 2*sum(cov_obs) > msep_reel[I+1] = sum(msep_reel[2:I]) + 2*sum(cov_reel)


Cette mthode correspond l'approximation propose par mineurs) [24]. Pour faire le calcul exact, quelques petits changements sont apporter (mais assez

> facteur <- matrix(1,I,1) > Phi_exact[2] <- Psi_exact[2] <- 0 > Gamma_exact[2] <- Mack$sigma[I-1]^2/(diag[I-1]*(Mack$f[I-1])^2) > Epsilon_exact[2] <- Mack$sigma[I-1]^2/(S_II[I-1]*(Mack$f[I-1])^2) > for (i in 3:I){ + facteur[i] <-prod(1 + diag_inv[(I-i+2):(J-1)]*(Mack$sigma[(I-i+2):(J-1)]^2)/ + ((S_II[(I-i+2):(J-1)]*Mack$f[(I-i+2):(J-1)])^2)) + Phi_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(diag_inv[I-i+1]*(Mack$f[I-i+1])^2))* + (facteur[i]-1) + Psi_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(S_II[i]*(Mack$f[I-i+1])^2)) * Phi[i] / + (1 + Mack$sigma[I-i+1]^2/(diag_inv[I-i+1]*(Mack$f[I-i+1])^2)) + Epsilon_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(S_II[I-i+1]*(Mack$f[I-i+1])^2))* + facteur[i]-1 + Gamma_exact[i] <- (1 + Mack$sigma[I-i+1]^2/(diag_inv[I-i+1]*(Mack$f[I-i+1])^2))* + facteur[i]-1 +}

82

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


vraie
valeur de

ce qui permet d'obtenir la

Gamma_exact.

i,n ,

stoche dans le vecteur

A partir de l, on peut calculer les mse de prdiction, comme

prcdemment,

cel-00550583, version 1 - 28 Dec 2010

> for (i in 1:I){ + msep_obs_exact[i] = Mack$FullTriangle[i,J]^2 * (Gamma_exact[i] + Delta[i + msep_reel_exact[i] = Mack$FullTriangle[i,J]^2 * (Phi_exact[i] + Delta[i] +} > for (i in 2:(I-1)){ + for (k in (i+1):I){ + cov_obs_exact[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[k + (Upsilon_exact[i] + Lambda[i]) + cov_reel_exact[i,k] <- Mack$FullTriangle[i,J]*Mack$FullTriangle[ + (Psi_exact[i] + Lambda[i]) + }} > msep_obs_exact[I+1] <- sum(msep_obs_exact[2:I]) + 2*sum(cov_obs_exact) > msep_reel_exact[I+1] <- sum(msep_reel_exact[2:I]) + 2*sum(cov_reel_exact) > msep_Mack <- array(0,c(1,I+1)) > msep_Mack[1:I] <- Mack$Mack.S.E[,I] > msep_Mack[I+1] <- Mack$Total.Mack.S.E > Vari <- array(0,c(1,I+1)) > for (i in 1:I){ + Vari[i] <- Mack$FullTriangle[i,J]^2 * Psi[i] + } > Vari[I+1] <- sum(Vari[1:I])
On dispose alors de l'ensemble des lments permettant d'avoir une vision un an de l'incertitude,

> result <- cbind(t(msep_Mack), t(sqrt(msep_obs)), t(sqrt(msep_obs_exact)) > result <- as.data.frame(result) > names(result) <- c("MSEP Mack","MSEP MW app.","MSEP MW ex.") > result MSEP Mack MSEP MW app. MSEP MW ex. 1 0.0000000 0.000000 0.000000 2 0.6393379 1.424131 1.315292 3 2.5025153 2.543508 2.543508 4 5.0459004 4.476698 4.476698 5 31.3319292 30.915407 30.915407 6 68.4489667 60.832875 60.832898 7 79.2954414 72.574735 72.572700

2.4. RGRESSION POISSONNIENNE ET APPROCHES CONOMTRIQUES83

2.4 Rgression Poissonnienne et approches conomtriques


Dans cette section, nous nous loignerons des modles rcursifs inspirs de la mthode Chain Ladder, et nous reviendrons sur des classes de modles trs utiliss dans les annes 70, appels

modles facteurs,

remis au got

du jour en proposant une lecture conomtrique de ces modles, permettant ainsi d'obtenir des intervalles de conance des direntes grandeurs.

2.4.1 Les modles facteurs, un introduction historique


Avant de prsenter l'utilisation des modles de rgression, on peut commencer par voquer des modles plus anciens. Par exemple Taylor (1977) supposait que

cel-00550583, version 1 - 28 Dec 2010

Yi,j = rj i+j ,

pour tout

i, j

i.e. un eet colonne, de cadence de paiement, et un eet diagonal, que Taylor interprte comme un facteur d'ination. Ce modle peut se rcrire, ds lors qu'il n'y a pas d'incrment positif,

log Yi,j = i + i+j


qui prend alors une forme linaire. On montrera par la suite que le cas

log Yi,j = i + j
s'apparent un modle de type Chain-Ladder. En eet, cela suppose que

Yi,j = ai bj
que l'on peut rapprocher du modle de dveloppement

Yi,j = Ci,n j .

[34]

avait galement propos d'utiliser une courbe d'Hoerl, c'est dire

log Yi,j = i + i log(j ) + i j.

2.4.2 Les modles de de Vylder et de Chritophides


Les quations normales s'crivent ici

i =

Yi,j j
j 2 j

et

j =

i Yi,j i 2 , i i
[4] a suggr de le

ce qui ne rsoud pas explicitement. Pour le rsoudre, rcrire comme un modle log-linaire, i.e.

log Yi,j N (ai + bj , 2 ),

pour tout

i, j

84

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


an <- 6; ligne <- rep(1:an, each=an); colonne <- rep(1:an, an) INC <- PAID INC[,2:6] <- PAID[,2:6]-PAID[,1:5] Y <- as.vector(INC) lig <- as.factor(ligne) col <- as.factor(colonne) reg <- lm(log(Y)~col+lig) summary(reg)

> > > > > > > >

Call: lm(formula = log(Y) ~ col + lig) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 7.9471 0.1101 72.188 6.35e-15 col2 0.1604 0.1109 1.447 0.17849 col3 0.2718 0.1208 2.250 0.04819 col4 0.5904 0.1342 4.399 0.00134 col5 0.5535 0.1562 3.543 0.00533 col6 0.6126 0.2070 2.959 0.01431 lig2 -0.9674 0.1109 -8.726 5.46e-06 lig3 -4.2329 0.1208 -35.038 8.50e-12 lig4 -5.0571 0.1342 -37.684 4.13e-12 lig5 -5.9031 0.1562 -37.783 4.02e-12 lig6 -4.9026 0.2070 -23.685 4.08e-10 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1

cel-00550583, version 1 - 28 Dec 2010

*** * ** ** * *** *** *** *** *** 1

Residual standard error: 0.1753 on 10 degrees of freedom (15 observations deleted due to missingness) Multiple R-squared: 0.9975, Adjusted R-squared: 0.9949 F-statistic: 391.7 on 10 and 10 DF, p-value: 1.338e-11
On peut alors simplement utiliser cette rgression pour construire le triangle de base du modle,

Yi,j = exp[ai + bj ]

(la partie infrieure droite

constituant la prdiction). Comme nous l'avions not dans la Section 1.4.1, cet estimateur est toutefois biais,

> > >

logY <- predict(reg,newdata=data.frame(lig,col)) INCpred <- matrix(exp(logY),an,an) INCpred [,1] [,2] [,3] [,4] [,5] [,6] [1,] 2827.436 1074.641 41.02692 17.99380 7.721706 21.00000 [2,] 3319.436 1261.638 48.16599 21.12488 9.065354 24.65419

2.4. RGRESSION POISSONNIENNE ET APPROCHES CONOMTRIQUES85


[3,] [4,] [5,] [6,] 3710.527 5102.488 4917.944 5217.000 1410.282 1939.333 1869.193 1982.857 53.84084 74.03860 71.36081 75.70020 23.61379 32.47222 31.29779 33.20098 10.133422 13.934856 13.430869 14.247588 27.55892 37.89732 36.52667 38.74783

Le montant de provision prdit est ici

> cat("Total reserve =",sum(exp(logY[is.na(Y)==TRUE]))) Total reserve = 2444.02


ce qui est un lgrement dirent de la prdiction obtenue par la mthode Chain Ladder. Si l'on corrige du biais (car obtient alors

exp(E(log(Y ))) = E(Y )),

on

cel-00550583, version 1 - 28 Dec 2010

> sigma=summary(reg)$sigma > INCpred <- matrix(exp(logY+sigma^2/2),an,an) > INCpred [,1] [,2] [,3] [,4] [,5] [,6] [1,] 2871.209 1091.278 41.66208 18.27237 7.84125 21.32511 [2,] 3370.826 1281.170 48.91167 21.45193 9.20570 25.03588 [3,] 3767.972 1432.116 54.67438 23.97937 10.29030 27.98557 [4,] 5181.482 1969.357 75.18483 32.97495 14.15059 38.48403 [5,] 4994.082 1898.131 72.46559 31.78233 13.63880 37.09216 [6,] 5297.767 2013.554 76.87216 33.71498 14.46816 39.34771 > cat("Total reserve =",sum(exp(logY[is.na(Y)==TRUE]+sigma^2/2))) Total reserve = 2481.857

2.4.3 La rgression poissonnienne de Hachemeister & Stanard


[12], [18] et enn [19] ont montr que dans une rgression log-Poisson sur les incrments, la somme des prdictions des paiments venir correspond l'estimateur Chain Ladder. On retrouve ici un rsultat pouvant tre reli la mthode des marges prsente dans la section 1.3.2.

> > > > > > > > > >

library(statmod) an <- 6; ligne <- rep(1:an, each=an); colonne <- rep(1:an, an) passe <- (ligne + colonne - 1)<=an; np <- sum(passe) futur <- (ligne + colonne - 1)> an; nf <- sum(passe) INC <- PAID INC[,2:6] <- PAID[,2:6]-PAID[,1:5] Y <- as.vector(INC) lig <- as.factor(ligne) col <- as.factor(colonne) CL <- glm(Y~lig+col, family=quasipoisson)

86

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

> summary(CL) Call: glm(formula = Y ~ lig + col, family = quasipoisson) Deviance Residuals: Min 1Q Median -2.3426 -0.4996 0.0000 3Q 0.2770 Max 3.9355

cel-00550583, version 1 - 28 Dec 2010

Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 8.05697 0.02769 290.995 < 2e-16 lig2 -0.96513 0.02427 -39.772 2.41e-12 lig3 -4.14853 0.11805 -35.142 8.26e-12 lig4 -5.10499 0.22548 -22.641 6.36e-10 lig5 -5.94962 0.43338 -13.728 8.17e-08 lig6 -5.01244 0.39050 -12.836 1.55e-07 col2 0.06440 0.03731 1.726 0.115054 col3 0.20242 0.03615 5.599 0.000228 col4 0.31175 0.03535 8.820 4.96e-06 col5 0.44407 0.03451 12.869 1.51e-07 col6 0.50271 0.03711 13.546 9.28e-08 --Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1

*** *** *** *** *** *** *** *** *** *** 1

(Dispersion parameter for quasipoisson family taken to be 3.18623) Null deviance: 46695.269 on 20 degrees of freedom Residual deviance: 30.214 on 10 degrees of freedom (15 observations deleted due to missingness) AIC: NA Number of Fisher Scoring iterations: 4
Il y a ici un 2n 1 paramtres estimer, , = (c1 , , cn1 ) et = (r1 , , rn1 ). Compte tenu du choix des facteurs (ici un facteur ligne r et un facteur colonne c), une fois estims ces paramtres, il est possible de

prdire la partie infrieure du triangle trs simplement, i.e.


Yi,j = i,j = exp[ + ri + cj ]

> mu.hat1 <- exp(predict(CL,newdata=data.frame(lig,col)))*futur > cat("Total reserve =", sum(mu.hat1)) Total reserve = 2426.985 > mu.hat2 = predict(CL,newdata=data.frame(lig,col),type="response")*futur

2.4. RGRESSION POISSONNIENNE ET APPROCHES CONOMTRIQUES87


> cat("Total reserve =", sum(mu.hat2)) Total reserve = 2426.985
On retrouve ici l'estimateur obtenu par la mthode Chain-Ladder. La valeur de rfrence est la valeur dans le coin suprieur gauche. Compte tenu de la forme logarithmique du modle, on a une interprtation simple de toutes les valeurs, relativement cette premire valeur

E(Yi,j |Fn ) = E(Y0,0 |Fn ) exp[ri + cj ].

Remarque 2.1 Dans certains triangle, il n'est pas rare d'avoir des
ments ngatifs

incr-

2.4.4 Incertitude dans un modle de rgression


cel-00550583, version 1 - 28 Dec 2010
Nous avions not auparavant qu'obtenir une estimation du montant de sinistres restant payer ne susait pas, et qu'il fallait avoir un intervalle de conance, au au moins une mesure de la dispersion du vrai montant autour de cette valeur prdite.

Les formules conomtriques fermes


Les modles de rgressions pourraient paratre trs intressants car il existe des formules ferms pour toutes sortes de prdiction. Par exemple, dans une rgression GLM avec un lien logarithmique, rappelons que

E(Yi,j |Fn ) = i,j = exp[i,j ]


ou encore

Yi,j = i,j = exp[i,j ].


La

delta method nous permet d'crire que


Var(Yi,j )

i,j i,j

Var(i,j ),

ce qui se simplie dans le cas o le lien est logarithmique, i.e.

i,j = i,j i,j


Aussi, pour une loi de Poisson surdisperse (comme dans [28]),

E [Yi,j Yi,j ]2 i,j + 2 i,j Var(i,j )


pour la partie infrieure du triangle. De plus, car il sera ncessaire de sommer tous les termes de la partie infrieure du triangle pour dterminer le montant total de provisions, Cov(Yi,j , Yk,l )

i,j k,l Cov(i,j , k,l ).

88

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


R=
i+j>n i+j>n Yi,j , alors

Le montant de provision que lon cherche estimer tant la somme des prdictions de paiements venir,

i,j + Var( )

E [R R]2

Remarque 2.2 Cette formule est malheureusement asymptotique, ce qui est


rarement le cas en provisionnement o l'on dispose de trs peu de donnes.
les valeurs manquantes. Pour programmer cette formule, il faut carter (un peu articiellement)

cel-00550583, version 1 - 28 Dec 2010

> Y2 <- Y; Y2[is.na(Y)] <- .001 > CL2 <- glm(Y2~lig+col, family=quasipoisson) > p <- 2*an-1; > phi.P <- sum(residuals(CL,"pearson")^2)/(np-p) > Sig <- vcov(CL) > X <- model.matrix(CL2) > Cov.eta <- X%*%Sig%*%t(X) > mu.hat <- exp(predict(CL,newdata=data.frame(lig,col)))*futur > pe2 <- phi.P * sum(mu.hat) + t(mu.hat) %*% Cov.eta %*% mu.hat > cat("Total reserve =", sum(mu.hat), "mse =", sqrt(pe2),"\n") Total reserve = 2426.985 mse = 131.7726

Les mthodes de simulations


Les mthodes de simulation sont une bonne alternative si on dispose de trop peu de donnes pour invoquer des thormes asymptotiques. Rappelons, comme le notait [20] qu'il existe 2 sources d'incertitude,  l'erreur de modle (on parle de 

process error) l'erreur d'estimation (on parle de variance error)

Il sera alors ncessaire d'utiliser deux algorithmes pour quantier ces deux erreurs. An de quatier l'erreur d'estimation, il est naturel de simuler des faux triangles (suprieurs), puis de regarder la distribution des estimateurs de montant de provisions obtenus pour chaque triangles (par exemple par la mthode Chain Ladder, l'aide de la fonction paravant). A l'tape

chainladder

dveloppe au-

b,

on gnre un pseudo triangle l'aide des rsidus de

Pearson. Rappelons que pour une rgression de Poisson,

i,j =

Yi,j mi,j . mi,j

En simulant des erreurs (qui sont supposes indpendantes et identiquement distribue),

b = ( b i,j ),

on pose alors

b Yi,j = mi,j +

mi,j b i,j .

2.4. RGRESSION POISSONNIENNE ET APPROCHES CONOMTRIQUES89


Pour gnrer des erreurs, la mthode la plus usuelle est d'utiliser une simulation nonparamtrique, c'est dire que l'on va bootstrapper les rsidus parmi les pseudorsidus obtenus. Sinon il est aussi possible d'utiliser un modle paramtrique (par exemple supposer une loi normale, mme si rien thoriquement ne justie cette mthode). La distribution des rsidus peut tre obtenue par le code suivant :

cel-00550583, version 1 - 28 Dec 2010

> > > > > > > > > > > >

CL <- glm(Y~lig+col, family=quasipoisson) residus=residuals(CL,type="pearson") par(mfrow = c(1, 2)) hist(residus,breaks=seq(-3,5,by=.5),col="light green",proba=TRUE) u=seq(-4,5,by=.01) densite=density(residus) lines(densite,col="blue",lwd=1.5) lines(u,dnorm(u,mean(residus),sd(residus)),lty=2,col="red") plot(ecdf(residus)) lines(u,pnorm(u,mean(residus),sd(residus)),lty=2,col="red") Femp=cumsum(densite$y)/sum(densite$y) lines(densite$x,Femp,,col="blue",lwd=1.5)

Densit
1.0

Fonction de rpartition
q q

0.5

q q

0.8

q q q q

0.4

0.6

q q q q

0.3

0.4

q q q q

0.2

0.1

0.2

q q q q q

0.0

0 Rsidus

0.0

0 Rsidus

Figure 2.7  Histogramme et densit des rsidus ( gauche) et fonctions de


rpartition ( droite), avec l'ajustement Gaussien en pointills.

Les triangles obtenus peuvent tre visualiss sur la gure 2.4.4 Une fois simul un pseudo triangle d'incrments de paiments, on prdit un montant de provision

Rb

(par exemple via une mthode Chain Ladder).

b La variance des R correspond l'erreur d'estimation.

90

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


0 0 1 2 3 4 5 0.948 0.024 0.116 -1.082 0.130 0.000 1 -1.128 0.277 0.056 0.891 -0.211 2 -1.533 -2.213 -1.024 4.237 3 -0.489 0.792 -0.297 4 -0.427 0.414 5 0.000

1/2 Table 2.8  Le triangle des rsidus de Pearson, i,j = [Yi,j i,j ]. i,j

An de prendre en compte l'erreur de modle, plusieurs mthodes peuvent tre utilises. La premire, et la plus simple, consiste noter qu' partir du pseudo triangle frieure,

cel-00550583, version 1 - 28 Dec 2010

b , peut obtenir des prdictions pour la partie inYi,j

b . Compte tenu du modle Poissonnien, on peut alors simuler une Yi,j b trajectoire possible d'incrments de paiements en simulant les Yi,j l'aide b de loi de Poisson de paramtre Yi,j . Le code est alors le suivant

> CLsimul1=function(triangle){ + triangles=rpoisson(length(triangle),lambda=triangle) + return(sum(ULT-DIAG)) }


La seconde mthode est d'utiliser une relecture du modle de pose par dveloppement mique [20], pro-

[8]. A partir du pseudo triangle, on va utiliser les facteurs de

et les variances associs

2 j

obtenus sur le triangle initial.

On prolonge alors le triangle dans la partie infrience via le modle dyna-

b b b 2 b Ci,j +1 |Ci,j N (j Ci,j , j Ci,j ).


Le code est alors le suivant, o

muls, l
> + + + + + + + + +

triangle

est un triangle de paiements

correspond un vecteur de facteurs de dveloppement, et

cu-

un

vecteur de volatilits,

CLsimul2=function(triangle,l,s){ m=nrow(triangle) for(i in 2:m){ triangle[(m-i+2):m,i]=rnorm(i-1, mean=triangle[(m-i+2):m,i-1]*l[i-1], sd=sqrt(triangle[(m-i+2):m,i-1])*s[i-1]) } ULT=triangle[,m] DIAG=diag(triangle[,m:1]) return(sum(ULT-DIAG)) }

2.4. RGRESSION POISSONNIENNE ET APPROCHES CONOMTRIQUES91


2.4.5 Le modle binomial-ngative
Ce modle a t propos par [31]. On suppose ici que

E(Xi,j |Fj 1 ) = [j 1 1] Ci,j 1


Var(Xi,j |Fj 1 )

= j 1 [j 1 1] Ci,j 1

Pour rappels, la rgression binomiale ngative se fait l'aide de la fonc-

glm.nb de library(MASS), ou l'option model = "negbin" dans la fonction Zelig.


tion

2.4.6 Quel modle de rgression ?


Comme nous l'avons mentionn dans le premier chapitre, deux para-

cel-00550583, version 1 - 28 Dec 2010

mtres fondamentaux interviennent dans une rgression linaire gnralise,  la

fonction lien,
ou la

qui

lie

la

prdiction

aux

facteurs,

ici

Yi,j

E(Yi,j |Fn ) = exp[ + i + j ],


 la

loi

fonction variance,

qui donne la forme de l'intervalle de

conance, ici Var(Yi,j |Fn )

= E(Yi,j |Fn ),

L'unique motivation du modle prcdent est qu'il permet d'obtenir exactement le mme montant que la mthode Chain Ladder. Mais aucun critre statistique n'a t voqu, pour l'instant, an de lgitimer ce modle. Les modles Tweedie sont une famille de Poissonnien. On suppose que  la

surmodle,

incluant le modle

fonction lien,

est une fonction puissance, ou plutt une tranforme o

de Box-Cox, avec le cas  la

fonction variance, qui donne la forme de l'intervalle de conance, ici


1 d'une loi Tweedie de paramtre

1 Yi,j = g [ + i + j ] limite g0 (x) = log(x).

g (x) = 1 [x 1]

si

>0

Var(Yi,j |Fn ) o les paramtres La densit

= E(Yi,j |Fn ) et sont inconnus.

mu

est ici

> + + + + + + + + + +

ftweedie = function(y,p,mu,phi){ if(p==2){f = dgamma(y, 1/phi, 1/(phi*mu))} else if(p==1){f = dpois(y/phi, mu/phi)} else {lambda = mu^(2-p)/phi /(2-p) if(y==0){ f = exp(-lambda)} else { alpha = (2-p)/(p-1) beta = 1 / (phi * (p-1) * mu^(p-1)) k = max(10, ceiling(lambda + 7*sqrt(lambda))) f = sum(dpois(1:k,lambda) * dgamma(y,alpha*(1:k),beta)) }} return(f)}
1. o le terme

densit s'entend au sens large, savoir une probabilit dans le cas discret.

92

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


An de juger de la pertinance de l'ajustement, on peut calculer la log-

vraisemblance du modle, en gardant un lien logarithmique par exemple (ce qui est parfois plus simple au niveau numrique, mais aussi au niveau de l'interprtation),

cel-00550583, version 1 - 28 Dec 2010

> + + + + + + + + + +
2

pltweedie <- function(puissance){ regt = glm(Y~lig+col, tweedie(puissance,0)) reserve = sum(fitted.values(regt)[!passe]) dev = deviance(regt) phi.hat = dev/n mu = fitted.values(regt)[passe] hat.logL = 0 for (k in 1:length(Y)){ hat.logL <- hat.logL + log(ftweedie(Y[k], puissance, mu[k], phi.hat)) } cat("Puissance =", round(puissance,3), "phi =", round(phi.hat,2), "Reserve (tot) =", round(reserve), "logL =", round(hat.logL,3),"\n") }
Si on calcule la log-vraisemblance pour

valeurs, comprises entre

et

(correspondant respectivement au cas d'une rgression Poisson et une r-

gression Gamma), on obtient

> library(statmod) > for(puissance in c(1,1.25,1.5,1.75,2)){pltweedie(puissance)} Puissance = 1 phi = 166.95 Reserve (tot) = 1345 logL = -Inf Puissance = 1.25 phi = 42.92 Reserve (tot) = 1216 logL = -151.72 Puissance = 1.5 phi = 15.8 Reserve (tot) = 996 logL = -145.232 Puissance = 1.75 phi = 9.02 Reserve (tot) = 609 logL = -153.997 Puissance = 2 phi = 6.78 Reserve (tot) = 125 logL = -170.614
La Figure 2.8 permet de visualiser l'inuence du paramtre de la puissance de la fonction variance. La Figure montre aussi l'volution du montant de provision

R, 1
et

Si l'on souhaite garder un lien logarithmique, le paramtre le plus vraisemblance pour la fonction variance est entre

2, = 1.38,

> optimize(pltweedie, c(1.01,1.99), tol=1e-4,maximum = TRUE) Puissance = 1.384 phi = 23.78 Reserve (tot) = 1114 logL = -144.902

2.5 Les triangles multivaris


Comme nous l'avions expliqu dans l'introduction, l'utilisation des triangles, et des mthodes de cadences de paiements, n'est possible que si les triangles sont stables, et homognes. Or il n'est pas rare qu'un triangle comporte des risques relativement dirents dans leur dveloppement. Par exemple en assurance auto, les accidents matriels et corporels sont sensiblement dirents.

2.5. LES TRIANGLES MULTIVARIS

93

1.0

1.2

1.4

1.6

1.8

2.0

cel-00550583, version 1 - 28 Dec 2010

puissance de la x fonction variance

Figure 2.8  volution de la log-vraisemblance prole en fonction de et


montant de provision

estim par GLM (avec un lien logarithmique).

2.5.1 Hypohtse d'indpendance entre les triangles, et lois paramtriques


En s'insiprant de l'ide de [20], on peut supposer que

Ri

suive une loi

2 ) pour LN (i , i

i = 1, 2. Si l'on suppose les risques indpendant, la loi de la

somme est simplement la convole des deux lois. On peut utiliser les familles de distribution au format

S4

et la

library(distr).

Rappelons que pour si

LN (, 2 ), = log[E(X )] 1 Var(X ) log 1 + 2 E(X )2


et

2 = log 1 +

Var(X )

E(X )2

A partir des moyennes et variances - donnes par la mthode de que les deux triangles sont

[20] par

exemple - on en dduit les lois des deux montants de provision. Si on suppose

indpendants, alors

> library(distr) > V=MackChainLadder(P.mat)$Total.Mack.S.E^2 > E=sum(MackChainLadder(P.mat)$FullTriangle[,n]+-diag(MackChainLadder(P.mat)$FullTriangle[n:1,])) > mu = log(E) - .5*log(1+V^2/E^2) > sigma2 = log(1+V^2/E^2) > LM = Lnorm(meanlog=mu,sdlog=sqrt(sigma2)) > V=MackChainLadder(P.corp)$Total.Mack.S.E^2 > E=sum(MackChainLadder(P.corp)$FullTriangle[,n]-

500 450 400 350 300 250 200 150 logvraisemblance

200

400

Montant de provisions 600 800 1000

1200

94

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


diag(MackChainLadder(P.corp)$FullTriangle[n:1,])) mu = log(E) - .5*log(1+V^2/E^2) sigma2 = log(1+V^2/E^2) LC = Lnorm(meanlog=mu,sdlog=sqrt(sigma2)) LT=LM+LC

+ > > > >

On peut alors comparer la loi convole, et la loi lognormale ajuste sur le triangle cumul,

cel-00550583, version 1 - 28 Dec 2010

> > > > + > > > > > > >

P.tot = P.mat + P.corp library(ChainLadder) V=MackChainLadder(P.tot)$Total.Mack.S.E E=sum(MackChainLadder(P.tot)$FullTriangle[,n]diag(MackChainLadder(P.tot)$FullTriangle[n:1,])) mu = log(E) - .5*log(1+V^2/E^2) sigma2 = log(1+V^2/E^2) u=seq(0,qlnorm(.95,mu,sqrt(sigma2)),length=1000) vtotal=dlnorm(u,mu,sqrt(sigma2)) vconvol=d(LT)(u) plot(u,vtotal) lines(u, vconvol)

1.5e05

Loi lognormale sur le triangle cumul Convolution des lois lognormales

0.0e+00

5.0e06

1.0e05

250000

300000

350000

400000

450000

500000

550000

Montant de provision, total

Figure 2.9  Distribution du montant de provision R = R1 + R2 .


Les quantiles 95% sont alors respectivement

> cat("Quantile convole =",q(LT)(.95)) Quantile convole = 434615.9

2.5. LES TRIANGLES MULTIVARIS


> cat("Quantile lognormal =",qlnorm(.95,mu,sqrt(sigma2))) Quantile lognormal = 467686.8

95

pour la loi convole et pour la somme des deux triangles. Deux interprtations sont alors possibles : supposer les triangles comme tant indpendants est probablement une hypothse trop forte et travailler sur un triangle agrg (et donc peu homogne) introduit une incertitude supplmentaire.

2.5.2 Le modle de Mack bivari


[26] a propos une mthode de type Chain-Ladder dans un cadre multivari. On note

cel-00550583, version 1 - 28 Dec 2010

i,j = (i,j )
et

(k)

i,j =

(k)

Ci,j
(k)

(k)

Ci,j 1 j = RK

C i,j = (Ci,j ) RK

(k )

On suppose qu'il existe

E[C i,j |C i,j 1 ] = (j 1 ) C i,j 1


et Cov[C i,j , C i,j |C i,j 1 ]

= ( C j 1 ) j 1 ( C j 1 )

Alors sous ces hypothses, comme dans le cas univari, on peut crire

n1

E[C i,n |C i,ni ] =


j =ni
L'estimateur du facteur de transition est

(j )C i,ni .

nj 1

j =
i=0

1 ( i,j ) j ( i,j )

nj 1

i=0

1 ( i,j ) j ( i,j )i,j +1

L'estimateur Chain-Ladder de la charge ultime est

n1

C i,n =
j =ni

(j )C i,ni .

Cet estimateur vrie les mmes proprits que dans le cas univari. En particulier, cet estimateur est un estimateur sans biais de mais aussi de

E[C i,n |C i,ni ]

E[C i,n ].

Il est aussi possible de calculer les mse de prdiction.

96

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


L'ide dans les modles conomtriques est de supposer que les

2.5.3 Modles conomtriques pour des risques multiples


rsidus
peuvent tre corrls,

cel-00550583, version 1 - 28 Dec 2010

> > > > > > > > > > > > > > > > > >

ligne = rep(1:n, each=n); colonne = rep(1:n, n) passe = (ligne + colonne - 1)<= n PAID=P.corp; INC=PAID INC[,2:n]=PAID[,2:n]-PAID[,1:(n-1)] I.corp = INC PAID=P.mat; INC=PAID INC[,2:n]=PAID[,2:n]-PAID[,1:(n-1)] I.mat = INC Ym = as.vector(I.mat) Yc = as.vector(I.corp) lig = as.factor(ligne) col = as.factor(colonne) base = data.frame(Ym,Yc,col,lig) regm=glm(Ym~col+lig,data=base,family="poisson") regc=glm(Yc~col+lig,data=base,family="poisson") res.corp=residuals(regc,type="pearson") res.mat=residuals(regm,type="pearson") plot(res.corp,res.mat)

rsidus de Pearson, sinistres matriel

40

60

20

q q

q q q q q q q q q q q q qq q q q q q q q q q q q q

q q

q qq q

q q q

20

q q

60

40

20

20

40

rsidus de Pearson, sinistres corporels

Figure 2.10  Nuage de points de rsidus de Pearson, obtenus sur un modle


log-Poisson,

(matriel , corporel ). i,j i,j

2.6. BORHUTTER-FERGUSSON, BENKTANDER ET LES MTHODES BAYSIENNES97


On notera que la corrlation n'est pas nulle.

> cat("Corrlation des rsidus =",cor(res.mat,res.corp)) Corrlation des rsidus = 0.2957895


Une fois note qu'il existe probablement une dpendance entre les deux triangles, il semble lgitime de la prendre en compte dans les algorithmes de simulations voqus dans la partie 2.4.4.  pour l'erreur d'estimation, quand on tire les rsidus, on ne les tire pas indpendement dans les deux triangles. On tire alors les rsidus  pour utilise

(i,j
une

matriel,b

, i,j

corporel
peut

paires de
si on dans

, b)
tirer une loi de Poisson bivarie bivarie (implmente

l'erreur,

on

rgression

Poissonnienne

library()bivpois

ou un vecteur Gaussien bivari.

cel-00550583, version 1 - 28 Dec 2010

Dans le second cas,

matriel Ci,j +1 corporel Ci,j +1

matriel m j Ci,j corporel c j Ci,j

m2 C matriel j i,j

c2 C corporel j i,j

2.6 Borhutter-Fergusson, Benktander et les mthodes baysiennes


Les deux premires mthodes que nous allons voir ont souvent t proposes comme une alternative la mthode Chain Ladder, car elles introduisent un

a priori sur la charge ultime.

2.6.1 Le modle de Borhutter-Ferguson et l'introduction d'un avis d'expert


Classiquement, on continue ici supposer que  les annes de survenance sont indpendantes les unes des autres  il existe

et des facteurs de dveloppement

1 , 2 , , n

- avec

n =

- tels que

E(Ci,1 ) = 1 i E(Ci,j +k |Ci,1 , , Ci,j ) = Ci,j + [j +k j ]i


Sous ces hypothses, pour tout

i, j E(Ci,j ) = j i .

Ce qui peut rappeler les

= (1 , 2 , , n ) sera estimer statistiquement, = i tant obtenu par avis d'expert, i tant un estimateur de E(Ci,n ). Moyennant ces deux estimations, on en dduit l'estimateur de E(Ci,n |Ci,1 , , Ci,j ) de la forme
modles facteurs voqus auparavant. Sauf qu'ici, seul

Ci,n = Ci,j + [1 j i ]i

98

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


L'estimateur propos par Bornhutter-Ferguson est alors simplement ob-

tenu partir de la mthode Chain-Ladder, en posant

j =
k=j +1
Enn, pour estimer

1 k

i , on suppose disposer d'un ratio sinistre/prime cible, par exemple de 105%, par anne de survenance. Dans ces conditions, on peut
alors estimer simplement le montant de provision,

cel-00550583, version 1 - 28 Dec 2010

> mu <- 1.05*PREMIUM > beta <- rev(cumprod(rev(1/LAMBDA))) > Cdiag = diag(PAID[,n:1]) > Cultime <- Cdiag+(1-c(1,rev(beta)))*mu > cat("Total reserve =",Cultime-Cdiag) Total reserve = 0.00 23.12 33.49 58.98
i prime 0 4591 4821 1,380 0,708 4456 0 1 4692 4927 1,011 0,978 4753 23 2 4863 5106 1,004 0,989 5453 33 3 5175 5434 1,002 0,993 6079 59 4 5673 5957 1,005 0,995 6925 131

131.26 1970.45
5 6431 6753

i i i Ci,n Ri

7187 1970

Table 2.9  Estimation du montant de provision par Borhutter-Ferguson,


avec un ratio sinistres/primes de

105%.

2.6.2 Benktander
L'estimateur de sur un estimateur telle que

a priori

[3], repris quelques annes plus tard par de la charge ultime

[14], repose

galement qu'il existe une cadence de paiemments

Ci,n , not i . On suppose = (1 , , n ), connue,

E(Ci,j ) = i j
Sous ces hypothses, le montant de provision devrait tre

Ri = Ci,n Ci,ni = [1 ni ]i
Au lieu de se baser uniquement sur

i ,

[3] avait propos un estimateur

crdibilis de la charge ultime, de la forme

CL ni Ci,n + [1 ni ]i

2.6. BORHUTTER-FERGUSSON, BENKTANDER ET LES MTHODES BAYSIENNES99


Il s'agit d'utiliser l'estimateur Chain-Ladder, moyenn avec l'estimation a priori de la charge ultime. Alors

CL BH + [1 ni ]i = Ci,n Ci,ni = [1 ni ] ni Ci,n Ri


On notera que

BH Ri = (1 ni )CiBF
est construite partir des facteurs de dve-

si la cadence

= (1 , , n )

loppement induits par la mthode Chain-Ladder. Une autre criture de cette expression est d'crire la charge ultime (et non plus le montant de provision),

CiBH = Ci,ni + (1 ni )CiBF = ni CiCL + (1 ni )CiBF


ce qui permet de voir la prdiction de Benktander comme une combinaison convexe des estimateurs Chain-Ladder et de Bornhuetter-Ferguson.

cel-00550583, version 1 - 28 Dec 2010

2.6.3 La mthode dite Cape-Code


Dans cette approche, on utilise l encore un avis d'expert. L'ide est de rcrire l'expression

Ci,n = Ci,ni + 1
sous la forme

Ci,ni Ci,n

Ci,n

Ci,n = Ci,ni + 1
o

Ci,ni Ci,n

LRi Pi ,

LRi

correspond au

la mthode dite

loss ratio pour l'anne i, i.e. LRi = Ci,n /Pi . L'ide de Cape-Code est d'crire une forme plus gnrale,
Ci,n = Ci,ni + (1 ni ) LRi Pi

ni

correspond une cadence de paiement, et peut tre estim par

la mthode Chain Ladder. Quant aux

LRi

il s'agit des

loss ratio

cibles,

correspondant un avis d'expert. On peut aussi proposer un mme ratio cible pour plusieurs annes de survenance. On posera alors

Ri = Ci,n Ci,ni = (1 ni )LRA Pi .


pour

i A,

LRA =

kA Cn,nk kA nk Pk

. i
partir de la mthode

Dans un premier temps, on peut calculer les Chain Ladder, i.e.

ni =

Ci,ni Ci,n

o la charge ultime est celle prdite pas la mthode Chain-Ladder.

100

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

> (PI <- 1-Cdiag/Cultime) [1] 0.000000 0.004713 0.006559 0.010855 0.022036 0.291809 > LR=TRIANGLE[,6]/PREMIUM > Cdiag <- diag(PAID[,n:1]) > Cultime <- TRIANGLE[,6] > cat("Coef. PI =", (Cultime-Cdiag)/(LR*PREMIUM)) Coef. PI = 0.00000 0.00471 0.00656 0.01085 0.02204 0.29181
Si on suppose ensuite que

A = {1, 2, , n},

alors

> LR=sum(TRIANGLE[,6])/sum(PREMIUM) > cat("Total reserve =", PI*LR*PREMIUM) Total reserve = 0.0000 24.5832 35.6120

62.7199

139.5729 2095.2682

cel-00550583, version 1 - 28 Dec 2010

On obtient ici un montant de provision total infrieur celui obtenu par la mthode Chain Ladder puisque

sum(R)

vaut ici

2357.756.

2.6.4 Les approches Baysiennes


Les approches Baysiennes ont t popularises en sciences actuarielles par la thorie de la crdibilit, correspondant une approche Baysienne dans un cadre linaire. Mais il est possible d'aller plus loin. Classiquement, supposons que l'on s'intresse dont la loi serait o trs gnralement,

f (| ),

= (Yi,j )

et

= (i,j ).

peut tre ici le triangle des

paiements cumuls , le triangle des incrments , ou le triangle des coecients de transition des cadences de paiements

=i,j +1 /i,j .

2 ). Exemple 2.1 Dans l'approche de [20], j = (j , j

Application aux cadences de paiements


2 ), , qui dpendra de = ( j ) o j = (j , j o, pour des simplicits de notations (et viter de confondre avec les i,j ) on note j le facteur de dveloppement sous-jacent.
Ici, on s'intresse la loi de

2 i,j |(j , j )

j ,

2 j Ci,j

Ici,

ne sont pas les paramtres d'intrt, et sont supposs estims spa-

rment (comme nous le faisions dj dans les modles linaires gnraliss). Quant aux

Ci,j ,

ils sont interprts ici comme des poids, et sont supposs

connus. La log-vraisemblance est ici

log L(| ) =
i,j

1 2

log

Ci,j 1 Ci,j 1 2 2 2 [i,j j ] j j

2.6. BORHUTTER-FERGUSSON, BENKTANDER ET LES MTHODES BAYSIENNES101


En utilisant la formule de Bayes, la log-densit de simplement

conditionnelle aux

est

log[g ( |)] = log[ ( )] + log[L(| )] + constante,


o

()

est une loi

a priori de

(par exemple un vecteur Gaussien).

L'algorithme de Gibbs et gnralisations


On cherche ici gnrer un ensemble de vecteurs alatoires

(1 , , m )

Rm . Contrairement aux mthodes de Monte Carlo o l'on

cherche gnrer des vecteurs indpendants les uns des autres, on va essayer de construire une suite de manire rcurente, vriant des proprits d'ergodicit.

cel-00550583, version 1 - 28 Dec 2010

On part d'un vecteur initial itre

(0) = (1 , , m ),
(k)

(0)

(0)

par exemple les va-

leurs obtenues par la mthode Chain Ladder puis on gnre, de manire

(k+1) 1 (k+1) 2 (k+1) 3 . . . (k+1) m1 (k+1) m

f (|2 , , m , ) (k+1) (k) (k ) f (|1 , 3 , , m , ) (k+1) (k+1) (k) (k) f (|1 , 2 , 4 , , m , ) f (|1 , 2 , m2 , m , ) (k+1) (k+1) (k+1) f (|1 , 2 , , m1 , )
(k+1) (k+1) (k+1) (k )

(k)

Ces lois conditionnelles n'ayant pas forcment de forme simple, l'algorithme de La ler ces direntes lois conditionnelle.

metropolis (d'acceptation-rejet) peut alors tre utiliser pour simuf,


qu'on ne sait pour tout

mthode de rejet est bas sur l'ide suivante


g
qui vrie

 on souhaite tirer (indpendemment) suivant une loi pas simuler  on sait simuler suivant une loi

f (x) M g (x),

x,

peut tre calcule.

L'agorithme pour tirer suivant  rpter

est alors le suivant


 

tirer tirer

Y U

selon la loi

g [0, 1],
indpendamment de

selon la loi uniforme sur

Y,

f (Y ) . tant que U > M g (Y ) poser X = Y .

Exemple 2.1 On peut utiliser cette technique pour simuler une loi normale

partir d'une loi de Laplace (qui est une variable exponentielle avec un signe positif ou ngatif), de densit g (x) = 0.5 exp(|x|), avec M = 2e 1 . Mais cet algorithme est trs coteux en temps s'il y a beaucoup de rejets,

102

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

comme le montre le code suivant : ici, on note que l'on perd prs du quart des simulations.
> n=1000 > Y=rexp(n)* sample(c(-1,1),size=n,replace=TRUE) > U=runif(n) > dlaplace=function(x){.5*exp(-abs(x))} > M=sqrt(2*exp(1)/pi) > test=U<dnorm(Y)/(M*dlaplace(Y)) > mean(test) [1] 0.761 > X=Y[test==TRUE] > plot(density(X)) > curve(dnorm(x),add=TRUE,col="red",lty=2,xlab="")

cel-00550583, version 1 - 28 Dec 2010

Figure 2.11  Simulation d'une variable Gaussienne par une mthode de


rejet base sur une loi de Laplace.

adaptative rejection sampling est une extension de cet algorithme, condition d'avoir une densit log-concave. On parle aussi de mthode des cordes. On majore localement la fonction log f par des fonctions linaires,
L' autrement dit, on construit alors une enveloppe par une fonction le montre la gure 2.12 Formellement, on construit

log f . On majore alors f gn constitues de n fonctions linaires par morceaux, comme Li,j (x)
la droite reliant les points

(xi , log(f (xi )))

et

(xj , log(f (xj ))).

On pose alors

hn (x) = min {Li1,i (x), Li+1,i+2 (x)} ,


qui dnie alors une enveloppe de

log(f ) (par concavit de log(f ). On utilise

alors un algorithme de rejet avec comme fonction de rfrence

gn (x) =

exp(hn (x)) exp(hn (t))dt

normalise pour dnir une densit.

L'algorithme est alors le mme que prcdemment, savoir  rprer


 

tirer tirer

Y U

selon la loi

gn [0, 1],
indpendamment de

selon la loi uniforme sur

Y,

f (Y ) tant que U > . exp(hn (Y )) poser X = Y .

2.6. BORHUTTER-FERGUSSON, BENKTANDER ET LES MTHODES BAYSIENNES103

q
5

q q

15

10

q
20

cel-00550583, version 1 - 28 Dec 2010

Figure 2.12  Majoration d'une log-densit par des fonctions linaires par
morceaux.

Enn, dans le cas des densits non log-concave, il est possible de rajouter une tape. En eet, dans la construction prcdente, la fonction toujours un majorant, mais ce n'est plus forcment une enveloppe de Il sut alors de rajouter une tape de rejet supplmentaire. Le plus simple est d'implmenter un algorithme de Gibbs, c'est dire crer une suite de variables

hn est log(f ).

X1 , X2 ,

par un processus itratif, Markovien.

Les variables ne sont plus indpendantes, mais en invoquant des rsultats d'ergodicit, les calculs de moyennes, de quantiles, ou de lois marginales restent valides. Supposons que l'on dispose de

Xk1 . Pour tirer Xk , on utilise l'algorithme [0, 1],


indpendamment de

prcdant, et la nouvelle tape de rejet est la suivante  tirer

selon la loi uniforme sur

et de

Xk1 ,
si

U > min 1,

f (X ) min{f (Xk1 ), exp(hn (Xk1 ))} f (Xk1 ) min{f (X ), exp(hn (X ))}

alors garder

Xk = Xk1
sinon poser

Xk = X hn
est linaires par morceaux, avec comme

Ces fonctions exponentielles par morceaux sont inressantes car elles sont faciles simuler. La fonction noeuds

Nk ,

de telle sorte que

hn (x) = ak x + bk

pour tout

x [Nk , Nk+1 ].

104

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER


gn (x) = In = exp(hn (x)) In
o

Alors

exp(hn (t))dt =

exp[hn (Nk+1 )] exp[hn (Nk )] . ak

On calcule alors une mthode

Gn , la fonction de rpartition associe gn , et on fait utilise d'inversion pour tirer suivant Gn .

2.6.5 Approche baysienne sur les facteurs de dveloppement


En s'inspirant de la relecture du modle de [20],

b b b 2 b Ci,j +1 |Ci,j N (j Ci,j , j Ci,j ).

cel-00550583, version 1 - 28 Dec 2010

nous pouvons supposer que les facteurs de dveloppements loi lognormale, comme le suggrait [2]. La Figure 2.13 montre la simulation de

i,j

suivent une

1000

valeurs

de montant de

provision, par cette mthode. La srie n'est pas i.i.d. mais elle vrie des proprits d'ergodicit qui autorisent en particulier l'tude de la distribution du montant de provision. Pour implmenter la mthode Baysienne, il faut commencer par dnir la fonction de log-vraisemblance associ au vecteur de facteurs de transition, not ici

g,

> + + + + + +

Log_Ln<-function(g,C=PAID,sigma2=SIGMA^2,f=PAID[,2:n]/PAID[,1:(n-1)]) {s=0 for(i in 1:(n-1)){ for(j in 1:(n-i)){ s<-s+0.5*(log(C[i,j]/sigma2[j])-(C[i,j]/sigma2[j])* (f[i,j]-exp(g[j]))^2)}} return(s)}


Commenons par initialiser les valeurs,

gamma<-log(LAMBDA) Mat_parametres<-gamma parametres<-gamma n_it<-1


On fait alors une boucle dnie par A un chaque

while(n_it <= nb_iteration_gibbs*length(parametres)).

itration de la boucle, on commence par initialiser la valeur chantillonner,

rg_var<-n_it-trunc(n_it/length(parametres))*length(parametres)+1 Xcur<-parametres[rg_var] n_seg<-20

2.6. BORHUTTER-FERGUSSON, BENKTANDER ET LES MTHODES BAYSIENNES105


On cre alors la segmentation de l'intervalle,

t1<-colSums(f+C[,1:ncol(C)-1]*matrix(rep(sigma2,nrow(f)),nrow(f),ncol(f), byrow = TRUE)-f,na.rm =TRUE) t2<-(colSums(f+C[,1:ncol(C)-1]-f,na.rm =TRUE))^2 V_gamma<-1/lambda^2*t1/t2 X_inf<-gamma-coef*sqrt(V_gamma) X_sup<-gamma+coef*sqrt(V_gamma) X<-seq(0,n_seg-1) X<-X_inf[rg_var]+X/(n_seg-1)*(X_sup[rg_var]-X_inf[rg_var]) X<-sort(X)
La premire tape importante de l'algorithme est de simuler un vecteur

Xu

partir de

gn,

step1<-FALSE while(step1==FALSE){ lg_vrais<-function(x,rg_var.){ param<-parametres param[rg_var.]<-x Log_Ln(param) } y<-lg_vrais(X[1],rg_var) for(k in 2:n_seg)y<-cbind(y,lg_vrais(X[k],rg_var)) Y<-y[1,] a=(Y[2:n_seg]-Y[1:(n_seg-1)])/(X[2:n_seg]-X[1:(n_seg-1)]) b=Y[1:(n_seg-1)]-a*X[1:(n_seg-1)] X_int=-(b[3:length(b)]-b[1:(length(b)-2)])/(a[3:length(b)]-b[1:(length(b)-2)]) Y_int=a[1:(length(b)-2)]*X_int+b[1:(length(b)-2)] X2=X Y2=Y for (k in 1:length(X_int)){ if(X_int[k]>=X[k+1] & X_int[k]<=X[k+2]) { if(Y_int[k]>=a[k+1]*X_int[k]+b[k+1]){ X2<-c(X2,X_int[k]) Y2<-c(Y2,Y_int[k]) }}} M<-rbind(X2,Y2) M<-M[,order(M[1,])] X2<-M[1,] Y2<-M[2,] a2=(Y2[3:(length(Y2)-1)]-Y2[2:(length(Y2)-2)])/(X2[3:(length(Y2)-1)] -X2[2:(length(Y2)-2)]) b2=Y2[2:(length(Y2)-2)]-a2*X2[2:(length(Y2)-2)] if(Y[1]>=a[2]*X[1]+b[2]){

cel-00550583, version 1 - 28 Dec 2010

106

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

cel-00550583, version 1 - 28 Dec 2010

a2<-c(a[1],a2) b2<-c(b[1],b2)} else { a2<-c(a[2],a2) b2<-c(b[2],b2)} if(Y[n_seg]>=a[n_seg-2]*X[n_seg]+b[n_seg-2]){ a2<-c(a2,a[n_seg-1]) b2<-c(b2,b[n_seg-1])} else { a2<-c(a2,a[n_seg-2]) b2<-c(b2,b[n_seg-2])} temp<-(exp(Y2[2:length(Y2)])-exp(Y2[1:length(Y2)-1]))/a2 m_n=sum(temp) G_n=rep(0,length(X2)) for(k in 1:length(temp)){ G_n[k+1]<-G_n[k]+temp[k]/m_n} U<-runif(1,0,1) k_Xu<-1 while(G_n[k_Xu+1]<=U) k_Xu<-k_Xu+1 Xu<-1/a2[k_Xu]*(log((U-G_n[k_Xu])*m_n*a2[k_Xu]+exp(Y2[k_Xu]))-b2[k_Xu])
Pour faire un algorithme de rejet, on tire ensuite une loi uniforme

U<-runif(1,0,1), et on peut ensuite lancer la seconde tape de l'algorithme val<-exp(lg_vrais(Xu,rg_var))/exp(a2[k_Xu]*Xu+b2[k_Xu]) lg_vrais(Xu,rg_var) if (U>val){ n_seg<-n_seg+1 X<-c(X,Xu) sort(X)} else{ Xa=Xu step1<-TRUE }}
La troisime tape est l'algorithme d'Hastings-Metropolis, autrement dit on pose

U<-runif(1,0,1),

puis la procdure est la suivante

k_Xcur<-1 while(X2[k_Xcur+1]<=Xcur& k_Xcur+1<=length(X2)) k_Xcur<-k_Xcur+1 k_Xa<-1 while(X2[k_Xa+1]<=Xa & k_Xa+1<=length(X2)) k_Xa<-k_Xa+1 num<-exp(lg_vrais(Xa,rg_var))*min(exp(lg_vrais(Xcur,rg_var)) ,exp(a2[k_Xcur]*Xcur+b2[k_Xcur])) denom<-exp(lg_vrais(Xcur,rg_var))*min(exp(lg_vrais(Xa,rg_var))

2.6. BORHUTTER-FERGUSSON, BENKTANDER ET LES MTHODES BAYSIENNES107


,exp(a2[k_Xa]*Xa+b2[k_Xa])) if (U>min(1,num/denom)){ Xm<-Xcur }else{Xm<-Xa} parametres[rg_var]<-Xm if(rg_var==length(parametres)) Mat_parametres<-rbind(Mat_parametres,parametres) n_it<-n_it+1
Ce qui constitue la n de la boucle. On dispose alors d'une matrice de paramtres

Mat_parametres,

que l'on va utiliser pour obtenir un vecteur de

montant de provisions par anne de survenance,

cel-00550583, version 1 - 28 Dec 2010

for (k in 1:nrow(Mat_parametres)){ lambda_hat<-exp(Mat_parametres[k,]) Mat_prov<-C for(l in (n+2):(n+n)){ i_dep<-l-n for (i in i_dep:n){ a<-lambda_hat[l-i-1]^2*Mat_prov[i,l-i-1]/sigma2[l-i-1] s<-sigma2[l-i-1]/lambda_hat[l-i-1] Mat_prov[i,l-i]<-rgamma(1,shape = a,scale = s )} } last<-rep(0,n) for (i in 1:n) last[i]<-Mat_prov[i,n+1-i] Res<-t(Mat_prov[,n])-last if(k==1){Mat_res<-cbind(Res,sum(Res))} if(k>1){Mat_res<-rbind(Mat_res,cbind(Res,sum(Res)))} }
Toute l'information est alors dans le vecteur lations du montant total apparait dans la

Mat_res. Un ensemble de simudernire ligne de Mat_res.

Tout le code prcdant peut tre obtenu l'aide de la commande

source(bayes-triangle). > source(bayes-triangle) > plot(B$reserves[,6]) > abline(h=2426.88) > apply(B$reserves,2,mean) [1] 0.00000 22.46982 35.78285

66.30972 152.50063 2150.45450 2427.51752

La Figure 2.14 montre ainsi la distribution du montant de provision obtenu par cet algorithme, ainsi que les ordres de grandeurs des quantiles

95%, 99%
quantile

et

99.5%.
est relativement robuste, avec 10 000 tirages.

En iterant cette fonction, on peut d'ailleurs noter que l'estimation du

95%

108

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

reserves (total)

cel-00550583, version 1 - 28 Dec 2010

2200

2300

2400

2500

2600

2700

200

400 iteration

600

800

1000

Figure 2.13  Gnration d'une suite de montants de provisions R.

0.005

1.00

q q

0.004

0.003

0.96

0.98

0.002

0.001

0.000

2100

2200

2300

2400

2500

2600

2700

0.90 2500

0.92

0.94

2550

2600

2650

2700

2750

reserves (total)

reserves (total)

Figure 2.14  Distribution du montants de provisions R, et estimation du


quantile 95%.

2.6. BORHUTTER-FERGUSSON, BENKTANDER ET LES MTHODES BAYSIENNES109

cel-00550583, version 1 - 28 Dec 2010

95% ValueatRisk

2500

2520

2540

2560

2580

2600

2000

4000

6000

8000

10000

Figure 2.15  Convergence du quantile 95% du montant de provision.

110

CHAPITRE 2. LES PROVISIONS POUR SINISTRES PAYER

cel-00550583, version 1 - 28 Dec 2010

Bibliographie
[1] R.A. Bailey. [2]

cel-00550583, version 1 - 28 Dec 2010

Society of Actuaries, 50 :411, 1963. N. Balson. Mesure d'incertitude sur l'estimation des provisions de sinistres en Assurance Non Vie. Institut des Actuaires - ENSAE, 2008.
sualty excess reinsurance.

Insurance rates with minimum bias.

Proceedings of the

[3] G. Benktander. An approach to credibility in calculating ibnr for ca-

Actuarial Review, 3 :731, 1976.

[4] S. Christodes. Regression models based on log-incremental payments. In Institute of Actuaries, editor, [5] A.C. Davison and E.J. Snell. Chapman and Hall. [6] P. de Jong and G.H. Zeller.

Claims Reserving Manual, 1989.

Residuals and diagnostics.

D.V. Hinkley and E.J. Snell, editors,

Statistical Theory and Modelling.

In N. Reid

Data.

Generalized Linear Models for Insurance

Cambridge University Press, 2008.

[7] M. Denuit and A. Charpentier.

Mathmatiques de l'assurance non-vie : Tarication et provisionnement. Tome 2. Economica, 2005.


Analytic and bootstrap estimates

[8] P. D. England and R. J. Verrall.

[9]

[10]

Economics, 25 :281293, 1999. E.W. Frees. Regression modeling with actuarial and nancial applications. Cambridge University Press, 2009. J. Friedman. Multivariate additive regression splines. Annals of Statistics, 19(1) :167, 1991. Transactions of the Society of Actuaries Society of Actuaries,
46 :99

of prediction errors in claims reserving.

Insurance : Mathematics and

[11] H.U. Gerber and E.S.W. Shiu. Option pricing by esscher transforms. 191, 1994. [12] C. A. Hachemeister and J. N. Stanard. with static lag functions. In gal, 1975. [13] T. Hastie and R. Tibshirani. and Hall, 1990. 111

12th ASTIN Colloquium, Portimao, PortuGeneralized Additive Models.


Chapman

Ibnr claims count estimation

112

BIBLIOGRAPHIE
ASTIN Colloquium, Loen,
Norway, 1981.

[14] E. Hovinen. Additive and continuous ibnr. In

[15] C. M. Hurvich and C.-L. Tsai.

likelihood models in small samples. [16] J. Jung. 48, 1968.

Biometrics, 51 :10771084, 1995. On automobile insurance ratemaking. ASTIN Bulletin, 5 :41 Modern Actuarial

Model selection for extended quasi-

[17] M. ; Dhaene J. Kaas, R. ; Goovaearts and M. Denuit.

Risk Theory.

Springer Verlag, 2009.

[18] E. Kremer. Ibnr claims and the two-way model of anova.

Actuarial Journal, pages 4755, 1982.


or estimating ibnr claims reserves.

Scandinavian

[19] T. Mack. A simple parametric model for rating automobile insurance

ASTIN Bulletin, 21 :93109, 1991.

cel-00550583, version 1 - 28 Dec 2010

[20] T. Mack. Distribution-free calculation of the standard error of chainladder reserve estimates.

ASTIN Bulletin, 15 :133138, 1993.

[21] T. Mack. The standard error of chain-ladder reserve estimates : Recursive calculation and inclusion of a tail factor. 366, 1993. [22] P. McCullagh and J.A. Nelder. 1991. [23] R.J. McDonald, J.B. Butler. variables.

ASTIN Bulletin, 29 :361


CRC Press,

Generalized Linear Models.

Journal of Econometrics, 43 :227251, 1990.

Regression models for positive random

[24] M. Merz and M. V Wthrich. Modelling the claims development result for solvency purposes.

[25]

[26]

CAS E-Forum, pages 542568, 2008. E. Ohlsson and B. Johansson. Non-life insurance pricing with Generalized Linear Models. Springer Verlag, 2010. C. Prhl and K. D. Schmidt. Multivariate chain-ladder. In ASTIN Colloquium, Zurich, 2005.
a reserving method that reduces the gap between ibnr projections based on paid losses and ibnr projections based on incurred losses.

[27] G. Quarg and T. Mack. Munich chainladder

Variances, 2 :267299, 2004.

[28] A. E. Renshaw and R. J. Verrall. chain-ladder technique. [29] G. Simonet.

British Actuarial Journal, 4 :903923, 1998. Comptabilit des entreprises d'assurance. L'Argus de l'AsAnnals

A stochastic model underlying the

surance, 1998. [30] C.J. Stone. Additive regression and other nonparametric models.

of Statistics, 13(2) :689705, 1985.


and the chain-ladder technique.

[31] R. J. Verrall. An investigation into stochastic claims reserving models

mics, 26 :9199, 2000.

Insurance : Mathematics and Econo-

BIBLIOGRAPHIE
[32] S.N. Wood. Additive regression and other nonparametric models.

113

[33]

[34]

Annals of Statistics, 62(2) :413428, 2000. M. V. Wthrich and M. Merz. Stochastic Claims Reserving Methods in Insurance. Wiley Interscience, 2008. B. Zehnwirth. Interactive claims reserving forecasting system (ICRFS).

Benhar Nominees Pty Ltd. Tarramurra N.S.W., Australia., 1985.

cel-00550583, version 1 - 28 Dec 2010

S-ar putea să vă placă și