Documente Academic
Documente Profesional
Documente Cultură
Introducción
La actividad aseguradora está difundida en el mundo entero, son de uso corriente los seguros
de automóviles, incendios, robos, vida, etc. Esta actividad responde a la incertidumbre que
sienten los individuos ante ciertas situaciones que pueden provocar distintos daños, tanto
materiales como personales. El miedo a la posibilidad de que ocurran dichos acontecimientos
se intenta eliminar mediante la compra de un seguro que compensará al asegurado en el caso
de producirse algún daño. La base de esta actividad radica en la existencia de un equilibrio
entre la prestación que hará la compañı́a de seguros y la contraprestación que ella recibe del
asegurado.
La Ciencia Actuarial tal como hoy se concibe comienza en el siglo XVII. Durante este periodo
las necesidades comerciales dieron lugar a operaciones que acarreaban un interés compuesto;
los seguros marı́timos eran algo habitual y el cálculo de las rentas vitalicias comenzaba a
aparecer. Este tipo de operaciones requerı́a algo más que el juicio intuitivo y comercial de
los primeros aseguradores. Uno de los pilares de la Ciencia Actuarial fue la Teorı́a de Pro-
babilidades, las bases del análisis estadı́stico en el seguro fueron establecidas por Pascal en
1654 en colaboración con el también matemático Pierre de Fermat.
Otro de los pilares es el concepto de tablas de vida, basadas en las investigaciones sobre la
1
mortalidad. Las primeras tablas son debidas a John Graunt (1662). En 1693 Edmund Halley,
matemático ingles, publicó un famoso documento describiendo la construcción de tablas de
vida completas a partir de la hipótesis de estacionariedad de la población, ası́ como el méto-
do de valoración de las rentas vitalicias, que es, en esencia, el mismo que se utiliza hoy en
dı́a. Las tablas de Halley se utilizaron por la mayorı́a de las compañı́as de seguros inglesas
creadas durante el siglo XVIII.
En el presente siglo, la Ciencia Actuarial se enriquece con las aportaciones de las matemáti-
cas de los seguros no vida, la teorı́a estadı́stico-matemática de la estabilidad y la moderna
teorı́a de la decisión.
Seguro: Entendido como contrato, es el convenio entre dos partes, la compañı́a o entidad
aseguradora por una parte y el contratante por otra, mediante la cual la primera se compro-
mete a cubrir económicamente la pérdida o daño que el asegurado puede sufrir durante la
vigencia del contrato. La obligación del asegurado es pagar, a la firma del contrato, el precio
del seguro total o parcialmente.
Riesgo: Es la posibilidad de pérdida o daño. El hombre desde que nace vive con la constante
amenaza de enfermedad, accidente, muerte, etc. De la misma forma sus propiedades pueden
sufrir incendios, robos, etc.
Siniestro: Es la concreción del riesgo. Por ejemplo, un incendio que destruye una fábrica,
el robo de mercancı́as, muerte en un accidente, etc.
Asegurado: Es la persona titular del interés asegurado. Es quien sufre el perjuicio económico
en sus bienes, en caso de que ocurra el siniestro, o la persona cuya vida o integridad fı́sica se
2
asegura y, por lo tanto, quien percibirá la indemnización en caso de que un siniestro afectase
al objeto asegurado (excepto en el caso de seguros de vida, en que recibe la indemnización,
en caso de muerte. el beneficiario).
Beneficiario: Cuando se asegura la vida o la integridad fı́sica de una persona puede desig-
narse a otra persona para que reciba las indemnizaciones, que es el beneficiario.
• Condiciones generales: son una serie de cláusulas iguales para todos los contratos de la
misma modalidad. Incluyen deberes y derechos, forma de atención del siniestro, riesgos cu-
biertos, etc.
• Condiciones particulares: son las que individualizan cada contrato de seguro. Incluyen da-
tos personales del asegurado, caracterı́sticas del riesgo que se asegura (incendio, accidente,
robo...), importe de la prima, etc.
• Condiciones especiales: aparecen en algunas pólizas y suponen una adaptación para deter-
minados casos especiales. Por ejemplo, hay unas condiciones generales para todos los seguros
de robo, pero dadas las caracterı́sticas que pueden tener el seguro de robo a joyerı́as, se crean
para este tipo de establecimientos unas condiciones especiales.
Prima: Es el precio del seguro. Es la cantidad de dinero que el asegurado paga para que,
a cambio, el asegurador pague en caso de siniestro. La prima es por lo general para una
vigencia anual del seguro, aunque excepcionalmente puede pagarse por una sola vez, para la
cobertura de varios años (prima única en seguros de vida) y también por una vigencia menor
de un año (prima a corto plazo, como en el caso de un viaje, transporte de mercancı́as, etc.)
Clases de primas:
3
cantidad necesaria y suficiente que el asegurador debe percibir para cubrir el riesgo. Nace
del concepto de esperanza matemática como precio justo de una eventualidad.
• Prima de tarifa: también llamada prima comercial, es la prima de riesgo más los recargos.
Margen de beneficio: son los recargos asignados a la utilidad razonable del asegurador.
• Prima de facturación: es la prima de tarifa más los recargos de ley, como son los impues-
tos sobre la prima, los derechos de emisión y otros agregados y ordenados por disposiciones
legales, ası́ como los intereses de financiación en el caso de que el asegurador otorgue facili-
dades de pago fraccionado de la prima anual.
Los seguros de no vida van dirigidos a cubrir daños materiales que ocasionan pérdidas
económicas. Los más frecuentes son los de automóviles, incendios, robos, etc. En este ca-
so, las prestaciones o indemnizaciones están en función de la cuantı́a del daño.
4
Objetivos de las Matemáticas Actuariales
El objetivo de las Matemáticas Actuariales lo constituye el estudio cuantitativo de las ope-
raciones de seguro (y financieras en general) a fin de optimizar las decisiones sobre las mag-
nitudes que intervienen en ellas, teniendo en cuanta que las citadas operaciones las realiza
un ente asegurador (o financiero) que desarrolla su actividad en un entorno económico-social.
• El análisis cuantitativo de los sistemas actuariales en los seguros colectivos, sociales y pla-
nes de pensiones.
5
Riesgo
Definición: Se entiende por riesgo, en la literatura actuarial, no sólo al objeto asegurado,
sino también, a la posibilidad de producirse, por azar, un acontecimiento que origine una
pérdida económica o patrimonial.
Un individuo puede adoptar distintas conductas a la hora de enfrentarse al riesgo, una par-
ticularmente asociada al seguro, es la de prevención y previsión, que conlleva a actitudes de
ahorro y de aseguramiento (como mecanismo para reducir la incertidumbre del asegurado a
través del pago de la prima). Este último constituye la forma más adecuada y técnicamente
eficaz para cubrir riesgos.
• Factibilidad: Debe existir posibilidad de que riesgo se consume. Tal posibilidad tiene
dos situaciones extremas: Por un lado, la frecuencia y del otro la imposibilidad. La excesi-
va ocurrencia del riesgo y su materialización en siniestro atenta contra la aleatoriedad del
suceso cubierto, ası́, una gran frecuencia de riesgos, por ejemplo, en la cobertura automóvi-
les, aparte de resultar muy costoso para la empresa aseguradora, exigirá que las primas de
seguros necesariamente se incrementen. Del mismo modo, la imposibilidad de que el riesgo
se manifieste en siniestro, situarı́a a la empresa aseguradora en una posición de presentar
una cobertura absurda que harı́a inviable la comercialización del producto, como ofrecer una
cobertura de daños por nevadas, en un paı́s tropical.
6
derecho de ejercitar las acciones pertinentes contra el responsable del daño (principio de su-
brogación), como también es posible indemnizar el siniestro causado intencionadamente por
el asegurado, siempre que los daños se hayan producido por una situación de fuerza mayor
o para evitar otros más graves.
• Monto económico: La realización del riesgo debe producir una necesidad traducible a
un valor económico, que se satisface con la indemnización correspondiente.
7
EL PROCESO DE MODELACIÓN DEL
RIESGO
Recordemos que un modelo matemático, estadı́stico, actuarial, o de cualquier naturaleza, es
una representación simplificada de algún fenómeno real. En un contexto actuarial especı́fico,
proponer un modelo para describir una situación, se basa en la experiencia y conocimiento
que el Actuario tenga del fenómeno bajo estudio, ası́ como de la información histórica que
posea sobre él. El modelo debe proveer un balance entre simplicidad (parsimonia) y confor-
midad (ajuste) con la información disponible para elaborarlo.
El proceso de modelado
Sin pretender ser exhaustivos, podemos reconocer ciertos pasos a seguir para modelar una
situación actuarial. Es importante remarcar que, aunque los pasos se enumeren ordenada-
mente, la dinámica del proceso permite regresar a algunos puntos anteriores, para su mejor
especificación. Finalmente, hay que recordar que modelar tiene algo de técnica y mucho de
arte.
PASOS
1.- Uno o más modelos pueden seleccionarse de acuerdo al conocimiento inicial y experiencia
que posea el analista, además de la naturaleza de la información disponible.
3.- Realizar pruebas de bondad de ajuste y diagnóstico del modelo, para determinar si su
ajuste es adecuado para los datos utilizados.
4.- Considerar, a partir del paso anterior, la posibilidad de utilizar otros modelos.
5.- Si existen varios modelos que pueden ser adecuados, entonces, es necesario compararlos
con la finalidad de decidir por alguno de ellos.
6.- Finalmente, el modelo seleccionado puede adaptarse para aplicarlo en el futuro. Esto
puede involucrar algún ajuste de los parámetros, previendo cambios por alguna caracterı́sti-
ca exógena, como inflación, cambios del mercado asegurado o cualquiera otra.
8
Distribuciones asociadas al monto de
una pérdida
Cuando se manifiesta un riesgo, la Cı́a aseguradora tiene la obligación de cubrir el monto
de la reclamación que genera tal evento. Dadas las caracterı́sticas del riesgo, este monto es
claramente aleatorio, por lo que es suceptible de modelarse a través de una variable aleatoria,
X. Dado que el monto del siniestro es una cantidad no negativa, los modelos probabilı́sticos
asociados deben contemplar esta y otras caracterı́sticas. Concretamente
• La variable asociada al monto de reclamación es mayor o igual que cero (no negativa)
X : [0, ∞) → [0, ∞)
0.3
0.2
0.1
0.0
0 2 4 6 8 10
• La distribución puede ser de colas pesadas lo que podrı́a implicar el uso de distribuciones
para valores extremos en su modelación.
9
Entonces, dadas estas caracterı́sticas de los montos asociados a un riesgo, es necesario iden-
tificar las familias de modelos (densidades y/o distribuciones) más adecuados para su mode-
lación, recordando que deben ser modelos con soporte en los reales no negativos.
10
Principales familias paramétricas para
modelar el monto de riesgo
Familia de distribuciones exponencial
La distribución exponencial es un modelo apropiado para los montos, ya que cumple con los
requicitos para su modelación; no obstante, esta distribución tiene colas ligeras por lo que
no resultarı́a adecuada si el seguro genera una gran proporción de reclamaciones con montos
muy grandes. Las caracterı́sticas de esta v.a. son
1 1 θ
• E (X) = ; V (X) = 2 ; MX (t) = , que existe si t < θ.
θ θ θ−t
• θ es un parámetro de escala.
lambda= 1
Exponencial
lambda= 2
lambda= 3
3
lambda= 4
lambda= 5
lambda= 6
2
1
0
0 1 2 3 4
11
para modelar datos en los que no ocurran muchas reclamaciones con valores grandes. Se dice
que X v.a. tiene distribución Gamma si su función de densidad es
θα xα−1 e−θx
f (x; α, θ) = , x ≥ 0, α ≥ 0, θ ≥ 0
Γ(α)
Z ∞
Γ(z) = e−t tz−1 dt
0
α
α α θ
• E (X) = ; V (X) = 2 ; MX (t) = , t<θ
θ θ θ−t
Γ(α + r)
E (X r ) =
θr Γ(r)
12
Diversas formas de la distribución Gamma Diversas formas de la distribución Gamma
0.25
1.2
0.20
1.0
alpha= 10 , beta= 0.5
alpha= 20 , beta= 0.5
alpha= 30 , beta= 0.5
0.8
alpha= 40 , beta= 0.5
0.15
Gamma
alpha= 10 , beta= 0.2
alpha= 10 , beta= 0.3
0.6
alpha= 10 , beta= 0.4
alpha= 10 , beta= 0.5
0.10
0.4
0.05
0.2
0.00
0.0
0 10 20 30 40 50 0 5 10 15 20 25
x x
Esta distribución guarda una estrecha relación con la Normal. De hecho, una variable alea-
toria se distribuye Log-normal, si el logaritmo natural de ella, se distribuye Normal, es decir
1 1 2
f (x; µ, σ 2 ) = √ e− 2σ2 (ln(x)−µ) , x > 0, µ ∈ R, σ 2 ∈ R+
2πσ 2 x
13
Algunas caracterı́sticas de esta distribución son
σ2 r2 σ2
2 2
• E (X) = eµ+ 2 ; V (X) = e2µ+σ eσ − 1 ; E (X r ) = erµ+ 2 (momentos de orden r=1,2,...)
0.8
0.5
0.6
m= 0 , sigma= 1
0.4
m= 0 , sigma= 0.9
mu= 0 , sigma= 1
log−normal
log−normal
m= 0 , sigma= 0.8
mu= 0.5 , sigma= 1
m= 0 , sigma= 0.7
mu= 0.7 , sigma= 1
m= 0 , sigma= 0.6
0.3
0.2
0.1
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
Se dice que X v.a. tiene una distribución W eibull(α, θ), si tiene una función de densidad
dada por
14
α x α−1 n x α o
f (x) = exp − , x > 0, α > 0, θ > 0
θ θ θ
1 2 2 2 1 t t
• E (X) = θΓ 1 + ; V (X) = θ Γ 2 + −Γ 1+ ; MX (t) = θ Γ 1 +
α α α α
Diversas formas de la distribución Weibull Distribución Weibull con diferentes parámetros de escala
3.0
k= 0.5 , lambda= 1
k= 1 , lambda= 1
k= 1.5 , lambda= 1
8
k= 3 , lambda= 1
2.5
k= 5 , lambda= 1
k= 7 , lambda= 1
2.0
k= 2 , lambda= 1
k= 2 , lambda= 0.8
k= 2 , lambda= 0.6
Weibull
Weibull
k= 2 , lambda= 0.4
1.5
k= 2 , lambda= 0.2
k= 2 , lambda= 0.1
4
1.0
2
0.5
0.0
0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0
x x
15
Familia de distribuciones Pareto
La distribución Pareto es una distribución con cola derecha aún más pesada que la Log-
normal y la Weibull, por lo que resultará de gran utilidad para modelar siniestros que gene-
ren reclamaciones muy grandes con altas frecuencias. Esta distribución surge al considerar
que la probabilidad de que una v.a., X, tome un valor superior a un valor determinado, x,
tiene la forma funcional
α
θ
P (X > x) = , x ≥ θ, α > 0, θ > 0
x
α
θ
F (x) = 1 − P (X > x) = 1 −
x
0 αθα
f (x; α, θ) = F (x) = α+1 , x ≥ θ, α > 0, θ > 0
x
αθ αθ2 r αθr
• E (X) = ; V (X) = ; E (X ) = , α > r, r = 1, 2, ...
(α − 1) (α − 2)(α − 1)2 (α − r)
16
Diversas formas de la distribución Pareto Diversas formas de la distribución Pareto
0.6
2.0
0.5
1.5
alpha= 3 , theta= 120
0.4
Pareto
0.3
1.0
alpha= 5 , theta= 5
alpha= 6 , theta= 5
0.2
0.5
0.1
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
αθα
f (x; α, θ) = , x ≥ 0, α > 0, θ > 0
(x + θ)α+1
θ αθ2 r θr Γ (r + 1) Γ (α − r)
E (X) = ; Var (X) = ; E(X ) = , −1 < r < α
(α − 1) (α − 2) (α − 1)2 Γ (α)
r θr r!
E(X ) = si r es entero
(α − 1) (α − 2) · · · (α − r)
17
Familia de distribuciones Pareto de tercer tipo
La distribución de Pareto de tercer tipo, es una generalización de las anteriores, en la que
además de la traslación se produce un cambio en la estructura de varianza. Se define como
distribución de Pareto de tercer tipo a la distribución de la v.a. X, cuya función de distribu-
ción es:
α
θ β
F (x) = 1 − e− θ x , x > 0, α > 0, θ > 0, β ≥ 0
θ+x
α
1 θ − βθ x α
f (x) = e x +β
θ θ+x θ
+1
Ninguna de las caracterı́sticas de esta distribución tienen una expresión analı́tica cerrada.
βαθα xβ−1
f (x) = x ≥ 0 , θ > 0, α > 0, β > 0
(xβ + θ)α+1
18
θr/β Γ (α − r/β) Γ (r/β + 1)
E (xr ) = , que existe si r < αβ
Γ (α)
0.04
0.4
0.03
0.3
Burr
alpha= 60 , beta= 5 , theta= 0.1
0.02
0.2
0.01
0.1
0.00
0.0
0 10 20 30 40 50 0 10 20 30 40 50
x x
Estas son algunas distribuciones de uso común para modelar los montos que genera la reali-
zación de un riesgo. Por supuesto, no están contemplados todos los modelos, son solamente
los más utilizados para este objetivo. Por ejemplo, no hemos introducido distribuciones co-
mo: Loglogı́stica, Paralogı́stica, Pareto generalizada, Gamma inversa, Weibull inversa, Beta,
Beta generalizada, Exponencial inversa, etc. Ninguno de estos modelos corresponde a los
tı́picos de valores extremos como la Gumbel o la Fréchet, por ejemplo. Dada esta lista (no
exhaustiva) de posibles modelos, es claro que la elección del mismo para modelar una situa-
ción particular, no será tarea fácil, en general.
19
Ajuste de funciones de probabilidad
Ahora veamos cómo se hace un ajuste de estos modelos (distribuciones) en una situación
donde se tienen datos reales.
Simetrı́a de la densidad
Dado que en la mayorı́a de los casos los usuarios tienen algún conocimiento sobre el modelo
que pudo generar la información, ya sea por experiencia empı́rica o por la literatura del área
particular de aplicación, un buen principio es tomar en cuenta esta opinión y complementarla
con las descripciones gráficas y numéricas que proporciona el análisis descriptivo de los datos.
20
Las compañı́as de seguros, generalmente contemplan la recabación de datos relacionados
con los montos de reclamación de lo siniestros (severidad ) y del número de estos siniestros
(frecuencia) que implican la selección de modelos para variables continuas, para los primeros,
y modelos para variables discretas en los segundos.
Las herramientas descriptivas permiten tener diversas medidas asociadas a las caracterı́sticas
de la distribución subyacente a cualquiera de estos tipos de datos.
1. Métodos numéricos
2. Métodos gráficos
Histogramas
Box plot
Gráficas de probabilidad
21
Estimación de los parámetros
Una vez que se ha reconocido la familia a la que pertenece el modelo que pueda ajustar a
los datos, el siguiente paso es determinar concretamente cuál de los modelos de esta familia
es el que se ajusta a nuestra información. Es decir, necesitamos estimar los parámetros de
este modelo particular.
Métodos de estimación
Aunque existen diversos métodos para estimar los parámetros de una distribución, los más
usuales son:
Supongamos que observamos los valores de una muestra aleatoria x1 , ..., xn de una dis-
tribución F (x|θ), donde θ = (θ1 , ..., θp ) es un vector de p parámetros. Denotemos por
µk (θ) = E(X k |θ), el k-ésimo momento poblacional.
Z
k
xk f (x) dx
µk (θ) = E X |θ =
Y por
n
1X k
Mk = x
n i=1 i
n
1X k
µk (θ) = x , k = 1, 2, ..., p
n i=1 i
las soluciones de este sistema son los estimadores θ̂ = (θ̂1 , ..., θ̂p ). En las distribuciones usua-
les el número de parámetros a estimar, p, generalmente es pequeño 1, 2 ó 3.
22
n
1X
µ1 (θ1 , θ2 , ..., θk ) = M1 = xi = x̄
n i=1
n
1X 2
µ2 (θ1 , θ2 , ..., θk ) = M2 = x
n i=1 i
..
.
n
1X k
µk (θ1 , θ2 , ..., θk ) = Mk = x
n i=1 i
como tenemos k ecuaciones con k incógnitas, entonces el sistema tiene solución única. Lla-
maremos θˆi a la solución de la i-ésima ecuación.
Ejemplo: Bernoulli(p)
n n
1X 1X
Ojo Aquı́ x̄ = xi = {ceros y unos} = Proporción. No se puede interpretar en el
n i=1 n i=1
“Ostro”
N ormal(µ, σ 2 )
µ1 = µ1 (µ, σ 2 ) = E(X) = µ = x̄ µ̂ = x̄
n
2 2 2 1X 22
µ2 = µ2 (µ, σ ) = E(X ) = σ + µ = x
n i=1 i
n n n n
1X 2 1X 2 1X 1X
⇒σ =2
xi − µ 2 = xi − x̄2 = (xi − x̄)2 ⇒ σ̂ 2 = (xi − x̄)2 !No es S 2 !
n i=1 n i=1 n i=1 n i=1
por lo tanto, en la N ormal(µ, σ 2 ) los estimadores por momentos de los dos parámetros son
23
n n
!
1X 1 X
µ̂ = xi , σ̂ 2 = (xi − x̄)2 .
n i=1 n i=1
Máxima verosimilitud
Este es, probablemente, el método más común de estimar un parámetro. Para implementar-
lo es necesario definir primero la verosimilitud, que no es más que la distribución conjunta
de la muestra. Si los datos son continuos, esta es propiamente una función de distribución
conjunta, y si son discretos, es una función conjunta de probabilidad.
Una vez determinada la verosimilitud, se procede a maximizarla con respecto a los paráme-
tros de interés. Los valores de los parámetros que la maximizan son los estimadores máximo
verosı́miles. Debido al hecho común de que las observaciones se suponen independientes e
idénticamente distribuidas (i.i.d.), la forma de la verosimilitud es
n
Y
L(θ, X) = f (xi |θ)
i=1
n
X
`(θ, X) = log [L(θ, X)] = log f (xi |θ)
i=1
Observaciones:
Los estimadores máximo verosı́miles son los valores de θ que hacen más probable la
observación de esos datos, o que maximizan la probabilidad de haber observado esos
datos.
24
Una de las caracterı́sticas más importantes de este estimador es que tiene una distri-
bución asintótica normal
a
θ̂M V ∼ N θ, var
ˆ θ̂M V
Un método de uso común en teorı́a de riesgos para estimar los parámetros de un modelo, es
el de igualar los percentiles estimados con los datos, a los percentiles teóricos obtenidos del
modelo subyacente. En concreto, el método trabaja de la siguiente forma.
Denotemos por πq (θ) el 100×q percentil de la distribución subyacente a los datos, que en el
caso de una distribución continua, es la solución a
F (πq (θ)|θ) = q
πqk (θ)
b =π
bqk , k = 1, 2, ..., p
25
Pruebas de bondad de ajuste
Los procedimientos para probar qué tan bien se ajusta un modelo a un conjunto de datos,
reciben el nombre genérico de pruebas bondad de ajuste y constituyen un área de desarrollo
permanente en la estadı́stica. Como mencionamos lı́neas arriba, en la determinación de un
modelo paramétrico, es necesario asignar una distribución para los datos de severidad, de fre-
cuencia o ambos. En el caso de las distribuciones asociadas a la frecuencia de reclamaciones,
existen algunas guı́as que pueden sugerir el modelo a considerar en una situación particular,
como el hecho que una distribución Poisson posea media y varianza iguales, mismo que puede
comprobarse calculando las correspondientes versiones muestrales de estos parámetros. Si,
como ocurre frecuentemente, la varianza es mayor a la media, entonces tendrı́amos evidencia
empı́rica para suponer un modelo binomial negativo. No obstante esto, no existen de manera
general este tipo de indicaciones que sugieran qué distribución elegir cuando tenemos datos
de severidad. Por esta razón, es necesario recurrir a procesos generales como las pruebas de
bondad de ajuste, que puedan auxiliarnos en esta importante tarea.
Este tipo de pruebas son esencialmente pruebas de hipótesis, con la caracterı́stica particular
de que la hipótesis que queremos probar no es, como generalmente ocurre, acerca del valor
paricular de algún(os) parámetro(s), sino sobre una función de distribución especı́fica. Estas
pruebas se enuncian como
donde F0 es la distribución que suponemos sigue nuestros datos. Como podemos observar,
necesitamos definir qué distribución es la que consideramos que ajusta a nuestra información.
A este respecto podemos tener diversas opciones: 1) F0 es totalmente conocida. En el senti-
do que se conoce su forma funcional y su(s) parámetro(s). 2) F0 es parcialmente conocida.
Se conoce su forma funcional pero se desconoce algún(os) de su(s) parámetro(s). 3) F0 es
totalmente desconocida. Se conoce su forma funcional pero se desconocen su(s) parámetro(s).
Contrario a las pruebas de hipótesis usuales, en las pruebas de bondad de ajuste no se es-
26
pecifica la hipótesis alternativa, ya que el modelo que se enuncia en la hipótesis nula, no se
compara contra un modelo alternativo que deberı́a estar especificado en la hipótesis alterna-
tiva. La razón de este hecho es que estamos interesados en verificar que la distribución de
nuestros datos es la que proponenos y si no lo es, no es de interés saber qué otra distribución
sı́ es.
Presentaremos de manera sencilla algunas de las pruebas más comunes para realizar bon-
dad de ajuste. Dado que nuestros datos sobre la severidad de una pérdida pueden presentar
truncamiento por la izquierda, que corresponde a aquellas pérdidas que no rebasaron el de-
ducible, y censura por la derecha, que son las pérdidas que sobrepasaron el lı́mite de póliza,
las estadı́sticas se deben modificar para contemplar estas particularidades de los datos.
y se calcula mediante
+ i
D = máx − z(i)
1≤x≤n n
− (i − 1)
D = máx z(i) −
1≤x≤n n
D = máx D+ , D−
0
con zi = F (xi ) y z(i) el i-ésimo elemento en la muestra ordenda de las zi s.
27
Esta prueba se usa para datos desagregados y para variables aleatorias continuas, i.e., F0 es
una función de distribución continua. Fn es la función de distribución empı́rica, y se calcula
con los datos reales.
Fn(xi)
F0(xi)
0.8
Fn(xi−1)
0.6
0.4
0.2
0.0
−2 −1 0 1 2
28
Función de distribución empírica
1.0
0.8
0.6
Fn(t)
0.4
0.2
0.0
−2 −1 0 1 2
Esta prueba es similar a la K − S pero mide las diferencias entre las funciones empı́rica y
propuesta de distinta manera. Una caracterı́stica a destacar de esta prueba es que asigna
mayor peso a las colas de la distribución, es decir, enfatiza la bondad de ajuste que se tenga
en las colas entre el modelo propuesto y la función de distribución empı́rica, que es el modelo
asociado a los datos reales. La forma explı́cita de la Anderson-Darling es
1
[Fn (x) − F0 (x)]2
Z
2
A = n dF0 (x)dx
0 F0 (x) [1 − F0 (x)]
n
1 X
= −n − (2i − 1) log(z(i) ) + log 1 − z(n+1−i)
n i=1
n
1 X
= −n − (2i − 1) log z(i) + (2n + 1 − 2i) log 1 − z(i)
n i=1
al igual que K − S esta es una prueba que no trabaja con datos agrupados.
29
Prueba Ji-cuadrada de bondad de ajuste
Esta es probablemente la más popular de las pruebas de bondad de ajuste, además de que,
contrario a K − S y A − D, es una prueba para distribuciones continuas y discretas; de
hecho, también tiene una versión multivariada. La prueba se basa en particionar el rango de
las variables observadas en k celdas o clases, y calcular el número de observaciones que se
esperarı́a tener en cada clase si la hipótesis nula fuera correcta, i.e., si F0 es cierta, y compa-
rarlo contra el número de observaciones que realmente cayeron en cada celda. Si denotamos
por Ej al número esperado y por Oj al observado en la celda j, j = 1, 2, ..., k, la estadı́stica
Ji-cuadrada de bondad de ajuste es
k
2
X (Ej − Oj )2
χ =
j=1
Ej
si los valores observados (Oj ) y esperados (Ej ) son similares, el valor de esta estadı́stica es
pequeño, e indicarı́a que F0 es cierta. Si, por el contrario, estos valores son muy distintos, su
valor deberı́a ser grande e implicarı́a que F0 es falsa.
30
Distribuciones para valores extremos
Teorı́a de valores extremos
• La Teorı́a de Valores Extremos (Extreme value theory) consiste en el empleo de una serie de
técnicas estadı́sticas para la identificación y modelado de observaciones extremas o outliers.
• Su objeto es determinar qué tan extrema puede ser la mayor o menor observación registrada
de un fenómeno aleatorio, es decir, estudia el comportamiento del valor máximo o mı́nimo
de una variable aleatoria.
• Para explicar este tipo de sucesos que ocurren, generalmente, con muy baja frecuencia pero
que tienen una influencia muy significativa sobre todo un modelo, la Teorı́a de Valores Extre-
mos emplea métodos matemáticos basados en comportamientos asintóticos, distribuciones,
procesos estocásticos y leyes lı́mite.
31
• Por lo general, queremos estimar valores por encima del valor máximo de la muestra.
• Las técnicas usuales de estimación de densidades ajustan bien en las zonas donde los datos
tienen mayor densidad, pero pueden ser inadecuadas para estimar las colas.
• No obstante, nosotros nos enfocaremos en aplicarla dentro del marco del seguro. En esta
área, el análisis de la siniestralidad extrema es de gran interés, puesto que constituye un
riesgo que pone en peligro la estabilidad y solvencia de entidades aseguradoras.
32
Distribución del máximo
Definamos
n
Y
P (Mn ≤ x) = P (X1 ≤ x, ..., Xn ≤ x) = P (Xi ≤ x) = F n (x)
i=1
Si conocemos F , conocemos la distribución del máximo, pero las expresiones analı́ticas para
F n pueden ser complicadas. Frecuentemente F es desconocida.
Recordar que el resultado que se tiene con las sumas de variables i.i.d. y el Teorema Central
del Lı́mite: Por la Ley Fuerte de Grandes Números, si µ = E(Xi ), entonces
n
1X
Xn = Xi −→ µ
n i=1
X n − µn
−→ N (0, 1)
σn
√
con µn = µ y σn = σ/ n.
Mn − bn
P ≤x = F n (an X + bn ) −→ G(x)
an
33
Entonces, nos preguntamos
• Si hay varias G posibles, conociendo F , ¿cómo sabemos, cuál de ellas es el lı́mite? ¿Es único?
G(x)=exp −e−x
Gumbel : x∈R
(
0 x<0
F réchet : G(x,α) =
exp (−x−α ) x ≥ 0, α > 0
(
exp − (−x)−α x < 0, α > 0
W eibull : G(x,α) =
1 x≥0
34
Ejemplo
n
F (x) = 1 − e−x =⇒ F n (x) = 1 − e−x y
n
F (x + log n) = 1 − e−x−log n
n
1 −x
−→ exp −e−x
= 1− e
n
n=10 n=15
1.0
1.0
0.8
0.8
0.6
Densidad
Densidad
0.6
0.4
0.4
0.2
0.2
0.0
0.0
−3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 4
x x
n=20 n=25
1.0
1.0
0.8
0.8
0.6
0.6
Densidad
Densidad
0.4
0.4
0.2
0.2
0.0
0.0
−3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 4
x x
La distribución Cauchy
1
f (x) = , x∈R
π (1 + x2 )
35
Se define la función de Supervivencia de una variable aleatoria, como: S(x) = 1 − F (x). Y
0
observemos que S (x) = −f (x). Entonces
entonces
nx nx
S =1−F ∼ (nx)−1
π π
y por lo tanto
nx nx n
P Mn ≤ = 1−F
π π
n
1 1
= 1− + o(1)
n x
(
0 x< µ
F réchet(x; α, µ, σ) = −α
exp − x-µ
σ
x ≥ µ, α > 0
( α
exp − − (x-µ)
σ
0 ≤ x < µ, α > 0
W eibull =
1 x≥0
36
Observamos que µ es el extremo izquierdo para la distribución de Fréchet y el extremo
derecho para la distribución Weibul.
Estos tres tipos de distribuciones se pueden combinar en una sola distribución (hiper modelo),
que se conoce como: La distribución generalizada de valores extremos (GVE). Que tiene la
forma
( −1/ξ )
x−µ
G (x; ξ, µ, σ) = exp − 1 + ξ
σ +
con y+ = máx {y, 0} . Para ξ > 0 se tiene la distribución Fréchet con α = 1/ξ. Para ξ < 0,
la distribución Weibull con α = −1/ξ, y la distribución Gumbel se obtiene como el lı́mite
cuando ξ → 0. Al parámetro ξ se le conoce como parámetro de forma.
37
104
103
●
Exceso
●
Umbral
102
● ● ●
● ●
●
● ● ● ●
●
●
101
● ● ● ●
● ● ●
● ● ● ● ●
● ● ●
y
●
●
● ●● ● ● ●
● ● ●
100
● ● ●●
● ● ●
● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ●
● ●
● ●
● ● ● ●
● ● ● ●
● ●
● ●
99
●
● ● ● ●
● ●
● ● ●
● ●
● ● ●
●
● ●
● ●
98
●
97
0 20 40 60 80 100
F (x + u) − F (u)
Fu (x) = P (X − u < x|X > u) =
1 − F (u)
A Fu (·) se le conoce como la distribución de vida residual, del exceso de vida o del exceso
de pérdida, esta última definición es la que tiene sentido para el área aseguradora.
−1/ξ
ξx
H (x; ξ, β) = 1 − , x>0
β +
38
Propiedad importante de la distribución Pareto Generalizada
lı́m sup Fu (x) − Hξ,β(u) (x) = 0
u↑wF 0<x<wF −u
para alguna función positiva β y wF el extremo final de F . Esta propiedad dice que la
función Pareto generalizada es una buena aproximación de los excesos de una distribución
de la familia GVE, para un umbral, u, grande. Este resultado se puede reformular como:
β + ξu
e(x) = E (X − u|X > u) = , β + ξu > 0
1−ξ
Estos dos resultados proporcionan una técnica gráfica para elegir un umbral, u, suficiente-
mente grande para justificar que Fu se aproxime por una Pareto Generalizada, a partir de
la versión muestral, en , de esta función y su linealidad para una distribución GVE.
Estrategias de modelación
Una forma de analizar datos con valores extemos es realizando las estimaciones de los paráme-
tros de la siguiente manera. Consideramos una colección de datos que agrupamos en bloques
disjuntos de datos consecutivos y de igual longitud. Si el parámetro es el tiempo (recordar
que esta metodologı́a se ha utilizado, sobre todo, en cuestiones ambientales), cada conjunto
contiene la información correspondiente a un periodo fijo de tiempo, digamos un año. En
cada caso se escoge el periodo para compensar las variaciones internas. Es decir, tenemos
39
(1) (1) (1)
X = X1 , X2 , ..., Xs(1)
(2) (2)
X(2) = X1 , X2 , ..., Xs(2)
..
.
(n) (n)
X(n) = X1 , X2 , ..., Xs(n)
Se asume que cada uno de estos vectores son i.i.d, aunque sus componentes pueden no serlo.
Se elige el intervalo de tiempo s de tal manera que se cumpla este supuesto. Entonces,
haremos estimación e inferencias sobre la muestra i.i.d. para un modelo Gθ con los datos:
(i) (i)
Mi = máx X1 , X2 , ..., Xs(i) , i = 1, 2, ..., n
Mostraremos cómo ajustar un modelo a datos reales mediante esta estrategia, utilizando la
librerı́a extRemes de R.
El segundo enfoque que utilizaremos para modelar datos extremos será el que considera los
valores por encima de un umbral. Entonces, la idea es seleccionar un umbral alto y considerar
los valores de la muestra que están por encima de este umbral, para ajustar un modelo Pareto
Generalizado.
40
Ajuste de una distribución Pareto Generalizada a la base de datos
de reclamaciones grandes, de la sociedad de actuarios
Como vimos, nuestra segunda opción importante en los modelos de teorı́a del valor extremo,
es la Pareto Generalizada, que surge a partir del método conocido como P.O.T. (Peaks over
threshold method), que consiste en modelar los valores extremos que exceden a un cierto
umbral, u, ya sea que modelemos todos los datos, Xi , i = 1, 2, ..., n, o los valores que exce-
den a este umbral Yi = Xi − u, i = 1, 2, ...n. Al intentar aplicar este método surgen algunas
cuestiones que debemos resolver
41
excesos sobre un umbral u cuando éste es grande.
β + ξu β ξ
e(x) = E (X − u|X > u) = = + u, β + ξu > 0
1−ξ 1−ξ 1−ξ
ξ
que es una función lineal de u, con pendiente , una vez que se ha definido un umbral
1−ξ
adecuadamente grande.
Dada una muestra ordenada de forma descendente: (X1:n , X2:n , ..., Xn:n ), la función empı́rica
de exceso medio se estima con la siguiente expresión :
n
X
(Xi:n − u)+
i=1
êx (x) = n
X
1(Xi:n >u)
i=1
En la práctica, es común tomar como umbrales los propios datos de la muestra, esto es,
u = Xk+1 , y esta expresión reduce a:
42
k
X
Xi
i=1
ên (Xk ) = − Xk+1
k
Entonces, para encontrar el umbral, u, para el cual es razonable pensar que el ajuste a través
de la distribución generalizada de Pareto es adecuado, se debe elegir el umbral, tomando el
valor a partir del cual la gráfica toma una forma lineal ascendente, ya que la gráfica de exce-
so medio para la distribución Pareto generalizada es lineal y tiende a infinito con pendiente
positiva.
43
MEDIDAS DE RIESGO
Los modelos probabilı́sticos (en nuestro caso, las densidades o distribuciones mencionadas
anteriormente) nos proporcionan una descripción de la exposición al riesgo, no obstante,
necesitamos describir esta exposición con algún valor numérico o con unos pocos valores
numéricos. Estos valores son funciones del modelo y se conocen como indicadores clave de
riesgo. Entonces, estos indicadores son resúmenes numéricos sobre el comportamiento de
nuestro riesgo, parecidos a los que utilizamos para describir una variable aleatoria. Estos
indicadores informan a los actuarios y a los administradores de riesgo, sobre el grado en que
la compañı́a está sujeta a un particular aspecto del riesgo.
• Una medida de riesgo está en correspondencia con la pérdida asociada a este riesgo
• Una medida de riesgo proporciona un solo número que intenta cuantificar la exposición a
este riesgo.
• Esta medida se denota como ρ(x). Es conveniente pensar a ρ(x) como la cantidad de acti-
vos requeridos para protegerse de las consecuencias adversas del riesgo, X.
Una medida de riesgo coherente, es una medida de riesgo ρ(x) con las cuatro propiedades
siguientes. Para cualesquiera dos variables aleatorias de pérdida X y Y :
2.- Monotonı́a: Si X ≤ Y para todas las posibles consecuencias, entonces ρ(X) ≤ ρ(Y )
Subaditividad significa que la medida de riesgo (y, por lo tanto, el capital requerido para
44
darle soporte) de dos riesgos combinados, no será mayor que los riesgos considerados por
separado. Subaditividad refleja el hecho que diversificar el riesgo puede ser benéfico para
una empresa.
Por ejemplo, un inversionista que tiene un portafolios de activos por un valor de 10 millones
de pesos, podrı́a establecer que el V aR diario de su portafolios es 250, 000 con un nivel de
confianza de 95 %. En otras palabras, solamente uno de cada 20 dı́as de operación del mer-
cado (1/20 = 5 %), en condiciones normales, la pérdida que ocurrirá puede ser mayor o igual
a 250, 000.
Sea X una v. a. con función de distribución, F (x), que denota pérdida. El Valor en Ries-
go (VaR) de X al 100 %p nivel de confianza, denotado por V aRp (X) o πp , es el p-ésimo
percentil de la distribución de X.
Ejemplos
45
Distribución Normal(µ, σ 2 ). Aunque esta distribución puede ser cuestionable como modelo
de pérdida, suele considerarse por su gran uso en estadı́stica. Para encontrar su V aR, tenemos
Exponencial(θ)
TailVaR (TVaR)
Definición técnica del TVaR
Sea X v. a. con función de distribución F (X), que denota pérdida. El TVaR de X al 100 %p
nivel de seguridad, denotado por T V aRp (X), es la pérdida esperada dado que ésta excede
el p-ésimo percentil de la distribución de X.
Z ∞
xf (x)dx
πp
T V aRp (X) = E(X|X > πp ) =
1 − F (πp )
Z 1
V aRu (X)du
p
T V aRp (X) = E(X|X > πp ) =
1−p
Esta expresión del T V aR implica que puede verse como un promedio de todos los valores
V aR por encima del valor de seguridad p. Lo que significa que proporciona mucho más in-
formación sobre la cola de la distribución que la que da el V aR. T V aR recibe otros nombres
46
en el campo de los seguros: Conditional Tail Expectation(CTE), Tail Conditional Expecta-
tion (TCE) y Expected Shortfall (ES). Finalmente, podemos decir que el T V aR es el valor
esperado de las perdidas en aquellos casos en que se excede el nivel de seguridad previamen-
te fijado. T V aR refleja con mayor fidelidad los eventos extremos que pueden amenazar la
posición financiera de la entidad. Otra forma común de escribir el T V aR es
Z ∞
(x − πp )f (x)dx
πp
T V aRp (X) = E(X|X > πp ) = πp + = V aRp (X) + e(πp )
1−p
Contrario al V aR, T V aR es una medida de riesgo coherente, por lo que refleja el efecto de
la diversificación de riesgos.
Ejemplos
Exponencial(θ)
Z ∞
S(x)dx
πp
V aRp (X) = −θlog(1 − p), y podemos mostrar que, e(x) = . Con S(·) la función
S(πp )
de supervivencia de la variable aleatoria. Utilizando este resultados tenemos
Z ∞ ∞
e−x/θ dx −θe −x/θ
θe−πp /θ θ(1 − p)
πp πp
e(x) = = = = =θ
1−p 1−p 1−p (1 − p)
Pareto(α, θ)
47
Esta distribución tiene
α
θ
V aRp = θ (1 − p)−1/α − 1
y S(x) =
θ+x
Z ∞
S(x)dx
πp
Calculemos e(x) =
S(πp )
Z ∞ α
θ α
dx α 1−α θα (θ + πp ) 1
πp θ+x θ (θ + πp ) θ+πp
e(x) = = =
1−p α−1 (α − 1)(1 − p)
θ + πp
e(x) =
α−1
θ + πp V aRp (X) + θ
T V aRp (X) = V aRp (X) + = V aRp (X) +
α−1 α−1
48
Distribuciones discretas
Además de modelar el monto de reclamación, también es de interés modelar la frecuencia
con las que estas pérdidas ocurren. Como es de suponer, los modelos para caracterizar esta
frecuencia de pérdidas, corresponden a distribuciones para variables aleatorias discretas. Es
importante señalar que este tipo de distribuciones también pueden utilizarse cuando los mon-
tos de pérdida se agrupan en una tabla de frecuencias, situación muy común en el quehacer
de las compañı́as aseguradoras.
Antes de iniciar la presentación de los modelos para v.a. discretas y sus caracterı́sticas, es
conveniente recordar una importante función asociada a estas variables.
∞
X
N
pk z k
PN (z) = E z =
k=1
1 dk
PN (0) = P (N = k)
k! dz k
n k
pk = P (N = k) = q (1 − q)n−k , x = 0, 1, ..., n, 0 < q < 1
x
49
Cuyas caracterı́sticas son
n
• E (N ) = nq; V (N ) = nq(1 − q); P (N ) = (1 + q(z − 1))n ; MN (t) = [(1 − q) + qet ]
0.10
0.12
0.15
0.10
0.08
0.08
0.10
0.06
p(x)
p(x)
p(x)
0.06
0.04
0.04
0.05
0.02
0.02
0.00
0.00
0.00
x x x
La distribución de probabilidad del número Y=X-1 de fallas antes de obtener el primer éxito;
y = 0, 1, 2, 3, ....
β
Entonces, si p = es la probabilidad de un éxito, la función de densidad de probabilidad
1+β
de esta variable aleatoria es
k−1
β 1
P (N = k) = ; k = 1, 2, ... o bien
1+β 1+β
50
k
β 1
P (N = k) = ; k = 0, 1, 2, ...
1+β 1+β
Con caracterı́sticas
−1
• E (N ) = β; V (N ) = β(1 + β); P (N ) = (1 − β(z − 1))−1 ; MN (t) = [1 + β (1 − et )]
0.20
0.5
0.30
0.4
0.25
0.15
0.20
0.3
0.10
p(x)
p(x)
p(x)
0.15
0.2
0.10
0.05
0.1
0.05
0.00
0.00
0.0
x x x
λk e−λ
P (N = k) = ; k = 0, 1, 2, ... λ > 0
k!
51
Con caracterı́sticas
t
• E (N ) = λ; V (N ) = λ; P (N ) = eλ(z−1) ; MN (t) = eλ(e −1)
El hecho de que la Poisson tenga media y varianza igual, proporciona un fuerte evidencia
empı́rica para determinar si un conjunto particular de frecuencias de reclamaciones sigue
esta distribución. Bastarı́a calcular la media y varianza de los datos y ver si estas cantidades
son similares.
0.12
0.35
0.20
0.30
0.10
0.25
0.15
0.08
0.20
p(x)
p(x)
p(x)
0.06
0.10
0.15
0.04
0.10
0.05
0.02
0.05
0.00
0.00
0.00
x x x
Dado que esta distribución tiene dos parámetros, es más flexible, en el sentido de que
puede tener formas más diversas, que la Poisson que únicamente tiene un parámetro.
Dado que su varianza es más grande que su media, constituye también una alternativa
52
para modelar datos de conteo sobredispersos, que son muy comunes en aplicaciones
reales.
Una forma estándar de concebir esta distribución es en una situación de muestreo por cuota.
Este esquema de muestreo es tı́pico de investigaciones de mercado, en las que se pide a un
individuo entrevistar a un número no definido de sujetos (n) hasta que una parte de ellos (m:
cuota fijo) haya contestado afirmativamente a alguna pregunta o haya preferido un producto
bajo investigación para su comercialización. Por supuesto, asumimos que la probabilidad,
p, de que obtengamos una respuesta afirmativa, es la misma para cualquier sujeto. Este
esquema es similar al que se modeları́a con una Binomial, pero, mientras en la Binomial el
número de “éxitos”, m, es aleatorio y el número de ensayos, n, es fijo, en este caso sucede
exactamente al revés: el número de “éxitos”, m, es fijo (no aleatorio) y el número de ensayos
(n: total de entrevistados necesarios para tener m éxitos) es aleatorio.
m−1 k
m+k−1 β 1 β
P(N = k) = ∗ , entonces
m−1 1+β 1+β 1+β
m k
m+k−1 β 1
P(N = k) = k=0,1,2,...
k 1+β 1+β
ya que
m+k−1 m+k−1
=
m−1 k
53
β
nuestra definición de la densidad geométrica, aquı́ p =
1+β
k
−k 1
E(N ) = kβ; V(N ) = kβ(1 + β); PN (t) = [1 − β(z − 1)] ; MN (t) =
1 + β(1 − et )
Ya que β > 0, entonces la varianza de la binomial negativa es mayor que su media, razón
por la que suele usarse como alternativa a la Poisson cuando ésta es sobre dispersa (V ar >
media).
0.12
0.4
0.20
0.10
0.3
0.08
0.15
p(x)
p(x)
p(x)
0.06
0.2
0.10
0.04
0.05
0.1
0.02
0.00
0.00
0.0
x x x
54
Distribuciones de la clase (a,b,0)
Ahora vamos a definir una clase general de distribuciones discretas, que será de mucha uti-
lidad para la modelación de frecuencias de reclamaciones.
La clase (a,b,0)
pk b
=a+ , k = 1, 2, 3, ...
pk−1 k
q q
Binomial(n,q) − (n + 1) (1 + q)n
1−q 1−q
Poisson(λ) 0 λ e−λ
β β
BN(β,k) (k − 1) (1 + β)−k
1+β 1+β
β
Geométrica(β) 0 (1 + β)−1
1+β
Esta clase provee una forma de encontrar las probabilidades de las distribuciones discretas, a
través de esta fórmula recursiva, y resulta bastante práctica al momento de querer ajustarlas
a nuestros datos. Además, podemos reescribir la fórmula de tal manera que quede como una
función lineal. Es decir
55
kpk
= ak + b, k = 1, 2, 3, ...
pk−1
Con esta forma lineal es posible identificar, por medio de su pendiente, la distribución de
probabilidad. Esto es, si la pendiente es igual a cero, entonces se trata de una distribución
Poisson; si es negativa, entonces será Binomial y si es positiva es una distribución Binomial
Negativa.
Concretamente tenemos
kpk q q
Binomial(n, p) = (n + 1) − k que es una lı́nea recta con pendiente
pk−1 1−q 1−q
negativa
kpk
P oisson(λ) = λ + 0k que es una lı́nea recta con pendiente cero
pk−1
kpk β β
BN (β, r) = (r − 1) + k que es una lı́nea recta con pendiente positiva.
pk−1 1+β 1+β
Distribución Poisson
5.04
5.02
kpk pk−1
5.00
4.98
4.96
2 4 6 8 10
56
kpk pk−1
2
4
57
k
6
Distribución Binomial
8
10
Distribución Binomial Negativa
5
4
3
kpk pk−1
2
1
2 4 6 8 10
58
Distribuciones de clase (a, b, 1)
Algunas veces las distribuciones de frecuencia anteriores no describen adecuadamente el com-
portamiento de un conjunto de datos real. Por ejemplo, porque la distribución elegida no
ajusta adecuadamente a la cola de los datos, o porque el miembro elegido de la clase (a, b, 0)
no captura, en alguna parte, la forma de la distribución de los datos. Un problema adicional
ocurre con la cola izquierda de la distribución, en particular con la probabilidad en cero.
pk b kpk
=a+ k = 2, 3, ... ó = ak + b (f orma lineal)
pk−1 k pk−1
La única diferencia con la anterior es que ésta inicia en p1 y no en p0 . Identificamos dos tipos
de estas distribuciones
Es claro que lo que estamos haciendo es modificar a nuestra voluntad, el valor asignado a las
probabilidades para el valor nulo de la variable aleatoria en cuestión. Estas modificaciones
deben responder al problema particular que estemos modelando.
Una distribución de la clase (a, b, 1) tiene la misma forma que su correspondiente en la clase
(a, b, 0), en el sentido que sus probabilidades son las mismas salvo una constante de propor-
cionalidad.
59
Relación entre estas clases
∞
X ∞
X
k
Sea P (z) = M
pk z la fgp de un miembro de la clase (a, b, 0) y P (z) = pM k
k z la fgp del
k=0 k=0
pM
k = cpk , k = 1, 2, 3, ...
con pM
0 un número arbitrario. Entonces
∞
X
M
P (z) = pM
0 + pM
k z
k
k=1
∞
X
= pM
0 +c pk z k
k=1
= pM
0 + c [P (z) − p0 ]
1 = pM
0 + c(1 − p0 )
de donde obtenemos
1 − pM
0
c= , o pM
0 = 1 − c(1 − p0 )
1 − p0
1 − pM 1 − pM
0 0
1− + P (z)
1 − p0 1 − p0
que es un promedio ponderado de las fgps de una distribución degenerada y la del miembro
correspondiente de la clase (a, b, 0). Además tenemos
60
1 − pM
0
pM
k = pk , k = 1, 2, ...
1 − p0
anteriores, tenemos
P (z) − p0
P T (z) = ,
1 − p0
pk
pTk = , k = 1, 2, ...,
1 − p0
pM
k = (1 − pM T
0 )pk , k = 1, 2, ... y
P M (z) = pM M T
0 + (1 − p0 )P (z)
61
Ejercicio urgente pa’ aclarar esto
Consideremos una binomial negativa (β = 0.5, r = 2.5). Determinemos los primeros cuatro
valores de sus probabilidades para los casos cero-truncado y cero-modificado, con pM
0 = 0.6.
p0 = (1 + 0.5)−2.5 = 0.362887
Si no tuvieramos ninguna modificación, entonces calcuları́amos los otros tres valores a través
de la fórmula recursiva correspondiente, como
b 1
pk = pk−1 a + = pk−1 a + b
k k
1 11
p1 = 0.362887 + = 0.302406
3 21
1 11
p2 = 0.302406 + = 0.176404
3 22
1 11
p3 = 0.176404 + = 0.088202
3 23
pero estas modificaciones cambiarán las probabilidades del modelo original. En el caso cero-
truncado forzamos el modelo a tomar pT0 = 0. Ya que el modelo original asigna una pro-
babilidad positiva al valor cero, tendremos que incrementar las probabilidades originales en
este modelo truncado en cero. Entonces, el primer valor de esta distribución truncada es
pT1 = 0.302406/(1 − 0.362887) = 0.474651. A partir de este valor iniciamos el proceso recur-
sivo para obtener los dos restantes
1 11
pT2 = 0.474651 + = 0.276880
3 22
62
1 11
pT3 = 0.276880 + = 0.138440
3 23
Por otro lado, en el caso de cero-modificado observamos que se asigna una probabilidad ma-
yor en cero, pM
0 = 0.6, de la que se tiene con el modelo original, por lo tanto, habrá que
1 11
pM
2 = 0.189860 + = 0.110752
3 22
1 11
pM
3 = 0.110752 + = 0.055376
3 23
63
Variables y Modificaciones de cobertura
En esta sección vamos a definir conceptos necesarios para el desarrollo de la teorı́a probabı́lis-
tica y estadı́stica que abarcan los seguros. Primero, es claro que existen distintos tipos de
acuerdos entre las compañı́as aseguradoras y el asegurado, bajo los cuales se buscan satisfa-
cer las necesidades de ambos, a través de las distintas coberturas que se ofrecen en las pólizas
de seguros. Entonces, para desarrollar los modelos que contemplen estas modificaciones de
cobertura, es indispensable definir las nuevas variables que generalmente se observan en los
diversos tipos de cobertura, y por medio de las cuales desarrollaremos la teorı́a posterior.
Hasta ahora, hemos supuesto que la cantidad de pérdida, X, es también la cantidad a pagar
por las reclamaciones. Sin embargo, hay modificaciones a las pólizas por las que el asegura-
dor puede ser responsable únicamente de un porcentaje o proporción de esta pérdida, que
constituye propiamente la severidad de la misma. Por ejemplo cuando la póliza tiene:
• Deducibles
• Lı́mites de póliza
• Coaseguro
Antes de representar estas modificaciones al pago de las pérdidas mediante variables alea-
torias y las funciones que las describen, es conveniente distinguir entre dos asociadas a esta
situación. Una v.a. relacionada al pago de la pérdida, en la que el valor cero es posible, y
ocurre cuando hay una pérdida sin pago. La segunda corresponde a la que mide “el pago del
pago”, que queda indefinida si no hay pago.
Definición Deducible: Cantidad o porcentaje establecido en una póliza cuyo importe debe
superarse para que se pague una reclamación.
En téminos técnicos: Las pólizas de seguro se venden con un deducible, d, por pago de la
pérdida. Cuando la pérdida, x, es menor que d, la compañı́a aseguradora no paga nada.
Cuando la pérdida es superior a d, la compañı́a paga x − d. Entonces, definimos las variables
aleatorias asociadas:
64
no def inida,
si X ≤ d
P
Y = .
X − d, si X > d
Esta variable tiene dos caracterı́sticas importantes, la primera de ellas, es que está truncada
por la izquierda, ya que aquellas observaciones por debajo del valor del deducible, d , son
omitidas y está trasladada debido a que los valores que toma la v.a. empiezan a partir de d.
0, si X ≤ d
Y L = (Y − d)+ =
X − d, si X > d
Y L es una v.a. mixta con una masa de probabilidad en cero, y posiblemente continua para
valores mayores a éste. Notemos que Y P = Y L |Y L > 0 = Y L |X > d. Dadas las definiciones
anteriores, se tiene que:
fX (y + d)
fY P = ,y > 0
SX (d)
SX (y + d)
SY P =
SX (d)
FX (y + d) − FX (d)
FY P =
1 − FX (d)
fX (y + d)
hY P = = hX (y + d)
SX (y + d)
fY L = fX (y + d), y > 0
SY L = SX (y + d), y ≥ 0
FY L = FX (y + d), y ≥ 0
Donde S(·) y h(·) son las correspondientes funciones de supervivencia y riesgo, respectiva-
mente. Es importante remarcar que si se cambia el deducible, se modifica la frecuencia con
65
la que se hacen los pagos; sin embargo, la frecuencia de pérdidas permanece inalterada.
Ejemplo: Supongamos que nuestra variable individual de pérdida se distribuye Pareto con
α = 3 y θ = 2000, y tenemos un deducible de 500. Utilizando las fórmulas anteriores, tenemos
que es una distribución P areto(3, 2500). Para nuestra variable de pérdida, tenemos:
0.488, si y = 0
0.512, si y = 0
fY L (y) = SY L (y) =
3(2000)3 (2000)3
, si y > 0 , si y > 0
(2500 + y)4 (2500 + y)4
0.488, si y = 0
no def inida, si y=0
FY L (y) = hY L (y) =
3(2000)3 3
1 − , si y > 0 , si y > 0
(2500 + y)4 2500 + y
66
Pareto(4,30) Pareto(4,30)
0.10
0.8
●
0.08
0.6
0.06
X
Y^L
f.d.p.
f.d.p.
0.4
0.04
X
Y^P
0.2
0.02
0.00
0.0
0 20 40 60 80 100 0 20 40 60 80 100
x x
Valores esperados
El k-ésimo momento de estas variables se definen como:
Z ∞
(x − d)k f (x)dx
d
E (X − d)k |X > d =
1 − F (d)
para Y P , y como:
Z ∞
(x − d)k f (x)dx
E (X − d)k+ =
d
X = (X − d)+ + (X ∧ d)
de donde se desprende que, en una póliza con un deducible ordinario, el costo esperado por
pérdida es:
67
E [(X − d)+ ] = E(X) − E(X ∧ d)
E(X) − E(X ∧ d)
1 − F (d)
Z d
xk f (x)dx + dk [1 − F (d)]
E (X ∧ d)k =
−∞
Tres resultados que serán de gran utilidad en el desarrollo de varias fórmulas y de cálculos,
son:
Z ∞ Z ∞
E(X) = [1 − F (x)] dx = S(x)dx
0 0
Z d
E [(X ∧ d)] = [1 − F (x)] dx
0
Z ∞
E [(X − d)+ ] = [1 − F (x)] dx
d
2000
F (500) = 1 − = 0.488,
(2000 + 500)3
" 2 #
2000 2000
E(X ∧ 500) = 1− = 360
2 2000 + 500
Recordemos que la P areto(α, θ) tiene esperanza θ/(α − 1). Entonces, nuestra variable que
denota esta pérdida tiene E(X) = 2000/2 = 1000. Por lo tanto, el costo esperado por pérdida
es 1000 − 360 = 640 y el costo esperado por pago es 640/(1 − 0.488) = 1250.
Una cantidad que puede ser importante para evaluar el impacto de un deducible, es la tasa
de eliminación de pérdida.
68
Definición: La tasa de eliminación de pérdida es el cociente de decremento en el pago es-
perado con un deducible ordinario, respecto al pago sin este deducible. Sin el deducible, el
pago esperado es E(X). Con el deducible, este pago esperado es E(X) − E(X ∧ d). Por lo
tanto, la tasa de eliminación de pérdida es:
El efecto de la inflación
Es obvio que la inflación incrementa los costos, pero cuando existe un deducible, el efecto de
la inflación se magnifica:
• Algunos eventos que formalmente producı́an pérdidas por debajo del deducible, ahora
requerirán de pago de la pérdida, por efecto de la inflación. Es decir, ahora hay más recla-
maciones que exceden el deducible.
69
E [(1 + r)X] − E [(1 + r)X ∧ d]
d
(1 + r) E(X) − E X ∧
1+r
d
E ((1 + r)X − d)+ = (1 + r)E X−
1+r +
d
= (1 + r) E(X) − E X ∧
1+r
d
(1 + r) E(X) − E X ∧
1+r
1 − F (d/(1 + r))
Seguimos con nuestro ejemplo. Supongamos una tasa de inflación r = 10 %. Recordemos que
el costo esperado por la pérdida es 640 y el pago esperado 1250. Con un 10 % de inflación
tenemos:
" 2 #
500 2000 2000
E X∧ = E(X ∧ 454.55) = 1− = 336.08
1.1 2 2000 + 454.55
y el costo esperado por pérdida después del efecto de inflación es 1.1∗(1000−336.08) = 730.32,
que incrementa un 14.11 % ((730.32 − 640)/640), el pago sin inflación que era de 640. Para
calcular el costo por el pago, primero debemos calcular
3
2000
F (454.55) = 1 − = 0.459
2000 + 454.55
70
de donde obtenemos que este costo es 730.32/(1 − 0.459) = 1350, que aumenta un 8 % con
respecto al de 1250 sin inflación.
Lı́mite de póliza
X, si X ≤ u
Y = (X ∧ u) =
u, si X > u
fX (y), y < u
fY (y) =
1 − FX (u), y = u
FX (y), y < u
FY (y) =
1, y ≥ u
Obsérvese que los resultados que hemos establecido para un deducible, d, pueden adaptarse
directamente cuando se trata de un lı́mite de póliza, simplemente cambiando d por u.
Ahora desarrollemos nuestro ejemplo con un lı́mite en la póliza de 3000 y una tasa de infla-
ción del 10 %. El costo esperado en este caso es:
" 2 #
2000 2000
E(X ∧ 3000) = 1− = 840
2 2000 + 3000
71
" 2 #
2000 2000
1.1 ∗ E(X ∧ 3000/1.1) = 1.1 ∗ 1− = 903.11
2 2000 + 3000/1.1
Coaseguro
Y = αX
cuya densidad puede expresarse como:
1 y
fY (y) = fX
α α
Por supuesto, pueden aplicarse todas las modificaciones de una póliza que hemos visto: dedu-
cible ordinario, lı́mite de póliza, coaseguro e inflación para generar una póliza más general.
En este caso la variable aleatoria asociada es:
u d
Y = α(1 + r) X ∧ − X∧
1+r 1+r
d
0, X<
1+r
Y = d u
α [(1 + r)X − d] , ≤X<
1+r 1+r
α(u − d), u
X≥
1+r
72
con un pago esperado por pérdida
L u d
E(Y ) = α(1 + r) E X ∧ −E X ∧
1+r 1+r
E(Y L )
E(Y P ) = d
1 − FX 1+r
Obsérvese que podemos calcular todas las expresiones involucradas en esta últimas fórmulas,
conociendo el modelo asociado a nuestra v.a. de pérdida.
Ejemplo: Una compañı́a de seguros ofrece dos tipos de pólizas: Tipo I y Tipo II. La de Tipo I
no tiene deducible, pero tiene un lı́mite de 3000. Por el contrario, la de Tipo II no tiene lı́mite,
pero tiene un deducible d. Las pérdidas siguien una distribución P areto(α = 3, θ = 2000).
Encontrar d de tal manera que las dos pólizas tengan la misma cantidad de pérdida esperada.
" 2 #
2000 2000
E(TI ) = E(X ∧ 3000) = 1− = 840
2 2000 + 3000
Z ∞ 3 " 2 #
2000 2000 2000
E(TII ) = E [(x − d)+ ] = dx =
d x + 2000 2 2000 + d
ya que E(TI ) = E(TII ), despejamos d, y tenemos que el deducible debe ser d = 182.18.
• Calcule la tasa de eliminación de pérdida debido al deducible de 200. Interprete esta tasa.
• Suponga que la cı́a. decide imponer este deducible de 200 por el uso de la sala, además de
un lı́mite de 5000 y con un factor de coaseguro del 80 %. Calcule la cantidad de reclamación
esperada por el evento de pérdida y la cantidad esperada por pago, que debe realizar la
73
empresa.
• Suponga una inflación uniforme del 8 %. Calcule los pagos del inciso anterior aplicando
esta tasa.
1 −x/1000
f (x) = e
1000
que tiene E(X) = 1000. Para nuestro primer punto, tenemos que calcular
Z 200
e−x/1000
E(X ∧ 200) 0 1000 ∗ (1 − e−0.2 )
= = = 18.12 %
E(X) 1000 1000
El 18.12 % de la pérdida puede ser eliminada imponiendo un deducible de 200. Para nuestro
segundo punto, tenemos: d = 200, u = 5000 y α = 80 %, y debemos calcular
Observemos que el segundo término de la expresión entre corchetes cuadrados, es parte del
desarrollo que realizamos en el inciso anterior, y vale 181.2. Para el primer elemento de este
corchete, tenemos
Z 5000
e−x/1000 = 1000 ∗ 1 − e−5 = 993.262
E(X ∧ u) = E(X ∧ 5000) =
0
E(Y ) = 0.8 ∗ [E(X ∧ 5000) − E(X ∧ 200)] = 0.8 ∗ (993.262 − 181.2) = 649.649
que es la cantidad de reclamación esperada por uso de la sala. Cuyo pago esperado es de:
74
El punto final se deja como ejercicio al lector. (El resultado es: 709.5099).
Un componente importante para analizar el efecto en las modificaciones de las pólizas, con-
cierne al cambio en la distribución de frecuencias de los pagos cuando se impone un deducible
o cuando se modifica. Cuando se impone o se incrementa el deducible, esperarı́amos pocos
pagos por periodo, mientras que si se reduce, entonces esperarı́amos realizar más pagos.
Para iniciar nuestra discusión, supongamos que Xj representa la j-ésima pérdida y que no
tiene modificaciones de cobertura en la póliza. Sea N L el número de pérdidas. Ahora, consi-
deremos una modificación en la cobertura tal que ν es la probabilidad de que las pérdidas re-
sulten en pago. Por ejemplo, si hay un deducible d, entonces ν = P(X > d). Defina la variable
indicadora Ij como Ij = 1 si la j-ésima pérdida resulta en pago e Ij = 0 de otra forma. Enton-
ces, Ij tiene distribución Bernoulli con párametro ν y fgp PIj (z) = 1 − ν + νz = 1 + ν(z − 1).
Entonces, N P = I1 + · · · + IN L representa el número de pagos. Si I1 , I2 , · · · , son mutuamente
independientes e independientes de N L , entonces N P tiene una distribución compuesta con
N L como la distribución primaria y una Bernoulli como distribución secundaria. Entonces
PN P = PN L PIj (z) = PN L [1 + ν(z − 1)]
75
Este resultado implica que N L y N P pertenecen a la misma familia paramétrica y sólo el
parámetro θ debe cambiar.
Ejemplo
Recordemos que la BN tiene fgp dada por PN (z) = [1 − β(z − 1)]−r . En este caso β toma
el rol de θ y B(z) = (z − 1)−r . Entonces, N P debe tener también una distribución BN con
parámetros r∗ = r y β ∗ = νβ. Dados los valores particulares de este ejemplo
3
1000
ν = 1 − F (250) = = 0.512,
1000 + 250
r∗ = 2 y β ∗ = 3(0.512) = 1.536 ⇒ PN L (z; νθ) = BN (2, 1.536)
0.20
BN(3,2)
0.188
BN(1.536,2)
0.171
0.155
0.15
0.138
0.099
0.094
0.089
0.078
0.076
0.067
0.062
0.056
0.054
0.05
0.047
0.039
0.037
0.032
0.025 0.026
0.021
0.017 0.017
0.013
0.011
0.008
0.005
0.003 0.002 0.001
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
76
Distribución Parámetros modificados
∗
P oisson λ = λv
−λ
pM
0 −e + e−vλ − pM
0 e
−vλ
Poisson Modificada en cero p∗0 = ; λ∗ = λv
1 − e−λ
Binomial q ∗ = vq
pM m m M
0 − (1 − q) + (1 − vq) − p0 (1 − vq)
m
Binomial Modificada en cero p∗0 = ; q ∗ = vq
1 − (1 − q)m
Binomial N egativa β ∗ = vβ
−r
pM
0 − (1 + β) + (1 + vβ)−r − pM
0 (1 + vβ)
−r
BinNeg Modificada en cero p∗0 = ; β ∗ = vβ
1 − (1 + β)−r
77
Modelo de pérdidas agregadas
En el ejemplo anterior mencionamos (sin gran detalle) que las variables involucradas tenı́an
una distribución compuesta. Ahora introduciremos uno de los modelos más importantes en
la teorı́a del riesgo, que requiere de una distribución compuesta de las variables que lo de-
terminan.
Introducción
Las pérdidas que tiene una compañı́a aseguradora pueden surgir de manera individual o
colectiva, dependiendo del tipo de seguro que se contrate; por este motivo, hay que po-
ner especial atención al rol que desempeñan las caracterı́sticas de cada uno de ellos, en las
pérdidas que contraiga la empresa. Los modelos que determinan el monto total que deven-
ga una Cı́a por la acumulación de los riesgos individuales de su portafolio de asegurados, son:
78
Modelo Individual
Supongamos que tenemos un portafolio de n pólizas individuales de seguros vigentes por,
digamos, un año. Definamos como qj la probabilidad de que el j-ésimo asegurado efectúe exac-
tamente una reclamación en el periodo; lo que implica que se cumple la igualdad, pj + qj = 1,
que significa que no puede haber más de una reclamación por cada asegurado.
Un ejemplo de esta situación es el que se presenta a través de contratos para grupos de vida,
en donde se cubre a cierto número de personas n , y cada una posee diferentes coberturas
de acuerdo a las categorı́as que se establecen para su grupo. Esta situación produce que las
personas tengan distintas probabilidades de pérdidas, sujetas a sus caracterı́sticas personales
o cualquier otra condición que exista y se determine en el contrato.
Para fijar ideas, supongamos un portafolio con n pólizas, una póliza por individuo y con
vigencia a lo largo de un periodo de tiempo establecido. Entonces qj es la probabilidad
de que el j-ésimo asegurado efectúe exactamente una reclamación durante este periodo, y
(pj = 1 − qj ) que no haga ninguna reclamación. Esta variable aleatoria es evidentemente
Bernoulli que asigna valores de 1 y 0 a estos eventos, respectivamente, denotémosla como
Rj . Ahora bien, una vez que la j-ésima póliza efectúe una reclamación, el impacto de la
misma se verá reflejado en el monto que la compañı́a aseguradora deberá asumir. Definimos
entonces la variable aleatoria Bj > 0, (Rj ⊥Bj ), como el monto de reclamación de la j-ésima
póliza. Por lo tanto, el monto de la j-ésima póliza queda definido por:
(
Bj si Rj = 1 y ocurre con probabilidad qj
Xj =
0 si Rj = 0 y ocurre con probabilidad 1 − qj
Entonces, el monto total por reclamaciones o monto agragado que debe asumir la compañı́a
aseguradora por el concepto de la reclamaciones de sus asegurados, en el modelo individual,
está dado por la variable aleatoria
n
X
S = Xj
j=1
n
X
= Bj Rj
j=1
79
Este modelo se conoce también como el modelo de pérdidas agregadas.
El nombre de modelo individual se debe a que supone conocer las probabilidades de recla-
mación y posible monto de reclamación de todos y cada uno de los asegurados de manera
individual. Una posible desventaja es que presupone que el número de asegurados en la car-
tera se mantiene constante (no es aleatorio) durante todo el tiempo de vigencia del seguro.
Entonces, nuestro objetivo es conocer las caracterı́sticas estadı́sticas de esta variable S, tales
como: función de densidad, distribución, media, varianza, función generadora de momentos,
etc.
Supongamos que cada variable aleatoria, Xj , tiene asociada una función de distribución
FXj (x) , entonces la función de distribución de S queda en términos de convoluciones como:
No obstante, el cálculo de convoluciones no es, en general, una tarea fácil, por lo que reque-
rimos de maneras alternativas para estudiar esta variable aleatoria. Denotemos por GBj a la
función de distribución de Bj . Entonces, algunas caracterı́sticas de esta variable se enuncian
en la siguiente proposición
Proposición
n
X
1. E (S) = qj E (Bj )
j=1
(
(1 − qj ) + qj GBj (x), x ≥ 0
3. FXj (x) =
0 ,x < 0
n
Y
5. MS (t) = (1 − qj ) + qj MBj (t)
j=1
80
Dem
n
X n
X n
X n
X
1.- E (S) = E (Xj ) = E (Bj Rj ) =
|{z} E (Bj ) E (Rj ) = qj E (Bj )
j=1 j=1 por independencia j=1 j=1
= qj V (Bj ) + pj qj E2 (Bj )
Por lo que
n
X n
X
qj V (Bj ) + pj qj E2 (Bj )
V (S) = V (Bj Rj ) =
|{z}
j=1 idependencia j=1
3.- ∀x ≥ 0,
= 1 ∗ pj + qj GBj (x)
4.-
= pj + qj MBj (t)
n
Pn Pn Y
t Xj t Bj Rj
5.- MS (t) = E e j=1 =E e j=1 =
|{z} pj + qj MBj (t)
independencia j=1
81
Encontrar la distribución de S, por lo general, es complicada, por tal motivo no se utilizan
las convoluciones como una alternativa para obtenerla. Para lidiar con esta situación, se
han desarrollado métodos, esencialmente de aproximación numérica, que proporcionan esta
distribución de las pérdidas agregadas en un modelo individual.
82
El modelo colectivo de riesgo
Este modelo presenta las pérdidas agregadas como una suma aleatoria de variables aleato-
rias, donde N es la variable aleatoria del número de reclamaciones realizadas y X1 , X2 , ..., XN
son las variables aleatorias independientes e identicamente distribuidas, que representan los
montos de cada reclamación. La especificación formal del modelo es la siguiente
Sea Xj la reclamación de pago realizada por el j-ésimo asegurado, y sea N el número alea-
torio de reclamaciones. Al total o (agregado) de reclamaciones:
N
P
S = X1 + X2 + · · · + XN = Xj , con S = 0 cuando N = 0
j=1
se le conoce como modelo agregado de reclamaciones. Otros nombres que recibe en la lite-
ratura actuarial son modelo colectivo de riesgos y el modelo compuesto de frecuencias. Los
supuestos del modelo son:
83
la compañı́a, por lo que identificar estos factores en los montos agregados se puede volver
complicado, y si analizamos la frecuencia y severidad por separado esto resulta más sencillo.
Entonces, los pasos a seguir para hallar la distribución más adecuada para el modelo pro-
puesto de S son:
0
2. Desarrollar un modelo para la distribución común de las pérdidas Xj s basándonos en
los datos.
3. Usando estos dos modelos, llevar a cabo los cálculos necesarios para encontrar la dis-
tribución de S.
84
Funciones de distribución y densidad de S
La función de distribución de S está dada por
∞ ∞
pn FX∗n (x)
P P
FS (x) = P(S ≤ x) = pn P(S ≤ x|N = n) =
n=0 n=0
0
x<0
FX∗0 (x) =
1, x≥0
Z ∞
(k−1)
FX∗k (x) = FX (x − y)dFX (y) para k = 1, 2, ...
−∞
Las colas de esta distribución, que son de interés, se pueden calcular como
∞
X
1 − FS (x) = pn [1 − FX∗n (x)]
n=1
∞
X
fS (x) = P(S = x) = pn fX∗n (x), x = 0, 1, ...
n=0
Z ∞
(k−1)
fX∗k (x) = fX (x − y)fX (y)dy para k = 1, 2, ...
−∞
85
Si X es discreta, con probabilidades en 0, 1, 2, ... las respectivas convoluciones se pueden
calcular sustituyendo la integral por una suma sobre los valores que toma X.
La fgp de S es
∞
X
PS (z) = E(z ) = S
E(z X1 +X2 +···+XN |N = n)P(N = n)
n=0
∞
" n #
X Y
Xj
= E z P(N = n)
n=0 j=1
∞
X
= [PX (z)]n P(N = n)
n=0
MS (t) = E etS = E E etS | N = E E et(X1 +···+XN ) | N
∞
X
E et(X1 +···+XN ) | N = n P (N = n)
=
n=0
∞
X
E et(X1 +···+Xn ) P (N = n)
=
n=0
∞
" n
# ∞
" n #
X Y X Y
tXj
tXj
= E e P (N = n) = E e P (N = n)
n=0 j=1 n=0 j=1
∞ ∞ h i
X tX n X n N
= E e P (N = n) = (MX (t)) P (N = n) = E (MX (t))
n=0 n=0
h i
log((MX (t))N )
=E e = E eN log(MX (t)) = MN (log (MX (t)))
86
MS (t) = MN (log (MX (t)))
Momentos de S
Ahora desarrollaremos algunos momentos de esta variable aleatoria, que serán de utilidad
posteriormente.
" " N
##
X
E (S) = E [E [S | N ]] = E E Xj |N
j=1
∞
X
= E [X1 + X2 + · · · + XN | N = n] P (N = n)
n=0
0
ya que las Xj s son v.a.i.i.d. su esperanza es la misma, digamos, E [X], entonces:
∞
X ∞
X
E [X1 + X2 + · · · + Xn | N = n] P (N = n) = nE [X] P (N = n) = E [X] E [N ]
n=0 n=0
E (S) = E [X] E [N ]
87
Hallar explı́citamente la distribución de S no es trivial, por lo que se utilizan diversas aproxi-
maciones a su distribución o soluciones númericas; no obstante, existen algunas elecciones de
los modelos para N y X que permiten tener resultados análiticos para ciertas caracterı́sticas
de esta distribución.
r
1
MS (t) =
1 + β (1 − MX (t))
Bajo los mismos supuestos que en los modelos anteriores, si N se distribuye P oisson(λ),
entonces S tiene una distribución Poisson compuesta. Con
E (S) = λE (X)
V (S) = λE (X 2 )
MS (t) = eλ(MX (t)−1)
88
Supongamos que N ∼ P oisson(λ) y que Xj ∼ Bernoulli(q), aplicando lo anterior para la
distribución de S, tenemos que
t
MS (t) = eλ(MX (t)−1) ; donde MN (t) = eλ(e −1) y en particular para
MX1 (t) = (1 − q) + qet
∴ S ∼ P oisson(λq)
Observación importante: Aunque estos modelos tienen una forma analı́tica en estas carac-
terı́sticas numéricas, ninguna de ellas, salvo el último caso, corresponde a la densidad o
distribución de S. Es decir, el problema de encontrar la distribución de las pérdidas agrega-
das, persiste.
Supóngase que Sj tiene una distribución Poisson compuesta con parámetros λj y función
de distribución para severidades Fj (x) para j = 1, 2, ..., n. Además, que S1 , S2 , ..., Sn son
independientes. Entonces S = S1 + S2 + · · · + Sn tiene una distribución Poisson compuesta
n n
X X λj
con parámetro λ = λj y función de distribución de severidad F (x) = Fj (x) .
j=1 j=1
λ
Dem:
Sea Mj (t) la f.g.m. de Fj (x) para j = 1, 2, ..., n. Entonces Sj tiene f.g.m. dada por:
0
MSj (t) = E etSj = eλj (Mj (t)−1) y por la independencia de las Sj s, S tiene f.g.m.
n n
" n n
#!
Y Y X X
MS (t) = MSj (t) = exp (λj [Mj (t) − 1]) = exp λj Mj (t) − λj
j=1 j=1 j=1 j=1
" n # ! (" n
# )!
X X λj
= exp λj Mj (t) − λ = exp λ Mj (t) − 1
j=1 j=1
λ
89
n n
X λj X λj
Debido a que Mj (t) es la f.g.m. de F (x) = Fj (x) , entonces MS (t) tiene la
j=1
λ j=1
λ
Ejemplo
x f1 (x) f2 (x)
1 0.25 0.10
2 0.75 0.40
3 0.00 0.40
4 0.00 0.10
x P(S = s)
1 (3/5)*(0.25)+(2/5)*(0.10)=0.19
2 (3/5)*(0.75)+(2/5)*(0.40)=0.61
3 0+(2/5)*(0.40)=0.16
4 0+(2/5)*(0.10)=0.04
de donde obtenemos
E(S) = 1 ∗ 0.19 + 2 ∗ 0.61 + 3 ∗ 0.16 + 4 ∗ 0.04 = 2.05 y V(S) = E [(S − 2.05)2 ] = 0.5075
Una vez definidos estos dos modelos para pérdidas agregadas, corresponde ahora incluir las
modificaciones que ellos sufren a través de las modificaciones que sufren las pólizas que los
componen. Es decir, debemos encontrar las variables por pérdida y por pago para S, similares
a las que hemos definido para las variables individuales, ya que la distribución de S también
se verá afectada una vez que apliquemos modificaciones en la cobertura de contratos.
90
Supongamos un panorama simple bajo el cual el portafolio de pérdidas se modifique debido
0
a la aplicación de un deducible , d. Como la variable aleatoria S depende de N y de las Xj s
, entonces se tendremos que considerar dos posibilidades
• Supongamos que N L es la variable aleatoria por pérdida que modela la frecuencia de las
0
pérdidas agregadas, mientras que las Xj s determinan la severidad de las mismas. En este
0
escenario a través de la variable por pérdida Y L modificaremos las Xj s que representan los
montos, pues recordemos que:
L 0 X≤d
Y = (X − d)+ =
X −d X >d
ası́ que la severidad de las reclamaciones se verá afectada. En este caso YjL representa el
pago por la j-ésima pérdida, mientras que la frecuencia seguirá distribuyendose de la misma
forma puesto que, como su nombre lo indica, estamos considerando las pérdidas totales que
sufre la compañı́a sin importar aquellas que realmente se pagan.
donde S = 0 si N L = 0
• La segunda opción es considerar a Y P , la variable de pago, que reflejará los montos pagados
por la compañı́a aseguradora una vez que han excedido el valor del deducible, d, pero además
de ello, en este caso, la variable que modela la frecuencia de las reclamaciones N P también se
modificará, y se verá reflejado en el número de pagos efectuados. Entonces, los parámetros
para N P cambiarán conforme a lo que se revisó en las modificaciones de cobertura para
modelos de frecuencia, donde se considera a la constante ν como la probabilidad de pago
por parte de la aseguradora. Entonces el modelo serı́a
91
donde S = 0 si N P = 0 y YjP es la variable de pago que representa el monto de la j-ésima
Es importante considerar las modificaciones de los contratos de seguros en los modelos colec-
tivos, debido a que, bajo circunstancias apegadas a la realidad, generalmente esta información
es la que se manejará.
Ya sabemos que existe una relación entre las variables de pérdida y de pago: Y P = Y L |Y L >
0. Luego, retomando el concepto de ν como la probabilidad de pago, las funciones de distri-
bución de estas variables, guardan la siguiente relación:
FY L = (1 − v) + vFY P (y) ; y ≥ 0
porque 1 − ν = P Y L = 0 = FY L (0) .
ya que
h i h i h i
L L L
E etY = E etY |Y L = 0 P Y L = 0 + E etY |Y L > 0 P Y L > 0
h i
L
= E 1|Y L = 0 (1 − ν) + E etY |Y L > 0 ν
= (1 − ν) + νMY P (t)
Además, para el número de pérdidas N L y el número de pagos N P se tiene esta relación con
sus f.g.p.
PN P (z) = PN L (1 − v + vz)
NP NL
donde PN P (z) = E z y PN L (z) = E z .
92
Finalmente con los resultados del Modelo Colectivo, las f.g.m. de S en términos de las
variables por pérdida y por pago son:
93
Ejemplo
Deducible d = 40
Lı́mite de póliza = 250
Coaseguro = 85 %
0
Primero encontremos E (S) y V (S), cuando las Xj s se modifican por Y L . Entonces, el
orden en el que consideramos las modificaciones son: primero la inflación, posteriormente
el deducible, el lı́mite de póliza y finalmente el coaseguro.
40
0 X<
1.03
40 250
YL = 0.85 [(1.03) X − 40] ≤X<
1.03 1.03
250
0.85(250 − 40) X≥
1.03
=⇒
L u d
E Y = α (1 + r) E X ∧ −E X ∧
1+r 1+r
250 40
= 0.85 (1.03) E X ∧ −E X ∧
1.03 1.03
94
" 2 #
250 150 150
E X∧ = 1− = 64.058
1.03 2 250 + 150
" 2 #
40 150 150
E X∧ = 1− = 27.676
1.03 2 250 + 150
=⇒ E Y L = 0.85(1.03) [64.058 − 27.676] = 31.852
Luego para N L sabemos que se distribuye BinN eg(1.5, 12) pero esta variable, que representa
el número de reclamaciones del modelo colectivo, no se modifica por ser variable de pédida
y no de pago.
=⇒ E N L = rβ = 12 ∗ 1.5 = 18
E (S) = E(Y L )E N L = 31.85244 ∗ 18 = 573.3439
h i
L 2
= α2 (1 + r)2 E (X ∧ u∗ )2 − E (X ∧ d∗ )2 − 2d∗ E (X ∧ u∗ ) + 2d∗ E (X ∧ d∗ )
E Y
u d
con u∗ = y d∗ = .
1+r 1+r
h 2 i
E YL =
( " 2 # " 2 # )
250 40 40 250 40 40
(0.85)2 (1.03)2 E X ∧ −E X ∧ −2 E X∧ +2 E X∧
1.03 1.03 1.03 1.03 1.03 1.03
95
que observamos es bastante laborioso. Haciendo estos cálculos en R, tenemos que
h i
L 2
E Y = 4217.442
Finalmente
h 2 2 i
= 18 4217.442 + 1.5 (31.85244)2
V ar(S) = rβ E Y L + βE Y L
= 103307.6
0
Como segundo punto también debemos calcular la E (S) y V (S) considerando a las YjP s y
a N P como la frecuencia.
40
La función para Y P , a diferencia de Y L , es sólo tomar en cuenta que los valores para X <
1.03
d
no están definidos, ası́ que para la E Y P basta dividir E Y L entre SX 1+r
3
40 150
=⇒ SX = SX (38.83495) = = 0.501217
1.03 38.83495 + 150
P
E YL 31.85244
De ahı́ E Y = d
= = 63.55007
SX 1+r 0.501218
Para N P debemos obtener E N P , entonces, como es la frecuencia correspondiente al pago
que realiza la aseguradora, se modifica respecto al valor de ν, donde :
d 40
ν=P X> = 1 − FX
1+r 1.03
esto porque recordemos que es la probabilidad de pago una vez que se ha aplicado inflación
y deducible en el número de reclamaciones, entonces
40
ν = SX = 0.501217971983
1.03
Por lo tanto, la distribución es una Binomial Negativa pero con parámetros modificados:
r = r∗ = 12 y β ∗ = vβ = 0.751826958
96
=⇒ E N P = rβ ∗ = 9.021923496.
De esta forma E (S) = E Y P E N P = 627.6041864
h h 2 i 2 i
La V (S) = rβ ∗ E Y P + β ∗E Y P
2
h i
P 2
E[ Y L ] 4963.722677
=⇒E Y = 40
= = 9903.321418
1 − FX 1.03 0.501217
= 122170.9259
Bajo el análisis de las variables por pago y por pérdida en este modelo de riesgo colectivo,
la E (S) y V (S) son muy similares entre sı́.
97
Métodos para encontrar la
distribución de S
Aproximaciones
Una vez que hemos presentado y analizado los modelos de riesgo individual y colectivo, junto
con algunas de sus caracterı́sticas, observamos que, en general, no obtuvimos resultados que
nos permitieran encontrar la distribución de S. Una manera de salvar esta dificultad es a
través de aproximaciones a esta distribución, que se utilizan tanto para el modelo individual
como para el modelo colectivo. Presentamos a continuación las siguientes:
Normal
Lognormal
Gamma Trasladada
Poisson Compuesta
Aproximación Normal
A través del Teorema Central del Lı́mite se puede aproximar la distribución de S por medio
de una distribución normal.
!
s − E (S)
FS (s) = P [S ≤ s] ≈ φ p
V (S)
Ahora bien, suponiendo que tanto la Severidad como la Frecuencia de los datos son discretas,
entonces la distribución de las pérdidas agregadas será discreta; por lo cual, si se desea utilizar
este método de aproximación, será necesario aplicar antes una Corrección de Continuidad.
Es decir, supóngase que se quiere conocer P [n ≤ S ≤ m] , para utilizar la aproximación nor-
mal, lo único que se hace es extender el intervalo de [n, m] al intervalo n − 21 , m + 12 , por lo
98
1 1
cual la probabilidad bajo la corrección de continuidad será P n − 2
≤S ≤m+ 2
. Una vez
realizada esta corrección, se hace el mismo procedimiento de aproximación, considerando la
E (S) y V (S) originales del riesgo S.
Ejemplo
Una compañı́a aseguradora tiene una cartera con pólizas de seguro de vida con las carac-
terı́sticas que se muestran en la tabla. Utilizando el modelo de riesgo individual, realizar
la aproximación normal de tal manera que podamos encontrar el valor de s bajo el cual
P [S ≤ s] = 0.95, i.e., deseamos encontrar el VaR de la distribución de S.
Primero veamos lo que sucede con E (Bi ) y V(Bi ) para i = 1, 2, 3. Primeramente, tenemos
que
Entonces
1000
X 2000
X
Entonces E (S1 ) = 0.05 ∗ 10 = 500, E (S2 ) = 0.10 ∗ 5 = 1000,
j=1 j=1
500
X
E (S3 ) = 0.02 ∗ 20 = 200
j=1
99
1000
X
0.05 ∗ 0 + 0.05 ∗ 0.95 ∗ 102 = 4750
Luego V(S1 ) =
j=1
2000
X
0.1 ∗ 0 + 0.1 ∗ 0.9 ∗ 52 = 4500
V(S2 ) =
j=1
500
X
0.02 ∗ 0 + 0.02 ∗ 0.98 ∗ 202 = 3920
V(S3 ) =
j=1
Entonces
" #
S − E (S) s − E (S)
Se quiere P [S ≤ s] = 0.95, entonces P p ≤ p = 0.95 el cuantil del 95 %
V (S) V (S)
p √
Por lo tanto s = V (S) ∗ 1.644854 + E (S) = 13170 ∗ 1.644854 + 1700
= 1888.764
100
fS(s)
0
500
1000
101
s
1500
Aproximación Normal
2000
2500
3000
Aproximación Lognormal
Proposición
ln (s) − µ
FS (s) = P [S ≤ s] ≈ φ
σ
σ2 2
E (S) = eµ+ 2 y E (S 2 ) = e2µ+2σ
Ejemplo
Suponiendo un modelo de riesgo colectivo para las pérdidas agregadas de una compañı́a
aseguradora y, en especı́fico, un modelo Poisson compuesto donde N ∼ P oisson(λ = 0.7),
mientras que los montos de reclamación se distribuyen Gamma con α = 2, θ = 150. Utilizar
la aproximación normal y lognormal para determinar las pérdidas agregadas por arriba de
300.
300 − 210
Para la aproximación normal FS (300) = P [S ≤ 300] = φ √
94500
102
= φ (0.292770022) = 0.615151
Las pérdidas agregadas por arriba de 300 tienen una probabilidad de 0.384849 para la apro-
ximación normal
σ2 2
Para la aproximación lognormal E (S) = eµ+ 2 = 300 y E (S 2 ) = e2µ+2σ = 135000
Entonces
σ2
ln (300) = µ + 2
y ln(135000) = 2µ + 2σ 2 , =⇒ σ 2 = 0.4054 y µ = 5.50108
ln (300) − 5.50108
Finalmente FS (300) = P [S ≤ 300] = φ √ = φ (0.318364182) = 0.6249019
0.4054
Mientras que con la aproximación lognormal las pérdidas agregadas que rebasan 300 acumu-
lan una probabilidad de 0.375098
0.0025
0.0010
0.0020
0.0008
fS(s)
fS(s)
0.0015
0.0006
0.0010
0.0004
0.0005
0.0002
0.0000
0.0000
s s
103
muy grandes, la cola de la distribución lognormal se encuentra por encima de la función de
densidad normal, situación que caracteriza este tipo de distribución. Además, algo que se
puede destacar es que, aunque las esperanzas de las dos distribuciones no están tan alejadas,
la varianza de la distribución normal es mayor, por poco más del doble que la varianza de la
distribución lognormal. Y aunque para valores entre 150 y 300 las funciones de distribución
acumulen probabilidades similares, en realidad para valores pequeños la distribución normal
acumula probabilidades mayores a la lognormal y vicerversa, para valores grandes se va acu-
mulando mayor probabilidad en la distribución lognormal contra la normal.
0.0015
0.0010
Aproximación Normal
0.0005
Aproximación Log−Normal
0.0000
104
Comparaciones aproximaciones Normal vs. Log−Normal
1.0
0.8
FS(s)
0.6
Aproximación Normal
Aproximación Log−Normal
0.4
105
Aproximación Gamma trasladada
Como su nombre lo expresa, bajo esta aproximación supondremos que el riesgo S asume
una distribución Gamma, pero para conocer exactamente los parámetros que ajustan a
esta distribución, se debe igualar las caracterı́sticas numéricas de la distibución de S a las
caracterı́sticas numéricas de una nueva variable aleatoria que es:
k+Z
z
z α−1 e− θ
fZ (z) = α , z>0
θ Γ (α)
E (k + Z) = k + αθ
V ar (k + Z) = θ2 α
E (k + Z − E (k + Z))3
2
3/2
=√
[V ar (k + Z)] α
De forma que
2
µ = k + αθ σ 2 = θ2 α τ=√
α
106
4 σ2τ 2 στ
σ 2 = θ2 2
=⇒ θ 2
= =⇒ θ =
τ 4 2
y finalmente de µ = k + αθ se obtiene k
4 στ 2σ
k = µ − αθ = µ − 2
=µ− .
τ 2 τ
Ası́, por medio de la aproximación gamma trasladada, el riesgo S tiene una distribución
aproximada
2σ 4 στ
S ∼µ− + Gamma ,
τ τ2 2
1
Habrá ocasiones en las cuales el parámetro θ puede ser reemplazado por θ
y basta invertir
las igualdades para construir la distribución Gamma de S.
Proposición
FS (s) = P [S ≤ s] ≈ Gamma (s − k; α, θ)
Ejemplo
Supongamos que, bajo el modelo Poisson compuesto, el número de reclamaciones tiene dis-
tribución P oisson(λ = 10) y el monto de las reclamaciones Xi ∼ χ2(4) . Determinar FS (8)
por medio de la aproximación gamma trasladada.
107
k 1
En general χ2(k) es una distribución Gamma , =⇒ Para cada Xi se tiene que fX (x) =
2 2
x
x2−1 e− 2
donde, en nuestro caso, la Xi ∼ χ2(4) , es Gamma(2, 12 )
22 Γ (2)
Lo primero es encontrar los tres primeros momentos de S, para lo cual utilizaremos las
propiedades de la f.g.m. de las Xi y de ahı́ obtener los valores de µ, σ 2 y τ para S.
µ = λE (X) = 10 ∗ 4 = 40
σ 2 = λE (X 2 ) = 10 ∗ 24 = 240
λE (X 3 ) 10 ∗ 192 8
τ=q =p =√
(10(24))3 240
(λE (X 2 ))3
4 4
Por lo que α = 2
= 82 = 15,
τ 240
√ 8
στ 240 √240 2σ
θ= = =4 y k =µ− = −20
2 2 τ
108
La siguiente gráfica muestra las funciones de densidad y distribución asociadas
1.0
0.025
0.8
0.020
0.6
0.015
FS(s)
fS(s)
0.4
0.010
0.005
0.2
0.000
0.0
s s
La Aproximación Poisson Compuesta es otro método útil, bajo el que se pretende aproximar
el modelo de riesgo individual al modelo de riesgo colectivo, tal situación se realiza porque
existen más métodos para el cálculo de la distribución de S en el modelo colectivo; incluso
es indispensable saber que los siguientes métodos a desarrollar se basan en la construcción
del modelo colectivo.
n
X
En el modelo individual S = Xi donde Xi i = 1, 2, ..., n son v.a.´s independientes,
i=1
PRi = (1 + qi (z − 1))
109
Bajo este método la Aproximación Poisson Compuesta asume que la v.a. Ri se distribuirá
Poisson (λi ) , para ello se proponen 3 métodos que asignan diferentes valores al parámetro
λi de esta distribución Poisson
1. El primero iguala las esperanzas de la v.a. Bernoulli(qi ) con la de una v.a. Poisson(λi ) ,
entonces:
λi = qi ; i = 1, 2, ..., n
1 − qi = e−λi
=⇒
ln (1 − qi ) = −λi
∴ λi = − ln (1 − qi ) ; i = 1, 2, ...n y − ln (1 − qi ) > qi
3. El último método fue propuesto por Kornya y usa el siguiente valor para cada λi
qi
λi = ; i = 1, 2, ..., n
1 − qi
A su vez, el número esperado de pérdidas de este método es más grande que la esperanza
del segundo.
n
Y
MS (t) = PRi [MBi (t)]
i=1
110
n
Y
MS (t) = exp (λi [MBi (t) − 1])
i=1
n n n
X X λi X λi
λ= λi , MX (t) = MBi (t) y fX (x) = fBi (x)
i=1 i=1
λ i=1
λ
Ejemplo
Primeramente, con λi = qi
3
X
λ= ni λi = (1000 ∗ 0.05) + (2000 ∗ 0.10) + (500 ∗ 0.02) = 260
i=1
=⇒
111
1000 ∗ 0.05 ∗ 0 2000 ∗ 0.10 ∗ 0 500 ∗ 0.02 ∗ 1
fX (20) = + + = 0.038461538
260 260 260
= φ (1.690317021) = 0.9545155
Con λi = − ln (1 − qi )
3
X
λ= ni λi = (1000 ∗ (− ln(0.95))) + (2000 ∗ (− ln (0.9))) + (500 ∗ (− ln (0.98)))
i=1
= 272.1156794
=⇒
1000 ∗ (− ln(0.95)) ∗ 1
fX (10) = = 0.188498121
272.1156794
2000 ∗ (− ln (0.9)) ∗ 1
fX (5) = = 0.774380336
272.1156794
500 ∗ (− ln (0.98)) ∗ 1
fX (20) = = 0.037121542
272.1156794
= φ (1.093851836) = 0.86299
112
qi
Para λi =
1 − qi
3
X 0.05 0.10 0.02
λ= ni λi = 1000 ∗ + 2000 ∗ + 500 ∗
i=1
0.95 0.9 0.98
= 285.0578828
=⇒
1000 ∗ (0.05/0.95) ∗ 1
fX (10) = = 0.184634708
285.0578828
2000 ∗ (0.1/0.9) ∗ 1
fX (5) = = 0.779568767
285.0578828
500 ∗ (0.02/0.98) ∗ 1
fX (20) = = 0.035796525
285.0578828
1900 − 1841.508533
FS (1900) = P z ≤ √ = P [z ≤ 0.479175203]
14900.3461
= φ (0.479175203) = 0.684093
113
Comparación aproximación Poisson
0.004
0.003
Método 1
Método 2
Método 3
0.002
fS(s)
0.001
0.000
Mediante las aproximaciones podemos conocer la distribución para S, sin embargo, es factible
que los resultados no se acerquen tanto a la realidad puesto que no se poseen muchas bases
para justificar que las distintas aproximaciones (normal, lognormal o gamma) se ajusten a
la distribución de los datos; y simplemente se pueden tomar estas decisiones por el aparente
comportamiento del número de reclamaciones y de las colas que tengan. Por ejemplo, si
tuvieramos el caso en que existe un lı́mite de póliza para las pérdidas, serı́a muy probable que
la severidad de nuestros datos tuviera una masa de probabilidad en este punto, debido a que
todas las reclamaciones que hayan excedido el monto u sólo recibirán a lo más esta cantidad
y eso determinarı́a dicha probabilidad; por lo cual, esta situación generarı́a irregularidades
en la forma de la distribución, y por tal situación, utilizar un método de aproximación no
serı́a la mejor manera de conocer la distribución del riesgo. Por tal motivo, a continuación
se desarrollarán otras propuestas de métodos que sirven para determinar la distribución del
riesgo S.
114
Cálculo de la distribución de S a través de convoluciones
Z ∞
(k−1)
FX∗k (x) = FX (x − y)dFX (y) para k = 1, 2, ...
−∞
y su densidad
Z ∞
(k−1)
fX∗k (x) = fX (x − y)fX (y)dy para k = 1, 2, ...
−∞
Únicamente para mostrar lo complejo que puede ser este cálculo, presentaremos un ejemplo
muy sencillo que ilustra cómo se realiza.
Ejemplo
Sea P(N = j − 1) = j/10 para j = 1, 2, 3, 4, la función de densidad discreta, y sea X una dis-
tribución de pérdida que toma sólo dos valores, con probabilidades f (1) = 0.4 y f (2) = 0.6.
Encontrar las correspondientes funciones de densidad y distribución de S, calculando la con-
volución. En este caso, las distribuciones de N y X son discretas, ası́ que debemos utilizar
las fórmulas recursivas
x
∗(k−1)
FX∗k (x) =
P
FX (x − y)fX (y) y
y=0
x
∗(k−1)
fX∗k (x) =
P
fX (x − y)fX (y) para x=0,1,2,..., k=1,2,...
y=0
115
x f ∗0 (x) f ∗1 (x) f ∗2 (x) f ∗3 (x) fS (x) FS (x)
0 1 0 0 0 0.1000 0.1000
1 0 0.4 0 0 0.0800 0.1800
2 0 0.6 0.16 0 0.1680 0.3480
3 0 0 0.48 0.064 0.1696 0.5176
4 0 0 0.36 0.288 0.2232 0.7408
5 0 0 0 0.432 0.1728 0.9136
6 0 0 0 0.216 0.0864 1
Ahora veamos cómo se generan estos valores. Tenemos cuatro valores para N ; n = 0, 1, 2, 3,
con probabilidades asociadas p0 = 0.1, p1 = 0.2, p2 = 0.3, p3 = 0.4. Por lo tanto, la función
de densidad de S se puede escribir como
3
pn fX∗n (x)
P
fS (x) =
n=0
Primero
x
f ∗1 (x) = f ∗0 (x − y)f (y), x = 0, 1, 2, ...
P
y=0
• Sabemos que f ∗0 (x) 6= 0 ⇐⇒ x = 0. Por lo tanto, los únicos casos relevantes para evaluar
esta función son cuando x = y.
• f (x) o en la fórmula f (y) sólo está definida para valores de y = 1 y y = 2, por lo que
f (y) = 0 ∀ y 6= 1, 2. Ahora sı́, iniciemos los cálculos.
116
Entonces tenemos lo siguiente
x = 2, y = 2 ⇒ f ∗1 (2) = f ∗0 (0)f (2) = 1 ∗ 0.6 = 0.6. Obsérvese que ya no hay más valores
distintos de cero (f(y) se define como cero para y > 2), para valores que puede tomar x, y los
valores distintos de cero corresponden a la función original de densidad. Analicemos ahora
cómo construir f ∗2 = P(X1 + X2 = x). Primero tenemos que
x
f ∗2 (x) = f ∗1 (x − y)f (y), x = 0, 1, 2, ...
P
y=0
Dado que f (y) sólo es distinta de cero para y = 1 y y = 2, entonces, esta evaluación úni-
camente tiene sentido para estos valores en y, y cualesquiera otros en x. Por completez,
calcularemos algunos no incluidos en esta restricción, para verificar que son cero.
Entonces
117
x = 3, y = 0 ⇒ f ∗2 (3) = f ∗1 (3)f (0) = 0
Aquı́ continuarı́an los cálculos con y = 3, pero, en este caso y los restantes, f (y) = 0. Por lo
tanto, no existen más casos para los que f ∗2 sea distinta de cero. Por lo que tenemos que,
f ∗2 (3) = 0.24 + 0.24 = 0.48.
3
pn f ∗n (x). Sólo nos resta multiplicar los valores que hemos encontrado por las
P
fS (x) =
n=0
Este sencillo ejemplo muestra lo complicado que es encontrar la distribución de S, sobre todo
por lo laborioso del cálculo de la convolución.
#convolucion
f s < −c(0, 0.4, 0.6, 0)#Se amplı́a el vector para tener la misma dimensión que el de severidad
quantile(F s)
118
df s < −dif f (c(0, CDF s))
● ● ● ●
0.20
●
0.8
0.15
0.6
FS(x)
0.10
0.4
0.05
0.2
●
0.0
0.00
0 2 4 6 8 10
Hagamos un modelo agregado utilizando convoluciones, con las dos tablas de datos dadas en
el libro de Loss Models from data to decision (Klugman), sobre un seguro dental para grupo.
Las tablas son las siguientes
119
Monto: X
x fX (x)
1 0.150
2 0.200
3 0.250
4 0.125
5 0.075
6 0.050
7 0.050
8 0.050
9 0.025
10 0.25
Frecuencia: N
n p(N =n)
0 0.05
1 0.10
2 0.15
3 0.20
4 0.25
5 0.15
6 0.06
7 0.03
8 0.01
que representa la distribución del número de personas por cada “certificado de seguro” (i.e.,
por cada empleado) que recibieron cuidados dentales en el año que cubre el seguro. La solu-
ción la haremos totalmente en R
120
Métodos Recursivos
Fórmula Recursiva de Panjer
La distribución del riesgo S la mayorı́a de las ocasiones no es sencilla de obtener y a pesar
de que se puede obtener con el cálculo directo de la convolución
∞
X
FS (s) = pn FX∗n (x)
n=0
no suele ser una cuestión trivial. Primero porque las convoluciones de FX∗n (x) no siempre tie-
nen forma de alguna distribución conocida; pero más importante aún, este cálculo se vuelve
complejo a medida que aumenta el número de elementos en la convolución, inclusive con las
computadoras muy potentes, porque el número de operaciones que se deben llevar a cabo,
es muy elevado.
Es por esta razón que a través de la Fórmula Recursiva de Panjer los cálculos pueden
ser minimizados. Para ello, debemos retomar los conceptos que manejamos en los modelos
compuestos de frecuencia, donde considerábamos el modelo de riesgo colectivo tomando la
distribución de frecuencia y la de severidad como distribuciones discretas. Entonces, la dis-
tribución compuesta de S
S = X1 + X 2 + · · · + Xn
se obtenı́a mediante
∞
X
gk = pn fk∗n
n=0
con
pn = P (N = n)
fn = P (X = n)
121
gn = P (S = n)
Para determinar gk del riesgo S lo primero que requerimos es pedir que la distribución aso-
ciada a la frecuencia, sea miembro de las clase (a,b,0) o (a,b,1). Esto porque las fórmulas
desarrolladas por Panjer quedan expresadas con base en estas distribuciones.
Teorema
k
1 X bj
gk = a+ fj gk−j ; k = 1, 2, 3, ...
1 − af0 j=1 k
Para el valor de g0
p0 = P [N = 0] si f0 = P [X = 0] = 0
g0 =
PN (f0 ) ó MN (log f0 ) si f0 = P [X = 0] > 0
122
bX1 bX1
E a+ S = k = a + E S = k
k k
b
= a + E [X1 |S = k]
k
n
" n
#
b X X
= a+ E Xj Xi = k
nk j=1 i=1
" n n
#
b X X
= a+ E Xj Xi = k
nk j=1 i=1
bk
= a+
nk
b
= a+
n
k
bX1 X bj
E a+ S = k = a+ P [X1 = j|S = k]
k j=0
k
k
X bj P [X1 = j] P [S − X1 = k − j]
= a+
j=0
k P [S = k]
k
b X bj P [X1 = j] P [S − X1 = k − j]
a+ = a+
n j=0
k P [S = k]
b
pn = a + pn−1 ; n = 1, 2, 3, ...
n
123
Ahora sı́, la demostración del teorema.
∞
X
gk = pn fk∗n
n=1
∞
X
= pn P [X1 + · · · + Xn = k]
n=1
∞
X
= pn P [S = k]
n=1
∞
X b
= a+ pn−1 P [S = k] (Ya que pn es de la clase (a,b,0))
n=1
n
∞ k
X X bj P [X1 = j] P [S − X1 = k − j]
= pn−1 a+ P [S = k] (igualdad destacada)
n=1 j=0
k P [S = k]
k ∞
X bj X
= a+ P [X1 = j] pn−1 P [S − X1 = k − j]
j=0
k n=1
k
X bj
gk = a+ fj gk−j
j=0
k
k
X bj
= af0 gk + a+ fj gk−j
j=1
k
k
X bj
gk (1 − af0 ) = a+ fj gk−j
j=1
k
k
1 X bj
gk = a+ fj gk−j
(1 − af0 ) j=1 k
124
Análogamente
k
X bj
[p1 − (a + b)p0 ] fk + a+ fj gk−j
j=1
k
gk = ; k = 1, 2, 3, ...
1 − af0
fX (x) está definida para los valores de 0, 1, 2, ..., m, porque en efecto los montos de reclama-
ción que recibe una compañı́a aseguradora generalmente tienen un tope de pago, y que la
frecuencia de las reclamaciones es pk , entonces:
x∧m
X
by
[p1 − (a + b)p0 ] fX (x) + a+ fX (y) fS (x − y)
y=1
x
fS (x) =
1 − afX (0)
x∧m
X
by
a+ fX (y) fS (x − y)
y=1
x
fS (x) =
1 − afX (0)
x∧m
λX
fS (x) = yfX (y) fS (x − y) ; x = 1, 2, 3, ..
x y=1
125
Además, de igual forma que en la fórmulas recursivas anteriores, el valor inicial para deter-
minar la densidad de S es fS (0) = PN [fX (0)]
Ejemplo
Utilizando el método recursivo encontrar la probabilidad de que haya más de tres reclamacio-
nes agregadas, cosiderando que el modelo de riesgo colectivo se distribuye Poisson-Binomial
Negativa. Donde la distribución primaria es Poisson con λ = 2, y la distribución secundaria
es Binomial Negativa con β = 1.5 y r = 5
β β
a= = 0.6 y b = (r − 1) = 2.4, con
1+β 1+β
2.4
fX (2) = 0.6 + ∗ 0.03072 = 0.055296
2
2.4
fX (3) = 0.6 + ∗ 0.055296 = 0.0774144
3
Para el resto de valores, recordar que nuestra distribución Poisson escrita como un elemento
de la clase (a,b,0), tiene a = 0 y b = λ = 2. Entonces
126
x
2X
fS (x) = yfX (y) fS (x − y)
x y=1
2
fS (1) = ∗ 0.03072 ∗ 0.138135526 = 0.008487047
1
2 2
fS (2) = ∗ 0.03072 ∗ 0.008487047 + ∗ 2 ∗ 0.055296 ∗ 0.138135526
2 2
= 0.015537406
2 2
fS (3) = ∗ 0.03072 ∗ 0.015537406 + ∗ 2 ∗ 0.055296 ∗ 0.008487047
3 3
2
+ ∗ 3 ∗ 0.0774144 ∗ 0.138135526 = 0.022331297
3
= 0.815508724
x fS (x) FS (x)
0 1.381355e − 01 0.1381355
1 8.487047e − 03 0.1466226
2 1.553741e − 02 0.1621600
3 2.233130e − 02 0.1844913
4 2.785252e − 02 0.2123438
5 3.175299e − 02 0.2440968
6 3.414236e − 02 0.2782392
127
Distribución de Reclamaciones Agregadas Densidad de Reclamaciones Agregadas
Aproximación Método Recursivo (Panjer)
1.0
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●
●●●●
●●●
●●●
●
●●
0.12
●●
●
●
●
●
●
●
●
0.8
●
●
0.10
●
●
●
●
●
●
0.6
0.08
●
●
FS(s)
fS(s)
●
●
0.06
●
●
0.4
●
●
●
0.04
●
●
●
0.2
●
●
●
0.02
●
0.0
0.00
0 20 40 60 80 100 120
s s
Aproximación Método Recursivo (Panjer) Aproximación Método Recursivo (Panjer)
128
Datos reales
X : M onto N : F recuencia
x fX (x) n p(N =n)
1 0.150 0 0.05
2 0.200 1 0.10
3 0.250 2 0.15
4 0.125 3 0.20
5 0.075 4 0.25
6 0.050 5 0.15
7 0.050 6 0.06
8 0.050 7 0.03
9 0.025 8 0.01
10 0.25
De esta forma es como se implementa la Fórmula Recursiva de Panjer simpre que las
distribuciones de frecuencia en las reclamaciones agregadas no sean a su vez distribuciones
compuestas, puesto que cuando esta situación se presenta, para poder llevar a cabo el cálculo
de fS (x) se debe aplicar dicha fórmula por partida doble; esto es, consideremos la f.g.p. para
N :
PS (z) = PN [PX (z)] = P1 [P2 (PX (z))] que podemos reescribir como
Esta distribución de S1 deberá ser la primera que se calcule mediante la fórmula de Panjer,
dando como resultado fS1 (x) ; x = 0, 1, 2, ... que funcionará como la nueva distribución
de “severidad”para encontrar fS (x); es decir, nuevamente se aplicará la fórmula recursiva,
comenzando por fS (0) = PS (0) = P1 [fS1 (0)] y posteriormente utilizando los valores de
129
fS1 (x) como las probabilidades de la distribución de severidad mientras que pn en esta
segunda vuelta será determinada por la distribución primaria de frecuencias.
Se ha utilizado el supuesto de que la severidad posee una distribución discreta para poder
aplicar el método recursivo; sin embargo, el análogo para este método, considerando que la
severidad es continua, queda expresado por medio de una ecuación integral.
Teorema
Z x
by
fS (x) = p1 fX (x) + a+ fX (y) fS (x − y) dy
0 x
Existen soluciones numéricas para estas ecuaciones que pueden ser consultadas en el libro
de Baker [13]. Sin embargo, en este estudio se utilizarán aproximaciones discretas para dis-
tribuciones continuas que modelen la severidad en las reclamaciones por medio del método
de redondeo, con el propósito de implementar el Método Recursivo de Panjer.
130
Método de Redondeo
Mencionamos y además vimos en los ejemplos, que el método de Panjer no funciona cuando la
densidad de la severidad es continua, por lo que debemos recurrir a discretizar esta función
para poder aplicar Panjer. El método de redondeo es una buena herramienta pa este fin.
Este método se utiliza para construir distribuciones discretas a partir de distribuciones de
severidad que sean continuas. Para ello se deben asignar probabilidades discretas en múltiplos
de alguna unidad de medida establecida h, que recibe el nombre de “span”; dicha distribución
se conoce como aritmética puesto que se define para enteros positivos.
h h
f0 = P X < = FX
2 2
h h h h
fj = P jh − ≤ X < jh + = FX jh + − FX jh −
2 2 2 2
Cuando la distribución a discretizar no está acotada, lo más apropiado es limitar los valores
que toma en algún punto m, que asegure una acumulación de probabilidades lo más cercana
a uno que se pueda, entonces fm = 1−FX [(m − 0.5)h] . De tal manera que las probabilidades
nunca sean negativas y la suma de ellas sea 1, para asegurar que realmente es una función
de densidad de probabilidades.
Ejemplo
Supóngase que la severidad de las pérdidas agregadas sigue una distribución Pareto con
α = 4 y θ = 50. Obtener su distribución discreta mediante el método de redondeo con un
span de 0.9.
4
0.9 50
f0 = F X =1− = 0.035204354
2 0.45 + 50
131
4 4
50 50
= −
(0.9j − 0.45) + 50 (0.9j + 0.45) + 50
j fj
0 0.035204354
1 0.065881478
2 0.060352825
3 0.055371689
4 0.050875844
5 0.046811014
6 0.043129753
7 0.039790489
8 0.036756722
9 0.033996337
10 0.031481019
132
Comparación: Pareto (4,50) continua vs. discretizada
●●
●●
●●
0.06
●
● ●●
●
0.8
●
●
●
●
●
●
●
●
●
0.05
●
●
●
●
●
0.6
●
●
0.04
●
●
●
Real
●
Discretización
FX(x)
0.03
0.4
● Real
Discretización
●
0.02
●
●
0.2
0.01
●
●
0.0
0.00
0 10 20 30 40
Una vez que se tiene esta discretización de la función de severidad, se puede proceder a
aplicar el método de Panjer, para una distribución discreta de las familias (a,b,0) o (a,b,1).
133
Métodos de Inversión
Hasta el momento hemos desarrollado diversos métodos para poder encontrar la distribución
de las pérdidas agregadas correspondientes a los modelos que se pueden presentar en los datos
de una aseguradora, entre ellos se utilizaron convoluciones, aproximaciones asintóticas y la
fómula recursiva de Panjer. Además, en la sección anterior, también conocimos el método de
redondeo que se implementa para discretizar funciones continuas, de tal forma que posterior
a este proceso se pueda aplicar el método recursivo y finalmente conocer la distribución del
riesgo acumulado.
Otros métodos para encontrar la distribución de S se conocen como los de inversión. Estos
métodos numéricos se basan en el hecho de la correspondencia única entre las distribucio-
nes de las variables aleatorias con su función caracterı́stica (f.c.), su función generadora de
momentos (f.g.m.) y su función generadora de probabilidades (f.g.p.).
134
Definición Para cualquier función de densidad de probabilidades continua f (x), la Trans-
formada de Fourier (función caracterı́stica) asociada es:
Z ∞
f˜ (z) = f (x) eizx dx
−∞
Z ∞
1
f (x) = f˜ (z) e−izx dz
2π −∞
Para el caso, f (x) es una función definida en los reales y f˜ (z) en los números complejos.
Mientras que la versión discreta de esta transformada es la siguiente
Definición Sea fx una función definida en todos los valores enteros de x. Para el vector
(f0 , f1 , ..., fn−1 ) la Transformada de Fourier discreta que tiene el vector f˜0 , f˜1 , ..., f˜n−1 se
n−1
X 2πi
f˜k = fj exp jk ; k = 0, 1, ...
j=0
n
n−1
1X˜ 2πi
fj = fk exp − kj ; j = 0, 1, ...
n k=0 n
Cabe señalar que la Transformada Rápida de Fourier (FFT) es un algoritmo empleado para
conocer la Transformada de Fourier, sin embargo no se estudiará el desarrollo del algoritmo,
aunque es importante mencionar que reduce el número de cálculos realizados a un orden de
(n log n) mientras que la evaluación directa de la transformada lo harı́a en n2 operaciones;
que se vuelve más importante a medida que el valor de n es más grande. Además, el único
requerimiento que debemos considerar para aplicar este método es que el valor de n sea
potencia de 2.
135
Entonces, el proceso a seguir para hacer uso de la FFT y con ello conocer la distribución de
S es:
136
Ejemplo
Deducible: d = 5
Lı́mite de póliza: α (u − d) = 40
Coaseguro: α = 80 %
Utilizar un “span”de 0.4 para el método de redondeo y considerar que son pérdidas agregadas
de pago.
La resolución de este ejemplo se hará mediante el uso de códigos en R. Esta situación se debe
a que los cálculos de la FFT sólo son posibles con el uso de un programa computacional.
0 y=0
y
FX 0.8
+ 5 − FX (5)
FY P = 0 < y < 40
1 − FX (5)
1 y ≥ 40
1 y
1 − e− θ ( α +d) − 1 − e− θ
d
1 y y
e− θ − e− θ ( α +d)
d d
e− θ 1 − e− αθ
FY p (y) = d = d = d
e− θ e− θ e− θ
y
= 1 − e− αθ
137
Código en R
a < −0.8
d < −5
l < −40
u < −(l/a) + d
h < −0.4
n < −27
Como el número de reclamaciones también se modifica por las coberturas, si N ∼ BinN eg(β, r),
entonces
138
Por último, se realiza la IFFT (Transformada rápida de Fourier Inversa) agregando la división
entre n que no calcula la función de R pero que es parte de la fórmula para obtener la función
de densidad de S de acuerdo a su definción.
Esta es la tabla resumen de valores para ϕY P (s) , ϕS (s) y fS (s) con n = 128.
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●
●●●●●
●●●●●
●
●●
●●
●●
●●
●
●
●
●
●
●
0.8
●
●
●
●
●
●
●
●
0.6
●
●
FS(s)
●
0.4
0.2
0.0
0 20 40 60 80 100 120
139
Método de simulación
El último método que consideraremos para encontrar la distribución de S en el modelo colec-
tivo, es el método de simulación que contiene el paquete actuar. Para implementarlo debemos
conocer de manera analı́tica tanto el modelo de frecuencias como el modelo de severidad.
Esto quiere decir que conocemos tanto los modelos subyacentes a la frecuencia y la severidad
de nuestros datos, ası́ como los parámetros de ellos. Una vez conocidos estos modelos la
función aggregateDist en su opción simulación: simulation, simulará los datos del modelo de
pérdidas agregadas que generan estos dos modelos para, posteriormente, construir la función
de distribución acumulada del modelo agregado.
140
Método de De Pril
Para el Modelo de riesgo Individual también se desarrolló una fórmula recursiva que pro-
porciona la distribución de S. Este resultado fue desarrollado por Nelson De Pril en 1986 y
considera un portafolio de n asegurados.
En este modelo se denota al número de asegurados por nij , donde con j se representa la
probabilidad de reclamación qj ; j = 1, 2, ..., m y con i, el monto de la reclamación realizada;
i = 1, 2, ..., r. De forma que
r X
X m
n= nij
i=1 j=1
Es indispensable que los montos de reclamación sigan una progresión aritmética, de manera
que los valores que corren sobre i puedan representar la progresión que tiene la severidad; es
decir, para valores de i = 1, 2, 3, 4 se pueden considerar, por ejemplo, los montos de beneficio
de los asegurados por las cantidades de 3000, 6000, 9000, 12000.
x∧r bx/ic
1XX
fS (x) = fS (x − ik) h (i, k) ; x ≥ 1
x i=1 k=1
r Y
Y m
fS (0) = (1 − qj )nij
i=1 j=1
donde
m k
k−1
X qj
h(i, k) = i(−1) nij
j=1
1 − qj
141
Dem:
Considerando la f.g.p. de Xij para este caso que involucra la probabilidad de reclamación qj
y al monto i, entonces con esta nueva notación
PXij (z) = 1 − qj + qj z i
r Y
m
Y nij
PS (z) = 1 − qj + q j z i
i=1 j=1
r X
X m
nij ln 1 − qj + qj z i
ln [PS (z)] =
i=1 j=1
r m
iqj z i−1
d PS´(z) X X
ln [PS (z)] = = nij
dz PS (z) i=1 j=1
1 − qj + qj z i
Entonces,
" r X
m #
iqj z i−1
X
PS´(z) = PS (z) nij
i=1 j=1
1 − qj + q j z i
" r X
m #
i
X iqj z
zPS´(z) = PS (z) nij
i=1 j=1
1 − qj + qj z i
" r X
m
#
X iqj z i 1 − qj
= PS (z) nij i
i=1 j=1
1 − q j + qj z 1 − qj
" r X
m −1 #
iqj z i qj z i
X
= PS (z) nij 1+
i=1 j=1
1 − qj 1 − qj
∞
1 X
Si utilizamos el hecho de que , se puede expandir como (−1)k xk para |x| < 1.
1+x k=0
Entonces tenemos
142
" r X
m ∞ k−1 #
qj z i X qj z i
X
k−1
= PS (z) nij i (−1)
i=1 j=1
1 − qj k=1 1 − qj
" r X
m ∞ k #
X X qj
= PS (z) nij i (−1)k−1 z ik
i=1 j=1 k=1
1 − qj
m k
k−1
X qj
Ahora definimos h (i, k) = i (−1) nij
j=1
1 − qj
Debido a que las sumas sobre k y j son absolutamente convergentes en cualquiera de los
dos órdenes que se realicen, entonces es válido intercambiarlas, por lo tanto, regresando al
desarrollo anterior, tenemos que
" ∞
r X
#
X
ik
zPS´(z) = PS (z) h (i, k) z
i=1 k=1
∞ ∞
S X x
X
como PS (z) = E z = z P [S = x] = z x fS (x) y
x=0 x=0
∞
X ∞
X
PS´(z) = xz x−1 fS (x) = xz x−1 fS (x)
x=0 x=1
Entonces,
∞
X ∞
X
0 x−1
zPS (z) = z xz fS (x) = xz x fS (x)
x=1 x=0
Por lo tanto
∞
X ∞
X ∞
r X
X
x x
xz fS (x) = z fS (x) h (i, k) z ik
x=1 x=0 i=1 k=1
143
x∧r bx/ic
X X
xfS (x) = fS (x − ik) h (i, k)
i=1 k=1
x∧r bx/ic
1XX
∴ para x ≥ 1 fS (x) = fS (x − ik) h (i, k)
x i=1 k=1
r Y
Y m
fS (0) = (1 − qj )nij
i=1 j=1
144
Ejemplo
Una aseguradora posee una cartera de 66 pólizas para un seguro de vida. La siguiente tabla
muestra las probabilidades de reclamación y los montos de reclamación por grupo de asegura-
dos. Obtener la función de densidad de las pérdidas agregadas para valores de x = 0, 1, ..., 30
mediante la fórmula recursiva de De Pril
x fS (x) FS (x)
0 0.2732243 0.2732243
1 1.115201e − 01 0.3847444
2 6.808043e − 02 0.4528248
3 1.366522e − 01 0.5894770
4 1.408985e − 01 0.7303755
5 6.588025e − 02 0.7962558
145
Distribución de Reclamaciones Agregadas Densidad de Reclamaciones Agregadas
0.30
1.0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
●
●
●
●
0.25
●
0.8
0.20
0.6
●
FS(s)
fS(s)
0.15
●
0.4
0.10
●
0.2
0.05
0.0
0.00
0 5 10 15 20 25 30
s s
Método de De Pril Método de De Pril
146
MEZCLAS DE DISTRIBUCIONES
Introducción
No siempre es posible modelar datos reales únicamente a través de una densidad, general-
mente, estos datos presentan formas que no se ajustan adecuadamente a las densidades más
conocidas en estadı́stica. Una manera de lidiar con este problema, es considerar la posibilidad
de que estos datos con formas no convencionales, puedan modelarse a través de una mezcla
de densidades o de distribuciones. Dada la flexibilidad que tienen los modelos de mezclas,
es posible lograr un mejor ajuste a estos datos. Una de las formas comunes en que aparecen
este tipo de datos en la teorı́a del riesgo es, por ejemplo, cuando los montos de reclamación
de un seguro presentan una mayor variabilidad de la que puede considerar cualquiera de los
modelos estadı́sticos utilizados para su ajuste. Por ejemplo, en un seguro de gastos médicos,
si no existe un control de las edades de los asegurados, es muy probable que se tenga diferen-
te exposición al riego entre ellos debido a esta diferencia de edades. De hecho, esta falta de
control propicia que la población asegurada sea heterogénea y, como sabemos, las densidades
asumen, generalmente, poblaciones homogéneas.
k
X
πi = 1
i=1
donde cada componente de la mezcla es una función de probabilidad (Poisson, Binomial, etc.)
o una función de densidad (Normal, Exponencial, Gamma, etc.), e incluso de distribuciones
multivariadas, y θ y θi , i = 1, 2, ..., k pueden ser vectores de parámetros. En este caso, tenemos
una mezcla paramétrica, puesto que los componentes de la misma son funciones paramétricas.
Si los componentes de la mezcla se especifican de forma no paramétrica, entonces el modelo
de mezcla será también no paramétrico.
147
Estimación paramétrica del modelo de mezclas
La manera usual de estimar los parámetros y las proporciones (πi ) es a través del algoritmo
EM.
Explı́citas
• Datos Faltantes
• Datos agrupados
Implı́citas
• Efectos Aleatorios
• Mezclas
• Clases Latentes
148
El algoritmo EM para mezclas de distribuciones
Para fijar ideas, supongamos que la mezcla consta de dos distribuciones: f1 (x; θ1 ) y f2 (x; θ2 ) .
En este caso, los parámetros a estimar son {θ1 , θ2 , π1 , π2 = 1 − π1 } . La manera estándar de
plantear esta situación es con Y = (U, V), donde U representa los datos observados y V
representa la membresı́a o pertenencia. Concrétamente, V = 1 si la observación es de la
primera distribución, f1 (x; θ1 ) , y V = 0 si es de la segunda distribución, f2 (x; θ2 ) . La espe-
ranza no condicional E(V ) es la probabilidad de que una observación provenga de la primera
distribución, que es π1 . La información completa pero desconocida de esta muestra es: U,
u1 , ..., un , que representan los datos observados y V, v1 , ..., vn son los datos desconocidos. En-
tonces, los datos completos son parejas de la forma {(u1 , v1 ) , (u2 , v2 ) , ..., (un , vn )} con vi = 1
ó vi = 0.
Paso 1. Calcular la esperanza condicional de las cantidades desconocidas dadas las cantida-
des conocidas (P aso E)
Paso 2. Maximizar esta esperanza respecto a los parámetros por estimar (P aso M)
Uno de los modelos de mezclas más populares es sin duda el de distribuciones normales. En
un contexto actuarial, el uso de la normal como modelo para ajustar datos, es cuestionable
debido a que su suporte es R, y no R+ que es el soporte natural de los datos de monto
de reclamación. No obstante, si la media de los modelos subyacentes a la mezcla está muy
alejada del origen y la varianza no es muy grande, es posible utilizar este modelo de mezclas
para ajustar datos tı́picos de aplicaciones actuariales. El modelo para dos distribuciones
normales en la mezcla tiene la forma
149
f x; µ1 , µ2 , σ12 , σ22 , π1 = π1 f1 x; µ1 , σ12 + (1 − π1 ) f2 x; µ2 , σ22
con
1 1 2
fi (x, µi , σi2 ) = p 2 exp − 2 (x − µi ) , i = 1, 2
πσi 2σi
0.10
0.05
0.00
−4 −2 0 2 4 6 8
Supongamos que tenemos n observaciones de X, x1 , ..., xn , que representan los datos incom-
pletos. Los datos completos son de la forma {(x1 , v1 ), ..., (xn , vn )}, con vi = 1 ó vi = 0.
n
Y v 1−vi
N1 (µ1 , σ12 ) i N2 (µ2 , σ22 )
Lc (θ; X, V) =
i=1
150
n
X
vi log N1 (µ1 , σ12 ) + (1 − vi )log N2 (µ2 , σ22 )
`Lc (θ; X, V) =
i=1
Entonces, en el paso-E del algoritmo, dado un valor provisional de θ, debemos calcular “el
grado de membresı́a”de cada uno de los datos a cualquiera de los dos grupos. Utilizando el
teorema de Bayes, de manera general tenemos que
En el caso de este ejemplo con dos mezclas normales y dado un valor provisional de θ = θ(k) ,
tenemos
(k) (k)
(k+1) π k N1 (µ1 , σ12 )
E(V |xi , θ (k)
)= πij = 2 1
P k (k) (k)
πj Nj (µj , σj2 )
j=1
(k) (k)
con π2 = 1 − π1 = 1 − π (k)
(k) (k) 2(k)
π 1 N 1 x; µ 1 , σ 1
E V|x, θk =
(k) (k) 2(k) (k) (k) 2(k)
π1 N1 x; µ1 , σ1 + (1 − π1 )N2 x; µ2 , σ2
de donde se desprende
n
(k+1) 1X
E V|xi , θk
π1 =
n i=1
151
Que es la proporción de datos que pertenecen al primer elemento de la mezcla. La demás
actualizaciones son
Pn (k+1)
(k+1) i=1 π1 xi
µ1 = Pn (k+1)
i=1 π1
Pn (k+1)
i=1 1 − π 1 xi
(k+1)
µ2 =
Pn (k+1)
i=1 1 − π1
2
Pn (k+1) (k+1)
(k+1) i=1 π1 xi − µ 1
σ12 = Pn (k+1)
i=1 π1
Pn 2
(k+1) (k+1)
(k+1) i=1 1 − π1 xi − µ 1
σ22 = Pn
(k+1)
i=1 1 − π1
α−1 α
α x x
f (x; α, β) = exp − , x≥0
β β β
α−1 α
α x−γ x−γ
f (x; α, β, γ) = exp − , 0<γ≤x<∞
β β β
152
f (x; α1 , α2 , β1 , β2 , π1 ) = π1 f1 (x; α1 , β1 ) + (1 − π1 ) f2 (x; α2 , β2 ) , ó
0.15
0.10
0.05
0.00
2 4 6 8
Otra mezcla que puede ser adecuada para datos actuariales es la de distribuciones exponen-
ciales
1 x
f (x; θ) = e− θ , x ≥ 0
θ
153
mezcla de densidades Exponencial
3
Densidad
2
1
0
x
xα−1 e− θ
f (x; α, θ) = α ,x ≥ 0
θ Γ (α)
154
mezcla de densidades gamma
0.0020
0.0015
Densidad
0.0010
0.0005
0.0000
De hecho, cualquier modelo de uso común para ajustar este tipo de datos, puede utilizarse
dentro de una mezcla para lograr un mejor ajuste a la información. Realizaremos algunos
ajustes a datos simulados y reales utilizando algunos paquetes, como mixtools, de R.
155
Principios para el cálculo de primas
Mencionamos en la introducción de estas notas, que una prima es un pago por adelantado
que realiza el asegurado a una compañı́a aseguradora para obtener una cobertura parcial
o total contra un riesgo determinado, en los términos y condiciones que establece la póliza
del seguro. En este apartado estudiaremos algunas reglas generales para calcular el valor de
una prima tomando en cuenta únicamente los aspectos matemático-actuariales del riesgo, es
decir, no consideraremos cuestiones administrativas o mercadológicas del negocio del seguro,
que, en situaciones prácticas, son indispensables de considerar. Denotaremos por P, PS ó
P(S) a la prima para cubrir un riesgo, S. De esta manera, a la fórmula para calcular una
prima se le puede considerar como una función numérica de la variable aleatoria S o de su
respectiva distribución, FS .
Propiedades
Y ¿qué propiedades debe cumplir razonablemente una función, PS , para el cálculo de pri-
mas? Enunciaremos en seguida algunas propiedades generales que son deseables que posea
cualquier método para calcular primas.
PS (S + c) = PS (S) + c
156
PS (S1 + S2 ) = PS (S1 ) + PS (S2 )
con S1 y S2 dos riesgos independientes. Es claro que cuando se cumple esta propiedad,
el intentar combinar o separar los riesgos no resulta en ninguna ventaja o provecho ni
para el asegurado ni para el asegurador.
Cota inferior. La prima debe tener siempre como cota inferior la prima pura de riesgo,
esto es,
PS (S) ≥ E (S)
Sin embargo, en algunas situaciones es necesario suponer que las primas deben tener
siempre un recargo positivo y se considera la condición más restrictiva PS (S) > E (S).
A menos que se establezca lo contrario, la propiedad de cota inferior se entenderá en
el sentido PS (S) ≥ E (S), que es más fácil de verificar en los métodos de cálculos de
primas que estudiaremos.
Cota superior. Si un riesgo está acotado superiormente, entonces la prima para cubrir
este riesgo también debe tener la misma cota superior, es decir, si S ≤ M para alguna
constante M > 0, entonces
PS (S) ≤ M
157
Principios generales
Recordemos que la prima pura de riesgo está dada por PS (S) = E(S). Esta es la prima
destinada a solventar exclusivamente la reclamación del riesgo. Sin embargo, veremos a con-
tinuación la posible situación catastrófica en la que se podrı́a incurrir cuando se toma como
prima, PS (S) = E(S). Consideremos un portafolio homogéneo de n pólizas de seguro de un
mismo riesgo con una vigencia determinada de tiempo. Supongamos que se cobra la misma
prima, p, por cada póliza y que Sj representa el monto de las reclamaciones efectuadas por
la póliza j, mismas que se asumen independientes e idénticamente distribuidas. Si u es el
capital inicial de la aseguradora, entonces su capital al término de la vigencia de las pólizas es
n
X
Xn = u + np − Sj
j=1
n
X
= u+ (p − Sj )
j=1
E (Xn ) = u + n (p − E (S))
= u
lo implica que el capital Xn puede oscilar y tomar valores grandes, tanto negativos
como positivos.
158
2. Cuando p 6= E (S), por la ley de los grandes números, tenemos que
n
!
1 X
lı́m Xn = lı́m u+ (p − Sj )
n→∞ n→∞ n
j=1
n
1X
= lı́m (p − Sj )
n→∞ n
j=1
= E [(p − S)]
= p − E (S)
Ası́, para que este lı́mite sea el indicado, la variable Xn tiene que diverger a infinito o
menos infinito dependiendo del signo de p − E (S). Por lo tanto Xn tiene el siguiente
comportamiento lı́mite
(
+∞ si p > E (S)
lı́m Xn =
n→∞ −∞ si p < E (S)
En vista de estos dos resultados, es natural y deseable suponer p > E (S). Esta condición se
conoce con el nombre de condición de ganancia neta (net profit condition) y debe prevalecer
en cualquier método para calcular p = PS (S).
En general no existe un mecanismo de cálculo para la prima que sea el mejor ya que existen
condiciones que afectan la forma de calcular estas primas, entre ellas, las restricciones legales
y financieras, las condiciones del asegurado, las condiciones de la propia aseguradora y de las
otras aseguradoras, además de las condiciones del mercado del seguro. Todos estos son fac-
tores que determinan, directa o indirectamente, el valor de una prima para cubrir un riesgo
particular en una situación real. Estudiaremos a continuación algunas formas particulares pa-
ra el cálculo de primas. A estos procedimientos se les denomina con el término de prinicipios.
Principio del valor esperado. Este principio es uno de los más sencillos y establece que
la prima puede calcularse de la siguiente forma:
159
PS (S) = (1 + θ) E (S)
con θ > 0, una constante llamada factor de recargo (safety loading). Es decir, se tra-
ta de la reclamación promedio más un porcentaje de ésta. En el factor de recargo se
encuentran inmersos los costos administrativos y comerciales del seguro, ası́ como los
márgenes de utilidad de la aseguradora. La forma simple en la que se expresa este
principio es una de sus caracterı́sticas principales; sin embargo, puede observarse que
una desventaja de esta fórmula es que asigna la misma prima a dos riesgos con distinta
distribución pero con media común, y no toma en cuenta otro aspectos, por ejemplo,
si las varianzas de los riesgos fueran distintas, entonces las primas tal vez deberı́an ser
distintas.
Ejemplo
Mil quinientas estructuras están aseguradas contra incendios por una empresa. Las can-
tidades asegurado ($0000 s), ası́ como las probabilidades de un reclamo, varı́an según la
tabla
160
serı́a el valor correspondiente de θ si el número de estructuras en las categorı́as 1 y 2
se duplicara. Solución en R.
Este principio no sólo estima la siniestralidad media del riesgo, sino que proporciona,
además, el recargo de seguridad que debe llevar la prima para atender a las desviacio-
nes aleatorias de esta siniestralidad. Mediante la expresión de este principio, se dice
que el recargo de seguridad es proporcional a la varianza.
p
PS (S) = E (S) + θ V (S)
Este principio fue utilizado por Balbás, Gil y Heras (1990) como medida de riesgo en
un problema de reaseguro óptimo. Los principios de la varianza y desviación estándar
son los más utilizados en los tipos de seguros mencionados en la sección anterior.
Principio de utilidad cero. Este principio hace uso de una función de utilidad, esto
es, una función, v(x), definida sobre [0, ∞) o un subconjunto de este intervalo y con
valores en R, que cumple las propiedades que se mencionan a continuación, y cuya
gráfica general se muestra abajo
1. Es estrictamente creciente
2. Es cóncava
161
Función cóncava
1.4
1.2
1.0
0.8
f(x)
0.6
0.4
0.2
0.0
Una función con estas caracterı́sticas puede usarse para modelar el valor o utilidad que
una persona o institución asocia a un bien monetario o material. Suponiendo diferen-
ciabilidad, la primera condición se escribe v 0 (x) > 0, y la segunda condición significa
que v 00 (x) ≤ 0. A veces se añade la condición v(0) = 0 pues toda función de utilidad
(definida en x = 0) puede modificarse de tal forma que cumpla esa condición sin afectar
el resultado en los procesos de decisión que se llevan a cabo usando estas funciones. La
nueva función de utilidad serı́a v(x) − v(0). El principio de utilidad cero establece que
la prima para cubrir un cierto riesgo S es aquel número, p = PS (S), que satisface la
ecuación
162
Ejemplo
Considere la función de utilidad v(x) = 1 − e−αx , con α > 0. La prima se calcula como
aquel valor de p = PS (S) que es solución de la ecuación
1 − e−αx = E 1 − e−α(u+p−S)
1
p = PS (S) = ln(MS )(α)
α
v(x) = xα , 0 ≤ α ≤ 1
163
v(x) = E [v (u + p − S)]
≤ v (E [(u + p − S)])
= v (u + p − E)
• Principio del valor medio. Este principio hace uso de una función de valor, esto
es, una función, v(x) que cumple las propiedades
1. v(0) = 0
2. Es estrictamente creciente
3. Es estrictamente convexa
Función convexa
20
15
v(x)
10
5
0
El principio del valor medio establece que la prima p = PS (S) debe calcularse
a partir de la igualdad
164
indiferente a cualquiera de las dos situaciones. Como la función v(x) es es-
trictamente creciente, es uno a uno, su inversa por lo tanto existe y es también
estrictamente creciente. De hecho, la inversa de cualquier función de utilidad
que se anula en cero es un ejemplo de una función de valor. Ası́, la prima
mediante este principio se puede escribir de la siguiente forma:
p = v −1 (E [v(S)])
p = PS (S) ≥ E [S]
eαp − 1 = E eαS − 1
cuya solución es
Obsérvese que en este caso la prima no depende del capital inicial, u. Puede
verificarse directamente que p = PS (S) ≥ E [S], que hemos demostrado antes
de manera general.
5. Principio del porcentaje. Sea > 0 una constante. El principio del porcentaje
sugiere que la prima p = PS (S) puede calcularse mediante la expresión
165
p = PS (S) = inf {x > 0 : PS (S > x) ≤ }
1
g(x) = ehx f (x) (4)
MS (h)
166
Z ∞
1
p = xehx f (x)dx
MS (h) 0
hS
E Se
=
E (ehS )
Denotemos por p(h) a esta función. Es claro que p(0) = E (S) y puede de-
mostrarse que p(h) es una función creciente de h. Por lo tanto, p(h) ≥ p(0) =
E(S). Esto demuestra que se cumple la condición de ganancia neta y que
mientras mayor es el parámetro, h, mayor es la prima. Habiendo definido la
forma de calcular primas bajo este principio, vamos a hacer algunas obser-
vaciones acerca de la función de densidad (4), que es la función de densidad
ehx
original ponderada por la función creciente . La correspondiente fun-
MS (h)
ción de distribución de (4) es
Z x
1
G(x) = ehy f (y)dy
MS (h) 0
M (t + h)
MS̃ (t) =
M (h)
7. Principio del riesgo ajustado. Este principio, ası́ como el de Esscher, está ba-
sado en una transformación de la distribución del riesgo. Para un riesgo S
con función de distribución F (x) se define una nueva función de distribución
de la siguiente forma
G(x) = 1 − (1 − F (x))1/ρ
167
1 − G(x) = (1 − F (x))1/ρ
≥ 1 − F (x)
Esto significa que la cola de la distribución del riesgo está siendo sobre esti-
mada por la cola de la nueva distribución. Esta sobre estimación se usa para
definir la prima para cubrir S.
F(x)
0.8
G(x)
0.6
0.4
0.2
0.0
0 2 4 6 8 10
Ası́, la prima por el principio del riesgo ajustado para el riesgo S se define
como la esperanza de la nueva función de distribución, es decir,
Z ∞ Z ∞
p = PS (S) = (1 − G(x)) dx = 1 − (1 − F (x))1/ρ dx
0 0
Z ∞ Z ∞
1/ρ
p= 1 − (1 − F (x)) dx ≥ (1 − F (x)) dx = E(S)
0 0
Puesto que hemos revisado algunos métodos particulares para calcular primas
y que contamos con una lista de propiedades deseables que deben cumplir los
métodos, surge el problema de determinar si se cumplen o no se cumplen las
propiedades para cada uno de los métodos enunciados. Algunas de estas com-
probaciones son inmediatas, algunas otras requieren un poco más de trabajo.
168
Teorı́a de la credibilidad
Consideremos un riesgo determinado que proveniente de un conjunto de asegurados vigentes
por un periodo determinado. Si este grupo de asegurados es homogéneo en el sentido de que
todos sus miembros tienen la misma probabilidad de realizar una reclamación, entonces es
razonable aplicar una misma prima a todos ellos. Sin embargo, cuando el grupo no es ho-
mogéneo, o bien, al paso del tiempo aparecen factores de heterogeneidad dentro del mismo,
habrá subgrupos de bajo riesgo y otros de alto riesgo. Cobrar una misma prima a todos
resultarı́a injusto, y no serı́a conveniente para la aseguradora pues, eventualmente, los ase-
gurados de bajo riesgo buscarı́an un mejor trato con otra aseguradora. La idea fundamental
es aplicar primas menores a los asegurados de bajo riesgo y primas mayores a los de alto
riesgo, con base en el historial de reclamaciones que cada uno de los asegurados o subgrupos
hayan realizado durante los periodos anteriores. En la teorı́a de la credibilidad se estudian
métodos para el cálculo de primas a través de la combinación de la experiencia individual
(historial de reclamaciones, datos propios) y la experiencia de grupo (datos del mercado,
contratos similares, experiencia propia acumulada, datos colaterales).
Este escenario plantea entonces que, cada caracterı́stica a estimarse en la población, depende
de dos fuentes de información (o tiene dos fuentes de datos): Los datos propios o datos indi-
viduales y la información colateral, dada por los datos del mercado o la experiencia propia
acumulada. Si basamos esta estimación sólo en los datos propios y éstos son escasos, entonces
su estimación será poco confiable (escencialmente podrı́a tener una varianza muy grande).
Por otro lado, si esta estimación se realizara únicamente con la información colateral, que,
tal vez, sea basta, podrı́a ser que no todos estos datos estuvieran totalmente relacionados con
el mismo riesgo, éste podrı́a haber sufrido modificaciones, por ejemplo, a través del tiempo.
Entonces, la mejor alternativa para estimar estas caracterı́sticas, debiera ser una combina-
ción de las dos fuentes de información. En concreto, si deamos estimar la caracterı́stica α de
la población, nuestro estimador debiera ser
Z α̂i + (1 − Z)α̂C
Con α̂i el estimador dado por la información individual y α̂C el estimador dado por la
información colateral. Con Z ∈ [0, 1] conocido como factor de credibilidad, generalmente
determinado por los datos individuales y colaterales. Si la información generada por la expe-
169
riencia propia es abundante, este factor deberı́a ser cercano a uno, y cercano a cero cuando
esta información sea muy escasa.
170
Teorı́a de la credibilidad
Introducción
La teorı́a de la credibilidad es el conjunto de técnicas actuariales que permiten al asegurador
ajustar de modo sistemático las primas de los seguros en función de la experiencia de sinies-
tralidad ocurrida.
En la teorı́a de la credibilidad tienen roles primordiales los dos tipos de riesgo ya conside-
rados: el riesgo individual y el riesgo colectivo, y se da una solución rigurosa al problema
de cómo analizar la información proviniente de estas dos fuentes, para calcular la prima de
seguros y obtener una tarifa justa.
El término credibilidad se introdujo por primera vez en USA antes de la primera guerra
mundial, en relación con los sistemas de ajuste de primas en seguros de compensación obrera
o seguros de accidentes. Por ese entonces, numerosas empresas ejercieron una fuerte presión
a las aseguradoras dada la baja siniestralidad laboral y la elevada tasa de actividad, para
que se les reconociera este hecho en los importes de primas a pagar.
Whitney (1918) publicó los primeros trabajos en esta materia con la aparición en los Pro-
ceedings de la Casualty Actuarial Society. De una forma simple, a través de una matemática
elemental, propone que la prima que debe pagar un asegurado considere tanto la experien-
cia individual (del asegurado) y la del colectivo (la cartera de seguros). De esta manera, la
estimación del monto de la prima, se calculará como
171
P = Z · X + (1 − Z) · C (1)
Debe ser una función del tiempo de vigencia de la póliza, n, i.e., Z = Z(n).
Debe ser una función creciente de n, de tal manera que converja a uno si n → ∞ y
tienda a cero cuando n → 0. Este último caso, (n = 0), implicarı́a que no se tiene
información sobre el asegurado (serı́a un contrato nuevo), y la prima a cobrar serı́a,
C, la que se basa en la información del colectivo. En la medida que se incremente la
información sobre el asegurado (que n crezca), entonces esta información empezarı́a a
tener más peso en el cálculo de la prima a cobrar, i.e., la experiencia de siniestralidad
del asegurado tendrı́a mayor verosimilitud o credibilidad. En el caso extremo (n → ∞),
el valor de la prima debiera ser X, esto es, la prima deberı́a basarse únicamente en la
experiencia individual de la siniestralidad del asegurado.
172
que el problema de credibilidad era un caso de cálculo de probabilidades inversas (teorema
de Bayes). En el trabajo de Mayerson (1964) se utilizan por primera vez los términos de
credibilidad y estadı́stica Bayesiana.
173
Enfoque Bayesiano
En la estadı́stica tradicional, enfoque clásico, uno de los problemas inferenciales más im-
portantes es la estimación del parámetro, θ, de una distribución de probabilidad, f (x; θ).
Para realizar dicha estimación seleccionamos una muestra aleatoria de esta distribución y se
tienen distintos métodos para estimar θ, considerando siempre que este parámetro tiene un
valor desconocido y fijo. En el enfoque Bayesiano, θ, se trata como una variable aleatoria
para la que se supone una distribución de probabilidad, p(θ), llamada distribución inicial o
distribución a priori. Esta distribución refleja la información subjetiva o cuantitativa que el
observador pueda tener sobre este parámetro, θ, antes de observar la muestra.
Teorema de Bayes
Dados dos eventos A y B tales que P(B) > 0, la probabilidad condicional de A dado B,
P(A|B), se define como
P(B ∩ A) P(B|A)P(A)
P(A|B) = =
P(B) P(B)
Teorema de Bayes
P(B|Ai )P(Ai )
P(Ai |B) = M
P
P(B|Aj )P(Aj )
j=1
174
• θ debe tener una distribución de probabilidad, p(θ), que refleje nuestro conocimiento inicial
acerca de su valor.
Por lo tanto, nuestro conocimiento acerca del valor de θ queda descrito a través de su dis-
tribución final
p(θ|X)
p(x|θ)p(θ)
p(θ|X) = Z
p(x|θ)p(θ)dθ
Z
Obsérvese que el denominador, p(x) = p(x|θ)p(θ)dθ, no depende de θ, por lo que es común
p(θ|x) ∝ p(x|θ)p(θ)
175
Familias conjugadas
Comentamos en uno de los puntos anteriores, que existen ciertas combinaciones de distribu-
ciones iniciales y verosimilitudes, que simplifican el análisis Bayesiano, esencialmente, porque
el modelo de la distribución final de θ, pertenece a la misma familia que el de la inicial.
Bernoulli(x|θ) Beta(θ|α, β)
P oisson(x|λ) Gamma(λ|α, β)
Geométrica(x|θ) Beta(θ|α, β)
Exponencial(x|λ) Gamma(λ|α, β)
U nif orme(x|0, θ) P areto(λ|α, β)
N ormal(x|µ) Normal(µ|µ0 , λ0 )
N ormal(x|λ) Gamma(λ|α, β)
N ormal(x|µ, λ) N ormal − Gamma(µ, λ|µ0 , λ0 , α, β)
176
Ejemplo. Consideremos la familia paramétrica P = {Poisson(x|λ) : λ ∈ R+ }. Si utilizamos
como distribución inicial p(λ) ∈ F = {Gamma(λ|α, β) : α, β ∈ R+ }. Entonces, si se tiene
una muestra aleatoria x = (x1 , ..., xn ), la distribución final es
p(λ|X) = Gamma(λ|α + r, n + β)
n
P
con r = xi .
i=1
p(x|λ)p(λ)
p(λ|X) = Z
p(x|λ)p(λ)dλ
con
n
Y λxi e−λ Pn
xi −nλ
p(x|λ) = ∝λ i=1 e y
i=1
xi !
β α λα−1 e−βλ
p(λ) = , por lo que
Γ (α)
n
!
Pn Pn X
xi −nλ α−1 −βλ xi −1 −λ(β+n)
p(λ|X) ∝ λ i=1 e λ e = λα+ i=1 e ∝ Gamma α + xi , β + n
i=1
177
Credibilidad total o completa
Supongamos que S representa el riesgo para una aseguradora correspondiente a un asegurado
o un conjunto de asegurados con ciertas caracterı́sticas particulares, con covertura por un
periodo fijo determinado, por ejemplo, un año. Sean S1 , ..., Sm los montos de las reclamacio-
nes efectuadas por este asegurado o grupo de asegurados durante m periodos consecutivos,
y sea S̄ = (S1 , ..., Sm ) /m el promedio de las reclamaciones. Nos interesa estudiar el com-
portamiento de S̄ a lo largo del tiempo para un conjunto de asegurados en particular, pues
deseamos determinar si la prima que se les cobra a cada uno de ellos es la adecuada. Si las
variables S1 , ..., Sm son independientes, e idénticamente distribuidas y con esperanza finita,
entonces la ley de los grandes números garantiza que la media muestral S̄ converge a E (S),
conforme el número de sumandos crece a infinito.
Convergencia de S
E(S)
S
Definición. Sea k ∈ (0, 1) y p ∈ (0, 1) dos valores fijos. Se dice que S̄ tiene credibilidad total
o completa (k, p), si
P S̄ − E(S) ≤ kE (S) ≥ p
178
Esta definición enuncia que S̄ tiene credibilidad completa si dista de E(S), en menos de
kE(S) con probabilidad mayor o igual a p. Obsérvese que la definición tiene sentido cuando
E(S) es distinta de cero. En la práctica, obviamente se toman valores de k cercanos a cero
y valores de p cercanos a uno, tı́picamente k = 0.05 y p = 0.9.
Z S̄ + (1 − Z)E(S)
Determinemos una condición sobre este número de periodos, m, para obtener credibilidad
completa asumiendo que, bajo el teorema central del lı́mite, S̄ tiene una distribución aproxi-
madamente normal. Recordemos que
V (S)
E S̄ = E (S) y V S̄ =
m
Entonces
179
!
S̄ − E(S) kE(S)
P S̄ − E(S) ≤ kE(S) = P p ≤p
V(S)/m V(S)/m
!
kE(S)
≈ P |Z| ≤ p
V(S)/m
!
kE(S) kE(S)
= P −p ≤Z≤ p
V(S)/m V(S)/m
! !
kE(S) kE(S)
= Φ p − Φ −p
V(S)/m V(S)/m
! !
kE(S) kE(S)
= Φ p −Φ 1− p
V(S)/m V(S)/m
√ !
k mE(S)
= 2Φ p −1
V(S)
Como esta probabilidad debe ser mayor o igual a p según la definición, tenemos que
√ !
k mE(S) 1+p
Φ p ≥
V(S) 2
Lo que queremos es encontrar el valor de m más pequeño que cumpla esta desigualdad, que
es aquel que cumple con la igualdad en esta ecuación. Denotemos por zq al cuantil de orden
q de la normal estándar, i.e., Φ(zq ) = q. Entonces, el valor mı́nimo de m para garantizar
credibilidad total o completa es tal que
√
k mE(S)
p ≥ z(1+p)/2
V(S)
y despejando m obtenemos
2
z(1+p)/2 V(S)
m≥
k 2 E2 (S)
180
Las cantidades E(S) y V(S) pueden estimarse por medio de la media y varianza muestral,
respectivamente, usando la información que se tenga a disposición al momento de hacer el
análisis. Substituyendo estos valores en la fórmula se puede conocer una aproximación del
número de periodos m de historial para que S̄ tenga credibilidad completa. Obsérvese que
cuando p crece, es decir, cuando se desea tener una mayor confianza en la estimación de S̄,
entonces el número de periodos de observación m también crece. Si además queremos que
el parámetro k decrezca también, es decir, si se pide que la distancia entre S̄ y E(S) tenga
menor amplitud, entonces m crece. En resumen, si requerimos condiciones muy exigentes a
estos parámetros, el precio que hay que pagar es un mayor número de periodos del historial,
de lo contrario, necesitaremos menos periodos.
Ejemplo
Recordemos que, dado que N es Poisson, entonces el modelo para S es Poisson compuesto.
Con
Encontrar el valor mı́nimo de m, para tener credibilidad total, si p = 0.9 y k = 0.05. Reali-
zando un cálculo simple obtenemos
1.962 λβ 2 Γ 1 + α2
m≥
(0.05)2 λ2 β 2 Γ2 1 + α1
Γ 1 + α2
⇒ λm ≥ 1536.64 2
Γ 1 + α1
181
Observemos que λm representa el total de reclamaciones promedio durante m periodos.
Ejemplo 2
La siguiente tabla corresponde a una muestra de 100 reclamaciones sobre un seguro. Su-
pongamos que la tasa media de reclamación es de 0.015. Calcular el número mı́nimo de
reclamaciones esperadas, ası́ como el tamaño aproximado que deberá tener el portafolio de
experiencia, para asignarle credibilidad total con k = 0.05 y p = 0.9
Tabla
Monto de reclamación Número de reclamaciones
0 − 400 2
400 − 800 24
800 − 1200 32
1200 − 1600 21
1600 − 2000 10
2000 − 2400 6
2400 − 2800 3
2800 − 3200 1
3200 − 3600 1
Ê (N ) = N̄ = 11.11111; V̂ (N ) = 135.1111
Entonces
252853312
m ≥ 1536.64 = 2128.427
13511.112
182
Credibilidad parcial
En muchas ocaciones reales, la experiencia acumulada no es tan grande como para otorgarle
credibilidad total o completa, solamente creibilidad parcial, (Z < 1). Entonces, necesitamos
determinar qué valor habrá que asignarle a Z, para que nuestro estimador S̄ cumpla las mis-
mas condiciones anteriores. Por lo que, en la combinación lineal convexa que determinamos
para estimar S̄, Z S̄ +(1−Z). Procediendo de manera semejante al desarrollo para creibilidad
total, tenemos que
P Z S̄ − E(S) ≤ kE(S) ≥ p
k
P S̄ − E(S) ≤ E(S) ≥ p
Z
Z 2 z(1+p)/2
2
V (S)
m≥
k 2 E2 (S)
de donde obtenemos
√
kE (S) m
Z= p
z(1+p)/2 V (S)
183
Este valor de Z excede el valor de uno para valores suficientemente grandes de m, por lo
tanto se define el factor de credibilidad como
( √ )
kE (S) m
Z = min p ,1
z(1+p)/2 V (S)
Donde N ∼ P oisson(λ) y Xi , sigue una distribución W eibull(α, β), con k=0.05 y p=0.9.
Calculemos la condición de credibilidad parcial para Z S̄ +(1−Z)E(S). En este caso tenemos
que
Γ 1 + α2
⇒ λm ≥ 1536.64 2 1
Z2
Γ 1+ α
√
λmΓ 1 + α1
Z= q
39.2 Γ 1 + α2
√ 1
√ 1
λmΓ 1 + α λmΓ 1 + α
q S̄ + 1 − q E (S)
2 2
39.2 Γ 1 + α 39.2 Γ 1 + α
184
Credibilidad Bayesiana
La estadı́stica Bayesiana consituye una manera natural de incorporar el historial de reclama-
ciones (información) de un grupo de asegurados en el cálculo de las primas. Una aseguradora
que ha tenido mucha experiencia realizando este cálculo, tendrá una estimación más precisa
de estas primas; no obstante, sólo será una estimación que deberá actualizar tan pronto ten-
ga más información a mano. Por el contrario, una nueva aseguradora en el mercado, tendrá
poca o nula información propia en la que basar sus estimaciones, por lo que dicha estimación
será muy incierta y, tal vez, esté basada en la información del mercado o de juicios subjetivos
de especialistas del área, por lo que le resultará de suma importancia actualizarla en cuanto
empiece a acumular información propia.
α+ m
P
i=1 xi α + mS̄
=
β+m β+m
m β α
= S̄ +
β+m β +mβ
α
= Z S̄ + (1 − Z)
β
m
con Z = el factor de credibilidad. Este factor crece de forma monótona a uno cuando
m+β
m tiende a infinito, dando, como es lógico, cada vez más credibilidad a la media muestral S̄,
es decir, a la información individual o de la Cı́a., y menor credibilidad a la media teórica o
poblacional, que representa la información colateral. Además si m tiende a infinito la media
185
de la distribución final o aposteriori converge a la media muestral lı́mite dada por el historial
de reclamaciones; y la varianza de esta tasa, λ, que es
α + mS̄
(m + β)2
converge a cero, lo cual indica que la distribución final se concentra cada vez más alrededor
de su media.
n x
f (x|θ) = θ (1 − θ)n−x , x = 0, 1, ..., n; θ ∈ (0, 1)
x
Bajo el enfoque Bayesiano, debemos asignar una distribución inicial a θ. El hecho de que
su espacio parametral sea (0, 1), nos obliga a buscar una distribución que tenga flexibili-
dad (distintas formas posibles) en este intervalo; una elección que parece conveniente, es la
distribución beta.
186
Diversas formas de la distribución Beta Diversas formas de la distribución Beta
10
8
8
6
a1= 3 , a2= 1
a1= 3 , a2= 0.8
6
Beta
a1= 1.5 , a2= 3 a1= 3 , a2= 0.1
a1= 3 , a2= 3
4
a1= 5 , a2= 3
a1= 7 , a2= 3
4
2
2
0
0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0
x x
θα−1 (1 − θ)β−1
p(θ; α, β) = ; θ ∈ (0, 1), α > 0, β > 0
Beta(α, β)
α
E (θ) = = 0.04, y
α+β
αβ
V (θ) = 2
= 0.022
(α + β + 1)(α + β)
Para encontrar la distribución final de θ dados los datos observados, utilizaremos el teorema
de Bayes para distribuciones. Sabemos que, en este caso, la distribución final también debe
187
ser una Beta, porque es conjugada para la Bernoulli. Por lo que sólo resta ver cómo se ac-
tualizan los parámetros de la Beta inicial (Modelo Beta-Binomial). Entonces
f (x|θ)Beta(θ|α, β)
p(θ|X) = Z 1
f (x|θ)Beta(θ|α, β)dθ
0
θα−1 (1 − θ)β−1
n x
θ (1 − θ)n−x
x Beta (α, β)
= Z 1
n x θα−1 (1 − θ)β−1
θ (1 − θ)n−x dθ
0 x Beta (α, β)
θx+α−1 (1 − θ)n−x+β−1
=
Beta(x + α, n − x + β)
Por lo tanto
p(θ|x) = Beta(x + α, n − x + β)
α+x
E (θ|x) =
α+β+n
n x α+β α
= +
α+β +nn α+β +nα+β
n α+β
= θ̂ + E(θ)
α+β+n α+β+n
que representa la fórmula de credibilidad, donde se combinan la experiencia del sector (co-
lectivo) y la información de la Cı́a. (individual). Con el factor de credibilidad dado por
n
Z=
α+β+n
188
Finalmente, la proporción de fraude actualizada es 0.08294955 y factor de credibilidad
Z = 0.7167431. Para construir un intervalo de probabilidad sobre esta proporción. Debemos
encontrar los lı́mites (l, u), sobre la distribución final de θ, tal que
P (l ≤ θ|x ≤ u) = 1 − q
189
Cálculo Bayesiano de primas de seguros
El uso de las distribuciones iniciales que tienen un carácter evidentemente subjetivo, resulta
de utilidad en el mercado de seguros, sobre todo si se tiene en cuenta que cuando se quiere
tarifar un riesgo nuevo no se dispone de información para ello.
Pj = Z P̂ + (1 − Z) P0
Con
Entonces, desde el punto de vista Bayesiano, esta fórmula de credibilidad puede interpretar-
se como: Podemos considerar P0 como la información inicial o a priori. A P̂ como la nueva
información que se obtiene mediante la observación de la siniestralidad del riesgo j (los datos
recabados; la información recabada) y Pj la actualización del cálculo de la póliza (prima a
posteriori), resultado de combinar la información inicial con la información recabada. Por lo
tanto
190
P rima(a posteriori) = (1 − Z) ∗ Prima a priori + Z ∗ Experiencia dada por los datos
191
Procesos estocásticos
En este apartado haremos una presentación breve de diversos aspectos relacionados a los
procesos estocásticos. Se definiran algunos conceptos y propiedades de ellos, además de pro-
porcionar ejemplos particulares de procesos estocásticos. Estas herramientas serán de gran
utilidad para el estudio de la teorı́a de la ruina y de reservas, que son nuestros objetivos
finales del curso.
Proceso estocástico
Def. Un proceso estocástico es una colección {Xt }t∈T de variables aleatorias indexadas por un
conjunto, T, y definidas en algún espacio de probabilidad (Ω, F , P). Consideramos al con-
junto de ı́ndices, T, como un parámetro temporal, por ejemplo: {0, 1, ..., n}, N, [0, t] ó [0, ∞).
Interpretamos un proceso estocástico como la evolución en el tiempo de algún fenómeno cu-
yo comportamiento lo rige el azar (es aleatorio). Un ejemplo dentro del área actuarial está
determinado por la evolución en el tiempo, de la reserva de una compañı́a de seguros. En
finanzas, por ejemplo, Xt puede representar el precio de una acción bursátil al tiempo, t.
En un contexto más trivial, la cantidad de soles (águilas) acumuladas en una sucesión de
lanzamientos de una moneda (“volados”) también constituye un proceso estocástico.
En el segundo ejemplo, se puede indexar al proceso por algún intervalo de números naturales,
en cuyo caso hablaremos de un proceso estocástico a tiempo discreto. Además, dicho proceso
toma valores en los naturales, por lo que también se trata de un proceso con espacio de esta-
dos discreto. En el primer caso, se puede pensar en un modelo indexado por un subintervalo
de [0, ∞) y hablaremos de un proceso estocástico a tiempo continuo. Además, en principio,
el valor de la reserva podrı́a ser cualquier real no-negativo y por lo tanto hablamos de un
proceso con espacio de estados continuo.
Ejemplos
192
jamás nos ocurre este evento (“sı́, como no” ).
Entonces, nuestro modelo se construye de la siguiente manera. Sean U1 , U2 , ... variables alea-
torias uniformes en (0, 1), independientes. Sea 1Ui ≤1/2 , la variable aleatoria indicadora que
denota si el resultado del i-ésimo lanzamiento fue águila (Ui = 1) y, por tanto, la variable
aleatoria 21Ui ≤1/2 − 1, toma los valores 1 si cae la moneda águila y -1 si cae la moneda sol.
Con estas consideraciones, podemos definir nuestro modelo como
●●
●
●
● ●
●●●
●
●
●● ●
●●●
●● ●
●●● ●
●
●● ●●
●●●
● ●
● ●
●
● ● ● ●
●●●
● ● ●
●● ●●
●
● ●
●● ●
●● ●●
● ● ● ●
●●● ●
●●●
●●●
● ●
●●● ●
●●● ●● ●
● ●
●● ●
●●●
●●● ●●
●●●
●●●
●
●
● ●
●● ● ●●
●● ● ●
● ●●●
● ●
●●●
●● ●●
●●●● ●
●
● ●● ● ●● ●
●●● ●
● ● ●
●● ●
●●●
●● ●
● ●
●● ●
● ● ●
●●●●
●● ● ●● ●
●● ● ●
●●● ●
●●● ●● ● ● ●
● ●●
●●●●●
● ●
●● ●● ●
● ●●
●● ●
● ●● ● ●
●
●● ● ●●
● ●●● ●●
●●●●●●
● ●
●● ●
●●● ● ●● ●
● ●
●●
●
●●●●
● ●
●● ●
● ●
●●●
●●●
●●● ●
● ●
● ●●
●●●
●●● ●
●● ●
●●●
●●
●●●
●● ● ● ●
●●●
●● ● ● ● ● ●● ●
●●●
●●●
●● ●
● ●
●●●●
●
●
● ● ● ●●
●●●●
● ●
●●● ●
●●● ●
●●●● ● ●
●●● ●
●
● ●
●●●●
●●● ●
●●● ●
●●●
●● ● ● ●
●● ●
●
● ●
●● ●
●● ●
●● ● ● ●
●●● ● ●
●●●
60
● ● ●● ●
●●●
●●● ● ● ● ● ●
●●●
● ●
●● ●
●●●
●● ●
●●●
●●●
● ●
● ●
● ●●
●●● ●
● ● ● ● ●
●●
●●● ●
●●● ●
●●●
●●●
●●●●●
●●●●●
●● ●●
●● ● ●
●●●
●●●
● ●
● ● ●
●●●
●● ●
● ●
● ● ●
●●●●
●● ●
● ●●
●● ●●
●●●
●● ●
●●●
●● ● ●
●●●
● ●
●●●
● ● ●
● ●
●● ●
●●●
●●●
●●●
● ●
●
●●● ●
●● ●●
● ●
●● ● ● ●● ●
● ●
●●●
●●●
●●●
●●●
●● ● ● ● ●
●●●
●●● ●●
●● ●
● ●
●●●
●●●●
●●●
● ● ●
●● ● ●
●●● ●
● ●
●●●
●●●
●●● ● ● ●● ●
●●●
● ●
●● ●
●●●
●●
●
●● ● ●●
●●●
●●● ●
●● ●
●● ●
● ●
●●● ● ●
●●●
● ● ●●
● ●
● ●
● ●
●●●●
●●●
●●● ●
●●●
●●●
●●●●
●
●●
●●●
●● ● ● ●
●● ●
●●● ●
●●● ●●● ●
●● ● ● ●
●●● ● ●●
● ●
●●●
●●●●●●
●●●
● ● ●●
● ●
●●●
●●
●
● ●●
●●●
●● ●
● ●
● ● ●
● ●
●●●
● ●●
● ●
●●●
●●● ●● ●
●●● ●● ●
●●●
● ●
●●●
●● ●
●● ●
●● ●
●●●
●●
●
● ●● ●
● ●
●●●
●● ●● ● ● ●
●●● ●
●● ●
●●●
●●●
●● ● ●●
●●●
●●●
●●●●
●●●
●● ● ● ● ●
●●● ●
●● ●
●
●●
●● ●
● ●●●
●●●
●● ● ●
● ●
●● ●●
●●●
●● ●●● ●
●●●●●
● ●●
●●●
●●●
●●● ●
● ●
●●●
● ●
●●●
●
● ●●
●●●
● ● ●● ●●●
● ● ●● ●●● ●
● ●
●● ●
●●●
●●●●
●●● ●
● ●● ●
● ●
●●● ●
●●●●
●● ● ●
●
●
● ●
●●●
●●● ●
● ●
● ●
●● ●
●●●
●● ●●
●●● ●●
●●●●
● ● ●
●●●●
● ●
●● ● ●
●●●
●●● ●
●●●● ●●
●●●
● ● ●
●●●●
● ● ● ●
●●●
● ●●
●●●● ●●● ●● ●
●●●
● ●
●● ● ●●
●● ●●●
●●●
●●●●
●●●
●● ● ●
●●●
●
● ●
● ●
● ●●
●●●● ●
●● ●
● ●● ● ● ●
●● ●●
●●●●
●●●
●● ● ●
● ●
●●●
●●●
● ●
●●● ● ●
●●●● ●
●●●
● ●
● ● ● ● ●
● ●
●● ●
● ●
● ●
●●●
●●● ● ● ●
●●●
●
● ●
●●● ●
●●●
●●●
●●● ●● ● ● ● ●
● ● ●●
●●●
● ●
●●● ●
●●●
●●●
●●● ●● ● ●
●●●
●●
● ● ●●
●●●●● ●●
●● ●
●●● ●
●●●
●●●
●●● ●
●●●
● ●
●●●●
●● ● ●
●●●●
●●●
●●●
● ●
●
●●● ●
● ●●
● ●●
●●●
●● ●
●●●
●●●●
●●●●
●●● ● ●
●●●
●●●
●●●
●● ●
●●●
●●●
●● ●
●
●● ●
●●● ●
●●●
●●● ●
●●●
●●●
●● ●●
●●●●
●● ●● ● ●
40
● ●
●● ● ●●
● ●
●● ●
●● ● ● ●● ●
●●●
● ●● ●
Xn
● ●
●●● ● ● ●
●●●●
●●●
●● ●●
●●●
●● ●●
●
●
●● ●
●● ●●●
●● ●
● ● ● ●
●●●●●
●●●
●●●
●
● ●
●●●● ● ●
● ●
●●●
●●●
●● ●● ●●●
●●●
●● ●
● ●
●●● ●●
●●●
●●●●
●● ● ●
● ●
●●● ●●
●●
●
●● ●●
● ●
●●●
● ●● ● ●●
●●●
●●●●
●
● ●
● ● ●
●●●●
●●● ●●
●●●
●●●
● ●
●●●
●● ●● ● ●
●●
●
●● ●
● ● ●
●●●
●
● ● ●
●●●
●●●●●
●●●
●
●●●
●●●
● ●
●●●
●●●
●●
●
●●● ●
●●●
●●●
●●● ●
●
● ●●
●●●
● ●
●●
●
●●● ●
●●●
●
●●● ●
●●●●
●
● ● ● ●
● ●
●
●
● ●
●●●
●●●
●●●
●● ● ●●●
●● ●
●
●●●
●●●
●●●
●●●●
●●●● ●
● ● ●
●●●
●●● ●●
●●●●
●
●
●● ●
●●●● ● ●
●●● ● ●● ● ●●
●●●
●●●
●●●●
●●●
●●
●
●● ● ● ●
● ●●
●● ● ●
● ●
●●●
●●●●
●●●
●●●
● ●
20
● ●●
●●● ●
●●●
●●●
● ●
●●● ●
●●● ●
●●● ●
●● ● ●●●●
● ●
●
●
●●●
●●● ●●
●●●● ●
●●●
●● ●
●●● ●
●● ●●
● ●
●●●
●●● ●●
●
●
● ●
● ●
● ● ●
●● ●
● ● ●
●● ●●
●●●●●●
●
●
●● ●●
●● ● ●
● ● ●
●● ●
●●●
●●● ●
●
●
●●● ●
●●● ● ●
● ●
● ● ●
●●● ●●
●●● ●
●
●●
●●●
●●● ●
●●●
●● ●
●● ● ●●
●● ●
● ●●
●● ● ●
●
●
●●●
●● ●
●●● ●
●●●
●●●
●● ●●●
●●●
●●●
● ● ●● ●
●● ●
●
●
● ●●
●●●
●●●
●●●
●●●
●●●
●●● ●
●●●
●●● ●
● ●
●●● ●●
● ●●
● ●
●
● ●
● ●
●●●
●●●
● ●
●●●
●●●
●● ● ● ●● ●
●●●●
● ●●
● ●
●● ●
●
● ● ●●
● ●
●● ●
●● ●● ● ●●
●● ● ●
● ●●●
● ●
● ●●●
● ●
●●● ●● ●
● ●
●● ●●
●●● ●
● ●
●●●
● ●
● ●●
●●●
●● ● ●
●●●
● ●
● ●
●●●●●●
●●●
●● ●
●●●
●● ● ● ●●● ●
●
●●●
●●●
●●●● ●●
●●●● ●
●●●
● ●
●●●
●●●
●●●
●●● ●
●●● ●
●●●●
● ●
●
●
●●●
●●●
● ● ●
●●●●●
●●● ●● ●● ●● ● ● ●
●●●
●●● ●
●●
●
●● ● ●●
●●●
●● ●
●● ●●
● ●
●●●
●
●● ●
● ●
● ●
●●
●
●● ●●
● ●
●●
●●
●
●
●●●
●
●
●●●
0
193
Xn
si Xn > 10
2
X0 = 50, y Xn+1 = Xn + 21Un+1 ≤1/2 − 1
2 si X ≤ 10
n
●
40
30
Xn
●
20
●
●
10
● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
0
0 5 10 15 20 25 30
Ejemplo 3. Tiempos de espera. En este caso lo que deseamos modelar es el proceso que ge-
neran los clientes que van llegando en tiempos aleatorios, por ejemplo, a una fila única del
banco, que requieren un servicio cuyo tiempo de atención también es una variable aleatoria.
Lo que deseamos es al caracterizar este proceso es determinar ¿cuánto tiempo debe esperar
un cliente que llega al momento t, para salir del banco?.
El modelo usual para esta situación asume que los tiempos sucesivos entre los arribos de los
clientes, son variables aleatorias exponenciales con parámetro λi . Además, se puede suponer
que los tiempos de servicio son variables aleatorias independientes con distribución común
exponencial, de tasa λs . Se supone que todas las variables involucradas son independientes.
Entonces, la construcción del modelo es como sigue
194
exponenciales independientes de parámetro λs . Con
∞
1Tn ≤t , R0 , Rn+1 = Rn + ξn+1
P
T0 , Tn+1 = Tn + Sn+1 , Nt =
n=1
Xt = RNt − t y Qt = Xt − mı́n Xs
s≤t
Por lo tanto, Qt representa el tiempo de servicio necesario para atender a los clientes que se
encuentran presentes en el banco al tiempo, t, que es nuestro proceso a estudiar.
Trayectoria del proceso de tiempos de espera con tasas iguales de llegada y servicio
50
●
●
●● ● ●
●●
●● ● ●●●
● ●
●● ● ●● ● ●
● ● ● ●
● ●● ● ● ● ●●●●
● ●●
● ●● ● ●
● ●
●
● ●● ●● ●
●
●● ● ● ● ● ●● ●
● ● ● ●●● ●●● ●
● ●● ●● ● ●
40
●
● ●●
●
●● ● ● ●
●
●● ●
●●● ●
● ● ●
● ●●
●
● ● ●●● ●●
● ●
● ● ●
●
● ● ●
●
● ●
● ●●● ●●
● ● ● ● ●●
● ● ● ● ● ●
●● ●
● ●
●
● ● ● ● ●●●
●● ● ● ●
● ● ●
● ● ● ●●
● ●● ●● ●● ●
● ●●
● ● ●●
●●● ● ● ● ●●
● ●
30
●
●●
● ●●●
● ●●
● ●
● ●●
●●
● ●
●
● ●
● ●● ●
●● ● ●
●● ●
Q(t)
●
●
●●
●● ●●
●
●
● ● ●●
● ●
●
●● ● ● ●
● ● ●
20
●
● ● ●●●●● ● ●
● ● ●
● ●
●
●
●●● ● ●
● ● ●●●●
● ●●
●●
●
●
●
●●
● ●
●● ●
●●
● ●
● ● ●● ●● ●●
●●●
● ●● ●
●
● ● ●
● ● ●● ● ●●
● ● ●
● ●
10
●● ● ●
●●
● ●
● ● ● ● ●● ●
●
● ●● ● ●● ●
●● ● ● ●
●
● ● ● ●● ●
●
●
● ●
●● ● ●
●●● ● ● ●●
● ●●
● ●
●
● ●● ●● ●
● ● ● ●● ●
● ● ● ●●
● ● ●
● ● ●●
● ●
● ● ● ●
● ● ●
● ● ● ●
● ●●
● ● ●
●●
●
● ●
● ●●
● ● ●
● ●
● ●● ●
●●
● ● ●
● ●
● ● ●●
●●●●●●●
0
●● ●
●●●
195
Cadenas de Markov a tiempo discreto
Def. Una cadena de Markov con matriz de transición P y distribución inicial π, es un proce-
so estocástico {Xn }n∈N con valores en el espacio de estados, E, tal que si x0 , x1 , ..., xn ∈ E,
entonces
Propiedad de Markov. Sea X una cadena de Markov con matriz de transición P y distribu-
ción inicia π. Si P (X0 = x0 , ..., Xn = xn ) > 0, entonces
Que enuncia que la evolución futura de la cadena sólo depende de su pasado a través del
presente. Enunciado de otra forma
Ejemplo 1 : Caminata aleatoria simple. La caminata aleatoria simple es una cadena de Mar-
kov cuyo espacio de estados es Z y es tal que Pn,n+1 = 1 − Pn,n−1 con p ∈ (0, 1). Este ejemplo
ya lo vimos anteriormente. La gráfica de una trayectoria del proceso obtenidad a través de
simulación es
196
Caminata aleatoria simple
15
10
Xt
5
0
0 20 40 60 80 100
• Si estando en algún estado, se regresa a él sólo en intervalos regulares, la cadena se llama
periódica, de lo contrario se denomina aperiódica.
Z
K(x, y)f (x) = f (y)
• Si una cadena de Markov es irreducible y aperiódica, entonces tiene una única distribución
197
estacionaria.
T
1X
h(Xt ) → Ef [h(X)]
T t=1
lo significa que la ley de los grandes números válida para los métodos Monte Carlo, puede
aplicarse en el contexto de MCMC. (Teorema ergódico).
Veamos un ejemplo simple que genera una cadena de Markov a partir de una matriz de
transición.
• Es bastante fácil que me distraiga del trabajo. Después de cada minuto de trabajo, tengo
sólo una probabilidad de 0.4 de continuar trabajando al minuto siguiente. Con probabilidad
0.6 inicio una navegación por INTERNET.
• Con probabilidad 0.5 regreso a mi trabajo. Con la misma probabilidad, continúo revisando
mi correo electrónico.
198
Mi matriz de transición
Es una matriz de transición de una Cadena de Markov. Todas sus entradas son no negati-
vas y sus renglones suman uno, y cumplirá todas las condiciones de aperiódica, irreducible,
recurrente, etc.?
199
El proceso Poisson
Def. 1 : Un proceso estocástico, {X(t), t ≥ 0}, a tiempo continuo, se dice que es de incre-
mentos independientes si para cada t0 < t1 < · · · < tn , con t0 , t1 , ..., tn ∈ T se tiene que
X(t + s) − X(t)
es la misma ∀s ∈ T .
Def. 3 : Un proceso estocástico a tiempo continuo, {N (t), t ≥ 0}, se dice puntual o de con-
teo, si N (t) representa el número de veces que ocurre un suceso hasta el instante de tiempo, t.
• En particular
N (t) ∈ N, ∀ t ∈ T
200
• Un uso muy frecuente de la distribución de Poisson surge en situaciones en las que los
eventos ocurren a lo largo del tiempo, por ejemplo: ocurrencia de terremotos, personas que
ingresan a un banco, llegadas a un servidor, emisiones de partı́culas por una fuente radiac-
tiva, etc.
Def. 4 : Un proceso de conteo {N (t), t ≥ 0}, se dice de Poisson (homogéneo), con tasa de
intesidad, λ, si
• N (0) = 0
• Es de incrementos independientes
(λt)n e−λt
P (N (t + s) − N (s) = n) = , ∀n ∈ N, ∀s, t > 0
n!
E [N (t)] = E [N (t + 0) − N (0)] = λt
• V [N (t)] = λt
E [N (s + t) − N (s)] = E [N (t)] = λt
201
Trayectoria: Proceso Poisson
30
●
●●
●●
●
●●
●
●●
●●●
25
●●
●
●
●
●●●●
●
●●●
20
●
●●●●
●●
●●●
●●
N(t)
●●
15
●●
●
●●●
●
●●
●
●
●●●
●●
●●
10
● ●
●●
●●●
●●●●
●●●
●●
●
●●●
5
●
●●●●●
●
●
●
●
●
●●●
●
0
0 20 40 60 80
202
Proceso de Poisson no homogéneo (o no estacionario). En muchas situaciones es más realista
suponer que hay más incidencias a ciertas horas (o en ciertos intervalos) que a otras. Para
modelar esta situación, es conveniente la siguiente generalización del Proceso Poisson.
Def. 5 : Decimos que {N (t), t ≥ 0}, es un Proceso Poisson no homogéneo, con tasa de inte-
sidad, λt, si
• N (0) = 0
• Es de incrementos independientes
Z t+s
P (N (t + s) − N (s) = n) = λ(x)dx, ∀s ≥ 0, t > 0
s
• En otras palabras, para cada s ≥ 0 y t > 0 se tiene que N (t + s) − N (s) es una variable
aleatoria Poisson con media
Z t+s
m(t + s) − m(t) = λ(x)dx
s
Z t
m(t) = λ(x)dx
0
203
Esperanza Condicional
Antes de dar una definición formal sobre la esperanza condicional, hagamos una introducción
simple de este concepto.
• Frecuentemente conocemos el valor de otra variable aleatoria Y que está relacionada con
X. En este caso, la mejor predicción del valor de X será la esperanza condicional E[X|Y ].
La esperanza condicional, E[X|Y ], es una nueva variable aleatoria de la forma, g(Y ), que
aproxima X, usando la información sobre v.a. Y.
Ejemplo
Consideremos el experimento de lanzar un dado dos veces. Sean Y y Z los puntajes que
aparecen en el primero y segundo lanzamiento, respectivamente. Sabemos que
6
X 6
X
E [Y ] = xP [Y = y] = 3.5, y E [Z] = zP [Z = z] = 3.5
y=1 z=1
En este caso, la función g es constante como función de y, lo que implica que conocer Y no
sirve para predecir Z o no aporta información sobre Z.
204
Entonces, E [X|Y ] = Y + 3.5 = g(Y ), que es una v.a.
Ostro
Ahora supongamos que lanzamos un dado hasta obtener un seis. Sea Y el número total de
lanzamientos del dado, y X el número de unos observado. Calcular E [Y |X].
1
E [X|Y ] = np = (y − 1)
5
205
Las siguientes definiciones y resultados requieren de un espacio de probabilidad. Entonces
Es F -medible
E[X|F ]dP ∀ B ∈ F
R R
B
XdP = B
2. Si X ≥ 0 ⇒ E[X|F ] ≥ 0
4. Si X ≥ Y ⇒ E[X|F ] ≥ E[Y |F ]
5. E[E[X|F ]] = E[X]
2
R
E[X] := Ω XdP
3
Una v.a. X es integrable si E[|X|] < ∞
206
Y cómo definimos la esperanza condicional dada una variable aleatoria, como las de la in-
troducción, es decir, E[X|Y ]?
E [X|σ (Y )]
• La puerta 3 lo lleva, también, a un tunel que lo regresa a la misma jaula después de tres
dı́as de trayecto.
• Suponemos que si regresa a la jaula, inicia el mismo proceso de nuevo como si hubiera
olvidado sus experiencias pasadas con la elección de las puertas. Entonces
¿Cual es el valor esperado del tiempo que tardará el prisionero, hasta que esté
en libertad?
Sol.
Sea X la v.a. que determina el tiempo hasta que el prisionero consiga la libertad, y Y la v.a.
que determina el número de la puerta elegida inicialmente. Observamos que
• E [X|Y = 1] = 0
• E [X|Y = 2] = 1 + E [X]
• E [X|Y = 3] = 3 + E [X]
207
Ahora, utilizando la propiedad 5 de la esperanza condicional, tenemos
E [X] = E [E [X|Y ]]
1 1 1
= E [X|Y = 1] + E [X|Y = 2] + E [X|Y = 3]
3 3 3
1
= (0 + 1 + E [X] + 3 + E [X])
3
1
= (4 + 2E [X])
3
Ejemplo 2
Sean X1 , X2 , ..., Xn variables aleatorias i.i.d. con esperanza común µ. Definimos la v.a.
Sn = X1 + X2 + · · · + Xn
= X1 + X2 + · · · + Xm + E [Xm+1 + Xm+2 + · · · + Xn ]
= Sm + (n − m) µ
Definición 3 Una filtración es una colección de σ-álgebras {Fn }n≥1 tal que Fm ⊆ Fn ∀
m≤n
208
Definición 5 Una variable aleatoria τ con valores en N ∪ {∞} es un tiempo de paro con
respecto a la filtración {Fn }n≥1 si {τ ≤ n} ∈ Fn ∀ n ∈ N
Equivalentemente {τ = n} ∈ Fn
Que se interpreta como: La ocurrencia del evento “paramos el proceso al tiempo τ = n”,
puede determinarse conociendo sólo los valores de X0 , X1 , ..., Xn , i.e., no se requiere conocer
los valores Xn+1 , Xn+2 , ....
Ejemplo
Supongamos que {Xn } es una cadena de Markov que representa nuestro capital en dólares,
después de haber jugado n veces. Podemos pensar en ganar apostando en un casino, y parar
de apostar (jugar) cuando alcancemos una suma deseada, digamos, m dólares.
El tiempo aleatorio, τ , en el que por primera vez acumulamos m dólares es un tiempo de paro:
209
Martingalas
Definición 6 Un proceso estocástico {Xn } es una {Fn }-martingala si
1. Xn es integrable ∀ n ≥ 1
3. E[Xn+1 |Fn ] = Xn ∀ n ≥ 1
Implicaciones:
1. E[Xm |Fn ] = Xn ∀ m ≥ n
⇒ E[Xn ] = E[Xm ] ∀ m ≥ n
1. Xn es integrable ∀ n ≥ 1
3. E[Xn+1 |Fn ] ≥ Xn ∀ n ≥ 1
1. Xn es integrable ∀ n ≥ 1
3. E[Xn+1 |Fn ] ≤ Xn ∀ n ≥ 1
Ejemplos
210
n
X
Mn = Xi , una caminata aleatoria
i=0
ya que
= Mn + E [Xn+1 ]
Ejemplo 2
n
Y
Mn = Xi
i=0
ya que
= Mn ∗ E [Xn+1 ]
Ejemplo 3
n
1 Y 1
Mn = n Xi = Xn ∗ Mn−1
µ i=0 µ
211
Entonces, {Mn , n ≥ 0} es una martingala.
Dado que
Xn+1
E [Mn+1 |M0 , M1 , ..., Mn ] = E Mn ∗ |M0 , M1 , ..., Mn
µ
Mn
= ∗ E [Xn+1 |M0 , M1 , ..., Mn ]
µ
Mn
= ∗ E [Xn+1 ]
µ
Mn
= ∗ µ = Mn
µ
Suponga que X1 , X2 , ..., Xn son variables aleatorias iid con función de densidad común, f,
que es cualquiera de dos diferentes densidades posibles, f0 o f1 . Desde el punto de vista es-
tadı́stico, deseamos elegir entre estas dos densidades aquella que generó los datos observados
x1 , x2 , ..., xn . Por lo tanto, planteamos el problema de contraste de hipótesis
H0 : f = f0 vs. Ha : f = f1
n
Y f1 (xi )
Λn =
f (xi )
i=1 0
Si Λn es grande, entonces los datos dan soporte a favor de la hipótesis alternativa, y contra
la hipótesis nula, por lo que la decisión es rechazar esta última, y concluimos que la densidad
que generó los datos observados es f1 . Supongamos ahora que la hipótesis nula es cierta, i.e.,
que los datos observados fueron generados por f0 . Entonces
212
f1 (xn+1 )
Ef0 [Λn+1 |Λ1 , ..., Λn ] = Ef0 Λn |Λ1 , ..., Λn
f0 (xn+1 )
f1 (xn+1 )
= Λ n E f0 |Λ1 , ..., Λn
f0 (xn+1 )
f1 (xn+1 )
= Λn Ef0 (¿por qué?)
f0 (xn+1 )
Z
f1 (x)
= Λn f0 (x)dx
R f0 (x)
= Λn × 1 = Λn
213
Teoremas de paro
Entre las razones por las cuales las martingalas son importantes, se encuentran los teoremas
de convergencia de martingalas, que bajo ciertas condiciones de acotamiento nos permiten
concluir la convergencia casi segura (o de otro tipo) de una martingala. Para abordar este
resultado, es importante extender la igualdad E (Xn ) = E (X0 ) para abarcar no sólo a tiempos
deterministas como n, sino también a ciertos tiempos aleatorios. Entonces, nuestro objetivo
es observar a la martingala a un tiempo que a su vez es una variable aleatoria. En realidad,
trabajaremos con una clase más reducida de tiempos aleatorios, a saber, los tiempos de paro.
Recuperemos nuestra definición de tiempo de paro.
Definición 9 Una variable aleatoria τ con valores en N ∪ {∞} es un tiempo de paro con
respecto a la filtración {Fn }n≥1 si {τ ≤ n} ∈ Fn ∀ n ∈ N
Equivalentemente {τ = n} ∈ Fn
Que mencionamos se interpreta como: La ocurrencia del evento “paramos el proceso al tiem-
po τ = n”, puede determinarse conociendo sólo los valores de X0 , X1 , ..., Xn , i.e., no se
requiere conocer los valores Xn+1 , Xn+2 , ....
⇒ E[Xτ ] = E[Xn ] ∀ n ≥ 1
214
Demostración. Como τ es acotado entonces ∃ n0 ∈ N tal que τ ≤ n0 por lo que
" n0
#
X
E [Xτ ] = E 1{τ =n} Xn
n=1
n0
X
= E 1{τ =n} Xn
n=1
n0
X
= E E(Xn0 |Fn )1{τ =n} ya que {Xn } es martingala
n=1
n0
X
E E(1{τ =n} Xn0 |Fn ) pues 1{τ =n} es Fn − medible
=
n=1
n0
X
= E Xn0 1{τ =n}
n=1
= E [Xn0 ]
1. E [|Xτ |] < ∞
2. lı́mn→∞ E Xn 1{τ >n} = 0
⇒ E [Xτ ] = E [Xn ] ∀ n ≥ 1
215
Ahora, nótese que |Xτ 1{τ ≤n} | ≤ |Xτ | ∀n ⇒ E[|Xτ 1{τ ≤n} |] ≤ E[|Xτ |] < ∞
además, por ser τ < ∞ casi seguramente, se tiene que lı́mn→∞ Xτ 1{τ ≤n} = Xτ , entonces por
el teo. de convergencia dominada lı́mn→∞ E[Xτ 1{τ ≤n} ] = E[Xτ ]
⇒ E[Xτ ] = E[Xn ] ∀ n ≥ 1
1. E[τ ] < ∞
⇒ E[Xτ ] = E[Xn ] ∀ n ≥ 1
τ
X ∞
X
⇒ |Xτ | ≤ W := Zk = Zk 1{τ ≥k}
k=1 k=1
Además,
∞
X
E[W ] = E[|X1 |] + E[Zk 1{τ ≥k} ]
k=2
∞
X
= E[|X1 |] + E[E(Zk 1{τ ≥k} |Fk−1 )]
k=2
216
Como {τ ≤ k − 1} ∈ Fk−1 ⇒ {τ > k − 1} = {τ ≥ k} ∈ Fk−1 , entonces
∞
X
E[W ] = E[|X1 |] + E[1{τ ≥k} E(Zk |Fk−1 )]
k=2
∞
X
≤ E[|X1 |] + cP(τ ≥ k)
k=2
∞
X
≤ E[|X1 |] + c P(τ ≥ k) − 2c
k=0
∞
!
X
= E[|X1 |] + c P(τ = k) + P(τ > k) − 2c
k=0
Pn
Consideremos la caminata aletoria {Sn }n∈N , Sn = k=1 XK , donde {Xk } son variables
aleatorias independientes e identicamente distribuidas tales que E[|Xk |] < ∞ ∀k. Sea Fn =
σ{X1 , ..., Xn }. Si τ es un {Fn }-tiempo de paro tal que E[τ ] < ∞
217
Obsérvese que
≤ E[ |X| ] + E[ |X| ]
218
Procesos asociados a la teorı́a de ruina
• Hasta aquı́ hemos visto al modelo de pérdidas agregadas
N
X
S= Xi
i=1
• Ahora haremos la extensión para tratarlo como dependiente del tiempo. Es decir
N (t)
X
S(t) = Xi
i=1
donde N (t) denota el número de reclamaciones que ocurren antes del tiempo, t.
Utilizaremos este modelo dependiente del tiempo para describir el flujo de dinero de una
aseguradora, y determinar caracterı́sticas de la probabilidad de ruina, tanto a corto como a
largo plazo.
Notación
Denotaremos por
Entonces
• {Xi }∞
i=1 es una sucesión de variables aleatorias.
219
• {S(t)}t≥0 es un proceso estocástico
Es obvio que
N (t)
X
S(t) = Xi
i=1
• Supondremos que estos pagos se reciben a una tasa constante de forma continua. Sea c > 0
esta tasa de pagos por unidad de tiempo. Ya que el total de primas se recibe en el intervalo
de tiempo [0, t], entonces, este total es ct.
• La aseguradora necesita este capital inicial, porque el ingreso futuro por primas, podrı́a no
ser suficiente para cubrir las reclamaciones futuras.
N (t)
X
U (t) = U + ct − Xi , ó
i=1
U (t) = U + ct − S(t)
220
con U (0) = U .
• Nótese que el capital inicial y el monto total de las primas, no son variables aleatorias, ya
que se determinan antes de que el proceso de riesgo inicie.
• Para un valor dado de t, U(t) es una variable aleatoria, ya que S(t) lo es.
• El proceso estocástico
{U (t)}t≥0
• Nuevamente de forma vaga, la ruina puede ocurrir cuando la aseguradora se declara insol-
vente, no obstante, determinar si una compañı́a de seguros es insolvente es, en la práctica,
una cuestión muy compleja.
• Otra manera de ver esta probabilidad de ruina, es pensarla como la posibilidad de que,
en algún tiempo futuro, la compañı́a aseguradora requiera prover más capital para financiar
este particular portafolio.
Probabilidades de ruina
• Definimos las siguientes dos probabilidades
221
• Ψ (U, t) es la probabilidad de ruina antes del tiempo, t (horizonte finito), dado el capital
inicial, U.
Enunciamos algunas importantes relaciones lógicas entre estas dos probabilidades. Sean
0 < t1 < t2 < ∞ y U1 < U2 , entonces
1. Ψ (U2 , t) ≤ Ψ (U1 , t)
Ψ (U2 ) ≤ Ψ (U1 )
Es decir, a un capital inicial mayor, es menos creible que la ruina ocurra ya sea en
horizonte finito o infinito.
2. Ψ (U, t1 ) ≤ Ψ (U, t2 ) ≤ Ψ (U )
3. lı́m Ψ (U, t) = Ψ (U )
t→∞
4. lı́m Ψ (U, t) = 0
U →∞
• En la práctica puede ser posible, y aun deseable, hacer el seguimiento de ruina sólo a
intervalos discretos de tiempo.
222
• Supongamos que los intervalos son de longitud h. Entonces, definimos las siguientes pro-
babilidades de ruina a tiempo discreto
Nótese que se supone, por conveniencia en la definición de Ψh (U, t), que t es un entero
múltiplo de h.
223
El modelo clásico de Camér-Lundberg
El modelo de Cramér-Lundberg, tiene sus orı́genes en la tesis doctoral de Filip Lundberg
que defendió en el año de 1903. En este trabajo, Lundberg analiza el reaseguro de riesgos
colectivos y presenta el proceso de Poisson compuesto. Lundberg utilizó términos un tanto
distintos a los actuales pues en aquellos años aún no se habı́a formalizado la teorı́a de los
procesos estocásticos como la entendemos actualmente. En 1930, Harald Cramér retoma las
ideas originales de Lundberg, y las pone en el contexto de los procesos estocásticos, en ese
entonces, de reciente creación. El modelo se ha estudiado de manera extensa, y se han pro-
puesto varias formas de generalizarlo y analizado.
Este modelo clásico de riesgo para la actividad de una compañı́a de seguros, es el proceso
estocástico a tiempo continuo {U (t), t ≥ 0}, definido por
N (t)
X
U (t) = U + ct − Xi , t ≥ 0
t=1
con U el capital inicial de la compañı́a aseguradora, ct es el ingreso por primas hasta el tiem-
po, t, con c una constante positiva; Xi es el monto de la i-ésima reclamación, y {N (t), t ≥ 0}
un proceso Poisson de parámetro, λ.
La variable U (t) representa el balance más simple de ingresos menos egresos de una compañı́a
aseguradora. Al proceso, {U (t), t ≥ 0}, se le llama proceso de riesgo (risk process), o pro-
ceso de superávit (surplus process), y tiene trayectorias como se muestra en la siguiente figura
224
Trayectoria del proceso de ruina
60
40
U(t)
20
0
τ
−20
2 4 6 8 10
tiempo
• Las variables aleatorias Xi , i = 1, 2, ... son i.i.d., con función generadora de momentos
MX (t), E (X) = µ1 = µ y E (X 2 ) = µ2
• E [U (t)], es
N (t)
X
E [U (t)] = E U + ct − Xi
t=1
= U + ct − E [N (t)] E (Xi )
= U + ct − λtµ = U + (c − λµ) t
|{z}
∗
N (t)
X
* ya que Xi es un Poisson compuesto, con intensidad λt.
t=1
225
• V [U (t)] = λµ2 t Por el mismo argumento anterior.
La “trayectoria promedio”de este proceso de riesgo es la lı́nea recta que inicia en U > 0 y
tiene pendiente c − λµ, que es positiva por la condición o hipótesis de ganancia neta (enun-
ciada posteriormente). La variable aleatoria U (t) puede interpretarse como el capital de la
compañı́a aseguradora al tiempo, t, y por razones naturales y legales es importante que U (t)
esté por arriba de cierto nivel mı́nimo. Supongamos que tal nivel mı́nimo es a, con 0 < a < U .
Ajustando el capital inicial, U, esto es, suponiendo un nuevo capital inicial de magnitud U −a,
se puede suponer, sin pérdida de generalidad, que este nivel mı́nimo es cero, y ası́ lo haremos
en nuestro análisis. De esta forma cuando U (t) ≤ 0 para algún t > 0 se dice que hay ruina. La
ruina casi nunca sucede en la práctica, es solamente un término técnico que produce alguna
toma de decisión. Por ejemplo, si el capital de una compañı́a aseguradora asignado a una
cartera decrece en forma significativa, automáticamente la aseguradora puede tomar ciertas
medidas para subsanar esta situación y no se trata de un evento insalvable. Por otro lado,
es natural suponer que la compañı́a aseguradora posea varios portafolios de modo que rui-
na en uno de ellos no significa necesariamente bancarrota que el término ruina podrı́a sugerir.
Sean T0 , T1 , T2 , ... los tiempos aleatorios en donde la aseguradora recibe las reclamacio-
nes. Supondremos T0 = 0. Para cada entero k ≥ 1 definamos la variable aleatoria Yk =
c (Tk − Tk−1 ) − Xk , que pueden interpretarse como el balance de la compañı́a aseguradora
entre dos siniestros sucesivos. La esperanza de esta variable es
1
E (Yk ) = cE (Tk − Tk−1 ) − E (Xk ) = c −µ
λ
Se puede demostrar que la ruina ocurre casi seguramente si, y sólo si, E (Yk ) ≤ 0. Como no
deseamos que la ruina ocurra, debemos suponer que E (Yk ) > 0, es decir, supondremos que
se tiene la condición de ganancia neta
c > λµ
Que interpretamos de la siguiente forma: en promedio, la entrada por primas por unidad de
tiempo, c, es mayor que el total de reclamaciones por unidad de tiempo, λµ.
226
Probabilidades de ruina con el modelo Carmér-Lundberg
Nos interesa calcular o estimar la probabilidad de una eventual ruina (horizonte infinito) en
el modelo de Cramér-Lundberg.
Definamos el tiempo de ruina, τ , como el primer momento en que la ruina se presenta, es deir
y se define inf ∅ = ∞. Por lo que τ es una variable aleatoria que toma valores en el intervalo
(0, ∞]. Recordemos que, dado un valor, t > 0 fijo, habı́amos definido la probabilidad de ruina
en el intervalo (0, t], llamada probabilidad de ruina a horizonte finito, como
Z U
d λ
1.- Ψ̄ (U ) = Ψ̄ (U ) − Ψ̄ (U − y) f (y)dy
dU c 0
λµ
2.- Ψ (0) =
c
227
Z ∞ Z U
λ
3.- Ψ (U ) = F̄ (y) + Ψ (U − y) F̄ (y)dy
c U 0
Dem.
Z ∞ Z U +ct
−λt
= λe P (No ruina en (0, ∞)|U (0) = U, Y1 = y, T1 = t) f (y)dydt
0 0
Z ∞ Z U +ct
−λt
=
|{z} λe Ψ̄ (U + ct − y) f (y)dydt
∗∗ 0 0
** Ya que, por el punto * este es un valor de U para el que la ruina no se presenta, por lo
tanto, lo que se presenta es el complemento de Ψ(U ), es decir, Ψ̄ (U ). Si hacemos el cambio
de variable: s = U + ct, que implica t = (s − U ) /c y ds = cdt, tenemos que
Z ∞ Z s
λ −λs/c
Ψ̄ (U ) = eλU/c e Ψ̄ (s − y) f (y)dyds
c U 0
Derivando esta expresión respecto a U, utilizando el teorema fundamental del cálculo, obte-
nemos la relación deseada.
228
Para derivar el segundo inciso, integramos en el intervalo [0, U ], la expresión en 1. Y obte-
nemos
Z U Z U Z U Z x
d λ
Ψ̄ (s) = Ψ̄ (U ) − Ψ̄ (0) = Ψ̄ (x) − Ψ̄ (x − y) dF (y)dx
0 ds c 0 0 0
Z U Z U Z U
λ
= Ψ̄ (x) − Ψ̄ (x − y) dxdF (y) (x − y > 0 ⇒ x > y )
c 0 0 y
Z U Z U Z U −y
λ
=
|{z} c Ψ̄ (x) − Ψ̄ (x) dxdF (y)
∗ 0 0 0
Z U Z U Z U −x
λ
= Ψ̄ (x) − Ψ̄ (x) dF (y)dx
c 0 0 0
Z U Z U U −x
λ
= Ψ̄ (x) − Ψ̄ (x) F (y) dx
c 0 0 0
Z U
λ
= Ψ̄(x) [1 − F (U − x)] dx
c 0
Z U
λ
= Ψ̄ (x) F̄ (U − x)dx
c 0
Z U
λ
= Ψ̄ (U − x) F̄ (x)dx · · · (1)
c 0
Z U
λ
= Ψ̄ (U − x) F̄ (x)1[0,U ] (x)dx
c 0
* Ya que si x=y, entonces, el lı́mite inferior de la integral es cero y si x=U, el lı́mite superior
es u-y.
Ahora, sólo resta tomar lı́mite cuando U → ∞. En el lado derecho de la igualdad tenemos
lı́m Ψ̄ (U ) − Ψ̄ (0) = 1 − Ψ̄ (0) (Ya que si U → ∞ entonces la ruina ocurre con probabili-
U →∞
dad uno). En el lado izquierdo ocurre que Ψ̄ (U − x) es una función monótona creciente que
converge a uno, entonces, esta integral converge a la integral
Z ∞ Z ∞
F̄ (x)dx = [1 − F (x)] dx
0 0
229
Y recordando que
Z ∞ Z ∞
E (X) = F̄ (x)dx = [1 − F (x)] dx = µ
0 0
λµ
1 − Ψ̄ (0) =
c
por lo que
λµ
Ψ (0) = 1 − Ψ̄ (0) = · · · (2)
c
Para probar el último inciso, usaremos los resultados (1) y (2), de la siguiente forma
Z U
λ
= Ψ̄ (U ) − Ψ̄ (0)
Ψ̄ (U − x) F̄ (x)dx |{z}
c 0 1
= 1 − Ψ (U ) − Ψ̄ (0)
λµ
= − Ψ (U )
|{z} c
2
Entonces
230
Z U
λ
Ψ (U ) = µ− Ψ̄ (U − x) F̄ (x)dx
c 0
Z U
λ
= µ− (1 − Ψ (U − x)) F̄ (x)dx
c 0
Z U Z U
λ
= µ− F̄ (x)dx + Ψ (U − x) F̄ (x)dx
c 0 0
Z ∞ Z U Z U
λ
= F̄ (x)dx − F̄ (x)dx + Ψ (U − x) F̄ (x)dx
c 0 0 0
Z ∞ Z U
λ
= F̄ (x)dx + Ψ (U − x) F̄ (x)dx
c U 0
Obsérvese que la última expresión corresponde a una forma recursiva para encontrar la pro-
babilidad de ruina. En general no es fácil resolver este tipo de ecuaciones, de modo que
únicamente nos limitaremos a encontrar algunas estimaciones de las mismas. Sin embargo,
cuando las reclamaciones tienen distribución exponencial el sistema es soluble como se mues-
tra a continuación.
1
En este caso, sabemos que E (X) = . Entonces, la probabilidad de no ruina es
α
Z u
0 λ −λu αy
Ψ̄ (u) = Ψ̄ (u) − e Ψ̄(y)αe dy
c 0
00 λ 0
Ψ̄ (u) = − α Ψ̄ (u)
c
cuya solución es
Ψ (u) = a + be−(α−λ/c)u
231
λ
Utilizando las condiciones iniciales Ψ (0) = (observemos aquı́ que la media de la expo-
αc
nencial es α1 , no µ como la habı́amos denotado antes) y Ψ (∞) = 0 (recordar que si el capital
inicial U es infinito, la ruina jamás se presenta). Estas dos condiciones iniciales generan el
sistema de ecuaciones
λ
= a+b
αc
0 = a
λ
que tiene la solución: a = 0 y b = αc
. Por lo que la solución queda como
λ −(α−λ/c)u
Ψ (u) = e
αc
cuya gráfica se encuentra en la siguiente figura. Observe que debido a la condición de ganan-
λ
cia neta, el exponente − α − es negativo, y por lo tanto la probabilidad de ruina decae
c
a cero exponencialmente cuando el capital inicial, U, crece a infinito.
232
Gráfica probabilidad de ruina exponencial
10
λ cα
8
Ψ(u)
6
4
2
0
233
Coeficiente de ajuste
Una aproximación para la probabilidad de ruina bajo el estudio de un horizonte infinito, es
la que proporciona el coeficiente de ajuste de Lundberg. Se trata de un instrumento útil para
conseguir lı́mites para la probabilidad de ruina. Para eso es preciso definir previamente el
Coeficiente de Ajuste. Definamos primero la función
con MY (r) la función generadora de momentos de Y . Por supuesto, esta función está defi-
nida para los valores de r en donde MY (r) existe. Entonces, suponiendo que esta función es
diferenciable, tenemos que
0 0
• θ (r) = λMY (r) − c
00 00
• θ (r) = λMY (r) = λE Y 2 erY > 0
Por lo tanto, es una función estrictamente convexa, con θ(0) = 0. Y por la condición de
ganancia neta, (c > λµ), se tiene que
0
θ (0) = λMY (0) − c = λµ − c < 0. Entonces, es posible que exista un valor R > 0 tal que
θ(R) = 0. Obsérvese la siguiente figura
234
Gráfica coeficiente de ajuste
6
4
θ(r)
2
0
−2
235
Def. A la posible solución, R > 0, de la siguiente ecuación se le llama coeficiente de ajuste,
o exponente de Lundberg.
λ
Por lo que θ(r) = 0 ⇒ r = 0, o − c = 0. Esta segunda ecuación implica
α−r
λ
R=r =α−
c
Más aún, recordando el resultado que obtuvimos al calcular la probabilidad de ruina cuando
los montos de reclamación eran exponenciales, esta probabilidad de ruina puede escribirse
de la siguiente forma
236
λ −(α−λ/c)u λ −Ru
Ψ (u) = e = e ≤ e−Ru
αc αc
1 λ
c > λµ, en este caso c > λ ⇒ cα > λ y <1
α cα
Este tipo de cota superior para la probabilidad de ruina (llamada desigualdad de Lundberg)
la demostremos más adelante, para cualquier distribución de las reclamaciones para la que
el coeficiente de ajuste exista.
γ
α
MY (r) = , r<α
α−r
Por lo que
γ
α
θ(r) = λ − 1 − cr
α−r
√
2αc − λ ± λ2 + 4αcλ
r=
2c
El caso con raı́z cuadrada positiva no es válido pues resulta r > α. En efecto, utilizando la
2λ
condición de ganancia neta, c > , tenemos
α
237
√ √
2αc − λ + λ2 + 4αcλ 2αc − λ + λ2 + 8λ2
≥
2c 2c
λ
= α+
c
> α
La raı́z, r, que buscamos es tal que por condiciones de existencia de la función generadora
de momentos debe satisfacer 0 < r < α. Para ilustrar el cálculo con R de la solución de esta
ecuación, tomaremos α = 3, λ = 1 y c=2. Estos valores aseguran que se cumple la condición
3λ
de ganancia neta: c > .
α
238
Gráfica coeficiente de ajuste gamma
100
80
60
40
θ(r)
20
R
0
−20
0 1 2 3 4 5
iter [1]10
estim.prec [1]6.103516e − 05
Proposición. La ecuación θ(r) = λ (MX (r) − 1) − cr = 0 tiene una posible solución r > 0 si,
y sólo si, se cumple la identidad
239
Z ∞
c
erx F̄ (x)dx =
0 λ
Dem
Recordemos que la función generadora de momentos de una v.a. X, se define como
Z ∞ Z ∞ Z ∞
rx rx
MX (r) = e f (x)dx = e dF (x)dx = − erx dF̄ (x)dx
0 0 0
Z ∞ ∞ Z ∞
rx rx rx
e dF (x)dx = − e F̄ (x) − re F̄ (x)dx
0 0 0
∞
rx
Ya que por hipótesis la función generadora de momentos existe, entonces e F̄ (x) = 0 y
erx F̄ (x) = 1 (esto implica que el decaimiento en las colas de la distribución de F(x), es
0
Z ∞ Z ∞
rx rx
e dF (x)dx = − −1 − re F̄ (x)dx
0 0
Por lo tanto
Z ∞ Z ∞
rx
e dF (x)dx = 1 + rerx F̄ (x)dx
0 0
Ahora, ya que
240
0 = θ(r)
= λ (MX (r) − 1) − cr
Z ∞
rx
= λ e dF (x)dx − 1 − cr
0
Z ∞
= λr erx dF̄ (x)dx − cr (despejando del resultado anterior)
0
Z ∞
c
erx dF̄ (x)dx =
0 λ
Ejemplo Usaremos este criterio para demostrar que para la distribución Weibull existe el
coeficiente de ajuste, si el parámetro de forma, γ ≥ 1. En este caso tenemos que
γ
• F̄ = e−(λt)
Entonces
Z ∞ Z ∞
γ
rx
e dF̄ (x)dx = erx e−(λx) dx
0 0
Z ∞
γ
= erx−(λx) dx
0
Ejemplo 2. Veamos qué pasa con la distribución Burr y este coeficiente. Esta variable tiene
función de distribución dada por
α
k
F (x) = 1 − , x ≥ 0, α > 0, β > 0
k + xβ
241
α
k
Por lo que F̄ (x) = . Entonces
k + xβ
Z ∞ Z ∞ α
rx rx k
e dF̄ (x)dx = e dx
0 0 k + xβ
Z ∞
≈ erx x−βα dx = ∞
0
Comentamos en el desarrollo de este coeficiente de ajuste que, para que exista, la cola de la
distribución, F , debe decaer a cero lo suficientemente rápido para anular el comportamiento
creciente del término, erx dentro de la integral. En el ejemplo de la distribución Burr, la cola
decae a cero en la forma, x−βα que resulta insuficiente para hacer que la integral sea finita.
Una distribución con cola ligera asigna probabilidades muy pequeñas a los valores grandes de
la variable aleatoria. Esto puede representar un inconveniente para modelar algunos riesgos
que pudieran registrar grandes montos en las reclamaciones.
Desigualdad de Lundberg
Vamos a demostrar ahora que para aquellas distribuciones para las cuales el coeficiente de
ajuste, R, existe, se cumple la desigualdad Ψ(u) < e−Ru . Para demostrar este resultado ha-
remos uso de la teorı́a de martingalas.
Proposición. Sea {U (t)} el proceso de riesgo, y sea θ(r) = λ (MX (r) − 1) − cr. Entonces, el
proceso e−rU (t)−θ(r)t : t ≥ 0 es una martingala.
E (Mt |Fs ) = Ms
242
Dem. Que el proceso es adaptable es claro pues, implı́citamente, estamos usando la filtración
natural, Ft = σ {Xs : 0 ≤ s ≤ t}.
PN (t)
−rU (t)−θ(r)t
−θ(r)t −r u+ct− j=1 Yj
E e = e E e
PN (t)
= e−θ(r)t−r(u+ct) E er j=1 Yj
* Ya que −θ(r)t = −λt (MY (r) − 1)+crt. Entonces, el exponente de la función exponencial es
Y para demostrar que se cumple la propiedad de martingala: E (Mt |Fs ) = Ms . Para 0 ≤ s < t
PN (t)
= e−θ(r)t−rU (s) E e−r(c(t−s)− j=N (s)+1 Yj ) |Fs
PN (t)
= e−θ(r)t−rU (s)−rc(t−s) E er j=N (s)+1 Yj |Fs
PN (t−s)
= e−θ(r)t−rU (s)−rc(t−s) E er j=1 Yj |Fs
243
En particular, si el coeficiente de ajuste existe, es decir, si θ(R) = 0, entonces el proceso,
−RU (t)
e es una martingala. Este es el resultado clave para demostrar la siguiente cota su-
perior para la probabilidad de ruina.
Ψ(u) ≤ e−Ru
N (t)
X
−Ru
martingala, que inicia en e , ya que U (t) = u + ct − Yj ⇒ U (0) = u entonces el
j=1
−RU (t∧τ )
, inicia en e−Ru . Por lo tanto
proceso, e
= E e−RU (t∧τ ) |τ ≤ t P (τ ≤ t)
≥ E e−RU (t∧τ ) |τ ≤ t P (τ ≤ t)
= E e−RU (τ ) |τ ≤ t P (τ ≤ t)
Z
−RU (τ )
= e 1τ ≤t dP P (τ ≤ t)
244
e−Ru ≥ E e−RU (τ ) |τ < ∞ P (τ < ∞)
= P (τ < ∞)
= Ψ(u)
Ψ(u) ≤ e−Ru
Desigualdad de Liundberg
1.0
e−Ru
0.8
0.6
Ψ(u)
0.4
0.2
0.0
0 2 4 6 8 10
• Lo primero que hay que hacer es calcular R. Recordemos que para este caso
λ 2
R=α− =1− = 0.1666667
c 2.4
245
Por lo que la desigualdad de Lundber es
Ψ(u) ≤ e−0.1666667∗u
El cálculo con R es
adjCoef (mgf.claim = mgf exp(x), mgf.wait = mgf exp(x, 2), premium.rate = 2.4, upper =
1)
[1]0.1666667
adjCoef (mgf.claim = mgf gamma(x, 3, 3), mgf.wait = mgf exp(x, 1), premium.rate =
2, upper = 1)
[1]0.8404738
246
Cotas para el coeficiente de ajuste
Como hemos visto, el coeficiente de ajuste no siempre existe, y aún cuando conozcamos su
existencia no siempre es fácil calcularlo. El siguiente resultado proporciona algunas cotas
para el valor de este coeficiente, suponiendo su existencia.
1 c 2 (c − λµ)
ln <R<
M λµ λµ2
Demostración para la cota superior. Consideremos nuevamente la función θ(r) = λ (MX (r) − 1)−
cr, para r ≥ 0. Sabemos que θ(0) = 0. Derivando dos veces esta función tenemos
0 0
θ (r) = λMY (r) − c
00
θ (r) = λE Y 2 erY > λE (Y 2 ) = λµ2
0
De donde tenemos que θ (0) = λµ − c. Además, utilizando el teorema fundamental del cálcu-
lo, tenemos que
Z r
00 0 0
θ (s)ds = θ (r) − θ (0)
0
Z r Z r
0 0 00
⇒ θ (r) = θ (0) + θ (s)ds > λµ − c + λµ2 dr = λµ − c + λµ2 r
0 0
t
r2
Z
0
θ(r) = θ(0) + θ (s)ds > (λµ − c) t + λµ2
0 2
R2
R
0 > (λµ − c) R + λµ2 = (λµ − c) + λµ2 R
2 2
247
Ya que R > 0, entonces, para que la expresión en la derecha de la desigualdad sea negativa,
debe suceder que
R 2 (c − λµ)
(λµ − c) + λµ2 <0⇒R<
2 λµ2
x RM
− 1 − eRx − 1
h(x) = e
M
00
Entonces, tenemos que h (x) = −R2 eRx < 0. Por lo tanto, h, es cóncava, con h(0) = h(M ) =
0, que implica que h(x) > 0 para x ∈ (0, M ). Es decir
x RM
− 1 − eRx − 1 > 0
e
M
equivalentemente
x RM
eRx − 1 <
e −1 · · · (1)
M
0
Ahora, consideremos la función g(x) = xex − ex + 1. Entonces tenemos que g (x) = xex > 0.
Por lo tanto, g(x) es creciente, y g(x) > g(0) = 0. Es decir g(x) = xex − ex + 1 > 0, si x > 0.
Si evaluamos esta función en x = RM > 0, tenemos g(x) = RM eRM −eRM +1 > 0. Por lo que
eRM − 1
< eRM
RM
248
Z M
eRx − 1 dF (x)
MY (R) − 1 =
0
Z M
x RM
≤ e − 1 dF (x)
|{z} 0 M
(1)
Z M
1 RM
= e −1 xdF (x)
M 0
µ RM
= e −1 · · · (2)
M
0 = λ (MY (R) − 1) − cR
λµ RM
≤ e − 1 − cR
|{z} M
(2)
< λµReRM − cR
|{z}
(1)
λµ λµeRM − c R
=
1 c
ln <R
M λµ
Obsérvese que la cota superior no requiere de hipótesis adicionales, de modo que cuando el
2 (c − λµ)
coeficiente de ajuste, R, existe, éste se encuentra siempre dentro del intervalo 0, .
λµ2
Observe también que cuando las reclamaciones están acotadas superiormente por una cons-
tante positiva, M, puede encontrarse una cota superior para la probabilidad de ruina sin
conocer, necesariamente, el coeficiente de ajuste pues
u
Mu
−Ru u
−M c
ln( λµ ) ln( λµ
c )
M λµ
Ψ(u) < e < e =e =
|{z} c
∗
249
*Multiplicando la cota superior por -u.
250
Aproximaciones al modelo de Carmér-Lundberg
Aproximación de De Vylder
N (t)
X
U (t) = U + ct − Yj
j=1
N (t)
e
X
U ct −
e (t) = u + e Yej
j=1
n o
c una nueva tasa de ingreso por primas,
e Ne (t) : t ≥ 0 , un proceso Poisson de parámetro
λ,
e y Yej variables aleatorias con distribución exp(e
α). La idea es aproximar la probabilidad
de ruina del modelo original de riesgo, por medio de este modelo reformulado. Para ello se
λ
e −αe− λe u
Ψ(u) ≈ e c
e
, con
cα
e e
3µ2 e 9 λµ32 3 λµ22
α
e= , λ= , c = c − λµ +
2 µ23
e
µ3 2 µ3
Dem. El método consiste en igualar los tres primeros momentos de los procesos U (t) y U
e (t),
251
• Igualación de las esperanzas. Es decir, hay que encontrar las condiciones bajo las que
h i
E [U (t)] = E Ue (t) . Entonces, tenemos que
e1t = E U
h i
E [U (t)] = U + ct − λµt = U + ect − λ e (t)
α
e
⇒e e1
c = c − λµ + λ
α
e
2 h i
V [U (t)] = λµ2 = λ
e = V U
e (t)
e2
α
• Igualadad entre los terceros momentos. Finalmente, recordemos que el tercer momento cen-
tral de un riesgo, S, que sigue un modelo colectivo P oisson(λ), está dado por E (S − E(S))3 .
3
3 6
E (U (t) − E(U (t))) = λµ3 = λ 3 = E U (t) − E(U (t))
e e e
α
e
Sólo resta igualar convenientemente estas ecuaciones para encontrar los parámetros de in-
terés. De las igualdades de la varianza y tercer momento, se desprende que
1 1
e2 = λµ3 α
λµ2 α e3
2 6
3µ2
⇒α e=
µ3
Ahora, sustituyendo este valor en la ecuación generada al igualar las varianzas, tenemos
3
e = 9 λµ2
λ
2 µ23
252
Finalmente, sustituyendo estos dos valores en la igualdad entre las esperanzas, tenemos
3 λµ22
c = c − λµ +
e
2 µ3
Entonces, hemos encontrado los valores de los parámetros del modelo reformulado: λ,
e αe, e
c,
en términos de los del modelo original λ, c y de los momentos de la distribución de las re-
clamaciones, Y.
Fórmula de Pollaczec-Khinchin
∞
X
Ψ(u) = (1 − p) pn H̄ ∗(n) (u)
n=1
Z x
λµ 1
con p = , y H(x) = F̄ (y)dy, x ≥ 0
c µ 0
Dem
λµ
N ∼ Geo 1 − ,y
c
253
n
X
X= Yi
i=1
tales que Y1 , Y2 , ..., Yn son variables aleatorias independientes con distribución H(y). Entonces
∞
X
Ψ(x) = P (X ≤ x) = P (X ≤ x|N = n) (1 − p)pn
n=0
∞
X
= (1 − p)pn H ∗(n)
n=0
Entonces
∞
X
(1 − p)pn 1 − H ∗(n)
1 − Ψ(u) = =
n=0
∞
X
= (1 − p)pn H̄ ∗(n)
n=0
∞
X
= (1 − p) pn H̄ ∗(n) (u)
n=1
∞ n
λµ X λµ
= 1− H̄ ∗(n) (u)
c n=1 c
Para utilizar esta fórmula y obtener aproximaciones de las probabilidades de ruina, la com-
binaremos con el algoritmo de Panjer. En general no es fácil calcular las convoluciones de la
función de distribución, H(u), ni tampoco calcular la suma infinita en esta fórmula. No obs-
tante, pueden llevarse a cabo simulaciones de esta variable aleatoria, calcular la magnitud de
las colas y conocer de manera aproximada la probabilidad de ruina cuando las reclamaciones
tienen una distribución continua arbitraria. Mostremos esta fórmula de Pollaczek-Khinchin
para reclamaciones exponenciales, y comparémosla con la fórmula exacta ya conocida para
este caso.
254
Entonces, supongamos que las reclamaciones tiene distribución exponencial de parámetro α.
Primero veamos que H(u) es nuevamente la función de distribución de una exponencial (α).
u
1 u −αy
Z Z
1
H(u) = F̄ (y)dy = e dy
µ 0
1 0
α
u
e−αy
= α y−
α
0
−αu
e 1
= α − +
α α
= 1 − e−αu
∞ k
−αu (αu)
X
∗(n)
H (u) = e
k=n
k!
n−1
∗(n)) X (αu)k
H (u) = e−αu
k=0
k!
255
∞ ∞ X
n−1 k
∗(n) n −αu (αu)
X X
n
p H (u) = p e
n=1 n=1 k=0
k!
∞ X
∞
X (αu)k
= pn e−αu
k=0 n=k+1
k!
∞ k ∞
−αu (αu)
X X
= e pn
k=0
k! n=k+1
∞ k ∞
−αu (αu)
X X
k+1
= e p pn
k=0
k! n=0
∞
p X −αu (αpu)k
= e
1 − p k=0 k!
p −αu αpu
= e e
1−p
p −α(1−p)u
= e
1−p
continuando con este desarrollo, tenemos entonces que de acuedo a esta fórmula de Pollaczek-
Khinchin
∞
X ∗(n)
ϕ(u) = (1 − p) pn H (u)
n=1
p −α(1−p)u
= (1 − p) e
1−p
= pe−α(1−p)u
λ −(α− λc )u
= e
αc
256
esta distribución son de la forma
αθk
E Xk =
α−k
en este caso, se pueden implementar las dos aproximaciones que presentamos, ya que esta
distribución tiene los tres primeros momentos finitos.
Aproximación de De Vylder
θ 2θ2 6θ3
; µ2 = E X 2 = y µ3 = E X 3 =
µ = E (X) =
α−1 (α − 2) (α − 3)
3 ∗ 2θ2
3µ2 (α − 2) (α − 3)
α
e= = 3 =
µ3 6θ (α − 2) θ
(α − 3)
9λ 8θ6
3 3 3
e = 9 λµ2 = 2 (α − 2) = λ (α − 3)
λ
2 µ23 36θ6 (α − 2)3
(α − 3)3
3 λµ22 θ λ (α − 3) θ
c = c − λµ + =c−λ +
(α − 1) (α − 2)2
e
2 µ3
Utilizando los valores particulares de este ejemplo, que son: α = 5, θ = 4, λ = 2 y c = 12,
tenemos
α
e = 0.16666667; λ
e = 0.5925926 y e
c = 11.7777778
0.5925926
Ψ(u) ≈ e−0.1163522∗u = 0.3018867e−0.1163522∗u
0.1666667 ∗ 11.7777778
257
Aproximación de De Vylder
0.30
0.25
0.20
Ψ(u)
0.15
0.10
0.05
0.00
0 20 40 60 80 100
5
4
F (x) = 1 −
4+x
Z x 5 !
1 4
⇒ H(x) = 1− 1− dz
µ 0 4+z
Z x 5
4
= 1∗ dz
0 4+z
4
4
= 1−
4+x
Es decir, H ∼ P areto (4, 4). Además, tenemos que la “probabilidad de éxito”de la geométri-
ca asociada es
λµ 2∗1 5
1− c =1− 12 = 6
258
Entonces, cocluiremos este ejemplo utilizando R, para construir el modelo agregado subya-
cente.
Aprox. Pollaczec−Khinchin
0.16
0.14
Ψ(u)
0.12
0.10
0.08
0 20 40 60 80 100
259
Reservas
Las reservas para las compañı́as de seguros han tenido un desarrollo muy considerablemente
en los años recientes, ocasionado por el crecimiento del mercado de seguros, con procesos
de suscripción de riesgos (coberturas) cada vez más complejos. Se han desarrollado nuevos
productos de seguros que se adaptan a las necesidades más especı́ficas de la póliza. Además,
también han surgido reclamaciones latentes que ponen mayores presiones sobre los recursos
de la empresa. Los desastres recientes, como las inundaciones en Europa y los ataques terro-
ristas del 11 de septiembre a los EE.UU., han contribuido a la necesidad de formas complejas
de análisis de la siniestralidad, motivando la revisión de los modelos utilizados en las reservas
de siniestros, para garantizar resultados acordes a estos nuevos esquemas.
El pago de las reclamaciones es el primer objetivo de una cı́a. de seguros. El asegurado realiza
el pago de la prima para que, a efecto de este pago, la cı́a. de seguros acepte la responsabili-
dad de hacer un pago en dinero a los asegurados sobre la ocurrencia de un evento especı́fico,
dentro del periodo de tiempo estipulado.
260
estos métodos es el uso de los registros de reclamaciones actuales y pasadas, dispuestas en
un triángulo de desarrollo de reclamaciones (run-off triangle) para calibrar el modelo de pre-
dicción propuesto antes de usarlo. Kremer (1982) mostró cómo el método clásico de chain
ladder para la estimación de las reclamaciones pendientes de pago en seguros generales, está
fuertemente relacionada con el análisis de varianza de dos vı́as. El desarrollo de este capı́tulo,
esta basado en el tratamiento estadı́stico de las reservas de reclamaciones realizado por Mack
(1991), que se percató de la relación entre los métodos de estimación de siniestros ocurrido
pero no declarados (debengados) (IBNR) y los métodos de tarificación de automóviles. Este
modelo paramétrico se implementa actualmente a través de un modelo lineal generalizado
(GLM) y se aplica a los datos de reclamación. Nuestro objetivo es explorar a fondo las ca-
racterı́sticas de los mótodos chain ladder y técnicas relacionadas.
Cálculo de reservas
Introducción
Definición de reserva: Monto de recursos necesarios para hacer frente a las obligaciones
asumidas por la compañı́a de seguros, reconociendo el efecto de interés e inflación, ası́ como
los gastos de administración derivados de la cartera, considerando la participación de rease-
guro.
Objetivo de la reserva: Dotar a la compañı́a de los recursos necesarios para realizar el pago
de las obligaciones que le son reclamadas y los gastos en que incurre por la administración
de su cartera.
Métodos de Cálculo
261
• Chain Ladder
• Bornhuetter-Ferguson
• Siniestralidad Esperada
• Métodos Estocásticos
Bootstrap
Mack
Fundamentos técnicos
Se debe registrar ante la C.N.S.F. a través de una Nota Técnica que exponga el método
actuarial con el cual se realizará la valuación y que contenga:
• Fórmulas y procedimientos.
262
Reservas de Riesgos en Curso (RRC)
Sobre la cartera en vigor por el tiempo que le falta por transcurrir (no devengada) incluyendo
la tasa técnica de interés, considerar los costos futuros de: Siniestralidad y otras obligaciones
contractuales, margen para desviaciones, Costos de Administración, Adquisición y el margen
de Utilidad.
Basarse en información suficiente y confiable, sobre la cartera de riesgos en curso y las va-
riables que se utilizaron para determinar la prima de tarifa suficiente.
Generalmente se supone uniformidad del riesgo a lo largo de la vigencia, por lo que el riesgo,
en un momento dado, es proporcional al tiempo que falta para concluir la vigencia.
Efecto de Reaseguro
263
(Automóviles), OS-12-06 (Terremoto) y a la técnica actuarial aplicable al caso.
Siniestros
En Trámite
En Litigio
Dividendos
Experiencia en Siniestralidad
Experiencia propia
Definición
Se asume que la reclamación se registra en tiempo y forma, ası́ como con la mejor estimación
posible del costo del siniestro.
Mecánica de Operación
264
a los bienes y coberturas amparadas en la póliza.
Se realizan ajustes a esta reserva cuando se tiene una estimación más detallada de los daños
o se determinan pérdidas como consecuencia directa del siniestro. (“Ajustes de más” cuando
el monto de las obligaciones aumenta y “ajustes de menos” cuando disminuye).
Por último, esta reserva se elimina cuando se pagan los montos reservados o se declara el
siniestro como improcedente.
Estimación de siniestros que ya ocurrieron a la fecha de valuación, pero que no han sido
reportados por distintas razones, o que el costo estimado inicialmente resulte menor al real,
o que aún no han sido valuados (se usa método estadı́stico actuarial basado en la experiencia
particular de la compañı́a para su estimación).
Los siniestros ocurridos pero no reportados, son aquellos eventos que se producen en un
intervalo de tiempo, durante la vigencia de la póliza, pero que se conocen con posterioridad
a la fecha de cierre o de valuación de un periodo contable. El objeto de la reserva por sinies-
tros ocurridos y no reportados es crear provisiones para cubrir los siniestros que no han sido
reportados a una fecha determinada, pero que ya ocurrieron.
La reserva por Siniestros Ocurridos pero no Reportados, tiene como objeto hacer una provi-
sión de recursos que sirvan para enfentrar el pago de aquellas reclamaciones que, habiendo
265
ocurrido en determinado año, sean reportadas en años futuros. El pago retrazado de los
siniestros puede producir pérdidas en ejercicios donde no corresponde, distorsionando los
resultados de ese año. Asimismo, el efecto de retrazo en las reclamaciones produce una dis-
torsión en los estados financieros de una institución, ya que puede reflejar una aparente
utilidad anual, que puede deberse al efecto del pago retrazado de reclamaciones. El proceso
de las reclamaciones atrazadas que provienen de un determinado año de origen, se distribu-
yen en un periodo al que se le llama periodo de desarrollo.
Objetivos
• Permite constituir los recursos para que éstos estén disponibles al momento en que esos
siniestros sean reclamados
• Siniestros ocurridos pero aún no reportados (Incurred but not yet reported IBNYR), los
cuales se caracterizan porque el acaecimiento del siniestro no ha sido reportado aún, debido
a retrasos de tipo administrativo o de la clase de contingencia cubierta (IBNR Puro).
• Siniestros ocurridos pero no reportados completamente (Incurred but not enough reported
IBNER), son aquellos ya ocurridos y reportados, pero cuyo costo está incompleto o no ha
sido determinado con precisión (SPV).
Métodos de Cálculo
• Chain Ladder
• Bornhuetter-Ferguson
• Siniestralidad Esperada
• Métodos Estocásticos
266
Bootstrap
Mack
267
Estructura general de la información para el cálculo de la provisión para sinies-
tros pendientes
El análisis del comportamiento de los siniestros ocurridos no reportados, puede hacerse or-
denando los siniestros en un arreglo matricial que consiste en asignar a cada renglón, el año
de origen y a cada columna, el año de desarrollo, de manera que cualquier siniestro puede
ser clasificado en este arreglo matricial de acuerdo al año de origen del cual proviene y al
año de desarrollo en el que fue reclamado. A este arreglo de clasificación de siniestros se le
conoce como triángulo de desarrollo de siniestros.
.. .. .. .. ..
. . . . .
n Cn1
Supongamos que tenemos N reclamaciones dentro de un periodo de tiempo fijo con fechas
de reporte T1 , ..., TN (Supongamos que están ordenadas, Ti ≤ Ti+1 ∀ i). Consideremos la
i-ésima reclamación. Entonces, Ti = Ti,0 , Ti,1 , ..., Ti,Ni denota la secuencia de fechas en las
que alguna situación ocurre con esta reclamación, por ejemplo, al tiempo Tij se realiza un
pago, se estima un ajuste de esta reclamación o se recaba nueva información sobre ella. Ti,Ni
denota a liquidación definitiva de la reclamación. Suponga que Ti,Ni +k = ∞ para k ≥ 1.
268
Especificaremos los eventos que ocurren al tiempo Ti,j como
(
Pago al tiempo Ti,j para la reclamación i
Xi,j =
0, Si no hay pago al tiempo Ti,j
(
Nueva información disponible sobre la reclamación i, al tiempo Ti,j
Ii,j =
∅, Si no hay nueva información al tiempo Ti,j
Con esta estructura se puede definir varios procesos interesantes; además, el problema de
reserva para reclamaciones, se puede dividir en varios sub problemas.
• Proceso de pago de la i-ésima reclamación. (Ti,j , Xi,j )j≥0 define el siguiente proceso de
pagos acumulados para la reclamación i
X
Ci (t) = Xi,j
j:Ti,j ≤t
X
Ci (∞) = Ci (Ti,Ni ) = Xi,j
j≥0
La reserva total de reclamación para la reclamación i en el momento t para los pasivos fu-
turos (pendientes de reclamación al tiempo t), está dada por
X
Ri (t) = Ci (∞) − Ci (t) = Xi,j
j:Ti,j >t
• El proceso de liquidación definitiva de la reclamación i está dado por (Ti,j , Ii,j , Xi,j )j≥0
269
N
X
C(t) = Ci (t)
i=1
N
X
R(t) = Ri (t)
i=1
C(t) denota todos los pagos hasta el tiempo t para todas las N reclamaciones, y R(t) denota
los pagos de siniestros pendientes (reservas) al tiempo t para estas N reclamaciones.
FtN = σ (Ti,j , Ii,j , Xi,j )i≥0,j≥0 |Ti,j ≤t
F = σ FtN ⊗ t
En matemáticas, se llama producto de Kronecker, denotado con ⊗, a una operación sobre dos
matrices de tamaño arbitrario que da como resultado una matriz bloque. Es un caso especial del
producto tensorial. El producto de Kronecker no deberı́a confundirse con el producto de matrices
habitual, que es una operación totalmente diferente. Debe su nombre al matemático alemán Leopold
Kronecker.
µt = P (C (∞) |Ft )
Mt = E [C (∞) |Ft ]
Vt = V [C (∞) |Ft ]
270
Propiedades fundamentales del proceso de reservas
Ya que
tenemos que
Mt = E [C (∞) |Ft ]
= E [C(t) + R(t)|Ft ]
= E [C(t)|Ft ] + E [R(t)|Ft ]
= C(t) + E [R(t)|Ft ]
además
Vt = V [C (∞) |Ft ]
= V [C(t) + R(t)|Ft ]
= V [R(t)|Ft ]
Dem. Trivial.
Lema 2 El proceso de varianza Vt es una Ft − supermartingala. Esto es, para t > s se tiene
que
Dem.
271
E [Vt |Ft ] = E [V (C(∞)|Ft ) |Fs ]
= V (C (∞) |Fs ) = Vs
M (t, u) = Mu − Mt
que implica que M (t, u) y M (u, ∞) no están correlacionadas, que es la propiedad bien co-
nocida de las martingalas de incrementos no correlacionados.
272
X(t, u) = C(u) − C(t)
M (t, u) = Mu − Mt
= E [C(∞)|Fu ] − E [C(∞)|Ft ]
X
Nt = 1{Ti ≤t}
i≥1
X X
R(t) = Ri (t) · 1{Ti ≤t} + Ri (t) · 1{Ti >t}
i i
con
273
X
Ri (t) · 1{Ti ≤t} reservas para las reclamaciones reportadas al tiempo t
i
X
Ri (t) · 1{Ti >t} reservas al tiempo t, para reclamaciones IBNyR
i
Y definimos
" # "N #
X Xt
Rtrep =E Ri (t) · 1{Ti ≤t} Ft = E Ri (t)Ft ,
i i=1
" # " N
#
X X
RtIBN yR = E Ri (t) · 1{Ti >t} Ft = E Ri (t)Ft
i i=Nt +1
X h i
Rtrep = E Ri (t)Ft
i≤Nt
" N
#
X
RtIBN yR = E Ri (t)Ft
i=Nt +1
Rtrep denota los pagos futuros esperados al tiempo t, de los siniestros reportados. Conocido
como “el mejor estimador de las reservas tiempo t, para siniestros reportados”. RtIBN yR son
los pagos futuros esperados al tiempo t, para reclamaciones IBNyR (o “el mejor estimador
de reservas al tiempo t, para reclamaciones IBNyR”).
En conclusión, estas dos expresiones muestran que las reservas para siniestros reportados y
la reservas para siniestros IBNyR son de muy diferente naturaleza:
i) Las reservas para siniestros reportados se deben determinar de forma individual, es decir,
con base en uno solo de los siniestros. A menudo se tiene suficiente información sobre reporte
de reclamaciones, para realizar una estimación de las reclamaciones individuales.
ii) Las reservas para siniestros IBNyR no pueden desagregarse debido al hecho de que N no
se conoce al momento t. Además, no tenemos información sobre reclamaciones individuales.
Esto muestra que las reservas IBNyR deben determinarse con base en un colectivo de recla-
maciones.
274
Desafortunadamente, la mayorı́a de los métodos clásicos de reservas no distinguen entre
reclamaciones reportadas y reclamaciones IBNyR, es decir, que estiman las reservas de si-
niestros de la misma manera en ambas casos. En este contexto, tengo que decepcionarlos un
poco, porque la mayorı́a de los métodos que presentaremos tampoco hacen esta distinción.
Para fines ilustrativos se asume que Xi,j denota todos los pagos en el periodo de desarrollo,
j, de reclamaciones que ocurrieron en el año, i, es decir, lo que corresponde al incremento
del pago de reclamaciones ocurridas en el año i, realizadas en el ejercicio contable i + j.
En un triángulo de desarrollo, las reclamaciones por año suelen estar en la lı́nea vertical,
mientras que los periodos de desarrollo están en la lı́nea horizontal. En general, las tablas
de desarrollo se dividen en dos partes; la parte superior del triángulo / trapezoide, donde
tenemos observaciones y el triángulo inferior donde debemos estimar los pagos pendientes.
En las diagonales siempre vemos los ejercicios contables. De ahı́ que los datos de las recla-
maciones tienen la siguiente estructura:
275
Tiángulo de desarrollo de siniestros
Año evento Desarrollo por año
0 1 ··· j ··· J-1 J
0
..
. Datos observados de las v.a. Ci,j Xi,j
I-1
I
Los datos se pueden mostrar en forma acumulativa o en forma no acumulativa (incremental).
Los datos incrementales se denotan por Xi,j y datos acumulados dados por
j
X
Ci,j = Xi,k
k=0
Los datos incrementales, Xi,j , puede denotar los pagos incrementales en la celda (i, j), el
número de siniestros reportados con retraso de reporte j y año de ocurrencia i, o el cambio
en la cantidad de reclamaciones reportado en la celda (i, j). Para los datos acumulados Ci,j ,
generalmente se utiliza el término de pagos acumulados, o el número total de reclamaciones
reportadas o reclamaciones incurridas (para siniestros declarados acumulativos). Ci,∞ se co-
noce comúnmente como monto total de la demanda o carga total de la reclamación i o el
número total de reclamaciones en el año i.
Xi,j : Núm. de reclamaciones reportadas con retrazo j ⇔ Ci,j : Núm. total de reclamaciones reportadas
276
X
Xk = Xi,j
i+j=k
Si Xi,j denota pagos incrementales, entonces las reservas de reclamación para el año i al
tiempo j están dada por
∞
X
Ri,j = Xi,k = Ci,∞ − Ci,j
k=j+1
Teniendo en cuenta los modelos de reservas, es decir, modelos que estiman las reclamaciones
totales, existen diversas posibilidades para éstas.
• Etc.
Por lo general, diferentes métodos y diferentes formas de agregarción de los datos, conducen
a resultados muy diferentes. Sólo un actuario con basta experiencia en reservas, es capaz
de decidir cuál es una forma adecuada de estimación para las obligaciones futuras en un
conjunto especı́fico de datos.
277
Método Chain-Ladder (libre de distribución)
El modelo de Chain-Ladder es, probablemente, la técnica para calcular reservas más popular.
Proporcionaremos diferentes derivaciones para este método. Iniciaremos con la derivación li-
bre de distribución del Chain-Ladder.
Ci,j
fij =
Ci,j−1
j
X
Ci,j = Xi,k
k=0
Esto es, sumamos los pagos incrementales, Xi,k , k ≥ 0, para una año de ocurrencia del sinies-
tro fijo, i, y, como son reclamaciones acumuladas, en última instancia obtenemos Ci,J−1 = Si ,
con Si el total de reclamaciones que corresponden al año de ocurrencia del siniestro, i.
La idea detrás del algoritmo Chain-Ladder (CL) es que todos los años de ocurrencia de si-
niestros se comportan de manera similar y, para reclamaciones acumuladas, se tiene que
Existen f0 , f1 , ..., fJ−1 > 0 factores de desarrollo tales que para toda 0 ≤ i ≤ I y toda
0 ≤ j ≤ J se tiene que
278
E [Ci,j |Ci,0 , Ci,1 , ..., Ci,j−1 ] = E [Ci,j |Ci,j−1 ] = fj−1 Ci,j−1
e independencia entre los años de eventos (entre los renglones del triángulo de desarrollo).
Observaciones
• Se supone independencia entre los años de ocurrencia. Más adelante veremos que este su-
puesto se hace en casi todos los métodos. Esto significa que ya se han eliminado los efectos
del año de contabilidad en los datos.
• Además, podemos hacer supuestos más fuertes sobre las sucesiones Ci,0 , Ci,1 , ... asumiendo
que forman una cadena de Markov. Por lo tanto, tenemos que
j−1
Y
Ci,j · fl−1
l=0
279
Este lema proporciona un algoritmo para estimar el valor esperado de la demanda final,
Ci,J , dadas las observaciones DI , de la siguiente manera. Para cualquier año de ocurrencia
i, elegir la última observación en la diagonal, esto es Ci,I−i , y multiplicar sucesivamente esta
observación por los factores de desarrollo fI−i , ..., fJ−1 .
Por otro lado, para factores de desarrollo conocidos, fj , estimamos los siniestros esperados
pendientes de pago del año i basado en DI , por
que corresponde al “mejor estimador de las reservas del año i al tiempo I (basado en la in-
formación DI ). Desafortunadamente, en la mayorı́a de las aplicaciones prácticas los factores
Chain-Ladder no se conocen y necesitan estimarse. Los factores Chain-Ladder se estiman por
I−j−1
X
Ck,j+1 I−j−1 I−j
X Ci,j Ci,j+1 X
fˆj = k=1
I−j−1
= PI−j−1 = wij fij
X i=1 n=1 C n,j C i,j i=1
Ck,j
k=1
CL
Ĉi,j = Ê [Ci,j |DI ] = Ci,I−i · fˆI−i · · · fˆj−1 , para i + j > I
h i
a) fj , dado Bj , es un estimador insesgado de fj . Esto es: E fˆj BJ = fj
ˆ
h i
b) fˆj es (incondicionalmente) insesgado para fj . Esto es: E fˆj = fj
h i h i h i
c) fˆ0 , ..., fˆJ−1 nos están correlacionados. Esto es: E fˆ0 , ..., fˆJ−1 = E fˆ0 · · · E fˆJ−1
280
CL
d) Ĉi,J , dado Ĉi,I−1 es un estimador insesgado de E [Ci,J |DI ] = E [Ci,J |Ci,I−i ]. Esto es:
h i h i
E Ĉi,J CI−i = E Ci,J DI , y
CL
h i
CL CL
e) Ĉi,J es (incondicionalmente) insesgado para E [Ci,J ]. Esto es: E Ĉi,J = E [Ci,J ]
En principio, el hecho de que los factores estimados Chain-Ladder, fˆj , no estén correlacio-
nados, parece sorprendente, ya que dependen de los mismos datos.
Dem. lema
I−j−1 I−j−1
X X
E [Ck,j+1 |Bj ] Ck,j · fj
h i
E fˆj |Bj = k=0
I−j−1
= k=0
I−j−1
= fj
X X
Ck,j Ck,j
k=0 k=0
h i h h ii h h ii h i
E fˆj fˆk = E E fˆj fˆk |Bk = E fˆj E fˆk |Bk = E fˆj fk = fj fk
h i h i
CL
E Ĉi,J |Ci,I−i = E Ci,I−i · fˆI−i · · · fˆJ−1 |Ci,I−i
h h i i
= E Ci,I−i · fˆI−i · · · fˆJ−1 E fˆJ−1 |BJ−1 |Ci,I−i
h i
CL
= fJ−1 E Ĉi,J−1 |Ci,I−i
281
h i
CL
E Ĉi,J |Ci,I−i = Ci,I−i · fI−i E · · · fJ−1 = E [Ci,J |DI ]
Observaciones
Hemos demostrado que los estimadores fˆj no están correlacionados, pero no son indepen-
dientes. De hecho, los cuadrados de dos estimadores sucesivos fˆj y fˆj+1 están correlacionados
negativamente.
Obsérvese que el inciso d de este lemma, demuestra que podemos obtener estimadores inses-
gados del mejor estimador de las reservas E [Ci,J |DI ].
282
El método de Bornhuetter-Ferguson
El método Bornhuetter-Ferguson es, en general, un método muy robusto, ya que no toma en
cuenta los valores extremos en las observaciones. El método se remonta a 1972 en el artı́culo
de Bornhuetter-Ferguson titulado “el actuario e IBNR”. El método Bornhuetter-Ferguson
se suele entender como un algoritmo puro para estimación de reservas (esta es también la
forma en que fue publicado por ellos).
Desventajas
Hay varios posibilidades de definir un modelo estocástico subyacente apropiado que motive
el método BF. Los siguientes supuestos son fáciles de cumplir:
283
• Existen parámetros µ0 , µ1 , ..., µI > 0 y patrones β0 , β1 , ..., βJ > 0 con βJ = 1, tales que,
para toda i ∈ {1, 2, ..., I}, j ∈ {1, 2, ..., J − 1} y k ∈ {1, 2, ..., J − j}, se tiene que
E [Ci,0 ] = µi · β0 ,
• Existen parámetros µ0 , µ1 , ..., µI > 0 y patrones β0 , β1 , ..., βJ > 0 con βJ = 1, tales que,
para toda i ∈ {1, 2, ..., I}, j ∈ {1, 2, ..., J − 1}, se tiene que
E [Ci,j ] = µi · βj
La idea detrás del método BF es que todos los años de ocurrencia de eventos i ∈ {1, ..., I}
tienen un comportamiento similar, con un comportamiento de los pagos de reclamaciones
Ci,j ≈ µi · βj
para cierta información inicial µ̂i y cierto patrón de desarrollo {βj }j=0,...,J−1 normalizadas
PJ−1
j=0 βj = 1.
El valor inicial µ̂i debe reflejar el total esperado del ejercicio contable i, E [Ci,J−1 ]. Se supone
que este valor inicial se da de manera externa, de acuerdo a la opinión de expertos que, en
teorı́a, no deberı́a basarse en DI .
284
Regularmente, estos son los supuestos (2) para generar el modelo BF, no obstante, sólo con
estos supuestos, podemos tener ciertas dificultades. Observemos que
= Ci,I−i + βJ µi − βI−i µi
= Ci,I−i + (1 − βI−i ) µi
Ĉi,J = Ê [Ci,J |DI ] = Ci,I−i + 1 − β̂I−i · µ̂i
285
j−1
Y
E [Ci,j ] = E [E [Ci,j |Ci,j−1 ]] = fj−1 E [Ci,j−1 ] = E [Ci,0 ] fk
k=0
entonces
J−1
Y
E [Ci,J ] = E [Ci,0 ] fk
k=0
que implica
j−1 J−1
Y Y
E [Ci,j ] = fk fk−1 E [Ci,J ]
k=0 k=0
J−1
Y
= fk−1 E [Ci,J ]
k=j
Si comparamos esta expresión con la correspondiente del método BF, E [Ci,j ] = µi βj , encon-
tramos que
J−1
Y
fk−1 “juega el papel de”βj
k=j
J−1
Y
ya que fk−1 corresponde a la proporción ya pagada de µi = E [Ci,J ] después de j periodos
k=j
0
del desarrollo en el método Chain-Ladder. Note que esta correspondencia entre las βj y el
producto de los factores de desarrollo se obtiene únicamente mediante los supuestos (2) y no
con (1) ya que éstos no son implicados por los supuestos Chain-Ladder ni viceversa.
!!
BF \ 1
C
d i,J = Ci,I−i + 1− QJ−1 µ̂i
j=I−i fj
286
Por otro lado tenemos que el estimador Chain-Ladder es
J−1
CL Y
C
d i,J = Ci,I−i fˆj
j=I−i
J−1
!
Y
= Ci,I−i + Ci,I−i fˆj − 1
j=I−i
CL J−1
!
C
d i,J
Y
= Ci,I−i + QJ−1 fˆj − 1
ˆ
j=I−i fj j=I−i
!
1 CL
= Ci,I−i + 1 − QJ−1 C
d i,J
j=I−i fˆj
Ya comentamos que, dada la forma como se estima µi en el modelo BF, sólo debemos ocu-
parnos de la estimación de los patrones de desarrollo, es decir, de las βj . En vista del método
de CL, se define la siguiente los estimadores del patrón de desarrollo:
cociente que refleja, como ya dijimos, la proporción ya pagada después de los primeros j
periodos de desarrollo de acuerdo a los patrones de desarrollo del método Chain-Ladder. Por
lo que obtenemos los estimadores
β̂0CL = γ̂0CL ,
CL CL
β̂J−1 = 1 − γ̂J−2
287
Una vez definidos estos estimadores, entonces predecimos la última reclamación (o reclama-
ción total) Ci,J−1 para i + J − 1 > I en el método BF, por
J−1
X
BF
βjCL = Ci,I−i + µ̂i 1 − γ̂I−i
CL
Ĉi,J−1 = Ci,I−i + µ̂i
j=I−i+1
Las reservas al tiempo I para los años de ocurrencia del siniestro i > I − (J − 1) están dadas
por
J−1
X
R̂iBF BF
βjCL = µ̂i 1 − γ̂I−i
CL
= Ĉi,J−1 − Ci,I−i = µ̂i
j=I−i+1
y agregado sobre todos los años de ocurrencia de los siniestros, predecimos el total de pasivos
de pérdida de las últimas reclamaciones (reserva total), por
X
R̂BF = R̂iBF
i>I−(J−1)
Concluiremos este apartado con una comparación entre los valores predichos de los métodos
CL y BF. Entonces, reescribimos las predicciones realizadas mediante el método CL, para
i + J − 1 > I, de la siguiente manera
J−2 J−2
!
Y Y 1
CL
Ĉi,J−1 = Ci,I−i + Ci,I−i fˆjCL 1 −
j=I−i j=I−i fˆCL
j
CL CL CL
Ĉi,J−1 = Ci,I−i + 1 − β̂I−i Ĉi,J−1 ,
BF CL
Ĉi,J−1 = Ci,I−i + 1 − β̂I−i µ̂i
Por lo tanto, observamos que tenemos la misma estructura. La única diferencia es que en el
método BF utilizamos la estimación inicial externa, µ̂i , para la demanda final y en el método
CL
de la estimación CL esta estimación se basa en Ĉi,J−1 . Por lo tanto, tenemos dos posiciones
complementarias para realizar las predicciones.
288
Breve introducción a los Modelos Lineales Generalizados (MLG)
Los modelos lineales son modelos estadı́sticos que sirven para cuantificar el impacto o influen-
cia que tienen las llamadas variables explicativas (caracterı́sticas de los sujetos o entidades
que conforman el modelo) y la llamada variable de respuesta. El más sencillo de estos mo-
delos es el de regresión lineal simple, cuya extensión natural es el modelo de regresión lineal
múltiple. Este es, probablemente, el modelo lineal más conocido en la literatura estadı́stica.
La caracterı́stica esencial de este modelo es que la variable de respuesta se asume con distri-
bución continua y su componente aleatorio se supone con distribución normal, distribución
que hereda la variable de respuesta.
En la modelación estadı́stica muchas veces se tienen variables de respuesta que no son con-
tinuas, por ejemplo la condición de enfermo y no enfermo de un paciente; la preferencia
electoral de un sujeto en un marco de tres partidos polı́ticos en competencia; el número de
reclamaciones en una póliza de seguros, etc. Para este tipo de respuestas, el modelo de re-
gresión lineal usual no es, de ninguna manera, una opción adecuada, por lo que es necesario
modificar o ampliar este modelo para contemplar esta clase de respuestas. De esta necesi-
dad surgen los llamados Modelos lineales Generalizados(MLG) en los que existen diversas
estructuras de su compontente aleatorio, que se adecuan de mejor manera a las caracterı́sti-
cas de escala de medición de sus respuetas. Estos modelos están caracterizados por tres
componentes
0
• Un predictor lineal (parte sistemática): η = X β
El componente aleatorio tiene que ver con la distribución que se le asocia a la respuesta
(la parte aleatoria) del modelo, misma que es sugerida por la escala de medición de esta
respuesta. En los M LG, esta distribución debe ser un miembro de la familia exponencial.
El predictor lineal lo constituye la parte determinı́stica del modelo, es decir, los datos y los
parámetros. Finalmente, la liga es una función que liga o asocia una transformación de la
variable de respuesta con el predictor lineal. La estructura de este modelo es
289
0
g (µ) = X β = β 0 + β1 X1 + β2 X2 + · · · + βp Xp ó
0
µ = g−1 X β
Idéntica µ N ormal
Ya que la escala de la variable de respuesta determina el modelo lineal generalizado que deba
de ajustarse, observamos que
La familia exponencial
290
Definición: Familia exponencial. Sean y1 , ..., yn variables aleatorias independientes con fun-
ción de densidad o de probabilidad, que puede escribirse como
yi θi − b (θi )
f (yi ; θi , φ) = exp + c (yi , φ)
ai (φ)
con
• ai (·) , b (·) y c (·) funciones especı́ficas para cada elemento de esta familia
Normal
• Distribución N (µ, σ 2 )
• E (y) = µ
• Liga g(µ) = µ (identidad)
θ2
• b(θ) = 2
(θ = µ)
• a(φ) = 1
Poisson(λ)
• E (y) = λ
• Liga g(λ) = ln (λ)
• b(θ) = eθ (θ = λ)
• a(φ) = 1
Binomial(n,π)
• E (y) = nπ
291
π
• Liga g(π) = ln 1−π
• b(θ) = n log(1 + eθ ) (θ = π)
• a(φ) = 1
etc.
H0 : βi = 0 vs. Ha : βi 6= 0 i = 1, 2, ..., p
El estadı́stico asociado para realizar esta prueba es una t de Student. En concreto se hace
con la estadı́stica
βb a
r i ∼ tn−p
var βbi
292
En el caso del modelo de regresión lineal, y dada la normalidad de su componente aleatorio,
esta estadı́stica es
βb
r i ∼ N (0, 1), o bien
var βbi
βbi2
∼ χ2(1)
var βbi
como habı́amos dicho, para este modelo las inferencias son exactas.
La devianza
Una forma de determinar el ajuste del modelo construido es comparándolo contra el modelo
que produce el mejor ajuste posible. En estos modelos, el mejor ajuste se logra cuando el
modelo tiene tantos parámetros como observaciones y se le conoce como modelo saturado.
Este modelo lo que hace es reproducir los valores observados, por lo que su ajuste es perfecto.
Si denotamos por `e(β) el valor de la log-verosimilitud del modelo saturado y por `(β)
b el
correspondiente valor del modelo propuesto, se define la devianza (algunas veces llamada
devianza residual) a la cantidad
h i
D =2 `e(β) − `(β)
b
que puede verse como una medida de distancia entre el modelo propuesto y el saturado.
`e(β) . Es claro que ya que esta última cantidad es el supremo de todas las log-verosimiltudes
posibles, `(β)
b no puede ser mayor que ella. Un valor ”grande”de esta devianza indica un
pobre ajuste del modelo propuesto.
293
a
D ∼ χ2(n−p)
h i
D =2φ `e(β) − `(β)
b
Comparación de modelos
En la modelación estadı́stica estándar por lo general se tienen varios modelos que ajustan
de forma adecuada a nuestra información, por lo tanto, es necesario tener una forma para
compararlos y elegir el mejor entre ellos. Para hacer esta comparación es necesario que los
modelos estén anidados, i.e., que uno de ellos sea un submodelo del otro.
a
2φ [` (M1 ) − `(M0 )] ∼ χ2(p1 −p0 )
294
Modelo Poisson de reservas
Terminaremos esta sección con el modelo de Poisson, que se utiliza principalmente para el
número de reclamaciones. Lo interesante en el modelo de Poisson es que conduce a las mis-
mas reservas del modelo Chain-Ladder. Fue Mack (1991), quien demostró que las reservas
Chain-Ladder son reservas producidas por un proceso de máxima verosimilitud del modelo
de Poisson.
Existen parámetros µ0 , µ1 , ..., µI > 0 y patrones γ0 , γ1 , ..., γJ > 0, tales que los valores incre-
mentales Xi,j son independientes y se distribuyen Poisson con
E [Xi,j ] = µi · γj
PJ
para toda i ≤ I y j ≤ J, y j=0 γj = 1.
Es claro que si Xi,j son Poisson, entonces el número total de reclamaciones acumuladas ocu-
rridas en el periodo i, Ci,J , también es Poisson, con
E [Ci,J ] = µi
E [Xi,j ] γj
=
E [Xi,0 ] γ0
que es independiente de i.
Lema. El modelo Poisson satisface los supuestos (1) del método Bornhuetter-Ferguson.
Dem
295
k
X
E [Ci,j+k |Ci,0 , ..., Ci,j ] = Ci,j + E [Xi,j+` |Ci,0 , ..., Ci,j ]
`=1
k
X
= Ci,j + µi · γj+`
`=1
= Ci,j + µi · (βj+k − βj )
Pj
con βj = `=0 γ` . Que concluye la demostración.
Para estimar los parámetros (µi )i , (γj )j existen diferentes métodos, una posibilidad es utilizar
estimadores máximo verosı́miles. La función de verosimilitud, obviamente con la información
observada, DI = {Ci,j ; i + j ≤ I, j ≤ J}, está dada por
!
Xi,j
Y (µi γj )
L (µ0 , ..., µI , γ0 , ...γj ; DI ) = e−µi γj ·
Xi,j !
i+j≤I
(I−i)∧J (I−i)∧J
X X
µ̂i γ̂j = Xi,j = Ci,(I−i)∧J
j=0 j=0
I−i
X I−i
X
µ̂i γ̂j = Xi,j
j=0 j=0
P
para toda i ∈ {0, ..., I} toda j ∈ {0, ..., J} bajo la restricción de que γj = 1. Este sistema
tiene solución única y proporciona los estimadores mle de µi y γj .
296
P oi
X̂i,j = Ê [Xi,j ] = µ̂i γ̂j ,
J
X
P oi P oi
Ĉi,j = Ê [Ci,J |DI ] = Ci,I−i + X̂i,j
j=I−i+1
Obsérvese que
I−i
!
X
P oi
Ĉi,j = Ci,I−i + 1− γ̂j · µ̂i
j=0
por lo que los estimadores Poisson tiene la misma forma que los BF. Sin embargo, aquı́
debemos estimar µi y γj mediante los datos.
297
Modelo Poisson sobredisperso
Ya hemos comentado que en datos reales, es muy común que el modelo Poisson resulte sobre-
disperso, i.e., que φ >> 1. Definamos el modelo Poisson sobredisperso para calcular reservas
a partir de un triángulo de desarrollo.
Existen parámetros µ0 , µ1 , ..., µI > 0, patrones γ0 , γ1 , ..., γJ > 0 y φ, tales que los valores
incrementales Xi,j son independientes con distribución
Xi,j µi γj
∼ P ois
φ φ
Observe que
µi γj µi γj
E [Xi,j ] = E φP ois =φ· = µi γj
φ φ
µi γj µi γj
V [Xi,j ] = V φP ois = φ2 · = φµi γj
φ φ
Def. Error cuadrático medio de predicción condicional. El error cuadrático medio de predic-
ción condicional del etimador X̂ está definido por
2
M SEPX|D = E X̂ − X |D
298
El MSEP condicional es una medida de distancia L2 , que puede descomponerse en dos partes
2
M SEPX|D X̂ = V (X) + X̂ − E [X|D]
Riesgos Catastróficos
Fondo acumulativo que se integra con una parte de las primas de ciertas coberturas para
cubrir eventos catastróficos como los terremotos.
Fondo acumulativo que se integra con una parte de las primas para cubrir desviaciones en
la “siniestralidad”.
299