Sunteți pe pagina 1din 299

Teorı́a del Riesgo

Introducción
La actividad aseguradora está difundida en el mundo entero, son de uso corriente los seguros
de automóviles, incendios, robos, vida, etc. Esta actividad responde a la incertidumbre que
sienten los individuos ante ciertas situaciones que pueden provocar distintos daños, tanto
materiales como personales. El miedo a la posibilidad de que ocurran dichos acontecimientos
se intenta eliminar mediante la compra de un seguro que compensará al asegurado en el caso
de producirse algún daño. La base de esta actividad radica en la existencia de un equilibrio
entre la prestación que hará la compañı́a de seguros y la contraprestación que ella recibe del
asegurado.

Algunos antecedentes históricos


En sus inicios, el seguro era una forma de solidaridad entre los miembros de una comunidad.
Consistı́a en un fondo o bolsa en la que todas las personas depositaban parte de su dinero.
Con el capital que acumulaban entre todos, se pagaban los daños que sufrı́an algunos de
ellos. Por ejemplo: Antiguamente existı́a en algunos puertos la costumbre de que todos los
armadores de barcos que hacı́an una determinada lı́nea, aportaban a un fondo común una
cantidad de dinero en función del número de navı́os que poseı́an. Aquellos armadores cuyos
barcos se hundı́an o eran saqueados por piratas, recibı́an una compensación económica pro-
cedente del fondo común para poder adquirir otro barco para continuar su actividad laboral.

La Ciencia Actuarial tal como hoy se concibe comienza en el siglo XVII. Durante este periodo
las necesidades comerciales dieron lugar a operaciones que acarreaban un interés compuesto;
los seguros marı́timos eran algo habitual y el cálculo de las rentas vitalicias comenzaba a
aparecer. Este tipo de operaciones requerı́a algo más que el juicio intuitivo y comercial de
los primeros aseguradores. Uno de los pilares de la Ciencia Actuarial fue la Teorı́a de Pro-
babilidades, las bases del análisis estadı́stico en el seguro fueron establecidas por Pascal en
1654 en colaboración con el también matemático Pierre de Fermat.

Otro de los pilares es el concepto de tablas de vida, basadas en las investigaciones sobre la

1
mortalidad. Las primeras tablas son debidas a John Graunt (1662). En 1693 Edmund Halley,
matemático ingles, publicó un famoso documento describiendo la construcción de tablas de
vida completas a partir de la hipótesis de estacionariedad de la población, ası́ como el méto-
do de valoración de las rentas vitalicias, que es, en esencia, el mismo que se utiliza hoy en
dı́a. Las tablas de Halley se utilizaron por la mayorı́a de las compañı́as de seguros inglesas
creadas durante el siglo XVIII.

En el presente siglo, la Ciencia Actuarial se enriquece con las aportaciones de las matemáti-
cas de los seguros no vida, la teorı́a estadı́stico-matemática de la estabilidad y la moderna
teorı́a de la decisión.

Algunos términos del seguro


La actividad aseguradora, como cualquier otra que supone una especialidad, tiene su propia
forma de expresarse (jerga). Vamos a ver una serie de términos de uso frecuente:

Seguro: Entendido como contrato, es el convenio entre dos partes, la compañı́a o entidad
aseguradora por una parte y el contratante por otra, mediante la cual la primera se compro-
mete a cubrir económicamente la pérdida o daño que el asegurado puede sufrir durante la
vigencia del contrato. La obligación del asegurado es pagar, a la firma del contrato, el precio
del seguro total o parcialmente.

Riesgo: Es la posibilidad de pérdida o daño. El hombre desde que nace vive con la constante
amenaza de enfermedad, accidente, muerte, etc. De la misma forma sus propiedades pueden
sufrir incendios, robos, etc.

Siniestro: Es la concreción del riesgo. Por ejemplo, un incendio que destruye una fábrica,
el robo de mercancı́as, muerte en un accidente, etc.

Asegurador: Es la persona jurı́dica que suscribe el compromiso de ofrecer la protección


indemnizatoria cuando se produce el siniestro. Un asegurador es una sociedad anónima, una
mutua de seguros, cooperativa, etc. Para que una empresa pueda ejercer legalmente como
aseguradora debe tener una autorización que concede la autoridad correspondiente.

Asegurado: Es la persona titular del interés asegurado. Es quien sufre el perjuicio económico
en sus bienes, en caso de que ocurra el siniestro, o la persona cuya vida o integridad fı́sica se

2
asegura y, por lo tanto, quien percibirá la indemnización en caso de que un siniestro afectase
al objeto asegurado (excepto en el caso de seguros de vida, en que recibe la indemnización,
en caso de muerte. el beneficiario).

Beneficiario: Cuando se asegura la vida o la integridad fı́sica de una persona puede desig-
narse a otra persona para que reciba las indemnizaciones, que es el beneficiario.

Póliza: Es el documento en que se plasma el contrato de seguro. Tiene dos caracterı́sticas


que la hacen especialmente importante:

• Es la prueba de que el contrato existe; y

• Es la normativa que regula las relaciones entre los contratantes.

Consta básicamente de tres partes:

• Condiciones generales: son una serie de cláusulas iguales para todos los contratos de la
misma modalidad. Incluyen deberes y derechos, forma de atención del siniestro, riesgos cu-
biertos, etc.

• Condiciones particulares: son las que individualizan cada contrato de seguro. Incluyen da-
tos personales del asegurado, caracterı́sticas del riesgo que se asegura (incendio, accidente,
robo...), importe de la prima, etc.

• Condiciones especiales: aparecen en algunas pólizas y suponen una adaptación para deter-
minados casos especiales. Por ejemplo, hay unas condiciones generales para todos los seguros
de robo, pero dadas las caracterı́sticas que pueden tener el seguro de robo a joyerı́as, se crean
para este tipo de establecimientos unas condiciones especiales.

Prima: Es el precio del seguro. Es la cantidad de dinero que el asegurado paga para que,
a cambio, el asegurador pague en caso de siniestro. La prima es por lo general para una
vigencia anual del seguro, aunque excepcionalmente puede pagarse por una sola vez, para la
cobertura de varios años (prima única en seguros de vida) y también por una vigencia menor
de un año (prima a corto plazo, como en el caso de un viaje, transporte de mercancı́as, etc.)

Clases de primas:

• Prima de riesgo: llamada también prima pura, natural, matemática o estadı́stica, es la

3
cantidad necesaria y suficiente que el asegurador debe percibir para cubrir el riesgo. Nace
del concepto de esperanza matemática como precio justo de una eventualidad.

• Prima de tarifa: también llamada prima comercial, es la prima de riesgo más los recargos.

Estos recargos son de varios tipos:

Gastos de administración: sueldos, alquileres de locales, etc.

Gastos de adquisición: formado básicamente por la comisión que se le paga al corredor


o intermediario.

Margen de beneficio: son los recargos asignados a la utilidad razonable del asegurador.

• Prima de facturación: es la prima de tarifa más los recargos de ley, como son los impues-
tos sobre la prima, los derechos de emisión y otros agregados y ordenados por disposiciones
legales, ası́ como los intereses de financiación en el caso de que el asegurador otorgue facili-
dades de pago fraccionado de la prima anual.

Clasificación de los seguros


Los seguros se pueden clasificar en dos grandes grupos: seguros de vida y seguros de no vida.

Un seguro de vida es aquel en el que una entidad aseguradora se compromete, mediante el


cobro de una prima única o periódica, a pagar la prestación convenida en el caso de que se
cumpla la circunstancia prevista en el contrato: que la persona o personas fallezcan o sobre-
vivan a un periodo de tiempo determinado. Existen distintas modalidades de seguros de vida:

• Seguros de vida en caso de muerte.

• Seguros de vida en caso de vida.

• Seguros de vida mixtos.

Los seguros de no vida van dirigidos a cubrir daños materiales que ocasionan pérdidas
económicas. Los más frecuentes son los de automóviles, incendios, robos, etc. En este ca-
so, las prestaciones o indemnizaciones están en función de la cuantı́a del daño.

4
Objetivos de las Matemáticas Actuariales
El objetivo de las Matemáticas Actuariales lo constituye el estudio cuantitativo de las ope-
raciones de seguro (y financieras en general) a fin de optimizar las decisiones sobre las mag-
nitudes que intervienen en ellas, teniendo en cuanta que las citadas operaciones las realiza
un ente asegurador (o financiero) que desarrolla su actividad en un entorno económico-social.

Forma parte del objetivo de la Matemática Actuarial:

• El cálculo de primas, reservas, valores garantizados, etc., en las operaciones de seguros de


vida.

• El análisis cuantitativo de los sistemas actuariales en los seguros colectivos, sociales y pla-
nes de pensiones.

• El estudio de los problemas de tarificación y reservas técnicas en los seguros no vida.

• La determinación de las magnitudes de estabilidad del ente asegurador y el análisis de su


solvencia.

5
Riesgo
Definición: Se entiende por riesgo, en la literatura actuarial, no sólo al objeto asegurado,
sino también, a la posibilidad de producirse, por azar, un acontecimiento que origine una
pérdida económica o patrimonial.

Un individuo puede adoptar distintas conductas a la hora de enfrentarse al riesgo, una par-
ticularmente asociada al seguro, es la de prevención y previsión, que conlleva a actitudes de
ahorro y de aseguramiento (como mecanismo para reducir la incertidumbre del asegurado a
través del pago de la prima). Este último constituye la forma más adecuada y técnicamente
eficaz para cubrir riesgos.

Caracterı́sticas del riesgo


Las caracterı́sticas esenciales del riesgo, para ser objeto del seguro, son las siguientes:

• Incierto y aleatorio: debe haber una relativa incertidumbre, pues el conocimiento de


su existencia real harı́a desaparecer la aleatoriedad, principio básico del seguro. En algunos
casos, se conoce con certeza que ocurrirá, pero se ignora cuándo, como en la cobertura de
los seguros de vida.

• Factibilidad: Debe existir posibilidad de que riesgo se consume. Tal posibilidad tiene
dos situaciones extremas: Por un lado, la frecuencia y del otro la imposibilidad. La excesi-
va ocurrencia del riesgo y su materialización en siniestro atenta contra la aleatoriedad del
suceso cubierto, ası́, una gran frecuencia de riesgos, por ejemplo, en la cobertura automóvi-
les, aparte de resultar muy costoso para la empresa aseguradora, exigirá que las primas de
seguros necesariamente se incrementen. Del mismo modo, la imposibilidad de que el riesgo
se manifieste en siniestro, situarı́a a la empresa aseguradora en una posición de presentar
una cobertura absurda que harı́a inviable la comercialización del producto, como ofrecer una
cobertura de daños por nevadas, en un paı́s tropical.

• Fortuito: El riesgo debe provenir de un acto o acontecimiento ajeno a la voluntad hu-


mana de producirlo. No obstante, es suceptible de indemnización el siniestro producido a
consecuencia de actos realizados por un tercero, ajeno al vı́nculo contractual que une a
la aseguradora con el asegurado. Aunque en tal caso, la entidad aseguradora se reserva el

6
derecho de ejercitar las acciones pertinentes contra el responsable del daño (principio de su-
brogación), como también es posible indemnizar el siniestro causado intencionadamente por
el asegurado, siempre que los daños se hayan producido por una situación de fuerza mayor
o para evitar otros más graves.

• Monto económico: La realización del riesgo debe producir una necesidad traducible a
un valor económico, que se satisface con la indemnización correspondiente.

7
EL PROCESO DE MODELACIÓN DEL
RIESGO
Recordemos que un modelo matemático, estadı́stico, actuarial, o de cualquier naturaleza, es
una representación simplificada de algún fenómeno real. En un contexto actuarial especı́fico,
proponer un modelo para describir una situación, se basa en la experiencia y conocimiento
que el Actuario tenga del fenómeno bajo estudio, ası́ como de la información histórica que
posea sobre él. El modelo debe proveer un balance entre simplicidad (parsimonia) y confor-
midad (ajuste) con la información disponible para elaborarlo.

El proceso de modelado
Sin pretender ser exhaustivos, podemos reconocer ciertos pasos a seguir para modelar una
situación actuarial. Es importante remarcar que, aunque los pasos se enumeren ordenada-
mente, la dinámica del proceso permite regresar a algunos puntos anteriores, para su mejor
especificación. Finalmente, hay que recordar que modelar tiene algo de técnica y mucho de
arte.

PASOS
1.- Uno o más modelos pueden seleccionarse de acuerdo al conocimiento inicial y experiencia
que posea el analista, además de la naturaleza de la información disponible.

2.- Ajustar el modelo con la información disponible.

3.- Realizar pruebas de bondad de ajuste y diagnóstico del modelo, para determinar si su
ajuste es adecuado para los datos utilizados.

4.- Considerar, a partir del paso anterior, la posibilidad de utilizar otros modelos.

5.- Si existen varios modelos que pueden ser adecuados, entonces, es necesario compararlos
con la finalidad de decidir por alguno de ellos.

6.- Finalmente, el modelo seleccionado puede adaptarse para aplicarlo en el futuro. Esto
puede involucrar algún ajuste de los parámetros, previendo cambios por alguna caracterı́sti-
ca exógena, como inflación, cambios del mercado asegurado o cualquiera otra.

8
Distribuciones asociadas al monto de
una pérdida
Cuando se manifiesta un riesgo, la Cı́a aseguradora tiene la obligación de cubrir el monto
de la reclamación que genera tal evento. Dadas las caracterı́sticas del riesgo, este monto es
claramente aleatorio, por lo que es suceptible de modelarse a través de una variable aleatoria,
X. Dado que el monto del siniestro es una cantidad no negativa, los modelos probabilı́sticos
asociados deben contemplar esta y otras caracterı́sticas. Concretamente

• La variable asociada al monto de reclamación es mayor o igual que cero (no negativa)

X : [0, ∞) → [0, ∞)

• La distribución de esta variable es generalmente sesgada a la derecha

Forma común de la distribución del monto de pérdida


0.6
0.5
0.4
y=f(x)

0.3
0.2
0.1
0.0

0 2 4 6 8 10

• La distribución puede ser de colas pesadas lo que podrı́a implicar el uso de distribuciones
para valores extremos en su modelación.

9
Entonces, dadas estas caracterı́sticas de los montos asociados a un riesgo, es necesario iden-
tificar las familias de modelos (densidades y/o distribuciones) más adecuados para su mode-
lación, recordando que deben ser modelos con soporte en los reales no negativos.

Definición 1 . Una familia de distribuciones paramétrica es un conjunto de distribuciones


en donde cada miembro está determinado por uno o varios valores fijos y finitos, llamados
parámetros (de ahı́ el nombre paramétrica).

10
Principales familias paramétricas para
modelar el monto de riesgo
Familia de distribuciones exponencial
La distribución exponencial es un modelo apropiado para los montos, ya que cumple con los
requicitos para su modelación; no obstante, esta distribución tiene colas ligeras por lo que
no resultarı́a adecuada si el seguro genera una gran proporción de reclamaciones con montos
muy grandes. Las caracterı́sticas de esta v.a. son

• f (x; θ) = θe−θx , θ > 0, x ≥ 0

 
1 1 θ
• E (X) = ; V (X) = 2 ; MX (t) = , que existe si t < θ.
θ θ θ−t

• θ es un parámetro de escala.

Diversas formas de la distribución exponencial


6
5
4

lambda= 1
Exponencial

lambda= 2
lambda= 3
3

lambda= 4
lambda= 5
lambda= 6
2
1
0

0 1 2 3 4

Familia de distribuciones Gamma


La distribución Gamma es una de las distribuciones más populares para modelar variables
aleatorias con soporte no negativo. Ya que esta distribución tiene colas ligeras, puede usarse

11
para modelar datos en los que no ocurran muchas reclamaciones con valores grandes. Se dice
que X v.a. tiene distribución Gamma si su función de densidad es

θα xα−1 e−θx
f (x; α, θ) = , x ≥ 0, α ≥ 0, θ ≥ 0
Γ(α)

con Γ(·) la función Gamma definida como

Z ∞
Γ(z) = e−t tz−1 dt
0

Las caracterı́sticas de la distribución Gamma son

 α
α α θ
• E (X) = ; V (X) = 2 ; MX (t) = , t<θ
θ θ θ−t

Γ(α + r)
E (X r ) =
θr Γ(r)

• α es un parámetro de forma y θ es de escala.

• La distribución exponencial es un caso particular de la Gamma. En concreto, es una


Gamma(1, θ).

12
Diversas formas de la distribución Gamma Diversas formas de la distribución Gamma
0.25

1.2
0.20

1.0
alpha= 10 , beta= 0.5
alpha= 20 , beta= 0.5
alpha= 30 , beta= 0.5

0.8
alpha= 40 , beta= 0.5
0.15

alpha= 50 , beta= 0.5 alpha= 10 , beta= 0.1


alpha= 60 , beta= 0.5
Gamma

Gamma
alpha= 10 , beta= 0.2
alpha= 10 , beta= 0.3

0.6
alpha= 10 , beta= 0.4
alpha= 10 , beta= 0.5
0.10

alpha= 10 , beta= 0.6

0.4
0.05

0.2
0.00

0.0

0 10 20 30 40 50 0 5 10 15 20 25

x x

Familia de distribuciones Log-Normal


Uno de los modelo más usados para ajustar datos del monto de reclamación de un siniestro,
es la distribución log − normal(µ, σ 2 ). Esta distribución es asimétrica con cola derecha pe-
sada (más pesada que la exponencial y Gamma, pero no de las más pesadas), lo que permite
acumular una mayor densidad de probabilidad en esta cola. Por lo tanto, puede utilizarse
para modelar siniestros que generen grandes montos de reclamación con una proporción re-
lativamente alta.

Esta distribución guarda una estrecha relación con la Normal. De hecho, una variable alea-
toria se distribuye Log-normal, si el logaritmo natural de ella, se distribuye Normal, es decir

X ∼ log − normal(µ, σ 2 ), si ln(X) ∼ N (µ, σ 2 )

La función de densidad de esta variable aleatoria es

1 1 2
f (x; µ, σ 2 ) = √ e− 2σ2 (ln(x)−µ) , x > 0, µ ∈ R, σ 2 ∈ R+
2πσ 2 x

13
Algunas caracterı́sticas de esta distribución son

σ2 r2 σ2
 
2 2
• E (X) = eµ+ 2 ; V (X) = e2µ+σ eσ − 1 ; E (X r ) = erµ+ 2 (momentos de orden r=1,2,...)

• Pese a su relación con la normal, ninguno de los parámetros es de localización ni de escala.

Diversas formas de la distribución log−normal Diversas formas de la distribución log−normal


0.6

0.8
0.5

0.6
m= 0 , sigma= 1
0.4

m= 0 , sigma= 0.9
mu= 0 , sigma= 1
log−normal

log−normal
m= 0 , sigma= 0.8
mu= 0.5 , sigma= 1
m= 0 , sigma= 0.7
mu= 0.7 , sigma= 1
m= 0 , sigma= 0.6
0.3

mu= 1 , sigma= 1 0.4 m= 0 , sigma= 0.5


mu= 1.5 , sigma= 1
mu= 2 , sigma= 1
0.2

0.2
0.1
0.0

0.0

0 2 4 6 8 10 0 2 4 6 8 10

x x

Familia de distribuciones Weibull


La distribución Weibull puede considerarse como una generalización de la exponencial. En
este caso, se incorpora un parámetro de forma, lo que permite mayor flexibilidad sobre la
forma que posea la distribución de los datos, y se conserva el parámetro de escala de la
exponencial. En general, es una distribución con colas más pesadas que la Gamma y la log-
normal, pero aún no de las más pesadas, por lo que puede ser un modelo adecuado para los
montos grandes de reclamación, que ocurren con una moderada alta probabilidad.

Se dice que X v.a. tiene una distribución W eibull(α, θ), si tiene una función de densidad
dada por

14
α  x α−1 n  x α o
f (x) = exp − , x > 0, α > 0, θ > 0
θ θ θ

con α parámetro de forma y θ parámetro de escala. Obsérvese que si α = 1 la Weibull se


convierte en una Exponencial(θ).

Sus caracterı́sticas son

        
1 2 2 2 1 t t
• E (X) = θΓ 1 + ; V (X) = θ Γ 2 + −Γ 1+ ; MX (t) = θ Γ 1 +
α α α α

Diversas formas de la distribución Weibull Distribución Weibull con diferentes parámetros de escala
3.0

k= 0.5 , lambda= 1
k= 1 , lambda= 1
k= 1.5 , lambda= 1

8
k= 3 , lambda= 1
2.5

k= 5 , lambda= 1
k= 7 , lambda= 1
2.0

k= 2 , lambda= 1
k= 2 , lambda= 0.8
k= 2 , lambda= 0.6
Weibull

Weibull

k= 2 , lambda= 0.4
1.5

k= 2 , lambda= 0.2
k= 2 , lambda= 0.1
4
1.0

2
0.5
0.0

0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0

x x

15
Familia de distribuciones Pareto
La distribución Pareto es una distribución con cola derecha aún más pesada que la Log-
normal y la Weibull, por lo que resultará de gran utilidad para modelar siniestros que gene-
ren reclamaciones muy grandes con altas frecuencias. Esta distribución surge al considerar
que la probabilidad de que una v.a., X, tome un valor superior a un valor determinado, x,
tiene la forma funcional

 α
θ
P (X > x) = , x ≥ θ, α > 0, θ > 0
x

entonces, la función de distribución de la Pareto es

 α
θ
F (x) = 1 − P (X > x) = 1 −
x

con función de densidad dada por

0 αθα
f (x; α, θ) = F (x) = α+1 , x ≥ θ, α > 0, θ > 0
x

Algunas de sus caracterı́sticas son

αθ αθ2 r αθr
• E (X) = ; V (X) = ; E (X ) = , α > r, r = 1, 2, ...
(α − 1) (α − 2)(α − 1)2 (α − r)

• α es un parámetro de forma y θ de escala.

16
Diversas formas de la distribución Pareto Diversas formas de la distribución Pareto
0.6

2.0
0.5

alpha= 3 , theta= 100

1.5
alpha= 3 , theta= 120
0.4

alpha= 3 , theta= 140


alpha= 1 , theta= 5 alpha= 3 , theta= 160
alpha= 2 , theta= 5 alpha= 3 , theta= 180
alpha= 3 , theta= 5 alpha= 3 , theta= 200
alpha= 4 , theta= 5
Pareto

Pareto
0.3

1.0
alpha= 5 , theta= 5
alpha= 6 , theta= 5
0.2

0.5
0.1

0.0
0.0

0 2 4 6 8 10 0 2 4 6 8 10

x x

Familia de distribuciones Pareto de segundo tipo


La distribución Pareto de segundo tipo es simplemente la distribución Pareto de primer tipo
trasladada al origen. Concretamente, si X tiene distribución Pareto de primer tipo, entonces
Y = X − θ tiene distribución Pareto de segundo tipo. Con función de densidad

αθα
f (x; α, θ) = , x ≥ 0, α > 0, θ > 0
(x + θ)α+1

Caracterı́sticas de esta distribución

θ αθ2 r θr Γ (r + 1) Γ (α − r)
E (X) = ; Var (X) = ; E(X ) = , −1 < r < α
(α − 1) (α − 2) (α − 1)2 Γ (α)

r θr r!
E(X ) = si r es entero
(α − 1) (α − 2) · · · (α − r)

con Γ(·) la función Gamma, ya definida anteriormente.

17
Familia de distribuciones Pareto de tercer tipo
La distribución de Pareto de tercer tipo, es una generalización de las anteriores, en la que
además de la traslación se produce un cambio en la estructura de varianza. Se define como
distribución de Pareto de tercer tipo a la distribución de la v.a. X, cuya función de distribu-
ción es:

 α
θ β
F (x) = 1 − e− θ x , x > 0, α > 0, θ > 0, β ≥ 0
θ+x

con función de densidad

 α  
1 θ − βθ x α
f (x) = e x +β
θ θ+x θ
+1

Ninguna de las caracterı́sticas de esta distribución tienen una expresión analı́tica cerrada.

Familia de distribuciones Burr


La experiencia en el pago de montos reclamación de seguros, ha mostrado que la Pareto
es apropiada para modelarlos, particularmente, cuando ocurren reclamaciones de montos
excepcionalmente grandes. No obstante, algunas veces es necesario tener distribuciones para
colas pesadas, que sean más flexibles que la Pareto, por ejemplo, que consideren una función
de densidad no monótona. Tal flexibilidad la proporciona la distribución Burr que tiene un
parámetro de forma, β, adicional. En concreto, si X es una v.a. con distribución Pareto de
segundo tipo, entonces

X 1/β ∼ Burr (θ, α, β)

cuya función de densidad está dada por

βαθα xβ−1
f (x) = x ≥ 0 , θ > 0, α > 0, β > 0
(xβ + θ)α+1

El momento de orden r de esta distribución es

18
θr/β Γ (α − r/β) Γ (r/β + 1)
E (xr ) = , que existe si r < αβ
Γ (α)

• α y β son parámetros de forma y θ de escala.

Diversas formas de la distribución Burr Diversas formas de la distribución Burr

alpha= 10 , beta= 5 , theta= 0.01

0.04
0.4

alpha= 20 , beta= 5 , theta= 0.01


alpha= 30 , beta= 5 , theta= 0.01
alpha= 40 , beta= 5 , theta= 0.01
alpha= 50 , beta= 5 , theta= 0.01
alpha= 60 , beta= 5 , theta= 0.01

0.03
0.3

alpha= 10 , beta= 5 , theta= 0.1


alpha= 20 , beta= 5 , theta= 0.1
alpha= 30 , beta= 5 , theta= 0.1
alpha= 40 , beta= 5 , theta= 0.1
alpha= 50 , beta= 5 , theta= 0.1
Burr

Burr
alpha= 60 , beta= 5 , theta= 0.1

0.02
0.2

0.01
0.1

0.00
0.0

0 10 20 30 40 50 0 10 20 30 40 50

x x

Estas son algunas distribuciones de uso común para modelar los montos que genera la reali-
zación de un riesgo. Por supuesto, no están contemplados todos los modelos, son solamente
los más utilizados para este objetivo. Por ejemplo, no hemos introducido distribuciones co-
mo: Loglogı́stica, Paralogı́stica, Pareto generalizada, Gamma inversa, Weibull inversa, Beta,
Beta generalizada, Exponencial inversa, etc. Ninguno de estos modelos corresponde a los
tı́picos de valores extremos como la Gumbel o la Fréchet, por ejemplo. Dada esta lista (no
exhaustiva) de posibles modelos, es claro que la elección del mismo para modelar una situa-
ción particular, no será tarea fácil, en general.

19
Ajuste de funciones de probabilidad
Ahora veamos cómo se hace un ajuste de estos modelos (distribuciones) en una situación
donde se tienen datos reales.

Cuando se dispone de un conjunto de observaciones pertenecientes a una determinada va-


riable aleatoria con distribución desconocida, lo primero que conviene hacer es tratar de
identificar alguna distribución teórica (modelo) que pudiera ajustar bien dichas observacio-
nes. En otras palabras, se tratarı́a de comprobar si estos datos se distribuyen de acuerdo a
alguna distribución conocida (gamma, Pareto, log-normal , binomial, Poisson, etc.), pues ello
facilitarı́a la realización de inferencias sobre la población. Este proceso se realiza mediante
tres etapas básicas.

Reconocimiento de la familia de modelos (densidades) subyacente a los datos.

Estimación de los parámetros que determinan la densidad particular de esta familia


que ajusta a los datos recabados.

Verificación de lo adecuado del ajuste del modelo a los datos.

Reconocimiento del modelo


Esta primer etapa combina el conocimiento previo que el usuario posea sobre los datos a
modelar, con las diferentes técnicas de estadı́stica descriptiva que puedan determinar, por
ejemplo

Forma de la densidad subyacente

Simetrı́a de la densidad

Unimodalidad o multimodalidad de la densidad

Forma de la función de distribución

Dado que en la mayorı́a de los casos los usuarios tienen algún conocimiento sobre el modelo
que pudo generar la información, ya sea por experiencia empı́rica o por la literatura del área
particular de aplicación, un buen principio es tomar en cuenta esta opinión y complementarla
con las descripciones gráficas y numéricas que proporciona el análisis descriptivo de los datos.

20
Las compañı́as de seguros, generalmente contemplan la recabación de datos relacionados
con los montos de reclamación de lo siniestros (severidad ) y del número de estos siniestros
(frecuencia) que implican la selección de modelos para variables continuas, para los primeros,
y modelos para variables discretas en los segundos.

Las herramientas descriptivas permiten tener diversas medidas asociadas a las caracterı́sticas
de la distribución subyacente a cualquiera de estos tipos de datos.

1. Métodos numéricos

Medidas de tendencia central (Media, mediana, moda)

Medidas de dispersión (Varianza, desviación estándar, rango, rango intercuartı́li-


co, coeficiente de variación)

Medidas de forma (sesgo, curtosis)

2. Métodos gráficos

Histogramas

Diagramas de tallo y hoja

Box plot

Curvas suavizadas de densidad (densidades tipo kernel)

Curva de la función de distribución empı́rica

Gráficas de probabilidad

21
Estimación de los parámetros
Una vez que se ha reconocido la familia a la que pertenece el modelo que pueda ajustar a
los datos, el siguiente paso es determinar concretamente cuál de los modelos de esta familia
es el que se ajusta a nuestra información. Es decir, necesitamos estimar los parámetros de
este modelo particular.

Métodos de estimación
Aunque existen diversos métodos para estimar los parámetros de una distribución, los más
usuales son:

Método de momentos. Desarrollado por Karl Pearson (≈ 1900).

Supongamos que observamos los valores de una muestra aleatoria x1 , ..., xn de una dis-
tribución F (x|θ), donde θ = (θ1 , ..., θp ) es un vector de p parámetros. Denotemos por
µk (θ) = E(X k |θ), el k-ésimo momento poblacional.
Z
k
xk f (x) dx

µk (θ) = E X |θ =

Y por

n
1X k
Mk = x
n i=1 i

el correspondiente k-ésimo momento muestral. El método de momentos es muy simple y con-


siste en igualar los primeros p momentos poblacionales a sus correspondientes p momentos
muestrales, y resolver el sistema de ecuaciones simultáneas que resulta. Especı́ficamente

n
1X k
µk (θ) = x , k = 1, 2, ..., p
n i=1 i

las soluciones de este sistema son los estimadores θ̂ = (θ̂1 , ..., θ̂p ). En las distribuciones usua-
les el número de parámetros a estimar, p, generalmente es pequeño 1, 2 ó 3.

La forma concreta de las ecuaciones serı́a

22
n
1X
µ1 (θ1 , θ2 , ..., θk ) = M1 = xi = x̄
n i=1
n
1X 2
µ2 (θ1 , θ2 , ..., θk ) = M2 = x
n i=1 i
..
.
n
1X k
µk (θ1 , θ2 , ..., θk ) = Mk = x
n i=1 i

como tenemos k ecuaciones con k incógnitas, entonces el sistema tiene solución única. Lla-
maremos θˆi a la solución de la i-ésima ecuación.

Ejemplo: Bernoulli(p)

Sólo un parámetro ⇒ sólo una ecuación

µ1 (p) = E(X) = p = x̄ ⇒ p̂ = x̄ !Ya estuvo!

n n
1X 1X
Ojo Aquı́ x̄ = xi = {ceros y unos} = Proporción. No se puede interpretar en el
n i=1 n i=1

mismo sentido que se interpreta la media, por ejemplo, de datos continuos.

“Ostro”

N ormal(µ, σ 2 )

Dos parámetros ⇒ dos ecuaciones

µ1 = µ1 (µ, σ 2 ) = E(X) = µ = x̄ µ̂ = x̄

n
2 2 2 1X 22
µ2 = µ2 (µ, σ ) = E(X ) = σ + µ = x
n i=1 i

n n n n
1X 2 1X 2 1X 1X
⇒σ =2
xi − µ 2 = xi − x̄2 = (xi − x̄)2 ⇒ σ̂ 2 = (xi − x̄)2 !No es S 2 !
n i=1 n i=1 n i=1 n i=1

por lo tanto, en la N ormal(µ, σ 2 ) los estimadores por momentos de los dos parámetros son

23
n n
!
1X 1 X
µ̂ = xi , σ̂ 2 = (xi − x̄)2 .
n i=1 n i=1

Máxima verosimilitud

Este es, probablemente, el método más común de estimar un parámetro. Para implementar-
lo es necesario definir primero la verosimilitud, que no es más que la distribución conjunta
de la muestra. Si los datos son continuos, esta es propiamente una función de distribución
conjunta, y si son discretos, es una función conjunta de probabilidad.

Una vez determinada la verosimilitud, se procede a maximizarla con respecto a los paráme-
tros de interés. Los valores de los parámetros que la maximizan son los estimadores máximo
verosı́miles. Debido al hecho común de que las observaciones se suponen independientes e
idénticamente distribuidas (i.i.d.), la forma de la verosimilitud es

n
Y
L(θ, X) = f (xi |θ)
i=1

Generalmente no se maximiza la verosimilitud, sino el logaritmo de ésta, conocida como


log-verosimilitud

n
X
`(θ, X) = log [L(θ, X)] = log f (xi |θ)
i=1

Observaciones:

El punto donde alcanza su máximo la verosimilitud, es el mismo en el que lo alcanza


la log-verosimilitud, porque el logaritmo es una función monótona creciente.

Los estimadores máximo verosı́miles son los valores de θ que hacen más probable la
observación de esos datos, o que maximizan la probabilidad de haber observado esos
datos.

Los estimadores máximo verosı́miles tiene varias de las propiedades deseables de un


buen estimador (insesgamiento, consistencia, eficiencia), aunque algunas de ellas sólo
las alcanzan de forma asintótica (n grande).

24
Una de las caracterı́sticas más importantes de este estimador es que tiene una distri-
bución asintótica normal

  
a
θ̂M V ∼ N θ, var
ˆ θ̂M V

este hecho es importantı́simo para hacer inferencias sobre nuestros parámetros.

Método de estimación de parámetros a través de la igualación


de percentiles (percentil matching estimate)

Un método de uso común en teorı́a de riesgos para estimar los parámetros de un modelo, es
el de igualar los percentiles estimados con los datos, a los percentiles teóricos obtenidos del
modelo subyacente. En concreto, el método trabaja de la siguiente forma.

Denotemos por πq (θ) el 100×q percentil de la distribución subyacente a los datos, que en el
caso de una distribución continua, es la solución a

F (πq (θ)|θ) = q

el estimador de θ por igualación de percentiles es la solución a las p ecuaciones

πqk (θ)
b =π
bqk , k = 1, 2, ..., p

donde las qk’s son p percentiles elegidos de manera arbitraria.

25
Pruebas de bondad de ajuste
Los procedimientos para probar qué tan bien se ajusta un modelo a un conjunto de datos,
reciben el nombre genérico de pruebas bondad de ajuste y constituyen un área de desarrollo
permanente en la estadı́stica. Como mencionamos lı́neas arriba, en la determinación de un
modelo paramétrico, es necesario asignar una distribución para los datos de severidad, de fre-
cuencia o ambos. En el caso de las distribuciones asociadas a la frecuencia de reclamaciones,
existen algunas guı́as que pueden sugerir el modelo a considerar en una situación particular,
como el hecho que una distribución Poisson posea media y varianza iguales, mismo que puede
comprobarse calculando las correspondientes versiones muestrales de estos parámetros. Si,
como ocurre frecuentemente, la varianza es mayor a la media, entonces tendrı́amos evidencia
empı́rica para suponer un modelo binomial negativo. No obstante esto, no existen de manera
general este tipo de indicaciones que sugieran qué distribución elegir cuando tenemos datos
de severidad. Por esta razón, es necesario recurrir a procesos generales como las pruebas de
bondad de ajuste, que puedan auxiliarnos en esta importante tarea.

Planteamiento general de una prueba de bondad de ajuste

Este tipo de pruebas son esencialmente pruebas de hipótesis, con la caracterı́stica particular
de que la hipótesis que queremos probar no es, como generalmente ocurre, acerca del valor
paricular de algún(os) parámetro(s), sino sobre una función de distribución especı́fica. Estas
pruebas se enuncian como

H0 : F (x) = F0 (x) ∀x vs. F (x) 6= F0 (x) p.a.x

donde F0 es la distribución que suponemos sigue nuestros datos. Como podemos observar,
necesitamos definir qué distribución es la que consideramos que ajusta a nuestra información.
A este respecto podemos tener diversas opciones: 1) F0 es totalmente conocida. En el senti-
do que se conoce su forma funcional y su(s) parámetro(s). 2) F0 es parcialmente conocida.
Se conoce su forma funcional pero se desconoce algún(os) de su(s) parámetro(s). 3) F0 es
totalmente desconocida. Se conoce su forma funcional pero se desconocen su(s) parámetro(s).

Contrario a las pruebas de hipótesis usuales, en las pruebas de bondad de ajuste no se es-

26
pecifica la hipótesis alternativa, ya que el modelo que se enuncia en la hipótesis nula, no se
compara contra un modelo alternativo que deberı́a estar especificado en la hipótesis alterna-
tiva. La razón de este hecho es que estamos interesados en verificar que la distribución de
nuestros datos es la que proponenos y si no lo es, no es de interés saber qué otra distribución
sı́ es.

Algunas pruebas de bondad de ajuste

Presentaremos de manera sencilla algunas de las pruebas más comunes para realizar bon-
dad de ajuste. Dado que nuestros datos sobre la severidad de una pérdida pueden presentar
truncamiento por la izquierda, que corresponde a aquellas pérdidas que no rebasaron el de-
ducible, y censura por la derecha, que son las pérdidas que sobrepasaron el lı́mite de póliza,
las estadı́sticas se deben modificar para contemplar estas particularidades de los datos.

Prueba Kolmogorov-Smirnoff (K-S)

La estadı́stica Kolmogorov-Smirnoff se define como

D = sup |Fn (x) − F0 (x)|


x

que se puede expresar mediante las dos estadı́sticas

D+ = sup {Fn (x) − F0 (x)} y


x

D− = sup {F0 (x) − Fn (x)}


x

y se calcula mediante
 
+ i
D = máx − z(i)
1≤x≤n n
 
− (i − 1)
D = máx z(i) −
1≤x≤n n

D = máx D+ , D−


0
con zi = F (xi ) y z(i) el i-ésimo elemento en la muestra ordenda de las zi s.

27
Esta prueba se usa para datos desagregados y para variables aleatorias continuas, i.e., F0 es
una función de distribución continua. Fn es la función de distribución empı́rica, y se calcula
con los datos reales.

Detalle de las diferencias


1.0

Fn(xi)
F0(xi)
0.8

Fn(xi−1)
0.6
0.4
0.2
0.0

−2 −1 0 1 2

28
Función de distribución empírica
1.0
0.8
0.6
Fn(t)

0.4
0.2
0.0

−2 −1 0 1 2

Prueba Anderson-Darling (A-D)

Esta prueba es similar a la K − S pero mide las diferencias entre las funciones empı́rica y
propuesta de distinta manera. Una caracterı́stica a destacar de esta prueba es que asigna
mayor peso a las colas de la distribución, es decir, enfatiza la bondad de ajuste que se tenga
en las colas entre el modelo propuesto y la función de distribución empı́rica, que es el modelo
asociado a los datos reales. La forma explı́cita de la Anderson-Darling es

1
[Fn (x) − F0 (x)]2
Z
2
A = n dF0 (x)dx
0 F0 (x) [1 − F0 (x)]
n
1 X 
= −n − (2i − 1) log(z(i) ) + log 1 − z(n+1−i)
n i=1

n
1 X  
= −n − (2i − 1) log z(i) + (2n + 1 − 2i) log 1 − z(i)
n i=1

al igual que K − S esta es una prueba que no trabaja con datos agrupados.

29
Prueba Ji-cuadrada de bondad de ajuste

Esta es probablemente la más popular de las pruebas de bondad de ajuste, además de que,
contrario a K − S y A − D, es una prueba para distribuciones continuas y discretas; de
hecho, también tiene una versión multivariada. La prueba se basa en particionar el rango de
las variables observadas en k celdas o clases, y calcular el número de observaciones que se
esperarı́a tener en cada clase si la hipótesis nula fuera correcta, i.e., si F0 es cierta, y compa-
rarlo contra el número de observaciones que realmente cayeron en cada celda. Si denotamos
por Ej al número esperado y por Oj al observado en la celda j, j = 1, 2, ..., k, la estadı́stica
Ji-cuadrada de bondad de ajuste es

k
2
X (Ej − Oj )2
χ =
j=1
Ej

si los valores observados (Oj ) y esperados (Ej ) son similares, el valor de esta estadı́stica es
pequeño, e indicarı́a que F0 es cierta. Si, por el contrario, estos valores son muy distintos, su
valor deberı́a ser grande e implicarı́a que F0 es falsa.

30
Distribuciones para valores extremos
Teorı́a de valores extremos

• La Teorı́a de Valores Extremos (Extreme value theory) consiste en el empleo de una serie de
técnicas estadı́sticas para la identificación y modelado de observaciones extremas o outliers.

• Su objeto es determinar qué tan extrema puede ser la mayor o menor observación registrada
de un fenómeno aleatorio, es decir, estudia el comportamiento del valor máximo o mı́nimo
de una variable aleatoria.

• El comportamiento inusual de una variable aleatoria merece una consideración especial,


ya que puede tener un gran impacto para las decisiones que se desprendan del análisis de la
información a la que pertenece.

• Para explicar este tipo de sucesos que ocurren, generalmente, con muy baja frecuencia pero
que tienen una influencia muy significativa sobre todo un modelo, la Teorı́a de Valores Extre-
mos emplea métodos matemáticos basados en comportamientos asintóticos, distribuciones,
procesos estocásticos y leyes lı́mite.

• Diferentes investigaciones provenientes de múltiples disciplinas cientı́ficas, han desarrollado


métodos para cuantificar eventos extremos y sus consecuencias de un modo estadı́sticamente
óptimo, dando lugar a unas distribuciones de probabilidad que permiten la modelación de
los valores máximos o mı́nimos de una variable aleatoria.

De forma simplificada, nuestro problema es el siguiente:

Dada una muestra independiente X1 , X2 , ..., Xn de una distribución desconocida, F, quere-


mos estimar la cola de F.

Los problemas más importantes son:

• Las observaciones en la cola de la distribución son escasas.

31
• Por lo general, queremos estimar valores por encima del valor máximo de la muestra.

• Las técnicas usuales de estimación de densidades ajustan bien en las zonas donde los datos
tienen mayor densidad, pero pueden ser inadecuadas para estimar las colas.

• Los modelos correspondientes a esta teorı́a de valores extremos, tienen aplicaciones en


muchas áreas, una de las principales es las ciencias ambientales, donde se estudian valo-
res extremos, por ejemplo, en: Nivel de una presa, velocidad del viento, nivel de un rı́o,
concentración de contaminantes, niveles de precipitación pluvial, etc.

• No obstante, nosotros nos enfocaremos en aplicarla dentro del marco del seguro. En esta
área, el análisis de la siniestralidad extrema es de gran interés, puesto que constituye un
riesgo que pone en peligro la estabilidad y solvencia de entidades aseguradoras.

32
Distribución del máximo
Definamos

Mn = máx {X1 , ..., Xn }

Entonces, la distribución de este máximo es

n
Y
P (Mn ≤ x) = P (X1 ≤ x, ..., Xn ≤ x) = P (Xi ≤ x) = F n (x)
i=1

Si conocemos F , conocemos la distribución del máximo, pero las expresiones analı́ticas para
F n pueden ser complicadas. Frecuentemente F es desconocida.

Entonces, dada la posible complejidad de encontrar esta distribución, intentaremos buscar


una distribución lı́mite que sirva para aproximar la distribución de Mn , de la misma manera
como la distribución normal sirve para aproximar la suma de una gran variedad de variables
aleatorias independientes.

Recordar que el resultado que se tiene con las sumas de variables i.i.d. y el Teorema Central
del Lı́mite: Por la Ley Fuerte de Grandes Números, si µ = E(Xi ), entonces

n
1X
Xn = Xi −→ µ
n i=1

y si estandarizamos (realizamos una transformación lineal), tenemos

X n − µn
−→ N (0, 1)
σn


con µn = µ y σn = σ/ n.

Entonces, hay que buscar un resultado del tipo

 
Mn − bn
P ≤x = F n (an X + bn ) −→ G(x)
an

33
Entonces, nos preguntamos

• ¿Cuáles son las distribuciones lı́mite posibles?

• ¿Cuáles son las constantes an y bn ? ¿Son únicas?

• ¿Qué condiciones debe satisfacer F para que se cumpla un resultado ası́?

• Si hay varias G posibles, conociendo F , ¿cómo sabemos, cuál de ellas es el lı́mite? ¿Es único?

• ¿Cuáles son las distribuciones lı́mite posibles?

G(x)=exp −e−x

Gumbel : x∈R

(
0 x<0
F réchet : G(x,α) =
exp (−x−α ) x ≥ 0, α > 0

(
exp − (−x)−α x < 0, α > 0

W eibull : G(x,α) =
1 x≥0

• Estas tres distribuciones reciben el nombre de distribuciones de valores extremos (DVE).

34
Ejemplo

Supongamos que F es la distribución exponencial con parámetro uno. Es decir

n
F (x) = 1 − e−x =⇒ F n (x) = 1 − e−x y
n
F (x + log n) = 1 − e−x−log n
 n
1 −x
−→ exp −e−x

= 1− e
n

por lo tanto, las constantes de normalización an = 1 y bn = log n, conducen a que Mn tenga


como lı́mite una distribución Gumbel.

n=10 n=15

1.0
1.0

0.8
0.8

0.6
Densidad

Densidad
0.6

0.4
0.4

0.2
0.2
0.0

0.0

−3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 4

x x

n=20 n=25
1.0

1.0
0.8

0.8
0.6

0.6
Densidad

Densidad
0.4

0.4
0.2

0.2
0.0

0.0

−3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 4

x x

La distribución Cauchy

Consideremos ahora la distribución Cauchy, cuya función de densidad de probabilidad es

1
f (x) = , x∈R
π (1 + x2 )

35
Se define la función de Supervivencia de una variable aleatoria, como: S(x) = 1 − F (x). Y
0
observemos que S (x) = −f (x). Entonces

S(x) f (x) πx2


Lim = Lim = Lim =1
x−→∞ (πx)−1 L0 Hb
ospital x−→∞ π −1 x−2 x−→∞ π (1 + x2 )

entonces

S(x) = 1 − F (x) ∼ (πx)−1

De donde tenemos que, para x > 0

 nx   nx 
S =1−F ∼ (nx)−1
π π

y por lo tanto

 nx    nx n
P Mn ≤ = 1−F
π π
  n
1 1
= 1− + o(1)
n x

−→ exp −x−1 F réchet α = 1




Las familias correspondientes a estas distribuciones del valor extremo.

Si introducimos parámetros de localización y escala a las distribuciones del valor extremo


anteriores, obtenemos una familia de distribuciones para cada una de ellas. A saber

Gumbel(x; µ, σ) = exp −e−(x−µ)/σ



x∈R

(
0 x< µ
F réchet(x; α, µ, σ) = −α 
exp − x-µ
σ
x ≥ µ, α > 0

(   α 
exp − − (x-µ)
σ
0 ≤ x < µ, α > 0
W eibull =
1 x≥0

36
Observamos que µ es el extremo izquierdo para la distribución de Fréchet y el extremo
derecho para la distribución Weibul.

Estos tres tipos de distribuciones se pueden combinar en una sola distribución (hiper modelo),
que se conoce como: La distribución generalizada de valores extremos (GVE). Que tiene la
forma

(   −1/ξ )
x−µ
G (x; ξ, µ, σ) = exp − 1 + ξ
σ +

con y+ = máx {y, 0} . Para ξ > 0 se tiene la distribución Fréchet con α = 1/ξ. Para ξ < 0,
la distribución Weibull con α = −1/ξ, y la distribución Gumbel se obtiene como el lı́mite
cuando ξ → 0. Al parámetro ξ se le conoce como parámetro de forma.

Excesos sobre un umbral

En coberturas de riesgo de un seguro, resultan de particular interés aquellos montos de re-


clamación que exceden cierto umbral. Es claro que el estudio de estos valores que exceden
el umbral, es de vital importancia para la solvencia de la compañı́a. Por tal razón, puede
ser más conveniente utilizar modelos con umbrales para estudiar estos valores extremos, que
utilizar una distribución GVE.

37
104
103


Exceso

Umbral
102

● ● ●
● ●

● ● ● ●


101

● ● ● ●
● ● ●
● ● ● ● ●
● ● ●
y



● ●● ● ● ●
● ● ●
100

● ● ●●
● ● ●
● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ●
● ●
● ●
● ● ● ●
● ● ● ●
● ●
● ●
99


● ● ● ●
● ●
● ● ●
● ●
● ● ●

● ●
● ●
98


97

0 20 40 60 80 100

Entonces, estamos interesados en la distribución de

F (x + u) − F (u)
Fu (x) = P (X − u < x|X > u) =
1 − F (u)

A Fu (·) se le conoce como la distribución de vida residual, del exceso de vida o del exceso
de pérdida, esta última definición es la que tiene sentido para el área aseguradora.

Distribución Pareto Generalizada

Si la función de distribución del máximo de una variable aleatoria es un elemento de GVE,


entonces, para u suficientemente grande, la distribución Fu (·), puede aproximarse a través
de la distribución Pareto generalizada, cuya función de distribución es

 −1/ξ
ξx
H (x; ξ, β) = 1 − , x>0
β +

con β = σ + ξ (u − µ), σ, ξ, µ los parámetros correspondientes al elemento de GVE, u el valor


del umbral.

38
Propiedad importante de la distribución Pareto Generalizada

• Para ξ ∈ R , F es un elemento de la familia GVE, si y sólo si


lı́m sup Fu (x) − Hξ,β(u) (x) = 0
u↑wF 0<x<wF −u

para alguna función positiva β y wF el extremo final de F . Esta propiedad dice que la
función Pareto generalizada es una buena aproximación de los excesos de una distribución
de la familia GVE, para un umbral, u, grande. Este resultado se puede reformular como:

1 − Fu (x) = Pr (X − u > x|X > u) ≈ 1 − Hξ,β(u) (x), x > 0

Es necesario que u sea lo suficientemente grande.

• Si X tiene función de distribución Pareto Generalizada con parámetros ξ < 1 y β, Entonces,


para u < wF

β + ξu
e(x) = E (X − u|X > u) = , β + ξu > 0
1−ξ

Estos dos resultados proporcionan una técnica gráfica para elegir un umbral, u, suficiente-
mente grande para justificar que Fu se aproxime por una Pareto Generalizada, a partir de
la versión muestral, en , de esta función y su linealidad para una distribución GVE.

Estrategias de modelación

Ajuste de Máximos Anuales o Método de Bloques

Una forma de analizar datos con valores extemos es realizando las estimaciones de los paráme-
tros de la siguiente manera. Consideramos una colección de datos que agrupamos en bloques
disjuntos de datos consecutivos y de igual longitud. Si el parámetro es el tiempo (recordar
que esta metodologı́a se ha utilizado, sobre todo, en cuestiones ambientales), cada conjunto
contiene la información correspondiente a un periodo fijo de tiempo, digamos un año. En
cada caso se escoge el periodo para compensar las variaciones internas. Es decir, tenemos

39
 
(1) (1) (1)
X = X1 , X2 , ..., Xs(1)
 
(2) (2)
X(2) = X1 , X2 , ..., Xs(2)

..
.
 
(n) (n)
X(n) = X1 , X2 , ..., Xs(n)

Se asume que cada uno de estos vectores son i.i.d, aunque sus componentes pueden no serlo.
Se elige el intervalo de tiempo s de tal manera que se cumpla este supuesto. Entonces,
haremos estimación e inferencias sobre la muestra i.i.d. para un modelo Gθ con los datos:

 
(i) (i)
Mi = máx X1 , X2 , ..., Xs(i) , i = 1, 2, ..., n

Mostraremos cómo ajustar un modelo a datos reales mediante esta estrategia, utilizando la
librerı́a extRemes de R.

El método de estimación por bloques no hace el mejor uso de la información disponible,


pues de cada bloque sólo utilizamos un dato: el valor máximo. Sin embargo, otros valores
con registros altos en el mismo bloque pueden tener información útil sobre la cola de la
distribución de la muestra, que deberı́amos considerar para el análisis. Si tenemos información
sobre la serie completa de datos, una alternativa es dejar de lado el procedimiento de bloques
y estudiar todos los valores altos de la muestra.

El segundo enfoque que utilizaremos para modelar datos extremos será el que considera los
valores por encima de un umbral. Entonces, la idea es seleccionar un umbral alto y considerar
los valores de la muestra que están por encima de este umbral, para ajustar un modelo Pareto
Generalizado.

Ejemplificaremos este ajuste a través de varias librerı́as de R.

40
Ajuste de una distribución Pareto Generalizada a la base de datos
de reclamaciones grandes, de la sociedad de actuarios

Como vimos, nuestra segunda opción importante en los modelos de teorı́a del valor extremo,
es la Pareto Generalizada, que surge a partir del método conocido como P.O.T. (Peaks over
threshold method), que consiste en modelar los valores extremos que exceden a un cierto
umbral, u, ya sea que modelemos todos los datos, Xi , i = 1, 2, ..., n, o los valores que exce-
den a este umbral Yi = Xi − u, i = 1, 2, ...n. Al intentar aplicar este método surgen algunas
cuestiones que debemos resolver

La primera consiste en determina o elegir el umbral, u. Esta elección está sujeta a un


problema conocido como el problema de la varianza y el sesgo. Porque, cuanto menor
sea el umbral mayor es el número de observaciones que utilizaremos para ajustar el
modelo, lo que, generalmente, puede disminuir la varianza de los estimadores, pero
puede incrementarse el sesgo si se utilizan observaciones que no pertenecen a la cola de
la distribución. Por otro lado, si se reduce el número de observaciones (con un umbral
más grande), se reduce el sesgo, porque podemos suponer que todas las observaciones
sı́ pertenecen a la cola de la distribución, pero, al utilizar pocos datos en nuestra esti-
mación, incrementamos la varianza de los estimadores y, en consecuencia, de nuestro
modelo.

La segunda cuestión es determinar qué función de distribución ajusta a esos datos


que exceden el umbral fijado en el paso anterior. Por supuesto, se trata de encontrar
una distribución condicional al hecho de que los valores extremos hayan superado el
umbral, u. Como ya dijimos, esta distribución es la distribución Pareto Generaliza. Este
resultado está garantizado por el teorema de Pickands-Balkema-de Haan (Balkema y de
Haan (1974); Pickands (1975)) que muestra que bajo condiciones de máximos dominios
de atracción1 la distribución generalizada de Pareto es la distribución lı́mite para los
1
Sea {Xn , n ≥ 1} una sucesión de v.a.i.i.d. con función de distribución común F. Sea,

Mn = max {Xi , i = 1, 2, ..., n}

Decimos que la función de distribución, F, está en el dominio de atracción de la distribución de valores


extremos H (notación: F ∈ D(H)) si existen constantes an > 0, bn ∈ R, tales que

Fn (an X + bn ) = P (Mn ≤ an X + bn ) → H(x)

41
excesos sobre un umbral u cuando éste es grande.

Elección del umbral

El teorema de Pickands-Balkema-de Haan, enuncia que la distribución generalizada de Pa-


reto ajusta aquellos valores que exceden un determinado umbral cuando este umbral, u, es
suficientemente grande. La dificultad radica en determinar ese umbral a partir del cual es
posible ajustar la distribución de Pareto Generalizada.

Uso de la función media de exceso

La función media de exceso teórica de la distribución de Pareto Generalizada es:

β + ξu β ξ
e(x) = E (X − u|X > u) = = + u, β + ξu > 0
1−ξ 1−ξ 1−ξ

ξ
que es una función lineal de u, con pendiente , una vez que se ha definido un umbral
1−ξ
adecuadamente grande.

Dada una muestra ordenada de forma descendente: (X1:n , X2:n , ..., Xn:n ), la función empı́rica
de exceso medio se estima con la siguiente expresión :

n
X
(Xi:n − u)+
i=1
êx (x) = n
X
1(Xi:n >u)
i=1

En el numerador se encuentra la suma de los excesos sobre el umbral, u, y en el denominador


el número de valores que cumplen la condición de ser superiores a este umbral, es decir, se
estima a través de la media aritmética de los valores que exceden a u.

En la práctica, es común tomar como umbrales los propios datos de la muestra, esto es,
u = Xk+1 , y esta expresión reduce a:

42
k
X
Xi
i=1
ên (Xk ) = − Xk+1
k

La gráfica de la función media de excesos es una gráfica de los puntos

(Xk:n , ên (Xk:n )) , k = 1, ..., n − 1

Entonces, para encontrar el umbral, u, para el cual es razonable pensar que el ajuste a través
de la distribución generalizada de Pareto es adecuado, se debe elegir el umbral, tomando el
valor a partir del cual la gráfica toma una forma lineal ascendente, ya que la gráfica de exce-
so medio para la distribución Pareto generalizada es lineal y tiende a infinito con pendiente
positiva.

43
MEDIDAS DE RIESGO
Los modelos probabilı́sticos (en nuestro caso, las densidades o distribuciones mencionadas
anteriormente) nos proporcionan una descripción de la exposición al riesgo, no obstante,
necesitamos describir esta exposición con algún valor numérico o con unos pocos valores
numéricos. Estos valores son funciones del modelo y se conocen como indicadores clave de
riesgo. Entonces, estos indicadores son resúmenes numéricos sobre el comportamiento de
nuestro riesgo, parecidos a los que utilizamos para describir una variable aleatoria. Estos
indicadores informan a los actuarios y a los administradores de riesgo, sobre el grado en que
la compañı́a está sujeta a un particular aspecto del riesgo.

• Una medida de riesgo está en correspondencia con la pérdida asociada a este riesgo

• Una medida de riesgo proporciona un solo número que intenta cuantificar la exposición a
este riesgo.

• Esta medida se denota como ρ(x). Es conveniente pensar a ρ(x) como la cantidad de acti-
vos requeridos para protegerse de las consecuencias adversas del riesgo, X.

Coherencia de una medida de riesgo


Wang, Young y Panjer (1997) introducen ciertos axiomas, que representan propiedades desea-
bles de una medida de riesgo. Artzner et al. (1997) introduce el concepto de coherencia y se
considera el parteaguas en medición de riesgo.

Una medida de riesgo coherente, es una medida de riesgo ρ(x) con las cuatro propiedades
siguientes. Para cualesquiera dos variables aleatorias de pérdida X y Y :

1.- Subaditividad : ρ(X + Y ) ≤ ρ(X) + ρ(Y )

2.- Monotonı́a: Si X ≤ Y para todas las posibles consecuencias, entonces ρ(X) ≤ ρ(Y )

3.- Homogeneidad positiva: Para cualquier constante positiva c, ρ(cX) = cρ(X)

4.- Invarianza a translaciones: Para cualquier constante positiva c, ρ(X + c) = ρ(X) + c

Subaditividad significa que la medida de riesgo (y, por lo tanto, el capital requerido para

44
darle soporte) de dos riesgos combinados, no será mayor que los riesgos considerados por
separado. Subaditividad refleja el hecho que diversificar el riesgo puede ser benéfico para
una empresa.

Valor en Riesgo (VaR)


El V aR se ha vuelto la medida estándar para medir exposición a riesgo. En términos genera-
les, V aR es el capital requerido para asegurar, con alto grado de certeza, que la empresa no
será técnicamente insolvente. El grado de certeza se elige de manera arbitraria. En la prácti-
ca se pueden elegir valores grandes como 99.95 % para toda la empresa, o 95 % para una
sola clase de riesgo. Entonces, el V aR mide la pérdida que se podrı́a sufrir, en condiciones
normales del mercado, en un intervalo de tiempo y con un determinado nivel de probabilidad
o confianza.

Por ejemplo, un inversionista que tiene un portafolios de activos por un valor de 10 millones
de pesos, podrı́a establecer que el V aR diario de su portafolios es 250, 000 con un nivel de
confianza de 95 %. En otras palabras, solamente uno de cada 20 dı́as de operación del mer-
cado (1/20 = 5 %), en condiciones normales, la pérdida que ocurrirá puede ser mayor o igual
a 250, 000.

Definición técnica del VaR

Sea X una v. a. con función de distribución, F (x), que denota pérdida. El Valor en Ries-
go (VaR) de X al 100 %p nivel de confianza, denotado por V aRp (X) o πp , es el p-ésimo
percentil de la distribución de X.

P(X > πp) = 1 − p


Pese a la popularidad de esta medida, conviene aclarar que V aR no es subaditiva, lo que la
convierte en una medida incoherente de riesgo, y no refleja el efecto por la diversificación de
los riesgos.

Ejemplos

Calculemos el V aR de algunas de las distribuciones de uso común como modelos de pérdida

45
Distribución Normal(µ, σ 2 ). Aunque esta distribución puede ser cuestionable como modelo
de pérdida, suele considerarse por su gran uso en estadı́stica. Para encontrar su V aR, tenemos

P [X > V aRp (x)] = 1 − p ⇒ P r [X ≤ V aRp (x)] = p ⇒


 
X −µ V aRp (x) − µ
P ≤ =p⇒
σ σ
 
V aRp (x) − µ V aRp (x) − µ
P z≤ =p⇒ = Φ−1 (p) ⇒ V aRp (x) = µ + σΦ−1 (p)
σ σ

Exponencial(θ)

Recordar que su función de distribución es 1 − e−x/θ . Entonces

P [X ≤ V aRp (x)] = p ⇒ 1 − e−V aRp (x)/θ = p ⇒ V aRp (x) = −θlog(1 − p)

Log-normal(µ, σ 2 ) y Pareto(α, θ) se dejan como ejercicio al lector.

TailVaR (TVaR)
Definición técnica del TVaR

Sea X v. a. con función de distribución F (X), que denota pérdida. El TVaR de X al 100 %p
nivel de seguridad, denotado por T V aRp (X), es la pérdida esperada dado que ésta excede
el p-ésimo percentil de la distribución de X.

Z ∞
xf (x)dx
πp
T V aRp (X) = E(X|X > πp ) =
1 − F (πp )

Una forma alternativa más interesante de escribir esta cantidad, es:

Z 1
V aRu (X)du
p
T V aRp (X) = E(X|X > πp ) =
1−p

Esta expresión del T V aR implica que puede verse como un promedio de todos los valores
V aR por encima del valor de seguridad p. Lo que significa que proporciona mucho más in-
formación sobre la cola de la distribución que la que da el V aR. T V aR recibe otros nombres

46
en el campo de los seguros: Conditional Tail Expectation(CTE), Tail Conditional Expecta-
tion (TCE) y Expected Shortfall (ES). Finalmente, podemos decir que el T V aR es el valor
esperado de las perdidas en aquellos casos en que se excede el nivel de seguridad previamen-
te fijado. T V aR refleja con mayor fidelidad los eventos extremos que pueden amenazar la
posición financiera de la entidad. Otra forma común de escribir el T V aR es

Z ∞
(x − πp )f (x)dx
πp
T V aRp (X) = E(X|X > πp ) = πp + = V aRp (X) + e(πp )
1−p

A e(πp ) se le conoce como la función media de exceso de pérdida. Entonces, T V aR es mayor


que su correspondiente V aR por el promedio de exceso de todas las pérdidas que exceden al
V aR.

Contrario al V aR, T V aR es una medida de riesgo coherente, por lo que refleja el efecto de
la diversificación de riesgos.

Dado un umbral de seguridad o confianza, en datos reales, el T V aR es una medida más


difı́cil de calcular que el V aR, ya que ambas se calculan con los datos (generalmente escasos)
acumulados en la cola de la distribución (mayor error de estimación).

Ejemplos

Exponencial(θ)

Z ∞
S(x)dx
πp
V aRp (X) = −θlog(1 − p), y podemos mostrar que, e(x) = . Con S(·) la función
S(πp )
de supervivencia de la variable aleatoria. Utilizando este resultados tenemos

Z ∞ ∞
e−x/θ dx −θe −x/θ
θe−πp /θ θ(1 − p)

πp πp
e(x) = = = = =θ
1−p 1−p 1−p (1 − p)

Por lo tanto, T V aRp (X) = V aRp (X) + e(x) = −θlog(1 − p) + θ.

Pareto(α, θ)

47
Esta distribución tiene

 α
θ
V aRp = θ (1 − p)−1/α − 1
 
y S(x) =
θ+x

Z ∞
S(x)dx
πp
Calculemos e(x) =
S(πp )

Z ∞  α
θ  α
dx α 1−α θα (θ + πp ) 1
πp θ+x θ (θ + πp ) θ+πp
e(x) = = =
1−p α−1 (α − 1)(1 − p)

si remplazamos πp , por su valor y realizamos las operaciones algebraicas, obtenemos

θ + πp
e(x) =
α−1

Por lo que finalmente tenemos

θ + πp V aRp (X) + θ
T V aRp (X) = V aRp (X) + = V aRp (X) +
α−1 α−1

Casos Normal y Log-normal se dejan como ejercicio al lector.

48
Distribuciones discretas
Además de modelar el monto de reclamación, también es de interés modelar la frecuencia
con las que estas pérdidas ocurren. Como es de suponer, los modelos para caracterizar esta
frecuencia de pérdidas, corresponden a distribuciones para variables aleatorias discretas. Es
importante señalar que este tipo de distribuciones también pueden utilizarse cuando los mon-
tos de pérdida se agrupan en una tabla de frecuencias, situación muy común en el quehacer
de las compañı́as aseguradoras.

Antes de iniciar la presentación de los modelos para v.a. discretas y sus caracterı́sticas, es
conveniente recordar una importante función asociada a estas variables.

La función generadora de probabilidades


Sea N una v.a. discreta, con función de probabilidad denotada como pk = P(N = k);
k = 0, 1, 2... que representa, en nuestro caso, la probabilidad de que exactamente k reclama-
ciones ocurran. La función generadora de probabilidades (f.g.p.) para esta v.a. es


X
N
pk z k

PN (z) = E z =
k=1

que recibe este nombre porque

1 dk
PN (0) = P (N = k)
k! dz k

La familia de distribuciones Binomial(n,q)


Esta distribución caracteriza el número de éxitos o fracasos, según sea el caso, en n ensayos
Bernoulli independientes. Su función de densidad de probabilidad es

 
n k
pk = P (N = k) = q (1 − q)n−k , x = 0, 1, ..., n, 0 < q < 1
x

49
Cuyas caracterı́sticas son

n
• E (N ) = nq; V (N ) = nq(1 − q); P (N ) = (1 + q(z − 1))n ; MN (t) = [(1 − q) + qet ]

Distribución Binomial(50,0.2) Distribución Binomial(50,0.5) Distribución Binomial(50,0.9)

0.10
0.12

0.15
0.10

0.08
0.08

0.10
0.06
p(x)

p(x)

p(x)
0.06

0.04
0.04

0.05
0.02
0.02
0.00

0.00

0.00

x x x

La familia de distribuciones Geométrica(β)


La distribución geométrica caracteriza el número, X, de ensayos Bernoulli necesarios para
obtener un éxito; x = 1, 2, 3, ..., o también es...

La distribución de probabilidad del número Y=X-1 de fallas antes de obtener el primer éxito;
y = 0, 1, 2, 3, ....

β
Entonces, si p = es la probabilidad de un éxito, la función de densidad de probabilidad
1+β
de esta variable aleatoria es

 k−1
β 1
P (N = k) = ; k = 1, 2, ... o bien
1+β 1+β

50
 k
β 1
P (N = k) = ; k = 0, 1, 2, ...
1+β 1+β

Con caracterı́sticas

−1
• E (N ) = β; V (N ) = β(1 + β); P (N ) = (1 − β(z − 1))−1 ; MN (t) = [1 + β (1 − et )]

Distribución Geométrica(50,1) Distribución Geométrica(50,1/3) Distribución Geométrica(50,1/4)

0.20
0.5

0.30
0.4

0.25

0.15
0.20
0.3

0.10
p(x)

p(x)

p(x)
0.15
0.2

0.10

0.05
0.1

0.05
0.00

0.00
0.0

x x x

La familia de distribuciones Poisson(λ)


Esta es, probablemente, la más importante de las distribuciones discretas para modelar la
frecuencia de reclamaciones. La distribución Poisson puede contemplarse como el caso lı́mite
de la distribución Binomial(n, p), donde n es muy grande y la probabilidad de ocurrencia p
es constante y muy pequeña. En este caso, N sigue una distribución Poisson con parámetro
λ = np. Decimos que N ∼ P oisson(λ), si N tiene función de densidad de probabilidad dada
por

λk e−λ
P (N = k) = ; k = 0, 1, 2, ... λ > 0
k!

51
Con caracterı́sticas

t
• E (N ) = λ; V (N ) = λ; P (N ) = eλ(z−1) ; MN (t) = eλ(e −1)

El hecho de que la Poisson tenga media y varianza igual, proporciona un fuerte evidencia
empı́rica para determinar si un conjunto particular de frecuencias de reclamaciones sigue
esta distribución. Bastarı́a calcular la media y varianza de los datos y ver si estas cantidades
son similares.

Distribución Poisson(1) Distribución Poisson(3) Distribución Poisson(10)

0.12
0.35

0.20
0.30

0.10
0.25

0.15

0.08
0.20
p(x)

p(x)

p(x)

0.06
0.10
0.15

0.04
0.10

0.05

0.02
0.05
0.00

0.00

0.00

x x x

Familia de distribuciones Binomial Negativa (β, k)


Una distribución que puede usarse como alternativa a una Poisson es la Binomial Negativa.
Existen al menos dos razones para considerar esta distribución en lugar de la Poisson.

Dado que esta distribución tiene dos parámetros, es más flexible, en el sentido de que
puede tener formas más diversas, que la Poisson que únicamente tiene un parámetro.

Dado que su varianza es más grande que su media, constituye también una alternativa

52
para modelar datos de conteo sobredispersos, que son muy comunes en aplicaciones
reales.

Una forma estándar de concebir esta distribución es en una situación de muestreo por cuota.
Este esquema de muestreo es tı́pico de investigaciones de mercado, en las que se pide a un
individuo entrevistar a un número no definido de sujetos (n) hasta que una parte de ellos (m:
cuota fijo) haya contestado afirmativamente a alguna pregunta o haya preferido un producto
bajo investigación para su comercialización. Por supuesto, asumimos que la probabilidad,
p, de que obtengamos una respuesta afirmativa, es la misma para cualquier sujeto. Este
esquema es similar al que se modeları́a con una Binomial, pero, mientras en la Binomial el
número de “éxitos”, m, es aleatorio y el número de ensayos, n, es fijo, en este caso sucede
exactamente al revés: el número de “éxitos”, m, es fijo (no aleatorio) y el número de ensayos
(n: total de entrevistados necesarios para tener m éxitos) es aleatorio.

Para deducir la función de masa de probabilidad, consideremos el número de fracasos que


han ocurrido hasta obtener m éxitos. Si suponemos que han ocurrido k fracasos antes de
obtener estos m éxitos, es claro que n=m+k y que en los primeros m+k-1 ensayos debieron
de haber ocurrido m-1 éxitos, ya que en el siguiente ensayo debió ocurrir el último éxito que
completa la cuota requerida. Entonces, dado que hemos fijado la condición de m-1 éxitos
en los primeros m+k-1 ensayos, este hecho puede modelarse a través de una v.a. Binomial
(m+k-1, p), y como requerimos que en el último ensayo, que es independiente de los pri-
meros m+k-1, ocurra necesariamente un éxito, entonces la función de densidad de esta v.a. es

  m−1  k
m+k−1 β 1 β
P(N = k) = ∗ , entonces
m−1 1+β 1+β 1+β
  m  k
m+k−1 β 1
P(N = k) = k=0,1,2,...
k 1+β 1+β

ya que

   
m+k−1 m+k−1
=
m−1 k

Obsérvese que si k = 1, la Binomial Negativa se convierte en la Geométrica. Al igual que en

53
β
nuestra definición de la densidad geométrica, aquı́ p =
1+β

Caracterı́sticas de esta v.a.

 k
−k 1
E(N ) = kβ; V(N ) = kβ(1 + β); PN (t) = [1 − β(z − 1)] ; MN (t) =
1 + β(1 − et )

Ya que β > 0, entonces la varianza de la binomial negativa es mayor que su media, razón
por la que suele usarse como alternativa a la Poisson cuando ésta es sobre dispersa (V ar >
media).

Distribución Binomial negativa(2,1/2) Distribución Binomial negativa(2,0.3) Distribución Binomial negativa(2,0.7)


0.25

0.12

0.4
0.20

0.10

0.3
0.08
0.15
p(x)

p(x)

p(x)
0.06

0.2
0.10

0.04
0.05

0.1
0.02
0.00

0.00

0.0

x x x

54
Distribuciones de la clase (a,b,0)
Ahora vamos a definir una clase general de distribuciones discretas, que será de mucha uti-
lidad para la modelación de frecuencias de reclamaciones.

La clase (a,b,0)

Definición 2 Una distribución de frecuencias {pk } es un miembro de la clase (a, b, 0) si exis-


ten constantes a y b tales que

pk b
=a+ , k = 1, 2, 3, ...
pk−1 k

donde a y b son constantes propias de cada distribución. En la siguiente tabla se muestran


los miembros de esta clase, con cada uno de sus valores de estas constantes, ası́ como el valor
de la función de probabilidad en cero, p0 .

Distribuciones de la clase (a,b,0)


Distribución a b p0

q q
Binomial(n,q) − (n + 1) (1 + q)n
1−q 1−q

Poisson(λ) 0 λ e−λ

β β
BN(β,k) (k − 1) (1 + β)−k
1+β 1+β

β
Geométrica(β) 0 (1 + β)−1
1+β

En conclusión, La clase(a, b, 0) es una hiper familia de distribuciones discretas, que tiene


como miembros distinguidos a las distribuciones mencionadas.

Esta clase provee una forma de encontrar las probabilidades de las distribuciones discretas, a
través de esta fórmula recursiva, y resulta bastante práctica al momento de querer ajustarlas
a nuestros datos. Además, podemos reescribir la fórmula de tal manera que quede como una
función lineal. Es decir

55
kpk
= ak + b, k = 1, 2, 3, ...
pk−1

Con esta forma lineal es posible identificar, por medio de su pendiente, la distribución de
probabilidad. Esto es, si la pendiente es igual a cero, entonces se trata de una distribución
Poisson; si es negativa, entonces será Binomial y si es positiva es una distribución Binomial
Negativa.

Concretamente tenemos

kpk q q
Binomial(n, p) = (n + 1) − k que es una lı́nea recta con pendiente
pk−1 1−q 1−q
negativa

kpk
P oisson(λ) = λ + 0k que es una lı́nea recta con pendiente cero
pk−1

kpk β β
BN (β, r) = (r − 1) + k que es una lı́nea recta con pendiente positiva.
pk−1 1+β 1+β

Distribución Poisson
5.04
5.02
kpk pk−1

5.00
4.98
4.96

2 4 6 8 10

56
kpk pk−1

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

2
4

57
k
6
Distribución Binomial

8
10
Distribución Binomial Negativa
5
4
3
kpk pk−1

2
1

2 4 6 8 10

58
Distribuciones de clase (a, b, 1)
Algunas veces las distribuciones de frecuencia anteriores no describen adecuadamente el com-
portamiento de un conjunto de datos real. Por ejemplo, porque la distribución elegida no
ajusta adecuadamente a la cola de los datos, o porque el miembro elegido de la clase (a, b, 0)
no captura, en alguna parte, la forma de la distribución de los datos. Un problema adicional
ocurre con la cola izquierda de la distribución, en particular con la probabilidad en cero.

Para datos de seguros, la probabilidad en cero denota la probabilidad de que no ocurran


reclamaciones en un determinado periodo de tiempo. En situaciones donde la ocurrencia de
pérdidas es baja, la probabilidad en cero toma un valor grande. Por lo que hay que prestar
especial atención sobre el ajuste en este punto. En contraste, existen situaciones en las que
la probabilidad de no sufrir pérdidas en un periodo determinado, es prácticamente cero, co-
mo sucede, por ejemplo, para un seguro de autos para una gran flota de vehı́culos, o en un
seguro de enfermedades. Es fácil hacer un ajuste a la probabilidad en cero de los modelos
que componen la clase (a, b, 0), para considerar estas situaciones.

La clase (a, b, 1) es la familia de distribuciones que satisfacen la fórmula recursiva

pk b kpk
=a+ k = 2, 3, ... ó = ak + b (f orma lineal)
pk−1 k pk−1

La única diferencia con la anterior es que ésta inicia en p1 y no en p0 . Identificamos dos tipos
de estas distribuciones

• Truncada en cero (zero-truncated): cuando p0 = 0.

• Modificada en cero (zero-modified): cuando p0 > 0.

Es claro que lo que estamos haciendo es modificar a nuestra voluntad, el valor asignado a las
probabilidades para el valor nulo de la variable aleatoria en cuestión. Estas modificaciones
deben responder al problema particular que estemos modelando.

Una distribución de la clase (a, b, 1) tiene la misma forma que su correspondiente en la clase
(a, b, 0), en el sentido que sus probabilidades son las mismas salvo una constante de propor-
cionalidad.

59
Relación entre estas clases


X ∞
X
k
Sea P (z) = M
pk z la fgp de un miembro de la clase (a, b, 0) y P (z) = pM k
k z la fgp del
k=0 k=0

miembro correspondiente de la clase (a, b, 1). Como dijimos, se tiene que

pM
k = cpk , k = 1, 2, 3, ...

con pM
0 un número arbitrario. Entonces


X
M
P (z) = pM
0 + pM
k z
k

k=1


X
= pM
0 +c pk z k
k=1

= pM
0 + c [P (z) − p0 ]

ya que P M (1) = P (1) = 1, entonces

1 = pM
0 + c(1 − p0 )

de donde obtenemos

1 − pM
0
c= , o pM
0 = 1 − c(1 − p0 )
1 − p0

Si remplazamos este valor en la expresión para P M (z), obtenemos

1 − pM 1 − pM
 
0 0
1− + P (z)
1 − p0 1 − p0

que es un promedio ponderado de las fgps de una distribución degenerada y la del miembro
correspondiente de la clase (a, b, 0). Además tenemos

60
1 − pM
0
pM
k = pk , k = 1, 2, ...
1 − p0

Si ahora denotamos P T (z) a la fgp de una distribución truncada en cero, correspondiente


a la fgp de un miembro de la clase (a, b, 0), P (z). Remplazando pM
0 = 0 en las expresiones

anteriores, tenemos

P (z) − p0
P T (z) = ,
1 − p0
pk
pTk = , k = 1, 2, ...,
1 − p0

pM
k = (1 − pM T
0 )pk , k = 1, 2, ... y

P M (z) = pM M T
0 + (1 − p0 )P (z)

también un promedio ponderado entre una distribución degenerada y el correspondiente


miembro de la clase (a, b, 0), truncada en cero.

61
Ejercicio urgente pa’ aclarar esto

Consideremos una binomial negativa (β = 0.5, r = 2.5). Determinemos los primeros cuatro
valores de sus probabilidades para los casos cero-truncado y cero-modificado, con pM
0 = 0.6.

Primero, observemos que BN pertenece a la clase (a, b, 0). En este caso

0.5 1 (2.5 − 1) ∗ 0.5 1


a= = , b= = ,y
1.5 3 1.5 2

p0 = (1 + 0.5)−2.5 = 0.362887

Si no tuvieramos ninguna modificación, entonces calcuları́amos los otros tres valores a través
de la fórmula recursiva correspondiente, como

   
b 1
pk = pk−1 a + = pk−1 a + b
k k

Dado que ya calculamos las constantes a y b, y la primer probabilidad, p0 , las probabilidades


restantes son

 
1 11
p1 = 0.362887 + = 0.302406
3 21
 
1 11
p2 = 0.302406 + = 0.176404
3 22
 
1 11
p3 = 0.176404 + = 0.088202
3 23

pero estas modificaciones cambiarán las probabilidades del modelo original. En el caso cero-
truncado forzamos el modelo a tomar pT0 = 0. Ya que el modelo original asigna una pro-
babilidad positiva al valor cero, tendremos que incrementar las probabilidades originales en
este modelo truncado en cero. Entonces, el primer valor de esta distribución truncada es
pT1 = 0.302406/(1 − 0.362887) = 0.474651. A partir de este valor iniciamos el proceso recur-
sivo para obtener los dos restantes

 
1 11
pT2 = 0.474651 + = 0.276880
3 22

62
 
1 11
pT3 = 0.276880 + = 0.138440
3 23

Por otro lado, en el caso de cero-modificado observamos que se asigna una probabilidad ma-
yor en cero, pM
0 = 0.6, de la que se tiene con el modelo original, por lo tanto, habrá que

decrementar las probabilidades originales. Dado este valor inicial, calculamos


pM
1 = (1 − 0.6)(0.302406)/(1 − 0.362887) = 0.189860. De aquı́ tenemos

 
1 11
pM
2 = 0.189860 + = 0.110752
3 22
 
1 11
pM
3 = 0.110752 + = 0.055376
3 23

63
Variables y Modificaciones de cobertura
En esta sección vamos a definir conceptos necesarios para el desarrollo de la teorı́a probabı́lis-
tica y estadı́stica que abarcan los seguros. Primero, es claro que existen distintos tipos de
acuerdos entre las compañı́as aseguradoras y el asegurado, bajo los cuales se buscan satisfa-
cer las necesidades de ambos, a través de las distintas coberturas que se ofrecen en las pólizas
de seguros. Entonces, para desarrollar los modelos que contemplen estas modificaciones de
cobertura, es indispensable definir las nuevas variables que generalmente se observan en los
diversos tipos de cobertura, y por medio de las cuales desarrollaremos la teorı́a posterior.

Hasta ahora, hemos supuesto que la cantidad de pérdida, X, es también la cantidad a pagar
por las reclamaciones. Sin embargo, hay modificaciones a las pólizas por las que el asegura-
dor puede ser responsable únicamente de un porcentaje o proporción de esta pérdida, que
constituye propiamente la severidad de la misma. Por ejemplo cuando la póliza tiene:

• Deducibles
• Lı́mites de póliza
• Coaseguro

Antes de representar estas modificaciones al pago de las pérdidas mediante variables alea-
torias y las funciones que las describen, es conveniente distinguir entre dos asociadas a esta
situación. Una v.a. relacionada al pago de la pérdida, en la que el valor cero es posible, y
ocurre cuando hay una pérdida sin pago. La segunda corresponde a la que mide “el pago del
pago”, que queda indefinida si no hay pago.

Definición Deducible: Cantidad o porcentaje establecido en una póliza cuyo importe debe
superarse para que se pague una reclamación.

En téminos técnicos: Las pólizas de seguro se venden con un deducible, d, por pago de la
pérdida. Cuando la pérdida, x, es menor que d, la compañı́a aseguradora no paga nada.
Cuando la pérdida es superior a d, la compañı́a paga x − d. Entonces, definimos las variables
aleatorias asociadas:

La siguiente variable que denota “el pago del pago”

64

no def inida,
 si X ≤ d
P
Y = .

X − d, si X > d

Esta variable tiene dos caracterı́sticas importantes, la primera de ellas, es que está truncada
por la izquierda, ya que aquellas observaciones por debajo del valor del deducible, d , son
omitidas y está trasladada debido a que los valores que toma la v.a. empiezan a partir de d.

Mientras que la que está asociada al pago por la pérdida es:


 0, si X ≤ d
Y L = (Y − d)+ =
X − d, si X > d

Y L es una v.a. mixta con una masa de probabilidad en cero, y posiblemente continua para
valores mayores a éste. Notemos que Y P = Y L |Y L > 0 = Y L |X > d. Dadas las definiciones
anteriores, se tiene que:

fX (y + d)
fY P = ,y > 0
SX (d)

SX (y + d)
SY P =
SX (d)

FX (y + d) − FX (d)
FY P =
1 − FX (d)

fX (y + d)
hY P = = hX (y + d)
SX (y + d)

fY L = fX (y + d), y > 0

SY L = SX (y + d), y ≥ 0

FY L = FX (y + d), y ≥ 0

Donde S(·) y h(·) son las correspondientes funciones de supervivencia y riesgo, respectiva-
mente. Es importante remarcar que si se cambia el deducible, se modifica la frecuencia con

65
la que se hacen los pagos; sin embargo, la frecuencia de pérdidas permanece inalterada.

Ejemplo: Supongamos que nuestra variable individual de pérdida se distribuye Pareto con
α = 3 y θ = 2000, y tenemos un deducible de 500. Utilizando las fórmulas anteriores, tenemos

3(2000)3 (2000 + y + 500)−4 3(2500)3


fY P (y) = =
(2000)3 (2000 + 500)−3 (2500 + y)4
 3
2500
SY P (y) =
2500 + y
 3
2500
FY P (y) = 1 −
2500 + y
3
hY P (y) =
2500 + y

que es una distribución P areto(3, 2500). Para nuestra variable de pérdida, tenemos:

 


 0.488, si y = 0 

 0.512, si y = 0
 
fY L (y) = SY L (y) =
 3(2000)3  (2000)3
, si y > 0 , si y > 0

 

(2500 + y)4 (2500 + y)4
 

 


0.488, si y = 0 
 no def inida, si y=0
 
FY L (y) = hY L (y) =
 3(2000)3  3
1 − , si y > 0 , si y > 0

 

(2500 + y)4 2500 + y

66
Pareto(4,30) Pareto(4,30)
0.10

0.8

0.08

0.6
0.06

X
Y^L
f.d.p.

f.d.p.

0.4
0.04

X
Y^P

0.2
0.02
0.00

0.0

0 20 40 60 80 100 0 20 40 60 80 100

x x

Valores esperados
El k-ésimo momento de estas variables se definen como:

Z ∞
(x − d)k f (x)dx
d
 
E (X − d)k |X > d =
1 − F (d)

para Y P , y como:

Z ∞
(x − d)k f (x)dx
 
E (X − d)k+ =
d

para Y L . Definimos min(X, d) = (X ∧ d). Entonces, obsérvese que

X = (X − d)+ + (X ∧ d)

de donde se desprende que, en una póliza con un deducible ordinario, el costo esperado por
pérdida es:

67
E [(X − d)+ ] = E(X) − E(X ∧ d)

y el costo esperado por pago es:

E(X) − E(X ∧ d)
1 − F (d)

y, cómo se calcula E(X ∧ d)?. En general, el k-ésimo momento es:

Z d
xk f (x)dx + dk [1 − F (d)]
 
E (X ∧ d)k =
−∞

Tres resultados que serán de gran utilidad en el desarrollo de varias fórmulas y de cálculos,
son:

Z ∞ Z ∞
E(X) = [1 − F (x)] dx = S(x)dx
0 0
Z d
E [(X ∧ d)] = [1 − F (x)] dx
0
Z ∞
E [(X − d)+ ] = [1 − F (x)] dx
d

Calculemos estas esperanzas en el caso de la P areto(3, 2000), con deducible de 500.

2000
F (500) = 1 − = 0.488,
(2000 + 500)3
"  2 #
2000 2000
E(X ∧ 500) = 1− = 360
2 2000 + 500

Recordemos que la P areto(α, θ) tiene esperanza θ/(α − 1). Entonces, nuestra variable que
denota esta pérdida tiene E(X) = 2000/2 = 1000. Por lo tanto, el costo esperado por pérdida
es 1000 − 360 = 640 y el costo esperado por pago es 640/(1 − 0.488) = 1250.

La tasa de eliminación de pérdidas y el efecto de inflación en deducibles ordinarios

Una cantidad que puede ser importante para evaluar el impacto de un deducible, es la tasa
de eliminación de pérdida.

68
Definición: La tasa de eliminación de pérdida es el cociente de decremento en el pago es-
perado con un deducible ordinario, respecto al pago sin este deducible. Sin el deducible, el
pago esperado es E(X). Con el deducible, este pago esperado es E(X) − E(X ∧ d). Por lo
tanto, la tasa de eliminación de pérdida es:

E(X) − [E(X) − E(X ∧ d)] E(X ∧ d)


=
E(X) E(X)

siempre que E(X) exista.

Siguiendo con nuestro ejemplo de la Pareto(3,2000), con un deducible ordinario de 500. La


tasa de eliminación de pérdida es 360/1000 = 0.36. Entonces, el 36 % de la pérdida puede
ser eliminada al introducir un deducible ordinario de 500.

El efecto de la inflación

Es obvio que la inflación incrementa los costos, pero cuando existe un deducible, el efecto de
la inflación se magnifica:

• Algunos eventos que formalmente producı́an pérdidas por debajo del deducible, ahora
requerirán de pago de la pérdida, por efecto de la inflación. Es decir, ahora hay más recla-
maciones que exceden el deducible.

• El efecto relativo de la inflación se magnifica, ya que el deducible se sustrae posterior a


la inflación. El deducible no incrementa con la inflación, pero los reclamos que exceden el
deducible crecerán más que la tasa de inflación. Por ejemplo, suponga que un evento produce
una pérdida de 600 sin efecto de inflación, y tiene un deducible de 500, entonces, el pago es
de 100. Si la inflación es del 10 %, la pérdida incrementará a 660, y el pago a 160, lo que
equivale a un incremento del 60 % sobre el pago sin inflación, y este costo extra debe ser
absorvido por la aseguradora.

Pago esperado por reclamo, considerando la tasa de inflación

• Consideremos un deducible, d, y una tasa de inflación constante, r, a lo largo del periodo.

• El pago esperado por pérdida será

69
E [(1 + r)X] − E [(1 + r)X ∧ d]

que puede reescribirse como

  
d
(1 + r) E(X) − E X ∧
1+r

Veamos esto último

  
 d
E ((1 + r)X − d)+ = (1 + r)E X−
1+r +
  
d
= (1 + r) E(X) − E X ∧
1+r

Y el pago esperado considerando esta tasa de inflación, es:

  
d
(1 + r) E(X) − E X ∧
1+r
1 − F (d/(1 + r))

Seguimos con nuestro ejemplo. Supongamos una tasa de inflación r = 10 %. Recordemos que
el costo esperado por la pérdida es 640 y el pago esperado 1250. Con un 10 % de inflación
tenemos:

  "  2 #
500 2000 2000
E X∧ = E(X ∧ 454.55) = 1− = 336.08
1.1 2 2000 + 454.55

y el costo esperado por pérdida después del efecto de inflación es 1.1∗(1000−336.08) = 730.32,
que incrementa un 14.11 % ((730.32 − 640)/640), el pago sin inflación que era de 640. Para
calcular el costo por el pago, primero debemos calcular

 3
2000
F (454.55) = 1 − = 0.459
2000 + 454.55

70
de donde obtenemos que este costo es 730.32/(1 − 0.459) = 1350, que aumenta un 8 % con
respecto al de 1250 sin inflación.

Lı́mite de póliza

Lo opuesto al deducible es un lı́mite de póliza. Un lı́mite de póliza tı́pico es un contrato


donde, para las pérdidas menores a un umbral, u, la aseguradora paga la pérdida total, pero
para aquellas mayores a u, la aseguradora sólo paga u.

La v. a. asociada a esta reclamación es Y = min(X, u), que puede escribirse como:


 X, si X ≤ u
Y = (X ∧ u) =
u, si X > u

Con funciones de densidad y distribución dadas por:


 fX (y), y < u
fY (y) =
1 − FX (u), y = u


 FX (y), y < u
FY (y) =
1, y ≥ u

Obsérvese que los resultados que hemos establecido para un deducible, d, pueden adaptarse
directamente cuando se trata de un lı́mite de póliza, simplemente cambiando d por u.

Ahora desarrollemos nuestro ejemplo con un lı́mite en la póliza de 3000 y una tasa de infla-
ción del 10 %. El costo esperado en este caso es:

"  2 #
2000 2000
E(X ∧ 3000) = 1− = 840
2 2000 + 3000

y la proporción de reducción es (1000 − 840)/1000 = 0.16. Después de aplicar la tasa de


inflación, el costo esperado es:

71
"  2 #
2000 2000
1.1 ∗ E(X ∧ 3000/1.1) = 1.1 ∗ 1− = 903.11
2 2000 + 3000/1.1

con una proporción de reducción de (1100 − 903.11)/1100 = 0.179. El porcentaje de cre-


cimiento entre estos costos es de 7.5 % = 1 − (903.11/840), que es menor que la tasa de
inflación. El efecto es opuesto al del deducible.

Coaseguro

En pólizas con coaseguro, la cantidad de reclamo es proporcional a la cantidad de pérdida


por un factor de coaseguro. Este factor de coaseguro α, 0 < α < 1, es la proporción de
pago que le corresponde a la compañı́a aseguradora, mientras el poseedor de la póliza paga
la fracción restante. La v.a. para este pago es:

Y = αX
cuya densidad puede expresarse como:

1 y
fY (y) = fX
α α

y tiene valor esperado E(Y ) = αE(X).

Coaseguro, deducibles y lı́mites

Por supuesto, pueden aplicarse todas las modificaciones de una póliza que hemos visto: dedu-
cible ordinario, lı́mite de póliza, coaseguro e inflación para generar una póliza más general.
En este caso la variable aleatoria asociada es:

   
u d
Y = α(1 + r) X ∧ − X∧
1+r 1+r

que podemos reescribir

d


 0, X<



 1+r



Y = d u
α [(1 + r)X − d] , ≤X<


 1+r 1+r




 α(u − d), u
X≥

1+r

72
con un pago esperado por pérdida

    
L u d
E(Y ) = α(1 + r) E X ∧ −E X ∧
1+r 1+r

y valor esperado por pago

E(Y L )
E(Y P ) = d

1 − FX 1+r

Obsérvese que podemos calcular todas las expresiones involucradas en esta últimas fórmulas,
conociendo el modelo asociado a nuestra v.a. de pérdida.

Ejemplo: Una compañı́a de seguros ofrece dos tipos de pólizas: Tipo I y Tipo II. La de Tipo I
no tiene deducible, pero tiene un lı́mite de 3000. Por el contrario, la de Tipo II no tiene lı́mite,
pero tiene un deducible d. Las pérdidas siguien una distribución P areto(α = 3, θ = 2000).
Encontrar d de tal manera que las dos pólizas tengan la misma cantidad de pérdida esperada.

"  2 #
2000 2000
E(TI ) = E(X ∧ 3000) = 1− = 840
2 2000 + 3000
Z ∞ 3 " 2 #
2000 2000 2000
E(TII ) = E [(x − d)+ ] = dx =
d x + 2000 2 2000 + d

ya que E(TI ) = E(TII ), despejamos d, y tenemos que el deducible debe ser d = 182.18.

“Ostro”: Una compañı́a de mantenimiento de un hospital, paga cotidianamente el costo total


por uso de la sala de emergencia de sus clientes. Esta empresa ha visto que el costo sigue una
distribución exponencial con media 1000. La cı́a. está evaluando la posibilidad de imponer
un deducible de 200 a sus clientes, por el uso de esta sala.

• Calcule la tasa de eliminación de pérdida debido al deducible de 200. Interprete esta tasa.

• Suponga que la cı́a. decide imponer este deducible de 200 por el uso de la sala, además de
un lı́mite de 5000 y con un factor de coaseguro del 80 %. Calcule la cantidad de reclamación
esperada por el evento de pérdida y la cantidad esperada por pago, que debe realizar la

73
empresa.

• Suponga una inflación uniforme del 8 %. Calcule los pagos del inciso anterior aplicando
esta tasa.

Primero, observamos que la parametrización de la exponencial que tiene sentido, de acuerdo


a la información es:

1 −x/1000
f (x) = e
1000

que tiene E(X) = 1000. Para nuestro primer punto, tenemos que calcular

Z 200
e−x/1000
E(X ∧ 200) 0 1000 ∗ (1 − e−0.2 )
= = = 18.12 %
E(X) 1000 1000

El 18.12 % de la pérdida puede ser eliminada imponiendo un deducible de 200. Para nuestro
segundo punto, tenemos: d = 200, u = 5000 y α = 80 %, y debemos calcular

E(Y ) = α [E(X ∧ u) − E(X ∧ d)]

Observemos que el segundo término de la expresión entre corchetes cuadrados, es parte del
desarrollo que realizamos en el inciso anterior, y vale 181.2. Para el primer elemento de este
corchete, tenemos

Z 5000
e−x/1000 = 1000 ∗ 1 − e−5 = 993.262

E(X ∧ u) = E(X ∧ 5000) =
0

de estas dos cantidades tenemos que

E(Y ) = 0.8 ∗ [E(X ∧ 5000) − E(X ∧ 200)] = 0.8 ∗ (993.262 − 181.2) = 649.649

que es la cantidad de reclamación esperada por uso de la sala. Cuyo pago esperado es de:

E(Y ) E(Y ) 649.649


= −200/1000 = = 793.4831
1 − FX (d) e 0.8187

74
El punto final se deja como ejercicio al lector. (El resultado es: 709.5099).

El impacto del deducible en la frecuencia de los reclamos

Un componente importante para analizar el efecto en las modificaciones de las pólizas, con-
cierne al cambio en la distribución de frecuencias de los pagos cuando se impone un deducible
o cuando se modifica. Cuando se impone o se incrementa el deducible, esperarı́amos pocos
pagos por periodo, mientras que si se reduce, entonces esperarı́amos realizar más pagos.

Podemos cuantificar este proceso, asumiendo que la imposición de modificaciones de cober-


tura no afecta el proceso que produce las pérdidas individuales que serán pagadas por la
aseguradora. Por ejemplo, en aquellos individuos con una póliza con deducible de 250 por
daño en automóvil, puede ser menos posible que se vean involucrados en un accidente que
aquellos con cobertura total.

Para iniciar nuestra discusión, supongamos que Xj representa la j-ésima pérdida y que no
tiene modificaciones de cobertura en la póliza. Sea N L el número de pérdidas. Ahora, consi-
deremos una modificación en la cobertura tal que ν es la probabilidad de que las pérdidas re-
sulten en pago. Por ejemplo, si hay un deducible d, entonces ν = P(X > d). Defina la variable
indicadora Ij como Ij = 1 si la j-ésima pérdida resulta en pago e Ij = 0 de otra forma. Enton-
ces, Ij tiene distribución Bernoulli con párametro ν y fgp PIj (z) = 1 − ν + νz = 1 + ν(z − 1).
Entonces, N P = I1 + · · · + IN L representa el número de pagos. Si I1 , I2 , · · · , son mutuamente
independientes e independientes de N L , entonces N P tiene una distribución compuesta con
N L como la distribución primaria y una Bernoulli como distribución secundaria. Entonces

 
PN P = PN L PIj (z) = PN L [1 + ν(z − 1)]

En el caso especial en que la distribución de N L depende de un parámetro θ, tenemos:

PN L (z) = PN L (z; θ) = B [θ(z − 1)]

con B(z) una funcional independiente de θ. Entonces

PN P (z) = B [θ ([1 + ν(z − 1)] − 1)]


= B [νθ(z − 1)]
= PN L (z; νθ)

75
Este resultado implica que N L y N P pertenecen a la misma familia paramétrica y sólo el
parámetro θ debe cambiar.

Ejemplo

Supongamos que la distribución para la frecuencia de pérdidas es BN (β = 3, r = 2), y para


las pérdidas es P areto(α = 3, θ = 1000). Queremos ver el efecto que tiene sobre la distribu-
ción de frecuencias, imponer un deducible de 250.

Recordemos que la BN tiene fgp dada por PN (z) = [1 − β(z − 1)]−r . En este caso β toma
el rol de θ y B(z) = (z − 1)−r . Entonces, N P debe tener también una distribución BN con
parámetros r∗ = r y β ∗ = νβ. Dados los valores particulares de este ejemplo

 3
1000
ν = 1 − F (250) = = 0.512,
1000 + 250
r∗ = 2 y β ∗ = 3(0.512) = 1.536 ⇒ PN L (z; νθ) = BN (2, 1.536)
0.20

BN(3,2)
0.188
BN(1.536,2)

0.171

0.155
0.15

0.138

0.105 0.105 0.105


0.10

0.099
0.094
0.089

0.078
0.076

0.067
0.062
0.056
0.054
0.05

0.047

0.039
0.037
0.032

0.025 0.026
0.021
0.017 0.017
0.013
0.011
0.008
0.005
0.003 0.002 0.001
0.00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

En general, los parámetros de las distribuciones de frecuencia se habrán modificado por v


siempre que haya pago, de la siguiente manera:

76
Distribución Parámetros modificados

P oisson λ = λv

−λ
pM
0 −e + e−vλ − pM
0 e
−vλ
Poisson Modificada en cero p∗0 = ; λ∗ = λv
1 − e−λ

Binomial q ∗ = vq

pM m m M
0 − (1 − q) + (1 − vq) − p0 (1 − vq)
m
Binomial Modificada en cero p∗0 = ; q ∗ = vq
1 − (1 − q)m

Binomial N egativa β ∗ = vβ

−r
pM
0 − (1 + β) + (1 + vβ)−r − pM
0 (1 + vβ)
−r
BinNeg Modificada en cero p∗0 = ; β ∗ = vβ
1 − (1 + β)−r

77
Modelo de pérdidas agregadas
En el ejemplo anterior mencionamos (sin gran detalle) que las variables involucradas tenı́an
una distribución compuesta. Ahora introduciremos uno de los modelos más importantes en
la teorı́a del riesgo, que requiere de una distribución compuesta de las variables que lo de-
terminan.

Introducción
Las pérdidas que tiene una compañı́a aseguradora pueden surgir de manera individual o
colectiva, dependiendo del tipo de seguro que se contrate; por este motivo, hay que po-
ner especial atención al rol que desempeñan las caracterı́sticas de cada uno de ellos, en las
pérdidas que contraiga la empresa. Los modelos que determinan el monto total que deven-
ga una Cı́a por la acumulación de los riesgos individuales de su portafolio de asegurados, son:

• Modelo de riesgo Individual, y

• Modelo de riesgo Colectivo.

78
Modelo Individual
Supongamos que tenemos un portafolio de n pólizas individuales de seguros vigentes por,
digamos, un año. Definamos como qj la probabilidad de que el j-ésimo asegurado efectúe exac-
tamente una reclamación en el periodo; lo que implica que se cumple la igualdad, pj + qj = 1,
que significa que no puede haber más de una reclamación por cada asegurado.

Un ejemplo de esta situación es el que se presenta a través de contratos para grupos de vida,
en donde se cubre a cierto número de personas n , y cada una posee diferentes coberturas
de acuerdo a las categorı́as que se establecen para su grupo. Esta situación produce que las
personas tengan distintas probabilidades de pérdidas, sujetas a sus caracterı́sticas personales
o cualquier otra condición que exista y se determine en el contrato.

Para fijar ideas, supongamos un portafolio con n pólizas, una póliza por individuo y con
vigencia a lo largo de un periodo de tiempo establecido. Entonces qj es la probabilidad
de que el j-ésimo asegurado efectúe exactamente una reclamación durante este periodo, y
(pj = 1 − qj ) que no haga ninguna reclamación. Esta variable aleatoria es evidentemente
Bernoulli que asigna valores de 1 y 0 a estos eventos, respectivamente, denotémosla como
Rj . Ahora bien, una vez que la j-ésima póliza efectúe una reclamación, el impacto de la
misma se verá reflejado en el monto que la compañı́a aseguradora deberá asumir. Definimos
entonces la variable aleatoria Bj > 0, (Rj ⊥Bj ), como el monto de reclamación de la j-ésima
póliza. Por lo tanto, el monto de la j-ésima póliza queda definido por:
(
Bj si Rj = 1 y ocurre con probabilidad qj
Xj =
0 si Rj = 0 y ocurre con probabilidad 1 − qj

Entonces, el monto total por reclamaciones o monto agragado que debe asumir la compañı́a
aseguradora por el concepto de la reclamaciones de sus asegurados, en el modelo individual,
está dado por la variable aleatoria

n
X
S = Xj
j=1

n
X
= Bj Rj
j=1

79
Este modelo se conoce también como el modelo de pérdidas agregadas.

El nombre de modelo individual se debe a que supone conocer las probabilidades de recla-
mación y posible monto de reclamación de todos y cada uno de los asegurados de manera
individual. Una posible desventaja es que presupone que el número de asegurados en la car-
tera se mantiene constante (no es aleatorio) durante todo el tiempo de vigencia del seguro.

Entonces, nuestro objetivo es conocer las caracterı́sticas estadı́sticas de esta variable S, tales
como: función de densidad, distribución, media, varianza, función generadora de momentos,
etc.

Supongamos que cada variable aleatoria, Xj , tiene asociada una función de distribución
FXj (x) , entonces la función de distribución de S queda en términos de convoluciones como:

FS (x) = (FX1 ∗ · · · ∗ FXn ) (x)

No obstante, el cálculo de convoluciones no es, en general, una tarea fácil, por lo que reque-
rimos de maneras alternativas para estudiar esta variable aleatoria. Denotemos por GBj a la
función de distribución de Bj . Entonces, algunas caracterı́sticas de esta variable se enuncian
en la siguiente proposición

Proposición

n
X
1. E (S) = qj E (Bj )
j=1

2. V (S) = qj V (Bj ) + qj pj E2 (Bj )


 

(
(1 − qj ) + qj GBj (x), x ≥ 0
3. FXj (x) =
0 ,x < 0

4. MXj (t) = (1 − qj ) + qj MBj (t)

n
Y  
5. MS (t) = (1 − qj ) + qj MBj (t)
j=1

80
Dem

n
X n
X n
X n
X
1.- E (S) = E (Xj ) = E (Bj Rj ) =
|{z} E (Bj ) E (Rj ) = qj E (Bj )
j=1 j=1 por independencia j=1 j=1

2.- Observemos que

V (Bj Rj ) = E Bj2 Rj2 − E2 (Bj Rj )




= qj E Bj2 − qj2 E2 (Bj )




= qj V (Bj ) + E2 (Bj ) − qj2 E2 (Bj )


 

= qj V (Bj ) + qj − qj2 E2 (Bj )




= qj V (Bj ) + pj qj E2 (Bj )

Por lo que

n
X n
X
qj V (Bj ) + pj qj E2 (Bj )
 
V (S) = V (Bj Rj ) =
|{z}
j=1 idependencia j=1

3.- ∀x ≥ 0,

FXj (x) = P (Xj ≤ x) = P (Bj Rj ≤ x)

= P (Bj Rj ≤ x|Rj = 0) P (Rj = 0) + P (Bj Rj ≤ x|Rj = 1) P (Rj = 1)

= P (0 ≤ x|Rj = 0) pj + P (Bj ≤ x|Rj = 1) qj

= 1 ∗ pj + qj GBj (x)

4.-

MXj (t) = E etXj = E etBj Rj


 

= E etBj Rj |Rj = 0 P (Rj = 0) + P etBj Rj |Rj = 1 P (Rj = 1)


 

= pj + qj MBj (t)

    n
Pn Pn Y
t Xj t Bj Rj
 
5.- MS (t) = E e j=1 =E e j=1 =
|{z} pj + qj MBj (t)
independencia j=1

81
Encontrar la distribución de S, por lo general, es complicada, por tal motivo no se utilizan
las convoluciones como una alternativa para obtenerla. Para lidiar con esta situación, se
han desarrollado métodos, esencialmente de aproximación numérica, que proporcionan esta
distribución de las pérdidas agregadas en un modelo individual.

82
El modelo colectivo de riesgo
Este modelo presenta las pérdidas agregadas como una suma aleatoria de variables aleato-
rias, donde N es la variable aleatoria del número de reclamaciones realizadas y X1 , X2 , ..., XN
son las variables aleatorias independientes e identicamente distribuidas, que representan los
montos de cada reclamación. La especificación formal del modelo es la siguiente

Sea Xj la reclamación de pago realizada por el j-ésimo asegurado, y sea N el número alea-
torio de reclamaciones. Al total o (agregado) de reclamaciones:

N
P
S = X1 + X2 + · · · + XN = Xj , con S = 0 cuando N = 0
j=1

se le conoce como modelo agregado de reclamaciones. Otros nombres que recibe en la lite-
ratura actuarial son modelo colectivo de riesgos y el modelo compuesto de frecuencias. Los
supuestos del modelo son:

• Condicional a N = n, las variables aleatorias X1 , X2 , ..., XN son i.i.d.

• Condicional a N = n, la distribución común de X1 , X2 , ..., XN no depende de n

• La distribución de N no depende de ninguna manera de los valores de X1 , X2 , ..., XN .

Tenemos, N : frecuencia de reclamaciones y X: severidad de las reclamaciones, por lo tanto S


tiene una distribución compuesta. Entonces, la cuestión central es encontrar la distribución
de S.

Ya que el objetivo es encontrar la distribución que mejor ajuste a S, lo haremos a partir de


0
la distribución que ajustemos para N y de la distribución de las Xj s. Por lo que la frecuencia
y severidad se modelarán de forma separada pues representa muchas ventajas, entre las que
están las siguientes:

• Debido a que el número esperado de reclamaciones se ve afectado por el número de pólizas


que se vayan asegurando, y se irá actualizando basado en datos anteriores, el hecho de tener
por separado la frecuencia es más práctico para ir modificando nuestros datos.

• El efecto de factores económicos como la inflación se ven reflejados en las pérdidas de

83
la compañı́a, por lo que identificar estos factores en los montos agregados se puede volver
complicado, y si analizamos la frecuencia y severidad por separado esto resulta más sencillo.

• El impacto de deducibles, coaseguros y lı́mites de pólizas, se estudia de manera más sencilla,


tanto en las distribuciones de severidad, como en las de frecuencia.

• Debido a que la forma de la distribución de S depende de las distribuciones de X y N , el


conocer cada una de ellas servirá para ajustar mejores distribuciones para S. Por ejemplo,
si la cola de la distribución de X es más pesada en comparación con la de N , la forma de
la cola que tendrán las pérdidas agregadas será determinada por la severidad y será más
insensible a la frecuencia.

Entonces, los pasos a seguir para hallar la distribución más adecuada para el modelo pro-
puesto de S son:

1. Desarrollar un modelo de la distribución para la frecuencia N basada en datos.

0
2. Desarrollar un modelo para la distribución común de las pérdidas Xj s basándonos en
los datos.

3. Usando estos dos modelos, llevar a cabo los cálculos necesarios para encontrar la dis-
tribución de S.

84
Funciones de distribución y densidad de S
La función de distribución de S está dada por

∞ ∞
pn FX∗n (x)
P P
FS (x) = P(S ≤ x) = pn P(S ≤ x|N = n) =
n=0 n=0

Con FX (x) = P(X ≤ x) la función de distribución común de las Xj s y pn = P(N = n).


FX∗n (x), es la convolución de las n v.s a.s , y se puede calcular de forma recursiva como


0
 x<0
FX∗0 (x) =

1, x≥0

Z ∞
(k−1)
FX∗k (x) = FX (x − y)dFX (y) para k = 1, 2, ...
−∞

Las colas de esta distribución, que son de interés, se pueden calcular como


X
1 − FS (x) = pn [1 − FX∗n (x)]
n=1

Su función de densidad está dada por:


X
fS (x) = P(S = x) = pn fX∗n (x), x = 0, 1, ...
n=0

cuyo cálculo recursivo es

Z ∞
(k−1)
fX∗k (x) = fX (x − y)fX (y)dy para k = 1, 2, ...
−∞

85
Si X es discreta, con probabilidades en 0, 1, 2, ... las respectivas convoluciones se pueden
calcular sustituyendo la integral por una suma sobre los valores que toma X.

La fgp de S es


X
PS (z) = E(z ) = S
E(z X1 +X2 +···+XN |N = n)P(N = n)
n=0


" n #
X Y
Xj
= E z P(N = n)
n=0 j=1


X
= [PX (z)]n P(N = n)
n=0

= E PX (z)N = PN [PX (z)]


 

Siguiendo las mismas consideraciones, la f.g.m de S se obtiene, por

      
MS (t) = E etS = E E etS | N = E E et(X1 +···+XN ) | N


X
E et(X1 +···+XN ) | N = n P (N = n)
 
=
n=0


X
E et(X1 +···+Xn ) P (N = n)
 
=
n=0


" n
# ∞
" n #
X Y X Y
tXj
 tXj 
= E e P (N = n) = E e P (N = n)
n=0 j=1 n=0 j=1

∞ ∞ h i
X  tX n X n N
= E e P (N = n) = (MX (t)) P (N = n) = E (MX (t))
n=0 n=0

h i
log((MX (t))N )
 
=E e = E eN log(MX (t)) = MN (log (MX (t)))

Por lo tanto, obtenemos

86
MS (t) = MN (log (MX (t)))

y dejándola en términos de la f.g.p.

MS (t) = PN (MX (t))

Momentos de S

Ahora desarrollaremos algunos momentos de esta variable aleatoria, que serán de utilidad
posteriormente.

" " N
##
X
E (S) = E [E [S | N ]] = E E Xj |N
j=1


X
= E [X1 + X2 + · · · + XN | N = n] P (N = n)
n=0

0
ya que las Xj s son v.a.i.i.d. su esperanza es la misma, digamos, E [X], entonces:


X ∞
X
E [X1 + X2 + · · · + Xn | N = n] P (N = n) = nE [X] P (N = n) = E [X] E [N ]
n=0 n=0

E (S) = E [X] E [N ]

La varianza de S se puede calcular por medio de la fórmula de varianza iterada donde

V (S) = E [V (S | N )] + V [E (S | N )] = E [N V (X)] + V [N E (X)]

= E (N ) V(X) + V(N )E2 (X)

=⇒ V (S) = E (N ) V(X) + V(N )E2 (X)

Y finalmente su tercer momento alrededor de la media, es:

E (S − E (S))3 = E (N ) E (X − E (X))3 + 3V (N ) E (X) V (X) + E (N − E (N ))3 E (X)3


     

87
Hallar explı́citamente la distribución de S no es trivial, por lo que se utilizan diversas aproxi-
maciones a su distribución o soluciones númericas; no obstante, existen algunas elecciones de
los modelos para N y X que permiten tener resultados análiticos para ciertas caracterı́sticas
de esta distribución.

Algunos modelos compuestos

Modelo Binomial Compuesto

Si la variable de frecuencia de reclamaciones, N se distribuye Binomial (n, p), y los montos


de reclamación, X, tienen una distribución con soporte en los reales positivos, entonces, S
tiene una distribución binomial compuesta. Sus caracterı́sticas numéricas son:

E (S) = npE (X)


V (S) = np E (X 2 ) − pE (X)2


MS (t) = (1 − p + pMX (t))n

Modelo Binomial Negativo Compuesto

Cuando el número de reclamaciones tiene una distribución Binomial Negativa entonces el


riesgo S se distribuye Binomial Negativa Compuesta y se tiene:

E (S) = rβE (X)


V (S) = rβ E (X 2 ) + βE (X)2


 r
1
MS (t) =
1 + β (1 − MX (t))

Modelo Poisson Compuesto

Bajo los mismos supuestos que en los modelos anteriores, si N se distribuye P oisson(λ),
entonces S tiene una distribución Poisson compuesta. Con

E (S) = λE (X)
V (S) = λE (X 2 )
MS (t) = eλ(MX (t)−1)

88
Supongamos que N ∼ P oisson(λ) y que Xj ∼ Bernoulli(q), aplicando lo anterior para la
distribución de S, tenemos que

t
MS (t) = eλ(MX (t)−1) ; donde MN (t) = eλ(e −1) y en particular para
MX1 (t) = (1 − q) + qet

por lo que MS (t) = eλ((1−q)+qe −1) = eλ(qe −q) = eλq(e −1)


t t t

∴ S ∼ P oisson(λq)

Observación importante: Aunque estos modelos tienen una forma analı́tica en estas carac-
terı́sticas numéricas, ninguna de ellas, salvo el último caso, corresponde a la densidad o
distribución de S. Es decir, el problema de encontrar la distribución de las pérdidas agrega-
das, persiste.

Distribución de la convolución de Poisson compuestas


Una caracterı́stica muy útil para nuestros fines es que la Poisson compuesta es cerrada bajo
convolución. Especı́ficamente

Supóngase que Sj tiene una distribución Poisson compuesta con parámetros λj y función
de distribución para severidades Fj (x) para j = 1, 2, ..., n. Además, que S1 , S2 , ..., Sn son
independientes. Entonces S = S1 + S2 + · · · + Sn tiene una distribución Poisson compuesta
n n
X X λj
con parámetro λ = λj y función de distribución de severidad F (x) = Fj (x) .
j=1 j=1
λ

Dem:

Sea Mj (t) la f.g.m. de Fj (x) para j = 1, 2, ..., n. Entonces Sj tiene f.g.m. dada por:

 0
MSj (t) = E etSj = eλj (Mj (t)−1) y por la independencia de las Sj s, S tiene f.g.m.

n n
" n n
#!
Y Y X X
MS (t) = MSj (t) = exp (λj [Mj (t) − 1]) = exp λj Mj (t) − λj
j=1 j=1 j=1 j=1

" n # ! (" n
# )!
X X λj
= exp λj Mj (t) − λ = exp λ Mj (t) − 1
j=1 j=1
λ

89
n n
X λj X λj
Debido a que Mj (t) es la f.g.m. de F (x) = Fj (x) , entonces MS (t) tiene la
j=1
λ j=1
λ

forma de la f.g.m. de una distribución Poisson compuesta.

Ejemplo

S1 y S2 son distribuciones Poisson compuestas con parámetros λ1 = 3 y λ2 = 2, y función


de severidad individual

x f1 (x) f2 (x)
1 0.25 0.10
2 0.75 0.40
3 0.00 0.40
4 0.00 0.10

determine la media y varianza de S.

S = S1 + S2 tiene una distribución Poisson compuesta con media λ = 3 + 2 = 5, y con


función de severidad

x P(S = s)
1 (3/5)*(0.25)+(2/5)*(0.10)=0.19
2 (3/5)*(0.75)+(2/5)*(0.40)=0.61
3 0+(2/5)*(0.40)=0.16
4 0+(2/5)*(0.10)=0.04

de donde obtenemos

E(S) = 1 ∗ 0.19 + 2 ∗ 0.61 + 3 ∗ 0.16 + 4 ∗ 0.04 = 2.05 y V(S) = E [(S − 2.05)2 ] = 0.5075

Modificaciones en los modelos agregados

Una vez definidos estos dos modelos para pérdidas agregadas, corresponde ahora incluir las
modificaciones que ellos sufren a través de las modificaciones que sufren las pólizas que los
componen. Es decir, debemos encontrar las variables por pérdida y por pago para S, similares
a las que hemos definido para las variables individuales, ya que la distribución de S también
se verá afectada una vez que apliquemos modificaciones en la cobertura de contratos.

90
Supongamos un panorama simple bajo el cual el portafolio de pérdidas se modifique debido
0
a la aplicación de un deducible , d. Como la variable aleatoria S depende de N y de las Xj s
, entonces se tendremos que considerar dos posibilidades

• Supongamos que N L es la variable aleatoria por pérdida que modela la frecuencia de las
0
pérdidas agregadas, mientras que las Xj s determinan la severidad de las mismas. En este
0
escenario a través de la variable por pérdida Y L modificaremos las Xj s que representan los
montos, pues recordemos que:


L 0 X≤d
Y = (X − d)+ =
X −d X >d

ası́ que la severidad de las reclamaciones se verá afectada. En este caso YjL representa el
pago por la j-ésima pérdida, mientras que la frecuencia seguirá distribuyendose de la misma
forma puesto que, como su nombre lo indica, estamos considerando las pérdidas totales que
sufre la compañı́a sin importar aquellas que realmente se pagan.

Entonces, el modelo colectivo queda

S = Y1L + Y2L + · · · + YNLL

donde S = 0 si N L = 0

• La segunda opción es considerar a Y P , la variable de pago, que reflejará los montos pagados
por la compañı́a aseguradora una vez que han excedido el valor del deducible, d, pero además
de ello, en este caso, la variable que modela la frecuencia de las reclamaciones N P también se
modificará, y se verá reflejado en el número de pagos efectuados. Entonces, los parámetros
para N P cambiarán conforme a lo que se revisó en las modificaciones de cobertura para
modelos de frecuencia, donde se considera a la constante ν como la probabilidad de pago
por parte de la aseguradora. Entonces el modelo serı́a

S = Y1P + Y2P + · · · + YNPP

91
donde S = 0 si N P = 0 y YjP es la variable de pago que representa el monto de la j-ésima

pérdida tal como se definió Y P anteriormente.

Es importante considerar las modificaciones de los contratos de seguros en los modelos colec-
tivos, debido a que, bajo circunstancias apegadas a la realidad, generalmente esta información
es la que se manejará.

Ya sabemos que existe una relación entre las variables de pérdida y de pago: Y P = Y L |Y L >
0. Luego, retomando el concepto de ν como la probabilidad de pago, las funciones de distri-
bución de estas variables, guardan la siguiente relación:

FY L = (1 − v) + vFY P (y) ; y ≥ 0

 
porque 1 − ν = P Y L = 0 = FY L (0) .

Con una relación equivalente para sus f.g.m.

MY L (t) = (1 − ν) + νMY P (t)

ya que

h i h i  h i 
L L  L 
E etY = E etY |Y L = 0 P Y L = 0 + E etY |Y L > 0 P Y L > 0

h i
  L
= E 1|Y L = 0 (1 − ν) + E etY |Y L > 0 ν

= (1 − ν) + νMY P (t)

Además, para el número de pérdidas N L y el número de pagos N P se tiene esta relación con

sus f.g.p.

PN P (z) = PN L (1 − v + vz)

   
NP NL
donde PN P (z) = E z y PN L (z) = E z .

92
Finalmente con los resultados del Modelo Colectivo, las f.g.m. de S en términos de las
variables por pérdida y por pago son:

MS (t) = E etS = PN L (MY L (t))




MS (t) = E etS = PN P (MY P (t))




que guardan la siguiente relación:

PN L [MY L (t)] = PN L [1 − v + vMY P (t)] = PN P [MY P (t)]

93
Ejemplo

En una cobertura de seguros, se sabe que el número de pérdidas en el Modelo de Riesgo


0
Colectivo se distribuyen BinN eg(β = 1.5, r = 12) y que los montos de las pérdidas (Xj s)
tienen distribución P areto(α = 3, θ = 150). Además de esta información, se determina que
la inflación será del 3 % y se aplicarán las siguientes modificaciones de cobertura.

Deducible d = 40
Lı́mite de póliza = 250
Coaseguro = 85 %

Determinar la esperanza y la varianza de las pérdidas agregadas, considerando que el monto


de las pérdidas se ve modificado por la variable aleatoria de pérdida y por la variable aleatoria
de pérdida en exceso (o variable de pago).

0
Primero encontremos E (S) y V (S), cuando las Xj s se modifican por Y L . Entonces, el
orden en el que consideramos las modificaciones son: primero la inflación, posteriormente
el deducible, el lı́mite de póliza y finalmente el coaseguro.

Considerando estas modificaciones para cada Xj , la variable aleatoria de pérdida queda:

40


 0 X<



 1.03


40 250

YL = 0.85 [(1.03) X − 40] ≤X<


 1.03 1.03



 250
0.85(250 − 40) X≥


1.03
=⇒
    
 L u d
E Y = α (1 + r) E X ∧ −E X ∧
1+r 1+r

    
250 40
= 0.85 (1.03) E X ∧ −E X ∧
1.03 1.03

Para la P areto(3, 150)

94
  "  2 #
250 150 150
E X∧ = 1− = 64.058
1.03 2 250 + 150

  "  2 #
40 150 150
E X∧ = 1− = 27.676
1.03 2 250 + 150

 
=⇒ E Y L = 0.85(1.03) [64.058 − 27.676] = 31.852

Luego para N L sabemos que se distribuye BinN eg(1.5, 12) pero esta variable, que representa
el número de reclamaciones del modelo colectivo, no se modifica por ser variable de pédida
y no de pago.

=⇒ E N L = rβ = 12 ∗ 1.5 = 18

Por los resultados anteriores


E (S) = E(Y L )E N L = 31.85244 ∗ 18 = 573.3439

Aparte de esta situación, como el número de reclamaciones se distribuye Binomial Negativa,


el modelo se reduce a un Modelo Binomial Negativo Compuesto, razón por la cual, como se
mostró en la sección anterior, la varianza de S es :
h   i
L 2 L 2
V(S) = rβ E Y + βE Y .
2
Entonces, hay que obtener el segundo momento en términos de Y L , i.e., E[ Y L ], que, de
manera general, se calcula como

h i
L 2
= α2 (1 + r)2 E (X ∧ u∗ )2 − E (X ∧ d∗ )2 − 2d∗ E (X ∧ u∗ ) + 2d∗ E (X ∧ d∗ )
     
E Y

u d
con u∗ = y d∗ = .
1+r 1+r

Por lo que en nuestro caso este cálculo es

h 2 i
E YL =

( " 2 # " 2 #        )
250 40 40 250 40 40
(0.85)2 (1.03)2 E X ∧ −E X ∧ −2 E X∧ +2 E X∧
1.03 1.03 1.03 1.03 1.03 1.03

95
que observamos es bastante laborioso. Haciendo estos cálculos en R, tenemos que

h i
L 2

E Y = 4217.442

Finalmente
h  2  2 i
= 18 4217.442 + 1.5 (31.85244)2
 
V ar(S) = rβ E Y L + βE Y L

= 103307.6

0
Como segundo punto también debemos calcular la E (S) y V (S) considerando a las YjP s y

a N P como la frecuencia.

40
La función para Y P , a diferencia de Y L , es sólo tomar en cuenta que los valores para X <
1.03
d
    
no están definidos, ası́ que para la E Y P basta dividir E Y L entre SX 1+r

   3
40 150
=⇒ SX = SX (38.83495) = = 0.501217
1.03 38.83495 + 150

 
 P
 E YL 31.85244
De ahı́ E Y = d
= = 63.55007
SX 1+r 0.501218

 
Para N P debemos obtener E N P , entonces, como es la frecuencia correspondiente al pago
que realiza la aseguradora, se modifica respecto al valor de ν, donde :

   
d 40
ν=P X> = 1 − FX
1+r 1.03

esto porque recordemos que es la probabilidad de pago una vez que se ha aplicado inflación
y deducible en el número de reclamaciones, entonces

 
40
ν = SX = 0.501217971983
1.03

Por lo tanto, la distribución es una Binomial Negativa pero con parámetros modificados:
r = r∗ = 12 y β ∗ = vβ = 0.751826958

96
=⇒ E N P = rβ ∗ = 9.021923496.
 

   
De esta forma E (S) = E Y P E N P = 627.6041864

h h 2 i 2 i
La V (S) = rβ ∗ E Y P + β ∗E Y P

2
h i
P 2
E[ Y L ] 4963.722677
=⇒E Y = 40
= = 9903.321418
1 − FX 1.03 0.501217

=⇒ V (S) = 9.021923496 9903.321418 + 0.751826958 (69.56434365)2


 

= 122170.9259

Bajo el análisis de las variables por pago y por pérdida en este modelo de riesgo colectivo,
la E (S) y V (S) son muy similares entre sı́.

97
Métodos para encontrar la
distribución de S
Aproximaciones
Una vez que hemos presentado y analizado los modelos de riesgo individual y colectivo, junto
con algunas de sus caracterı́sticas, observamos que, en general, no obtuvimos resultados que
nos permitieran encontrar la distribución de S. Una manera de salvar esta dificultad es a
través de aproximaciones a esta distribución, que se utilizan tanto para el modelo individual
como para el modelo colectivo. Presentamos a continuación las siguientes:

Normal

Lognormal

Gamma Trasladada

Poisson Compuesta

Aproximación Normal

A través del Teorema Central del Lı́mite se puede aproximar la distribución de S por medio
de una distribución normal.

Generalmente, este método de aproximación es de mayor utilidad cuando el número de


reclamaciones N de nuestro riesgo S es muy grande, y por consecuencia, la E [N ] también
resulta ser grande.

Proposición. Para cualquier s > 0

!
s − E (S)
FS (s) = P [S ≤ s] ≈ φ p
V (S)

Ahora bien, suponiendo que tanto la Severidad como la Frecuencia de los datos son discretas,
entonces la distribución de las pérdidas agregadas será discreta; por lo cual, si se desea utilizar
este método de aproximación, será necesario aplicar antes una Corrección de Continuidad.
Es decir, supóngase que se quiere conocer P [n ≤ S ≤ m] , para utilizar la aproximación nor-
mal, lo único que se hace es extender el intervalo de [n, m] al intervalo n − 21 , m + 12 , por lo
 

98
1 1
 
cual la probabilidad bajo la corrección de continuidad será P n − 2
≤S ≤m+ 2
. Una vez
realizada esta corrección, se hace el mismo procedimiento de aproximación, considerando la
E (S) y V (S) originales del riesgo S.

Ejemplo

Una compañı́a aseguradora tiene una cartera con pólizas de seguro de vida con las carac-
terı́sticas que se muestran en la tabla. Utilizando el modelo de riesgo individual, realizar
la aproximación normal de tal manera que podamos encontrar el valor de s bajo el cual
P [S ≤ s] = 0.95, i.e., deseamos encontrar el VaR de la distribución de S.

i # de pólizas Probabilidad de reclamación Monto de Reclamación


1 1000 0.05 10
2 2000 0.10 5
3 500 0.02 20

Primero veamos lo que sucede con E (Bi ) y V(Bi ) para i = 1, 2, 3. Primeramente, tenemos
que

para i=1, P (B1 = 10) = 1, P (B1 = x) = 0 si x 6= 10


para i=2, P (B2 = 5) = 1, P (B2 = x) = 0 si x 6= 5
para i=3, P (B3 = 20) = 1, P (B3 = x) = 0 si x 6= 20

Entonces

E (B1 ) = 1 ∗ 10 + 0 ∗ x = 10 y V(B1 ) = 102 ∗ 1 − 102 = 0


E (B2 ) = 5 y V(B2 ) = 0
E (B3 ) = 20 y V(B3 ) = 0

1000
X 2000
X
Entonces E (S1 ) = 0.05 ∗ 10 = 500, E (S2 ) = 0.10 ∗ 5 = 1000,
j=1 j=1

500
X
E (S3 ) = 0.02 ∗ 20 = 200
j=1

=⇒ E (S) = 500 + 1000 + 200 = 1700

99
1000
X
0.05 ∗ 0 + 0.05 ∗ 0.95 ∗ 102 = 4750

Luego V(S1 ) =
j=1

2000
X
0.1 ∗ 0 + 0.1 ∗ 0.9 ∗ 52 = 4500

V(S2 ) =
j=1

500
X
0.02 ∗ 0 + 0.02 ∗ 0.98 ∗ 202 = 3920

V(S3 ) =
j=1

Entonces

V(S) = 4750 + 4500 + 3920 = 13170

" #
S − E (S) s − E (S)
Se quiere P [S ≤ s] = 0.95, entonces P p ≤ p = 0.95 el cuantil del 95 %
V (S) V (S)

para una N (0, 1) es 1.644854

p √
Por lo tanto s = V (S) ∗ 1.644854 + E (S) = 13170 ∗ 1.644854 + 1700
= 1888.764

100
fS(s)

0.0000 0.0005 0.0010 0.0015 0.0020 0.0025 0.0030 0.0035

0
500
1000

101
s
1500
Aproximación Normal

2000
2500
3000
Aproximación Lognormal

Cuando la E (N ) no es lo suficientemente grande, y por lo mismo, la distribución de S posee


una cola pesada, la distribución normal deja de ser apropiada para aproximar la distribución
del riesgo. Es por esta situación que se sugiere usar la aproximación Lognormal aunque no
exista la teorı́a suficiente para sustentar que dicha aproximación sea buena.

Proposición

Para cualquier s > 0

 
ln (s) − µ
FS (s) = P [S ≤ s] ≈ φ
σ

Recordando que para la distribución Lognormal se tiene la siguiente esperanza y segundo


momento que son indispensables para obtener lo valores de µ y σ 2 :

σ2 2
E (S) = eµ+ 2 y E (S 2 ) = e2µ+2σ

Ejemplo

Suponiendo un modelo de riesgo colectivo para las pérdidas agregadas de una compañı́a
aseguradora y, en especı́fico, un modelo Poisson compuesto donde N ∼ P oisson(λ = 0.7),
mientras que los montos de reclamación se distribuyen Gamma con α = 2, θ = 150. Utilizar
la aproximación normal y lognormal para determinar las pérdidas agregadas por arriba de
300.

Sabemos que E (S) = λE (X) y V (S) = λE (X 2 )

Ya que X es gamma(α, θ). Entonces E(X) = αθ y V(X) = αθ2 . Por lo que

=⇒ E (X) = αθ = 300 y E (X 2 ) = V (X) + E (X)2 = 45000 + 3002 = 135000

=⇒ E (S) = 0.7 ∗ 300 = 210 y V (S) = 0.7 ∗ 135000 = 94500

 
300 − 210
Para la aproximación normal FS (300) = P [S ≤ 300] = φ √
94500

102
= φ (0.292770022) = 0.615151

Las pérdidas agregadas por arriba de 300 tienen una probabilidad de 0.384849 para la apro-
ximación normal

σ2 2
Para la aproximación lognormal E (S) = eµ+ 2 = 300 y E (S 2 ) = e2µ+2σ = 135000

Entonces

σ2
ln (300) = µ + 2
y ln(135000) = 2µ + 2σ 2 , =⇒ σ 2 = 0.4054 y µ = 5.50108

 
ln (300) − 5.50108
Finalmente FS (300) = P [S ≤ 300] = φ √ = φ (0.318364182) = 0.6249019
0.4054

Mientras que con la aproximación lognormal las pérdidas agregadas que rebasan 300 acumu-
lan una probabilidad de 0.375098

Aproximación Normal Aproximación Log−Normal


0.0030
0.0012

0.0025
0.0010

0.0020
0.0008
fS(s)

fS(s)

0.0015
0.0006

0.0010
0.0004

0.0005
0.0002
0.0000

0.0000

0 500 1000 1500 2000 0 500 1000 1500 2000

s s

A continuación se muestra gráficamente la comparación de ambas aproximaciones con res-


pecto a sus funciones de densidad resultantes, en donde se puede observar que, para valores

103
muy grandes, la cola de la distribución lognormal se encuentra por encima de la función de
densidad normal, situación que caracteriza este tipo de distribución. Además, algo que se
puede destacar es que, aunque las esperanzas de las dos distribuciones no están tan alejadas,
la varianza de la distribución normal es mayor, por poco más del doble que la varianza de la
distribución lognormal. Y aunque para valores entre 150 y 300 las funciones de distribución
acumulen probabilidades similares, en realidad para valores pequeños la distribución normal
acumula probabilidades mayores a la lognormal y vicerversa, para valores grandes se va acu-
mulando mayor probabilidad en la distribución lognormal contra la normal.

Comparaciones aproximaciones Normal vs. Log−Normal


0.0030
0.0025
0.0020
fS(s)

0.0015
0.0010

Aproximación Normal
0.0005

Aproximación Log−Normal
0.0000

0 500 1000 1500 2000

104
Comparaciones aproximaciones Normal vs. Log−Normal
1.0
0.8
FS(s)

0.6

Aproximación Normal
Aproximación Log−Normal
0.4

0 500 1000 1500 2000

105
Aproximación Gamma trasladada

Como su nombre lo expresa, bajo esta aproximación supondremos que el riesgo S asume
una distribución Gamma, pero para conocer exactamente los parámetros que ajustan a
esta distribución, se debe igualar las caracterı́sticas numéricas de la distibución de S a las
caracterı́sticas numéricas de una nueva variable aleatoria que es:

k+Z

donde k es una constante y Z es la variable aleatoria que se distribuye Gamma(α, θ) y tiene


f.d.p.

z
z α−1 e− θ
fZ (z) = α , z>0
θ Γ (α)

Entonces, primero se suponen conocidos o estimados los valores de E (S) = µ, V ar (S) = σ 2 y


E (S − E (S))3
 
el coeficiente de sesgo = τ, τ > 0; éstos se igualarán a sus correspondientes
[V ar (S)]3/2
de la v.a. k + Z que son:

E (k + Z) = k + αθ

V ar (k + Z) = θ2 α

E (k + Z − E (k + Z))3
 
2
3/2
=√
[V ar (k + Z)] α

De forma que

2
µ = k + αθ σ 2 = θ2 α τ=√
α

Resolviendo el sistema de ecuaciones para determinar los valores k, α y θ.


√ 2 4
α= =⇒ α = 2 , luego de σ 2 = θ2 α sustituyendo α se tiene
τ τ

106
4 σ2τ 2 στ
σ 2 = θ2 2
=⇒ θ 2
= =⇒ θ =
τ 4 2

y finalmente de µ = k + αθ se obtiene k

4 στ 2σ
k = µ − αθ = µ − 2
=µ− .
τ 2 τ

Ası́, por medio de la aproximación gamma trasladada, el riesgo S tiene una distribución
aproximada

 
2σ 4 στ
S ∼µ− + Gamma ,
τ τ2 2

1
Habrá ocasiones en las cuales el parámetro θ puede ser reemplazado por θ
y basta invertir
las igualdades para construir la distribución Gamma de S.

Esta aproximación generalmente se sugiere realizarla cuando la distribución de S se muestra


sesgada hacia la derecha, razón por la cual τ > 0; y porque la forma que toma dicha
distribución es aproximadamente la de una densidad Gamma con parámetros α y θ; sin
embargo, además de considerar esto, se le suma la constante k para obtener menos errores
en el ajuste.

Finalmente se llega a la siguiente proposición.

Proposición

Para cualquier s > 0.

FS (s) = P [S ≤ s] ≈ Gamma (s − k; α, θ)

Ejemplo

Supongamos que, bajo el modelo Poisson compuesto, el número de reclamaciones tiene dis-
tribución P oisson(λ = 10) y el monto de las reclamaciones Xi ∼ χ2(4) . Determinar FS (8)
por medio de la aproximación gamma trasladada.

107
 
k 1
En general χ2(k) es una distribución Gamma , =⇒ Para cada Xi se tiene que fX (x) =
2 2
x
x2−1 e− 2
donde, en nuestro caso, la Xi ∼ χ2(4) , es Gamma(2, 12 )
22 Γ (2)

Lo primero es encontrar los tres primeros momentos de S, para lo cual utilizaremos las
propiedades de la f.g.m. de las Xi y de ahı́ obtener los valores de µ, σ 2 y τ para S.

=⇒ MX (t) = (1 − θt)−α = (1 − 2t)−2

MX´(t) = −2(1 − 2t)−3 (−2) = 4(1 − 2t)−3 |t=0 = 4, E (X) = 4

MX ´´(t) = −12(1 − 2t)−4 (−2) = 24(1 − 2t)−4 |t=0 = 24, E (X 2 ) = 24

MX ´´´(t) = −96(1 − 2t)−5 (−2) = 192(1 − 2t)−5 |t=0 = 192, E (X 3 ) = 192

De aquı́ podemos obtener

µ = λE (X) = 10 ∗ 4 = 40
σ 2 = λE (X 2 ) = 10 ∗ 24 = 240
λE (X 3 ) 10 ∗ 192 8
τ=q =p =√
(10(24))3 240
(λE (X 2 ))3
4 4
Por lo que α = 2
= 82 = 15,
τ 240

√ 8
στ 240 √240 2σ
θ= = =4 y k =µ− = −20
2 2 τ

=⇒ S ∼ Gamma(s + 20, 15, 4)

Por lo tanto FS (8) ≈ Gamma (28, 15, 4)) = Γ (15, 7)

Para el ejemplo S ∼ Gamma(28, α = 15, θ = 4), evaluando directamente en R, y recordando


1
que a parametrización que usa este paquete es , obtenemos
θ

FS (28, 15, 1/4) = 0.005717202

108
La siguiente gráfica muestra las funciones de densidad y distribución asociadas

Aproximación Gamma transladada Aproximación Gamma transladada

1.0
0.025

0.8
0.020

0.6
0.015

FS(s)
fS(s)

0.4
0.010
0.005

0.2
0.000

0.0

0 50 100 150 0 50 100 150

s s

Aproximación Poisson Compuesta

La Aproximación Poisson Compuesta es otro método útil, bajo el que se pretende aproximar
el modelo de riesgo individual al modelo de riesgo colectivo, tal situación se realiza porque
existen más métodos para el cálculo de la distribución de S en el modelo colectivo; incluso
es indispensable saber que los siguientes métodos a desarrollar se basan en la construcción
del modelo colectivo.

n
X
En el modelo individual S = Xi donde Xi i = 1, 2, ..., n son v.a.´s independientes,
i=1

Xi = Ri Bi y Bi es el monto de la reclamación de la póliza i. Además, la v.a. Bernoulli (Ri )


del modelo individual asigna el valor de 1 cuando se efectúa un reclamación con probabilidad
qi y 0 con probabilidad (1 − qi ) de manera que su f.g.p. es:

PRi = (1 + qi (z − 1))

109
Bajo este método la Aproximación Poisson Compuesta asume que la v.a. Ri se distribuirá
Poisson (λi ) , para ello se proponen 3 métodos que asignan diferentes valores al parámetro
λi de esta distribución Poisson

1. El primero iguala las esperanzas de la v.a. Bernoulli(qi ) con la de una v.a. Poisson(λi ) ,
entonces:

λi = qi ; i = 1, 2, ..., n

Esta opción es buena para valores de qi cercanos a cero.

2. El segundo iguala la probabilidad en cero de ambas variables aleatorias, es decir

1 − qi = e−λi

=⇒
ln (1 − qi ) = −λi

∴ λi = − ln (1 − qi ) ; i = 1, 2, ...n y − ln (1 − qi ) > qi

3. El último método fue propuesto por Kornya y usa el siguiente valor para cada λi

qi
λi = ; i = 1, 2, ..., n
1 − qi

A su vez, el número esperado de pérdidas de este método es más grande que la esperanza
del segundo.

Para el caso del Modelo individual la f.g.m. de S asociada es

n
Y
MS (t) = PRi [MBi (t)]
i=1

considerando que Ri ahora se distribuye Poisson, entonces

110
n
Y
MS (t) = exp (λi [MBi (t) − 1])
i=1

por el resultado sobre la suma de distribuciones poisson compuesta, tenemos

n n n
X X λi X λi
λ= λi , MX (t) = MBi (t) y fX (x) = fBi (x)
i=1 i=1
λ i=1
λ

Ejemplo

Considerando los datos de la compañı́a aseguradora en donde se cubren 3 diferentes grupos


de asegurados, utilizar la Aproximación Poisson Compuesta para el modelo individual y pos-
teriormente con la aproximación normal encontrar FS (1900) para los 3 valores que puede
tomar λ.

La tabla correspondiente a este seguro es

i # de pólizas Probabilidad de reclamación Monto de Reclamación


1 1000 0.05 10
2 2000 0.10 5
3 500 0.02 20

Primeramente, con λi = qi

3
X
λ= ni λi = (1000 ∗ 0.05) + (2000 ∗ 0.10) + (500 ∗ 0.02) = 260
i=1
=⇒

1000 ∗ 0.05 ∗ 1 2000 ∗ 0.10 ∗ 0 500 ∗ 0.02 ∗ 0


fX (10) = + + = 0.192307692
260 260 260

1000 ∗ 0.05 ∗ 0 2000 ∗ 0.10 ∗ 1 500 ∗ 0.02 ∗ 0


fX (5) = + + = 0.769230769
260 260 260

111
1000 ∗ 0.05 ∗ 0 2000 ∗ 0.10 ∗ 0 500 ∗ 0.02 ∗ 1
fX (20) = + + = 0.038461538
260 260 260

Por ser Poisson compuesto

E (S) = λE (X) = 260 ∗ [(10 ∗ 0.192307692) + (5 ∗ 0.769230769) + (20 ∗ 0.038461538)]

= 260 ∗ 6.538461525 = 1699.999

V ar (S) = λE (X 2 ) = 260 ∗ 53.84615363 = 13999.99994


=⇒
 
S − 1699.999 1900 − 1699.999
FS (1900) = P √ ≤ √ = P [z ≤ 1.690317021]
13999.99994 13999.99994

= φ (1.690317021) = 0.9545155

Con λi = − ln (1 − qi )

3
X
λ= ni λi = (1000 ∗ (− ln(0.95))) + (2000 ∗ (− ln (0.9))) + (500 ∗ (− ln (0.98)))
i=1

= 272.1156794
=⇒
1000 ∗ (− ln(0.95)) ∗ 1
fX (10) = = 0.188498121
272.1156794

2000 ∗ (− ln (0.9)) ∗ 1
fX (5) = = 0.774380336
272.1156794

500 ∗ (− ln (0.98)) ∗ 1
fX (20) = = 0.037121542
272.1156794

E (S) = 272.1156794 ∗ 6.49931373 = 1768.565171

V ar (S) = 272.1156794 ∗ 53.0579373 = 14437.89666


 
1900 − 1768.565171
FS (1900) = P z ≤ √ = P [z ≤ 1.093851836]
14437.89666

= φ (1.093851836) = 0.86299

112
qi
Para λi =
1 − qi

3         
X 0.05 0.10 0.02
λ= ni λi = 1000 ∗ + 2000 ∗ + 500 ∗
i=1
0.95 0.9 0.98

= 285.0578828
=⇒
1000 ∗ (0.05/0.95) ∗ 1
fX (10) = = 0.184634708
285.0578828

2000 ∗ (0.1/0.9) ∗ 1
fX (5) = = 0.779568767
285.0578828

500 ∗ (0.02/0.98) ∗ 1
fX (20) = = 0.035796525
285.0578828

E (S) = 285.0578828 ∗ 6.460121415 = 1841.508533

V ar (S) = 285.0578828 ∗ 52.27129998 = 14900.3461

 
1900 − 1841.508533
FS (1900) = P z ≤ √ = P [z ≤ 0.479175203]
14900.3461

= φ (0.479175203) = 0.684093

La siguiente gráfica muestra las funciones de densidad de S que surgen de la Aproximación


Poisson con cada uno de los métodos realizados

113
Comparación aproximación Poisson
0.004
0.003

Método 1
Método 2
Método 3
0.002
fS(s)

0.001
0.000

0 500 1000 1500 2000 2500 3000

Mediante las aproximaciones podemos conocer la distribución para S, sin embargo, es factible
que los resultados no se acerquen tanto a la realidad puesto que no se poseen muchas bases
para justificar que las distintas aproximaciones (normal, lognormal o gamma) se ajusten a
la distribución de los datos; y simplemente se pueden tomar estas decisiones por el aparente
comportamiento del número de reclamaciones y de las colas que tengan. Por ejemplo, si
tuvieramos el caso en que existe un lı́mite de póliza para las pérdidas, serı́a muy probable que
la severidad de nuestros datos tuviera una masa de probabilidad en este punto, debido a que
todas las reclamaciones que hayan excedido el monto u sólo recibirán a lo más esta cantidad
y eso determinarı́a dicha probabilidad; por lo cual, esta situación generarı́a irregularidades
en la forma de la distribución, y por tal situación, utilizar un método de aproximación no
serı́a la mejor manera de conocer la distribución del riesgo. Por tal motivo, a continuación
se desarrollarán otras propuestas de métodos que sirven para determinar la distribución del
riesgo S.

114
Cálculo de la distribución de S a través de convoluciones

Vimos en el desarrollo de la distribución del monto agregado de reclamaciones, S, que ésta


se especifica por medio de convoluciones de la variable asociada a la severidad, mediante un
cálculo recursivo. Concrétamente

Z ∞
(k−1)
FX∗k (x) = FX (x − y)dFX (y) para k = 1, 2, ...
−∞

y su densidad

Z ∞
(k−1)
fX∗k (x) = fX (x − y)fX (y)dy para k = 1, 2, ...
−∞

Únicamente para mostrar lo complejo que puede ser este cálculo, presentaremos un ejemplo
muy sencillo que ilustra cómo se realiza.

Ejemplo

Sea P(N = j − 1) = j/10 para j = 1, 2, 3, 4, la función de densidad discreta, y sea X una dis-
tribución de pérdida que toma sólo dos valores, con probabilidades f (1) = 0.4 y f (2) = 0.6.
Encontrar las correspondientes funciones de densidad y distribución de S, calculando la con-
volución. En este caso, las distribuciones de N y X son discretas, ası́ que debemos utilizar
las fórmulas recursivas

x
∗(k−1)
FX∗k (x) =
P
FX (x − y)fX (y) y
y=0

x
∗(k−1)
fX∗k (x) =
P
fX (x − y)fX (y) para x=0,1,2,..., k=1,2,...
y=0

Observemos primero que:

fX∗0 (0) = 1 y fX∗0 (x) = 0 ∀x 6= 0 y para k = 1, fX∗1 (x) = fX (x) y para k = 2,


fX∗2 = P(X1 + X2 = x), etc.

Realizando lo cálculos obtenemos la siguiente tabla

115
x f ∗0 (x) f ∗1 (x) f ∗2 (x) f ∗3 (x) fS (x) FS (x)
0 1 0 0 0 0.1000 0.1000
1 0 0.4 0 0 0.0800 0.1800
2 0 0.6 0.16 0 0.1680 0.3480
3 0 0 0.48 0.064 0.1696 0.5176
4 0 0 0.36 0.288 0.2232 0.7408
5 0 0 0 0.432 0.1728 0.9136
6 0 0 0 0.216 0.0864 1

P(N = n) 0.1 0.2 0.3 0.4

Ahora veamos cómo se generan estos valores. Tenemos cuatro valores para N ; n = 0, 1, 2, 3,
con probabilidades asociadas p0 = 0.1, p1 = 0.2, p2 = 0.3, p3 = 0.4. Por lo tanto, la función
de densidad de S se puede escribir como

3
pn fX∗n (x)
P
fS (x) =
n=0

Para simplificar la notación, omitiremos el subı́ndice X. Ya vimos que f ∗0 (0) = 1, y es el


único valor distinto de cero para la segunda columna de nuestra tabla. Además de esta fun-
ción, ya tenemos definada f ∗1 , que, como se puede calcular a través del proceso recursivo, la
construiremos sólo con fines ilustrativos. Entonces, cómo calculamos f ∗1 ?

Primero

x
f ∗1 (x) = f ∗0 (x − y)f (y), x = 0, 1, 2, ...
P
y=0

Antes de iniciar el cálculo de las convoluciones involucradas, reflexionemos un poco.

• Sabemos que f ∗0 (x) 6= 0 ⇐⇒ x = 0. Por lo tanto, los únicos casos relevantes para evaluar
esta función son cuando x = y.

• f (x) o en la fórmula f (y) sólo está definida para valores de y = 1 y y = 2, por lo que
f (y) = 0 ∀ y 6= 1, 2. Ahora sı́, iniciemos los cálculos.

116
Entonces tenemos lo siguiente

x = 0, y = 0 ⇒ f ∗1 (0) = f ∗0 (0)f (0) = 0

x = 1, y = 0 ⇒ f ∗1 (1) = f ∗0 (1)f (0) = 0

x = 1, y = 1 ⇒ f ∗1 (1) = f ∗0 (0)f (1) = 1 ∗ 0.4 = 0.4

x = 2, y = 0 ⇒ f ∗1 (2) = f ∗0 (2)f (2) = 0

x = 2, y = 1 ⇒ f ∗1 (2) = f ∗0 (1)f (1) = 0

x = 2, y = 2 ⇒ f ∗1 (2) = f ∗0 (0)f (2) = 1 ∗ 0.6 = 0.6. Obsérvese que ya no hay más valores
distintos de cero (f(y) se define como cero para y > 2), para valores que puede tomar x, y los
valores distintos de cero corresponden a la función original de densidad. Analicemos ahora
cómo construir f ∗2 = P(X1 + X2 = x). Primero tenemos que

x
f ∗2 (x) = f ∗1 (x − y)f (y), x = 0, 1, 2, ...
P
y=0

Dado que f (y) sólo es distinta de cero para y = 1 y y = 2, entonces, esta evaluación úni-
camente tiene sentido para estos valores en y, y cualesquiera otros en x. Por completez,
calcularemos algunos no incluidos en esta restricción, para verificar que son cero.

Entonces

x = 0, y = 0 ⇒ f ∗2 (0) = f ∗1 (0)f (0) = 0

x = 1, y = 0 ⇒ f ∗2 (1) = f ∗1 (1)f (0) = 0

x = 1, y = 1 ⇒ f ∗2 (1) = f ∗1 (0)f (1) = 0

x = 2, y = 0 ⇒ f ∗2 (2) = f ∗1 (2)f (0) = 0

x = 2, y = 1 ⇒ f ∗2 (2) = f ∗1 (1)f (1) = 0.4 ∗ 0.4 = 0.16

x = 2, y = 2 ⇒ f ∗2 (2) = f ∗1 (0)f (2) = 0

117
x = 3, y = 0 ⇒ f ∗2 (3) = f ∗1 (3)f (0) = 0

x = 3, y = 1 ⇒ f ∗2 (3) = f ∗1 (2)f (1) = 0.6 ∗ 0.4 = 0.24

x = 3, y = 2 ⇒ f ∗2 (3) = f ∗1 (1)f (2) = 0.4 ∗ 0.6 = 0.24

Aquı́ continuarı́an los cálculos con y = 3, pero, en este caso y los restantes, f (y) = 0. Por lo
tanto, no existen más casos para los que f ∗2 sea distinta de cero. Por lo que tenemos que,
f ∗2 (3) = 0.24 + 0.24 = 0.48.

Ası́ se puede continuar con el cálculo de los demás elementos de la tabla.

Para ilustrar cómo construir fS (x) y FS (x). De la definición de la primera

3
pn f ∗n (x). Sólo nos resta multiplicar los valores que hemos encontrado por las
P
fS (x) =
n=0

correspondientes probabilidades de N . Por ejemplo, para x = 2, tenemos

fS (2) = p0 ∗f ∗0 (2)+p1 ∗f ∗1 (2)+p2 ∗f ∗2 (2)+p3 ∗f ∗3 (2) = 0.1∗0+0.2∗0.6+0.3∗0.16+0.4∗0 =


0.168.

La función de distribución es simplemente el acumulado de la de densidad.

Este sencillo ejemplo muestra lo complicado que es encontrar la distribución de S, sobre todo
por lo laborioso del cálculo de la convolución.

El código en R para este ejemplo, es

#convolucion

f r < −c(0.1, 0.2, 0.3, 0.4)

f s < −c(0, 0.4, 0.6, 0)#Se amplı́a el vector para tener la misma dimensión que el de severidad

F s < −aggregateDist(“convolution”, model.f req = f r, model.sev = f s)

quantile(F s)

CDF s < −F s(c(0, 1, 2, 3, 4, 5, 6))

118
df s < −dif f (c(0, CDF s))

Las gráficas de las funciones de distribución y densidad de S, son

Distribución de S: Método convolución Densidad de S: Método convolución


1.0

● ● ● ●

0.20

0.8

0.15
0.6
FS(x)

0.10
0.4

0.05
0.2


0.0

0.00

0 2 4 6 8 10

Ejemplo con datos reales

Hagamos un modelo agregado utilizando convoluciones, con las dos tablas de datos dadas en
el libro de Loss Models from data to decision (Klugman), sobre un seguro dental para grupo.
Las tablas son las siguientes

119
Monto: X

x fX (x)
1 0.150
2 0.200
3 0.250
4 0.125
5 0.075
6 0.050
7 0.050
8 0.050
9 0.025
10 0.25

dado en unidades de 25 dólares.

Frecuencia: N

n p(N =n)
0 0.05
1 0.10
2 0.15
3 0.20
4 0.25
5 0.15
6 0.06
7 0.03
8 0.01

que representa la distribución del número de personas por cada “certificado de seguro” (i.e.,
por cada empleado) que recibieron cuidados dentales en el año que cubre el seguro. La solu-
ción la haremos totalmente en R

120
Métodos Recursivos
Fórmula Recursiva de Panjer
La distribución del riesgo S la mayorı́a de las ocasiones no es sencilla de obtener y a pesar
de que se puede obtener con el cálculo directo de la convolución


X
FS (s) = pn FX∗n (x)
n=0

no suele ser una cuestión trivial. Primero porque las convoluciones de FX∗n (x) no siempre tie-
nen forma de alguna distribución conocida; pero más importante aún, este cálculo se vuelve
complejo a medida que aumenta el número de elementos en la convolución, inclusive con las
computadoras muy potentes, porque el número de operaciones que se deben llevar a cabo,
es muy elevado.

Es por esta razón que a través de la Fórmula Recursiva de Panjer los cálculos pueden
ser minimizados. Para ello, debemos retomar los conceptos que manejamos en los modelos
compuestos de frecuencia, donde considerábamos el modelo de riesgo colectivo tomando la
distribución de frecuencia y la de severidad como distribuciones discretas. Entonces, la dis-
tribución compuesta de S

S = X1 + X 2 + · · · + Xn

se obtenı́a mediante


X
gk = pn fk∗n
n=0

con

pn = P (N = n)

fn = P (X = n)

121
gn = P (S = n)

fn∗k , k=0,1,2,... es la n-ésima convolución de fk

Para determinar gk del riesgo S lo primero que requerimos es pedir que la distribución aso-
ciada a la frecuencia, sea miembro de las clase (a,b,0) o (a,b,1). Esto porque las fórmulas
desarrolladas por Panjer quedan expresadas con base en estas distribuciones.

El enunciado formal del teorema de Panjer es:

Teorema

Para cualquier distribución compuesta, g0 = PN (f0 ), donde PN (z) es la f.g.p. de la distribu-


ción primaria y f0 es la probabilidad de la distribución secundaria cuando toma el valor de
cero. Si la distribución primaria es miembro de la clase (a,b,0), se tiene la fórmula recursiva:

k  
1 X bj
gk = a+ fj gk−j ; k = 1, 2, 3, ...
1 − af0 j=1 k

Para el valor de g0


p0 = P [N = 0] si f0 = P [X = 0] = 0
g0 =
PN (f0 ) ó MN (log f0 ) si f0 = P [X = 0] > 0

Los siguientes resultados son necesarios para la demostración de la Fórmula recursiva de


Panjer:

122
   
bX1 bX1
E a+ S = k = a + E S = k
k k

b
= a + E [X1 |S = k]
k
n
" n
#
b X X
= a+ E Xj Xi = k

nk j=1 i=1

" n n
#
b X X
= a+ E Xj Xi = k
nk j=1 i=1

bk
= a+
nk
b
= a+
n

Este resultado se puede reescribir como

  k  
bX1 X bj
E a+ S = k = a+ P [X1 = j|S = k]
k j=0
k

k  
X bj P [X1 = j] P [S − X1 = k − j]
= a+
j=0
k P [S = k]

Entonces, la igualdad a destacar es

k  
b X bj P [X1 = j] P [S − X1 = k − j]
a+ = a+
n j=0
k P [S = k]

Recuérdese además que los miembros de la clase (a,b,0) cumplen la recursión

 
b
pn = a + pn−1 ; n = 1, 2, 3, ...
n

123
Ahora sı́, la demostración del teorema.

Dem. (Fórmula Recursiva de Panjer):


X
gk = pn fk∗n
n=1


X
= pn P [X1 + · · · + Xn = k]
n=1


X
= pn P [S = k]
n=1

∞  
X b
= a+ pn−1 P [S = k] (Ya que pn es de la clase (a,b,0))
n=1
n

∞ k  
X X bj P [X1 = j] P [S − X1 = k − j]
= pn−1 a+ P [S = k] (igualdad destacada)
n=1 j=0
k P [S = k]

k   ∞
X bj X
= a+ P [X1 = j] pn−1 P [S − X1 = k − j]
j=0
k n=1

Con la notación establecida de gn = P [S = n] , pn = P [N = n] y fn = P [X = n] y notando


que la segunda suma en el último término vuelve a quedar en términos de g, finalmente
tenemos

k  
X bj
gk = a+ fj gk−j
j=0
k

k  
X bj
= af0 gk + a+ fj gk−j
j=1
k

k  
X bj
gk (1 − af0 ) = a+ fj gk−j
j=1
k

k  
1 X bj
gk = a+ fj gk−j
(1 − af0 ) j=1 k

124
Análogamente

• Si la distribución primaria es miembro de la clase (a,b,1), la fórmula recursiva es:

k  
X bj
[p1 − (a + b)p0 ] fk + a+ fj gk−j
j=1
k
gk = ; k = 1, 2, 3, ...
1 − af0

Estos resultados se pueden considerar de manera particular y tomando en cuenta la notación



X
asociada con fS (x) = pn fX∗n (x), es decir, supongamos que la distribución de severidad
n=0

fX (x) está definida para los valores de 0, 1, 2, ..., m, porque en efecto los montos de reclama-
ción que recibe una compañı́a aseguradora generalmente tienen un tope de pago, y que la
frecuencia de las reclamaciones es pk , entonces:

Para pk de la clase (a,b,1)

x∧m
X 
by
[p1 − (a + b)p0 ] fX (x) + a+ fX (y) fS (x − y)
y=1
x
fS (x) =
1 − afX (0)

donde x ∧ m representa el mı́n(x, m).

Para pk de la clase (a,b,0)

x∧m
X 
by
a+ fX (y) fS (x − y)
y=1
x
fS (x) =
1 − afX (0)

Cuando la distribución es Poisson, sabemos que a = 0, b = λ. Entonces la fórmula se reduce


a:

x∧m
λX
fS (x) = yfX (y) fS (x − y) ; x = 1, 2, 3, ..
x y=1

125
Además, de igual forma que en la fórmulas recursivas anteriores, el valor inicial para deter-
minar la densidad de S es fS (0) = PN [fX (0)]

Ejemplo

Utilizando el método recursivo encontrar la probabilidad de que haya más de tres reclamacio-
nes agregadas, cosiderando que el modelo de riesgo colectivo se distribuye Poisson-Binomial
Negativa. Donde la distribución primaria es Poisson con λ = 2, y la distribución secundaria
es Binomial Negativa con β = 1.5 y r = 5

Deseamos 1 − FS (3) . Entonces para la distribución Binomial Negativa, recordando cómo se


escriben los modelos de la clase (a,b,0), tenemos

β β
a= = 0.6 y b = (r − 1) = 2.4, con
1+β 1+β

fX (0) = (1 + β)−r = (1 + 1.5)−5 = 0.01024

Utilizando la forma recursiva de esta distribución, calculamos el resto de valores necesarios


para encontrar la probabilidad que nos piden, como

fX (1) = (0.6 + 2.4) ∗ 0.01024 = 0.03072

 
2.4
fX (2) = 0.6 + ∗ 0.03072 = 0.055296
2

 
2.4
fX (3) = 0.6 + ∗ 0.055296 = 0.0774144
3

El primer valor del modelo agregado o de la función de densidad de S es

fS (0) = PN (fX (0)) = e2(fX (0)−1) = e2(0.01024−1) = 0.138135526

Para el resto de valores, recordar que nuestra distribución Poisson escrita como un elemento
de la clase (a,b,0), tiene a = 0 y b = λ = 2. Entonces

126
x
2X
fS (x) = yfX (y) fS (x − y)
x y=1

 
2
fS (1) = ∗ 0.03072 ∗ 0.138135526 = 0.008487047
1

   
2 2
fS (2) = ∗ 0.03072 ∗ 0.008487047 + ∗ 2 ∗ 0.055296 ∗ 0.138135526
2 2

= 0.015537406
   
2 2
fS (3) = ∗ 0.03072 ∗ 0.015537406 + ∗ 2 ∗ 0.055296 ∗ 0.008487047
3 3

 
2
+ ∗ 3 ∗ 0.0774144 ∗ 0.138135526 = 0.022331297
3

=⇒ 1 − FS (3) = 1 − (0.138135526 + 0.008487047 + 0.015537406 + 0.022331297)

= 0.815508724

La probabilidad de que existan más de tres reclamaciones bajo el modelo agregado es


0.815508724. A continuación se muestran los valores de las funciones de densidad y la dis-
tribución de S que se generaron por medio de R y para los primeros 6 valores.

x fS (x) FS (x)
0 1.381355e − 01 0.1381355
1 8.487047e − 03 0.1466226
2 1.553741e − 02 0.1621600
3 2.233130e − 02 0.1844913
4 2.785252e − 02 0.2123438
5 3.175299e − 02 0.2440968
6 3.414236e − 02 0.2782392

127
Distribución de Reclamaciones Agregadas Densidad de Reclamaciones Agregadas
Aproximación Método Recursivo (Panjer)
1.0

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●
●●●●
●●●
●●●

●●

0.12
●●







0.8


0.10






0.6

0.08


FS(s)

fS(s)

0.06


0.4



0.04



0.2



0.02

0.0

0.00

0 20 40 60 80 100 120

s s
Aproximación Método Recursivo (Panjer) Aproximación Método Recursivo (Panjer)

128
Datos reales

Nuevamente seguro dental del libro de Klungman

X : M onto N : F recuencia
x fX (x) n p(N =n)

1 0.150 0 0.05
2 0.200 1 0.10
3 0.250 2 0.15
4 0.125 3 0.20
5 0.075 4 0.25
6 0.050 5 0.15
7 0.050 6 0.06
8 0.050 7 0.03
9 0.025 8 0.01
10 0.25

Con solución completa en R.

De esta forma es como se implementa la Fórmula Recursiva de Panjer simpre que las
distribuciones de frecuencia en las reclamaciones agregadas no sean a su vez distribuciones
compuestas, puesto que cuando esta situación se presenta, para poder llevar a cabo el cálculo
de fS (x) se debe aplicar dicha fórmula por partida doble; esto es, consideremos la f.g.p. para
N :

PN (z) = P1 [P2 (z)]

donde P1 es la f.g.p. de la distribución primaria de frecuencias y P2 la secundaria.

De tal manera que para las reclamaciones agregadas

PS (z) = PN [PX (z)] = P1 [P2 (PX (z))] que podemos reescribir como

PS (z) = P1 [PS1 (z)] ; claramente PS1 = P2 [PX (z)] .

Esta distribución de S1 deberá ser la primera que se calcule mediante la fórmula de Panjer,
dando como resultado fS1 (x) ; x = 0, 1, 2, ... que funcionará como la nueva distribución
de “severidad”para encontrar fS (x); es decir, nuevamente se aplicará la fórmula recursiva,
comenzando por fS (0) = PS (0) = P1 [fS1 (0)] y posteriormente utilizando los valores de

129
fS1 (x) como las probabilidades de la distribución de severidad mientras que pn en esta
segunda vuelta será determinada por la distribución primaria de frecuencias.

Se ha utilizado el supuesto de que la severidad posee una distribución discreta para poder
aplicar el método recursivo; sin embargo, el análogo para este método, considerando que la
severidad es continua, queda expresado por medio de una ecuación integral.

Teorema

Para distribuciones de frecuencia de la clase (a,b,1) y cualquier distribución de severidad


continua con soporte en los reales positivos, se tiene la siguiente ecuación integral que deter-
mina la densidad del riesgo S :

Z x  
by
fS (x) = p1 fX (x) + a+ fX (y) fS (x − y) dy
0 x

Las ecuaciones integrales de esta forma corresponden a ecuaciones integrales de Volterra de


segundo orden, y la demostración de este teorema queda fuera de los alcances de este curso.

Existen soluciones numéricas para estas ecuaciones que pueden ser consultadas en el libro
de Baker [13]. Sin embargo, en este estudio se utilizarán aproximaciones discretas para dis-
tribuciones continuas que modelen la severidad en las reclamaciones por medio del método
de redondeo, con el propósito de implementar el Método Recursivo de Panjer.

130
Método de Redondeo
Mencionamos y además vimos en los ejemplos, que el método de Panjer no funciona cuando la
densidad de la severidad es continua, por lo que debemos recurrir a discretizar esta función
para poder aplicar Panjer. El método de redondeo es una buena herramienta pa este fin.
Este método se utiliza para construir distribuciones discretas a partir de distribuciones de
severidad que sean continuas. Para ello se deben asignar probabilidades discretas en múltiplos
de alguna unidad de medida establecida h, que recibe el nombre de “span”; dicha distribución
se conoce como aritmética puesto que se define para enteros positivos.

El método de redondeo concentra la probabilidad de la mitad del span h, dividiendo la


probabilidad entre (j + 1)h y jh, de manera que asigna dicha mitad al punto j + 1 y la otra
al punto j. Es decir, si fj es la probabilidad comprendida en jh; j = 0, 1, 2, ...

   
h h
f0 = P X < = FX
2 2

     
h h h h
fj = P jh − ≤ X < jh + = FX jh + − FX jh −
2 2 2 2

Cuando la distribución a discretizar no está acotada, lo más apropiado es limitar los valores
que toma en algún punto m, que asegure una acumulación de probabilidades lo más cercana
a uno que se pueda, entonces fm = 1−FX [(m − 0.5)h] . De tal manera que las probabilidades
nunca sean negativas y la suma de ellas sea 1, para asegurar que realmente es una función
de densidad de probabilidades.

Ejemplo

Supóngase que la severidad de las pérdidas agregadas sigue una distribución Pareto con
α = 4 y θ = 50. Obtener su distribución discreta mediante el método de redondeo con un
span de 0.9.

X ∼ P areto(4, 50) y h = 0.9. Entonces

   4
0.9 50
f0 = F X =1− = 0.035204354
2 0.45 + 50

fj = FX (0.9j + 0.45) − FX (0.9j − 0.45)

131
 4  4
50 50
= −
(0.9j − 0.45) + 50 (0.9j + 0.45) + 50

En términos generales la función de densidad discreta queda expresada con fj . Evaluemos


la función para j = 0, 1, ..., 10 con el fin de mostrar sus valores en la siguiente tabla.

j fj
0 0.035204354
1 0.065881478
2 0.060352825
3 0.055371689
4 0.050875844
5 0.046811014
6 0.043129753
7 0.039790489
8 0.036756722
9 0.033996337
10 0.031481019

Finalmente, la siguiente gráfica muestra el ajuste de la distribución continua a la distribución


discreta

132
Comparación: Pareto (4,50) continua vs. discretizada

●●
●●
●●

0.06

● ●●

0.8









0.05





0.6


0.04



Real

Discretización
FX(x)

0.03
0.4

● Real
Discretización

0.02


0.2

0.01


0.0

0.00

0 10 20 30 40

Una vez que se tiene esta discretización de la función de severidad, se puede proceder a
aplicar el método de Panjer, para una distribución discreta de las familias (a,b,0) o (a,b,1).

133
Métodos de Inversión
Hasta el momento hemos desarrollado diversos métodos para poder encontrar la distribución
de las pérdidas agregadas correspondientes a los modelos que se pueden presentar en los datos
de una aseguradora, entre ellos se utilizaron convoluciones, aproximaciones asintóticas y la
fómula recursiva de Panjer. Además, en la sección anterior, también conocimos el método de
redondeo que se implementa para discretizar funciones continuas, de tal forma que posterior
a este proceso se pueda aplicar el método recursivo y finalmente conocer la distribución del
riesgo acumulado.

Otros métodos para encontrar la distribución de S se conocen como los de inversión. Estos
métodos numéricos se basan en el hecho de la correspondencia única entre las distribucio-
nes de las variables aleatorias con su función caracterı́stica (f.c.), su función generadora de
momentos (f.g.m.) y su función generadora de probabilidades (f.g.p.).

La razón por la cual se involucra a la función caracterı́stica en los métodos de inversión, es


porque, además de ser única, siempre existe. Por lo tanto, para una función caracterı́stica
dada, siempre tendremos su única y correspondiente función de distribución que finalmente
es la que nos interesa hallar.

Dicha correspondencia también se respeta al tratarse de distribuciones compuestas, debido


a que su función caracterı́stica queda expresada como una composición de funciones que
cumplen lo anterior.

Por lo tanto, la función caracterı́stica asociada a la distribución de pérdidas agregadas es:

ϕS (z) = E eiSz = PN [ϕX (z)]


 

donde PN es la f.g.p. de la frecuencia y ϕX (z) la f.c. de la severidad.

Transformada Rápida de Fourier (FFT)


Este algoritmo lo utilizaremos para obtener la función de densidad de variables aleatorias
discretas con base en la transformación de sus funciones caracterı́sticas. Entonces, la siguiente
definición muestra la Transformada de Fourier adaptada para una f.d.p.

134
Definición Para cualquier función de densidad de probabilidades continua f (x), la Trans-
formada de Fourier (función caracterı́stica) asociada es:

Z ∞
f˜ (z) = f (x) eizx dx
−∞

La f.d.p. que se obtiene a partir de la Transformada de Fourier es:

Z ∞
1
f (x) = f˜ (z) e−izx dz
2π −∞

Para el caso, f (x) es una función definida en los reales y f˜ (z) en los números complejos.
Mientras que la versión discreta de esta transformada es la siguiente

Definición Sea fx una función definida en todos los valores enteros de x. Para el vector
 
(f0 , f1 , ..., fn−1 ) la Transformada de Fourier discreta que tiene el vector f˜0 , f˜1 , ..., f˜n−1 se

define por medio de

n−1  
X 2πi
f˜k = fj exp jk ; k = 0, 1, ...
j=0
n

Este mapeo es biyectivo puesto que se transforman n puntos en n puntos.

La Transformada de Fourier Inversa es:

n−1  
1X˜ 2πi
fj = fk exp − kj ; j = 0, 1, ...
n k=0 n

Cabe señalar que la Transformada Rápida de Fourier (FFT) es un algoritmo empleado para
conocer la Transformada de Fourier, sin embargo no se estudiará el desarrollo del algoritmo,
aunque es importante mencionar que reduce el número de cálculos realizados a un orden de
(n log n) mientras que la evaluación directa de la transformada lo harı́a en n2 operaciones;
que se vuelve más importante a medida que el valor de n es más grande. Además, el único
requerimiento que debemos considerar para aplicar este método es que el valor de n sea
potencia de 2.

135
Entonces, el proceso a seguir para hacer uso de la FFT y con ello conocer la distribución de
S es:

Discretizar la función de severidad de las pérdidas agregadas por el método de redondeo


y obtener el siguiente vector de probabilidades

fX (0) , fX (1) , ..., fX (n − 1)

con n = 2r , r entero y n se define respecto a fS (s) que se desea obtener.

Aplicar el algoritmo FFT al vector anterior para obtener la función caracterı́stica de


los montos de reclamación, en este caso ϕX (s) que igual es un vector de n entradas.

Una vez conocida la función caracterı́stica de la severidad y con la función generadora


de probabilidades del número de reclamaciones, se hace la composición de estas dos
para determinar la Transformadad de Fourier discreta (función caracterı́stica) de las
pérdidas agregadas.

Finalmente, se implementa el algoritmo de la Transformada rápida de Fourier en orden


Inverso (IFFT) que proporcionará la f.d.p. del riesgo S.

136
Ejemplo

Encontrar a través del método de la Transformada rápida de Fourier la función de densidad


de S, considerando n = 27 , que la distribución de severidad es Exponencial (1/4), el número
de reclamaciones se distribuye Binomial Negativa (β = 0.25, r = 10) y que se tienen las
siguientes modificaciones de la cobertura del seguro:

Deducible: d = 5

Lı́mite de póliza: α (u − d) = 40

Coaseguro: α = 80 %

Utilizar un “span”de 0.4 para el método de redondeo y considerar que son pérdidas agregadas
de pago.

La resolución de este ejemplo se hará mediante el uso de códigos en R. Esta situación se debe
a que los cálculos de la FFT sólo son posibles con el uso de un programa computacional.

La distribución de Y P asociada y que se debe discretizar es



 0 y=0



y
 
 FX 0.8
+ 5 − FX (5)
FY P = 0 < y < 40


 1 − FX (5)



1 y ≥ 40

En este caso que X ∼ Exp(1/θ) para FY P cuando 0 < y < α(u − d)

 1 y
  
1 − e− θ ( α +d) − 1 − e− θ
d
1 y y
e− θ − e− θ ( α +d)
d d
e− θ 1 − e− αθ

FY p (y) = d = d = d
e− θ e− θ e− θ
y
= 1 − e− αθ

∴ Y P ∼ Exp(1/αθ), en el ejemplo Y P ∼ Exp(0.3125)

137
Código en R

a < −0.8

d < −5

l < −40

u < −(l/a) + d

h < −0.4

n < −27

f y < −discretize(pexp(x, rate = 0.3125), method = ”rounding”, f rom = 0, to = n ∗ h, step = h)


#Este vector resultante es la versión discreta y aproximada de la distribución de severidad
con las modificaciones de cobertura del seguro.

f cy < −f f t(f y, inverse = F ALSE) #Función caracterı́stica de los montos de reclamación.

Como el número de reclamaciones también se modifica por las coberturas, si N ∼ BinN eg(β, r),
entonces

N P ∼ BinN eg(β ∗ = βv, r) y v = 1 − FX (5)

v < −(1 − pexp(d, 1/4))

r < −10 ; b < −0.25

beta < −(v ∗ b)

La f.g.p. de N P es PN P (z) = [1 − β ∗ (z − 1)]−r

Entonces, la función caracterı́stica de S, es

ϕS (s) = [1 − β ∗ (ϕY P (s) − 1)]−r

f cS < −(1 − beta ∗ (f cy − 1))−r

138
Por último, se realiza la IFFT (Transformada rápida de Fourier Inversa) agregando la división
entre n que no calcula la función de R pero que es parte de la fórmula para obtener la función
de densidad de S de acuerdo a su definción.

f S < −Re(f f t(f cS, inverse = T RU E))/n

Esta es la tabla resumen de valores para ϕY P (s) , ϕS (s) y fS (s) con n = 128.

s ϕY P (s) ϕS (s) fS (s)


0 0.999999880 0.9999999 5.214224e − 01
1 0.866304586 0.8802309 3.862681e − 02
2 0.618238579 0.7162362 3.566183e − 02
3 0.418398588 0.6236285 3.290695e − 02
4 0.287939540 0.5768385 3.034938e − 02
5 0.205446738 0.5516760 2.797684e − 02
6 0.152087109 0.5369782 2.577756e − 02
7 0.116303997 0.5277549 2.374033e − 02
8 0.091418485 0.5216224 2.185448e − 02

Distribución de pérdidas agregadas: Método de Inversión


1.0

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●
●●●●●
●●●●●

●●
●●
●●
●●






0.8









0.6



FS(s)


0.4
0.2
0.0

0 20 40 60 80 100 120

139
Método de simulación
El último método que consideraremos para encontrar la distribución de S en el modelo colec-
tivo, es el método de simulación que contiene el paquete actuar. Para implementarlo debemos
conocer de manera analı́tica tanto el modelo de frecuencias como el modelo de severidad.
Esto quiere decir que conocemos tanto los modelos subyacentes a la frecuencia y la severidad
de nuestros datos, ası́ como los parámetros de ellos. Una vez conocidos estos modelos la
función aggregateDist en su opción simulación: simulation, simulará los datos del modelo de
pérdidas agregadas que generan estos dos modelos para, posteriormente, construir la función
de distribución acumulada del modelo agregado.

140
Método de De Pril
Para el Modelo de riesgo Individual también se desarrolló una fórmula recursiva que pro-
porciona la distribución de S. Este resultado fue desarrollado por Nelson De Pril en 1986 y
considera un portafolio de n asegurados.

En este modelo se denota al número de asegurados por nij , donde con j se representa la
probabilidad de reclamación qj ; j = 1, 2, ..., m y con i, el monto de la reclamación realizada;
i = 1, 2, ..., r. De forma que

r X
X m
n= nij
i=1 j=1

Es indispensable que los montos de reclamación sigan una progresión aritmética, de manera
que los valores que corren sobre i puedan representar la progresión que tiene la severidad; es
decir, para valores de i = 1, 2, 3, 4 se pueden considerar, por ejemplo, los montos de beneficio
de los asegurados por las cantidades de 3000, 6000, 9000, 12000.

Probabilidad de reclamación (j)


q1 q2 ··· qm
1 n11 n12 ··· n1m
Monto de reclamación (i) 2 n21 n22 ··· n2m
··· ··· ··· ··· ···
r nr1 nr2 ··· nrm

La función de densidad para S queda expresada por la siguiente fórmula recursiva

x∧r bx/ic
1XX
fS (x) = fS (x − ik) h (i, k) ; x ≥ 1
x i=1 k=1

r Y
Y m
fS (0) = (1 − qj )nij
i=1 j=1

donde

m  k
k−1
X qj
h(i, k) = i(−1) nij
j=1
1 − qj

141
Dem:

Considerando la f.g.p. de Xij para este caso que involucra la probabilidad de reclamación qj
y al monto i, entonces con esta nueva notación

PXij (z) = 1 − qj + qj z i


Luego la f.g.p. de S por la independencia de las Xij´s será

r Y
m
Y nij
PS (z) = 1 − qj + q j z i
i=1 j=1

tomando logaritmo y derivando respecto a z

r X
X m
nij ln 1 − qj + qj z i

ln [PS (z)] =
i=1 j=1

r m
iqj z i−1
 
d PS´(z) X X
ln [PS (z)] = = nij
dz PS (z) i=1 j=1
1 − qj + qj z i

Entonces,
" r X
m #
iqj z i−1
X 
PS´(z) = PS (z) nij
i=1 j=1
1 − qj + q j z i

" r X
m #
i

X iqj z
zPS´(z) = PS (z) nij
i=1 j=1
1 − qj + qj z i

" r X
m
#
X iqj z i 1 − qj
= PS (z) nij i
i=1 j=1
1 − q j + qj z 1 − qj

" r X
m −1 #
iqj z i qj z i
X 
= PS (z) nij 1+
i=1 j=1
1 − qj 1 − qj

1 X
Si utilizamos el hecho de que , se puede expandir como (−1)k xk para |x| < 1.
1+x k=0

Entonces tenemos

142
" r X
m ∞ k−1 #
qj z i X qj z i
X 
k−1
= PS (z) nij i (−1)
i=1 j=1
1 − qj k=1 1 − qj

" r X
m ∞  k #
X X qj
= PS (z) nij i (−1)k−1 z ik
i=1 j=1 k=1
1 − qj

m  k
k−1
X qj
Ahora definimos h (i, k) = i (−1) nij
j=1
1 − qj

Debido a que las sumas sobre k y j son absolutamente convergentes en cualquiera de los
dos órdenes que se realicen, entonces es válido intercambiarlas, por lo tanto, regresando al
desarrollo anterior, tenemos que
" ∞
r X
#
X
ik
zPS´(z) = PS (z) h (i, k) z
i=1 k=1

∞ ∞
 S X x
X
como PS (z) = E z = z P [S = x] = z x fS (x) y
x=0 x=0

X ∞
X
PS´(z) = xz x−1 fS (x) = xz x−1 fS (x)
x=0 x=1

Entonces,

X ∞
X
0 x−1
zPS (z) = z xz fS (x) = xz x fS (x)
x=1 x=0

Por lo tanto


X ∞
X ∞
r X
X
x x
xz fS (x) = z fS (x) h (i, k) z ik
x=1 x=0 i=1 k=1

El coeficiente para x ≥ 1 de la parte izquierda de la igualdad de z x es xfS (x), mientras que


en el lado derecho, es la suma de los términos fS (x − ik) h (i, k), para aquellos valores de i
y k tales que 1 ≤ ik ≤ x. Entonces, ya que esta última expresión depende de dos ı́ndices
(i, j), se pueden establecer, en primer lugar, los posibles valores para i de la siguiente forma
i = 1, ..., x ∧ r, y por lo tanto los valores para k son k = 1, ..., bx/ic, donde x ∧ r es el valor
mı́nimo entre x y r, y bx/ic es la parte entera del cociente x/i. Igualando estos coeficientes
se tiene que

143
x∧r bx/ic
X X
xfS (x) = fS (x − ik) h (i, k)
i=1 k=1

x∧r bx/ic
1XX
∴ para x ≥ 1 fS (x) = fS (x − ik) h (i, k)
x i=1 k=1

y para S = 0 que es cuando no se efectúa ninguna reclamación, entonces x = 0 y de ahı́


r Y
Y m
fS (0) = (1 − qj )nij 
i=1 j=1

De manera explı́cita, los primeros términos de esta fórmula son

r Y
Y m
fS (0) = (1 − qj )nij
i=1 j=1

fS (1) = fS (0) h(1, 1)


1
fS (2) = {fS (0) [h(1, 2) + h(2, 1)] + fS (1) h(1, 1)}
2
1
fS (3) = {fS (0) [h(1, 3) + h(3, 1)] + fS (1) [h(1, 2) + h(2, 1)] + fS (2) h(1, 1)}
3
..
.

144
Ejemplo

Una aseguradora posee una cartera de 66 pólizas para un seguro de vida. La siguiente tabla
muestra las probabilidades de reclamación y los montos de reclamación por grupo de asegura-
dos. Obtener la función de densidad de las pérdidas agregadas para valores de x = 0, 1, ..., 30
mediante la fórmula recursiva de De Pril

# pólizas Probabilidad de reclamación Monto de reclamación


20 0.02 5000
14 0.012 10000
8 0.05 15000
24 0.013 20000

Reescribiendo la tabla conforme a la Fórmula de De Pril:

Probabilidad de reclamación (qj )


0.02 0.012 0.05 0.013
1 20 0 0 0
Monto de reclamación (i) 2 0 14 0 0
3 0 0 8 0
4 0 0 0 24

La implementación de este método se realizó en R. A continuación se muestra una tabla


resumen de los primeros valores de la función de densidad y distribución de S, y su gráfica
para x = 0, 1, ..., 30.

x fS (x) FS (x)
0 0.2732243 0.2732243
1 1.115201e − 01 0.3847444
2 6.808043e − 02 0.4528248
3 1.366522e − 01 0.5894770
4 1.408985e − 01 0.7303755
5 6.588025e − 02 0.7962558

145
Distribución de Reclamaciones Agregadas Densidad de Reclamaciones Agregadas

0.30
1.0

● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●



0.25

0.8

0.20
0.6


FS(s)

fS(s)

0.15

0.4

0.10

0.2

0.05
0.0

0.00

0 5 10 15 20 25 30

s s
Método de De Pril Método de De Pril

146
MEZCLAS DE DISTRIBUCIONES
Introducción

No siempre es posible modelar datos reales únicamente a través de una densidad, general-
mente, estos datos presentan formas que no se ajustan adecuadamente a las densidades más
conocidas en estadı́stica. Una manera de lidiar con este problema, es considerar la posibilidad
de que estos datos con formas no convencionales, puedan modelarse a través de una mezcla
de densidades o de distribuciones. Dada la flexibilidad que tienen los modelos de mezclas,
es posible lograr un mejor ajuste a estos datos. Una de las formas comunes en que aparecen
este tipo de datos en la teorı́a del riesgo es, por ejemplo, cuando los montos de reclamación
de un seguro presentan una mayor variabilidad de la que puede considerar cualquiera de los
modelos estadı́sticos utilizados para su ajuste. Por ejemplo, en un seguro de gastos médicos,
si no existe un control de las edades de los asegurados, es muy probable que se tenga diferen-
te exposición al riego entre ellos debido a esta diferencia de edades. De hecho, esta falta de
control propicia que la población asegurada sea heterogénea y, como sabemos, las densidades
asumen, generalmente, poblaciones homogéneas.

Una mezcla de distribuciones con k componentes tiene la forma

f (x; θ) = π1 f1 (x; θ1 ) + π2 f2 (x; θ2 ) + · · · + πk fk (x; θk ) , ó


k
X
f (x; θ) = πi fi (x; θi ) , con
i=1

k
X
πi = 1
i=1

donde cada componente de la mezcla es una función de probabilidad (Poisson, Binomial, etc.)
o una función de densidad (Normal, Exponencial, Gamma, etc.), e incluso de distribuciones
multivariadas, y θ y θi , i = 1, 2, ..., k pueden ser vectores de parámetros. En este caso, tenemos
una mezcla paramétrica, puesto que los componentes de la misma son funciones paramétricas.
Si los componentes de la mezcla se especifican de forma no paramétrica, entonces el modelo
de mezcla será también no paramétrico.

147
Estimación paramétrica del modelo de mezclas

La manera usual de estimar los parámetros y las proporciones (πi ) es a través del algoritmo
EM.

Algoritmo EM (Dempster, Laird and Rubin (1977))

El algoritmo EM (Expectation-Maximization) es un método general para encontrar el es-


timador de máxima verosimilitud de los parámetros de una distribución de probabilidad,
especialmente útil cuando parte de la información es desconocida o incompleta.

Situaciones de Datos Incompletos

Explı́citas

• Datos Faltantes

• Datos truncados y/o censurados

• Datos agrupados

Implı́citas

• Efectos Aleatorios

• Mezclas

• Clases Latentes

• Estructuras de Variables Latentes

148
El algoritmo EM para mezclas de distribuciones

En el caso de mezclas de distribuciones, lo que desconocemos es la pertenecia o membresı́a


de cada dato a alguno de los elementos de la mezcla.

Para fijar ideas, supongamos que la mezcla consta de dos distribuciones: f1 (x; θ1 ) y f2 (x; θ2 ) .
En este caso, los parámetros a estimar son {θ1 , θ2 , π1 , π2 = 1 − π1 } . La manera estándar de
plantear esta situación es con Y = (U, V), donde U representa los datos observados y V
representa la membresı́a o pertenencia. Concrétamente, V = 1 si la observación es de la
primera distribución, f1 (x; θ1 ) , y V = 0 si es de la segunda distribución, f2 (x; θ2 ) . La espe-
ranza no condicional E(V ) es la probabilidad de que una observación provenga de la primera
distribución, que es π1 . La información completa pero desconocida de esta muestra es: U,
u1 , ..., un , que representan los datos observados y V, v1 , ..., vn son los datos desconocidos. En-
tonces, los datos completos son parejas de la forma {(u1 , v1 ) , (u2 , v2 ) , ..., (un , vn )} con vi = 1
ó vi = 0.

El algoritmo realiza un proceso iterativo entre

Paso 1. Calcular la esperanza condicional de las cantidades desconocidas dadas las cantida-
des conocidas (P aso E)

Paso 2. Maximizar esta esperanza respecto a los parámetros por estimar (P aso M)

Paso 3. Continuar el proceso iterativo hasta lograr convergencia.

Mezcla de distribuciones normales

Uno de los modelos de mezclas más populares es sin duda el de distribuciones normales. En
un contexto actuarial, el uso de la normal como modelo para ajustar datos, es cuestionable
debido a que su suporte es R, y no R+ que es el soporte natural de los datos de monto
de reclamación. No obstante, si la media de los modelos subyacentes a la mezcla está muy
alejada del origen y la varianza no es muy grande, es posible utilizar este modelo de mezclas
para ajustar datos tı́picos de aplicaciones actuariales. El modelo para dos distribuciones
normales en la mezcla tiene la forma

149
f x; µ1 , µ2 , σ12 , σ22 , π1 = π1 f1 x; µ1 , σ12 + (1 − π1 ) f2 x; µ2 , σ22
  

con

 
1 1 2
fi (x, µi , σi2 ) = p 2 exp − 2 (x − µi ) , i = 1, 2
πσi 2σi

mezcla de densidades normales


0.20
0.15
Densidad

0.10
0.05
0.00

−4 −2 0 2 4 6 8

Supongamos que tenemos n observaciones de X, x1 , ..., xn , que representan los datos incom-
pletos. Los datos completos son de la forma {(x1 , v1 ), ..., (xn , vn )}, con vi = 1 ó vi = 0.

La verosimilitud completa quedarı́a como

n
Y v  1−vi
N1 (µ1 , σ12 ) i N2 (µ2 , σ22 )

Lc (θ; X, V) =
i=1

Con correspondiente log-verosimilitud

150
n
X
vi log N1 (µ1 , σ12 ) + (1 − vi )log N2 (µ2 , σ22 )
   
`Lc (θ; X, V) =
i=1

Entonces, en el paso-E del algoritmo, dado un valor provisional de θ, debemos calcular “el
grado de membresı́a”de cada uno de los datos a cualquiera de los dos grupos. Utilizando el
teorema de Bayes, de manera general tenemos que

f (xi |j)p(j) f (xi |j)p(j)


p(j|xi ) = =P
f (x) j f (xi |j)p(j)

En el caso de este ejemplo con dos mezclas normales y dado un valor provisional de θ = θ(k) ,
tenemos

(k) (k)
(k+1) π k N1 (µ1 , σ12 )
E(V |xi , θ (k)
)= πij = 2 1
P k (k) (k)
πj Nj (µj , σj2 )
j=1

(k) (k)
con π2 = 1 − π1 = 1 − π (k)

En cada paso-M, calcularemos los estimadores provisionales de los parámetros utilizado el


grado de membresı́a calculado en paso-E, previo. Estos grados de membresı́a son pondera-
ciones para los estimadores máximo verosı́milies. Que en este caso de mezcla de dos distri-
buciones normales, adoptan las formas simples.

La expresiones para actualizar cada uno de los parámetros involucrados son:

El P aso M : Probabilidad de pertenecer al primer elemento de la mezcla, es

 
(k) (k) 2(k)
π 1 N 1 x; µ 1 , σ 1
E V|x, θk =

   
(k) (k) 2(k) (k) (k) 2(k)
π1 N1 x; µ1 , σ1 + (1 − π1 )N2 x; µ2 , σ2

de donde se desprende

n
(k+1) 1X
E V|xi , θk

π1 =
n i=1

151
Que es la proporción de datos que pertenecen al primer elemento de la mezcla. La demás
actualizaciones son

Pn (k+1)
(k+1) i=1 π1 xi
µ1 = Pn (k+1)
i=1 π1

Pn  (k+1)

i=1 1 − π 1 xi
(k+1)
µ2 =  
Pn (k+1)
i=1 1 − π1

 2
Pn (k+1) (k+1)
(k+1) i=1 π1 xi − µ 1
σ12 = Pn (k+1)
i=1 π1
Pn   2
(k+1) (k+1)
(k+1) i=1 1 − π1 xi − µ 1
σ22 = Pn  
(k+1)
i=1 1 − π1

Modelos de mezclas más apropiados para datos


actuariales

Mezcla de densidades Weibull

Es claro que la naturaleza de la información que se utiliza en las aplicaciones actuariales,


hace cuestionable que una mezcla de normales pudiera ser un modelo plausible. No obstante,
se puede recurrir a mezclas de modelos que sean de uso común para modelar datos de esta
área. Por ejemplo, una mezcla de modelos Weibull. Las densidades Weibull con dos o tres
parámetros están dadas por las expresiones

 α−1   α 
α x x
f (x; α, β) = exp − , x≥0
β β β
 α−1   α 
α x−γ x−γ
f (x; α, β, γ) = exp − , 0<γ≤x<∞
β β β

con α, β y γ parámetros de forma, escala y localización, respectivamente. El modelo de


mezclas con dos densidades es

152
f (x; α1 , α2 , β1 , β2 , π1 ) = π1 f1 (x; α1 , β1 ) + (1 − π1 ) f2 (x; α2 , β2 ) , ó

f (x; α1 , α2 , β1 , β2 , γ1 , γ2 , π1 ) = π1 f1 (x; α1 , β1 , γ1 ) + (1 − π1 ) f2 (x; α2 , β2 , γ2 )

mezcla de densidades Weibull


0.35
0.30
0.25
0.20
Densidad

0.15
0.10
0.05
0.00

2 4 6 8

Mezcla de densidades exponencial

Otra mezcla que puede ser adecuada para datos actuariales es la de distribuciones exponen-
ciales

1 x
f (x; θ) = e− θ , x ≥ 0
θ

con modelo para dos mezclas

f (x; θ1 , θ2 , π1 ) = π1 f1 (x; θ1 ) + (1 − π1 ) f2 (x; θ2 )

153
mezcla de densidades Exponencial
3
Densidad

2
1
0

0.0 0.5 1.0 1.5 2.0

Mezcla de densidades gamma

Otro de los modelos univariados de gran utilidad en aplicaciones actuariales es la distribución


Gamma. Por lo que podemos utilizar algún modelo de mezclas con estas densidades

x
xα−1 e− θ
f (x; α, θ) = α ,x ≥ 0
θ Γ (α)

con mezcla para dos densidades

f (x; α1 , α2 , θ1 , θ2 , π1 ) = π1 f1 (x; α1 , θ1 ) + (1 − π1 ) f2 (x; α2 , θ2 )

154
mezcla de densidades gamma
0.0020
0.0015
Densidad

0.0010
0.0005
0.0000

0 200 400 600 800 1000

De hecho, cualquier modelo de uso común para ajustar este tipo de datos, puede utilizarse
dentro de una mezcla para lograr un mejor ajuste a la información. Realizaremos algunos
ajustes a datos simulados y reales utilizando algunos paquetes, como mixtools, de R.

155
Principios para el cálculo de primas
Mencionamos en la introducción de estas notas, que una prima es un pago por adelantado
que realiza el asegurado a una compañı́a aseguradora para obtener una cobertura parcial
o total contra un riesgo determinado, en los términos y condiciones que establece la póliza
del seguro. En este apartado estudiaremos algunas reglas generales para calcular el valor de
una prima tomando en cuenta únicamente los aspectos matemático-actuariales del riesgo, es
decir, no consideraremos cuestiones administrativas o mercadológicas del negocio del seguro,
que, en situaciones prácticas, son indispensables de considerar. Denotaremos por P, PS ó
P(S) a la prima para cubrir un riesgo, S. De esta manera, a la fórmula para calcular una
prima se le puede considerar como una función numérica de la variable aleatoria S o de su
respectiva distribución, FS .

Propiedades
Y ¿qué propiedades debe cumplir razonablemente una función, PS , para el cálculo de pri-
mas? Enunciaremos en seguida algunas propiedades generales que son deseables que posea
cualquier método para calcular primas.

Simplicidad. El cálculo de la prima debe ser fácil de realizar. La simplicidad de este


cálculo es deseable que se cumpla por varias razones, entre ellas está el aspecto práctico
del mismo, ası́ como el de lograr una pefecta comprensión del cálculo de esta prima, por
parte del asegurado y del resto de las personas involucradas en los procesos técnicos,
administrativos y legales del seguro.

Consistencia. Si un riesgo se incrementa en una constante, entonces la prima debe


reflejar ese cambio incrementándose en la misma cantidad, es decir, si c > 0 es una
constante, entonces

PS (S + c) = PS (S) + c

Aditividad. La prima de un portafolio consistente en dos riesgos independientes debe


ser la suma de las primas individuales, es decir,

156
PS (S1 + S2 ) = PS (S1 ) + PS (S2 )

con S1 y S2 dos riesgos independientes. Es claro que cuando se cumple esta propiedad,
el intentar combinar o separar los riesgos no resulta en ninguna ventaja o provecho ni
para el asegurado ni para el asegurador.

Invarianza de escala. Si a > 0 es una constante, entonces

PS (aS) = aPS (S)

es decir, si la cuantificación del riesgo, S, cambia de escala y se considera ahora el riesgo


aS, la prima para este nuevo riesgo debe ser aPS (S). Que equivale a la prima original
modificada con la misma escala. Esta propiedad es útil para corregir los efectos de la
inflación.

Cota inferior. La prima debe tener siempre como cota inferior la prima pura de riesgo,
esto es,

PS (S) ≥ E (S)

Sin embargo, en algunas situaciones es necesario suponer que las primas deben tener
siempre un recargo positivo y se considera la condición más restrictiva PS (S) > E (S).
A menos que se establezca lo contrario, la propiedad de cota inferior se entenderá en
el sentido PS (S) ≥ E (S), que es más fácil de verificar en los métodos de cálculos de
primas que estudiaremos.

Cota superior. Si un riesgo está acotado superiormente, entonces la prima para cubrir
este riesgo también debe tener la misma cota superior, es decir, si S ≤ M para alguna
constante M > 0, entonces

PS (S) ≤ M

157
Principios generales
Recordemos que la prima pura de riesgo está dada por PS (S) = E(S). Esta es la prima
destinada a solventar exclusivamente la reclamación del riesgo. Sin embargo, veremos a con-
tinuación la posible situación catastrófica en la que se podrı́a incurrir cuando se toma como
prima, PS (S) = E(S). Consideremos un portafolio homogéneo de n pólizas de seguro de un
mismo riesgo con una vigencia determinada de tiempo. Supongamos que se cobra la misma
prima, p, por cada póliza y que Sj representa el monto de las reclamaciones efectuadas por
la póliza j, mismas que se asumen independientes e idénticamente distribuidas. Si u es el
capital inicial de la aseguradora, entonces su capital al término de la vigencia de las pólizas es

n
X
Xn = u + np − Sj
j=1

n
X
= u+ (p − Sj )
j=1

Entonces, se tienen las siguientes dos situaciones:

1. Cuando p = E(S), se tiene

E (Xn ) = u + n (p − E (S))
= u

Es decir, en promedio la compañı́a aseguradora permanece con su capital inicial; sin


embargo, puede demostrarse que cuando n → ∞, casi seguramente

lı́m sup Xn = − lı́m inf Xn


n→∞ n→∞

lo implica que el capital Xn puede oscilar y tomar valores grandes, tanto negativos
como positivos.

158
2. Cuando p 6= E (S), por la ley de los grandes números, tenemos que

n
!
1 X
lı́m Xn = lı́m u+ (p − Sj )
n→∞ n→∞ n
j=1

n
1X
= lı́m (p − Sj )
n→∞ n
j=1

= E [(p − S)]

= p − E (S)

Ası́, para que este lı́mite sea el indicado, la variable Xn tiene que diverger a infinito o
menos infinito dependiendo del signo de p − E (S). Por lo tanto Xn tiene el siguiente
comportamiento lı́mite

(
+∞ si p > E (S)
lı́m Xn =
n→∞ −∞ si p < E (S)

En vista de estos dos resultados, es natural y deseable suponer p > E (S). Esta condición se
conoce con el nombre de condición de ganancia neta (net profit condition) y debe prevalecer
en cualquier método para calcular p = PS (S).

En general no existe un mecanismo de cálculo para la prima que sea el mejor ya que existen
condiciones que afectan la forma de calcular estas primas, entre ellas, las restricciones legales
y financieras, las condiciones del asegurado, las condiciones de la propia aseguradora y de las
otras aseguradoras, además de las condiciones del mercado del seguro. Todos estos son fac-
tores que determinan, directa o indirectamente, el valor de una prima para cubrir un riesgo
particular en una situación real. Estudiaremos a continuación algunas formas particulares pa-
ra el cálculo de primas. A estos procedimientos se les denomina con el término de prinicipios.

Principio del valor esperado. Este principio es uno de los más sencillos y establece que
la prima puede calcularse de la siguiente forma:

159
PS (S) = (1 + θ) E (S)

con θ > 0, una constante llamada factor de recargo (safety loading). Es decir, se tra-
ta de la reclamación promedio más un porcentaje de ésta. En el factor de recargo se
encuentran inmersos los costos administrativos y comerciales del seguro, ası́ como los
márgenes de utilidad de la aseguradora. La forma simple en la que se expresa este
principio es una de sus caracterı́sticas principales; sin embargo, puede observarse que
una desventaja de esta fórmula es que asigna la misma prima a dos riesgos con distinta
distribución pero con media común, y no toma en cuenta otro aspectos, por ejemplo,
si las varianzas de los riesgos fueran distintas, entonces las primas tal vez deberı́an ser
distintas.

Ejemplo

Mil quinientas estructuras están aseguradas contra incendios por una empresa. Las can-
tidades asegurado ($0000 s), ası́ como las probabilidades de un reclamo, varı́an según la
tabla

Seguro de incendio (1500 estructuras)


Categorı́a Monto (1000´s) qk Num. Estructuras
1 20 0.04 500
2 30 0.04 300
3 50 0.02 500
4 100 0.02 200

Si qk es la probabilidad de un reclamo para una estructura en la categorı́a k, y su-


ponemos que la posibilidad de más de un reclamo en cualquier estructura individual
es cero. Supongamos además que los incendios ocurren independientemente el uno del
otro, y que para una estructura asegurada por $ A pesos, el monto de un reclamo X
(con la condición de que haya una reclamación) es una v.a. uniforme en [0, A]. Sea
N el número de reclamaciones realizadas en un año y S la cantidad (en unidades de
$ 1000). Utilizado un modelo de riesgo individual para S, determinar la media y la
varianza de N y S. Si deseamos usar un factor de recargo de 2θ para las estructuras
en las categorı́as 1 y 2 y θ para las dos restantes, encontrar el valor de θ que nos da
un 99 % de probabilidad que las primas exceden los reclamos. También encontrar cuál

160
serı́a el valor correspondiente de θ si el número de estructuras en las categorı́as 1 y 2
se duplicara. Solución en R.

Principio de la varianza. Este principio hace uso de la esperanza y la varianza del


riesgo. En este caso el factor de recargo, θ > 0, se aplica sobre el valor de la varianza
de la siguiente forma:

PS (S) = E (S) + θV (S)

Este principio no sólo estima la siniestralidad media del riesgo, sino que proporciona,
además, el recargo de seguridad que debe llevar la prima para atender a las desviacio-
nes aleatorias de esta siniestralidad. Mediante la expresión de este principio, se dice
que el recargo de seguridad es proporcional a la varianza.

Principio de la desviación estándar. Nuevamente θ > 0 es una constante. En este


principio el factor de recargo se aplica sobre la desviación estándar del riesgo como
indica la fórmula posterior. A diferencia del principio de la varianza, en este caso las
unidades de medición del riesgo y de la prima coinciden. Y es evidente que

p
PS (S) = E (S) + θ V (S)

Este principio fue utilizado por Balbás, Gil y Heras (1990) como medida de riesgo en
un problema de reaseguro óptimo. Los principios de la varianza y desviación estándar
son los más utilizados en los tipos de seguros mencionados en la sección anterior.

Principio de utilidad cero. Este principio hace uso de una función de utilidad, esto
es, una función, v(x), definida sobre [0, ∞) o un subconjunto de este intervalo y con
valores en R, que cumple las propiedades que se mencionan a continuación, y cuya
gráfica general se muestra abajo

1. Es estrictamente creciente

2. Es cóncava

161
Función cóncava

1.4
1.2
1.0
0.8
f(x)

0.6
0.4
0.2
0.0

0.0 0.5 1.0 1.5 2.0

Una función con estas caracterı́sticas puede usarse para modelar el valor o utilidad que
una persona o institución asocia a un bien monetario o material. Suponiendo diferen-
ciabilidad, la primera condición se escribe v 0 (x) > 0, y la segunda condición significa
que v 00 (x) ≤ 0. A veces se añade la condición v(0) = 0 pues toda función de utilidad
(definida en x = 0) puede modificarse de tal forma que cumpla esa condición sin afectar
el resultado en los procesos de decisión que se llevan a cabo usando estas funciones. La
nueva función de utilidad serı́a v(x) − v(0). El principio de utilidad cero establece que
la prima para cubrir un cierto riesgo S es aquel número, p = PS (S), que satisface la
ecuación

u(u) = E [v (u + p − S)] (2)

en donde u es el capital inicial de la aseguradora. Es decir, la utilidad que representa


para la aseguradora el capital inicial u debe ser idéntica a la utilidad esperada al cubrir
el riesgo. Ası́, el cálculo de p = PS (S) está dado implı́citamente por la ecuación (2) y
para que la prima esté bien definida supondremos el caso cuando esta ecuación tiene
una única solución, p = PS (S). Debemos mencionar, sin embargo, que no es fácil resol-
ver de manera exacta ecuaciones de la forma (2), en cuyo caso pueden usarse métodos
numéricos para encontrar este valor p = PS (S) de manera aproximada. El siguiente
ejemplo es un caso muy particular y atı́pico en donde se puede calcular con facilidad
la solución p = PS (S) en (2).

162
Ejemplo

Considere la función de utilidad v(x) = 1 − e−αx , con α > 0. La prima se calcula como
aquel valor de p = PS (S) que es solución de la ecuación

1 − e−αx = E 1 − e−α(u+p−S)
 

Realizando algunos cálculos, se obtiene

1
p = PS (S) = ln(MS )(α)
α

Algunos ejemplos de otras funciones de utilidad son

• Función de utilidad exponencial

v(x) = 1 − e−αx , α > 0

• Función de utilidad cuadrática

v(x) = x − αx2 , α > 0, 0 ≤ x ≤ 1/2α

• Función de utilidad logarı́tmica

v(x) = αln(x), α > 0

• Función de utilidad de potencia fraccional

v(x) = xα , 0 ≤ α ≤ 1

Demostraremos que el principio de utilidad cero produce primas que cumplen la


condición p = PS (S) ≥ E(S). Por la desigualdad de Jensen en el caso de funciones
cóncavas,

163
v(x) = E [v (u + p − S)]

≤ v (E [(u + p − S)])

= v (u + p − E)

Como v es una función estrictamente creciente, es uno a uno, y por lo tanto su


inversa, v −1 , existe y también es estrictamente creciente. Al aplicar entonces la
inversa se preserva la desigualdad anterior y se obtiene que p = PS (S) ≥ E(S).
La igualdad se logra, por ejemplo, cuando S es constante.

• Principio del valor medio. Este principio hace uso de una función de valor, esto
es, una función, v(x) que cumple las propiedades

1. v(0) = 0

2. Es estrictamente creciente

3. Es estrictamente convexa
Función convexa
20
15
v(x)

10
5
0

0.0 0.5 1.0 1.5 2.0

El principio del valor medio establece que la prima p = PS (S) debe calcularse
a partir de la igualdad

v(p) = E [v(S)] (3)


Esta identidad significa que la compañı́a aseguradora asigna el mismo valor
a la prima que al promedio del valor de la reclamación y por lo tanto es

164
indiferente a cualquiera de las dos situaciones. Como la función v(x) es es-
trictamente creciente, es uno a uno, su inversa por lo tanto existe y es también
estrictamente creciente. De hecho, la inversa de cualquier función de utilidad
que se anula en cero es un ejemplo de una función de valor. Ası́, la prima
mediante este principio se puede escribir de la siguiente forma:

p = v −1 (E [v(S)])

Por la desigualdad de Jensen para la función convexa v, se tiene que


E [v(S)] ≥ v (E [S]), o bien por la misma desigualdad para la función cóncava
v −1 , v −1 (E [S]) ≥ E [v −1 (S)]. Ambas situaciones llevan a la desigualdad

p = PS (S) ≥ E [S]

Ejemplo: Consideremos la función de valor v(x) = eαx − 1, α > 0. Bajo este


principio, la igualdad (3) se escribe como


eαp − 1 = E eαS − 1

cuya solución es

p = PS (S) = α1 ln (MS (α))

que es igual a la solución obtenida en (2).

4. Principio exponencial. Este es el principio de utilidad cero aplicado a la fun-


ción de utilidad v(x) = 1 − eαx , α > 0. Y coincide también con el principio
del valor medio aplicado a la función de valor v(x) = eαx − 1, α > 0. Cuya
prima calculada, ya vimos que es

p = PS (S) = α1 ln (MS (α))

Obsérvese que en este caso la prima no depende del capital inicial, u. Puede
verificarse directamente que p = PS (S) ≥ E [S], que hemos demostrado antes
de manera general.

5. Principio del porcentaje. Sea  > 0 una constante. El principio del porcentaje
sugiere que la prima p = PS (S) puede calcularse mediante la expresión

165
p = PS (S) = inf {x > 0 : PS (S > x) ≤ }

De esta forma la probabilidad de que el riesgo exceda el monto de la prima


debe ser pequeño o ajustable mediante el parámetro, . A este principio tam-
bién se le conoce como principio de pérdida máxima. Por ejemplo, si S sigue
una distribución exponencial de parámetro, λ, entonces PS (S > x) = e−λx .
Y, por lo tanto, p = PS (S) es el valor numérico tal que e−λx = , es decir,
1
p = − ln(). Entonces, en este ejemplo particular, se cumple la condición
λ
1 1
p = PS (S) ≥ E(S) si, y sólo si, − ln() ≥ − , es decir,  ≤ e−1 . Esto
λ λ
muestra que el principio del porcentaje no produce, en general, primas que
cumplen la condición de ganancia neta.

6. Principio de Esscher. Antes de establecer este principio es necesario definir


primero la transformada de Esscher de una distribución de probabilidad para
la que existe la función generadora de momentos.

transformada de Esscher. Sea S un riesgo con función de densidad, f (x);


función de distribución F (x) y para el que existe la función generadora de
momentos MS (h), para algunos valores de h > 0. La transformada de Esscher
con parámetro h de f (x) es la función

1
g(x) = ehx f (x) (4)
MS (h)

Es inmediato comprobar que esta función es efectivamente de densidad. Por


ejemplo, puede demostrarse que la transformada de Esscher de la distribución
exponencial es nuevamente la distribución exponencial pero con parámetro
distinto. La definición de transformada de Esscher puede hacerse de manera
análoga para variables aleatorias discretas.

El principio de Esscher establece que la prima para cubrir el riesgo S es la


esperanza de esta nueva función de densidad, es decir,

166
Z ∞
1
p = xehx f (x)dx
MS (h) 0

hS

E Se
=
E (ehS )

Denotemos por p(h) a esta función. Es claro que p(0) = E (S) y puede de-
mostrarse que p(h) es una función creciente de h. Por lo tanto, p(h) ≥ p(0) =
E(S). Esto demuestra que se cumple la condición de ganancia neta y que
mientras mayor es el parámetro, h, mayor es la prima. Habiendo definido la
forma de calcular primas bajo este principio, vamos a hacer algunas obser-
vaciones acerca de la función de densidad (4), que es la función de densidad
ehx
original ponderada por la función creciente . La correspondiente fun-
MS (h)
ción de distribución de (4) es

Z x
1
G(x) = ehy f (y)dy
MS (h) 0

A esta función también se le llama la transformada de Esscher de la función


de distribución, F (x). Sea S̃ una variable aleatoria asociada a esta función de
distribución. Algunos cálculos sencillos muestran que la función generadora
de momentos de esta nueva variable aleatoria está dada por

M (t + h)
MS̃ (t) =
M (h)

7. Principio del riesgo ajustado. Este principio, ası́ como el de Esscher, está ba-
sado en una transformación de la distribución del riesgo. Para un riesgo S
con función de distribución F (x) se define una nueva función de distribución
de la siguiente forma

G(x) = 1 − (1 − F (x))1/ρ

con ρ ≥ 0, un parámetro conocido como el ı́ndice del riesgo. Puesto que


1 − F (x) es un número entre 0 y 1, y ρ ≥ 0, se cumple que

167
1 − G(x) = (1 − F (x))1/ρ

≥ 1 − F (x)

Esto significa que la cola de la distribución del riesgo está siendo sobre esti-
mada por la cola de la nueva distribución. Esta sobre estimación se usa para
definir la prima para cubrir S.

Principio del risego ajustado


1.0

F(x)
0.8

G(x)
0.6
0.4
0.2
0.0

0 2 4 6 8 10

Ası́, la prima por el principio del riesgo ajustado para el riesgo S se define
como la esperanza de la nueva función de distribución, es decir,

Z ∞ Z ∞
p = PS (S) = (1 − G(x)) dx = 1 − (1 − F (x))1/ρ dx
0 0

Se cumple la condición p ≥ E (S), pues

Z ∞ Z ∞
1/ρ
p= 1 − (1 − F (x)) dx ≥ (1 − F (x)) dx = E(S)
0 0

Puesto que hemos revisado algunos métodos particulares para calcular primas
y que contamos con una lista de propiedades deseables que deben cumplir los
métodos, surge el problema de determinar si se cumplen o no se cumplen las
propiedades para cada uno de los métodos enunciados. Algunas de estas com-
probaciones son inmediatas, algunas otras requieren un poco más de trabajo.

168
Teorı́a de la credibilidad
Consideremos un riesgo determinado que proveniente de un conjunto de asegurados vigentes
por un periodo determinado. Si este grupo de asegurados es homogéneo en el sentido de que
todos sus miembros tienen la misma probabilidad de realizar una reclamación, entonces es
razonable aplicar una misma prima a todos ellos. Sin embargo, cuando el grupo no es ho-
mogéneo, o bien, al paso del tiempo aparecen factores de heterogeneidad dentro del mismo,
habrá subgrupos de bajo riesgo y otros de alto riesgo. Cobrar una misma prima a todos
resultarı́a injusto, y no serı́a conveniente para la aseguradora pues, eventualmente, los ase-
gurados de bajo riesgo buscarı́an un mejor trato con otra aseguradora. La idea fundamental
es aplicar primas menores a los asegurados de bajo riesgo y primas mayores a los de alto
riesgo, con base en el historial de reclamaciones que cada uno de los asegurados o subgrupos
hayan realizado durante los periodos anteriores. En la teorı́a de la credibilidad se estudian
métodos para el cálculo de primas a través de la combinación de la experiencia individual
(historial de reclamaciones, datos propios) y la experiencia de grupo (datos del mercado,
contratos similares, experiencia propia acumulada, datos colaterales).

Este escenario plantea entonces que, cada caracterı́stica a estimarse en la población, depende
de dos fuentes de información (o tiene dos fuentes de datos): Los datos propios o datos indi-
viduales y la información colateral, dada por los datos del mercado o la experiencia propia
acumulada. Si basamos esta estimación sólo en los datos propios y éstos son escasos, entonces
su estimación será poco confiable (escencialmente podrı́a tener una varianza muy grande).
Por otro lado, si esta estimación se realizara únicamente con la información colateral, que,
tal vez, sea basta, podrı́a ser que no todos estos datos estuvieran totalmente relacionados con
el mismo riesgo, éste podrı́a haber sufrido modificaciones, por ejemplo, a través del tiempo.
Entonces, la mejor alternativa para estimar estas caracterı́sticas, debiera ser una combina-
ción de las dos fuentes de información. En concreto, si deamos estimar la caracterı́stica α de
la población, nuestro estimador debiera ser

Z α̂i + (1 − Z)α̂C

Con α̂i el estimador dado por la información individual y α̂C el estimador dado por la
información colateral. Con Z ∈ [0, 1] conocido como factor de credibilidad, generalmente
determinado por los datos individuales y colaterales. Si la información generada por la expe-

169
riencia propia es abundante, este factor deberı́a ser cercano a uno, y cercano a cero cuando
esta información sea muy escasa.

Para asignar el valor de Z en condiciones reales, se toman en cuenta

• El volumen de los datos individuales o propios respecto a los datos colaterales, y

• Diferencias entre datos individuales y colaterales.

170
Teorı́a de la credibilidad
Introducción
La teorı́a de la credibilidad es el conjunto de técnicas actuariales que permiten al asegurador
ajustar de modo sistemático las primas de los seguros en función de la experiencia de sinies-
tralidad ocurrida.

En la teorı́a de la credibilidad tienen roles primordiales los dos tipos de riesgo ya conside-
rados: el riesgo individual y el riesgo colectivo, y se da una solución rigurosa al problema
de cómo analizar la información proviniente de estas dos fuentes, para calcular la prima de
seguros y obtener una tarifa justa.

La teorı́a de la credibilidad como disciplina matemática, utiliza diversas herramientas de


varios campos de las matemáticas: Estadı́stica Bayesiana, análisis funcional, mı́nimos cua-
drados, modelos de espacio de estados, entre muchos otros. Varios autores, Bailey, Longley-
Cook, Mayerson, Bühlmann, Straub, Jewell, entre otros, se han dado a la tarea de dar una
fundamentación matemática rigurosa a esta teorı́a, que la ha convertido en una de las ramas
más atractiva y estudiada de la ciencia actuarial. Uno de sus principales usos aparece en el
seguro de automóviles, en el que las primas se van transformando paulatinamente a medida
que se incorpora información sobre la siniestralidad, dando origen a los denominados siste-
mas de tarificación bonus-malus.

El término credibilidad se introdujo por primera vez en USA antes de la primera guerra
mundial, en relación con los sistemas de ajuste de primas en seguros de compensación obrera
o seguros de accidentes. Por ese entonces, numerosas empresas ejercieron una fuerte presión
a las aseguradoras dada la baja siniestralidad laboral y la elevada tasa de actividad, para
que se les reconociera este hecho en los importes de primas a pagar.

Whitney (1918) publicó los primeros trabajos en esta materia con la aparición en los Pro-
ceedings de la Casualty Actuarial Society. De una forma simple, a través de una matemática
elemental, propone que la prima que debe pagar un asegurado considere tanto la experien-
cia individual (del asegurado) y la del colectivo (la cartera de seguros). De esta manera, la
estimación del monto de la prima, se calculará como

171
P = Z · X + (1 − Z) · C (1)

Con X la experiencia individual, C es la información disponible del colectivo y Z es un factor


que pondera estas dos informaciones, conocido como factor de credibilidad. Esta expresión
dio respuesta a la idea que rondaba la mente de muchos actuarios de la época: Encontrar un
mecanismo que permitiera asignar a estos dos tipos de información, la individual y la colecti-
va, un peso o ponderación que las complementara para la determinación de la prima a cobrar.

Intuitivamente, este factor de credibilidad, Z, deberı́a satisfacer las siguientes condiciones

Debe ser una función del tiempo de vigencia de la póliza, n, i.e., Z = Z(n).

Debe ser una función creciente de n, de tal manera que converja a uno si n → ∞ y
tienda a cero cuando n → 0. Este último caso, (n = 0), implicarı́a que no se tiene
información sobre el asegurado (serı́a un contrato nuevo), y la prima a cobrar serı́a,
C, la que se basa en la información del colectivo. En la medida que se incremente la
información sobre el asegurado (que n crezca), entonces esta información empezarı́a a
tener más peso en el cálculo de la prima a cobrar, i.e., la experiencia de siniestralidad
del asegurado tendrı́a mayor verosimilitud o credibilidad. En el caso extremo (n → ∞),
el valor de la prima debiera ser X, esto es, la prima deberı́a basarse únicamente en la
experiencia individual de la siniestralidad del asegurado.

El factor de credibilidad, Z, deberı́a ser también una función creciente de la varianza


de las primas teóricas, con lı́mite uno cuando esta varianza tienda a infinito, y cero
cuando tienda a cero. La lógica de esta cuestión es que si la cartera no es heterogénea,
i.e., es homogénea, entonces la prima basada en la información del colectivo serı́a el
mejor estimador de la prima individual. Por el contrario, una mayor heterogeneidad de
la cartera, deberı́a propiciar un mayor peso a la información individual del asegurado.

A mediados del siglo XX empezaba a tomar forma un nuevo enfoque de la estadı́stica, la


estadı́stica Bayesiana. No pasó mucho tiempo para que se constatara que muchos estimado-
res de Bayes, obtenidos para ciertas verosimilitudes (distribución conjunta de los datos) y la
distribución a priori o inicial natural conjugada del parámetro o parámetros que determinan
esta verosimilitud, correspondian a la expresión (1). De hecho, Whetney (1918) ya señalaba

172
que el problema de credibilidad era un caso de cálculo de probabilidades inversas (teorema
de Bayes). En el trabajo de Mayerson (1964) se utilizan por primera vez los términos de
credibilidad y estadı́stica Bayesiana.

Bajo el enfoque Bayesiano, la fórmula de credibilidad (1) puede interpretarse también de


la siguiente manera. Puede verse a C como la información a priori (basada, por ejemplo,
en contratos similares) y X la nueva información obtenida mediante la observación de la
siniestralidad de los últimos años. Finalmente, la prima, P, es el resultado de combinar la
información a priori con la información adquirida para obtener un estimador actualizado de
la prima. Por lo tanto, la teorı́a de la credibilidad es un proceso Bayesiano que combina la
información inicial o apriori con la información muestral para lograr una actualización del
estimador de la prima.

173
Enfoque Bayesiano
En la estadı́stica tradicional, enfoque clásico, uno de los problemas inferenciales más im-
portantes es la estimación del parámetro, θ, de una distribución de probabilidad, f (x; θ).
Para realizar dicha estimación seleccionamos una muestra aleatoria de esta distribución y se
tienen distintos métodos para estimar θ, considerando siempre que este parámetro tiene un
valor desconocido y fijo. En el enfoque Bayesiano, θ, se trata como una variable aleatoria
para la que se supone una distribución de probabilidad, p(θ), llamada distribución inicial o
distribución a priori. Esta distribución refleja la información subjetiva o cuantitativa que el
observador pueda tener sobre este parámetro, θ, antes de observar la muestra.

Actualización de la información a través del teorema de Bayes

La forma en la que se actualiza la información inicial sobre nuestro parámetros de interés,


θ, mediante la información contenida en la muestra, p(x|θ) = L(θ; X) (la verosimilitud), es
a través del teorema de Bayes.

Teorema de Bayes

Dados dos eventos A y B tales que P(B) > 0, la probabilidad condicional de A dado B,
P(A|B), se define como

P(B ∩ A) P(B|A)P(A)
P(A|B) = =
P(B) P(B)

Teorema de Bayes

Si {Ai : i = 1, 2, ..., M } es un conjunto exhaustivo de eventos mutuamente excluyentes, en-


tonces

P(B|Ai )P(Ai )
P(Ai |B) = M
P
P(B|Aj )P(Aj )
j=1

La forma esquemática de actualizar esta información a través del teorema de Bayes es la


siguiente

174
• θ debe tener una distribución de probabilidad, p(θ), que refleje nuestro conocimiento inicial
acerca de su valor.

• La información sobre θ que contiene la muestra aleatoria seleccionada, está resumida en la


verosimilitud: p(x|θ) = L(θ; X)

Por lo tanto, nuestro conocimiento acerca del valor de θ queda descrito a través de su dis-
tribución final

p(θ|X)

El Teorema de Bayes nos dice cómo encontrarla:

p(x|θ)p(θ)
p(θ|X) = Z
p(x|θ)p(θ)dθ

Este proceso se conoce como el proceso de actualización de la información sobre θ, y es la


manera de combinar las dos fuentes de información que tenemos: La inicial, dada a través
de p(θ), y la de la muestra, dada por medio de la verosimilitud: p(x|θ), para obtener la
distribución final: p(θ|X), que contiene la suma de estas dos fuentes de información.

Z
Obsérvese que el denominador, p(x) = p(x|θ)p(θ)dθ, no depende de θ, por lo que es común

escribir esta distribución final como

p(θ|x) ∝ p(x|θ)p(θ)

En la práctica, el cálculo de la distribución final puede ser un asunto complicado, especial-


mente si la dimensión del parámetro es grande.

Sin embargo, para ciertas combinaciones de distribuciones iniciales y verosimilitudes es po-


sible simplificar el análisis.

En otros casos se requieren aproximaciones analı́ticas y/o técnicas computacionales relativa-


mente sofisticadas.

175
Familias conjugadas
Comentamos en uno de los puntos anteriores, que existen ciertas combinaciones de distribu-
ciones iniciales y verosimilitudes, que simplifican el análisis Bayesiano, esencialmente, porque
el modelo de la distribución final de θ, pertenece a la misma familia que el de la inicial.

Definición. Sea P = {p(x|θ) : θ ∈ Θ} una familia paramétrica. Una clase (o colección) de


distribuciones de probabilidad F es una familia conjugada para P si para toda p(x|θ) ∈ P
y p(θ) ∈ F se tiene que p(θ|x) ∈ F

Algunos modelos paramétricos univariados con sus respectivas familias conjugadas:

Familia paramétrica Familia Conjugada

Bernoulli(x|θ) Beta(θ|α, β)
P oisson(x|λ) Gamma(λ|α, β)
Geométrica(x|θ) Beta(θ|α, β)
Exponencial(x|λ) Gamma(λ|α, β)
U nif orme(x|0, θ) P areto(λ|α, β)
N ormal(x|µ) Normal(µ|µ0 , λ0 )
N ormal(x|λ) Gamma(λ|α, β)
N ormal(x|µ, λ) N ormal − Gamma(µ, λ|µ0 , λ0 , α, β)

176
Ejemplo. Consideremos la familia paramétrica P = {Poisson(x|λ) : λ ∈ R+ }. Si utilizamos
como distribución inicial p(λ) ∈ F = {Gamma(λ|α, β) : α, β ∈ R+ }. Entonces, si se tiene
una muestra aleatoria x = (x1 , ..., xn ), la distribución final es

p(λ|X) = Gamma(λ|α + r, n + β)

n
P
con r = xi .
i=1

Dem. Sólo demostraremos que el kernel de la distribución final, pertenece a la distribución


Gamma(λ|α + r, n + β).

Sabemos, por Bayes, que

p(x|λ)p(λ)
p(λ|X) = Z
p(x|λ)p(λ)dλ

con

n
Y λxi e−λ Pn
xi −nλ
p(x|λ) = ∝λ i=1 e y
i=1
xi !

β α λα−1 e−βλ
p(λ) = , por lo que
Γ (α)

n
!
Pn Pn X
xi −nλ α−1 −βλ xi −1 −λ(β+n)
p(λ|X) ∝ λ i=1 e λ e = λα+ i=1 e ∝ Gamma α + xi , β + n
i=1

177
Credibilidad total o completa
Supongamos que S representa el riesgo para una aseguradora correspondiente a un asegurado
o un conjunto de asegurados con ciertas caracterı́sticas particulares, con covertura por un
periodo fijo determinado, por ejemplo, un año. Sean S1 , ..., Sm los montos de las reclamacio-
nes efectuadas por este asegurado o grupo de asegurados durante m periodos consecutivos,
y sea S̄ = (S1 , ..., Sm ) /m el promedio de las reclamaciones. Nos interesa estudiar el com-
portamiento de S̄ a lo largo del tiempo para un conjunto de asegurados en particular, pues
deseamos determinar si la prima que se les cobra a cada uno de ellos es la adecuada. Si las
variables S1 , ..., Sm son independientes, e idénticamente distribuidas y con esperanza finita,
entonces la ley de los grandes números garantiza que la media muestral S̄ converge a E (S),
conforme el número de sumandos crece a infinito.

Convergencia de S

E(S)
S

Definición. Sea k ∈ (0, 1) y p ∈ (0, 1) dos valores fijos. Se dice que S̄ tiene credibilidad total
o completa (k, p), si


P S̄ − E(S) ≤ kE (S) ≥ p

178
Esta definición enuncia que S̄ tiene credibilidad completa si dista de E(S), en menos de
kE(S) con probabilidad mayor o igual a p. Obsérvese que la definición tiene sentido cuando
E(S) es distinta de cero. En la práctica, obviamente se toman valores de k cercanos a cero
y valores de p cercanos a uno, tı́picamente k = 0.05 y p = 0.9.

Regresando al esquema de la estimación a través de las dos fuentes de información: datos


individuales e información colateral, nuestra estimación de S̄, queda como

Z S̄ + (1 − Z)E(S)

Notemos que estamos utilizando la esperanza de S como la información colateral. Entonces,


una pregunta que surge de manera natural es: de qué tamaño debe ser la experiencia propia
para que la aseguradora pueda eliminar la información colateral?. En otras palabras, cuál
es el número de periodos, m, necesarios para que se cumpla el enunciado de la definición
anterior?

Credibilidad completa bajo normalidad asintótica

Determinemos una condición sobre este número de periodos, m, para obtener credibilidad
completa asumiendo que, bajo el teorema central del lı́mite, S̄ tiene una distribución aproxi-
madamente normal. Recordemos que

  V (S)
E S̄ = E (S) y V S̄ =
m

Entonces

179
!
 S̄ − E(S) kE(S)
P S̄ − E(S) ≤ kE(S) = P p ≤p
V(S)/m V(S)/m
!
kE(S)
≈ P |Z| ≤ p
V(S)/m
!
kE(S) kE(S)
= P −p ≤Z≤ p
V(S)/m V(S)/m
! !
kE(S) kE(S)
= Φ p − Φ −p
V(S)/m V(S)/m
! !
kE(S) kE(S)
= Φ p −Φ 1− p
V(S)/m V(S)/m
√ !
k mE(S)
= 2Φ p −1
V(S)

Como esta probabilidad debe ser mayor o igual a p según la definición, tenemos que

√ !
k mE(S) 1+p
Φ p ≥
V(S) 2

Lo que queremos es encontrar el valor de m más pequeño que cumpla esta desigualdad, que
es aquel que cumple con la igualdad en esta ecuación. Denotemos por zq al cuantil de orden
q de la normal estándar, i.e., Φ(zq ) = q. Entonces, el valor mı́nimo de m para garantizar
credibilidad total o completa es tal que


k mE(S)
p ≥ z(1+p)/2
V(S)

y despejando m obtenemos

2
z(1+p)/2 V(S)
m≥
k 2 E2 (S)

180
Las cantidades E(S) y V(S) pueden estimarse por medio de la media y varianza muestral,
respectivamente, usando la información que se tenga a disposición al momento de hacer el
análisis. Substituyendo estos valores en la fórmula se puede conocer una aproximación del
número de periodos m de historial para que S̄ tenga credibilidad completa. Obsérvese que
cuando p crece, es decir, cuando se desea tener una mayor confianza en la estimación de S̄,
entonces el número de periodos de observación m también crece. Si además queremos que
el parámetro k decrezca también, es decir, si se pide que la distancia entre S̄ y E(S) tenga
menor amplitud, entonces m crece. En resumen, si requerimos condiciones muy exigentes a
estos parámetros, el precio que hay que pagar es un mayor número de periodos del historial,
de lo contrario, necesitaremos menos periodos.

Ejemplo

Supongamos que N denota la v.a. que representa el número de recamaciones de un porta-


folio de seguros, durante determinado periodo. Asumamos, como es costumbre, que N ∼
P oisson(λ). Supongamos además que la variable de monto de reclamación Xi , sigue una
distribución W eibull(α, β).

Recordemos que, dado que N es Poisson, entonces el modelo para S es Poisson compuesto.
Con

E(S) = E(N )E(Xi )


 
1
= λβΓ 1 + y
α
 
2 2
V (S) = λβ Γ 1 +
α

Encontrar el valor mı́nimo de m, para tener credibilidad total, si p = 0.9 y k = 0.05. Reali-
zando un cálculo simple obtenemos

1.962 λβ 2 Γ 1 + α2

m≥
(0.05)2 λ2 β 2 Γ2 1 + α1


Γ 1 + α2

⇒ λm ≥ 1536.64 2
Γ 1 + α1


181
Observemos que λm representa el total de reclamaciones promedio durante m periodos.

Ejemplo 2

La siguiente tabla corresponde a una muestra de 100 reclamaciones sobre un seguro. Su-
pongamos que la tasa media de reclamación es de 0.015. Calcular el número mı́nimo de
reclamaciones esperadas, ası́ como el tamaño aproximado que deberá tener el portafolio de
experiencia, para asignarle credibilidad total con k = 0.05 y p = 0.9

Tabla
Monto de reclamación Número de reclamaciones
0 − 400 2
400 − 800 24
800 − 1200 32
1200 − 1600 21
1600 − 2000 10
2000 − 2400 6
2400 − 2800 3
2800 − 3200 1
3200 − 3600 1

Entonces, recordemos que, en general

E (S) = E (N ) E (X) y V (S) = E (N ) V (X) + V (N ) E2 (X)

En este caso, utilizaremos las versiones empı́ricas

Ê (N ) = N̄ = 11.11111; V̂ (N ) = 135.1111

Ê (X) = X̄ = 1216; Ê2 (X) = 1841600

Entonces

Ê (S) = 11.11111 ∗ 1216 = 13511.11 y

V̂ (S) = 11.11111 ∗ (1841600 − 12162 ) + 135.1111 ∗ 1841600 = 252853312

252853312
m ≥ 1536.64 = 2128.427
13511.112

182
Credibilidad parcial
En muchas ocaciones reales, la experiencia acumulada no es tan grande como para otorgarle
credibilidad total o completa, solamente creibilidad parcial, (Z < 1). Entonces, necesitamos
determinar qué valor habrá que asignarle a Z, para que nuestro estimador S̄ cumpla las mis-
mas condiciones anteriores. Por lo que, en la combinación lineal convexa que determinamos
para estimar S̄, Z S̄ +(1−Z). Procediendo de manera semejante al desarrollo para creibilidad
total, tenemos que

 
P Z S̄ − E(S) ≤ kE(S) ≥ p

que podemos reescribir como

 
 k
P S̄ − E(S) ≤ E(S) ≥ p
Z

condición similar a la de credibilidad completa, cambiando k, por k/Z. Es decir, la credibili-


dad parcial (k, p), para Z S̄ + (1 − Z)E(S), es equivalente a la credibilidad completa (p, k/Z),
para S̄.

Credibilidad parcial bajo normalidad asintótica


De manera totalmente análoga al desarrollo para credibilidad completa, bajo la hipótesis de
normalidad asintótica para S̄ y para los valores de k y p mencionados anteriormente, se tiene
la aproximación

Z 2 z(1+p)/2
2
V (S)
m≥
k 2 E2 (S)

de donde obtenemos


kE (S) m
Z= p
z(1+p)/2 V (S)

183
Este valor de Z excede el valor de uno para valores suficientemente grandes de m, por lo
tanto se define el factor de credibilidad como

( √ )
kE (S) m
Z = min p ,1
z(1+p)/2 V (S)

Ejemplo. Retomemando nuestro primer ejemplo

Donde N ∼ P oisson(λ) y Xi , sigue una distribución W eibull(α, β), con k=0.05 y p=0.9.
Calculemos la condición de credibilidad parcial para Z S̄ +(1−Z)E(S). En este caso tenemos
que

Γ 1 + α2

⇒ λm ≥ 1536.64 2 1
 Z2
Γ 1+ α

Si tomamos la igualda y despejamos Z, obtenemos


λmΓ 1 + α1

Z= q
39.2 Γ 1 + α2


Entonces, la combinación lineal queda como

√ 1
  √ 1

λmΓ 1 + α λmΓ 1 + α
q S̄ + 1 − q  E (S)

2 2

39.2 Γ 1 + α 39.2 Γ 1 + α

con E (S) es el valor esperado teórico de S y S̄ es la experiencia observada.

184
Credibilidad Bayesiana
La estadı́stica Bayesiana consituye una manera natural de incorporar el historial de reclama-
ciones (información) de un grupo de asegurados en el cálculo de las primas. Una aseguradora
que ha tenido mucha experiencia realizando este cálculo, tendrá una estimación más precisa
de estas primas; no obstante, sólo será una estimación que deberá actualizar tan pronto ten-
ga más información a mano. Por el contrario, una nueva aseguradora en el mercado, tendrá
poca o nula información propia en la que basar sus estimaciones, por lo que dicha estimación
será muy incierta y, tal vez, esté basada en la información del mercado o de juicios subjetivos
de especialistas del área, por lo que le resultará de suma importancia actualizarla en cuanto
empiece a acumular información propia.

Aplicación a la teorı́a de credibilidad

Por lo general, la tasa de frecuencia de reclamación, λ, de un seguro presenta incertidumbre,


por lo que se puede suponer que sus valores están dados mediante una distribución de pro-
babilidades. El rango de definición de esta tasa es λ ∈ (0, ∞), por lo que una distribución
adecuada para ella puede ser la Gamma(α, β). Consideremos también que el número de
reclamaciones sigue una distribución P oisson(λ) y tenemos m pólizas o periodos de obser-
vación independientes. Entonces la distribución final de la tasa de frecuencia de reclamación
es una Gamma con las caracterı́sticas anteriores. Esta distribución final tiene media

α+ m
P
i=1 xi α + mS̄
=
β+m β+m
m β α
= S̄ +
β+m β +mβ
α
= Z S̄ + (1 − Z)
β

m
con Z = el factor de credibilidad. Este factor crece de forma monótona a uno cuando
m+β
m tiende a infinito, dando, como es lógico, cada vez más credibilidad a la media muestral S̄,
es decir, a la información individual o de la Cı́a., y menor credibilidad a la media teórica o
poblacional, que representa la información colateral. Además si m tiende a infinito la media

185
de la distribución final o aposteriori converge a la media muestral lı́mite dada por el historial
de reclamaciones; y la varianza de esta tasa, λ, que es

α + mS̄
(m + β)2

converge a cero, lo cual indica que la distribución final se concentra cada vez más alrededor
de su media.

Ejemplo: Estimación del fraude en un tipo de póliza

Un actuario desea estimar la proporción, θ, de fraude en un determinado tipo de póliza.


Para esto, se realizan inspecciones aleatorias a las reclamaciones realizadas. Se sabe que el
fraude en el sector es del 4 % con una desviación estándard del 2 %. Se inspeccionan un total
de 240 pólizas, y se determina que 22 de ellas son fraudulentas. El actuario quiere combi-
nar estas dos fuentes de información (Sector y Cı́a.) para actualizar esta proporción de freude.

Sea X v.a. que representa el número de pólizas fraudulentas en un total de n inspecciones.


Es claro que X tiene una distribución Binomial(n, θ).

 
n x
f (x|θ) = θ (1 − θ)n−x , x = 0, 1, ..., n; θ ∈ (0, 1)
x

Bajo el enfoque Bayesiano, debemos asignar una distribución inicial a θ. El hecho de que
su espacio parametral sea (0, 1), nos obliga a buscar una distribución que tenga flexibili-
dad (distintas formas posibles) en este intervalo; una elección que parece conveniente, es la
distribución beta.

186
Diversas formas de la distribución Beta Diversas formas de la distribución Beta
10

8
8

6
a1= 3 , a2= 1
a1= 3 , a2= 0.8
6

a1= 3 , a2= 0.6


a1= 0.5 , a2= 3 a1= 3 , a2= 0.4
a1= 1 , a2= 3 a1= 3 , a2= 0.2
Beta

Beta
a1= 1.5 , a2= 3 a1= 3 , a2= 0.1
a1= 3 , a2= 3

4
a1= 5 , a2= 3
a1= 7 , a2= 3
4

2
2
0

0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0

x x

cuya función de densidad es

θα−1 (1 − θ)β−1
p(θ; α, β) = ; θ ∈ (0, 1), α > 0, β > 0
Beta(α, β)

con α y β parámetros de la distribución inicial, conocidos como hiperparámetros, que se


pueden estimar a partir de la información inicial sobre θ, cuya distribución inicial supusimos
Beta(α, θ), de la siguiente forma

α
E (θ) = = 0.04, y
α+β
αβ
V (θ) = 2
= 0.022
(α + β + 1)(α + β)

cuya solución es: α = 3.648 y β = 91.2.

Para encontrar la distribución final de θ dados los datos observados, utilizaremos el teorema
de Bayes para distribuciones. Sabemos que, en este caso, la distribución final también debe

187
ser una Beta, porque es conjugada para la Bernoulli. Por lo que sólo resta ver cómo se ac-
tualizan los parámetros de la Beta inicial (Modelo Beta-Binomial). Entonces

f (x|θ)Beta(θ|α, β)
p(θ|X) = Z 1
f (x|θ)Beta(θ|α, β)dθ
0

θα−1 (1 − θ)β−1
 
n x
θ (1 − θ)n−x
x Beta (α, β)
= Z 1 
n x θα−1 (1 − θ)β−1
θ (1 − θ)n−x dθ
0 x Beta (α, β)

θx+α−1 (1 − θ)n−x+β−1
=
Beta(x + α, n − x + β)

Por lo tanto

p(θ|x) = Beta(x + α, n − x + β)

Con x el valor observado de la Binomial. Entonces, la media de la distribución final, que es


la proporción de fraude actualizada, es

α+x
E (θ|x) =
α+β+n
n x α+β α
= +
α+β +nn α+β +nα+β
n α+β
= θ̂ + E(θ)
α+β+n α+β+n

que representa la fórmula de credibilidad, donde se combinan la experiencia del sector (co-
lectivo) y la información de la Cı́a. (individual). Con el factor de credibilidad dado por

n
Z=
α+β+n

188
Finalmente, la proporción de fraude actualizada es 0.08294955 y factor de credibilidad
Z = 0.7167431. Para construir un intervalo de probabilidad sobre esta proporción. Debemos
encontrar los lı́mites (l, u), sobre la distribución final de θ, tal que

P (l ≤ θ|x ≤ u) = 1 − q

con 0 < q < 1, la probabilidad de cobertura deseada.

189
Cálculo Bayesiano de primas de seguros
El uso de las distribuciones iniciales que tienen un carácter evidentemente subjetivo, resulta
de utilidad en el mercado de seguros, sobre todo si se tiene en cuenta que cuando se quiere
tarifar un riesgo nuevo no se dispone de información para ello.

La visión Bayesiana se incorporó rápidamente a la disciplina actuarial, demostrando que


algunas primas que se obtienen a través de la metodologı́a Bayesiana pueden escribirse como
fórmulas de credibilidad.

En estos términos actuariales, la cuestión básica de credibilidad es determinar una prima


establecida como una combinación lineal convexa entre la experiencia particular de un ase-
gurado y la experiencia del colectivo, esto es, toda la cartera. Es decir

Pj = Z P̂ + (1 − Z) P0

Con

• Pj prima a aplicar a los asegurados por el riesgo j.

• P0 prima a aplicar a un colectivo al que pertenece el asegurado j.

• P̂ Prima calculada con base en la experiencia del asegurado j.

• Z Factor de credibilidad. Que debe verificar las condiciones: limm→∞ Z = 1, con m el


número de sujetos expuestos al riesgo j o el periodo de observación de la póliza j. Entonces,
si Z = 1 la experiencia del asegurador recibe credibilidad total o del 100 %, mientras que si
Z = 0, Pj = P0 y la prima del asegurado j coincide con la del colectivo a la que pertenece
dicha póliza, o la experiencia del colectivo recibe credibilidad total o del 100 %.

Entonces, desde el punto de vista Bayesiano, esta fórmula de credibilidad puede interpretar-
se como: Podemos considerar P0 como la información inicial o a priori. A P̂ como la nueva
información que se obtiene mediante la observación de la siniestralidad del riesgo j (los datos
recabados; la información recabada) y Pj la actualización del cálculo de la póliza (prima a
posteriori), resultado de combinar la información inicial con la información recabada. Por lo
tanto

190
P rima(a posteriori) = (1 − Z) ∗ Prima a priori + Z ∗ Experiencia dada por los datos

De esta manera, la teorı́a de la credibilidad Bayesiana, sigue un esquema donde la infor-


mación a priori sobre el cálculo de las primas, se actualiza con la información dada por
la observación del siniestro (muestra), dando como resultado la actualización de la prima,
mediante el cálculo de la prima a posteriori.

191
Procesos estocásticos
En este apartado haremos una presentación breve de diversos aspectos relacionados a los
procesos estocásticos. Se definiran algunos conceptos y propiedades de ellos, además de pro-
porcionar ejemplos particulares de procesos estocásticos. Estas herramientas serán de gran
utilidad para el estudio de la teorı́a de la ruina y de reservas, que son nuestros objetivos
finales del curso.

Proceso estocástico
Def. Un proceso estocástico es una colección {Xt }t∈T de variables aleatorias indexadas por un
conjunto, T, y definidas en algún espacio de probabilidad (Ω, F , P). Consideramos al con-
junto de ı́ndices, T, como un parámetro temporal, por ejemplo: {0, 1, ..., n}, N, [0, t] ó [0, ∞).
Interpretamos un proceso estocástico como la evolución en el tiempo de algún fenómeno cu-
yo comportamiento lo rige el azar (es aleatorio). Un ejemplo dentro del área actuarial está
determinado por la evolución en el tiempo, de la reserva de una compañı́a de seguros. En
finanzas, por ejemplo, Xt puede representar el precio de una acción bursátil al tiempo, t.
En un contexto más trivial, la cantidad de soles (águilas) acumuladas en una sucesión de
lanzamientos de una moneda (“volados”) también constituye un proceso estocástico.

En el segundo ejemplo, se puede indexar al proceso por algún intervalo de números naturales,
en cuyo caso hablaremos de un proceso estocástico a tiempo discreto. Además, dicho proceso
toma valores en los naturales, por lo que también se trata de un proceso con espacio de esta-
dos discreto. En el primer caso, se puede pensar en un modelo indexado por un subintervalo
de [0, ∞) y hablaremos de un proceso estocástico a tiempo continuo. Además, en principio,
el valor de la reserva podrı́a ser cualquier real no-negativo y por lo tanto hablamos de un
proceso con espacio de estados continuo.

Ejemplos

Caminatas aleatorias y el problema de la ruina. Modelemos la siguiente situación: Tenemos


un capital de 50 pesos al tiempo cero y cada instante de tiempo apostamos un peso en un
“volado”, ganándo si cae águila. ¿Cómo podemos modelar y estudiar la evolución de nuestro
capital a través del tiempo?. Un particular interés es la variable aleatoria que nos indica el
instante en que nos arruinemos por primera vez, misma que a priori podrı́a ser infinita si

192
jamás nos ocurre este evento (“sı́, como no” ).

Entonces, nuestro modelo se construye de la siguiente manera. Sean U1 , U2 , ... variables alea-
torias uniformes en (0, 1), independientes. Sea 1Ui ≤1/2 , la variable aleatoria indicadora que
denota si el resultado del i-ésimo lanzamiento fue águila (Ui = 1) y, por tanto, la variable
aleatoria 21Ui ≤1/2 − 1, toma los valores 1 si cae la moneda águila y -1 si cae la moneda sol.
Con estas consideraciones, podemos definir nuestro modelo como

X0 = 50, y Xn+1 = Xn + 21Un+1 ≤1/2 − 1

Trayectoria del proceso de ruina del jugador


80

●●


● ●
●●●


●● ●
●●●

●● ●
●●● ●

●● ●●
●●●
● ●
● ●

● ● ● ●
●●●
● ● ●
●● ●●

● ●
●● ●
●● ●●
● ● ● ●
●●● ●
●●●
●●●

● ●
●●● ●
●●● ●● ●
● ●
●● ●
●●●
●●● ●●
●●●
●●●


● ●
●● ● ●●
●● ● ●
● ●●●
● ●
●●●
●● ●●
●●●● ●


● ●● ● ●● ●
●●● ●
● ● ●
●● ●
●●●
●● ●
● ●
●● ●

● ● ●
●●●●
●● ● ●● ●
●● ● ●
●●● ●
●●● ●● ● ● ●

● ●●
●●●●●
● ●
●● ●● ●
● ●●
●● ●
● ●● ● ●

●● ● ●●
● ●●● ●●
●●●●●●
● ●
●● ●
●●● ● ●● ●
● ●
●●


●●●●
● ●
●● ●
● ●
●●●
●●●
●●● ●
● ●
● ●●
●●●
●●● ●
●● ●
●●●
●●

●●●
●● ● ● ●
●●●
●● ● ● ● ● ●● ●
●●●
●●●
●● ●
● ●
●●●●


● ● ● ●●
●●●●
● ●
●●● ●
●●● ●
●●●● ● ●
●●● ●


● ●
●●●●
●●● ●
●●● ●
●●●
●● ● ● ●
●● ●

● ●
●● ●
●● ●
●● ● ● ●
●●● ● ●
●●●
60

● ● ●● ●
●●●
●●● ● ● ● ● ●
●●●

● ●
●● ●
●●●
●● ●
●●●
●●●
● ●
● ●
● ●●
●●● ●
● ● ● ● ●

●●
●●● ●
●●● ●
●●●
●●●
●●●●●
●●●●●
●● ●●
●● ● ●
●●●
●●●
● ●
● ● ●
●●●
●● ●
● ●

● ● ●
●●●●
●● ●
● ●●
●● ●●
●●●
●● ●
●●●
●● ● ●
●●●
● ●
●●●
● ● ●
● ●
●● ●
●●●
●●●
●●●
● ●


●●● ●
●● ●●
● ●
●● ● ● ●● ●
● ●
●●●
●●●
●●●
●●●
●● ● ● ● ●
●●●
●●● ●●
●● ●

● ●
●●●
●●●●
●●●
● ● ●
●● ● ●
●●● ●
● ●
●●●
●●●
●●● ● ● ●● ●
●●●
● ●
●● ●
●●●
●●


●● ● ●●
●●●
●●● ●
●● ●
●● ●
● ●
●●● ● ●
●●●
● ● ●●
● ●
● ●
● ●
●●●●
●●●
●●● ●
●●●
●●●
●●●●

●●
●●●
●● ● ● ●
●● ●
●●● ●
●●● ●●● ●
●● ● ● ●
●●● ● ●●
● ●
●●●
●●●●●●
●●●
● ● ●●
● ●
●●●
●●


● ●●
●●●
●● ●
● ●
● ● ●
● ●
●●●
● ●●
● ●
●●●
●●● ●● ●
●●● ●● ●
●●●
● ●
●●●
●● ●
●● ●
●● ●
●●●
●●


● ●● ●
● ●
●●●
●● ●● ● ● ●
●●● ●
●● ●
●●●
●●●
●● ● ●●
●●●
●●●
●●●●
●●●
●● ● ● ● ●
●●● ●
●● ●

●●
●● ●
● ●●●
●●●
●● ● ●
● ●
●● ●●
●●●
●● ●●● ●
●●●●●
● ●●
●●●
●●●
●●● ●
● ●
●●●
● ●
●●●


● ●●
●●●
● ● ●● ●●●
● ● ●● ●●● ●
● ●
●● ●
●●●
●●●●
●●● ●
● ●● ●
● ●
●●● ●
●●●●
●● ● ●


● ●
●●●
●●● ●
● ●
● ●
●● ●
●●●
●● ●●
●●● ●●
●●●●
● ● ●
●●●●
● ●
●● ● ●
●●●
●●● ●
●●●● ●●
●●●

● ● ●
●●●●
● ● ● ●
●●●
● ●●
●●●● ●●● ●● ●
●●●
● ●
●● ● ●●
●● ●●●
●●●
●●●●
●●●
●● ● ●
●●●

● ●
● ●
● ●●
●●●● ●
●● ●
● ●● ● ● ●
●● ●●
●●●●
●●●
●● ● ●
● ●
●●●
●●●

● ●
●●● ● ●
●●●● ●
●●●
● ●
● ● ● ● ●
● ●
●● ●
● ●
● ●
●●●
●●● ● ● ●
●●●

● ●
●●● ●
●●●
●●●
●●● ●● ● ● ● ●
● ● ●●
●●●
● ●
●●● ●
●●●
●●●
●●● ●● ● ●
●●●

●●
● ● ●●
●●●●● ●●
●● ●
●●● ●
●●●
●●●
●●● ●
●●●
● ●
●●●●
●● ● ●
●●●●
●●●
●●●
● ●


●●● ●
● ●●
● ●●
●●●
●● ●
●●●
●●●●
●●●●
●●● ● ●
●●●
●●●
●●●
●● ●
●●●
●●●
●● ●


●● ●
●●● ●
●●●
●●● ●
●●●
●●●
●● ●●
●●●●
●● ●● ● ●
40

● ●
●● ● ●●
● ●
●● ●
●● ● ● ●● ●
●●●
● ●● ●
Xn

● ●
●●● ● ● ●
●●●●
●●●
●● ●●
●●●
●● ●●


●● ●
●● ●●●
●● ●
● ● ● ●
●●●●●
●●●
●●●


● ●
●●●● ● ●
● ●
●●●
●●●
●● ●● ●●●
●●●
●● ●

● ●
●●● ●●
●●●
●●●●
●● ● ●
● ●
●●● ●●
●●


●● ●●
● ●
●●●
● ●● ● ●●
●●●
●●●●

● ●
● ● ●
●●●●
●●● ●●
●●●
●●●

● ●
●●●
●● ●● ● ●
●●


●● ●
● ● ●
●●●

● ● ●
●●●
●●●●●
●●●


●●●
●●●
● ●
●●●
●●●
●●


●●● ●
●●●
●●●
●●● ●

● ●●
●●●
● ●
●●


●●● ●
●●●


●●● ●
●●●●

● ● ● ●
● ●


● ●
●●●
●●●
●●●
●● ● ●●●
●● ●


●●●
●●●
●●●
●●●●
●●●● ●
● ● ●
●●●
●●● ●●
●●●●


●● ●
●●●● ● ●
●●● ● ●● ● ●●
●●●
●●●
●●●●
●●●
●●


●● ● ● ●
● ●●
●● ● ●
● ●
●●●
●●●●
●●●
●●●
● ●
20

● ●●
●●● ●
●●●
●●●
● ●
●●● ●
●●● ●
●●● ●
●● ● ●●●●
● ●


●●●
●●● ●●
●●●● ●
●●●
●● ●
●●● ●
●● ●●
● ●
●●●
●●● ●●


● ●
● ●
● ● ●
●● ●
● ● ●
●● ●●
●●●●●●


●● ●●
●● ● ●
● ● ●
●● ●
●●●
●●● ●


●●● ●
●●● ● ●
● ●
● ● ●
●●● ●●
●●● ●

●●
●●●
●●● ●
●●●
●● ●
●● ● ●●
●● ●
● ●●
●● ● ●


●●●
●● ●
●●● ●
●●●
●●●
●● ●●●
●●●
●●●
● ● ●● ●
●● ●


● ●●
●●●
●●●
●●●
●●●
●●●
●●● ●
●●●
●●● ●
● ●
●●● ●●
● ●●
● ●

● ●
● ●
●●●
●●●
● ●
●●●
●●●
●● ● ● ●● ●
●●●●
● ●●
● ●
●● ●

● ● ●●
● ●
●● ●
●● ●● ● ●●
●● ● ●
● ●●●
● ●

● ●●●
● ●
●●● ●● ●
● ●
●● ●●
●●● ●
● ●
●●●
● ●

● ●●
●●●
●● ● ●
●●●
● ●
● ●
●●●●●●
●●●
●● ●
●●●
●● ● ● ●●● ●


●●●
●●●
●●●● ●●
●●●● ●
●●●
● ●
●●●
●●●
●●●
●●● ●
●●● ●
●●●●
● ●


●●●
●●●
● ● ●
●●●●●
●●● ●● ●● ●● ● ● ●
●●●
●●● ●
●●


●● ● ●●
●●●
●● ●
●● ●●
● ●
●●●


●● ●
● ●
● ●
●●


●● ●●

● ●
●●

●●


●●●


●●●
0

0 500 1000 1500 2000

Ejemplo 2 Queriendo arruinarse pronto. Modifiquemos el proceso anterior de la siguiente


manera. Capital inicial $50. A cada instante de tiempo apostamos en un “volado” o la mitad
de nuestro capital si tenemos más de 10 pesos o 2 pesos si éste es menor o igual a 10, ganando
si cae águila. En este caso nuestro modelo es

193
 
Xn
si Xn > 10



  2
X0 = 50, y Xn+1 = Xn + 21Un+1 ≤1/2 − 1



2 si X ≤ 10
n

Trayectoria del proceso modificado de ruina del jugador


50


40
30
Xn


20



10

● ●

● ● ● ● ● ● ● ● ●

● ● ● ● ● ● ● ● ●

● ● ●
0

0 5 10 15 20 25 30

Ejemplo 3. Tiempos de espera. En este caso lo que deseamos modelar es el proceso que ge-
neran los clientes que van llegando en tiempos aleatorios, por ejemplo, a una fila única del
banco, que requieren un servicio cuyo tiempo de atención también es una variable aleatoria.
Lo que deseamos es al caracterizar este proceso es determinar ¿cuánto tiempo debe esperar
un cliente que llega al momento t, para salir del banco?.

El modelo usual para esta situación asume que los tiempos sucesivos entre los arribos de los
clientes, son variables aleatorias exponenciales con parámetro λi . Además, se puede suponer
que los tiempos de servicio son variables aleatorias independientes con distribución común
exponencial, de tasa λs . Se supone que todas las variables involucradas son independientes.
Entonces, la construcción del modelo es como sigue

Sean S1 , S2 , ... variables exponenciales independientes de parámetro λi y ξ1 , ξ2 , ... variables

194
exponenciales independientes de parámetro λs . Con


1Tn ≤t , R0 , Rn+1 = Rn + ξn+1
P
T0 , Tn+1 = Tn + Sn+1 , Nt =
n=1

Definimos los procesos

Xt = RNt − t y Qt = Xt − mı́n Xs
s≤t

Por lo tanto, Qt representa el tiempo de servicio necesario para atender a los clientes que se
encuentran presentes en el banco al tiempo, t, que es nuestro proceso a estudiar.

Trayectoria del proceso de tiempos de espera con tasas iguales de llegada y servicio
50



●● ● ●
●●
●● ● ●●●
● ●
●● ● ●● ● ●
● ● ● ●
● ●● ● ● ● ●●●●
● ●●
● ●● ● ●
● ●

● ●● ●● ●

●● ● ● ● ● ●● ●
● ● ● ●●● ●●● ●
● ●● ●● ● ●
40


● ●●

●● ● ● ●

●● ●
●●● ●
● ● ●
● ●●

● ● ●●● ●●
● ●
● ● ●

● ● ●

● ●
● ●●● ●●
● ● ● ● ●●
● ● ● ● ● ●
●● ●
● ●

● ● ● ● ●●●
●● ● ● ●
● ● ●
● ● ● ●●
● ●● ●● ●● ●
● ●●
● ● ●●
●●● ● ● ● ●●
● ●
30


●●
● ●●●
● ●●
● ●
● ●●
●●
● ●

● ●
● ●● ●
●● ● ●
●● ●
Q(t)



●●
●● ●●


● ● ●●
● ●

●● ● ● ●
● ● ●
20


● ● ●●●●● ● ●
● ● ●
● ●


●●● ● ●
● ● ●●●●
● ●●
●●



●●
● ●
●● ●
●●
● ●
● ● ●● ●● ●●
●●●
● ●● ●

● ● ●
● ● ●● ● ●●
● ● ●
● ●
10

●● ● ●
●●
● ●
● ● ● ● ●● ●

● ●● ● ●● ●
●● ● ● ●

● ● ● ●● ●


● ●
●● ● ●
●●● ● ● ●●
● ●●
● ●

● ●● ●● ●
● ● ● ●● ●
● ● ● ●●
● ● ●
● ● ●●
● ●
● ● ● ●
● ● ●
● ● ● ●
● ●●
● ● ●
●●

● ●
● ●●
● ● ●
● ●
● ●● ●
●●
● ● ●
● ●
● ● ●●
●●●●●●●
0

●● ●
●●●

0 100 200 300 400

195
Cadenas de Markov a tiempo discreto

Def. Una cadena de Markov con matriz de transición P y distribución inicial π, es un proce-
so estocástico {Xn }n∈N con valores en el espacio de estados, E, tal que si x0 , x1 , ..., xn ∈ E,
entonces

P (X0 = x0 , ..., Xn = xn ) = πx0 Px0 ,x1 · · · Pxn−1 ,xn

Propiedad de Markov. Sea X una cadena de Markov con matriz de transición P y distribu-
ción inicia π. Si P (X0 = x0 , ..., Xn = xn ) > 0, entonces

P (Xn+1 = xn+1 |X0 = x0 , ..., Xn = xn ) = P (Xn+1 = xn+1 |Xn = xn )

Que enuncia que la evolución futura de la cadena sólo depende de su pasado a través del
presente. Enunciado de otra forma

Propiedad de Markov. Un proceso estocástico a tiempo discreto y con espacio de estados


discreto es Markoviano si y sólo si, la probabilidad condicional de estar en el estado Xt+1
dados los estados anteriores {X0 , X1 , ..., Xn }, sólo depende del estado más reciente Xn .

P (Xn+1 |X0 , X1 , ..., Xn ) = P (Xn+1 |Xn )

Ejemplo 1 : Caminata aleatoria simple. La caminata aleatoria simple es una cadena de Mar-
kov cuyo espacio de estados es Z y es tal que Pn,n+1 = 1 − Pn,n−1 con p ∈ (0, 1). Este ejemplo
ya lo vimos anteriormente. La gráfica de una trayectoria del proceso obtenidad a través de
simulación es

196
Caminata aleatoria simple
15
10
Xt

5
0

0 20 40 60 80 100

Algunas caracterı́sticas relevantes de una cadena de Markov.

• Si es posible ir a cualquier estado de la cadena de Markov en uno o más pasos, entonces la


cadena es irreducible.

• Si estando en algún estado, se regresa a él sólo en intervalos regulares, la cadena se llama
periódica, de lo contrario se denomina aperiódica.

• Supongamos que podemos encontrar un vector de probabilidades w tal que wP = w,


entonces se dice que w es la distribución estacionaria de la cadena.

• Equivalentemente, una cadena es estacionaria si existe una función de distribución de


probabilidad f tal que si Xt ∼ f , entonces, Xt+1 ∼ f . Por lo tanto, formalmente, el kernel y
la función de distribución estacionaria cumplen la ecuación

Z
K(x, y)f (x) = f (y)

• Si una cadena de Markov es irreducible y aperiódica, entonces tiene una única distribución

197
estacionaria.

• En el caso de que la cadena sea además recurrente, la distribución estacionaria es también


la distribución lı́mite, en el sentido de que la distribución lı́mite de Xt es f casi para cualquier
valor inicial X0 . Esta propiedad también es conocida como ergodicidad, y obviamente tiene
una gran consecuencia desde el punto de vista de la simulación, ya que si un kernel dado,
K, produce una cadena de Markov ergódica con distribución estacionaria f, generando una
cadena de valores de este kernel, eventualmente produciremos simulaciones de f. En particu-
lar, para funciones integrables h, el promedio

T
1X
h(Xt ) → Ef [h(X)]
T t=1

lo significa que la ley de los grandes números válida para los métodos Monte Carlo, puede
aplicarse en el contexto de MCMC. (Teorema ergódico).

Ejemplo: Un dı́a de trabajo.

Veamos un ejemplo simple que genera una cadena de Markov a partir de una matriz de
transición.

• Cada dı́a me levanto e intento hacer la mayor cantidad de mi trabajo pendiente.

• Enciendo la computadora y me pongo a trabajar.

• Es bastante fácil que me distraiga del trabajo. Después de cada minuto de trabajo, tengo
sólo una probabilidad de 0.4 de continuar trabajando al minuto siguiente. Con probabilidad
0.6 inicio una navegación por INTERNET.

• Navegar en la red es bastante adictivo. Después de navegar un minuto, mi probabilidad de


regresar a trabajar es tan sólo de 0.1. Con probabilidad 0.6, sigo navegando en la red. Con
probabilidad 0.3 reviso mi correo electrónico.

• Con probabilidad 0.5 regreso a mi trabajo. Con la misma probabilidad, continúo revisando
mi correo electrónico.

198
Mi matriz de transición

 trabajo internet e − mail 


trabajo  0.4 0.6 0 

internet  0.1 0.6 0.3
 

 
e − mail 0.5 0 0.5

Es una matriz de transición de una Cadena de Markov. Todas sus entradas son no negati-
vas y sus renglones suman uno, y cumplirá todas las condiciones de aperiódica, irreducible,
recurrente, etc.?

199
El proceso Poisson

Dada la dependencia del modelo de Camér-Lundberg (que enunciaremos posteriormente) del


proceso Poisson, lo definiremos en seguida.

Def. 1 : Un proceso estocástico, {X(t), t ≥ 0}, a tiempo continuo, se dice que es de incre-
mentos independientes si para cada t0 < t1 < · · · < tn , con t0 , t1 , ..., tn ∈ T se tiene que

X(t1 ) − X(t0 ), X(t2 ) − X(t1 ), ..., X(tn ) − X(tn−1 )

son variables aleatorias independientes.

Def. 2 : Un proceso estocástico, {X(t), t ≥ 0}, a tiempo continuo, es de incrementos estacio-


narios si la distribución, dado t ∈ T , de

X(t + s) − X(t)

es la misma ∀s ∈ T .

• En un proceso con incrementos estacionarios, cambios en el proceso de igual tamaño son


iguales en distribución.

Def. 3 : Un proceso estocástico a tiempo continuo, {N (t), t ≥ 0}, se dice puntual o de con-
teo, si N (t) representa el número de veces que ocurre un suceso hasta el instante de tiempo, t.

• En particular

N (t) ∈ N, ∀ t ∈ T

N (s) ≤ N (t), si s < t (Los incrementos son no negativos)

• Por lo tanto, un proceso de conteo es de incrementos independientes si el número de sucesos


en intervalos de tiempo que no se traslapan son variables aleatorias independientes.

• Y es de incrementos estacionarios, si el número de sucesos en un intervalo de tiempo es el


mismo en intervalos de igual longitud.

200
• Un uso muy frecuente de la distribución de Poisson surge en situaciones en las que los
eventos ocurren a lo largo del tiempo, por ejemplo: ocurrencia de terremotos, personas que
ingresan a un banco, llegadas a un servidor, emisiones de partı́culas por una fuente radiac-
tiva, etc.

Def. 4 : Un proceso de conteo {N (t), t ≥ 0}, se dice de Poisson (homogéneo), con tasa de
intesidad, λ, si

• N (0) = 0

• Es de incrementos independientes

(λt)n e−λt
P (N (t + s) − N (s) = n) = , ∀n ∈ N, ∀s, t > 0
n!

• De la definición es claro que el proceso es de incrementos estacionarios, y los incremen-


tos siguen una distribución Poisson de parámetro λt para intervalos de tiempo de longitud, t.

• El número promedio de eventos hasta el instante, t, es

E [N (t)] = E [N (t + 0) − N (0)] = λt

• V [N (t)] = λt

• Para cualquier intervalo de longitud, t, se tiene

E [N (s + t) − N (s)] = E [N (t)] = λt

201
Trayectoria: Proceso Poisson
30


●●
●●

●●

●●

●●●
25

●●



●●●●

●●●
20


●●●●

●●
●●●
●●
N(t)

●●
15

●●

●●●

●●


●●●
●●
●●
10

● ●
●●

●●●
●●●●
●●●
●●

●●●
5


●●●●●






●●●

0

0 20 40 60 80

202
Proceso de Poisson no homogéneo (o no estacionario). En muchas situaciones es más realista
suponer que hay más incidencias a ciertas horas (o en ciertos intervalos) que a otras. Para
modelar esta situación, es conveniente la siguiente generalización del Proceso Poisson.

Def. 5 : Decimos que {N (t), t ≥ 0}, es un Proceso Poisson no homogéneo, con tasa de inte-
sidad, λt, si

• N (0) = 0

• Es de incrementos independientes

Z t+s
P (N (t + s) − N (s) = n) = λ(x)dx, ∀s ≥ 0, t > 0
s

• En otras palabras, para cada s ≥ 0 y t > 0 se tiene que N (t + s) − N (s) es una variable
aleatoria Poisson con media

Z t+s
m(t + s) − m(t) = λ(x)dx
s

• N (t) tiene distribución Poisson con esperanza

Z t
m(t) = λ(x)dx
0

• Si λt = λ (constante), entonces N (t + s) − N (s) es una variable aleatoria Poisson con


media λt.

203
Esperanza Condicional
Antes de dar una definición formal sobre la esperanza condicional, hagamos una introducción
simple de este concepto.

Supongamos que X es una v.a. que denota el resultado de un experimento aleatorio.

• Si no tenemos información sobre el resultado del experimento, entonces, nuestra mejor


conjetura (apuesta) sobre el valor de X será, E (X), la esperanza o valor esperado de X.

• Si conocemos el resultado del experimento, entonces conocemos el valor exacto de X.

• Frecuentemente conocemos el valor de otra variable aleatoria Y que está relacionada con
X. En este caso, la mejor predicción del valor de X será la esperanza condicional E[X|Y ].

La esperanza condicional, E[X|Y ], es una nueva variable aleatoria de la forma, g(Y ), que
aproxima X, usando la información sobre v.a. Y.

Ejemplo

Consideremos el experimento de lanzar un dado dos veces. Sean Y y Z los puntajes que
aparecen en el primero y segundo lanzamiento, respectivamente. Sabemos que

6
X 6
X
E [Y ] = xP [Y = y] = 3.5, y E [Z] = zP [Z = z] = 3.5
y=1 z=1

y, por independencia entre Y y Z,

E [Z|Y ] = E [Z] = 3.5

En este caso, la función g es constante como función de y, lo que implica que conocer Y no
sirve para predecir Z o no aporta información sobre Z.

• Ahora, consideremos la v.a. X = Y + Z . Es claro que X y Y son, ahora, variables alea-


torias dependientes. Entonces,

E [X|Y ] = E [Y + Z|Y ] = E [Y |Y ] + E [Z|Y ] = Y + E [Z] = Y + 3.5

204
Entonces, E [X|Y ] = Y + 3.5 = g(Y ), que es una v.a.

Ostro

Ahora supongamos que lanzamos un dado hasta obtener un seis. Sea Y el número total de
lanzamientos del dado, y X el número de unos observado. Calcular E [Y |X].

El evento Y = y − 1 significa que se realizaron y − 1 lanzamientos en los que no se observó


un seis, y que el seis se observó en el lanzamiento y. Entonces, dado este evento, X tiene
una distribución Binomial(y − 1, 51 ). Entonces

1
E [X|Y ] = np = (y − 1)
5

que es una función de Y .

205
Las siguientes definiciones y resultados requieren de un espacio de probabilidad. Entonces

Sea (Ω, A , P) un espacio de probabilidad

Definición 1 Sea X una variable aleatoria con esperanza 2


finita, y sea F una sub σ-
álgebra de A . La esperanza condicional de X dado F , E[X|F ] , es una variable aleatoria
que cumple:

Es F -medible

Tiene Esperanza finita

E[X|F ]dP ∀ B ∈ F
R R
B
XdP = B

Usando el teorema de Radon-Nykodim puede desmostrarse que E[X|F ] existe y es única


casi seguramente.

Proposición 1 Sean X y Y variables aleatorias con esperanza finita, F una σ-álgebra y c


una constante, entonces

1. E[X|F ] = E[X] si X es independiente a F

2. Si X ≥ 0 ⇒ E[X|F ] ≥ 0

3. E[cX + Y |F ] = cE[X|F ] + E[Y |F ]

4. Si X ≥ Y ⇒ E[X|F ] ≥ E[Y |F ]

5. E[E[X|F ]] = E[X]

6. Si X es F -medible ⇒ E[X|F ] = X c.s.

7. Si XY es integrable3 y X es F -medible ⇒ E[XY |F ] = XE[Y |F ]

8. Si F1 ⊂ F2 ⇒ E[E(X|F2 )|F1 ] = E[X|F1 ]

2
R
E[X] := Ω XdP
3
Una v.a. X es integrable si E[|X|] < ∞

206
Y cómo definimos la esperanza condicional dada una variable aleatoria, como las de la in-
troducción, es decir, E[X|Y ]?

Definición 2 Sea (Ω, A , P) un espacio de probabilidad, X ∈ (Ω, A , P), integrable, y sea


Y ∈ (Ω, A , P) otra variable aleatoria. Se define la esperanza condicional de X dado Y, como

E [X|σ (Y )]

Más ejemplos: Jaula con tres puertas

Un prisionero está encarcelado en una jaula que tiene tres puertas.

• La puerta 1 lo lleva inmediatamente a la libertad.

• La puerta 2 lo conduce a un tunel que lo regresa a la misma jaula después de un dı́a de


trayecto.

• La puerta 3 lo lleva, también, a un tunel que lo regresa a la misma jaula después de tres
dı́as de trayecto.

• La probabilidad de escoger cualquiera de las puerta es la misma: p = 31 .

• Suponemos que si regresa a la jaula, inicia el mismo proceso de nuevo como si hubiera
olvidado sus experiencias pasadas con la elección de las puertas. Entonces

¿Cual es el valor esperado del tiempo que tardará el prisionero, hasta que esté
en libertad?

Sol.

Sea X la v.a. que determina el tiempo hasta que el prisionero consiga la libertad, y Y la v.a.
que determina el número de la puerta elegida inicialmente. Observamos que

• E [X|Y = 1] = 0

• E [X|Y = 2] = 1 + E [X]

• E [X|Y = 3] = 3 + E [X]

207
Ahora, utilizando la propiedad 5 de la esperanza condicional, tenemos

E [X] = E [E [X|Y ]]
1 1 1
= E [X|Y = 1] + E [X|Y = 2] + E [X|Y = 3]
3 3 3
1
= (0 + 1 + E [X] + 3 + E [X])
3
1
= (4 + 2E [X])
3

Por lo tanto: E [X] = 4 dı́as

Ejemplo 2

Sean X1 , X2 , ..., Xn variables aleatorias i.i.d. con esperanza común µ. Definimos la v.a.

Sn = X1 + X2 + · · · + Xn

Para m < n tenemos

E [Sn |X1 + X2 + · · · + Xm ] = E [X1 + X2 + · · · + Xm |X1 + X2 + · · · + Xm ] +

E [Xm+1 + Xm+2 + · · · + Xn |X1 + X2 + · · · + Xm ]

= X1 + X2 + · · · + Xm + E [Xm+1 + Xm+2 + · · · + Xn ]

= Sm + (n − m) µ

Definición 3 Una filtración es una colección de σ-álgebras {Fn }n≥1 tal que Fm ⊆ Fn ∀
m≤n

En particular, la filtración natural o canónica de un proceso {Xn } es aquella sucesión de


σ-álgebras definidas por Fn = σ{X1 , X2 , ..., Xn }
“Fn contiene la información del proceso {Xi }i≥1 hasta el tiempo n ”

Definición 4 Se dice que un proceso {Xn } es adaptado a la filtración {Fn } si Xn es Fn -


medible

208
Definición 5 Una variable aleatoria τ con valores en N ∪ {∞} es un tiempo de paro con
respecto a la filtración {Fn }n≥1 si {τ ≤ n} ∈ Fn ∀ n ∈ N

Equivalentemente {τ = n} ∈ Fn

Que se interpreta como: La ocurrencia del evento “paramos el proceso al tiempo τ = n”,
puede determinarse conociendo sólo los valores de X0 , X1 , ..., Xn , i.e., no se requiere conocer
los valores Xn+1 , Xn+2 , ....

Ejemplo

Supongamos que {Xn } es una cadena de Markov que representa nuestro capital en dólares,
después de haber jugado n veces. Podemos pensar en ganar apostando en un casino, y parar
de apostar (jugar) cuando alcancemos una suma deseada, digamos, m dólares.

El tiempo aleatorio, τ , en el que por primera vez acumulamos m dólares es un tiempo de paro:

{τ = n} = {X0 6= m, X1 6= m, ..., Xn−1 6= m, Xn = m}

209
Martingalas
Definición 6 Un proceso estocástico {Xn } es una {Fn }-martingala si

1. Xn es integrable ∀ n ≥ 1

2. {Xn } está adaptado a {Fn }

3. E[Xn+1 |Fn ] = Xn ∀ n ≥ 1

Implicaciones:

1. E[Xm |Fn ] = Xn ∀ m ≥ n

2. E[E(Xm |Fn )|{Ω, ∅}] = E[Xm |{Ω, ∅}] = E[Xm ]

⇒ E[Xn ] = E[Xm ] ∀ m ≥ n

Definición 7 Un proceso estocástico {Xn } es una {Fn }-submartingala si

1. Xn es integrable ∀ n ≥ 1

2. {Xn } está adaptado a {Fn }

3. E[Xn+1 |Fn ] ≥ Xn ∀ n ≥ 1

Definición 8 Un proceso estocástico {Xn } es una {Fn }-supermartingala si

1. Xn es integrable ∀ n ≥ 1

2. {Xn } está adaptado a {Fn }

3. E[Xn+1 |Fn ] ≤ Xn ∀ n ≥ 1

La idea de un proceso martingala es la de aquel proceso que tiende estabilizarse en cierto


punto, a saber, su valor esperado, es decir, en promedio no crece ni decrece; en cambio una
submartingala muestra una tendencia de crecimiento; por su parte, una supermartingala
tiende a decrecer.

Ejemplos

Sean X0 , X1 , X2 , ... variables aleatorias i.i.d. con esperanza común µ, y

210
n
X
Mn = Xi , una caminata aleatoria
i=0

ya que

E [Mn+1 |M0 , M1 , ..., Mn ] = E [Mn + Xn+1 |M0 , M1 , ..., Mn ]

= E [Mn |M0 , M1 , ..., Mn ] + E [Xn+1 |M0 , M1 , ..., Mn ]

= Mn + E [Xn+1 ]

Entonces, {Mn , n ≥ 0} es una Martingala si E [Xi ] = 0; es una Supermartingala si E [Xi ] < 0


y es una Submartingala si E [Xi ] > 0.

Ejemplo 2

Sean X0 , X1 , X2 , ... variables aleatorias i.i.d. con esperanza común µ, y

n
Y
Mn = Xi
i=0

ya que

E [Mn+1 |M0 , M1 , ..., Mn ] = E [Mn ∗ Xn+1 |M0 , M1 , ..., Mn ]

= Mn E [Xn+1 |M0 , M1 , ..., Mn ]

= Mn ∗ E [Xn+1 ]

Entonces, {Mn , n ≥ 0} es una Martingala si E [Xi ] = 1; es una Supermartingala si E [Xi ] < 1


y es una Submartingala si E [Xi ] > 1.

Ejemplo 3

Sean X0 , X1 , X2 , ... variables aleatorias i.i.d. con esperanza común µ, y

n
1 Y 1
Mn = n Xi = Xn ∗ Mn−1
µ i=0 µ

211
Entonces, {Mn , n ≥ 0} es una martingala.

Dado que

 
Xn+1
E [Mn+1 |M0 , M1 , ..., Mn ] = E Mn ∗ |M0 , M1 , ..., Mn
µ

Mn
= ∗ E [Xn+1 |M0 , M1 , ..., Mn ]
µ
Mn
= ∗ E [Xn+1 ]
µ
Mn
= ∗ µ = Mn
µ

Ejemplo 4 (Cocientes de verosimilitudes)

Suponga que X1 , X2 , ..., Xn son variables aleatorias iid con función de densidad común, f,
que es cualquiera de dos diferentes densidades posibles, f0 o f1 . Desde el punto de vista es-
tadı́stico, deseamos elegir entre estas dos densidades aquella que generó los datos observados
x1 , x2 , ..., xn . Por lo tanto, planteamos el problema de contraste de hipótesis

H0 : f = f0 vs. Ha : f = f1

La decisión estadı́stica se basa, comúnmente, en el cociente de verosimilitudes

n
Y f1 (xi )
Λn =
f (xi )
i=1 0

Si Λn es grande, entonces los datos dan soporte a favor de la hipótesis alternativa, y contra
la hipótesis nula, por lo que la decisión es rechazar esta última, y concluimos que la densidad
que generó los datos observados es f1 . Supongamos ahora que la hipótesis nula es cierta, i.e.,
que los datos observados fueron generados por f0 . Entonces

212
 
f1 (xn+1 )
Ef0 [Λn+1 |Λ1 , ..., Λn ] = Ef0 Λn |Λ1 , ..., Λn
f0 (xn+1 )
 
f1 (xn+1 )
= Λ n E f0 |Λ1 , ..., Λn
f0 (xn+1 )
 
f1 (xn+1 )
= Λn Ef0 (¿por qué?)
f0 (xn+1 )
Z
f1 (x)
= Λn f0 (x)dx
R f0 (x)

= Λn × 1 = Λn

Por lo que la sucesión de cocientes de verosimilitudes es una martingala bajo la hipótesis


nula (en este caso, si la verdadera f que generó los datos es f0 ).

Proposición 2 Un proceso estocástico {Xn } es una martingala sı́i {Xn } es submartingala


y supermartingala

213
Teoremas de paro
Entre las razones por las cuales las martingalas son importantes, se encuentran los teoremas
de convergencia de martingalas, que bajo ciertas condiciones de acotamiento nos permiten
concluir la convergencia casi segura (o de otro tipo) de una martingala. Para abordar este
resultado, es importante extender la igualdad E (Xn ) = E (X0 ) para abarcar no sólo a tiempos
deterministas como n, sino también a ciertos tiempos aleatorios. Entonces, nuestro objetivo
es observar a la martingala a un tiempo que a su vez es una variable aleatoria. En realidad,
trabajaremos con una clase más reducida de tiempos aleatorios, a saber, los tiempos de paro.
Recuperemos nuestra definición de tiempo de paro.

Definición 9 Una variable aleatoria τ con valores en N ∪ {∞} es un tiempo de paro con
respecto a la filtración {Fn }n≥1 si {τ ≤ n} ∈ Fn ∀ n ∈ N

Equivalentemente {τ = n} ∈ Fn

Que mencionamos se interpreta como: La ocurrencia del evento “paramos el proceso al tiem-
po τ = n”, puede determinarse conociendo sólo los valores de X0 , X1 , ..., Xn , i.e., no se
requiere conocer los valores Xn+1 , Xn+2 , ....

Teorema 1 Teorema de Paro Opcional (TPO)


Sea {Xn } una {Fn }-martingala y τ un {Fn }-tiempo de paro acotado

⇒ E[Xτ ] = E[Xn ] ∀ n ≥ 1

214
Demostración. Como τ es acotado entonces ∃ n0 ∈ N tal que τ ≤ n0 por lo que
" n0
#
X
E [Xτ ] = E 1{τ =n} Xn
n=1

n0
X  
= E 1{τ =n} Xn
n=1

n0
X  
= E E(Xn0 |Fn )1{τ =n} ya que {Xn } es martingala
n=1

n0
X
E E(1{τ =n} Xn0 |Fn ) pues 1{τ =n} es Fn − medible
 
=
n=1

n0
X  
= E Xn0 1{τ =n}
n=1

= E [Xn0 ]

Teorema 2 Teorema de Paro Opcional (TPO1)


Sea {Xn } una martingala y τ un tiempo de paro finito casi seguramente tal que

1. E [|Xτ |] < ∞
 
2. lı́mn→∞ E Xn 1{τ >n} = 0

⇒ E [Xτ ] = E [Xn ] ∀ n ≥ 1

Demostración. Definamos τn = min{τ, n} ≤ n tiempo de paro, entonces por el TPO


tenemos
E[Xτn ] = E[X1 ]

⇒ E[X1 ] = lı́m E[Xτn ]


n→∞

= lı́m (E[Xτn 1{τ ≤n} ] + E[Xτn 1{τ >n} ])


n→∞

pero Xτn = Xτ + (Xn − Xτ )1{τ >n} , entonces

E[X1 ] = lı́m (E[Xτ 1{τ ≤n} ] + E[Xn 1{τ >n} ])


n→∞

= lı́m E[Xτ 1{τ ≤n} ]


n→∞

215
Ahora, nótese que |Xτ 1{τ ≤n} | ≤ |Xτ | ∀n ⇒ E[|Xτ 1{τ ≤n} |] ≤ E[|Xτ |] < ∞
además, por ser τ < ∞ casi seguramente, se tiene que lı́mn→∞ Xτ 1{τ ≤n} = Xτ , entonces por
el teo. de convergencia dominada lı́mn→∞ E[Xτ 1{τ ≤n} ] = E[Xτ ]

⇒ E[Xτ ] = E[Xn ] ∀ n ≥ 1

Teorema 3 Teorema de Paro Opcional (TPO2).


Sea {Xn } una martingala y τ un tiempo de paro tales que

1. E[τ ] < ∞

2. E[|Xn+1 − Xn ||Fn ] ≤ c para alguna c ∈ R

⇒ E[Xτ ] = E[Xn ] ∀ n ≥ 1

Demostración. Definamos Z1 = |X1 | , Zn+1 = |Xn+1 − Xn | ∀ n ≥ 1


Nótese que Xτ = X1 + (X2 − X1 ) + (X3 − X2 ) + ... + (Xτ − Xτ −1 )

τ
X ∞
X
⇒ |Xτ | ≤ W := Zk = Zk 1{τ ≥k}
k=1 k=1

Además,


X
E[W ] = E[|X1 |] + E[Zk 1{τ ≥k} ]
k=2


X
= E[|X1 |] + E[E(Zk 1{τ ≥k} |Fk−1 )]
k=2

Observe que si A ∈ F ⇒ 1A es F -medible

216
Como {τ ≤ k − 1} ∈ Fk−1 ⇒ {τ > k − 1} = {τ ≥ k} ∈ Fk−1 , entonces


X
E[W ] = E[|X1 |] + E[1{τ ≥k} E(Zk |Fk−1 )]
k=2


X
≤ E[|X1 |] + cP(τ ≥ k)
k=2


X
≤ E[|X1 |] + c P(τ ≥ k) − 2c
k=0


!
X
= E[|X1 |] + c P(τ = k) + P(τ > k) − 2c
k=0

= E[|X1 |] + c(1 + E[τ ]) − 2c < ∞

∴ E[|Xτ |] ≤ E[W ] < ∞ ...(∗)

Ahora para k ∈ N fijo tenemos

E[Xk 1{τ >k} ] ≤ |E[Xk 1{τ >k} ]|

≤ E[|Xk |1{τ >k} ] por la desigualdad de Jensen

≤ E[|Xk |1{τ ≥k} ]

≤ E[W 1{τ ≥k} ] −→ 0 cuando k → ∞ ...(?)

Ası́, (∗) y (?) permiten utilizar el T P O1, y finalmente E[Xτ ] = E[Xn ] ∀ n

Teorema 4 Teorema de Wald.

Pn
Consideremos la caminata aletoria {Sn }n∈N , Sn = k=1 XK , donde {Xk } son variables
aleatorias independientes e identicamente distribuidas tales que E[|Xk |] < ∞ ∀k. Sea Fn =
σ{X1 , ..., Xn }. Si τ es un {Fn }-tiempo de paro tal que E[τ ] < ∞

⇒ E[Sτ ] = E[τ ]E[X]

Demostración. Considere el proceso {Yn }n∈N dado por Yn = Sn − nE[X].


Se puede demostrar fácilmente que {Yn } es una {Fn }-martingala.

217
Obsérvese que

E[ |Yn+1 − Yn | |Fn ] = E[ |Xn+1 − E[X]| |Fn ]

≤ E[ |Xn+1 | |Fn ] + E[E[ |X|] |Fn ]

≤ E[ |X| ] + E[ |X| ]

= 2E[ |X| ] < ∞

Entonces por el T P O2 tenemos que

E[Yτ ] = E[Y1 ] = E[ S1 − E[X] ] = E[X] − E[X] = 0

Por otro lado,


E[Yτ ] = E[ Sτ − τ E[X] ] = E[Sτ ] − E[τ ]E[X]

∴ E[Sτ ] = E[τ ]E[X]

218
Procesos asociados a la teorı́a de ruina
• Hasta aquı́ hemos visto al modelo de pérdidas agregadas

N
X
S= Xi
i=1

durante un periodo fijo de tiempo, e.g., un año.

• Ahora haremos la extensión para tratarlo como dependiente del tiempo. Es decir

N (t)
X
S(t) = Xi
i=1

donde N (t) denota el número de reclamaciones que ocurren antes del tiempo, t.

Utilizaremos este modelo dependiente del tiempo para describir el flujo de dinero de una
aseguradora, y determinar caracterı́sticas de la probabilidad de ruina, tanto a corto como a
largo plazo.

Notación

Denotaremos por

• N (t): El número aleatorio de reclamaciones generadas por un portafolio en el intervalo de


tiempo [0, t], ∀t ≥ 0.

• Xi : el monto de la i-ésima reclamación, i=1,2,3,....

• S(t): El monto de las reclamaciones agregadas en el intervalo [0, t], ∀t ≥ 0.

Entonces

• {Xi }∞
i=1 es una sucesión de variables aleatorias.

• {N (t)}t≥0 es un proceso estocástico

219
• {S(t)}t≥0 es un proceso estocástico

Es obvio que

N (t)
X
S(t) = Xi
i=1

con S(t) = 0 si N (t) = 0.

• Al proceso estocástico {S(t)}t≥0 definido anteriormente, se le conoce como el proceso de


pérdidas agregadas generadas por el riesgo cubierto.

• La aseguradora recibe de sus asegurados, el pago de primas correspondientes a la cobertura


del portafolio.

• Supondremos que estos pagos se reciben a una tasa constante de forma continua. Sea c > 0
esta tasa de pagos por unidad de tiempo. Ya que el total de primas se recibe en el intervalo
de tiempo [0, t], entonces, este total es ct.

• Supongamos que al tiempo, t = 0, la aseguradora tiene un capital inicial respecto al


portafolio. Este cantidad inicial de dinero es el capital inicial y lo denotaremos como U.
Asumiremos que U ≥ 0.

• La aseguradora necesita este capital inicial, porque el ingreso futuro por primas, podrı́a no
ser suficiente para cubrir las reclamaciones futuras.

• El capital de la aseguradora a cualquier tiempo, t > 0, es una variable aleatoria, ya que


su valor depende de las reclamaciones que se realicen hasta este tiempo. Denotaremos este
capital por U (t)

• Entonces, podemos escribir

N (t)
X
U (t) = U + ct − Xi , ó
i=1

U (t) = U + ct − S(t)

220
con U (0) = U .

• Nótese que el capital inicial y el monto total de las primas, no son variables aleatorias, ya
que se determinan antes de que el proceso de riesgo inicie.

• Para un valor dado de t, U(t) es una variable aleatoria, ya que S(t) lo es.

• El proceso estocástico

{U (t)}t≥0

se conoce como el proceso de flujo de dinero o proceso de capital.

La probabilidad de ruina a tiempo continuo


• De manera vaga, cuando el capital es negativo, la aseguradora ha perdido todo su dinero
y se dice que está en ruina o arruinada.

• Nuevamente de forma vaga, la ruina puede ocurrir cuando la aseguradora se declara insol-
vente, no obstante, determinar si una compañı́a de seguros es insolvente es, en la práctica,
una cuestión muy compleja.

• Otra manera de ver esta probabilidad de ruina, es pensarla como la posibilidad de que,
en algún tiempo futuro, la compañı́a aseguradora requiera prover más capital para financiar
este particular portafolio.

Probabilidades de ruina
• Definimos las siguientes dos probabilidades

Ψ (U ) = P [U (t) < 0, 0 < t < ∞] y


Ψ (U, t) = P [U (τ ) < 0, 0 < τ < t]

• Ψ (U ) se le conoce como la probabilidad de ruina eventual (horizonte infinito), dado el


capital inicial, U. Se denota como función de U, para hacer énfasis de que dicha probabilidad
depende, entre otros parámetros, del capital inicial del que se disponga.

221
• Ψ (U, t) es la probabilidad de ruina antes del tiempo, t (horizonte finito), dado el capital
inicial, U.

Algunas relaciones simples y lógicas

Enunciamos algunas importantes relaciones lógicas entre estas dos probabilidades. Sean
0 < t1 < t2 < ∞ y U1 < U2 , entonces

1. Ψ (U2 , t) ≤ Ψ (U1 , t)

Ψ (U2 ) ≤ Ψ (U1 )

Es decir, a un capital inicial mayor, es menos creible que la ruina ocurra ya sea en
horizonte finito o infinito.

2. Ψ (U, t1 ) ≤ Ψ (U, t2 ) ≤ Ψ (U )

Dado un capital inicial, al prolongar el periodo de tiempo para observar la ruina, es


más creible que ésta ocurra.

3. lı́m Ψ (U, t) = Ψ (U )
t→∞

La probabilidad de ruina a horizonte infinito, puede ser aproximada (es similar) a la


probabilidad de ruina a horizonte finito, si t es suficientemente grande.

4. lı́m Ψ (U, t) = 0
U →∞

Cuando el capital inicial crece, la ruina es cada vez menos creible.

Probabilidades de ruina en tiempo discreto


• Las probabilidades de ruina anteriores, son probabilidades de ruina a tiempo continuo, lla-
madas ası́ porque hay un seguimiento continuo de la posibilidad de ruina de la aseguradora.

• En la práctica puede ser posible, y aun deseable, hacer el seguimiento de ruina sólo a
intervalos discretos de tiempo.

222
• Supongamos que los intervalos son de longitud h. Entonces, definimos las siguientes pro-
babilidades de ruina a tiempo discreto

Ψh (U ) = P [U (t) < 0, t = h, 2h, 3h, ...], y


Ψh (U, t) = P [U (τ ) < 0, τ = h, 2h, 3h, ..., t − h, t]

Nótese que se supone, por conveniencia en la definición de Ψh (U, t), que t es un entero
múltiplo de h.

223
El modelo clásico de Camér-Lundberg
El modelo de Cramér-Lundberg, tiene sus orı́genes en la tesis doctoral de Filip Lundberg
que defendió en el año de 1903. En este trabajo, Lundberg analiza el reaseguro de riesgos
colectivos y presenta el proceso de Poisson compuesto. Lundberg utilizó términos un tanto
distintos a los actuales pues en aquellos años aún no se habı́a formalizado la teorı́a de los
procesos estocásticos como la entendemos actualmente. En 1930, Harald Cramér retoma las
ideas originales de Lundberg, y las pone en el contexto de los procesos estocásticos, en ese
entonces, de reciente creación. El modelo se ha estudiado de manera extensa, y se han pro-
puesto varias formas de generalizarlo y analizado.

Este modelo clásico de riesgo para la actividad de una compañı́a de seguros, es el proceso
estocástico a tiempo continuo {U (t), t ≥ 0}, definido por

N (t)
X
U (t) = U + ct − Xi , t ≥ 0
t=1

con U el capital inicial de la compañı́a aseguradora, ct es el ingreso por primas hasta el tiem-
po, t, con c una constante positiva; Xi es el monto de la i-ésima reclamación, y {N (t), t ≥ 0}
un proceso Poisson de parámetro, λ.

La variable U (t) representa el balance más simple de ingresos menos egresos de una compañı́a
aseguradora. Al proceso, {U (t), t ≥ 0}, se le llama proceso de riesgo (risk process), o pro-
ceso de superávit (surplus process), y tiene trayectorias como se muestra en la siguiente figura

224
Trayectoria del proceso de ruina
60
40
U(t)

20
0

τ
−20

2 4 6 8 10

tiempo

Algunas caracterı́sticas del proceso de riesgo

• Las trayectorias del proceso empiezan siempre en U el capital inicial.

• Las variables aleatorias Xi , i = 1, 2, ... son i.i.d., con función generadora de momentos
MX (t), E (X) = µ1 = µ y E (X 2 ) = µ2

• E [U (t)], es

 
N (t)
X
E [U (t)] = E U + ct − Xi 
t=1

= U + ct − E [N (t)] E (Xi )

= U + ct − λtµ = U + (c − λµ) t
|{z}

N (t)
X
* ya que Xi es un Poisson compuesto, con intensidad λt.
t=1

225
• V [U (t)] = λµ2 t Por el mismo argumento anterior.

La “trayectoria promedio”de este proceso de riesgo es la lı́nea recta que inicia en U > 0 y
tiene pendiente c − λµ, que es positiva por la condición o hipótesis de ganancia neta (enun-
ciada posteriormente). La variable aleatoria U (t) puede interpretarse como el capital de la
compañı́a aseguradora al tiempo, t, y por razones naturales y legales es importante que U (t)
esté por arriba de cierto nivel mı́nimo. Supongamos que tal nivel mı́nimo es a, con 0 < a < U .
Ajustando el capital inicial, U, esto es, suponiendo un nuevo capital inicial de magnitud U −a,
se puede suponer, sin pérdida de generalidad, que este nivel mı́nimo es cero, y ası́ lo haremos
en nuestro análisis. De esta forma cuando U (t) ≤ 0 para algún t > 0 se dice que hay ruina. La
ruina casi nunca sucede en la práctica, es solamente un término técnico que produce alguna
toma de decisión. Por ejemplo, si el capital de una compañı́a aseguradora asignado a una
cartera decrece en forma significativa, automáticamente la aseguradora puede tomar ciertas
medidas para subsanar esta situación y no se trata de un evento insalvable. Por otro lado,
es natural suponer que la compañı́a aseguradora posea varios portafolios de modo que rui-
na en uno de ellos no significa necesariamente bancarrota que el término ruina podrı́a sugerir.

La condición de ganancia neta

Sean T0 , T1 , T2 , ... los tiempos aleatorios en donde la aseguradora recibe las reclamacio-
nes. Supondremos T0 = 0. Para cada entero k ≥ 1 definamos la variable aleatoria Yk =
c (Tk − Tk−1 ) − Xk , que pueden interpretarse como el balance de la compañı́a aseguradora
entre dos siniestros sucesivos. La esperanza de esta variable es

 
1
E (Yk ) = cE (Tk − Tk−1 ) − E (Xk ) = c −µ
λ

Se puede demostrar que la ruina ocurre casi seguramente si, y sólo si, E (Yk ) ≤ 0. Como no
deseamos que la ruina ocurra, debemos suponer que E (Yk ) > 0, es decir, supondremos que
se tiene la condición de ganancia neta

c > λµ

Que interpretamos de la siguiente forma: en promedio, la entrada por primas por unidad de
tiempo, c, es mayor que el total de reclamaciones por unidad de tiempo, λµ.

226
Probabilidades de ruina con el modelo Carmér-Lundberg

Nos interesa calcular o estimar la probabilidad de una eventual ruina (horizonte infinito) en
el modelo de Cramér-Lundberg.

Definamos el tiempo de ruina, τ , como el primer momento en que la ruina se presenta, es deir

τ = inf {t > 0 : U (t) ≤ 0}

y se define inf ∅ = ∞. Por lo que τ es una variable aleatoria que toma valores en el intervalo
(0, ∞]. Recordemos que, dado un valor, t > 0 fijo, habı́amos definido la probabilidad de ruina
en el intervalo (0, t], llamada probabilidad de ruina a horizonte finito, como

Ψ (U, t) = P (τ ≤ t|U (0) = U )

Y esta misma probabilidad de ruina a horizonte infinito, como

Ψ (U ) = P (τ < ∞|U (0) = U )

Probabilidad de ruina a horizonte infinito


Ahora presentaremos tres resultados generales sobre la probabilidad de ruina con horizonte
infinito. Denotaremos como F (y) a la función de distribución de cualquiera de las reclama-
ciones, Y, y función de supervivencia como F̄ (y) = 1 − F (y). La correspondiente función de
densidad será denotada por f (y), siempre que exista.

Proposición. Sea Ψ̄ (U ) = 1 − Ψ (U ). Supongamos que la distribución de cualquier reclama-


ción en el modelo de Cramér-Lundberg es absolutamente continua, con función de densidad
f (y). Entonces

 Z U 
d λ
1.- Ψ̄ (U ) = Ψ̄ (U ) − Ψ̄ (U − y) f (y)dy
dU c 0

λµ
2.- Ψ (0) =
c

227
Z ∞ Z U 
λ
3.- Ψ (U ) = F̄ (y) + Ψ (U − y) F̄ (y)dy
c U 0

Dem.

Demostración. Para hacer la demostración del punto 1, condicionaremos al monto de la pri-


mera reclamación Y1 y el momento T1 en el que ella ocurre. Usaremos además el hecho de que
T1 tiene distribución exp(λ), ya que es el tiempo que ocurre antes de la primer reclamación,
que, en este modelo de Cramér-Lundberg, tiene distribución Poisson. Entonces

Ψ̄ (U ) = P (No ruina en (0, ∞)|U (0) = U )


Z ∞Z ∞
= P (No ruina en (0, ∞)|U (0) = U, Y1 = y, T1 = t) f (y)fT1 (t)dydt
0 0
Z ∞ Z U +ct
=
|{z} P (No ruina en (0, ∞)|U (0) = U, Y1 = y, T1 = t) f (y)fT1 (t)dydt
∗ 0 0

Z ∞ Z U +ct
−λt
= λe P (No ruina en (0, ∞)|U (0) = U, Y1 = y, T1 = t) f (y)dydt
0 0
Z ∞ Z U +ct
−λt
=
|{z} λe Ψ̄ (U + ct − y) f (y)dydt
∗∗ 0 0

* Ya que si no hay ruina para Y = Y1 , entonces Ψ(U ) ≥ 0 ⇒ U + ct − Y1 ≥ 0 ⇒ Y1 ≤ U + ct

** Ya que, por el punto * este es un valor de U para el que la ruina no se presenta, por lo
tanto, lo que se presenta es el complemento de Ψ(U ), es decir, Ψ̄ (U ). Si hacemos el cambio
de variable: s = U + ct, que implica t = (s − U ) /c y ds = cdt, tenemos que

Z ∞ Z s
λ −λs/c
Ψ̄ (U ) = eλU/c e Ψ̄ (s − y) f (y)dyds
c U 0

Derivando esta expresión respecto a U, utilizando el teorema fundamental del cálculo, obte-
nemos la relación deseada.

228
Para derivar el segundo inciso, integramos en el intervalo [0, U ], la expresión en 1. Y obte-
nemos

Z U Z U Z U Z x 
d λ
Ψ̄ (s) = Ψ̄ (U ) − Ψ̄ (0) = Ψ̄ (x) − Ψ̄ (x − y) dF (y)dx
0 ds c 0 0 0
Z U Z U Z U 
λ
= Ψ̄ (x) − Ψ̄ (x − y) dxdF (y) (x − y > 0 ⇒ x > y )
c 0 0 y

Z U Z U Z U −y 
λ
=
|{z} c Ψ̄ (x) − Ψ̄ (x) dxdF (y)
∗ 0 0 0

Z U Z U Z U −x 
λ
= Ψ̄ (x) − Ψ̄ (x) dF (y)dx
c 0 0 0
Z U Z U U −x
λ
= Ψ̄ (x) − Ψ̄ (x) F (y) dx

c 0 0 0

Z U
λ
= Ψ̄(x) [1 − F (U − x)] dx
c 0
Z U
λ
= Ψ̄ (x) F̄ (U − x)dx
c 0
Z U
λ
= Ψ̄ (U − x) F̄ (x)dx · · · (1)
c 0
Z U
λ
= Ψ̄ (U − x) F̄ (x)1[0,U ] (x)dx
c 0

* Ya que si x=y, entonces, el lı́mite inferior de la integral es cero y si x=U, el lı́mite superior
es u-y.

Ahora, sólo resta tomar lı́mite cuando U → ∞. En el lado derecho de la igualdad tenemos


lı́m Ψ̄ (U ) − Ψ̄ (0) = 1 − Ψ̄ (0) (Ya que si U → ∞ entonces la ruina ocurre con probabili-
U →∞

dad uno). En el lado izquierdo ocurre que Ψ̄ (U − x) es una función monótona creciente que
converge a uno, entonces, esta integral converge a la integral

Z ∞ Z ∞
F̄ (x)dx = [1 − F (x)] dx
0 0

229
Y recordando que

Z ∞ Z ∞
E (X) = F̄ (x)dx = [1 − F (x)] dx = µ
0 0

Finalmente tenemos que

λµ
1 − Ψ̄ (0) =
c

por lo que

λµ
Ψ (0) = 1 − Ψ̄ (0) = · · · (2)
c

Para probar el último inciso, usaremos los resultados (1) y (2), de la siguiente forma

Primero tenemos que

Z U
λ
= Ψ̄ (U ) − Ψ̄ (0)
Ψ̄ (U − x) F̄ (x)dx |{z}
c 0 1

= 1 − Ψ (U ) − Ψ̄ (0)

λµ
= − Ψ (U )
|{z} c
2

Entonces

230
 Z U 
λ
Ψ (U ) = µ− Ψ̄ (U − x) F̄ (x)dx
c 0
 Z U 
λ
= µ− (1 − Ψ (U − x)) F̄ (x)dx
c 0
 Z U Z U 
λ
= µ− F̄ (x)dx + Ψ (U − x) F̄ (x)dx
c 0 0
Z ∞ Z U Z U 
λ
= F̄ (x)dx − F̄ (x)dx + Ψ (U − x) F̄ (x)dx
c 0 0 0
Z ∞ Z U 
λ
= F̄ (x)dx + Ψ (U − x) F̄ (x)dx
c U 0

Obsérvese que la última expresión corresponde a una forma recursiva para encontrar la pro-
babilidad de ruina. En general no es fácil resolver este tipo de ecuaciones, de modo que
únicamente nos limitaremos a encontrar algunas estimaciones de las mismas. Sin embargo,
cuando las reclamaciones tienen distribución exponencial el sistema es soluble como se mues-
tra a continuación.

Ejercicio. Encontraremos la probabilidad de ruina, en el modelo de Camér-Lundberg, cuando


las reclamaciones son exponenciales (α).

1
En este caso, sabemos que E (X) = . Entonces, la probabilidad de no ruina es
α

 Z u 
0 λ −λu αy
Ψ̄ (u) = Ψ̄ (u) − e Ψ̄(y)αe dy
c 0

Entonces, derivando esta expresión obtenemos la ecuación diferencial

 
00 λ 0
Ψ̄ (u) = − α Ψ̄ (u)
c

cuya solución es

Ψ (u) = a + be−(α−λ/c)u

231
λ
Utilizando las condiciones iniciales Ψ (0) = (observemos aquı́ que la media de la expo-
αc
nencial es α1 , no µ como la habı́amos denotado antes) y Ψ (∞) = 0 (recordar que si el capital
inicial U es infinito, la ruina jamás se presenta). Estas dos condiciones iniciales generan el
sistema de ecuaciones

λ
= a+b
αc
0 = a

λ
que tiene la solución: a = 0 y b = αc
. Por lo que la solución queda como

λ −(α−λ/c)u
Ψ (u) = e
αc

cuya gráfica se encuentra en la siguiente figura. Observe que debido a la condición de ganan-
 
λ
cia neta, el exponente − α − es negativo, y por lo tanto la probabilidad de ruina decae
c
a cero exponencialmente cuando el capital inicial, U, crece a infinito.

232
Gráfica probabilidad de ruina exponencial
10

λ cα
8

Ψ(u)
6
4
2
0

0.0 0.2 0.4 0.6 0.8 1.0

233
Coeficiente de ajuste
Una aproximación para la probabilidad de ruina bajo el estudio de un horizonte infinito, es
la que proporciona el coeficiente de ajuste de Lundberg. Se trata de un instrumento útil para
conseguir lı́mites para la probabilidad de ruina. Para eso es preciso definir previamente el
Coeficiente de Ajuste. Definamos primero la función

θ(r) = λ (MY (r) − 1) − cr

con MY (r) la función generadora de momentos de Y . Por supuesto, esta función está defi-
nida para los valores de r en donde MY (r) existe. Entonces, suponiendo que esta función es
diferenciable, tenemos que

0 0
• θ (r) = λMY (r) − c

00 00 
• θ (r) = λMY (r) = λE Y 2 erY > 0

Por lo tanto, es una función estrictamente convexa, con θ(0) = 0. Y por la condición de
ganancia neta, (c > λµ), se tiene que

0
θ (0) = λMY (0) − c = λµ − c < 0. Entonces, es posible que exista un valor R > 0 tal que
θ(R) = 0. Obsérvese la siguiente figura

234
Gráfica coeficiente de ajuste
6
4
θ(r)

2
0
−2

0.0 0.5 1.0 1.5 2.0 2.5 3.0

235
Def. A la posible solución, R > 0, de la siguiente ecuación se le llama coeficiente de ajuste,
o exponente de Lundberg.

θ(R) = λ (MY (R) − 1) − cr = 0

Obsérvese que la existencia del coeficiente de ajuste depende totalmente de la distribución


de las reclamaciones. Aquellas distribuciones para las que el coeficiente de ajuste existe se
les llama distribuciones con colas ligeras, y la razón de ello es que la función de densidad
decae a cero exponencialmente, asignando probabilidades pequeñas a reclamaciones grandes.
Este hecho significa que la distribución tiene momentos finitos, y MY existe. Por ejemplo,
demostraremos a continuación que en el caso de reclamaciones exponenciales (distribución
con colas ligeras), el coeficiente de ajuste existe y es fácil calcularlo.

Ejemplo. Montos de reclamación con distribución exponencial. Supongamos que


α
Yi ∼ Exp (α), con función generadora de momentos dada por MY (r) = , r < α. En-
α−r
tonces

θ(r) = λ (MY (r) − 1) − cr


 
α
= λ − 1 − cr
α−r
 
r
= λ − cr
α−r
 
λ
= −c r
α−r

λ
Por lo que θ(r) = 0 ⇒ r = 0, o − c = 0. Esta segunda ecuación implica
α−r

λ
R=r =α−
c

Más aún, recordando el resultado que obtuvimos al calcular la probabilidad de ruina cuando
los montos de reclamación eran exponenciales, esta probabilidad de ruina puede escribirse
de la siguiente forma

236
λ −(α−λ/c)u λ −Ru
Ψ (u) = e = e ≤ e−Ru
αc αc

La desigualdad es consecuencia de la condición de ganancia neta.

1 λ
c > λµ, en este caso c > λ ⇒ cα > λ y <1
α cα

Este tipo de cota superior para la probabilidad de ruina (llamada desigualdad de Lundberg)
la demostremos más adelante, para cualquier distribución de las reclamaciones para la que
el coeficiente de ajuste exista.

“Ostro.ejemplo (Reclamaciones con distribución gamma). Supongamos que las reclamaciones


se distribuyen gamma(γ, α) con γ = 2. Con función generadora de momentos

 γ
α
MY (r) = , r<α
α−r

Por lo que

 γ 
α
θ(r) = λ − 1 − cr
α−r

El requerimiento θ(r) = 0, genera la ecuación cuadrática

cr2 + r (λ − 2αc) + (cα2 − 2αλ) = 0

cuyas raı́ces, son


2αc − λ ± λ2 + 4αcλ
r=
2c

El caso con raı́z cuadrada positiva no es válido pues resulta r > α. En efecto, utilizando la

condición de ganancia neta, c > , tenemos
α

237
√ √
2αc − λ + λ2 + 4αcλ 2αc − λ + λ2 + 8λ2

2c 2c
λ
= α+
c
> α

por lo que la raı́z con el signo negativo es el coeficiente de ajuste.

Ejemplo (Reclamaciones con distribución gamma) En el ejemplo anterior, el hecho de asig-


narle al parámetro γ de la distribución gamma, el valor dos, fue premeditado para obtener
una ecuación de segundo grado, si asignamos el valor de γ = 3, obtenemos la ecuación cúbica

f (r) = λ α3 − (α − r)3 − cr (α − r)3 = 0




La raı́z, r, que buscamos es tal que por condiciones de existencia de la función generadora
de momentos debe satisfacer 0 < r < α. Para ilustrar el cálculo con R de la solución de esta
ecuación, tomaremos α = 3, λ = 1 y c=2. Estos valores aseguran que se cumple la condición

de ganancia neta: c > .
α

238
Gráfica coeficiente de ajuste gamma
100
80
60
40
θ(r)

20

R
0
−20

0 1 2 3 4 5

f < −f unction(x)(9 − (3 − x)3 ) − 2 ∗ x ∗ (3 − x)3


uniroot(f, c(0, 10))
root [1]1.737766

f.root [1] − 0.000450224

iter [1]10
estim.prec [1]6.103516e − 05

El siguiente resultado proporciona una forma equivalente de definir el coeficiente de ajuste,


permite, además, comprobar su existencia a través de la determinación del carácter finito de
una integral, y posibilita dar una interpretación de aquellas distribuciones de probabilidad
para las cuales el coeficiente de ajuste existe.

Proposición. La ecuación θ(r) = λ (MX (r) − 1) − cr = 0 tiene una posible solución r > 0 si,
y sólo si, se cumple la identidad

239
Z ∞
c
erx F̄ (x)dx =
0 λ

con F̄ = 1 − F (x), y F (x), la función de distribución de los montos de reclamación.

Dem
Recordemos que la función generadora de momentos de una v.a. X, se define como

Z ∞ Z ∞ Z ∞
rx rx
MX (r) = e f (x)dx = e dF (x)dx = − erx dF̄ (x)dx
0 0 0

Integrando por partes la última expresión en la función generadora de momentos

Sea u = erx ⇒ du = rerx dx y dv = dF̄ (x) ⇒ V = F̄ (x). Por lo que

Z ∞ ∞ Z  ∞ 
rx rx rx
e dF (x)dx = − e F̄ (x) − re F̄ (x)dx

0 0 0


rx
Ya que por hipótesis la función generadora de momentos existe, entonces e F̄ (x) = 0 y


erx F̄ (x) = 1 (esto implica que el decaimiento en las colas de la distribución de F(x), es

0

mayor al crecimiento de erx ). Entonces

Z ∞  Z ∞ 
rx rx
e dF (x)dx = − −1 − re F̄ (x)dx
0 0

Por lo tanto

Z ∞ Z ∞
rx
e dF (x)dx = 1 + rerx F̄ (x)dx
0 0

Ahora, ya que

240
0 = θ(r)

= λ (MX (r) − 1) − cr
Z ∞ 
rx
= λ e dF (x)dx − 1 − cr
0
Z ∞
= λr erx dF̄ (x)dx − cr (despejando del resultado anterior)
0

Entonces, despejando esta última igualdad, tenemos

Z ∞
c
erx dF̄ (x)dx =
0 λ

Ejemplo Usaremos este criterio para demostrar que para la distribución Weibull existe el
coeficiente de ajuste, si el parámetro de forma, γ ≥ 1. En este caso tenemos que

• f (x, γ, λ) = λγ (λt)γ−1 e−(λt)


γ

γ
• F̄ = e−(λt)

Entonces

Z ∞ Z ∞
γ
rx
e dF̄ (x)dx = erx e−(λx) dx
0 0
Z ∞
γ
= erx−(λx) dx
0

Esta integral existe si rx − (λx)γ ≤ 0 ⇒ rx ≤ (λx)γ ⇒ x ≤ xγ ⇒ γ ≥ 1.

Ejemplo 2. Veamos qué pasa con la distribución Burr y este coeficiente. Esta variable tiene
función de distribución dada por

 α
k
F (x) = 1 − , x ≥ 0, α > 0, β > 0
k + xβ

241
 α
k
Por lo que F̄ (x) = . Entonces
k + xβ

Z ∞ Z ∞  α
rx rx k
e dF̄ (x)dx = e dx
0 0 k + xβ
Z ∞
≈ erx x−βα dx = ∞
0

Por lo tanto la distribución Burr es una distribución con colas pesadas.

Comentamos en el desarrollo de este coeficiente de ajuste que, para que exista, la cola de la
distribución, F , debe decaer a cero lo suficientemente rápido para anular el comportamiento
creciente del término, erx dentro de la integral. En el ejemplo de la distribución Burr, la cola
decae a cero en la forma, x−βα que resulta insuficiente para hacer que la integral sea finita.
Una distribución con cola ligera asigna probabilidades muy pequeñas a los valores grandes de
la variable aleatoria. Esto puede representar un inconveniente para modelar algunos riesgos
que pudieran registrar grandes montos en las reclamaciones.

Desigualdad de Lundberg
Vamos a demostrar ahora que para aquellas distribuciones para las cuales el coeficiente de
ajuste, R, existe, se cumple la desigualdad Ψ(u) < e−Ru . Para demostrar este resultado ha-
remos uso de la teorı́a de martingalas.

Proposición. Sea {U (t)} el proceso de riesgo, y sea θ(r) = λ (MX (r) − 1) − cr. Entonces, el
proceso e−rU (t)−θ(r)t : t ≥ 0 es una martingala.


Utilizaremos la definición, equivalente a la que dimos antes, de martingala siguiente

Def. Un proceso {Mt : t ≥ 0} que es adaptado e integrable es una martingala si para 0 ≤


s ≤ t, se cumple que

E (Mt |Fs ) = Ms

con Fs una filtración.

242
Dem. Que el proceso es adaptable es claro pues, implı́citamente, estamos usando la filtración
natural, Ft = σ {Xs : 0 ≤ s ≤ t}.

Para demostrar que es integrable, consideremos los siguientes cálculos

  PN (t) 

−rU (t)−θ(r)t
 −θ(r)t −r u+ct− j=1 Yj
E e = e E e

 PN (t) 
= e−θ(r)t−r(u+ct) E er j=1 Yj

= e−θ(r)t−r(u+ct) MS(t) (r)

= e−θ(r)t−r(u+ct) eλt(MY (r)−1)


< ∞
|{z}

* Ya que −θ(r)t = −λt (MY (r) − 1)+crt. Entonces, el exponente de la función exponencial es

−λt (MY (r) − 1) + crt − ru − crt + λt (MY (r) − 1) = −ru

Y para demostrar que se cumple la propiedad de martingala: E (Mt |Fs ) = Ms . Para 0 ≤ s < t

E e−rU (t)−θ(r)t |Fs = e−θ(r)t E e−rU (t) |Fs


 

= e−θ(r)t E e−r(U (t)−U (s))−rU (s) |Fs




= e−θ(r)t−rU (s) E e−r(U (t)−U (s)) |Fs




 PN (t) 
= e−θ(r)t−rU (s) E e−r(c(t−s)− j=N (s)+1 Yj ) |Fs
 PN (t) 
= e−θ(r)t−rU (s)−rc(t−s) E er j=N (s)+1 Yj |Fs
 PN (t−s) 
= e−θ(r)t−rU (s)−rc(t−s) E er j=1 Yj |Fs

= e−θ(r)t−rU (s)−rc(t−s) eλ(t−s)(MY (r)−1)


= e−rU (s)−θ(r)s
= Ms

243
En particular, si el coeficiente de ajuste existe, es decir, si θ(R) = 0, entonces el proceso,
 −RU (t)
e es una martingala. Este es el resultado clave para demostrar la siguiente cota su-
perior para la probabilidad de ruina.

Desigualdad de Lundberg. Suponga que el coeficiente de ajuste R existe. Entonces

Ψ(u) ≤ e−Ru

Dem. Sea τ el tiempo de paro correspondiente al tiempo (momento) de ruina. Como el


proceso e−RU (t) es una martingala, se tiene que el proceso e−RU (t∧τ ) también es una
 

N (t)
X
−Ru
martingala, que inicia en e , ya que U (t) = u + ct − Yj ⇒ U (0) = u entonces el
j=1

−RU (t∧τ )
, inicia en e−Ru . Por lo tanto

proceso, e

e−Ru = e−RU (0)


= E e−RU (t∧τ ) Porque e−RU (t∧τ ) , es matingala
 

= E e−RU (t∧τ ) |τ ≤ t P (τ ≤ t)


+E e−RU (t∧τ ) |τ > t P (τ > t)




≥ E e−RU (t∧τ ) |τ ≤ t P (τ ≤ t)


= E e−RU (τ ) |τ ≤ t P (τ ≤ t)


Z 
−RU (τ )
= e 1τ ≤t dP P (τ ≤ t)

Si hacemos que t → ∞, entonces, el evento (τ ≤ t) tiende de manera monótona al evento


(τ < ∞). Utilizando el teorema de convergencia monótona se obtiene entonces que

244
e−Ru ≥ E e−RU (τ ) |τ < ∞ P (τ < ∞)


> E (1|τ < ∞) P (τ < ∞)

= P (τ < ∞)

= Ψ(u)

por lo tanto, se tiene la desigualdad de Lundberg

Ψ(u) ≤ e−Ru

Desigualdad de Liundberg
1.0

e−Ru
0.8
0.6
Ψ(u)

0.4
0.2
0.0

0 2 4 6 8 10

Ejemplo Supongamos que la distribución de las reclamaciones es Exp(1) y que el tiempo


entre dos eventos Poisson se distribuye como Exp(2); además, la tasa constante de pago de
primas es c = 2.4 miles de pesos. Calcular el coeficiente de ajuste para este caso.

• Lo primero que hay que hacer es calcular R. Recordemos que para este caso

λ 2
R=α− =1− = 0.1666667
c 2.4

245
Por lo que la desigualdad de Lundber es

Ψ(u) ≤ e−0.1666667∗u

El cálculo con R es

adjCoef (mgf.claim = mgf exp(x), mgf.wait = mgf exp(x, 2), premium.rate = 2.4, upper =
1)

[1]0.1666667

Uno más complicado

adjCoef (mgf.claim = mgf gamma(x, 3, 3), mgf.wait = mgf exp(x, 1), premium.rate =
2, upper = 1)

[1]0.8404738

246
Cotas para el coeficiente de ajuste

Como hemos visto, el coeficiente de ajuste no siempre existe, y aún cuando conozcamos su
existencia no siempre es fácil calcularlo. El siguiente resultado proporciona algunas cotas
para el valor de este coeficiente, suponiendo su existencia.

Proposición Si el coeficiente de ajuste, R, existe, entonces

 
1 c 2 (c − λµ)
ln <R<
M λµ λµ2

Demostración para la cota superior. Consideremos nuevamente la función θ(r) = λ (MX (r) − 1)−
cr, para r ≥ 0. Sabemos que θ(0) = 0. Derivando dos veces esta función tenemos

0 0
θ (r) = λMY (r) − c
00 
θ (r) = λE Y 2 erY > λE (Y 2 ) = λµ2

0
De donde tenemos que θ (0) = λµ − c. Además, utilizando el teorema fundamental del cálcu-
lo, tenemos que

Z r
00 0 0
θ (s)ds = θ (r) − θ (0)
0
Z r Z r
0 0 00
⇒ θ (r) = θ (0) + θ (s)ds > λµ − c + λµ2 dr = λµ − c + λµ2 r
0 0

Integrando ambos lados de la desigualdad, tenemos

t
r2
Z
0
θ(r) = θ(0) + θ (s)ds > (λµ − c) t + λµ2
0 2

Evaluando esta desigualdad en la raı́z, R, obtenemos

R2
 
R
0 > (λµ − c) R + λµ2 = (λµ − c) + λµ2 R
2 2

247
Ya que R > 0, entonces, para que la expresión en la derecha de la desigualdad sea negativa,
debe suceder que

R 2 (c − λµ)
(λµ − c) + λµ2 <0⇒R<
2 λµ2

Para la cota inferior tenemos

Supongamos Y ≤ M c.s. y definamos la función

x RM
− 1 − eRx − 1
 
h(x) = e
M

00
Entonces, tenemos que h (x) = −R2 eRx < 0. Por lo tanto, h, es cóncava, con h(0) = h(M ) =
0, que implica que h(x) > 0 para x ∈ (0, M ). Es decir

x RM
− 1 − eRx − 1 > 0
 
e
M

equivalentemente

x RM
eRx − 1 <
 
e −1 · · · (1)
M

0
Ahora, consideremos la función g(x) = xex − ex + 1. Entonces tenemos que g (x) = xex > 0.
Por lo tanto, g(x) es creciente, y g(x) > g(0) = 0. Es decir g(x) = xex − ex + 1 > 0, si x > 0.
Si evaluamos esta función en x = RM > 0, tenemos g(x) = RM eRM −eRM +1 > 0. Por lo que

eRM − 1
< eRM
RM

Por otro lado, y utilizando (1), tenemos

248
Z M
eRx − 1 dF (x)

MY (R) − 1 =
0
Z M
x RM 
≤ e − 1 dF (x)
|{z} 0 M
(1)

Z M
1 RM 
= e −1 xdF (x)
M 0

µ RM 
= e −1 · · · (2)
M

Ahora, utilizando (2) y después (1), obtenemos

0 = λ (MY (R) − 1) − cR

λµ RM 
≤ e − 1 − cR
|{z} M
(2)

< λµReRM − cR
|{z}
(1)

λµ λµeRM − c R

=

de donde tenemos que λµeRM − c > 0. Y finalmente

 
1 c
ln <R
M λµ

Obsérvese que la cota superior no requiere de hipótesis adicionales, de modo que cuando el
 
2 (c − λµ)
coeficiente de ajuste, R, existe, éste se encuentra siempre dentro del intervalo 0, .
λµ2
Observe también que cuando las reclamaciones están acotadas superiormente por una cons-
tante positiva, M, puede encontrarse una cota superior para la probabilidad de ruina sin
conocer, necesariamente, el coeficiente de ajuste pues

u
  Mu
−Ru u
−M c
ln( λµ ) ln( λµ
c )
M λµ
Ψ(u) < e < e =e =
|{z} c

249
*Multiplicando la cota superior por -u.

250
Aproximaciones al modelo de Carmér-Lundberg

Aproximación de De Vylder

Consideremos nuevamente el modelo de Cramér-Lundberg

N (t)
X
U (t) = U + ct − Yj
j=1

donde las reclamaciones Yj tienen una distribución desconocida. La aproximación propuesta


por De Vylder consiste en aprovechar el hecho de que, para este modelo, el problema de
encontrar la probabilidad de ruina es completamente soluble cuando las reclamaciones son
exponenciales. De Vylder propone la siguiente reformulación del modelo

N (t)
e
X
U ct −
e (t) = u + e Yej
j=1

n o
c una nueva tasa de ingreso por primas,
e Ne (t) : t ≥ 0 , un proceso Poisson de parámetro

λ,
e y Yej variables aleatorias con distribución exp(e
α). La idea es aproximar la probabilidad
de ruina del modelo original de riesgo, por medio de este modelo reformulado. Para ello se

deben encontrar los valores de los parámetros, e


c, λ
eyα
e, en términos de los parámetros del
riesgo original, como lo mostramos en seguida.

Proposición. La probabilidad de ruina del riesgo en el modelo de Carmér-Lundberg, puede


aproximarse por la fórmula

λ
e −αe− λe u
Ψ(u) ≈ e c
e
, con

e e
3µ2 e 9 λµ32 3 λµ22
α
e= , λ= , c = c − λµ +
2 µ23
e
µ3 2 µ3

Dem. El método consiste en igualar los tres primeros momentos de los procesos U (t) y U
e (t),

asumiendo que éstos existen.

251
• Igualación de las esperanzas. Es decir, hay que encontrar las condiciones bajo las que
h i
E [U (t)] = E Ue (t) . Entonces, tenemos que

e1t = E U
h i
E [U (t)] = U + ct − λµt = U + ect − λ e (t)
α
e

⇒e e1
c = c − λµ + λ
α
e

• Igualación de varianzas (Igualación de los segundos momentos). El siguiente paso es igualar


las varianzas. Recordemos que la varianza de un riesgo, S, que sigue un modelo de pérdidas
agregadas P oisson(λ), está dada por V (S) = λµ2 . Entonces, igualando las varianzas de
estos dos procesos, tenemos

2 h i
V [U (t)] = λµ2 = λ
e = V U
e (t)
e2
α

• Igualadad entre los terceros momentos. Finalmente, recordemos que el tercer momento cen-
tral de un riesgo, S, que sigue un modelo colectivo P oisson(λ), está dado por E (S − E(S))3 .
 

En este caso del modelo de pérdidas, tenemos

 3 
 3 6
E (U (t) − E(U (t))) = λµ3 = λ 3 = E U (t) − E(U (t))
e e e
α
e

Sólo resta igualar convenientemente estas ecuaciones para encontrar los parámetros de in-
terés. De las igualdades de la varianza y tercer momento, se desprende que

1 1
e2 = λµ3 α
λµ2 α e3
2 6
3µ2
⇒α e=
µ3

Ahora, sustituyendo este valor en la ecuación generada al igualar las varianzas, tenemos

3
e = 9 λµ2
λ
2 µ23

252
Finalmente, sustituyendo estos dos valores en la igualdad entre las esperanzas, tenemos

3 λµ22
c = c − λµ +
e
2 µ3

Entonces, hemos encontrado los valores de los parámetros del modelo reformulado: λ,
e αe, e
c,
en términos de los del modelo original λ, c y de los momentos de la distribución de las re-
clamaciones, Y.

Fórmula de Pollaczec-Khinchin

La fórmula de Pollaczek-Khinchin es una expresión general que permite escribir a la proba-


bilidad de ruina en términos de una serie infinita de convoluciones.

Proposición (Fórmula de Pollaczec-Khinchin). La probabilidad de ruina en el modelo de


Cramér-Lundberg está dada por


X
Ψ(u) = (1 − p) pn H̄ ∗(n) (u)
n=1
Z x
λµ 1
con p = , y H(x) = F̄ (y)dy, x ≥ 0
c µ 0

Con µ la esperanza de la distribución asociada al monto de reclación. Claramente es muy


difı́cil de utilizar esta serie para calcular la probabilidad exacta de ruina, debido a su carácter
infinto. No obstante, se usa ampliamente para calcular aproximaciones de probabilidades de
ruina.

Dem

Primero veamos que la variable aleatoria 1 − Ψ(u) corresponde a la distribución de una


 
λµ ∗
variable geométrica compuesta con parámetros 1 − p = 1 − ,H (Recordemos que la
c
probabilidad de éxito se toma como q=1-p). Efectivamente, sea

 
λµ
N ∼ Geo 1 − ,y
c

253
n
X
X= Yi
i=1

tales que Y1 , Y2 , ..., Yn son variables aleatorias independientes con distribución H(y). Entonces


X
Ψ(x) = P (X ≤ x) = P (X ≤ x|N = n) (1 − p)pn
n=0


X
= (1 − p)pn H ∗(n)
n=0

Entonces


X
(1 − p)pn 1 − H ∗(n)

1 − Ψ(u) = =
n=0


X
= (1 − p)pn H̄ ∗(n)
n=0


X
= (1 − p) pn H̄ ∗(n) (u)
n=1

  ∞  n
λµ X λµ
= 1− H̄ ∗(n) (u)
c n=1 c

Para utilizar esta fórmula y obtener aproximaciones de las probabilidades de ruina, la com-
binaremos con el algoritmo de Panjer. En general no es fácil calcular las convoluciones de la
función de distribución, H(u), ni tampoco calcular la suma infinita en esta fórmula. No obs-
tante, pueden llevarse a cabo simulaciones de esta variable aleatoria, calcular la magnitud de
las colas y conocer de manera aproximada la probabilidad de ruina cuando las reclamaciones
tienen una distribución continua arbitraria. Mostremos esta fórmula de Pollaczek-Khinchin
para reclamaciones exponenciales, y comparémosla con la fórmula exacta ya conocida para
este caso.

254
Entonces, supongamos que las reclamaciones tiene distribución exponencial de parámetro α.
Primero veamos que H(u) es nuevamente la función de distribución de una exponencial (α).

u
1 u −αy
Z Z
1
H(u) = F̄ (y)dy = e dy
µ 0
1 0
α
 u
e−αy

= α y−
α
0
 −αu 
e 1
= α − +
α α

= 1 − e−αu

Por lo tanto, H ∗(n) (u) se distribuye gamma(n, α), y su distribución es

∞ k
−αu (αu)
X
∗(n)
H (u) = e
k=n
k!

cuya función de supervivencia es

n−1
∗(n)) X (αu)k
H (u) = e−αu
k=0
k!

Entonces tenemos que

255
∞ ∞ X
n−1 k
∗(n) n −αu (αu)
X X
n
p H (u) = p e
n=1 n=1 k=0
k!

∞ X

X (αu)k
= pn e−αu
k=0 n=k+1
k!

∞ k ∞
−αu (αu)
X X
= e pn
k=0
k! n=k+1

∞ k ∞
−αu (αu)
X X
k+1
= e p pn
k=0
k! n=0


p X −αu (αpu)k
= e
1 − p k=0 k!

p −αu αpu
= e e
1−p
p −α(1−p)u
= e
1−p

continuando con este desarrollo, tenemos entonces que de acuedo a esta fórmula de Pollaczek-
Khinchin


X ∗(n)
ϕ(u) = (1 − p) pn H (u)
n=1

p −α(1−p)u
= (1 − p) e
1−p

= pe−α(1−p)u
λ −(α− λc )u
= e
αc

que es el modelo de Cremér-Lundgber ya conocido para esta distribución.

Ejemplo. Utilizaremos R para aproximar las probabilidades de ruina de algunos modelos.


Supongamos que las reclamaciones siguen una distribución Pareto (5,4), la tasa de intensidad
Poisson es λ = 1 y tasa de primas por unidad de tiempo, c = 30. Ya que los momentos de

256
esta distribución son de la forma

αθk
E Xk =

α−k

en este caso, se pueden implementar las dos aproximaciones que presentamos, ya que esta
distribución tiene los tres primeros momentos finitos.

Aproximación de De Vylder

Entonces, el primero, segundo y tercer momento de esta distribución son

θ 2θ2 6θ3
; µ2 = E X 2 = y µ3 = E X 3 =
 
µ = E (X) =
α−1 (α − 2) (α − 3)

Por lo que los valores para nuestra aproximación son

3 ∗ 2θ2
3µ2 (α − 2) (α − 3)
α
e= = 3 =
µ3 6θ (α − 2) θ
(α − 3)

9λ 8θ6
3 3 3
e = 9 λµ2 = 2 (α − 2) = λ (α − 3)
λ
2 µ23 36θ6 (α − 2)3
(α − 3)3

3 λµ22 θ λ (α − 3) θ
c = c − λµ + =c−λ +
(α − 1) (α − 2)2
e
2 µ3
Utilizando los valores particulares de este ejemplo, que son: α = 5, θ = 4, λ = 2 y c = 12,
tenemos

α
e = 0.16666667; λ
e = 0.5925926 y e
c = 11.7777778

y la aproximación a la probabilidad de ruina queda como

0.5925926
Ψ(u) ≈ e−0.1163522∗u = 0.3018867e−0.1163522∗u
0.1666667 ∗ 11.7777778

257
Aproximación de De Vylder
0.30
0.25
0.20
Ψ(u)

0.15
0.10
0.05
0.00

0 20 40 60 80 100

Utilizando la aproximación que se desprende de la fórmula de Pollaczec-Khinchin. Tenemos

 5
4
F (x) = 1 −
4+x
Z x  5 !
1 4
⇒ H(x) = 1− 1− dz
µ 0 4+z
Z x  5
4
= 1∗ dz
0 4+z
 4
4
= 1−
4+x

Es decir, H ∼ P areto (4, 4). Además, tenemos que la “probabilidad de éxito”de la geométri-
ca asociada es

λµ 2∗1 5
1− c =1− 12 = 6

258
Entonces, cocluiremos este ejemplo utilizando R, para construir el modelo agregado subya-
cente.

Aprox. Pollaczec−Khinchin
0.16
0.14
Ψ(u)

0.12
0.10
0.08

0 20 40 60 80 100

259
Reservas
Las reservas para las compañı́as de seguros han tenido un desarrollo muy considerablemente
en los años recientes, ocasionado por el crecimiento del mercado de seguros, con procesos
de suscripción de riesgos (coberturas) cada vez más complejos. Se han desarrollado nuevos
productos de seguros que se adaptan a las necesidades más especı́ficas de la póliza. Además,
también han surgido reclamaciones latentes que ponen mayores presiones sobre los recursos
de la empresa. Los desastres recientes, como las inundaciones en Europa y los ataques terro-
ristas del 11 de septiembre a los EE.UU., han contribuido a la necesidad de formas complejas
de análisis de la siniestralidad, motivando la revisión de los modelos utilizados en las reservas
de siniestros, para garantizar resultados acordes a estos nuevos esquemas.

El pago de las reclamaciones es el primer objetivo de una cı́a. de seguros. El asegurado realiza
el pago de la prima para que, a efecto de este pago, la cı́a. de seguros acepte la responsabili-
dad de hacer un pago en dinero a los asegurados sobre la ocurrencia de un evento especı́fico,
dentro del periodo de tiempo estipulado.

En teorı́a, la responsabilidad de la aseguradora de pagar una reclamación cristaliza en el


instante de ocurrencia de la contingencia asegurada. Sin embargo, hay muchos factores que
pueden conducir a retrasos considerables entre la ocurrencia del siniestro y su pago. En pri-
mer lugar, la contingencia asegurada, es posible que no ocurra en un solo instante y puede,
incluso, no reconocerse como un evento exigible de pago, sino hasta muchos años después de
haber iniciado. En segundo lugar, la responsabilidad legal de la aseguradora no siempre es
clara, y puede haber retrasos considerables antes de que la compañı́a de seguros (o tribunal)
decida que existe tal responsabilidad. En tercer lugar, podrı́a ser imposible determinar el
monto de los daños hasta que haya transcurrido un periodo de tiempo desde ocurrencia del
evento. En cuarto lugar, están los retrazos ocurridos dentro de la oficina de la compañı́a de
seguros, en el registro de las reclamaciones, en el procesamiento del archivo de reclamaciones,
la autorización, envı́o y cobro del pago de la reclamación, etc.

La predicción de los montos de reclamación no pagados es creciente en seguros de no vida


con corto plazo ya que, por su propia naturaleza, son altamente especulativos. Los detalles
especı́ficos sobre el método para hacer estas predicciones están contenidas en un estudio
exhaustivo y muy detallado realizado por Taylor (1986). Una caracterı́stica común a todos

260
estos métodos es el uso de los registros de reclamaciones actuales y pasadas, dispuestas en
un triángulo de desarrollo de reclamaciones (run-off triangle) para calibrar el modelo de pre-
dicción propuesto antes de usarlo. Kremer (1982) mostró cómo el método clásico de chain
ladder para la estimación de las reclamaciones pendientes de pago en seguros generales, está
fuertemente relacionada con el análisis de varianza de dos vı́as. El desarrollo de este capı́tulo,
esta basado en el tratamiento estadı́stico de las reservas de reclamaciones realizado por Mack
(1991), que se percató de la relación entre los métodos de estimación de siniestros ocurrido
pero no declarados (debengados) (IBNR) y los métodos de tarificación de automóviles. Este
modelo paramétrico se implementa actualmente a través de un modelo lineal generalizado
(GLM) y se aplica a los datos de reclamación. Nuestro objetivo es explorar a fondo las ca-
racterı́sticas de los mótodos chain ladder y técnicas relacionadas.

Cálculo de reservas
Introducción

Definición de reserva: Monto de recursos necesarios para hacer frente a las obligaciones
asumidas por la compañı́a de seguros, reconociendo el efecto de interés e inflación, ası́ como
los gastos de administración derivados de la cartera, considerando la participación de rease-
guro.

Objetivo de la reserva: Dotar a la compañı́a de los recursos necesarios para realizar el pago
de las obligaciones que le son reclamadas y los gastos en que incurre por la administración
de su cartera.

Principales Reservas Técnicas a Constituir

• De Riesgos en Curso (RRC)

• De Obligaciones Pendientes de Cumplir (OPC), o de Siniestros Pendientes

• De Siniestros Ocurridos No Reportados (SONR) (IBNR)

• Reservas Técnicas Especiales (Catastróficas)

Métodos de Cálculo

261
• Chain Ladder

• Bornhuetter-Ferguson

• Siniestralidad Esperada

• Métodos Estocásticos

Chain Ladder estocástico

Bootstrap

Mack

Fundamentos técnicos

Se debe registrar ante la C.N.S.F. a través de una Nota Técnica que exponga el método
actuarial con el cual se realizará la valuación y que contenga:

• Fórmulas y procedimientos.

• Hipótesis: Demográficas, financieras y cualquier otra que se pretenda utilizar.

• Información estadı́stica (datos).

• Opinión del auditor externo actuarial.

• Firma del actuario certificado responsable de la elaboración y valuación.

262
Reservas de Riesgos en Curso (RRC)

Porción de las primas equivalente a la fracción no devengada de las mismas a la fecha de


valuación, después de descontar el costo de adquisición (VP de las obligaciones y costos fu-
turos (administración), incluyendo sus márgenes).

Se divide en dos grandes grupos:

Seguros a Corto Plazo (EPA No.24 ), y

Seguros de Largo Plazo (EPA No.45 )

a) RRC a Corto Plazo, elementos para el cálculo:

Sobre la cartera en vigor por el tiempo que le falta por transcurrir (no devengada) incluyendo
la tasa técnica de interés, considerar los costos futuros de: Siniestralidad y otras obligaciones
contractuales, margen para desviaciones, Costos de Administración, Adquisición y el margen
de Utilidad.

Basarse en información suficiente y confiable, sobre la cartera de riesgos en curso y las va-
riables que se utilizaron para determinar la prima de tarifa suficiente.

Reconocer la participación del Reaseguro

Generalmente se supone uniformidad del riesgo a lo largo de la vigencia, por lo que el riesgo,
en un momento dado, es proporcional al tiempo que falta para concluir la vigencia.

Efecto de Reaseguro

Para considerar el efecto de la existencia de contratos proporcionales de reaseguro, en la


fórmula de cálculo se tendrı́an que sustituir los conceptos de Prima de Riesgo y Prima Emi-
tida No Devengada, por Prima de Riesgo No Devengada de Retención y Prima Emitida No
Devengada de Retención, respectivamente. En el caso en que las obligaciones del reasegura-
dor no sean paralelas a las de la cedente (seguros proporcionales con porcentajes distintos
de participación dependiendo del nivel de siniestralidad, recorte de colas, etc.). Se deberán
valuar las obligaciones atendiendo lo dispuesto en los oficios circulares OS-10-06, OS-13-06
4
EPA= Estándares de Práctica Actuarial Adoptados por el CONAC, anexo 7.7.1 de la Circular Única
5
EPA= Estándares de Práctica Actuarial Adoptados por el CONAC, anexo 7.7.1 de la Circular Única

263
(Automóviles), OS-12-06 (Terremoto) y a la técnica actuarial aplicable al caso.

Reservas de Obligaciones Pendientes de Cumplir (OPC), o de Si-


niestros Pendientes

Equivale al saldo de siniestros en trámite, Estimación Inicial (±) Ajustes-Pagos

Siniestros

En Trámite

En Litigio

Siniestros Ocurridos pero no reportados

Siniestros Pendientes de Valuación

Gastos de ajuste asignados al siniestro

Dividendos

Experiencia en Siniestralidad

Experiencia propia

Participación en Rendimientos Financieros

Definición

La Reserva de Siniestros Pendientes en Trámite se constituye como un medio para hacer


frente a las obligaciones económicas derivadas de la ocurrencia de un siniestro notificado a
la compañı́a que, a la fecha de valuación, todavı́a no ha sido pagado o totalmente pagado.

Se asume que la reclamación se registra en tiempo y forma, ası́ como con la mejor estimación
posible del costo del siniestro.

Mecánica de Operación

Esta reserva se constituye en el momento en el que la Aseguradora tiene conocimiento de la


ocurrencia de un siniestro y se reserva una estimación inicial del monto del daño de acuerdo

264
a los bienes y coberturas amparadas en la póliza.

Se realizan ajustes a esta reserva cuando se tiene una estimación más detallada de los daños
o se determinan pérdidas como consecuencia directa del siniestro. (“Ajustes de más” cuando
el monto de las obligaciones aumenta y “ajustes de menos” cuando disminuye).

Normalmente el proceso de ajuste se realiza a través de especialistas llamados ajustadores,


cuya función es emitir un juicio sobre la situación de los bienes dañados y traducir el nivel del
daño a montos de efectivo. En el caso de ramos como automóviles, el ajustador se auxilia con
herramientas de cómputo como “Valua Data” que permite, mediante sofisticados sistemas
de costeo, determinar un monto más objetivo para el siniestro.

Por último, esta reserva se elimina cuando se pagan los montos reservados o se declara el
siniestro como improcedente.

Algunas veces el asegurado y la compañı́a no llegan a un acuerdo sobre la indemnización de


un siniestro en cuyo caso el asegurado recurre a la Comisión Nacional para la Protección
y Defensa de los Usuarios de Servicios Financieros, y esta última ordena a la compañı́a la
constitución de una reserva, con sus respectivos intereses por mora, en lo que se determina
la situación judicial de las partes. (ver Art. 135 Bis, 136 LGISMS).

Siniestros Ocurridos No-reportados (IBNR / SONR)

Estimación de siniestros que ya ocurrieron a la fecha de valuación, pero que no han sido
reportados por distintas razones, o que el costo estimado inicialmente resulte menor al real,
o que aún no han sido valuados (se usa método estadı́stico actuarial basado en la experiencia
particular de la compañı́a para su estimación).

Los siniestros ocurridos pero no reportados, son aquellos eventos que se producen en un
intervalo de tiempo, durante la vigencia de la póliza, pero que se conocen con posterioridad
a la fecha de cierre o de valuación de un periodo contable. El objeto de la reserva por sinies-
tros ocurridos y no reportados es crear provisiones para cubrir los siniestros que no han sido
reportados a una fecha determinada, pero que ya ocurrieron.

La reserva por Siniestros Ocurridos pero no Reportados, tiene como objeto hacer una provi-
sión de recursos que sirvan para enfentrar el pago de aquellas reclamaciones que, habiendo

265
ocurrido en determinado año, sean reportadas en años futuros. El pago retrazado de los
siniestros puede producir pérdidas en ejercicios donde no corresponde, distorsionando los
resultados de ese año. Asimismo, el efecto de retrazo en las reclamaciones produce una dis-
torsión en los estados financieros de una institución, ya que puede reflejar una aparente
utilidad anual, que puede deberse al efecto del pago retrazado de reclamaciones. El proceso
de las reclamaciones atrazadas que provienen de un determinado año de origen, se distribu-
yen en un periodo al que se le llama periodo de desarrollo.

Objetivos

• Permite constituir los recursos para que éstos estén disponibles al momento en que esos
siniestros sean reclamados

• Evita reconocer una utilidad no ganada.

Los siniestros ocurridos y no reportados, se constituyen por:

• Siniestros ocurridos pero aún no reportados (Incurred but not yet reported IBNYR), los
cuales se caracterizan porque el acaecimiento del siniestro no ha sido reportado aún, debido
a retrasos de tipo administrativo o de la clase de contingencia cubierta (IBNR Puro).

• Siniestros ocurridos pero no reportados completamente (Incurred but not enough reported
IBNER), son aquellos ya ocurridos y reportados, pero cuyo costo está incompleto o no ha
sido determinado con precisión (SPV).

Pueden valuarse en conjunto o por separado.

Métodos de Cálculo

• Chain Ladder

• Bornhuetter-Ferguson

• Siniestralidad Esperada

• Métodos Estocásticos

Chain Ladder estocástico

266
Bootstrap

Mack

267
Estructura general de la información para el cálculo de la provisión para sinies-
tros pendientes

Cálculo de Triángulos de Desarrollo

El análisis del comportamiento de los siniestros ocurridos no reportados, puede hacerse or-
denando los siniestros en un arreglo matricial que consiste en asignar a cada renglón, el año
de origen y a cada columna, el año de desarrollo, de manera que cualquier siniestro puede
ser clasificado en este arreglo matricial de acuerdo al año de origen del cual proviene y al
año de desarrollo en el que fue reclamado. A este arreglo de clasificación de siniestros se le
conoce como triángulo de desarrollo de siniestros.

Tiángulo de desarrollo de siniestros


Año Desarrollo por año
1 2 ··· j ··· n-1 n
1 C11 C12 · · · C1j · · · C1,n−1 C1n

2 C21 C22 ··· C2j ··· C2,n−1

.. .. .. .. ..
. . . . .

i Ci1 Ci2 ··· Ci,n+1−i

n-1 Cn−1,1 Cn−1,2

n Cn1

Las Cij representan monto de reclamación o número de reclamaciones, registrado durante


el periodo i (periodo de ocurrencia) y reportado en el momento de desarrollo j (periodo de
reclamo).

Marco estructural del problema de las reservas para siniestros

Supongamos que tenemos N reclamaciones dentro de un periodo de tiempo fijo con fechas
de reporte T1 , ..., TN (Supongamos que están ordenadas, Ti ≤ Ti+1 ∀ i). Consideremos la
i-ésima reclamación. Entonces, Ti = Ti,0 , Ti,1 , ..., Ti,Ni denota la secuencia de fechas en las
que alguna situación ocurre con esta reclamación, por ejemplo, al tiempo Tij se realiza un
pago, se estima un ajuste de esta reclamación o se recaba nueva información sobre ella. Ti,Ni
denota a liquidación definitiva de la reclamación. Suponga que Ti,Ni +k = ∞ para k ≥ 1.

268
Especificaremos los eventos que ocurren al tiempo Ti,j como

(
Pago al tiempo Ti,j para la reclamación i
Xi,j =
0, Si no hay pago al tiempo Ti,j

(
Nueva información disponible sobre la reclamación i, al tiempo Ti,j
Ii,j =
∅, Si no hay nueva información al tiempo Ti,j

Definimos Xi,j = 0, y Ii,j = 0 si Ti,j = ∞.

Con esta estructura se puede definir varios procesos interesantes; además, el problema de
reserva para reclamaciones, se puede dividir en varios sub problemas.

• Proceso de pago de la i-ésima reclamación. (Ti,j , Xi,j )j≥0 define el siguiente proceso de
pagos acumulados para la reclamación i

X
Ci (t) = Xi,j
j:Ti,j ≤t

con Ci (t) = 0 para t < Ti . La cantidad máxima demandada por la reclamación i es

X
Ci (∞) = Ci (Ti,Ni ) = Xi,j
j≥0

La reserva total de reclamación para la reclamación i en el momento t para los pasivos fu-
turos (pendientes de reclamación al tiempo t), está dada por

X
Ri (t) = Ci (∞) − Ci (t) = Xi,j
j:Ti,j >t

• El proceso de información de la reclamación i está dado por (Ti,j , Ii,j )j≥0

• El proceso de liquidación definitiva de la reclamación i está dado por (Ti,j , Ii,j , Xi,j )j≥0

Denotaremos los procesos agregados para todas las reclamaciones por

269
N
X
C(t) = Ci (t)
i=1

N
X
R(t) = Ri (t)
i=1

C(t) denota todos los pagos hasta el tiempo t para todas las N reclamaciones, y R(t) denota
los pagos de siniestros pendientes (reservas) al tiempo t para estas N reclamaciones.

Consideremos ahora el problema de reservas como un problema de predicción. Sea

 
FtN = σ (Ti,j , Ii,j , Xi,j )i≥0,j≥0 |Ti,j ≤t

la información disponible al tiempo t. Esta sigma-álgebra se obtiene a partir de la informa-


ción disponible en el momento t del proceso de liquidación de siniestros.

A menudo se dispone de información exógena adicional, t al tiempo t (cambio de la práctica


jurı́dica, inflación, información del mercado, etc.) Por lo tanto se define la información que
la compañı́a de seguros tiene en el tiempo t por

F = σ FtN ⊗ t


En matemáticas, se llama producto de Kronecker, denotado con ⊗, a una operación sobre dos
matrices de tamaño arbitrario que da como resultado una matriz bloque. Es un caso especial del
producto tensorial. El producto de Kronecker no deberı́a confundirse con el producto de matrices
habitual, que es una operación totalmente diferente. Debe su nombre al matemático alemán Leopold
Kronecker.

Hay que estimar las distribuciones condicionales

µt = P (C (∞) |Ft )

Con los primeros dos momentos

Mt = E [C (∞) |Ft ]

Vt = V [C (∞) |Ft ]

270
Propiedades fundamentales del proceso de reservas

Ya que

C (∞) = C(t) + R(t)

tenemos que

Mt = E [C (∞) |Ft ]

= E [C(t) + R(t)|Ft ]

= E [C(t)|Ft ] + E [R(t)|Ft ]

= C(t) + E [R(t)|Ft ]

además

Vt = V [C (∞) |Ft ]

= V [C(t) + R(t)|Ft ]

= V [R(t)|Ft ]

Lema 1 Mt es una Ft − martingala. Esto es, para t > s se tiene que

E [Mt |Ft ] = Ms , c.s.

Dem. Trivial.

Lema 2 El proceso de varianza Vt es una Ft − supermartingala. Esto es, para t > s se tiene
que

E [Vt |Ft ] ≤ Vs , c.s.

Dem.

271
E [Vt |Ft ] = E [V (C(∞)|Ft ) |Fs ]

= E E C 2 (∞) |Ft |Fs − E E [C (∞) |Ft ]2 |Fs


     

≤ E C 2 (∞) |Fs ] − E [E [C (∞) |Ft ] |Fs ]2 (Desigualdad de Jensen : E [g (X)] ≥ g (E [X]))




= V (C (∞) |Fs ) = Vs

Consideremos u > t dos tiempos del proceso. Definimos el incremento de t a u como

M (t, u) = Mu − Mt

Entonces tenemos c.s. que

E [M (u, t)M (u, ∞)|Ft ] = E [M (u, t)E [M (u, ∞)|Fu ] |Ft ]

= E [M (u, t) (E [C(∞)|Fu ] − Mu ) |Ft ] = 0

que implica que M (t, u) y M (u, ∞) no están correlacionadas, que es la propiedad bien co-
nocida de las martingalas de incrementos no correlacionados.

Esta primera aproximación al problema de reservas de reclamaciones utiliza la representa-


ción integral de martingalas, que conduce al “proceso de inovación”que determina Mt al
actualizar Ft .

• Esta teorı́a es bien conocida.

• Se tiene poca idea sobre el proceso de actualización.

• No se tienen suficientes datos desde el punto de vista estadı́stico.

Segunda aproximación al problema de reservas. Para t < u tenemos que Ft ⊂ Fu . Ya que


Mt es una Ft − martingala, se tiene que

E [M (t, u)|Ft ] = 0 c.s

Definamos el incremento de pagos entre t y u como

272
X(t, u) = C(u) − C(t)

Por lo tanto tenemos que

M (t, u) = Mu − Mt

= E [C(∞)|Fu ] − E [C(∞)|Ft ]

= C(u) + E [R(u)|Fu ] − (C(t) + E [R(t)|Ft ])

= X(t, u) + E [R(u)|Fu ] − E [C(u) − C(t) + R(u)|Ft ]

= X(t, u) − E [X(t, u)|Ft ] + E [R(u)|Fu ] − E [R(u)|Ft ]

que está compuesta por los siguientes dos términos

1.- Error de predicción para los pagos en el plazo (t, t + 1], (u = t + 1)

X(t, t + 1) − E [X(t, t + 1)|Ft ]

2.- Error de predicción de las reservas de R(t + 1) cuando se ha actualizado la información

E [R(t + 1)|Ft+1 ] − E [R(t + 1)|Ft ]

Reclamaciones conocidas y desconocidas

Definido el concepto de reclamaciones IBNyR (ocurridas pero aún no reportados). El proceso


siguiente cuenta el número de siniestros reportados

X
Nt = 1{Ti ≤t}
i≥1

Podemos dividir la demanda total y las reservas en el momento t, respecto a la situación de


si se tiene una reclamación reportada o una catalogada como IBNyR por

X X
R(t) = Ri (t) · 1{Ti ≤t} + Ri (t) · 1{Ti >t}
i i

con

273
X
Ri (t) · 1{Ti ≤t} reservas para las reclamaciones reportadas al tiempo t
i
X
Ri (t) · 1{Ti >t} reservas al tiempo t, para reclamaciones IBNyR
i

Y definimos

" # "N #
X Xt
Rtrep =E Ri (t) · 1{Ti ≤t} Ft = E Ri (t) Ft ,

i i=1
" # " N
#
X X
RtIBN yR = E Ri (t) · 1{Ti >t} Ft = E Ri (t) Ft

i i=Nt +1

con N el total aleatorio de reclamaciones. Es fácil ver que

X h i
Rtrep = E Ri (t) Ft

i≤Nt
" N
#
X
RtIBN yR = E Ri (t) Ft

i=Nt +1

Rtrep denota los pagos futuros esperados al tiempo t, de los siniestros reportados. Conocido
como “el mejor estimador de las reservas tiempo t, para siniestros reportados”. RtIBN yR son
los pagos futuros esperados al tiempo t, para reclamaciones IBNyR (o “el mejor estimador
de reservas al tiempo t, para reclamaciones IBNyR”).

En conclusión, estas dos expresiones muestran que las reservas para siniestros reportados y
la reservas para siniestros IBNyR son de muy diferente naturaleza:

i) Las reservas para siniestros reportados se deben determinar de forma individual, es decir,
con base en uno solo de los siniestros. A menudo se tiene suficiente información sobre reporte
de reclamaciones, para realizar una estimación de las reclamaciones individuales.

ii) Las reservas para siniestros IBNyR no pueden desagregarse debido al hecho de que N no
se conoce al momento t. Además, no tenemos información sobre reclamaciones individuales.
Esto muestra que las reservas IBNyR deben determinarse con base en un colectivo de recla-
maciones.

274
Desafortunadamente, la mayorı́a de los métodos clásicos de reservas no distinguen entre
reclamaciones reportadas y reclamaciones IBNyR, es decir, que estiman las reservas de si-
niestros de la misma manera en ambas casos. En este contexto, tengo que decepcionarlos un
poco, porque la mayorı́a de los métodos que presentaremos tampoco hacen esta distinción.

Terminologı́a y notación el triángulo de desarrollo de siniestros

En este apartado presentamos la terminologı́a y notación clásica de las reservas de recla-


maciones. En la mayorı́a de los casos la reclamaciones pendientes se estiman a través de
llamado triángulo de desarrollo de reclamaciones, que clasifica las reclamaciones sobre dos
ejes de tiempo. Usualmente denotados como

i = año del evento, año de ocurrencia,


j = año de desarrollo, periodo de desarrollo

Para fines ilustrativos se asume que Xi,j denota todos los pagos en el periodo de desarrollo,
j, de reclamaciones que ocurrieron en el año, i, es decir, lo que corresponde al incremento
del pago de reclamaciones ocurridas en el año i, realizadas en el ejercicio contable i + j.

En un triángulo de desarrollo, las reclamaciones por año suelen estar en la lı́nea vertical,
mientras que los periodos de desarrollo están en la lı́nea horizontal. En general, las tablas
de desarrollo se dividen en dos partes; la parte superior del triángulo / trapezoide, donde
tenemos observaciones y el triángulo inferior donde debemos estimar los pagos pendientes.
En las diagonales siempre vemos los ejercicios contables. De ahı́ que los datos de las recla-
maciones tienen la siguiente estructura:

275
Tiángulo de desarrollo de siniestros
Año evento Desarrollo por año
0 1 ··· j ··· J-1 J
0

..
. Datos observados de las v.a. Ci,j Xi,j

i Predicciones Ci,j , Xi,j

I-1

I
Los datos se pueden mostrar en forma acumulativa o en forma no acumulativa (incremental).
Los datos incrementales se denotan por Xi,j y datos acumulados dados por

j
X
Ci,j = Xi,k
k=0

Los datos incrementales, Xi,j , puede denotar los pagos incrementales en la celda (i, j), el
número de siniestros reportados con retraso de reporte j y año de ocurrencia i, o el cambio
en la cantidad de reclamaciones reportado en la celda (i, j). Para los datos acumulados Ci,j ,
generalmente se utiliza el término de pagos acumulados, o el número total de reclamaciones
reportadas o reclamaciones incurridas (para siniestros declarados acumulativos). Ci,∞ se co-
noce comúnmente como monto total de la demanda o carga total de la reclamación i o el
número total de reclamaciones en el año i.

Xi,j : Pagos incrementales ⇔ Ci,j : Pagos acumulados

Xi,j : Núm. de reclamaciones reportadas con retrazo j ⇔ Ci,j : Núm. total de reclamaciones reportadas

Xi,j : Cambio en la cantidad de reclamaciones reportadas ⇔ Ci,j : Siniestros incurridos

Usualmente denotamos las observaciones por DI = {Xi,j : i + j ≤ I} en la parte superior del


trapezoide, y DIc = {Xi,j : i + j > I} que necesitan estimarse.

Los pagos en un solo ejercicio contable están dados por

276
X
Xk = Xi,j
i+j=k

que son los pagos en la (k+1)-ésima diagonal.

Si Xi,j denota pagos incrementales, entonces las reservas de reclamación para el año i al
tiempo j están dada por


X
Ri,j = Xi,k = Ci,∞ − Ci,j
k=j+1

Ri,j se conoce también como la reserva para siniestros. Se trata fundamentalmente de la


cantidad que tenemos que estimar (triángulo inferior) para que junto con los últimos pagos,
Ci,j , obtengamos toda la carga de las reclamaciones (monto total) para los eventos del año i.

Teniendo en cuenta los modelos de reservas, es decir, modelos que estiman las reclamaciones
totales, existen diversas posibilidades para éstas.

• Para datos acumulativos o datos incrementales

• Para datos de pagos de reclamaciones incurridas

• Para la división de los datos en reclamaciones pequeñas y grandes

• Número de reclamaciones y promedio de reclamaciones

• Etc.

Por lo general, diferentes métodos y diferentes formas de agregarción de los datos, conducen
a resultados muy diferentes. Sólo un actuario con basta experiencia en reservas, es capaz
de decidir cuál es una forma adecuada de estimación para las obligaciones futuras en un
conjunto especı́fico de datos.

277
Método Chain-Ladder (libre de distribución)
El modelo de Chain-Ladder es, probablemente, la técnica para calcular reservas más popular.
Proporcionaremos diferentes derivaciones para este método. Iniciaremos con la derivación li-
bre de distribución del Chain-Ladder.

La literatura clásica actuarial, generalmente refiere al método de Chain-Ladder como un


algoritmo puramente computacional para estimar las reservas de siniestros. Fue mucho más
tarde que los actuarios empezaron a considerar modelos estocásticos para desarrollar o gene-
rar el algoritmo de este método. El primero que utilizó un modelo completamente estocástico
para el método Chain-Ladder fue Mack (1993). Publicando, en 1993, uno de los artı́culos
más famosos para cálculo de reservas con errores estándar en el modelo Chain-Ladder.

El método se basa en estimar la proporción de cambio de un ejercicio a otro (factores de


desarrollo), en donde cada valor se pondera con la siniestralidad que le precede. En concreto,
los factores de desarrollo se calculan como

Ci,j
fij =
Ci,j−1

Entonces, este algoritmo se basa en los pagos acumulados

j
X
Ci,j = Xi,k
k=0

Esto es, sumamos los pagos incrementales, Xi,k , k ≥ 0, para una año de ocurrencia del sinies-
tro fijo, i, y, como son reclamaciones acumuladas, en última instancia obtenemos Ci,J−1 = Si ,
con Si el total de reclamaciones que corresponden al año de ocurrencia del siniestro, i.

La idea detrás del algoritmo Chain-Ladder (CL) es que todos los años de ocurrencia de si-
niestros se comportan de manera similar y, para reclamaciones acumuladas, se tiene que

• Supuestos del modelo Chain-Ladder

Existen f0 , f1 , ..., fJ−1 > 0 factores de desarrollo tales que para toda 0 ≤ i ≤ I y toda
0 ≤ j ≤ J se tiene que

278
E [Ci,j |Ci,0 , Ci,1 , ..., Ci,j−1 ] = E [Ci,j |Ci,j−1 ] = fj−1 Ci,j−1

e independencia entre los años de eventos (entre los renglones del triángulo de desarrollo).

Observaciones

• Se supone independencia entre los años de ocurrencia. Más adelante veremos que este su-
puesto se hace en casi todos los métodos. Esto significa que ya se han eliminado los efectos
del año de contabilidad en los datos.

• Además, podemos hacer supuestos más fuertes sobre las sucesiones Ci,0 , Ci,1 , ... asumiendo
que forman una cadena de Markov. Por lo tanto, tenemos que

j−1
Y
Ci,j · fl−1
l=0

forman una martingala para j ≥ 0.

• Los factores fj reciben el nombre de factores de desarrollo o factores Chain-Ladder. Son


el objetivo de interés central en el método Chain-Ladder.

Lema. Sea DI = {Xi,j : i + j ≤ I} el conjunto de observaciones (trapecio superior). Bajo el


modelo Chain-Ladder, tenemos que para toda I − J + 1 ≤ i ≤ I ocurre que

E [Ci,J |DI ] = E [Ci,J |Ci,I−i ] = Ci,I−i · fI−i · · · fJ−1

Dem. Este es un ejercicio de esperanza condicional

E [Ci,J |Ci,I−i ] = E [Ci,J |DI ]

= E [E [Ci,J |Ci,J−1 ] |DI ]

= E [fJ−1 Ci,J−1 |DI ]

= fJ−1 E [Ci,J−1 |DI ]

Si iteramos este procedimiento hasta llegar a la diagonal i + j = I obtenemos la afirmación.

279
Este lema proporciona un algoritmo para estimar el valor esperado de la demanda final,
Ci,J , dadas las observaciones DI , de la siguiente manera. Para cualquier año de ocurrencia
i, elegir la última observación en la diagonal, esto es Ci,I−i , y multiplicar sucesivamente esta
observación por los factores de desarrollo fI−i , ..., fJ−1 .

Por otro lado, para factores de desarrollo conocidos, fj , estimamos los siniestros esperados
pendientes de pago del año i basado en DI , por

E [Ci,J |DI ] − Ci,I−i = Ci,I−i · (fI−i · · · fJ−1 − 1)

que corresponde al “mejor estimador de las reservas del año i al tiempo I (basado en la in-
formación DI ). Desafortunadamente, en la mayorı́a de las aplicaciones prácticas los factores
Chain-Ladder no se conocen y necesitan estimarse. Los factores Chain-Ladder se estiman por

I−j−1
X
Ck,j+1 I−j−1 I−j
X Ci,j Ci,j+1 X
fˆj = k=1
I−j−1
= PI−j−1 = wij fij
X i=1 n=1 C n,j C i,j i=1
Ck,j
k=1

Entonces, la estimación (CL) de E [Ci,j |DI ] está dada por

CL
Ĉi,j = Ê [Ci,j |DI ] = Ci,I−i · fˆI−i · · · fˆj−1 , para i + j > I

Definamos ahora Bk = {Ci,j : i + j ≤ I, 0 ≤ j ≤ k} ⊆ DI . De hecho se tiene que BJ = DI ,


que es un subconjunto de todas las observaciones al tiempo I.

Lemma Bajo el supuesto para el modelo Chain-Ladder, tenemos que

h i
a) fj , dado Bj , es un estimador insesgado de fj . Esto es: E fˆj BJ = fj
ˆ

h i
b) fˆj es (incondicionalmente) insesgado para fj . Esto es: E fˆj = fj

h i h i h i
c) fˆ0 , ..., fˆJ−1 nos están correlacionados. Esto es: E fˆ0 , ..., fˆJ−1 = E fˆ0 · · · E fˆJ−1

280
CL
d) Ĉi,J , dado Ĉi,I−1 es un estimador insesgado de E [Ci,J |DI ] = E [Ci,J |Ci,I−i ]. Esto es:
h i h i
E Ĉi,J CI−i = E Ci,J DI , y
CL

h i
CL CL
e) Ĉi,J es (incondicionalmente) insesgado para E [Ci,J ]. Esto es: E Ĉi,J = E [Ci,J ]

En principio, el hecho de que los factores estimados Chain-Ladder, fˆj , no estén correlacio-
nados, parece sorprendente, ya que dependen de los mismos datos.

Dem. lema

a) Para demostrar este primer inciso tenemos

I−j−1 I−j−1
X X
E [Ck,j+1 |Bj ] Ck,j · fj
h i
E fˆj |Bj = k=0
I−j−1
= k=0
I−j−1
= fj
X X
Ck,j Ck,j
k=0 k=0

que inmediatamente implica la condición de insesgamiento.

b) Se sigue inmediatamente de a).

c) Para j < k tenemos

h i h h ii h h ii h i
E fˆj fˆk = E E fˆj fˆk |Bk = E fˆj E fˆk |Bk = E fˆj fk = fj fk

d) Para demostrar este iniciso

h i h i
CL
E Ĉi,J |Ci,I−i = E Ci,I−i · fˆI−i · · · fˆJ−1 |Ci,I−i
h h i i
= E Ci,I−i · fˆI−i · · · fˆJ−1 E fˆJ−1 |BJ−1 |Ci,I−i
h i
CL
= fJ−1 E Ĉi,J−1 |Ci,I−i

iterando este procedimiento obtenemos

281
h i
CL
E Ĉi,J |Ci,I−i = Ci,I−i · fI−i E · · · fJ−1 = E [Ci,J |DI ]

e) es consecuencia inmediata de d).

Observaciones

Hemos demostrado que los estimadores fˆj no están correlacionados, pero no son indepen-

dientes. De hecho, los cuadrados de dos estimadores sucesivos fˆj y fˆj+1 están correlacionados
negativamente.

Obsérvese que el inciso d de este lemma, demuestra que podemos obtener estimadores inses-
gados del mejor estimador de las reservas E [Ci,J |DI ].

282
El método de Bornhuetter-Ferguson
El método Bornhuetter-Ferguson es, en general, un método muy robusto, ya que no toma en
cuenta los valores extremos en las observaciones. El método se remonta a 1972 en el artı́culo
de Bornhuetter-Ferguson titulado “el actuario e IBNR”. El método Bornhuetter-Ferguson
se suele entender como un algoritmo puro para estimación de reservas (esta es también la
forma en que fue publicado por ellos).

Ventajas del método BF

Mayor estabilidad que los métodos de desarrollo

Refleja en cierta medida los datos más recientes

Permite suavizar los resultados


• El método de desarrollo tiende a subestimar cuando el ocurrido es bajo y a sobre-
estimar si es alto

Permite incorporar los cambios en la estructura de las tarifas

Permite estimar el IBNR cuando la información es escasa

Permite incorporar los cambios en la estructura de las tarifas

Desventajas

Requiere la estimación de la siniestralidad esperada inicial

Requiere la estimación de porcentajes de desarrollo de siniestros

Hay varios posibilidades de definir un modelo estocástico subyacente apropiado que motive
el método BF. Los siguientes supuestos son fáciles de cumplir:

Supuestos (1) sobre el método Bornhuetter-Ferguson

• Los diferentes años de ocurrencia de los eventos, son independientes.

283
• Existen parámetros µ0 , µ1 , ..., µI > 0 y patrones β0 , β1 , ..., βJ > 0 con βJ = 1, tales que,
para toda i ∈ {1, 2, ..., I}, j ∈ {1, 2, ..., J − 1} y k ∈ {1, 2, ..., J − j}, se tiene que

E [Ci,0 ] = µi · β0 ,

E [Ci,j+k ] = Ci,j + µi · (βj+k − βj )

Entonces, tenemos que E [Ci,j ] = µi βj y E [Ci,J ] = µi βJ = µi · 1 = µi . La sucesión {βj }j


denota los patrones de desarrollo de las reclamaciones. Si Ci,j son los pagos acumulados,
entonces βj es el patrón de flujo de caja acumulado esperado (the expected cumulative cash-
flow pattern) (también llamado patrón de pagos). Tal patrón se utiliza a menudo, cuando
se necesita construir reservas market-consistent/discounted, donde valores de tiempo difieren
en el tiempo. Entonces, estos supuestos implican los siguientes

Supuestos (2) sobre el método Bornhuetter-Ferguson

• Los diferentes años de ocurrencia de los eventos, son independientes.

• Existen parámetros µ0 , µ1 , ..., µI > 0 y patrones β0 , β1 , ..., βJ > 0 con βJ = 1, tales que,
para toda i ∈ {1, 2, ..., I}, j ∈ {1, 2, ..., J − 1}, se tiene que

E [Ci,j ] = µi · βj

La idea detrás del método BF es que todos los años de ocurrencia de eventos i ∈ {1, ..., I}
tienen un comportamiento similar, con un comportamiento de los pagos de reclamaciones

Ci,j ≈ µi · βj

para cierta información inicial µ̂i y cierto patrón de desarrollo {βj }j=0,...,J−1 normalizadas
PJ−1
j=0 βj = 1.

El valor inicial µ̂i debe reflejar el total esperado del ejercicio contable i, E [Ci,J−1 ]. Se supone
que este valor inicial se da de manera externa, de acuerdo a la opinión de expertos que, en
teorı́a, no deberı́a basarse en DI .

284
Regularmente, estos son los supuestos (2) para generar el modelo BF, no obstante, sólo con
estos supuestos, podemos tener ciertas dificultades. Observemos que

E [Ci,J |DI ] = E [Ci,J |Ci,0 , ..., Ci,I−1 ]

= E [Ci,J − Ci,I−i + Ci,I−i |Ci,0 , ..., Ci,I−1 ]

= Ci,I−i + E [Ci,J − Ci,I−i |Ci,0 , ..., Ci,I−1 ]

Si no tenemos supuestos adicionales sobre la estructura de dependencia entre los incremen-


tos en las reclamaciones, no sabremos qué hacer exactamente con el último término de la
expresión anterior. Si supiéramos que estos incrementos Ci,J − Ci,I−i son independientes de
Ci,0 , ..., Ci,I−i , entonces esto implicarı́a que

E [Ci,J |DI ] = E [Ci,J |Ci,0 , ..., Ci,I−1 ]

= Ci,I−i + E [Ci,J − Ci,I−i ] por independencia

= Ci,I−i + E [Ci,J ] − E [Ci,I−i ]

= Ci,I−i + βJ µi − βI−i µi

= Ci,I−i + (1 − βI−i ) µi

que también se desprende de los supuestos del modelo.

Estimador del modelo BF

 
Ĉi,J = Ê [Ci,J |DI ] = Ci,I−i + 1 − β̂I−i · µ̂i

I − J + 1 ≤ i ≤ I. Con β̂I−i un estimador de βI−i y µ̂i un estimado inicial para E [Ci,J ]. Ya


que µ̂i es una estimación basada en la opinión de expertos y, probablemente, independiente
de la información observada DI , lo único que hay que estimar en este modelo son los factores
o patrones de desarrollo βj .

Comparación de los estimadores BF y Chain-Ladder

De acuerdo a los supuestos sobre el modelo Chain-Ladder tenemos que

285
j−1
Y
E [Ci,j ] = E [E [Ci,j |Ci,j−1 ]] = fj−1 E [Ci,j−1 ] = E [Ci,0 ] fk
k=0

entonces

J−1
Y
E [Ci,J ] = E [Ci,0 ] fk
k=0

que implica

j−1 J−1
Y Y
E [Ci,j ] = fk fk−1 E [Ci,J ]
k=0 k=0

J−1
Y
= fk−1 E [Ci,J ]
k=j

Si comparamos esta expresión con la correspondiente del método BF, E [Ci,j ] = µi βj , encon-
tramos que

J−1
Y
fk−1 “juega el papel de”βj
k=j

J−1
Y
ya que fk−1 corresponde a la proporción ya pagada de µi = E [Ci,J ] después de j periodos
k=j

0
del desarrollo en el método Chain-Ladder. Note que esta correspondencia entre las βj y el
producto de los factores de desarrollo se obtiene únicamente mediante los supuestos (2) y no
con (1) ya que éstos no son implicados por los supuestos Chain-Ladder ni viceversa.

Estimación del modelo Bornhuetter-Ferguson

Dada la expresión del modelo, su estimación es

!!
BF \ 1
C
d i,J = Ci,I−i + 1− QJ−1 µ̂i
j=I−i fj

286
Por otro lado tenemos que el estimador Chain-Ladder es

J−1
CL Y
C
d i,J = Ci,I−i fˆj
j=I−i

J−1
!
Y
= Ci,I−i + Ci,I−i fˆj − 1
j=I−i

CL J−1
!
C
d i,J
Y
= Ci,I−i + QJ−1 fˆj − 1
ˆ
j=I−i fj j=I−i

!
1 CL
= Ci,I−i + 1 − QJ−1 C
d i,J
j=I−i fˆj

Por lo tanto, la diferencia entre el método Bornhuetter-Ferguson y el Chain-Ladder es que


para el de Bornhuetter-Ferguson confiamos por completo en nuestra estimación a priori de
µ̂i , mientras que en el Chain-Ladder esta estimación a priori se remplaza por el estimador
CL
C
d i,J , que proviene por completo de las observaciones.

Ya comentamos que, dada la forma como se estima µi en el modelo BF, sólo debemos ocu-
parnos de la estimación de los patrones de desarrollo, es decir, de las βj . En vista del método
de CL, se define la siguiente los estimadores del patrón de desarrollo:

J−2 Qj−1 ˆCL


1 k=0 fk
Y
γjCL = = QJ−2
k=j fˆCL
k fˆCL
k=0 k

cociente que refleja, como ya dijimos, la proporción ya pagada después de los primeros j
periodos de desarrollo de acuerdo a los patrones de desarrollo del método Chain-Ladder. Por
lo que obtenemos los estimadores

β̂0CL = γ̂0CL ,

β̂jCL = γ̂jCL − γ̂j−1


CL
, j = 1, 2, ..., J − 2

CL CL
β̂J−1 = 1 − γ̂J−2

287
Una vez definidos estos estimadores, entonces predecimos la última reclamación (o reclama-
ción total) Ci,J−1 para i + J − 1 > I en el método BF, por

J−1
X
BF
βjCL = Ci,I−i + µ̂i 1 − γ̂I−i
CL

Ĉi,J−1 = Ci,I−i + µ̂i
j=I−i+1

Las reservas al tiempo I para los años de ocurrencia del siniestro i > I − (J − 1) están dadas
por

J−1
X
R̂iBF BF
βjCL = µ̂i 1 − γ̂I−i
CL

= Ĉi,J−1 − Ci,I−i = µ̂i
j=I−i+1

y agregado sobre todos los años de ocurrencia de los siniestros, predecimos el total de pasivos
de pérdida de las últimas reclamaciones (reserva total), por

X
R̂BF = R̂iBF
i>I−(J−1)

Concluiremos este apartado con una comparación entre los valores predichos de los métodos
CL y BF. Entonces, reescribimos las predicciones realizadas mediante el método CL, para
i + J − 1 > I, de la siguiente manera

J−2 J−2
!
Y Y 1
CL
Ĉi,J−1 = Ci,I−i + Ci,I−i fˆjCL 1 −
j=I−i j=I−i fˆCL
j

de donde obtenemos las relaciones

 
CL CL CL
Ĉi,J−1 = Ci,I−i + 1 − β̂I−i Ĉi,J−1 ,
 
BF CL
Ĉi,J−1 = Ci,I−i + 1 − β̂I−i µ̂i

Por lo tanto, observamos que tenemos la misma estructura. La única diferencia es que en el
método BF utilizamos la estimación inicial externa, µ̂i , para la demanda final y en el método
CL
de la estimación CL esta estimación se basa en Ĉi,J−1 . Por lo tanto, tenemos dos posiciones
complementarias para realizar las predicciones.

288
Breve introducción a los Modelos Lineales Generalizados (MLG)

Los modelos lineales son modelos estadı́sticos que sirven para cuantificar el impacto o influen-
cia que tienen las llamadas variables explicativas (caracterı́sticas de los sujetos o entidades
que conforman el modelo) y la llamada variable de respuesta. El más sencillo de estos mo-
delos es el de regresión lineal simple, cuya extensión natural es el modelo de regresión lineal
múltiple. Este es, probablemente, el modelo lineal más conocido en la literatura estadı́stica.
La caracterı́stica esencial de este modelo es que la variable de respuesta se asume con distri-
bución continua y su componente aleatorio se supone con distribución normal, distribución
que hereda la variable de respuesta.

En la modelación estadı́stica muchas veces se tienen variables de respuesta que no son con-
tinuas, por ejemplo la condición de enfermo y no enfermo de un paciente; la preferencia
electoral de un sujeto en un marco de tres partidos polı́ticos en competencia; el número de
reclamaciones en una póliza de seguros, etc. Para este tipo de respuestas, el modelo de re-
gresión lineal usual no es, de ninguna manera, una opción adecuada, por lo que es necesario
modificar o ampliar este modelo para contemplar esta clase de respuestas. De esta necesi-
dad surgen los llamados Modelos lineales Generalizados(MLG) en los que existen diversas
estructuras de su compontente aleatorio, que se adecuan de mejor manera a las caracterı́sti-
cas de escala de medición de sus respuetas. Estos modelos están caracterizados por tres
componentes

• Componente aleatorio (parte aleatoria): µ = E (y|X) = y

0
• Un predictor lineal (parte sistemática): η = X β

• Una función liga: g (µ)

El componente aleatorio tiene que ver con la distribución que se le asocia a la respuesta
(la parte aleatoria) del modelo, misma que es sugerida por la escala de medición de esta
respuesta. En los M LG, esta distribución debe ser un miembro de la familia exponencial.
El predictor lineal lo constituye la parte determinı́stica del modelo, es decir, los datos y los
parámetros. Finalmente, la liga es una función que liga o asocia una transformación de la
variable de respuesta con el predictor lineal. La estructura de este modelo es

289
0
g (µ) = X β = β 0 + β1 X1 + β2 X2 + · · · + βp Xp ó
 0 
µ = g−1 X β

Los miembros de la familia exponencial que determinan los principales M LG son

F unción liga g (µ) Liga canónica para

Idéntica µ N ormal

log ln (µ) P oisson


(
Gamma (p = −1)
Potencia µp
Gaussiana Inversa (p = −2)
 
µ
Logit ln Binomial
1−µ

Ya que la escala de la variable de respuesta determina el modelo lineal generalizado que deba
de ajustarse, observamos que

• El modelo de regresión lineal estándar es un M LG con liga idéntica. Su respuesta es una


variable continua con rango en R.

• Si la respuesta es una variable de conteo, entonces el M LG correspondiente es el modelo


de regresión Poisson

• Si la variable de respuesta tiene sólo dos categorı́as, el M LG correspondiente es el modelo


de regresión logı́stica o modelo logit. La liga de este modelo es el logaritmo del momio de
respuesta, y recibe el nombre de logit.

• Si la variable de respuesta es continua y positiva, los probables M LG son la regresión


Gamma o la regresión Gaussiana Inversa.

La familia exponencial

La familia de densidades de probabilidad más importante en estadı́stica es la llamada familia


exponencial. Cuya definición es

290
Definición: Familia exponencial. Sean y1 , ..., yn variables aleatorias independientes con fun-
ción de densidad o de probabilidad, que puede escribirse como

 
yi θi − b (θi )
f (yi ; θi , φ) = exp + c (yi , φ)
ai (φ)

con

• θi es el parámetro natural o canónico

• φ es un parámetro de escala o dispersión

• ai (·) , b (·) y c (·) funciones especı́ficas para cada elemento de esta familia

∗ Si φ es conocido, este es un modelo de la familia exponencial lineal

∗ Si φ es desconocido, es un modelo de dispersión exponencial

Para algunos de los modelos que especificamos en la tabla anterior tenemos

Normal

• Distribución N (µ, σ 2 )
• E (y) = µ
• Liga g(µ) = µ (identidad)
θ2
• b(θ) = 2
(θ = µ)
• a(φ) = 1

Poisson(λ)

• E (y) = λ
• Liga g(λ) = ln (λ)

• b(θ) = eθ (θ = λ)
• a(φ) = 1

Binomial(n,π)
• E (y) = nπ

291
π

• Liga g(π) = ln 1−π

• b(θ) = n log(1 + eθ ) (θ = π)
• a(φ) = 1

etc.

Estimación y pruebas de hipótesis

La estimación de los parámetros que determinan cada modelo: el vector de parámetros


asociados a las covariables, β, y el parámetro de escala o dispersión, φ, se estiman por máxima
verosimilitud. Y los estimadores de sus varianzas se calculan por medio de la inversa de la
llamada Matriz de Información Observada de Fisher. Por esta razón las inferencias para este
modelo son inferencias asintóticas (excepto para el modelo estándar de regresión lineal).

La prueba de hipótesis más importante es sobre el modelo global

H0 : β = 0, ⇒ β1 = β2 = · · · = βp = 0 vs. Ha : βi 6= 0 p.a. i = 1, 2, ..., p

Si en un modelo concreto no rechazamos la hipótesis nula (H0 ), implicarı́a que ninguna


de nuestras covariables es importante para explicar o predecir la respuesta, lo que llevarı́a
a desechar el modelo. Si los modelos son propuestos por un sujeto que conoce su área de
aplicación, generalmente esta hipótesis se rechaza “en favor de la hipótesis alternativa”. En-
tonces, como se enuncia en esta última hipótesis, lo único que sabrı́amos es que almenos
una covariable es importante para explicar la respuesta, y; pero esta hipótesis no determina
cuál(es) ni cuántas. Por lo que es necesario realizar pruebas individuales sobre cada paráme-
tro (equivalentemente cada covariable) en el modelo. Las pruebas son del tipo

H0 : βi = 0 vs. Ha : βi 6= 0 i = 1, 2, ..., p

El estadı́stico asociado para realizar esta prueba es una t de Student. En concreto se hace
con la estadı́stica

βb a
r i  ∼ tn−p
var βbi

292
En el caso del modelo de regresión lineal, y dada la normalidad de su componente aleatorio,
esta estadı́stica es

βb
r i  ∼ N (0, 1), o bien
var βbi

βbi2
  ∼ χ2(1)
var βbi

como habı́amos dicho, para este modelo las inferencias son exactas.

La devianza

Una forma de determinar el ajuste del modelo construido es comparándolo contra el modelo
que produce el mejor ajuste posible. En estos modelos, el mejor ajuste se logra cuando el
modelo tiene tantos parámetros como observaciones y se le conoce como modelo saturado.
Este modelo lo que hace es reproducir los valores observados, por lo que su ajuste es perfecto.

Si denotamos por `e(β) el valor de la log-verosimilitud del modelo saturado y por `(β)
b el
correspondiente valor del modelo propuesto, se define la devianza (algunas veces llamada
devianza residual) a la cantidad

h i
D =2 `e(β) − `(β)
b

que puede verse como una medida de distancia entre el modelo propuesto y el saturado.

• Cuando el modelo propuesto provee un buen ajuste, se espera que `(β)


b esté cercana a

`e(β) . Es claro que ya que esta última cantidad es el supremo de todas las log-verosimiltudes

posibles, `(β)
b no puede ser mayor que ella. Un valor ”grande”de esta devianza indica un
pobre ajuste del modelo propuesto.

• Suponiendo que el modelo es correcto y n es grande, la distribución asintótica de esta


devianza es una Ji-cuadrada. En concreto

293
a
D ∼ χ2(n−p)

por lo que el valor esperado de esta devianza es n-p.

En los modelos lineales generalizados esta devianza es

h i
D =2φ `e(β) − `(β)
b

Comparación de modelos

En la modelación estadı́stica estándar por lo general se tienen varios modelos que ajustan
de forma adecuada a nuestra información, por lo tanto, es necesario tener una forma para
compararlos y elegir el mejor entre ellos. Para hacer esta comparación es necesario que los
modelos estén anidados, i.e., que uno de ellos sea un submodelo del otro.

Supongamos que tenemos dos modelos M0 y M1 con total de parámetros p0 y p1 , respec-


tivamente y p1 > p0 (lo que implica que M0 está anidado en M1 ). Entonces, la menera de
comparar estos modelos es

a
2φ [` (M1 ) − `(M0 )] ∼ χ2(p1 −p0 )

con ` (M1 ) y `(M0 ) las respectivas log-verosimilitudes de los correspondientes modelos. Si


esta diferencia es estadı́sticamente significativa, podemos afirmar que las variables que tiene
M1 pero que no están en M0 sirven para mejorar el ajuste del modelo. Por el contrario, si
esta diferencia no es estadı́sticamente significativa, entonces querrá decir que el ajuste de
ambos modelos es similar, por lo tanto, atendiendo al principio de parsimonia, preferimos el
que tiene menos parámetros, en este caso, M0 .

294
Modelo Poisson de reservas

Terminaremos esta sección con el modelo de Poisson, que se utiliza principalmente para el
número de reclamaciones. Lo interesante en el modelo de Poisson es que conduce a las mis-
mas reservas del modelo Chain-Ladder. Fue Mack (1991), quien demostró que las reservas
Chain-Ladder son reservas producidas por un proceso de máxima verosimilitud del modelo
de Poisson.

Supuestos modelo Poisson

Existen parámetros µ0 , µ1 , ..., µI > 0 y patrones γ0 , γ1 , ..., γJ > 0, tales que los valores incre-
mentales Xi,j son independientes y se distribuyen Poisson con

E [Xi,j ] = µi · γj

PJ
para toda i ≤ I y j ≤ J, y j=0 γj = 1.

Es claro que si Xi,j son Poisson, entonces el número total de reclamaciones acumuladas ocu-
rridas en el periodo i, Ci,J , también es Poisson, con

E [Ci,J ] = µi

Ya que µi es un parámetro que representa el número esperado de reclamaciones ocurridas en


el año i, mientras que j define el patrón de flujo de caja esperado en los diferentes periodos
de desarrollo j. Por otra parte tenemos que

E [Xi,j ] γj
=
E [Xi,0 ] γ0

que es independiente de i.

Lema. El modelo Poisson satisface los supuestos (1) del método Bornhuetter-Ferguson.

Dem

La independencia de los diferentes años de reclamación se sigue de la independencia de los


conteos Xi,j . Además, tenemos que E [Ci,0 ] = E [Xi,0 ] = µi · β0 con β0 = γ0 , y

295
k
X
E [Ci,j+k |Ci,0 , ..., Ci,j ] = Ci,j + E [Xi,j+` |Ci,0 , ..., Ci,j ]
`=1

k
X
= Ci,j + µi · γj+`
`=1

= Ci,j + µi · (βj+k − βj )

Pj
con βj = `=0 γ` . Que concluye la demostración.

Para estimar los parámetros (µi )i , (γj )j existen diferentes métodos, una posibilidad es utilizar
estimadores máximo verosı́miles. La función de verosimilitud, obviamente con la información
observada, DI = {Ci,j ; i + j ≤ I, j ≤ J}, está dada por

!
Xi,j
Y (µi γj )
L (µ0 , ..., µI , γ0 , ...γj ; DI ) = e−µi γj ·
Xi,j !
i+j≤I

Como es costumbre, maximizaremos la log-verosimilitud asociada mediante el conjunto de


las ecuaciones de verosimilitud, desprendidas de igualar a cero las derivadas parciales sobre
cada uno de los, I + J + 2, total de parámetros desconocidos µi y γj . En DI obtenemos que

(I−i)∧J (I−i)∧J
X X
µ̂i γ̂j = Xi,j = Ci,(I−i)∧J
j=0 j=0

I−i
X I−i
X
µ̂i γ̂j = Xi,j
j=0 j=0

P
para toda i ∈ {0, ..., I} toda j ∈ {0, ..., J} bajo la restricción de que γj = 1. Este sistema
tiene solución única y proporciona los estimadores mle de µi y γj .

Con estos estimadores, el modelo Poisson para reservas se estima por

296
P oi
X̂i,j = Ê [Xi,j ] = µ̂i γ̂j ,

J
X
P oi P oi
Ĉi,j = Ê [Ci,J |DI ] = Ci,I−i + X̂i,j
j=I−i+1

Obsérvese que

I−i
!
X
P oi
Ĉi,j = Ci,I−i + 1− γ̂j · µ̂i
j=0

por lo que los estimadores Poisson tiene la misma forma que los BF. Sin embargo, aquı́
debemos estimar µi y γj mediante los datos.

297
Modelo Poisson sobredisperso

Ya hemos comentado que en datos reales, es muy común que el modelo Poisson resulte sobre-
disperso, i.e., que φ >> 1. Definamos el modelo Poisson sobredisperso para calcular reservas
a partir de un triángulo de desarrollo.

Supuestos sobre el modelo Poisson sobredisperso

Existen parámetros µ0 , µ1 , ..., µI > 0, patrones γ0 , γ1 , ..., γJ > 0 y φ, tales que los valores
incrementales Xi,j son independientes con distribución

 
Xi,j µi γj
∼ P ois
φ φ

Observe que

  
µi γj µi γj
E [Xi,j ] = E φP ois =φ· = µi γj
φ φ
  
µi γj µi γj
V [Xi,j ] = V φP ois = φ2 · = φµi γj
φ φ

que hace evidente el nombre del modelo: Poisson sobredisperso.

Varianzas y errores estándar de los estimadores Chain-Ladder

En el modelo Chain-Ladder sólo presentamos la estimación para la demanda esperada final,


por supuesto, también le gustarı́a saber, la precisión que tiene este estimador. Para medir la
precisión de esta estimación, consideramos los segundos momentos.

Supongamos que tenemos una variable aleatoria X y un conjunto de observaciones, D. Su-


pongamos que X̂ es un estimador D − medible de E [X|D].

Def. Error cuadrático medio de predicción condicional. El error cuadrático medio de predic-
ción condicional del etimador X̂ está definido por

 2 
M SEPX|D = E X̂ − X |D

298
El MSEP condicional es una medida de distancia L2 , que puede descomponerse en dos partes

   2
M SEPX|D X̂ = V (X) + X̂ − E [X|D]

La primera de ellas llamada proceso de varianza (error estocástico), es decir, la varianza


inerherente al modelo estocástico (totalmente aleatorio que no puede eliminarse), y la se-
gunda conocida como el error de estimación del parámetro, que refleja la incertidumbre en
la estimación de los parámetros y de la esperanza, respectivamente. En general, este error
de estimación se hace más pequeño cuanto más observaciones tenemos. Pero hay que tener
cuidado, en muchas situaciones prácticas este error no desaparece por completo, ya que se
tratar de predecir los valores futuros con la ayuda de la información pasada, por lo que un
ligero cambio del modelo a través del tiempo puede provocar muchos y serios problemas.

Reservas Técnicas Especiales (Catastróficas)

Provisiones especiales determinadas y ordenadas por la S.H.C.P. para complementar y re-


forzar las reservas tradicionales o para corregir y prevenir desviaciones o insuficiencias de
carácter técnico o financiero.

Riesgos Catastróficos

Fondo acumulativo que se integra con una parte de las primas de ciertas coberturas para
cubrir eventos catastróficos como los terremotos.

Contingencia/Previsión (Margen de Seguridad para desviaciones adversas)

Fondo acumulativo que se integra con una parte de las primas para cubrir desviaciones en
la “siniestralidad”.

299

S-ar putea să vă placă și