Riesgo

Teorı́a del Riesgo
Introducción
La actividad aseguradora está difundida en el mundo entero, son de uso corriente los seguros
de automóviles, incendios, robos, vida, etc. Esta actividad responde a la incertidumbre que
sienten los individuos ante ciertas situaciones que pueden provocar distintos daños, tanto
materiales como personales. El miedo a la posibilidad de que ocurran dichos acontecimientos
se intenta eliminar mediante la compra de un seguro que compensará al asegurado en el caso
de producirse algún daño. La base de esta actividad radica en la existencia de un equilibrio
entre la prestación que hará la compañı́a de seguros y la contraprestación que ella recibe del
asegurado.
Algunos antecedentes históricos

En sus inicios, el seguro era una forma de solidaridad entre los miembros de una comunidad.
Consistı́a en un fondo o bolsa en la que todas las personas depositaban parte de su dinero.
Con el capital que acumulaban entre todos, se pagaban los daños que sufrı́an algunos de
ellos. Por ejemplo: Antiguamente existı́a en algunos puertos la costumbre de que todos los
armadores de barcos que hacı́an una determinada lı́nea, aportaban a un fondo común una
cantidad de dinero en función del número de navı́os que poseı́an. Aquellos armadores cuyos
barcos se hundı́an o eran saqueados por piratas, recibı́an una compensación económica pro-
cedente del fondo común para poder adquirir otro barco para continuar su actividad laboral.
La Ciencia Actuarial tal como hoy se concibe comienza en el siglo XVII. Durante este periodo
las necesidades comerciales dieron lugar a operaciones que acarreaban un interés compuesto;
los seguros marı́timos eran algo habitual y el cálculo de las rentas vitalicias comenzaba a
aparecer. Este tipo de operaciones requerı́a algo más que el juicio intuitivo y comercial de
los primeros aseguradores. Uno de los pilares de la Ciencia Actuarial fue la Teorı́a de Pro-
babilidades, las bases del análisis estadı́stico en el seguro fueron establecidas por Pascal en
1654 en colaboración con el también matemático Pierre de Fermat.
Otro de los pilares es el concepto de tablas de vida, basadas en las investigaciones sobre la
1
mortalidad. Las primeras tablas son debidas a John Graunt (1662). En 1693 Edmund Halley,
matemático ingles, publicó un famoso documento describiendo la construcción de tablas de
vida completas a partir de la hipótesis de estacionariedad de la población, ası́ como el méto-
do de valoración de las rentas vitalicias, que es, en esencia, el mismo que se utiliza hoy en
dı́a. Las tablas de Halley se utilizaron por la mayorı́a de las compañı́as de seguros inglesas
creadas durante el siglo XVIII.
En el presente siglo, la Ciencia Actuarial se enriquece con las aportaciones de las matemáti-
cas de los seguros no vida, la teorı́a estadı́stico-matemática de la estabilidad y la moderna
teorı́a de la decisión.
Algunos términos del seguro

La actividad aseguradora, como cualquier otra que supone una especialidad, tiene su propia
forma de expresarse (jerga). Vamos a ver una serie de términos de uso frecuente:
Seguro: Entendido como contrato, es el convenio entre dos partes, la compañı́a o entidad
aseguradora por una parte y el contratante por otra, mediante la cual la primera se compro-
mete a cubrir económicamente la pérdida o daño que el asegurado puede sufrir durante la
vigencia del contrato. La obligación del asegurado es pagar, a la firma del contrato, el precio
del seguro total o parcialmente.
Riesgo: Es la posibilidad de pérdida o daño. El hombre desde que nace vive con la constante
amenaza de enfermedad, accidente, muerte, etc. De la misma forma sus propiedades pueden
sufrir incendios, robos, etc.
Siniestro: Es la concreción del riesgo. Por ejemplo, un incendio que destruye una fábrica,
el robo de mercancı́as, muerte en un accidente, etc.
Asegurador: Es la persona jurı́dica que suscribe el compromiso de ofrecer la protección

indemnizatoria cuando se produce el siniestro. Un asegurador es una sociedad anónima, una
mutua de seguros, cooperativa, etc. Para que una empresa pueda ejercer legalmente como
aseguradora debe tener una autorización que concede la autoridad correspondiente.
Asegurado: Es la persona titular del interés asegurado. Es quien sufre el perjuicio económico
en sus bienes, en caso de que ocurra el siniestro, o la persona cuya vida o integridad fı́sica se
2
asegura y, por lo tanto, quien percibirá la indemnización en caso de que un siniestro afectase
al objeto asegurado (excepto en el caso de seguros de vida, en que recibe la indemnización,
en caso de muerte. el beneficiario).
Beneficiario: Cuando se asegura la vida o la integridad fı́sica de una persona puede desig-
narse a otra persona para que reciba las indemnizaciones, que es el beneficiario.
Póliza: Es el documento en que se plasma el contrato de seguro. Tiene dos caracterı́sticas

que la hacen especialmente importante:
• Es la prueba de que el contrato existe; y
• Es la normativa que regula las relaciones entre los contratantes.
Consta básicamente de tres partes:
• Condiciones generales: son una serie de cláusulas iguales para todos los contratos de la
misma modalidad. Incluyen deberes y derechos, forma de atención del siniestro, riesgos cu-
biertos, etc.
• Condiciones particulares: son las que individualizan cada contrato de seguro. Incluyen da-
tos personales del asegurado, caracterı́sticas del riesgo que se asegura (incendio, accidente,
robo...), importe de la prima, etc.
• Condiciones especiales: aparecen en algunas pólizas y suponen una adaptación para deter-
minados casos especiales. Por ejemplo, hay unas condiciones generales para todos los seguros
de robo, pero dadas las caracterı́sticas que pueden tener el seguro de robo a joyerı́as, se crean
para este tipo de establecimientos unas condiciones especiales.
Prima: Es el precio del seguro. Es la cantidad de dinero que el asegurado paga para que,
a cambio, el asegurador pague en caso de siniestro. La prima es por lo general para una
vigencia anual del seguro, aunque excepcionalmente puede pagarse por una sola vez, para la
cobertura de varios años (prima única en seguros de vida) y también por una vigencia menor
de un año (prima a corto plazo, como en el caso de un viaje, transporte de mercancı́as, etc.)
Clases de primas:
• Prima de riesgo: llamada también prima pura, natural, matemática o estadı́stica, es la
3
cantidad necesaria y suficiente que el asegurador debe percibir para cubrir el riesgo. Nace
del concepto de esperanza matemática como precio justo de una eventualidad.
• Prima de tarifa: también llamada prima comercial, es la prima de riesgo más los recargos.
Estos recargos son de varios tipos:
Gastos de administración: sueldos, alquileres de locales, etc.
Gastos de adquisición: formado básicamente por la comisión que se le paga al corredor

o intermediario.
Margen de beneficio: son los recargos asignados a la utilidad razonable del asegurador.
• Prima de facturación: es la prima de tarifa más los recargos de ley, como son los impues-
tos sobre la prima, los derechos de emisión y otros agregados y ordenados por disposiciones
legales, ası́ como los intereses de financiación en el caso de que el asegurador otorgue facili-
dades de pago fraccionado de la prima anual.
Clasificación de los seguros

Los seguros se pueden clasificar en dos grandes grupos: seguros de vida y seguros de no vida.
Un seguro de vida es aquel en el que una entidad aseguradora se compromete, mediante el

cobro de una prima única o periódica, a pagar la prestación convenida en el caso de que se
cumpla la circunstancia prevista en el contrato: que la persona o personas fallezcan o sobre-
vivan a un periodo de tiempo determinado. Existen distintas modalidades de seguros de vida:
• Seguros de vida en caso de muerte.
• Seguros de vida en caso de vida.
• Seguros de vida mixtos.
Los seguros de no vida van dirigidos a cubrir daños materiales que ocasionan pérdidas
económicas. Los más frecuentes son los de automóviles, incendios, robos, etc. En este ca-
so, las prestaciones o indemnizaciones están en función de la cuantı́a del daño.
4
Objetivos de las Matemáticas Actuariales
El objetivo de las Matemáticas Actuariales lo constituye el estudio cuantitativo de las ope-
raciones de seguro (y financieras en general) a fin de optimizar las decisiones sobre las mag-
nitudes que intervienen en ellas, teniendo en cuanta que las citadas operaciones las realiza
un ente asegurador (o financiero) que desarrolla su actividad en un entorno económico-social.
Forma parte del objetivo de la Matemática Actuarial:
• El cálculo de primas, reservas, valores garantizados, etc., en las operaciones de seguros de

vida.
• El análisis cuantitativo de los sistemas actuariales en los seguros colectivos, sociales y pla-
nes de pensiones.
• El estudio de los problemas de tarificación y reservas técnicas en los seguros no vida.
• La determinación de las magnitudes de estabilidad del ente asegurador y el análisis de su

solvencia.
5
Riesgo
Definición: Se entiende por riesgo, en la literatura actuarial, no sólo al objeto asegurado,
sino también, a la posibilidad de producirse, por azar, un acontecimiento que origine una
pérdida económica o patrimonial.
Un individuo puede adoptar distintas conductas a la hora de enfrentarse al riesgo, una par-
ticularmente asociada al seguro, es la de prevención y previsión, que conlleva a actitudes de
ahorro y de aseguramiento (como mecanismo para reducir la incertidumbre del asegurado a
través del pago de la prima). Este último constituye la forma más adecuada y técnicamente
eficaz para cubrir riesgos.
Caracterı́sticas del riesgo

Las caracterı́sticas esenciales del riesgo, para ser objeto del seguro, son las siguientes:
• Incierto y aleatorio: debe haber una relativa incertidumbre, pues el conocimiento de

su existencia real harı́a desaparecer la aleatoriedad, principio básico del seguro. En algunos
casos, se conoce con certeza que ocurrirá, pero se ignora cuándo, como en la cobertura de
los seguros de vida.
• Factibilidad: Debe existir posibilidad de que riesgo se consume. Tal posibilidad tiene
dos situaciones extremas: Por un lado, la frecuencia y del otro la imposibilidad. La excesi-
va ocurrencia del riesgo y su materialización en siniestro atenta contra la aleatoriedad del
suceso cubierto, ası́, una gran frecuencia de riesgos, por ejemplo, en la cobertura automóvi-
les, aparte de resultar muy costoso para la empresa aseguradora, exigirá que las primas de
seguros necesariamente se incrementen. Del mismo modo, la imposibilidad de que el riesgo
se manifieste en siniestro, situarı́a a la empresa aseguradora en una posición de presentar
una cobertura absurda que harı́a inviable la comercialización del producto, como ofrecer una
cobertura de daños por nevadas, en un paı́s tropical.
• Fortuito: El riesgo debe provenir de un acto o acontecimiento ajeno a la voluntad hu-

mana de producirlo. No obstante, es suceptible de indemnización el siniestro producido a
consecuencia de actos realizados por un tercero, ajeno al vı́nculo contractual que une a
la aseguradora con el asegurado. Aunque en tal caso, la entidad aseguradora se reserva el
6
derecho de ejercitar las acciones pertinentes contra el responsable del daño (principio de su-
brogación), como también es posible indemnizar el siniestro causado intencionadamente por
el asegurado, siempre que los daños se hayan producido por una situación de fuerza mayor
o para evitar otros más graves.
• Monto económico: La realización del riesgo debe producir una necesidad traducible a
un valor económico, que se satisface con la indemnización correspondiente.
7
EL PROCESO DE MODELACIÓN DEL
RIESGO
Recordemos que un modelo matemático, estadı́stico, actuarial, o de cualquier naturaleza, es
una representación simplificada de algún fenómeno real. En un contexto actuarial especı́fico,
proponer un modelo para describir una situación, se basa en la experiencia y conocimiento
que el Actuario tenga del fenómeno bajo estudio, ası́ como de la información histórica que
posea sobre él. El modelo debe proveer un balance entre simplicidad (parsimonia) y confor-
midad (ajuste) con la información disponible para elaborarlo.
El proceso de modelado
Sin pretender ser exhaustivos, podemos reconocer ciertos pasos a seguir para modelar una
situación actuarial. Es importante remarcar que, aunque los pasos se enumeren ordenada-
mente, la dinámica del proceso permite regresar a algunos puntos anteriores, para su mejor
especificación. Finalmente, hay que recordar que modelar tiene algo de técnica y mucho de
arte.
PASOS
1.- Uno o más modelos pueden seleccionarse de acuerdo al conocimiento inicial y experiencia
que posea el analista, además de la naturaleza de la información disponible.
2.- Ajustar el modelo con la información disponible.
3.- Realizar pruebas de bondad de ajuste y diagnóstico del modelo, para determinar si su
ajuste es adecuado para los datos utilizados.
4.- Considerar, a partir del paso anterior, la posibilidad de utilizar otros modelos.
5.- Si existen varios modelos que pueden ser adecuados, entonces, es necesario compararlos
con la finalidad de decidir por alguno de ellos.
6.- Finalmente, el modelo seleccionado puede adaptarse para aplicarlo en el futuro. Esto
puede involucrar algún ajuste de los parámetros, previendo cambios por alguna caracterı́sti-
ca exógena, como inflación, cambios del mercado asegurado o cualquiera otra.
8
Distribuciones asociadas al monto de
una pérdida
Cuando se manifiesta un riesgo, la Cı́a aseguradora tiene la obligación de cubrir el monto
de la reclamación que genera tal evento. Dadas las caracterı́sticas del riesgo, este monto es
claramente aleatorio, por lo que es suceptible de modelarse a través de una variable aleatoria,
X. Dado que el monto del siniestro es una cantidad no negativa, los modelos probabilı́sticos
asociados deben contemplar esta y otras caracterı́sticas. Concretamente
• La variable asociada al monto de reclamación es mayor o igual que cero (no negativa)
X : [0, ∞) → [0, ∞)
• La distribución de esta variable es generalmente sesgada a la derecha
Forma común de la distribución del monto de pérdida

0.6
0.5
0.4
y=f(x)
0.3
0.2
0.1
0.0
0 2 4 6 8 10
• La distribución puede ser de colas pesadas lo que podrı́a implicar el uso de distribuciones
para valores extremos en su modelación.
9
Entonces, dadas estas caracterı́sticas de los montos asociados a un riesgo, es necesario iden-
tificar las familias de modelos (densidades y/o distribuciones) más adecuados para su mode-
lación, recordando que deben ser modelos con soporte en los reales no negativos.
Definición 1 . Una familia de distribuciones paramétrica es un conjunto de distribuciones

en donde cada miembro está determinado por uno o varios valores fijos y finitos, llamados
parámetros (de ahı́ el nombre paramétrica).
10
Principales familias paramétricas para
modelar el monto de riesgo
Familia de distribuciones exponencial
La distribución exponencial es un modelo apropiado para los montos, ya que cumple con los
requicitos para su modelación; no obstante, esta distribución tiene colas ligeras por lo que
no resultarı́a adecuada si el seguro genera una gran proporción de reclamaciones con montos
muy grandes. Las caracterı́sticas de esta v.a. son
• f (x; θ) = θe−θx , θ > 0, x ≥ 0

1 1 θ
• E (X) = ; V (X) = 2 ; MX (t) = , que existe si t < θ.
θ θ θ−t
• θ es un parámetro de escala.
Diversas formas de la distribución exponencial

6
5
4
lambda= 1
Exponencial
lambda= 2
lambda= 3
3
lambda= 4
lambda= 5
lambda= 6
2
1
0
0 1 2 3 4
Familia de distribuciones Gamma

La distribución Gamma es una de las distribuciones más populares para modelar variables
aleatorias con soporte no negativo. Ya que esta distribución tiene colas ligeras, puede usarse
11
para modelar datos en los que no ocurran muchas reclamaciones con valores grandes. Se dice
que X v.a. tiene distribución Gamma si su función de densidad es
θα xα−1 e−θx
f (x; α, θ) = , x ≥ 0, α ≥ 0, θ ≥ 0
Γ(α)
con Γ(·) la función Gamma definida como
Z ∞
Γ(z) = e−t tz−1 dt
0
Las caracterı́sticas de la distribución Gamma son
α
α α θ
• E (X) = ; V (X) = 2 ; MX (t) = , t<θ
θ θ θ−t
Γ(α + r)
E (X r ) =
θr Γ(r)
• α es un parámetro de forma y θ es de escala.
• La distribución exponencial es un caso particular de la Gamma. En concreto, es una

Gamma(1, θ).
12
Diversas formas de la distribución Gamma Diversas formas de la distribución Gamma
0.25
1.2
0.20
1.0
alpha= 10 , beta= 0.5
0.8
0.15
alpha= 50 , beta= 0.5 alpha= 10 , beta= 0.1

Gamma
Gamma
0.6
0.10
0.4
0.05
0.2
0.00
0.0
0 10 20 30 40 50 0 5 10 15 20 25
x x
Familia de distribuciones Log-Normal

Uno de los modelo más usados para ajustar datos del monto de reclamación de un siniestro,
es la distribución log − normal(µ, σ 2 ). Esta distribución es asimétrica con cola derecha pe-
sada (más pesada que la exponencial y Gamma, pero no de las más pesadas), lo que permite
acumular una mayor densidad de probabilidad en esta cola. Por lo tanto, puede utilizarse
para modelar siniestros que generen grandes montos de reclamación con una proporción re-
lativamente alta.
Esta distribución guarda una estrecha relación con la Normal. De hecho, una variable alea-
toria se distribuye Log-normal, si el logaritmo natural de ella, se distribuye Normal, es decir
X ∼ log − normal(µ, σ 2 ), si ln(X) ∼ N (µ, σ 2 )
La función de densidad de esta variable aleatoria es
1 1 2
f (x; µ, σ 2 ) = √ e− 2σ2 (ln(x)−µ) , x > 0, µ ∈ R, σ 2 ∈ R+
2πσ 2 x
13
Algunas caracterı́sticas de esta distribución son
σ2 r2 σ2

2 2
• E (X) = eµ+ 2 ; V (X) = e2µ+σ eσ − 1 ; E (X r ) = erµ+ 2 (momentos de orden r=1,2,...)
• Pese a su relación con la normal, ninguno de los parámetros es de localización ni de escala.
Diversas formas de la distribución log−normal Diversas formas de la distribución log−normal

0.6
0.8
0.5
0.6
m= 0 , sigma= 1
0.4
m= 0 , sigma= 0.9
mu= 0 , sigma= 1
log−normal
log−normal
m= 0 , sigma= 0.8
mu= 0.5 , sigma= 1
m= 0 , sigma= 0.7
mu= 0.7 , sigma= 1
m= 0 , sigma= 0.6
0.3
mu= 1 , sigma= 1 0.4 m= 0 , sigma= 0.5

mu= 1.5 , sigma= 1
mu= 2 , sigma= 1
0.2
0.2
0.1
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
Familia de distribuciones Weibull

La distribución Weibull puede considerarse como una generalización de la exponencial. En
este caso, se incorpora un parámetro de forma, lo que permite mayor flexibilidad sobre la
forma que posea la distribución de los datos, y se conserva el parámetro de escala de la
exponencial. En general, es una distribución con colas más pesadas que la Gamma y la log-
normal, pero aún no de las más pesadas, por lo que puede ser un modelo adecuado para los
montos grandes de reclamación, que ocurren con una moderada alta probabilidad.
Se dice que X v.a. tiene una distribución W eibull(α, θ), si tiene una función de densidad
dada por
14
α x α−1 n x α o
f (x) = exp − , x > 0, α > 0, θ > 0
θ θ θ
con α parámetro de forma y θ parámetro de escala. Obsérvese que si α = 1 la Weibull se

convierte en una Exponencial(θ).
Sus caracterı́sticas son

1 2 2 2 1 t t
• E (X) = θΓ 1 + ; V (X) = θ Γ 2 + −Γ 1+ ; MX (t) = θ Γ 1 +
α α α α
Diversas formas de la distribución Weibull Distribución Weibull con diferentes parámetros de escala
3.0
k= 0.5 , lambda= 1
k= 1 , lambda= 1
k= 1.5 , lambda= 1
8
k= 3 , lambda= 1
2.5
k= 5 , lambda= 1
k= 7 , lambda= 1
2.0
k= 2 , lambda= 1
k= 2 , lambda= 0.8
k= 2 , lambda= 0.6
Weibull
Weibull
k= 2 , lambda= 0.4
1.5
k= 2 , lambda= 0.2
k= 2 , lambda= 0.1
4
1.0
2
0.5
0.0
0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0
x x
15
Familia de distribuciones Pareto
La distribución Pareto es una distribución con cola derecha aún más pesada que la Log-
normal y la Weibull, por lo que resultará de gran utilidad para modelar siniestros que gene-
ren reclamaciones muy grandes con altas frecuencias. Esta distribución surge al considerar
que la probabilidad de que una v.a., X, tome un valor superior a un valor determinado, x,
tiene la forma funcional
α
θ
P (X > x) = , x ≥ θ, α > 0, θ > 0
x
entonces, la función de distribución de la Pareto es
α
θ
F (x) = 1 − P (X > x) = 1 −
x
con función de densidad dada por
0 αθα
f (x; α, θ) = F (x) = α+1 , x ≥ θ, α > 0, θ > 0
x
Algunas de sus caracterı́sticas son
αθ αθ2 r αθr
• E (X) = ; V (X) = ; E (X ) = , α > r, r = 1, 2, ...
(α − 1) (α − 2)(α − 1)2 (α − r)
• α es un parámetro de forma y θ de escala.
16
Diversas formas de la distribución Pareto Diversas formas de la distribución Pareto
0.6
2.0
0.5
alpha= 3 , theta= 100
1.5
0.4

alpha= 1 , theta= 5 alpha= 3 , theta= 160
alpha= 4 , theta= 5
Pareto
Pareto
0.3
1.0
alpha= 5 , theta= 5
alpha= 6 , theta= 5
0.2
0.5
0.1
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
Familia de distribuciones Pareto de segundo tipo

La distribución Pareto de segundo tipo es simplemente la distribución Pareto de primer tipo
trasladada al origen. Concretamente, si X tiene distribución Pareto de primer tipo, entonces
Y = X − θ tiene distribución Pareto de segundo tipo. Con función de densidad
αθα
f (x; α, θ) = , x ≥ 0, α > 0, θ > 0
(x + θ)α+1
Caracterı́sticas de esta distribución
θ αθ2 r θr Γ (r + 1) Γ (α − r)
E (X) = ; Var (X) = ; E(X ) = , −1 < r < α
(α − 1) (α − 2) (α − 1)2 Γ (α)
r θr r!
E(X ) = si r es entero
(α − 1) (α − 2) · · · (α − r)
con Γ(·) la función Gamma, ya definida anteriormente.
17
Familia de distribuciones Pareto de tercer tipo
La distribución de Pareto de tercer tipo, es una generalización de las anteriores, en la que
además de la traslación se produce un cambio en la estructura de varianza. Se define como
distribución de Pareto de tercer tipo a la distribución de la v.a. X, cuya función de distribu-
ción es:
α
θ β
F (x) = 1 − e− θ x , x > 0, α > 0, θ > 0, β ≥ 0
θ+x
con función de densidad
α
1 θ − βθ x α
f (x) = e x +β
θ θ+x θ
+1
Ninguna de las caracterı́sticas de esta distribución tienen una expresión analı́tica cerrada.
Familia de distribuciones Burr

La experiencia en el pago de montos reclamación de seguros, ha mostrado que la Pareto
es apropiada para modelarlos, particularmente, cuando ocurren reclamaciones de montos
excepcionalmente grandes. No obstante, algunas veces es necesario tener distribuciones para
colas pesadas, que sean más flexibles que la Pareto, por ejemplo, que consideren una función
de densidad no monótona. Tal flexibilidad la proporciona la distribución Burr que tiene un
parámetro de forma, β, adicional. En concreto, si X es una v.a. con distribución Pareto de
segundo tipo, entonces
X 1/β ∼ Burr (θ, α, β)
cuya función de densidad está dada por
βαθα xβ−1
f (x) = x ≥ 0 , θ > 0, α > 0, β > 0
(xβ + θ)α+1
El momento de orden r de esta distribución es
18
θr/β Γ (α − r/β) Γ (r/β + 1)
E (xr ) = , que existe si r < αβ
Γ (α)
• α y β son parámetros de forma y θ de escala.
Diversas formas de la distribución Burr Diversas formas de la distribución Burr
alpha= 10 , beta= 5 , theta= 0.01
0.04
0.4

0.03
0.3

Burr
Burr
0.02
0.2
0.01
0.1
0.00
0.0
0 10 20 30 40 50 0 10 20 30 40 50
x x
Estas son algunas distribuciones de uso común para modelar los montos que genera la reali-
zación de un riesgo. Por supuesto, no están contemplados todos los modelos, son solamente
los más utilizados para este objetivo. Por ejemplo, no hemos introducido distribuciones co-
mo: Loglogı́stica, Paralogı́stica, Pareto generalizada, Gamma inversa, Weibull inversa, Beta,
Beta generalizada, Exponencial inversa, etc. Ninguno de estos modelos corresponde a los
tı́picos de valores extremos como la Gumbel o la Fréchet, por ejemplo. Dada esta lista (no
exhaustiva) de posibles modelos, es claro que la elección del mismo para modelar una situa-
ción particular, no será tarea fácil, en general.
19
Ajuste de funciones de probabilidad
Ahora veamos cómo se hace un ajuste de estos modelos (distribuciones) en una situación
donde se tienen datos reales.
Cuando se dispone de un conjunto de observaciones pertenecientes a una determinada va-

riable aleatoria con distribución desconocida, lo primero que conviene hacer es tratar de
identificar alguna distribución teórica (modelo) que pudiera ajustar bien dichas observacio-
nes. En otras palabras, se tratarı́a de comprobar si estos datos se distribuyen de acuerdo a
alguna distribución conocida (gamma, Pareto, log-normal , binomial, Poisson, etc.), pues ello
facilitarı́a la realización de inferencias sobre la población. Este proceso se realiza mediante
tres etapas básicas.
Reconocimiento de la familia de modelos (densidades) subyacente a los datos.
Estimación de los parámetros que determinan la densidad particular de esta familia

que ajusta a los datos recabados.
Verificación de lo adecuado del ajuste del modelo a los datos.
Reconocimiento del modelo

Esta primer etapa combina el conocimiento previo que el usuario posea sobre los datos a
modelar, con las diferentes técnicas de estadı́stica descriptiva que puedan determinar, por
ejemplo
Forma de la densidad subyacente
Simetrı́a de la densidad
Unimodalidad o multimodalidad de la densidad
Forma de la función de distribución
Dado que en la mayorı́a de los casos los usuarios tienen algún conocimiento sobre el modelo
que pudo generar la información, ya sea por experiencia empı́rica o por la literatura del área
particular de aplicación, un buen principio es tomar en cuenta esta opinión y complementarla
con las descripciones gráficas y numéricas que proporciona el análisis descriptivo de los datos.
20
Las compañı́as de seguros, generalmente contemplan la recabación de datos relacionados
con los montos de reclamación de lo siniestros (severidad ) y del número de estos siniestros
(frecuencia) que implican la selección de modelos para variables continuas, para los primeros,
y modelos para variables discretas en los segundos.
Las herramientas descriptivas permiten tener diversas medidas asociadas a las caracterı́sticas
de la distribución subyacente a cualquiera de estos tipos de datos.
1. Métodos numéricos
Medidas de tendencia central (Media, mediana, moda)
Medidas de dispersión (Varianza, desviación estándar, rango, rango intercuartı́li-

co, coeficiente de variación)
Medidas de forma (sesgo, curtosis)
2. Métodos gráficos
Histogramas
Diagramas de tallo y hoja
Box plot
Curvas suavizadas de densidad (densidades tipo kernel)
Curva de la función de distribución empı́rica
Gráficas de probabilidad
21
Estimación de los parámetros
Una vez que se ha reconocido la familia a la que pertenece el modelo que pueda ajustar a
los datos, el siguiente paso es determinar concretamente cuál de los modelos de esta familia
es el que se ajusta a nuestra información. Es decir, necesitamos estimar los parámetros de
este modelo particular.
Métodos de estimación
Aunque existen diversos métodos para estimar los parámetros de una distribución, los más
usuales son:
Método de momentos. Desarrollado por Karl Pearson (≈ 1900).
Supongamos que observamos los valores de una muestra aleatoria x1 , ..., xn de una dis-
tribución F (x|θ), donde θ = (θ1 , ..., θp ) es un vector de p parámetros. Denotemos por
µk (θ) = E(X k |θ), el k-ésimo momento poblacional.
Z
k
xk f (x) dx

µk (θ) = E X |θ =
Y por
n
1X k
Mk = x
n i=1 i
el correspondiente k-ésimo momento muestral. El método de momentos es muy simple y con-

siste en igualar los primeros p momentos poblacionales a sus correspondientes p momentos
muestrales, y resolver el sistema de ecuaciones simultáneas que resulta. Especı́ficamente
n
1X k
µk (θ) = x , k = 1, 2, ..., p
n i=1 i
las soluciones de este sistema son los estimadores θ̂ = (θ̂1 , ..., θ̂p ). En las distribuciones usua-
les el número de parámetros a estimar, p, generalmente es pequeño 1, 2 ó 3.
La forma concreta de las ecuaciones serı́a
22
n
1X
µ1 (θ1 , θ2 , ..., θk ) = M1 = xi = x̄
n i=1
n
1X 2
µ2 (θ1 , θ2 , ..., θk ) = M2 = x
n i=1 i
..
.
n
1X k
µk (θ1 , θ2 , ..., θk ) = Mk = x
n i=1 i
como tenemos k ecuaciones con k incógnitas, entonces el sistema tiene solución única. Lla-
maremos θî a la solución de la i-ésima ecuación.
Ejemplo: Bernoulli(p)
Sólo un parámetro ⇒ sólo una ecuación
µ1 (p) = E(X) = p = x̄ ⇒ p̂ = x̄ !Ya estuvo!
n n
1X 1X
Ojo Aquı́ x̄ = xi = {ceros y unos} = Proporción. No se puede interpretar en el
n i=1 n i=1
mismo sentido que se interpreta la media, por ejemplo, de datos continuos.
“Ostro”
N ormal(µ, σ 2 )
Dos parámetros ⇒ dos ecuaciones
µ1 = µ1 (µ, σ 2 ) = E(X) = µ = x̄ µ̂ = x̄
n
2 2 2 1X 22
µ2 = µ2 (µ, σ ) = E(X ) = σ + µ = x
n i=1 i
n n n n
1X 2 1X 2 1X 1X
⇒σ =2
xi − µ 2 = xi − x̄2 = (xi − x̄)2 ⇒ σ̂ 2 = (xi − x̄)2 !No es S 2 !
n i=1 n i=1 n i=1 n i=1
por lo tanto, en la N ormal(µ, σ 2 ) los estimadores por momentos de los dos parámetros son
23
n n
!
1X 1 X
µ̂ = xi , σ̂ 2 = (xi − x̄)2 .
n i=1 n i=1
Máxima verosimilitud
Este es, probablemente, el método más común de estimar un parámetro. Para implementar-
lo es necesario definir primero la verosimilitud, que no es más que la distribución conjunta
de la muestra. Si los datos son continuos, esta es propiamente una función de distribución
conjunta, y si son discretos, es una función conjunta de probabilidad.
Una vez determinada la verosimilitud, se procede a maximizarla con respecto a los paráme-
tros de interés. Los valores de los parámetros que la maximizan son los estimadores máximo
verosı́miles. Debido al hecho común de que las observaciones se suponen independientes e
idénticamente distribuidas (i.i.d.), la forma de la verosimilitud es
n
Y
L(θ, X) = f (xi |θ)
i=1
Generalmente no se maximiza la verosimilitud, sino el logaritmo de ésta, conocida como

log-verosimilitud
n
X
`(θ, X) = log [L(θ, X)] = log f (xi |θ)
i=1
Observaciones:
El punto donde alcanza su máximo la verosimilitud, es el mismo en el que lo alcanza

la log-verosimilitud, porque el logaritmo es una función monótona creciente.
Los estimadores máximo verosı́miles son los valores de θ que hacen más probable la
observación de esos datos, o que maximizan la probabilidad de haber observado esos
datos.
Los estimadores máximo verosı́miles tiene varias de las propiedades deseables de un

buen estimador (insesgamiento, consistencia, eficiencia), aunque algunas de ellas sólo
las alcanzan de forma asintótica (n grande).
24
Una de las caracterı́sticas más importantes de este estimador es que tiene una distri-
bución asintótica normal

a
θ̂M V ∼ N θ, var
ˆ θ̂M V
este hecho es importantı́simo para hacer inferencias sobre nuestros parámetros.
Método de estimación de parámetros a través de la igualación

de percentiles (percentil matching estimate)
Un método de uso común en teorı́a de riesgos para estimar los parámetros de un modelo, es
el de igualar los percentiles estimados con los datos, a los percentiles teóricos obtenidos del
modelo subyacente. En concreto, el método trabaja de la siguiente forma.
Denotemos por πq (θ) el 100×q percentil de la distribución subyacente a los datos, que en el
caso de una distribución continua, es la solución a
F (πq (θ)|θ) = q
el estimador de θ por igualación de percentiles es la solución a las p ecuaciones
πqk (θ)
b =π
bqk , k = 1, 2, ..., p
donde las qk’s son p percentiles elegidos de manera arbitraria.
25
Pruebas de bondad de ajuste
Los procedimientos para probar qué tan bien se ajusta un modelo a un conjunto de datos,
reciben el nombre genérico de pruebas bondad de ajuste y constituyen un área de desarrollo
permanente en la estadı́stica. Como mencionamos lı́neas arriba, en la determinación de un
modelo paramétrico, es necesario asignar una distribución para los datos de severidad, de fre-
cuencia o ambos. En el caso de las distribuciones asociadas a la frecuencia de reclamaciones,
existen algunas guı́as que pueden sugerir el modelo a considerar en una situación particular,
como el hecho que una distribución Poisson posea media y varianza iguales, mismo que puede
comprobarse calculando las correspondientes versiones muestrales de estos parámetros. Si,
como ocurre frecuentemente, la varianza es mayor a la media, entonces tendrı́amos evidencia
empı́rica para suponer un modelo binomial negativo. No obstante esto, no existen de manera
general este tipo de indicaciones que sugieran qué distribución elegir cuando tenemos datos
de severidad. Por esta razón, es necesario recurrir a procesos generales como las pruebas de
bondad de ajuste, que puedan auxiliarnos en esta importante tarea.
Planteamiento general de una prueba de bondad de ajuste
Este tipo de pruebas son esencialmente pruebas de hipótesis, con la caracterı́stica particular
de que la hipótesis que queremos probar no es, como generalmente ocurre, acerca del valor
paricular de algún(os) parámetro(s), sino sobre una función de distribución especı́fica. Estas
pruebas se enuncian como
H0 : F (x) = F0 (x) ∀x vs. F (x) 6= F0 (x) p.a.x
donde F0 es la distribución que suponemos sigue nuestros datos. Como podemos observar,
necesitamos definir qué distribución es la que consideramos que ajusta a nuestra información.
A este respecto podemos tener diversas opciones: 1) F0 es totalmente conocida. En el senti-
do que se conoce su forma funcional y su(s) parámetro(s). 2) F0 es parcialmente conocida.
Se conoce su forma funcional pero se desconoce algún(os) de su(s) parámetro(s). 3) F0 es
totalmente desconocida. Se conoce su forma funcional pero se desconocen su(s) parámetro(s).
Contrario a las pruebas de hipótesis usuales, en las pruebas de bondad de ajuste no se es-
26
pecifica la hipótesis alternativa, ya que el modelo que se enuncia en la hipótesis nula, no se
compara contra un modelo alternativo que deberı́a estar especificado en la hipótesis alterna-
tiva. La razón de este hecho es que estamos interesados en verificar que la distribución de
nuestros datos es la que proponenos y si no lo es, no es de interés saber qué otra distribución
sı́ es.
Algunas pruebas de bondad de ajuste
Presentaremos de manera sencilla algunas de las pruebas más comunes para realizar bon-
dad de ajuste. Dado que nuestros datos sobre la severidad de una pérdida pueden presentar
truncamiento por la izquierda, que corresponde a aquellas pérdidas que no rebasaron el de-
ducible, y censura por la derecha, que son las pérdidas que sobrepasaron el lı́mite de póliza,
las estadı́sticas se deben modificar para contemplar estas particularidades de los datos.
Prueba Kolmogorov-Smirnoff (K-S)
La estadı́stica Kolmogorov-Smirnoff se define como
D = sup |Fn (x) − F0 (x)|

x
que se puede expresar mediante las dos estadı́sticas
D+ = sup {Fn (x) − F0 (x)} y

x
D− = sup {F0 (x) − Fn (x)}

x
y se calcula mediante

+ i
D = máx − z(i)
1≤x≤n n

− (i − 1)
D = máx z(i) −
1≤x≤n n
D = máx D+ , D−

0
con zi = F (xi ) y z(i) el i-ésimo elemento en la muestra ordenda de las zi s.
27
Esta prueba se usa para datos desagregados y para variables aleatorias continuas, i.e., F0 es
una función de distribución continua. Fn es la función de distribución empı́rica, y se calcula
con los datos reales.
Detalle de las diferencias

1.0
Fn(xi)
F0(xi)
0.8
Fn(xi−1)
0.6
0.4
0.2
0.0
−2 −1 0 1 2
28
Función de distribución empírica
1.0
0.8
0.6
Fn(t)
0.4
0.2
0.0
−2 −1 0 1 2
Prueba Anderson-Darling (A-D)
Esta prueba es similar a la K − S pero mide las diferencias entre las funciones empı́rica y
propuesta de distinta manera. Una caracterı́stica a destacar de esta prueba es que asigna
mayor peso a las colas de la distribución, es decir, enfatiza la bondad de ajuste que se tenga
en las colas entre el modelo propuesto y la función de distribución empı́rica, que es el modelo
asociado a los datos reales. La forma explı́cita de la Anderson-Darling es
1
[Fn (x) − F0 (x)]2
Z
2
A = n dF0 (x)dx
0 F0 (x) [1 − F0 (x)]
n
1 X
= −n − (2i − 1) log(z(i) ) + log 1 − z(n+1−i)
n i=1
n
1 X
= −n − (2i − 1) log z(i) + (2n + 1 − 2i) log 1 − z(i)
n i=1
al igual que K − S esta es una prueba que no trabaja con datos agrupados.
29
Prueba Ji-cuadrada de bondad de ajuste
Esta es probablemente la más popular de las pruebas de bondad de ajuste, además de que,
contrario a K − S y A − D, es una prueba para distribuciones continuas y discretas; de
hecho, también tiene una versión multivariada. La prueba se basa en particionar el rango de
las variables observadas en k celdas o clases, y calcular el número de observaciones que se
esperarı́a tener en cada clase si la hipótesis nula fuera correcta, i.e., si F0 es cierta, y compa-
rarlo contra el número de observaciones que realmente cayeron en cada celda. Si denotamos
por Ej al número esperado y por Oj al observado en la celda j, j = 1, 2, ..., k, la estadı́stica
Ji-cuadrada de bondad de ajuste es
k
2
X (Ej − Oj )2
χ =
j=1
Ej
si los valores observados (Oj ) y esperados (Ej ) son similares, el valor de esta estadı́stica es
pequeño, e indicarı́a que F0 es cierta. Si, por el contrario, estos valores son muy distintos, su
valor deberı́a ser grande e implicarı́a que F0 es falsa.
30
Distribuciones para valores extremos
Teorı́a de valores extremos
• La Teorı́a de Valores Extremos (Extreme value theory) consiste en el empleo de una serie de
técnicas estadı́sticas para la identificación y modelado de observaciones extremas o outliers.
• Su objeto es determinar qué tan extrema puede ser la mayor o menor observación registrada
de un fenómeno aleatorio, es decir, estudia el comportamiento del valor máximo o mı́nimo
de una variable aleatoria.
• El comportamiento inusual de una variable aleatoria merece una consideración especial,

ya que puede tener un gran impacto para las decisiones que se desprendan del análisis de la
información a la que pertenece.
• Para explicar este tipo de sucesos que ocurren, generalmente, con muy baja frecuencia pero
que tienen una influencia muy significativa sobre todo un modelo, la Teorı́a de Valores Extre-
mos emplea métodos matemáticos basados en comportamientos asintóticos, distribuciones,
procesos estocásticos y leyes lı́mite.
• Diferentes investigaciones provenientes de múltiples disciplinas cientı́ficas, han desarrollado

métodos para cuantificar eventos extremos y sus consecuencias de un modo estadı́sticamente
óptimo, dando lugar a unas distribuciones de probabilidad que permiten la modelación de
los valores máximos o mı́nimos de una variable aleatoria.
De forma simplificada, nuestro problema es el siguiente:
Dada una muestra independiente X1 , X2 , ..., Xn de una distribución desconocida, F, quere-

mos estimar la cola de F.
Los problemas más importantes son:
• Las observaciones en la cola de la distribución son escasas.
31
• Por lo general, queremos estimar valores por encima del valor máximo de la muestra.
• Las técnicas usuales de estimación de densidades ajustan bien en las zonas donde los datos
tienen mayor densidad, pero pueden ser inadecuadas para estimar las colas.
• Los modelos correspondientes a esta teorı́a de valores extremos, tienen aplicaciones en

muchas áreas, una de las principales es las ciencias ambientales, donde se estudian valo-
res extremos, por ejemplo, en: Nivel de una presa, velocidad del viento, nivel de un rı́o,
concentración de contaminantes, niveles de precipitación pluvial, etc.
• No obstante, nosotros nos enfocaremos en aplicarla dentro del marco del seguro. En esta
área, el análisis de la siniestralidad extrema es de gran interés, puesto que constituye un
riesgo que pone en peligro la estabilidad y solvencia de entidades aseguradoras.
32
Distribución del máximo
Definamos
Mn = máx {X1 , ..., Xn }
Entonces, la distribución de este máximo es
n
Y
P (Mn ≤ x) = P (X1 ≤ x, ..., Xn ≤ x) = P (Xi ≤ x) = F n (x)
i=1
Si conocemos F , conocemos la distribución del máximo, pero las expresiones analı́ticas para
F n pueden ser complicadas. Frecuentemente F es desconocida.
Entonces, dada la posible complejidad de encontrar esta distribución, intentaremos buscar

una distribución lı́mite que sirva para aproximar la distribución de Mn , de la misma manera
como la distribución normal sirve para aproximar la suma de una gran variedad de variables
aleatorias independientes.
Recordar que el resultado que se tiene con las sumas de variables i.i.d. y el Teorema Central
del Lı́mite: Por la Ley Fuerte de Grandes Números, si µ = E(Xi ), entonces
n
1X
Xn = Xi −→ µ
n i=1
y si estandarizamos (realizamos una transformación lineal), tenemos
X n − µn
−→ N (0, 1)
σn
√
con µn = µ y σn = σ/ n.
Entonces, hay que buscar un resultado del tipo

Mn − bn
P ≤x = F n (an X + bn ) −→ G(x)
an
33
Entonces, nos preguntamos
• ¿Cuáles son las distribuciones lı́mite posibles?
• ¿Cuáles son las constantes an y bn ? ¿Son únicas?
• ¿Qué condiciones debe satisfacer F para que se cumpla un resultado ası́?
• Si hay varias G posibles, conociendo F , ¿cómo sabemos, cuál de ellas es el lı́mite? ¿Es único?
• ¿Cuáles son las distribuciones lı́mite posibles?
G(x)=exp −e−x

Gumbel : x∈R
(
0 x<0
F réchet : G(x,α) =
exp (−x−α ) x ≥ 0, α > 0
(
exp − (−x)−α x < 0, α > 0

W eibull : G(x,α) =
1 x≥0
• Estas tres distribuciones reciben el nombre de distribuciones de valores extremos (DVE).
34
Ejemplo
Supongamos que F es la distribución exponencial con parámetro uno. Es decir
n
F (x) = 1 − e−x =⇒ F n (x) = 1 − e−x y
n
F (x + log n) = 1 − e−x−log n
n
1 −x
−→ exp −e−x

= 1− e
n
por lo tanto, las constantes de normalización an = 1 y bn = log n, conducen a que Mn tenga

como lı́mite una distribución Gumbel.
n=10 n=15
1.0
1.0
0.8
0.8
0.6
Densidad
Densidad
0.6
0.4
0.4
0.2
0.2
0.0
0.0
−3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 4
x x
n=20 n=25
1.0
1.0
0.8
0.8
0.6
0.6
Densidad
Densidad
0.4
0.4
0.2
0.2
0.0
0.0
−3 −2 −1 0 1 2 3 4 −3 −2 −1 0 1 2 3 4
x x
La distribución Cauchy
Consideremos ahora la distribución Cauchy, cuya función de densidad de probabilidad es
1
f (x) = , x∈R
π (1 + x2 )
35
Se define la función de Supervivencia de una variable aleatoria, como: S(x) = 1 − F (x). Y
0
observemos que S (x) = −f (x). Entonces
S(x) f (x) πx2

Lim = Lim = Lim =1
x−→∞ (πx)−1 L0 Hb
ospital x−→∞ π −1 x−2 x−→∞ π (1 + x2 )
entonces
S(x) = 1 − F (x) ∼ (πx)−1
De donde tenemos que, para x > 0
nx nx
S =1−F ∼ (nx)−1
π π
y por lo tanto
nx nx n
P Mn ≤ = 1−F
π π
n
1 1
= 1− + o(1)
n x
−→ exp −x−1 F réchet α = 1

Las familias correspondientes a estas distribuciones del valor extremo.
Si introducimos parámetros de localización y escala a las distribuciones del valor extremo

anteriores, obtenemos una familia de distribuciones para cada una de ellas. A saber
Gumbel(x; µ, σ) = exp −e−(x−µ)/σ

x∈R
(
0 x< µ
F réchet(x; α, µ, σ) = −α
exp − x-µ
σ
x ≥ µ, α > 0
( α
exp − − (x-µ)
σ
0 ≤ x < µ, α > 0
W eibull =
1 x≥0
36
Observamos que µ es el extremo izquierdo para la distribución de Fréchet y el extremo
derecho para la distribución Weibul.
Estos tres tipos de distribuciones se pueden combinar en una sola distribución (hiper modelo),
que se conoce como: La distribución generalizada de valores extremos (GVE). Que tiene la
forma
( −1/ξ )
x−µ
G (x; ξ, µ, σ) = exp − 1 + ξ
σ +
con y+ = máx {y, 0} . Para ξ > 0 se tiene la distribución Fréchet con α = 1/ξ. Para ξ < 0,
la distribución Weibull con α = −1/ξ, y la distribución Gumbel se obtiene como el lı́mite
cuando ξ → 0. Al parámetro ξ se le conoce como parámetro de forma.
Excesos sobre un umbral
En coberturas de riesgo de un seguro, resultan de particular interés aquellos montos de re-

clamación que exceden cierto umbral. Es claro que el estudio de estos valores que exceden
el umbral, es de vital importancia para la solvencia de la compañı́a. Por tal razón, puede
ser más conveniente utilizar modelos con umbrales para estudiar estos valores extremos, que
utilizar una distribución GVE.
37
104
103
●
Exceso
●
Umbral
102
● ● ●
● ●
●
● ● ● ●
●
●
101
● ● ● ●
● ● ●
● ● ● ● ●
● ● ●
y
●
●
● ●● ● ● ●
● ● ●
100
● ● ●●
● ● ●
● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ●
● ●
● ●
● ● ● ●
● ● ● ●
● ●
● ●
99
●
● ● ● ●
● ●
● ● ●
● ●
● ● ●
●
● ●
● ●
98
●
97
0 20 40 60 80 100
Entonces, estamos interesados en la distribución de
F (x + u) − F (u)
Fu (x) = P (X − u < x|X > u) =
1 − F (u)
A Fu (·) se le conoce como la distribución de vida residual, del exceso de vida o del exceso
de pérdida, esta última definición es la que tiene sentido para el área aseguradora.
Distribución Pareto Generalizada
Si la función de distribución del máximo de una variable aleatoria es un elemento de GVE,

entonces, para u suficientemente grande, la distribución Fu (·), puede aproximarse a través
de la distribución Pareto generalizada, cuya función de distribución es
−1/ξ
ξx
H (x; ξ, β) = 1 − , x>0
β +
con β = σ + ξ (u − µ), σ, ξ, µ los parámetros correspondientes al elemento de GVE, u el valor

del umbral.
38
Propiedad importante de la distribución Pareto Generalizada
• Para ξ ∈ R , F es un elemento de la familia GVE, si y sólo si

lı́m sup Fu (x) − Hξ,β(u) (x) = 0
u↑wF 0<x<wF −u
para alguna función positiva β y wF el extremo final de F . Esta propiedad dice que la
función Pareto generalizada es una buena aproximación de los excesos de una distribución
de la familia GVE, para un umbral, u, grande. Este resultado se puede reformular como:
1 − Fu (x) = Pr (X − u > x|X > u) ≈ 1 − Hξ,β(u) (x), x > 0
Es necesario que u sea lo suficientemente grande.
• Si X tiene función de distribución Pareto Generalizada con parámetros ξ < 1 y β, Entonces,

para u < wF
β + ξu
e(x) = E (X − u|X > u) = , β + ξu > 0
1−ξ
Estos dos resultados proporcionan una técnica gráfica para elegir un umbral, u, suficiente-
mente grande para justificar que Fu se aproxime por una Pareto Generalizada, a partir de
la versión muestral, en , de esta función y su linealidad para una distribución GVE.
Estrategias de modelación
Ajuste de Máximos Anuales o Método de Bloques
Una forma de analizar datos con valores extemos es realizando las estimaciones de los paráme-
tros de la siguiente manera. Consideramos una colección de datos que agrupamos en bloques
disjuntos de datos consecutivos y de igual longitud. Si el parámetro es el tiempo (recordar
que esta metodologı́a se ha utilizado, sobre todo, en cuestiones ambientales), cada conjunto
contiene la información correspondiente a un periodo fijo de tiempo, digamos un año. En
cada caso se escoge el periodo para compensar las variaciones internas. Es decir, tenemos
39

(1) (1) (1)
X = X1 , X2 , ..., Xs(1)

(2) (2)
X(2) = X1 , X2 , ..., Xs(2)
..
.

(n) (n)
X(n) = X1 , X2 , ..., Xs(n)
Se asume que cada uno de estos vectores son i.i.d, aunque sus componentes pueden no serlo.
Se elige el intervalo de tiempo s de tal manera que se cumpla este supuesto. Entonces,
haremos estimación e inferencias sobre la muestra i.i.d. para un modelo Gθ con los datos:

(i) (i)
Mi = máx X1 , X2 , ..., Xs(i) , i = 1, 2, ..., n
Mostraremos cómo ajustar un modelo a datos reales mediante esta estrategia, utilizando la
librerı́a extRemes de R.
El método de estimación por bloques no hace el mejor uso de la información disponible,

pues de cada bloque sólo utilizamos un dato: el valor máximo. Sin embargo, otros valores
con registros altos en el mismo bloque pueden tener información útil sobre la cola de la
distribución de la muestra, que deberı́amos considerar para el análisis. Si tenemos información
sobre la serie completa de datos, una alternativa es dejar de lado el procedimiento de bloques
y estudiar todos los valores altos de la muestra.
El segundo enfoque que utilizaremos para modelar datos extremos será el que considera los
valores por encima de un umbral. Entonces, la idea es seleccionar un umbral alto y considerar
los valores de la muestra que están por encima de este umbral, para ajustar un modelo Pareto
Generalizado.
Ejemplificaremos este ajuste a través de varias librerı́as de R.
40
Ajuste de una distribución Pareto Generalizada a la base de datos
de reclamaciones grandes, de la sociedad de actuarios
Como vimos, nuestra segunda opción importante en los modelos de teorı́a del valor extremo,
es la Pareto Generalizada, que surge a partir del método conocido como P.O.T. (Peaks over
threshold method), que consiste en modelar los valores extremos que exceden a un cierto
umbral, u, ya sea que modelemos todos los datos, Xi , i = 1, 2, ..., n, o los valores que exce-
den a este umbral Yi = Xi − u, i = 1, 2, ...n. Al intentar aplicar este método surgen algunas
cuestiones que debemos resolver
La primera consiste en determina o elegir el umbral, u. Esta elección está sujeta a un

problema conocido como el problema de la varianza y el sesgo. Porque, cuanto menor
sea el umbral mayor es el número de observaciones que utilizaremos para ajustar el
modelo, lo que, generalmente, puede disminuir la varianza de los estimadores, pero
puede incrementarse el sesgo si se utilizan observaciones que no pertenecen a la cola de
la distribución. Por otro lado, si se reduce el número de observaciones (con un umbral
más grande), se reduce el sesgo, porque podemos suponer que todas las observaciones
sı́ pertenecen a la cola de la distribución, pero, al utilizar pocos datos en nuestra esti-
mación, incrementamos la varianza de los estimadores y, en consecuencia, de nuestro
modelo.
La segunda cuestión es determinar qué función de distribución ajusta a esos datos

que exceden el umbral fijado en el paso anterior. Por supuesto, se trata de encontrar
una distribución condicional al hecho de que los valores extremos hayan superado el
umbral, u. Como ya dijimos, esta distribución es la distribución Pareto Generaliza. Este
resultado está garantizado por el teorema de Pickands-Balkema-de Haan (Balkema y de
Haan (1974); Pickands (1975)) que muestra que bajo condiciones de máximos dominios
de atracción1 la distribución generalizada de Pareto es la distribución lı́mite para los
1
Sea {Xn , n ≥ 1} una sucesión de v.a.i.i.d. con función de distribución común F. Sea,
Mn = max {Xi , i = 1, 2, ..., n}
Decimos que la función de distribución, F, está en el dominio de atracción de la distribución de valores

extremos H (notación: F ∈ D(H)) si existen constantes an > 0, bn ∈ R, tales que
Fn (an X + bn ) = P (Mn ≤ an X + bn ) → H(x)
41
excesos sobre un umbral u cuando éste es grande.
Elección del umbral
El teorema de Pickands-Balkema-de Haan, enuncia que la distribución generalizada de Pa-

reto ajusta aquellos valores que exceden un determinado umbral cuando este umbral, u, es
suficientemente grande. La dificultad radica en determinar ese umbral a partir del cual es
posible ajustar la distribución de Pareto Generalizada.
Uso de la función media de exceso
La función media de exceso teórica de la distribución de Pareto Generalizada es:
β + ξu β ξ
e(x) = E (X − u|X > u) = = + u, β + ξu > 0
1−ξ 1−ξ 1−ξ
ξ
que es una función lineal de u, con pendiente , una vez que se ha definido un umbral
1−ξ
adecuadamente grande.
Dada una muestra ordenada de forma descendente: (X1:n , X2:n , ..., Xn:n ), la función empı́rica
de exceso medio se estima con la siguiente expresión :
n
X
(Xi:n − u)+
i=1
êx (x) = n
X
1(Xi:n >u)
i=1
En el numerador se encuentra la suma de los excesos sobre el umbral, u, y en el denominador

el número de valores que cumplen la condición de ser superiores a este umbral, es decir, se
estima a través de la media aritmética de los valores que exceden a u.
En la práctica, es común tomar como umbrales los propios datos de la muestra, esto es,
u = Xk+1 , y esta expresión reduce a:
42
k
X
Xi
i=1
ên (Xk ) = − Xk+1
k
La gráfica de la función media de excesos es una gráfica de los puntos
(Xk:n , ên (Xk:n )) , k = 1, ..., n − 1
Entonces, para encontrar el umbral, u, para el cual es razonable pensar que el ajuste a través
de la distribución generalizada de Pareto es adecuado, se debe elegir el umbral, tomando el
valor a partir del cual la gráfica toma una forma lineal ascendente, ya que la gráfica de exce-
so medio para la distribución Pareto generalizada es lineal y tiende a infinito con pendiente
positiva.
43
MEDIDAS DE RIESGO
Los modelos probabilı́sticos (en nuestro caso, las densidades o distribuciones mencionadas
anteriormente) nos proporcionan una descripción de la exposición al riesgo, no obstante,
necesitamos describir esta exposición con algún valor numérico o con unos pocos valores
numéricos. Estos valores son funciones del modelo y se conocen como indicadores clave de
riesgo. Entonces, estos indicadores son resúmenes numéricos sobre el comportamiento de
nuestro riesgo, parecidos a los que utilizamos para describir una variable aleatoria. Estos
indicadores informan a los actuarios y a los administradores de riesgo, sobre el grado en que
la compañı́a está sujeta a un particular aspecto del riesgo.
• Una medida de riesgo está en correspondencia con la pérdida asociada a este riesgo
• Una medida de riesgo proporciona un solo número que intenta cuantificar la exposición a
este riesgo.
• Esta medida se denota como ρ(x). Es conveniente pensar a ρ(x) como la cantidad de acti-
vos requeridos para protegerse de las consecuencias adversas del riesgo, X.
Coherencia de una medida de riesgo

Wang, Young y Panjer (1997) introducen ciertos axiomas, que representan propiedades desea-
bles de una medida de riesgo. Artzner et al. (1997) introduce el concepto de coherencia y se
considera el parteaguas en medición de riesgo.
Una medida de riesgo coherente, es una medida de riesgo ρ(x) con las cuatro propiedades
siguientes. Para cualesquiera dos variables aleatorias de pérdida X y Y :
1.- Subaditividad : ρ(X + Y ) ≤ ρ(X) + ρ(Y )
2.- Monotonı́a: Si X ≤ Y para todas las posibles consecuencias, entonces ρ(X) ≤ ρ(Y )
3.- Homogeneidad positiva: Para cualquier constante positiva c, ρ(cX) = cρ(X)
4.- Invarianza a translaciones: Para cualquier constante positiva c, ρ(X + c) = ρ(X) + c
Subaditividad significa que la medida de riesgo (y, por lo tanto, el capital requerido para
44
darle soporte) de dos riesgos combinados, no será mayor que los riesgos considerados por
separado. Subaditividad refleja el hecho que diversificar el riesgo puede ser benéfico para
una empresa.
Valor en Riesgo (VaR)

El V aR se ha vuelto la medida estándar para medir exposición a riesgo. En términos genera-
les, V aR es el capital requerido para asegurar, con alto grado de certeza, que la empresa no
será técnicamente insolvente. El grado de certeza se elige de manera arbitraria. En la prácti-
ca se pueden elegir valores grandes como 99.95 % para toda la empresa, o 95 % para una
sola clase de riesgo. Entonces, el V aR mide la pérdida que se podrı́a sufrir, en condiciones
normales del mercado, en un intervalo de tiempo y con un determinado nivel de probabilidad
o confianza.
Por ejemplo, un inversionista que tiene un portafolios de activos por un valor de 10 millones
de pesos, podrı́a establecer que el V aR diario de su portafolios es 250, 000 con un nivel de
confianza de 95 %. En otras palabras, solamente uno de cada 20 dı́as de operación del mer-
cado (1/20 = 5 %), en condiciones normales, la pérdida que ocurrirá puede ser mayor o igual
a 250, 000.
Definición técnica del VaR
Sea X una v. a. con función de distribución, F (x), que denota pérdida. El Valor en Ries-
go (VaR) de X al 100 %p nivel de confianza, denotado por V aRp (X) o πp , es el p-ésimo
percentil de la distribución de X.
P(X > πp) = 1 − p

Pese a la popularidad de esta medida, conviene aclarar que V aR no es subaditiva, lo que la
convierte en una medida incoherente de riesgo, y no refleja el efecto por la diversificación de
los riesgos.
Ejemplos
Calculemos el V aR de algunas de las distribuciones de uso común como modelos de pérdida
45
Distribución Normal(µ, σ 2 ). Aunque esta distribución puede ser cuestionable como modelo
de pérdida, suele considerarse por su gran uso en estadı́stica. Para encontrar su V aR, tenemos
P [X > V aRp (x)] = 1 − p ⇒ P r [X ≤ V aRp (x)] = p ⇒

X −µ V aRp (x) − µ
P ≤ =p⇒
σ σ

V aRp (x) − µ V aRp (x) − µ
P z≤ =p⇒ = Φ−1 (p) ⇒ V aRp (x) = µ + σΦ−1 (p)
σ σ
Exponencial(θ)
Recordar que su función de distribución es 1 − e−x/θ . Entonces
P [X ≤ V aRp (x)] = p ⇒ 1 − e−V aRp (x)/θ = p ⇒ V aRp (x) = −θlog(1 − p)
Log-normal(µ, σ 2 ) y Pareto(α, θ) se dejan como ejercicio al lector.
TailVaR (TVaR)
Definición técnica del TVaR
Sea X v. a. con función de distribución F (X), que denota pérdida. El TVaR de X al 100 %p
nivel de seguridad, denotado por T V aRp (X), es la pérdida esperada dado que ésta excede
el p-ésimo percentil de la distribución de X.
Z ∞
xf (x)dx
πp
T V aRp (X) = E(X|X > πp ) =
1 − F (πp )
Una forma alternativa más interesante de escribir esta cantidad, es:
Z 1
V aRu (X)du
p
T V aRp (X) = E(X|X > πp ) =
1−p
Esta expresión del T V aR implica que puede verse como un promedio de todos los valores
V aR por encima del valor de seguridad p. Lo que significa que proporciona mucho más in-
formación sobre la cola de la distribución que la que da el V aR. T V aR recibe otros nombres
46
en el campo de los seguros: Conditional Tail Expectation(CTE), Tail Conditional Expecta-
tion (TCE) y Expected Shortfall (ES). Finalmente, podemos decir que el T V aR es el valor
esperado de las perdidas en aquellos casos en que se excede el nivel de seguridad previamen-
te fijado. T V aR refleja con mayor fidelidad los eventos extremos que pueden amenazar la
posición financiera de la entidad. Otra forma común de escribir el T V aR es
Z ∞
(x − πp )f (x)dx
πp
T V aRp (X) = E(X|X > πp ) = πp + = V aRp (X) + e(πp )
1−p
A e(πp ) se le conoce como la función media de exceso de pérdida. Entonces, T V aR es mayor

que su correspondiente V aR por el promedio de exceso de todas las pérdidas que exceden al
V aR.
Contrario al V aR, T V aR es una medida de riesgo coherente, por lo que refleja el efecto de
la diversificación de riesgos.
Dado un umbral de seguridad o confianza, en datos reales, el T V aR es una medida más

difı́cil de calcular que el V aR, ya que ambas se calculan con los datos (generalmente escasos)
acumulados en la cola de la distribución (mayor error de estimación).
Ejemplos
Exponencial(θ)
Z ∞
S(x)dx
πp
V aRp (X) = −θlog(1 − p), y podemos mostrar que, e(x) = . Con S(·) la función
S(πp )
de supervivencia de la variable aleatoria. Utilizando este resultados tenemos
Z ∞ ∞
e−x/θ dx −θe −x/θ
θe−πp /θ θ(1 − p)

πp πp
e(x) = = = = =θ
1−p 1−p 1−p (1 − p)
Por lo tanto, T V aRp (X) = V aRp (X) + e(x) = −θlog(1 − p) + θ.
Pareto(α, θ)
47
Esta distribución tiene
α
θ
V aRp = θ (1 − p)−1/α − 1

y S(x) =
θ+x
Z ∞
S(x)dx
πp
Calculemos e(x) =
S(πp )
Z ∞ α
θ α
dx α 1−α θα (θ + πp ) 1
πp θ+x θ (θ + πp ) θ+πp
e(x) = = =
1−p α−1 (α − 1)(1 − p)
si remplazamos πp , por su valor y realizamos las operaciones algebraicas, obtenemos
θ + πp
e(x) =
α−1
Por lo que finalmente tenemos
θ + πp V aRp (X) + θ
T V aRp (X) = V aRp (X) + = V aRp (X) +
α−1 α−1
Casos Normal y Log-normal se dejan como ejercicio al lector.
48
Distribuciones discretas
Además de modelar el monto de reclamación, también es de interés modelar la frecuencia
con las que estas pérdidas ocurren. Como es de suponer, los modelos para caracterizar esta
frecuencia de pérdidas, corresponden a distribuciones para variables aleatorias discretas. Es
importante señalar que este tipo de distribuciones también pueden utilizarse cuando los mon-
tos de pérdida se agrupan en una tabla de frecuencias, situación muy común en el quehacer
de las compañı́as aseguradoras.
Antes de iniciar la presentación de los modelos para v.a. discretas y sus caracterı́sticas, es
conveniente recordar una importante función asociada a estas variables.
La función generadora de probabilidades

Sea N una v.a. discreta, con función de probabilidad denotada como pk = P(N = k);
k = 0, 1, 2... que representa, en nuestro caso, la probabilidad de que exactamente k reclama-
ciones ocurran. La función generadora de probabilidades (f.g.p.) para esta v.a. es
∞
X
N
pk z k

PN (z) = E z =
k=1
que recibe este nombre porque
1 dk
PN (0) = P (N = k)
k! dz k
La familia de distribuciones Binomial(n,q)

Esta distribución caracteriza el número de éxitos o fracasos, según sea el caso, en n ensayos
Bernoulli independientes. Su función de densidad de probabilidad es

n k
pk = P (N = k) = q (1 − q)n−k , x = 0, 1, ..., n, 0 < q < 1
x
49
Cuyas caracterı́sticas son
n
• E (N ) = nq; V (N ) = nq(1 − q); P (N ) = (1 + q(z − 1))n ; MN (t) = [(1 − q) + qet ]
Distribución Binomial(50,0.2) Distribución Binomial(50,0.5) Distribución Binomial(50,0.9)
0.10
0.12
0.15
0.10
0.08
0.08
0.10
0.06
p(x)
p(x)
p(x)
0.06
0.04
0.04
0.05
0.02
0.02
0.00
0.00
0.00
x x x
La familia de distribuciones Geométrica(β)

La distribución geométrica caracteriza el número, X, de ensayos Bernoulli necesarios para
obtener un éxito; x = 1, 2, 3, ..., o también es...
La distribución de probabilidad del número Y=X-1 de fallas antes de obtener el primer éxito;
y = 0, 1, 2, 3, ....
β
Entonces, si p = es la probabilidad de un éxito, la función de densidad de probabilidad
1+β
de esta variable aleatoria es
k−1
β 1
P (N = k) = ; k = 1, 2, ... o bien
1+β 1+β
50
k
β 1
P (N = k) = ; k = 0, 1, 2, ...
1+β 1+β
Con caracterı́sticas
−1
• E (N ) = β; V (N ) = β(1 + β); P (N ) = (1 − β(z − 1))−1 ; MN (t) = [1 + β (1 − et )]
Distribución Geométrica(50,1) Distribución Geométrica(50,1/3) Distribución Geométrica(50,1/4)
0.20
0.5
0.30
0.4
0.25
0.15
0.20
0.3
0.10
p(x)
p(x)
p(x)
0.15
0.2
0.10
0.05
0.1
0.05
0.00
0.00
0.0
x x x
La familia de distribuciones Poisson(λ)

Esta es, probablemente, la más importante de las distribuciones discretas para modelar la
frecuencia de reclamaciones. La distribución Poisson puede contemplarse como el caso lı́mite
de la distribución Binomial(n, p), donde n es muy grande y la probabilidad de ocurrencia p
es constante y muy pequeña. En este caso, N sigue una distribución Poisson con parámetro
λ = np. Decimos que N ∼ P oisson(λ), si N tiene función de densidad de probabilidad dada
por
λk e−λ
P (N = k) = ; k = 0, 1, 2, ... λ > 0
k!
51
Con caracterı́sticas
t
• E (N ) = λ; V (N ) = λ; P (N ) = eλ(z−1) ; MN (t) = eλ(e −1)
El hecho de que la Poisson tenga media y varianza igual, proporciona un fuerte evidencia
empı́rica para determinar si un conjunto particular de frecuencias de reclamaciones sigue
esta distribución. Bastarı́a calcular la media y varianza de los datos y ver si estas cantidades
son similares.
Distribución Poisson(1) Distribución Poisson(3) Distribución Poisson(10)
0.12
0.35
0.20
0.30
0.10
0.25
0.15
0.08
0.20
p(x)
p(x)
p(x)
0.06
0.10
0.15
0.04
0.10
0.05
0.02
0.05
0.00
0.00
0.00
x x x
Familia de distribuciones Binomial Negativa (β, k)

Una distribución que puede usarse como alternativa a una Poisson es la Binomial Negativa.
Existen al menos dos razones para considerar esta distribución en lugar de la Poisson.
Dado que esta distribución tiene dos parámetros, es más flexible, en el sentido de que
puede tener formas más diversas, que la Poisson que únicamente tiene un parámetro.
Dado que su varianza es más grande que su media, constituye también una alternativa
52
para modelar datos de conteo sobredispersos, que son muy comunes en aplicaciones
reales.
Una forma estándar de concebir esta distribución es en una situación de muestreo por cuota.
Este esquema de muestreo es tı́pico de investigaciones de mercado, en las que se pide a un
individuo entrevistar a un número no definido de sujetos (n) hasta que una parte de ellos (m:
cuota fijo) haya contestado afirmativamente a alguna pregunta o haya preferido un producto
bajo investigación para su comercialización. Por supuesto, asumimos que la probabilidad,
p, de que obtengamos una respuesta afirmativa, es la misma para cualquier sujeto. Este
esquema es similar al que se modeları́a con una Binomial, pero, mientras en la Binomial el
número de “éxitos”, m, es aleatorio y el número de ensayos, n, es fijo, en este caso sucede
exactamente al revés: el número de “éxitos”, m, es fijo (no aleatorio) y el número de ensayos
(n: total de entrevistados necesarios para tener m éxitos) es aleatorio.
Para deducir la función de masa de probabilidad, consideremos el número de fracasos que

han ocurrido hasta obtener m éxitos. Si suponemos que han ocurrido k fracasos antes de
obtener estos m éxitos, es claro que n=m+k y que en los primeros m+k-1 ensayos debieron
de haber ocurrido m-1 éxitos, ya que en el siguiente ensayo debió ocurrir el último éxito que
completa la cuota requerida. Entonces, dado que hemos fijado la condición de m-1 éxitos
en los primeros m+k-1 ensayos, este hecho puede modelarse a través de una v.a. Binomial
(m+k-1, p), y como requerimos que en el último ensayo, que es independiente de los pri-
meros m+k-1, ocurra necesariamente un éxito, entonces la función de densidad de esta v.a. es
m−1 k
m+k−1 β 1 β
P(N = k) = ∗ , entonces
m−1 1+β 1+β 1+β
m k
m+k−1 β 1
P(N = k) = k=0,1,2,...
k 1+β 1+β
ya que

m+k−1 m+k−1
=
m−1 k
Obsérvese que si k = 1, la Binomial Negativa se convierte en la Geométrica. Al igual que en
53
β
nuestra definición de la densidad geométrica, aquı́ p =
1+β
Caracterı́sticas de esta v.a.
k
−k 1
E(N ) = kβ; V(N ) = kβ(1 + β); PN (t) = [1 − β(z − 1)] ; MN (t) =
1 + β(1 − et )
Ya que β > 0, entonces la varianza de la binomial negativa es mayor que su media, razón
por la que suele usarse como alternativa a la Poisson cuando ésta es sobre dispersa (V ar >
media).
Distribución Binomial negativa(2,1/2) Distribución Binomial negativa(2,0.3) Distribución Binomial negativa(2,0.7)

0.25
0.12
0.4
0.20
0.10
0.3
0.08
0.15
p(x)
p(x)
p(x)
0.06
0.2
0.10
0.04
0.05
0.1
0.02
0.00
0.00
0.0
x x x
54
Distribuciones de la clase (a,b,0)
Ahora vamos a definir una clase general de distribuciones discretas, que será de mucha uti-
lidad para la modelación de frecuencias de reclamaciones.
La clase (a,b,0)
Definición 2 Una distribución de frecuencias {pk } es un miembro de la clase (a, b, 0) si exis-

ten constantes a y b tales que
pk b
=a+ , k = 1, 2, 3, ...
pk−1 k
donde a y b son constantes propias de cada distribución. En la siguiente tabla se muestran

los miembros de esta clase, con cada uno de sus valores de estas constantes, ası́ como el valor
de la función de probabilidad en cero, p0 .
Distribuciones de la clase (a,b,0)

Distribución a b p0
q q
Binomial(n,q) − (n + 1) (1 + q)n
1−q 1−q
Poisson(λ) 0 λ e−λ
β β
BN(β,k) (k − 1) (1 + β)−k
1+β 1+β
β
Geométrica(β) 0 (1 + β)−1
1+β
En conclusión, La clase(a, b, 0) es una hiper familia de distribuciones discretas, que tiene

como miembros distinguidos a las distribuciones mencionadas.
Esta clase provee una forma de encontrar las probabilidades de las distribuciones discretas, a
través de esta fórmula recursiva, y resulta bastante práctica al momento de querer ajustarlas
a nuestros datos. Además, podemos reescribir la fórmula de tal manera que quede como una
función lineal. Es decir
55
kpk
= ak + b, k = 1, 2, 3, ...
pk−1
Con esta forma lineal es posible identificar, por medio de su pendiente, la distribución de
probabilidad. Esto es, si la pendiente es igual a cero, entonces se trata de una distribución
Poisson; si es negativa, entonces será Binomial y si es positiva es una distribución Binomial
Negativa.
Concretamente tenemos
kpk q q
Binomial(n, p) = (n + 1) − k que es una lı́nea recta con pendiente
pk−1 1−q 1−q
negativa
kpk
P oisson(λ) = λ + 0k que es una lı́nea recta con pendiente cero
pk−1
kpk β β
BN (β, r) = (r − 1) + k que es una lı́nea recta con pendiente positiva.
pk−1 1+β 1+β
Distribución Poisson
5.04
5.02
kpk pk−1
5.00
4.98
4.96
2 4 6 8 10
56
kpk pk−1
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5
2
4
57
k
6
Distribución Binomial
8
10
Distribución Binomial Negativa
5
4
3
kpk pk−1
2
1
2 4 6 8 10
58
Distribuciones de clase (a, b, 1)
Algunas veces las distribuciones de frecuencia anteriores no describen adecuadamente el com-
portamiento de un conjunto de datos real. Por ejemplo, porque la distribución elegida no
ajusta adecuadamente a la cola de los datos, o porque el miembro elegido de la clase (a, b, 0)
no captura, en alguna parte, la forma de la distribución de los datos. Un problema adicional
ocurre con la cola izquierda de la distribución, en particular con la probabilidad en cero.
Para datos de seguros, la probabilidad en cero denota la probabilidad de que no ocurran

reclamaciones en un determinado periodo de tiempo. En situaciones donde la ocurrencia de
pérdidas es baja, la probabilidad en cero toma un valor grande. Por lo que hay que prestar
especial atención sobre el ajuste en este punto. En contraste, existen situaciones en las que
la probabilidad de no sufrir pérdidas en un periodo determinado, es prácticamente cero, co-
mo sucede, por ejemplo, para un seguro de autos para una gran flota de vehı́culos, o en un
seguro de enfermedades. Es fácil hacer un ajuste a la probabilidad en cero de los modelos
que componen la clase (a, b, 0), para considerar estas situaciones.
La clase (a, b, 1) es la familia de distribuciones que satisfacen la fórmula recursiva
pk b kpk
=a+ k = 2, 3, ... ó = ak + b (f orma lineal)
pk−1 k pk−1
La única diferencia con la anterior es que ésta inicia en p1 y no en p0 . Identificamos dos tipos
de estas distribuciones
• Truncada en cero (zero-truncated): cuando p0 = 0.
• Modificada en cero (zero-modified): cuando p0 > 0.
Es claro que lo que estamos haciendo es modificar a nuestra voluntad, el valor asignado a las
probabilidades para el valor nulo de la variable aleatoria en cuestión. Estas modificaciones
deben responder al problema particular que estemos modelando.
Una distribución de la clase (a, b, 1) tiene la misma forma que su correspondiente en la clase
(a, b, 0), en el sentido que sus probabilidades son las mismas salvo una constante de propor-
cionalidad.
59
Relación entre estas clases
∞
X ∞
X
k
Sea P (z) = M
pk z la fgp de un miembro de la clase (a, b, 0) y P (z) = pM k
k z la fgp del
k=0 k=0
miembro correspondiente de la clase (a, b, 1). Como dijimos, se tiene que
pM
k = cpk , k = 1, 2, 3, ...
con pM
0 un número arbitrario. Entonces
∞
X
M
P (z) = pM
0 + pM
k z
k
k=1
∞
X
= pM
0 +c pk z k
k=1
= pM
0 + c [P (z) − p0 ]
ya que P M (1) = P (1) = 1, entonces
1 = pM
0 + c(1 − p0 )
de donde obtenemos
1 − pM
0
c= , o pM
0 = 1 − c(1 − p0 )
1 − p0
Si remplazamos este valor en la expresión para P M (z), obtenemos
1 − pM 1 − pM

0 0
1− + P (z)
1 − p0 1 − p0
que es un promedio ponderado de las fgps de una distribución degenerada y la del miembro
correspondiente de la clase (a, b, 0). Además tenemos
60
1 − pM
0
pM
k = pk , k = 1, 2, ...
1 − p0
Si ahora denotamos P T (z) a la fgp de una distribución truncada en cero, correspondiente

a la fgp de un miembro de la clase (a, b, 0), P (z). Remplazando pM
0 = 0 en las expresiones
anteriores, tenemos
P (z) − p0
P T (z) = ,
1 − p0
pk
pTk = , k = 1, 2, ...,
1 − p0
pM
k = (1 − pM T
0 )pk , k = 1, 2, ... y
P M (z) = pM M T
0 + (1 − p0 )P (z)
también un promedio ponderado entre una distribución degenerada y el correspondiente

miembro de la clase (a, b, 0), truncada en cero.
61
Ejercicio urgente pa’ aclarar esto
Consideremos una binomial negativa (β = 0.5, r = 2.5). Determinemos los primeros cuatro
valores de sus probabilidades para los casos cero-truncado y cero-modificado, con pM
0 = 0.6.
Primero, observemos que BN pertenece a la clase (a, b, 0). En este caso
0.5 1 (2.5 − 1) ∗ 0.5 1

a= = , b= = ,y
1.5 3 1.5 2
p0 = (1 + 0.5)−2.5 = 0.362887
Si no tuvieramos ninguna modificación, entonces calcuları́amos los otros tres valores a través
de la fórmula recursiva correspondiente, como

b 1
pk = pk−1 a + = pk−1 a + b
k k
Dado que ya calculamos las constantes a y b, y la primer probabilidad, p0 , las probabilidades

restantes son

1 11
p1 = 0.362887 + = 0.302406
3 21

1 11
p2 = 0.302406 + = 0.176404
3 22

1 11
p3 = 0.176404 + = 0.088202
3 23
pero estas modificaciones cambiarán las probabilidades del modelo original. En el caso cero-
truncado forzamos el modelo a tomar pT0 = 0. Ya que el modelo original asigna una pro-
babilidad positiva al valor cero, tendremos que incrementar las probabilidades originales en
este modelo truncado en cero. Entonces, el primer valor de esta distribución truncada es
pT1 = 0.302406/(1 − 0.362887) = 0.474651. A partir de este valor iniciamos el proceso recur-
sivo para obtener los dos restantes

1 11
pT2 = 0.474651 + = 0.276880
3 22
62

1 11
pT3 = 0.276880 + = 0.138440
3 23
Por otro lado, en el caso de cero-modificado observamos que se asigna una probabilidad ma-
yor en cero, pM
0 = 0.6, de la que se tiene con el modelo original, por lo tanto, habrá que
decrementar las probabilidades originales. Dado este valor inicial, calculamos

pM
1 = (1 − 0.6)(0.302406)/(1 − 0.362887) = 0.189860. De aquı́ tenemos

1 11
pM
2 = 0.189860 + = 0.110752
3 22

1 11
pM
3 = 0.110752 + = 0.055376
3 23
63
Variables y Modificaciones de cobertura
En esta sección vamos a definir conceptos necesarios para el desarrollo de la teorı́a probabı́lis-
tica y estadı́stica que abarcan los seguros. Primero, es claro que existen distintos tipos de
acuerdos entre las compañı́as aseguradoras y el asegurado, bajo los cuales se buscan satisfa-
cer las necesidades de ambos, a través de las distintas coberturas que se ofrecen en las pólizas
de seguros. Entonces, para desarrollar los modelos que contemplen estas modificaciones de
cobertura, es indispensable definir las nuevas variables que generalmente se observan en los
diversos tipos de cobertura, y por medio de las cuales desarrollaremos la teorı́a posterior.
Hasta ahora, hemos supuesto que la cantidad de pérdida, X, es también la cantidad a pagar
por las reclamaciones. Sin embargo, hay modificaciones a las pólizas por las que el asegura-
dor puede ser responsable únicamente de un porcentaje o proporción de esta pérdida, que
constituye propiamente la severidad de la misma. Por ejemplo cuando la póliza tiene:
• Deducibles
• Lı́mites de póliza
• Coaseguro
Antes de representar estas modificaciones al pago de las pérdidas mediante variables alea-
torias y las funciones que las describen, es conveniente distinguir entre dos asociadas a esta
situación. Una v.a. relacionada al pago de la pérdida, en la que el valor cero es posible, y
ocurre cuando hay una pérdida sin pago. La segunda corresponde a la que mide “el pago del
pago”, que queda indefinida si no hay pago.
Definición Deducible: Cantidad o porcentaje establecido en una póliza cuyo importe debe
superarse para que se pague una reclamación.
En téminos técnicos: Las pólizas de seguro se venden con un deducible, d, por pago de la
pérdida. Cuando la pérdida, x, es menor que d, la compañı́a aseguradora no paga nada.
Cuando la pérdida es superior a d, la compañı́a paga x − d. Entonces, definimos las variables
aleatorias asociadas:
La siguiente variable que denota “el pago del pago”
64

no def inida,
 si X ≤ d
P
Y = .

X − d, si X > d

Esta variable tiene dos caracterı́sticas importantes, la primera de ellas, es que está truncada
por la izquierda, ya que aquellas observaciones por debajo del valor del deducible, d , son
omitidas y está trasladada debido a que los valores que toma la v.a. empiezan a partir de d.
Mientras que la que está asociada al pago por la pérdida es:

 0, si X ≤ d
Y L = (Y − d)+ =
X − d, si X > d

Y L es una v.a. mixta con una masa de probabilidad en cero, y posiblemente continua para
valores mayores a éste. Notemos que Y P = Y L |Y L > 0 = Y L |X > d. Dadas las definiciones
anteriores, se tiene que:
fX (y + d)
fY P = ,y > 0
SX (d)
SX (y + d)
SY P =
SX (d)
FX (y + d) − FX (d)
FY P =
1 − FX (d)
fX (y + d)
hY P = = hX (y + d)
SX (y + d)
fY L = fX (y + d), y > 0
SY L = SX (y + d), y ≥ 0
FY L = FX (y + d), y ≥ 0
Donde S(·) y h(·) son las correspondientes funciones de supervivencia y riesgo, respectiva-
mente. Es importante remarcar que si se cambia el deducible, se modifica la frecuencia con
65
la que se hacen los pagos; sin embargo, la frecuencia de pérdidas permanece inalterada.
Ejemplo: Supongamos que nuestra variable individual de pérdida se distribuye Pareto con
α = 3 y θ = 2000, y tenemos un deducible de 500. Utilizando las fórmulas anteriores, tenemos
3(2000)3 (2000 + y + 500)−4 3(2500)3

fY P (y) = =
(2000)3 (2000 + 500)−3 (2500 + y)4
3
2500
SY P (y) =
2500 + y
3
2500
FY P (y) = 1 −
2500 + y
3
hY P (y) =
2500 + y
que es una distribución P areto(3, 2500). Para nuestra variable de pérdida, tenemos:
 


 0.488, si y = 0 

 0.512, si y = 0
 
fY L (y) = SY L (y) =
 3(2000)3  (2000)3
, si y > 0 , si y > 0

 

(2500 + y)4 (2500 + y)4
 
 


0.488, si y = 0 
 no def inida, si y=0
 
FY L (y) = hY L (y) =
 3(2000)3  3
1 − , si y > 0 , si y > 0

 

(2500 + y)4 2500 + y
66
Pareto(4,30) Pareto(4,30)
0.10
0.8
●
0.08
0.6
0.06
X
Y^L
f.d.p.
f.d.p.
0.4
0.04
X
Y^P
0.2
0.02
0.00
0.0
0 20 40 60 80 100 0 20 40 60 80 100
x x
Valores esperados
El k-ésimo momento de estas variables se definen como:
Z ∞
(x − d)k f (x)dx
d

E (X − d)k |X > d =
1 − F (d)
para Y P , y como:
Z ∞
(x − d)k f (x)dx

E (X − d)k+ =
d
para Y L . Definimos min(X, d) = (X ∧ d). Entonces, obsérvese que
X = (X − d)+ + (X ∧ d)
de donde se desprende que, en una póliza con un deducible ordinario, el costo esperado por
pérdida es:
67
E [(X − d)+ ] = E(X) − E(X ∧ d)
y el costo esperado por pago es:
E(X) − E(X ∧ d)
1 − F (d)
y, cómo se calcula E(X ∧ d)?. En general, el k-ésimo momento es:
Z d
xk f (x)dx + dk [1 − F (d)]

E (X ∧ d)k =
−∞
Tres resultados que serán de gran utilidad en el desarrollo de varias fórmulas y de cálculos,
son:
Z ∞ Z ∞
E(X) = [1 − F (x)] dx = S(x)dx
0 0
Z d
E [(X ∧ d)] = [1 − F (x)] dx
0
Z ∞
E [(X − d)+ ] = [1 − F (x)] dx
d
Calculemos estas esperanzas en el caso de la P areto(3, 2000), con deducible de 500.
2000
F (500) = 1 − = 0.488,
(2000 + 500)3
" 2 #
2000 2000
E(X ∧ 500) = 1− = 360
2 2000 + 500
Recordemos que la P areto(α, θ) tiene esperanza θ/(α − 1). Entonces, nuestra variable que
denota esta pérdida tiene E(X) = 2000/2 = 1000. Por lo tanto, el costo esperado por pérdida
es 1000 − 360 = 640 y el costo esperado por pago es 640/(1 − 0.488) = 1250.
La tasa de eliminación de pérdidas y el efecto de inflación en deducibles ordinarios
Una cantidad que puede ser importante para evaluar el impacto de un deducible, es la tasa
de eliminación de pérdida.
68
Definición: La tasa de eliminación de pérdida es el cociente de decremento en el pago es-
perado con un deducible ordinario, respecto al pago sin este deducible. Sin el deducible, el
pago esperado es E(X). Con el deducible, este pago esperado es E(X) − E(X ∧ d). Por lo
tanto, la tasa de eliminación de pérdida es:
E(X) − [E(X) − E(X ∧ d)] E(X ∧ d)

=
E(X) E(X)
siempre que E(X) exista.
Siguiendo con nuestro ejemplo de la Pareto(3,2000), con un deducible ordinario de 500. La

tasa de eliminación de pérdida es 360/1000 = 0.36. Entonces, el 36 % de la pérdida puede
ser eliminada al introducir un deducible ordinario de 500.
El efecto de la inflación
Es obvio que la inflación incrementa los costos, pero cuando existe un deducible, el efecto de
la inflación se magnifica:
• Algunos eventos que formalmente producı́an pérdidas por debajo del deducible, ahora
requerirán de pago de la pérdida, por efecto de la inflación. Es decir, ahora hay más recla-
maciones que exceden el deducible.
• El efecto relativo de la inflación se magnifica, ya que el deducible se sustrae posterior a

la inflación. El deducible no incrementa con la inflación, pero los reclamos que exceden el
deducible crecerán más que la tasa de inflación. Por ejemplo, suponga que un evento produce
una pérdida de 600 sin efecto de inflación, y tiene un deducible de 500, entonces, el pago es
de 100. Si la inflación es del 10 %, la pérdida incrementará a 660, y el pago a 160, lo que
equivale a un incremento del 60 % sobre el pago sin inflación, y este costo extra debe ser
absorvido por la aseguradora.
Pago esperado por reclamo, considerando la tasa de inflación
• Consideremos un deducible, d, y una tasa de inflación constante, r, a lo largo del periodo.
• El pago esperado por pérdida será
69
E [(1 + r)X] − E [(1 + r)X ∧ d]
que puede reescribirse como

d
(1 + r) E(X) − E X ∧
1+r
Veamos esto último

d
E ((1 + r)X − d)+ = (1 + r)E X−
1+r +

d
= (1 + r) E(X) − E X ∧
1+r
Y el pago esperado considerando esta tasa de inflación, es:

d
(1 + r) E(X) − E X ∧
1+r
1 − F (d/(1 + r))
Seguimos con nuestro ejemplo. Supongamos una tasa de inflación r = 10 %. Recordemos que
el costo esperado por la pérdida es 640 y el pago esperado 1250. Con un 10 % de inflación
tenemos:
" 2 #
500 2000 2000
E X∧ = E(X ∧ 454.55) = 1− = 336.08
1.1 2 2000 + 454.55
y el costo esperado por pérdida después del efecto de inflación es 1.1∗(1000−336.08) = 730.32,
que incrementa un 14.11 % ((730.32 − 640)/640), el pago sin inflación que era de 640. Para
calcular el costo por el pago, primero debemos calcular
3
2000
F (454.55) = 1 − = 0.459
2000 + 454.55
70
de donde obtenemos que este costo es 730.32/(1 − 0.459) = 1350, que aumenta un 8 % con
respecto al de 1250 sin inflación.
Lı́mite de póliza
Lo opuesto al deducible es un lı́mite de póliza. Un lı́mite de póliza tı́pico es un contrato

donde, para las pérdidas menores a un umbral, u, la aseguradora paga la pérdida total, pero
para aquellas mayores a u, la aseguradora sólo paga u.
La v. a. asociada a esta reclamación es Y = min(X, u), que puede escribirse como:

 X, si X ≤ u
Y = (X ∧ u) =
u, si X > u

Con funciones de densidad y distribución dadas por:

 fX (y), y < u
fY (y) =
1 − FX (u), y = u


 FX (y), y < u
FY (y) =
1, y ≥ u

Obsérvese que los resultados que hemos establecido para un deducible, d, pueden adaptarse
directamente cuando se trata de un lı́mite de póliza, simplemente cambiando d por u.
Ahora desarrollemos nuestro ejemplo con un lı́mite en la póliza de 3000 y una tasa de infla-
ción del 10 %. El costo esperado en este caso es:
" 2 #
2000 2000
E(X ∧ 3000) = 1− = 840
2 2000 + 3000
y la proporción de reducción es (1000 − 840)/1000 = 0.16. Después de aplicar la tasa de

inflación, el costo esperado es:
71
" 2 #
2000 2000
1.1 ∗ E(X ∧ 3000/1.1) = 1.1 ∗ 1− = 903.11
2 2000 + 3000/1.1
con una proporción de reducción de (1100 − 903.11)/1100 = 0.179. El porcentaje de cre-

cimiento entre estos costos es de 7.5 % = 1 − (903.11/840), que es menor que la tasa de
inflación. El efecto es opuesto al del deducible.
Coaseguro
En pólizas con coaseguro, la cantidad de reclamo es proporcional a la cantidad de pérdida

por un factor de coaseguro. Este factor de coaseguro α, 0 < α < 1, es la proporción de
pago que le corresponde a la compañı́a aseguradora, mientras el poseedor de la póliza paga
la fracción restante. La v.a. para este pago es:
Y = αX
cuya densidad puede expresarse como:
1 y
fY (y) = fX
α α
y tiene valor esperado E(Y ) = αE(X).
Coaseguro, deducibles y lı́mites
Por supuesto, pueden aplicarse todas las modificaciones de una póliza que hemos visto: dedu-
cible ordinario, lı́mite de póliza, coaseguro e inflación para generar una póliza más general.
En este caso la variable aleatoria asociada es:

u d
Y = α(1 + r) X ∧ − X∧
1+r 1+r
que podemos reescribir
d


 0, X<



 1+r



Y = d u
α [(1 + r)X − d] , ≤X<


 1+r 1+r




 α(u − d), u
X≥

1+r
72
con un pago esperado por pérdida

L u d
E(Y ) = α(1 + r) E X ∧ −E X ∧
1+r 1+r
y valor esperado por pago
E(Y L )
E(Y P ) = d

1 − FX 1+r
Obsérvese que podemos calcular todas las expresiones involucradas en esta últimas fórmulas,
conociendo el modelo asociado a nuestra v.a. de pérdida.
Ejemplo: Una compañı́a de seguros ofrece dos tipos de pólizas: Tipo I y Tipo II. La de Tipo I
no tiene deducible, pero tiene un lı́mite de 3000. Por el contrario, la de Tipo II no tiene lı́mite,
pero tiene un deducible d. Las pérdidas siguien una distribución P areto(α = 3, θ = 2000).
Encontrar d de tal manera que las dos pólizas tengan la misma cantidad de pérdida esperada.
" 2 #
2000 2000
E(TI ) = E(X ∧ 3000) = 1− = 840
2 2000 + 3000
Z ∞ 3 " 2 #
2000 2000 2000
E(TII ) = E [(x − d)+ ] = dx =
d x + 2000 2 2000 + d
ya que E(TI ) = E(TII ), despejamos d, y tenemos que el deducible debe ser d = 182.18.
“Ostro”: Una compañı́a de mantenimiento de un hospital, paga cotidianamente el costo total

por uso de la sala de emergencia de sus clientes. Esta empresa ha visto que el costo sigue una
distribución exponencial con media 1000. La cı́a. está evaluando la posibilidad de imponer
un deducible de 200 a sus clientes, por el uso de esta sala.
• Calcule la tasa de eliminación de pérdida debido al deducible de 200. Interprete esta tasa.
• Suponga que la cı́a. decide imponer este deducible de 200 por el uso de la sala, además de
un lı́mite de 5000 y con un factor de coaseguro del 80 %. Calcule la cantidad de reclamación
esperada por el evento de pérdida y la cantidad esperada por pago, que debe realizar la
73
empresa.
• Suponga una inflación uniforme del 8 %. Calcule los pagos del inciso anterior aplicando
esta tasa.
Primero, observamos que la parametrización de la exponencial que tiene sentido, de acuerdo

a la información es:
1 −x/1000
f (x) = e
1000
que tiene E(X) = 1000. Para nuestro primer punto, tenemos que calcular
Z 200
e−x/1000
E(X ∧ 200) 0 1000 ∗ (1 − e−0.2 )
= = = 18.12 %
E(X) 1000 1000
El 18.12 % de la pérdida puede ser eliminada imponiendo un deducible de 200. Para nuestro
segundo punto, tenemos: d = 200, u = 5000 y α = 80 %, y debemos calcular
E(Y ) = α [E(X ∧ u) − E(X ∧ d)]
Observemos que el segundo término de la expresión entre corchetes cuadrados, es parte del
desarrollo que realizamos en el inciso anterior, y vale 181.2. Para el primer elemento de este
corchete, tenemos
Z 5000
e−x/1000 = 1000 ∗ 1 − e−5 = 993.262

E(X ∧ u) = E(X ∧ 5000) =
0
de estas dos cantidades tenemos que
E(Y ) = 0.8 ∗ [E(X ∧ 5000) − E(X ∧ 200)] = 0.8 ∗ (993.262 − 181.2) = 649.649
que es la cantidad de reclamación esperada por uso de la sala. Cuyo pago esperado es de:
E(Y ) E(Y ) 649.649

= −200/1000 = = 793.4831
1 − FX (d) e 0.8187
74
El punto final se deja como ejercicio al lector. (El resultado es: 709.5099).
El impacto del deducible en la frecuencia de los reclamos
Un componente importante para analizar el efecto en las modificaciones de las pólizas, con-
cierne al cambio en la distribución de frecuencias de los pagos cuando se impone un deducible
o cuando se modifica. Cuando se impone o se incrementa el deducible, esperarı́amos pocos
pagos por periodo, mientras que si se reduce, entonces esperarı́amos realizar más pagos.
Podemos cuantificar este proceso, asumiendo que la imposición de modificaciones de cober-

tura no afecta el proceso que produce las pérdidas individuales que serán pagadas por la
aseguradora. Por ejemplo, en aquellos individuos con una póliza con deducible de 250 por
daño en automóvil, puede ser menos posible que se vean involucrados en un accidente que
aquellos con cobertura total.
Para iniciar nuestra discusión, supongamos que Xj representa la j-ésima pérdida y que no
tiene modificaciones de cobertura en la póliza. Sea N L el número de pérdidas. Ahora, consi-
deremos una modificación en la cobertura tal que ν es la probabilidad de que las pérdidas re-
sulten en pago. Por ejemplo, si hay un deducible d, entonces ν = P(X > d). Defina la variable
indicadora Ij como Ij = 1 si la j-ésima pérdida resulta en pago e Ij = 0 de otra forma. Enton-
ces, Ij tiene distribución Bernoulli con párametro ν y fgp PIj (z) = 1 − ν + νz = 1 + ν(z − 1).
Entonces, N P = I1 + · · · + IN L representa el número de pagos. Si I1 , I2 , · · · , son mutuamente
independientes e independientes de N L , entonces N P tiene una distribución compuesta con
N L como la distribución primaria y una Bernoulli como distribución secundaria. Entonces

PN P = PN L PIj (z) = PN L [1 + ν(z − 1)]
En el caso especial en que la distribución de N L depende de un parámetro θ, tenemos:
PN L (z) = PN L (z; θ) = B [θ(z − 1)]
con B(z) una funcional independiente de θ. Entonces
PN P (z) = B [θ ([1 + ν(z − 1)] − 1)]

= B [νθ(z − 1)]
= PN L (z; νθ)
75
Este resultado implica que N L y N P pertenecen a la misma familia paramétrica y sólo el
parámetro θ debe cambiar.
Ejemplo
Supongamos que la distribución para la frecuencia de pérdidas es BN (β = 3, r = 2), y para

las pérdidas es P areto(α = 3, θ = 1000). Queremos ver el efecto que tiene sobre la distribu-
ción de frecuencias, imponer un deducible de 250.
Recordemos que la BN tiene fgp dada por PN (z) = [1 − β(z − 1)]−r . En este caso β toma
el rol de θ y B(z) = (z − 1)−r . Entonces, N P debe tener también una distribución BN con
parámetros r∗ = r y β ∗ = νβ. Dados los valores particulares de este ejemplo
3
1000
ν = 1 − F (250) = = 0.512,
1000 + 250
r∗ = 2 y β ∗ = 3(0.512) = 1.536 ⇒ PN L (z; νθ) = BN (2, 1.536)
0.20
BN(3,2)
0.188
BN(1.536,2)
0.171
0.155
0.15
0.138
0.105 0.105 0.105

0.10
0.099
0.094
0.089
0.078
0.076
0.067
0.062
0.056
0.054
0.05
0.047
0.039
0.037
0.032
0.025 0.026
0.021
0.017 0.017
0.013
0.011
0.008
0.005
0.003 0.002 0.001
0.00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
En general, los parámetros de las distribuciones de frecuencia se habrán modificado por v

siempre que haya pago, de la siguiente manera:
76
Distribución Parámetros modificados
∗
P oisson λ = λv
−λ
pM
0 −e + e−vλ − pM
0 e
−vλ
Poisson Modificada en cero p∗0 = ; λ∗ = λv
1 − e−λ
Binomial q ∗ = vq
pM m m M
0 − (1 − q) + (1 − vq) − p0 (1 − vq)
m
Binomial Modificada en cero p∗0 = ; q ∗ = vq
1 − (1 − q)m
Binomial N egativa β ∗ = vβ
−r
pM
0 − (1 + β) + (1 + vβ)−r − pM
0 (1 + vβ)
−r
BinNeg Modificada en cero p∗0 = ; β ∗ = vβ
1 − (1 + β)−r
77
Modelo de pérdidas agregadas
En el ejemplo anterior mencionamos (sin gran detalle) que las variables involucradas tenı́an
una distribución compuesta. Ahora introduciremos uno de los modelos más importantes en
la teorı́a del riesgo, que requiere de una distribución compuesta de las variables que lo de-
terminan.
Introducción
Las pérdidas que tiene una compañı́a aseguradora pueden surgir de manera individual o
colectiva, dependiendo del tipo de seguro que se contrate; por este motivo, hay que po-
ner especial atención al rol que desempeñan las caracterı́sticas de cada uno de ellos, en las
pérdidas que contraiga la empresa. Los modelos que determinan el monto total que deven-
ga una Cı́a por la acumulación de los riesgos individuales de su portafolio de asegurados, son:
• Modelo de riesgo Individual, y
• Modelo de riesgo Colectivo.
78
Modelo Individual
Supongamos que tenemos un portafolio de n pólizas individuales de seguros vigentes por,
digamos, un año. Definamos como qj la probabilidad de que el j-ésimo asegurado efectúe exac-
tamente una reclamación en el periodo; lo que implica que se cumple la igualdad, pj + qj = 1,
que significa que no puede haber más de una reclamación por cada asegurado.
Un ejemplo de esta situación es el que se presenta a través de contratos para grupos de vida,
en donde se cubre a cierto número de personas n , y cada una posee diferentes coberturas
de acuerdo a las categorı́as que se establecen para su grupo. Esta situación produce que las
personas tengan distintas probabilidades de pérdidas, sujetas a sus caracterı́sticas personales
o cualquier otra condición que exista y se determine en el contrato.
Para fijar ideas, supongamos un portafolio con n pólizas, una póliza por individuo y con
vigencia a lo largo de un periodo de tiempo establecido. Entonces qj es la probabilidad
de que el j-ésimo asegurado efectúe exactamente una reclamación durante este periodo, y
(pj = 1 − qj ) que no haga ninguna reclamación. Esta variable aleatoria es evidentemente
Bernoulli que asigna valores de 1 y 0 a estos eventos, respectivamente, denotémosla como
Rj . Ahora bien, una vez que la j-ésima póliza efectúe una reclamación, el impacto de la
misma se verá reflejado en el monto que la compañı́a aseguradora deberá asumir. Definimos
entonces la variable aleatoria Bj > 0, (Rj ⊥Bj ), como el monto de reclamación de la j-ésima
póliza. Por lo tanto, el monto de la j-ésima póliza queda definido por:
(
Bj si Rj = 1 y ocurre con probabilidad qj
Xj =
0 si Rj = 0 y ocurre con probabilidad 1 − qj
Entonces, el monto total por reclamaciones o monto agragado que debe asumir la compañı́a
aseguradora por el concepto de la reclamaciones de sus asegurados, en el modelo individual,
está dado por la variable aleatoria
n
X
S = Xj
j=1
n
X
= Bj Rj
j=1
79
Este modelo se conoce también como el modelo de pérdidas agregadas.
El nombre de modelo individual se debe a que supone conocer las probabilidades de recla-
mación y posible monto de reclamación de todos y cada uno de los asegurados de manera
individual. Una posible desventaja es que presupone que el número de asegurados en la car-
tera se mantiene constante (no es aleatorio) durante todo el tiempo de vigencia del seguro.
Entonces, nuestro objetivo es conocer las caracterı́sticas estadı́sticas de esta variable S, tales
como: función de densidad, distribución, media, varianza, función generadora de momentos,
etc.
Supongamos que cada variable aleatoria, Xj , tiene asociada una función de distribución
FXj (x) , entonces la función de distribución de S queda en términos de convoluciones como:
FS (x) = (FX1 ∗ · · · ∗ FXn ) (x)
No obstante, el cálculo de convoluciones no es, en general, una tarea fácil, por lo que reque-
rimos de maneras alternativas para estudiar esta variable aleatoria. Denotemos por GBj a la
función de distribución de Bj . Entonces, algunas caracterı́sticas de esta variable se enuncian
en la siguiente proposición
Proposición
n
X
1. E (S) = qj E (Bj )
j=1
2. V (S) = qj V (Bj ) + qj pj E2 (Bj )

(
(1 − qj ) + qj GBj (x), x ≥ 0
3. FXj (x) =
0 ,x < 0
4. MXj (t) = (1 − qj ) + qj MBj (t)
n
Y
5. MS (t) = (1 − qj ) + qj MBj (t)
j=1
80
Dem
n
X n
X n
X n
X
1.- E (S) = E (Xj ) = E (Bj Rj ) =
|{z} E (Bj ) E (Rj ) = qj E (Bj )
j=1 j=1 por independencia j=1 j=1
2.- Observemos que
V (Bj Rj ) = E Bj2 Rj2 − E2 (Bj Rj )

= qj E Bj2 − qj2 E2 (Bj )

= qj V (Bj ) + E2 (Bj ) − qj2 E2 (Bj )

= qj V (Bj ) + qj − qj2 E2 (Bj )

= qj V (Bj ) + pj qj E2 (Bj )
Por lo que
n
X n
X
qj V (Bj ) + pj qj E2 (Bj )

V (S) = V (Bj Rj ) =
|{z}
j=1 idependencia j=1
3.- ∀x ≥ 0,
FXj (x) = P (Xj ≤ x) = P (Bj Rj ≤ x)
= P (Bj Rj ≤ x|Rj = 0) P (Rj = 0) + P (Bj Rj ≤ x|Rj = 1) P (Rj = 1)
= P (0 ≤ x|Rj = 0) pj + P (Bj ≤ x|Rj = 1) qj
= 1 ∗ pj + qj GBj (x)
4.-
MXj (t) = E etXj = E etBj Rj

= E etBj Rj |Rj = 0 P (Rj = 0) + P etBj Rj |Rj = 1 P (Rj = 1)

= pj + qj MBj (t)
n
Pn Pn Y
t Xj t Bj Rj

5.- MS (t) = E e j=1 =E e j=1 =
|{z} pj + qj MBj (t)
independencia j=1
81
Encontrar la distribución de S, por lo general, es complicada, por tal motivo no se utilizan
las convoluciones como una alternativa para obtenerla. Para lidiar con esta situación, se
han desarrollado métodos, esencialmente de aproximación numérica, que proporcionan esta
distribución de las pérdidas agregadas en un modelo individual.
82
El modelo colectivo de riesgo
Este modelo presenta las pérdidas agregadas como una suma aleatoria de variables aleato-
rias, donde N es la variable aleatoria del número de reclamaciones realizadas y X1 , X2 , ..., XN
son las variables aleatorias independientes e identicamente distribuidas, que representan los
montos de cada reclamación. La especificación formal del modelo es la siguiente
Sea Xj la reclamación de pago realizada por el j-ésimo asegurado, y sea N el número alea-
torio de reclamaciones. Al total o (agregado) de reclamaciones:
N
P
S = X1 + X2 + · · · + XN = Xj , con S = 0 cuando N = 0
j=1
se le conoce como modelo agregado de reclamaciones. Otros nombres que recibe en la lite-
ratura actuarial son modelo colectivo de riesgos y el modelo compuesto de frecuencias. Los
supuestos del modelo son:
• Condicional a N = n, las variables aleatorias X1 , X2 , ..., XN son i.i.d.
• Condicional a N = n, la distribución común de X1 , X2 , ..., XN no depende de n
• La distribución de N no depende de ninguna manera de los valores de X1 , X2 , ..., XN .
Tenemos, N : frecuencia de reclamaciones y X: severidad de las reclamaciones, por lo tanto S

tiene una distribución compuesta. Entonces, la cuestión central es encontrar la distribución
de S.
Ya que el objetivo es encontrar la distribución que mejor ajuste a S, lo haremos a partir de

0
la distribución que ajustemos para N y de la distribución de las Xj s. Por lo que la frecuencia
y severidad se modelarán de forma separada pues representa muchas ventajas, entre las que
están las siguientes:
• Debido a que el número esperado de reclamaciones se ve afectado por el número de pólizas

que se vayan asegurando, y se irá actualizando basado en datos anteriores, el hecho de tener
por separado la frecuencia es más práctico para ir modificando nuestros datos.
• El efecto de factores económicos como la inflación se ven reflejados en las pérdidas de
83
la compañı́a, por lo que identificar estos factores en los montos agregados se puede volver
complicado, y si analizamos la frecuencia y severidad por separado esto resulta más sencillo.
• El impacto de deducibles, coaseguros y lı́mites de pólizas, se estudia de manera más sencilla,

tanto en las distribuciones de severidad, como en las de frecuencia.
• Debido a que la forma de la distribución de S depende de las distribuciones de X y N , el

conocer cada una de ellas servirá para ajustar mejores distribuciones para S. Por ejemplo,
si la cola de la distribución de X es más pesada en comparación con la de N , la forma de
la cola que tendrán las pérdidas agregadas será determinada por la severidad y será más
insensible a la frecuencia.
Entonces, los pasos a seguir para hallar la distribución más adecuada para el modelo pro-
puesto de S son:
1. Desarrollar un modelo de la distribución para la frecuencia N basada en datos.
0
2. Desarrollar un modelo para la distribución común de las pérdidas Xj s basándonos en
los datos.
3. Usando estos dos modelos, llevar a cabo los cálculos necesarios para encontrar la dis-
tribución de S.
84
Funciones de distribución y densidad de S
La función de distribución de S está dada por
∞ ∞
pn FX∗n (x)
P P
FS (x) = P(S ≤ x) = pn P(S ≤ x|N = n) =
n=0 n=0
Con FX (x) = P(X ≤ x) la función de distribución común de las Xj s y pn = P(N = n).

FX∗n (x), es la convolución de las n v.s a.s , y se puede calcular de forma recursiva como

0
 x<0
FX∗0 (x) =

1, x≥0

Z ∞
(k−1)
FX∗k (x) = FX (x − y)dFX (y) para k = 1, 2, ...
−∞
Las colas de esta distribución, que son de interés, se pueden calcular como
∞
X
1 − FS (x) = pn [1 − FX∗n (x)]
n=1
Su función de densidad está dada por:
∞
X
fS (x) = P(S = x) = pn fX∗n (x), x = 0, 1, ...
n=0
cuyo cálculo recursivo es
Z ∞
(k−1)
fX∗k (x) = fX (x − y)fX (y)dy para k = 1, 2, ...
−∞
85
Si X es discreta, con probabilidades en 0, 1, 2, ... las respectivas convoluciones se pueden
calcular sustituyendo la integral por una suma sobre los valores que toma X.
La fgp de S es
∞
X
PS (z) = E(z ) = S
E(z X1 +X2 +···+XN |N = n)P(N = n)
n=0
∞
" n #
X Y
Xj
= E z P(N = n)
n=0 j=1
∞
X
= [PX (z)]n P(N = n)
n=0
= E PX (z)N = PN [PX (z)]

Siguiendo las mismas consideraciones, la f.g.m de S se obtiene, por

MS (t) = E etS = E E etS | N = E E et(X1 +···+XN ) | N
∞
X
E et(X1 +···+XN ) | N = n P (N = n)

=
n=0
∞
X
E et(X1 +···+Xn ) P (N = n)

=
n=0
∞
" n
# ∞
" n #
X Y X Y
tXj
tXj
= E e P (N = n) = E e P (N = n)
n=0 j=1 n=0 j=1
∞ ∞ h i
X tX n X n N
= E e P (N = n) = (MX (t)) P (N = n) = E (MX (t))
n=0 n=0
h i
log((MX (t))N )

=E e = E eN log(MX (t)) = MN (log (MX (t)))
Por lo tanto, obtenemos
86
MS (t) = MN (log (MX (t)))
y dejándola en términos de la f.g.p.
MS (t) = PN (MX (t))
Momentos de S
Ahora desarrollaremos algunos momentos de esta variable aleatoria, que serán de utilidad
posteriormente.
" " N
##
X
E (S) = E [E [S | N ]] = E E Xj |N
j=1
∞
X
= E [X1 + X2 + · · · + XN | N = n] P (N = n)
n=0
0
ya que las Xj s son v.a.i.i.d. su esperanza es la misma, digamos, E [X], entonces:
∞
X ∞
X
E [X1 + X2 + · · · + Xn | N = n] P (N = n) = nE [X] P (N = n) = E [X] E [N ]
n=0 n=0
E (S) = E [X] E [N ]
La varianza de S se puede calcular por medio de la fórmula de varianza iterada donde
V (S) = E [V (S | N )] + V [E (S | N )] = E [N V (X)] + V [N E (X)]
= E (N ) V(X) + V(N )E2 (X)
=⇒ V (S) = E (N ) V(X) + V(N )E2 (X)
Y finalmente su tercer momento alrededor de la media, es:
E (S − E (S))3 = E (N ) E (X − E (X))3 + 3V (N ) E (X) V (X) + E (N − E (N ))3 E (X)3

87
Hallar explı́citamente la distribución de S no es trivial, por lo que se utilizan diversas aproxi-
maciones a su distribución o soluciones númericas; no obstante, existen algunas elecciones de
los modelos para N y X que permiten tener resultados análiticos para ciertas caracterı́sticas
de esta distribución.
Algunos modelos compuestos
Modelo Binomial Compuesto
Si la variable de frecuencia de reclamaciones, N se distribuye Binomial (n, p), y los montos

de reclamación, X, tienen una distribución con soporte en los reales positivos, entonces, S
tiene una distribución binomial compuesta. Sus caracterı́sticas numéricas son:
E (S) = npE (X)

V (S) = np E (X 2 ) − pE (X)2

MS (t) = (1 − p + pMX (t))n
Modelo Binomial Negativo Compuesto
Cuando el número de reclamaciones tiene una distribución Binomial Negativa entonces el

riesgo S se distribuye Binomial Negativa Compuesta y se tiene:
E (S) = rβE (X)

V (S) = rβ E (X 2 ) + βE (X)2

r
1
MS (t) =
1 + β (1 − MX (t))
Modelo Poisson Compuesto
Bajo los mismos supuestos que en los modelos anteriores, si N se distribuye P oisson(λ),
entonces S tiene una distribución Poisson compuesta. Con
E (S) = λE (X)
V (S) = λE (X 2 )
MS (t) = eλ(MX (t)−1)
88
Supongamos que N ∼ P oisson(λ) y que Xj ∼ Bernoulli(q), aplicando lo anterior para la
distribución de S, tenemos que
t
MS (t) = eλ(MX (t)−1) ; donde MN (t) = eλ(e −1) y en particular para
MX1 (t) = (1 − q) + qet
por lo que MS (t) = eλ((1−q)+qe −1) = eλ(qe −q) = eλq(e −1)

t t t
∴ S ∼ P oisson(λq)
Observación importante: Aunque estos modelos tienen una forma analı́tica en estas carac-
terı́sticas numéricas, ninguna de ellas, salvo el último caso, corresponde a la densidad o
distribución de S. Es decir, el problema de encontrar la distribución de las pérdidas agrega-
das, persiste.
Distribución de la convolución de Poisson compuestas

Una caracterı́stica muy útil para nuestros fines es que la Poisson compuesta es cerrada bajo
convolución. Especı́ficamente
Supóngase que Sj tiene una distribución Poisson compuesta con parámetros λj y función
de distribución para severidades Fj (x) para j = 1, 2, ..., n. Además, que S1 , S2 , ..., Sn son
independientes. Entonces S = S1 + S2 + · · · + Sn tiene una distribución Poisson compuesta
n n
X X λj
con parámetro λ = λj y función de distribución de severidad F (x) = Fj (x) .
j=1 j=1
λ
Dem:
Sea Mj (t) la f.g.m. de Fj (x) para j = 1, 2, ..., n. Entonces Sj tiene f.g.m. dada por:
0
MSj (t) = E etSj = eλj (Mj (t)−1) y por la independencia de las Sj s, S tiene f.g.m.
n n
" n n
#!
Y Y X X
MS (t) = MSj (t) = exp (λj [Mj (t) − 1]) = exp λj Mj (t) − λj
j=1 j=1 j=1 j=1
" n # ! (" n
# )!
X X λj
= exp λj Mj (t) − λ = exp λ Mj (t) − 1
j=1 j=1
λ
89
n n
X λj X λj
Debido a que Mj (t) es la f.g.m. de F (x) = Fj (x) , entonces MS (t) tiene la
j=1
λ j=1
λ
forma de la f.g.m. de una distribución Poisson compuesta.
Ejemplo
S1 y S2 son distribuciones Poisson compuestas con parámetros λ1 = 3 y λ2 = 2, y función

de severidad individual
x f1 (x) f2 (x)
1 0.25 0.10
2 0.75 0.40
3 0.00 0.40
4 0.00 0.10
determine la media y varianza de S.
S = S1 + S2 tiene una distribución Poisson compuesta con media λ = 3 + 2 = 5, y con

función de severidad
x P(S = s)
1 (3/5)*(0.25)+(2/5)*(0.10)=0.19
2 (3/5)*(0.75)+(2/5)*(0.40)=0.61
3 0+(2/5)*(0.40)=0.16
4 0+(2/5)*(0.10)=0.04
de donde obtenemos
E(S) = 1 ∗ 0.19 + 2 ∗ 0.61 + 3 ∗ 0.16 + 4 ∗ 0.04 = 2.05 y V(S) = E [(S − 2.05)2 ] = 0.5075
Modificaciones en los modelos agregados
Una vez definidos estos dos modelos para pérdidas agregadas, corresponde ahora incluir las
modificaciones que ellos sufren a través de las modificaciones que sufren las pólizas que los
componen. Es decir, debemos encontrar las variables por pérdida y por pago para S, similares
a las que hemos definido para las variables individuales, ya que la distribución de S también
se verá afectada una vez que apliquemos modificaciones en la cobertura de contratos.
90
Supongamos un panorama simple bajo el cual el portafolio de pérdidas se modifique debido
0
a la aplicación de un deducible , d. Como la variable aleatoria S depende de N y de las Xj s
, entonces se tendremos que considerar dos posibilidades
• Supongamos que N L es la variable aleatoria por pérdida que modela la frecuencia de las
0
pérdidas agregadas, mientras que las Xj s determinan la severidad de las mismas. En este
0
escenario a través de la variable por pérdida Y L modificaremos las Xj s que representan los
montos, pues recordemos que:

L 0 X≤d
Y = (X − d)+ =
X −d X >d
ası́ que la severidad de las reclamaciones se verá afectada. En este caso YjL representa el
pago por la j-ésima pérdida, mientras que la frecuencia seguirá distribuyendose de la misma
forma puesto que, como su nombre lo indica, estamos considerando las pérdidas totales que
sufre la compañı́a sin importar aquellas que realmente se pagan.
Entonces, el modelo colectivo queda
S = Y1L + Y2L + · · · + YNLL
donde S = 0 si N L = 0
• La segunda opción es considerar a Y P , la variable de pago, que reflejará los montos pagados
por la compañı́a aseguradora una vez que han excedido el valor del deducible, d, pero además
de ello, en este caso, la variable que modela la frecuencia de las reclamaciones N P también se
modificará, y se verá reflejado en el número de pagos efectuados. Entonces, los parámetros
para N P cambiarán conforme a lo que se revisó en las modificaciones de cobertura para
modelos de frecuencia, donde se considera a la constante ν como la probabilidad de pago
por parte de la aseguradora. Entonces el modelo serı́a
S = Y1P + Y2P + · · · + YNPP
91
donde S = 0 si N P = 0 y YjP es la variable de pago que representa el monto de la j-ésima
pérdida tal como se definió Y P anteriormente.
Es importante considerar las modificaciones de los contratos de seguros en los modelos colec-
tivos, debido a que, bajo circunstancias apegadas a la realidad, generalmente esta información
es la que se manejará.
Ya sabemos que existe una relación entre las variables de pérdida y de pago: Y P = Y L |Y L >
0. Luego, retomando el concepto de ν como la probabilidad de pago, las funciones de distri-
bución de estas variables, guardan la siguiente relación:
FY L = (1 − v) + vFY P (y) ; y ≥ 0

porque 1 − ν = P Y L = 0 = FY L (0) .
Con una relación equivalente para sus f.g.m.
MY L (t) = (1 − ν) + νMY P (t)
ya que
h i h i h i
L L L
E etY = E etY |Y L = 0 P Y L = 0 + E etY |Y L > 0 P Y L > 0
h i
L
= E 1|Y L = 0 (1 − ν) + E etY |Y L > 0 ν
= (1 − ν) + νMY P (t)
Además, para el número de pérdidas N L y el número de pagos N P se tiene esta relación con
sus f.g.p.
PN P (z) = PN L (1 − v + vz)

NP NL
donde PN P (z) = E z y PN L (z) = E z .
92
Finalmente con los resultados del Modelo Colectivo, las f.g.m. de S en términos de las
variables por pérdida y por pago son:
MS (t) = E etS = PN L (MY L (t))

MS (t) = E etS = PN P (MY P (t))

que guardan la siguiente relación:
PN L [MY L (t)] = PN L [1 − v + vMY P (t)] = PN P [MY P (t)]
93
Ejemplo
En una cobertura de seguros, se sabe que el número de pérdidas en el Modelo de Riesgo

0
Colectivo se distribuyen BinN eg(β = 1.5, r = 12) y que los montos de las pérdidas (Xj s)
tienen distribución P areto(α = 3, θ = 150). Además de esta información, se determina que
la inflación será del 3 % y se aplicarán las siguientes modificaciones de cobertura.
Deducible d = 40
Lı́mite de póliza = 250
Coaseguro = 85 %
Determinar la esperanza y la varianza de las pérdidas agregadas, considerando que el monto

de las pérdidas se ve modificado por la variable aleatoria de pérdida y por la variable aleatoria
de pérdida en exceso (o variable de pago).
0
Primero encontremos E (S) y V (S), cuando las Xj s se modifican por Y L . Entonces, el
orden en el que consideramos las modificaciones son: primero la inflación, posteriormente
el deducible, el lı́mite de póliza y finalmente el coaseguro.
Considerando estas modificaciones para cada Xj , la variable aleatoria de pérdida queda:
40


 0 X<



 1.03


40 250

YL = 0.85 [(1.03) X − 40] ≤X<


 1.03 1.03



 250
0.85(250 − 40) X≥


1.03
=⇒

L u d
E Y = α (1 + r) E X ∧ −E X ∧
1+r 1+r

250 40
= 0.85 (1.03) E X ∧ −E X ∧
1.03 1.03
Para la P areto(3, 150)
94
" 2 #
250 150 150
E X∧ = 1− = 64.058
1.03 2 250 + 150
" 2 #
40 150 150
E X∧ = 1− = 27.676
1.03 2 250 + 150

=⇒ E Y L = 0.85(1.03) [64.058 − 27.676] = 31.852
Luego para N L sabemos que se distribuye BinN eg(1.5, 12) pero esta variable, que representa
el número de reclamaciones del modelo colectivo, no se modifica por ser variable de pédida
y no de pago.

=⇒ E N L = rβ = 12 ∗ 1.5 = 18
Por los resultados anteriores

E (S) = E(Y L )E N L = 31.85244 ∗ 18 = 573.3439
Aparte de esta situación, como el número de reclamaciones se distribuye Binomial Negativa,

el modelo se reduce a un Modelo Binomial Negativo Compuesto, razón por la cual, como se
mostró en la sección anterior, la varianza de S es :
h i
L 2 L 2
V(S) = rβ E Y + βE Y .
2
Entonces, hay que obtener el segundo momento en términos de Y L , i.e., E[ Y L ], que, de
manera general, se calcula como
h i
L 2
= α2 (1 + r)2 E (X ∧ u∗ )2 − E (X ∧ d∗ )2 − 2d∗ E (X ∧ u∗ ) + 2d∗ E (X ∧ d∗ )

E Y
u d
con u∗ = y d∗ = .
1+r 1+r
Por lo que en nuestro caso este cálculo es
h 2 i
E YL =
( " 2 # " 2 # )
250 40 40 250 40 40
(0.85)2 (1.03)2 E X ∧ −E X ∧ −2 E X∧ +2 E X∧
1.03 1.03 1.03 1.03 1.03 1.03
95
que observamos es bastante laborioso. Haciendo estos cálculos en R, tenemos que
h i
L 2

E Y = 4217.442
Finalmente
h 2 2 i
= 18 4217.442 + 1.5 (31.85244)2

V ar(S) = rβ E Y L + βE Y L
= 103307.6
0
Como segundo punto también debemos calcular la E (S) y V (S) considerando a las YjP s y
a N P como la frecuencia.
40
La función para Y P , a diferencia de Y L , es sólo tomar en cuenta que los valores para X <
1.03
d

no están definidos, ası́ que para la E Y P basta dividir E Y L entre SX 1+r
3
40 150
=⇒ SX = SX (38.83495) = = 0.501217
1.03 38.83495 + 150

P
E YL 31.85244
De ahı́ E Y = d
= = 63.55007
SX 1+r 0.501218

Para N P debemos obtener E N P , entonces, como es la frecuencia correspondiente al pago
que realiza la aseguradora, se modifica respecto al valor de ν, donde :

d 40
ν=P X> = 1 − FX
1+r 1.03
esto porque recordemos que es la probabilidad de pago una vez que se ha aplicado inflación
y deducible en el número de reclamaciones, entonces

40
ν = SX = 0.501217971983
1.03
Por lo tanto, la distribución es una Binomial Negativa pero con parámetros modificados:
r = r∗ = 12 y β ∗ = vβ = 0.751826958
96
=⇒ E N P = rβ ∗ = 9.021923496.

De esta forma E (S) = E Y P E N P = 627.6041864
h h 2 i 2 i
La V (S) = rβ ∗ E Y P + β ∗E Y P
2
h i
P 2
E[ Y L ] 4963.722677
=⇒E Y = 40
= = 9903.321418
1 − FX 1.03 0.501217
=⇒ V (S) = 9.021923496 9903.321418 + 0.751826958 (69.56434365)2

= 122170.9259
Bajo el análisis de las variables por pago y por pérdida en este modelo de riesgo colectivo,
la E (S) y V (S) son muy similares entre sı́.
97
Métodos para encontrar la
distribución de S
Aproximaciones
Una vez que hemos presentado y analizado los modelos de riesgo individual y colectivo, junto
con algunas de sus caracterı́sticas, observamos que, en general, no obtuvimos resultados que
nos permitieran encontrar la distribución de S. Una manera de salvar esta dificultad es a
través de aproximaciones a esta distribución, que se utilizan tanto para el modelo individual
como para el modelo colectivo. Presentamos a continuación las siguientes:
Normal
Lognormal
Gamma Trasladada
Poisson Compuesta
Aproximación Normal
A través del Teorema Central del Lı́mite se puede aproximar la distribución de S por medio
de una distribución normal.
Generalmente, este método de aproximación es de mayor utilidad cuando el número de

reclamaciones N de nuestro riesgo S es muy grande, y por consecuencia, la E [N ] también
resulta ser grande.
Proposición. Para cualquier s > 0
!
s − E (S)
FS (s) = P [S ≤ s] ≈ φ p
V (S)
Ahora bien, suponiendo que tanto la Severidad como la Frecuencia de los datos son discretas,
entonces la distribución de las pérdidas agregadas será discreta; por lo cual, si se desea utilizar
este método de aproximación, será necesario aplicar antes una Corrección de Continuidad.
Es decir, supóngase que se quiere conocer P [n ≤ S ≤ m] , para utilizar la aproximación nor-
mal, lo único que se hace es extender el intervalo de [n, m] al intervalo n − 21 , m + 12 , por lo

98
1 1

cual la probabilidad bajo la corrección de continuidad será P n − 2
≤S ≤m+ 2
. Una vez
realizada esta corrección, se hace el mismo procedimiento de aproximación, considerando la
E (S) y V (S) originales del riesgo S.
Ejemplo
Una compañı́a aseguradora tiene una cartera con pólizas de seguro de vida con las carac-
terı́sticas que se muestran en la tabla. Utilizando el modelo de riesgo individual, realizar
la aproximación normal de tal manera que podamos encontrar el valor de s bajo el cual
P [S ≤ s] = 0.95, i.e., deseamos encontrar el VaR de la distribución de S.
i # de pólizas Probabilidad de reclamación Monto de Reclamación

1 1000 0.05 10
2 2000 0.10 5
3 500 0.02 20
Primero veamos lo que sucede con E (Bi ) y V(Bi ) para i = 1, 2, 3. Primeramente, tenemos
que
para i=1, P (B1 = 10) = 1, P (B1 = x) = 0 si x 6= 10

para i=2, P (B2 = 5) = 1, P (B2 = x) = 0 si x 6= 5
para i=3, P (B3 = 20) = 1, P (B3 = x) = 0 si x 6= 20
Entonces
E (B1 ) = 1 ∗ 10 + 0 ∗ x = 10 y V(B1 ) = 102 ∗ 1 − 102 = 0

E (B2 ) = 5 y V(B2 ) = 0
E (B3 ) = 20 y V(B3 ) = 0
1000
X 2000
X
Entonces E (S1 ) = 0.05 ∗ 10 = 500, E (S2 ) = 0.10 ∗ 5 = 1000,
j=1 j=1
500
X
E (S3 ) = 0.02 ∗ 20 = 200
j=1
=⇒ E (S) = 500 + 1000 + 200 = 1700
99
1000
X
0.05 ∗ 0 + 0.05 ∗ 0.95 ∗ 102 = 4750

Luego V(S1 ) =
j=1
2000
X
0.1 ∗ 0 + 0.1 ∗ 0.9 ∗ 52 = 4500

V(S2 ) =
j=1
500
X
0.02 ∗ 0 + 0.02 ∗ 0.98 ∗ 202 = 3920

V(S3 ) =
j=1
Entonces
V(S) = 4750 + 4500 + 3920 = 13170
" #
S − E (S) s − E (S)
Se quiere P [S ≤ s] = 0.95, entonces P p ≤ p = 0.95 el cuantil del 95 %
V (S) V (S)
para una N (0, 1) es 1.644854
p √
Por lo tanto s = V (S) ∗ 1.644854 + E (S) = 13170 ∗ 1.644854 + 1700
= 1888.764
100
fS(s)
0.0000 0.0005 0.0010 0.0015 0.0020 0.0025 0.0030 0.0035
0
500
1000
101
s
1500
Aproximación Normal
2000
2500
3000
Aproximación Lognormal
Cuando la E (N ) no es lo suficientemente grande, y por lo mismo, la distribución de S posee

una cola pesada, la distribución normal deja de ser apropiada para aproximar la distribución
del riesgo. Es por esta situación que se sugiere usar la aproximación Lognormal aunque no
exista la teorı́a suficiente para sustentar que dicha aproximación sea buena.
Proposición
Para cualquier s > 0

ln (s) − µ
FS (s) = P [S ≤ s] ≈ φ
σ
Recordando que para la distribución Lognormal se tiene la siguiente esperanza y segundo

momento que son indispensables para obtener lo valores de µ y σ 2 :
σ2 2
E (S) = eµ+ 2 y E (S 2 ) = e2µ+2σ
Ejemplo
Suponiendo un modelo de riesgo colectivo para las pérdidas agregadas de una compañı́a
aseguradora y, en especı́fico, un modelo Poisson compuesto donde N ∼ P oisson(λ = 0.7),
mientras que los montos de reclamación se distribuyen Gamma con α = 2, θ = 150. Utilizar
la aproximación normal y lognormal para determinar las pérdidas agregadas por arriba de
300.
Sabemos que E (S) = λE (X) y V (S) = λE (X 2 )
Ya que X es gamma(α, θ). Entonces E(X) = αθ y V(X) = αθ2 . Por lo que
=⇒ E (X) = αθ = 300 y E (X 2 ) = V (X) + E (X)2 = 45000 + 3002 = 135000
=⇒ E (S) = 0.7 ∗ 300 = 210 y V (S) = 0.7 ∗ 135000 = 94500

300 − 210
Para la aproximación normal FS (300) = P [S ≤ 300] = φ √
94500
102
= φ (0.292770022) = 0.615151
Las pérdidas agregadas por arriba de 300 tienen una probabilidad de 0.384849 para la apro-
ximación normal
σ2 2
Para la aproximación lognormal E (S) = eµ+ 2 = 300 y E (S 2 ) = e2µ+2σ = 135000
Entonces
σ2
ln (300) = µ + 2
y ln(135000) = 2µ + 2σ 2 , =⇒ σ 2 = 0.4054 y µ = 5.50108

ln (300) − 5.50108
Finalmente FS (300) = P [S ≤ 300] = φ √ = φ (0.318364182) = 0.6249019
0.4054
Mientras que con la aproximación lognormal las pérdidas agregadas que rebasan 300 acumu-
lan una probabilidad de 0.375098
Aproximación Normal Aproximación Log−Normal

0.0030
0.0012
0.0025
0.0010
0.0020
0.0008
fS(s)
fS(s)
0.0015
0.0006
0.0010
0.0004
0.0005
0.0002
0.0000
0.0000
0 500 1000 1500 2000 0 500 1000 1500 2000
s s
A continuación se muestra gráficamente la comparación de ambas aproximaciones con res-

pecto a sus funciones de densidad resultantes, en donde se puede observar que, para valores
103
muy grandes, la cola de la distribución lognormal se encuentra por encima de la función de
densidad normal, situación que caracteriza este tipo de distribución. Además, algo que se
puede destacar es que, aunque las esperanzas de las dos distribuciones no están tan alejadas,
la varianza de la distribución normal es mayor, por poco más del doble que la varianza de la
distribución lognormal. Y aunque para valores entre 150 y 300 las funciones de distribución
acumulen probabilidades similares, en realidad para valores pequeños la distribución normal
acumula probabilidades mayores a la lognormal y vicerversa, para valores grandes se va acu-
mulando mayor probabilidad en la distribución lognormal contra la normal.
Comparaciones aproximaciones Normal vs. Log−Normal

0.0030
0.0025
0.0020
fS(s)
0.0015
0.0010
0.0005
Aproximación Log−Normal
0.0000
0 500 1000 1500 2000
104
Comparaciones aproximaciones Normal vs. Log−Normal
1.0
0.8
FS(s)
0.6
Aproximación Log−Normal
0.4
0 500 1000 1500 2000
105
Aproximación Gamma trasladada
Como su nombre lo expresa, bajo esta aproximación supondremos que el riesgo S asume
una distribución Gamma, pero para conocer exactamente los parámetros que ajustan a
esta distribución, se debe igualar las caracterı́sticas numéricas de la distibución de S a las
caracterı́sticas numéricas de una nueva variable aleatoria que es:
k+Z
donde k es una constante y Z es la variable aleatoria que se distribuye Gamma(α, θ) y tiene

f.d.p.
z
z α−1 e− θ
fZ (z) = α , z>0
θ Γ (α)
Entonces, primero se suponen conocidos o estimados los valores de E (S) = µ, V ar (S) = σ 2 y

E (S − E (S))3

el coeficiente de sesgo = τ, τ > 0; éstos se igualarán a sus correspondientes
[V ar (S)]3/2
de la v.a. k + Z que son:
E (k + Z) = k + αθ
V ar (k + Z) = θ2 α
E (k + Z − E (k + Z))3

2
3/2
=√
[V ar (k + Z)] α
De forma que
2
µ = k + αθ σ 2 = θ2 α τ=√
α
Resolviendo el sistema de ecuaciones para determinar los valores k, α y θ.

√ 2 4
α= =⇒ α = 2 , luego de σ 2 = θ2 α sustituyendo α se tiene
τ τ
106
4 σ2τ 2 στ
σ 2 = θ2 2
=⇒ θ 2
= =⇒ θ =
τ 4 2
y finalmente de µ = k + αθ se obtiene k
4 στ 2σ
k = µ − αθ = µ − 2
=µ− .
τ 2 τ
Ası́, por medio de la aproximación gamma trasladada, el riesgo S tiene una distribución
aproximada

2σ 4 στ
S ∼µ− + Gamma ,
τ τ2 2
1
Habrá ocasiones en las cuales el parámetro θ puede ser reemplazado por θ
y basta invertir
las igualdades para construir la distribución Gamma de S.
Esta aproximación generalmente se sugiere realizarla cuando la distribución de S se muestra

sesgada hacia la derecha, razón por la cual τ > 0; y porque la forma que toma dicha
distribución es aproximadamente la de una densidad Gamma con parámetros α y θ; sin
embargo, además de considerar esto, se le suma la constante k para obtener menos errores
en el ajuste.
Finalmente se llega a la siguiente proposición.
Proposición
Para cualquier s > 0.
FS (s) = P [S ≤ s] ≈ Gamma (s − k; α, θ)
Ejemplo
Supongamos que, bajo el modelo Poisson compuesto, el número de reclamaciones tiene dis-
tribución P oisson(λ = 10) y el monto de las reclamaciones Xi ∼ χ2(4) . Determinar FS (8)
por medio de la aproximación gamma trasladada.
107

k 1
En general χ2(k) es una distribución Gamma , =⇒ Para cada Xi se tiene que fX (x) =
2 2
x
x2−1 e− 2
donde, en nuestro caso, la Xi ∼ χ2(4) , es Gamma(2, 12 )
22 Γ (2)
Lo primero es encontrar los tres primeros momentos de S, para lo cual utilizaremos las
propiedades de la f.g.m. de las Xi y de ahı́ obtener los valores de µ, σ 2 y τ para S.
=⇒ MX (t) = (1 − θt)−α = (1 − 2t)−2
MX´(t) = −2(1 − 2t)−3 (−2) = 4(1 − 2t)−3 |t=0 = 4, E (X) = 4
MX ´´(t) = −12(1 − 2t)−4 (−2) = 24(1 − 2t)−4 |t=0 = 24, E (X 2 ) = 24
MX ´´´(t) = −96(1 − 2t)−5 (−2) = 192(1 − 2t)−5 |t=0 = 192, E (X 3 ) = 192
De aquı́ podemos obtener
µ = λE (X) = 10 ∗ 4 = 40
σ 2 = λE (X 2 ) = 10 ∗ 24 = 240
λE (X 3 ) 10 ∗ 192 8
τ=q =p =√
(10(24))3 240
(λE (X 2 ))3
4 4
Por lo que α = 2
= 82 = 15,
τ 240
√ 8
στ 240 √240 2σ
θ= = =4 y k =µ− = −20
2 2 τ
=⇒ S ∼ Gamma(s + 20, 15, 4)
Por lo tanto FS (8) ≈ Gamma (28, 15, 4)) = Γ (15, 7)
Para el ejemplo S ∼ Gamma(28, α = 15, θ = 4), evaluando directamente en R, y recordando

1
que a parametrización que usa este paquete es , obtenemos
θ
FS (28, 15, 1/4) = 0.005717202
108
La siguiente gráfica muestra las funciones de densidad y distribución asociadas
Aproximación Gamma transladada Aproximación Gamma transladada
1.0
0.025
0.8
0.020
0.6
0.015
FS(s)
fS(s)
0.4
0.010
0.005
0.2
0.000
0.0
0 50 100 150 0 50 100 150
s s
Aproximación Poisson Compuesta
La Aproximación Poisson Compuesta es otro método útil, bajo el que se pretende aproximar
el modelo de riesgo individual al modelo de riesgo colectivo, tal situación se realiza porque
existen más métodos para el cálculo de la distribución de S en el modelo colectivo; incluso
es indispensable saber que los siguientes métodos a desarrollar se basan en la construcción
del modelo colectivo.
n
X
En el modelo individual S = Xi donde Xi i = 1, 2, ..., n son v.a.´s independientes,
i=1
Xi = Ri Bi y Bi es el monto de la reclamación de la póliza i. Además, la v.a. Bernoulli (Ri )

del modelo individual asigna el valor de 1 cuando se efectúa un reclamación con probabilidad
qi y 0 con probabilidad (1 − qi ) de manera que su f.g.p. es:
PRi = (1 + qi (z − 1))
109
Bajo este método la Aproximación Poisson Compuesta asume que la v.a. Ri se distribuirá
Poisson (λi ) , para ello se proponen 3 métodos que asignan diferentes valores al parámetro
λi de esta distribución Poisson
1. El primero iguala las esperanzas de la v.a. Bernoulli(qi ) con la de una v.a. Poisson(λi ) ,
entonces:
λi = qi ; i = 1, 2, ..., n
Esta opción es buena para valores de qi cercanos a cero.
2. El segundo iguala la probabilidad en cero de ambas variables aleatorias, es decir
1 − qi = e−λi
=⇒
ln (1 − qi ) = −λi
∴ λi = − ln (1 − qi ) ; i = 1, 2, ...n y − ln (1 − qi ) > qi
3. El último método fue propuesto por Kornya y usa el siguiente valor para cada λi
qi
λi = ; i = 1, 2, ..., n
1 − qi
A su vez, el número esperado de pérdidas de este método es más grande que la esperanza
del segundo.
Para el caso del Modelo individual la f.g.m. de S asociada es
n
Y
MS (t) = PRi [MBi (t)]
i=1
considerando que Ri ahora se distribuye Poisson, entonces
110
n
Y
MS (t) = exp (λi [MBi (t) − 1])
i=1
por el resultado sobre la suma de distribuciones poisson compuesta, tenemos
n n n
X X λi X λi
λ= λi , MX (t) = MBi (t) y fX (x) = fBi (x)
i=1 i=1
λ i=1
λ
Ejemplo
Considerando los datos de la compañı́a aseguradora en donde se cubren 3 diferentes grupos

de asegurados, utilizar la Aproximación Poisson Compuesta para el modelo individual y pos-
teriormente con la aproximación normal encontrar FS (1900) para los 3 valores que puede
tomar λ.
La tabla correspondiente a este seguro es
i # de pólizas Probabilidad de reclamación Monto de Reclamación

1 1000 0.05 10
2 2000 0.10 5
3 500 0.02 20
Primeramente, con λi = qi
3
X
λ= ni λi = (1000 ∗ 0.05) + (2000 ∗ 0.10) + (500 ∗ 0.02) = 260
i=1
=⇒
1000 ∗ 0.05 ∗ 1 2000 ∗ 0.10 ∗ 0 500 ∗ 0.02 ∗ 0

fX (10) = + + = 0.192307692
260 260 260
1000 ∗ 0.05 ∗ 0 2000 ∗ 0.10 ∗ 1 500 ∗ 0.02 ∗ 0

fX (5) = + + = 0.769230769
260 260 260
111
1000 ∗ 0.05 ∗ 0 2000 ∗ 0.10 ∗ 0 500 ∗ 0.02 ∗ 1
fX (20) = + + = 0.038461538
260 260 260
Por ser Poisson compuesto
E (S) = λE (X) = 260 ∗ [(10 ∗ 0.192307692) + (5 ∗ 0.769230769) + (20 ∗ 0.038461538)]
= 260 ∗ 6.538461525 = 1699.999
V ar (S) = λE (X 2 ) = 260 ∗ 53.84615363 = 13999.99994

=⇒

S − 1699.999 1900 − 1699.999
FS (1900) = P √ ≤ √ = P [z ≤ 1.690317021]
13999.99994 13999.99994
= φ (1.690317021) = 0.9545155
Con λi = − ln (1 − qi )
3
X
λ= ni λi = (1000 ∗ (− ln(0.95))) + (2000 ∗ (− ln (0.9))) + (500 ∗ (− ln (0.98)))
i=1
= 272.1156794
=⇒
1000 ∗ (− ln(0.95)) ∗ 1
fX (10) = = 0.188498121
272.1156794
2000 ∗ (− ln (0.9)) ∗ 1
fX (5) = = 0.774380336
272.1156794
500 ∗ (− ln (0.98)) ∗ 1
fX (20) = = 0.037121542
272.1156794
E (S) = 272.1156794 ∗ 6.49931373 = 1768.565171
V ar (S) = 272.1156794 ∗ 53.0579373 = 14437.89666

1900 − 1768.565171
FS (1900) = P z ≤ √ = P [z ≤ 1.093851836]
14437.89666
= φ (1.093851836) = 0.86299
112
qi
Para λi =
1 − qi
3
X 0.05 0.10 0.02
λ= ni λi = 1000 ∗ + 2000 ∗ + 500 ∗
i=1
0.95 0.9 0.98
= 285.0578828
=⇒
1000 ∗ (0.05/0.95) ∗ 1
fX (10) = = 0.184634708
285.0578828
2000 ∗ (0.1/0.9) ∗ 1
fX (5) = = 0.779568767
285.0578828
500 ∗ (0.02/0.98) ∗ 1
fX (20) = = 0.035796525
285.0578828
E (S) = 285.0578828 ∗ 6.460121415 = 1841.508533
V ar (S) = 285.0578828 ∗ 52.27129998 = 14900.3461

1900 − 1841.508533
FS (1900) = P z ≤ √ = P [z ≤ 0.479175203]
14900.3461
= φ (0.479175203) = 0.684093
La siguiente gráfica muestra las funciones de densidad de S que surgen de la Aproximación

Poisson con cada uno de los métodos realizados
113
Comparación aproximación Poisson
0.004
0.003
Método 1
Método 2
Método 3
0.002
fS(s)
0.001
0.000
0 500 1000 1500 2000 2500 3000
Mediante las aproximaciones podemos conocer la distribución para S, sin embargo, es factible
que los resultados no se acerquen tanto a la realidad puesto que no se poseen muchas bases
para justificar que las distintas aproximaciones (normal, lognormal o gamma) se ajusten a
la distribución de los datos; y simplemente se pueden tomar estas decisiones por el aparente
comportamiento del número de reclamaciones y de las colas que tengan. Por ejemplo, si
tuvieramos el caso en que existe un lı́mite de póliza para las pérdidas, serı́a muy probable que
la severidad de nuestros datos tuviera una masa de probabilidad en este punto, debido a que
todas las reclamaciones que hayan excedido el monto u sólo recibirán a lo más esta cantidad
y eso determinarı́a dicha probabilidad; por lo cual, esta situación generarı́a irregularidades
en la forma de la distribución, y por tal situación, utilizar un método de aproximación no
serı́a la mejor manera de conocer la distribución del riesgo. Por tal motivo, a continuación
se desarrollarán otras propuestas de métodos que sirven para determinar la distribución del
riesgo S.
114
Cálculo de la distribución de S a través de convoluciones
Vimos en el desarrollo de la distribución del monto agregado de reclamaciones, S, que ésta

se especifica por medio de convoluciones de la variable asociada a la severidad, mediante un
cálculo recursivo. Concrétamente
Z ∞
(k−1)
FX∗k (x) = FX (x − y)dFX (y) para k = 1, 2, ...
−∞
y su densidad
Z ∞
(k−1)
fX∗k (x) = fX (x − y)fX (y)dy para k = 1, 2, ...
−∞
Únicamente para mostrar lo complejo que puede ser este cálculo, presentaremos un ejemplo
muy sencillo que ilustra cómo se realiza.
Ejemplo
Sea P(N = j − 1) = j/10 para j = 1, 2, 3, 4, la función de densidad discreta, y sea X una dis-
tribución de pérdida que toma sólo dos valores, con probabilidades f (1) = 0.4 y f (2) = 0.6.
Encontrar las correspondientes funciones de densidad y distribución de S, calculando la con-
volución. En este caso, las distribuciones de N y X son discretas, ası́ que debemos utilizar
las fórmulas recursivas
x
∗(k−1)
FX∗k (x) =
P
FX (x − y)fX (y) y
y=0
x
∗(k−1)
fX∗k (x) =
P
fX (x − y)fX (y) para x=0,1,2,..., k=1,2,...
y=0
Observemos primero que:
fX∗0 (0) = 1 y fX∗0 (x) = 0 ∀x 6= 0 y para k = 1, fX∗1 (x) = fX (x) y para k = 2,

fX∗2 = P(X1 + X2 = x), etc.
Realizando lo cálculos obtenemos la siguiente tabla
115
x f ∗0 (x) f ∗1 (x) f ∗2 (x) f ∗3 (x) fS (x) FS (x)
0 1 0 0 0 0.1000 0.1000
1 0 0.4 0 0 0.0800 0.1800
2 0 0.6 0.16 0 0.1680 0.3480
3 0 0 0.48 0.064 0.1696 0.5176
4 0 0 0.36 0.288 0.2232 0.7408
5 0 0 0 0.432 0.1728 0.9136
6 0 0 0 0.216 0.0864 1
P(N = n) 0.1 0.2 0.3 0.4
Ahora veamos cómo se generan estos valores. Tenemos cuatro valores para N ; n = 0, 1, 2, 3,
con probabilidades asociadas p0 = 0.1, p1 = 0.2, p2 = 0.3, p3 = 0.4. Por lo tanto, la función
de densidad de S se puede escribir como
3
pn fX∗n (x)
P
fS (x) =
n=0
Para simplificar la notación, omitiremos el subı́ndice X. Ya vimos que f ∗0 (0) = 1, y es el

único valor distinto de cero para la segunda columna de nuestra tabla. Además de esta fun-
ción, ya tenemos definada f ∗1 , que, como se puede calcular a través del proceso recursivo, la
construiremos sólo con fines ilustrativos. Entonces, cómo calculamos f ∗1 ?
Primero
x
f ∗1 (x) = f ∗0 (x − y)f (y), x = 0, 1, 2, ...
P
y=0
Antes de iniciar el cálculo de las convoluciones involucradas, reflexionemos un poco.
• Sabemos que f ∗0 (x) 6= 0 ⇐⇒ x = 0. Por lo tanto, los únicos casos relevantes para evaluar
esta función son cuando x = y.
• f (x) o en la fórmula f (y) sólo está definida para valores de y = 1 y y = 2, por lo que
f (y) = 0 ∀ y 6= 1, 2. Ahora sı́, iniciemos los cálculos.
116
Entonces tenemos lo siguiente
x = 0, y = 0 ⇒ f ∗1 (0) = f ∗0 (0)f (0) = 0
x = 1, y = 0 ⇒ f ∗1 (1) = f ∗0 (1)f (0) = 0
x = 1, y = 1 ⇒ f ∗1 (1) = f ∗0 (0)f (1) = 1 ∗ 0.4 = 0.4
x = 2, y = 0 ⇒ f ∗1 (2) = f ∗0 (2)f (2) = 0
x = 2, y = 1 ⇒ f ∗1 (2) = f ∗0 (1)f (1) = 0
x = 2, y = 2 ⇒ f ∗1 (2) = f ∗0 (0)f (2) = 1 ∗ 0.6 = 0.6. Obsérvese que ya no hay más valores
distintos de cero (f(y) se define como cero para y > 2), para valores que puede tomar x, y los
valores distintos de cero corresponden a la función original de densidad. Analicemos ahora
cómo construir f ∗2 = P(X1 + X2 = x). Primero tenemos que
x
f ∗2 (x) = f ∗1 (x − y)f (y), x = 0, 1, 2, ...
P
y=0
Dado que f (y) sólo es distinta de cero para y = 1 y y = 2, entonces, esta evaluación úni-
camente tiene sentido para estos valores en y, y cualesquiera otros en x. Por completez,
calcularemos algunos no incluidos en esta restricción, para verificar que son cero.
Entonces
x = 0, y = 0 ⇒ f ∗2 (0) = f ∗1 (0)f (0) = 0
x = 1, y = 0 ⇒ f ∗2 (1) = f ∗1 (1)f (0) = 0
x = 1, y = 1 ⇒ f ∗2 (1) = f ∗1 (0)f (1) = 0
x = 2, y = 0 ⇒ f ∗2 (2) = f ∗1 (2)f (0) = 0
x = 2, y = 1 ⇒ f ∗2 (2) = f ∗1 (1)f (1) = 0.4 ∗ 0.4 = 0.16
x = 2, y = 2 ⇒ f ∗2 (2) = f ∗1 (0)f (2) = 0
117
x = 3, y = 0 ⇒ f ∗2 (3) = f ∗1 (3)f (0) = 0
x = 3, y = 1 ⇒ f ∗2 (3) = f ∗1 (2)f (1) = 0.6 ∗ 0.4 = 0.24
x = 3, y = 2 ⇒ f ∗2 (3) = f ∗1 (1)f (2) = 0.4 ∗ 0.6 = 0.24
Aquı́ continuarı́an los cálculos con y = 3, pero, en este caso y los restantes, f (y) = 0. Por lo
tanto, no existen más casos para los que f ∗2 sea distinta de cero. Por lo que tenemos que,
f ∗2 (3) = 0.24 + 0.24 = 0.48.
Ası́ se puede continuar con el cálculo de los demás elementos de la tabla.
Para ilustrar cómo construir fS (x) y FS (x). De la definición de la primera
3
pn f ∗n (x). Sólo nos resta multiplicar los valores que hemos encontrado por las
P
fS (x) =
n=0
correspondientes probabilidades de N . Por ejemplo, para x = 2, tenemos
fS (2) = p0 ∗f ∗0 (2)+p1 ∗f ∗1 (2)+p2 ∗f ∗2 (2)+p3 ∗f ∗3 (2) = 0.1∗0+0.2∗0.6+0.3∗0.16+0.4∗0 =

0.168.
La función de distribución es simplemente el acumulado de la de densidad.
Este sencillo ejemplo muestra lo complicado que es encontrar la distribución de S, sobre todo
por lo laborioso del cálculo de la convolución.
El código en R para este ejemplo, es
#convolucion
f r < −c(0.1, 0.2, 0.3, 0.4)
f s < −c(0, 0.4, 0.6, 0)#Se amplı́a el vector para tener la misma dimensión que el de severidad
F s < −aggregateDist(“convolution”, model.f req = f r, model.sev = f s)
quantile(F s)
CDF s < −F s(c(0, 1, 2, 3, 4, 5, 6))
118
df s < −dif f (c(0, CDF s))
Las gráficas de las funciones de distribución y densidad de S, son
Distribución de S: Método convolución Densidad de S: Método convolución

1.0
● ● ● ●
0.20
●
0.8
0.15
0.6
FS(x)
0.10
0.4
0.05
0.2
●
0.0
0.00
0 2 4 6 8 10
Ejemplo con datos reales
Hagamos un modelo agregado utilizando convoluciones, con las dos tablas de datos dadas en
el libro de Loss Models from data to decision (Klugman), sobre un seguro dental para grupo.
Las tablas son las siguientes
119
Monto: X
x fX (x)
1 0.150
2 0.200
3 0.250
4 0.125
5 0.075
6 0.050
7 0.050
8 0.050
9 0.025
10 0.25
dado en unidades de 25 dólares.
Frecuencia: N
n p(N =n)
0 0.05
1 0.10
2 0.15
3 0.20
4 0.25
5 0.15
6 0.06
7 0.03
8 0.01
que representa la distribución del número de personas por cada “certificado de seguro” (i.e.,
por cada empleado) que recibieron cuidados dentales en el año que cubre el seguro. La solu-
ción la haremos totalmente en R
120
Métodos Recursivos
Fórmula Recursiva de Panjer
La distribución del riesgo S la mayorı́a de las ocasiones no es sencilla de obtener y a pesar
de que se puede obtener con el cálculo directo de la convolución
∞
X
FS (s) = pn FX∗n (x)
n=0
no suele ser una cuestión trivial. Primero porque las convoluciones de FX∗n (x) no siempre tie-
nen forma de alguna distribución conocida; pero más importante aún, este cálculo se vuelve
complejo a medida que aumenta el número de elementos en la convolución, inclusive con las
computadoras muy potentes, porque el número de operaciones que se deben llevar a cabo,
es muy elevado.
Es por esta razón que a través de la Fórmula Recursiva de Panjer los cálculos pueden
ser minimizados. Para ello, debemos retomar los conceptos que manejamos en los modelos
compuestos de frecuencia, donde considerábamos el modelo de riesgo colectivo tomando la
distribución de frecuencia y la de severidad como distribuciones discretas. Entonces, la dis-
tribución compuesta de S
S = X1 + X 2 + · · · + Xn
se obtenı́a mediante
∞
X
gk = pn fk∗n
n=0
con
pn = P (N = n)
fn = P (X = n)
121
gn = P (S = n)
fn∗k , k=0,1,2,... es la n-ésima convolución de fk
Para determinar gk del riesgo S lo primero que requerimos es pedir que la distribución aso-
ciada a la frecuencia, sea miembro de las clase (a,b,0) o (a,b,1). Esto porque las fórmulas
desarrolladas por Panjer quedan expresadas con base en estas distribuciones.
El enunciado formal del teorema de Panjer es:
Teorema
Para cualquier distribución compuesta, g0 = PN (f0 ), donde PN (z) es la f.g.p. de la distribu-

ción primaria y f0 es la probabilidad de la distribución secundaria cuando toma el valor de
cero. Si la distribución primaria es miembro de la clase (a,b,0), se tiene la fórmula recursiva:
k
1 X bj
gk = a+ fj gk−j ; k = 1, 2, 3, ...
1 − af0 j=1 k
Para el valor de g0

p0 = P [N = 0] si f0 = P [X = 0] = 0
g0 =
PN (f0 ) ó MN (log f0 ) si f0 = P [X = 0] > 0
Los siguientes resultados son necesarios para la demostración de la Fórmula recursiva de

Panjer:
122

bX1 bX1
E a+ S = k = a + E S = k
k k
b
= a + E [X1 |S = k]
k
n
" n
#
b X X
= a+ E Xj Xi = k

nk j=1 i=1
" n n
#
b X X
= a+ E Xj Xi = k
nk j=1 i=1
bk
= a+
nk
b
= a+
n
Este resultado se puede reescribir como
k
bX1 X bj
E a+ S = k = a+ P [X1 = j|S = k]
k j=0
k
k
X bj P [X1 = j] P [S − X1 = k − j]
= a+
j=0
k P [S = k]
Entonces, la igualdad a destacar es
k
b X bj P [X1 = j] P [S − X1 = k − j]
a+ = a+
n j=0
k P [S = k]
Recuérdese además que los miembros de la clase (a,b,0) cumplen la recursión

b
pn = a + pn−1 ; n = 1, 2, 3, ...
n
123
Ahora sı́, la demostración del teorema.
Dem. (Fórmula Recursiva de Panjer):
∞
X
gk = pn fk∗n
n=1
∞
X
= pn P [X1 + · · · + Xn = k]
n=1
∞
X
= pn P [S = k]
n=1
∞
X b
= a+ pn−1 P [S = k] (Ya que pn es de la clase (a,b,0))
n=1
n
∞ k
X X bj P [X1 = j] P [S − X1 = k − j]
= pn−1 a+ P [S = k] (igualdad destacada)
n=1 j=0
k P [S = k]
k ∞
X bj X
= a+ P [X1 = j] pn−1 P [S − X1 = k − j]
j=0
k n=1
Con la notación establecida de gn = P [S = n] , pn = P [N = n] y fn = P [X = n] y notando

que la segunda suma en el último término vuelve a quedar en términos de g, finalmente
tenemos
k
X bj
gk = a+ fj gk−j
j=0
k
k
X bj
= af0 gk + a+ fj gk−j
j=1
k
k
X bj
gk (1 − af0 ) = a+ fj gk−j
j=1
k
k
1 X bj
gk = a+ fj gk−j
(1 − af0 ) j=1 k
124
Análogamente
• Si la distribución primaria es miembro de la clase (a,b,1), la fórmula recursiva es:
k
X bj
[p1 − (a + b)p0 ] fk + a+ fj gk−j
j=1
k
gk = ; k = 1, 2, 3, ...
1 − af0
Estos resultados se pueden considerar de manera particular y tomando en cuenta la notación

∞
X
asociada con fS (x) = pn fX∗n (x), es decir, supongamos que la distribución de severidad
n=0
fX (x) está definida para los valores de 0, 1, 2, ..., m, porque en efecto los montos de reclama-
ción que recibe una compañı́a aseguradora generalmente tienen un tope de pago, y que la
frecuencia de las reclamaciones es pk , entonces:
Para pk de la clase (a,b,1)
x∧m
X
by
[p1 − (a + b)p0 ] fX (x) + a+ fX (y) fS (x − y)
y=1
x
fS (x) =
1 − afX (0)
donde x ∧ m representa el mı́n(x, m).
Para pk de la clase (a,b,0)
x∧m
X
by
a+ fX (y) fS (x − y)
y=1
x
fS (x) =
1 − afX (0)
Cuando la distribución es Poisson, sabemos que a = 0, b = λ. Entonces la fórmula se reduce

a:
x∧m
λX
fS (x) = yfX (y) fS (x − y) ; x = 1, 2, 3, ..
x y=1
125
Además, de igual forma que en la fórmulas recursivas anteriores, el valor inicial para deter-
minar la densidad de S es fS (0) = PN [fX (0)]
Ejemplo
Utilizando el método recursivo encontrar la probabilidad de que haya más de tres reclamacio-
nes agregadas, cosiderando que el modelo de riesgo colectivo se distribuye Poisson-Binomial
Negativa. Donde la distribución primaria es Poisson con λ = 2, y la distribución secundaria
es Binomial Negativa con β = 1.5 y r = 5
Deseamos 1 − FS (3) . Entonces para la distribución Binomial Negativa, recordando cómo se

escriben los modelos de la clase (a,b,0), tenemos
β β
a= = 0.6 y b = (r − 1) = 2.4, con
1+β 1+β
fX (0) = (1 + β)−r = (1 + 1.5)−5 = 0.01024
Utilizando la forma recursiva de esta distribución, calculamos el resto de valores necesarios

para encontrar la probabilidad que nos piden, como
fX (1) = (0.6 + 2.4) ∗ 0.01024 = 0.03072

2.4
fX (2) = 0.6 + ∗ 0.03072 = 0.055296
2

2.4
fX (3) = 0.6 + ∗ 0.055296 = 0.0774144
3
El primer valor del modelo agregado o de la función de densidad de S es
fS (0) = PN (fX (0)) = e2(fX (0)−1) = e2(0.01024−1) = 0.138135526
Para el resto de valores, recordar que nuestra distribución Poisson escrita como un elemento
de la clase (a,b,0), tiene a = 0 y b = λ = 2. Entonces
126
x
2X
fS (x) = yfX (y) fS (x − y)
x y=1

2
fS (1) = ∗ 0.03072 ∗ 0.138135526 = 0.008487047
1

2 2
fS (2) = ∗ 0.03072 ∗ 0.008487047 + ∗ 2 ∗ 0.055296 ∗ 0.138135526
2 2
= 0.015537406

2 2
fS (3) = ∗ 0.03072 ∗ 0.015537406 + ∗ 2 ∗ 0.055296 ∗ 0.008487047
3 3

2
+ ∗ 3 ∗ 0.0774144 ∗ 0.138135526 = 0.022331297
3
=⇒ 1 − FS (3) = 1 − (0.138135526 + 0.008487047 + 0.015537406 + 0.022331297)
= 0.815508724
La probabilidad de que existan más de tres reclamaciones bajo el modelo agregado es

0.815508724. A continuación se muestran los valores de las funciones de densidad y la dis-
tribución de S que se generaron por medio de R y para los primeros 6 valores.
x fS (x) FS (x)
0 1.381355e − 01 0.1381355
1 8.487047e − 03 0.1466226
2 1.553741e − 02 0.1621600
3 2.233130e − 02 0.1844913
4 2.785252e − 02 0.2123438
5 3.175299e − 02 0.2440968
6 3.414236e − 02 0.2782392
127
Distribución de Reclamaciones Agregadas Densidad de Reclamaciones Agregadas
Aproximación Método Recursivo (Panjer)
1.0
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●
●●●●
●●●
●●●
●
●●
0.12
●●
●
●
●
●
●
●
●
0.8
●
●
0.10
●
●
●
●
●
●
0.6
0.08
●
●
FS(s)
fS(s)
●
●
0.06
●
●
0.4
●
●
●
0.04
●
●
●
0.2
●
●
●
0.02
●
0.0
0.00
0 20 40 60 80 100 120
s s
Aproximación Método Recursivo (Panjer) Aproximación Método Recursivo (Panjer)
128
Datos reales
Nuevamente seguro dental del libro de Klungman
X : M onto N : F recuencia
x fX (x) n p(N =n)
1 0.150 0 0.05
2 0.200 1 0.10
3 0.250 2 0.15
4 0.125 3 0.20
5 0.075 4 0.25
6 0.050 5 0.15
7 0.050 6 0.06
8 0.050 7 0.03
9 0.025 8 0.01
10 0.25
Con solución completa en R.
De esta forma es como se implementa la Fórmula Recursiva de Panjer simpre que las
distribuciones de frecuencia en las reclamaciones agregadas no sean a su vez distribuciones
compuestas, puesto que cuando esta situación se presenta, para poder llevar a cabo el cálculo
de fS (x) se debe aplicar dicha fórmula por partida doble; esto es, consideremos la f.g.p. para
N :
PN (z) = P1 [P2 (z)]
donde P1 es la f.g.p. de la distribución primaria de frecuencias y P2 la secundaria.
De tal manera que para las reclamaciones agregadas
PS (z) = PN [PX (z)] = P1 [P2 (PX (z))] que podemos reescribir como
PS (z) = P1 [PS1 (z)] ; claramente PS1 = P2 [PX (z)] .
Esta distribución de S1 deberá ser la primera que se calcule mediante la fórmula de Panjer,
dando como resultado fS1 (x) ; x = 0, 1, 2, ... que funcionará como la nueva distribución
de “severidad”para encontrar fS (x); es decir, nuevamente se aplicará la fórmula recursiva,
comenzando por fS (0) = PS (0) = P1 [fS1 (0)] y posteriormente utilizando los valores de
129
fS1 (x) como las probabilidades de la distribución de severidad mientras que pn en esta
segunda vuelta será determinada por la distribución primaria de frecuencias.
Se ha utilizado el supuesto de que la severidad posee una distribución discreta para poder
aplicar el método recursivo; sin embargo, el análogo para este método, considerando que la
severidad es continua, queda expresado por medio de una ecuación integral.
Teorema
Para distribuciones de frecuencia de la clase (a,b,1) y cualquier distribución de severidad

continua con soporte en los reales positivos, se tiene la siguiente ecuación integral que deter-
mina la densidad del riesgo S :
Z x
by
fS (x) = p1 fX (x) + a+ fX (y) fS (x − y) dy
0 x
Las ecuaciones integrales de esta forma corresponden a ecuaciones integrales de Volterra de

segundo orden, y la demostración de este teorema queda fuera de los alcances de este curso.
Existen soluciones numéricas para estas ecuaciones que pueden ser consultadas en el libro
de Baker [13]. Sin embargo, en este estudio se utilizarán aproximaciones discretas para dis-
tribuciones continuas que modelen la severidad en las reclamaciones por medio del método
de redondeo, con el propósito de implementar el Método Recursivo de Panjer.
130
Método de Redondeo
Mencionamos y además vimos en los ejemplos, que el método de Panjer no funciona cuando la
densidad de la severidad es continua, por lo que debemos recurrir a discretizar esta función
para poder aplicar Panjer. El método de redondeo es una buena herramienta pa este fin.
Este método se utiliza para construir distribuciones discretas a partir de distribuciones de
severidad que sean continuas. Para ello se deben asignar probabilidades discretas en múltiplos
de alguna unidad de medida establecida h, que recibe el nombre de “span”; dicha distribución
se conoce como aritmética puesto que se define para enteros positivos.
El método de redondeo concentra la probabilidad de la mitad del span h, dividiendo la

probabilidad entre (j + 1)h y jh, de manera que asigna dicha mitad al punto j + 1 y la otra
al punto j. Es decir, si fj es la probabilidad comprendida en jh; j = 0, 1, 2, ...

h h
f0 = P X < = FX
2 2

h h h h
fj = P jh − ≤ X < jh + = FX jh + − FX jh −
2 2 2 2
Cuando la distribución a discretizar no está acotada, lo más apropiado es limitar los valores
que toma en algún punto m, que asegure una acumulación de probabilidades lo más cercana
a uno que se pueda, entonces fm = 1−FX [(m − 0.5)h] . De tal manera que las probabilidades
nunca sean negativas y la suma de ellas sea 1, para asegurar que realmente es una función
de densidad de probabilidades.
Ejemplo
Supóngase que la severidad de las pérdidas agregadas sigue una distribución Pareto con
α = 4 y θ = 50. Obtener su distribución discreta mediante el método de redondeo con un
span de 0.9.
X ∼ P areto(4, 50) y h = 0.9. Entonces
4
0.9 50
f0 = F X =1− = 0.035204354
2 0.45 + 50
fj = FX (0.9j + 0.45) − FX (0.9j − 0.45)
131
4 4
50 50
= −
(0.9j − 0.45) + 50 (0.9j + 0.45) + 50
En términos generales la función de densidad discreta queda expresada con fj . Evaluemos

la función para j = 0, 1, ..., 10 con el fin de mostrar sus valores en la siguiente tabla.
j fj
0 0.035204354
1 0.065881478
2 0.060352825
3 0.055371689
4 0.050875844
5 0.046811014
6 0.043129753
7 0.039790489
8 0.036756722
9 0.033996337
10 0.031481019
Finalmente, la siguiente gráfica muestra el ajuste de la distribución continua a la distribución

discreta
132
Comparación: Pareto (4,50) continua vs. discretizada
●●
●●
●●
0.06
●
● ●●
●
0.8
●
●
●
●
●
●
●
●
●
0.05
●
●
●
●
●
0.6
●
●
0.04
●
●
●
Real
●
Discretización
FX(x)
0.03
0.4
● Real
Discretización
●
0.02
●
●
0.2
0.01
●
●
0.0
0.00
0 10 20 30 40
Una vez que se tiene esta discretización de la función de severidad, se puede proceder a
aplicar el método de Panjer, para una distribución discreta de las familias (a,b,0) o (a,b,1).
133
Métodos de Inversión
Hasta el momento hemos desarrollado diversos métodos para poder encontrar la distribución
de las pérdidas agregadas correspondientes a los modelos que se pueden presentar en los datos
de una aseguradora, entre ellos se utilizaron convoluciones, aproximaciones asintóticas y la
fómula recursiva de Panjer. Además, en la sección anterior, también conocimos el método de
redondeo que se implementa para discretizar funciones continuas, de tal forma que posterior
a este proceso se pueda aplicar el método recursivo y finalmente conocer la distribución del
riesgo acumulado.
Otros métodos para encontrar la distribución de S se conocen como los de inversión. Estos
métodos numéricos se basan en el hecho de la correspondencia única entre las distribucio-
nes de las variables aleatorias con su función caracterı́stica (f.c.), su función generadora de
momentos (f.g.m.) y su función generadora de probabilidades (f.g.p.).
La razón por la cual se involucra a la función caracterı́stica en los métodos de inversión, es

porque, además de ser única, siempre existe. Por lo tanto, para una función caracterı́stica
dada, siempre tendremos su única y correspondiente función de distribución que finalmente
es la que nos interesa hallar.
Dicha correspondencia también se respeta al tratarse de distribuciones compuestas, debido

a que su función caracterı́stica queda expresada como una composición de funciones que
cumplen lo anterior.
Por lo tanto, la función caracterı́stica asociada a la distribución de pérdidas agregadas es:
ϕS (z) = E eiSz = PN [ϕX (z)]

donde PN es la f.g.p. de la frecuencia y ϕX (z) la f.c. de la severidad.
Transformada Rápida de Fourier (FFT)

Este algoritmo lo utilizaremos para obtener la función de densidad de variables aleatorias
discretas con base en la transformación de sus funciones caracterı́sticas. Entonces, la siguiente
definición muestra la Transformada de Fourier adaptada para una f.d.p.
134
Definición Para cualquier función de densidad de probabilidades continua f (x), la Trans-
formada de Fourier (función caracterı́stica) asociada es:
Z ∞
f˜ (z) = f (x) eizx dx
−∞
La f.d.p. que se obtiene a partir de la Transformada de Fourier es:
Z ∞
1
f (x) = f˜ (z) e−izx dz
2π −∞
Para el caso, f (x) es una función definida en los reales y f˜ (z) en los números complejos.
Mientras que la versión discreta de esta transformada es la siguiente
Definición Sea fx una función definida en todos los valores enteros de x. Para el vector

(f0 , f1 , ..., fn−1 ) la Transformada de Fourier discreta que tiene el vector f˜0 , f˜1 , ..., fñ−1 se
define por medio de
n−1
X 2πi
f˜k = fj exp jk ; k = 0, 1, ...
j=0
n
Este mapeo es biyectivo puesto que se transforman n puntos en n puntos.
La Transformada de Fourier Inversa es:
n−1
1X˜ 2πi
fj = fk exp − kj ; j = 0, 1, ...
n k=0 n
Cabe señalar que la Transformada Rápida de Fourier (FFT) es un algoritmo empleado para
conocer la Transformada de Fourier, sin embargo no se estudiará el desarrollo del algoritmo,
aunque es importante mencionar que reduce el número de cálculos realizados a un orden de
(n log n) mientras que la evaluación directa de la transformada lo harı́a en n2 operaciones;
que se vuelve más importante a medida que el valor de n es más grande. Además, el único
requerimiento que debemos considerar para aplicar este método es que el valor de n sea
potencia de 2.
135
Entonces, el proceso a seguir para hacer uso de la FFT y con ello conocer la distribución de
S es:
Discretizar la función de severidad de las pérdidas agregadas por el método de redondeo

y obtener el siguiente vector de probabilidades
fX (0) , fX (1) , ..., fX (n − 1)
con n = 2r , r entero y n se define respecto a fS (s) que se desea obtener.
Aplicar el algoritmo FFT al vector anterior para obtener la función caracterı́stica de

los montos de reclamación, en este caso ϕX (s) que igual es un vector de n entradas.
Una vez conocida la función caracterı́stica de la severidad y con la función generadora

de probabilidades del número de reclamaciones, se hace la composición de estas dos
para determinar la Transformadad de Fourier discreta (función caracterı́stica) de las
pérdidas agregadas.
Finalmente, se implementa el algoritmo de la Transformada rápida de Fourier en orden

Inverso (IFFT) que proporcionará la f.d.p. del riesgo S.
136
Ejemplo
Encontrar a través del método de la Transformada rápida de Fourier la función de densidad

de S, considerando n = 27 , que la distribución de severidad es Exponencial (1/4), el número
de reclamaciones se distribuye Binomial Negativa (β = 0.25, r = 10) y que se tienen las
siguientes modificaciones de la cobertura del seguro:
Deducible: d = 5
Lı́mite de póliza: α (u − d) = 40
Coaseguro: α = 80 %
Utilizar un “span”de 0.4 para el método de redondeo y considerar que son pérdidas agregadas
de pago.
La resolución de este ejemplo se hará mediante el uso de códigos en R. Esta situación se debe
a que los cálculos de la FFT sólo son posibles con el uso de un programa computacional.
La distribución de Y P asociada y que se debe discretizar es


 0 y=0



y

 FX 0.8
+ 5 − FX (5)
FY P = 0 < y < 40


 1 − FX (5)



1 y ≥ 40

En este caso que X ∼ Exp(1/θ) para FY P cuando 0 < y < α(u − d)
1 y

1 − e− θ ( α +d) − 1 − e− θ
d
1 y y
e− θ − e− θ ( α +d)
d d
e− θ 1 − e− αθ

FY p (y) = d = d = d
e− θ e− θ e− θ
y
= 1 − e− αθ
∴ Y P ∼ Exp(1/αθ), en el ejemplo Y P ∼ Exp(0.3125)
137
Código en R
a < −0.8
d < −5
l < −40
u < −(l/a) + d
h < −0.4
n < −27
f y < −discretize(pexp(x, rate = 0.3125), method = ”rounding”, f rom = 0, to = n ∗ h, step = h)

#Este vector resultante es la versión discreta y aproximada de la distribución de severidad
con las modificaciones de cobertura del seguro.
f cy < −f f t(f y, inverse = F ALSE) #Función caracterı́stica de los montos de reclamación.
Como el número de reclamaciones también se modifica por las coberturas, si N ∼ BinN eg(β, r),
entonces
N P ∼ BinN eg(β ∗ = βv, r) y v = 1 − FX (5)
v < −(1 − pexp(d, 1/4))
r < −10 ; b < −0.25
beta < −(v ∗ b)
La f.g.p. de N P es PN P (z) = [1 − β ∗ (z − 1)]−r
Entonces, la función caracterı́stica de S, es
ϕS (s) = [1 − β ∗ (ϕY P (s) − 1)]−r
f cS < −(1 − beta ∗ (f cy − 1))−r
138
Por último, se realiza la IFFT (Transformada rápida de Fourier Inversa) agregando la división
entre n que no calcula la función de R pero que es parte de la fórmula para obtener la función
de densidad de S de acuerdo a su definción.
f S < −Re(f f t(f cS, inverse = T RU E))/n
Esta es la tabla resumen de valores para ϕY P (s) , ϕS (s) y fS (s) con n = 128.
s ϕY P (s) ϕS (s) fS (s)

0 0.999999880 0.9999999 5.214224e − 01
1 0.866304586 0.8802309 3.862681e − 02
2 0.618238579 0.7162362 3.566183e − 02
3 0.418398588 0.6236285 3.290695e − 02
4 0.287939540 0.5768385 3.034938e − 02
5 0.205446738 0.5516760 2.797684e − 02
6 0.152087109 0.5369782 2.577756e − 02
7 0.116303997 0.5277549 2.374033e − 02
8 0.091418485 0.5216224 2.185448e − 02
Distribución de pérdidas agregadas: Método de Inversión

1.0
●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●
●●●●●●●●●
●●●●●
●●●●●
●
●●
●●
●●
●●
●
●
●
●
●
●
0.8
●
●
●
●
●
●
●
●
0.6
●
●
FS(s)
●
0.4
0.2
0.0
0 20 40 60 80 100 120
139
Método de simulación
El último método que consideraremos para encontrar la distribución de S en el modelo colec-
tivo, es el método de simulación que contiene el paquete actuar. Para implementarlo debemos
conocer de manera analı́tica tanto el modelo de frecuencias como el modelo de severidad.
Esto quiere decir que conocemos tanto los modelos subyacentes a la frecuencia y la severidad
de nuestros datos, ası́ como los parámetros de ellos. Una vez conocidos estos modelos la
función aggregateDist en su opción simulación: simulation, simulará los datos del modelo de
pérdidas agregadas que generan estos dos modelos para, posteriormente, construir la función
de distribución acumulada del modelo agregado.
140
Método de De Pril
Para el Modelo de riesgo Individual también se desarrolló una fórmula recursiva que pro-
porciona la distribución de S. Este resultado fue desarrollado por Nelson De Pril en 1986 y
considera un portafolio de n asegurados.
En este modelo se denota al número de asegurados por nij , donde con j se representa la
probabilidad de reclamación qj ; j = 1, 2, ..., m y con i, el monto de la reclamación realizada;
i = 1, 2, ..., r. De forma que
r X
X m
n= nij
i=1 j=1
Es indispensable que los montos de reclamación sigan una progresión aritmética, de manera
que los valores que corren sobre i puedan representar la progresión que tiene la severidad; es
decir, para valores de i = 1, 2, 3, 4 se pueden considerar, por ejemplo, los montos de beneficio
de los asegurados por las cantidades de 3000, 6000, 9000, 12000.
Probabilidad de reclamación (j)

q1 q2 ··· qm
1 n11 n12 ··· n1m
Monto de reclamación (i) 2 n21 n22 ··· n2m
··· ··· ··· ··· ···
r nr1 nr2 ··· nrm
La función de densidad para S queda expresada por la siguiente fórmula recursiva
x∧r bx/ic
1XX
fS (x) = fS (x − ik) h (i, k) ; x ≥ 1
x i=1 k=1
r Y
Y m
fS (0) = (1 − qj )nij
i=1 j=1
donde
m k
k−1
X qj
h(i, k) = i(−1) nij
j=1
1 − qj
141
Dem:
Considerando la f.g.p. de Xij para este caso que involucra la probabilidad de reclamación qj
y al monto i, entonces con esta nueva notación
PXij (z) = 1 − qj + qj z i

Luego la f.g.p. de S por la independencia de las Xij´s será
r Y
m
Y nij
PS (z) = 1 − qj + q j z i
i=1 j=1
tomando logaritmo y derivando respecto a z
r X
X m
nij ln 1 − qj + qj z i

ln [PS (z)] =
i=1 j=1
r m
iqj z i−1

d PS´(z) X X
ln [PS (z)] = = nij
dz PS (z) i=1 j=1
1 − qj + qj z i
Entonces,
" r X
m #
iqj z i−1
X
PS´(z) = PS (z) nij
i=1 j=1
1 − qj + q j z i
" r X
m #
i

X iqj z
zPS´(z) = PS (z) nij
i=1 j=1
1 − qj + qj z i
" r X
m
#
X iqj z i 1 − qj
= PS (z) nij i
i=1 j=1
1 − q j + qj z 1 − qj
" r X
m −1 #
iqj z i qj z i
X
= PS (z) nij 1+
i=1 j=1
1 − qj 1 − qj
∞
1 X
Si utilizamos el hecho de que , se puede expandir como (−1)k xk para |x| < 1.
1+x k=0
Entonces tenemos
142
" r X
m ∞ k−1 #
qj z i X qj z i
X
k−1
= PS (z) nij i (−1)
i=1 j=1
1 − qj k=1 1 − qj
" r X
m ∞ k #
X X qj
= PS (z) nij i (−1)k−1 z ik
i=1 j=1 k=1
1 − qj
m k
k−1
X qj
Ahora definimos h (i, k) = i (−1) nij
j=1
1 − qj
Debido a que las sumas sobre k y j son absolutamente convergentes en cualquiera de los
dos órdenes que se realicen, entonces es válido intercambiarlas, por lo tanto, regresando al
desarrollo anterior, tenemos que
" ∞
r X
#
X
ik
zPS´(z) = PS (z) h (i, k) z
i=1 k=1
∞ ∞
S X x
X
como PS (z) = E z = z P [S = x] = z x fS (x) y
x=0 x=0
∞
X ∞
X
PS´(z) = xz x−1 fS (x) = xz x−1 fS (x)
x=0 x=1
Entonces,
∞
X ∞
X
0 x−1
zPS (z) = z xz fS (x) = xz x fS (x)
x=1 x=0
Por lo tanto
∞
X ∞
X ∞
r X
X
x x
xz fS (x) = z fS (x) h (i, k) z ik
x=1 x=0 i=1 k=1
El coeficiente para x ≥ 1 de la parte izquierda de la igualdad de z x es xfS (x), mientras que

en el lado derecho, es la suma de los términos fS (x − ik) h (i, k), para aquellos valores de i
y k tales que 1 ≤ ik ≤ x. Entonces, ya que esta última expresión depende de dos ı́ndices
(i, j), se pueden establecer, en primer lugar, los posibles valores para i de la siguiente forma
i = 1, ..., x ∧ r, y por lo tanto los valores para k son k = 1, ..., bx/ic, donde x ∧ r es el valor
mı́nimo entre x y r, y bx/ic es la parte entera del cociente x/i. Igualando estos coeficientes
se tiene que
143
x∧r bx/ic
X X
xfS (x) = fS (x − ik) h (i, k)
i=1 k=1
x∧r bx/ic
1XX
∴ para x ≥ 1 fS (x) = fS (x − ik) h (i, k)
x i=1 k=1
y para S = 0 que es cuando no se efectúa ninguna reclamación, entonces x = 0 y de ahı́

r Y
Y m
fS (0) = (1 − qj )nij
i=1 j=1
De manera explı́cita, los primeros términos de esta fórmula son
r Y
Y m
fS (0) = (1 − qj )nij
i=1 j=1
fS (1) = fS (0) h(1, 1)

1
fS (2) = {fS (0) [h(1, 2) + h(2, 1)] + fS (1) h(1, 1)}
2
1
fS (3) = {fS (0) [h(1, 3) + h(3, 1)] + fS (1) [h(1, 2) + h(2, 1)] + fS (2) h(1, 1)}
3
..
.
144
Ejemplo
Una aseguradora posee una cartera de 66 pólizas para un seguro de vida. La siguiente tabla
muestra las probabilidades de reclamación y los montos de reclamación por grupo de asegura-
dos. Obtener la función de densidad de las pérdidas agregadas para valores de x = 0, 1, ..., 30
mediante la fórmula recursiva de De Pril
# pólizas Probabilidad de reclamación Monto de reclamación

20 0.02 5000
14 0.012 10000
8 0.05 15000
24 0.013 20000
Reescribiendo la tabla conforme a la Fórmula de De Pril:
Probabilidad de reclamación (qj )

0.02 0.012 0.05 0.013
1 20 0 0 0
Monto de reclamación (i) 2 0 14 0 0
3 0 0 8 0
4 0 0 0 24
La implementación de este método se realizó en R. A continuación se muestra una tabla

resumen de los primeros valores de la función de densidad y distribución de S, y su gráfica
para x = 0, 1, ..., 30.
x fS (x) FS (x)
0 0.2732243 0.2732243
1 1.115201e − 01 0.3847444
2 6.808043e − 02 0.4528248
3 1.366522e − 01 0.5894770
4 1.408985e − 01 0.7303755
5 6.588025e − 02 0.7962558
145
Distribución de Reclamaciones Agregadas Densidad de Reclamaciones Agregadas
0.30
1.0
● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
● ●
●
●
●
●
0.25
●
0.8
0.20
0.6
●
FS(s)
fS(s)
0.15
●
0.4
0.10
●
0.2
0.05
0.0
0.00
0 5 10 15 20 25 30
s s
Método de De Pril Método de De Pril
146
MEZCLAS DE DISTRIBUCIONES
Introducción
No siempre es posible modelar datos reales únicamente a través de una densidad, general-
mente, estos datos presentan formas que no se ajustan adecuadamente a las densidades más
conocidas en estadı́stica. Una manera de lidiar con este problema, es considerar la posibilidad
de que estos datos con formas no convencionales, puedan modelarse a través de una mezcla
de densidades o de distribuciones. Dada la flexibilidad que tienen los modelos de mezclas,
es posible lograr un mejor ajuste a estos datos. Una de las formas comunes en que aparecen
este tipo de datos en la teorı́a del riesgo es, por ejemplo, cuando los montos de reclamación
de un seguro presentan una mayor variabilidad de la que puede considerar cualquiera de los
modelos estadı́sticos utilizados para su ajuste. Por ejemplo, en un seguro de gastos médicos,
si no existe un control de las edades de los asegurados, es muy probable que se tenga diferen-
te exposición al riego entre ellos debido a esta diferencia de edades. De hecho, esta falta de
control propicia que la población asegurada sea heterogénea y, como sabemos, las densidades
asumen, generalmente, poblaciones homogéneas.
Una mezcla de distribuciones con k componentes tiene la forma
f (x; θ) = π1 f1 (x; θ1 ) + π2 f2 (x; θ2 ) + · · · + πk fk (x; θk ) , ó

k
X
f (x; θ) = πi fi (x; θi ) , con
i=1
k
X
πi = 1
i=1
donde cada componente de la mezcla es una función de probabilidad (Poisson, Binomial, etc.)
o una función de densidad (Normal, Exponencial, Gamma, etc.), e incluso de distribuciones
multivariadas, y θ y θi , i = 1, 2, ..., k pueden ser vectores de parámetros. En este caso, tenemos
una mezcla paramétrica, puesto que los componentes de la misma son funciones paramétricas.
Si los componentes de la mezcla se especifican de forma no paramétrica, entonces el modelo
de mezcla será también no paramétrico.
147
Estimación paramétrica del modelo de mezclas
La manera usual de estimar los parámetros y las proporciones (πi ) es a través del algoritmo
EM.
Algoritmo EM (Dempster, Laird and Rubin (1977))
El algoritmo EM (Expectation-Maximization) es un método general para encontrar el es-

timador de máxima verosimilitud de los parámetros de una distribución de probabilidad,
especialmente útil cuando parte de la información es desconocida o incompleta.
Situaciones de Datos Incompletos
Explı́citas
• Datos Faltantes
• Datos truncados y/o censurados
• Datos agrupados
Implı́citas
• Efectos Aleatorios
• Mezclas
• Clases Latentes
• Estructuras de Variables Latentes
148
El algoritmo EM para mezclas de distribuciones
En el caso de mezclas de distribuciones, lo que desconocemos es la pertenecia o membresı́a

de cada dato a alguno de los elementos de la mezcla.
Para fijar ideas, supongamos que la mezcla consta de dos distribuciones: f1 (x; θ1 ) y f2 (x; θ2 ) .
En este caso, los parámetros a estimar son {θ1 , θ2 , π1 , π2 = 1 − π1 } . La manera estándar de
plantear esta situación es con Y = (U, V), donde U representa los datos observados y V
representa la membresı́a o pertenencia. Concrétamente, V = 1 si la observación es de la
primera distribución, f1 (x; θ1 ) , y V = 0 si es de la segunda distribución, f2 (x; θ2 ) . La espe-
ranza no condicional E(V ) es la probabilidad de que una observación provenga de la primera
distribución, que es π1 . La información completa pero desconocida de esta muestra es: U,
u1 , ..., un , que representan los datos observados y V, v1 , ..., vn son los datos desconocidos. En-
tonces, los datos completos son parejas de la forma {(u1 , v1 ) , (u2 , v2 ) , ..., (un , vn )} con vi = 1
ó vi = 0.
El algoritmo realiza un proceso iterativo entre
Paso 1. Calcular la esperanza condicional de las cantidades desconocidas dadas las cantida-
des conocidas (P aso E)
Paso 2. Maximizar esta esperanza respecto a los parámetros por estimar (P aso M)
Paso 3. Continuar el proceso iterativo hasta lograr convergencia.
Mezcla de distribuciones normales
Uno de los modelos de mezclas más populares es sin duda el de distribuciones normales. En
un contexto actuarial, el uso de la normal como modelo para ajustar datos, es cuestionable
debido a que su suporte es R, y no R+ que es el soporte natural de los datos de monto
de reclamación. No obstante, si la media de los modelos subyacentes a la mezcla está muy
alejada del origen y la varianza no es muy grande, es posible utilizar este modelo de mezclas
para ajustar datos tı́picos de aplicaciones actuariales. El modelo para dos distribuciones
normales en la mezcla tiene la forma
149
f x; µ1 , µ2 , σ12 , σ22 , π1 = π1 f1 x; µ1 , σ12 + (1 − π1 ) f2 x; µ2 , σ22

con

1 1 2
fi (x, µi , σi2 ) = p 2 exp − 2 (x − µi ) , i = 1, 2
πσi 2σi
mezcla de densidades normales

0.20
0.15
Densidad
0.10
0.05
0.00
−4 −2 0 2 4 6 8
Supongamos que tenemos n observaciones de X, x1 , ..., xn , que representan los datos incom-
pletos. Los datos completos son de la forma {(x1 , v1 ), ..., (xn , vn )}, con vi = 1 ó vi = 0.
La verosimilitud completa quedarı́a como
n
Y v 1−vi
N1 (µ1 , σ12 ) i N2 (µ2 , σ22 )

Lc (θ; X, V) =
i=1
Con correspondiente log-verosimilitud
150
n
X
vi log N1 (µ1 , σ12 ) + (1 − vi )log N2 (µ2 , σ22 )

`Lc (θ; X, V) =
i=1
Entonces, en el paso-E del algoritmo, dado un valor provisional de θ, debemos calcular “el
grado de membresı́a”de cada uno de los datos a cualquiera de los dos grupos. Utilizando el
teorema de Bayes, de manera general tenemos que
f (xi |j)p(j) f (xi |j)p(j)

p(j|xi ) = =P
f (x) j f (xi |j)p(j)
En el caso de este ejemplo con dos mezclas normales y dado un valor provisional de θ = θ(k) ,
tenemos
(k) (k)
(k+1) π k N1 (µ1 , σ12 )
E(V |xi , θ (k)
)= πij = 2 1
P k (k) (k)
πj Nj (µj , σj2 )
j=1
(k) (k)
con π2 = 1 − π1 = 1 − π (k)
En cada paso-M, calcularemos los estimadores provisionales de los parámetros utilizado el

grado de membresı́a calculado en paso-E, previo. Estos grados de membresı́a son pondera-
ciones para los estimadores máximo verosı́milies. Que en este caso de mezcla de dos distri-
buciones normales, adoptan las formas simples.
La expresiones para actualizar cada uno de los parámetros involucrados son:
El P aso M : Probabilidad de pertenecer al primer elemento de la mezcla, es

(k) (k) 2(k)
π 1 N 1 x; µ 1 , σ 1
E V|x, θk =

(k) (k) 2(k) (k) (k) 2(k)
π1 N1 x; µ1 , σ1 + (1 − π1 )N2 x; µ2 , σ2
de donde se desprende
n
(k+1) 1X
E V|xi , θk

π1 =
n i=1
151
Que es la proporción de datos que pertenecen al primer elemento de la mezcla. La demás
actualizaciones son
Pn (k+1)
(k+1) i=1 π1 xi
µ1 = Pn (k+1)
i=1 π1
Pn (k+1)

i=1 1 − π 1 xi
(k+1)
µ2 =
Pn (k+1)
i=1 1 − π1
2
Pn (k+1) (k+1)
(k+1) i=1 π1 xi − µ 1
σ12 = Pn (k+1)
i=1 π1
Pn 2
(k+1) (k+1)
(k+1) i=1 1 − π1 xi − µ 1
σ22 = Pn
(k+1)
i=1 1 − π1
Modelos de mezclas más apropiados para datos

actuariales
Mezcla de densidades Weibull
Es claro que la naturaleza de la información que se utiliza en las aplicaciones actuariales,

hace cuestionable que una mezcla de normales pudiera ser un modelo plausible. No obstante,
se puede recurrir a mezclas de modelos que sean de uso común para modelar datos de esta
área. Por ejemplo, una mezcla de modelos Weibull. Las densidades Weibull con dos o tres
parámetros están dadas por las expresiones
α−1 α
α x x
f (x; α, β) = exp − , x≥0
β β β
α−1 α
α x−γ x−γ
f (x; α, β, γ) = exp − , 0<γ≤x<∞
β β β
con α, β y γ parámetros de forma, escala y localización, respectivamente. El modelo de

mezclas con dos densidades es
152
f (x; α1 , α2 , β1 , β2 , π1 ) = π1 f1 (x; α1 , β1 ) + (1 − π1 ) f2 (x; α2 , β2 ) , ó
f (x; α1 , α2 , β1 , β2 , γ1 , γ2 , π1 ) = π1 f1 (x; α1 , β1 , γ1 ) + (1 − π1 ) f2 (x; α2 , β2 , γ2 )
mezcla de densidades Weibull

0.35
0.30
0.25
0.20
Densidad
0.15
0.10
0.05
0.00
2 4 6 8
Mezcla de densidades exponencial
Otra mezcla que puede ser adecuada para datos actuariales es la de distribuciones exponen-
ciales
1 x
f (x; θ) = e− θ , x ≥ 0
θ
con modelo para dos mezclas
f (x; θ1 , θ2 , π1 ) = π1 f1 (x; θ1 ) + (1 − π1 ) f2 (x; θ2 )
153
mezcla de densidades Exponencial
3
Densidad
2
1
0
0.0 0.5 1.0 1.5 2.0
Mezcla de densidades gamma
Otro de los modelos univariados de gran utilidad en aplicaciones actuariales es la distribución

Gamma. Por lo que podemos utilizar algún modelo de mezclas con estas densidades
x
xα−1 e− θ
f (x; α, θ) = α ,x ≥ 0
θ Γ (α)
con mezcla para dos densidades
f (x; α1 , α2 , θ1 , θ2 , π1 ) = π1 f1 (x; α1 , θ1 ) + (1 − π1 ) f2 (x; α2 , θ2 )
154
mezcla de densidades gamma
0.0020
0.0015
Densidad
0.0010
0.0005
0.0000
0 200 400 600 800 1000
De hecho, cualquier modelo de uso común para ajustar este tipo de datos, puede utilizarse
dentro de una mezcla para lograr un mejor ajuste a la información. Realizaremos algunos
ajustes a datos simulados y reales utilizando algunos paquetes, como mixtools, de R.
155
Principios para el cálculo de primas
Mencionamos en la introducción de estas notas, que una prima es un pago por adelantado
que realiza el asegurado a una compañı́a aseguradora para obtener una cobertura parcial
o total contra un riesgo determinado, en los términos y condiciones que establece la póliza
del seguro. En este apartado estudiaremos algunas reglas generales para calcular el valor de
una prima tomando en cuenta únicamente los aspectos matemático-actuariales del riesgo, es
decir, no consideraremos cuestiones administrativas o mercadológicas del negocio del seguro,
que, en situaciones prácticas, son indispensables de considerar. Denotaremos por P, PS ó
P(S) a la prima para cubrir un riesgo, S. De esta manera, a la fórmula para calcular una
prima se le puede considerar como una función numérica de la variable aleatoria S o de su
respectiva distribución, FS .
Propiedades
Y ¿qué propiedades debe cumplir razonablemente una función, PS , para el cálculo de pri-
mas? Enunciaremos en seguida algunas propiedades generales que son deseables que posea
cualquier método para calcular primas.
Simplicidad. El cálculo de la prima debe ser fácil de realizar. La simplicidad de este

cálculo es deseable que se cumpla por varias razones, entre ellas está el aspecto práctico
del mismo, ası́ como el de lograr una pefecta comprensión del cálculo de esta prima, por
parte del asegurado y del resto de las personas involucradas en los procesos técnicos,
administrativos y legales del seguro.
Consistencia. Si un riesgo se incrementa en una constante, entonces la prima debe

reflejar ese cambio incrementándose en la misma cantidad, es decir, si c > 0 es una
constante, entonces
PS (S + c) = PS (S) + c
Aditividad. La prima de un portafolio consistente en dos riesgos independientes debe

ser la suma de las primas individuales, es decir,
156
PS (S1 + S2 ) = PS (S1 ) + PS (S2 )
con S1 y S2 dos riesgos independientes. Es claro que cuando se cumple esta propiedad,
el intentar combinar o separar los riesgos no resulta en ninguna ventaja o provecho ni
para el asegurado ni para el asegurador.
Invarianza de escala. Si a > 0 es una constante, entonces
PS (aS) = aPS (S)
es decir, si la cuantificación del riesgo, S, cambia de escala y se considera ahora el riesgo

aS, la prima para este nuevo riesgo debe ser aPS (S). Que equivale a la prima original
modificada con la misma escala. Esta propiedad es útil para corregir los efectos de la
inflación.
Cota inferior. La prima debe tener siempre como cota inferior la prima pura de riesgo,
esto es,
PS (S) ≥ E (S)
Sin embargo, en algunas situaciones es necesario suponer que las primas deben tener
siempre un recargo positivo y se considera la condición más restrictiva PS (S) > E (S).
A menos que se establezca lo contrario, la propiedad de cota inferior se entenderá en
el sentido PS (S) ≥ E (S), que es más fácil de verificar en los métodos de cálculos de
primas que estudiaremos.
Cota superior. Si un riesgo está acotado superiormente, entonces la prima para cubrir
este riesgo también debe tener la misma cota superior, es decir, si S ≤ M para alguna
constante M > 0, entonces
PS (S) ≤ M
157
Principios generales
Recordemos que la prima pura de riesgo está dada por PS (S) = E(S). Esta es la prima
destinada a solventar exclusivamente la reclamación del riesgo. Sin embargo, veremos a con-
tinuación la posible situación catastrófica en la que se podrı́a incurrir cuando se toma como
prima, PS (S) = E(S). Consideremos un portafolio homogéneo de n pólizas de seguro de un
mismo riesgo con una vigencia determinada de tiempo. Supongamos que se cobra la misma
prima, p, por cada póliza y que Sj representa el monto de las reclamaciones efectuadas por
la póliza j, mismas que se asumen independientes e idénticamente distribuidas. Si u es el
capital inicial de la aseguradora, entonces su capital al término de la vigencia de las pólizas es
n
X
Xn = u + np − Sj
j=1
n
X
= u+ (p − Sj )
j=1
Entonces, se tienen las siguientes dos situaciones:
1. Cuando p = E(S), se tiene
E (Xn ) = u + n (p − E (S))
= u
Es decir, en promedio la compañı́a aseguradora permanece con su capital inicial; sin

embargo, puede demostrarse que cuando n → ∞, casi seguramente
lı́m sup Xn = − lı́m inf Xn

n→∞ n→∞
lo implica que el capital Xn puede oscilar y tomar valores grandes, tanto negativos
como positivos.
158
2. Cuando p 6= E (S), por la ley de los grandes números, tenemos que
n
!
1 X
lı́m Xn = lı́m u+ (p − Sj )
n→∞ n→∞ n
j=1
n
1X
= lı́m (p − Sj )
n→∞ n
j=1
= E [(p − S)]
= p − E (S)
Ası́, para que este lı́mite sea el indicado, la variable Xn tiene que diverger a infinito o
menos infinito dependiendo del signo de p − E (S). Por lo tanto Xn tiene el siguiente
comportamiento lı́mite
(
+∞ si p > E (S)
lı́m Xn =
n→∞ −∞ si p < E (S)
En vista de estos dos resultados, es natural y deseable suponer p > E (S). Esta condición se
conoce con el nombre de condición de ganancia neta (net profit condition) y debe prevalecer
en cualquier método para calcular p = PS (S).
En general no existe un mecanismo de cálculo para la prima que sea el mejor ya que existen
condiciones que afectan la forma de calcular estas primas, entre ellas, las restricciones legales
y financieras, las condiciones del asegurado, las condiciones de la propia aseguradora y de las
otras aseguradoras, además de las condiciones del mercado del seguro. Todos estos son fac-
tores que determinan, directa o indirectamente, el valor de una prima para cubrir un riesgo
particular en una situación real. Estudiaremos a continuación algunas formas particulares pa-
ra el cálculo de primas. A estos procedimientos se les denomina con el término de prinicipios.
Principio del valor esperado. Este principio es uno de los más sencillos y establece que
la prima puede calcularse de la siguiente forma:
159
PS (S) = (1 + θ) E (S)
con θ > 0, una constante llamada factor de recargo (safety loading). Es decir, se tra-
ta de la reclamación promedio más un porcentaje de ésta. En el factor de recargo se
encuentran inmersos los costos administrativos y comerciales del seguro, ası́ como los
márgenes de utilidad de la aseguradora. La forma simple en la que se expresa este
principio es una de sus caracterı́sticas principales; sin embargo, puede observarse que
una desventaja de esta fórmula es que asigna la misma prima a dos riesgos con distinta
distribución pero con media común, y no toma en cuenta otro aspectos, por ejemplo,
si las varianzas de los riesgos fueran distintas, entonces las primas tal vez deberı́an ser
distintas.
Ejemplo
Mil quinientas estructuras están aseguradas contra incendios por una empresa. Las can-
tidades asegurado ($0000 s), ası́ como las probabilidades de un reclamo, varı́an según la
tabla
Seguro de incendio (1500 estructuras)

Categorı́a Monto (1000´s) qk Num. Estructuras
1 20 0.04 500
2 30 0.04 300
3 50 0.02 500
4 100 0.02 200
Si qk es la probabilidad de un reclamo para una estructura en la categorı́a k, y su-

ponemos que la posibilidad de más de un reclamo en cualquier estructura individual
es cero. Supongamos además que los incendios ocurren independientemente el uno del
otro, y que para una estructura asegurada por $ A pesos, el monto de un reclamo X
(con la condición de que haya una reclamación) es una v.a. uniforme en [0, A]. Sea
N el número de reclamaciones realizadas en un año y S la cantidad (en unidades de
$ 1000). Utilizado un modelo de riesgo individual para S, determinar la media y la
varianza de N y S. Si deseamos usar un factor de recargo de 2θ para las estructuras
en las categorı́as 1 y 2 y θ para las dos restantes, encontrar el valor de θ que nos da
un 99 % de probabilidad que las primas exceden los reclamos. También encontrar cuál
160
serı́a el valor correspondiente de θ si el número de estructuras en las categorı́as 1 y 2
se duplicara. Solución en R.
Principio de la varianza. Este principio hace uso de la esperanza y la varianza del

riesgo. En este caso el factor de recargo, θ > 0, se aplica sobre el valor de la varianza
de la siguiente forma:
PS (S) = E (S) + θV (S)
Este principio no sólo estima la siniestralidad media del riesgo, sino que proporciona,
además, el recargo de seguridad que debe llevar la prima para atender a las desviacio-
nes aleatorias de esta siniestralidad. Mediante la expresión de este principio, se dice
que el recargo de seguridad es proporcional a la varianza.
Principio de la desviación estándar. Nuevamente θ > 0 es una constante. En este

principio el factor de recargo se aplica sobre la desviación estándar del riesgo como
indica la fórmula posterior. A diferencia del principio de la varianza, en este caso las
unidades de medición del riesgo y de la prima coinciden. Y es evidente que
p
PS (S) = E (S) + θ V (S)
Este principio fue utilizado por Balbás, Gil y Heras (1990) como medida de riesgo en
un problema de reaseguro óptimo. Los principios de la varianza y desviación estándar
son los más utilizados en los tipos de seguros mencionados en la sección anterior.
Principio de utilidad cero. Este principio hace uso de una función de utilidad, esto
es, una función, v(x), definida sobre [0, ∞) o un subconjunto de este intervalo y con
valores en R, que cumple las propiedades que se mencionan a continuación, y cuya
gráfica general se muestra abajo
1. Es estrictamente creciente
2. Es cóncava
161
Función cóncava
1.4
1.2
1.0
0.8
f(x)
0.6
0.4
0.2
0.0
0.0 0.5 1.0 1.5 2.0
Una función con estas caracterı́sticas puede usarse para modelar el valor o utilidad que
una persona o institución asocia a un bien monetario o material. Suponiendo diferen-
ciabilidad, la primera condición se escribe v 0 (x) > 0, y la segunda condición significa
que v 00 (x) ≤ 0. A veces se añade la condición v(0) = 0 pues toda función de utilidad
(definida en x = 0) puede modificarse de tal forma que cumpla esa condición sin afectar
el resultado en los procesos de decisión que se llevan a cabo usando estas funciones. La
nueva función de utilidad serı́a v(x) − v(0). El principio de utilidad cero establece que
la prima para cubrir un cierto riesgo S es aquel número, p = PS (S), que satisface la
ecuación
u(u) = E [v (u + p − S)] (2)
en donde u es el capital inicial de la aseguradora. Es decir, la utilidad que representa

para la aseguradora el capital inicial u debe ser idéntica a la utilidad esperada al cubrir
el riesgo. Ası́, el cálculo de p = PS (S) está dado implı́citamente por la ecuación (2) y
para que la prima esté bien definida supondremos el caso cuando esta ecuación tiene
una única solución, p = PS (S). Debemos mencionar, sin embargo, que no es fácil resol-
ver de manera exacta ecuaciones de la forma (2), en cuyo caso pueden usarse métodos
numéricos para encontrar este valor p = PS (S) de manera aproximada. El siguiente
ejemplo es un caso muy particular y atı́pico en donde se puede calcular con facilidad
la solución p = PS (S) en (2).
162
Ejemplo
Considere la función de utilidad v(x) = 1 − e−αx , con α > 0. La prima se calcula como
aquel valor de p = PS (S) que es solución de la ecuación
1 − e−αx = E 1 − e−α(u+p−S)

Realizando algunos cálculos, se obtiene
1
p = PS (S) = ln(MS )(α)
α
Algunos ejemplos de otras funciones de utilidad son
• Función de utilidad exponencial
v(x) = 1 − e−αx , α > 0
• Función de utilidad cuadrática
v(x) = x − αx2 , α > 0, 0 ≤ x ≤ 1/2α
• Función de utilidad logarı́tmica
v(x) = αln(x), α > 0
• Función de utilidad de potencia fraccional
v(x) = xα , 0 ≤ α ≤ 1
Demostraremos que el principio de utilidad cero produce primas que cumplen la

condición p = PS (S) ≥ E(S). Por la desigualdad de Jensen en el caso de funciones
cóncavas,
163
v(x) = E [v (u + p − S)]
≤ v (E [(u + p − S)])
= v (u + p − E)
Como v es una función estrictamente creciente, es uno a uno, y por lo tanto su

inversa, v −1 , existe y también es estrictamente creciente. Al aplicar entonces la
inversa se preserva la desigualdad anterior y se obtiene que p = PS (S) ≥ E(S).
La igualdad se logra, por ejemplo, cuando S es constante.
• Principio del valor medio. Este principio hace uso de una función de valor, esto
es, una función, v(x) que cumple las propiedades
1. v(0) = 0
2. Es estrictamente creciente
3. Es estrictamente convexa
Función convexa
20
15
v(x)
10
5
0
0.0 0.5 1.0 1.5 2.0
El principio del valor medio establece que la prima p = PS (S) debe calcularse
a partir de la igualdad
v(p) = E [v(S)] (3)

Esta identidad significa que la compañı́a aseguradora asigna el mismo valor
a la prima que al promedio del valor de la reclamación y por lo tanto es
164
indiferente a cualquiera de las dos situaciones. Como la función v(x) es es-
trictamente creciente, es uno a uno, su inversa por lo tanto existe y es también
estrictamente creciente. De hecho, la inversa de cualquier función de utilidad
que se anula en cero es un ejemplo de una función de valor. Ası́, la prima
mediante este principio se puede escribir de la siguiente forma:
p = v −1 (E [v(S)])
Por la desigualdad de Jensen para la función convexa v, se tiene que

E [v(S)] ≥ v (E [S]), o bien por la misma desigualdad para la función cóncava
v −1 , v −1 (E [S]) ≥ E [v −1 (S)]. Ambas situaciones llevan a la desigualdad
p = PS (S) ≥ E [S]
Ejemplo: Consideremos la función de valor v(x) = eαx − 1, α > 0. Bajo este

principio, la igualdad (3) se escribe como

eαp − 1 = E eαS − 1
cuya solución es
p = PS (S) = α1 ln (MS (α))
que es igual a la solución obtenida en (2).
4. Principio exponencial. Este es el principio de utilidad cero aplicado a la fun-

ción de utilidad v(x) = 1 − eαx , α > 0. Y coincide también con el principio
del valor medio aplicado a la función de valor v(x) = eαx − 1, α > 0. Cuya
prima calculada, ya vimos que es
p = PS (S) = α1 ln (MS (α))
Obsérvese que en este caso la prima no depende del capital inicial, u. Puede
verificarse directamente que p = PS (S) ≥ E [S], que hemos demostrado antes
de manera general.
5. Principio del porcentaje. Sea > 0 una constante. El principio del porcentaje
sugiere que la prima p = PS (S) puede calcularse mediante la expresión
165
p = PS (S) = inf {x > 0 : PS (S > x) ≤ }
De esta forma la probabilidad de que el riesgo exceda el monto de la prima

debe ser pequeño o ajustable mediante el parámetro, . A este principio tam-
bién se le conoce como principio de pérdida máxima. Por ejemplo, si S sigue
una distribución exponencial de parámetro, λ, entonces PS (S > x) = e−λx .
Y, por lo tanto, p = PS (S) es el valor numérico tal que e−λx = , es decir,
1
p = − ln(). Entonces, en este ejemplo particular, se cumple la condición
λ
1 1
p = PS (S) ≥ E(S) si, y sólo si, − ln() ≥ − , es decir, ≤ e−1 . Esto
λ λ
muestra que el principio del porcentaje no produce, en general, primas que
cumplen la condición de ganancia neta.
6. Principio de Esscher. Antes de establecer este principio es necesario definir

primero la transformada de Esscher de una distribución de probabilidad para
la que existe la función generadora de momentos.
transformada de Esscher. Sea S un riesgo con función de densidad, f (x);

función de distribución F (x) y para el que existe la función generadora de
momentos MS (h), para algunos valores de h > 0. La transformada de Esscher
con parámetro h de f (x) es la función
1
g(x) = ehx f (x) (4)
MS (h)
Es inmediato comprobar que esta función es efectivamente de densidad. Por

ejemplo, puede demostrarse que la transformada de Esscher de la distribución
exponencial es nuevamente la distribución exponencial pero con parámetro
distinto. La definición de transformada de Esscher puede hacerse de manera
análoga para variables aleatorias discretas.
El principio de Esscher establece que la prima para cubrir el riesgo S es la

esperanza de esta nueva función de densidad, es decir,
166
Z ∞
1
p = xehx f (x)dx
MS (h) 0
hS

E Se
=
E (ehS )
Denotemos por p(h) a esta función. Es claro que p(0) = E (S) y puede de-
mostrarse que p(h) es una función creciente de h. Por lo tanto, p(h) ≥ p(0) =
E(S). Esto demuestra que se cumple la condición de ganancia neta y que
mientras mayor es el parámetro, h, mayor es la prima. Habiendo definido la
forma de calcular primas bajo este principio, vamos a hacer algunas obser-
vaciones acerca de la función de densidad (4), que es la función de densidad
ehx
original ponderada por la función creciente . La correspondiente fun-
MS (h)
ción de distribución de (4) es
Z x
1
G(x) = ehy f (y)dy
MS (h) 0
A esta función también se le llama la transformada de Esscher de la función

de distribución, F (x). Sea S̃ una variable aleatoria asociada a esta función de
distribución. Algunos cálculos sencillos muestran que la función generadora
de momentos de esta nueva variable aleatoria está dada por
M (t + h)
MS̃ (t) =
M (h)
7. Principio del riesgo ajustado. Este principio, ası́ como el de Esscher, está ba-
sado en una transformación de la distribución del riesgo. Para un riesgo S
con función de distribución F (x) se define una nueva función de distribución
de la siguiente forma
G(x) = 1 − (1 − F (x))1/ρ
con ρ ≥ 0, un parámetro conocido como el ı́ndice del riesgo. Puesto que

1 − F (x) es un número entre 0 y 1, y ρ ≥ 0, se cumple que
167
1 − G(x) = (1 − F (x))1/ρ
≥ 1 − F (x)
Esto significa que la cola de la distribución del riesgo está siendo sobre esti-
mada por la cola de la nueva distribución. Esta sobre estimación se usa para
definir la prima para cubrir S.
Principio del risego ajustado

1.0
F(x)
0.8
G(x)
0.6
0.4
0.2
0.0
0 2 4 6 8 10
Ası́, la prima por el principio del riesgo ajustado para el riesgo S se define
como la esperanza de la nueva función de distribución, es decir,
Z ∞ Z ∞
p = PS (S) = (1 − G(x)) dx = 1 − (1 − F (x))1/ρ dx
0 0
Se cumple la condición p ≥ E (S), pues
Z ∞ Z ∞
1/ρ
p= 1 − (1 − F (x)) dx ≥ (1 − F (x)) dx = E(S)
0 0
Puesto que hemos revisado algunos métodos particulares para calcular primas
y que contamos con una lista de propiedades deseables que deben cumplir los
métodos, surge el problema de determinar si se cumplen o no se cumplen las
propiedades para cada uno de los métodos enunciados. Algunas de estas com-
probaciones son inmediatas, algunas otras requieren un poco más de trabajo.
168
Teorı́a de la credibilidad
Consideremos un riesgo determinado que proveniente de un conjunto de asegurados vigentes
por un periodo determinado. Si este grupo de asegurados es homogéneo en el sentido de que
todos sus miembros tienen la misma probabilidad de realizar una reclamación, entonces es
razonable aplicar una misma prima a todos ellos. Sin embargo, cuando el grupo no es ho-
mogéneo, o bien, al paso del tiempo aparecen factores de heterogeneidad dentro del mismo,
habrá subgrupos de bajo riesgo y otros de alto riesgo. Cobrar una misma prima a todos
resultarı́a injusto, y no serı́a conveniente para la aseguradora pues, eventualmente, los ase-
gurados de bajo riesgo buscarı́an un mejor trato con otra aseguradora. La idea fundamental
es aplicar primas menores a los asegurados de bajo riesgo y primas mayores a los de alto
riesgo, con base en el historial de reclamaciones que cada uno de los asegurados o subgrupos
hayan realizado durante los periodos anteriores. En la teorı́a de la credibilidad se estudian
métodos para el cálculo de primas a través de la combinación de la experiencia individual
(historial de reclamaciones, datos propios) y la experiencia de grupo (datos del mercado,
contratos similares, experiencia propia acumulada, datos colaterales).
Este escenario plantea entonces que, cada caracterı́stica a estimarse en la población, depende
de dos fuentes de información (o tiene dos fuentes de datos): Los datos propios o datos indi-
viduales y la información colateral, dada por los datos del mercado o la experiencia propia
acumulada. Si basamos esta estimación sólo en los datos propios y éstos son escasos, entonces
su estimación será poco confiable (escencialmente podrı́a tener una varianza muy grande).
Por otro lado, si esta estimación se realizara únicamente con la información colateral, que,
tal vez, sea basta, podrı́a ser que no todos estos datos estuvieran totalmente relacionados con
el mismo riesgo, éste podrı́a haber sufrido modificaciones, por ejemplo, a través del tiempo.
Entonces, la mejor alternativa para estimar estas caracterı́sticas, debiera ser una combina-
ción de las dos fuentes de información. En concreto, si deamos estimar la caracterı́stica α de
la población, nuestro estimador debiera ser
Z α̂i + (1 − Z)α̂C
Con α̂i el estimador dado por la información individual y α̂C el estimador dado por la
información colateral. Con Z ∈ [0, 1] conocido como factor de credibilidad, generalmente
determinado por los datos individuales y colaterales. Si la información generada por la expe-
169
riencia propia es abundante, este factor deberı́a ser cercano a uno, y cercano a cero cuando
esta información sea muy escasa.
Para asignar el valor de Z en condiciones reales, se toman en cuenta
• El volumen de los datos individuales o propios respecto a los datos colaterales, y
• Diferencias entre datos individuales y colaterales.
170
Teorı́a de la credibilidad
Introducción
La teorı́a de la credibilidad es el conjunto de técnicas actuariales que permiten al asegurador
ajustar de modo sistemático las primas de los seguros en función de la experiencia de sinies-
tralidad ocurrida.
En la teorı́a de la credibilidad tienen roles primordiales los dos tipos de riesgo ya conside-
rados: el riesgo individual y el riesgo colectivo, y se da una solución rigurosa al problema
de cómo analizar la información proviniente de estas dos fuentes, para calcular la prima de
seguros y obtener una tarifa justa.
La teorı́a de la credibilidad como disciplina matemática, utiliza diversas herramientas de

varios campos de las matemáticas: Estadı́stica Bayesiana, análisis funcional, mı́nimos cua-
drados, modelos de espacio de estados, entre muchos otros. Varios autores, Bailey, Longley-
Cook, Mayerson, Bühlmann, Straub, Jewell, entre otros, se han dado a la tarea de dar una
fundamentación matemática rigurosa a esta teorı́a, que la ha convertido en una de las ramas
más atractiva y estudiada de la ciencia actuarial. Uno de sus principales usos aparece en el
seguro de automóviles, en el que las primas se van transformando paulatinamente a medida
que se incorpora información sobre la siniestralidad, dando origen a los denominados siste-
mas de tarificación bonus-malus.
El término credibilidad se introdujo por primera vez en USA antes de la primera guerra
mundial, en relación con los sistemas de ajuste de primas en seguros de compensación obrera
o seguros de accidentes. Por ese entonces, numerosas empresas ejercieron una fuerte presión
a las aseguradoras dada la baja siniestralidad laboral y la elevada tasa de actividad, para
que se les reconociera este hecho en los importes de primas a pagar.
Whitney (1918) publicó los primeros trabajos en esta materia con la aparición en los Pro-
ceedings de la Casualty Actuarial Society. De una forma simple, a través de una matemática
elemental, propone que la prima que debe pagar un asegurado considere tanto la experien-
cia individual (del asegurado) y la del colectivo (la cartera de seguros). De esta manera, la
estimación del monto de la prima, se calculará como
171
P = Z · X + (1 − Z) · C (1)
Con X la experiencia individual, C es la información disponible del colectivo y Z es un factor

que pondera estas dos informaciones, conocido como factor de credibilidad. Esta expresión
dio respuesta a la idea que rondaba la mente de muchos actuarios de la época: Encontrar un
mecanismo que permitiera asignar a estos dos tipos de información, la individual y la colecti-
va, un peso o ponderación que las complementara para la determinación de la prima a cobrar.
Intuitivamente, este factor de credibilidad, Z, deberı́a satisfacer las siguientes condiciones
Debe ser una función del tiempo de vigencia de la póliza, n, i.e., Z = Z(n).
Debe ser una función creciente de n, de tal manera que converja a uno si n → ∞ y
tienda a cero cuando n → 0. Este último caso, (n = 0), implicarı́a que no se tiene
información sobre el asegurado (serı́a un contrato nuevo), y la prima a cobrar serı́a,
C, la que se basa en la información del colectivo. En la medida que se incremente la
información sobre el asegurado (que n crezca), entonces esta información empezarı́a a
tener más peso en el cálculo de la prima a cobrar, i.e., la experiencia de siniestralidad
del asegurado tendrı́a mayor verosimilitud o credibilidad. En el caso extremo (n → ∞),
el valor de la prima debiera ser X, esto es, la prima deberı́a basarse únicamente en la
experiencia individual de la siniestralidad del asegurado.
El factor de credibilidad, Z, deberı́a ser también una función creciente de la varianza

de las primas teóricas, con lı́mite uno cuando esta varianza tienda a infinito, y cero
cuando tienda a cero. La lógica de esta cuestión es que si la cartera no es heterogénea,
i.e., es homogénea, entonces la prima basada en la información del colectivo serı́a el
mejor estimador de la prima individual. Por el contrario, una mayor heterogeneidad de
la cartera, deberı́a propiciar un mayor peso a la información individual del asegurado.
A mediados del siglo XX empezaba a tomar forma un nuevo enfoque de la estadı́stica, la

estadı́stica Bayesiana. No pasó mucho tiempo para que se constatara que muchos estimado-
res de Bayes, obtenidos para ciertas verosimilitudes (distribución conjunta de los datos) y la
distribución a priori o inicial natural conjugada del parámetro o parámetros que determinan
esta verosimilitud, correspondian a la expresión (1). De hecho, Whetney (1918) ya señalaba
172
que el problema de credibilidad era un caso de cálculo de probabilidades inversas (teorema
de Bayes). En el trabajo de Mayerson (1964) se utilizan por primera vez los términos de
credibilidad y estadı́stica Bayesiana.
Bajo el enfoque Bayesiano, la fórmula de credibilidad (1) puede interpretarse también de

la siguiente manera. Puede verse a C como la información a priori (basada, por ejemplo,
en contratos similares) y X la nueva información obtenida mediante la observación de la
siniestralidad de los últimos años. Finalmente, la prima, P, es el resultado de combinar la
información a priori con la información adquirida para obtener un estimador actualizado de
la prima. Por lo tanto, la teorı́a de la credibilidad es un proceso Bayesiano que combina la
información inicial o apriori con la información muestral para lograr una actualización del
estimador de la prima.
173
Enfoque Bayesiano
En la estadı́stica tradicional, enfoque clásico, uno de los problemas inferenciales más im-
portantes es la estimación del parámetro, θ, de una distribución de probabilidad, f (x; θ).
Para realizar dicha estimación seleccionamos una muestra aleatoria de esta distribución y se
tienen distintos métodos para estimar θ, considerando siempre que este parámetro tiene un
valor desconocido y fijo. En el enfoque Bayesiano, θ, se trata como una variable aleatoria
para la que se supone una distribución de probabilidad, p(θ), llamada distribución inicial o
distribución a priori. Esta distribución refleja la información subjetiva o cuantitativa que el
observador pueda tener sobre este parámetro, θ, antes de observar la muestra.
Actualización de la información a través del teorema de Bayes
La forma en la que se actualiza la información inicial sobre nuestro parámetros de interés,

θ, mediante la información contenida en la muestra, p(x|θ) = L(θ; X) (la verosimilitud), es
a través del teorema de Bayes.
Teorema de Bayes
Dados dos eventos A y B tales que P(B) > 0, la probabilidad condicional de A dado B,
P(A|B), se define como
P(B ∩ A) P(B|A)P(A)
P(A|B) = =
P(B) P(B)
Teorema de Bayes
Si {Ai : i = 1, 2, ..., M } es un conjunto exhaustivo de eventos mutuamente excluyentes, en-

tonces
P(B|Ai )P(Ai )
P(Ai |B) = M
P
P(B|Aj )P(Aj )
j=1
La forma esquemática de actualizar esta información a través del teorema de Bayes es la

siguiente
174
• θ debe tener una distribución de probabilidad, p(θ), que refleje nuestro conocimiento inicial
acerca de su valor.
• La información sobre θ que contiene la muestra aleatoria seleccionada, está resumida en la

verosimilitud: p(x|θ) = L(θ; X)
Por lo tanto, nuestro conocimiento acerca del valor de θ queda descrito a través de su dis-
tribución final
p(θ|X)
El Teorema de Bayes nos dice cómo encontrarla:
p(x|θ)p(θ)
p(θ|X) = Z
p(x|θ)p(θ)dθ
Este proceso se conoce como el proceso de actualización de la información sobre θ, y es la

manera de combinar las dos fuentes de información que tenemos: La inicial, dada a través
de p(θ), y la de la muestra, dada por medio de la verosimilitud: p(x|θ), para obtener la
distribución final: p(θ|X), que contiene la suma de estas dos fuentes de información.
Z
Obsérvese que el denominador, p(x) = p(x|θ)p(θ)dθ, no depende de θ, por lo que es común
escribir esta distribución final como
p(θ|x) ∝ p(x|θ)p(θ)
En la práctica, el cálculo de la distribución final puede ser un asunto complicado, especial-

mente si la dimensión del parámetro es grande.
Sin embargo, para ciertas combinaciones de distribuciones iniciales y verosimilitudes es po-

sible simplificar el análisis.
En otros casos se requieren aproximaciones analı́ticas y/o técnicas computacionales relativa-

mente sofisticadas.
175
Familias conjugadas
Comentamos en uno de los puntos anteriores, que existen ciertas combinaciones de distribu-
ciones iniciales y verosimilitudes, que simplifican el análisis Bayesiano, esencialmente, porque
el modelo de la distribución final de θ, pertenece a la misma familia que el de la inicial.
Definición. Sea P = {p(x|θ) : θ ∈ Θ} una familia paramétrica. Una clase (o colección) de

distribuciones de probabilidad F es una familia conjugada para P si para toda p(x|θ) ∈ P
y p(θ) ∈ F se tiene que p(θ|x) ∈ F
Algunos modelos paramétricos univariados con sus respectivas familias conjugadas:
Familia paramétrica Familia Conjugada
Bernoulli(x|θ) Beta(θ|α, β)
P oisson(x|λ) Gamma(λ|α, β)
Geométrica(x|θ) Beta(θ|α, β)
Exponencial(x|λ) Gamma(λ|α, β)
U nif orme(x|0, θ) P areto(λ|α, β)
N ormal(x|µ) Normal(µ|µ0 , λ0 )
N ormal(x|λ) Gamma(λ|α, β)
N ormal(x|µ, λ) N ormal − Gamma(µ, λ|µ0 , λ0 , α, β)
176
Ejemplo. Consideremos la familia paramétrica P = {Poisson(x|λ) : λ ∈ R+ }. Si utilizamos
como distribución inicial p(λ) ∈ F = {Gamma(λ|α, β) : α, β ∈ R+ }. Entonces, si se tiene
una muestra aleatoria x = (x1 , ..., xn ), la distribución final es
p(λ|X) = Gamma(λ|α + r, n + β)
n
P
con r = xi .
i=1
Dem. Sólo demostraremos que el kernel de la distribución final, pertenece a la distribución

Gamma(λ|α + r, n + β).
Sabemos, por Bayes, que
p(x|λ)p(λ)
p(λ|X) = Z
p(x|λ)p(λ)dλ
con
n
Y λxi e−λ Pn
xi −nλ
p(x|λ) = ∝λ i=1 e y
i=1
xi !
β α λα−1 e−βλ
p(λ) = , por lo que
Γ (α)
n
!
Pn Pn X
xi −nλ α−1 −βλ xi −1 −λ(β+n)
p(λ|X) ∝ λ i=1 e λ e = λα+ i=1 e ∝ Gamma α + xi , β + n
i=1
177
Credibilidad total o completa
Supongamos que S representa el riesgo para una aseguradora correspondiente a un asegurado
o un conjunto de asegurados con ciertas caracterı́sticas particulares, con covertura por un
periodo fijo determinado, por ejemplo, un año. Sean S1 , ..., Sm los montos de las reclamacio-
nes efectuadas por este asegurado o grupo de asegurados durante m periodos consecutivos,
y sea S̄ = (S1 , ..., Sm ) /m el promedio de las reclamaciones. Nos interesa estudiar el com-
portamiento de S̄ a lo largo del tiempo para un conjunto de asegurados en particular, pues
deseamos determinar si la prima que se les cobra a cada uno de ellos es la adecuada. Si las
variables S1 , ..., Sm son independientes, e idénticamente distribuidas y con esperanza finita,
entonces la ley de los grandes números garantiza que la media muestral S̄ converge a E (S),
conforme el número de sumandos crece a infinito.
Convergencia de S
E(S)
S
Definición. Sea k ∈ (0, 1) y p ∈ (0, 1) dos valores fijos. Se dice que S̄ tiene credibilidad total
o completa (k, p), si

P S̄ − E(S) ≤ kE (S) ≥ p
178
Esta definición enuncia que S̄ tiene credibilidad completa si dista de E(S), en menos de
kE(S) con probabilidad mayor o igual a p. Obsérvese que la definición tiene sentido cuando
E(S) es distinta de cero. En la práctica, obviamente se toman valores de k cercanos a cero
y valores de p cercanos a uno, tı́picamente k = 0.05 y p = 0.9.
Regresando al esquema de la estimación a través de las dos fuentes de información: datos

individuales e información colateral, nuestra estimación de S̄, queda como
Z S̄ + (1 − Z)E(S)
Notemos que estamos utilizando la esperanza de S como la información colateral. Entonces,

una pregunta que surge de manera natural es: de qué tamaño debe ser la experiencia propia
para que la aseguradora pueda eliminar la información colateral?. En otras palabras, cuál
es el número de periodos, m, necesarios para que se cumpla el enunciado de la definición
anterior?
Credibilidad completa bajo normalidad asintótica
Determinemos una condición sobre este número de periodos, m, para obtener credibilidad
completa asumiendo que, bajo el teorema central del lı́mite, S̄ tiene una distribución aproxi-
madamente normal. Recordemos que
V (S)
E S̄ = E (S) y V S̄ =
m
Entonces
179
!
S̄ − E(S) kE(S)
P S̄ − E(S) ≤ kE(S) = P p ≤p
V(S)/m V(S)/m
!
kE(S)
≈ P |Z| ≤ p
V(S)/m
!
kE(S) kE(S)
= P −p ≤Z≤ p
V(S)/m V(S)/m
! !
kE(S) kE(S)
= Φ p − Φ −p
V(S)/m V(S)/m
! !
kE(S) kE(S)
= Φ p −Φ 1− p
V(S)/m V(S)/m
√ !
k mE(S)
= 2Φ p −1
V(S)
Como esta probabilidad debe ser mayor o igual a p según la definición, tenemos que
√ !
k mE(S) 1+p
Φ p ≥
V(S) 2
Lo que queremos es encontrar el valor de m más pequeño que cumpla esta desigualdad, que
es aquel que cumple con la igualdad en esta ecuación. Denotemos por zq al cuantil de orden
q de la normal estándar, i.e., Φ(zq ) = q. Entonces, el valor mı́nimo de m para garantizar
credibilidad total o completa es tal que
√
k mE(S)
p ≥ z(1+p)/2
V(S)
y despejando m obtenemos
2
z(1+p)/2 V(S)
m≥
k 2 E2 (S)
180
Las cantidades E(S) y V(S) pueden estimarse por medio de la media y varianza muestral,
respectivamente, usando la información que se tenga a disposición al momento de hacer el
análisis. Substituyendo estos valores en la fórmula se puede conocer una aproximación del
número de periodos m de historial para que S̄ tenga credibilidad completa. Obsérvese que
cuando p crece, es decir, cuando se desea tener una mayor confianza en la estimación de S̄,
entonces el número de periodos de observación m también crece. Si además queremos que
el parámetro k decrezca también, es decir, si se pide que la distancia entre S̄ y E(S) tenga
menor amplitud, entonces m crece. En resumen, si requerimos condiciones muy exigentes a
estos parámetros, el precio que hay que pagar es un mayor número de periodos del historial,
de lo contrario, necesitaremos menos periodos.
Ejemplo
Supongamos que N denota la v.a. que representa el número de recamaciones de un porta-

folio de seguros, durante determinado periodo. Asumamos, como es costumbre, que N ∼
P oisson(λ). Supongamos además que la variable de monto de reclamación Xi , sigue una
distribución W eibull(α, β).
Recordemos que, dado que N es Poisson, entonces el modelo para S es Poisson compuesto.
Con
E(S) = E(N )E(Xi )

1
= λβΓ 1 + y
α

2 2
V (S) = λβ Γ 1 +
α
Encontrar el valor mı́nimo de m, para tener credibilidad total, si p = 0.9 y k = 0.05. Reali-
zando un cálculo simple obtenemos
1.962 λβ 2 Γ 1 + α2

m≥
(0.05)2 λ2 β 2 Γ2 1 + α1

Γ 1 + α2

⇒ λm ≥ 1536.64 2
Γ 1 + α1

181
Observemos que λm representa el total de reclamaciones promedio durante m periodos.
Ejemplo 2
La siguiente tabla corresponde a una muestra de 100 reclamaciones sobre un seguro. Su-
pongamos que la tasa media de reclamación es de 0.015. Calcular el número mı́nimo de
reclamaciones esperadas, ası́ como el tamaño aproximado que deberá tener el portafolio de
experiencia, para asignarle credibilidad total con k = 0.05 y p = 0.9
Tabla
Monto de reclamación Número de reclamaciones
0 − 400 2
400 − 800 24
800 − 1200 32
1200 − 1600 21
1600 − 2000 10
2000 − 2400 6
2400 − 2800 3
2800 − 3200 1
3200 − 3600 1
Entonces, recordemos que, en general
E (S) = E (N ) E (X) y V (S) = E (N ) V (X) + V (N ) E2 (X)
En este caso, utilizaremos las versiones empı́ricas
Ê (N ) = N̄ = 11.11111; V̂ (N ) = 135.1111
Ê (X) = X̄ = 1216; Ê2 (X) = 1841600
Entonces
Ê (S) = 11.11111 ∗ 1216 = 13511.11 y
V̂ (S) = 11.11111 ∗ (1841600 − 12162 ) + 135.1111 ∗ 1841600 = 252853312
252853312
m ≥ 1536.64 = 2128.427
13511.112
182
Credibilidad parcial
En muchas ocaciones reales, la experiencia acumulada no es tan grande como para otorgarle
credibilidad total o completa, solamente creibilidad parcial, (Z < 1). Entonces, necesitamos
determinar qué valor habrá que asignarle a Z, para que nuestro estimador S̄ cumpla las mis-
mas condiciones anteriores. Por lo que, en la combinación lineal convexa que determinamos
para estimar S̄, Z S̄ +(1−Z). Procediendo de manera semejante al desarrollo para creibilidad
total, tenemos que

P Z S̄ − E(S) ≤ kE(S) ≥ p
que podemos reescribir como

k
P S̄ − E(S) ≤ E(S) ≥ p
Z
condición similar a la de credibilidad completa, cambiando k, por k/Z. Es decir, la credibili-

dad parcial (k, p), para Z S̄ + (1 − Z)E(S), es equivalente a la credibilidad completa (p, k/Z),
para S̄.
Credibilidad parcial bajo normalidad asintótica

De manera totalmente análoga al desarrollo para credibilidad completa, bajo la hipótesis de
normalidad asintótica para S̄ y para los valores de k y p mencionados anteriormente, se tiene
la aproximación
Z 2 z(1+p)/2
2
V (S)
m≥
k 2 E2 (S)
de donde obtenemos
√
kE (S) m
Z= p
z(1+p)/2 V (S)
183
Este valor de Z excede el valor de uno para valores suficientemente grandes de m, por lo
tanto se define el factor de credibilidad como
( √ )
kE (S) m
Z = min p ,1
z(1+p)/2 V (S)
Ejemplo. Retomemando nuestro primer ejemplo
Donde N ∼ P oisson(λ) y Xi , sigue una distribución W eibull(α, β), con k=0.05 y p=0.9.
Calculemos la condición de credibilidad parcial para Z S̄ +(1−Z)E(S). En este caso tenemos
que
Γ 1 + α2

⇒ λm ≥ 1536.64 2 1
Z2
Γ 1+ α
Si tomamos la igualda y despejamos Z, obtenemos
√
λmΓ 1 + α1

Z= q
39.2 Γ 1 + α2

Entonces, la combinación lineal queda como
√ 1
 √ 1

λmΓ 1 + α λmΓ 1 + α
q S̄ + 1 − q E (S)

2 2

39.2 Γ 1 + α 39.2 Γ 1 + α
con E (S) es el valor esperado teórico de S y S̄ es la experiencia observada.
184
Credibilidad Bayesiana
La estadı́stica Bayesiana consituye una manera natural de incorporar el historial de reclama-
ciones (información) de un grupo de asegurados en el cálculo de las primas. Una aseguradora
que ha tenido mucha experiencia realizando este cálculo, tendrá una estimación más precisa
de estas primas; no obstante, sólo será una estimación que deberá actualizar tan pronto ten-
ga más información a mano. Por el contrario, una nueva aseguradora en el mercado, tendrá
poca o nula información propia en la que basar sus estimaciones, por lo que dicha estimación
será muy incierta y, tal vez, esté basada en la información del mercado o de juicios subjetivos
de especialistas del área, por lo que le resultará de suma importancia actualizarla en cuanto
empiece a acumular información propia.
Aplicación a la teorı́a de credibilidad
Por lo general, la tasa de frecuencia de reclamación, λ, de un seguro presenta incertidumbre,

por lo que se puede suponer que sus valores están dados mediante una distribución de pro-
babilidades. El rango de definición de esta tasa es λ ∈ (0, ∞), por lo que una distribución
adecuada para ella puede ser la Gamma(α, β). Consideremos también que el número de
reclamaciones sigue una distribución P oisson(λ) y tenemos m pólizas o periodos de obser-
vación independientes. Entonces la distribución final de la tasa de frecuencia de reclamación
es una Gamma con las caracterı́sticas anteriores. Esta distribución final tiene media
α+ m
P
i=1 xi α + mS̄
=
β+m β+m
m β α
= S̄ +
β+m β +mβ
α
= Z S̄ + (1 − Z)
β
m
con Z = el factor de credibilidad. Este factor crece de forma monótona a uno cuando
m+β
m tiende a infinito, dando, como es lógico, cada vez más credibilidad a la media muestral S̄,
es decir, a la información individual o de la Cı́a., y menor credibilidad a la media teórica o
poblacional, que representa la información colateral. Además si m tiende a infinito la media
185
de la distribución final o aposteriori converge a la media muestral lı́mite dada por el historial
de reclamaciones; y la varianza de esta tasa, λ, que es
α + mS̄
(m + β)2
converge a cero, lo cual indica que la distribución final se concentra cada vez más alrededor
de su media.
Ejemplo: Estimación del fraude en un tipo de póliza
Un actuario desea estimar la proporción, θ, de fraude en un determinado tipo de póliza.

Para esto, se realizan inspecciones aleatorias a las reclamaciones realizadas. Se sabe que el
fraude en el sector es del 4 % con una desviación estándard del 2 %. Se inspeccionan un total
de 240 pólizas, y se determina que 22 de ellas son fraudulentas. El actuario quiere combi-
nar estas dos fuentes de información (Sector y Cı́a.) para actualizar esta proporción de freude.
Sea X v.a. que representa el número de pólizas fraudulentas en un total de n inspecciones.

Es claro que X tiene una distribución Binomial(n, θ).

n x
f (x|θ) = θ (1 − θ)n−x , x = 0, 1, ..., n; θ ∈ (0, 1)
x
Bajo el enfoque Bayesiano, debemos asignar una distribución inicial a θ. El hecho de que
su espacio parametral sea (0, 1), nos obliga a buscar una distribución que tenga flexibili-
dad (distintas formas posibles) en este intervalo; una elección que parece conveniente, es la
distribución beta.
186
Diversas formas de la distribución Beta Diversas formas de la distribución Beta
10
8
8
6
a1= 3 , a2= 1
a1= 3 , a2= 0.8
6
a1= 3 , a2= 0.6

a1= 0.5 , a2= 3 a1= 3 , a2= 0.4
a1= 1 , a2= 3 a1= 3 , a2= 0.2
Beta
Beta
a1= 1.5 , a2= 3 a1= 3 , a2= 0.1
a1= 3 , a2= 3
4
a1= 5 , a2= 3
a1= 7 , a2= 3
4
2
2
0
0.0 0.5 1.0 1.5 2.0 0.0 0.5 1.0 1.5 2.0
x x
cuya función de densidad es
θα−1 (1 − θ)β−1
p(θ; α, β) = ; θ ∈ (0, 1), α > 0, β > 0
Beta(α, β)
con α y β parámetros de la distribución inicial, conocidos como hiperparámetros, que se

pueden estimar a partir de la información inicial sobre θ, cuya distribución inicial supusimos
Beta(α, θ), de la siguiente forma
α
E (θ) = = 0.04, y
α+β
αβ
V (θ) = 2
= 0.022
(α + β + 1)(α + β)
cuya solución es: α = 3.648 y β = 91.2.
Para encontrar la distribución final de θ dados los datos observados, utilizaremos el teorema
de Bayes para distribuciones. Sabemos que, en este caso, la distribución final también debe
187
ser una Beta, porque es conjugada para la Bernoulli. Por lo que sólo resta ver cómo se ac-
tualizan los parámetros de la Beta inicial (Modelo Beta-Binomial). Entonces
f (x|θ)Beta(θ|α, β)
p(θ|X) = Z 1
f (x|θ)Beta(θ|α, β)dθ
0
θα−1 (1 − θ)β−1

n x
θ (1 − θ)n−x
x Beta (α, β)
= Z 1
n x θα−1 (1 − θ)β−1
θ (1 − θ)n−x dθ
0 x Beta (α, β)
θx+α−1 (1 − θ)n−x+β−1
=
Beta(x + α, n − x + β)
Por lo tanto
p(θ|x) = Beta(x + α, n − x + β)
Con x el valor observado de la Binomial. Entonces, la media de la distribución final, que es

la proporción de fraude actualizada, es
α+x
E (θ|x) =
α+β+n
n x α+β α
= +
α+β +nn α+β +nα+β
n α+β
= θ̂ + E(θ)
α+β+n α+β+n
que representa la fórmula de credibilidad, donde se combinan la experiencia del sector (co-
lectivo) y la información de la Cı́a. (individual). Con el factor de credibilidad dado por
n
Z=
α+β+n
188
Finalmente, la proporción de fraude actualizada es 0.08294955 y factor de credibilidad
Z = 0.7167431. Para construir un intervalo de probabilidad sobre esta proporción. Debemos
encontrar los lı́mites (l, u), sobre la distribución final de θ, tal que
P (l ≤ θ|x ≤ u) = 1 − q
con 0 < q < 1, la probabilidad de cobertura deseada.
189
Cálculo Bayesiano de primas de seguros
El uso de las distribuciones iniciales que tienen un carácter evidentemente subjetivo, resulta
de utilidad en el mercado de seguros, sobre todo si se tiene en cuenta que cuando se quiere
tarifar un riesgo nuevo no se dispone de información para ello.
La visión Bayesiana se incorporó rápidamente a la disciplina actuarial, demostrando que

algunas primas que se obtienen a través de la metodologı́a Bayesiana pueden escribirse como
fórmulas de credibilidad.
En estos términos actuariales, la cuestión básica de credibilidad es determinar una prima

establecida como una combinación lineal convexa entre la experiencia particular de un ase-
gurado y la experiencia del colectivo, esto es, toda la cartera. Es decir
Pj = Z P̂ + (1 − Z) P0
Con
• Pj prima a aplicar a los asegurados por el riesgo j.
• P0 prima a aplicar a un colectivo al que pertenece el asegurado j.
• P̂ Prima calculada con base en la experiencia del asegurado j.
• Z Factor de credibilidad. Que debe verificar las condiciones: limm→∞ Z = 1, con m el

número de sujetos expuestos al riesgo j o el periodo de observación de la póliza j. Entonces,
si Z = 1 la experiencia del asegurador recibe credibilidad total o del 100 %, mientras que si
Z = 0, Pj = P0 y la prima del asegurado j coincide con la del colectivo a la que pertenece
dicha póliza, o la experiencia del colectivo recibe credibilidad total o del 100 %.
Entonces, desde el punto de vista Bayesiano, esta fórmula de credibilidad puede interpretar-
se como: Podemos considerar P0 como la información inicial o a priori. A P̂ como la nueva
información que se obtiene mediante la observación de la siniestralidad del riesgo j (los datos
recabados; la información recabada) y Pj la actualización del cálculo de la póliza (prima a
posteriori), resultado de combinar la información inicial con la información recabada. Por lo
tanto
190
P rima(a posteriori) = (1 − Z) ∗ Prima a priori + Z ∗ Experiencia dada por los datos
De esta manera, la teorı́a de la credibilidad Bayesiana, sigue un esquema donde la infor-

mación a priori sobre el cálculo de las primas, se actualiza con la información dada por
la observación del siniestro (muestra), dando como resultado la actualización de la prima,
mediante el cálculo de la prima a posteriori.
191
Procesos estocásticos
En este apartado haremos una presentación breve de diversos aspectos relacionados a los
procesos estocásticos. Se definiran algunos conceptos y propiedades de ellos, además de pro-
porcionar ejemplos particulares de procesos estocásticos. Estas herramientas serán de gran
utilidad para el estudio de la teorı́a de la ruina y de reservas, que son nuestros objetivos
finales del curso.
Proceso estocástico
Def. Un proceso estocástico es una colección {Xt }t∈T de variables aleatorias indexadas por un
conjunto, T, y definidas en algún espacio de probabilidad (Ω, F , P). Consideramos al con-
junto de ı́ndices, T, como un parámetro temporal, por ejemplo: {0, 1, ..., n}, N, [0, t] ó [0, ∞).
Interpretamos un proceso estocástico como la evolución en el tiempo de algún fenómeno cu-
yo comportamiento lo rige el azar (es aleatorio). Un ejemplo dentro del área actuarial está
determinado por la evolución en el tiempo, de la reserva de una compañı́a de seguros. En
finanzas, por ejemplo, Xt puede representar el precio de una acción bursátil al tiempo, t.
En un contexto más trivial, la cantidad de soles (águilas) acumuladas en una sucesión de
lanzamientos de una moneda (“volados”) también constituye un proceso estocástico.
En el segundo ejemplo, se puede indexar al proceso por algún intervalo de números naturales,
en cuyo caso hablaremos de un proceso estocástico a tiempo discreto. Además, dicho proceso
toma valores en los naturales, por lo que también se trata de un proceso con espacio de esta-
dos discreto. En el primer caso, se puede pensar en un modelo indexado por un subintervalo
de [0, ∞) y hablaremos de un proceso estocástico a tiempo continuo. Además, en principio,
el valor de la reserva podrı́a ser cualquier real no-negativo y por lo tanto hablamos de un
proceso con espacio de estados continuo.
Ejemplos
Caminatas aleatorias y el problema de la ruina. Modelemos la siguiente situación: Tenemos

un capital de 50 pesos al tiempo cero y cada instante de tiempo apostamos un peso en un
“volado”, ganándo si cae águila. ¿Cómo podemos modelar y estudiar la evolución de nuestro
capital a través del tiempo?. Un particular interés es la variable aleatoria que nos indica el
instante en que nos arruinemos por primera vez, misma que a priori podrı́a ser infinita si
192
jamás nos ocurre este evento (“sı́, como no” ).
Entonces, nuestro modelo se construye de la siguiente manera. Sean U1 , U2 , ... variables alea-
torias uniformes en (0, 1), independientes. Sea 1Ui ≤1/2 , la variable aleatoria indicadora que
denota si el resultado del i-ésimo lanzamiento fue águila (Ui = 1) y, por tanto, la variable
aleatoria 21Ui ≤1/2 − 1, toma los valores 1 si cae la moneda águila y -1 si cae la moneda sol.
Con estas consideraciones, podemos definir nuestro modelo como
X0 = 50, y Xn+1 = Xn + 21Un+1 ≤1/2 − 1
Trayectoria del proceso de ruina del jugador

80
●●
●
●
● ●
●●●
●
●
●● ●
●●●
●● ●
●●● ●
●
●● ●●
●●●
● ●
● ●
●
● ● ● ●
●●●
● ● ●
●● ●●
●
● ●
●● ●
●● ●●
● ● ● ●
●●● ●
●●●
●●●
● ●
●●● ●
●●● ●● ●
● ●
●● ●
●●●
●●● ●●
●●●
●●●
●
●
● ●
●● ● ●●
●● ● ●
● ●●●
● ●
●●●
●● ●●
●●●● ●
●
● ●● ● ●● ●
●●● ●
● ● ●
●● ●
●●●
●● ●
● ●
●● ●
● ● ●
●●●●
●● ● ●● ●
●● ● ●
●●● ●
●●● ●● ● ● ●
● ●●
●●●●●
● ●
●● ●● ●
● ●●
●● ●
● ●● ● ●
●
●● ● ●●
● ●●● ●●
●●●●●●
● ●
●● ●
●●● ● ●● ●
● ●
●●
●
●●●●
● ●
●● ●
● ●
●●●
●●●
●●● ●
● ●
● ●●
●●●
●●● ●
●● ●
●●●
●●
●●●
●● ● ● ●
●●●
●● ● ● ● ● ●● ●
●●●
●●●
●● ●
● ●
●●●●
●
●
● ● ● ●●
●●●●
● ●
●●● ●
●●● ●
●●●● ● ●
●●● ●
●
● ●
●●●●
●●● ●
●●● ●
●●●
●● ● ● ●
●● ●
●
● ●
●● ●
●● ●
●● ● ● ●
●●● ● ●
●●●
60
● ● ●● ●
●●●
●●● ● ● ● ● ●
●●●
● ●
●● ●
●●●
●● ●
●●●
●●●
● ●
● ●
● ●●
●●● ●
● ● ● ● ●
●●
●●● ●
●●● ●
●●●
●●●
●●●●●
●●●●●
●● ●●
●● ● ●
●●●
●●●
● ●
● ● ●
●●●
●● ●
● ●
● ● ●
●●●●
●● ●
● ●●
●● ●●
●●●
●● ●
●●●
●● ● ●
●●●
● ●
●●●
● ● ●
● ●
●● ●
●●●
●●●
●●●
● ●
●
●●● ●
●● ●●
● ●
●● ● ● ●● ●
● ●
●●●
●●●
●●●
●●●
●● ● ● ● ●
●●●
●●● ●●
●● ●
● ●
●●●
●●●●
●●●
● ● ●
●● ● ●
●●● ●
● ●
●●●
●●●
●●● ● ● ●● ●
●●●
● ●
●● ●
●●●
●●
●
●● ● ●●
●●●
●●● ●
●● ●
●● ●
● ●
●●● ● ●
●●●
● ● ●●
● ●
● ●
● ●
●●●●
●●●
●●● ●
●●●
●●●
●●●●
●
●●
●●●
●● ● ● ●
●● ●
●●● ●
●●● ●●● ●
●● ● ● ●
●●● ● ●●
● ●
●●●
●●●●●●
●●●
● ● ●●
● ●
●●●
●●
●
● ●●
●●●
●● ●
● ●
● ● ●
● ●
●●●
● ●●
● ●
●●●
●●● ●● ●
●●● ●● ●
●●●
● ●
●●●
●● ●
●● ●
●● ●
●●●
●●
●
● ●● ●
● ●
●●●
●● ●● ● ● ●
●●● ●
●● ●
●●●
●●●
●● ● ●●
●●●
●●●
●●●●
●●●
●● ● ● ● ●
●●● ●
●● ●
●
●●
●● ●
● ●●●
●●●
●● ● ●
● ●
●● ●●
●●●
●● ●●● ●
●●●●●
● ●●
●●●
●●●
●●● ●
● ●
●●●
● ●
●●●
●
● ●●
●●●
● ● ●● ●●●
● ● ●● ●●● ●
● ●
●● ●
●●●
●●●●
●●● ●
● ●● ●
● ●
●●● ●
●●●●
●● ● ●
●
●
● ●
●●●
●●● ●
● ●
● ●
●● ●
●●●
●● ●●
●●● ●●
●●●●
● ● ●
●●●●
● ●
●● ● ●
●●●
●●● ●
●●●● ●●
●●●
● ● ●
●●●●
● ● ● ●
●●●
● ●●
●●●● ●●● ●● ●
●●●
● ●
●● ● ●●
●● ●●●
●●●
●●●●
●●●
●● ● ●
●●●
●
● ●
● ●
● ●●
●●●● ●
●● ●
● ●● ● ● ●
●● ●●
●●●●
●●●
●● ● ●
● ●
●●●
●●●
● ●
●●● ● ●
●●●● ●
●●●
● ●
● ● ● ● ●
● ●
●● ●
● ●
● ●
●●●
●●● ● ● ●
●●●
●
● ●
●●● ●
●●●
●●●
●●● ●● ● ● ● ●
● ● ●●
●●●
● ●
●●● ●
●●●
●●●
●●● ●● ● ●
●●●
●●
● ● ●●
●●●●● ●●
●● ●
●●● ●
●●●
●●●
●●● ●
●●●
● ●
●●●●
●● ● ●
●●●●
●●●
●●●
● ●
●
●●● ●
● ●●
● ●●
●●●
●● ●
●●●
●●●●
●●●●
●●● ● ●
●●●
●●●
●●●
●● ●
●●●
●●●
●● ●
●
●● ●
●●● ●
●●●
●●● ●
●●●
●●●
●● ●●
●●●●
●● ●● ● ●
40
● ●
●● ● ●●
● ●
●● ●
●● ● ● ●● ●
●●●
● ●● ●
Xn
● ●
●●● ● ● ●
●●●●
●●●
●● ●●
●●●
●● ●●
●
●
●● ●
●● ●●●
●● ●
● ● ● ●
●●●●●
●●●
●●●
●
● ●
●●●● ● ●
● ●
●●●
●●●
●● ●● ●●●
●●●
●● ●
● ●
●●● ●●
●●●
●●●●
●● ● ●
● ●
●●● ●●
●●
●
●● ●●
● ●
●●●
● ●● ● ●●
●●●
●●●●
●
● ●
● ● ●
●●●●
●●● ●●
●●●
●●●
● ●
●●●
●● ●● ● ●
●●
●
●● ●
● ● ●
●●●
●
● ● ●
●●●
●●●●●
●●●
●
●●●
●●●
● ●
●●●
●●●
●●
●
●●● ●
●●●
●●●
●●● ●
●
● ●●
●●●
● ●
●●
●
●●● ●
●●●
●
●●● ●
●●●●
●
● ● ● ●
● ●
●
●
● ●
●●●
●●●
●●●
●● ● ●●●
●● ●
●
●●●
●●●
●●●
●●●●
●●●● ●
● ● ●
●●●
●●● ●●
●●●●
●
●
●● ●
●●●● ● ●
●●● ● ●● ● ●●
●●●
●●●
●●●●
●●●
●●
●
●● ● ● ●
● ●●
●● ● ●
● ●
●●●
●●●●
●●●
●●●
● ●
20
● ●●
●●● ●
●●●
●●●
● ●
●●● ●
●●● ●
●●● ●
●● ● ●●●●
● ●
●
●
●●●
●●● ●●
●●●● ●
●●●
●● ●
●●● ●
●● ●●
● ●
●●●
●●● ●●
●
●
● ●
● ●
● ● ●
●● ●
● ● ●
●● ●●
●●●●●●
●
●
●● ●●
●● ● ●
● ● ●
●● ●
●●●
●●● ●
●
●
●●● ●
●●● ● ●
● ●
● ● ●
●●● ●●
●●● ●
●
●●
●●●
●●● ●
●●●
●● ●
●● ● ●●
●● ●
● ●●
●● ● ●
●
●
●●●
●● ●
●●● ●
●●●
●●●
●● ●●●
●●●
●●●
● ● ●● ●
●● ●
●
●
● ●●
●●●
●●●
●●●
●●●
●●●
●●● ●
●●●
●●● ●
● ●
●●● ●●
● ●●
● ●
●
● ●
● ●
●●●
●●●
● ●
●●●
●●●
●● ● ● ●● ●
●●●●
● ●●
● ●
●● ●
●
● ● ●●
● ●
●● ●
●● ●● ● ●●
●● ● ●
● ●●●
● ●
● ●●●
● ●
●●● ●● ●
● ●
●● ●●
●●● ●
● ●
●●●
● ●
● ●●
●●●
●● ● ●
●●●
● ●
● ●
●●●●●●
●●●
●● ●
●●●
●● ● ● ●●● ●
●
●●●
●●●
●●●● ●●
●●●● ●
●●●
● ●
●●●
●●●
●●●
●●● ●
●●● ●
●●●●
● ●
●
●
●●●
●●●
● ● ●
●●●●●
●●● ●● ●● ●● ● ● ●
●●●
●●● ●
●●
●
●● ● ●●
●●●
●● ●
●● ●●
● ●
●●●
●
●● ●
● ●
● ●
●●
●
●● ●●
● ●
●●
●●
●
●
●●●
●
●
●●●
0
0 500 1000 1500 2000
Ejemplo 2 Queriendo arruinarse pronto. Modifiquemos el proceso anterior de la siguiente

manera. Capital inicial $50. A cada instante de tiempo apostamos en un “volado” o la mitad
de nuestro capital si tenemos más de 10 pesos o 2 pesos si éste es menor o igual a 10, ganando
si cae águila. En este caso nuestro modelo es
193

Xn
si Xn > 10



 2
X0 = 50, y Xn+1 = Xn + 21Un+1 ≤1/2 − 1



2 si X ≤ 10
n
Trayectoria del proceso modificado de ruina del jugador

50
●
40
30
Xn
●
20
●
●
10
● ●
● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
● ● ●
0
0 5 10 15 20 25 30
Ejemplo 3. Tiempos de espera. En este caso lo que deseamos modelar es el proceso que ge-
neran los clientes que van llegando en tiempos aleatorios, por ejemplo, a una fila única del
banco, que requieren un servicio cuyo tiempo de atención también es una variable aleatoria.
Lo que deseamos es al caracterizar este proceso es determinar ¿cuánto tiempo debe esperar
un cliente que llega al momento t, para salir del banco?.
El modelo usual para esta situación asume que los tiempos sucesivos entre los arribos de los
clientes, son variables aleatorias exponenciales con parámetro λi . Además, se puede suponer
que los tiempos de servicio son variables aleatorias independientes con distribución común
exponencial, de tasa λs . Se supone que todas las variables involucradas son independientes.
Entonces, la construcción del modelo es como sigue
Sean S1 , S2 , ... variables exponenciales independientes de parámetro λi y ξ1 , ξ2 , ... variables
194
exponenciales independientes de parámetro λs . Con
∞
1Tn ≤t , R0 , Rn+1 = Rn + ξn+1
P
T0 , Tn+1 = Tn + Sn+1 , Nt =
n=1
Definimos los procesos
Xt = RNt − t y Qt = Xt − mı́n Xs
s≤t
Por lo tanto, Qt representa el tiempo de servicio necesario para atender a los clientes que se
encuentran presentes en el banco al tiempo, t, que es nuestro proceso a estudiar.
Trayectoria del proceso de tiempos de espera con tasas iguales de llegada y servicio
50
●
●
●● ● ●
●●
●● ● ●●●
● ●
●● ● ●● ● ●
● ● ● ●
● ●● ● ● ● ●●●●
● ●●
● ●● ● ●
● ●
●
● ●● ●● ●
●
●● ● ● ● ● ●● ●
● ● ● ●●● ●●● ●
● ●● ●● ● ●
40
●
● ●●
●
●● ● ● ●
●
●● ●
●●● ●
● ● ●
● ●●
●
● ● ●●● ●●
● ●
● ● ●
●
● ● ●
●
● ●
● ●●● ●●
● ● ● ● ●●
● ● ● ● ● ●
●● ●
● ●
●
● ● ● ● ●●●
●● ● ● ●
● ● ●
● ● ● ●●
● ●● ●● ●● ●
● ●●
● ● ●●
●●● ● ● ● ●●
● ●
30
●
●●
● ●●●
● ●●
● ●
● ●●
●●
● ●
●
● ●
● ●● ●
●● ● ●
●● ●
Q(t)
●
●
●●
●● ●●
●
●
● ● ●●
● ●
●
●● ● ● ●
● ● ●
20
●
● ● ●●●●● ● ●
● ● ●
● ●
●
●
●●● ● ●
● ● ●●●●
● ●●
●●
●
●
●
●●
● ●
●● ●
●●
● ●
● ● ●● ●● ●●
●●●
● ●● ●
●
● ● ●
● ● ●● ● ●●
● ● ●
● ●
10
●● ● ●
●●
● ●
● ● ● ● ●● ●
●
● ●● ● ●● ●
●● ● ● ●
●
● ● ● ●● ●
●
●
● ●
●● ● ●
●●● ● ● ●●
● ●●
● ●
●
● ●● ●● ●
● ● ● ●● ●
● ● ● ●●
● ● ●
● ● ●●
● ●
● ● ● ●
● ● ●
● ● ● ●
● ●●
● ● ●
●●
●
● ●
● ●●
● ● ●
● ●
● ●● ●
●●
● ● ●
● ●
● ● ●●
●●●●●●●
0
●● ●
●●●
0 100 200 300 400
195
Cadenas de Markov a tiempo discreto
Def. Una cadena de Markov con matriz de transición P y distribución inicial π, es un proce-
so estocástico {Xn }n∈N con valores en el espacio de estados, E, tal que si x0 , x1 , ..., xn ∈ E,
entonces
P (X0 = x0 , ..., Xn = xn ) = πx0 Px0 ,x1 · · · Pxn−1 ,xn
Propiedad de Markov. Sea X una cadena de Markov con matriz de transición P y distribu-
ción inicia π. Si P (X0 = x0 , ..., Xn = xn ) > 0, entonces
P (Xn+1 = xn+1 |X0 = x0 , ..., Xn = xn ) = P (Xn+1 = xn+1 |Xn = xn )
Que enuncia que la evolución futura de la cadena sólo depende de su pasado a través del
presente. Enunciado de otra forma
Propiedad de Markov. Un proceso estocástico a tiempo discreto y con espacio de estados

discreto es Markoviano si y sólo si, la probabilidad condicional de estar en el estado Xt+1
dados los estados anteriores {X0 , X1 , ..., Xn }, sólo depende del estado más reciente Xn .
P (Xn+1 |X0 , X1 , ..., Xn ) = P (Xn+1 |Xn )
Ejemplo 1 : Caminata aleatoria simple. La caminata aleatoria simple es una cadena de Mar-
kov cuyo espacio de estados es Z y es tal que Pn,n+1 = 1 − Pn,n−1 con p ∈ (0, 1). Este ejemplo
ya lo vimos anteriormente. La gráfica de una trayectoria del proceso obtenidad a través de
simulación es
196
Caminata aleatoria simple
15
10
Xt
5
0
0 20 40 60 80 100
Algunas caracterı́sticas relevantes de una cadena de Markov.
• Si es posible ir a cualquier estado de la cadena de Markov en uno o más pasos, entonces la

cadena es irreducible.
• Si estando en algún estado, se regresa a él sólo en intervalos regulares, la cadena se llama
periódica, de lo contrario se denomina aperiódica.
• Supongamos que podemos encontrar un vector de probabilidades w tal que wP = w,

entonces se dice que w es la distribución estacionaria de la cadena.
• Equivalentemente, una cadena es estacionaria si existe una función de distribución de

probabilidad f tal que si Xt ∼ f , entonces, Xt+1 ∼ f . Por lo tanto, formalmente, el kernel y
la función de distribución estacionaria cumplen la ecuación
Z
K(x, y)f (x) = f (y)
• Si una cadena de Markov es irreducible y aperiódica, entonces tiene una única distribución
197
estacionaria.
• En el caso de que la cadena sea además recurrente, la distribución estacionaria es también

la distribución lı́mite, en el sentido de que la distribución lı́mite de Xt es f casi para cualquier
valor inicial X0 . Esta propiedad también es conocida como ergodicidad, y obviamente tiene
una gran consecuencia desde el punto de vista de la simulación, ya que si un kernel dado,
K, produce una cadena de Markov ergódica con distribución estacionaria f, generando una
cadena de valores de este kernel, eventualmente produciremos simulaciones de f. En particu-
lar, para funciones integrables h, el promedio
T
1X
h(Xt ) → Ef [h(X)]
T t=1
lo significa que la ley de los grandes números válida para los métodos Monte Carlo, puede
aplicarse en el contexto de MCMC. (Teorema ergódico).
Ejemplo: Un dı́a de trabajo.
Veamos un ejemplo simple que genera una cadena de Markov a partir de una matriz de
transición.
• Cada dı́a me levanto e intento hacer la mayor cantidad de mi trabajo pendiente.
• Enciendo la computadora y me pongo a trabajar.
• Es bastante fácil que me distraiga del trabajo. Después de cada minuto de trabajo, tengo
sólo una probabilidad de 0.4 de continuar trabajando al minuto siguiente. Con probabilidad
0.6 inicio una navegación por INTERNET.
• Navegar en la red es bastante adictivo. Después de navegar un minuto, mi probabilidad de

regresar a trabajar es tan sólo de 0.1. Con probabilidad 0.6, sigo navegando en la red. Con
probabilidad 0.3 reviso mi correo electrónico.
• Con probabilidad 0.5 regreso a mi trabajo. Con la misma probabilidad, continúo revisando
mi correo electrónico.
198
Mi matriz de transición
 trabajo internet e − mail 

trabajo  0.4 0.6 0 

internet  0.1 0.6 0.3
 

 
e − mail 0.5 0 0.5
Es una matriz de transición de una Cadena de Markov. Todas sus entradas son no negati-
vas y sus renglones suman uno, y cumplirá todas las condiciones de aperiódica, irreducible,
recurrente, etc.?
199
El proceso Poisson
Dada la dependencia del modelo de Camér-Lundberg (que enunciaremos posteriormente) del

proceso Poisson, lo definiremos en seguida.
Def. 1 : Un proceso estocástico, {X(t), t ≥ 0}, a tiempo continuo, se dice que es de incre-
mentos independientes si para cada t0 < t1 < · · · < tn , con t0 , t1 , ..., tn ∈ T se tiene que
X(t1 ) − X(t0 ), X(t2 ) − X(t1 ), ..., X(tn ) − X(tn−1 )
son variables aleatorias independientes.
Def. 2 : Un proceso estocástico, {X(t), t ≥ 0}, a tiempo continuo, es de incrementos estacio-

narios si la distribución, dado t ∈ T , de
X(t + s) − X(t)
es la misma ∀s ∈ T .
• En un proceso con incrementos estacionarios, cambios en el proceso de igual tamaño son

iguales en distribución.
Def. 3 : Un proceso estocástico a tiempo continuo, {N (t), t ≥ 0}, se dice puntual o de con-
teo, si N (t) representa el número de veces que ocurre un suceso hasta el instante de tiempo, t.
• En particular
N (t) ∈ N, ∀ t ∈ T
N (s) ≤ N (t), si s < t (Los incrementos son no negativos)
• Por lo tanto, un proceso de conteo es de incrementos independientes si el número de sucesos

en intervalos de tiempo que no se traslapan son variables aleatorias independientes.
• Y es de incrementos estacionarios, si el número de sucesos en un intervalo de tiempo es el

mismo en intervalos de igual longitud.
200
• Un uso muy frecuente de la distribución de Poisson surge en situaciones en las que los
eventos ocurren a lo largo del tiempo, por ejemplo: ocurrencia de terremotos, personas que
ingresan a un banco, llegadas a un servidor, emisiones de partı́culas por una fuente radiac-
tiva, etc.
Def. 4 : Un proceso de conteo {N (t), t ≥ 0}, se dice de Poisson (homogéneo), con tasa de
intesidad, λ, si
• N (0) = 0
• Es de incrementos independientes
(λt)n e−λt
P (N (t + s) − N (s) = n) = , ∀n ∈ N, ∀s, t > 0
n!
• De la definición es claro que el proceso es de incrementos estacionarios, y los incremen-

tos siguen una distribución Poisson de parámetro λt para intervalos de tiempo de longitud, t.
• El número promedio de eventos hasta el instante, t, es
E [N (t)] = E [N (t + 0) − N (0)] = λt
• V [N (t)] = λt
• Para cualquier intervalo de longitud, t, se tiene
E [N (s + t) − N (s)] = E [N (t)] = λt
201
Trayectoria: Proceso Poisson
30
●
●●
●●
●
●●
●
●●
●●●
25
●●
●
●
●
●●●●
●
●●●
20
●
●●●●
●●
●●●
●●
N(t)
●●
15
●●
●
●●●
●
●●
●
●
●●●
●●
●●
10
● ●
●●
●●●
●●●●
●●●
●●
●
●●●
5
●
●●●●●
●
●
●
●
●
●●●
●
0
0 20 40 60 80
202
Proceso de Poisson no homogéneo (o no estacionario). En muchas situaciones es más realista
suponer que hay más incidencias a ciertas horas (o en ciertos intervalos) que a otras. Para
modelar esta situación, es conveniente la siguiente generalización del Proceso Poisson.
Def. 5 : Decimos que {N (t), t ≥ 0}, es un Proceso Poisson no homogéneo, con tasa de inte-
sidad, λt, si
• N (0) = 0
• Es de incrementos independientes
Z t+s
P (N (t + s) − N (s) = n) = λ(x)dx, ∀s ≥ 0, t > 0
s
• En otras palabras, para cada s ≥ 0 y t > 0 se tiene que N (t + s) − N (s) es una variable
aleatoria Poisson con media
Z t+s
m(t + s) − m(t) = λ(x)dx
s
• N (t) tiene distribución Poisson con esperanza
Z t
m(t) = λ(x)dx
0
• Si λt = λ (constante), entonces N (t + s) − N (s) es una variable aleatoria Poisson con

media λt.
203
Esperanza Condicional
Antes de dar una definición formal sobre la esperanza condicional, hagamos una introducción
simple de este concepto.
Supongamos que X es una v.a. que denota el resultado de un experimento aleatorio.
• Si no tenemos información sobre el resultado del experimento, entonces, nuestra mejor

conjetura (apuesta) sobre el valor de X será, E (X), la esperanza o valor esperado de X.
• Si conocemos el resultado del experimento, entonces conocemos el valor exacto de X.
• Frecuentemente conocemos el valor de otra variable aleatoria Y que está relacionada con
X. En este caso, la mejor predicción del valor de X será la esperanza condicional E[X|Y ].
La esperanza condicional, E[X|Y ], es una nueva variable aleatoria de la forma, g(Y ), que
aproxima X, usando la información sobre v.a. Y.
Ejemplo
Consideremos el experimento de lanzar un dado dos veces. Sean Y y Z los puntajes que
aparecen en el primero y segundo lanzamiento, respectivamente. Sabemos que
6
X 6
X
E [Y ] = xP [Y = y] = 3.5, y E [Z] = zP [Z = z] = 3.5
y=1 z=1
y, por independencia entre Y y Z,
E [Z|Y ] = E [Z] = 3.5
En este caso, la función g es constante como función de y, lo que implica que conocer Y no
sirve para predecir Z o no aporta información sobre Z.
• Ahora, consideremos la v.a. X = Y + Z . Es claro que X y Y son, ahora, variables alea-

torias dependientes. Entonces,
E [X|Y ] = E [Y + Z|Y ] = E [Y |Y ] + E [Z|Y ] = Y + E [Z] = Y + 3.5
204
Entonces, E [X|Y ] = Y + 3.5 = g(Y ), que es una v.a.
Ostro
Ahora supongamos que lanzamos un dado hasta obtener un seis. Sea Y el número total de
lanzamientos del dado, y X el número de unos observado. Calcular E [Y |X].
El evento Y = y − 1 significa que se realizaron y − 1 lanzamientos en los que no se observó

un seis, y que el seis se observó en el lanzamiento y. Entonces, dado este evento, X tiene
una distribución Binomial(y − 1, 51 ). Entonces
1
E [X|Y ] = np = (y − 1)
5
que es una función de Y .
205
Las siguientes definiciones y resultados requieren de un espacio de probabilidad. Entonces
Sea (Ω, A , P) un espacio de probabilidad
Definición 1 Sea X una variable aleatoria con esperanza 2

finita, y sea F una sub σ-
álgebra de A . La esperanza condicional de X dado F , E[X|F ] , es una variable aleatoria
que cumple:
Es F -medible
Tiene Esperanza finita
E[X|F ]dP ∀ B ∈ F
R R
B
XdP = B
Usando el teorema de Radon-Nykodim puede desmostrarse que E[X|F ] existe y es única

casi seguramente.
Proposición 1 Sean X y Y variables aleatorias con esperanza finita, F una σ-álgebra y c

una constante, entonces
1. E[X|F ] = E[X] si X es independiente a F
2. Si X ≥ 0 ⇒ E[X|F ] ≥ 0
3. E[cX + Y |F ] = cE[X|F ] + E[Y |F ]
4. Si X ≥ Y ⇒ E[X|F ] ≥ E[Y |F ]
5. E[E[X|F ]] = E[X]
6. Si X es F -medible ⇒ E[X|F ] = X c.s.
7. Si XY es integrable3 y X es F -medible ⇒ E[XY |F ] = XE[Y |F ]
8. Si F1 ⊂ F2 ⇒ E[E(X|F2 )|F1 ] = E[X|F1 ]
2
R
E[X] := Ω XdP
3
Una v.a. X es integrable si E[|X|] < ∞
206
Y cómo definimos la esperanza condicional dada una variable aleatoria, como las de la in-
troducción, es decir, E[X|Y ]?
Definición 2 Sea (Ω, A , P) un espacio de probabilidad, X ∈ (Ω, A , P), integrable, y sea

Y ∈ (Ω, A , P) otra variable aleatoria. Se define la esperanza condicional de X dado Y, como
E [X|σ (Y )]
Más ejemplos: Jaula con tres puertas
Un prisionero está encarcelado en una jaula que tiene tres puertas.
• La puerta 1 lo lleva inmediatamente a la libertad.
• La puerta 2 lo conduce a un tunel que lo regresa a la misma jaula después de un dı́a de

trayecto.
• La puerta 3 lo lleva, también, a un tunel que lo regresa a la misma jaula después de tres
dı́as de trayecto.
• La probabilidad de escoger cualquiera de las puerta es la misma: p = 31 .
• Suponemos que si regresa a la jaula, inicia el mismo proceso de nuevo como si hubiera
olvidado sus experiencias pasadas con la elección de las puertas. Entonces
¿Cual es el valor esperado del tiempo que tardará el prisionero, hasta que esté
en libertad?
Sol.
Sea X la v.a. que determina el tiempo hasta que el prisionero consiga la libertad, y Y la v.a.
que determina el número de la puerta elegida inicialmente. Observamos que
• E [X|Y = 1] = 0
• E [X|Y = 2] = 1 + E [X]
• E [X|Y = 3] = 3 + E [X]
207
Ahora, utilizando la propiedad 5 de la esperanza condicional, tenemos
E [X] = E [E [X|Y ]]
1 1 1
= E [X|Y = 1] + E [X|Y = 2] + E [X|Y = 3]
3 3 3
1
= (0 + 1 + E [X] + 3 + E [X])
3
1
= (4 + 2E [X])
3
Por lo tanto: E [X] = 4 dı́as
Ejemplo 2
Sean X1 , X2 , ..., Xn variables aleatorias i.i.d. con esperanza común µ. Definimos la v.a.
Sn = X1 + X2 + · · · + Xn
Para m < n tenemos
E [Sn |X1 + X2 + · · · + Xm ] = E [X1 + X2 + · · · + Xm |X1 + X2 + · · · + Xm ] +
E [Xm+1 + Xm+2 + · · · + Xn |X1 + X2 + · · · + Xm ]
= X1 + X2 + · · · + Xm + E [Xm+1 + Xm+2 + · · · + Xn ]
= Sm + (n − m) µ
Definición 3 Una filtración es una colección de σ-álgebras {Fn }n≥1 tal que Fm ⊆ Fn ∀
m≤n
En particular, la filtración natural o canónica de un proceso {Xn } es aquella sucesión de

σ-álgebras definidas por Fn = σ{X1 , X2 , ..., Xn }
“Fn contiene la información del proceso {Xi }i≥1 hasta el tiempo n ”
Definición 4 Se dice que un proceso {Xn } es adaptado a la filtración {Fn } si Xn es Fn -

medible
208
Definición 5 Una variable aleatoria τ con valores en N ∪ {∞} es un tiempo de paro con
respecto a la filtración {Fn }n≥1 si {τ ≤ n} ∈ Fn ∀ n ∈ N
Equivalentemente {τ = n} ∈ Fn
Que se interpreta como: La ocurrencia del evento “paramos el proceso al tiempo τ = n”,
puede determinarse conociendo sólo los valores de X0 , X1 , ..., Xn , i.e., no se requiere conocer
los valores Xn+1 , Xn+2 , ....
Ejemplo
Supongamos que {Xn } es una cadena de Markov que representa nuestro capital en dólares,
después de haber jugado n veces. Podemos pensar en ganar apostando en un casino, y parar
de apostar (jugar) cuando alcancemos una suma deseada, digamos, m dólares.
El tiempo aleatorio, τ , en el que por primera vez acumulamos m dólares es un tiempo de paro:
{τ = n} = {X0 6= m, X1 6= m, ..., Xn−1 6= m, Xn = m}
209
Martingalas
Definición 6 Un proceso estocástico {Xn } es una {Fn }-martingala si
1. Xn es integrable ∀ n ≥ 1
2. {Xn } está adaptado a {Fn }
3. E[Xn+1 |Fn ] = Xn ∀ n ≥ 1
Implicaciones:
1. E[Xm |Fn ] = Xn ∀ m ≥ n
2. E[E(Xm |Fn )|{Ω, ∅}] = E[Xm |{Ω, ∅}] = E[Xm ]
⇒ E[Xn ] = E[Xm ] ∀ m ≥ n
Definición 7 Un proceso estocástico {Xn } es una {Fn }-submartingala si
3. E[Xn+1 |Fn ] ≥ Xn ∀ n ≥ 1
Definición 8 Un proceso estocástico {Xn } es una {Fn }-supermartingala si
3. E[Xn+1 |Fn ] ≤ Xn ∀ n ≥ 1
La idea de un proceso martingala es la de aquel proceso que tiende estabilizarse en cierto

punto, a saber, su valor esperado, es decir, en promedio no crece ni decrece; en cambio una
submartingala muestra una tendencia de crecimiento; por su parte, una supermartingala
tiende a decrecer.
Ejemplos
Sean X0 , X1 , X2 , ... variables aleatorias i.i.d. con esperanza común µ, y
210
n
X
Mn = Xi , una caminata aleatoria
i=0
ya que
E [Mn+1 |M0 , M1 , ..., Mn ] = E [Mn + Xn+1 |M0 , M1 , ..., Mn ]
= E [Mn |M0 , M1 , ..., Mn ] + E [Xn+1 |M0 , M1 , ..., Mn ]
= Mn + E [Xn+1 ]
Entonces, {Mn , n ≥ 0} es una Martingala si E [Xi ] = 0; es una Supermartingala si E [Xi ] < 0

y es una Submartingala si E [Xi ] > 0.
Ejemplo 2
n
Y
Mn = Xi
i=0
ya que
E [Mn+1 |M0 , M1 , ..., Mn ] = E [Mn ∗ Xn+1 |M0 , M1 , ..., Mn ]
= Mn E [Xn+1 |M0 , M1 , ..., Mn ]
= Mn ∗ E [Xn+1 ]
Entonces, {Mn , n ≥ 0} es una Martingala si E [Xi ] = 1; es una Supermartingala si E [Xi ] < 1

y es una Submartingala si E [Xi ] > 1.
Ejemplo 3
n
1 Y 1
Mn = n Xi = Xn ∗ Mn−1
µ i=0 µ
211
Entonces, {Mn , n ≥ 0} es una martingala.
Dado que

Xn+1
E [Mn+1 |M0 , M1 , ..., Mn ] = E Mn ∗ |M0 , M1 , ..., Mn
µ
Mn
= ∗ E [Xn+1 |M0 , M1 , ..., Mn ]
µ
Mn
= ∗ E [Xn+1 ]
µ
Mn
= ∗ µ = Mn
µ
Ejemplo 4 (Cocientes de verosimilitudes)
Suponga que X1 , X2 , ..., Xn son variables aleatorias iid con función de densidad común, f,
que es cualquiera de dos diferentes densidades posibles, f0 o f1 . Desde el punto de vista es-
tadı́stico, deseamos elegir entre estas dos densidades aquella que generó los datos observados
x1 , x2 , ..., xn . Por lo tanto, planteamos el problema de contraste de hipótesis
H0 : f = f0 vs. Ha : f = f1
La decisión estadı́stica se basa, comúnmente, en el cociente de verosimilitudes
n
Y f1 (xi )
Λn =
f (xi )
i=1 0
Si Λn es grande, entonces los datos dan soporte a favor de la hipótesis alternativa, y contra
la hipótesis nula, por lo que la decisión es rechazar esta última, y concluimos que la densidad
que generó los datos observados es f1 . Supongamos ahora que la hipótesis nula es cierta, i.e.,
que los datos observados fueron generados por f0 . Entonces
212

f1 (xn+1 )
Ef0 [Λn+1 |Λ1 , ..., Λn ] = Ef0 Λn |Λ1 , ..., Λn
f0 (xn+1 )

f1 (xn+1 )
= Λ n E f0 |Λ1 , ..., Λn
f0 (xn+1 )

f1 (xn+1 )
= Λn Ef0 (¿por qué?)
f0 (xn+1 )
Z
f1 (x)
= Λn f0 (x)dx
R f0 (x)
= Λn × 1 = Λn
Por lo que la sucesión de cocientes de verosimilitudes es una martingala bajo la hipótesis

nula (en este caso, si la verdadera f que generó los datos es f0 ).
Proposición 2 Un proceso estocástico {Xn } es una martingala sı́i {Xn } es submartingala

y supermartingala
213
Teoremas de paro
Entre las razones por las cuales las martingalas son importantes, se encuentran los teoremas
de convergencia de martingalas, que bajo ciertas condiciones de acotamiento nos permiten
concluir la convergencia casi segura (o de otro tipo) de una martingala. Para abordar este
resultado, es importante extender la igualdad E (Xn ) = E (X0 ) para abarcar no sólo a tiempos
deterministas como n, sino también a ciertos tiempos aleatorios. Entonces, nuestro objetivo
es observar a la martingala a un tiempo que a su vez es una variable aleatoria. En realidad,
trabajaremos con una clase más reducida de tiempos aleatorios, a saber, los tiempos de paro.
Recuperemos nuestra definición de tiempo de paro.
Definición 9 Una variable aleatoria τ con valores en N ∪ {∞} es un tiempo de paro con
respecto a la filtración {Fn }n≥1 si {τ ≤ n} ∈ Fn ∀ n ∈ N
Equivalentemente {τ = n} ∈ Fn
Que mencionamos se interpreta como: La ocurrencia del evento “paramos el proceso al tiem-
po τ = n”, puede determinarse conociendo sólo los valores de X0 , X1 , ..., Xn , i.e., no se
requiere conocer los valores Xn+1 , Xn+2 , ....
Teorema 1 Teorema de Paro Opcional (TPO)

Sea {Xn } una {Fn }-martingala y τ un {Fn }-tiempo de paro acotado
⇒ E[Xτ ] = E[Xn ] ∀ n ≥ 1
214
Demostración. Como τ es acotado entonces ∃ n0 ∈ N tal que τ ≤ n0 por lo que
" n0
#
X
E [Xτ ] = E 1{τ =n} Xn
n=1
n0
X
= E 1{τ =n} Xn
n=1
n0
X
= E E(Xn0 |Fn )1{τ =n} ya que {Xn } es martingala
n=1
n0
X
E E(1{τ =n} Xn0 |Fn ) pues 1{τ =n} es Fn − medible

=
n=1
n0
X
= E Xn0 1{τ =n}
n=1
= E [Xn0 ]
Teorema 2 Teorema de Paro Opcional (TPO1)

Sea {Xn } una martingala y τ un tiempo de paro finito casi seguramente tal que
1. E [|Xτ |] < ∞

2. lı́mn→∞ E Xn 1{τ >n} = 0
⇒ E [Xτ ] = E [Xn ] ∀ n ≥ 1
Demostración. Definamos τn = min{τ, n} ≤ n tiempo de paro, entonces por el TPO

tenemos
E[Xτn ] = E[X1 ]
⇒ E[X1 ] = lı́m E[Xτn ]

n→∞
= lı́m (E[Xτn 1{τ ≤n} ] + E[Xτn 1{τ >n} ])

n→∞
pero Xτn = Xτ + (Xn − Xτ )1{τ >n} , entonces
E[X1 ] = lı́m (E[Xτ 1{τ ≤n} ] + E[Xn 1{τ >n} ])

n→∞
= lı́m E[Xτ 1{τ ≤n} ]

n→∞
215
Ahora, nótese que |Xτ 1{τ ≤n} | ≤ |Xτ | ∀n ⇒ E[|Xτ 1{τ ≤n} |] ≤ E[|Xτ |] < ∞
además, por ser τ < ∞ casi seguramente, se tiene que lı́mn→∞ Xτ 1{τ ≤n} = Xτ , entonces por
el teo. de convergencia dominada lı́mn→∞ E[Xτ 1{τ ≤n} ] = E[Xτ ]
⇒ E[Xτ ] = E[Xn ] ∀ n ≥ 1
Teorema 3 Teorema de Paro Opcional (TPO2).

Sea {Xn } una martingala y τ un tiempo de paro tales que
1. E[τ ] < ∞
2. E[|Xn+1 − Xn ||Fn ] ≤ c para alguna c ∈ R
⇒ E[Xτ ] = E[Xn ] ∀ n ≥ 1
Demostración. Definamos Z1 = |X1 | , Zn+1 = |Xn+1 − Xn | ∀ n ≥ 1

Nótese que Xτ = X1 + (X2 − X1 ) + (X3 − X2 ) + ... + (Xτ − Xτ −1 )
τ
X ∞
X
⇒ |Xτ | ≤ W := Zk = Zk 1{τ ≥k}
k=1 k=1
Además,
∞
X
E[W ] = E[|X1 |] + E[Zk 1{τ ≥k} ]
k=2
∞
X
= E[|X1 |] + E[E(Zk 1{τ ≥k} |Fk−1 )]
k=2
Observe que si A ∈ F ⇒ 1A es F -medible
216
Como {τ ≤ k − 1} ∈ Fk−1 ⇒ {τ > k − 1} = {τ ≥ k} ∈ Fk−1 , entonces
∞
X
E[W ] = E[|X1 |] + E[1{τ ≥k} E(Zk |Fk−1 )]
k=2
∞
X
≤ E[|X1 |] + cP(τ ≥ k)
k=2
∞
X
≤ E[|X1 |] + c P(τ ≥ k) − 2c
k=0
∞
!
X
= E[|X1 |] + c P(τ = k) + P(τ > k) − 2c
k=0
= E[|X1 |] + c(1 + E[τ ]) − 2c < ∞
∴ E[|Xτ |] ≤ E[W ] < ∞ ...(∗)
Ahora para k ∈ N fijo tenemos
E[Xk 1{τ >k} ] ≤ |E[Xk 1{τ >k} ]|
≤ E[|Xk |1{τ >k} ] por la desigualdad de Jensen
≤ E[|Xk |1{τ ≥k} ]
≤ E[W 1{τ ≥k} ] −→ 0 cuando k → ∞ ...(?)
Ası́, (∗) y (?) permiten utilizar el T P O1, y finalmente E[Xτ ] = E[Xn ] ∀ n
Teorema 4 Teorema de Wald.
Pn
Consideremos la caminata aletoria {Sn }n∈N , Sn = k=1 XK , donde {Xk } son variables
aleatorias independientes e identicamente distribuidas tales que E[|Xk |] < ∞ ∀k. Sea Fn =
σ{X1 , ..., Xn }. Si τ es un {Fn }-tiempo de paro tal que E[τ ] < ∞
⇒ E[Sτ ] = E[τ ]E[X]
Demostración. Considere el proceso {Yn }n∈N dado por Yn = Sn − nE[X].

Se puede demostrar fácilmente que {Yn } es una {Fn }-martingala.
217
Obsérvese que
E[ |Yn+1 − Yn | |Fn ] = E[ |Xn+1 − E[X]| |Fn ]
≤ E[ |Xn+1 | |Fn ] + E[E[ |X|] |Fn ]
≤ E[ |X| ] + E[ |X| ]
= 2E[ |X| ] < ∞
Entonces por el T P O2 tenemos que
E[Yτ ] = E[Y1 ] = E[ S1 − E[X] ] = E[X] − E[X] = 0
Por otro lado,

E[Yτ ] = E[ Sτ − τ E[X] ] = E[Sτ ] − E[τ ]E[X]
∴ E[Sτ ] = E[τ ]E[X]
218
Procesos asociados a la teorı́a de ruina
• Hasta aquı́ hemos visto al modelo de pérdidas agregadas
N
X
S= Xi
i=1
durante un periodo fijo de tiempo, e.g., un año.
• Ahora haremos la extensión para tratarlo como dependiente del tiempo. Es decir
N (t)
X
S(t) = Xi
i=1
donde N (t) denota el número de reclamaciones que ocurren antes del tiempo, t.
Utilizaremos este modelo dependiente del tiempo para describir el flujo de dinero de una
aseguradora, y determinar caracterı́sticas de la probabilidad de ruina, tanto a corto como a
largo plazo.
Notación
Denotaremos por
• N (t): El número aleatorio de reclamaciones generadas por un portafolio en el intervalo de

tiempo [0, t], ∀t ≥ 0.
• Xi : el monto de la i-ésima reclamación, i=1,2,3,....
• S(t): El monto de las reclamaciones agregadas en el intervalo [0, t], ∀t ≥ 0.
Entonces
• {Xi }∞
i=1 es una sucesión de variables aleatorias.
• {N (t)}t≥0 es un proceso estocástico
219
• {S(t)}t≥0 es un proceso estocástico
Es obvio que
N (t)
X
S(t) = Xi
i=1
con S(t) = 0 si N (t) = 0.
• Al proceso estocástico {S(t)}t≥0 definido anteriormente, se le conoce como el proceso de

pérdidas agregadas generadas por el riesgo cubierto.
• La aseguradora recibe de sus asegurados, el pago de primas correspondientes a la cobertura

del portafolio.
• Supondremos que estos pagos se reciben a una tasa constante de forma continua. Sea c > 0
esta tasa de pagos por unidad de tiempo. Ya que el total de primas se recibe en el intervalo
de tiempo [0, t], entonces, este total es ct.
• Supongamos que al tiempo, t = 0, la aseguradora tiene un capital inicial respecto al

portafolio. Este cantidad inicial de dinero es el capital inicial y lo denotaremos como U.
Asumiremos que U ≥ 0.
• La aseguradora necesita este capital inicial, porque el ingreso futuro por primas, podrı́a no
ser suficiente para cubrir las reclamaciones futuras.
• El capital de la aseguradora a cualquier tiempo, t > 0, es una variable aleatoria, ya que

su valor depende de las reclamaciones que se realicen hasta este tiempo. Denotaremos este
capital por U (t)
• Entonces, podemos escribir
N (t)
X
U (t) = U + ct − Xi , ó
i=1
U (t) = U + ct − S(t)
220
con U (0) = U .
• Nótese que el capital inicial y el monto total de las primas, no son variables aleatorias, ya
que se determinan antes de que el proceso de riesgo inicie.
• Para un valor dado de t, U(t) es una variable aleatoria, ya que S(t) lo es.
• El proceso estocástico
{U (t)}t≥0
se conoce como el proceso de flujo de dinero o proceso de capital.
La probabilidad de ruina a tiempo continuo

• De manera vaga, cuando el capital es negativo, la aseguradora ha perdido todo su dinero
y se dice que está en ruina o arruinada.
• Nuevamente de forma vaga, la ruina puede ocurrir cuando la aseguradora se declara insol-
vente, no obstante, determinar si una compañı́a de seguros es insolvente es, en la práctica,
una cuestión muy compleja.
• Otra manera de ver esta probabilidad de ruina, es pensarla como la posibilidad de que,
en algún tiempo futuro, la compañı́a aseguradora requiera prover más capital para financiar
este particular portafolio.
Probabilidades de ruina
• Definimos las siguientes dos probabilidades
Ψ (U ) = P [U (t) < 0, 0 < t < ∞] y

Ψ (U, t) = P [U (τ ) < 0, 0 < τ < t]
• Ψ (U ) se le conoce como la probabilidad de ruina eventual (horizonte infinito), dado el

capital inicial, U. Se denota como función de U, para hacer énfasis de que dicha probabilidad
depende, entre otros parámetros, del capital inicial del que se disponga.
221
• Ψ (U, t) es la probabilidad de ruina antes del tiempo, t (horizonte finito), dado el capital
inicial, U.
Algunas relaciones simples y lógicas
Enunciamos algunas importantes relaciones lógicas entre estas dos probabilidades. Sean
0 < t1 < t2 < ∞ y U1 < U2 , entonces
1. Ψ (U2 , t) ≤ Ψ (U1 , t)
Ψ (U2 ) ≤ Ψ (U1 )
Es decir, a un capital inicial mayor, es menos creible que la ruina ocurra ya sea en
horizonte finito o infinito.
2. Ψ (U, t1 ) ≤ Ψ (U, t2 ) ≤ Ψ (U )
Dado un capital inicial, al prolongar el periodo de tiempo para observar la ruina, es

más creible que ésta ocurra.
3. lı́m Ψ (U, t) = Ψ (U )
t→∞
La probabilidad de ruina a horizonte infinito, puede ser aproximada (es similar) a la

probabilidad de ruina a horizonte finito, si t es suficientemente grande.
4. lı́m Ψ (U, t) = 0
U →∞
Cuando el capital inicial crece, la ruina es cada vez menos creible.
Probabilidades de ruina en tiempo discreto

• Las probabilidades de ruina anteriores, son probabilidades de ruina a tiempo continuo, lla-
madas ası́ porque hay un seguimiento continuo de la posibilidad de ruina de la aseguradora.
• En la práctica puede ser posible, y aun deseable, hacer el seguimiento de ruina sólo a
intervalos discretos de tiempo.
222
• Supongamos que los intervalos son de longitud h. Entonces, definimos las siguientes pro-
babilidades de ruina a tiempo discreto
Ψh (U ) = P [U (t) < 0, t = h, 2h, 3h, ...], y

Ψh (U, t) = P [U (τ ) < 0, τ = h, 2h, 3h, ..., t − h, t]
Nótese que se supone, por conveniencia en la definición de Ψh (U, t), que t es un entero
múltiplo de h.
223
El modelo clásico de Camér-Lundberg
El modelo de Cramér-Lundberg, tiene sus orı́genes en la tesis doctoral de Filip Lundberg
que defendió en el año de 1903. En este trabajo, Lundberg analiza el reaseguro de riesgos
colectivos y presenta el proceso de Poisson compuesto. Lundberg utilizó términos un tanto
distintos a los actuales pues en aquellos años aún no se habı́a formalizado la teorı́a de los
procesos estocásticos como la entendemos actualmente. En 1930, Harald Cramér retoma las
ideas originales de Lundberg, y las pone en el contexto de los procesos estocásticos, en ese
entonces, de reciente creación. El modelo se ha estudiado de manera extensa, y se han pro-
puesto varias formas de generalizarlo y analizado.
Este modelo clásico de riesgo para la actividad de una compañı́a de seguros, es el proceso
estocástico a tiempo continuo {U (t), t ≥ 0}, definido por
N (t)
X
U (t) = U + ct − Xi , t ≥ 0
t=1
con U el capital inicial de la compañı́a aseguradora, ct es el ingreso por primas hasta el tiem-
po, t, con c una constante positiva; Xi es el monto de la i-ésima reclamación, y {N (t), t ≥ 0}
un proceso Poisson de parámetro, λ.
La variable U (t) representa el balance más simple de ingresos menos egresos de una compañı́a
aseguradora. Al proceso, {U (t), t ≥ 0}, se le llama proceso de riesgo (risk process), o pro-
ceso de superávit (surplus process), y tiene trayectorias como se muestra en la siguiente figura
224
Trayectoria del proceso de ruina
60
40
U(t)
20
0
τ
−20
2 4 6 8 10
tiempo
Algunas caracterı́sticas del proceso de riesgo
• Las trayectorias del proceso empiezan siempre en U el capital inicial.
• Las variables aleatorias Xi , i = 1, 2, ... son i.i.d., con función generadora de momentos
MX (t), E (X) = µ1 = µ y E (X 2 ) = µ2
• E [U (t)], es
 
N (t)
X
E [U (t)] = E U + ct − Xi 
t=1
= U + ct − E [N (t)] E (Xi )
= U + ct − λtµ = U + (c − λµ) t
|{z}
∗
N (t)
X
* ya que Xi es un Poisson compuesto, con intensidad λt.
t=1
225
• V [U (t)] = λµ2 t Por el mismo argumento anterior.
La “trayectoria promedio”de este proceso de riesgo es la lı́nea recta que inicia en U > 0 y
tiene pendiente c − λµ, que es positiva por la condición o hipótesis de ganancia neta (enun-
ciada posteriormente). La variable aleatoria U (t) puede interpretarse como el capital de la
compañı́a aseguradora al tiempo, t, y por razones naturales y legales es importante que U (t)
esté por arriba de cierto nivel mı́nimo. Supongamos que tal nivel mı́nimo es a, con 0 < a < U .
Ajustando el capital inicial, U, esto es, suponiendo un nuevo capital inicial de magnitud U −a,
se puede suponer, sin pérdida de generalidad, que este nivel mı́nimo es cero, y ası́ lo haremos
en nuestro análisis. De esta forma cuando U (t) ≤ 0 para algún t > 0 se dice que hay ruina. La
ruina casi nunca sucede en la práctica, es solamente un término técnico que produce alguna
toma de decisión. Por ejemplo, si el capital de una compañı́a aseguradora asignado a una
cartera decrece en forma significativa, automáticamente la aseguradora puede tomar ciertas
medidas para subsanar esta situación y no se trata de un evento insalvable. Por otro lado,
es natural suponer que la compañı́a aseguradora posea varios portafolios de modo que rui-
na en uno de ellos no significa necesariamente bancarrota que el término ruina podrı́a sugerir.
La condición de ganancia neta
Sean T0 , T1 , T2 , ... los tiempos aleatorios en donde la aseguradora recibe las reclamacio-
nes. Supondremos T0 = 0. Para cada entero k ≥ 1 definamos la variable aleatoria Yk =
c (Tk − Tk−1 ) − Xk , que pueden interpretarse como el balance de la compañı́a aseguradora
entre dos siniestros sucesivos. La esperanza de esta variable es

1
E (Yk ) = cE (Tk − Tk−1 ) − E (Xk ) = c −µ
λ
Se puede demostrar que la ruina ocurre casi seguramente si, y sólo si, E (Yk ) ≤ 0. Como no
deseamos que la ruina ocurra, debemos suponer que E (Yk ) > 0, es decir, supondremos que
se tiene la condición de ganancia neta
c > λµ
Que interpretamos de la siguiente forma: en promedio, la entrada por primas por unidad de
tiempo, c, es mayor que el total de reclamaciones por unidad de tiempo, λµ.
226
Probabilidades de ruina con el modelo Carmér-Lundberg
Nos interesa calcular o estimar la probabilidad de una eventual ruina (horizonte infinito) en
el modelo de Cramér-Lundberg.
Definamos el tiempo de ruina, τ , como el primer momento en que la ruina se presenta, es deir
τ = inf {t > 0 : U (t) ≤ 0}
y se define inf ∅ = ∞. Por lo que τ es una variable aleatoria que toma valores en el intervalo
(0, ∞]. Recordemos que, dado un valor, t > 0 fijo, habı́amos definido la probabilidad de ruina
en el intervalo (0, t], llamada probabilidad de ruina a horizonte finito, como
Ψ (U, t) = P (τ ≤ t|U (0) = U )
Y esta misma probabilidad de ruina a horizonte infinito, como
Ψ (U ) = P (τ < ∞|U (0) = U )
Probabilidad de ruina a horizonte infinito

Ahora presentaremos tres resultados generales sobre la probabilidad de ruina con horizonte
infinito. Denotaremos como F (y) a la función de distribución de cualquiera de las reclama-
ciones, Y, y función de supervivencia como F̄ (y) = 1 − F (y). La correspondiente función de
densidad será denotada por f (y), siempre que exista.
Proposición. Sea Ψ̄ (U ) = 1 − Ψ (U ). Supongamos que la distribución de cualquier reclama-

ción en el modelo de Cramér-Lundberg es absolutamente continua, con función de densidad
f (y). Entonces
Z U
d λ
1.- Ψ̄ (U ) = Ψ̄ (U ) − Ψ̄ (U − y) f (y)dy
dU c 0
λµ
2.- Ψ (0) =
c
227
Z ∞ Z U
λ
3.- Ψ (U ) = F̄ (y) + Ψ (U − y) F̄ (y)dy
c U 0
Dem.
Demostración. Para hacer la demostración del punto 1, condicionaremos al monto de la pri-

mera reclamación Y1 y el momento T1 en el que ella ocurre. Usaremos además el hecho de que
T1 tiene distribución exp(λ), ya que es el tiempo que ocurre antes de la primer reclamación,
que, en este modelo de Cramér-Lundberg, tiene distribución Poisson. Entonces
Ψ̄ (U ) = P (No ruina en (0, ∞)|U (0) = U )

Z ∞Z ∞
= P (No ruina en (0, ∞)|U (0) = U, Y1 = y, T1 = t) f (y)fT1 (t)dydt
0 0
Z ∞ Z U +ct
=
|{z} P (No ruina en (0, ∞)|U (0) = U, Y1 = y, T1 = t) f (y)fT1 (t)dydt
∗ 0 0
Z ∞ Z U +ct
−λt
= λe P (No ruina en (0, ∞)|U (0) = U, Y1 = y, T1 = t) f (y)dydt
0 0
Z ∞ Z U +ct
−λt
=
|{z} λe Ψ̄ (U + ct − y) f (y)dydt
∗∗ 0 0
* Ya que si no hay ruina para Y = Y1 , entonces Ψ(U ) ≥ 0 ⇒ U + ct − Y1 ≥ 0 ⇒ Y1 ≤ U + ct
** Ya que, por el punto * este es un valor de U para el que la ruina no se presenta, por lo
tanto, lo que se presenta es el complemento de Ψ(U ), es decir, Ψ̄ (U ). Si hacemos el cambio
de variable: s = U + ct, que implica t = (s − U ) /c y ds = cdt, tenemos que
Z ∞ Z s
λ −λs/c
Ψ̄ (U ) = eλU/c e Ψ̄ (s − y) f (y)dyds
c U 0
Derivando esta expresión respecto a U, utilizando el teorema fundamental del cálculo, obte-
nemos la relación deseada.
228
Para derivar el segundo inciso, integramos en el intervalo [0, U ], la expresión en 1. Y obte-
nemos
Z U Z U Z U Z x
d λ
Ψ̄ (s) = Ψ̄ (U ) − Ψ̄ (0) = Ψ̄ (x) − Ψ̄ (x − y) dF (y)dx
0 ds c 0 0 0
Z U Z U Z U
λ
= Ψ̄ (x) − Ψ̄ (x − y) dxdF (y) (x − y > 0 ⇒ x > y )
c 0 0 y
Z U Z U Z U −y
λ
=
|{z} c Ψ̄ (x) − Ψ̄ (x) dxdF (y)
∗ 0 0 0
Z U Z U Z U −x
λ
= Ψ̄ (x) − Ψ̄ (x) dF (y)dx
c 0 0 0
Z U Z U U −x
λ
= Ψ̄ (x) − Ψ̄ (x) F (y) dx

c 0 0 0
Z U
λ
= Ψ̄(x) [1 − F (U − x)] dx
c 0
Z U
λ
= Ψ̄ (x) F̄ (U − x)dx
c 0
Z U
λ
= Ψ̄ (U − x) F̄ (x)dx · · · (1)
c 0
Z U
λ
= Ψ̄ (U − x) F̄ (x)1[0,U ] (x)dx
c 0
* Ya que si x=y, entonces, el lı́mite inferior de la integral es cero y si x=U, el lı́mite superior
es u-y.
Ahora, sólo resta tomar lı́mite cuando U → ∞. En el lado derecho de la igualdad tenemos

lı́m Ψ̄ (U ) − Ψ̄ (0) = 1 − Ψ̄ (0) (Ya que si U → ∞ entonces la ruina ocurre con probabili-
U →∞
dad uno). En el lado izquierdo ocurre que Ψ̄ (U − x) es una función monótona creciente que
converge a uno, entonces, esta integral converge a la integral
Z ∞ Z ∞
F̄ (x)dx = [1 − F (x)] dx
0 0
229
Y recordando que
Z ∞ Z ∞
E (X) = F̄ (x)dx = [1 − F (x)] dx = µ
0 0
Finalmente tenemos que
λµ
1 − Ψ̄ (0) =
c
por lo que
λµ
Ψ (0) = 1 − Ψ̄ (0) = · · · (2)
c
Para probar el último inciso, usaremos los resultados (1) y (2), de la siguiente forma
Primero tenemos que
Z U
λ
= Ψ̄ (U ) − Ψ̄ (0)
Ψ̄ (U − x) F̄ (x)dx |{z}
c 0 1
= 1 − Ψ (U ) − Ψ̄ (0)
λµ
= − Ψ (U )
|{z} c
2
Entonces
230
Z U
λ
Ψ (U ) = µ− Ψ̄ (U − x) F̄ (x)dx
c 0
Z U
λ
= µ− (1 − Ψ (U − x)) F̄ (x)dx
c 0
Z U Z U
λ
= µ− F̄ (x)dx + Ψ (U − x) F̄ (x)dx
c 0 0
Z ∞ Z U Z U
λ
= F̄ (x)dx − F̄ (x)dx + Ψ (U − x) F̄ (x)dx
c 0 0 0
Z ∞ Z U
λ
= F̄ (x)dx + Ψ (U − x) F̄ (x)dx
c U 0
Obsérvese que la última expresión corresponde a una forma recursiva para encontrar la pro-
babilidad de ruina. En general no es fácil resolver este tipo de ecuaciones, de modo que
únicamente nos limitaremos a encontrar algunas estimaciones de las mismas. Sin embargo,
cuando las reclamaciones tienen distribución exponencial el sistema es soluble como se mues-
tra a continuación.
Ejercicio. Encontraremos la probabilidad de ruina, en el modelo de Camér-Lundberg, cuando

las reclamaciones son exponenciales (α).
1
En este caso, sabemos que E (X) = . Entonces, la probabilidad de no ruina es
α
Z u
0 λ −λu αy
Ψ̄ (u) = Ψ̄ (u) − e Ψ̄(y)αe dy
c 0
Entonces, derivando esta expresión obtenemos la ecuación diferencial

00 λ 0
Ψ̄ (u) = − α Ψ̄ (u)
c
cuya solución es
Ψ (u) = a + be−(α−λ/c)u
231
λ
Utilizando las condiciones iniciales Ψ (0) = (observemos aquı́ que la media de la expo-
αc
nencial es α1 , no µ como la habı́amos denotado antes) y Ψ (∞) = 0 (recordar que si el capital
inicial U es infinito, la ruina jamás se presenta). Estas dos condiciones iniciales generan el
sistema de ecuaciones
λ
= a+b
αc
0 = a
λ
que tiene la solución: a = 0 y b = αc
. Por lo que la solución queda como
λ −(α−λ/c)u
Ψ (u) = e
αc
cuya gráfica se encuentra en la siguiente figura. Observe que debido a la condición de ganan-

λ
cia neta, el exponente − α − es negativo, y por lo tanto la probabilidad de ruina decae
c
a cero exponencialmente cuando el capital inicial, U, crece a infinito.
232
Gráfica probabilidad de ruina exponencial
10
λ cα
8
Ψ(u)
6
4
2
0
0.0 0.2 0.4 0.6 0.8 1.0
233
Coeficiente de ajuste
Una aproximación para la probabilidad de ruina bajo el estudio de un horizonte infinito, es
la que proporciona el coeficiente de ajuste de Lundberg. Se trata de un instrumento útil para
conseguir lı́mites para la probabilidad de ruina. Para eso es preciso definir previamente el
Coeficiente de Ajuste. Definamos primero la función
θ(r) = λ (MY (r) − 1) − cr
con MY (r) la función generadora de momentos de Y . Por supuesto, esta función está defi-
nida para los valores de r en donde MY (r) existe. Entonces, suponiendo que esta función es
diferenciable, tenemos que
0 0
• θ (r) = λMY (r) − c
00 00
• θ (r) = λMY (r) = λE Y 2 erY > 0
Por lo tanto, es una función estrictamente convexa, con θ(0) = 0. Y por la condición de
ganancia neta, (c > λµ), se tiene que
0
θ (0) = λMY (0) − c = λµ − c < 0. Entonces, es posible que exista un valor R > 0 tal que
θ(R) = 0. Obsérvese la siguiente figura
234
Gráfica coeficiente de ajuste
6
4
θ(r)
2
0
−2
0.0 0.5 1.0 1.5 2.0 2.5 3.0
235
Def. A la posible solución, R > 0, de la siguiente ecuación se le llama coeficiente de ajuste,
o exponente de Lundberg.
θ(R) = λ (MY (R) − 1) − cr = 0
Obsérvese que la existencia del coeficiente de ajuste depende totalmente de la distribución

de las reclamaciones. Aquellas distribuciones para las que el coeficiente de ajuste existe se
les llama distribuciones con colas ligeras, y la razón de ello es que la función de densidad
decae a cero exponencialmente, asignando probabilidades pequeñas a reclamaciones grandes.
Este hecho significa que la distribución tiene momentos finitos, y MY existe. Por ejemplo,
demostraremos a continuación que en el caso de reclamaciones exponenciales (distribución
con colas ligeras), el coeficiente de ajuste existe y es fácil calcularlo.
Ejemplo. Montos de reclamación con distribución exponencial. Supongamos que

α
Yi ∼ Exp (α), con función generadora de momentos dada por MY (r) = , r < α. En-
α−r
tonces
θ(r) = λ (MY (r) − 1) − cr

α
= λ − 1 − cr
α−r

r
= λ − cr
α−r

λ
= −c r
α−r
λ
Por lo que θ(r) = 0 ⇒ r = 0, o − c = 0. Esta segunda ecuación implica
α−r
λ
R=r =α−
c
Más aún, recordando el resultado que obtuvimos al calcular la probabilidad de ruina cuando
los montos de reclamación eran exponenciales, esta probabilidad de ruina puede escribirse
de la siguiente forma
236
λ −(α−λ/c)u λ −Ru
Ψ (u) = e = e ≤ e−Ru
αc αc
La desigualdad es consecuencia de la condición de ganancia neta.
1 λ
c > λµ, en este caso c > λ ⇒ cα > λ y <1
α cα
Este tipo de cota superior para la probabilidad de ruina (llamada desigualdad de Lundberg)
la demostremos más adelante, para cualquier distribución de las reclamaciones para la que
el coeficiente de ajuste exista.
“Ostro.ejemplo (Reclamaciones con distribución gamma). Supongamos que las reclamaciones

se distribuyen gamma(γ, α) con γ = 2. Con función generadora de momentos
γ
α
MY (r) = , r<α
α−r
Por lo que
γ
α
θ(r) = λ − 1 − cr
α−r
El requerimiento θ(r) = 0, genera la ecuación cuadrática
cr2 + r (λ − 2αc) + (cα2 − 2αλ) = 0
cuyas raı́ces, son
√
2αc − λ ± λ2 + 4αcλ
r=
2c
El caso con raı́z cuadrada positiva no es válido pues resulta r > α. En efecto, utilizando la
2λ
condición de ganancia neta, c > , tenemos
α
237
√ √
2αc − λ + λ2 + 4αcλ 2αc − λ + λ2 + 8λ2
≥
2c 2c
λ
= α+
c
> α
por lo que la raı́z con el signo negativo es el coeficiente de ajuste.
Ejemplo (Reclamaciones con distribución gamma) En el ejemplo anterior, el hecho de asig-

narle al parámetro γ de la distribución gamma, el valor dos, fue premeditado para obtener
una ecuación de segundo grado, si asignamos el valor de γ = 3, obtenemos la ecuación cúbica
f (r) = λ α3 − (α − r)3 − cr (α − r)3 = 0

La raı́z, r, que buscamos es tal que por condiciones de existencia de la función generadora
de momentos debe satisfacer 0 < r < α. Para ilustrar el cálculo con R de la solución de esta
ecuación, tomaremos α = 3, λ = 1 y c=2. Estos valores aseguran que se cumple la condición
3λ
de ganancia neta: c > .
α
238
Gráfica coeficiente de ajuste gamma
100
80
60
40
θ(r)
20
R
0
−20
0 1 2 3 4 5
f < −f unction(x)(9 − (3 − x)3 ) − 2 ∗ x ∗ (3 − x)3

uniroot(f, c(0, 10))
root [1]1.737766
f.root [1] − 0.000450224
iter [1]10
estim.prec [1]6.103516e − 05
El siguiente resultado proporciona una forma equivalente de definir el coeficiente de ajuste,

permite, además, comprobar su existencia a través de la determinación del carácter finito de
una integral, y posibilita dar una interpretación de aquellas distribuciones de probabilidad
para las cuales el coeficiente de ajuste existe.
Proposición. La ecuación θ(r) = λ (MX (r) − 1) − cr = 0 tiene una posible solución r > 0 si,
y sólo si, se cumple la identidad
239
Z ∞
c
erx F̄ (x)dx =
0 λ
con F̄ = 1 − F (x), y F (x), la función de distribución de los montos de reclamación.
Dem
Recordemos que la función generadora de momentos de una v.a. X, se define como
Z ∞ Z ∞ Z ∞
rx rx
MX (r) = e f (x)dx = e dF (x)dx = − erx dF̄ (x)dx
0 0 0
Integrando por partes la última expresión en la función generadora de momentos
Sea u = erx ⇒ du = rerx dx y dv = dF̄ (x) ⇒ V = F̄ (x). Por lo que
Z ∞ ∞ Z ∞
rx rx rx
e dF (x)dx = − e F̄ (x) − re F̄ (x)dx

0 0 0
∞
rx
Ya que por hipótesis la función generadora de momentos existe, entonces e F̄ (x) = 0 y

erx F̄ (x) = 1 (esto implica que el decaimiento en las colas de la distribución de F(x), es

0
mayor al crecimiento de erx ). Entonces
Z ∞ Z ∞
rx rx
e dF (x)dx = − −1 − re F̄ (x)dx
0 0
Por lo tanto
Z ∞ Z ∞
rx
e dF (x)dx = 1 + rerx F̄ (x)dx
0 0
Ahora, ya que
240
0 = θ(r)
= λ (MX (r) − 1) − cr
Z ∞
rx
= λ e dF (x)dx − 1 − cr
0
Z ∞
= λr erx dF̄ (x)dx − cr (despejando del resultado anterior)
0
Entonces, despejando esta última igualdad, tenemos
Z ∞
c
erx dF̄ (x)dx =
0 λ
Ejemplo Usaremos este criterio para demostrar que para la distribución Weibull existe el
coeficiente de ajuste, si el parámetro de forma, γ ≥ 1. En este caso tenemos que
• f (x, γ, λ) = λγ (λt)γ−1 e−(λt)

γ
γ
• F̄ = e−(λt)
Entonces
Z ∞ Z ∞
γ
rx
e dF̄ (x)dx = erx e−(λx) dx
0 0
Z ∞
γ
= erx−(λx) dx
0
Esta integral existe si rx − (λx)γ ≤ 0 ⇒ rx ≤ (λx)γ ⇒ x ≤ xγ ⇒ γ ≥ 1.
Ejemplo 2. Veamos qué pasa con la distribución Burr y este coeficiente. Esta variable tiene
función de distribución dada por
α
k
F (x) = 1 − , x ≥ 0, α > 0, β > 0
k + xβ
241
α
k
Por lo que F̄ (x) = . Entonces
k + xβ
Z ∞ Z ∞ α
rx rx k
e dF̄ (x)dx = e dx
0 0 k + xβ
Z ∞
≈ erx x−βα dx = ∞
0
Por lo tanto la distribución Burr es una distribución con colas pesadas.
Comentamos en el desarrollo de este coeficiente de ajuste que, para que exista, la cola de la
distribución, F , debe decaer a cero lo suficientemente rápido para anular el comportamiento
creciente del término, erx dentro de la integral. En el ejemplo de la distribución Burr, la cola
decae a cero en la forma, x−βα que resulta insuficiente para hacer que la integral sea finita.
Una distribución con cola ligera asigna probabilidades muy pequeñas a los valores grandes de
la variable aleatoria. Esto puede representar un inconveniente para modelar algunos riesgos
que pudieran registrar grandes montos en las reclamaciones.
Desigualdad de Lundberg
Vamos a demostrar ahora que para aquellas distribuciones para las cuales el coeficiente de
ajuste, R, existe, se cumple la desigualdad Ψ(u) < e−Ru . Para demostrar este resultado ha-
remos uso de la teorı́a de martingalas.
Proposición. Sea {U (t)} el proceso de riesgo, y sea θ(r) = λ (MX (r) − 1) − cr. Entonces, el
proceso e−rU (t)−θ(r)t : t ≥ 0 es una martingala.

Utilizaremos la definición, equivalente a la que dimos antes, de martingala siguiente
Def. Un proceso {Mt : t ≥ 0} que es adaptado e integrable es una martingala si para 0 ≤

s ≤ t, se cumple que
E (Mt |Fs ) = Ms
con Fs una filtración.
242
Dem. Que el proceso es adaptable es claro pues, implı́citamente, estamos usando la filtración
natural, Ft = σ {Xs : 0 ≤ s ≤ t}.
Para demostrar que es integrable, consideremos los siguientes cálculos
PN (t)

−rU (t)−θ(r)t
−θ(r)t −r u+ct− j=1 Yj
E e = e E e
PN (t)
= e−θ(r)t−r(u+ct) E er j=1 Yj
= e−θ(r)t−r(u+ct) MS(t) (r)
= e−θ(r)t−r(u+ct) eλt(MY (r)−1)

< ∞
|{z}
∗
* Ya que −θ(r)t = −λt (MY (r) − 1)+crt. Entonces, el exponente de la función exponencial es
−λt (MY (r) − 1) + crt − ru − crt + λt (MY (r) − 1) = −ru
Y para demostrar que se cumple la propiedad de martingala: E (Mt |Fs ) = Ms . Para 0 ≤ s < t
E e−rU (t)−θ(r)t |Fs = e−θ(r)t E e−rU (t) |Fs

= e−θ(r)t E e−r(U (t)−U (s))−rU (s) |Fs

= e−θ(r)t−rU (s) E e−r(U (t)−U (s)) |Fs

PN (t)
= e−θ(r)t−rU (s) E e−r(c(t−s)− j=N (s)+1 Yj ) |Fs
PN (t)
= e−θ(r)t−rU (s)−rc(t−s) E er j=N (s)+1 Yj |Fs
PN (t−s)
= e−θ(r)t−rU (s)−rc(t−s) E er j=1 Yj |Fs
= e−θ(r)t−rU (s)−rc(t−s) eλ(t−s)(MY (r)−1)

= e−rU (s)−θ(r)s
= Ms
243
En particular, si el coeficiente de ajuste existe, es decir, si θ(R) = 0, entonces el proceso,
−RU (t)
e es una martingala. Este es el resultado clave para demostrar la siguiente cota su-
perior para la probabilidad de ruina.
Desigualdad de Lundberg. Suponga que el coeficiente de ajuste R existe. Entonces
Ψ(u) ≤ e−Ru
Dem. Sea τ el tiempo de paro correspondiente al tiempo (momento) de ruina. Como el

proceso e−RU (t) es una martingala, se tiene que el proceso e−RU (t∧τ ) también es una

N (t)
X
−Ru
martingala, que inicia en e , ya que U (t) = u + ct − Yj ⇒ U (0) = u entonces el
j=1
−RU (t∧τ )
, inicia en e−Ru . Por lo tanto

proceso, e
e−Ru = e−RU (0)

= E e−RU (t∧τ ) Porque e−RU (t∧τ ) , es matingala

= E e−RU (t∧τ ) |τ ≤ t P (τ ≤ t)

+E e−RU (t∧τ ) |τ > t P (τ > t)

≥ E e−RU (t∧τ ) |τ ≤ t P (τ ≤ t)

= E e−RU (τ ) |τ ≤ t P (τ ≤ t)

Z
−RU (τ )
= e 1τ ≤t dP P (τ ≤ t)
Si hacemos que t → ∞, entonces, el evento (τ ≤ t) tiende de manera monótona al evento

(τ < ∞). Utilizando el teorema de convergencia monótona se obtiene entonces que
244
e−Ru ≥ E e−RU (τ ) |τ < ∞ P (τ < ∞)

> E (1|τ < ∞) P (τ < ∞)
= P (τ < ∞)
= Ψ(u)
por lo tanto, se tiene la desigualdad de Lundberg
Ψ(u) ≤ e−Ru
Desigualdad de Liundberg
1.0
e−Ru
0.8
0.6
Ψ(u)
0.4
0.2
0.0
0 2 4 6 8 10
Ejemplo Supongamos que la distribución de las reclamaciones es Exp(1) y que el tiempo

entre dos eventos Poisson se distribuye como Exp(2); además, la tasa constante de pago de
primas es c = 2.4 miles de pesos. Calcular el coeficiente de ajuste para este caso.
• Lo primero que hay que hacer es calcular R. Recordemos que para este caso
λ 2
R=α− =1− = 0.1666667
c 2.4
245
Por lo que la desigualdad de Lundber es
Ψ(u) ≤ e−0.1666667∗u
El cálculo con R es
adjCoef (mgf.claim = mgf exp(x), mgf.wait = mgf exp(x, 2), premium.rate = 2.4, upper =
1)
[1]0.1666667
Uno más complicado
adjCoef (mgf.claim = mgf gamma(x, 3, 3), mgf.wait = mgf exp(x, 1), premium.rate =
2, upper = 1)
[1]0.8404738
246
Cotas para el coeficiente de ajuste
Como hemos visto, el coeficiente de ajuste no siempre existe, y aún cuando conozcamos su
existencia no siempre es fácil calcularlo. El siguiente resultado proporciona algunas cotas
para el valor de este coeficiente, suponiendo su existencia.
Proposición Si el coeficiente de ajuste, R, existe, entonces

1 c 2 (c − λµ)
ln <R<
M λµ λµ2
Demostración para la cota superior. Consideremos nuevamente la función θ(r) = λ (MX (r) − 1)−
cr, para r ≥ 0. Sabemos que θ(0) = 0. Derivando dos veces esta función tenemos
0 0
θ (r) = λMY (r) − c
00
θ (r) = λE Y 2 erY > λE (Y 2 ) = λµ2
0
De donde tenemos que θ (0) = λµ − c. Además, utilizando el teorema fundamental del cálcu-
lo, tenemos que
Z r
00 0 0
θ (s)ds = θ (r) − θ (0)
0
Z r Z r
0 0 00
⇒ θ (r) = θ (0) + θ (s)ds > λµ − c + λµ2 dr = λµ − c + λµ2 r
0 0
Integrando ambos lados de la desigualdad, tenemos
t
r2
Z
0
θ(r) = θ(0) + θ (s)ds > (λµ − c) t + λµ2
0 2
Evaluando esta desigualdad en la raı́z, R, obtenemos
R2

R
0 > (λµ − c) R + λµ2 = (λµ − c) + λµ2 R
2 2
247
Ya que R > 0, entonces, para que la expresión en la derecha de la desigualdad sea negativa,
debe suceder que
R 2 (c − λµ)
(λµ − c) + λµ2 <0⇒R<
2 λµ2
Para la cota inferior tenemos
Supongamos Y ≤ M c.s. y definamos la función
x RM
− 1 − eRx − 1

h(x) = e
M
00
Entonces, tenemos que h (x) = −R2 eRx < 0. Por lo tanto, h, es cóncava, con h(0) = h(M ) =
0, que implica que h(x) > 0 para x ∈ (0, M ). Es decir
x RM
− 1 − eRx − 1 > 0

e
M
equivalentemente
x RM
eRx − 1 <

e −1 · · · (1)
M
0
Ahora, consideremos la función g(x) = xex − ex + 1. Entonces tenemos que g (x) = xex > 0.
Por lo tanto, g(x) es creciente, y g(x) > g(0) = 0. Es decir g(x) = xex − ex + 1 > 0, si x > 0.
Si evaluamos esta función en x = RM > 0, tenemos g(x) = RM eRM −eRM +1 > 0. Por lo que
eRM − 1
< eRM
RM
Por otro lado, y utilizando (1), tenemos
248
Z M
eRx − 1 dF (x)

MY (R) − 1 =
0
Z M
x RM
≤ e − 1 dF (x)
|{z} 0 M
(1)
Z M
1 RM
= e −1 xdF (x)
M 0
µ RM
= e −1 · · · (2)
M
Ahora, utilizando (2) y después (1), obtenemos
0 = λ (MY (R) − 1) − cR
λµ RM
≤ e − 1 − cR
|{z} M
(2)
< λµReRM − cR
|{z}
(1)
λµ λµeRM − c R

=
de donde tenemos que λµeRM − c > 0. Y finalmente

1 c
ln <R
M λµ
Obsérvese que la cota superior no requiere de hipótesis adicionales, de modo que cuando el

2 (c − λµ)
coeficiente de ajuste, R, existe, éste se encuentra siempre dentro del intervalo 0, .
λµ2
Observe también que cuando las reclamaciones están acotadas superiormente por una cons-
tante positiva, M, puede encontrarse una cota superior para la probabilidad de ruina sin
conocer, necesariamente, el coeficiente de ajuste pues
u
Mu
−Ru u
−M c
ln( λµ ) ln( λµ
c )
M λµ
Ψ(u) < e < e =e =
|{z} c
∗
249
*Multiplicando la cota superior por -u.
250
Aproximaciones al modelo de Carmér-Lundberg
Aproximación de De Vylder
Consideremos nuevamente el modelo de Cramér-Lundberg
N (t)
X
U (t) = U + ct − Yj
j=1
donde las reclamaciones Yj tienen una distribución desconocida. La aproximación propuesta

por De Vylder consiste en aprovechar el hecho de que, para este modelo, el problema de
encontrar la probabilidad de ruina es completamente soluble cuando las reclamaciones son
exponenciales. De Vylder propone la siguiente reformulación del modelo
N (t)
e
X
U ct −
e (t) = u + e Yej
j=1
n o
c una nueva tasa de ingreso por primas,
e Ne (t) : t ≥ 0 , un proceso Poisson de parámetro
λ,
e y Yej variables aleatorias con distribución exp(e
α). La idea es aproximar la probabilidad
de ruina del modelo original de riesgo, por medio de este modelo reformulado. Para ello se
deben encontrar los valores de los parámetros, e

c, λ
eyα
e, en términos de los parámetros del
riesgo original, como lo mostramos en seguida.
Proposición. La probabilidad de ruina del riesgo en el modelo de Carmér-Lundberg, puede

aproximarse por la fórmula
λ
e −αe− λe u
Ψ(u) ≈ e c
e
, con
cα
e e
3µ2 e 9 λµ32 3 λµ22
α
e= , λ= , c = c − λµ +
2 µ23
e
µ3 2 µ3
Dem. El método consiste en igualar los tres primeros momentos de los procesos U (t) y U
e (t),
asumiendo que éstos existen.
251
• Igualación de las esperanzas. Es decir, hay que encontrar las condiciones bajo las que
h i
E [U (t)] = E Ue (t) . Entonces, tenemos que
e1t = E U
h i
E [U (t)] = U + ct − λµt = U + ect − λ e (t)
α
e
⇒e e1
c = c − λµ + λ
α
e
• Igualación de varianzas (Igualación de los segundos momentos). El siguiente paso es igualar

las varianzas. Recordemos que la varianza de un riesgo, S, que sigue un modelo de pérdidas
agregadas P oisson(λ), está dada por V (S) = λµ2 . Entonces, igualando las varianzas de
estos dos procesos, tenemos
2 h i
V [U (t)] = λµ2 = λ
e = V U
e (t)
e2
α
• Igualadad entre los terceros momentos. Finalmente, recordemos que el tercer momento cen-
tral de un riesgo, S, que sigue un modelo colectivo P oisson(λ), está dado por E (S − E(S))3 .

En este caso del modelo de pérdidas, tenemos
3
3 6
E (U (t) − E(U (t))) = λµ3 = λ 3 = E U (t) − E(U (t))
e e e
α
e
Sólo resta igualar convenientemente estas ecuaciones para encontrar los parámetros de in-
terés. De las igualdades de la varianza y tercer momento, se desprende que
1 1
e2 = λµ3 α
λµ2 α e3
2 6
3µ2
⇒α e=
µ3
Ahora, sustituyendo este valor en la ecuación generada al igualar las varianzas, tenemos
3
e = 9 λµ2
λ
2 µ23
252
Finalmente, sustituyendo estos dos valores en la igualdad entre las esperanzas, tenemos
3 λµ22
c = c − λµ +
e
2 µ3
Entonces, hemos encontrado los valores de los parámetros del modelo reformulado: λ,
e αe, e
c,
en términos de los del modelo original λ, c y de los momentos de la distribución de las re-
clamaciones, Y.
Fórmula de Pollaczec-Khinchin
La fórmula de Pollaczek-Khinchin es una expresión general que permite escribir a la proba-

bilidad de ruina en términos de una serie infinita de convoluciones.
Proposición (Fórmula de Pollaczec-Khinchin). La probabilidad de ruina en el modelo de

Cramér-Lundberg está dada por
∞
X
Ψ(u) = (1 − p) pn H̄ ∗(n) (u)
n=1
Z x
λµ 1
con p = , y H(x) = F̄ (y)dy, x ≥ 0
c µ 0
Con µ la esperanza de la distribución asociada al monto de reclación. Claramente es muy

difı́cil de utilizar esta serie para calcular la probabilidad exacta de ruina, debido a su carácter
infinto. No obstante, se usa ampliamente para calcular aproximaciones de probabilidades de
ruina.
Dem
Primero veamos que la variable aleatoria 1 − Ψ(u) corresponde a la distribución de una

λµ ∗
variable geométrica compuesta con parámetros 1 − p = 1 − ,H (Recordemos que la
c
probabilidad de éxito se toma como q=1-p). Efectivamente, sea

λµ
N ∼ Geo 1 − ,y
c
253
n
X
X= Yi
i=1
tales que Y1 , Y2 , ..., Yn son variables aleatorias independientes con distribución H(y). Entonces
∞
X
Ψ(x) = P (X ≤ x) = P (X ≤ x|N = n) (1 − p)pn
n=0
∞
X
= (1 − p)pn H ∗(n)
n=0
Entonces
∞
X
(1 − p)pn 1 − H ∗(n)

1 − Ψ(u) = =
n=0
∞
X
= (1 − p)pn H̄ ∗(n)
n=0
∞
X
= (1 − p) pn H̄ ∗(n) (u)
n=1
∞ n
λµ X λµ
= 1− H̄ ∗(n) (u)
c n=1 c
Para utilizar esta fórmula y obtener aproximaciones de las probabilidades de ruina, la com-
binaremos con el algoritmo de Panjer. En general no es fácil calcular las convoluciones de la
función de distribución, H(u), ni tampoco calcular la suma infinita en esta fórmula. No obs-
tante, pueden llevarse a cabo simulaciones de esta variable aleatoria, calcular la magnitud de
las colas y conocer de manera aproximada la probabilidad de ruina cuando las reclamaciones
tienen una distribución continua arbitraria. Mostremos esta fórmula de Pollaczek-Khinchin
para reclamaciones exponenciales, y comparémosla con la fórmula exacta ya conocida para
este caso.
254
Entonces, supongamos que las reclamaciones tiene distribución exponencial de parámetro α.
Primero veamos que H(u) es nuevamente la función de distribución de una exponencial (α).
u
1 u −αy
Z Z
1
H(u) = F̄ (y)dy = e dy
µ 0
1 0
α
u
e−αy

= α y−
α
0
−αu
e 1
= α − +
α α
= 1 − e−αu
Por lo tanto, H ∗(n) (u) se distribuye gamma(n, α), y su distribución es
∞ k
−αu (αu)
X
∗(n)
H (u) = e
k=n
k!
cuya función de supervivencia es
n−1
∗(n)) X (αu)k
H (u) = e−αu
k=0
k!
Entonces tenemos que
255
∞ ∞ X
n−1 k
∗(n) n −αu (αu)
X X
n
p H (u) = p e
n=1 n=1 k=0
k!
∞ X
∞
X (αu)k
= pn e−αu
k=0 n=k+1
k!
∞ k ∞
−αu (αu)
X X
= e pn
k=0
k! n=k+1
∞ k ∞
−αu (αu)
X X
k+1
= e p pn
k=0
k! n=0
∞
p X −αu (αpu)k
= e
1 − p k=0 k!
p −αu αpu
= e e
1−p
p −α(1−p)u
= e
1−p
continuando con este desarrollo, tenemos entonces que de acuedo a esta fórmula de Pollaczek-
Khinchin
∞
X ∗(n)
ϕ(u) = (1 − p) pn H (u)
n=1
p −α(1−p)u
= (1 − p) e
1−p
= pe−α(1−p)u
λ −(α− λc )u
= e
αc
que es el modelo de Cremér-Lundgber ya conocido para esta distribución.
Ejemplo. Utilizaremos R para aproximar las probabilidades de ruina de algunos modelos.

Supongamos que las reclamaciones siguen una distribución Pareto (5,4), la tasa de intensidad
Poisson es λ = 1 y tasa de primas por unidad de tiempo, c = 30. Ya que los momentos de
256
esta distribución son de la forma
αθk
E Xk =

α−k
en este caso, se pueden implementar las dos aproximaciones que presentamos, ya que esta
distribución tiene los tres primeros momentos finitos.
Aproximación de De Vylder
Entonces, el primero, segundo y tercer momento de esta distribución son
θ 2θ2 6θ3
; µ2 = E X 2 = y µ3 = E X 3 =

µ = E (X) =
α−1 (α − 2) (α − 3)
Por lo que los valores para nuestra aproximación son
3 ∗ 2θ2
3µ2 (α − 2) (α − 3)
α
e= = 3 =
µ3 6θ (α − 2) θ
(α − 3)
9λ 8θ6
3 3 3
e = 9 λµ2 = 2 (α − 2) = λ (α − 3)
λ
2 µ23 36θ6 (α − 2)3
(α − 3)3
3 λµ22 θ λ (α − 3) θ
c = c − λµ + =c−λ +
(α − 1) (α − 2)2
e
2 µ3
Utilizando los valores particulares de este ejemplo, que son: α = 5, θ = 4, λ = 2 y c = 12,
tenemos
α
e = 0.16666667; λ
e = 0.5925926 y e
c = 11.7777778
y la aproximación a la probabilidad de ruina queda como
0.5925926
Ψ(u) ≈ e−0.1163522∗u = 0.3018867e−0.1163522∗u
0.1666667 ∗ 11.7777778
257
Aproximación de De Vylder
0.30
0.25
0.20
Ψ(u)
0.15
0.10
0.05
0.00
0 20 40 60 80 100
Utilizando la aproximación que se desprende de la fórmula de Pollaczec-Khinchin. Tenemos
5
4
F (x) = 1 −
4+x
Z x 5 !
1 4
⇒ H(x) = 1− 1− dz
µ 0 4+z
Z x 5
4
= 1∗ dz
0 4+z
4
4
= 1−
4+x
Es decir, H ∼ P areto (4, 4). Además, tenemos que la “probabilidad de éxito”de la geométri-
ca asociada es
λµ 2∗1 5
1− c =1− 12 = 6
258
Entonces, cocluiremos este ejemplo utilizando R, para construir el modelo agregado subya-
cente.
Aprox. Pollaczec−Khinchin
0.16
0.14
Ψ(u)
0.12
0.10
0.08
0 20 40 60 80 100
259
Reservas
Las reservas para las compañı́as de seguros han tenido un desarrollo muy considerablemente
en los años recientes, ocasionado por el crecimiento del mercado de seguros, con procesos
de suscripción de riesgos (coberturas) cada vez más complejos. Se han desarrollado nuevos
productos de seguros que se adaptan a las necesidades más especı́ficas de la póliza. Además,
también han surgido reclamaciones latentes que ponen mayores presiones sobre los recursos
de la empresa. Los desastres recientes, como las inundaciones en Europa y los ataques terro-
ristas del 11 de septiembre a los EE.UU., han contribuido a la necesidad de formas complejas
de análisis de la siniestralidad, motivando la revisión de los modelos utilizados en las reservas
de siniestros, para garantizar resultados acordes a estos nuevos esquemas.
El pago de las reclamaciones es el primer objetivo de una cı́a. de seguros. El asegurado realiza
el pago de la prima para que, a efecto de este pago, la cı́a. de seguros acepte la responsabili-
dad de hacer un pago en dinero a los asegurados sobre la ocurrencia de un evento especı́fico,
dentro del periodo de tiempo estipulado.
En teorı́a, la responsabilidad de la aseguradora de pagar una reclamación cristaliza en el

instante de ocurrencia de la contingencia asegurada. Sin embargo, hay muchos factores que
pueden conducir a retrasos considerables entre la ocurrencia del siniestro y su pago. En pri-
mer lugar, la contingencia asegurada, es posible que no ocurra en un solo instante y puede,
incluso, no reconocerse como un evento exigible de pago, sino hasta muchos años después de
haber iniciado. En segundo lugar, la responsabilidad legal de la aseguradora no siempre es
clara, y puede haber retrasos considerables antes de que la compañı́a de seguros (o tribunal)
decida que existe tal responsabilidad. En tercer lugar, podrı́a ser imposible determinar el
monto de los daños hasta que haya transcurrido un periodo de tiempo desde ocurrencia del
evento. En cuarto lugar, están los retrazos ocurridos dentro de la oficina de la compañı́a de
seguros, en el registro de las reclamaciones, en el procesamiento del archivo de reclamaciones,
la autorización, envı́o y cobro del pago de la reclamación, etc.
La predicción de los montos de reclamación no pagados es creciente en seguros de no vida

con corto plazo ya que, por su propia naturaleza, son altamente especulativos. Los detalles
especı́ficos sobre el método para hacer estas predicciones están contenidas en un estudio
exhaustivo y muy detallado realizado por Taylor (1986). Una caracterı́stica común a todos
260
estos métodos es el uso de los registros de reclamaciones actuales y pasadas, dispuestas en
un triángulo de desarrollo de reclamaciones (run-off triangle) para calibrar el modelo de pre-
dicción propuesto antes de usarlo. Kremer (1982) mostró cómo el método clásico de chain
ladder para la estimación de las reclamaciones pendientes de pago en seguros generales, está
fuertemente relacionada con el análisis de varianza de dos vı́as. El desarrollo de este capı́tulo,
esta basado en el tratamiento estadı́stico de las reservas de reclamaciones realizado por Mack
(1991), que se percató de la relación entre los métodos de estimación de siniestros ocurrido
pero no declarados (debengados) (IBNR) y los métodos de tarificación de automóviles. Este
modelo paramétrico se implementa actualmente a través de un modelo lineal generalizado
(GLM) y se aplica a los datos de reclamación. Nuestro objetivo es explorar a fondo las ca-
racterı́sticas de los mótodos chain ladder y técnicas relacionadas.
Cálculo de reservas
Introducción
Definición de reserva: Monto de recursos necesarios para hacer frente a las obligaciones
asumidas por la compañı́a de seguros, reconociendo el efecto de interés e inflación, ası́ como
los gastos de administración derivados de la cartera, considerando la participación de rease-
guro.
Objetivo de la reserva: Dotar a la compañı́a de los recursos necesarios para realizar el pago
de las obligaciones que le son reclamadas y los gastos en que incurre por la administración
de su cartera.
Principales Reservas Técnicas a Constituir
• De Riesgos en Curso (RRC)
• De Obligaciones Pendientes de Cumplir (OPC), o de Siniestros Pendientes
• De Siniestros Ocurridos No Reportados (SONR) (IBNR)
• Reservas Técnicas Especiales (Catastróficas)
Métodos de Cálculo
261
• Chain Ladder
• Bornhuetter-Ferguson
• Siniestralidad Esperada
• Métodos Estocásticos
Chain Ladder estocástico
Bootstrap
Mack
Fundamentos técnicos
Se debe registrar ante la C.N.S.F. a través de una Nota Técnica que exponga el método
actuarial con el cual se realizará la valuación y que contenga:
• Fórmulas y procedimientos.
• Hipótesis: Demográficas, financieras y cualquier otra que se pretenda utilizar.
• Información estadı́stica (datos).
• Opinión del auditor externo actuarial.
• Firma del actuario certificado responsable de la elaboración y valuación.
262
Reservas de Riesgos en Curso (RRC)
Porción de las primas equivalente a la fracción no devengada de las mismas a la fecha de

valuación, después de descontar el costo de adquisición (VP de las obligaciones y costos fu-
turos (administración), incluyendo sus márgenes).
Se divide en dos grandes grupos:
Seguros a Corto Plazo (EPA No.24 ), y
Seguros de Largo Plazo (EPA No.45 )
a) RRC a Corto Plazo, elementos para el cálculo:
Sobre la cartera en vigor por el tiempo que le falta por transcurrir (no devengada) incluyendo
la tasa técnica de interés, considerar los costos futuros de: Siniestralidad y otras obligaciones
contractuales, margen para desviaciones, Costos de Administración, Adquisición y el margen
de Utilidad.
Basarse en información suficiente y confiable, sobre la cartera de riesgos en curso y las va-
riables que se utilizaron para determinar la prima de tarifa suficiente.
Reconocer la participación del Reaseguro
Generalmente se supone uniformidad del riesgo a lo largo de la vigencia, por lo que el riesgo,
en un momento dado, es proporcional al tiempo que falta para concluir la vigencia.
Efecto de Reaseguro
Para considerar el efecto de la existencia de contratos proporcionales de reaseguro, en la

fórmula de cálculo se tendrı́an que sustituir los conceptos de Prima de Riesgo y Prima Emi-
tida No Devengada, por Prima de Riesgo No Devengada de Retención y Prima Emitida No
Devengada de Retención, respectivamente. En el caso en que las obligaciones del reasegura-
dor no sean paralelas a las de la cedente (seguros proporcionales con porcentajes distintos
de participación dependiendo del nivel de siniestralidad, recorte de colas, etc.). Se deberán
valuar las obligaciones atendiendo lo dispuesto en los oficios circulares OS-10-06, OS-13-06
4
EPA= Estándares de Práctica Actuarial Adoptados por el CONAC, anexo 7.7.1 de la Circular Única
5
EPA= Estándares de Práctica Actuarial Adoptados por el CONAC, anexo 7.7.1 de la Circular Única
263
(Automóviles), OS-12-06 (Terremoto) y a la técnica actuarial aplicable al caso.
Reservas de Obligaciones Pendientes de Cumplir (OPC), o de Si-

niestros Pendientes
Equivale al saldo de siniestros en trámite, Estimación Inicial (±) Ajustes-Pagos
Siniestros
En Trámite
En Litigio
Siniestros Ocurridos pero no reportados
Siniestros Pendientes de Valuación
Gastos de ajuste asignados al siniestro
Dividendos
Experiencia en Siniestralidad
Experiencia propia
Participación en Rendimientos Financieros
Definición
La Reserva de Siniestros Pendientes en Trámite se constituye como un medio para hacer

frente a las obligaciones económicas derivadas de la ocurrencia de un siniestro notificado a
la compañı́a que, a la fecha de valuación, todavı́a no ha sido pagado o totalmente pagado.
Se asume que la reclamación se registra en tiempo y forma, ası́ como con la mejor estimación
posible del costo del siniestro.
Mecánica de Operación
Esta reserva se constituye en el momento en el que la Aseguradora tiene conocimiento de la

ocurrencia de un siniestro y se reserva una estimación inicial del monto del daño de acuerdo
264
a los bienes y coberturas amparadas en la póliza.
Se realizan ajustes a esta reserva cuando se tiene una estimación más detallada de los daños
o se determinan pérdidas como consecuencia directa del siniestro. (“Ajustes de más” cuando
el monto de las obligaciones aumenta y “ajustes de menos” cuando disminuye).
Normalmente el proceso de ajuste se realiza a través de especialistas llamados ajustadores,

cuya función es emitir un juicio sobre la situación de los bienes dañados y traducir el nivel del
daño a montos de efectivo. En el caso de ramos como automóviles, el ajustador se auxilia con
herramientas de cómputo como “Valua Data” que permite, mediante sofisticados sistemas
de costeo, determinar un monto más objetivo para el siniestro.
Por último, esta reserva se elimina cuando se pagan los montos reservados o se declara el
siniestro como improcedente.
Algunas veces el asegurado y la compañı́a no llegan a un acuerdo sobre la indemnización de

un siniestro en cuyo caso el asegurado recurre a la Comisión Nacional para la Protección
y Defensa de los Usuarios de Servicios Financieros, y esta última ordena a la compañı́a la
constitución de una reserva, con sus respectivos intereses por mora, en lo que se determina
la situación judicial de las partes. (ver Art. 135 Bis, 136 LGISMS).
Siniestros Ocurridos No-reportados (IBNR / SONR)
Estimación de siniestros que ya ocurrieron a la fecha de valuación, pero que no han sido
reportados por distintas razones, o que el costo estimado inicialmente resulte menor al real,
o que aún no han sido valuados (se usa método estadı́stico actuarial basado en la experiencia
particular de la compañı́a para su estimación).
Los siniestros ocurridos pero no reportados, son aquellos eventos que se producen en un
intervalo de tiempo, durante la vigencia de la póliza, pero que se conocen con posterioridad
a la fecha de cierre o de valuación de un periodo contable. El objeto de la reserva por sinies-
tros ocurridos y no reportados es crear provisiones para cubrir los siniestros que no han sido
reportados a una fecha determinada, pero que ya ocurrieron.
La reserva por Siniestros Ocurridos pero no Reportados, tiene como objeto hacer una provi-
sión de recursos que sirvan para enfentrar el pago de aquellas reclamaciones que, habiendo
265
ocurrido en determinado año, sean reportadas en años futuros. El pago retrazado de los
siniestros puede producir pérdidas en ejercicios donde no corresponde, distorsionando los
resultados de ese año. Asimismo, el efecto de retrazo en las reclamaciones produce una dis-
torsión en los estados financieros de una institución, ya que puede reflejar una aparente
utilidad anual, que puede deberse al efecto del pago retrazado de reclamaciones. El proceso
de las reclamaciones atrazadas que provienen de un determinado año de origen, se distribu-
yen en un periodo al que se le llama periodo de desarrollo.
Objetivos
• Permite constituir los recursos para que éstos estén disponibles al momento en que esos
siniestros sean reclamados
• Evita reconocer una utilidad no ganada.
Los siniestros ocurridos y no reportados, se constituyen por:
• Siniestros ocurridos pero aún no reportados (Incurred but not yet reported IBNYR), los
cuales se caracterizan porque el acaecimiento del siniestro no ha sido reportado aún, debido
a retrasos de tipo administrativo o de la clase de contingencia cubierta (IBNR Puro).
• Siniestros ocurridos pero no reportados completamente (Incurred but not enough reported
IBNER), son aquellos ya ocurridos y reportados, pero cuyo costo está incompleto o no ha
sido determinado con precisión (SPV).
Pueden valuarse en conjunto o por separado.
Métodos de Cálculo
• Chain Ladder
• Bornhuetter-Ferguson
• Siniestralidad Esperada
• Métodos Estocásticos
Chain Ladder estocástico
266
Bootstrap
Mack
267
Estructura general de la información para el cálculo de la provisión para sinies-
tros pendientes
Cálculo de Triángulos de Desarrollo
El análisis del comportamiento de los siniestros ocurridos no reportados, puede hacerse or-
denando los siniestros en un arreglo matricial que consiste en asignar a cada renglón, el año
de origen y a cada columna, el año de desarrollo, de manera que cualquier siniestro puede
ser clasificado en este arreglo matricial de acuerdo al año de origen del cual proviene y al
año de desarrollo en el que fue reclamado. A este arreglo de clasificación de siniestros se le
conoce como triángulo de desarrollo de siniestros.
Tiángulo de desarrollo de siniestros

Año Desarrollo por año
1 2 ··· j ··· n-1 n
1 C11 C12 · · · C1j · · · C1,n−1 C1n
2 C21 C22 ··· C2j ··· C2,n−1
.. .. .. .. ..
. . . . .
i Ci1 Ci2 ··· Ci,n+1−i
n-1 Cn−1,1 Cn−1,2
n Cn1
Las Cij representan monto de reclamación o número de reclamaciones, registrado durante

el periodo i (periodo de ocurrencia) y reportado en el momento de desarrollo j (periodo de
reclamo).
Marco estructural del problema de las reservas para siniestros
Supongamos que tenemos N reclamaciones dentro de un periodo de tiempo fijo con fechas
de reporte T1 , ..., TN (Supongamos que están ordenadas, Ti ≤ Ti+1 ∀ i). Consideremos la
i-ésima reclamación. Entonces, Ti = Ti,0 , Ti,1 , ..., Ti,Ni denota la secuencia de fechas en las
que alguna situación ocurre con esta reclamación, por ejemplo, al tiempo Tij se realiza un
pago, se estima un ajuste de esta reclamación o se recaba nueva información sobre ella. Ti,Ni
denota a liquidación definitiva de la reclamación. Suponga que Ti,Ni +k = ∞ para k ≥ 1.
268
Especificaremos los eventos que ocurren al tiempo Ti,j como
(
Pago al tiempo Ti,j para la reclamación i
Xi,j =
0, Si no hay pago al tiempo Ti,j
(
Nueva información disponible sobre la reclamación i, al tiempo Ti,j
Ii,j =
∅, Si no hay nueva información al tiempo Ti,j
Definimos Xi,j = 0, y Ii,j = 0 si Ti,j = ∞.
Con esta estructura se puede definir varios procesos interesantes; además, el problema de
reserva para reclamaciones, se puede dividir en varios sub problemas.
• Proceso de pago de la i-ésima reclamación. (Ti,j , Xi,j )j≥0 define el siguiente proceso de
pagos acumulados para la reclamación i
X
Ci (t) = Xi,j
j:Ti,j ≤t
con Ci (t) = 0 para t < Ti . La cantidad máxima demandada por la reclamación i es
X
Ci (∞) = Ci (Ti,Ni ) = Xi,j
j≥0
La reserva total de reclamación para la reclamación i en el momento t para los pasivos fu-
turos (pendientes de reclamación al tiempo t), está dada por
X
Ri (t) = Ci (∞) − Ci (t) = Xi,j
j:Ti,j >t
• El proceso de información de la reclamación i está dado por (Ti,j , Ii,j )j≥0
• El proceso de liquidación definitiva de la reclamación i está dado por (Ti,j , Ii,j , Xi,j )j≥0
Denotaremos los procesos agregados para todas las reclamaciones por
269
N
X
C(t) = Ci (t)
i=1
N
X
R(t) = Ri (t)
i=1
C(t) denota todos los pagos hasta el tiempo t para todas las N reclamaciones, y R(t) denota
los pagos de siniestros pendientes (reservas) al tiempo t para estas N reclamaciones.
Consideremos ahora el problema de reservas como un problema de predicción. Sea

FtN = σ (Ti,j , Ii,j , Xi,j )i≥0,j≥0 |Ti,j ≤t
la información disponible al tiempo t. Esta sigma-álgebra se obtiene a partir de la informa-

ción disponible en el momento t del proceso de liquidación de siniestros.
A menudo se dispone de información exógena adicional, t al tiempo t (cambio de la práctica

jurı́dica, inflación, información del mercado, etc.) Por lo tanto se define la información que
la compañı́a de seguros tiene en el tiempo t por
F = σ FtN ⊗ t

En matemáticas, se llama producto de Kronecker, denotado con ⊗, a una operación sobre dos
matrices de tamaño arbitrario que da como resultado una matriz bloque. Es un caso especial del
producto tensorial. El producto de Kronecker no deberı́a confundirse con el producto de matrices
habitual, que es una operación totalmente diferente. Debe su nombre al matemático alemán Leopold
Kronecker.
Hay que estimar las distribuciones condicionales
µt = P (C (∞) |Ft )
Con los primeros dos momentos
Mt = E [C (∞) |Ft ]
Vt = V [C (∞) |Ft ]
270
Propiedades fundamentales del proceso de reservas
Ya que
C (∞) = C(t) + R(t)
tenemos que
Mt = E [C (∞) |Ft ]
= E [C(t) + R(t)|Ft ]
= E [C(t)|Ft ] + E [R(t)|Ft ]
= C(t) + E [R(t)|Ft ]
además
Vt = V [C (∞) |Ft ]
= V [C(t) + R(t)|Ft ]
= V [R(t)|Ft ]
Lema 1 Mt es una Ft − martingala. Esto es, para t > s se tiene que
E [Mt |Ft ] = Ms , c.s.
Dem. Trivial.
Lema 2 El proceso de varianza Vt es una Ft − supermartingala. Esto es, para t > s se tiene
que
E [Vt |Ft ] ≤ Vs , c.s.
Dem.
271
E [Vt |Ft ] = E [V (C(∞)|Ft ) |Fs ]
= E E C 2 (∞) |Ft |Fs − E E [C (∞) |Ft ]2 |Fs

≤ E C 2 (∞) |Fs ] − E [E [C (∞) |Ft ] |Fs ]2 (Desigualdad de Jensen : E [g (X)] ≥ g (E [X]))

= V (C (∞) |Fs ) = Vs
Consideremos u > t dos tiempos del proceso. Definimos el incremento de t a u como
M (t, u) = Mu − Mt
Entonces tenemos c.s. que
E [M (u, t)M (u, ∞)|Ft ] = E [M (u, t)E [M (u, ∞)|Fu ] |Ft ]
= E [M (u, t) (E [C(∞)|Fu ] − Mu ) |Ft ] = 0
que implica que M (t, u) y M (u, ∞) no están correlacionadas, que es la propiedad bien co-
nocida de las martingalas de incrementos no correlacionados.
Esta primera aproximación al problema de reservas de reclamaciones utiliza la representa-

ción integral de martingalas, que conduce al “proceso de inovación”que determina Mt al
actualizar Ft .
• Esta teorı́a es bien conocida.
• Se tiene poca idea sobre el proceso de actualización.
• No se tienen suficientes datos desde el punto de vista estadı́stico.
Segunda aproximación al problema de reservas. Para t < u tenemos que Ft ⊂ Fu . Ya que

Mt es una Ft − martingala, se tiene que
E [M (t, u)|Ft ] = 0 c.s
Definamos el incremento de pagos entre t y u como
272
X(t, u) = C(u) − C(t)
Por lo tanto tenemos que
M (t, u) = Mu − Mt
= E [C(∞)|Fu ] − E [C(∞)|Ft ]
= C(u) + E [R(u)|Fu ] − (C(t) + E [R(t)|Ft ])
= X(t, u) + E [R(u)|Fu ] − E [C(u) − C(t) + R(u)|Ft ]
= X(t, u) − E [X(t, u)|Ft ] + E [R(u)|Fu ] − E [R(u)|Ft ]
que está compuesta por los siguientes dos términos
1.- Error de predicción para los pagos en el plazo (t, t + 1], (u = t + 1)
X(t, t + 1) − E [X(t, t + 1)|Ft ]
2.- Error de predicción de las reservas de R(t + 1) cuando se ha actualizado la información
E [R(t + 1)|Ft+1 ] − E [R(t + 1)|Ft ]
Reclamaciones conocidas y desconocidas
Definido el concepto de reclamaciones IBNyR (ocurridas pero aún no reportados). El proceso

siguiente cuenta el número de siniestros reportados
X
Nt = 1{Ti ≤t}
i≥1
Podemos dividir la demanda total y las reservas en el momento t, respecto a la situación de

si se tiene una reclamación reportada o una catalogada como IBNyR por
X X
R(t) = Ri (t) · 1{Ti ≤t} + Ri (t) · 1{Ti >t}
i i
con
273
X
Ri (t) · 1{Ti ≤t} reservas para las reclamaciones reportadas al tiempo t
i
X
Ri (t) · 1{Ti >t} reservas al tiempo t, para reclamaciones IBNyR
i
Y definimos
" # "N #
X Xt
Rtrep =E Ri (t) · 1{Ti ≤t} Ft = E Ri (t)Ft ,

i i=1
" # " N
#
X X
RtIBN yR = E Ri (t) · 1{Ti >t} Ft = E Ri (t)Ft

i i=Nt +1
con N el total aleatorio de reclamaciones. Es fácil ver que
X h i
Rtrep = E Ri (t)Ft

i≤Nt
" N
#
X
RtIBN yR = E Ri (t)Ft

i=Nt +1
Rtrep denota los pagos futuros esperados al tiempo t, de los siniestros reportados. Conocido
como “el mejor estimador de las reservas tiempo t, para siniestros reportados”. RtIBN yR son
los pagos futuros esperados al tiempo t, para reclamaciones IBNyR (o “el mejor estimador
de reservas al tiempo t, para reclamaciones IBNyR”).
En conclusión, estas dos expresiones muestran que las reservas para siniestros reportados y
la reservas para siniestros IBNyR son de muy diferente naturaleza:
i) Las reservas para siniestros reportados se deben determinar de forma individual, es decir,
con base en uno solo de los siniestros. A menudo se tiene suficiente información sobre reporte
de reclamaciones, para realizar una estimación de las reclamaciones individuales.
ii) Las reservas para siniestros IBNyR no pueden desagregarse debido al hecho de que N no
se conoce al momento t. Además, no tenemos información sobre reclamaciones individuales.
Esto muestra que las reservas IBNyR deben determinarse con base en un colectivo de recla-
maciones.
274
Desafortunadamente, la mayorı́a de los métodos clásicos de reservas no distinguen entre
reclamaciones reportadas y reclamaciones IBNyR, es decir, que estiman las reservas de si-
niestros de la misma manera en ambas casos. En este contexto, tengo que decepcionarlos un
poco, porque la mayorı́a de los métodos que presentaremos tampoco hacen esta distinción.
Terminologı́a y notación el triángulo de desarrollo de siniestros
En este apartado presentamos la terminologı́a y notación clásica de las reservas de recla-

maciones. En la mayorı́a de los casos la reclamaciones pendientes se estiman a través de
llamado triángulo de desarrollo de reclamaciones, que clasifica las reclamaciones sobre dos
ejes de tiempo. Usualmente denotados como
i = año del evento, año de ocurrencia,

j = año de desarrollo, periodo de desarrollo
Para fines ilustrativos se asume que Xi,j denota todos los pagos en el periodo de desarrollo,
j, de reclamaciones que ocurrieron en el año, i, es decir, lo que corresponde al incremento
del pago de reclamaciones ocurridas en el año i, realizadas en el ejercicio contable i + j.
En un triángulo de desarrollo, las reclamaciones por año suelen estar en la lı́nea vertical,
mientras que los periodos de desarrollo están en la lı́nea horizontal. En general, las tablas
de desarrollo se dividen en dos partes; la parte superior del triángulo / trapezoide, donde
tenemos observaciones y el triángulo inferior donde debemos estimar los pagos pendientes.
En las diagonales siempre vemos los ejercicios contables. De ahı́ que los datos de las recla-
maciones tienen la siguiente estructura:
275
Tiángulo de desarrollo de siniestros
Año evento Desarrollo por año
0 1 ··· j ··· J-1 J
0
..
. Datos observados de las v.a. Ci,j Xi,j
i Predicciones Ci,j , Xi,j
I-1
I
Los datos se pueden mostrar en forma acumulativa o en forma no acumulativa (incremental).
Los datos incrementales se denotan por Xi,j y datos acumulados dados por
j
X
Ci,j = Xi,k
k=0
Los datos incrementales, Xi,j , puede denotar los pagos incrementales en la celda (i, j), el
número de siniestros reportados con retraso de reporte j y año de ocurrencia i, o el cambio
en la cantidad de reclamaciones reportado en la celda (i, j). Para los datos acumulados Ci,j ,
generalmente se utiliza el término de pagos acumulados, o el número total de reclamaciones
reportadas o reclamaciones incurridas (para siniestros declarados acumulativos). Ci,∞ se co-
noce comúnmente como monto total de la demanda o carga total de la reclamación i o el
número total de reclamaciones en el año i.
Xi,j : Pagos incrementales ⇔ Ci,j : Pagos acumulados
Xi,j : Núm. de reclamaciones reportadas con retrazo j ⇔ Ci,j : Núm. total de reclamaciones reportadas
Xi,j : Cambio en la cantidad de reclamaciones reportadas ⇔ Ci,j : Siniestros incurridos
Usualmente denotamos las observaciones por DI = {Xi,j : i + j ≤ I} en la parte superior del

trapezoide, y DIc = {Xi,j : i + j > I} que necesitan estimarse.
Los pagos en un solo ejercicio contable están dados por
276
X
Xk = Xi,j
i+j=k
que son los pagos en la (k+1)-ésima diagonal.
Si Xi,j denota pagos incrementales, entonces las reservas de reclamación para el año i al
tiempo j están dada por
∞
X
Ri,j = Xi,k = Ci,∞ − Ci,j
k=j+1
Ri,j se conoce también como la reserva para siniestros. Se trata fundamentalmente de la

cantidad que tenemos que estimar (triángulo inferior) para que junto con los últimos pagos,
Ci,j , obtengamos toda la carga de las reclamaciones (monto total) para los eventos del año i.
Teniendo en cuenta los modelos de reservas, es decir, modelos que estiman las reclamaciones
totales, existen diversas posibilidades para éstas.
• Para datos acumulativos o datos incrementales
• Para datos de pagos de reclamaciones incurridas
• Para la división de los datos en reclamaciones pequeñas y grandes
• Número de reclamaciones y promedio de reclamaciones
• Etc.
Por lo general, diferentes métodos y diferentes formas de agregarción de los datos, conducen
a resultados muy diferentes. Sólo un actuario con basta experiencia en reservas, es capaz
de decidir cuál es una forma adecuada de estimación para las obligaciones futuras en un
conjunto especı́fico de datos.
277
Método Chain-Ladder (libre de distribución)
El modelo de Chain-Ladder es, probablemente, la técnica para calcular reservas más popular.
Proporcionaremos diferentes derivaciones para este método. Iniciaremos con la derivación li-
bre de distribución del Chain-Ladder.
La literatura clásica actuarial, generalmente refiere al método de Chain-Ladder como un

algoritmo puramente computacional para estimar las reservas de siniestros. Fue mucho más
tarde que los actuarios empezaron a considerar modelos estocásticos para desarrollar o gene-
rar el algoritmo de este método. El primero que utilizó un modelo completamente estocástico
para el método Chain-Ladder fue Mack (1993). Publicando, en 1993, uno de los artı́culos
más famosos para cálculo de reservas con errores estándar en el modelo Chain-Ladder.
El método se basa en estimar la proporción de cambio de un ejercicio a otro (factores de

desarrollo), en donde cada valor se pondera con la siniestralidad que le precede. En concreto,
los factores de desarrollo se calculan como
Ci,j
fij =
Ci,j−1
Entonces, este algoritmo se basa en los pagos acumulados
j
X
Ci,j = Xi,k
k=0
Esto es, sumamos los pagos incrementales, Xi,k , k ≥ 0, para una año de ocurrencia del sinies-
tro fijo, i, y, como son reclamaciones acumuladas, en última instancia obtenemos Ci,J−1 = Si ,
con Si el total de reclamaciones que corresponden al año de ocurrencia del siniestro, i.
La idea detrás del algoritmo Chain-Ladder (CL) es que todos los años de ocurrencia de si-
niestros se comportan de manera similar y, para reclamaciones acumuladas, se tiene que
• Supuestos del modelo Chain-Ladder
Existen f0 , f1 , ..., fJ−1 > 0 factores de desarrollo tales que para toda 0 ≤ i ≤ I y toda
0 ≤ j ≤ J se tiene que
278
E [Ci,j |Ci,0 , Ci,1 , ..., Ci,j−1 ] = E [Ci,j |Ci,j−1 ] = fj−1 Ci,j−1
e independencia entre los años de eventos (entre los renglones del triángulo de desarrollo).
Observaciones
• Se supone independencia entre los años de ocurrencia. Más adelante veremos que este su-
puesto se hace en casi todos los métodos. Esto significa que ya se han eliminado los efectos
del año de contabilidad en los datos.
• Además, podemos hacer supuestos más fuertes sobre las sucesiones Ci,0 , Ci,1 , ... asumiendo
que forman una cadena de Markov. Por lo tanto, tenemos que
j−1
Y
Ci,j · fl−1
l=0
forman una martingala para j ≥ 0.
• Los factores fj reciben el nombre de factores de desarrollo o factores Chain-Ladder. Son

el objetivo de interés central en el método Chain-Ladder.
Lema. Sea DI = {Xi,j : i + j ≤ I} el conjunto de observaciones (trapecio superior). Bajo el

modelo Chain-Ladder, tenemos que para toda I − J + 1 ≤ i ≤ I ocurre que
E [Ci,J |DI ] = E [Ci,J |Ci,I−i ] = Ci,I−i · fI−i · · · fJ−1
Dem. Este es un ejercicio de esperanza condicional
E [Ci,J |Ci,I−i ] = E [Ci,J |DI ]
= E [E [Ci,J |Ci,J−1 ] |DI ]
= E [fJ−1 Ci,J−1 |DI ]
= fJ−1 E [Ci,J−1 |DI ]
Si iteramos este procedimiento hasta llegar a la diagonal i + j = I obtenemos la afirmación.
279
Este lema proporciona un algoritmo para estimar el valor esperado de la demanda final,
Ci,J , dadas las observaciones DI , de la siguiente manera. Para cualquier año de ocurrencia
i, elegir la última observación en la diagonal, esto es Ci,I−i , y multiplicar sucesivamente esta
observación por los factores de desarrollo fI−i , ..., fJ−1 .
Por otro lado, para factores de desarrollo conocidos, fj , estimamos los siniestros esperados
pendientes de pago del año i basado en DI , por
E [Ci,J |DI ] − Ci,I−i = Ci,I−i · (fI−i · · · fJ−1 − 1)
que corresponde al “mejor estimador de las reservas del año i al tiempo I (basado en la in-
formación DI ). Desafortunadamente, en la mayorı́a de las aplicaciones prácticas los factores
Chain-Ladder no se conocen y necesitan estimarse. Los factores Chain-Ladder se estiman por
I−j−1
X
Ck,j+1 I−j−1 I−j
X Ci,j Ci,j+1 X
fˆj = k=1
I−j−1
= PI−j−1 = wij fij
X i=1 n=1 C n,j C i,j i=1
Ck,j
k=1
Entonces, la estimación (CL) de E [Ci,j |DI ] está dada por
CL
Ĉi,j = Ê [Ci,j |DI ] = Ci,I−i · fÎ−i · · · fˆj−1 , para i + j > I
Definamos ahora Bk = {Ci,j : i + j ≤ I, 0 ≤ j ≤ k} ⊆ DI . De hecho se tiene que BJ = DI ,

que es un subconjunto de todas las observaciones al tiempo I.
Lemma Bajo el supuesto para el modelo Chain-Ladder, tenemos que
h i
a) fj , dado Bj , es un estimador insesgado de fj . Esto es: E fˆj BJ = fj
ˆ
h i
b) fˆj es (incondicionalmente) insesgado para fj . Esto es: E fˆj = fj
h i h i h i
c) fˆ0 , ..., fˆJ−1 nos están correlacionados. Esto es: E fˆ0 , ..., fˆJ−1 = E fˆ0 · · · E fˆJ−1
280
CL
d) Ĉi,J , dado Ĉi,I−1 es un estimador insesgado de E [Ci,J |DI ] = E [Ci,J |Ci,I−i ]. Esto es:
h i h i
E Ĉi,J CI−i = E Ci,J DI , y
CL
h i
CL CL
e) Ĉi,J es (incondicionalmente) insesgado para E [Ci,J ]. Esto es: E Ĉi,J = E [Ci,J ]
En principio, el hecho de que los factores estimados Chain-Ladder, fˆj , no estén correlacio-
nados, parece sorprendente, ya que dependen de los mismos datos.
Dem. lema
a) Para demostrar este primer inciso tenemos
I−j−1 I−j−1
X X
E [Ck,j+1 |Bj ] Ck,j · fj
h i
E fˆj |Bj = k=0
I−j−1
= k=0
I−j−1
= fj
X X
Ck,j Ck,j
k=0 k=0
que inmediatamente implica la condición de insesgamiento.
b) Se sigue inmediatamente de a).
c) Para j < k tenemos
h i h h ii h h ii h i
E fˆj fˆk = E E fˆj fˆk |Bk = E fˆj E fˆk |Bk = E fˆj fk = fj fk
d) Para demostrar este iniciso
h i h i
CL
E Ĉi,J |Ci,I−i = E Ci,I−i · fÎ−i · · · fˆJ−1 |Ci,I−i
h h i i
= E Ci,I−i · fÎ−i · · · fˆJ−1 E fˆJ−1 |BJ−1 |Ci,I−i
h i
CL
= fJ−1 E Ĉi,J−1 |Ci,I−i
iterando este procedimiento obtenemos
281
h i
CL
E Ĉi,J |Ci,I−i = Ci,I−i · fI−i E · · · fJ−1 = E [Ci,J |DI ]
e) es consecuencia inmediata de d).
Observaciones
Hemos demostrado que los estimadores fˆj no están correlacionados, pero no son indepen-
dientes. De hecho, los cuadrados de dos estimadores sucesivos fˆj y fˆj+1 están correlacionados
negativamente.
Obsérvese que el inciso d de este lemma, demuestra que podemos obtener estimadores inses-
gados del mejor estimador de las reservas E [Ci,J |DI ].
282
El método de Bornhuetter-Ferguson
El método Bornhuetter-Ferguson es, en general, un método muy robusto, ya que no toma en
cuenta los valores extremos en las observaciones. El método se remonta a 1972 en el artı́culo
de Bornhuetter-Ferguson titulado “el actuario e IBNR”. El método Bornhuetter-Ferguson
se suele entender como un algoritmo puro para estimación de reservas (esta es también la
forma en que fue publicado por ellos).
Ventajas del método BF
Mayor estabilidad que los métodos de desarrollo
Refleja en cierta medida los datos más recientes
Permite suavizar los resultados

• El método de desarrollo tiende a subestimar cuando el ocurrido es bajo y a sobre-
estimar si es alto
Permite incorporar los cambios en la estructura de las tarifas
Permite estimar el IBNR cuando la información es escasa
Permite incorporar los cambios en la estructura de las tarifas
Desventajas
Requiere la estimación de la siniestralidad esperada inicial
Requiere la estimación de porcentajes de desarrollo de siniestros
Hay varios posibilidades de definir un modelo estocástico subyacente apropiado que motive
el método BF. Los siguientes supuestos son fáciles de cumplir:
Supuestos (1) sobre el método Bornhuetter-Ferguson
• Los diferentes años de ocurrencia de los eventos, son independientes.
283
• Existen parámetros µ0 , µ1 , ..., µI > 0 y patrones β0 , β1 , ..., βJ > 0 con βJ = 1, tales que,
para toda i ∈ {1, 2, ..., I}, j ∈ {1, 2, ..., J − 1} y k ∈ {1, 2, ..., J − j}, se tiene que
E [Ci,0 ] = µi · β0 ,
E [Ci,j+k ] = Ci,j + µi · (βj+k − βj )
Entonces, tenemos que E [Ci,j ] = µi βj y E [Ci,J ] = µi βJ = µi · 1 = µi . La sucesión {βj }j

denota los patrones de desarrollo de las reclamaciones. Si Ci,j son los pagos acumulados,
entonces βj es el patrón de flujo de caja acumulado esperado (the expected cumulative cash-
flow pattern) (también llamado patrón de pagos). Tal patrón se utiliza a menudo, cuando
se necesita construir reservas market-consistent/discounted, donde valores de tiempo difieren
en el tiempo. Entonces, estos supuestos implican los siguientes
Supuestos (2) sobre el método Bornhuetter-Ferguson
• Los diferentes años de ocurrencia de los eventos, son independientes.
• Existen parámetros µ0 , µ1 , ..., µI > 0 y patrones β0 , β1 , ..., βJ > 0 con βJ = 1, tales que,
para toda i ∈ {1, 2, ..., I}, j ∈ {1, 2, ..., J − 1}, se tiene que
E [Ci,j ] = µi · βj
La idea detrás del método BF es que todos los años de ocurrencia de eventos i ∈ {1, ..., I}
tienen un comportamiento similar, con un comportamiento de los pagos de reclamaciones
Ci,j ≈ µi · βj
para cierta información inicial µ̂i y cierto patrón de desarrollo {βj }j=0,...,J−1 normalizadas
PJ−1
j=0 βj = 1.
El valor inicial µ̂i debe reflejar el total esperado del ejercicio contable i, E [Ci,J−1 ]. Se supone
que este valor inicial se da de manera externa, de acuerdo a la opinión de expertos que, en
teorı́a, no deberı́a basarse en DI .
284
Regularmente, estos son los supuestos (2) para generar el modelo BF, no obstante, sólo con
estos supuestos, podemos tener ciertas dificultades. Observemos que
E [Ci,J |DI ] = E [Ci,J |Ci,0 , ..., Ci,I−1 ]
= E [Ci,J − Ci,I−i + Ci,I−i |Ci,0 , ..., Ci,I−1 ]
= Ci,I−i + E [Ci,J − Ci,I−i |Ci,0 , ..., Ci,I−1 ]
Si no tenemos supuestos adicionales sobre la estructura de dependencia entre los incremen-

tos en las reclamaciones, no sabremos qué hacer exactamente con el último término de la
expresión anterior. Si supiéramos que estos incrementos Ci,J − Ci,I−i son independientes de
Ci,0 , ..., Ci,I−i , entonces esto implicarı́a que
E [Ci,J |DI ] = E [Ci,J |Ci,0 , ..., Ci,I−1 ]
= Ci,I−i + E [Ci,J − Ci,I−i ] por independencia
= Ci,I−i + E [Ci,J ] − E [Ci,I−i ]
= Ci,I−i + βJ µi − βI−i µi
= Ci,I−i + (1 − βI−i ) µi
que también se desprende de los supuestos del modelo.
Estimador del modelo BF

Ĉi,J = Ê [Ci,J |DI ] = Ci,I−i + 1 − β̂I−i · µ̂i
I − J + 1 ≤ i ≤ I. Con β̂I−i un estimador de βI−i y µ̂i un estimado inicial para E [Ci,J ]. Ya

que µ̂i es una estimación basada en la opinión de expertos y, probablemente, independiente
de la información observada DI , lo único que hay que estimar en este modelo son los factores
o patrones de desarrollo βj .
Comparación de los estimadores BF y Chain-Ladder
De acuerdo a los supuestos sobre el modelo Chain-Ladder tenemos que
285
j−1
Y
E [Ci,j ] = E [E [Ci,j |Ci,j−1 ]] = fj−1 E [Ci,j−1 ] = E [Ci,0 ] fk
k=0
entonces
J−1
Y
E [Ci,J ] = E [Ci,0 ] fk
k=0
que implica
j−1 J−1
Y Y
E [Ci,j ] = fk fk−1 E [Ci,J ]
k=0 k=0
J−1
Y
= fk−1 E [Ci,J ]
k=j
Si comparamos esta expresión con la correspondiente del método BF, E [Ci,j ] = µi βj , encon-
tramos que
J−1
Y
fk−1 “juega el papel de”βj
k=j
J−1
Y
ya que fk−1 corresponde a la proporción ya pagada de µi = E [Ci,J ] después de j periodos
k=j
0
del desarrollo en el método Chain-Ladder. Note que esta correspondencia entre las βj y el
producto de los factores de desarrollo se obtiene únicamente mediante los supuestos (2) y no
con (1) ya que éstos no son implicados por los supuestos Chain-Ladder ni viceversa.
Estimación del modelo Bornhuetter-Ferguson
Dada la expresión del modelo, su estimación es
!!
BF \ 1
C
d i,J = Ci,I−i + 1− QJ−1 µ̂i
j=I−i fj
286
Por otro lado tenemos que el estimador Chain-Ladder es
J−1
CL Y
C
d i,J = Ci,I−i fˆj
j=I−i
J−1
!
Y
= Ci,I−i + Ci,I−i fˆj − 1
j=I−i
CL J−1
!
C
d i,J
Y
= Ci,I−i + QJ−1 fˆj − 1
ˆ
j=I−i fj j=I−i
!
1 CL
= Ci,I−i + 1 − QJ−1 C
d i,J
j=I−i fˆj
Por lo tanto, la diferencia entre el método Bornhuetter-Ferguson y el Chain-Ladder es que

para el de Bornhuetter-Ferguson confiamos por completo en nuestra estimación a priori de
µ̂i , mientras que en el Chain-Ladder esta estimación a priori se remplaza por el estimador
CL
C
d i,J , que proviene por completo de las observaciones.
Ya comentamos que, dada la forma como se estima µi en el modelo BF, sólo debemos ocu-
parnos de la estimación de los patrones de desarrollo, es decir, de las βj . En vista del método
de CL, se define la siguiente los estimadores del patrón de desarrollo:
J−2 Qj−1 ˆCL

1 k=0 fk
Y
γjCL = = QJ−2
k=j fˆCL
k fˆCL
k=0 k
cociente que refleja, como ya dijimos, la proporción ya pagada después de los primeros j
periodos de desarrollo de acuerdo a los patrones de desarrollo del método Chain-Ladder. Por
lo que obtenemos los estimadores
β̂0CL = γ̂0CL ,
β̂jCL = γ̂jCL − γ̂j−1

CL
, j = 1, 2, ..., J − 2
CL CL
β̂J−1 = 1 − γ̂J−2
287
Una vez definidos estos estimadores, entonces predecimos la última reclamación (o reclama-
ción total) Ci,J−1 para i + J − 1 > I en el método BF, por
J−1
X
BF
βjCL = Ci,I−i + µ̂i 1 − γ̂I−i
CL

Ĉi,J−1 = Ci,I−i + µ̂i
j=I−i+1
Las reservas al tiempo I para los años de ocurrencia del siniestro i > I − (J − 1) están dadas
por
J−1
X
R̂iBF BF
βjCL = µ̂i 1 − γ̂I−i
CL

= Ĉi,J−1 − Ci,I−i = µ̂i
j=I−i+1
y agregado sobre todos los años de ocurrencia de los siniestros, predecimos el total de pasivos
de pérdida de las últimas reclamaciones (reserva total), por
X
R̂BF = R̂iBF
i>I−(J−1)
Concluiremos este apartado con una comparación entre los valores predichos de los métodos
CL y BF. Entonces, reescribimos las predicciones realizadas mediante el método CL, para
i + J − 1 > I, de la siguiente manera
J−2 J−2
!
Y Y 1
CL
Ĉi,J−1 = Ci,I−i + Ci,I−i fˆjCL 1 −
j=I−i j=I−i fˆCL
j
de donde obtenemos las relaciones

CL CL CL
Ĉi,J−1 = Ci,I−i + 1 − β̂I−i Ĉi,J−1 ,

BF CL
Ĉi,J−1 = Ci,I−i + 1 − β̂I−i µ̂i
Por lo tanto, observamos que tenemos la misma estructura. La única diferencia es que en el
método BF utilizamos la estimación inicial externa, µ̂i , para la demanda final y en el método
CL
de la estimación CL esta estimación se basa en Ĉi,J−1 . Por lo tanto, tenemos dos posiciones
complementarias para realizar las predicciones.
288
Breve introducción a los Modelos Lineales Generalizados (MLG)
Los modelos lineales son modelos estadı́sticos que sirven para cuantificar el impacto o influen-
cia que tienen las llamadas variables explicativas (caracterı́sticas de los sujetos o entidades
que conforman el modelo) y la llamada variable de respuesta. El más sencillo de estos mo-
delos es el de regresión lineal simple, cuya extensión natural es el modelo de regresión lineal
múltiple. Este es, probablemente, el modelo lineal más conocido en la literatura estadı́stica.
La caracterı́stica esencial de este modelo es que la variable de respuesta se asume con distri-
bución continua y su componente aleatorio se supone con distribución normal, distribución
que hereda la variable de respuesta.
En la modelación estadı́stica muchas veces se tienen variables de respuesta que no son con-
tinuas, por ejemplo la condición de enfermo y no enfermo de un paciente; la preferencia
electoral de un sujeto en un marco de tres partidos polı́ticos en competencia; el número de
reclamaciones en una póliza de seguros, etc. Para este tipo de respuestas, el modelo de re-
gresión lineal usual no es, de ninguna manera, una opción adecuada, por lo que es necesario
modificar o ampliar este modelo para contemplar esta clase de respuestas. De esta necesi-
dad surgen los llamados Modelos lineales Generalizados(MLG) en los que existen diversas
estructuras de su compontente aleatorio, que se adecuan de mejor manera a las caracterı́sti-
cas de escala de medición de sus respuetas. Estos modelos están caracterizados por tres
componentes
• Componente aleatorio (parte aleatoria): µ = E (y|X) = y
0
• Un predictor lineal (parte sistemática): η = X β
• Una función liga: g (µ)
El componente aleatorio tiene que ver con la distribución que se le asocia a la respuesta
(la parte aleatoria) del modelo, misma que es sugerida por la escala de medición de esta
respuesta. En los M LG, esta distribución debe ser un miembro de la familia exponencial.
El predictor lineal lo constituye la parte determinı́stica del modelo, es decir, los datos y los
parámetros. Finalmente, la liga es una función que liga o asocia una transformación de la
variable de respuesta con el predictor lineal. La estructura de este modelo es
289
0
g (µ) = X β = β 0 + β1 X1 + β2 X2 + · · · + βp Xp ó
0
µ = g−1 X β
Los miembros de la familia exponencial que determinan los principales M LG son
F unción liga g (µ) Liga canónica para
Idéntica µ N ormal
log ln (µ) P oisson

(
Gamma (p = −1)
Potencia µp
Gaussiana Inversa (p = −2)

µ
Logit ln Binomial
1−µ
Ya que la escala de la variable de respuesta determina el modelo lineal generalizado que deba
de ajustarse, observamos que
• El modelo de regresión lineal estándar es un M LG con liga idéntica. Su respuesta es una

variable continua con rango en R.
• Si la respuesta es una variable de conteo, entonces el M LG correspondiente es el modelo

de regresión Poisson
• Si la variable de respuesta tiene sólo dos categorı́as, el M LG correspondiente es el modelo

de regresión logı́stica o modelo logit. La liga de este modelo es el logaritmo del momio de
respuesta, y recibe el nombre de logit.
• Si la variable de respuesta es continua y positiva, los probables M LG son la regresión

Gamma o la regresión Gaussiana Inversa.
La familia exponencial
La familia de densidades de probabilidad más importante en estadı́stica es la llamada familia

exponencial. Cuya definición es
290
Definición: Familia exponencial. Sean y1 , ..., yn variables aleatorias independientes con fun-
ción de densidad o de probabilidad, que puede escribirse como

yi θi − b (θi )
f (yi ; θi , φ) = exp + c (yi , φ)
ai (φ)
con
• θi es el parámetro natural o canónico
• φ es un parámetro de escala o dispersión
• ai (·) , b (·) y c (·) funciones especı́ficas para cada elemento de esta familia
∗ Si φ es conocido, este es un modelo de la familia exponencial lineal
∗ Si φ es desconocido, es un modelo de dispersión exponencial
Para algunos de los modelos que especificamos en la tabla anterior tenemos
Normal
• Distribución N (µ, σ 2 )
• E (y) = µ
• Liga g(µ) = µ (identidad)
θ2
• b(θ) = 2
(θ = µ)
• a(φ) = 1
Poisson(λ)
• E (y) = λ
• Liga g(λ) = ln (λ)
• b(θ) = eθ (θ = λ)
• a(φ) = 1
Binomial(n,π)
• E (y) = nπ
291
π

• Liga g(π) = ln 1−π
• b(θ) = n log(1 + eθ ) (θ = π)
• a(φ) = 1
etc.
Estimación y pruebas de hipótesis
La estimación de los parámetros que determinan cada modelo: el vector de parámetros

asociados a las covariables, β, y el parámetro de escala o dispersión, φ, se estiman por máxima
verosimilitud. Y los estimadores de sus varianzas se calculan por medio de la inversa de la
llamada Matriz de Información Observada de Fisher. Por esta razón las inferencias para este
modelo son inferencias asintóticas (excepto para el modelo estándar de regresión lineal).
La prueba de hipótesis más importante es sobre el modelo global
H0 : β = 0, ⇒ β1 = β2 = · · · = βp = 0 vs. Ha : βi 6= 0 p.a. i = 1, 2, ..., p
Si en un modelo concreto no rechazamos la hipótesis nula (H0 ), implicarı́a que ninguna

de nuestras covariables es importante para explicar o predecir la respuesta, lo que llevarı́a
a desechar el modelo. Si los modelos son propuestos por un sujeto que conoce su área de
aplicación, generalmente esta hipótesis se rechaza “en favor de la hipótesis alternativa”. En-
tonces, como se enuncia en esta última hipótesis, lo único que sabrı́amos es que almenos
una covariable es importante para explicar la respuesta, y; pero esta hipótesis no determina
cuál(es) ni cuántas. Por lo que es necesario realizar pruebas individuales sobre cada paráme-
tro (equivalentemente cada covariable) en el modelo. Las pruebas son del tipo
H0 : βi = 0 vs. Ha : βi 6= 0 i = 1, 2, ..., p
El estadı́stico asociado para realizar esta prueba es una t de Student. En concreto se hace
con la estadı́stica
βb a
r i ∼ tn−p
var βbi
292
En el caso del modelo de regresión lineal, y dada la normalidad de su componente aleatorio,
esta estadı́stica es
βb
r i ∼ N (0, 1), o bien
var βbi
βbi2
∼ χ2(1)
var βbi
como habı́amos dicho, para este modelo las inferencias son exactas.
La devianza
Una forma de determinar el ajuste del modelo construido es comparándolo contra el modelo
que produce el mejor ajuste posible. En estos modelos, el mejor ajuste se logra cuando el
modelo tiene tantos parámetros como observaciones y se le conoce como modelo saturado.
Este modelo lo que hace es reproducir los valores observados, por lo que su ajuste es perfecto.
Si denotamos por è(β) el valor de la log-verosimilitud del modelo saturado y por `(β)
b el
correspondiente valor del modelo propuesto, se define la devianza (algunas veces llamada
devianza residual) a la cantidad
h i
D =2 è(β) − `(β)
b
que puede verse como una medida de distancia entre el modelo propuesto y el saturado.
• Cuando el modelo propuesto provee un buen ajuste, se espera que `(β)

b esté cercana a
è(β) . Es claro que ya que esta última cantidad es el supremo de todas las log-verosimiltudes
posibles, `(β)
b no puede ser mayor que ella. Un valor ”grande”de esta devianza indica un
pobre ajuste del modelo propuesto.
• Suponiendo que el modelo es correcto y n es grande, la distribución asintótica de esta

devianza es una Ji-cuadrada. En concreto
293
a
D ∼ χ2(n−p)
por lo que el valor esperado de esta devianza es n-p.
En los modelos lineales generalizados esta devianza es
h i
D =2φ è(β) − `(β)
b
Comparación de modelos
En la modelación estadı́stica estándar por lo general se tienen varios modelos que ajustan
de forma adecuada a nuestra información, por lo tanto, es necesario tener una forma para
compararlos y elegir el mejor entre ellos. Para hacer esta comparación es necesario que los
modelos estén anidados, i.e., que uno de ellos sea un submodelo del otro.
Supongamos que tenemos dos modelos M0 y M1 con total de parámetros p0 y p1 , respec-

tivamente y p1 > p0 (lo que implica que M0 está anidado en M1 ). Entonces, la menera de
comparar estos modelos es
a
2φ [` (M1 ) − `(M0 )] ∼ χ2(p1 −p0 )
con ` (M1 ) y `(M0 ) las respectivas log-verosimilitudes de los correspondientes modelos. Si

esta diferencia es estadı́sticamente significativa, podemos afirmar que las variables que tiene
M1 pero que no están en M0 sirven para mejorar el ajuste del modelo. Por el contrario, si
esta diferencia no es estadı́sticamente significativa, entonces querrá decir que el ajuste de
ambos modelos es similar, por lo tanto, atendiendo al principio de parsimonia, preferimos el
que tiene menos parámetros, en este caso, M0 .
294
Modelo Poisson de reservas
Terminaremos esta sección con el modelo de Poisson, que se utiliza principalmente para el
número de reclamaciones. Lo interesante en el modelo de Poisson es que conduce a las mis-
mas reservas del modelo Chain-Ladder. Fue Mack (1991), quien demostró que las reservas
Chain-Ladder son reservas producidas por un proceso de máxima verosimilitud del modelo
de Poisson.
Supuestos modelo Poisson
Existen parámetros µ0 , µ1 , ..., µI > 0 y patrones γ0 , γ1 , ..., γJ > 0, tales que los valores incre-
mentales Xi,j son independientes y se distribuyen Poisson con
E [Xi,j ] = µi · γj
PJ
para toda i ≤ I y j ≤ J, y j=0 γj = 1.
Es claro que si Xi,j son Poisson, entonces el número total de reclamaciones acumuladas ocu-
rridas en el periodo i, Ci,J , también es Poisson, con
E [Ci,J ] = µi
Ya que µi es un parámetro que representa el número esperado de reclamaciones ocurridas en

el año i, mientras que j define el patrón de flujo de caja esperado en los diferentes periodos
de desarrollo j. Por otra parte tenemos que
E [Xi,j ] γj
=
E [Xi,0 ] γ0
que es independiente de i.
Lema. El modelo Poisson satisface los supuestos (1) del método Bornhuetter-Ferguson.
Dem
La independencia de los diferentes años de reclamación se sigue de la independencia de los

conteos Xi,j . Además, tenemos que E [Ci,0 ] = E [Xi,0 ] = µi · β0 con β0 = γ0 , y
295
k
X
E [Ci,j+k |Ci,0 , ..., Ci,j ] = Ci,j + E [Xi,j+` |Ci,0 , ..., Ci,j ]
`=1
k
X
= Ci,j + µi · γj+`
`=1
= Ci,j + µi · (βj+k − βj )
Pj
con βj = `=0 γ` . Que concluye la demostración.
Para estimar los parámetros (µi )i , (γj )j existen diferentes métodos, una posibilidad es utilizar
estimadores máximo verosı́miles. La función de verosimilitud, obviamente con la información
observada, DI = {Ci,j ; i + j ≤ I, j ≤ J}, está dada por
!
Xi,j
Y (µi γj )
L (µ0 , ..., µI , γ0 , ...γj ; DI ) = e−µi γj ·
Xi,j !
i+j≤I
Como es costumbre, maximizaremos la log-verosimilitud asociada mediante el conjunto de

las ecuaciones de verosimilitud, desprendidas de igualar a cero las derivadas parciales sobre
cada uno de los, I + J + 2, total de parámetros desconocidos µi y γj . En DI obtenemos que
(I−i)∧J (I−i)∧J
X X
µ̂i γ̂j = Xi,j = Ci,(I−i)∧J
j=0 j=0
I−i
X I−i
X
µ̂i γ̂j = Xi,j
j=0 j=0
P
para toda i ∈ {0, ..., I} toda j ∈ {0, ..., J} bajo la restricción de que γj = 1. Este sistema
tiene solución única y proporciona los estimadores mle de µi y γj .
Con estos estimadores, el modelo Poisson para reservas se estima por
296
P oi
X̂i,j = Ê [Xi,j ] = µ̂i γ̂j ,
J
X
P oi P oi
Ĉi,j = Ê [Ci,J |DI ] = Ci,I−i + X̂i,j
j=I−i+1
Obsérvese que
I−i
!
X
P oi
Ĉi,j = Ci,I−i + 1− γ̂j · µ̂i
j=0
por lo que los estimadores Poisson tiene la misma forma que los BF. Sin embargo, aquı́
debemos estimar µi y γj mediante los datos.
297
Modelo Poisson sobredisperso
Ya hemos comentado que en datos reales, es muy común que el modelo Poisson resulte sobre-
disperso, i.e., que φ >> 1. Definamos el modelo Poisson sobredisperso para calcular reservas
a partir de un triángulo de desarrollo.
Supuestos sobre el modelo Poisson sobredisperso
Existen parámetros µ0 , µ1 , ..., µI > 0, patrones γ0 , γ1 , ..., γJ > 0 y φ, tales que los valores
incrementales Xi,j son independientes con distribución

Xi,j µi γj
∼ P ois
φ φ
Observe que

µi γj µi γj
E [Xi,j ] = E φP ois =φ· = µi γj
φ φ

µi γj µi γj
V [Xi,j ] = V φP ois = φ2 · = φµi γj
φ φ
que hace evidente el nombre del modelo: Poisson sobredisperso.
Varianzas y errores estándar de los estimadores Chain-Ladder
En el modelo Chain-Ladder sólo presentamos la estimación para la demanda esperada final,

por supuesto, también le gustarı́a saber, la precisión que tiene este estimador. Para medir la
precisión de esta estimación, consideramos los segundos momentos.
Supongamos que tenemos una variable aleatoria X y un conjunto de observaciones, D. Su-

pongamos que X̂ es un estimador D − medible de E [X|D].
Def. Error cuadrático medio de predicción condicional. El error cuadrático medio de predic-
ción condicional del etimador X̂ está definido por
2
M SEPX|D = E X̂ − X |D
298
El MSEP condicional es una medida de distancia L2 , que puede descomponerse en dos partes
2
M SEPX|D X̂ = V (X) + X̂ − E [X|D]
La primera de ellas llamada proceso de varianza (error estocástico), es decir, la varianza

inerherente al modelo estocástico (totalmente aleatorio que no puede eliminarse), y la se-
gunda conocida como el error de estimación del parámetro, que refleja la incertidumbre en
la estimación de los parámetros y de la esperanza, respectivamente. En general, este error
de estimación se hace más pequeño cuanto más observaciones tenemos. Pero hay que tener
cuidado, en muchas situaciones prácticas este error no desaparece por completo, ya que se
tratar de predecir los valores futuros con la ayuda de la información pasada, por lo que un
ligero cambio del modelo a través del tiempo puede provocar muchos y serios problemas.
Reservas Técnicas Especiales (Catastróficas)
Provisiones especiales determinadas y ordenadas por la S.H.C.P. para complementar y re-

forzar las reservas tradicionales o para corregir y prevenir desviaciones o insuficiencias de
carácter técnico o financiero.
Riesgos Catastróficos
Fondo acumulativo que se integra con una parte de las primas de ciertas coberturas para
cubrir eventos catastróficos como los terremotos.
Contingencia/Previsión (Margen de Seguridad para desviaciones adversas)
Fondo acumulativo que se integra con una parte de las primas para cubrir desviaciones en
la “siniestralidad”.
299

Riesgo

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Riesgo

Încărcat de

Drepturi de autor:

Formate disponibile

Teorı́a del Riesgo

Algunos antecedentes históricos

Algunos términos del seguro

Asegurador: Es la persona jurı́dica que suscribe el compromiso de ofrecer la protección

Póliza: Es el documento en que se plasma el contrato de seguro. Tiene dos caracterı́sticas

• Es la prueba de que el contrato existe; y

• Es la normativa que regula las relaciones entre los contratantes.

Consta básicamente de tres partes:

• Prima de riesgo: llamada también prima pura, natural, matemática o estadı́stica, es la

Estos recargos son de varios tipos:

Gastos de administración: sueldos, alquileres de locales, etc.

Gastos de adquisición: formado básicamente por la comisión que se le paga al corredor

Clasificación de los seguros

Un seguro de vida es aquel en el que una entidad aseguradora se compromete, mediante el

• Seguros de vida en caso de muerte.

• Seguros de vida en caso de vida.

• Seguros de vida mixtos.

Forma parte del objetivo de la Matemática Actuarial:

• El cálculo de primas, reservas, valores garantizados, etc., en las operaciones de seguros de

• El estudio de los problemas de tarificación y reservas técnicas en los seguros no vida.

• La determinación de las magnitudes de estabilidad del ente asegurador y el análisis de su

Caracterı́sticas del riesgo

• Incierto y aleatorio: debe haber una relativa incertidumbre, pues el conocimiento de

• Fortuito: El riesgo debe provenir de un acto o acontecimiento ajeno a la voluntad hu-

2.- Ajustar el modelo con la información disponible.

• La distribución de esta variable es generalmente sesgada a la derecha

Forma común de la distribución del monto de pérdida

Definición 1 . Una familia de distribuciones paramétrica es un conjunto de distribuciones

• f (x; θ) = θe−θx , θ > 0, x ≥ 0

Diversas formas de la distribución exponencial

Familia de distribuciones Gamma

con Γ(·) la función Gamma definida como

Las caracterı́sticas de la distribución Gamma son

• α es un parámetro de forma y θ es de escala.

• La distribución exponencial es un caso particular de la Gamma. En concreto, es una

alpha= 50 , beta= 0.5 alpha= 10 , beta= 0.1

alpha= 10 , beta= 0.6

Familia de distribuciones Log-Normal

X ∼ log − normal(µ, σ 2 ), si ln(X) ∼ N (µ, σ 2 )

La función de densidad de esta variable aleatoria es

• Pese a su relación con la normal, ninguno de los parámetros es de localización ni de escala.

Diversas formas de la distribución log−normal Diversas formas de la distribución log−normal

mu= 1 , sigma= 1 0.4 m= 0 , sigma= 0.5

Familia de distribuciones Weibull

con α parámetro de forma y θ parámetro de escala. Obsérvese que si α = 1 la Weibull se

Sus caracterı́sticas son

entonces, la función de distribución de la Pareto es

con función de densidad dada por

Algunas de sus caracterı́sticas son

• α es un parámetro de forma y θ de escala.

alpha= 3 , theta= 100

alpha= 3 , theta= 140

Familia de distribuciones Pareto de segundo tipo

Caracterı́sticas de esta distribución

con Γ(·) la función Gamma, ya definida anteriormente.

con función de densidad

Familia de distribuciones Burr

X 1/β ∼ Burr (θ, α, β)

cuya función de densidad está dada por

El momento de orden r de esta distribución es

• α y β son parámetros de forma y θ de escala.

Diversas formas de la distribución Burr Diversas formas de la distribución Burr

alpha= 10 , beta= 5 , theta= 0.01

alpha= 20 , beta= 5 , theta= 0.01