Flores, J. (2013) - Estadística. EGGLL PUCP PDF

Estadı́stica
Estudios Generales Letras
José Flores Delgado
Marzo de 2013
Prólogo
Este trabajo corresponde a la séptima edición de las notas de clases del curso de
Estadı́stica impartidas por el autor a los alumnos de la Facultad de Estudios Generales
Letras de la Pontificia Universidad Católica del Perú.
En esta edición se han corregido los errores encontrados y mejorado algunos ejemplos y
ejercicios propuestos. Se han mantenido enumerados los capı́tulos y secciones. También se
trata brevemente de la función generadora de momentos. Sin embargo, considero todavı́a
inconcluso el trabajo y continuaré la tarea de revisión del texto.
Este texto incluye tópicos de economı́a y administración, como el estudio de la

desigualdad de los ingresos —a través de la curva de Lorenz y el indicador de Gini— y
los modelos binomial y de Black-Scholes —muy conocidos en el área de finanzas—.
Agradezco a mi colega Richard Chávez por su valiosa ayuda y comentarios sobre los
temas de finanzas aquı́ tratados.
También agradezco a la sección de Matemáticas por las facilidades brindadas para la

elaboración de este texto, a la Facultad de Estudios Generales Letras por promover este
tipo de trabajos, a la Oficina de Publicaciones para la docencia de nuestra Universidad, a la
doctora Kathia Hanza, ex-directora de estudios de la Facultad de Estudios Generales Letras,
por el apoyo brindado en la primera edición, y al profesor Luis Vargas por la revisión de la
primera versión del texto.
Me permito también felicitar a ustedes, alumnos, por su madurez demostrada al optar

por esta Universidad, sabiendo de su exigencia y prestigio reconocidos; los invito a que
contribuyan a mantenerlos, como lo han hecho los que los precedieron.
Finalmente, quiero advertir a los alumnos que este texto no debe sustituir a los principales
manuales del tema, ni a las clases, ni a sus propios apuntes, que espero ahora puedan hacer
en mejores condiciones. La lectura de la bibliografı́a sobre el tema es necesaria y valiosa para
un mejor aprendizaje.
José Flores Delgado.
Lima, marzo de 2013.

Índice
1. Probabilidad 7
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2. Definición y propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . 9
1.3. Propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
La regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
La regla de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . 15
La regla de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.5. Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6. Probabilidad clásica y combinatoria . . . . . . . . . . . . . . . . . . . . . . . 21
1.7. Probabilidad geométrica y frecuencial . . . . . . . . . . . . . . . . . . . . . . 24
1.8. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2. Variable aleatoria 39
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.2. Modelo probabilı́stico de una variable aleatoria . . . . . . . . . . . . . . . . . 42
2.2.1. Propiedades del modelo probabilı́stico . . . . . . . . . . . . . . . . . . 44
2.3. El valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.3.1. Valor esperado de una función de una variable aleatoria . . . . . . . . 46
2.3.2. Otras propiedades del valor esperado . . . . . . . . . . . . . . . . . . 47
2.4. Varianza y desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . 49
2.4.1. Propiedades de la varianza . . . . . . . . . . . . . . . . . . . . . . . . 50
3
4 Profesor José Flores Delgado Estadı́stica
2.5. Función de distribución acumulada . . . . . . . . . . . . . . . . . . . . . . . 51
2.6. Propiedades de la distribución acumulada . . . . . . . . . . . . . . . . . . . . 52
2.7. Técnica del cambio de variable . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3. Modelos probabilı́sticos importantes 77
3.1. Modelos relacionados con un proceso de Bernoulli . . . . . . . . . . . . . . . 77
3.1.1. El Modelo o distribución binomial . . . . . . . . . . . . . . . . . . . . 78
3.1.2. El modelo o distribución geométrico . . . . . . . . . . . . . . . . . . . 80
3.1.3. El modelo o distribución de Pascal o binomial negativa . . . . . . . . 82
3.2. Modelos relacionados con un proceso de Poisson . . . . . . . . . . . . . . . . 82
3.2.1. El modelo o distribución de Poisson . . . . . . . . . . . . . . . . . . . 83
3.2.2. El modelo o distribución exponencial . . . . . . . . . . . . . . . . . . 85
3.2.3. Modelo o distribución gamma . . . . . . . . . . . . . . . . . . . . . . 86
3.3. Modelo gaussiano o distribución normal . . . . . . . . . . . . . . . . . . . . . 87
3.3.1. Propiedades del modelo gaussiano o normal . . . . . . . . . . . . . . 88
3.4. Modelo o distribución lognormal . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.5. Modelo o distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . 95
3.6. Modelo o distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 95
3.7. Modelo o distribución Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.8. La función generadora de momentos . . . . . . . . . . . . . . . . . . . . . . . 99
4. Indicadores de concentración para medir la desigualdad de los ingresos 117
4.1. La Curva de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.2. El Coeficiente de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4
Profesor José Flores Delgado ÍNDICE
5. Estadı́stica descriptiva 123
5.1. ¿Qué es la Estadı́stica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.2. Nociones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
5.3. Escalas o niveles de medición . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.3.1. Escala nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
5.3.2. Escala ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.3.3. Escala de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
5.3.4. Escala de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
5.4. Organización y tratamiento de datos. Promedios y percentiles . . . . . . . . 129
5.4.1. Caso de variables cualitativas . . . . . . . . . . . . . . . . . . . . . . 129
5.4.2. Caso de variables cuantitativas discretas . . . . . . . . . . . . . . . . 130
5.4.3. Caso de variables cuantitativas continuas . . . . . . . . . . . . . . . . 131
5.5. Propiedades y uso de los promedios . . . . . . . . . . . . . . . . . . . . . . . 137
5.6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.6.1. Propiedades de la desviación estándar . . . . . . . . . . . . . . . . . . 141
5.7. Datos tipificados o estandarizados . . . . . . . . . . . . . . . . . . . . . . . . 142
5.8. Diagrama de hojas y tallos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.9. Ejercicios Resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
6. Correlación y regresión lineal 157
6.1. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
6.2. Índice de correlación de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . 158
6.3. Regresión lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.4. Análisis de varianza para la regresión . . . . . . . . . . . . . . . . . . . . . . 161
5
Bibliografı́a 165
6
1. Probabilidad
1.1. Introducción
El objetivo es cuantificar las posibilidades que tengan ciertos eventos inciertos. Sin duda,
el evento incierto de mayor importancia para la estadı́stica ocurre cuando se infiere algo a
partir de solo una muestra, en este caso, es importante averiguar la veracidad o el grado de
credibilidad que se le pudiera dar a dicha generalización, por eso la probabilidad es de suma
importancia para la estadı́stica.
Es importante señalar que muchas veces se debe tomar una decisión en un contexto de
incertidumbre, en estos casos, la probabilidad resulta muy útil para evaluar los riesgos.
Empezaremos tratando los conceptos básicos, propiedades y uso de la probabilidad; luego

veremos algunos modelos probabilı́sticos.
Definición 1.1. Experimento aleatorio. Es cualquier experimento cuyo resultado no se

puede predecir con certeza antes de realizarlo.
Definición 1.2. Espacio muestral asociado a un experimento aleatorio. Es el

conjunto de resultados posibles del experimento. Usualmente se lo denota por S u Ω.
Ejemplo 1.1. Un lote contiene unidades que pueden tener algún defecto. Se escogerán dos
unidades al azar y se determinará si estas tienen algún defecto. Podemos considerar como
espacio muestral a Ω = { (0; 0), (0; 1), (1; 0), (1; 1) }, con la convención siguiente: el primer
componente de cada par ordenado representa el estado de la primera unidad y el segundo el
de la otra, además 0 significa que la unidad no tiene defectos y 1 que tiene alguno.
Definición 1.3. Evento Es cualquier subconjunto del espacio muestral1 . Es decir, salvo el
caso del evento φ, un evento es cualquier conjunto de resultados del experimento.
Ejemplo 1.2. A continuación describamos algunos eventos del ejemplo anterior:
a) Ambas unidades están en el mismo estado: A1 = {(0; 0), (1; 1)}.

Este evento tiene dos resultados, cualquiera de estos lleva a ocurrir este evento.
b) La segunda unidad tiene defectos: A2 = {(0; 1), (1; 1)}.

Nuevamente, este evento tiene dos resultados y cualquiera de estos lleva a ocurrir este
evento.
1
En un curso avanzado de probabilidades, sólo los conjuntos que pertenecen a una familia llamada sigma-
álgebra son considerados como eventos.
7
c) Ambas unidades se encuentran con defectos: A3 = {(1; 1)}.

Este evento solo tiene un resultado, cuando ocurra dicho resultado ocurrirá este evento.
Hemos definido los eventos como conjuntos, a continuación formalizaremos la caracterı́stica

más importante que estos poseen, es decir, que pueden ocurrir.
Definición 1.4. Diremos que un evento ocurre cuando al realizar el experimento el resultado
obtenido es uno del evento.
Gracias a la definición anterior podemos interpretar algunas de las operaciones entre

conjuntos en el contexto de eventos, esto será de suma importancia para hacer la conexión
entre la formalidad y la aplicación:
1. El conjunto vacı́o, φ, es denominado el evento imposible, pues nunca ocurre.
2. El espacio muestral, Ω, es denominado el evento seguro, pues siempre ocurre.
3. Si A y B son dos eventos de Ω, entonces:
a) A ∪ B es el evento que ocurre si, y solo si, al menos uno de los dos eventos ocurre.
b) A ∩ B es el evento que ocurre si, y solo si, ambos eventos ocurren.
4. Si A es un evento de Ω, entonces:
Ac = Ω − A es el evento complementario de A y este ocurre si, y solo si, A no ocurre.
5. Si A y B son dos eventos de Ω que son disjuntos, es decir, A ∩ B = φ, se dirá que

estos eventos son excluyentes, pues no pueden ocurrir juntos. Para resaltar este hecho
escribiremos A ] B, en lugar de A ∪ B, cuando tengamos esta situación.
Ejemplo 1.3. Un inspector deberá revisar 3 trabajos, cualquiera de estos puede haber
satisfecho las especificaciones requeridas. Definamos los eventos Ai : el trabajo i satisfizo las
especificaciones, i = 1, 2, 3.
A partir de estos eventos expresemos los que siguen:
a) Los tres trabajos hayan satisfecho las especificaciones.

El evento de interés es A1 ∩ A2 ∩ A3 , cuyo complemento es Ac1 ∪ Ac2 ∪ Ac3 .
b) Por lo menos uno de los trabajos haya satisfecho las especificaciones.

En este caso el evento de interés es A1 ∪ A2 ∪ A3 , cuyo complemento es Ac1 ∩ Ac2 ∩ Ac3 .
c) Solo dos de los trabajos hayan satisfecho las especificaciones.

El evento de interés es (A1 ∩ A2 ∩ Ac3 ) ] (A1 ∩ Ac2 ∩ A3 ) ] (Ac1 ∩ A2 ∩ A3 ).
8
Profesor José Flores Delgado Probabilidad 9
d) Ninguno de los trabajos haya satisfecho las especificaciones.

El evento de interés es Ac1 ∩ Ac2 ∩ Ac3 .
e) Por lo menos uno de los trabajos no haya satisfecho las especificaciones.

Este evento puede expresarse como: Ac1 ∪ Ac2 ∪ Ac3 .
1.2. Definición y propiedades de la probabilidad
Como ya se ha dicho la probabilidad debe procurar reflejar las posibilidades que tienen de
ocurrir los eventos, ası́, como los eventos provienen de distintos experimentos, existen muchas
formas de asignar una probabilidad. A continuación veamos cuándo una asignación de
probabilidades a los eventos de un espacio muestral se considera, en efecto, una probabilidad.
La definición de Kolmogorov establece cuáles son las condiciones mı́nimas que debe satisfacer
toda asignación o regla de probabilidades a fin de lograr todo un conjunto de propiedades.
Definición 1.5. Una probabilidad es una transformación, P , que asigna a cada evento,
A, de un espacio muestral, Ω, un número real: P (A) y que satisface las tres propiedades
siguientes, llamadas axiomas de probabilidad:
A1 Para cualquier evento A: P (A) ≥ 0.
A2 La probabilidad del espacio muestral es 1 : P ( Ω) = 1.
A3 Si A1 , A2 , . . . es una colección de eventos mutuamente excluyentes, entonces:
P (A1 ] A2 ] . . . ) = P (A1 ) + P (A2 ) + . . .
o, en notación abreviada:
∞
] ∞
X

P Aj = P (Aj )
j=1 j=1
Ejemplo 1.4. (Probabilidad Clásica) Si el experimento tiene un número finito de resultados

y cada uno de ellos se cree que es igualmente posible, entonces la mejor manera de asignar
probabilidades a los eventos de su espacio muestral es la siguiente:
#(A)
P (A) = , para cada evento A de Ω.
#(Ω)
Observación 1.1. Esta asignación es adecuada, pues, al ser cada resultado igualmente
probable de ocurrir, deberı́a tenerse que la probabilidad de un evento sea proporcional al
número de resultados que este tenga (a mayores resultados, mayor probabilidad); la división
entre el número de resultados posibles se hace para estandarizar, es decir, a fin de que toda
probabilidad esté entre 0 y 1.
9
Ejemplo 1.5. En el ejemplo 1.1 tenemos que el espacio muestral es finito, pues #(Ω) = 4.
Supongamos que cada resultado sea igualmente posible. Por lo tanto, es adecuado asignar
probabilidades de la manera clásica, es decir:
#(A)
P (A) = , ∀A ⊂ Ω.
4
En particular, considerando los eventos definidos en dicho ejemplo, tenemos que:
#(A1 ) 2
a) La probabilidad de que ambas unidades estén igual es P (A1 ) = 4
= 4
= 12 .
#(A2 ) 2
b) La probabilidad de que la segunda unidad no tenga defectos es P (A2 ) = 4
= 4
= 12 .
#(A3 )
c) La probabilidad de que las dos unidades no tengan defectos es P (A3 ) = 4
= 14 .
A continuación veamos algunas de las demás propiedades que se derivan de las tres
básicas.
1.3. Propiedades de la probabilidad
P 1 La probabilidad del evento imposible es nula: P ( φ ) = 0.
P 2 La probabilidad de un evento y la de su complemento suman 1: P (A) + P (Ac ) = 1.
P 3 La probabilidad de cualquier evento, A, es menor o igual que 1: P (A) ≤ 1.
P 4 Si un evento A está incluido dentro de otro, B, entonces, su probabilidad es a lo sumo

igual a la de aquel: P (A) ≤ P (B).
P 5 Para cualesquiera A y B, eventos de Ω : P (B) = P (B ∩ A) + P (B ∩ Ac ).
P 6 Para cualesquiera A y B, eventos de Ω : P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Observación 1.2. Las dos últimas propiedades se generalizan para tres o más eventos, como
se enuncian en la propiedad que se da después del ejemplo siguiente y en el primer ejercicio
propuesto, respectivamente.
Ejemplo 1.6. Dos personas suelen trabajar en equipo al realizar un proyecto. La

probabilidad de que, al realizar el proyecto, la primera termine a tiempo su trabajo es
de 0,7; y la de que termine a tiempo la segunda es de 0,8. Además, la probabilidad de que
ambas terminen a tiempo su trabajo es de 0,51.
A modo de ejemplo calculemos algunas probabilidades:
10
a) La probabilidad de que al menos una de estas personas termine a destiempo su trabajo.

Consideremos los eventos A, que la primera persona termine a tiempo su trabajo, y B,
que la segunda termine a tiempo. De los datos tenemos que: P (A) = 0, 7, P (B) = 0, 8
y P (A ∩ B) = 0, 51.
Nos interesa calcular P (Ac ∪ B c ), esta, por la propiedad 2 de la probabilidad, se puede
determinar por medio de la de su evento complementario (que ambas terminen a
tiempo):
1 − P (A ∩ B) = 1 − 0, 51 = 0, 49
A manera de ejercicio, obtenga la probabilidad anterior por medio de la propiedad 6

de la probabilidad:
P (Ac ∪ B c ) = P (Ac ) + P (B c ) − P (Ac ∩ B c ).
b) La probabilidad de que la primera persona no termine a tiempo su trabajo, pero sı́ la

segunda.
En este caso el evento que nos interesa, que la primera persona no termine a tiempo
su trabajo, pero sı́ la segunda, corresponde al evento Ac ∩ B, su probabilidad se puede
obtener usando la propiedad 5 de la probabilidad:
P (B) = P (B ∩ A) + P (B ∩ Ac ) ⇒ P (Ac ∩ B) = P (B) − P (B ∩ A) = 0, 8 − 0, 51 = 0, 29.
c) La probabilidad de que solo una de estas personas no termine a tiempo su trabajo.

Aquı́, el evento que interesa es (Ac ∩ B) ] (A ∩ B c ) (no termine a tiempo la primera
pero sı́ la segunda, o bien no termine a tiempo la segunda pero sı́ la primera) y como
en esta reunión los eventos son excluyentes, basta sumar sus probabilidades (por el
axioma 3 de la probabilidad). Ası́:
P (Ac ∩ B) ] (A ∩ B c ) = P (Ac ∩ B) + P (A ∩ B c ) = 0, 29 + 0, 19 = 0, 48

Aquı́ se ha obtenido P (A ∩ B c ) de manera análoga a como se procedió en la parte

anterior para hallar P (Ac ∩ B), es decir, usando: P (A) = P (A ∩ B) + P (A ∩ B c ).
d) La probabilidad de que al menos una de estas personas termine a tiempo su trabajo.

En este caso nos interesa el evento (A ∪ B) (al menos una de estas personas termine a
tiempo su trabajo). Para determinarla podemos usar la propiedad 6:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B) = 0, 7 + 0, 8 − 0, 51 = 0, 99.
Compruebe que P (A ∪ B) = P (Ac ∩ B) + P (A ∩ B c ) + P (A ∩ B).
11
Los datos y eventos dados pueden representarse en la tabla siguiente:

B Bc Totales
A P (A ∩ B) = 0, 01 P (A ∩ B c ) P (A) = 0, 3
Ac P (Ac ∩ B) P (Ac ∩ B c ) P (Ac ) = 0, 7
Totales P (B) = 0, 2 P (B c ) = 0, 8 1
Observación 1.3. Tenga siempre presente el uso de las propiedades de la probabilidad. No
use la tabla anterior (u otras gráficas) como justificación para el cálculo de probabilidades,
solo use propiedades para este fin.
Propiedad (Regla de la probabilidad total) Sean A1 , . . . , Ak , eventos mutuamente

k
U
excluyentes (esto es, Ai ∩ Aj = φ, i 6= j) y exhaustivos (es decir, Ai = Ω). Entonces, para
i=1
todo evento, B, de Ω :
k
X
P (B) = P (B ∩ Ai )
i=1
Esta propiedad es una de las más importantes en las aplicaciones. Las propiedades que
satisfacen los eventos A1 , . . . , Ak (mutuamente excluyentes y exhaustivos) se resumen
diciendo que estos constituyen una partición de Ω y se puede ilustrar como sigue:
Ejemplo 1.7. Para producir cierto bien se usa solo uno de tres procedimientos principales
existentes (1, 2 y 3) y, opcionalmente, uno secundario (4). La probabilidad de usar el
procedimiento 1 es de 0,6; la probabilidad de usar el procedimiento 1 con el secundario
es igual a 0,24. La probabilidad de usar el procedimiento 2 sin el procedimiento secundario
es de 0,06. La probabilidad de usar el procedimiento 3 es de 0,25; y la probabilidad de usar
el procedimiento secundario con este procedimiento es de 0,16.
Obtengamos la probabilidad de usar el procedimiento secundario:
Consideremos los eventos: Ai , usar el procedimiento i; para i = 1, . . . , 4.
Estos eventos nos permiten expresar los datos dados con las notaciones necesarias para usar
las propiedades de la probabilidad:
A1 ]A2 ]A3 = Ω, es decir, los eventos A1 , A2 y A3 son mutuamente excluyentes y exhaustivos.
P (A1 ) = 0, 6, P (A1 ∩ A4 ) = 0, 24, P (A2 ∩ Ac4 ) = 0, 06, P (A3 ) = 0, 25 y P (A3 ∩ A4 ) = 0, 16.
Para obtener la probabilidad del evento que interesa, es decir de A4 , la descomposición

A1 ] A2 ] A3 = Ω nos permite expresar A4 = (A4 ∩ A1 ) ] (A4 ∩ A2 ) ] (A4 ∩ A3 ); por lo tanto,
12
la probabilidad pedida es:

P (A4 ) = P (A4 ∩ A1 ) ] (A4 ∩ A2 ) ] (A4 ∩ A3 )
= P (A4 ∩ A1 ) + P (A4 ∩ A2 ) + P (A4 ∩ A3 )
= 0, 24 + P (A4 ∩ A2 ) + 0, 16
Luego, basta obtener la probabilidad P (A4 ∩ A2 ). Para esto, puesto que A1 ] A2 ] A3 = Ω,

podemos deducir inmediatamente que, P (A1 ) + P (A2 ) + P (A3 ) = 1 y ası́ P (A2 ) =
1 − 0, 6 − 0, 25 = 0, 15. Además, ya que P (A2 ) = P (A4 ∩ A2 ) + P (Ac4 ∩ A2 ), tenemos
que P (Ac4 ∩ A2 ) = P (A2 ) − 0, 06 = 0, 15 − 0, 06. Ası́, P (A4 ) = 0, 24 + 0, 09 + 0, 16 = 0, 49.
1.4. Probabilidad condicional
Como ya sabemos, una probabilidad P definida sobre los eventos de Ω cuantifica las
posibilidades que tienen de ocurrir dichos eventos. Sucede que en el transcurrir del tiempo
podemos ir recibiendo información que modifique el estado de incertidumbre que se tenı́a
sobre el experimento antes de realizarlo. Por ejemplo, si en una empresa el 70 % de los
proyectos que llegan se desarrollan a tiempo; entonces, podemos decir que si un proyecto
llega hay una probabilidad de 0, 7 de desarrollarlo a tiempo; sin embargo, resulta que
algunos proyectos llegan solo con un mes de anticipación, ¿se podrá decir que estos tienen la
misma probabilidad de ser desarrollados a tiempo? El conocimiento de esta información a lo
mejor afectará las probabilidades anteriores, por lo tanto, hay la necesidad de actualizar las
probabilidades iniciales con base en el conocimiento de la nueva información adquirida, dicho
de otro modo, este conocimiento nos debe llevar a un aprendizaje que se concreta o expresa
en una nueva regla de asignación de probabilidades, digamos P 0 . Dicha información nueva
es expresada como la ocurrencia de un evento B; y la nueva asignación de probabilidades P 0
es llamada “probabilidad condicional dado que ocurrió B” y se la define para cada evento
A, a partir de la probabilidad P, anterior a la información recibida, como:
P (A ∩ B)
P 0 (A) =
P (B)
Además, se suele denotar a esta nueva asignación de probabilidades, P 0 , como P ( / B), es
decir, para cada evento A de Ω se tiene que:
P (A ∩ B)
P (A/ B) =
P (B)
Obsérvese que para la asignación clásica resulta:
#(A∩B)
P (A ∩ B) #(Ω) #(A ∩ B)
P (A/ B) = = #(B)
=
P (B) #(B)
#(Ω)
Por lo que se interpreta como la probabilidad de que ocurra A, cuando el espacio Ω se reduce
al evento B.
13
Observación 1.4. La probabilidad condicional es, en efecto, una probabilidad, pues

satisface:
A1. P (A/ B) ≥ 0, para cada A evento de Ω.
A2. P (Ω/ B) = 1.
A3. Para cualesquiera C y D, eventos excluyentes de Ω:
P (C ] D/ B) = P (C/ B) + P (D/ B).
En particular satisface también cualquier otra propiedad de la probabilidad:
P1. La probabilidad del evento imposible es nula: P (φ/ B) = 0.
P2. La probabilidad de cualquier evento A es menor o igual que 1: P (A/ B) ≤ 1.
P3. La probabilidad de un evento más la de su complemento da 1: P (A/ B)+P (Ac / B) = 1.
P4. Si un evento, C, está incluido dentro de otro, D, entonces, su probabilidad es a lo sumo

igual a la de aquel: P (C/ B) ≤ P (D/ B).
P5. Para cualesquiera C y D, eventos de Ω : P (C) = P (C ∩ D/ B) + P (C ∩ Dc / B).
P6. Para cualesquiera C y D, eventos de Ω:

P (C ∪ D/ B) = P (C/ B) + P (D/ B) − P (C ∩ D/ B).
Propiedad (Regla del producto): para cualesquiera A y B eventos de Ω, se tiene que:
P (A ∩ B) = P (B)P (A/ B) = P (A)P (B/ A).
Observación 1.5. Esta regla es sumamente importante, pues permite obtener la

probabilidad que tienen de ocurrir conjuntamente dos eventos, a partir de la de uno de
ellos y la del otro condicional a la ocurrencia del primero.
En general:
P (A1 ∩ . . . ∩ Ak ) = P (A1 )P (A2 / A1 )P (A3 / A1 ∩ A2 ) . . . P (Ak / A1 ∩ . . . ∩ Ak−1 ).
Ejemplo 1.8. Una empresa del paı́s se encuentra en cierto estado financiero si posee dos
caracterı́sticas, c1 y c2 ; la probabilidad de que posea c1 es de 0,9. Además, una de cada cuatro
empresas, que posee la caracterı́stica c1 , también posee la c2 .
Usaremos la regla anterior para calcular la probabilidad de que una de estas empresas,
escogida arbitrariamente, se encuentre en dicho estado financiero:
Ası́, consideremos los eventos A : la empresa presente la caracterı́stica c1 , y B : presente c2 .

Por los datos: P (A) = 0, 9 y P (B/ A) = 1/4 = 0, 25.
14
Luego, por la regla del producto: P (A ∩ B) = P (A)P (B/ A) = 0, 225.
Propiedad (reglas de la probabilidad total y de Bayes) Sean A1 , . . . , Ak , eventos

mutuamente excluyentes (esto es, Ai ∩ Aj = φ, para cualesquiera i 6= j) y exhaustivos (es
k
U
decir, Ai = Ω), y B otro evento. Esto se puede representar gráficamente como sigue:
i=1
Entonces, tenemos las propiedades siguientes:

a) La regla de la probabilidad total: La probabilidad de B puede obtenerse mediante
una suma, como se muestra a continuación:
k
X k
X
P (B) = P (B ∩ Ai ) = P (Ai )P (B/ Ai )
i=1 i=1
Es común ilustrar esta regla mediante una tabla de probabilidades:
O, también, mediante un diagrama de árbol de probabilidades:
b) La regla de Bayes: Luego de saber de la ocurrencia del evento B, la probabilidad

que se le habı́a asignado a Aj (para j = 1, . . . , k) se actualiza como:
P (Aj ∩ B) P (Aj )P (B/ Aj )
P (Aj / B) = = k
P (B) P
P (Ai )P (B/ Ai )
i=1
15
Ejemplo 1.9. En una compañı́a el 30 % de los proyectos es encargado al administrador 1,

el 20 % al administrador 2, y el resto al administrador 3. Cuando el proyecto está a cargo
del administrador 1, solo en el 1 % de estos se comete un error grave; en el 3 % si es el
administrador 2 quien está a cargo; y en el 4 % si es el administrador 3 el que está a cargo.
¿Cuál es la probabilidad de cometer un error grave al realizarse un proyecto?
En este caso los porcentajes se refieren a las probabilidades frecuenciales, y la pregunta puede
ser resuelta con porcentajes y un poco de razonamiento con aritmética; pero se trata de usar
las propiedades de probabilidad que ya hemos visto, como lo haremos a continuación:
Podemos considerar los eventos Ai : el proyecto es realizado por el administrador i, i = 1, 2, 3;

y B : cometer un error grave al realizar el proyecto.
Los datos son: P (A1 ) = 0, 3; P (A2 ) = 0, 2; P (A3 ) = 0, 5; P (B/A1 ) = 0, 01; P (B/A2 ) =

0, 03 y P (B/A3 ) = 0, 04.
Podemos ilustrar estos datos mediante la tabla siguiente:
A1 A2 A3 Total
B P (B ∩ A1 ) P (B ∩ A2 ) P (B ∩ A3 ) P (B)
Bc P (B c ∩ A1 ) P (B c ∩ A2 ) P (B c ∩ A3 ) P (B c )
Totales P (A1 ) = 0, 3 P (A2 ) = 0, 2 P (A3 ) = 0, 5 1
O mediante el diagrama de árbol siguiente:
16
Ası́, la probabilidad de cometer un error grave al realizar el proyecto es:
P (B) = P (B ∩ A1 ) + P (B ∩ A2 ) + P (B ∩ A3 )
= P (A1 ) P (B/ A1 ) + P (A2 ) P (B/ A2 ) + P (A3 ) P (B/ A3 )
= (0,3)(0,01) + (0,2)(0,03) + (0,5)(0,04)
= 0,029
Las probabilidades de la primera fila del cuadro, o la de cada rama del árbol, pueden ser
completadas usando la regla del producto, P (B ∩ Ai ) = P (Ai )P (B/Ai ), ası́ obtenemos:
A1 A2 A3 Total
B P (B ∩ A1 ) = 0, 003 P (B ∩ A2 ) = 0, 006 P (B ∩ A3 ) = 0, 02 P (B) = 0, 029
Bc P (B c ∩ A1 ) P (B c ∩ A2 ) P (B c ∩ A3 ) P (B c )
Totales P (A1 ) = 0, 3 P (A2 ) = 0, 2 P (A3 ) = 0, 5 1
Y:
Ejercicio: Al realizar un proyecto se cometió un error grave, ¿cuál administrador tiene

mayor probabilidad de haberlo realizado?
17
Sugerencia: examine las probabilidades:

P (Ai ∩ B) P (Ai )P (B/Ai )
P (Ai /B) = = , para i = 1, 2 y 3;
P (B) P (B)
y luego determine a cuál administrador corresponde la mayor probabilidad.
1.5. Independencia
Definición 1.6. Dado un espacio muestral Ω, sobre cuyos eventos se tiene definida una regla
de asignación de probabilidades P, se dice que dos eventos A y B son independientes, si:
P (A/ B) = P (A).
O, equivalentemente, si:
P (B/ A) = P (B).
Ası́, esto significa que el conocimiento de la ocurrencia de uno de los eventos no altera la
probabilidad de que ocurra el otro.
Ejemplo 1.10. En el análisis costo-beneficio de la compra de cierta fábrica se considera,

para simplificar, que solo dos eventos pueden determinar el cierre de la fábrica al cabo del
primer año: una demanda muy baja del producto que se fabricará, o que la fábrica se vuelva
anticuada debido a nuevas normas de control ambiental.
En este caso es razonable suponer que los eventos anteriores sean independientes, pues, la
ocurrencia de uno de ellos no altera la probabilidad de ocurrir el otro. Es decir, si denotamos
por A al primer evento, y por B al segundo, es claro que:
P (A/ B) = P (A) y P (B/ A) = P (B).
Supongamos que la probabilidad de que ocurra el primer evento antes mencionado sea 0,1,
y 0,05 la del segundo. Entonces, la probabilidad de que, durante el primer año, ocurra una
demanda muy baja y que la fábrica se vuelva anticuada, puede obtenerse a partir de la regla
del producto y el concepto de independencia, ası́, obtenemos que:
P (A ∩ B) = P (A)P (B/A) = P (A)P (B) = 0, 1 × 0, 05 = 0, 005.
Lo visto en el ejemplo anterior motiva la definición equivalente siguiente.
Propiedad 1: A y B son eventos independientes si y solo si: P (A ∩ B) = P (A)P (B).
Propiedad 2: Si A y B son eventos independientes, también lo son:
a) Ac y B; b) A y B c ; y c) Ac y B c .
18
Observación 1.6. Ası́, podemos decir que dos eventos son independientes, si la probabilidad
de que ocurra uno de ellos no se altera aun sabiendo si ocurrió, o si no ocurrió el otro.
La definición y propiedad anteriores se generalizan para una colección de eventos:
Definición 1.7. Una colección de eventos, {A1 , A2 , . . . }, son independientes, si la

probabilidad de que ocurran simultáneamente cualquier número finito de estos eventos, es
igual al producto de las probabilidades correspondientes.
Ası́, por ejemplo, si se consideran n de tales eventos, digamos, Ai1 , Ai2 , . . . Ain , entonces:
P (Ai1 ∩ Ai2 ∩ . . . ∩ Ain ) = P (Ai1 )P (Ai2 ) . . . P (Ain )
Propiedad 3: Si en una colección de eventos independientes, {A1 , A2 , . . . }, se sustituye

cualquiera de los eventos Aij por su complemento Acij , entonces, los eventos que resultan
ası́ seguirán siendo independientes.
Observación 1.7. Entonces, cuando se tiene independencia ocurre la simplificación siguiente

de la regla del producto general:
P (Ai1 ∩ Ai2 . . . ∩ Ain ) = P (Ai1 )P (Ai2 / Ai1 )P (Ai3 / Ai1 ∩ Ai2 ) . . . P (Ain / Ai1 ∩ . . . ∩ Ain−1 )
Ejemplo 1.11. Los eventos A, B y C son independientes si se cumplen las igualdades

siguientes:
P (A∩B) = P (A)P (B), P (A∩C) = P (A)P (C), P (B ∩C) = P (B)P (C) y P (A∩B ∩C) =
P (A)P (B)P (C).
Ejemplo 1.12. Sea Ω = {1, 2, 3, 4} y los eventos A = {1, 4}, B = {2, 4} y C = {3, 4}.
Si consideremos la probabilidad clásica, tenemos que:
P (A) = P (B) = P (C) = 2/4 = 1/2.
P (A ∩ B) = P (A ∩ C) = P (B ∩ C) = 1/4 (pues A ∩ B = A ∩ C = B ∩ C = {4}).
Ası́: P (A ∩ B) = P (A)P (B), P (A ∩ C) = P (A)P (C) y P (B ∩ C) = P (B)P (C).
Sin embargo, P (A ∩ B ∩ C) 6= P (A)P (B)P (C). Es decir, estos tres eventos no son
conjuntamente independientes; pero dos cualesquiera de estos sı́ lo son.
Ejemplo 1.13. En el contexto del ejemplo 1.10, consideremos un perı́odo de 3 años.

Supongamos que, en cada uno de estos años, la probabilidad de que la demanda sea muy
baja se mantenga constante, es decir igual a 0,1, e independientemente de los demás años.
Interesa obtener la probabilidad de los eventos siguientes:
a) En cada uno de estos años la demanda sea muy baja.
b) Por lo menos en uno de los años de este perı́odo la demanda sea muy baja.
19
c) Solo en un año de este perı́odo la demanda sea muy baja.
d) Solo en dos años de este perı́odo la demanda sea muy baja.
e) Por lo menos en dos años de este perı́odo la demanda sea muy baja.
Para obtenerlas definamos los tres eventos siguientes:
Ai : Durante el año i la demanda sea muy baja, i = 1, 2, 3.
a) Aquı́ estamos interesado en el evento A1 ∩ A2 ∩ A3 .
Por la independencia tenemos que:
P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 )

= (0, 1)(0, 1)(0, 1)
= (0, 1)3
b) En este caso el evento de interés es A1 ∪ A2 ∪ A3 , cuyo complemento es Ac1 ∩ Ac2 ∩ Ac3 . Por
la independencia, resulta más simple obtener la probabilidad del complemento, en efecto:
P (Ac1 ∩ Ac2 ∩ Ac3 ) = P (Ac1 )P (Ac2 )P (Ac3 )

= (1 − 0, 1)(1 − 0, 1)(1 − 0, 1)
= (1 − 0, 1)3
= (0, 9)3
Ası́, P (A1 ∪ A2 ∪ A3 ) = 1 − P (Ac1 ∩ Ac2 ∩ Ac3 ) = 1 − (1 − 0, 1)3 = 1 − (0, 9)3 .
c) Aquı́, el evento que interesa es: (A1 ∩ Ac2 ∩ Ac3 ) ] (Ac1 ∩ A2 ∩ Ac3 ) ] (Ac1 ∩ Ac2 ∩ A3 ).
Cuya probabilidad se puede obtener sumando las probabilidades de cada uno de los eventos
excluyentes anteriores, es decir:
P (A1 ∩ Ac2 ∩ Ac3 ) + P (Ac1 ∩ A2 ∩ Ac3 ) + P (Ac1 ∩ Ac2 ∩ A3 )
Nuevamente por la independencia, tenemos que:
P (A1 ∩ Ac2 ∩ Ac3 ) = P (A1 )P (Ac2 )P (Ac3 ) = (0, 1)(1 − 0, 1)(1 − 0, 1) = (0, 1)(1 − 0, 1)2
P (Ac1 ∩ A2 ∩ Ac3 ) = P (Ac1 )P (A2 )P (Ac3 ) = (1 − 0, 1)(0, 1)(1 − 0, 1) = (0, 1)(1 − 0, 1)2
P (Ac1 ∩ Ac2 ∩ A3 ) = P (Ac1 )P (Ac2 )P (A3 ) = (1 − 0, 1)(1 − 0, 1)(0, 1) = (0, 1)(1 − 0, 1)2
Por lo tanto, la probabilidad que interesa es: 3(0, 1)(1 − 0, 1)2 = 3(0, 1)(0, 9)2 .
d) Aquı́, el evento que interesa es: (A1 ∩ A2 ∩ Ac3 ) ] (A1 ∩ Ac2 ∩ A3 ) ] (Ac1 ∩ A2 ∩ A3 ).
Cuya probabilidad se puede obtener sumando las probabilidades de cada uno de los eventos
excluyentes anteriores, es decir:
P (A1 ∩ A2 ∩ Ac3 ) + P (A1 ∩ Ac2 ∩ A3 ) + P (Ac1 ∩ A2 ∩ A3 )
20
Nuevamente por la independencia, tenemos que:
P (A1 ∩ A2 ∩ Ac3 ) = P (A1 )P (A2 )P (Ac3 ) = (0, 1)(0, 1)(1 − 0, 1) = (0, 1)2 (1 − 0, 1)
P (A1 ∩ Ac2 ∩ A3 ) = P (A1 )P (Ac2 )P (A3 ) = (0, 1)(1 − 0, 1)(0, 1) = (0, 1)2 (1 − 0, 1)
P (Ac1 ∩ A2 ∩ A3 ) = P (Ac1 )P (A2 )P (A3 ) = (1 − 0, 1)(0, 1)(0, 1) = (0, 1)2 (1 − 0, 1)
Por lo tanto, la probabilidad que interesa es: 3(0, 1)2 (1 − 0, 1) = 3(0, 1)2 (0, 9).
e) Aquı́ el evento que interesa es la reunión del anterior, D, con el primero, A, es decir:
D ] A = (A1 ∩ A2 ∩ Ac3 ) ] (A1 ∩ Ac2 ∩ A3 ) ] (Ac1 ∩ A2 ∩ A3 ) ] (A1 ∩ A2 ∩ A3 ).
Y como estos eventos son excluyentes, la probabilidad que interesa es:
P (D ] A) = P (D) + P (A) = 3(0, 1)2 (0, 9) + (0, 1)3 .
Observación 1.8. Se suele confundir el concepto de eventos independientes con el de eventos

excluyentes, esto sucede porque en el lenguaje común y corriente independencia significa
autonomı́a, ası́, dos eventos excluyentes al no tener elementos en común, son autónomos en
cuanto a sus elementos se refiere; pero la independencia de eventos se refiere a la autonomı́a
de las probabilidades de ocurrir, de lo que carecen los eventos excluyentes, pues, si ocurre
uno de ellos el otro tendrá una probabilidad nula de ocurrir.
Propiedad 4: Si en una colección de eventos independientes se escogen subcolecciones

disjuntas (de este modo ningún evento estará en más de una subcolección) y en cada
subcolección se efectúan operaciones (de reunión, intersección o complemento) con los
eventos que la integran, entonces, los eventos que resultan de estas operaciones también
son independientes.
1.6. Probabilidad clásica y combinatoria
Como fue visto en el ejemplo 1.4, para calcular la probabilidad clásica de un evento se
requiere contar su número de resultados. Existen técnicas que facilitan el conteo, estas son
parte del llamado análisis combinatorio, a continuación describiremos brevemente algunas.
Definición 1.8. (Número combinatorio) Si m y n son dos números naturales, con m

mayor o igual que n, al número:

m m!
= C nm =
n n!(m − n)!
se le denomina combinatorio de m en n y nos da el número de subconjuntos (o grupos), de
tamaño n, que se pueden obtener a partir de m elementos.
Por m! entendemos el producto de los primeros m números naturales, es decir, m! =

1x 2x . . . x m, si m es mayor o igual que 1; y se define 0! como 1.
21
Ejemplo 1.14. Entre 20 empresas, de las cuales 5 son clasificadas del tipo ‘a’ y las otras
15 del tipo ‘b’, se toma una muestra al azar de 4 de estas. Podemos describir el espacio
muestral asociado a este experimento, Ω, como el conjunto de subconjuntos de tamaño 4 que
se pueden determinar con 20 elementos.
De este modo se deduce que Ω tiene:

20 20! 20! 17 × 18 × 19 × 20
= = = = 4 845 elementos o resultados.
4 4! (20 − 4)! 4! 16! 1×2×3×4
Si quisiéramos ser más precisos podemos identificar a las empresas por los números naturales,
por ejemplo, del 1 al 20, donde los primeros 5 identifican a las del tipo a. Ası́:
Ω = { A / A ⊂ {1, . . . , 20}, #(A) = 4 }.
Note que todo elemento (resultado) A de Ω es un subconjunto (grupo), del conjunto

{1, . . . , 20}, integrado por 4 elementos.
Describamos dos eventos para ilustrar el uso del número combinatorio en el conteo:
a) Seleccionar solo empresas del tipo a:
A1 = { {1, 2, 3, 4}, {1, 2, 3, 5}, {1, 2, 4, 5}, {1, 3, 4, 5}, {2, 3, 4, 5} }
En este caso el subconjunto elegido, además de ser de cuatro elementos, estos deben ser solo
del conjunto {1, 2, 3, 4, 5}, por lo tanto, A1 tiene:

5 5!
= = 5 resultados o elementos,
4 4! 1!
cualquiera de estos resultados determina la ocurrencia del evento A1 . Es decir, hay 5
posibilidades, entre 4 845, de que ocurra A1 .
b) Seleccionar solo empresas del tipo b. Entonces, el grupo de 4 empresas debe estar integrado
solo por 4 de las seis del tipo b que hay en total, ası́, este evento, digamos A2 , tiene:

15 15! 12 × 13 × 14 × 15
= = = 1 365 resultados o elementos.
4 4! 11! 1×2×3×4
En este caso hay 1 365 posibilidades, entre 4 845, de que ocurra A2 . Ası́, la probabilidad de
seleccionar solo empresas del tipo b es de 1 365 en 4 845.
A continuación mostramos algunos de estos resultados:

A2 = { {6, 7, 8, 9}, {6, 7, 8, 10}, . . . . , {6, 7, 8, 20}, . . . . , {17, 18, 19, 20} }.
Definición 1.9. (Principio de la multiplicación) Si una primera operación se puede

llevar a cabo de m formas, y después de esta una segunda operación se puede realizar de n
formas, entonces, la operación de llevar a cabo la primera operación y luego la segunda, se
puede realizar de m × n formas posibles.
22
Ejemplo 1.15. En el mismo ejemplo anterior veamos dos eventos más para ilustrar las dos
técnicas vistas del análisis combinatorio:
a) A3 : Seleccionar solo tres empresas del tipo a. Ahora se completa el grupo de modo
que tenga tres empresas del tipo a y solo una del tipo b. Para determinar el número
de resultados que tiene este evento podemos, por ejemplo, describir sus elementos
enumerándolos abreviadamente y como una matriz de m filas y n columnas, de este
modo el producto m × n nos dará el número de resultados, veamos:
 

 {1, 2, 3, 6}, {1, 2, 3, 7}, . . . {1, 2, 3, 20}, 


 {1, 2, 4, 6}, {1, 2, 4, 7}, 
. . . {1, 2, 4, 20}, 
A3 =


 ... ... . . . ... 


{3, 4, 5, 6}, {3, 4, 5, 7}, {3, 4, 5, 20}
 
. . .
Notemos que se han listado los resultados anteriores siguiendo un orden adecuado,
como para evitar dejar afuera alguno de ellos. También observemos que en este arreglo
el número de filas y el de columnas lo obtenemos usando el número combinatorio. En
efecto, como una fila es determinada por las tres empresas del tipo a que se hayan
elegido, hay 53 = 3!2!
5!

= 10 filas. Similarmente, cada columna es determinada por la
empresa del tipo b que se haya escogido, ası́, hay 15 15!

1
= 1!14! = 15 columnas. Entonces,
el número de casillas que hay en el arreglo anterior es 10 × 15 = 150 (por el principio
de la multiplicación), luego, el evento A3 tiene 150 resultados. Por lo tanto, hay 150
posibilidades, entre 4 845, de que ocurra A3 .
b) A4 : Seleccionar dos empresas del tipo a y dos del tipo b.

Ahora tenemos que seleccionar dos empresas del tipo a, lo cual se puede hacer de
5 5!

2
= 2!3! = 10 maneras, y seleccionar dos empresas del tipo b, lo cual se puede
15 15!

hacer de 2 = 2!13! = 105 maneras. Ası́, por el principio de la multiplicación, hay
10 × 105 = 1 050 posibilidades para seleccionar dos empresas del tipo a y dos del tipo
b. Como lo hicimos con el evento anterior, podemos escoger un orden apropiado que
nos permita listar todas estas posibilidades como un arreglo de filas y columnas:
 

 {1, 2, 6, 7}, {1, 2, 6, 8}, . . . {1, 2, 19, 20}, 


 {1, 3, 6, 7}, {1, 3, 6, 8}, 
. . . {1, 3, 19, 20}, 
A4 =


 ... ... . . . ... 


{4, 5, 6, 7}, {4, 5, 6, 8}, {4, 5, 19, 20}
 
. . .
En esta lista hay 52 = 2!3!

5!
= 10 filas, cada una contiene 15 15!

2
= 2!13! = 105 columnas.
Ası́, hay 10 × 15 = 150 casillas, cada una representa a uno de los resultados que
conducen a la ocurrencia de este evento. Por lo tanto, las posibilidades de que, al
tomar al azar un grupo de 4 empresas, resulten dos del tipo a y dos del tipo b son de
1050 en 4 845.
23
Observación 1.9. El principio de la multiplicación se generaliza para tres o más operaciones.
Ejemplo 1.16. En el contexto del ejemplo 1.14, supongamos ahora que en cada una de las
próximas semanas se visitará una empresa distinta y escogida aleatoriamente. Y nos interesa
obtener la probabilidad de que en la primera y cuarta semana se visite a una empresa del
tipo a.
Ahora el espacio muestral no estará integrado por subconjuntos o grupos de tamaño 4, sino
por cuartetos (grupo ordenado de tamaño 4), es decir:
Ω = {(a1 , a2 , a3 , a4 )/ ai ∈ {1, . . . , 20}, ai 6= aj , i 6= j, i, j = 1, . . . , 20}
Puesto que la primera empresa que visitar puede ser cualquiera de las 20, la segunda
cualquiera de las 19 restantes, la tercera cualquiera de las 18 restantes, y finalmente la cuarta
empresa por visitar puede ser cualquiera de las 17 restantes; entonces, por el principio de la
multiplicación, el número de resultados posibles lo podemos obtener mediante el producto
siguiente: #(Ω) = 20 x 19 x 18 x 17 = 116 280. Nuestro evento de interés lo podemos denotar
por E y describirlo como:
E = {(a1 , a2 , a3 , a4 ) ∈ Ω / a1 , a4 ∈ {1, ..., 5}}
La primera empresa que visitar puede ser cualquiera de las 5 del tipo a, la cuarta cualquiera
de las 4 del tipo a restantes, la segunda empresa por visitar puede ser cualquiera de las 18
empresas restantes (entre las del tipo a y b), y la tercera cualquiera de las 17 restantes.
Entonces tenemos que #(E) = 5x4 × 18 × 17 = 6 120. Luego, P (E) = #(E) #(Ω)
6 120
= 116 280
1
= 19 .
Observación 1.10. Si m y n son dos números naturales, con m mayor o igual que n, al
número:
m!
Pnm = = m(m − 1) . . . (m − (n − 1))
(m − n)!
se le denomina número de permutaciones de m en n y nos da el número de n-tuplas (grupos
ordenados de tamaño n) que se pueden obtener a partir de m elementos.
1.7. Probabilidad geométrica y frecuencial
Existe una infinidad de formas de asignar probabilidades a los eventos de un espacio

muestral, la más conocida de todas es la llamada probabilidad clásica, pero el uso de una de
estas dependerá de la situación en particular. A continuación veamos dos formas más.
Definición 1.10. (Probabilidad geométrica) Esta asignación es análoga a la probabilidad

clásica; pero en este caso el experimento tiene un número infinito e innumerable de resultados,
los cuales se encuentran distribuidos aleatoria e indistintamente (uniformemente) sobre toda
24
una región. Esta región puede ser un intervalo (por ejemplo de tiempo), un área o un volumen.
En este caso una manera natural de asignar probabilidades a los eventos del espacio muestral
(la región) es la siguiente:
medida de A
P (A) =
medida de Ω
esto para cada evento, A, de Ω.
La medida a la que se refiere la definición anterior depende de la dimensión de la región.

Ası́, en una dimensión la medida usual es la longitud, en dos dimensiones el área, y en tres
el volumen. Ahora la probabilidad de un evento es proporcional a su medida.
Ejemplo 1.17. El precio del bien A varı́a aleatoria y uniformemente entre 100 y 200 soles,
y el precio del bien B varı́a entre 200 y 300 soles de manera aleatoria y uniformemente para
cualquiera que sea el precio del bien A.
Una persona que desea adquirir una unidad de cada bien dispone de un presupuesto de 450
soles. Se quiere cuantificar el riesgo que corre esta persona de no conseguir su objetivo.
En este caso el espacio muestral puede describirse como:
Ω = { (x; y) ∈ R2 / 100 ≤ x ≤ 200, 200 ≤ y ≤ 300}
Con la interpretación siguiente: si (x; y) es un resultado de Ω, quiere decir que el precio del
bien A es x soles y el del bien B es y soles.
La persona desea que su presupuesto de 450 soles alcance, es decir, que ocurra el evento
siguiente: E = { (x; y) ∈ Ω/ x + y ≤ 450} Y lo podemos representar gráficamente junto al
espacio muestral como sigue:
Por la condición del problema, cada resultado se distribuye indistintamente en toda la región
Ω, luego, la asignación de probabilidades adecuada para cada evento, A, de Ω es
medida de A área de A área de A

P (A) = = = .
medida de Ω área de Ω 1002
25
En particular, la probabilidad de que el presupuesto de la persona sea insuficiente es

50x50
P (E c ) = 2
= 0, 125
1002
Esta probabilidad cuantifica el riesgo que corre la persona, cuando solo dispone de 450 soles
para adquirir una unidad de cada bien.
Definición 1.11. Probabilidad frecuencial: Aquı́, la probabilidad de un evento es

la frecuencia relativa con la que este ocurre en una gran cantidad de repeticiones del
experimento. Por tal motivo se acostumbra interpretarla como el porcentaje de veces que
suele ocurrir el evento en consideración.
Ejemplo 1.18. En cierta región se ha observado la distribución de los ingresos familiares

anuales (en ciertas unidades monetarias) siguiente:
x 0,5 0,75 1 1,5 2 2,5 4 8 9

F (x) 0,2 0,4 0,51 0,64 0,75 0,8 0,90 0.99 1
Entonces, si obtenemos las probabilidades de la manera frecuencial, podemos decir, entre

otras cosas, que
a) La probabilidad de que una familia tenga un ingreso anual de 1,5 um a lo sumo es 0, 64

(puesto que el 64 % de las familias ha tenido un ingreso de 1,5 um como máximo).
b) La probabilidad de que una familia tengo ingresos anuales entre 1 y 1,5 um es 0, 13.
c) La probabilidad de que una familia tengo ingresos anuales superiores a 2 um es 0,25,

pues el 75 % de las familias ha tenido un ingreso de hasta 2 um .
26
1.8. Ejercicios propuestos
Ejercicio 1.1.
Demuestre que la propiedad 6 de la probabilidad se generaliza como sigue:
P (A1 ∪ . . . ∪ An )
Xn XX XX
= P (Ai ) − P (Ai ∩ Aj ) + P (Ai ∩ Aj ∩ Ak ) + . . . + (−1)n+1 P (A1 ∩ . . . ∩ An ).
i=1 i<j i<j<k
En particular, si n = 3, se tiene que:
P (A1 ∪A2 ∪A3 ) = P (A1 )+P (A2 )+P (A3 )−P (A1 ∩A2 )−P (A1 ∩A3 )−P (A2 ∩A3 )+P (A1 ∩A2 ∩A3 ).
Ejercicio 1.2.
Cierto agente invierte en dos acciones con la meta de ganar más de lo previsto, en por lo
menos una. La probabilidad de que gane más de lo previsto en la primera es de 0,3; y la de
que solo gane más de lo previsto en la segunda es de 0,2.
Cuantifique la confianza en lograr la meta.
Ejercicio 1.3.
En un supermercado los compradores tienen que elegir una de tres opciones de pago:
con dinero en efectivo, con crédito proporcionado por el supermercado y con crédito
proporcionado por otra entidad. La probabilidad de que un comprador pague con dinero
en efectivo es de 0,5. La probabilidad de que un comprador pague con crédito proporcionado
por el supermercado es de 0,3. El supermercado propone a los compradores una donación al
momento de pagar. La probabilidad de que un comprador pague con dinero en efectivo
y acepte donar es de 0,1. La probabilidad de que un comprador pague con crédito
proporcionado por el supermercado y no acepte donar es de 0,05. La probabilidad de que un
comprador pague con crédito crédito proporcionado por otra entidad y acepte donar es de
0,15.
a) Exprese los datos dados con eventos previamente definidos e identifique una partición
conveniente del espacio muestral.
b) Determine la probabilidad de que un comprador pague con crédito proporcionado por

otra entidad.
c) Determine la probabilidad de que un comprador pague con crédito proporcionado por

el supermercado y acepte donar.
d) Determine la probabilidad de que un comprador acepte donar.
27
Ejercicio 1.4.
Sean P1 y P2 dos probabilidades definidas para los eventos de Ω.
Para cada evento A de Ω, se define Q(A) de la manera siguiente:
1 3
Q(A) = P1 (A) + P2 (A) .
4 4
a) Demuestre que Q(A) ≥ 0, para todo evento A de Ω.
b) Halle Q(Ω).
c) Si A1 , A2 , . . . es una colección de eventos mutuamente excluyentes, demuestre que

Q(A1 ] A2 ] . . . ) = Q(A1 ) + Q(A2 ) + . . .
d) ¿Es Q una probabilidad?
Ejercicio 1.5.
Sea P una probabilidad definida para los eventos de Ω. Sea C un evento tal que P (C) > 0.
Se define, para cada evento A de Ω :
P (A ∩ C)
Q(A) = .
P (C)
a) Demuestre que Q(A) ≥ 0, para todo evento A de Ω.
b) Halle Q(Ω).
c) Si A1 , A2 , . . . es una colección de eventos mutuamente excluyentes, demuestre que

Q(A1 ] A2 ] . . . ) = Q(A1 ) + Q(A2 ) + . . .
d) ¿Es Q una probabilidad?
Ejercicio 1.6.
Dados los eventos A1 , A2 y A3 , se sabe que
P (A1 ∩ A2 ∩ Ac3 ) = P (A1 ∩ Ac2 ∩ A3 ) = P (Ac1 ∩ A2 ∩ A3 ) = P (A1 ∩ A2 ∩ A3 ) = 81 .
a) ¿Cuál es la probabilidad de que los tres eventos ocurran?
b) Halle la probabilidad de que solo dos de los tres eventos ocurran.
c) Halle la probabilidad de que por lo menos dos de los tres eventos ocurran.
d) Halle la probabilidad de que por lo menos uno de los tres eventos no ocurra.
28
Ejercicio 1.7.
Si P (A ∩ B c ∩ C) = 0, 8 y P (A ∩ B c ∩ C ∩ Dc ) = 0, 5.
a) Halle P (A ∩ B c ∩ C ∩ D).
b) Halle P (Ac ∪ B ∪ C c ∪ Dc ).
Ejercicio 1.8.
Como “aguas duras” se consideran aquellas que requieren cantidades considerables de

jabón para producir espuma y ocasionan incrustaciones en las tuberı́as de agua caliente,
calentadores y otras unidades en las cuales se incrementa la temperatura del agua.
Las aguas pueden clasificarse, según su dureza, en cuatro tipos: blanda (cuando contiene
máximo 75 mg/L de CaCO3 ), moderadamente dura (cuando contiene entre 75 y 150 mg/L
de CaCO3 ), dura (cuando contiene más de 150 y hasta 300 mg/L de CaCO3 ) y muy dura
(cuando contiene más de 300 mg/L de CaCO3 ).
Un administrador, encargado de la comercialización de cierto jabón que será vendido en todo

el paı́s, ha determinado que:
i) La probabilidad de que el jabón sea usado con aguas blandas es de 2/9.

ii) La probabilidad de que el jabón se use con aguas blandas pero no alcance los
resultados deseados es de 1/36.
iii) Dos de cada cinco veces, el jabón se usará con aguas moderadamente duras y
alcanzará los resultados deseados.
iv) El 15 % de las veces, el jabón se usará con aguas duras y alcanzará los resultados
deseados.
v) La probabilidad de que el jabón se use con aguas muy duras es de 0,3.
vi) La probabilidad de que el jabón se use con aguas muy duras y no alcance los
resultados esperados es de 0,2.
conveniente del espacio muestral.
b) ¿Cuál es la probabilidad de que el jabón alcance los resultados esperados y sea usado
con aguas blandas?
c) ¿Cuál es la probabilidad de que el jabón alcance los resultados esperados y sea usado
con aguas muy duras?
d) ¿Cuál es la probabilidad de que el jabón alcance los resultados esperados?
29
Ejercicio 1.9.
Un trastorno se manifiesta si, y solo si, se presentan por lo menos dos de tres sı́ntomas: s1 ,
s2 y s3 . La probabilidad de que se presenten los sı́ntomas s1 y s2 es de 0,56. La probabilidad
de que se presenten estos tres sı́ntomas es de 0,504. La probabilidad de que se presenten los
sı́ntomas s1 y s3 pero no s2 es de 0,105. La probabilidad de que se presenten los sı́ntomas s2
y s3 pero no s1 es de 0,117.
del espacio muestral.
b) La probabilidad de que se presenten los sı́ntomas s1 y s2 pero no s3
c) La probabilidad de que se presenten los sı́ntomas s1 y s3 .
d) La probabilidad de que se presenten los sı́ntomas s1 y s2 pero no s3
e) Determine la probabilidad de que se manifieste el trastorno.
Ejercicio 1.10.
La probabilidad de ganar en las operaciones financieras 1 y 2 son iguales a 0,3 y 0,4,

respectivamente; y la probabilidad de ganar en ambas es de 0,2. ¿Cuál es la probabilidad de
ganar en, por lo menos, una de estas operaciones?
Ejercicio 1.11.
En la producción de cierto bien se puede usar, por lo menos, uno de tres procedimientos
secundarios (1, 2 y 3), cada uno de estos tiene una probabilidad de 0,55 de ser usado. La
probabilidad de que se usen el procedimiento 1 y 2 durante la producción es de 0,2. Los
procedimientos 1 y 3 son utilizados durante la producción, con probabilidad 0,25; lo mismo
ocurre cuando se usan los procedimientos 2 y 3. Además, la probabilidad de usar los tres
procedimientos en la producción es de 0,01.
Considere los eventos Ai : usar el procedimiento secundario i, para i = 1, 2 y 3.
a) Use los eventos Ai , antes definidos, y operaciones de conjuntos para expresar cada uno
de los eventos siguientes:
i) E1 : usar al menos uno de los procedimientos secundarios en la producción.

ii) E2 : usar uno o dos de los procedimientos secundarios en la producción.
iii) E3 : usar a lo sumo dos de los procedimientos secundarios en la producción.
iv) E4 : ninguno de los procedimientos secundarios es usado en la producción.
b) Determine la probabilidad de los eventos descritos en la parte anterior. Solo use

propiedades de la probabilidad y los resultados de la parte anterior.
30
Ejercicio 1.12.
Una entidad crediticia califica a las empresas de cierto grupo para otorgarles un crédito si, y
solo si, estas poseen al menos una de tres caracterı́sticas (s1 , s2 , s3 ). La probabilidad de que
una de estas empresas posea una sola de las caracterı́sticas es de 0,28 y la probabilidad de
que posea solo dos, de 0,67. Considere los eventos Ni : la cantidad de estas caracterı́sticas
que posee una empresa es igual a i, para i = 0, 1, 2, 3.
a) Use los eventos antes definidos para expresar los eventos siguientes:
i) Una empresa de este grupo califique para el crédito.

ii) Una empresa de este grupo no califique para el crédito o bien califique por tener
las tres caracterı́sticas.
b) Determine el valor de la suma P (N0 ) + P (N1 ) + P (N2 ) + P (N3 ).
c) Determine la probabilidad de que una empresa de este grupo no califique para el crédito
o bien califique por tener las tres caracterı́sticas.
d) Suponga que la probabilidad de que una empresa de este grupo califique para el crédito
sea de 0,96. ¿Cuál serı́a la probabilidad de que una de las empresas del grupo posea
las tres caracterı́sticas?
Ejercicio 1.13.
La producción de cierto bien tiene tres procedimientos secundarios, (1, 2 y 3), y la

probabilidad de usar al menos uno se estos es de 0,9. En la producción se pueden usar
al mismo tiempo dos procedimientos secundarios, 1 y 2, con probabilidad 0,2; 1 y 3, con
probabilidad 0,25, y 2 y 3 también con probabilidad 0,25. Por último, la probabilidad de
usar los tres procedimientos secundarios en la producción del bien es 0,01. Determine la
probabilidad de cada uno de los eventos siguientes:
a) Solo se usen los procedimientos secundarios 1 y 2.

Recuerde la propiedad P (A ∩ B) = P (A ∩ B ∩ C) + P (A ∩ B ∩ C c )
b) Solo se usen los procedimientos secundarios 1 y 3.
c) Solo se usen los procedimientos secundarios 2 y 3.
d) Solo se usen dos de los procedimientos secundarios.
e) Se use solo uno de los procedimientos secundarios.
f) Ninguno de los procedimientos secundarios se use.
g) Se usen, a lo más, dos de los procedimientos secundarios.
31
Ejercicio 1.14.
Al poner a la venta un producto, el administrador responsable ha determinado que solo

puede presentarse una de las cuatro situaciones de la demanda siguientes: muy desfavorable,
desfavorable, favorable y óptima. También ha calculado las probabilidades siguientes:
i) 1/8 de que la demanda sea muy desfavorable.

ii) 1/9 de que la demanda sea muy desfavorable y no se logre los resultados deseados.
iii) 1/4 de que la demanda sea desfavorable.
iv) 0,15 de que la demanda sea desfavorable y se logre los resultados deseados.
v) 1/4 de que la demanda sea favorable.
vi) 0,18 de que la demanda sea favorable y se logre los resultados deseados.
vii) 0,1 de que la demanda sea óptima y no se logre los resultados deseados.
a) Exprese los datos dados con eventos previamente definidos.
b) ¿Cuál es la probabilidad de que la demanda sea muy desfavorable y se logre los

resultados deseados?
c) ¿Cuál es la probabilidad de que la demanda sea óptima?
d) Halle la probabilidad de que la demanda sea óptima y se logre los resultados deseados.
e) Halle la probabilidad de que se logre los resultados deseados.
Ejercicio 1.15.
La probabilidad de fabricar un artı́culo defectuoso es de 0,1; y la probabilidad de que un

artı́culo fabricado defectuosamente sea inservible es de 0,8. ¿Cuál es la probabilidad de
fabricar un artı́culo defectuoso e inservible?
Ejercicio 1.16.
Con el fin de ganar 5 000 soles un inversionista realizará una de tres opciones. La probabilidad
de que se realice la opción 1 es 0,3. Si se realiza la opción 1, la probabilidad de ganar 5 000
soles es 0,4. Si se realiza la opción 2, lo cual ocurre con probabilidad 0,2, la probabilidad de
ganar 5 000 soles es 0,1. Cuando se realiza la opción 3, la probabilidad de ganar 5 000 soles
es 0,25. Cuantificar la confianza del inversionista en esta situación.
Ejercicio 1.17.
En el contexto del ejemplo 1.8, suponga ahora que una empresa se encuentra en dicho estado
financiero si también posee la caracterı́stica c3 . Si, además de la información ya dada, se sabe
que el 75 % de las empresas, que poseen las caracterı́sticas c1 y c2 , también presenta la c3 ;
¿cuál es la probabilidad de que una empresa se encuentre en este estado financiero?
32
Ejercicio 1.18.
En la identificación de una cerámica2 , de cierto lugar arqueológico, esta puede ser preincaica,
con probabilidad 0,3, o bien incaica. Para ayudar a la identificación de esta cerámica se
observa si posee cierta caracterı́stica distintiva. Si la cerámica es preincaica, la probabilidad
que que posea la caracterı́stica distintiva es de 0,6; pero si la cerámica es incaica, la
probabilidad solo es de 0,1.
b) Determine la probabilidad de que la cerámica posea la caracterı́stica distintiva.
c) En la identificación de una cerámica, se observó que poseı́a la caracterı́stica distintiva.

Si el arqueólogo encargado quiere maximizar su confianza en la identificación ¿la debe
clasificar como incaica o preincaica?
Ejercicio 1.19.
Estudios acerca de la calidad han determinado que un producto tiene un problema de calidad
cuando presentan los tres defectos siguientes: 1 (mala presentación), 2 (contenido) y 3 (peso).
La probabilidad de que el producto posea el defecto 1 es 0,05. Una de cada cuatro unidades
del producto que presentan el defecto 1, también presentan el defecto 2. Además, se sabe
que el 75 % de las unidades del producto, que presentan los defectos 1 y 2, también presenta
el defecto 3. Determine la probabilidad de que uno de los artı́culos del producto presente un
problema de calidad.
Ejercicio 1.20.
Al realizar tres proyectos, c1 , c2 y c3 , un economista estima las probabilidades siguientes:
i) 0,3, de que el desarrollo de c3 no sea exitoso.
ii) 0,8, para el desarrollo exitoso de c2 , si es que c3 resultara exitoso.
iii) 0,1, de que el desarrollo de c1 no sea exitoso, si es que resultaran exitosos c3 y c2 .
El economista obtendrá un beneficio si, y solo si, los tres proyectos resultaran exitosos. Halle
la probabilidad de que este economista obtenga un beneficio.
Ejercicio 1.21.
Sean P, Q y R probabilidades tales que para cada evento A de Ω : Q(A) = P (A/B) y

R(A) = Q(A/C). Demuestre que para cada evento A : R(A) = P (A/B ∩ C).
2
Este ejercicio es una simplificación de un problema de Reconocimiento de Patrones. Una referencia es el
libro Neural Networks for Pattern Recognition de Christopher M. Bishop, Oxford University Press 2000.
33
Ejercicio 1.22.
Sean P, Q, R y S probabilidades tales que para cada evento A de Ω : Q(A) = P (A/B),

R(A) = Q(A/C) y S(A) = R(A/D). Demuestre que para cada evento A :
S(A) = P (A/B ∩ C ∩ D).
Ejercicio 1.23.
Si P (A ∩ C/B) = 0, 1, P (A ∩ C c /B) = 0, 2, halle P (A/B).
Ejercicio 1.24.
Halle la probabilidad P (A ∪ B ∪ C ∪ D), si se conocen las probabilidades siguientes:
P (A) = 0, 1, P (B c /Ac ) = 0, 8, P (C/Ac ∩ B c ) = 0, 3 y P (D/Ac ∩ B c ∩ C c ) = 0, 4.
Ejercicio 1.25.
Al realizar tres proyectos, c1 , c2 y c3 , un economista estima las probabilidades siguientes:
i) 0,7, para el desarrollo exitoso de c1 ;
ii) 0,8, para el desarrollo exitoso de c2 , si es que c1 resultara exitoso;
iii) 0,6, para el desarrollo exitoso de c2 , si es que c1 no resultara exitoso;
iv) 0,9, para el desarrollo exitoso de c3 , si es que resultaran exitosos c1 y c2 ;
v) 0,75, para el desarrollo exitoso de c3 , si es que resultara exitoso c1 pero no c2 ;
vi) 0,65, para el desarrollo exitoso de c3 , si es que resultara exitoso c2 pero no c1 ;
vii) 0,5, para el desarrollo exitoso de c3 , si es que no resultaran exitosos c1 ni c2 .
El economista obtendrá un beneficio si, y solo si, por lo menos dos de los tres proyectos
resultaran exitosos. Cuantifique el riesgo que correrá al realizar los proyectos.
Ejercicio 1.26.
Se debe realizar una de dos inversiones. La probabilidad de que se realice la inversión I es

de 0,3. Si se realiza la inversión I, la probabilidad de ganar 5 000 soles es de 0,4. Si se realiza
la inversión II, la probabilidad de ganar 5 000 soles es de 0,1.
a) ¿Cuál es la probabilidad de que se realice la inversión I y se gane 5 000 soles?
b) ¿Cuál es la probabilidad de que se realice la inversión II y se gane 5 000 soles?
c) ¿Cuál es la probabilidad de que se gane 5 000 soles?
d) Si se ganó 5 000 soles, ¿cuál inversión es la más probable de haber sido realizada?
34
Ejercicio 1.27.
En el contexto del ejemplo 1.10, suponga un perı́odo de 4 años y que la probabilidad de

que la demanda sea muy baja se mantenga constante durante este perı́odo; demás, que
la probabilidad de que la fábrica se vuelva anticuada (por las nuevas normas de control
ambiental) al cabo del año i, dado que no se hizo antes, sea 1 − (0, 95)i , para i = 2, 3 y 4.
a) Determine la probabilidad de que, al cabo de este perı́odo, la fábrica no tenga que

cerrarse.
b) Generalice el resultado anterior para un perı́odo de n años. ¿Puede concluir lo que

ocurrirá en el largo plazo?
Ejercicio 1.28.
De los reportes sobre una operación financiera, se tiene la información siguiente:
– la probabilidad de ganar menos de 20 mil soles es de 0,35;
– el 40 % de las veces se gana entre 20 mil y 40 mil soles;
– cuando se gana menos de 20 mil soles, la probabilidad de no lograr la meta es de 0,2;
– si se gana entre 20 mil y 40 mil soles, la probabilidad de que se logre la meta es de 0,6;
– la probabilidad de ganar más de 40 mil soles pero no lograr la meta es de 0,01.
a) Halle la probabilidad de que se logre la meta.
b) Si se logró la meta, ¿en cuál de los tres rangos mencionados es más probable que se
encuentre la ganancia en la operación? Recuerde justificar.
Ejercicio 1.29.
Las inversiones financieras (de resultados inciertos) han sido clasificadas, según el riesgo de
perder, en tres tipos: de riesgo bajo, de riesgo normal y de riesgo alto. Según las estadı́sticas,
la probabilidad de realizar una inversión de riesgo bajo es de 0,5 y la de realizar una inversión
de riesgo normal es de 0,3. Si la inversión es de riesgo bajo, la probabilidad de perder es de
0,1. La probabilidad de perder en una inversión de riesgo normal es de 0,15. Solo en una de
cada cinco inversiones, de riesgo alto, no se pierde.
b) Determine la probabilidad de perder cuando la inversión es de riesgo alto.
c) Determine la probabilidad de perder en una inversión financiera.
d) Si se perdió en la inversión, halle la probabilidad de que haya sido de riesgo bajo.
35
Ejercicio 1.30.
En la producción de cierto bien se usa solo uno de tres procedimientos principales (1, 2 y
3) y opcionalmente, por lo menos, uno de dos procedimientos secundarios (4 y 5). Si se usa
el procedimiento 1, lo cual ocurre con probabilidad 0,6, cada uno de los procedimientos
secundarios tiene una probabilidad igual a 0,4 de ser usado; en este mismo caso, la
probabilidad de que se usen ambos procedimientos es de 0,2. Si se usa el procedimiento
2, pueden usarse los procedimientos secundarios (4 y 5) de manera independiente cada uno
y con probabilidades 0,2 y 0,3, respectivamente. El procedimiento 3 puede usarse con una
probabilidad de 0,25, en este caso, la probabilidad de usar al menos uno de los procesos
secundarios es 0,85.
a) ¿Cuál es la probabilidad de usar al menos uno de los procedimientos secundarios en la

producción del bien, si se sabe que se ha usado el procedimiento 1?
b) ¿Cuál es la probabilidad de usar al menos uno de los procedimientos secundarios en la

producción del bien y el procedimiento 1?
c) ¿Cuál es la probabilidad de usar al menos uno de los procedimientos secundarios?
Ejercicio 1.31.
En un supermercado cada cliente decide, independientemente de los demás, si compra un

artı́culo en promoción. Se sabe que el 75 % de los clientes suele comprar un artı́culo en
promoción. Suponga que 4 clientes (1, 2, 3 y 3) ingresan en el supermercado.
Use los eventos: Ai , el cliente i decida comprar un artı́culo en promoción, para i = 1, 2, 3
y 4, para expresar los eventos que se dan a continuación y calcular sus probabilidades
correspondientes:
a) Ninguno de los cuatro clientes decida comprar un artı́culo en promoción.
b) Solo uno de los cuatro clientes decida comprar un artı́culo en promoción.
c) Solo dos de los cuatro clientes decida comprar un artı́culo en promoción.
d) Solo tres de los cuatro clientes decida comprar un artı́culo en promoción.
e) Por lo menos uno, de los cuatro clientes, decida comprar un artı́culo en promoción.
Ejercicio 1.32.
Halle la probabilidad P (A ∪ B ∪ C), en cada uno de los casos siguientes:
a) Estos eventos son excluyentes y cada uno tiene una probabilidad de 0,1.
b) Estos eventos son independientes y cada uno tiene una probabilidad de 0,1.
c) P (Ac ) = 0, 3, P (B c /Ac ) = 0, 4 y P (C/Ac ∩ B c ) = 0, 8.
36
Ejercicio 1.33.
Al invertir en las operaciones financieras 1, 2, 3, 4 y 5 se puede ganar, independientemente

y con probabilidades iguales a 0,1; 0,2; 0,3; 0,4 y 0,5, respectivamente.
b) Halle la probabilidad de que ganar solamente en las operaciones 1 y 5.
c) Halle la probabilidad de ganar en, por lo menos, una de estas operaciones.
d) Para un agente financiero resulta rentable la inversión en las cinco operaciones si, y
solo si, gana en por lo menos una de las tres primeras y gana en las dos últimas. Halle
la probabilidad de que resulte rentable la inversión en las cinco operaciones.
Ejercicio 1.34.
En una planta de producción continua de un producto, en cualquier lapso de un minuto

puede producirse una imperfección con probabilidad 0,3. Si para perı́odos de observación,
que no se traslapan, las imperfecciones producidas son independientes, cuán probables serán
los eventos siguientes, referidos a cuatro minutos de observación que no se traslapan:
a) En los cuatro minutos de observación se produzca una imperfección.
b) En al menos uno de los cuatro minutos de observación se produzca una imperfección.
c) Solo en los dos primeros minutos de observación se produzca una imperfección.
d) Solo en dos de los minutos de observación se produzca una imperfección.
Ejercicio 1.35.
En el análisis costo-beneficio de la compra de cierta fábrica, se ha determinado que solo si

alguno de los dos eventos siguientes ocurre se producirı́a una pérdida: el evento E1 , cuya
probabilidad de ocurrir es de 0,1, y el evento E2 , cuya probabilidad es de 0,05. También se
sabe que la probabilidad de que ocurran ambos eventos es de 0,02.
a) ¿Puede deducirse que los eventos E1 y E2 sean independientes?
b) ¿Cuál es la probabilidad de que ocurra una pérdida a causa únicamente del evento E1 ?
c) ¿Cuál es la probabilidad de que ocurra una pérdida a causa únicamente del evento E2 ?
d) ¿Cuál es la probabilidad de que la compra ocasione una pérdida?
37
Ejercicio 1.36.
{ A1 , . . . , A5 } es una colección de eventos independientes, cada uno tiene una probabilidad

de 0,9. Determine la probabilidad de los eventos siguientes:

(A1 ∪ Ac2 ) ∩ A3 y A1 ∪ A2 ∩ (A3 ∪ A4 ) ∪ A5 .
Ejercicio 1.37.
En una obra hay seis operarios, cada uno puede cometer algún error con una probabilidad de
0,05 e independientemente de los demás operarios. Calcular sus respectivas probabilidades:
a) Ninguno de los seis operarios comete un error.
b) Por lo menos uno de los seis operarios comete un error.
c) Solo uno de los seis operarios comete un error.
d) Solo dos de los seis operarios cometen un error.
e) Solo tres de los seis operarios cometen un error.
f) Los seis operarios cometen un error.
g) A lo sumo dos de los operarios cometen un error.

Ejercicio 1.38.
Con fines de auditorı́a sobre 18 empresas aseguradoras que funcionan en nuestro medio (entre
las cuales tenemos a El Pacı́fico Peruano Suiza, Genarali Perú y La Positiva) se tomará una
muestra aleatoria de 5 de ellas. Determine la probabilidad de los eventos siguientes:
a) Que la muestra solo tenga una de las tres empresas antes citadas.
b) Que la muestra solo tenga dos de las tres empresas antes citadas.
c) La muestra incluya a las tres empresas mencionadas.
d) Que la muestra incluya al menos una de las tres empresas antes citadas.
Ejercicio 1.39.
En el contexto del ejemplo 1.17:
a) ¿Cuál es la probabilidad de que un presupuesto de 350 soles garantice la adquisición

de una unidad de cada bien?
b) Halle el presupuesto mı́nimo necesario para garantizar, con una probabilidad mayor o
igual que 0,95, la adquisición de una unidad de cada bien.
c) Cuantifique el grado de confianza de aseverar que con un presupuesto de 450 soles se

puedan adquirir dos unidades del bien A y una del bien B.
38
2. Variable aleatoria
2.1. Introducción
Si tenemos una variable, X, para la cual desconocemos cómo asume sus valores, podemos
cuantificar esta incertidumbre asignando probabilidades sobre sus valores, de este modo se
tendrá un mejor conocimiento del comportamiento de ella. Esta asignación debe ser tal que
nos permita obtener la probabilidad de que la variable X asuma valores sobre cualquier
subconjunto, A, de valores posibles, es decir, P (X ∈ A). También es posible obtener un
modelo o función que nos dé tal asignación de probabilidades que permita una descripción
de la variable. A continuación formalizamos un poco más lo anterior.
Definición 2.1. Sea Ω un espacio muestral asociado a un experimento aleatorio. Una
variable aleatoria es una función, X, que transforma cada resultado, ω, del espacio muestral,
en un número real X(ω).
X: Ω→R
ω 7→ X(ω)
Observación 2.1. ¿Qué interpretación podemos dar a esta definición formal? Para
averiguarlo pongámonos en el papel de una persona que recibe u observa los valores de la
variable, para ella estos valores tendrán una naturaleza aleatoria, puesto que estos se originan
al transformar los resultados de un experimento aleatorio en números. El experimento que
da la aleatoriedad resulta, para dicha persona, como una “caja negra”, pues dicha persona
solo recibe los valores y no observa el experimento mismo, por lo tanto, para tener una
descripción de ella tendrá que hacerlo de manera indirecta y no a través del experimento
aleatorio mismo.
Ejemplo 2.1. En el contexto del ejemplo 1.14 del capı́tulo anterior, en donde se tienen 20
empresas, de las cuales 5 son clasificadas del tipo ‘a’ y las otras 15 del tipo ‘b’, se toma una
muestra al azar de 4 de estas. Entonces, el espacio muestral asociado a este experimento es:
Ω = { A / A ⊂ {1, . . . , 20}, #(A) = 4 }
con la interpretación que las empresas están identificadas por los números naturales del 1 al
20 y los primeros 5 identifican a las del tipo a.
39
A manera de ejemplo, consideremos la variable X definida como el número de empresas del

tipo a, que resultarán en la muestra por seleccionar. X es una variable, puede asumir como
valores 0 ó 1 ó 2 ó 3 ó 4, es decir, el rango de X es RX = {0, 1, 2, 3, 4}. Además, X asume
sus valores de manera aleatoria.
Veamos cómo se generan los valores de X a partir del experimento aleatorio que la origina,
es decir, entremos a la caja negra, pues en este caso es muy simple hacerlo.
Describamos, por ejemplo, cómo se genera el valor 4 de X, es decir, el evento X = 4 (las

cuatro empresas seleccionadas son del tipo a) ó, dicho de otro modo, cuáles son los resultados
de este experimento que generan este valor o, cuál es el evento asociado a este valor:
{X = 4} = {{1, 2, 3, 4}, {1, 2, 3, 5}, {1, 2, 4, 5}, {1, 3, 4, 5}, {2, 3, 4, 5}}.
Note que todo resultado, ω, de este evento tiene la propiedad de ser transformado en el
número 4, es decir, X(ω) = 4, ya que han sido seleccionadas cuatro de las empresas del tipo
a. Son 54 = 5 resultados que se convierten en el valor 4.

A continuación hagamos lo mismo para el resto de los valores posibles de esta variable:
 

 {1, 2, 3, 6}, {1, 2, 3, 7}, . . . {1, 2, 3, 20},  

 {1, 2, 4, 6}, 
{1, 2, 4, 7}, . . . {1, 2, 4, 20}, 
{X = 3} =


 ... ... ... ... 


{3, 4, 5, 6}, {3, 4, 5, 7}, . . . {3, 4, 5, 20}
 
En este caso todo resultado, ω, de este evento tiene la propiedad de ser transformado en el
número 3, es decir, X(ω) = 3, ya que han sido seleccionadas tres de las empresas del tipo a.
Son 53 × 15

1
= 10x15 = 150 resultados que se convierten en el valor 3.
 

 {1, 2, 6, 7}, {1, 2, 6, 8}, . . . {1, 2, 19, 20}, 


 {1, 3, 6, 7}, {1, 3, 6, 8}, 
. . . {1, 3, 19, 20}, 
{X = 2} =


 ... ... . . . ... 


{4, 5, 6, 7}, {4, 5, 6, 8}, {4, 5, 19, 20}
 
. . .
Aquı́, todo resultado, ω, de este evento tiene la propiedad de ser transformado en el número
2, es decir, X(ω) = 2, pues solo han sido seleccionadas dos de las empresas del tipo a. Son
5 15

2
× 2
= 10 × 15 = 150 resultados que se convierten en el valor 2.
 

 {1, 2, 3, 6}, {1, 2, 3, 7}, . . . {1, 2, 3, 20}, 


 {1, 2, 4, 6}, {1, 2, 4, 7}, 
. . . {1, 2, 4, 20}, 
{X = 1} =


 ... ... . . . ... 


{3, 4, 5, 6}, {3, 4, 5, 7}, {3, 4, 5, 20}
 
. . .
Note que todo resultado, ω, de este evento tiene la propiedad de ser transformado en el
número 1, es decir, X(ω) = 1, pues solo ha sido seleccionada una de las empresas del tipo
a. Son 51 × 15

3
= 5 × 455 = 2 275 resultados que se convierten en el valor 1.
40
Profesor José Flores Delgado Variable aleatoria 41
Finalmente:
{X = 0} = { {6, 7, 8, 9}, {6, 7, 8, 10}, . . . . , {6, 7, 8, 20}, . . . . , {17, 18, 19, 20} }.
Todo resultado, ω, de este evento tiene la propiedad de ser transformado en el número 0,
es decir, X(ω) = 0, ya que no han sido seleccionadas empresas del tipo a. Son 15

4
= 1 365
resultados que se convierten en el valor 0.
Definición 2.2. El rango de una variable aleatoria X, es el conjunto de valores posibles que
puede asumir la variable. Se lo denota por RX .
Ejemplo 2.2. En el ejemplo anterior, el rango de la variable aleatoria X es RX =
{0, 1, 2, 3, 4}.
Definición 2.3. Se dice que una variable aleatoria es discreta, si su rango es un conjunto
discreto; y continua, si su rango es un conjunto continuo.
Ejemplo 2.3. La variable aleatoria X, del ejemplo 1, es discreta.
Ejemplo 2.4. En el ejemplo 1.17 del tema anterior, en donde el precio del bien A varı́a
aleatoria y uniformemente entre 100 y 200 soles, y el precio del bien B varı́a entre 200 y 300
soles, el espacio muestral es: Ω = { (x; y) ∈ R2 / 100 ≤ x ≤ 200, 200 ≤ y ≤ 300} Con la
interpretación siguiente: si (x; y) es un resultado de Ω, quiere decir que el precio del bien A
es x soles y el del bien B es y soles.
Consideremos ahora la variable T definida como el precio total para adquirir una unidad de
cada uno de estos productos. Entonces, cada resultado posible, ω = (x, y), es transformado
por esta variable, T , en el número T ((x, y)) = x + y. Ası́, esta variable solo puede asumir
valores entre 300 y 500, es decir, RT = [300, 500]. Por lo tanto, T es una variable aleatoria
continua. Esto último se ilustra en la figura siguiente:
Observación 2.2. Los dos ejemplos anteriores ilustran de manera sencilla el concepto de
variable aleatoria. En la aplicación práctica encontramos variables que se generan de modo
complejo y en estas situaciones usamos un modelo probabilı́stico para describirlas, esta forma
de hacerlo se describirá a continuación.
41
2.2. Modelo probabilı́stico de una variable aleatoria
Definición 2.4. Sea Ω un espacio muestral y P una asignación de probabilidades definida

sobre sus eventos. Entonces, el ‘modelo’ o distribución de probabilidades de una variable
aleatoria, X, definida en Ω, es una función f : RX → R, con la propiedad que, para cualquier
subconjunto A, de valores posibles para la variable, es decir, A ⊂ RX , se tiene que:
 X

 f (x), si X es discreta;

 x∈A
P (X ∈ A) = Z



 f (x)dx, si X es continua.
A
Es decir, la probabilidad de que X tome valores en A se determina sumando o integrando,

según sea X discreta o continua, la función f en A.
Observación 2.3. En el contexto de la inferencia estadı́stica clásica, la variable aleatoria

modela a la variable medida en toda una población y su distribución de probabilidades
describe la frecuencia relativa de todos sus valores en dicha población; mientras que en la
estadı́stica descriptiva, se dispone tan solo de una muestra de la variable de la población, por
lo tanto, la distribución de frecuencias solo describe la frecuencia relativa de los valores en la
muestra; ası́, esta es solo una aproximación o estimación de la distribución de la variable de
N
la población. Más formalmente, si para cada n ∈ + , X1 , . . . , Xn es una muestra aleatoria
R
n
de X, A ⊂ y p̄ = n1
P
1{Xj ∈A} = (la proporción de valores de la muestra que están en A);
j=1
entonces, un resultado conocido como la Ley Fuerte de los Grandes Números, garantiza que
lı́m p̄ = P (X ∈ A) (con probabilidad 1).
n→∞
Nótese también que si en la muestra se consideran solamente los valores no repetidos, digamos
P
x1 , . . . xk , y f r(x1 ), . . . , f r(xk ) sus respectivas frecuencias relativas; entonces, p̄ = f r(x).
x∈A
Ası́, en la muestra se usan las frecuencias relativas obtenidas, f r(x), pero para la población
estas frecuencias relativas son reemplazadas por los valores proporcionados por el modelo
probabilı́stico, f (x).
A continuación ilustramos gráficamente el caso continuo:
42
Ejemplo 2.5. Veamos cómo es la distribución de probabilidades en el rango de la variable

del ejemplo 2.1. Para esto, consideremos x cualquier valor posible para X y apliquemos la
definición dada al conjunto A = {x}, entonces, resulta que:
X
P (X = x) = P (X ∈ {x}) = f (y) = f (x),
y∈{x}
es decir, f (x) = P (X = x).
En la tabla siguiente se muestran los valores de f (x) = P (X = x), para cada valor posible
de X :
x 0 1 2 3 4
15 5 15 5 15 5 15 5

4 1
f (x) 20
20
3 2
20
2 3
20
1 4
20

4 4 4 4 4
En este caso tenemos la fórmula explı́cita general:

5
15
x 4−x
f (X = x) = P (X = x) = 20
, para cualquier x ∈ RX = { 0, 1, 2, 3, 4 }.
4
Y de aquı́, si aplicamos la definición para cualquier subconjunto, A, de valores posibles para

la variable, es decir, A ⊂ RX , se tiene que:
X x5 4−x
15
X
P (X ∈ A) = P (X = x) = 20

x∈A x∈A 4
Veamos cómo obtener las probabilidades de algunos eventos relacionados con esta variable
X, a partir de su modelo probabilı́stico f .
i) La probabilidad de que sean seleccionadas más de 2 empresas del tipo a es

4 5
15 5
15
X 3 4−3 4 4−4
P (X > 2) = f (x) = f (3) + f (4) = 20
+ 20
.
x=3 4 4
ii) La probabilidad de seleccionar a lo más una empresa del tipo a es

5
15 5
15
0 4−0 1 4−1
P (X ≤ 1) = f (0) + f (1) = 20
+ 20

4 4
(53)(4−3
15
)
iii) La probabilidad de seleccionar tres empresas del tipo a es: P (X = 3) = f (3) = 20
(4)
Observación 2.4. El modelo probabilı́stico, f , de una variable aleatoria X, puede extenderse

hacia todo número real, definiéndola como cero en los casos fuera del rango. Además, en el
caso discreto a esta función se le llama también función de probabilidad; y en el caso continuo
función de densidad.
43
Ejemplo 2.6. El ingreso en soles, en un sector, se considera una variable aleatoria continua,
X, cuyo modelo probabilı́stico está dado por:

 0, 0008x/1500,
 si 0 ≤ x < 1500
f (x) = 0, 002 − 0, 0008x/1000, si 1500 ≤ x ≤ 2500

0, en otro caso

A modo de ejemplo, obtengamos la probabilidad de que un trabajador gane a lo sumo 1000

soles, es decir, P (X ≤ 1000). Como X es continua sigue, de la definición de f, que
Z 1000 Z 1000
0, 0008 0, 0008 x2 .x=1000
P (X ≤ 1000) = f (x) dx = x dx = = 0, 2667
0 0 1500 1500 2 x=0
Ası́, el 26, 67 % de los trabajadores de este sector gana a lo más 1000 soles.
También calculemos la probabilidad de que un trabajador gane 2000 soles o menos, es decir,
la probabilidad P (X ≤ 2000). En este conviene usar el complemento:
Z 2500
P (X ≤ 2000) = 1 − P (X > 2000) = 1 − (0, 002 − 0, 0008x/1000) dx = 1 − 0, 1 = 0, 9.
2000
Ası́, el 90 % de los trabajadores de este sector gana, a lo más, 2000 soles.
2.2.1. Propiedades del modelo probabilı́stico
El modelo o distribución de probabilidades, f, de una variable aleatoria X, satisface las

propiedades siguientes:
1. Si X es discreta, para cualquier x ∈ RX se cumple que: f (x) = P (X = x).
2. Si X es continua, para cualquier valor x se tiene que: P (X = x) = 0.
3. Para cualquier x ∈ RX se cumple que f (x) ≥ 0.
44
P
4. Si X es discreta, se tiene que: f (x) = 1.
x∈RX
R
5. Si X es continua, se tiene que: f (x)dx = 1.
RX
6. Si X es continua, se cumple que f es el modelo probabilı́stico de X, si y solo si:

Zb
para cualesquiera a < b : P (a ≤ X ≤ b) = f (x)dx.
a
7. Si X es continua, para cualesquiera a < b, se tiene que:
P (a ≤ X ≤ b) = P (a ≤ X < b) = P (a < X ≤ b) = P (a < X < b)

= P (X ≤ b) − P (X ≤ a).
Observación 2.5. En las aplicaciones, para determinar el posible modelo probabilı́stico de

una variable aleatoria, se debe buscar entre las funciones que satisfagan las propiedades 3 y
4, en el caso discreto, y 3 y 5, en el caso continuo.
2.3. El valor esperado
Definición 2.5. La esperanza o media de una variable aleatoria, X, cuyo modelo

probabilı́stico es fX , se denota por E(X) o µX , y se le define, según sea la variable discreta
o continua, mediante:  P

 xf (x); si X es discreta.
 x∈RX X

µX = E(X) = Z


 xf (x)dx; si X es continua.
 X
RX
P
Observación 2.6. Resulta, entonces, que en el caso discreto: E(X) = xP (X = x).
x∈RX
Ası́, la esperanza o media es el promedio de los valores posibles de la variable ponderados
con sus respectivas probabilidades. Para extender esta definición al caso continuo usamos la
integral, en este caso dicha integral tiene una interpretación fı́sica: representa la abscisa del
centro de gravedad de un cuerpo cuya densidad es descrita por f . Por esta razón, cuando la
variable es continua a la función f se le llama función de densidad.
Ejemplo 2.7. Para nuestro ejemplo 2.1 (con los datos del ejemplo 2.5) como X es discreta:
P 4
P
E(X) = xf (x) = xf (x)
x∈RX x=0
= 0f (0) + 1f (1) + 2f (2) + 3f (3) + 4f (4)
(5)(15) (5)(15) (5)(15) (5)(15)
= 0 + 1 1 20 3 + 2 2 20 2 + 3 3 20 1 + 4 4 20 0
(4) (4) (4) (4)
=1
Entonces, cuando se extraen muestras de 4 empresas, se encontrará en promedio una empresa

del tipo a en cada muestra.
45
Observación 2.7. Cuando se registra u observa una gran cantidad de valores de una variable
aleatoria, la media de todos estos es aproximadamente igual a la esperanza de la variable.
N
Más formalmente, si para cada n ∈ + , X1 , . . . , Xn es una muestra aleatoria de X y
n
X̄ = n1
P
Xj (la media de la muestra); entonces, un resultado conocido por la Ley Fuerte de
j=1
los Grandes Números, establece que, con probabilidad 1, lı́m X̄ = E(X). De allı́ el nombre
n→∞
e importancia del valor esperado o media, pues, con este valor podemos anticipar lo que
ocurrirá en promedio.
Ejemplo 2.8. En el contexto del Ejemplo 2.6, la media o valor esperado de los ingresos es:
Z Z 1500 Z 2500
xf (x) dx = xf (x) dx + xf (x) dx
R 0 1500
X
Z 1500 Z 2500
= x(0, 0008x/1500)dx + x(0, 002 − 0,0008x/1000)dx
0 1500
= 600 + 733, 33 = 1333, 33
Es decir, el ingreso esperado o medio, en este sector, es de 1 333,33 soles.
2.3.1. Valor esperado de una función de una variable aleatoria
Sea X una variable aleatoria, con modelo probabilı́stico f (x), y g : RX → R una función.
X
Entonces, la esperanza de la variable aleatoria g(X) puede obtenerse usando la distribución
de probabilidades de X, según sea esta discreta o continua, como se indica a continuación:
 P

 g(x)f (x); si X es discreta.

 x∈RX X


E(g(X)) = Z



 g(x)f (x)dx; si X es continua.

 X
RX
Observación 2.8. Esta propiedad es muy importante: desde el punto de vista práctico, pues,
al establecer que con el modelo probabilı́stico de una variable aleatoria se puede determinar
el valor esperado de cualquier función de esta, entonces no es necesario determinar el modelo
para la variable que es función de otra cuyo modelo es conocido; y desde el punto de vista
teórico, pues, permite deducir otras propiedades del valor esperado relacionadas con funciones
de una variable aleatoria, como las que se darán más adelante.
P
Observe también que, en el caso discreto: E(g(X)) = g(x)P (X = x).
x∈RX
Ejemplo 2.9. La demanda diaria de un artı́culo se considera una variable aleatoria discreta,
X, con modelo probabilı́stico:
2x
f (x) = , x = 1, 2, 3, 4.
6(x!)
46
El fabricante, de estos artı́culos, decide producir 2 unidades diarias, durante un perı́odo

de muchos dı́as. Cada unidad vendida, del artı́culo, genera una utilidad de 5 soles; pero
cualquier unidad que no se vende, al cabo del dı́a, se desecha y genera una pérdida de 3
soles. El fabricante desea saber cuál será la utilidad promedio, durante este perı́odo.
Como la utilidad diaria es una función g(X), usamos la propiedad anterior para averiguarlo.
Los valores de g y f se muestran en la tabla siguiente:
x 1 2 3 4
g(x) 5(1) − 3(1) = 2 5(2) − 3(0) = 10 5(2) − 3(0) = 10 5(2) − 3(0) = 10
21 22 23 24
f (x) 6(1!)
= 31 6(2!)
= 13 6(3!)
= 29 6(4!)
= 19
Ası́ la utilidad esperada está dada por:
X 4
X
g(x)f (x) = 2 × 31 + 10 × 13 + 10 × 29 + 10 × 1 22

E g(X) = g(x)f (x) = 9
= 3
.
x∈RX x=1
Es decir, la utilidad diaria promedio, en este perı́odo, será de 7,33 soles.
Observación 2.9. Un error frecuente es pensar que E(g(X)) = g(E(X)), es decir, que para
obtener el valor esperado de una función de X, baste evaluar g en E(X). Una excepción
ocurre cuando la función g es lineal de la forma a + bX, como se verá más adelante.
Ejemplo 2.10. En el contexto del ejemplo anterior determinemos el valor esperado de X y

verifiquemos que E(g(X)) no es igual a g(E(X)).
X 4
X
1 1 2 1 19
Ası́: E(X) = xf (x) = xf (x) = 1 × 3
+2× 3
+3× 9
+4× 9
= 9
. Es decir, en
RX x=1
promedio, la demanda diaria es de 2,11 unidades. Además, en la tabla del ejemplo anterior
se puede apreciar que E(g(X)) 6= g(E(X)).
2.3.2. Otras propiedades del valor esperado
1. El valor esperado de una constante es dicha constante.
2. Para cualesquiera que sean las constantes a y b : E(a + bX) = a + bE(X).
3. Sean g1 , . . . , gn , funciones, y a0 , a1 , . . . , an , constantes; entonces,

E a0 + a1 g1 (X) + . . . + an gn (X) = a0 + a1 E(g1 (X)) + . . . + an E(gn (X)).
Ejemplo 2.11. En el contexto del ejemplo 2.9, suponga que un comerciante compra cada
unidad demandada a 3 soles, y vende cada una a 6 soles; además la venta le produce un
costo fijo de 2 soles. Ası́, la utilidad del comerciante es Y = 6X − 3X − 2 = 3X − 2. Por lo
tanto, por la propiedad anterior y el resultado del ejemplo anterior, la utilidad esperada del
comerciante es E(Y ) = E(3X − 2) = 3E(X) − 2 = 3( 19 9
) − 2 = 13
3
.
47
N
Ejemplo 2.12. Sea X una variable aleatoria tal que E(X m ) = m! , ∀m ∈ + ; entonces,
E(1 + 2X − 3X 2 + X 3 ) = 1 + 2E(X) − 3E(X 2 ) + E(X 3 ) = 1 + 2(1!) − 3(2!) + 3! = 3.
Ejemplo 2.13. (Teorı́a de decisiones) Un comerciante debe decidir por cuál de tres
proveedores comprar cierto producto. La demanda puede ser excelente, con probabilidad
0, 3, adecuada, con probabilidad 0, 5 ó mala con probabilidad 0, 2. Y las utilidades semanales
(en soles) correspondientes dependen del proveedor y del estado de la demanda de los
consumidores, como se muestra a continuación:
Estado de la demanda
Excelente Adecuada Mala
Proveedor
1 4000 1900 1800
2 2800 2850 1900
3 3100 2900 1200
La variable aleatoria que nos interesa está asociada a los valores del estado de la demanda,
entonces, definámosla de la manera siguiente:

 1, si el estado de la demanda es excelente.

X= 2, si el estado de la demanda es adecuado.

3, si el estado de la demanda es malo.

Estos valores son arbitrarios, solo sirven para diferenciar los posibles estados de la demanda.
a) Determinemos la mejor decisión y la utilidad correspondiente, para cada valor posible

de la demanda:
Estado de la demanda X = x : 1 = Excelente 2 = Adecuada 3 = Mala
Decisión: Proveedor 1 Proveedor 3 Proveedor 2
Utilidad= g(x) : 4000 2900 1900
Probabilidad P (X = x) = f (x) : 0, 3 0, 5 0, 2
b) Determinemos cuál serı́a la utilidad promedio del comerciante, si este pudiera enterarse
del estado de la demanda y obviamente tomara la mejor decisión:
Como la utilidad es una función de X, el estado de la demanda, podemos usar la
propiedad anterior con g la función cuyos valores correspondientes están en la tabla
anterior. Ası́:
P
E(U ) = g(x)fX (x) = 4000 × 0, 3 + 2900 × 0, 5 + 1900 × 0, 2 = S/. 3 030.
x∈RX
c) El comerciante enfrentará esta situación durante muchas semanas, por eso, desde un
principio quiere optar por uno de los proveedores. ¿Cuál es la mejor decisión?
Por lo observado para el valor esperado, bastará comparar las utilidades esperadas,
E(Ui ), que corresponderı́an a cada decisión posible (proveedor i elegido). Ası́,
48
procediendo de manera análoga a lo efectuado en la parte anterior, nuevamente

podemos hacer una tabla que incluya los valores de estas utilidades:
Estado de la demanda X = x : 1 = Excelente 2 = Adecuada 3 = Mala

U1 (x) : 4000 1900 1800
U2 (x) : 2800 2850 1900
U3 (x) : 3100 2900 1200
Probabilidad P (X = x) = f (x) : 0, 3 0, 5 0, 2
Resultará:
X
E(U1 ) = U1 (x)fX (x) = 4000 × 0, 3 + 1900 × 0, 5 + 1800 × 0, 2 = S/. 2 550
x∈RX
X
E(U2 ) = U2 (x)fX (x) = 2800 × 0, 3 + 2850 × 0, 5 + 1900 × 0, 2 = S/. 2 645
x∈RX
X
E(U3 ) = U3 (x)fX (x) = 3100 × 0, 3 + 2900 × 0, 5 + 1200 × 0, 2 = S/. 2 620
x∈RX
Por lo tanto, la mejor decisión será optar por el segundo proveedor, ya que con este el
comerciante tendrá una mayor utilidad promedio, en este caso de S/. 2 645.
d) Supongamos que el comerciante podrı́a averiguar el estado de la demanda pagando un

precio. En promedio, ¿cuál será el valor máximo que podrı́a pagar?
En la teorı́a de decisiones, este valor se llama el “valor esperado de la información
perfecta”. Lo obtenemos comparando las utilidades esperadas antes obtenidas, bajo
el conocimiento perfecto del estado de la demanda y bajo incertidumbre. Ası́, el
comerciante deberá pagar, en promedio, S/. 3 030 − S/. 2 645 = S/. 385 como máximo.
2.4. Varianza y desviación estándar
Definición 2.6. La varianza de una variable aleatoria X cuya media o esperanza es µX , se

define como: E(X − µX )2 y se la denota por V (X) o σX2 . Ası́,
σX2 = V (X) = E(X − µX )2 = E(X − E(X))2
A la raı́z cuadrada de la varianza, σX , se le llama desviación estándar.
Observación 2.10. La desviación estándar mide la variabilidad promedio respecto a la

media. Por medio de la propiedad básica del valor esperado, puede verificarse que:
σX2 = E(X 2 ) − µ2X
Ejemplo 2.14. Calculemos la desviación estándar de la variable X del ejemplo 2.1 (con los
datos de los ejemplos 2.5 y 2.7).
49
Primero calculamos E(X 2 ). Para esto basta usar la propiedad que permite obtener el valor
esperado de una función de una variable aleatoria discreta, ası́:
X 4
X
2 2
E(X ) = x f (x) = x2 f (x)
x∈RX x=0
= 0 f (0) + 1 f (1) + 22 f (2) + 32 f (3) + 42 f (4)

2 2
5 15 5 15 5 15 5 15

1
= 0+1 20
3 + 4 2
20
2 + 9 3
20
1 + 16 4
20
0
4 4 4 4
= 3, 1053.
Luego σX2 = E(X 2 ) − µ2X = 3, 1053 − 12 = 2, 1053; y σX = 1,4509. Entonces, en general, los
valores de X no varı́an demasiado entorno de su media.
Ejemplo 2.15. Calculemos ahora la desviación estándar de la variable X del ejemplo 6.
Nuevamente calculamos primero E(X 2 ), pero ahora usamos la propiedad que permite obtener
el valor esperado de una función de una variable aleatoria continua:
Z Z 1500 Z 2500
2 2
2
E(X ) = x f (x) dx = x f (x) dx + x2 f (x) dx
0 X 1500 X
R
X
Z 1500 Z 2500
2 0, 0008x 0,0008x
= x( )dx + x2 (0, 002 − )dx
0 1500 1500 1000
= 675 000 + 1 366 666, 7 = 2 041 666, 7.
Ası́, σX2 = E(X 2 ) − µ2X = 3 408 333, 4 − (1333, 3333)2 = 26 3889, 0201 y σX = 513, 70.
En resumen, el ingreso medio del sector es de 1 333,33 soles y la desviación promedio de los
ingresos entorno de esta media es de 513,7 soles.
2.4.1. Propiedades de la varianza
La varianza tiene, entre otras, las propiedades siguientes:
1. Si a y b son constantes, entonces V (a + bX) = b2 V (X).
2. Desigualdad de Chebyshev: Si X es una variable aleatoria, entonces, para cualquier

k > 0 se cumple que:
1
P (| X − µX | ≤ kσX ) ≥ 1 − 2
k
o, equivalentemente:
1
P (| X − µX | > kσX ) < 2
k
50
Observación 2.11. De la desigualdad anterior se deduce que la proporción de veces con

la cual la variable asume valores que disten de la media, en más de tres veces la desviación
estándar, es menor que un noveno. Por tal razón, a los valores que distan de la media, en más
de tres veces la desviación estándar, se les puede llamar valores poco frecuentes o inusuales.
2.5. Función de distribución acumulada
Definición 2.7. Si X es una variable aleatoria, discreta o continua, se define su función de

distribución acumulada, FX , mediante:
FX (x) = P (X ≤ x), para cada x ∈ R.
Luego, recordando cómo se obtienen las probabilidades a través de la ley o distribución de

probabilidades de X, f (x), se tiene que:
X
 P

 f (y); si X es discreta.
 y≤x X


FX (x) = Z x
f (y) dy; si X es continua.




 X
Ejemplo 2.16. En el contexto del ejemplo 2.6, en donde el ingreso en soles, en un sector,
se considera una variable aleatoria continua, X, con densidad:

 0,0008x/1500,
 si 0 ≤ x < 1500.
f (x) = 0,002 − 0,0008x/1000, si 1500 ≤ x ≤ 2500.

0, si x ∈/ [ 0; 2500 ].

Rx
Obtengamos la distribución acumulada F (x) = P (X ≤ x) = f (y) dy :
x
Z Z x
8 −7 2
Si 0 < x ≤ 1500 : F (x) = P (X ≤ x) = fX (y) dy = (0, 0008y/1500)dy = x10 x .
0 3
0
Si 1500 ≤ x ≤ 2500 :
Z2500 Z 2500
F (x) = P (X ≤ x) = 1 − P (X > x) = 1 − fX (y) dy= 1 − (0, 002 − 0, 0008y/1000) dy
x
x
= 0,002x − 4x10−7 x2 − 1,5.
51


 0, si x < 0.
 8 x10−7 x2 , si 0 ≤ x < 1500.

3
⇒ F (x) =
 0,002x − 4x10−7 x2 − 1,5, si 1500 ≤ x ≤ 2500.



1, si x > 2500.
Ahora veamos dos casos que ilustran cómo la distribución acumulada facilita el cálculo de
las probabilidades:
a) La probabilidad de que un trabajador gane entre 1000 y 2000 es:
P (1000 ≤ X ≤ 2000) = F (2000) − F (1000)

= 0,002(2000) − 4x10−7 (2000)2 − 1,5 − 38 x10−7 (1000)2
= 0,6333
Ası́, el 63, 33 % de los trabajadores de este sector gana entre entre 1000 y 2000 soles.
b) La probabilidad de que un trabajador gane más que el ingreso promedio (1333,33) es:
P (X > 1333, 33) = 1 − F (1333, 33) = 1 − 83 x10−7 x2 = 0, 4741.
Z 2500 Z 1500 Z 2500
0,0008x 0,002−0,0008x
Con la densidad: P (X > 1333, 33) = f (x)dx = 1500
dx + 100
dx;
1333,33 1333,33 1500
con el complemento y la densidad: P (X > 1333, 33) = 1 − P (X ≤ 1333, 33) =
Z 1333,33
0,0008x
1− 1500
dx = 1 − 0, 5259 = 0, 4741.
0
2.6. Propiedades de la distribución acumulada
La función de distribución acumulada tiene las propiedades siguientes:
1. La distribución acumulada es siempre creciente. Y si la variable es continua y su rango

es un intervalo, entonces es estrictamente creciente sobre este intervalo.
2. F es siempre continua por la derecha, es decir, lı́m F (y) = F (x).

y → x+
Además, el conjunto de puntos en los que presenta discontinuidad es enumerable y
estos solo son aquellos que tienen probabilidad positiva, pues, se cumple que para cada
52
x:
lı́m F (y) = F (x) − P (X = x)
y→x−
3. P (a ≤ X ≤ b) = F (b) − F (a) + P (X = a).
En particular, si X es continua: P (a ≤ x ≤ b) = F (b) − F (a).
4. Si X es continua con densidad continua: F 0 (x) = f (x).
5. Si X es discreta y rango, digamos, RX = { a1 , a2 , . . . }, con a1 < a2 < . . . , entonces,

para i > 1 : f (ai ) = P (X = ai ) = F (ai ) − F (ai−1 ).
Observación 2.12. Las dos últimas propiedades establecen que la distribución acumulada
identifica al modelo o distribución de probabilidades.
2.7. Técnica del cambio de variable
Sean X e Y dos variables aleatorias, con Y una función de X. En algunos casos se puede
deducir el modelo probabilı́stico de Y a partir del modelo de X, una técnica para hacerlo se
detalla a continuación:
a) Si Y es discreta f (y) = P (Y = y). Para hallar esta probabilidad se expresa el evento

Y
Y = y en términos de X; hecho esto se obtiene la probabilidad con el modelo de X.
b) Cuando Y es continua f (y) = P (Y = y) = 0; ası́, lo explicado en la parte anterior

Y
no es útil. En este caso primero se determina la función de distribución acumulada de
Y, a partir de F (y) = P (Y ≤ y). Es decir, se expresa el evento Y ≤ y en términos
Y
de X, hecho esto se expresa la probabilidad P (Y ≤ y) en términos de la distribución
acumulada de X. Obtenida FY , se deriva para obtener f (y) (esto último por una
Y
propiedad dada para los modelos de las variables continuas).
Ejemplo 2.17. Si la función de distribución (o modelo probabilı́stico) de la variable aleatoria

positiva X está dada por fX (x) = 2 e−2x , x > 0, determinemos la función de densidad de
la variable Y = 4X. Para esto no basta reemplazar x = y/4 en fX (x), como podrı́amos
pensar, pues, el modelo probabilı́stico no es solo una función matemática, además de esto
determina probabilidades y otras cantidades relacionadas con la variable aleatoria (recuerde
la definición).
Como Y es continua, primero debemos determinar FY a partir de FX :
FY (y) = P (Y ≤ y) = P (4X ≤ y) = P (X ≤ y/4) = FX (y/4).
Es decir, FY (y) = FX (y/4), luego se obtiene la derivada respecto de y :
53
fY (y) = Dy FY (y) = [ FX0 (y/4) ] Dy (y/4) = [ fX (y/4) ] 41 = 2 e−2y/4 1

4
= 12 e−y/2 , y > 0.
Ejemplo 2.18. Sea X una variable aleatoria positiva, cuya función de probabilidad (o
modelo probabilı́stico) está dada por fX (x) = x/210, para x = 1, . . . , 20. Sigamos la técnica
antes descrita, para determinar la función de la variable Y = 2X.
Como Y es discreta: fY (y) = P (Y = y).
Además, P (Y = y) = P (2X = y) = P (X = y/2) = fX (y/2). Ası́, fY (y) = fX (y/2) = y/420,

para y = 2, 4, . . . , 40.
54
Ejercicio 2.1.
El precio de una unidad del bien A varı́a en el conjunto { 1; 2; 3; 4 }, lo mismo ocurre con
el precio del bien B, pero además el de B nunca es mayor que el de A.
a) Interesa observar simultáneamente los precios unitarios de cada bien. Determine (por
extensión) un conjunto que describa el espacio muestral asociado.
b) Considere el espacio muestral anterior y la variable aleatoria X definida como el gasto

total al comprar una unidad de cada bien.
b1 ) Determine el evento (del espacio muestral) asociado con X = 4.

b2 ) Determine el evento asociado con X = 3.
b3 ) Determine el evento asociado con X = 8.
b4 ) Halle el rango de X.
b5 ) Si se considera la Probabilidad Clásica, halle P (X = 4).
b6 ) Si se considera como modelo probabilı́stico de X a la función definida por
f (x) = x2 /203, halle P (X ≥ 3).
Ejercicio 2.2.
Cierto productor fabrica un bien cuya demanda semanal, en toneladas, es una variable
aleatoria X, con rango entre 0 y 10 toneladas, y función de densidad f (x) = x/50, x ∈ RX .
Cada tonelada tiene un costo de producción de diez mil soles y un precio de venta de 25 mil
soles. Suponga que en cierta semana el productor decide fabricar cinco toneladas.
a) ¿Cuál es la probabilidad de satisfacer la demanda?
b) ¿Cuál es la probabilidad de que se satisfaga la demanda y al mismo tiempo el productor

gane más de 30 mil soles?
c) ¿Cuál es la probabilidad de que la demanda no sea satisfecha?
d) ¿Cuál es la probabilidad de que la demanda no sea satisfecha y al mismo tiempo el

productor gane más de 30 mil soles?
e) ¿Cuál es la probabilidad de que el productor gane más de 30 mil soles?
f) Determine la producción semanal que maximiza la utilidad esperada.

Ejercicio 2.3.
Sea X una variable aleatoria con rango { 1, . . . , 20 }. Determine el modelo probabilı́stico si

este es constante en el rango de la variable.
55
Ejercicio 2.4.
El número de automóviles que contaminan el ambiente, cada minuto, es una variable

−2 x
aleatoria, X, cuyo modelo probabilı́stico está dado por: f (x) = e x!2 , x = 0, 1, . . .
a) Determine la probabilidad de que en un minuto no circulen automóviles que contaminen

el ambiente.
b) ¿Cuál es la probabilidad de que en un minuto circulen más de un automóvil

contaminando el ambiente?
Ejercicio 2.5.
Considere los 55 datos siguientes:
1,
2, 2,
3, 3,
4, 4, 4, 4, 4
5, 5, 5, 5, 5,
6, 6, 6, 6, 6,
7, 7, 7, 7, 7, 7, 7, 7
8, 8, 8, 8, 8, 8, 8, 8,
9, 9, 9, 9, 9, 9, 9, 9, 9, 9
10, 10, 10, 10, 10, 10, 10, 10, 10,
a) Encuentre la proporción de veces que ocurre cada uno de los valores anteriores y la
media de estos datos e indı́quelas en la tabla siguiente:
x 1 2 3 4 5 6 7 8 9 10
p̄
b) Asuma que los valores dados correspondan a una muestra aleatoria de la variable
aleatoria X cuyo modelo probabilı́stico está dado por f (x) = x/55. Use este modelo
para completar la tabla siguiente:
x 1 2 3 4 5 6 7 8 9 10
P (X = x)
c) Diga si los resultados obtenidos en las partes anteriores están en armonı́a. Emplee la
Ley Fuerte de los Grandes Números.
d) Obtenga X̄ (la media de la muestra de estos 55 datos) y E(X) (el valor esperado de
X); luego, diga si los resultados obtenidos están en armonı́a con la Ley Fuerte de los
Grandes Números.
56
Ejercicio 2.6.
Sea X una variable aleatoria continua que puede tomar cualquier valor y modelo
c
probabilı́stico dado por f (x) = 1+x 2 .
a) Determine el valor de la constante c.
b) Halle P (X > 0).
c) Demuestre que esta variable aleatoria no tiene valor esperado.
Ejercicio 2.7.
El ahorro de los habitantes de una ciudad (medido en miles de soles) es considerado una
variable aleatoria continua, X, cuyo modelo probabilı́stico está determinado por la regla
f (x) = x2 /9, 0 ≤ x ≤ 3.
a) Según este modelo probabilı́stico, ¿qué porcentaje de los habitantes de esta ciudad
ahorran más de mil soles?
b) Según este modelo probabilı́stico, ¿cuál es el ahorro promedio de los habitantes de esta
ciudad?
c) Según las autoridades, el consumo de los habitantes de la ciudad, en función del ahorro,
está dado por 1 + 4 X. Si esto es ası́, halle el consumo promedio.
d) Suponga que las autoridades han estimado un impacto en la economı́a igual a 1000X 2 .
Si es ası́, halle el valor esperado de este impacto.
Ejercicio 2.8.
Cierto productor fabrica un bien cuya demanda semanal, en kilogramos, es una variable
aleatoria X con densidad f (x) = 0, 002e−0,002x , x > 0. Cada kilogramo producido le cuesta
100 soles y lo vende a 250 soles. Toda cantidad que no logra vender el productor se pierde sin
generar un costo adicional al de su fabricación. Suponga que en cierta semana el productor
decide fabricar 500 kilogramos.
a) ¿Cuál es la probabilidad de satisfacer la demanda?
b) ¿Cuál es la probabilidad de que se satisfaga la demanda y al mismo tiempo el productor

gane más de cincuenta mil soles?
c) ¿Cuál es la probabilidad de que la demanda no sea satisfecha?
d) ¿Cuál es la probabilidad de que la demanda no sea satisfecha y al mismo tiempo el

productor gane más de cincuenta mil soles?
e) ¿Cuál es la probabilidad de que el productor gane más de cincuenta mil soles?
57
Ejercicio 2.9.
Sea X una variable aleatoria discreta cuyos valores y probabilidades correspondientes se

muestran en la tabla siguiente:
x -2 0 2
P (X = x) 1/4 1/2 1/4
a) Halle P (X 6= 0).
b) Determine el valor esperado de X.
c) Determine el valor esperado de X 2 . ¿No deberı́a cumplirse que E(X 2 ) = [ E(X) ]2 ?
d) Determine el valor esperado de 5 + 6X.
Ejercicio 2.10.
Se realizarán cinco inversiones; se sabe que por lo menos una resultará exitosa. Sea X la
variable aleatoria definida como la cantidad de inversiones que resulten exitosas. El modelo
probabilı́stico de esta variable está determinado por f (x) = c 2−x , x ∈ RX , con c una
constante.
a) Determine el rango de la variable aleatoria X.
b) ¿Cuál es el valor de la constante c?
c) Halle la probabilidad de que más de tres inversiones resulten exitosas.
d) Halle la probabilidad de que más de dos inversiones resulten exitosas.
e) Halle el valor esperado del número de inversiones que resulten exitosas.
f) Cada inversión tiene un costo de 100 soles; si la inversión resulta exitosa se gana 200
soles, pero si no resulta exitosa se pierde 150 soles. Obtenga el valor esperado de de la
utilidad que generará realizar estas cinco inversiones.
g) Halle el valor esperado de la razón existente entre el número de inversiones que no

resulten exitosas y el número de inversiones que resulten exitosas.
Ejercicio 2.11.
Sea X una variable aleatoria que puede asumir cualquier valor positivo y función de densidad
dada por f (x) = β e−β x , x > 0, con β > 0.
a) Verifique que, en efecto, f determina un modelo probabilı́stico.
b) Demuestre que P (X > t + h / X > t) = P (X > h), ∀ h, t > 0.
58
Ejercicio 2.12.
La distribución de los ingresos, X, de los trabajadores en cierto sector laboral, está deter-
minada por la función de densidad, definida entre 0 y 10000 soles, y cuya gráfica se muestra
en la figura siguiente:
Suponga que un impuesto de solidaridad es implantado en este sector: los que ganan menos
de 2000 soles quedan exonerados; los que ganen entre 2000 y 3000 soles pagarán 10 soles, los
que ganen más de 3000 pero menos de 8000 pagarán 15 soles; y los que ganen más de 8000
soles pagarán 20 soles.
a) Halle el porcentaje de los trabajadores cuyos ingresos están entre 2000 y 4000 soles.
b) ¿Qué porcentaje de trabajadores tendrá sus ingresos gravados con el impuesto?
c) ¿Qué porcentaje de trabajadores deberá pagar más de 15 soles?
d) Determine el monto promedio que se pagará por este impuesto. Hágalo con el modelo
de X. Luego, use el modelo probabilı́stico de la variable aleatoria Y, definida como el
monto pagado por trabajador debido al impuesto.
Ejercicio 2.13.
El tiempo (en años) hasta la ocurrencia de cierto evento catastrófico se considera una variable
aleatoria continua, X, con modelo probabilı́stico dado por: f (x) = 2 x/25 , 0 ≤ x ≤ 5.
a) Halle P (1 < X < 2).
b) ¿Cuál es la probabilidad de que dicho evento ocurra después de 2 años?
c) Si ya hace un año que no ocurre tal evento, determine la probabilidad de que pasen
más de 2 años todavı́a.
d) Una persona adquiere una póliza, contra este tipo de evento, que le cuesta mil soles.
El contrato de la póliza estipula que esta vale solo por un año y cubre solamente la
primera vez que ocurra el evento, de modo que si el evento ocurre en este perı́odo la
compañı́a aseguradora le pagará una suma indemnizatoria de tres mil soles, pero no lo
volverá hacer si ocurriera nuevamente el evento.
d1 ) Determine la probabilidad de que la aseguradora gane dos mil soles.

d2 ) Determine la utilidad esperada de la aseguradora.
59
Ejercicio 2.14.
En cierta región se tomó una muestra aleatoria de 100 habitantes y se registró, para cada
uno de estos, el ingreso mensual (en miles de soles). Los resultados obtenidos se resumen en
la tabla siguiente:
Ingso. men. (miles de soles) [ 0, 1 [ [ 1, 2 [ [ 2, 3 [ [ 3, 4 [ [ 4, 5 ]

Número de habitantes 6 19 33 31 11
Para realizar inferencias sobre los ingresos en la región entera se decidió considerar al ingreso
mensual (en miles de soles) de sus habitantes como una variable aleatoria continua, X, con
valores en el intervalo [0, 5] y modelo probabilı́stico dado por

2
 15 x,
 si 0 ≤ x ≤ 3.
1
f (x) = 1 − 5 x, si 3 < x ≤ 5.

0, en otro caso.

a) Use el modelo considerado para calcular la proporción de habitantes, en la región

completa, que ganan hasta tres mil soles.
b) Diga si los valores observados (mostrados en la tabla anterior) parecen estar en armonı́a
con el modelo probabilı́stico considerado. Haga los cálculos que considere necesarios,
de modo que pueda sustentar su respuesta con estos y la Ley Fuerte de los Grandes
Números (aplicada a proporciones de muestras).
c) Halle E(X).
d) Interprete el valor obtenido en la parte anterior, según este contexto.
e) Para tomar en cuenta solo los ingresos de quienes ganan hasta tres mil soles, se
considera la función siguiente:
(
x, si 0 ≤ x ≤ 3.
g(x) =
0, si 3 < x.
Use esta función y el modelo probabilı́stico de X para hallar el ingreso promedio

de quienes ganan hasta tres mil soles. Luego calcule qué proporción representa este
promedio obtenido, respecto del ingreso promedio en la región entera (también obtenido
con el modelo)
f) Un especialista afirma que el ingreso total de esta región se distribuye desigualmente

entre sus habitantes. Trate de explicar si las proporciones obtenidas en las partes a y
e reflejan esta afirmación.
g) El gasto en alimentos de los habitantes de esta región está dado por 1 + 12 X. Determine
el gasto promedio en alimentos en esta región.
60
Ejercicio 2.15.
En el contexto del ejercicio 1.27 del capı́tulo de probabilidad, halle el rango, la función de
probabilidad, el valor esperado y la desviación estándar de la variable, X, definida como el
número de años (del perı́odo considerado) en los que la demanda es muy baja.
Generalizar el ejercicio para un perı́odo de n años.
Ejercicio 2.16.
Suponga que la proporción diaria de veces que ciertos comerciantes evaden la entrega de
una boleta de pago es una variable aleatoria con función de densidad f (x) = 6x(1 − x),
0 ≤ x ≤ 1. Una muestra aleatoria de 100 comerciantes fue supervisada durante un dı́a y se
registró, para cada uno de estos, la proporción diaria de evasiones:
Proporción de evasiones [ 0, 0,2 [ [ 0,2, 0,4 [ [ 0,4, 0,6 [ [ 0,6, 0,8 [ [ 0,8, 1 ]
Número de comerciantes 9 26 30 25 10
a) Determine la probabilidad que corresponde a cada uno de los intervalos de la tabla

anterior, según el modelo dado; luego, diga si estas probabilidades y los datos de la
tabla están en armonı́a con la Ley Fuerte de los Grandes Números (comente).
b) Determine e interprete el valor esperado de la proporción diaria de evasión por

comerciante.
Ejercicio 2.17.
El tiempo (en años) hasta la ocurrencia de cierto evento catastrófico puede considerarse
como una variable aleatoria continua con función de densidad f (x) = 0, 1e−0,1x , x > 0.
a) ¿Cuál es la probabilidad de que pasen más de 2 años hasta la ocurrencia de dicho

evento?
b) Si ya hace un año que no ocurre tal evento, determine la probabilidad de que pasen
más de 2 años todavı́a.
c) ¿Encuentra extraños los resultados obtenidos en las partes anteriores? Generalice estos
considerando t años, en lugar de 2, y h años transcurridos en lugar de uno.
d) Una persona adquiere una póliza contra este tipo de evento. El contrato estipula que si
el evento ocurre antes del primer año la compañı́a aseguradora debe pagarle una suma
indemnizatoria de 3000 soles por una única vez. La póliza cuesta 5000 soles. Determine
la utilidad esperada de la aseguradora.
61
Ejercicio 2.18.
Supongamos que X, la demanda diaria de un artı́culo, ha sido considerada como una variable
x
aleatoria discreta con modelo probabilı́stico: f (x) = 61 ( x!2 ), x = 1, 2, 3, 4.
a) Antes de optar por el modelo anterior se tenı́a información de la demanda diaria

correspondiente a sesenta dı́as, que se resume por la distribución de frecuencias
siguiente:
¿Le parece a usted que la elección de la distribución de probabilidades es coherente

con esta información que se tenı́a?
b) ¿Cuál serı́a la demanda diaria esperada?
c) Cada artı́culo se vende por 5 soles. Cualquier artı́culo que no se vende al cabo del
dı́a se desecha, lo cual genera una pérdida de 3 soles. El fabricante, de estos artı́culos,
fijará su producción diaria, N, que regirá a lo largo de muchos dı́as, y debe decidirlo
entre uno de los valores posibles de la demanda: 1 ó 2 ó 3 ó 4 artı́culos. ¿Cuál es su
mejor decisión?
Ejercicio 2.19.
La cantidad mensual (en toneladas) que suele vender un comerciante se considera una
variable aleatoria continua, X, con rango RX = [ 0, 5 ] y modelo probabilı́stico dado por:
f (x) = 2 x/25 , 0 ≤ x ≤ 5.
a) Determine la cantidad promedio que el comerciante vende mensualmente.
b) Determine la desviación estándar de la cantidad mensual que vende el comerciante.
c) Adquirir cada tonelada le cuesta al comerciante una unidad monetaria. El precio de

venta por tonelada es de tres unidades monetarias. Además hay un costo fijo mensual
de cuatro unidades monetarias. Halle el valor esperado y la varianza de la utilidad del
comerciante.
62
Ejercicio 2.20.
El ingreso mensual (en miles de soles) de las familias de cierta región es una variable aleatoria
continua, X, con rango el intervalo [0; 2], y función de densidad f (x) = 1 − 21 x, 0 ≤ x ≤ 2.
Para tomar en cuenta solo los ingresos de las familias que ganan hasta y miles de soles, con
0 ≤ y ≤ 2, se considera la función g cuya regla de correspondencia es la siguiente:
(
x, si 0 ≤ x ≤ y;
g(x) =
0, si x > y.
a) Halle h(y) = E(g(X)) : el ingreso promedio de quienes ganan hasta y miles de soles.
h(y)
b) Halle Φ(y) = : la proporción del ingreso promedio de quienes ganan hasta y
E(X)
miles de soles, respecto al ingreso promedio en la región, 0 ≤ y ≤ 2.

c) Halle el Coeficiente de Gini: 1 − 2E Φ(X) .
d) Bosqueje la Curva de Lorenz, es decir, la formada por los pares (F (x), Φ(x)). Concluya,
comparándola con la situación de distribución sin desigualdad.
Ejercicio 2.21.
Para el estudio de la distribución de los ingresos de cierta región, se decidió considerar al

ingreso mensual (en miles de soles) de las familias (de esta región) como una variable aleatoria
continua, X, con valores en el intervalo [0, 8] y modelo probabilı́stico determinado por la
función de distribución acumulada siguiente: F (x) = 14 x − 641
x2 , si 0 ≤ x ≤ 8.
a) Use solo F para obtener la probabilidad P (2 < X ≤ 4).
b) Halle f : el modelo probabilı́stico de X.
c) Halle E(X) e interprételo en este contexto.
d) Para tomar en cuenta solo los ingresos de las familias que ganan hasta y miles de soles
(0 ≤ y ≤ 8), se considera la función g, con la regla de correspondencia siguiente:
(
x, si 0 ≤ x ≤ y,
g(x) =
0, si x > y.
d1 ) Halle h(y) = E(g(X)).

h(y)
d2 ) Se define Φ(y) = , para 0 ≤ y ≤ 8. ¿Qué representa Φ(y)?
E(X)
d3 ) Obtenga Φ(y) (para 0 ≤ y ≤ 8).
d4 ) Haga un bosquejo de la Curva de Lorenz, es decir, de la curva formada por los
pares (F (y), Φ(y)). Concluya.

d5 ) Halle el Coeficiente de Gini: 1 − 2E Φ(X) .
63
Ejercicio 2.22.
Sea X una variable aleatoria continua tal que P (X > 1) = 0, 2. Sea la variable aleatoria Y
tal que Y = 1, si X > 1, e Y = 0, si X 1. Determine el valor esperado de la variable Y.
Ejercicio 2.23.
El número de semanas, X, en las que una inversión es de alto riesgo, durante cierto perı́odo
c(5)x
de 8 semanas, tiene como modelo probabilı́stico a la función dada por: f (x) = , x ∈ RX .
x!
También se sabe que por lo menos en una semana (de este perı́odo) la inversión es de alto
riesgo, pero no en todas las semanas será ası́.
a) Determine el rango de la variable aleatoria X.
b) ¿Cuál es el valor de la constante c?
c) Determine la probabilidad de que en más de la mitad de las semanas (de este perı́odo)
la inversión sea de alto riesgo.
d) Determine la probabilidad de que en más de dos de las semanas (de este perı́odo) la
inversión sea de alto riesgo.
e) Halle el número promedio de semanas en las que la inversión será de alto riesgo.
f) Cuando la inversión es de alto riesgo la pérdida en la semana es de 400 um; mientras

que cuando no lo es se obtiene una ganancia semanal de 500 um. Obtenga el valor
esperado de la utilidad semanal.
g) Determine el valor esperado de la proporción existente entre el número de semanas en

las que la inversión es de alto riesgo y el número de semanas en las que no lo es.
Ejercicio 2.24.
Sea X una variable aleatoria con media µ = 14 y desviación estándar σ = 2
a) Halle la media y la varianza de Y = 21 X − 6.
b) Halle las constantes a y b para que la transformación de X : Y = a + bX, tenga una

media de 50 y una desviación estándar de 10.
c) Use la desigualdad de Chebychev para tener una idea de cómo es el valor de la

probabilidad: P (6 ≤ X ≤ 22).
d) Use la desigualdad de Chebychev para tener una idea de cómo es el valor de la

e) Use la desigualdad de Chebychev para tener una idea de cómo es el valor de la

64
Ejercicio 2.25.
Un psicoterapeuta, que se especializa en problemas de autoestima, ha registrado el tiempo

necesario que necesitan sus pacientes para revertir este problema. Ası́, ha determinado que
esta variable puede considerarse continua, con un rango de valores entre 0, 5 y 4, 5 meses, y
función de densidad f (x) = x/10, 0, 5 ≤ x ≤ 4, 5.
a) Un alumno con problemas de autoestima inicia su terapia un mes antes de sus exámenes
finales. ¿Cuán probable es que este tiempo sea suficiente para revertir su problema antes
de dichos exámenes?
b) Determine e interprete el valor esperado del tiempo que necesitan los pacientes para
revertir este problema.
c) El costo de la terapia (en soles) puede considerarse como una variable, Y, que depende
del tiempo necesario para revertir este problema, X, como sigue:


 400, si 0, 5 ≤ X ≤ 1.

 600, si 1 < X ≤ 2.
Y =


 1000, si 2 < X ≤ 3.
2000, si 3 < X ≤ 4, 5.

Determine e interprete el valor esperado del costo de la terapia. Use el modelo

probabilı́stico de X; y luego el de Y.
Ejercicio 2.26.
La demanda, de cierto producto es una variable aleatoria discreta, X, con valores posibles
entre 0 y 100 unidades y función de distribución acumulada:
x(x + 1)
FX (x) = , x ∈ { 0, 1, . . . , 100 }.
10 100
La utilidad del fabricante del producto, en función de la demanda y en miles de soles,
está dada por: (
20X − 850, para X = 0, 1, . . . , 80.
g(X) =
750, para X = 81, 82, . . . , 100.
a) Determine la probabilidad de que el productor obtenga por lo menos 160 mil soles,
pero menos de 750 mil.
b) Determine la media de la utilidad del productor.
c) Halle la función de probabilidad de la variable aleatoria Y = g(X).
d) Emplee la definición de valor esperado y el resultado anterior para determinar la media

pedida en la parte b.
65
Ejercicio 2.27.
Tres pacientes inician un tratamiento que durará un mes. Sea X el número de estos pacientes
que estarán curados al cabo del mes. Suponga que el modelo probabilı́stico para esta variable
está dado por: f (x) = 27 1
40 3x
, x = 0, 1, 2, 3.
a) Determine el valor esperado del número de pacientes que estarán curados al cabo del
mes.
b) Determine la desviación estándar del número de pacientes que estarán curados al cabo
del mes.
c) El costo por paciente que se recupere al cabo del mes es de tres unidades monetarias.
Cada paciente que no se recupera al cabo del mes origina un costo adicional de una
unidad monetaria. Además, hay un costo fijo de dos unidades monetarias. Halle el valor
esperado y la desviación estándar del costo total.
Ejercicio 2.28.
Al invertir una cantidad en una operación financiera se obtiene una tasa de rentabilidad, X,
modelada por la función de densidad siguiente:
(
x + c, si − 1 ≤ x < 0.
f (x) =
d − x, si 0 ≤ x ≤ 1.
con c y d constantes. Además, en tres de cada ocho inversiones se gana, pero menos del 50 %
de lo invertido.
a) Determine las constantes c y d.
b) Determine la probabilidad de que la rentabilidad esté entre - 0,3 y 0,7.
c) Halle el valore esperado de la rentabilidad.
d) Suponga que al invertir en esta operación, se quiere que en el peor de los casos se pierda
una fracción r de lo invertido. Determine el valor r para que lo anterior suceda con una
probabilidad de 0,95. Este valor r se conoce como el valor en riesgo (VaR) que tiene
una confianza del 95 %. Note que si c0 es la cantidad invertida y cf es la cantidad al
c − c0
final de la inversión; entonces, X = f . Si X > 0 : se gana; y si X < 0 : se pierde.
c0
Ejercicio 2.29.
Sea X una variable aleatoria continua, con rango RX = [ 0, 5 ] y modelo probabilı́stico

dado por: f (x) = 2 x/25 , 0 ≤ x ≤ 5. Halle E g(X) , si g(x) = 10x, 0 ≤ x ≤ 2 y
g(x) = −5x, 2 < x ≤ 5.
66
Ejercicio 2.30.
Una municipalidad verificará si las tiendas de su distrito cumplen una ordenanza dictada
recientemente. Con este fin, se escogerá una muestra aleatoria de 20 tiendas.La cantidad de
tiendas, en la muestra que será seleccionada, que incumplan la ordenanza es una variable
aleatoria, X, cuya función de probabilidad está dada por: f (x) = x/210, x = 0, 1, . . . , 20 .
a) Determine la probabilidad de que por lo menos cinco de las tiendas, en la muestra por
seleccionar, incumplan la ordenanza.
b) Determine e interprete el valor esperado del número de tiendas, en la muestra por

seleccionar, que incumplan la ordenanza.
c) Suponga que inspeccionar cada tienda de la muestra seleccionada costará 500 soles.
Además, cada detección originará un descuento de 500 soles en el costo, pues esta
cantidad será pagada por el propietario de la tienda que incumpla la ordenanza; pero
cada tienda seleccionada que cumpla la ordenanza originará un costo adicional de 250
soles, pues el propietario de la tienda recibirá un descuento en sus tributos por este
valor. El presupuesto para llevar a cabo este muestreo es de 12 750 soles.
c1 ) Cuantifique la confianza de este presupuesto para poder llevar a cabo el muestreo.

c2 ) Determine e interprete el valor esperado del costo para llevar a cabo el muestreo.
Ejercicio 2.31.
El número de unidades defectuosas, que se pueden encontrar en un lote de artı́culos,

corresponde a una variable aleatoria X cuya distribución acumulada es:


 0, si x<0

0,75, si 0 ≤ x < 1





 0,85, si 1 ≤ x < 2
F (x) =


 0,925, si 2 ≤ x < 3
0,975, si 3 ≤ x < 4





1, si x≥4

a) Use F solamente, sin obtener la función de probabilidad asociada f, para obtener las
probabilidades de los eventos siguientes:
i) No encontrar unidades defectuosas en el lote.

ii) Encontrar, como máximo, tres unidades defectuosas en el lote.
iii) Encontrar, por lo menos, una unidad defectuosa, pero máximo tres.
b) Determine el número promedio de unidades defectuosas.
67
Ejercicio 2.32.
El fabricante de cierto producto debe decidir la cantidad ‘t’de toneladas que debe fabricar
mensualmente. Por estudios de mercado realizados por el fabricante sobre la demanda para el
mes siguiente, se llegó a establecer que la demanda proyectada debe considerarse una variable
aleatoria continua, pudiendo asumir valores entre 0 y 10 toneladas y función de densidad
f (x) = x/50, 0 ≤ x ≤ 10. El costo de fabricación y el precio de venta proyectados, por
cada tonelada del producto, son 10 mil y 20 mil soles, respectivamente. Además el estudio
de mercado le costó al fabricante 50 mil soles y naturalmente deberá incluirlo en sus costos.
a) Suponga que el fabricante decidiera producir una cantidad t igual a 8 toneladas, ¿cuál
serı́a la probabilidad de que gane menos de 10 mil soles?
b) Determine el valor, t, que debe producir el fabricante para maximizar su utilidad

esperada.
Ejercicio 2.33.
El estudio de la demanda de un bien para el perı́odo de los próximos tres años (1, 2 y 3)
determinó que esta podrı́a ser muy baja en cualquiera de estos años, de manera independiente
y con una probabilidad de un décimo. Las decisiones que se deben tomar dependen de la
variable aleatoria X, definida como la cantidad de años (de este perı́odo) en los que la
demanda será muy baja.
a) Determine la probabilidad de que en los tres años de este perı́odo la demanda del bien
sea muy baja.
b) Determine la probabilidad de que solo en dos de los años de este perı́odo la demanda
del bien sea muy baja.
c) Halle RX , el rango de la variable aleatoria X.
d) Determine fX , el modelo probabilı́stico de la variable X. Sugerencia: considere los

eventos Ai : la demanda será muy baja en el año i; i = 1, 2 y 3.
e) Halle el valor esperado de la cantidad de años (de este perı́odo) en los que la demanda
será muy baja.
f) La utilidad de cierta inversión (en miles de soles) es una función g(X), con

 1000,
 si x = 0.
g(x) = 1000 − 200x, si x = 1 ó 2.

1000 − 400x, si x = 3 ó 4.

Determine el valor esperado de esta utilidad.
68
Ejercicio 2.34.
En cierta inversión la utilidad generada es una variable aleatoria, X, con valores entre 6,5 y
7,5 miles de soles y función de densidad dada por:
57 51(x − 7)2
f (x) = − ; 6, 5 ≤ x ≤ 7, 5.
40 10
a) Halle la probabilidad de que esta inversión genere más de siete mil soles de utilidad.
b) Una persona desea invertir de modo que su utilidad esperada sea de 7 mil soles. ¿Esta
inversión cumple este requerimiento?
c) Determine la probabilidad de que esta inversión genere utilidades superiores a la media.
d) Determine los valores de a y b, de modo que la probabilidad de que la utilidad generada,

X, esté en el intervalo [ a , b ] sea igual a 0,95. Si es posible, hágalo de tal forma que la
longitud de este intervalo sea lo más pequeña posible.
e) Halle e interprete la utilidad esperada.
Ejercicio 2.35.
Se debe decidir cuál debe ser el tamaño de un lote, de cierto artı́culo, que debe ser adquirido.
El tamaño posible del lote puede ser 100, 200 ó 400 unidades. Además, en cada lote, cada
unidad sin defectos genera una ganancia de 500 soles y cada unidad defectuosa origina una
pérdida de 300 soles. Por otra parte, se sabe que la proporción de unidades defectuosas, por
lote adquirido durante una semana, es una variable aleatoria discreta, X, cuya distribución
acumulada, F, tiene la gráfica siguiente:
Suponga el tamaño del lote que se adquirirá será el mismo para un perı́odo de muchas
semanas.
a) Si adquieren lotes de 100 unidades, ¿cuál será la utilidad esperada por lote?
b) Si adquieren lotes de 200 unidades, ¿cuál será la utilidad esperada por lote?
c) Si adquieren lotes de 400 unidades, ¿cuál será la utilidad esperada por lote?
d) ¿Cuál es el tamaño óptimo del lote que se debe adquirir?
69
Ejercicio 2.36.
La proporción de comerciantes evasores de cierto impuesto es una variable aleatoria continua,

X, cuyo modelo probabilı́stico está determinado por la función: fX (x) = 2,5 x, 0, 1 < x < 0,9.
La pérdida para el fisco (en millones de soles) está determinada por la variable Y = 10X + 5.
a) Halle la probabilidad de que la proporción de evasión sea superior a 0,3.
b) Halle la probabilidad de que la pérdida del fisco esté entre 7 y 9 millones de soles.
c) Determine e interprete el valor esperado de la proporción de evasión.
d) Determine e interprete la desviación estándar de la proporción de evasión.
e) ¿Cuál es el valor esperado de la pérdida del fisco?
f) Determine, fY , la densidad de Y.
g) Emplee la definición del valor esperado y el resultado anterior para determinar el valor
esperado pedido en la parte e.
Ejercicio 2.37.
La demanda de cierto bien es descrita por una variable aleatoria continua X, cuya función
de distribución acumulada está dada por: FX (x) = 1 − e−x − x e−x , x > 0. La utilidad de
cierto comerciante (en miles de soles) es una función de la demanda: g(X), con g dada por:
(
1, si 0 < x ≤ 1.
g(x) =
x, si x ≥ 1.
a) Halle la probabilidad de que la demanda sea mayor que 4.
b) Halle la probabilidad de que la demanda esté entre 2 y 5.
c) Halle la probabilidad de que el comerciante gane entre 2 mil y 3 mil soles.
d) Halle la probabilidad de que el comerciante gane entre 500 soles y 3 mil soles.
e) Determine la función de densidad de X.
f) Determine e interprete el valor esperado de la demanda.
g) Determine la desviación estándar de la demanda.
h) Determine el valor esperado de la utilidad.
i) Determine la desviación estándar de la utilidad.
70
Ejercicio 2.38.
La duración, X (en horas), de un dispositivo electrónico tiene una función de distribución

acumulada dada por: FX (x) = 1 − e− x/3 ; x > 0.
a) Determine la probabilidad de que el dispositivo dure más de dos horas.
b) Determine la probabilidad de que el dispositivo dure, máximo, una hora.
c) Determine la probabilidad de que el dispositivo dure entre 2 y 4 horas.
d) Determine la media de la duración y su desviación estándar.
e) Halle la probabilidad P ( | X − µX | ≤ 2σX ).
Ejercicio 2.39.
Sea X es una variable aleatoria discreta con función de probabilidad dada por fX (x) =
0, 9 (0, 1)x−1 , x ∈ N+ . Se define Y = X − 1.
a) Determine E(X).
b) Determine, fY , la función de probabilidad de Y.
c) Determine E(Y ) con la función de probabilidad de X; y luego con la de Y.
Ejercicio 2.40.
Sea X una variable aleatoria continua, positiva, con función de distribución acumulada dada
2
por FX (x) = 1 − e−4x , x > 0. Sea Y = X 2
a) Halle P (X > 2).
b) Halle P (2 ≤ X ≤ 4).
c) Determine, fX , la función de densidad de X.
d) Determine, FY , la función de distribución acumulada de Y.
e) Determine, fY , la función de densidad de Y.
f) Determine E(Y ) con la función de densidad de Y ; y luego con la de X.
Ejercicio 2.41.
2
Sea X una variable aleatoria continua tal que E(X t ) = et , ∀t ∈ R.
a) Halle E(X), E(X 2 ), E(X 3 ) y V (X).
b) Halle E( 2 + 3e−1 X + 4e−4 X 2 + e−9 X 3 ).
71
Ejercicio 2.42.
√
π
Sea X una variable aleatoria continua tal que E(X m ) = 2m+1
, ∀m > 0.
a) Halle E(1 + 12 X).
b) Halle la varianza de X.
c) Halle E(4 + √5 X+ √2 X2 − √3 X 3 ).
π π π
Ejercicio 2.43.
Sea X una variable aleatoria con rango RX = R, media 3,5 y desviación estándar 0,25.
La utilidad que genera una inversión, en función de X, está dada por:

(
100; 2 ≤ X ≤ 4.
G(X) =
−160; X < 2 ó X > 4.
a) Si usa la desigualdad de Chebychev ¿qué podrı́a concluir acerca de la probabilidad

P (3 ≤ X ≤ 4) ?
b) Según su conclusión dada anteriormente, ¿qué puede concluir acerca de la probabilidad

P (2 ≤ X ≤ 4) ?
c) ¿Puede asegurarse que la media de estas utilidades sea por lo menos 35?
Ejercicio 2.44.
Sea X una variable aleatoria continua y positiva, con función de densidad f (continua) y
función de distribución acumulada F.
a) Si F (x) = 1 − e−β x , x > 0 (con β > 0), demuestre que:
P (X > t + h / X > t) = P (X > h), ∀ h > 0, ∀t > 0.
b) Si P (X > t + h / X > t) = P (X > h), ∀ h, ∀t > 0, demuestre que:
F (x) = 1 − e−β x , x > 0, con β = F 0 (0) = f (0).
Sugerencia: exprese las probabilidades anteriores en términos de F y compruebe que:

F (t + h) − F (t) F (h)
F 0 (t) = lim = [1 − F (t)] lim = [1 − F (t)] F 0 (0) , ∀t > 0.
h→0 + h h→0 + h
Ejercicio 2.45.
Si X ∼ Pareto(1; θ); es decir, f (x) = θ x−(θ+1) , x > 1, con θ > 0. Determine E(X) y
X
V (X).
72
Ejercicio 2.46.
El número de clientes que llegan a un cajero automático, hasta el primero que realiza
una transferencia hacia otra cuenta, es una variable aleatoria discreta X cuya función de
distribución acumulada está dada por F (x) = 1 − (0, 6)x , x = 1, 2, . . .
a) Halle la probabilidad de que el número de clientes que lleguen al cajero, hasta el primero
que realice una transferencia hacia otra cuenta, sea mayor o igual que 2 pero menor o
igual que 20. Use solo F.
b) Halle P (X ≥ 4). Use solo F.
c) Halle f (x) = P (X = x), x = 1, 2, . . .
Ejercicio 2.47.
El tiempo (medido en minutos) hasta el primer automóvil que pasa contaminando el ambiente
es una variable aleatoria continua, X, cuya función de distribución acumulada está dada por
F (x) = 1 − e−2x , x > 0.
a) Halle la probabilidad de que el tiempo hasta el primer automóvil que pasa

contaminando el ambiente esté entre dos y cinco minutos. Use solo F.
b) Halle P (X ≥ 4). Use solo F.
c) Halle f (x), x > 0.
Ejercicio 2.48.
En el contexto del ejemplo 1.17 del capı́tulo anterior:
a) Determine la función de distribución acumulada de la variable aleatoria, T, definida

como el precio de venta total de una unidad de cada bien.
Sugerencia: use la probabilidad geométrica para determinar P (T ≤ t).
b) Determine la función de densidad de la variable T, definida en la parte anterior.
c) Obtenga e interprete el valor esperado y la desviación estándar de T.
Ejercicio 2.49.
Sea X una variable aleatoria continua con función de densidad f (x) = 4x3 , 0 ≤ x ≤ 1.
X
Considere la variable Y = 5X, halle f . Use la técnica del cambio de variable descrita en la
Y
sección 2.7
73
Ejercicio 2.50.
Se dice que una variable aleatoria continua y positiva, X, tiene modelo exponencial con
parámetro β (con β > 0) 1 , si su modelo probabilı́stico está dado por
f (x) = β e−β x, x > 0.

X
Denotamos esto por X ∼ exp(β).
a) Si X ∼ exp(β), use la técnica del cambio de variable (descrita en la sección 2.7) para
hallar e identificar el modelo probabilı́stico de Y = 71 X. Incluya los parámetros.
b) Si X ∼ exp(β), halle F (x), ∀x > 0.

X
c) Si X ∼ exp(β), halle el modelo de Y = eX .
d) Sea X como en el ejercicio 2.45, determine e identifique el modelo de Y = Ln(X).
Ejercicio 2.51.
Se dice que una variable aleatoria continua y positiva, X, tiene modelo gamma con
parámetros α > 0 y β > 0, si su modelo probabilı́stico está dado por
β α α−1 −β x
x e
f (x) = , x > 0;
X Γ(α)
Z ∞
con Γ la función gamma, definida por Γ(z) = tz−1 e−t dt, z > 0. Esto se denota por
0
X ∼ G(α, β).
Si X ∼ G(α, β), use la técnica del cambio de variable (descrita en la sección 2.7) para hallar
e identificar el modelo probabilı́stico de Y = 2 X. Incluya los parámetros.
Ejercicio 2.52.
Se dice que una variable aleatoria continua y positiva, X, tiene modelo Weibull con
parámetros α > 0 y β > 0, si su modelo probabilı́stico está dado por
α
f (x) = β α xα−1 e−β x , x > 0.
X
Esto se denota por X ∼ W (α; β).
a) Si X ∼ W (α; β), halle e identifique el modelo probabilı́stico de Y = 2 X.
b) Si X ∼ exp(β), halle e identifique el modelo probabilı́stico de Y = X α .

1
Véase el ejercicio propuesto 2.11.
74
Ejercicio 2.53.
Otro de los modelos probabilı́sticos importantes para variables aleatorias positivas es el

Weibull generalizado. Este modelo se caracteriza por la distribución acumulada siguiente:
α γ
F (x) = 1 − e−βx , x > 0;
con α > 0, β > 0 y γ > 0. Si X es una variable positiva que tiene este modelo, denotamos
esto por X ∼ W g(α; β; γ).
a) Determine las probabilidades siguientes:

P (X > 5) y P (2 ≤ X < 5).
b) Use la técnica del cambio de variable para hallar e identificar el modelo probabilı́stico
de Y = δX, con δ > 0.
Ejercicio 2.54.
El modelo exponencial generalizado 2 es una extensión del modelo exponencial, definido en el

ejercicio 2.50, y es otro de los modelos importantes para variables aleatorias positivas. Este
modelo se caracteriza por la distribución acumulada siguiente:
α
F (x) = 1 − e−βx , x > 0;
con α > 0 y β > 0. Sea X una variable positiva que tiene este modelo, denotamos esto por
X ∼ expg(α; β).
Use la técnica del cambio de variable para hallar e identificar el modelo probabilı́stico de
Y = γX, con γ > 0.
Ejercicio 2.55.
Se dice que una variable aleatoria continua, X, tiene modelo normal con parámetros son µ
R
y σ 2 (con µ ∈ y σ > 0), si su modelo probabilı́stico está dado por
1 1 2
f (x) = √ e− 2 σ2 (x−µ) , −∞ < x < ∞.
X 2π σ
Denotamos esto por X ∼ N (µ, σ 2 ).
Si X ∼ N (µ, σ 2 ), use la técnica del cambio de variable (descrita en la sección 2.7) para
R
hallar e identificar el modelo probabilı́stico de Y = a + b X (con a ∈ y b > 0). No olvide
dar los parámetros.
2
Gupta & Kundu(1999). Theory & methods: Generalized exponential distributions. Australian and New
Zealand Journal of Statistics, 41(2), 173–188.
75
Ejercicio 2.56.
Sea X ∼ N (µ, σ 2 ), es decir, el modelo dado en el ejercicio 2.55. Use la técnica del cambio
de variable para hallar el modelo de Y = (X − µ)/σ. Tenga el cuenta el ejercicio 2.51 para
reconocer el modelo obtenido anteriormente.
Si X ∼ N (µ, σ 2 ), use la técnica del cambio de variable (descrita en la sección 2.7) para
R
hallar e identificar el modelo probabilı́stico de Y = a + b X (con a ∈ y b > 0). No olvide
dar los parámetros.
Ejercicio 2.57.
En la tabla siguiente se muestran algunos valores de la función de distribución acumulada,

F, de una variable aleatoria X :
x 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5
F (x) 0,0190 0,0656 0,1429 0,2424 0,3528 0,4634 0,5665 0,6577 0,7350 0,7983
x 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0 10,5
F (x) 0,8488 0,8882 0,9182 0,9409 0,9576 0,9699 0,9788 0,9851 0,9897 0,9929
Determine P (2 ≤ X ≤ 10) en cada una de las situaciones siguientes:
a) el conjunto de valores posibles de X es RX =] 0; ∞ [ ;
b) el conjunto de valores posibles de X es RX = { 0; 0,5; 1; 1,5; . . . ; 11,5; 12 }.
76
3. Modelos probabilı́sticos importantes
En las aplicaciones prácticas algunas variables aleatorias se presentan con mucha

frecuencia, por tal motivo a sus distribuciones de probabilidad se les denomina distribuciones
importantes y son usadas como modelos probabilı́sticos para describir el comportamiento
de variables que asumen sus valores de modo incierto. Estas distribuciones o variables ya
han sido ampliamente estudiadas por importantes estudiosos del área de las ciencias, fueron
personas que tuvieron la capacidad de entrar en la “caja negra” en donde se originaban estas
variables y proporcionarnos la información más relevante en un lenguaje a nuestro alcance, es
decir, nos proporcionaron los supuestos básicos que las gobiernan, para ası́ poder identificar
más rápidamente otras variables similares, ası́ como también la función matemática o ley
de probabilidades que las describe. A continuación veremos algunas de estas y empezaremos
con las que se originan a partir de dos de los procesos más conocidos en probabilidad y
estadı́stica: el proceso de Bernoulli y el proceso de Poisson, luego veremos otros modelos
como el normal.
3.1. Modelos relacionados con un proceso de Bernoulli
Nuestro punto de partida para tratar con un proceso de Bernoulli (y también con uno
de Poisson) es un evento de interés. Sucede que en determinado momento, por alguna
razón, nuestro interés se concentra en un evento incierto, por tal motivo, cuando este ocurra
podemos decir que se ha tenido éxito, ası́, podemos denominar a este evento de interés como
E: éxito; mientras que a su complemento como E c o F , que significará fracaso. En el proceso
de Bernoulli se puede decir que la observación es discreta, puesto que lo hacemos dentro de
una secuencia de ensayos u oportunidades, en cada uno de ellos puede ocurrir el evento que
nos interesa o su complemento (todo lo demás que puede ocurrir).
Supongamos que en cualquier secuencia de ensayos, el evento E ocurra independiente-

mente y con la misma probabilidad en cada ensayo. Si el proceso de observación del evento
E se da bajo estas condiciones, diremos que estamos frente a un proceso de Bernoulli.
Ası́, si definimos la secuencia de eventos E1 , E2 , . . . , con Ei ocurrió E en el i-ésimo

ensayo, tendremos que estos eventos son independientes y con la misma probabilidad, la
cual la denotamos por p, la probabilidad de éxito; los complementos de estos eventos tendrán
como probabilidad a 1 − p, la probabilidad de fracaso, que será denotada por q.
Ejemplo 3.1. Cuando un producto se ofrece en venta con una promoción, el promotor
de ventas está interesado en averiguar si los clientes que visitará comprarán el producto.
77
El promotor visitará a muchos clientes, cada uno de estos puede comprar el producto en
promoción. Cada visita origina un ensayo u oportunidad para observar si ocurre el evento
de interés: que el cliente compre el producto. Entonces, si cada cliente puede comprar el
producto independientemente de los demás y con la misma probabilidad, se tendrá un proceso
de Bernoulli.
Ahora veamos los tres modelos que se generan a partir de un proceso de Bernoulli.
3.1.1. El Modelo o distribución binomial
En un proceso de Bernoulli, definimos X como el número de éxitos obtenidos, en n

ensayos, entonces el modelo probabilı́stico de X es dado por

n x n−x
f (x) = P (X = x) = p q , x = 0, 1, . . . , n.
x
Cuando el modelo probabilı́stico de una variable aleatoria X es de esta forma, se dice que
X tiene distribución binomial con parámetros n y p. Se denotará esto por: X ∼ b(n, p).
Los parámetros sirven para identificar una distribución especı́fica, dentro de una familia de
distribuciones, en este caso de la forma antes indicada.
Los valores esperados son: µX = np y σX2 = npq
La distribución acumulada no tiene una fórmula explı́cita particular.
Ejemplo 3.2. En el contexto del ejemplo 1, supongamos que los registros acerca de este tipo
de promociones indican que el 75 % de los clientes suele comprar el producto cuando se da
esta promoción. Ası́, tenemos que la probabilidad de nuestro evento de interés (que el cliente
visitado compre el producto) es P (E) = 0, 75. Supongamos ahora que el promotor visite a
50 clientes, entonces, si X es el número de clientes que comprarán el producto, tenemos que:
X ∼ b(50; 0, 75).
Esto se justifica porque X puede ser vista como el número de éxitos en una secuencia de
50 eventos de un proceso de Bernoulli. Siendo ası́, tenemos que la probabilidad de que x de
estos clientes compren el producto es:

50
f (x) = P (X = x) = (0, 75)x (0, 25)50−x , x = 0, 1, . . . , 50.
x
En particular la probabilidad de que 30 clientes compren el producto es:

50
P (X = 30) = f (30) = (0, 75)30 (0, 25)50−30 = 0, 0077.
30
La media (promedio) o valor esperado del número de clientes que comprarán el producto es:
µX = E(X) = np = (50)(0, 75) = 37, 5.
78
Profesor José Flores Delgado Modelos probabilı́sticos importantes 79
¿Entre qué valores se encontrará el grupo promedio de esta distribución? Ya sabemos que
este es el grupo de datos que está entre µX ± σX .
Como ya se vio µX = 37, 5.
Además σX2 = npq = (50)(0, 75)(0, 25) = 9, 375, ası́, σX = 3, 0618.
Por lo tanto, los datos dentro del promedio estarán entre 34, 4382 y 40, 5618 ó,
equivalentemente, entre 35 y 40. Ası́, cuando se dé esta promoción y se ofrezca a 50 clientes
en muchas ocasiones, observaremos con mayor frecuencia que el número de clientes que
comprarán este producto estará entre 35 y 40.
Obtengamos otra probabilidad, por ejemplo, la de que, a lo más, 45 de estos clientes compren
el producto en promoción es P (X ≤ 45) y conviene hallarla por el complemento:
P (X > 45)
= f (46) + f (47) + f (48) + f (49) + f (50)

50 50 50

= 46
(0, 75)46 (0, 25)50−46 + 47
(0, 75)47 (0, 25)50−47 + 48
(0, 75)48 (0, 25)50−48
50 50

+ 49
(0, 75)49 (0, 25)50−49 + 50
(0, 75)50 (0, 25)50−50
= 0,0021.
Ası́, P (X ≤ 45) = 1 − P (X > 45) = 1 − 0, 0021 = 0, 9979.
Podemos también obtener probabilidades a partir de la distribución acumulada, pero como

esta no tiene una fórmula explı́cita debemos usar la computadora o, como era costumbre
hace algún tiempo atrás, con tablas.
Si usamos el Excel podemos obtener muy rápidamente probabilidades en este contexto.
Por ejemplo, la probabilidad de que más de 25, pero a lo sumo 40 clientes compren el
producto:
P (25 < X ≤ 40) = f (26) + · · · + f (40) = F (40) − F (25) = 0, 8363 − 0, 0001 = 0, 8362.
Se ha restado la probabilidad acumulada hasta 25 porque deseamos excluir este valor.
O la probabilidad de que compren como mı́nimo 30, pero a lo sumo 45 clientes es:
P (30 ≤ X ≤ 45) = f (30) + · · · + f (45) = F (45) − F (29) = 0, 9979 − 0, 0063 = 0, 9916.
Se ha restado la probabilidad acumulada hasta 29 porque debemos incluir el valor 30.
Para terminar, la probabilidad de que por lo menos 35 clientes compren el producto es:
P (X ≥ 35) = 1 − P (X ≤ 34) = 1 − F (34) = 1 − 0, 1631 = 0, 8369.
79
Ejemplo 3.3. (modelo financiero binomial)
Cada dı́a puede llevarse a cabo una operación financiera, la cual puede resultar exitosa
o fracasada. Cuando la operación es exitosa, lo cual ocurre con probabilidad 0,7, se gana
una proporción de lo invertido igual a 0,02; mientras que cuando la operación fracasa se
pierde una fracción de lo invertido igual a 0,04. El capital inicial es de 50 000 soles; y en las
sucesivas operaciones se invierte el monto que resulta de las inversiones anteriores. Además
los resultados de las operaciones financieras se asumen independientes. Por las condiciones
dadas, la secuencia de operaciones realizadas originan un proceso de Bernoulli con evento
de interés, E, que la operación sea exitosa (también pudo escogerse su complemento) con
probabilidad p = 0, 7. En particular, X, el número de operaciones que resulten exitosas,
entre n llevadas a cabo, tiene distribución binomial con parámetros n y p = 0, 7, es decir,
X ∼ b(n, 0, 7).
Esta variable X nos permite determinar cuál será el valor del capital acumulado, Y, hasta
la enésima operación. En efecto, no es difı́cil verificar que:
Y = 50 000(1 + 0, 02)X (1 − 0, 04)n−X (3.1)
Tenemos una situación de incertidumbre, pero la formalización anterior nos permite

cuantificar, mediante probabilidades, confianzas y riesgos. Por ejemplo, si la inversión de los
50 000 soles se hace con la meta de que al cabo de 10 operaciones se obtenga una ganancia
de, por lo menos, 5 000 soles; entonces, el riesgo que se corre puede cuantificarse por la
probabilidad de que el capital acumulado, al cabo de las 10 operaciones, resulte menor
que 55 000 soles, es decir, la probabilidad P (Y < 55 000) que por la ecuación 3.1 dada
anteriormente, equivale a:
P (50 000(1 + 0, 02)X (1 − 0, 04)10−X < 55 000)
o, despejando X :

P (X < 8, 3057) = 1 − fX (9) + fX (10)
= 1 − 10 10

9
(0, 7)9 (0, 3)10−9 + 10
(0, 7)10 (0, 3)10−10
= 1 − 0, 1493 = 0, 8507
Es decir, el riesgo que corre el inversionista es bastante alto.
Otro asunto de interés al respecto se encuentra en el ejercicio propuesto 3.8.
3.1.2. El modelo o distribución geométrico
Definimos ahora, X, como el número de ensayos que son necesarios para

conseguir el primer éxito, entonces el modelo probabilı́stico de X viene dado por
f (x) = P (X = x) = q x−1 p, x = 1, 2, . . .
80
X tiene distribución geométrica con parámetro p. Se denotará esto por X ∼ g(p).
Los valores esperados son: µX = 1/p y σX2 = q/p2 .
La distribución acumulada está dada por:
x
X
F (x) = P (X ≤ x) = q j−1 p = 1 − q x , x = 1, 2, . . .
j=1
Ejemplo 3.4. Continuando con el evento de interés anterior, supongamos que ahora nos
interese la variable X definida como el número de clientes que debe visitar el promotor hasta
el primero que compre el producto. Entonces, como el proceso es de Bernoulli y X puede
verse como el número de ensayos (en la secuencia de visitas) hasta lograr el primer éxito, se
tiene que X ∼ g(0, 75).
Ası́, la probabilidad de que el primer cliente, que compre el producto, sea el x-ésimo que
visite es
P (X = x) = f (x) = (0, 25)x−1 (0, 75), x = 1, 2, . . .
El valor esperado de esta variable es µX = 1/p = 1/0, 75 = 4/3 = 1, 333, por lo tanto, si
fueran muchas las visitas que haga el promotor y asumimos condiciones similares para cada
una de estas, en promedio en la primera visita el cliente comprará el producto.
En este caso, como la distribución acumulada tiene una fórmula explı́cita, podemos calcular
muchas probabilidades usando dicha fórmula:
F (x) = P (X ≤ x) = 1 − q x = 1 − (0, 25)x ; x = 1, 2, . . .
Por ejemplo, la probabilidad de que el primer cliente que compre el producto sea por lo
menos el cuarto que visite, pero a lo más el décimo, es:
P (4 ≤ X ≤ 10) = F (10) − F (3) = (1 − (0, 25)10 ) − (1 − (0, 25)3 ) = 0, 0156.
Propiedad: esta es la única distribución discreta que satisface la relación:
P (X > m + n / X > m) = P (X > n), ∀ m, n ∈ N+ .
Esta propiedad afirma que si ya se han realizado m ensayos sin haber obtenido un éxito,
entonces, la probabilidad de que sean necesarios n ensayos adicionales, para lograrlo, es
exactamente igual a la probabilidad que se tenı́a antes de realizar estos m ensayos. Por lo
que se dice que la distribución no tiene memoria.
81
3.1.3. El modelo o distribución de Pascal o binomial negativa
Si ahora X es el número de ensayos que son necesarios hasta conseguir el r-

ésimo éxito, entonces el modelo probabilı́stico de X viene dado por

x − 1 x−r r
f (x) = P (X = x) = q p , x = r, r + 1, . . .
r−1
Cuando el modelo probabilı́stico de una variable aleatoria X es de esta forma, se dice que X
tiene distribución de Pascal con parámetros r y p. Se denotará esto por: X ∼ P s(r, p).
Los valores esperados son: µX = r/p y σX2 = rq/p2 .
Ejemplo 3.5. Nuevamente en el contexto del proceso de Bernoulli de los ejemplos anteriores,
sea ahora la variable X definida como el número de clientes que debe visitar el promotor
hasta el tercero que compre el producto. Entonces, como el proceso es de Bernoulli y X puede
verse como el número de ensayos hasta lograr el tercer éxito, se tiene que X ∼ g(0, 75).
Ası́, la probabilidad de que el tercer cliente, que compre el producto, sea el x-ésimo visitado
es: P (X = x) = f (x) = x−1

3−1
(0, 25)x−3 (0, 75)3 , x = 3, 4, . . .
Propiedades:
a) La variable X tiene distribución geométrica con parámetro p si, y solo si, X tiene
distribución de Pascal con parámetros 1 y p.
b) La suma de variables independientes y cuya distribución sea geométrica tiene una

distribución de Pascal. Es decir, si X1 , . . . , Xn son variables aleatorias independientes,
Pn
con distribución geométrica de parámetro p, entonces, Xj tiene distribución de
j=1
pascal con parámetros r = n y p.
3.2. Modelos relacionados con un proceso de Poisson
En el proceso de Poisson se observa el evento de interés, E, en una región continua, como

por ejemplo un intervalo de tiempo o un área, y con los supuestos siguientes:
S1. La probabilidad de que ocurra E en una región de medida pequeña, ∆t, es

aproximadamente igual a ω ∆t, para cierta constante positiva ω independiente de
la medida de la región ∆t.
S2. La probabilidad de que ocurra E más de una vez en una región pequeña es casi nula.
S3. Las ocurrencias de E en regiones excluyentes son independientes.
82
Si E ocurre satisfaciendo los supuestos anteriores, entonces estamos frente a un

proceso de Poisson con tasa, o promedio de ocurrencias, ω por unidad de medida.
Ejemplo 3.6. Hoy que comenzamos a tomar más conciencia del problema de la
contaminación ambiental, podemos interesarnos en observar, durante cierto perı́odo del dı́a,
los vehı́culos que pasan contaminando el ambiente por determinada avenida. Supongamos
que se cumplen:
S1. La probabilidad de que pase un vehı́culo contaminando el ambiente en una región
de medida pequeña, ∆t, es aproximadamente proporcional a dicha medida, esto es,
aproximadamente igual a ω∆t, para cierta constante positiva ω independiente de la
medida de la región ∆t, digamos ω = 2 vehı́culos por minuto.
S2. La probabilidad de que pase más de una vehı́culo contaminando el ambiente en un

intervalo de tiempo muy pequeño es casi nula.
S3. Las ocurrencias de las llegadas de los automóviles que pasan contaminando el ambiente,
en regiones excluyentes, son independientes.
En este caso, los automóviles pasan contaminando el ambiente según un proceso de Poisson,
con una tasa de 2 automóviles por minuto.
Veamos ahora las variables aleatorias y distribuciones de probabilidad que se generan a

partir de un proceso de Poisson, cada una tiene su análoga en el proceso de Bernoulli.
3.2.1. El modelo o distribución de Poisson
Si definimos X como el número de ocurrencias de E en una región de medida

t, entonces, el modelo probabilı́stico de X viene dado por:
e−λ λx
f (x) = P (X = x) = , x = 0, 1, . . . con λ = ωt.
x!
X tiene distribución de Poisson con parámetro λ. Se denotará esto por: X ∼ P (λ).
Los valores esperados son: µX = λ y σX2 = λ.

Ejemplo 3.7. En el ejemplo 3.6, si X es el número de vehı́culos que pasen, durante un
perı́odo de media hora, contaminando el ambiente, entonces X tiene distribución de Poisson
con parámetro λ = ω t = 2 vehı́culos
minuto × 30 minutos = 60 vehı́culos.
Ası́, la probabilidad de que, durante un perı́odo de media hora, pasen x vehı́culos que
contaminen el ambiente es:
e−60 (60)x
P (X = x) = f (x) = , x = 0, 1, . . .
x!
83
En particular, la probabilidad de que, durante un perı́odo de media hora, no pasen vehı́culos

que contaminen el ambiente es:
e−60 (60)0
P (X = 0) = f (0) = = e−60 = 8, 8 × 10−27 .
0!
O la probabilidad de que, durante un perı́odo de media hora, pasen entre 59 y 61 vehı́culos

que contaminen el ambiente es:
e−60 (60)59 e−60 (60)60 e−60 (60)61

P (59 ≤ X ≤ 61) = f (59) + f (60) + f (61) = + + = 0, 1535.
59! 60! 61!
También podemos obtener probabilidades a partir de la distribución acumulada, F, la cual

se obtiene con la ayuda de una computadora, por ejemplo, la probabilidad de que, durante
un perı́odo de media hora, pasen entre 50 y 70 vehı́culos que contaminen el ambiente es:
P (50 ≤ X ≤ 70) = f (50) + . . . + f (70) = F (70) − F (49) = 0, 9098 − 0, 0844 = 0, 8254.
Propiedades:
a) Este proceso es estacionario en la región de observación, en el sentido que, la

distribución del número de éxitos solo depende de la medida de la región de observación
y no de la parte de la región escogida para la observación.
Ası́, el número de vehı́culos que pasan contaminando el ambiente en un perı́odo de una
hora deberı́a comportarse probabilı́sticamente igual si el perı́odo es de ocho a nueve de
la mañana o si es de ocho de la noche a nueve de la noche. Lo que ocurre en la realidad
es que a veces la tasa del proceso no es la misma a lo largo del tiempo, es decir, existen
procesos con tasas heterogéneas.
b) La distribución de Poisson puede verse como un caso lı́mite de la distribución binomial.

En efecto, si el número de observaciones, n, crece indefinidamente y p tiende a cero, de
modo que np tienda a λ, la distribución binomial tiende a una distribución de Poisson
con parámetro λ.
Una forma de entender la anterior propiedad es la siguiente: dividamos la región de
observación en una gran cantidad, n, de partes muy pequeñas y excluyentes. Tenemos,
entonces, una secuencia de n partes y el número de éxitos en la región puede obtenerse
observando la cantidad de éxitos en cada una de estas partes muy pequeñas; pero
por los supuesto S2 y S3, puede decirse que en cada una de estas partes solo puede
ocurrir una o ninguna vez el evento de interés y que además estas ocurrencias son
independientes, por lo tanto, el número de éxitos en estas n partes muy pequeñas
(que también da el número de éxitos en toda la región) sigue, aproximadamente, una
distribución binomial, esto es, se estarı́a aproximando la distribución binomial a la de
Poisson.
84
3.2.2. El modelo o distribución exponencial
En el proceso de Poisson, si definimos X como la medida de la región que habrá que

observar hasta que se presente el primer éxito, entonces, se puede verificar que la
distribución de probabilidades de X es dada por
f (x) = βe−βx , x > 0; siendo β = ω.
Cuando la densidad de una variable aleatoria X es de esta forma, se dice que X tiene
distribución exponencial con parámetro β. Se denotará esto por: X ∼ exp(β).
A continuación se muestran las gráficas de la densidad y de la distribución acumulada:
Los valores esperados son: µX = 1/β y σX2 = 1/β 2 .

Rx
La distribución acumulada: F (x) = P (X ≤ x) = βe−βt dt = 1 − e−βx , x > 0.
0
Ejemplo 3.8. Nuevamente en el contexto del ejemplo 3.6, tenemos que la variable X,
definida como el tiempo (en minutos) que hay que esperar hasta que pase el primer vehı́culo
contaminando el ambiente, sigue una distribución exponencial con parámetro β = 2, esto
si medimos el tiempo en minutos (recuérdese que la tasa del proceso de llegadas de los
vehı́culos que contaminan el ambiente es ω = 2 vehı́culos
minuto ). Ası́, su modelo probabilı́stico
está determinado por la función f (x) = 2e−2x , x > 0; y su función de distribución acumulada
es dada por: F (x) = 1 − e−2x , x > 0. En particular, la probabilidad de que sea necesario
esperar menos de cinco minutos hasta que pase el primer vehı́culo que contamine el ambiente
es:
P (X < 5) = P (X ≤ 5) = F (5) = 1 − e−2(5) = 0, 99995.
Propiedad: esta es la única distribución continua que satisface:
P (X > t + h / X > t) = P (X > h), ∀ h, t > 0.
Según lo indicado en el caso de la distribución geométrica, se dice que la distribución

no tiene memoria. Por ejemplo, si suponemos que la duración de una computadora tiene
una distribución exponencial y si tenemos que al cabo de dos años, esta aún no se ha
malogrado, entonces el riesgo de malograrse dentro del año siguiente, serı́a el mismo que el
correspondiente a cuando esta era nueva. Una interpretación que se le puede dar a esto, al
parecer increı́ble, es que cuando la computadora falla se debe a causas incidentales.
85
3.2.3. Modelo o distribución gamma
En el proceso de Poisson, si definimos ahora X como la medida de la región que

se debe observar hasta que se presente el r - ésimo éxito; entonces, el modelo
probabilı́stico, o función de densidad, de X es dado por
β α xα−1 e−βx
f (x) = , x > 0,
Γ(α)
con α = r, β = ω > 0 y Γ la función gamma.
Cuando la densidad de una variable aleatoria X es de esta forma, se dice que X tiene
distribución gamma con parámetros α y β. Se denotará esto por: X ∼ G(α, β).
Observación
Z ∞ 3.1. La función gamma, Γ, se define para todo y > 0, como: Γ(y) =
√
ty−1 e−t dt. Tiene las propiedades siguientes: Γ(y + 1) = yΓ(y); Γ(0, 5) = π y si y
0
es natural positivo Γ(y) = (y − 1)!
La distribución gamma se extiende para todo α positivo y también se le conoce como la

distribución de Pearson Tipo-III ; y cuando α es un número natural también se denomina
distribución de Erlang.
La gráfica de la densidad es como se muestra a continuación:
Los valores esperados son: µX = α/β y σX2 = α/β 2 .
Si el parámetro α es un número natural, la distribución acumulada tiene la forma siguiente:

α−1 −βx
X e (βx)j
F (x) = 1 − , x > 0.
j=0
j!
Ejemplo 3.9. Siguiendo con los ejemplos anteriores, si definimos la variable X como el
tiempo (en minutos) que habrá que esperar hasta que pase el quinto vehı́culo contaminando el
ambiente, tenemos que X tiene distribución gamma con parámetros α = 5 y β = 2. Podemos,
por ejemplo, obtener la probabilidad de que el quinto vehı́culo que pase contaminando el
ambiente lo haga luego de cuatro minutos:
5−1 −2(4)
X e (2(4))j
P (X > 4) = 1 − P (X ≤ 4) = 1 − F (4) = 1 − (1 − ) = 0, 0996.
j=0
j!
86
Propiedades. Este modelo tiene, entre otras, las propiedades siguientes:
a) Se cumple que X tiene distribución exponencial de parámetro β, si y solo si, X tiene

distribución Gamma de parámetros α = 1 y β.
b) Si X1 , . . . , Xn son variables aleatorias independientes y con distribución exponencial

Pn
de parámetro β, entonces la suma tiene distribución gamma: Xj ∼ G(n, β).
j=1
3.3. Modelo gaussiano o distribución normal
Si la densidad de una variable aleatoria X está dada por

1 (x−µ)2
f (x) = √ e− 2σ2 , −∞ < x < ∞; con σ > 0 y µ ∈ R.
2πσ
Se dice que X tiene distribución normal o gaussiana, con parámetros µ y σ 2 . Esto lo
denotamos por X ∼ N (µ, σ 2 ).
La gráfica de esta función es de la forma siguiente:
Es decir, la gráfica tiene forma de campana y es simétrica alrededor de µ, con inflexiones

en µ − σ y µ + σ. Además, las áreas a los extremos de la media tienden a cero conforme se
distancian de esta; tanto ası́ que, con fines prácticos, si consideramos solo cuatro decimales
el rango de la variable se reduce al intervalo [µ − 4σ; µ + 4σ], es decir, fuera de este intervalo
f (x) es aproximadamente cero.
Los valores esperados son: µX = µ y σX2 = σ 2 .
Observación 3.2.
a) Si µ = 0 y σ = 1 : la distribución se llama normal estándar.

Es decir, si Z ∼ N (0; 1) :
1 z2
f (z) = √ e− 2 , −∞ < z < ∞ .
Z 2π
b) No hay una fórmula explı́cita para la distribución acumulada; pero existen tablas para
la distribución normal estándar, ası́, para poder usarlas previamente se debe pasar
a la forma estándar, como se indica en la segunda de las propiedades que se dan a
continuación. Sin embargo, debe mencionarse que hoy en dı́a estas tablas están cayendo
en desuso, la razón es obvia: las computadoras.
87
c) Originalmente esta distribución fue propuesta por Karl Gauss (1777-1855) para
modelar errores (en el ejemplo siguiente se ilustra esta situación)
3.3.1. Propiedades del modelo gaussiano o normal
A continuación veremos las propiedades de este modelo.
1. Propiedad de cerradura respecto a transformaciones lineales.
Si X tiene distribución normal, entonces, la transformación lineal Y = a + bX, para b 6= 0,

también tiene distribución normal. Es decir,
X ∼ N (µX ; σX2 ) e Y = a + bX ⇒ Y ∼ N (µY ; σY2 ), con µY = a + bµX y σY2 = b2 σX2 .
Ejemplo 3.10. Al medir con cierto instrumento la longitud, µ, de un objeto, se produce un

error aleatorio, . Es muy razonable modelar este error con el modelo normal, con media 0
mm y desviación estándar σ mm .
A continuación determinamos el modelo probabilı́stico que describe a X, la medición

resultante. Para este fin, notemos que X = µ + , es decir, X es una transformación lineal
de y este tiene distribución normal, es decir, ∼ N (0; σ 2 ).
Por lo tanto, por la propiedad anterior: X ∼ N (µ; σ 2 ).
2. Propiedad de estandarización
Cualquier distribución normal puede convertirse en una normal estándar. En efecto, si X

tiene distribución normal y consideramos
X − µX
Z= ;
σX
X − µX
entonces, Z ∼ N (0, 1). Es decir: X ∼ N (µX ; σX2 ) y Z = ⇒ Z ∼ N (0, 1).
σX
Por lo tanto:
x−µX
F (x) = F ( σX
)
X Z
Esta transformación se deduce de la primera propiedad, y se la conoce como fórmula de

estandarización.
Ejemplo 3.11. Los ingresos en cierto sector pueden ser modelados por una variable X con
distribución normal de media 20 unidades monetarias (u.m.) y desviación estándar de 5 u.m.
A manera de ejemplo, calculemos la probabilidad de que el ingreso de un trabajador de este

sector sea superior a 22 u.m., es decir, la probabilidad P (X > 22). Para esto obtenemos
88
primero FX (22), y tenemos dos formas de obtener esta probabilidad acumulada: con la
computadora, o con una tabla de la distribución normal estándar.
Si usamos el Excel, solo debemos pedir FX (22) y se obtendrá inmediatamente FX (22) =

0, 6554. Por lo tanto, P (X > 22) = 1 − FX (22) = 1 − 0, 6554 = 0, 3446.
Si usamos una tabla de la distribución normal estándar, como nuestra variable X no es

estándar, previamente debemos estandarizarla según la segunda propiedad de la distribución
normal:
X−20
En este caso Z = 5
∼ N (0; 1), ası́:
22 − 20
FX (22) = FZ = FZ (0, 4) = 0, 6554.
5
Para hacer un cálculo más, supongamos que en este sector solo los ingresos superiores a 25
u.m. están sujetos a un impuesto extraordinario; y queremos averiguar, para el sector de
trabajadores que ganan más de 22 u.m. , cuál es el porcentaje que paga este impuesto.
En este caso basta obtener la probabilidad:
P (X > 25 ∩ X > 22) P (X > 25) 1 − F (25) 0, 1587

X
P (X > 25/ X > 22) = = = = = 0, 4604.
P (X > 22) P (X > 22) 1 − F (22) 0, 3446
X
Las probabilidades anteriores se han obtenido usando el programa Excel; pero también
pueden obtenerse usando una tabla de la distribución normal estándar.
25−20

F (25) = F 5
= F (1) = 0, 8413;
X Z Z
Y como ya se obtuvo antes:
22−20

F (22) = F 5
= F (0, 4) = 0, 6554.
X Z Z
Ası́, el porcentaje buscado es 46,04 %.
3. Propiedad de cerradura de la distribución normal, respecto de la suma.
La suma de variables normales e independientes sigue teniendo distribución normal:
Si X1 , . . . , Xn son variables aleatorias independientes y con distribución normal, entonces,

Pn
la suma de ellas, T = Xj , también tiene distribución normal:
j=1
n
X n
X
T ∼ N (µT ; σT2 ), con µT = µXj y σT2 = σX2 .
j
j=1 j=1
En este caso:
T − µT
Z= ∼ N (0, 1).
σT
89
Observación 3.3. La propiedad anterior requiere las aclaraciones siguientes:
Se dice que las variables aleatorias X1 , . . . , Xn son independientes, cuando para cada Ai ,
conjunto de valores posibles para Xi , se tiene que:
P (X1 ∈ A1 ∩ . . . ∩ Xn ∈ An ) = P (X1 ∈ A1 ) . . . P (Xn ∈ An )
La esperanza de una suma de variables aleatorias es igual a la suma de sus esperanzas, es

n
P P n
decir: E Xj = E(Xj ).
j=1 j=1
Y cuando las variables son independientes, la varianza de su suma es igual a la suma de sus
n
P Pn
varianzas, es decir: V ( Xj ) = V (Xj ).
j=1 j=1
Además, si a esta propiedad le añadimos la de linealidad, tenemos que:

n n n
aj Xj ∼ N (µT ; σT2 ), con µT = a0 + aj µXj y σT2 = a2j σX2 , con
P P P
T = a0 +
j
j=1 j=1 j=1
a0 , a1 , . . . , an constantes, con por lo menos una de estas distinta de cero.
Ejemplo 3.12. En el contexto del ejemplo anterior, supongamos que para 10 trabajadores,
cuyos ingresos son independientes, interesa determinar la probabilidad de que la suma de los
ingresos correspondientes esté entre 190 u.m. y 240 u.m.
Para este fin, consideremos las variables Xj , el ingreso del j-ésimo trabajador, j = 1, . . . , 10.
10
P
Ası́, la suma los ingresos es T = Xj ; e interesa obtener la probabilidad P (190 ≤ T ≤ 240).
j=1
Tenemos que estas variables Xj tienen distribución normal (Xj ∼ N (20, 52 )) y son
independientes, entonces podemos aplicar esta propiedad de cerradura respecto de la suma
P10
para establecer que T = Xj , también sigue una distribución normal; pero con una media,
j=1
µT , igual a la suma de las medias, es decir, µT = 200, y una varianza, σT2 , igual a la suma
de las varianzas, es decir, σT2 = 250.
Ası́, T ∼ N (200, 250) y P (190 ≤ T ≤ 240) = FT (240) − FT (190) = 0, 9943 − 0, 2635 =

0, 7307.
Para calcular las probabilidades anteriores con la distribución normal estándar debe
considerarse la variable:
T − µT T − 200
Z= = √ .
σT 250
Ası́, FT (240) = FZ 240−200 = FZ (2, 53) = 0, 9943 y FT (190) = FZ 190−200

√
250
√
250
= FZ (−0, 63).
Ejemplo 3.13. En el contexto del ejemplo 3.10, suponga que para determinar la verdadera
longitud del objeto, µ, se realizarán n mediciones independientes con las caracterı́sticas
mencionadas. Luego, se estimará µ con la media aritmética de las mediciones efectuadas, X̄.
90
a) Deducir la distribución de T = X1 + . . . + Xn , la suma de las mediciones efectuadas,

y a partir de esta deduzca la de X̄.
b) Deducir la distribución de X̄.
c) Si n = 4 y σ = 5, halle la probabilidad de que el error de estimación, |X̄ − µ|, sea a lo

sumo 2 mm .
Solución:
a) Por lo visto en el ejemplo 3.10, cada una de las mediciones X1 , . . . , Xn tiene
distribución normal, con media µ y desviación estándar σ, además estas son
independientes, entonces, por la propiedad anterior de la distribución normal, la suma
de estas variables, T, tiene distribución normal con media µT = µX1 + . . . + µXn = n µ
y varianza σT2 = σX2 + . . . + σX2 n = n σ 2 , es decir, T ∼ N (n µ; n σ 2 ).
1
T
b) Como T ∼ N (n µ; n σ 2 ) y X̄ = es una transformación lineal de T , entonces la
n
primera propiedad de la distribución normal establece que X̄ también tiene distribución
2
normal, pero con media: µX̄ = n1 µT = µ, y varianza: σX̄2 = n12 σT2 = σn , es decir,
2
X̄ ∼ N (µ; σn ).
c) Queremos determinar la probabilidad P (|X̄ − µ| ≤ 2) = FX̄ (µ + 2) − FX̄ (µ − 2).

2
La deducción anterior aplicada a este caso da: X̄ ∼ N (µ; 54 ). Es claro que no se
puede usar directamente FX̄ , la distribución acumulada de X̄, porque el valor de µ es
desconocido; sin embargo con la estandarización sı́ lo será.
X̄ − µ X̄ − µ
En efecto, en este caso Z = 5 = ∼ N (0; 1),
2
2, 5
luego: FX̄ (µ + 2) − FX̄ (µ − 2) = FZ µ+2−µ − FZ µ−2−µ

2,5 2,5
= FZ (0, 8) − FZ (−0, 8) = 0, 7881 − 0, 2119 = 0, 5763.
Observación 3.4. (Muestra aleatoria y distribución de la media de una muestra)
Si X es una variable aleatoria, una muestra aleatoria de X, de tamaño n, es un conjunto de

n variables aleatorias, X1 , . . . , Xn , independientes y con la misma distribución que la de X.
Como consecuencia del ejemplo anterior se tiene el resultado siguiente:
Si X1 , . . . , Xn es una muestra aleatoria de una variable, X, con distribución normal de

media µX y varianza σX2 , entonces, su media aritmética, X̄, tiene distribución normal con
σ2 σ2
media µX y varianza X , es decir: X̄ ∼ N (µ; ).
n n
4. Teorema del lı́mite central (T.L.C.)
La suma de muchas variables independientes tiene una distribución aproximadamente

normal. En efecto, si las variables X1 , . . . , Xn son independientes y n es suficientemente
grande, entonces:
91
n
Xj , tiene aproximadamente distribución normal de media µT y varianza σT2 , con
P
T =
j=1
n n
aprox.
µXj y σT2 = σX2 , es decir, T ∼ N (µT , σT2 ).
P P
µT =
j
j=1 j=1
En particular, si las Xj tienen la misma distribución: µT = nµ y σT2 = nσ 2 , con µ y σ 2 la

media y varianza común a todas las variables Xj .
Ejemplo 3.14. Un inversionista recibe 100 utilidades, las cuales pueden ser consideradas
como variables aleatorias independientes de igual distribución, con una media de 5 u.m. y
una desviación estándar de 0,5 u.m. Interesa saber la probabilidad de que la utilidad total
recibida por el inversionista sea menor que 510 u.m. (el mı́nimo previsto). Para averiguar
lo deseado consideremos, como en el ejemplo anterior, las variables: Xj , la j-ésima utilidad
recibida, j = 1, . . . , 100. Como estas variables son muchas e independientes, entonces, por
la cuarta propiedad de la distribución normal (el teorema del lı́mite central), la suma de
100
P
estas, T = Xj , sigue aproximadamente una distribución normal con media µT , igual a la
j=1
suma de las medias, y varianza σT2 , igual a la suma de las varianzas, es decir, µT = 500 y
σ 2 = 25. Entonces tenemos que T ∼ N (500, 25), luego podemos obtener la probabilidad de
interés directamente con el Excel. Es decir: P (T < 510) = FT (510) = 0, 9772.
Obsérvese que, en este caso, para usar la distribución normal estándar debe considerarse la
variable:
T − µT T − 500
Z= = ∼ N (0; 1).
σT 5
Ası́, el cálculo de la probabilidad que interesa resulta ahora:
510−500

FT (510) = P (T ≤ 510) = FZ 5
= FZ (2) = 0, 9772.
Ejemplo 3.15. En el contexto del ejemplo anterior, ¿cuál serı́a la probabilidad de que la
media de las utilidades recibidas sea menor o igual a 5,1 u.m.? Ahora se desea averiguar el
100
P
valor de la probabilidad P (X̄ ≤ 5, 1), con X̄ = Xj /100 = T /100.
j=1
T
Ası́: P (X̄ ≤ 5, 1) = P ( 100 ≤ 5, 1) = P (T ≤ 510) = FT (510) = FZ (2) = 0, 9772.
100
P
También puede deducirse la distribución de X̄ a partir de la de T = Xj . En efecto, como
j=1
T
X̄ = 100
y T ∼ N (500; 25), entonces, por la propiedad de linealidad de la distribución
µT 500 σ2 25
normal, tenemos que: X̄ ∼ N (µX̄ , σX̄2 ), con µX̄ = 100
= 100
= 5, y σX̄2 = T
1002
= 1002
=
0, 0025, es decir, X̄ ∼ N (5; 0, 0025).
X̄−5
Para usar la distribución normal estándar tenemos que: Z = 0,05
∼ N (0, 1). Ası́,
P (X̄ ≤ 5, 1) = FX̄ (5, 1) = FZ 5,1−5

0,05
= FZ (2) = 0, 9772.
92
3.4. Modelo o distribución lognormal
Se dice que una variable aleatoria, X, tiene distribución lognormal si, y solo si, la
transformación logaritmo natural de X, Ln(X), tiene una distribución normal. Puede
verificar que la densidad es la siguiente:
(lnx − µ)2
f (x) = √ 1 −
x−1 e 2σ 2 , x > 0.
2πσ
Esto lo denotamos por: X ∼ logN (µ; σ 2 ).
Las constantes µ ∈ R y σ 2 > 0, son los parámetros del modelo y estos son también los
parámetros de la distribución de Ln(X), es decir, se tiene que Ln(X) ∼ N (µ, σ 2 ).
La gráfica de la función de densidad es de la forma siguiente:
(2µ+σ 2 )/2 2µ+σ 2 σ2 σ2

Los valores esperados son: µX = e y σX2 = e (e − 1) = µ2X (e − 1).
Observación 3.5. En general este modelo es útil para describir datos con valores positivos
y distribución asimétrica, como suele ocurrir con los ingresos o algunos precios.
En la economı́a y las finanzas esta distribución aparece, por ejemplo, cuando el valor de cierta
inversión es el resultado de muchas variaciones ocasionadas por incrementos o reducciones
aleatorias, cada variación reduce o aumenta el valor actual en una proporción aleatoria. Esto
se conoce como la Ley de fragmentación de Kolmogorov. Una explicación de la validez de
esta ley se muestra en el ejemplo siguiente.
Ejemplo 3.16. En la enésima operación, de una serie de operaciones financieras, se invierte
el capital acumulado, cuyo valor es Xn unidades monetarias (u.m.). La tasa de rentabilidad
de esta operación se define como
Xn − Xn−1
Rn = ,
Xn−1
con Xn−1 el valor del capital acumulado disponible antes de realizar la operación.
Sigue inmediatamente que el valor del capital acumulado, Xn , en función del capital invertido
(Xn−1 ) y la tasa de rentabilidad de esta inversión (Rn ), está dada por:
Xn = (1 + Rn )Xn−1
93
Y si usamos Wn = 1 + Rn , que se conoce como el factor de capitalización, tenemos que:
Xn = Wn Xn−1
De aquı́ no es difı́cil verificar que Xn = W1 , . . . , Wn X0 , con X0 el valor del capital inicial

(un valor conocido).
Y si en esta última ecuación tomamos logaritmos resulta que:
Ln(Xn ) = Ln(W1 ) + Ln(W2 ) + . . . + Ln(Wn ) + Ln(X0 ).
Supongamos un contexto financiero de incertidumbre según el cual las tasas de rentabilidad,

Ri , son variables aleatorias independientes, entonces, ası́ también los serán los factores de
capitalización, Wi . Si además de este supuesto tenemos muchas operaciones, entonces, por el
teorema del lı́mite central tendremos que Ln(Xn ) tendrá aproximadamente una distribución
normal y, por lo tanto, Xn una distribución lognormal.
Entonces, podemos decir que el valor del capital al cabo de muchas operaciones (en el largo
plazo) sigue una distribución lognormal.
Ejemplo 3.17. Actualmente en finanzas se ha hecho bastante conocido el modelo de precios

de Black-Scholes1 . Por ejemplo, según este modelo, la ecuación que describe la evolución
del precio de un stock en el tiempo es de la forma:
1 2
St = S0 exp [ (µ − σ ) t + σXt ], t > 0, (1)
2
donde: S0 > 0 es el precio inicial del stock; µ es el valor esperado de la tasa instantánea de
rentabilidad; σ > 0 es la volatilidad del stock (estos últimos no se consideran aleatorios sino
constantes) y Xt es una variable aleatoria con distribución normal, de media cero y varianza
t, es decir, Xt ∼ N (0, t).
El modelo anterior puede escribirse como:

1 2
LnSt = LnS0 + (µ − σ ) t + σXt (2)
2
Y como Xt tiene distribución normal, entonces, por la primera propiedad de la distribución
normal, Ln(St ) también tendrá distribución normal, es decir:
1
LnSt ∼ N ( LnS0 + (µ − σ 2 )t; σ 2 t ) (3)
2
Por lo tanto, la distribución de St es lognormal.
Para ilustrar el uso de este modelo supongamos que el valor inicial del stock sea 20 u.m. ,
que el valor esperado de la tasa instantánea de rentabilidad sea 0,2 y que la volatilidad del
stock sea 0,4. Entonces, reemplazando estos valores en la ecuación (3), tenemos que:
LnS5 ∼ N (2, 795; 0, 8 )

1
Veáse Lars Tyge Nielsen (1999), ejemplo 1.7, pág. 13.
94
En particular, la probabilidad de que el precio del stock, después de 5 unidades de tiempo,

sea inferior a 55 u.m. está dada por:
P (S5 < 55) = P (Ln(S5 ) < Ln(55)) = P (Ln(S5 ) < 4) = F (4) = 0, 911.
Ln(S5 )
Ln(S5 ) − 2,795
Y para usar la normal estándar tenemos que Z = √
0,8
∼ N (0, 1).
4−2,795

Ası́: F (4) = F √
0,8
= F (1, 35) = 0, 911.
Ln(S5 ) Z Z
3.5. Modelo o distribución hipergeométrica
Si de una población con N elementos, de los cuales M son de interés, se toma una muestra
aleatoria de n elementos; y definimos X como el número de elementos de interés en la
muestra, entonces el modelo probabilı́stico de X viene dado por:
N −M
CxM Cn−x
f (x) = P (X = x) = , x = 0, 1, . . . , n.
CnN
Cuando la ley de probabilidad de una variable aleatoria X es ası́, se dice que tiene una
distribución hipergeométrica con parámetros N , M y n.
Se denotará esto por: X ∼ H(N, M, n).

Observación 3.6. en realidad X asume valores que van, desde el mayor de los valores entre
0 y n − (N − M ), hasta el menor de los valores de n y M , es decir, no necesariamente entre
0 y n.
−n
2
Los valores esperados son: µX = np y σX = npq( N
N −1
), siendo p = M
N
y q = 1 − p.

Observación 3.7. Si la muestra es con reposición, X ∼ b(n, p); y si N es muy grande, en
relación con n, la distribución hipergeométrica se aproxima a la binomial.
Ejemplo 3.18. En el ejemplo 2.1 del capı́tulo anterior, la variable X, el número de empresas
del tipo a en la muestra de tamaño 4, tomada de la población de 20 empresas entre las cuales
5 son del tipo a, sigue una distribución hipergeométrica con parámetros: N = 20, M = 5 y
n = 4. Ası́, su modelo probabilı́stico está dado por la función:
5
15
x 4−x
f (X = x) = P (X = x) = 20
, para cualquier x ∈ RX = { 0, 1, 2, 3, 4 }.
4
3.6. Modelo o distribución uniforme
Si una variable aleatoria X tiene como rango a un intervalo de extremos finitos, a y b, y

su densidad es constante, es decir, dada por:
95
1
f (x) = , a ≤ x ≤ b.
b−a
Se dice que X tiene distribución uniforme. Denotamos esto por X ∼ U (a, b).
La gráfica de la densidad es la de una función constante:
a+b (b − a)2
Los valores esperados son: µX = y σX2 = .
2 12
x−a
La distribución acumulada: F (x) = P (X ≤ x) = , a ≤ x ≤ b.
b−a
Observación 3.8. Esta distribución es adecuada para describir a una variable que asuma
sus valores uniforme o indistintamente en un intervalo de extremos finitos.
Propiedad: Sea U una variable aleatoria con distribución uniforme en el intervalo [0, 1], es
decir, U ∼ U [0, 1], y X una variable aleatoria con distribución acumulada F.
Caso 1: Si X es continua podemos asumir que F es continua sobre RX y suponiendo

que esta sea estrictamente creciente, entonces tendrá una inversa F −1 . Definimos para cada
0 ≤ u ≤ 1 : G(u) = F −1 (u).
Caso 2: Si X es discreta, definimos para cada 0 ≤ u ≤ 1 : G(u) = min{x ∈ RX / F (x) ≥ u}
Entonces, en ambos casos, la variable transformada de U, G(U ), tiene la misma distribución

d
que la de X: G(U ) = X.
Observación 3.9. La propiedad anterior nos dice cómo transformar una variable aleatoria
con distribución uniforme en [0, 1], U ∼ U [0, 1], en otra que tenga una distribución deseada.
Esto permite generar valores de una distribución arbitraria, a partir de valores generados de
una distribución uniforme y es la técnica más conocida en simulación. Es decir, si u1 , . . . , un
son n valores generados de una distribución uniforme entre 0 y 1, entonces, los valores
asociados a una variable X, con distribución con acumulada F, se pueden generar como
sigue.
En el caso que X sea continua, consideraremos:
xj = F −1 (uj ) ⇔ uj = F (xj ), j = 1, . . . , n.
Y en el caso que X sea discreta:
xj = G(uj ) = min{x ∈ RX / F (x) ≥ uj }, j = 1, . . . , n.
96
Ejemplo 3.19. Simulemos 50 valores de una variable aleatoria, X, con modelo exponencial
con parámetro β = 1/4.
Para generar, mediante simulación, 50 valores de X : x1 , . . . , x50 . Primero simulamos 50

valores de una variable aleatoria con distribución uniforme en [0, 1], U ∼ U (0; 1). Por
ejemplo, con una computadora y el Excel obtenemos los números aleatorios siguientes:
0,674 0,558 0,682 0,914 0,104 0,273 0,854 0,430 0,508 0,089
0,696 0,926 0,271 0,073 0,817 0,639 0,005 0,947 0,906 0,449
0,734 0,126 0,732 0,493 0,194 0,470 0,019 0,191 0,870 0,785
0,070 0,973 0,948 0,592 0,580 0,479 0,832 0,208 0,522 0,524
0,377 0,661 0,519 0,603 0,504 0,480 0,614 0,213 0,345 0,878
Como X es continua, podemos considerar xj = G(uj ) = F −1 (uj ), j = 1, . . . , 50.

Ası́, ya que X ∼ exp(1/4), se tiene que F (x) = 1 − e−x/4 , x > 0.
Luego:
xj = F −1 (uj ) ⇔ uj = F (xj ) = 1 − e−xj /4 ⇔ xj = −4Ln(1 − uj ), j = 1, . . . , 30.
De este modo se obtienen los valores deseados:
4,480 3,263 4,582 9,815 0,439 1,277 7,683 2,246 2,833 0,374
4,761 10,406 1,266 0,305 6,800 4,072 0,019 11,770 9,442 2,382
5,299 0,537 5,274 2,715 0,864 2,540 0,077 0,850 8,168 6,152
0,290 14,506 11,861 3,589 3,471 2,611 7,137 0,932 2,951 2,973
1,891 4,330 2,930 3,691 2,801 2,618 3,806 0,956 1,695 8,429
Si consideramos estos datos generados como una muestra aleatoria de X existe una técnica
llamada “bondad de ajuste” para verificar que efectivamente el modelo de esta variable es uno
especificado, en este caso exponencial con parámetro β = 1/4. A continuación aplicaremos
esta técnica que requiere una muestra grande, como lo es en este caso, pero solo en la etapa
descriptiva y no en la de inferencia.
Empezamos por ver cómo es la distribución de frecuencias de la muestra generada:
X 0−3 3−6 6−9 9−∞

frecuencia observada 26 12 7 5
frecuencia relativa observada 0, 52 0, 24 0, 14 0, 1
97
Se observa una tendencia decreciente, como ocurre en un una distribución exponencial; pero
esto -incluso en esta etapa descriptivo- aún resulta impreciso, pues esta gráfica depende del
número de intervalos y además solo esta forma del polı́gono no garantiza que la distribución
exponencial con el parámetro especificado (β = 1/4). Entonces, debemos comparar las
frecuencias observadas (las de los valores obtenidos para X) con las frecuencias esperadas,
según la distribución supuesta para X (en este caso exp (1/4)). A continuación expresamos
los valores de estos tipos de frecuencias en la tabla siguiente:
X 0−3 3−6 6−9 9−∞

frecuencia observada (oj ) 26 12 7 5
frecuencia relativa observada (fj ) 0, 52 0, 24∗ 0, 14 0, 1
frecuencia relativa esperada (pj ) 0, 5276 0, 2492∗∗ 0, 1177 0, 1054
frecuencia esperada (ei = npj ) 26,3817 12, 4618∗∗∗ 5,8865 5,2700
Se observa que las frecuencias observadas están próximas a las esperadas. Por lo tanto, el
modelo especificado parece ajustar a los datos; es decir, la simulación parece haber sido
adecuada. ∗ 0, 24 = 12/50; ∗∗ 0, 2492 = FX (6) − FX (3); ∗∗∗ 12, 4618 = 50 × 0, 2492.
También se acostumbra ilustrar la conclusión con la llamada gráfica de probabilidades, es

decir, la gráfica de las frecuencias relativas esperadas (probabilidades esperadas según el
modelo) con las correspondientes a las observadas:
Se observa que las frecuencias observadas están próximas de las esperadas. Por lo tanto, la
simulación parece haber sido adecuada; es decir, generado datos según el modelo especificado.
Esto se cumple, pues el método para simular lo establece y la cantidad de datos es grande.
98
3.7. Modelo o distribución Beta
Se dice que la variable aleatoria X tiene modelo o distribución beta, si su función de

densidad está dada por:
Γ(α + β) α−1
f (x) = x (1 − x)β−1 , 0 ≤ x ≤ 1.
Γ(α)Γ(β)
con α > 0 y β > 0, los parámetros del modelo. Esto lo denotamos por X ∼ B(α; β).
A continuación se muestran las gráficas tı́picas de este modelo, para α 6= 1 y β 6= 1 :
α αβ
Los valores esperados son: µX = y σX2 = 2
.
α+β (α + β) (α + β + 1)
Observación 3.10. Esta distribución puede ser generalizada para un intervalo de extremos
arbitrarios, a < b, mediante el cambio de variable Y = a + (b − a)X. En este caso la densidad
de Y está dada por:
Γ(α + β)
fY (y) = (y − a)α−1 (b − y)β−1 /(b − a)α+β−1 , a ≤ y ≤ b.
Γ(α)Γ(β)
Además, la distribución uniforme en el intervalo de extremos 0 y 1 es un caso particular
de esta distribución. En efecto: X ∼ U (0; 1) ⇔ X ∼ B(1; 1). Ası́, el modelo beta es de
gran utilidad para modelar una variable aleatoria que asume sus valores en un intervalo de
extremos finitos y aun cuando no sea de manera uniforme, generalizando de este modo a la
distribución uniforme.
3.8. La función generadora de momentos
Definición 3.1. Si X es una variable aleatoria, se define su función generadora de momentos

MX : R → R, mediante: MX(t) = E(et X ).
t 7→ MX(t)
A continuación veamos la propiedad principal de la función generadora de momentos,

esta explica el nombre que se le da. Aunque la deduciremos para una variable discreta,
similarmente se puede deducir para el caso continuo.
99
Por la propiedad que permite obtener el valor esperado de una función de una variable
aleatoria, se tiene que:
MX(t) = E(et X )
X
= etx fX (x)
x∈RX
Entonces, al derivar respecto de t y evaluar en cero, obtenemos:

X
MX0 (t) = xetx fX (x)
x∈RX
X
0
MX (0) = xfX (x)
x∈RX
0
Entonces, MX (0) = E(X). Pero se debe observar que no siempre es posible hacer esta
derivación.
Y al derivar una vez más respecto de t y evaluar en cero, obtenemos:

X
MX00 (t) = x2 etx fX (x)
x∈RX
X
00
MX (0) = x2 fX (x)
x∈RX
Entonces, MX00 (0) = E(X 2 ). Generalizando, tenemos que MX(j) (0) = E(X j ).
Ejemplo 3.20. Si Z ∼ N (0; 1), entonces: MZ (t) = et
2 /2
∀t ∈ R. En efecto:
MZ (t) = E(etZ )
Z ∞
1 z2
= etz √ e − 2 dz
−∞ 2π
Z ∞
1 z2
= √ e tz− 2 dz
−∞ 2π
Z ∞
1 1 2
= √ e − 2 (z −2tz) dz
−∞ 2π
Z ∞
1 1 2 2 2
= √ e − 2 (z −2tz+t −t ) dz
−∞ 2π
Z ∞
1 1 2 1 2
= √ e − 2 (z−t) + 2 t dz
−∞ 2π
Z ∞
2 1 1 2
= e t /2 √ e − 2 (z−t) dz
2π
| −∞ {z }
1
= et
2 /2
, ∀t ∈ R.
Propiedad 1.
Si X es una variable aleatoria, con función generadora de momentos MX , e Y = a + bX;
entonces:
MY (t) = e a t MX (bt).
100
Ejemplo 3.21. Como se vio en el ejemplo anterior, si Z ∼ N (0; 1); entonces, MZ (t) =
2
e t /2 , ∀t ∈ R.
A partir de este resultado, usaremos la propiedad anterior para determinar la función

generadora de una normal con parámetros arbitrarios, X ∼ N (µ; σ 2 ).
Ası́, si X ∼ N (µ; σ 2 ) :
X = |{z}
a + |{z}
b Z
X −µ
Z= ∼ N (0; 1) ⇒ X = µ + σ Z;
σ

luego, por la propiedad anterior MY (t) = e a t MX (bt) :
MX (t) = eµ t MZ (σ t) = e tµ eσ
2 t2 /2
= e tµ+σ
2 t2 /2
; ası́, MX (t) = e tµ+σ
2 t2 /2
, ∀t ∈ R.
Propiedad 2.
La función generadora de momentos determina unı́vocamente el modelo probabilı́stico.
Ejemplo 3.22. Demostremos la propiedad de cerradura del modelo normal respecto de

la transformación lineal. Es decir, si X ∼ N (µX ; σX2 ) e Y = a + b X, entonces: Y ∼
N (a + b µX ; b2 σX2 ).
Para esto, hallaremos la función generadora de Y y veremos que esta corresponde a la de

una normal con parámetros a + b µX ; b2 σX2 , ası́ el resultado quedará garantizado por esta
última propiedad de la función generadora.
Como ya hemos visto, si X ∼ N (µX ; σX2 ), su función generadora está dada por:
2 2
MX (t) = e tµ+σ t /2 , ∀t ∈ .R
Luego, como Y = a+b X, entonces, por la propiedad 1 se puede derivar la función generadora
de momentos de Y a partir de la de X :
MY (t) = e a t MX (bt)
2 2
= e a t e btµX +σX (bt) /2 , ∀bt ∈ R
2 2 2
= e at+bµX t+b σX t /2
2 2
= e (a+b µX )t+(bσX ) t /2 , ∀t ∈ R.
Ası́, la función generadora de momentos de Y corresponde a la de una normal con parámetros

a + b µX ; y b2 σX2 ; y como la función generadora determine unı́vocamente el modelo, entonces
se puede afirmar que Y ∼ N (a + b µX ; b2 σX2 ).
Propiedad 3.
Si X1 , . . . , Xn son variables aleatorias independientes, entonces, la función generadora de

momentos de la suma es el producto de las correspondientes a estas variables:
M (t) = M (t) . . . M (t) .

X1 + · · · + Xn X1 Xn
101
Ejemplo 3.23. Demostremos la propiedad de cerradura del modelo normal respecto de la

suma de variables independientes.
Es decir, si Xj ∼ N (µXj ; σX2 ), para j = 1, . . . , n; entonces,
j
X1 + · · · + Xn ∼ N (µX1 + · · · + µXn ; σX2 + · · · + σX2 n ).

1
Para esto, hallaremos la función generadora de X1 + · · · + Xn y veremos que esta corresponde

a la de una normal con parámetros µX1 + · · · + µXn y σX2 + · · · + σX2 n , ası́ el resultado
1
quedará garantizado por esta última propiedad de la función generadora.
M (t) = M (t) ... M (t)

X1 + · · · + Xn X1 Xn
tµX +σ 2 t2 /2 tµX +σ 2 t2 /2
=e 1 X1
... e n Xn
tµX +σ 2 t2 /2 +... +tµX +σ 2 t2 /2

=e 1 X1 n Xn
t(µX +···+µX )+(σ 2 X +... + σ 2 )t2 /2

MX1 +···+Xn (t) = e 1 n 1 Xn
Que era lo que se querı́a demostrar, es decir, la función generadora de momentos de la suma
corresponde a la de una normal con parámetros µX1 + · · · + µXn y σX2 + · · · + σX2 n , por lo
1
tanto, este será el modelo de la suma: N (µX1 + · · · + µXn ; σX2 + · · · + σX2 n ).
1
102
Ejercicio 3.1.
En cierto sector del comercio, los establecimientos comerciales pueden pagar sus tributos a
tiempo, independientemente entre estos y en un porcentaje del 95 %.
a) Identifique la distribución de la variable X definida como el número de establecimientos,

entre 8 por inspeccionar, que paguen a tiempo sus tributos. A partir de esta distribución
determine la probabilidad del evento siguiente:
Por lo menos 6 de los 8 establecimientos paguen a tiempo sus tributos.
b) Identifique la distribución de la variable X definida como el número de establecimientos

que deben ser inspeccionados hasta que se encuentre el primero que haya pagado a
tiempo sus tributos. A partir de esta distribución determine la probabilidad del evento
siguiente:
El número de establecimientos inspeccionados, hasta el primero que pague sus
impuestos a tiempo, está entre 5 como mı́nimo y 15 como máximo.
c) Identifique la distribución de la variable X definida como el número de establecimientos

que deben inspeccionarse hasta que se encuentre el cuarto que haya pagado a tiempo sus
tributos. A partir de esta distribución determine la probabilidad del evento siguiente:
El número de establecimientos inspeccionados, hasta el cuarto que pague sus tributos
a tiempo, está entre 5 como mı́nimo y 7 como máximo.
Ejercicio 3.2.
En una empresa de transporte cada vehı́culo puede llegar a tiempo, independientemente de

otros vehı́culos y con una probabilidad de 0,6.
a) En un dı́a, la terminal espera el arribo de 20 vehı́culos; determine la probabilidad de

que por lo menos dos, de estos vehı́culos lleguen a tiempo. Debe definir una variable e
identificar (justificando) su modelo.
b) Halle la probabilidad de que el primer vehı́culo que llegue a tiempo sea por lo menos
el vigésimo. Debe definir una variable e identificar (justificando) su modelo.
c) Halle e interprete el valor esperado del número de vehı́culos hasta el primero que llegue
a tiempo.
d) Halle la probabilidad de que el tercer vehı́culo que llegue a tiempo sea por lo menos el
quinto. Debe definir una variable e identificar (justificando) su modelo.
103
Ejercicio 3.3.
Suponga que los usuarios de un sistema de información llegan de acuerdo con un proceso de
Poisson con una tasa de 2 usuarios por minuto.
a) Identifique la distribución de la variable X definida como el número de usuarios

que llegan al sistema en un perı́odo de cinco minutos. A partir de esta distribución
determine la probabilidad de que el número de usuarios que llegan al sistema en un
perı́odo de cinco minutos es por lo menos 6 y máximo 7.
b) Identifique la distribución de la variable X definida como el tiempo (en minutos) hasta

que llegue el primer usuario del sistema. A partir de esta distribución determine la
probabilidad de que se deba esperar entre 4 y 12 minutos hasta que llegue el primer
usuario.
c) Identifique la distribución de la variable X definida como el tiempo (en minutos) hasta

que llegue el tercer usuario del sistema. A partir de esta distribución determine la
probabilidad de que se espere por lo menos 3 minutos hasta que llegue el tercer usuario.
Ejercicio 3.4.
Una agencia bancaria (que nunca cierra para los clientes) divide su trabajo interno en
perı́odos. Durante cada perı́odo se debe realizar cierta operación de verificación, esta se
puede realizar mal con una probabilidad de 0,9 e independientemente en cada perı́odo.
a) ¿Cuán probable es que esta operación se realice mal después del quinto perı́odo?
b) Cada vez que dicha operación se realice mal se debe registrar algunos datos en una
ficha especial. Al empezar la jornada de trabajo de diez perı́odos el administrador se
da cuenta que solo dispone de cinco de estas fichas, pero no solicita más. Determine el
número esperado de fichas que serán usadas durante esta jornada de trabajo.
c) Determine la función de probabilidad de la variable aleatoria Y, definida como la

cantidad de perı́odos de trabajo antes de que se realice mal dicha operación.
Ejercicio 3.5.
Determine la probabilidad de que por lo menos dos vehı́culos lleguen a tiempo en cada una
de las situaciones siguientes:
a) hay 20 vehı́culos en total, además, se sabe que cada vehı́culo puede llegar a tiempo,
independientemente entre ellos y con una probabilidad de 0,6;
b) en un perı́odo de 2 minutos, además, se sabe que los vehı́culos llegan a tiempo según
un proceso de Poisson con una tasa de 5 vehı́culos por minuto.
104
Ejercicio 3.6.
Un educador ha elaborado una prueba de opción múltiple con 10 preguntas de 5 opciones

cada una. El educador es conciente que algunos alumnos rendirán la prueba simplemente
escogiendo al azar una de las cinco opciones como respuesta y harán esto para cada una de
las preguntas de modo independiente, por tal motivo es necesario penalizar las respuestas
incorrectas. En las cuestiones siguientes solo considere este tipo de alumnos.
a) Identifique un proceso de observación de Bernoulli en el contexto dado.
b) Determine el modelo probabilı́stico más adecuado para describir a la variable X, el

número de respuestas acertadas.
c) Determine e interprete el número de respuestas correctamente contestadas.
d) Cada pregunta bien contestada vale 2 puntos. Determine cuánto debe descontarse por
cada pregunta mal contestada, de modo que la nota esperada de los alumnos de este
grupo sea cero.
Sugerencia: si k es el valor buscado, vea que la nota es 2X − k(10 − X).
e) Uno de estos alumnos necesita por lo menos 14 en esta prueba para aprobar el curso.
Cuantifique el riesgo que correrá. Use el valor de k obtenido en la parte anterior.
Ejercicio 3.7.
Los clientes de un banco que deben recibir un tratamiento especial llegan de acuerdo con un
proceso de Poisson con un tasa de un cliente cada 20 minutos.
a) ¿Cuál es la probabilidad de que en un perı́odo de media hora lleguen más de 2 clientes

que deben recibir un tratamiento especial en el banco?
b) A todo cliente que debe recibir un tratamiento especial se le entrega un premio; pero
al empezar la jornada de trabajo el administrador se da cuenta que solo dispone de
cinco de estos premios. Determine el número esperado de premios que serán entregados
durante la primera hora de atención.
c) Determine el tiempo que dispone el administrador para que, con una probabilidad de
0,9, pueda completar una pequeña labor antes de la llegada del primer cliente que deba
recibir un tratamiento especial.
d) ¿Cuál es la probabilidad de que pase más de una hora hasta la llegada del tercer cliente
que deba recibir un tratamiento especial en el banco?
105
Ejercicio 3.8.
En el contexto del modelo binomial de finanzas, descrito en el ejemplo 3.3, determine el valor
esperado del capital acumulado al cabo de 10 operaciones.
n
n i n−i

Puede ser útil la fórmula del binomio de Newton: (a + b)n =
P
i
ab .
i=0
Ejercicio 3.9.
La ocurrencia de cierto evento catastrófico para la economı́a ocurre de acuerdo con un proceso
de Poisson con una tasa de uno cada cinco años.
a) Halle la probabilidad de que en una década no ocurra más de dos veces este evento.
b) Halle la probabilidad de que en, un perı́odo de cinco años, ocurra más de dos veces
este evento catastrófico.
c) Un proyecto debe ejecutarse durante un perı́odo de diez años. Si este evento no se

presenta durante el perı́odo de ejecución del proyecto, el costo es de 200 unidades
monetarias (u.m.); en otro caso este costo se incrementa en 100 u.m. por cada unidad de
tiempo faltante hasta completar la ejecución del proyecto. Determine el valor esperado
del costo de ejecución del proyecto.
d) ¿Cuán probable es que pasen más de 20 años hasta que ocurra tres veces dicho evento?
e) Considerando las próximas 5 décadas, determine la probabilidad de que en por lo menos

dos de estas el evento catastrófico ocurra más de dos veces. Asuma independencia y
condiciones similares en cada una de las 5 décadas.
Ejercicio 3.10.
Cierto evento imprevisto puede ocurrir durante cada mes, con una probabilidad de 0,1 e
independientemente de otros meses.
a) Al comenzar el mes se inicia la ejecución de un proyecto que debe tardar 10 meses.

Además, el proyecto se concluirá en el plazo previsto siempre y cuando el evento
imprevisto no ocurra en más de 2 meses de este plazo. Cuantifique el riesgo que se
corre al afirmar que la ejecución se concluirá en el plazo previsto.
b) Una persona adquiere una póliza contra este tipo de evento, que regirá durante los
cinco meses siguientes. El contrato estipula que si el evento ocurre antes del quinto
mes, entonces, la compañı́a aseguradora debe pagarle una suma indemnizatoria de
seis mil soles, pero no volverá hacerlo si ocurriera nuevamente; además, la persona solo
hará un único pago de diez mil soles. Determine la utilidad esperada de la aseguradora.
c) Halle la probabilidad de que el evento ocurra por tercera vez después del quinto mes.
106
Ejercicio 3.11.
Los pedidos llegan a cierto supermercado (que atiende las 24 horas del dı́a) según un proceso
de Poisson, con una media de cuatro pedidos por hora.
a) Desde que empezó un dı́a, ha pasado media hora y no ha llegado el primer pedido, halle
la probabilidad de que este pedido tampoco llegue durante la siguiente media hora.
b) Por dı́a el supermercado tiene un costo de 250 soles, siempre y cuando el primer
pedido llegue durante las dos primeras horas del dı́a; pero por cada hora adicional (a
las primeras dos horas del dı́a) que tarde este primer pedido, dicho costo se incrementa
en 50 soles. Determine el costo esperado por dı́a.
Ejercicio 3.12.
Se sabe que la demanda anual de un bien puede ser muy baja en cualquier año, de manera
independiente de otros años y con una probabilidad de un décimo.
a) Un comerciante estudia la posibilidad de adquirir grandes cantidades de este bien, en

cada uno de los próximos seis años.
a1 ) El comerciante ha calculado que su inversión será exitosa si a lo más en cuatro de
estos seis años la demanda del bien es muy baja. Cuantifique el riesgo que corre.
a2 ) El comerciante ha calculado que, en cada año en el que la demanda del bien sea
muy baja perderá 10 u.m. ; pero en cada año en el que la demanda no sea muy
baja ganará 30 u.m. Determine e interprete la utilidad esperada del comerciante.
b) Calcule la probabilidad de que el primer año en el que la demanda sea muy baja sea
por lo menos el quinto, pero máximo el vigésimo.
Ejercicio 3.13.
Suponga que durante un año, en cierto paı́s, los eventos catastróficos ocurren según un
proceso de Poisson con una tasa de 2 eventos por mes. Además, cada evento catastrófico
produce una daño cuya magnitud es independiente de las correspondientes a otros eventos
catastróficos y con distribución exponencial. El diseño de “prevención contra desastres”del
gobierno consideró un valor crı́tico para el daño ocasionado por una catástrofe cuando esta
es 3,5 veces la media de dicha magnitud. Obtenga la “confiabilidad del diseño prevención
contra desastres”durante el perı́odo de un año, es decir, la probabilidad de que durante dicho
perı́odo ninguna de las magnitudes de los daños que se produzcan supere el valor crı́tico2 .
Sugerencia: sean X el número de tales eventos en un año e Y, el número de los que su

∞
P
magnitud supera el valor crı́tico. Se desea hallar P (Y = 0) = P (X = 0 ∩ Y = 0). Note
x=0
que si X = x : Y ∼ b(x, p), con p = P (Z > 3, 5/β), donde Z ∼ exp(β).
2
Este ejercicio está basado en la teorı́a estudio de peligro sı́smico, presentada en Alejandro Muñoz P.
(2002).
107
Ejercicio 3.14.
Una municipalidad verificará si las tiendas de su distrito cumplen una ordenanza dictada
recientemente. Con este fin, se escogerá una muestra aleatoria de 20 tiendas del distrito.
Además, por experiencia se sabe que el 25 % de estos establecimientos suele incumplir las
ordenanzas nuevas.
a) Identifique un proceso de observación de Bernoulli en el contexto dado. Deberá asumir

la validez de los supuestos necesarios y dar su significado en este contexto.
b) Halle el modelo probabilı́stico que describe a la variable X, definida como el número

de tiendas, en la muestra por seleccionar, que incumplen la ordenanza.
c) Determine la probabilidad de que por lo menos cinco de las tiendas, en la muestra por
seleccionar, incumplan la ordenanza.
d) Determine e interprete el valor esperado del número de tiendas, en la muestra por

seleccionar, que incumplan la ordenanza.
e) Suponga que inspeccionar cada tienda de la muestra seleccionada costará 500 soles.
Además, cada detección originará un descuento de 500 soles en el costo, pues esta
cantidad será pagada por el propietario de la tienda que incumpla la ordenanza; pero
cada tienda seleccionada que cumpla la ordenanza originará un costo adicional de 250
soles, pues el propietario de la tienda recibirá un descuento en sus tributos por este
valor. Si el presupuesto para llevar a cabo este muestreo es de 12 750 soles:
e1 ) Cuantifique la confianza de este presupuesto para poder llevar a cabo el muestreo.

e2 ) Determine e interprete el valor esperado del costo para llevar a cabo el muestreo.
Ejercicio 3.15.
Una compañı́a alquila un equipo que se puede descomponer durante un mes independien-
temente de otros meses y con probabilidad 0,2. El equipo se usará 20 meses. Cada mes le
generará un ingreso de 1000 soles (ası́ se descomponga el equipo); además cada mes en donde
se descomponga el equipo le significará un egreso de 500 soles por reparación.
a) Identifique el modelo probabilı́stico que describe a la variable, X, definida como el

número de meses (entre los 20) en los que el equipo se descompondrá.
b) Halle el valor esperado y la desviación estándar del número de meses en los que se
descompondrá el equipo.
c) Determine la utilidad esperada de la compañı́a.
d) La compañı́a desea ganar, por lo menos, 18 500 soles. Cuantifique el riesgo que correrá.
108
Ejercicio 3.16.
Los pedidos llegan a una central según un proceso de Poisson con una tasa de tres por
minuto.
a) Determine la probabilidad de que, en un intervalo de diez minutos, lleguen más de dos

pedidos. Debe definir una variable e identificar (justificando) su modelo.
b) Halle la probabilidad de que el primer pedido demore en llegar más de cinco minutos
pero menos de diez. Debe definir una variable e identificar (justificando) su modelo.
c) Halle la probabilidad de que el segundo pedido demore en llegar más de cinco minutos
pero menos de diez. Debe definir una variable e identificar (justificando) su modelo.
Ejercicio 3.17.
En una empresa de transporte cada vehı́culo puede llegar a tiempo, independientemente de

otros vehı́culos y con una probabilidad de 0,6.
a) En un dı́a, la terminal espera el arribo de 20 vehı́culos; determine la probabilidad de

que por lo menos dos, de estos vehı́culos lleguen a tiempo. Debe definir una variable e
identificar (justificando) su modelo.
b) Halle la probabilidad de que el primer vehı́culo que llegue a tiempo sea por lo menos
el vigésimo. Debe definir una variable e identificar (justificando) su modelo.
Ejercicio 3.18.
Si X ∼ b(10; 0, 1), encuentre f : la función de probabilidad de Y = 10 − X. Use la técnica

Y
descrita al final del capı́tulo anterior.
Ejercicio 3.19.
Si X ∼ exp(2), encuentre la función de densidad de Y = 3X. Use la técnica descrita al final

del capı́tulo anterior.
Ejercicio 3.20.
Una operación financiera resulta rentable con una probabilidad de 0,25. Un inversionista
realizará esta operación en 20 oportunidades. Para evaluar los riesgos se supondrá que las
operaciones originan resultados independientes y que la probabilidad de que sea rentable se
mantiene constante. Determine la probabilidad de que por lo menos tres de las operaciones
resulten rentables. Debe definir una variable X e identificar, justificando, su modelo.
109
Ejercicio 3.21.
Parte del trabajo de un promotor que trabaja en una Administradora de Fondos de Pensiones
(AFP) consistente en visitar a personas que están afiliadas a una AFP distinta para tratar de
convencerlos de que se cambien a esta AFP. Este promotor, según su experiencia, estima que
la probabilidad de convencer a una persona es de apenas 0,05. El promotor decide evaluar
ciertos riesgos, para esto considerará que este trabajo obedece un proceso de Bernoulli
a) Diga cuáles son las dos condiciones que se deben cumplir para que, efectivamente, el
convencer a los afiliados que visite el promotor ocurra según un proceso de Bernoulli.
b) Durante el año que termina, la gerencia de la AFP considera que el promotor ha

realizado un buen trabajo; ası́, le ofrece otorgarle una bonificación extraordinaria
(por fin de año) siempre y cuando convenza a, por lo menos, tres clientes más. La
dificultad que enfrenta el promotor es que solo dispone de veinte visitas más; entonces,
antes de tomar una medida distinta a las usadas hasta ahora, decide suponer que las
condiciones mencionadas en la parte anterior se verifican y emplear la teorı́a básica de
modelos probabilı́sticos para cuantificar su confianza actual en lograr esta bonificación
extraordinaria. Efectúe el procedimiento que realizará el promotor y determine el valor
que obtendrá.
Ejercicio 3.22.
Ciertas bacterias se presentan en un depósito de agua, conforme un proceso de Poisson con

una tasa de cuatro bacterias por cm3 .
a) Determine la probabilidad de que, en un volumen de cinco cm3 , se encuentren por lo

menos dos bacterias. Debe definir una variable e identificar, justificando, su modelo.
b) Halle la probabilidad de que el volumen de agua que se debe revisar hasta ubicar la
primera bacteria esté entre cinco y diez cm3 .
Ejercicio 3.23.
Sea X una variable aleatoria con modelo probabilı́stico normal, con media µX y desviación
estándar σX .
a) Obtenga el valor de la probabilidad P ( | X − µX | ≤ 2σX ).
b) Use la técnica de cambio de variable para demostrar la propiedad de estandarización.
c) Use la técnica de cambio de variable para demostrar la propiedad de cerradura del

modelo normal respecto con respecto a transformaciones lineales.
d) Use la técnica de cambio de variable, para demostrar que el cuadrado de la variable

estandarizada de X tiene distribución gamma con parámetros α = β = 21 .
110
Ejercicio 3.24.
El precio de una unidad del bien A es una variable aleatoria X con modelo normal de media
30 soles y desviación estándar 4 soles. El precio de una unidad del bien B es una variable
aleatoria Y con modelo normal de media 20 soles y desviación estándar 3 soles. Estas dos
variables son independientes.
a) Halle la probabilidad de que el precio de una unidad del bien A sea mayor que 25 soles.
b) Se debe comprar una unidad del bien A y otra del bien B; halle la probabilidad de que
55 soles sean suficientes.
c) Halle la probabilidad de que el precio de una unidad del bien A sea mayor que el de
una del bien B.
d) Halle la probabilidad de que el precio de una unidad del bien A sea mayor que dos del
bien B.
e) Se debe comprar una unidad del bien A y dos del bien B; halle la probabilidad de que
60 soles sean suficientes.
Ejercicio 3.25.
La distribución de los tiempos necesarios para que las personas se recuperen de la dolencia
A se considera normal con media 14, 5 horas y desviación estándar 3 horas; mientras que el
tiempo necesario correspondiente a la recuperación de la dolencia B se considera normal con
media 13, 5 horas y cuarto inferior a partir de 15 horas. Suponiendo que existe independencia
entre ambos tiempos:
a) Determine el porcentaje de personas que se recuperan de la dolencia A después de 11

horas.
b) Determine la cantidad de horas, t, que deberı́a disminuir el tiempo de recuperación

de cada persona para reducir en 25 el porcentaje de personas que se recuperan de la
dolencia A después de 11 horas.
c) Halle la desviación estándar de los tiempos de recuperación de la dolencia B.
d) ¿Cuál es la probabilidad de que ambos tiempos de recuperación sean mayores que 11

horas?
e) ¿Cuál es la probabilidad de que la media de los tiempos de recuperación de ambas

dolencias, para una persona, sea mayor que 11 horas?
f) ¿Cuál es el porcentaje de personas que se recuperan de la dolencia A en mayor tiempo

que el correspondiente a la dolencia B?
111
Ejercicio 3.26.
En una operación financiera la tasa de rentabilidad, R, se considera una variable aleatoria

con distribución normal de media 0,05 y desviación estándar 0,25.
a) Determine la probabilidad de que la tasa de rentabilidad R, asociada a esta operación

financiera, sea superior a 0,3.
b) Halle el valor en riesgo (VaR) de un grado de confianza del 95 %. Vea el ejercicio 2.28
c) Determine la probabilidad de que el factor de capitalización W = 1 + R, asociado a

esta operación, sea superior a 1,25.
d) Un inversionista coloca un capital de 10 unidades monetarias (u.m.), en esta operación

financiera, a fin de ganar por lo menos 5,5 um. Cuantifique el riesgo que afrontará.
e) En el contexto de la parte anterior, determine cuál debe ser el monto del capital que
deberá colocar el inversionista para que, con una probabilidad de 0,95 o más, la pérdida
no pase de 5,5 u.m.
f) Suponga que se realizan dos operaciones independientes con estas caracterı́sticas, pero
una de 10 u.m. y la otra de 20 u.m.
f1 ) Determine la probabilidad de que, R1 , la rentabilidad de la primera inversión, sea

menor o igual que 0,95.
f2 ) Determine la probabilidad de que, R2 , la rentabilidad de la segunda inversión, sea
mayor que 1,02.
f3 ) Halle la probabilidad que la suma de los capitales finales sea por lo menos 30 u.m.
f) El capital acumulado al cabo de una gran cantidad de estas operaciones tiene

distribución lognormal con media 60,34 u.m. y desviación estándar 28,39 u.m.
Determine la probabilidad de que un capital inicial de 20 u.m. genere más de 50 u.m.
de utilidad.
Ejercicio 3.27.
El modelos probabilı́stico de Pareto se usa para describir los ingresos, su densidad es de la

forma f (x) = α x−β , x > 0, con α > 0 y β > 0 los parámetros del modelo.
a) Bosqueje, lo más precisamente posible, la gráfica de dicha densidad.
b) Encuentre una fórmula explı́cita para la distribución acumulada.
c) Encuentre fórmulas explı́citas para la media y la desviación estándar.
d) Determine la probabilidad de que el ingreso de una persona sea superior a la media.
112
Ejercicio 3.28.
La distribución de los salarios en el sector A se considera normal con una media de 1 450
soles y una desviación estándar de 300 soles. En el sector B la distribución de los ingresos
es normal con media 1 350 soles; además el 25 % de los asalariados gana más de 1 500 soles.
a) Determine el porcentaje de asalariados, en el sector A, que ganan más de 1 100 soles.
b) Determine el percentil 75 de la distribución de los salarios en el sector A.
c) ¿En cuál sector los salarios son menos variables?
d) Un promotor de créditos visita a una pareja de asalariados, uno del sector A y el otro
del B, para ofrecerles un crédito que requiere un salario conjunto de por lo menos
2 500 soles. ¿Cuál es la probabilidad de que esta pareja cumpla el requisito anterior
para poder acceder al crédito? Asuma que los salarios son independientes.
e) Se escoge al azar un asalariado de la ciudad A y otro de la B. Determine la probabilidad

de que el de la ciudad A gane más. Asuma que los salarios son independientes.
f) En el contexto de la parte anterior, determine la probabilidad de que ambos salarios

se diferencien en 200 soles, como máximo.
Ejercicio 3.29.
Se realizarán 100 operaciones financieras, en cada una se invertirá 10 u.m. , las tasas
de rentabilidad correspondientes son variables aleatorias con modelos probabilı́sticos
desconocidos; pero estas son independientes, cada una de las primeras 25 tiene una media
de 0,01, y cada una de las restantes 75 una media de 0,02. Cada tasa tiene una desviación
estándar de 0,3. Halle la probabilidad de que el capital final esté entre 950 y 1100 u.m.
Ejercicio 3.30.
Para el ingreso familiar en una región se considera un modelo lognormal con media 1,65
miles de soles y desviación estándar 2,16 miles de soles. En la tabla siguiente se muestra
información incompleta respecto a estos ingresos:
x 0 0,5 0,75 1 1,5 2 2,5 4 8 9

F (x) 0 0,2441 0,3868 --- --- --- --- --- 0,9812 0,9860
x es un valor del ingreso familiar y F (x) la proporción de familias con ingresos hasta x.
a) ¿El modelo parece estar en armonı́a con los datos?
b) Complete la tabla dada, a partir del modelo dado.
c) ¿Cuál es la proporción de familias con ingresos superiores a 5 mil soles?
113
Ejercicio 3.31.
El capital acumulado al cabo de una gran cantidad de operaciones financieras tiene una
distribución lognormal, su media es de 60 u.m. y su desviación estándar de 28 u.m.
a) Encuentre los parámetros de este modelo lognormal.
b) Halle la probabilidad de que un capital inicial de 20 u.m. genere más de 25 u.m. de

utilidad.
Ejercicio 3.32.
Los ingresos (en miles de soles), de los trabajadores de cierto sector, son explicados por un
modelo lognormal con parámetros µ = 3 y σ 2 = 1.
a) Determine la probabilidad de que un trabajador gane 55 mil soles o menos.
b) Halle la media y la desviación estándar de los ingresos en este sector.
Ejercicio 3.33.
Sea X ∼ b(n; p).
a) Verifique, calculando, que MX (t) = E(etX ) = (pet + q)n , ∀t ∈ R.

n
n i n−i

Recuerde que (a + b)n =
P
i
ab .
i=0
b) Halle E(X) y E(X 2 ), a partir de la función generadora de momentos.
c) Si Y = n − X, halle MY .
Recuerde la propiedad: si Y = a + bX, entonces, MY (t) = e a t MX (bt).
d) Si Y = n − X, demuestre que X ∼ b(n; q).

Use el resultado de la parte anterior y la propiedad por la que la función generadora
de momentos determina unı́vocamente el modelo o distribución de la variable.
Ejercicio 3.34.
Sea X una variable aleatoria con distribución binomial con parámetros n = 1 y p.
a) Deducir la función generadora de momentos de X.
b) Use la función generadora de X para obtener E(X) y E(X 2 ).
c) Si X1 , . . . , Xn es una muestra aleatoria de X, deducir el modelo de X1 + · · · + Xn , a

partir de su función generadora de momentos.
114
Ejercicio 3.35.
Sea X una variable aleatoria con distribución gamma de parámetros α y β.
a) Demuestre que la función generadora de momentos de este modelo está dada por:
βα
MX (t) = , t < β.
(β − t)α
b) Sea Y = b X, con b > 0. Use la técnica de cambio de variable para obtener fY : la

función de densidad de Y. Luego identifique el modelo obtenido.
c) Sea Y = b X, con b > 0. Use la técnica de la función generadora de momentos para

obtener el modelo probabilı́stico de Y.
d) Sean X1 , . . . , Xn variables aleatorias independientes y cada una con modelo

probabilı́stico gamma con primeros parámetros α1 , . . . , αn , respectivamente, y
segundos parámetros iguales a β. Use la técnica de la función generadora de momentos
para determinar el modelo probabilı́stico (con sus parámetros) de X1 + · · · + Xn .
e) Use la función generadora de X para obtener E(X) y E(X 2 ).
Ejercicio 3.36.
Sea X una variable aleatoria con distribución exponencial de parámetro β.
a) Sea Y = b X, con b > 0. Use la técnica de cambio de variable para obtener fY : la

función de densidad de Y. Luego identifique el modelo obtenido.
b) Halle la función generadora de X. Use la definición y propiedades del valor esperado.
c) Sea Y = b X, con b > 0. Use la técnica de la función generadora de momentos para

obtener el modelo probabilı́stico de Y.
d) Sean X1 , . . . , Xn variables anteriores independientes y cada una con modelo

probabilı́stico exponencial de parámetro β. Use la técnica de la función generadora
de momentos para determinar el modelo probabilı́stico (con sus parámetros) de
X1 + · · · + Xn . Para esto último vea el resultado del ejercicio siguiente.
Ejercicio 3.37.
Sea X una variable aleatoria con distribución de Poisson de parámetro λ.
b) Use la función generadora de X para obtener E(X) y E(X 2 ).
c) Si X1 , . . . , Xn es una muestra aleatoria de X, deducir el modelo de X1 + · · · + Xn , a

115
Ejercicio 3.38.
Sea X una variable aleatoria con distribución de Pascal con parámetros r y p.
b) Si X1 , . . . , Xn es una muestra aleatoria de X, deducir el modelo de X1 + · · · + Xn , a

c) Use la función generadora de X para obtener E(X) y E(X 2 ).
Ejercicio 3.39.
Sea X ∼ g(p).
pet
a) Verifique, calculando, que MX (t) = E(etX ) = 1−qet
, t < −ln q.
∞
r
ri =
P
Recuerde que si 0 < r < 1 : 1−r
.
i=1
b) Si X1 , . . . , Xn son independientes, determine el modelo probabilı́stico X1 + · · · + Xn ,

a partir de su función generadora.
Ejercicio 3.40.
La llegada de cada uno de los empleados a su centro de labores se produce independiente y

uniformemente entre las 8.00 a.m. y las 8.25 a.m.
a) Determine la probabilidad de que uno de estos empleados llegue entre las 8.00 a.m y
las 8.20 a.m.
b) Si son diez los empleados,
i) en promedio, ¿cuántos de estos llegan entre las 8.00 a.m. y las 8.20 a.m. ?
ii) ¿cuál es la probabilidad de que cuatro empleados lleguen entre las 8.00 a.m y las
8.20 a.m. ?
Sugerencia: considere la variable X, definida como el número de empleados que llegan

entre las 8.00 a.m. y las 8.20 a.m.
116
4. Indicadores de concentración para medir la
desigualdad de los ingresos
4.1. La Curva de Lorenz
Definición 4.1. Sea X una variable con densidad f, distribución acumulada F y media
µ > 0. Definimos la función Φ mediante
Z x
yf (y)dy
−∞
Φ(x) =
µ
Observación 4.1. Si X es el ingreso familiar, sigue de la definición anterior que Φ(x) puede
interpretarse como la fracción que representa el ingreso promedio (o total) de las familias con
ingresos inferiores o iguales a x, respecto al ingreso medio (o total) familiar 1 . Para entender
R∞
esto recuérdese que µ = E(X) = yf (y)dy; además, si para cada x consideramos g(y) = x,
−∞
Rx
si y ≤ x, y g(y) = 0, si y > x, entonces, E(g(X)) = g(y)f (y)dy corresponde al ingreso
−∞
promedio de las familias con ingresos menores o iguales que x2
σ 1 2
Ejemplo 4.1. Si X ∼ N (µ; σ 2 ), tenemos que Φ(x) = F (x) − √ e− 2 σ2 (x−µ) , como se
µ 2π
verifica a continuación:
Z x−µ
1 x 1 x
Z Z
1 − 1 2 (y−µ)2 1 σ 1 1 2
Φ(x) = yf (y) dy = y√ e 2σ dy = (µ + σ z) √ e− 2 z dz
µ −∞ µ −∞ 2π σ µ −∞ 2π
Z x−µ Z x−µ
σ 1 − 1 z2 σ σ 1 1 2
= √ e 2 dz + z √ e− 2 z dz
−∞ 2π µ −∞ 2π
Z x−µ
σ σ 1 1 2 σ 1 2
x−µ
=F ( σ )+ z √ e− 2 z dz = F (x) − √ e− 2 σ2 (x−µ) , con Z ∼ N (0; 1).
Z µ −∞ 2π µ 2π
En particular, Φ(x) < F (x), es decir, la fracción que representa el ingreso total de las familias
con ingresos inferiores o iguales a x (respecto al ingreso total de las familias) siempre es
menor que la proporción de familias con ingresos inferiores o iguales a x (esto último es
la interpretación de F (x)). Por lo tanto, para completar una proporción del ingreso total
(empezando con las familias de menores ingresos) siempre se requiere una proporción menor
de familias. Esta es una de las propiedades que se enuncian a continuación y que justificarán
la forma de la curva de Lorenz.
1
Véase Frankn A. Cowell 1995, pág. 138.
2
Véase la parte e del ejercicio propuesto 2.12.
117
Propiedades. Φ satisface, entre otras, las propiedades siguientes:

1. Φ es una función creciente, si xf (x) > 0. 2. lı́m Φ(x) = 0 y lı́m Φ(x) = 1.
x→−∞ x→∞
3. Si L(x) = Φ(x) − F (x), entonces, lı́m L(x) = lı́m L(x) = 0.
x→−∞ x→∞
4. L(x) = Φ(x) − F (x) es una función decreciente, si x < µ, creciente si x > µ
5. Φ(x) < F (x), si 0 < F (x) < 1, y Φ(x) = F (x), si F (x) = 0 ó F (x) = 1.
Para justificar estas propiedades básicamente se debe notar que Φ0 (x) = xf (x)/µ, F 0 (x) =
f (x), lı́m F (x) = 0 y lı́m F (x) = 1.
x→−∞ x→∞
Definición 4.2. Sea X una variable con densidad f, distribución acumulada F y media µ.
Se define la Curva de Lorenz como la gráfica de los pares (F (x), Φ(x)), para cada x ∈ . R
Observación 4.2. La Curva de Lorenz es uno de los métodos más usados para ilustrar
la desigualdad de la distribución de los ingresos totales (riqueza) de una población, fue
introducida en 19053 . Como se han interpretado Φ(x) y F (x), esta curva muestra cuál es la
proporción del ingreso acumulado que es obtenida por cada proporción de la población.
La siguiente gráfica muestra una desigualdad en la distribución de los ingresos, esta es
la curva tı́pica de Lorenz para una distribución de ingresos con tendencia central, pero con
presencia de valores grandes concentrados en una proporción baja de familias, como ocurre,
por ejemplo, en un modelo lognormal4 :
podemos apreciar que para llegar a completar solo el 28 % de los ingresos (empezando por
los de menor valor) se tiene ya el 66 % de la población; que evidencia la distribución desigual
del ingreso en la población, la mayor parte de este se concentra en una parte muy pequeña
de la población. Obsérvese que inicialmente la diferencia entre Φ(x) y F (x) es nula (si la
proporción del ingreso acumulado es cero también lo es la proporción de la población), luego
a medida que aumenta Φ(x) esta diferencia aumenta (la desigualdad se hace mayor), pero a
partir de cierto valor disminuye (la desigualdad se hace menor) hasta ser nuevamente nula
(el ingreso total corresponde a la población completa): conforme las dos últimas propiedades.
3
Véase Frankn A. Cowell 1995, pág. 19.
4
La gráfica se ha elaborado considerando un modelo lognormal con parámetros µ = 0 y σ = 1.
118
Profesor José Flores Delgado Indicadores de concentración de los ingresos 119
La lı́nea de igualdad que se muestra corresponde a una distribución igual del ingreso entre la
población, es decir, cuando para completar determinada proporción del ingreso se requiere
la misma proporción de la población, es decir, si X es constante.
A continuación comparemos la desigualdad de las distribuciones de los ingresos de dos

poblaciones, R1 y R2 , a partir de sus respectivas gráficas de Lorenz.
De las gráficas anteriores podemos deducir, entre otras cosas, que para llegar a completar
solo el 28 % de los ingresos (empezando por los de menor valor), en la población R2 se tiene
ya el 66 % de la población; pero en la población R1 se tiene solo el 46 %. En resumen la
distribución del ingreso en la región R2 es más desigual.
4.2. El Coeficiente de Gini
Definición 4.3. El Coeficiente de Gini, denotado G, asociado a una variable X con densidad
f se define como sigue:

G = 1 − 2E Φ(X) ;
o, equivalentemente,
Z ∞
G=1−2 Φ(x)f (x)dx
−∞
Observación 4.3. El coeficiente de Gini cuantifica el grado de desigualdad del ingreso en

la curva de Lorenz. Cuando no hay desigualdad, este coeficiente es igual a cero, y a medida
que aumenta dicho valor se tendrá mayor desigualdad; pero este coeficiente por sı́ mismo
no determina si esta desigualdad se concentra en los valores superiores o inferiores de los
ingresos, es decir, no da una idea de la forma de la curva de la distribución. Puesto que
R R
gráficamente la integral Φ(x)f (x)dx = Φ(x)dF (x) representa el área debajo de la curva
de Lorenz y por encima del eje horizontal; y el área debajo de la recta de igualdad es
igual a 1/2, entonces, gráficamente el valor del coeficiente de Gini es igual al doble del área
comprendida entre la curva de Lorenz y la recta de igualdad. Esto se ilustra a continuación:
119
σ
Ejemplo 4.2. Si X ∼ N (µ; σ 2 ) el Coeficiente de Gini es igual a √ , como se verifica a
µ π
continuación:

G = 1 − 2E Φ(X)
σ 1 2

= 1 − 2E F (X) − √ e− 2 σ2 (X−µ) (véase el ejemplo 4.1)
µ 2π
σ 1 2

= 1 − 2E F (X) + 2 √ E e− 2 σ2 (X−µ)

µ 2π
2σ 1 2

= 1 − 2 ( 12 ) + √ E e− 2 σ2 (X−µ) ( F (X) tiene distribución uniforme en (0, 1) )
µ 2π
2σ 1 2

= √ E e− 2 σ2 (X−µ)
µ 2π
Z ∞
2σ 1 2 1 1 2
= √ e− 2 σ2 (x−µ) √ e− 2 σ2 (x−µ) dx
µ 2π −∞ 2π σ
Z ∞
2σ 1 1 2
= √ √ e− σ2 (x−µ) dx
µ 2π −∞ 2π σ
Z ∞
2σ 1 1 − 1√
(x−µ)2
= √ √ √ σ
e 2 (σ/ 2)2 dx
µ 2π 2 −∞ 2π √2
| {z }
2σ 1 1
= √ √
µ 2π 2
σ
= √ .
µ π
Ejemplo 4.3. Ası́, las distribuciones de los ingresos de dos poblaciones, R1 y R2 , son
normales con parámetros µ1 = µ2 = 5, σ1 = 1 y σ2 = 3, entonces, los coeficientes de
1 3
Gini respectivos son: G1 = √ = 0, 1128 y G2 = √ = 0, 3385. La conclusión es que
5 π 5 π
la distribución del ingreso en la población R1 es menos desigual. Lo anterior se ilustra en el
gráfico que sigue:
120
Profesor José Flores Delgado Indicadores de concentración de los ingresos 121
Observación 4.4. Un defecto que tiene este coeficiente es que dos distribuciones pueden
tener el mismo coeficiente y, sin embargo, distinto grado de desigualdad.
Definición 4.4. Si trabajamos con datos disponibles, en lugar de un modelo, la definición

formal es la siguiente:
n n
1 XX
G= 2 | x i − xj |
2n X̄ i=1 j=1
121
5. Estadı́stica descriptiva
5.1. ¿Qué es la Estadı́stica?
Como es natural, lo primero que debemos precisar es qué es la estadı́stica; en ese sentido,
proponemos las observaciones siguientes. ¿De dónde proviene el término ‘estadı́stica’ ?
Desde tiempos muy remotos en la historia de la humanidad, 2300 años antes de Cristo,
encontramos evidencias históricas que demuestran que culturas antiguas, como la china,
la hebrea, la griega (particularmente la ateniense) y la romana, formaron censos (listas,
registros, resúmenes), por razones de estado, por ejemplo, tributarios, alimentarios y
militares. Como puede imaginarse, en aquellos tiempos remotos, el habitante común no
estaba interesado en llevar a cabo semejante tarea, es decir, esta generación de datos
resumidos era una labor o competencia exclusiva del estado; no es ahora difı́cil imaginar
que de allı́ derive el término estadı́stica, en cuanto a su acepción de censo, lista o incluso
resumen. Para ilustrar más este significado de estadı́stica, recordemos las siguientes frases
comunes:
“las estadı́sticas no mienten”
“las estadı́sticas demuestran que...”
“existen las mentiras, las grandes mentiras y las estadı́sticas”
Después de tratar del origen de la estadı́stica, veamos ahora el significado actual de esta.
Solo a fines del siglo XVII, en Alemania, es la estadı́stica considerada como ciencia, gracias
a los trabajos culminantes de Karl Friedrich Gauss. En efecto, hoy en dı́a, la estadı́stica
es considerada como una ciencia y su caracterı́stica principal, ya no es solo obtener
resúmenes; sino más bien, realizar inferencias a partir de los resultados obtenidos
de una muestra relativamente pequeña de datos. A continuación damos dos ejemplos
de esto último.
Ejemplo 5.1. Cuando estamos en épocas de elecciones, queremos saber las preferencias de
todo el electorado, pero encuestar a todos resulta imposible, por razones de tiempo y dinero.
Entonces, se recurre a tomar adecuadamente una muestra y a partir de los resultados que
se obtienen de ella, inferir lo que ocurrirá en general.
Ejemplo 5.2. En el proceso de producción de un artı́culo, interesa comprobar si realmente

se ha logrado el nivel de calidad deseado. Evidentemente, usar todas las unidades fabricadas
resulta muy costoso y poco factible. Entonces, nuevamente, se opta por efectuar el control
de la calidad solo para una muestra de unidades (apropiadamente elegida) para evidenciarse
si está o no satisfecho el nivel deseado.
123
Parece claro que las inferencias que resulten de lo observado, en solo una muestra de la
población de estudio, no tienen que ser necesariamente verdaderas; sino que más bien están
acompañadas de cierto margen de error y nivel de confianza, es decir, son solo ‘estimaciones’
o aproximaciones de lo que realmente ocurre. Es precisamente la búsqueda de estas medidas
de error y de confianza para las inferencias, que convierten a la estadı́stica en una ciencia,
pues para ello usa las matemáticas y crea su propia teorı́a. El primer resultado cientı́fico en
ese sentido, data de 1818, en este se estudió la eficiencia de los estimadores estadı́sticos, lo
que se obtuvo gracias a resultados matemáticos, originales de Gauss, sobre teorı́a de los
errores.
A continuación, empezamos dando algunas definiciones, más bien conceptos o ideas

básicas.
5.2. Nociones básicas
Definición 5.1. La estadı́stica es una ciencia que se ocupa de la recolección, presentación

y análisis de datos. La caracterı́stica que la distingue es la de hacer generalizaciones o
inferencias, a partir de solo una muestra.
Ejemplo 5.3. Un ejemplo de inferencia estadı́stica muy conocido es la inferencia sobre las
preferencias electorales. Por ejemplo: “basándose en los resultados de una muestra de 1822
electores del paı́s, se estima que el porcentaje de electores (en todo el paı́s) a favor del
candidato AT es de 41 %, con un margen de error de 2 % y un nivel de confianza en esta
inferencia del 95 %”. En este caso, el margen de error significa que en realidad el verdadero
porcentaje a favor del candidato AT está entre 41 % − 2 % y 41 % + 2 %, es decir, entre
39 % y 43 %. Y el nivel de confianza significa que la metodologı́a seguida, para estimar dicho
porcentaje, acierta en el 95 % de las veces que es usada con muestras de este tamaño; por
lo tanto, siendo este porcentaje de aciertos tan alto, uno confı́a en que esta aplicación de la
metodologı́a, con la muestra dada, sea uno de los casos en que se acierta en la inferencia.
Clasificación de la estadı́stica Existen dos grandes ramas en la estadı́stica: la Estadı́stica

Descriptiva y la Estadı́stica Inferencial.
La estadı́stica descriptiva, como su nombre lo da a entender, no va más allá de los datos

disponibles, por ejemplo la muestra; y lo que interesa es describir qué muestran los datos.
Es la parte más conocida por la mayorı́a de las personas. Sus labores la encontramos, por
ejemplo, en las tablas y gráficas que se acostumbran presentar con el fin de ilustrar ciertos
patrones de tendencia que presenten los datos o, simplemente, para que los resultados sean
mejor entendidos. Se puede decir que se ocupa de la primera etapa en el análisis de los datos:
la descripción o análisis exploratorio. La estadı́stica inferencial, en cambio, hace el trabajo
más importante, es decir, lo que respecta a las inferencias: segunda etapa en el análisis de
los datos.
124
Profesor José Flores Delgado Estadı́stica descriptiva 125
Observación 5.1. En realidad, en la estadı́stica inferencial actual, existen dos corrientes

cuyas metodologı́as se contraponen: La llamada estadı́stica clásica, esta es la que se
acostumbra a enseñar y la más conocida; y por otra parte, está la llamada estadı́stica
bayesiana —en honor a su impulsor Thomas Bayes (1702-1761)—, esta última estuvo
demasiado tiempo olvidada, pues requiere de mucho cálculo computacional. Con respecto
a fundamentos, la estadı́stica bayesiana parece ser más formal, por ejemplo, la inferencia
obtenida con la estadı́stica clásica, como ya hemos explicado, se basa en la aplicación de
una técnica sobre determinada muestra aleatoria disponible, entonces, sucede que en un
alto porcentaje de las veces la técnica produce un resultado o inferencia acertada, por tal
razón, parece natural que quien la aplica en una muestra en particular, confı́e en que esa
vez corresponda a uno de los aciertos y no a uno de los desaciertos, salvo, claro está, que
la persona en cuestión se considere muy desafortunada, es decir, la inferencia estadı́stica
clásica se sustenta en el llamado “principio de la confianza”. En contraposición, para la
estadı́stica inferencial bayesiana, el grado de credibilidad o de confianza, en una inferencia,
se debe basar solo en la oportunidad en la cual se esté aplicando, es decir, en la muestra
disponible sin considerar todas las veces en las cuales se aplica. Entender esta exigencia de
rigor requiere de un espı́ritu filosófico innato en el hombre desde su origen; pero más allá de
esta discusión, lo importante es que el objetivo básico es hacer inferencias.
Definición 5.2. Una variable es cualquier caracterı́stica de interés.
Definición 5.3. Población es el conjunto de unidades, personas u objetos, sobre los cuales
interesa observar una o más caracterı́sticas.
Definición 5.4. Una muestra es cualquier conjunto de una población. La muestra se llama
aleatoria, si sus integrantes han sido escogidos al azar.
Definición 5.5. Un dato u observación es cualquier medida, resultado de haber observado

una variable en una unidad de alguna población.
Ejemplo 5.4. A continuación veamos algunos ejemplos de variables, todas referidas a la

población de electores del Perú:
Preferencia electoral (opción del elector por determinado candidato o ninguno).
Edad del elector (generalmente en años cumplidos).
Estado socioeconómico del elector.
Número de integrantes en la familia del elector.
Sexo del elector.
Grado de instrucción del elector.
Ingresos mensuales del elector.
125
Definición 5.6. Las variables se suelen clasificar como cualitativas si tienen carácter no
numérico, y cuantitativas, si representan cantidades. A su vez, las variables cuantitativas,
se subclasifican en discretas, si el conjunto de valores posibles de la variable (denominado
rango) puede ser enumerado, y en continuas, si este conjunto de valores constituye un
intervalo o reunión de intervalos.
Ejemplo 5.5. Veamos cómo se clasifican las variables dadas en el ejemplo 5.4:
La preferencia electoral es una variable cualitativa, expresa la intención de votar a favor o

en contra de determinado candidato.
La edad del elector es una variable cuantitativa y por la forma de medirla usualmente, se la
puede considerar discreta; formalmente deberı́a ser continua, pero en la práctica se mide en
años cumplidos.
El estado socioeconómico del elector es también una variable cualitativa, expresa el grupo o
estrato socioeconómico al que pertenece el elector.
El número de integrantes en la familia del elector es una variable cuantitativa discreta, ya

que representa una cantidad y además los valores posibles que podrı́a asumir, se pueden
enumerar.
El sexo del elector es una variable cualitativa.
El grado de instrucción del elector, también es una variable cualitativa, pues si bien representa
un grado, esto solo significa más o menos instrucción, pero no cantidad.
El ingreso mensual es una variable cuantitativa continua, pues representa una cantidad y
sus valores posibles, en teorı́a, constituyen un intervalo.
5.3. Escalas o niveles de medición
Por medición se puede entender al proceso de observación de una caracterı́stica de interés

sobre las unidades de la población. Esta medición se debe expresar como un número
que informe, lo más precisamente posible, sobre la caracterı́stica en la unidad
observada. Claro está que no siempre los números informarán lo mismo, pues
depende de la naturaleza de lo observado, según esto, se tienen distintos niveles de
medición o escalas, solemos considerar cuatro niveles que trataremos a continuación.
5.3.1. Escala nominal
Aquı́, los números solo sirven para distinguir valores o categorı́as diferentes de la variable.
126
Ejemplo 5.6. El sexo de los electores se mide a este nivel de medición o escala. Una escala
apropiada puede ser, por ejemplo, la siguiente:
0= femenino; 1 = masculino.
En general, cualquier escala de este tipo es de la forma:
a= femenino; b = masculino.
Para ciertos a y b números reales, fijados previamente y con la única condición de que sean
diferentes.
5.3.2. Escala ordinal
Aquı́, los números, además de servir para distinguir, reflejan un orden existente entre
los valores de la variable, según el menor o mayor grado en el que se encuentre presente la
caracterı́stica.
Ejemplo 5.7. El grado de instrucción del elector, se suele medir con este nivel.
Para simplificar, supongamos que solo distingamos cuatro valores: analfabeto, primaria,
secundaria y superior. Entonces, una escala apropiada puede ser:
0 = analfabeto; 1 = primaria; 2 = secundaria; 3 = superior
En general, cualquier escala de este tipo es de la forma:
a = analfabeto; b = primaria; c = secundaria; d = superior
Para ciertos a, b, c y d números reales, fijados previamente y con la única condición de que
a < b < c < d.
5.3.3. Escala de intervalo
Además de las caracterı́sticas anteriores, se tiene que las diferencias entre los números
asignados representan propiamente cantidades de la caracterı́stica medida. Esto se logra
definiendo una unidad de medida y un cero u origen, este último es arbitrario por no existir
naturalmente, es decir, no existe un valor que indique ausencia de la caracterı́stica que se
mide.
127
Ejemplo 5.8. El tiempo en el calendario actual es medido de esta forma. Para ilustrar este
tipo de escala fijémonos en el acontecimiento de tres eventos A, B y C, en el calendario
actual, como se muestra a continuación:
A B C
A.C. 0 100 200 300 400 500
Es inexacto afirmar que el tiempo transcurrido hasta B sea el doble del transcurrido hasta A,
en efecto, esto puede parecer cierto en esta escala del calendario gregoriano, donde el origen,
al no existir naturalmente, ha sido fijado arbitrariamente, es decir, no significa ausencia de
tiempo transcurrido. Sin embargo, sı́ es cierto que la diferencia entre el tiempo transcurrido
hasta el acontecimiento A y el transcurrido hasta B, es la tercera parte de la correspondiente
diferencia existente entre B y C.
Observación 5.2. Si dos escalas de intervalo son equivalentes, es decir, son útiles para medir
la misma caracterı́stica, la relación existente entre una medición, X, cualquiera, obtenida
para un elemento de la población; e Y , la correspondiente medición en el mismo elemento,
pero con la otra escala es:
Y = a + bX
Siendo a y b constantes independientes del objeto que se mide con ambas escalas. Esto es ası́,
pues b representa el posible cambio de unidad, por ejemplo de años a siglos, y a representa
el posible cambio de origen.
5.3.4. Escala de razón
Aquı́, los propios números asignados en la medición ya representan cantidades de la

caracterı́stica que se mide. Estas escalas se caracterizan, no solo por tener una unidad de
medida; sino también por poseer un cero u origen natural, el cual significa ausencia de la
caracterı́stica que se mide. Por esta razón, las proporciones entre los propios números ya
representan cantidades y de allı́ el nombre de escala de razón.
Ejemplo 5.9. Los ingresos del elector se miden con este nivel o escala, pues existe una
unidad de medida (soles, dólares, etc.) y existe un cero absoluto u origen natural, es decir,
un valor que, sin importar la escala de razón empleada, indica ausencia de ingresos. Por la
misma razón, el número de integrantes de la familia del elector, también se mide con este
nivel, en efecto, hay una unidad de medida (unidades, decenas, etc) y el cero es único, indica
que no hay integrantes.
Observación 5.3. Si dos escalas de razón poseen equivalencia, es decir, son útiles para medir
la misma caracterı́stica, existirá una relación entre una medición, X, cualquiera, obtenida
128
para un elemento de la población, e Y , la correspondiente medición en el mismo elemento,

pero con la otra escala. La relación existente entre ambas es:
Y = bX
Siendo b una constante independiente del objeto sobre el que se mide con ambas escalas.
Esto es ası́, pues b representa el posible cambio de unidad, por ejemplo de años a siglos o,
de soles a dólares, o de unidades a decenas.
5.4. Organización y tratamiento de datos. Promedios y

percentiles
A fin de poder detectar patrones de tendencia que puedan mostrar los datos disponibles, es
usual organizarlos en una distribución de frecuencias, agrupándolos en clases y determinando
las frecuencias, es decir, el número o proporción de datos correspondiente a cada una. Como
veremos a continuación, el tratamiento depende del tipo de variable, pero vale la pena señalar
que no existe una única manera de hacerlo. En todos los casos, suponemos que X es la variable
de la cual se han obtenido los n datos disponibles.
5.4.1. Caso de variables cualitativas
Ejemplo 5.10. El tipo de crédito directo otorgado por la banca múltiple es una variable
cualitativa de interés en la supervisión de la banca. Supongamos que se desea averiguar cómo
se han distribuido los créditos otorgados según el tipo, esta información la podemos obtener
de la página web de la superintendencia de banca y seguros. Ası́, la tabla siguiente muestra
la distribución de esta variable al 31 de mayo de 2003:
Distribución del Tipo de Crédito

Concedido por la Banca Múltiple
Tipo de Crédito Número de deudores Porcentaje de deudores
Hipotecario Para Vivienda 38 761 2,5
Comercial y a Microempresa 237 882 15
De Consumo 1 303 561 82,5
La distribución de frecuencias se representa mediante barras o mediante sectores circulares,

en ambos casos los tamaños son proporcionales a la frecuencia del valor que representa.
Ejemplo 5.11. La distribución del ejemplo anterior puede representarse mediante barras o
sectores circulares como se muestra a continuación:
129
Distribución de los deudores según el tipo de crédito adquirido. Panel izquierdo: gráfico de barras.
Panel derecho: gráfico de sectores circulares
Apreciamos claramente que la mayor parte de los créditos concedidos son de consumo, con un
82,5 % del total de créditos asignados, sigue el tipo de crédito comercial y a microempresas
(con el 15 %), y el tipo de crédito menos otorgado es el hipotecario con solo un 2,5 %.
Al valor de la variable que se presenta con mayor frecuencia se de denomina moda, entonces,
podemos decir que la moda del tipo de crédito otorgado es el tipo de consumo.
5.4.2. Caso de variables cuantitativas discretas
Ejemplo 5.12. A fin de estudiar el número de sucursales que tienen las empresas de cierto
ramo de la producción nacional, se tomó una muestra de 80 estas empresas y se contó el
número de sucursales que tenı́a cada una, obteniéndose los resultados siguientes:
2 4 5 4 4 4 5 3 4 5 5 2 4 1 3 5 5 3 4 4 7 5 2 4 4 5 4
5 5 7 6 5 5 6 5 4 6 4 3 4 6 4 6 4 4 5 3 4 4 4 4 5 4 6
4 4 4 6 4 4 4 4 4 5 4 4 4 6 4 5 4 5 4 4 5 4 4 5 2 4
Estos datos se organizan en una distribución de frecuencia como sigue:
Distribución del
número de sucursales
Sucursales Empresas Acumulado
X f F
1 1 1
2 4 5
3 5 10
4 40 50
5 20 70
6 8 78
7 2 80
130
Una representación gráfica de esta distribución es la siguiente:
Puede apreciarse que el número de sucursales tiende a concentrarse alrededor de 4, es decir,

la tendencia es hacia la centralización, pues, existe un valor valor central que sobresale en
frecuencia y alrededor de este se distribuyen los demás valores los cuales van disminuyendo
en frecuencia conforme se distancian del valor central. En este caso es fácil encontrar un valor
promedio, es decir, uno que represente a la mayor parte de los datos (el término medio).
Una medida de este valor central es, por ejemplo, la moda, 4 sucursales, o la media aritmética:
n
P
xj
j=1 1(1) + 2(4) + ... + 7(2) 346
X̄ = n
= = = 4, 325.
80 80
Las estadı́sticas más usadas para determinar un valor promedio son la media aritmética, la
moda y la mediana. La mediana, me , es el valor que ocupa la posición central cuando los
datos se ordenan, por lo tanto este valor tiene la propiedad que la mitad de los datos son
menores o iguales que él. En el último ejemplo, la mediana es 4, es decir, la mitad de las
empresas tienen 4 sucursales o menos.
El promedio es entonces un valor medio, en el sentido que se parece a muchos de los

datos, ası́, puede ser usado para representarlos. Sin duda el promedio es la estadı́stica más
importante, pues da una idea general de los valores de los datos.
5.4.3. Caso de variables cuantitativas continuas
En este caso, los datos se agrupan en k intervalos de igual longitud o amplitud, C, luego se
determinan las frecuencias de los intervalos. También se acostumbra definir el representante
o marca de clase de cada intervalo, como el punto medio del intervalo, este servirá para
aproximar a todos los datos que se encuentren en dicho intervalo.
Ejemplo 5.13. En un cajero automático se midió el tiempo de las transacciones de cada

uno de 25 clientes, de una muestra aleatoria. Se obtuvo en minutos:
0,19 1,39 2,16 1,23 0,75 2,59 1,40 0,02 0,71 2,41 3,53 1,17 1,16
1,61 3,76 0,96 1,94 1,65 4,75 1,59 0,47 2,01 0,82 0,92 3,07
131
Obtengamos primero las estadı́sticas usadas para determinar un promedio, las cuales se
complementarán con los patrones de tendencia que se puedan detectar al organizar los datos
en una distribución de frecuencias, y más adelante veremos otras estadı́sticas que servirán
para cuantificar la variabilidad existente entre los datos y, de este modo, verificar la idoneidad
de tales promedios. Ası́, la media aritmética resulta: X̄ = (x1 + x2 + . . . + x25 )/25 =
42, 26/25 = 1, 6904, entonces, según este resultado, el tiempo promedio para efectuar las
transacciones es de 1,6904 min ; sin embargo, esto no es suficiente para garantizar que
realmente este valor sea un buen promedio. Estos datos no tienen una moda, pues no existe
uno que se repita más. La mediana de estos datos es el que ocupa la posición central (en
este caso la decimotercera), es decir, 1,4, ası́, tenemos que el 50 % de los clientes demoró 1,4
min o menos. Este último valor también puede tomarse como promedio, pero, como ya se
mencionó, debe verificarse que realmente cumpla este rol.
Ahora pasemos a la detección de los posibles patrones de tendencia, para este fin
construyamos una distribución de frecuencias con k = 6 intervalos de igual longitud. Los
datos extremos son: x(1) = 0, 02 y x(25) = 4, 75. Luego, el rango es R = 4, 75 − 0, 02 = 4, 73.
Ası́, la longitud de cada uno de los k = 6 intervalos será C = 4, 73/6 = C = 0, 78833..., pero
como no sale un valor exacto, es necesario redondear. En este caso, podemos redondear a
2 decimales (pues los datos solo tienen dos decimales, ası́, no vale la pena considerar más),
claramente el redondeo debe ser por exceso (hacia arriba), pues de otro modo el mayor
dato quedarı́a fuera. Tomamos C = 0, 79. El primer intervalo comenzarı́a en x(1) = 0, 02 y
terminarı́a en x(1) + C = 0, 02 + 0, 79 = 0, 81, el segundo empezarı́a en 0, 81 y terminarı́a
en 0, 81 + C = 1, 60; y ası́ sucesivamente, hasta haber completado los k = 6 intervalos. Con
estos intervalos se obtiene la tabla, todavı́a incompleta, de la forma siguiente:
Tiempo Marca Frecuencia

[0, 02; 0, 81]
]0, 81; 1, 60]
]1, 60; 2, 39]
]2, 39; 3, 18]
]3, 18; 3,97]
]3, 97; 4, 76]
Ahora, se distribuyen los datos uno por uno. Al final, se habrá completado la tabla de
frecuencias siguiente:
Tiempo Marca Frecuencia

[0, 02; 0, 81] 5
]0, 81; 1, 60] 9
]1, 60; 2, 39] 5
]2, 39; 3, 18] 3
]3, 18; 3,97] 2
]3, 97; 4, 76] 1
132
Las otras partes de la tabla son las siguientes: xj = marca de clase del intervalo j (punto
medio del intervalo j); Fj = frecuencia acumulada hasta el intervalo j; h = f /n y H = F/n.
Con estas completamos la tabla de la distribución de frecuencias
Distribución de los tiempos necesarios

Tiempo Marca Frecuencia Frecuencia Frecuencia Frecuencia
(minutos) X f acumulada relativa acumulada relativa
[0, 02; 0, 81] 0, 415 5 5 0, 20 0, 20
]0, 81; 1, 60] 1, 205 9 14 0, 36 0, 56
]1, 60; 2, 39] 1, 995 5 19 0, 20 0, 76
]2, 39; 3, 18] 2, 785 3 22 0, 12 0, 88
]3, 18; 3,97] 3, 575 2 24 0, 08 0,96
]3, 97; 4, 76] 4, 365 1 25 0, 04 1, 00
Podemos representar la distribución de frecuencias con el histograma o el polı́gono de

frecuencias. El histograma es una representación con barras de altura proporcionales a la
frecuencia del intervalo que representa. El polı́gono se obtiene uniendo, con lı́neas continuas,
cada punto con una abscisa igual a la marca de clase de un intervalo y ordenada igual a la
frecuencia de dicho intervalo. Existen otras gráficas, como la gráfica de caja. A continuación
se presentan estos dos gráficos para nuestro ejemplo anterior:
Distribución de los tiempos para realizar las transacciones. Panel izquierdo: histograma. Panel
derecho: polı́gono
En cualquiera de estas gráficas apreciamos los patrones de tendencia que muestran los datos.
Podemos empezar por mencionar lo evidente, la variación natural de los datos, es decir, no
todos los clientes necesitan el mismo tiempo, los valores correspondientes están entre 0,02
y 4,75 min. También se puede apreciar claramente que los tiempos necesarios, para que
los clientes efectúen sus transacciones, tienden a distribuirse alrededor del intervalo entre
0,81 y 1,6, el cual sobresale en frecuencia y conforme consideramos tiempos con valores que
se alejan de este intervalo, son menos los clientes que necesitan de este tiempo, es decir,
se distingue un patrón de centralización, como es razonable. Por lo observado, la media y
mediana sı́ cumplen el papel de promedio, y algo mejor la mediana por estar en el intervalo
central. Además, existen unos pocos clientes cuyos tiempos necesarios son muy grandes en
comparación con los otros, es decir, existe una asimetrı́a o sesgo hacia valores altos.
133
Ahora, representaremos las frecuencias acumuladas mediante la ojiva de frecuencias, usando

también los datos de nuestro ejemplo anterior:
Figura 5.1: Ojiva de la distribución de los tiempos para realizar las transacciones
Esta gráfica es de utilidad cuando, por ejemplo, queremos determinar ubicaciones relativas
en la distribución, como lo ilustra el ejemplo siguiente.
Ejemplo 5.14. Al banco le interesa saber, entre otros detalles, si necesita dar más
recomendaciones en cuanto al uso del cajero para bienestar de todos los clientes. Ası́, no
solo le interesa que los tiempos necesarios tiendan a centralizarse alrededor de un valor
razonable; sino también que no exista un sesgo indicativo de posible malestar en los clientes
que podrı́an estar esperando su turno, por mucho tiempo. En ese sentido, el banco considera
un grupo de clientes ‘crı́tico’, este lo integran aquellos que necesitan de mayores tiempos y
que constituyen la cuarta parte de los clientes. ¿A partir de qué tiempo un cliente, de la
muestra, ya es considerado dentro del grupo referido?
Ya hemos hablado sobre el patrón de tendencia a la centralización. Ahora, para obtener el

valor del tiempo a partir del cual un cliente estará dentro del grupo ‘crı́tico’, basta observar
en la ojiva anterior, el porcentaje acumulado de 75 %, pues, si este grupo de mayores tiempos
constituyen una cuarta parte ó 25 %, entonces, las otras tres cuartas partes ó 75 % (y cuyos
tiempos correspondientes son inferiores) están fuera del grupo. Ası́, es claro que el valor
buscado, x, debe ser tal que le corresponda un porcentaje acumulado igual a 75 %, es decir,
H(x) = 0, 75. De aquı́ la solución es simple, basta ordenar los datos para descubrir dicho
valor, es decir, 2,16 minutos.
Supongamos ahora que se deseara resolver el problema, pero la población completa de

clientes. Claramente la solución es compleja, casi inviable, por eso podemos recurrir a una
solución estadı́stica, hacer una inferencia a partir de los datos de la muestra disponible,
entonces, el valor obtenido en la muestra es solo una estimación, es decir, podemos decir, que
2,16 es el tiempo estimado, sin embargo para que esto sea realmente una inferencia estadı́stica
habrı́a que cuantificar el error de estimación y el correspondiente nivel de confianza en esta,
esto será visto posteriormente.
134
El problema anterior también puede resolverse desde un punto de vista probabilı́stico, para
esto basta obtener un modelo que describa las frecuencias relativas de los tiempos necesarios
—más adelante nos ocuparemos del estudio de modelos de esta naturaleza—, podemos
considerar uno muy simple a partir de los datos de la muestra, es decir, una función H
cuya gráfica corresponde a la ojiva dada anteriormente, ası́, de allı́ observamos (o incluso
simplemente de la tabla de la distribución) que el valor buscado, x, está en el tercer intervalo,
es decir, x ∈]1, 60; 2, 39], luego, concentrando nuestra atención en este intervalo, obtenemos:
x = 2,3505. Lo anterior se ilustra a continuación:
Determinación de un percentil a partir de la ojiva
Con esta función podemos averiguar, bajo un enfoque probabilı́stico, todo lo relacionado
con esta variable (el tiempo necesario para realizar las transacciones en el cajero), como por
ejemplo el tiempo promedio necesario, de esto nos ocuparemos en el capı́tulo de probabilidad.
El ejemplo anterior también motiva la definición siguiente.
Definición 5.7. Si K es un número entre 0 y 100, el percentil K es el valor de los datos

que tiene la propiedad de que el K % de las observaciones es menor o igual que él. Podemos
denotarlo por PK . Ası́, H(PK ) = k / 100 ó, equivalentemente, F (PK ) = nk / 100, siendo n
el número total de observaciones.
Observación 5.4. Nótese que el percentil es una medida de posición o ubicación

relativa dentro del grupo de observaciones. Un ejemplo muy familiar para todos nosotros
lo encontramos en la universidad cuando se habla del “tercio superior” o, a veces, hasta del
“quinto superior”; el primer grupo corresponde a los alumnos con un promedio ponderado
de notas de por lo menos igual al P66,66 ; y el segundo grupo está integrado por los alumnos
cuyo promedio ponderado de notas sea por lo menos igual al P80 . Estas medidas son de suma
utilidad cuando queremos comparar datos medidos en diferentes unidades.
135
Ejemplo 5.15. Cuando usted, como es de esperarse, termine satisfactoriamente sus estudios
o, haya completado buena parte de ellos, querrá empezar a trabajar o, tal vez, querrá salir
al extranjero para realizar un pos grado; entonces, tendrá que preparar su curriculum vitae,
además, probablemente tenga que rendir un examen de suficiencia en el idioma inglés y
también le tendrán que elaborar algunas cartas de recomendación. Para lo del inglés, lo
que importará será su ubicación relativa o, percentil, dentro de las notas de dicho examen;
mientras que para la carta de recomendación, será de suma importancia su percentil dentro
del grupo de notas de los alumnos de la universidad.
Definición 5.8. Gráfica de caja: es una gráfica que se obtiene con los percentiles 25, 50
y 75, junto con el menor y mayor valor de los datos. Se obtiene ası́ un buen resumen de los
datos.
A continuación hagamos la gráfica de caja que corresponde a los datos del ejemplo 5.13,
correspondientes a los tiempos necesarios para realizar una transacción en un cajero
automático. Las estadı́sticas necesarias las presentamos en la tabla siguiente:
Tiempo necesario (min)

Mı́nimo 0,02
Máximo 4,75
Percentil 25 0,92
Percentil 75 2,16
Percentil 50 1,4
Figura 5.2: Gráfica de caja de la distribución de los tiempos para realizar las transacciones
En esta gráfica se puede apreciar que los tiempos necesarios para realizar las transacciones
varı́an entre 0,02 min y 4,75 min, mientras que el 50 % de las tiempos centrales está entre
0,92 min y 2,16 min, esto da un rango medio de 2,48 min . Un promedio para estos tiempos
puede ser 1,4 min .
Observación 5.5. Una vez más destacamos que la distribución de los datos tiene por
finalidad primordial detectar patrones de tendencia que muestren estos datos y en particular
proponer, a partir de estos patrones, modelos para describir no solo la muestra de datos
disponibles, sino a la población entera de la que provienen estos. Las estadı́sticas (resúmenes)
de una muestra de datos disponible (media, moda, mediana, etc.) se obtienen directamente
con los propios datos, sin necesidad de la distribución de frecuencias.
136
5.5. Propiedades y uso de los promedios
La importancia del promedio se debe a que muchas veces necesitamos saber cómo son
los datos en general y esto resulta más importante que las particularidades de cada uno. A
continuación damos algunas observaciones y propiedades de los promedios ya definidos, no
sin antes incidir una vez más que la media aritmética no es la única forma de obtener un
promedio, es la más conocida, pues, generalmente es la mejor, pero no siempre lo es.
1. La moda se puede calcular y tendrá significado en términos de la variable medida,

incluso con escalas nominales. Para la mediana esto sucede a partir de escalas ordinales.
Para la media con escalas de razón y hasta con las de intervalo.
2. La moda y la mediana presentan dificultades en su cálculo. Puede ocurrir que ninguno

de los datos sobresalga en frecuencia, en este caso no existe la moda o, a veces, se admite
la existencia de una o dos modas. Si el número de datos es par, existirı́an dos de ellos
que ocuparı́an las posiciones centrales al ser ordenados, si estos dos son iguales, no hay
ningún problema; pero si no lo son, dos reglas son muy usadas: la primera consiste en
tomar el de menor valor, la cual es muy útil incluso con escalas ordinales simplemente;
y la segunda, válida para escalas de intervalo o de razón, consiste en tomar la media
aritmética de los dos valores centrales.
3. De estos tres promedios, solo la media es proporcional a la suma total de las

n
X
observaciones. Y se tiene que: xj = nX̄. Ası́, solo la media deberá usarse para
j=1
este fin.
4. En el caso de variables cuantitativas, la media aritmética es el promedio más usado,

esto se debe a que tiene mejores propiedades y es más adecuado para la inferencia
estadı́stica, pues produce generalmente mejores estimaciones. Sin embargo, como
medida del promedio, la principal desventaja de la media es que se ve afectada por
la presencia de asimetrı́a o valores extremos no compensados, desplazándose en esa
dirección. A continuación se ilustra esto gráficamente para el caso de una distribución
correspondiente a una variable cuantitativa continua con tendencia a la centralización:
El ejemplo 5.13 ilustra la situación de asimetrı́a hacia la derecha, razón por cual la
media resulta un poco mayor que la mediana.
137
5. La media aritmética es el único punto de equilibrio, compensa los valores de a su

izquierda con los de su derecha. Se cumple que:
n
X n
X
(xj − X̄) = 0 y si (xj − x) = 0, entonces, x = X̄.
j=1 j=1
6. Considerando la distancia euclidiana, la media aritmética es el punto que más cerca

está de todos los datos en general, es decir, para cualquier número real x se cumple
que:
Xn Xn
(xj − X̄)2 ≤ (xj − x)2 .
j=1 j=1
La propiedad anterior también se enuncia diciendo que la media aritmética es el valor

que tiene la propiedad de minimizar la suma de los cuadrados de las desviaciones de
los datos respecto a él.
7. Considerando la distancia valor absoluto, la mediana es el punto que más cerca está de
todos los datos en general, es decir, para cualquier número real x se cumple que:
n
X n
X
| xj − M e | ≤ | xj − x |.
j=1 j=1
La propiedad anterior también se enuncia diciendo que la mediana es el valor que tiene
la propiedad de minimizar la suma de los valores absolutos de las desviaciones de los
datos respecto a él.
8. Para cualesquiera a y b, que se fijen, si hacemos que cada dato xj , se transforme en:
yj = a + bxj ,
entonces, la media aritmética resultante de estos datos, ası́ transformados, también

satisface dicha relación, es decir,
Ȳ = a + bX̄.
Esta propiedad nos dice cómo varı́a la media aritmética ante cambios en la unidad de
medida o del origen de la escala.
Ahora veamos las principales medidas de dispersión, la tendencia natural de los datos a
diferenciarse entre ellos.
5.6. Medidas de dispersión
La tendencia a la dispersión es la tendencia más natural en los datos, sin ella no existirı́an
problemas que resolver y significa la tendencia que tienen los datos a diferenciarse entre ellos,
a ser menos homogéneos y más heterogéneos, a estar más dispersos.
138
El Rango es la diferencia entre los dos valores más extremos, es decir, entre el mayor y el
menor de los datos. Lo podemos denotar por R. Ası́, si como ya fue indicado antes, x(1) es
el menor valor y x(n) es el mayor, se tiene que:
R = x(n) − x(1)
Claramente es una medida muy imprecisa, como se ilustra en el ejemplo siguiente.
Ejemplo 5.16. Dadas las series de datos siguientes:
Datos R X̄ = M e = M o
Serie 1 : 15 20 20 20 25 10 20
Serie 2 : 195 200 200 200 200 200 200 200 205 10 200
¿En cuál de las series dirı́a usted que los datos están menos dispersos?
La respuesta es en la segunda, pues puede apreciarse en ella que hay mayor cantidad de
datos parecidos a su promedio. El rango es una medida muy imprecisa. Solo cuando el rango
sea pequeño, tendremos razones para pensar que no haya mucha dispersión.
El rango intercuartil Es la diferencia existente entre los percentiles 75 y 25. Lo podemos

denotar por RI. Ası́:
RI = P75 − P25 .
Esta medida refina al rango, pues ya no considera los dos valores más extremos; sino a los
cuartos superior e inferior, es decir, descarta los datos que queden fuera del intervalo formado
por estos percentiles y se queda sólo con el 50 % restante, o sea, el 50 % central.
La desviación estándar Se la define como una ‘distancia’ promedio de los datos respecto
a su media. Esto es, si la denotamos por S, tenemos que:
v
u n
uP
u (xj − X̄)2
t j=1
S= .
n
En esta fórmula, la raı́z cuadrada permite que esta medida se exprese en las mismas unidades
de los datos.
Si no se dividiera por n, se tendrı́a exactamente la distancia euclidiana entre los puntos de

Rn : (x1 , . . . , xn ) y (X̄, . . . , X̄), entonces esta medida es una distancia promedio de los
datos a su media. Cuanto más grande sea este valor, más heterogéneos serán los datos; y
cuanto más pequeño sea este valor, más homogéneos lo serán.
Esta estadı́stica es la medida de dispersión más usada, por razones similares a las que hacen
de la media la medida de resumen o promedio más usada, y naturalmente también presenta
dificultades cuando existe asimetrı́a.
139
La varianza es el cuadrado de la desviación estándar, por eso se la denota por S 2 .
El coeficiente de variación Se le define como la proporción que representa el valor de la

desviación estándar respecto al de la media. Se lo denota por CV. Ası́:
S
CV = .
X̄
Al carecer de unidades, se le suele usar para comparar la dispersión existente entre dos
grupos de datos cuyas unidades no sean comparables, o cuyos promedios estén
muy distanciados por corresponder a distintas poblaciones.
Ejemplo 5.17. Veamos lo que ocurre con los datos del ejemplo 5.12. Aprovechemos para
obtener las principales estadı́sticas de estos datos con ayuda del Excel, el cual tiene los
procedimientos estadı́sticos en la opción del menú de Herramientas llamada Análisis de
datos (si esta opción no estuviera activada se puede hacerlo en los Complementos del
menú de Herramientas). En la opción Análisis de datos se pide el procedimiento Estadı́stica
descriptiva, ası́, la secuencia anterior es:
Herramientas → Análisis de datos → Estadı́stica descriptiva.
Al procedimiento Estadı́stica Descriptiva se le solicita el resumen de estadı́sticas y para

que este incluya los percentiles 75 y 25 se indica el k-ésimo mayor y el k-ésimo menor
correspondientes, en este caso como son 80 datos, estos corresponden al vigésimo mayor y
vigésimo menor, respectivamente (la cuarta parte de 80 es 20). Ası́ obtenemos, entre otras,
las estadı́sticas siguientes:
Número de sucursales
Media 4,325
Error tı́pico 0,1204
Mediana 4
Moda 4
Desviación estándar 1,077
Varianza de la muestra 1,1589
Curtosis 1,1995
Coeficiente de asimetrı́a -0,1874
Rango 6
Mı́nimo 1
Máximo 7
Suma 346
Cuenta 80
Mayor (20) 5
Menor(20) 4
Nivel de confianza(95 %) 0,2396
140
Como ya hemos visto los datos están alrededor de 4. Vemos que el rango es 6, mientras
que el rango intercuartil es P75 − P25 = 5 − 4 = 1 este último indica que no es muy
grande la dispersión en el número de sucursales, al igual que la desviación estándar que
es 1,077, si queremos precisar mejor cuán grande son estas medidas de dispersión hay que
compararlas con la magnitud promedio de los datos, ası́ apreciamos que es relativamente
baja la dispersión. Entonces, por lo visto hasta ahora sobre estos datos, concluimos que el
número promedio de sucursales es 4 y es relativamente pequeña la variabilidad.
Ejemplo 5.18. En el ejemplo 5.13 la media, mediana, desviación estándar y rango

intercuartil son respectivamente 1,6904; 1,4; 1,1289 y 1,24. Ası́, con los patrones de tendencia
observados y las estadı́sticas anteriores, concluimos que en promedio los clientes tardan 1,4
minutos y la variabilidad promedio es de 1,2 minutos.
5.6.1. Propiedades de la desviación estándar
1. Se verifica la fórmula siguiente, llamada fórmula de cálculo para la varianza:
n n
x2j − nX̄ 2 x2j
P P
j=1 j=1
S2 = = − X̄ 2 .
n n
2. Para cualesquiera a y b, que se fijen, si hacemos que cada dato xj , se transforma en:
yj = a + bxj ,
entonces, la varianza resultante de estos datos ası́ transformados satisface:
SY2 = b2 SX
2
Y si b es positivo: SY = bSX .
3. Desigualdad de Chebychev Para cualquier número K > 0, la proporción de datos

que caen dentro del intervalo de extremos X̄ − KS y X̄ + KS, es por lo menos igual
a 1 − 1 / K 2.
Esta propiedad permite establecer que entre X̄ − 3S y X̄ + 3S, se encuentran por lo

menos 8/9 de los datos, es decir, el 88,89 % (aproximadamente). De aquı́ que mientras
más disten los datos respecto a su media, menos frecuentes serán.
Lo discutido al final también motiva, en parte, la definición siguiente, relacionada con

la ubicación relativa de un dato respecto a la media de su grupo.
141
5.7. Datos tipificados o estandarizados
Si en un grupo de datos, la media es X̄ y la desviación estándar es SX , entonces el valor

tipificado de xj , se lo denota por zj y se le define como:
xj − X̄
zj = .
SX
Ası́, el dato tipificado, no es más que su distancia respecto a la media del grupo; pero
expresada en términos de la desviación estándar. Especı́ficamente, el signo del dato,
ası́ tipificado, indica si el dato está por debajo o por encima de la media del grupo; y la
magnitud, en valor absoluto, indica cuán alejado está en términos del alejamiento promedio
de los datos (la desviación estándar). También es claro que al pasar los datos a esta escala,
es decir aplicando tal fórmula de transformación, los datos ası́ obtenidos preservan el orden
original.
Además de lo mencionado antes, lo más importante es que al transformar ası́ los datos,
sin que importe cuál sea la media y desviación estándar de los datos originales, los valores
resultantes tienen una media igual a cero y una desviación estándar igual a 1, de allı́ el
nombre de estandarizados. Esto último y el hecho que el orden se preserve al transformar
ası́ los datos, hace que esta transformación sea de utilidad, por ejemplo, cuando se quiere
comparar dos datos provenientes de grupos con medias muy diferentes, o si corresponden a
mediciones efectuadas en distintas escalas.
Observación 5.6. La forma anterior no es la única utilizada para estandarizar, existen otras
como la puntuación T , para la cual la media es 50 y la desviación estándar 10, no es difı́cil
verificar que la fórmula para este caso es la siguiente:

xj − X̄
T = 50 + 10.
SX
Esta es la fórmula que se utiliza para estandarizar las notas en nuestra universidad, antes
de obtener el coeficiente de rendimiento estandarizado (CRAEST).
La deducción de esta fórmula es la siguiente:
Si X es la variable original, deseamos efectuar una transformación simple de ella: Y = a+bX,

con b > 0 (para conservar el orden original de los valores de X), de modo que la media y
desviación estándar resultantes sean 50 y 10, respectivamente. Entonces, por la propiedad 8
de la media y la propiedad 2 de la desviación estándar, a y b deben satisfacer las ecuaciones
siguientes:
a + b X̄ = 50
b SX = 10.

10 10 10 10 xj − X̄
entonces, b = y a = 50 − X̄. Ası́, Y = 50 − X̄ + X = 50 + 10.
SX SX SX SX SX
142
Resulta claro que al efectuar esta transformación el orden de mérito de los alumnos en un
determinado curso, establecido por la nota final (x), se mantiene al hacerlo con las notas
estandarizadas (T ), pero con la diferencia que ahora la media es 50 y la desviación estándar
10, lo que facilita la comparación del rendimiento de dos alumnos de diferentes facultades.
También se puede notar que si el promedio ponderado de un alumno está por debajo de la
media de su facultad (esto es x < X̄), entonces su CRAEST será menor que 50; pero si su
promedio está por arriba de la media de su facultad (esto es x > X̄), entonces su craest
será mayor que 50.
Observación 5.7. En general, si se quiere una media Ȳ = ȳ y una desviación estándar
SY = sY , la fórmula de transformación es:

xj − X̄
Y = ȳ + sy
SX
5.8. Diagrama de hojas y tallos
Este diagrama es una alternativa a la distribución de frecuencias, para la tarea de analizar

los datos. En esta gráfica cada dato se divide en dos partes: su tallo y sus hojas.
Ejemplo, a continuación tenemos 21 datos:
72 71 65 54 78 85 63 61 51 77 85 83 63 55 57 73 73 68 73 75 77
Primero ordenamos los datos de menor a mayor:
51 54 55 57 61 63 63 65 68 71 72 73 73 73 75 77 77 78 83 85 85
Observamos que el menor dato es 51 y el mayor 85. Para cada dato, podemos tomar la cifra
de las decenas como tallo, entonces, la otra será la hoja. Ası́, por ejemplo, para el dato 51: su
tallo es 5, su hoja 1. Tenemos, entonces, colocamos los tallos en una columna, como sigue:
5
6
7
8
Luego escribimos cada hoja junto a su tallo:
5 1 4 5 7
6 1 3 3 5 8
7 1 2 3 3 5 7 7 8
8 3 5 5
143
5.9. Ejercicios Resueltos
Ejercicio 5.1.
Muestre dos grupos de datos para verificar que el rango es una medida de dispersión muy
imprecisa.
Solución: Dadas las series de datos siguientes:
Serie 1: 195 200 200 200 205

Serie 2: 15 20 20 20 20 20 20 20 20 20 25
En ambas series el rango es 10; pero en la segunda hay mayor cantidad de datos parecidos
entre sı́.
Ejercicio 5.2.
Muestre una serie de datos para los que no exista un promedio o término medio.
Solución: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 18, 19, 20, 21, 22, 23.
No existe una estadı́stica que sirva de término medio, es decir, los datos no se parecen a un
valor en particular.
Ejercicio 5.3.
En una compañı́a la media aritmética de los sueldos es de S/. 2 500. Se proponen dos
alternativas de aumento, en la primera se propone incrementar a todos los empleados S/.
600; mientras que, en la segunda un aumento del 5 % más una bonificación de S/. 200. ¿Cuál
de las dos alternativas le representará más gasto a la compañı́a?
Solución: Para responder la pregunta, basta comparar las medias bajo cada alternativa,
pues la media es proporcional a la suma total. Veamos entonces cómo cambia la media con
cada alternativa:
Según la primera alternativa, cada sueldo xj se transforma en yj = 600 + xj . Ası́, por la

propiedad 8 de la media, resulta una media Ȳ = 600 + X̄ = 600 + 2500 = S/. 3 100.
Para la segunda alternativa, cada sueldo xj se transforma en tj = xj + 0, 05 xj + 200 =

200 + 1, 05 xj . Nuevamente, por la propiedad anterior, resulta que la media bajo esta
alternativa es T̄ = 200 + 1, 05X̄ = 200 + (1, 05)2500 = S/. 2 825.
Ası́, la primera alternativa le representará más gasto a la compañı́a.
144
Ejercicio 5.4.
A fin de tomar diferentes decisiones sobre el tiempo que permanece inactivo un sistema de
información durante un dı́a, se le solicita a usted el valor promedio y el tiempo total de
inactividad en un perı́odo de 60 dı́as. Suponga que solo se tiene la información siguiente
sobre los tiempos registrados para cada uno de los dı́as de este perı́odo:
Mediana = 6 000 s; Media = 8 500 s .
Proporcione lo solicitado. Si fuera el caso, mencione la información que se requiera para una
mejor respuesta.
Solución: Sean x1 . . . x60 los tiempos de inactividad correspondientes a los 60 dı́as de este
60
P
perı́odo. Entonces, el tiempo total de inactividad es xj = 60 X̄ = 60 × 8 500 = 510 000.
j=1
Pero para dar una respuesta apropiada para el tiempo promedio de inactividad, se requiere
mayor información. Podrı́amos optar por la mediana, pensando que si este valor difiere de la
media, probablemente se deba a que en algunos dı́as el tiempo de inactividad es muy grande;
pero incluso podrı́a ser que no se pueda encontrar un buen promedio o término medio para
los tiempos registrados.
Ejercicio 5.5.
A fin de mejorar el rendimiento de los alumnos, en un curso de estadı́stica, los alumnos fueron
separados en dos grupos, al primero le fue dado un curso con herramientas computacionales
modernas, al segundo un curso tradicional sin las herramientas computacionales. Al cabo
del curso ambos grupos fueron evaluados con una misma prueba, las notas correspondientes
fueron procesados con el Excel, obteniéndose las distribuciones de frecuencias siguientes:
Con herramientas computacionales Sin herramientas computacionales

Notas Alumnos Notas Alumnos
9 1 9 4
10 4 10 7
11 2 11 12
12 3 12 9
13 10 13 10
14 10 14 3
15 7 15 3
16 8 16 2
17 4
18 1
145
a) Obtenga e interprete las estadı́sticas descriptivas que resumen los datos.
b) Represente cada distribución con su respectiva gráfica de caja de modo que se muestre
la conclusión al problema formulado. Comente al respecto.
Solución:
a) Estadı́sticas importantes:
Estadı́stica Con Sin

Cuenta 50 50
Media 13,92 11,9
Mediana 14 12
Moda 13 y 14 11
Desviación estándar 2,1174 1,7871
Mı́nimo 9 9
Máximo 18 16
Rango 9 7
Percentil 75 16 13
Percentil 25 13 11
Rango medio 3 2
Fueron evaluados 50 alumnos con cada prueba.

La nota promedio (media) fue 13,92, cuando se usaron herramientas computacionales,
y 11,9 cuando no se usaron dichas herramientas.
El 50 % de los alumnos tuvo una nota menor o igual que 14, cuando se usaron
herramientas computacionales, y menor o igual que 12, cuando no se usaron.
La mayorı́a de los alumnos tuvo una igual a 14, cuando se usaron herramientas
computacionales, y 11, cuando no se usaron dichas herramientas.
La diferencia promedio de las notas fue 2,1173, cuando se usaron herramientas
computacionales, y 1,7871, cuando no se usaron dichas herramientas.
La mı́nima nota fue 9 independientemente del uso de herramientas computacionales;
pero cuando se usaron dichas herramientas la máxima nota fue 18, dos puntos más que
cuando no fueron usadas. Lo que determina un rango de variación de las notas de 9 en
el primer caso y de 7 en el segundo.
146
El rango de variación medio de las notas fue 3 puntos, cuando se usaron herramientas
computacionales y 2 cuando no se usaron dichas herramientas.
b) Gráficas de cajas:
Figura 5.3: Comparación de las notas cuando se usan herramientas computacionales
Se concluye que cuando se usaron las herramientas computacionales el promedio de las

notas aumentó (aproximadamente dos puntos); sin embargo las notas resultaron algo
más heterogéneas, pues la variabilidad aumentó (aproximadamente un punto).
147
Ejercicio 5.1.
Redacte la conclusión dada en cada una de las partes siguientes, pero según el contexto
respectivo:
a) En un estudio sobre cambios en la conducta de drogadictos, de cierto grupo de personas,
fue registrada la edad (en años) en la cual dichas personas iniciaron el consumo de
drogas. Se concluyó que el 75 % de los datos registrados era mayor que 15.
b) En un estudio sobre cierto sector laboral, se registró el ingreso mensual (en soles) de
cada trabajador. Se concluyó que solo el 10 % de los datos registrados era superior a
3 500.
c) En un estudio acerca de las caracterı́sticas de ciertas cerámicas precolombinas fue

registrado (en centı́metros) el diámetro central de estas. Se concluyó que el 30 % de los
datos registrados estaba entre 20 cm y 25 cm .
Ejercicio 5.2.
Usando una misma escala, cierta caracterı́stica ha sido medida sobre tres objetos, A, B y C,
obteniéndose los valores 0, 40 y 20, respectivamente.
a) Con esta información no se puede asegurar que la escala usada sea ordinal. Justifique
con un ejemplo.
b) Con esta información no se puede descartar que la escala usada sea ordinal. Justifique
con un ejemplo.
c) Con una segunda escala, también del mismo tipo de la primera, se midió la misma
caracterı́stica sobre estos objetos y se obtuvieron las mediciones siguientes: 10, 90 y
50, respectivamente. ¿Cuál puede ser el nivel de medición empleado?
d) Suponga que esta caracterı́stica sea cuantitativa y que la escala usada sea de razón.
Dé usted una variable que pueda servir como ejemplo y brinde la información principal
que proporcionarı́an dichos valores acerca de ella.
Ejercicio 5.3.
Fue registrada la tolerancia de tres personas, A, B y C, empleando una escala nominal, y se

obtuvo los resultados siguientes:
A B C
3 5 5
¿Se puede deducir si una de estas personas es más tolerante que las otras dos?
148
Ejercicio 5.4.
A continuación se presentan tres series de datos y tres afirmaciones:
Serie 1: 1, 2, 4, 6, 6, 6, 6, 8, 10, 11.

Serie 2: 39, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 40, 41, 70.
Serie 3: 3, 3, 4, 4, 5, 5, 6, 6, 7, 7, 8, 8, 9, 9.
Afirmación 1: El producto de la mediana y el número de datos

no proporciona una buena idea de la suma total de los datos.
Afirmación 2: No siempre es fácil determinar un valor promedio.
Afirmación 3: El rango es una medida de dispersión muy imprecisa.
Identifique cada afirmación con la serie de datos que mejor refleje lo sostenido en ella. Para
la elección de cada serie deberá indicar la razón por la que descarta las otras.
Ejercicio 5.5.
En una clı́nica, cada una de dos terapias nuevas (A y B) para la rehabilitación de pacientes
con depresión se aplicó en uno de dos grupos de igual número de pacientes (con caracterı́sticas
similares) que adolecı́an de este problema, obteniéndose las estadı́sticas siguientes sobre las
horas de terapia aplicadas hasta la recuperación de los pacientes:
Horas de aplicación
Estadı́stica Terapia A Terapia B
Media 66,5 77,0
Mediana 66,5 63,0
Moda 66,5 63,0
Percentil 75 86,0 83,0
a) Si los histogramas de cada muestra de datos mostraron una tendencia a la

centralización, determine la terapia que, en general, necesitó de un menor tiempo de
aplicación por paciente.
b) Si el gasto para la clı́nica, por hora de aplicación, fue el mismo para cada terapia, ¿la
aplicación de cuál de las terapias significó un menor gasto total para la clı́nica?
c) Si como criterio para decidir cuál de las terapias se debı́a adoptar se impuso la condición
de que, a lo más, el 25 % de los pacientes requieran más de 85 horas, ¿cuál de estas dos
terapias, si existe una, decidirı́a adoptar usted?
149
Ejercicio 5.6.
A continuación se dan cuatro afirmaciones. Estudie la veracidad de cada una de ellas.

Además, si una afirmación es verdadera proporcione una serie de datos que refleje lo que esta
sostiene; y si considera que la afirmación es falsa muestre una serie que exhiba lo contrario.
i) Con el ‘promedio’ de una serie de 10 datos se puede tener cierta idea de la suma total
de los datos, pero no necesariamente la suma exacta.
ii) Para obtener un percentil de una serie de datos, obtenidos de una variable cuantitativa
continua, es necesario construir previamente la distribución de frecuencias y usar la
ojiva de frecuencias acumuladas.
iii) El rango es una medida de dispersión muy imprecisa.
iv) Si una serie de datos tiene una media distinta a la mediana, entonces, necesariamente
existe un patrón de tendencia a la centralización con sesgo.
Ejercicio 5.7.
A fin de estudiar la eficiencia de cierto programa, usado para la ubicación de archivos, se

registró el tiempo que demoró el programa para localizar la posición de memoria de cincuenta
archivos de caracterı́sticas similares. Se obtuvo los resultados siguientes:
Tiempo (s) Frecuencia relativa

[ 0,000; 0,125 ] 0,04
] 0,125; 0,250 ] 0,12
] 0,250; 0,375 ] 0,16
] 0,375; 0,500 ] 0,18
] 0,500; 0,625 ] 0,18
] 0,625; 0,750 ] 0,14
] 0,750; 0,875 ] 0,12
] 0,875; 1,000 ] 0,06
a) Una hipótesis sostiene que el tiempo necesario para localizar la posición de memoria
está, para la mayorı́a de los archivos, alrededor de medio segundo y conforme el tiempo
se aleje de este valor, se encontrarán menos archivos que requerirán de tal tiempo.
¿Considera que los datos evidencian la validez de esta hipótesis? Comente y justifique
con el apoyo de una gráfica conveniente.
x2 x3
b) La función G(x) = 6( − ), 0 ≤ x ≤ 1, es una de las funciones usadas para modelar
2 3
(aproximar) la frecuencia relativa acumulada hasta x, cuando 0 ≤ x ≤ 1. Según esta
función, ¿cuál serı́a el valor de la frecuencia que corresponde al cuarto intervalo de la
distribución de estos datos?
150
Ejercicio 5.8.
Se hizo un muestreo aleatorio de 66 comunidades del paı́s para averiguar el porcentaje de

carencias básicas de las comunidades. Los datos se muestran a continuación:
87,4 75,5 70,6 71 70,9 75,4 76 66,5 72,7 75,2 71,6

75,2 76,6 86,4 65,4 74,8 84,5 76,8 76,4 70,4 71,7 75,9
82,1 78 83,6 70,9 74,5 77 78,5 70,5 80,8 83,8 75,3
82,3 71,9 77,1 77,2 71,8 75,2 75,1 70,8 79,5 71,3 79
74,8 74,4 74,7 78,3 83,7 76,9 81,7 78,6 81,8 80,9 75,9
77,2 75,4 67,5 80,8 73 71,7 67,7 66,6 68,2 79,6 72,4
A fin de realizar una descripción estadı́stica de estos datos, primero se obtuvieron las
principales estadı́sticas con el Excel:
Porcentaje de Carencias
Media 75,68
Mediana 75,40
Moda 75,20
Rango 22,00
Mı́nimo 65,40
Máximo 87,40
Suma 4994,90
Cuenta 66,00
Mayor (17) 78,60
Menor(17) 71,70
Nivel de confianza (95 %) 1,22
A continuación, con fines de detectar los posibles patrones de tendencia, se construyó una
distribución de frecuencias. Para esto primero se usó la regla empı́rica “2 a la k,” la cual
establece que el número de intervalos es el menor entero, k, con la propiedad de que 2 elevado
a la k sea mayor o igual que el número de datos, por lo que se consideraron 7 intervalos de
igual longitud.
Luego, para obtener la tabla de la distribución de frecuencias correspondiente se usó el

Excel, para esto se proporcionó los datos y como “rango de clases” los lı́mites derechos de
los intervalos según la secuencia:
Herramientas → Análisis de datos → Histograma.
Ası́, se obtuvo la tabla siguiente:
151
Frecuencia Frecuencia
Porcentaje
relativa acumulada
68,55 0,09 0,09
71,70 0,17 0,26
74,85 0,15 0,41
78,00 0,30 0,71
81,15 0,14 0,85
84,30 0,11 0,95
87,45 0,05 1,00
En la primera columna de esta tabla se encuentran los lı́mites derechos de los intervalos y
estos son cerrados.
a) Obtenga las conclusiones.

Debe incluir:
i) Interpretación de las estadı́sticas que arroja el Excel y otras que considere

necesarias.
ii) Estudio de los posibles patrones de tendencia que muestran estos datos, con
ilustración gráfica, identificación e interpretación de estos en el contexto dado.
iii) Conclusiones que integren los puntos anteriores.
b) En el estudio se consideró que una comunidad estaba en extrema pobreza si el

porcentaje de carencias era superior al 70 %.
i) ¿Qué porcentaje de comunidades en extrema pobreza hay en esta muestra?

ii) Como es sabido la ojiva muestra la tendencia mostrada por las frecuencias
acumuladas de esta muestra de datos. Considere la ojiva como la gráfica de una
función modelo para describir, bajo un enfoque probabilı́stico, el porcentaje de
carencias en las comunidades del paı́s. Según este modelo, ¿cuál serı́a el porcentaje
de comunidades en el paı́s que se encuentra en extrema pobreza?
c) Determine en cuánto deberı́a disminuir el porcentaje de carencias de cada comunidad

para que la media de dicho porcentaje sea solo del 55 %. Si se lograra esto, ¿qué ocurrirı́a
con la desviación estándar de dicho porcentaje?
Ejercicio 5.9.
Si x1 , . . . , xn es una serie de datos con media X̄ y desviación estándar SX , determine la

media y desviación estándar de la serie y1 , . . . , yn , en cada uno de los casos siguientes:
a) yj = 4 + 5(xj − X̄), j = 1, . . . , n. b) yj = n(xj − X̄), j = 1, . . . , n.
c) yj = (xj − X̄) + xn , j = 1, . . . , n. d) yj = 10xj − X̄, j = 1, . . . , n.
152
Ejercicio 5.10.
Para comparar la dureza del agua en dos ciudades, A y B, se tomaron muestras de agua y
se medió el contenido de calcio. Los resultados, en miligramos por litro de agua, fueron los
siguientes:
A 250 250 258 270 270 270 271 271 272 284 291 291 292 292
B 222 244 250 251 255 261 264 264 265 266 277 277
a) Haga las gráficas de caja, de manera que facilite la comparación del contenido de calcio
entre las muestras de agua de las ciudades. Obtenga las conclusiones.
b) El tercer valor de la muestra de agua en la ciudad A fue 258, el correspondiente a la

B fue 250. ¿Cuál de estos valores representa mayor contenido de calcio en su grupo?
Ejercicio 5.11.
En un banco se quiere estudiar la implementación de una capacitación a fin de mejorar

la atención que brindan los empleados. Con esta finalidad se tomaron dos muestras de 50
empleados y se capacitó a los de una de estas. Luego se esperó a que todos los empleados
hayan atendido 10 clientes y se registró, para cada empleado, el número de clientes que
mostraron su insatisfacción por la atención recibida. Los datos fueron procesados con el
Excel obteniéndose, entre otros, los resultados siguientes:
Sin la Capacitación Con la Capacitación

Insatisfechos Empleados Insatisfechos Empleados
1 1 1 4
2 4 2 7
3 2 3 12
4 3 4 9
5 10 5 10
6 10 6 3
7 7 7 3
8 8 8 2
9 4
10 1
Media 5.92 Media 3.9
Desviación estándar 2.12 Desviación estándar 1.79
Obtenga conclusiones a partir de la descripción de estos datos. Incluya también otras

estadı́sticas importantes que no han sido presentadas en el resumen de los datos y represente
cada distribución mediante una gráfica de caja y comente según esta.
153
Ejercicio 5.12.
A fin de fiscalizar el pago de impuestos de los empleados de cierto sector laboral, se tomó una
muestra aleatoria de 25 empleados, entre los 10 000 que integran este sector.
Los ingresos mensuales de esta muestra (en miles de soles) se procesaron con las herramientas
estadı́sticas que proporciona el Excel y se obtuvo los resultados siguientes:
Media 9,69
Mediana 9,40
Cuenta 25
a) Complete la información faltante en el gráfico.
b) Obtenga las conclusiones importantes que se derivan de esta información.
c) Los ingresos mensuales de este sector, superiores a 10 mil soles, serán gravados con un
impuesto extraordinario de 100 soles. Se presenta el problema de estimar la recaudación
total mensual que se obtendrá al aplicar el impuesto sobre este sector.
i) Resuelva el problema bajo un enfoque estadı́stico descriptivo, es decir, considere

los resultados de la muestra para obtener una estimación.
ii) Resuelva el problema bajo un enfoque probabilı́stico, empleando como modelo a la
función, H, cuya gráfica corresponde a la ojiva de frecuencias relativas acumuladas
de esta muestra.
154
Ejercicio 5.13.
En un centro de trabajo, al que llega una gran cantidad de clientes por dı́a, los
operarios fueron capacitados, siguiendo un entrenamiento patrón, para realizar funciones
del mismo tipo y con gran rapidez. Los tiempos correspondientes hasta que se requiere
un descanso, durante el dı́a de trabajo, se distribuyen siguiendo una patrón de tendencia
a la centralización, cuya media y percentiles 25, 50 y 75 son 4,6; 2,75; 5,1 y 5,1 horas,
respectivamente. Con el fin de mejorar los tiempos, anteriormente descritos, fue elaborado
un nuevo tipo de entrenamiento para realizar las mismas funciones diarias; y al adiestrar
a los operarios los tiempos correspondientes dieron una media y percentiles 25, 50 y 75 de
4,5; 4,1; 5,4 y 5,5 horas, respectivamente. Además la distribución de frecuencias con este
entrenamiento nuevo es como la representada a continuación:
a) ¿Existe también un patrón de tendencia a la centralización en la distribución de los

tiempos correspondientes al nuevo entrenamiento? Explique por qué razones podrı́a
esperarse la existencia de este patrón de tendencia en este contexto.
b) Respecto al entrenamiento patrón, se sostenı́a que un grupo de operarios requerı́a una

capacitación complementaria. ¿Está usted de acuerdo? ¿Qué puede decir al respecto si
se trata de la capacitación nueva?
c) El entrenamiento nuevo será implantado definitivamente, en lugar del antiguo, si tanto

el tiempo promedio, como la variabilidad, resultaran mejores. Usted es encargado para
decidirlo, ¿cuál, según los datos, serı́a su decisión?
d) ¿Cuál es el tiempo mı́nimo para ser considerado en el “cuarto mejor calificado”, según
cada entrenamiento?
e) ¿Cuál es el tiempo máximo para ser considerado en el “cuarto menos calificado”, según
cada entrenamiento?
155
Ejercicio 5.14.
Un alumno obtuvo una nota de 14 en el curso A y esta corresponde al percentil 40 de las

notas en el curso. La nota de este alumno en el curso B fue de 13 y esta corresponde al
percentil 60 de las notas en este curso. Determine en cuál de los dos cursos el alumno obtuvo
un mejor desempeño con respecto a los demás alumnos. Suponga que el desempeño está dado
por la nota y justifique su respuesta.
Ejercicio 5.15.
En una clı́nica, cada una de dos terapias nuevas (A y B) para la rehabilitación de pacientes
con depresión se aplicó en uno de dos grupos de igual número de pacientes (con caracterı́sticas
similares) que adolecı́an de este problema, obteniéndose las estadı́sticas siguientes sobre las
horas de terapia aplicadas hasta la recuperación de los pacientes:
Horas de aplicación
Estadı́stica Terapia A Terapia B
Media 66,5 77,0
Mediana 66,5 63,0
Moda 66,5 63,0
Además, los histogramas de cada muestra de datos mostraron una tendencia a la

centralización.
a) Si el gasto para la clı́nica, por hora de aplicación, fue el mismo para cada terapia, ¿la
aplicación de cuál de las terapias significó un menor gasto total para la clı́nica?
b) Si como criterio para decidir cuál de las terapias se debı́a adoptar se impuso la condición
de que, a lo más, el 25 % de los pacientes requieran más de 85 horas, ¿cuál de estas dos
terapias, si existe una, decidirı́a adoptar usted?
c) Analice en cuál de las terapias los tiempos de recuperación fueron más homogéneos.
Ejercicio 5.16.
Durante el último perı́odo de doce meses, la rentabilidad mensual de cierta operación

financiera tuvo una media de 20 % y una desviación estándar de 5 %. Si un agente invirtió en
cada mes un capital de 500 unidades monetarias, determı́nese la media y la desviación
estándar de los capitales finales mensuales en este perı́odo.
Nota: si x1 , . . . , x12 son las rentabilidades (en porcentaje) de cada uno de estos meses,
x
observe que el capital final al cabo del j-ésimo mes es de 500 + 500 100j = 500 + 5xj .
156
6. Correlación y regresión lineal
6.1. Correlación
Básicamente, el análisis de correlación lineal consiste en averiguar si dos variables X e

Y están asociadas o correlacionadas de manera lineal. Y el objetivo principal del análisis
de regresión lineal es poder predecir el valor de una de las variables (la que se denomina
dependiente y usualmente se la denota por Y ) a partir de un determinado valor de la
otra (variable independiente), para lo cual se determina la ecuación del modelo lineal que
relaciona a las dos variables. Para estos fines se dispone de una muestra de n observaciones
conjuntas de ambas variables, digamos (x1 , y1 ), . . . , (xn , yn ); en donde cada par corresponde
a la medición de X e Y, respectivamente, sobre una misma unidad (sujeto u objeto) de
observación.
La correlación se puede detectar fácilmente mediante la gráfica de los pares dados en un

sistema de coordenadas cartesianas, la que se conoce como “Diagrama de dispersión” o de
‘esparcimiento’. A continuación se muestran cuatro ejemplos:
Estos diagramas sugieren que el promedio de los valores (xi − X̄)(yi − Ȳ ) es un indicador de
correlación lineal, a este se le llama covarianza y se denota por SX,Y . Ası́:
Pn
(xi − X̄)(yi − Ȳ )
i=1
SX,Y =
n
157
Como se aprecia en los gráficos anteriores, si los datos tienden a seguir un patrón de tendencia
lineal y directa (si una aumenta la otra también aumenta), entonces, la covarianza es positiva;
si en cambio la tendencia lineal es inversa (si una aumenta la otra disminuye), la covarianza
es negativa. Pero, este indicador no es tan preciso como lo es el siguiente.
6.2. Índice de correlación de Pearson
A partir de la covarianza se puede definir el indicador de correlación lineal siguiente:

SX,Y
r=
SX SY
Una fórmula útil para el cálculo de r es la siguiente:
n
P
xj yj − nX̄ Ȳ
j=1
r=s
n n
x2j − nX̄ 2 )( yj2 − nȲ 2 )
P P
(
j=1 j=1
Las propiedades que tiene este indicador son las siguientes:
1. Está limitado entre −1 y 1; es decir: −1 ≤ r ≤ 1.
2. Solo en el caso de que entre los datos exista una relación lineal exacta es r, en valor
absoluto, igual a 1. Si dicha relación es directa, r es igual a 1, y si es inversa r es igual
a −1. Es decir, se cumple que:
r = 1 ⇔ existen a y b, positivo, tales que: yj = a + bxj , j = 1, . . . , n.
r = −1 ⇔ existen a y b, negativo, tales que: yj = a + bxj , j = 1, . . . , n.
3. Este indicador es invariante ante transformaciones de los datos que sean lineales y del
mismo tipo (ambas directas, o bien ambas inversas). Se tiene que si uj = c + dxj y
vj = e + f yj , j = 1, . . . , n, con d y f con el mismo signo, entonces, el coeficiente de
correlación de los datos, ası́ transformados, no varı́a; es decir, rU,V = rX,Y .
Ejemplo 6.1. En un centro de procesamiento de datos, se está interesado en estudiar Y, el

tiempo que se necesita en el computador central para procesar una cantidad, X, de ciertos
trabajos especiales. Para este fin, determinados números de trabajos de este tipo fueron
procesados en diferentes oportunidades. Los resultados se presentan a continuación:
X 2 5 7 9 11 15 9 2 7 10 15 7 11
Y 5, 5 8 9 11 13 20 11 5, 5 9, 2 12 20 8, 4 13
X 5 9 11 2 5 7 10 9 15 10 2 7
Y 8, 4 11 12 5, 9 8, 2 9, 4 12 11 20 12 5, 5 8, 6
158
Profesor José Flores Delgado Correlación y regresión lineal 159
Con estos datos haremos un breve análisis de correlación lineal, gráfica y cuantitativamente.
Gráficamente, construimos el diagrama de dispersión:
Se observa una fuerte tendencia lineal entre ambas variables, de modo que a mayor número
de trabajos le corresponde un mayor tiempo.
Cuantitativamente, usamos el coeficiente de correlación entre ambas variables:

n
P
xj yj − nX̄ Ȳ
j=1
r=s = 0, 96453
n n
x2j − nX̄ 2 )( yj2 − nȲ 2 )
P P
(
j=1 j=1
Se ratifica lo apreciado en el gráfico, es decir, existe una fuerte relación lineal (r ≈ 1) y

directa (r > 0) entre el número de trabajos para procesar y el tiempo correspondiente.
Ejemplo 6.2. En determinada empresa, se piensa que Y, el precio de venta (en soles) de un
producto, decrece conforme aumenta X, el tiempo (en años) que tiene de uso este, y según
el modelo Y = αβ X , para ciertos parámetros positivos α y β, con este último menor que 1 y
expresados en unidades convenientes. Para corroborarlo, se dispuso de la muestra conjunta
de ambas variables siguiente:
X 1 3 6 8 9 10 12
Y 4500 1200 155 42 22 11 5
En este caso, el diagrama de dispersión es:
Claramente se aprecia que las variables tienden a relacionarse, pero no de forma lineal, sino
más bien parece una forma exponencial decreciente como la del tipo señalado.
159
Para analizar la validez de este modelo no podemos usar el coeficiente de correlación, pues no
es lineal. Sin embargo, veamos cómo, en este caso, es posible transformar el modelo formulado
en uno equivalente y que sı́ sea lineal, de este modo podremos resolver el problema aplicando
la teorı́a al modelo lineal. Para esto basta usar logaritmos, en efecto:
Y = αβ X ⇔ LnY = Lnα + (Lnβ)X
Es decir, LnY y X están relacionados linealmente. Para estudiar el modelo transformado en

lineal, con variables LnY y X, usamos el coeficiente de correlación, al hacerlo obtenemos:
rLnY ; X = −0, 9977. Ası́, como este coeficiente grande, en valor absoluto, se concluye que existe
una fuerte relación lineal e inversa entre LnY y X. Por lo tanto, también es fuertemente
apreciable la formulada: Y = αβ X . A continuación se muestra la gráfica de LnY y X.
6.3. Regresión lineal simple
Si ya sabemos que los datos presentan una correlación lineal, entonces, interesa ahora
determinar cuál es la ecuación de la relación que los aproxima, es decir, cuáles son los valores
de a y b tales que, para la mayorı́a de los datos xj e yj , se tenga que yj sea aproximadamente
igual a a + bxj . El método más conocido es el de los “cuadrados mı́nimos”. Bajo este método
los valores de a y b son aquellos que minimizan la suma de los cuadrados:
n
X
Q(a, b) = (yj − a − bxj )2
j=1
Se demuestra que estos valores son:

SY
a = Ȳ − bX̄ y b = r
SX
Geométricamente, la recta buscada es la que ‘mejor’ ajusta a los datos (como muestra la
figura anterior).
160
Ejemplo 6.3. En el problema formulado en el ejemplo 6.1, ya sabemos que entre el tiempo
de procesamiento, Y, y el correspondiente número de trabajos X, existe una fuerte relación
lineal, es decir, esperamos que el modelo entre las dos variables sea:
Y = a + bX
Entonces, el paso siguiente serı́a averiguar los valores a y b que definen dicha relación.
Estos parámetros a y b los podemos estimar usando los datos dados y el método de
4,1706
los cuadrados mı́nimos. Ası́: b = r SSXY = 0, 96453 × 3,90427 = 1, 03033; a = Ȳ − bX̄ =
10, 832 − 1, 03033(8, 08) = 2, 50693. Luego, el modelo estimado es: Ŷ = 2, 50693 + 1, 03033X.
En particular, podemos hacer el pronóstico de la variable dependiente asociada a un valor

cualquiera dentro del rango de valores registrados de la variable independiente. Por ejemplo,
la estimación del pronóstico, para una cantidad de 8 trabajos, es Ŷ = 2, 50693+1, 03033(8) =
10, 75 minutos.
Ejemplo 6.4. En el contexto del ejemplo6.2, ya sabemos que entre el precio del producto,
Y, y la correspondiente edad, predomina una fuerte relación del tipo:
Y = αβ X ⇔ LnY = Lnα + (Lnβ)X
Para efectuar un pronóstico, estimamos los parámetros del modelo transformado a lineal.
Para esto, usamos las fórmulas dadas para el modelo lineal Y = a + bX, con ‘Y ’ = LnY ; y
‘X’ = X; a = Lnα y b = Lnβ. Ası́, usando los datos dados del ejemplo obtenemos:
b = Lnβ = rLnY ; X SLnY / SX = −0, 638197, por lo tanto, β = 0, 52824.
a = Ln α = Ȳ − bX̄ = LnY − (Lnβ)X̄ = 4, 483054 − (−0, 638197)(7) = 8, 95043, por lo
tanto, α = 7711, 20697.
Entonces, la ecuación del modelo esperado, la estimamos como: Ŷ = 7711, 20697(0, 52824)X .
Ası́, por ejemplo, el pronóstico del precio del producto que tiene cinco años de uso es
Ŷ = 7711, 20697(0, 52824)5 = 317, 16 soles.
Observación 6.1. Todo esto ha sido basado exclusivamente en una muestra, por lo tanto,
serı́a válido sólo para los datos dados, es decir, hemos trabajado simplemente a nivel
descriptivo y no de inferencia. Además, incluso para los propios datos, estarı́a faltando una
medida de la bondad de las estimaciones y del pronóstico. Lo último será completado a
continuación; pero la inferencia correspondiente no es materia del curso.
6.4. Análisis de varianza para la regresión
Veamos cómo se puede medir el poder explicativo de la variable dependiente (X) sobre
la independiente (Y ), a través de la regresión planteada. Analizaremos la varianza de Y,
llamada de la regresión, identificando dos fuentes que dan origen a ella.
161
El valor ajustado por la regresión de X sobre Y , para cada valor yj de Y es:
ŷj = a + bxj = Ȳ + b(xj − X̄)
Y el correspondiente error es:
ej = yj − ŷj = yj − Ȳ − b(xj − X̄)
Tenemos lo siguiente:
n
P
La media de los valores ajustados es igual a la de los propios valores: Ŷ = ŷj /n = Ȳ .
j=1
La media de los errores de ajuste es cero: ē = 0.
La llamada suma de cuadrados total es:

n
X
SCT = nSY2 = (yj − Ȳ )2
j=1
Como sabemos, esta mide la variabilidad de Y .
La llamada suma de cuadrados de la regresión es:

n
= nSŶ2 (ŷj − Ŷ )2
P
SCR =
j=1
n
(ŷj − Ȳ )2
P
=
j=1
n
= b2 (xj − X̄)2
P
j=1
= n b2 SX
2
Esta debe medir la variabilidad de la variable Ŷ , es decir, la de los valores que se obtendrı́an
para Y si se usara la regresión lineal obtenida con X. Es claro que si el ajuste es perfecto
(lo cual sucede solo si efectivamente la relación lineal entre X e Y es exacta), se tendrá que
Ŷ = Y y ası́ SŶ2 = SY2 .
La llamada suma de cuadrados de los errores es:

n
X
SCE = nSe2 = (ej − ē)2
j=1
Xn n
X
2
= ej = (yj − Ȳ − b(xj − X̄))2
j=1 j=1
Y debe medir la variabilidad de los errores que se cometen al usar la regresión lineal para
ajustar los valores de Y, ası́, también mide el ajuste de los datos a la recta de regresión.
De las ecuaciones anteriores, se verifica la identidad siguiente llamada descomposición de

la varianza:
SCT = SCR + SCE
162
Ası́, las sumas anteriores tiene una nueva interpretación:
SCR estarı́a midiendo la variabilidad de Y explicada por su relación lineal con X; mientras
que SCE estarı́a midiendo la otra parte de la variabilidad.
De la descomposición anterior se tiene la siguiente identidad:

SCR SCE
1= +
SCT SCT
A la proporción
SCR
R2 = 2
= rX,
SCT Y
Se le llama el coeficiente de determinación. Por lo visto en la descomposición de la varianza,

este coeficiente mide la proporción de variabilidad de la variable dependiente, que es debida
a su relación lineal con la variable independiente.
Ejemplo 6.5. Ası́, en el contexto del ejemplo 6.1, no solo estamos, ahora, en la capacidad
de afirmar que la relación existente entre el tiempo de procesamiento y la cantidad de
trabajos asociada es fuertemente lineal y directa; sino además podemos sostener que el 93 %
2
(rX, Y
= 0, 93) de la variabilidad en el tiempo se debe a la asociación lineal existente con el
número de trabajos para procesar.
163
164
Referencias bibliográficas
1. Introducción a la Teorı́a de Probabilidades e Inferencia Estadı́stica. LARSON, Harold.
2. Ingenierı́a Sismorresistente.
Alejandro Muñoz P.
PUCP 2002.
3. Pricing and Hedging of Derivate Securities.

Lars Tyge Nielsen.
Oxford University Press, 1999.
4. Measuring Inequality.
Frank A. Cowell.
Prentice Hall/ Harvester Wheatsheaf 1995.
165

Flores, J. (2013) - Estadística. EGGLL PUCP PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Flores, J. (2013) - Estadística. EGGLL PUCP PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Estadı́stica

Estudios Generales Letras

José Flores Delgado

Este texto incluye tópicos de economı́a y administración, como el estudio de la

También agradezco a la sección de Matemáticas por las facilidades brindadas para la

Me permito también felicitar a ustedes, alumnos, por su madurez demostrada al optar

José Flores Delgado.

Lima, marzo de 2013.

1.2. Definición y propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . 9

1.3. Propiedades de la probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

La regla del producto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

La regla de la probabilidad total . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.6. Probabilidad clásica y combinatoria . . . . . . . . . . . . . . . . . . . . . . . 21

1.7. Probabilidad geométrica y frecuencial . . . . . . . . . . . . . . . . . . . . . . 24

1.8. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2. Modelo probabilı́stico de una variable aleatoria . . . . . . . . . . . . . . . . . 42

2.2.1. Propiedades del modelo probabilı́stico . . . . . . . . . . . . . . . . . . 44

2.3. El valor esperado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.3.1. Valor esperado de una función de una variable aleatoria . . . . . . . . 46

2.3.2. Otras propiedades del valor esperado . . . . . . . . . . . . . . . . . . 47

2.4. Varianza y desviación estándar . . . . . . . . . . . . . . . . . . . . . . . . . 49

2.4.1. Propiedades de la varianza . . . . . . . . . . . . . . . . . . . . . . . . 50

2.5. Función de distribución acumulada . . . . . . . . . . . . . . . . . . . . . . . 51

2.6. Propiedades de la distribución acumulada . . . . . . . . . . . . . . . . . . . . 52

2.7. Técnica del cambio de variable . . . . . . . . . . . . . . . . . . . . . . . . . . 53

2.8. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3. Modelos probabilı́sticos importantes 77

3.1. Modelos relacionados con un proceso de Bernoulli . . . . . . . . . . . . . . . 77

3.1.1. El Modelo o distribución binomial . . . . . . . . . . . . . . . . . . . . 78

3.1.2. El modelo o distribución geométrico . . . . . . . . . . . . . . . . . . . 80

3.1.3. El modelo o distribución de Pascal o binomial negativa . . . . . . . . 82

3.2. Modelos relacionados con un proceso de Poisson . . . . . . . . . . . . . . . . 82

3.2.1. El modelo o distribución de Poisson . . . . . . . . . . . . . . . . . . . 83

3.2.2. El modelo o distribución exponencial . . . . . . . . . . . . . . . . . . 85

3.2.3. Modelo o distribución gamma . . . . . . . . . . . . . . . . . . . . . . 86

3.3. Modelo gaussiano o distribución normal . . . . . . . . . . . . . . . . . . . . . 87

3.3.1. Propiedades del modelo gaussiano o normal . . . . . . . . . . . . . . 88

3.4. Modelo o distribución lognormal . . . . . . . . . . . . . . . . . . . . . . . . . 93

3.5. Modelo o distribución hipergeométrica . . . . . . . . . . . . . . . . . . . . . 95

3.6. Modelo o distribución uniforme . . . . . . . . . . . . . . . . . . . . . . . . . 95

3.7. Modelo o distribución Beta . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3.8. La función generadora de momentos . . . . . . . . . . . . . . . . . . . . . . . 99

3.9. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

4. Indicadores de concentración para medir la desigualdad de los ingresos 117

4.1. La Curva de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

4.2. El Coeficiente de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

5. Estadı́stica descriptiva 123

5.1. ¿Qué es la Estadı́stica? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.2. Nociones básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

5.3. Escalas o niveles de medición . . . . . . . . . . . . . . . . . . . . . . . . . . 126

5.3.1. Escala nominal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

5.3.2. Escala ordinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

5.3.3. Escala de intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

5.3.4. Escala de razón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

5.4. Organización y tratamiento de datos. Promedios y percentiles . . . . . . . . 129

5.4.1. Caso de variables cualitativas . . . . . . . . . . . . . . . . . . . . . . 129

5.4.2. Caso de variables cuantitativas discretas . . . . . . . . . . . . . . . . 130

5.4.3. Caso de variables cuantitativas continuas . . . . . . . . . . . . . . . . 131

5.5. Propiedades y uso de los promedios . . . . . . . . . . . . . . . . . . . . . . . 137

5.6. Medidas de dispersión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

5.6.1. Propiedades de la desviación estándar . . . . . . . . . . . . . . . . . . 141

5.7. Datos tipificados o estandarizados . . . . . . . . . . . . . . . . . . . . . . . . 142