Sunteți pe pagina 1din 55

Pontificia Universidad Catlica de Chile

Escuela de Ingeniera

/ Apunte de Probabilidades .
Por Sebastin Soto Rojas (spsoto@uc.cl)

Estos apuntes se encuentran basados en el texto Mathematical Statistics and Data Analysis de
John Rice (3a edicin, Duxbury Advanced Series) y se dejan a disposicin de todos aquellos
quienes deseen repasar estos tpicos para su preparacin en el curso IEE2513 Comunicaciones e
ICS2123 Modelos Estocsticos.

ndice
1. Probabilidad

1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2. Espacios muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.3. Medidas de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.4. Cmputo de probabilidades: mtodos de conteo . . . . . . . . . . . . . . . . . . . .

1.5. Probabilidad condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.6. Independencia estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2. Variables aleatorias

2.1. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.2. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12


2.3. Funciones de variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3. Distribuciones conjuntas

18

3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.4. Variables aleatorias independientes . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.5. Distribuciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6. Funciones de variables aleatorias distribuidas conjuntamente . . . . . . . . . . . . . 22
3.7. Valores extremos y estadsticos de orden . . . . . . . . . . . . . . . . . . . . . . . . 24
1

4. Valores esperados

26

4.1. El valor esperado de una variable aleatoria . . . . . . . . . . . . . . . . . . . . . . . 26


4.2. Varianza y desviacin estndar

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.3. Covarianza y correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33


4.4. Esperanza condicional y prediccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.5. La funcin generadora de momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5. Teoremas de los lmites

43

5.1. La ley de nmeros grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43


5.2. Convergencia en la distribucin y el teorema del lmite central . . . . . . . . . . . . 45
6. Distribuciones derivadas de la distribucin normal

51

6.1. Distribucin 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.2. Distribucin tstudent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6.3. Distribucin F

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

1.
1.1.

Probabilidad
Introduccin

La idea de probabilidad es antigua, pero su formulacin matemtica ocurri de forma relativamente


reciente, con sus principales ideas originadas en los juegos de azar.
Durante este siglo la probabilidad ha sido aplicada a una gran variedad de fenmenos, con ejemplos
de ellos:
Gentica, para estudiar mutaciones y asegurar variabilidad natural.
La teora cintica de gases.
Anlisis de colas en los sistemas informticos.
Teoras para analizar el ruido en sistemas electrnicos y dispositivos de comunicaciones.
En investigacin de operaciones, para modelar las demandas de inventarios de bienes.
Anlisis financieros y de compaas de seguros.
Para analizar sistemas complejos y mejorar su desempeo y confiabilidad, tal como en aeronaves comerciales y militares.
Primero se analizar la teora de probabilidades como modelos matemticos para fenmenos aleatorios. Luego se analizar la estadstica, preocupada de procedimientos para analizar datos, particularmente aquellos con un carcter aleatorio, por lo que es un requisito comprender antes probabilidades.

1.2.

Espacios muestrales

Definicin:
Para una situacin que ocurre de forma aleatoria, una realizacin se conoce como experimento.
El conjunto de todos los posibles resultados del experimento se conoce como espacio muestral
y se denota por , as como un elemento se denota por .
Cuando nos interesamos por subconjuntos en particular de , estos se conocen como eventos.
Se pueden aplicar las definiciones de teora de conjuntos en el espacio muestral as como sus
eventos, incluyendo unin, interseccin, complemento y resta. Tambin puede considerarse
el evento vaco.
Dos eventos se dicen disjuntos si A1 A2 = .
Un conjunto {A1 , A2 , . . . , An } se dice mutuamente excluyente si para cada i, k se tiene que:
Ai Ak = i 6= k
3

1.3.

Medidas de probabilidad

Definicin: Una medida de probabilidad de es una funcin P : A R que satisface los


siguientes axiomas:
1. Como consiste en todos los elementos, entonces P () = 1.
2. La probabilidad no es negativa. Si A , entonces P (A) 0.
3. Si A1 y A2 son eventos disjuntos, entonces
P (A1 A2 ) = P (A1 ) + P (A2 )
En general, si A1 , A2 , . . . An son mutuamente excluyentes, entonces:
!
n
n
[
X
P
Ai =
P (Ai )
i=1

i=1

Como consecuencia de los axiomas se deducen las siguientes propiedades:


Proposicin:
1. P (Ac ) = 1 P (A). Se deduce pues A Ac = y A Ac = .
2. P () = 0. Se deduce pues = c .
3. Si A B, entonces P (A) P (B). Se prueba notando que:
B = A (B Ac )
Luego, del tercer axioma:
P (B) = P (A) + P (B Ac ) P (A) = P (B) P (B Ac ) P (B)
4. Ley de adicin: P (A B) = P (A) + P (B) P (A B). Para demostrarlo, notamos que:
A B = A\B B\A (A B)
Como estos tres conjuntos son disjuntos:
P (A B) = P (A\B) + P (B\A) + P (A B)
Pero A\B = A\ (A B) P (A) = P (A) P (A B) y de forma anloga para B\A. De
esta forma,
P (A B) = P (A) + P (B) P (A B)
donde se descuenta una vez la interseccin pues esta se considera dos veces al sumar ambas
probabilidades.
4

1.4.

Cmputo de probabilidades: mtodos de conteo

Para espacios muestrales finitos las probabilidades son especialmente fciles de calcular, enumerando y contando los eventos favorables, de modo que:
nmeros de formas que A puede ocurrir
P (A) =
nmero total de ocurrencias
En algunos ejemplos es fcil contar el nmero de ocurrencias y calcular las probabilidades, pero
para situaciones ms complejas se deben desarrollar formas de contar las ocurrencias.
1.4.1.

El principio de multiplicacin

Teorema: Si un experimento tiene m realizaciones favorables y otro experimento tiene n realizaciones favorables, entonces hay mn realizaciones favorables para ambos experimentos.
Demostracin:
Sean a1 , . . . , am las realizaciones del primer experimento y b1 , . . . , bn las realizaciones del segundo
experimento. Las realizaciones de ambos experimentos son pares de la forma (ai , bj ), que por lo
tanto son entradas de un arreglo cuadrangular de m n, en la cual el par (ai , bj ) se encuentra en
la fila isima y columna jsima. Por lo tanto hay mn entradas en el arreglo. 
El principio puede extenderse a k experimentos, donde cada experimento tiene ni realizaciones.
Por lo tanto, existir un total de:
k
Y
ni
i=1

1.4.2.

Permutaciones

Definicin: Se define una permutacin como un arreglo ordenado de objetos. Si no se permite el


duplicado de objetos, se conoce como muestreo sin reemplazo. Si se permite duplicado de objetos,
se conoce como muestreo con reemplazo.
Se puede utilizar el principio de multiplicacin para contar el nmero de diferentes muestras en
un conjunto de n elementos. Si suponemos que el muestreo esta realizado sin reemplazo, el primer
elemento puede ser escogido de n formas, el segundo de n formas y as las r sucesivas veces, de
modo que de acuerdo al principio de multiplicacin, los eventos favorables son:
r
|n n
{z n} = n
r veces

Supongamos ahora que el muestreo se realiza con reemplazo. La primera muestra puede ser escogida
de n formas, la segunda de n 1 formas, la tercera de n 2 formas y as sucesivamente hasta la
rsima iteracin con n r + 1 formas, probando as la sigueinte proposicin:
Proposicin: Para un conjunto de tamao n y una muestra de tamao r, existen nr muestras
ordenadas con remplazo y n (n 1) (n 2) (n r + 1) muestras ordenadas sin reemplazo.
Corolario: Existen n! formas de ordenar n elementos distintos.
5

1.4.3.

Combinaciones

Si ahora no estamos interesados en obtener muestras de forma ordenada, si no que ms bien de los
elementos obtenidos sin importar el orden en que se obtuvieron, estamos interesados en calcular
el nmero de combinaciones. Si r objetos son tomados de un conjunto de n objetos sin reemplazo
y sin importar el orden, cuntas combinaciones son posibles?
De acuerdo al principio de multiplicacin, el nmero de muestras ordenadas obtenidas equivale
a n (n 1) (n r + 1) y como cada muestra de tamao r puede ser ordenada de r! formas,
entonces el nmero de muestras no ordenadas es:
 
n!
n
n (n 1) (n r + 1)
4
=
=
r!
(n r)! r!
r
Proposicin: El nmero de
 muestras ordenadas de r objetos seleccionadas de un conjunto de n
objetos sin reemplazo es nr .
Definicin: Los nmeros

n
k

, conocidos como coeficientes binomiales, ocurren en la expansin:


n

(a + b) =

n  
X
n
k=0

ak bnk

Proposicin: En particular, puede notarse que:


n

2 =

n  
X
n
k=0

lo cual puede interpretarse como la suma total de conjuntos posibles, de todos los tamaos, sin
importar el orden, en un conjunto de n elementos: es la suma de combinaciones de 0 elementos,
de 1 elemento, de 2 elementos y as hasta los n elementos.
Puede extenderse este resultado como sigue:
Proposicin: El nmero de formas
en que n objetos pueden ser agrupadas en r clases de ni
P
elementos la clase isima con ri=1 ni = n es:


n
n!
=
n1 ! n2 ! nr !
n1 n2 nr
Demostracin:


1
Existen nn1 formas de escoger los objetos de la primera clase, nn
formas de escoger la segunda,
n
2

nn1 n2
formas de escoger la tercera. De acuerdo al principio de multiplicacin, el total vendr
n3
dado por:
 

 


n
n n1
n n1 n2
n n1 nr1
n!
(nn1 )!


=
(
(

n1
n2
n3
nr
(nn1 )! n1 ! (
(n((n(1 (
(
n2 )! n2 !

(((

(n n(1 (
(
( (
nr1 )!
(((
0! nr !

Es decir,
 

 

n
n n1
n n1 n2
n n1 nr1
n!

=
n1 ! n2 ! nr !
n1
n2
n3
nr
Definicin: Los nmeros
expansin:

n
n1 nr

se conocen como coeficientes multinomiales y ocurren en la


n

(x1 + x2 + + xr ) =

X


n
xn1 1 xn2 2 xnr r
n1 n2 nr

donde n1 , . . . , nr son tales que n1 + + nr = n.

1.5.

Probabilidad condicional

Definicin: Sean A y B dos eventos tales que P (B) 6= 0, se define la probabilidad condicional de
A dado B como:
P (A B)
P (A|B) =
P (B)
La idea de esta definicin es que, dado que ocurri el evento B, el espacio relevante es en realidad
B en vez de , y la probabilidad condicional es una medida de probabilidad con respecto al espacio
en B.
Dado esto, se deduce la ley de multiplicacin, que nos permite calcular P (A B) dado P (A|B) y
P (B). Si A y B son eventos y P (B) 6= 0, entonces:
P (A B) = P (A|B) P (B)
Teorema: (Regla de Bayes) Sea A y B1 , . . . , Bn eventos donde Bi es disjunto,
P (Bi ) > 0 para todo i. Entonces,
P (Bj |A) =

P (A|Bj ) P (Bj )
n
X

P (A|Bi ) P (Bi )

i=1

Sn

i=1

Bi = y

1.6.

Independencia estadstica

Definicin: Dos eventos se dicen estadsticamente independientes si la ocurrencia de uno no


entrega informacin sobre la ocurrencia del otro. En otras palabras, A y B son independientes si
y solo si:
P (A|B) = P (A) y P (B|A) = P (B)
Luego, si
P (A) = P (A|B) =

P (A B)
,
P (B)

entonces
P (A B) = P (A) P (B)
Definicin: Se dice que una coleccin de eventos A1 , A2 , . . . , An son mutuamente independientes
si para cualquier coleccin Ai1 , . . . , Aim
P (Ai1 Aim ) = P (Ai1 ) P (Aim )

2.

Variables aleatorias

2.1.

Variables aleatorias discretas

Definicin:
Una variable aleatoria es bsicamente un nmero aleatorio. En general, una variable aleatoria
es una funcin de a los nmeros reales. Como el resultado del experimento en es aleatorio,
el nmero producido por la funcin es asimismo aleatorio.
Usaremos letras itlicas en maysculas para denotar las variables aleatorias.
Una variable aleatoria discreta es una variable aleatoria que puede tomar un nmero finito
o a lo ms contable de valores.
En general, se mide la probabilidad de que la variable aleatoria cumpla cierta condicin
lgica. A modo de ejemplo,
P (X = a)

P (X a)

P (X > a)

Definicin: En general, la medida de probabilidad en el espacio muestral determina las probabilidades de los distintos valores de X. Si estos valores son denotados por x1 , . . . , xn , entonces
P
1. Existe una funcin p (xi ) = P (X = xi ) y
p (xi ) = 1. Esta funcin se conoce como la
funcin de probabilidad de masa o la funcin frecuencia de la variable aleatoria X.
2. Se define la funcin de distribucin acumulada (cdf ) de una variable aleatoria como
F (x) = P (X x) ,

< x <

3. Dos variables X e Y se dicen independientes si y solo si


P (X = xi Y = yj ) = P (X = xi ) P (Y = y : j)

2.1.1.

Variables Bernoulli

Una variable Bernoulli toma exclusivamente dos valores: 0 y 1, con probabilidades 1 p y p


respectivamente. La funcin de frecuencia es por lo tanto,

X Bernoulli(p) p(x) =

1x
x

, si x = 0 y x = 1,
p (1 p)

0,

en otro caso.

2.1.2.

La distribucin binomial

Supongamos que se realizan n experimentos o pruebas donde cada experimento resulta en xito
con probabilidad p y en falla con probabilidad 1 p. El nmero total de xitos, X, es una variable
aleatoria binomial con parmetros n y p.
Se tiene que:
 
n k
X Binomial (n, p) p (k) = P (X = k) =
p (1 p)nk
k
donde
pk (1 p)nk

 es la probabilidad de que ocurran k xitos y n k fallas, tal como se espera y
n
n
cuenta
las
formas o secuencias sobre las cuales se puede obtener los k xitos.
k
k
Se observa entonces que si X1 , . . . , Xn son variables Bernoulli independientes entre ellas, todas con
probabilidad de xito p, entonces
Y = X1 + X2 + + Xn Binomial (n, p)

2.1.3.

Las distribuciones geomtrica y binomial negativa

La distribucin geomtrica tambin se construye a partir de intentos Bernoulli, pero considerando ahora una sucesin infinita. La variable aleatoria X consiste en el nmero de intentos
hasta obtener el primer xito. Es decir, deben ocurrir k 1 intentos fallidos y 1 intento
exitoso, con lo cual
X Geomtrica(p) P (X = k) = (1 p)k1 p
Puede notarse que estas probabilidades suman uno cuando se suman todos los casos posibles
hasta infinito:

X
X
p
(1 p)k1 p = p
(1 p)k =
=1
1

(1

p)
k=1
k=0
La distribucin binomial negativa consiste en una generalizacin de la distribucin geomtrica. Sea X ahora el nmero total de intentos para obtener r xitos en total. Entonces, cada
intento en particular tiene probabilidad pr (1
p)kr , pero para los k 1 intentos restantes

con r 1 probabilidades de xito existen k1
formas. Luego,
r1


k1 r
X Bin. Neg. (p, r) P (X = k) =
p (1 p)kr
r1

Se observa que la distribucin binomial negativa puede expresarse como la suma de r variables
aleatorias geomtricas.

10

2.1.4.

La distribucin hipergeomtrica

Suponiendo un conjunto de n elementos de dos tipos exclusivamente, habiendo r del primer tipo
y n r del segundo tipo. Si X denota el nmero de intentos del primer tipo m, sin reemplazo,
entonces X es una variable aleatoria hipergeomtrica:
 

r
nr
k
mk
 
X H.G.(r, n, m) P (X = k) =
n
m



nr
donde kr denota las formas de obtener los k elementos del primer tipo en el grupo, mk
las formas

n
de obtener los m k elementos del segundo tipo y m , el denominador, toma en consideracin las
n
formas de obtener un grupo de m elementos sobre el total de n elementos.
m
2.1.5.

La distribucin Poisson

La funcin de frecuencia Poisson se obtiene de tomar el lmite de la distribucin binomial en infinito


para el nmero de intentos n y p para la probabilidad de xito de la forma np = . Es decir,
 k 
nk
n!
n!

nk
k
p (k) = n
lm
p (1 p)
= n
lm
1
k! (n k)!
k! (n k)! n
n
p
p
np=

np=


k
*1

n e
*
1
*


k
n! 1



= n
lm
1
1


k  n
 n

k!
(n

k)!
n


p

np=

De esta forma,
X Poisson () P (X = k) =

k
e
k!

Nuevamente, puede notarse que las probabilidades suman 1:


F () =

X
k
k=0

k!

e = e e = 1

La distribucin Poisson peude ser utilizada para aproximar distribuciones binomiales en que n es
grande y p pequeo, lo cual a su vez sugiere cmo aparecen estas distribuciones en la prctica. Si
X es una variable aleatoria que equivale al nmero de veces que un evento ocurre en un intervalo
de tiempo dado.
Heursticamente, si dividimos el intervalo en un nmero grande de subintervalos de igual longitud,
y asumimos que los subintervalos son tan pequeos que la probabilidad de que ms de un evento
en el subintervalos es despreciable relativo a la probabilidad de un evento, que por si misma es
muy pequea. Asumamos que la probabilidad de un evento es la misma en cada subintervalo y
11

que cuando ocurre un evento en el subintervalo es independiente de lo que ocurre en los prximos
subintervalos, entonces la variable X es prcticamente una variable binomial, con los subintervalos
consistiendo en los intentos, y por el resultado anterior X tiene casi una distribucin Poisson.
Los supuestos importantes son:
1. La distribucin no tiene memoria: lo que ocurre en un subintervalo es independiente de lo
que ocurre en otro subintervalo.
2. La probabilidad de un evento es la misma en cada subintervalo.
3. Los eventos no ocurren simultneamente.
La distribucin Poisson tiene importancia terica y prctica fundamnetal. Puede ser utilizada en
muchas reas, incluyendo las siguientes:
Anlisis de sistemas telefnicos. El nmero de llamadas llegando a una unidad durante
una unidad de tiempo puede modelarse como una variable Poisson si la unidad entrega
servicio a un gran nmero de clientes que actan ms o menos independientemente.
Radioactividad. Para modelar el nmero de partculas alfa emitidas por una fuente radioactiva durante cierto perodo de tiempo.
Compaas de seguros. La distribucin Poisson ha sido como modelo en las compaas de
seguros. Por ejemplo, el nmero accidentes extraos, como cadas en la ducha, para grandes
grupos de poblacin.
Ingeniera de trnsito. La distribucin Poisson ha sido utilizada como un modelo para el
trfico liviano. El nmero de vehculos que pasa un marcador en una autopista durante una
unidad de tiempo puede ser contada. Si el trfico es liviano, los vehculos actan de forma
independiente entre ellos. En trfico alto, sin embargo, esto no sucede porque el movimiento
de un auto puede influir en los otros.

2.2.

Variables aleatorias continuas

En muchas aplicaciones es de inters estudiar variables aleatorias que pueden tomar un continuo
de valores en vez de un conjunto contable de estos.

12

Definicin:
Una variable aleatoria continua es una variable aleatoria en la cual X puede tomar el valor
de cualquier nmero real.
En analoga a la funcin de frecuencia, se dice que f (x) es la funcin de densidad de la
variable aleatoria (pdf) que tiene la propiedad de ser no negativa, continua a tramos y tal
que

f (x) dx = 1

Si X es una variable aleatoria con funcin de densidad f , entonces para todo a < b la
probabilidad de que X est en el intervalo (a, b) viene dada por:

P (a < X < b) =

f (x)dx
a

Si F es la cdf de una variable continua y es estrictamente creciente en el intervalo I y que


F = 0 a la izquierda y F = 1 a la derecha de I, entonces I puede ser no acotado. Bajo este
supuesto, la funcin F 1 est bien definida, i.e. x = F 1 (y) si y = F (x), entonces el cuantil
psimo se define como el valor xp est definido nicamente como xp = F 1 (p).
El caso p = 12 se conoce como la mediana de F , y p =
los cuartiles inferior y superior de F .

1
4

y p = 34 , los cuales corresponden a

Una consecuencia de la definicin anterior es que la probabilidad de que una variable continua
tome un valor en particular es cero, i.e.
c
P (X = c) =
f (x) dx = 0
c

Esto implica que:


P (a < x < b) = P (a x b)
Para un pequeo , si f es continua en x, entonces de acuerdo al teorema del valor medio integral
se tiene que:
x+/2



=
f (t) dt f (x)
P x X x+
2
2
x/2
De aqu se sigue que la probabilidad de un intervalo pequeo cerca de x es proporcional a f (x).
Se dice entonces la notacin:
b
P (a X b) =
f (x) dx = F (b) F (a)
a

13

2.2.1.

La distribucin uniforme

Respondiendo a la pregunta escoge un nmero al azar entre 0 y 1, se tiene una variable aleatoria
cuya distribucin es la uniforme entre [0, 1]. La densidad viene dada por:
(
1, si 0 x 1,
f (x) =
0, en otro caso.
De este modo la integral en todo R es 1 y asigna una densidad de probabilidad igual para cada
nmero. En general, para el intervalo [a, b] la funcin de densidad es:
(
1/(b a), si a x b,
X Uniforme(a, b) f (x) =
0,
en otro caso.
La cdf en este caso viene dada por:

si x a,
0,
F (x) = (x a)/(b a), si a < x b,

1,
si x b.
2.2.2.

La distribucin exponencial

La distribucin exponencial tiene como funcin densidad:


(
ex , si x 0,
X Exponencial() f (x) =
0,
si x < 0.
donde > 0 es el nico parmetro al igual que en la distribucin Poisson. La distribucin acumulada viene dada por:
(
x
1 ex , si x 0,
F (x) =
f (x)dx =
0,
si x < 0.

El despeje de la mediana es directo:


1 e =

1
log 2
=
2

La distribucin exponencial se usa para modelar tiempos de vida o tiempos de espera, reemplazando
x por t en dicho contexto.
Se dice que la distribucin exponencial no tiene memoria pues:
P (X > t + |X > ) =

P (X > t + X > )
e(t+)
=
= et
P (X > )
e

Es decir, no depende de la probabilidad condicional, y por lo tanto no recuerda el tiempo que


ha transcurrido. La ausencia de memoria es de hecho una caracterstica de la distribucin.
14

Relacin con el proceso Poisson. Supongamos que un evento ocurre en el tiempo como un
proceso Poisson con parmetro en un instante t0 . Sea T el tiempo para la prxima ocurrencia
del evento. Entonces,
P (T > t) = P (sin eventos en [t0 , t0 + t])
Como el nmero de eventos en el intervalo (t0 , t0 + t), de largo t, sigue una distribucin Poisson
con parmetro t, la probabilidad es et y por lo tanto T sigue una distribucin de parmetro.
Si el siguiente evento ocurre en un tiempo t1 , la distribucin para la siguiente ocurrencia sigue
siendo exponencial e independiente de la distancia de tiempo entre los eventos.
2.2.3.

La distribucin Gamma

La distribucin Gamma tiene como densidad a una funcin que depende de dos parmetros, y
:
1 t
t e
, t0
T Gamma (, ) g (t) =
()
Para t < 0, g (t) = 0. Se define la funcin Gamma como:

4
ux1 eu du,
(x) =

x>0

Si = 1 se recupera la densidad exponencial. Este parmetro se denomina parmetro de forma y


se denomina parmetro de escala.
2.2.4.

La distribucin normal

La distribucin normal juega un rol central en probabilidades y estadstica. Tambin se conoce


como distribucin Gaussiana en honor al matemtico Carl Friedrich Guss, quien la propuso como
modelo para los errores de medicin. Ha sido utilizada para modelar un sin fin de situaciones reales.
La densidad depende de dos parmetros, (media) y (desviacin estndar) y su expresin es:
2
1
2
X N (, ) f (x) = e(x) /2
2

xR

La cdf no puede ser evaluada en forma cerrada para esta funcin de densidad. No tiene una frmula
explcita pero se computa numricamente una tabla para la densidad normal estndar, donde = 0
y = 1. Se utiliza la variable (x) para referirse a esta funcin de distribucin acumulada (y
para la densidad) y puede ser encontrada una tabla con diversos valores en el anexo.
2.2.5.

La distribucin Beta

La distribucin beta es til para modelar variables que se encuentran restringidas al intervalo [0, 1]:
X B (a, b) f (x) =

(a + b) a1
u (1 u)b1
(a) (b)

Si a = b = 1 se recupera la distribucin uniforme.


15

0u1

2.3.

Funciones de variables aleatorias

Supongamos que una variable aleatoria X tiene una funcin densidad f (x). Surge la pregunta:
cul es la funcin de densidad de Y = g(X) para una funcin g dada? A modo de ejemplo, X
puede ver la velocidad de una partcula de masa m y estamos interesados en obtener la funcin de
densidad probabilstica para su energa cintica, Y = 21 mX 2 .
Utilizaremos la notacin fX y FX para referirnos a las distribuciones de X y fY y FY para referirnos
a las de Y .

2.3.1.

La distribucin normal

Si X N (, 2 ) y que Y = aX + b donde a > 0, la probabilidad de densidad acumulada de Y es:


FY (y) = P (Y y)
= P (aX + b y)


yb
= P X
a


yb
= FX
a
Luego,
d
FX
fY (y) =
dy

yb
a

Es decir,

1
= fX
a

yb
a

"


2 #
1 y b a
exp
fY (y) =
2
a
a 2


Se sigue que X N , 2 Y N a + b, a2 2 .
1

Esta proposicin es til para encontrar probabilidades de la distribucin normal. Supongamos que
X N (, 2 ) y se desea buscar P (x0 < X < x1 ) para algunos nmeros x0 y x1 . Se tiene que:


x0
X
x1
<
<
P (x0 < X < x1 ) = P

Se sigue que Z = (X ) / N (0, 1), para la cual est calculada numricamente en la tabla su
distribucin de probabilidad. Luego,
P (x0 < X < x1 ) =

x1

16

x0

2.3.2.

La distribucin 2

Es comn que dado Z N (0, 1) se desee encontrar la densidad de X = Z 2 . En este caso, se tiene
que:
FX (x) = P (X x)


= P xZ x


= x x

Derivando, y utilizando la regla de la cadena:





1
1
1
fX (x) = x + x = x
2 x
2 x
x

donde se us el hecho de que la distribucin estndar es simtrica con respecto al origen. De esta
forma,
1
ex/2 , x 0
X 2 fX (x) =
2x
Se puede observar que esta es una funcin gamma con = =
2 con un grado de libertad.
2.3.3.

1
2

y se conoce como distribucin

Caso general

Observando estos ejemplos, se observan ciertas etapas bsicas en cada caso: calcular la cdf de la
variable transformada y luego diferenciar con respecto a la variable para encontrar la densidad.
Proposicin: Sea X una variable aleatoria continua con densidad f (x) y sea Y = g (X) donde
g es una funcin diferenciable y estrictamente montona en un intervalo I. Supongamos que f (x)
si x no est en I. Luego, Y tiene la funcin de densidad
 dg 1
fY (y) = fX g 1 (y)
(y)
dy
Para las siguientes proposiciones, considrese una variable aleatoria cualquiera X con densidad f
y distribucin acumulada F .
Proposicin:
Sea Z = F (X), entonces Z tiene una distribucin uniforme en [0, 1].
Sea U una variable aleatoria uniforme en [0, 1] y sea X = F 1 (U ). Luego la cdf de X es F .
Estas proposiciones son tiles para generar nmeros pseudoaleatorios dada una cdf. Los computadores suelen traer rutinas para generar nmeros pseudoaleatorios con distribucin uniforme en
[0, 1]. Se dicen pseudoaleatorios porque son generados de acuerdo a cierta regla o algoritmo que
no son en realidad aleatorios pero para los propsitos de modelacin logran serlo. La segunda proposicin plantea que basta aplicar F 1 para a los nmeros uniformemente aleatorios para obtener
los resultados.
17

3.

Distribuciones conjuntas

3.1.

Introduccin

En este captulo nos preocupamos de la estructura de distribuciones conjuntas de dos o ms


variables aleatorias definidas en el mismo espacio muestral. Estas surgen de forma natural en
diversas aplicaciones, entre ellas:
Estudios ecolgicos: diversas especies y sus interacciones.
Climatologa: cada componente de velocidad del viento.
Fisiologa: distribucin conjunta de diversas variables en una poblacin.
Estudio de poblaciones: distribuciones de edad.
El comportamiento conjunto de dos variables aleatorias, X e Y se determina por la funcin de
distribucin acumulada:
F (x, y) = P (X x, Y y)
Luego, la probabilidad de pertenencia a determinado rectngulo viene dada por:
P (x1 < X x2 , y1 < Y y2 ) = F (x2 , y2 ) F (x2 , y1 ) F (x1 , y2 ) + F (x1 , y1 )
Esto puede comprenderse observando la siguiente figura, donde se sustraen ambos recuadros de
los extremos y luego se le suma el externo para recuperar lo perdido por la sustraccin de los
Chapter 3 recuadros
Joint Distributions
de los extremos:
y

y
y2

y1

x1

x2

G U R E 3.1 F (a, b) gives the probability of the


F I G U R E 3.2 The probability of the shaded
Figurarectangle
3.1: Probabilidad
buscada from
marcada
en
aded rectangle.
can be found by subtracting
the
probability of the (semi-infinite) rectangle having
the upper-right corner (x2 , y2 ) the probabilities of
the (x1 , y2 ) and (x2 , y1 ) rectangles, and then adding
Este mismo razonamiento puede
a nof variables
aleatorias:
back extenderse
in the probability
the (x1 , y1 ) rectangle.

gris.

F (x1 , . . . , xn ) = P (X1 x1 , X2 x2 , . . . , Xn xn )
The probability that (X, Y ) belongs to a set A, for a large enough class of sets
for practical purposes, can be determined by taking limits of intersections and unions
of rectangles. In general, if X 1 , . . . , X n are jointly distributed random variables, their
joint cdf is

18

F(x1 , x2 , . . . , xn ) = P(X 1 x1 , X 2 x2 , . . . , X n xn )

3.2.

Variables aleatorias discretas

Definicin: Supongamos que X e Y son variables aleatorias discretas definidas en el mismo


espacio muestral que toman valores x1 , x2 . . . y y1 , y2 , . . . respectivamente. Su funcin de frecuencia
conjunta se define como
p (xi , yj ) = P (X = xi , Y = yj )
Para encontrar la funcin de frecuencia de Y se suma sobre todos los x, por lo cual py se conoce
como la funcin de frecuencia marginal de Y . De forma anloga,
X
4
pX (x) =
p (x, yi )
i

El caso de mltiples variables es anlogo. Si X1 , . . . , Xm son variables aleatorias discretas en el


mismo espacio muestral, su funcin de frecuencia conjunta es:
4

p (x1 , . . . , xm ) = P (X1 = x1 , . . . , Xm = xm )
La funcin de frecuencia marginal de Xk es, por ejemplo:
X
4
p (x1 , x2 , . . . , xm )
pXk (xk ) =
x1 ,...,xk1 ,xk+1 ,...,xm

La funcin de frecuencia bidimensional de X1 y X2 es, por ejemplo:


X
4
pX1 ,X2 (x1 , x2 ) =
p (x1 , x2 , . . . , xm )
x3 ,...,xm

3.3.

Variables aleatorias continuas

Definicin: Supongamos que X e Y son variables aleatorias con una cdf conjunta F (x, y), se
define su funcin de densidad conjunta como como la funcin continua a tramos f (x, y) que es
nonegativa y tal que

f (x, y) dxdy = 1
R2

Para cualquier conjunto bidimensional integrable A se tiene que:

4
P ((X, Y ) A) =
f (x, y) dxdy
A

En particular, se tiene que:

F (x, y) = P (X x Y y) =

f (u, v) dvdu

19

Se sigue del Teorema Fundamental del Clculo que:


f (x, y) =

2F
2F
(x, y) =
(x, y)
xy
yx

De forma anloga al caso univariable, se sigue que:


P (x X x + dx y Y y + dy) = f (x, y) dxdy
Definicin: Se define la cdf marginal de X, Fx , como:
FX (x) = P (X x) = lm F (x, y)
y

f (u, y) dydu

Se sigue que la densidad marginal de X es:

fX (x) =

FX0 (x)

f (x, y) dy

Para el caso de R3 y en general Rn se puede hacer la generalizacin respectiva de forma anloga


al caso discreto.

3.4.

Variables aleatorias independientes

Definicin: El conjunto de variables aleatorias X1 , X2 , . . . , Xn se dicen independientes si su cdf


conjunta se factoriza en el producto de sus cdfs marginales:
F (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) FXn (xn )
En otras palabras, para dos variables X e Y independientes se tendr que:
 x
  y

F (x, y) = FX (x) FY (y) =
fX (u) du
fY (v) dv

f (x, y) dvdu =

fX (u) fY (v) dvdu

f (x, y) = fX (u) fY (v)


De lo anterior se concluye que:
P (X A Y B) = P (X A) P (Y B)
Se puede demostrar asimismo que si g y h son funciones, entonces g (X) y h (Y ) son independientes
tambin.
20

3.5.
3.5.1.

Distribuciones condicionales
Caso discreto

Definicin: Si X e Y son variables aleatorias distribuidas conjuntamente, la probabilidad condicional de X = xi dado Y = yj es, si pY (yj ) > 0
4

P (X = xi |Y = yj ) =

pXY (xi , yj ) 4
P (X = xi , Y = yj )
=
= pY |X (y|x)
P (Y = yj )
pY (yj )

Se define como cero si pY (yj ) = 0.


Se nota entonces que si X e Y son independientes, entonces pY |X (y|x) = pY (y).
La definicin de funcin de frecuencia condicional puede ser reexpresada como:
pXY (x, y) = pX|Y (x|y) pY (y)
Sumando a ambos lados obtenemos la ley de probabilidad total:
X
pX|Y (x|y) pY (y)
pX (x) =
y

 detecta

Ejemplo

Supongamos que el contador de partculas es imperfecto e independientemente


cada partcula entrante con probabilidad p. Si la distribucin del nmero entrante de partculas en una unidad de tiempo distribuye Poisson con
parmetro , cul es la distribucin del nmero de partculas contadas?

Solucin: 

Sea N el nmero real de partculas y X el nmero contado. Se sabe que la distribucin


condicional de X dado N = n es binomial con probabilidad p. Por la ley de probabilidad
total:
P (X = k) =

X
n=0

P (N = n) P (X = k|N = n)
{z
}
| {z } |
poisson

binomial

 

X
n e n k
=
p (1 p)nk
n!
k
n=k
=

X
n=k

n e
pk (1 p)nk
(n k)! k!

(p)k e X (1 p)nk
=
k!
(n k)!
n=k

(p)k p
e
k!

21

Es decir, X Poisson (p).

3.5.2.

El caso continuo

Definicin: Anlogamente, si X e Y son variables aleatorias continuas y conjuntas, entonces la


densidad condicional de Y dado X se define como:
4

fY |X (y|x) =

fXY (x, y)
fX (x)

si fX (x) > 0 y 0 de otra forma.


Se obtiene de forma anloga la ley de probabilidad total en este caso integrando:

fY (y) =
fY |X (y|x) fX (x) dx

3.6.

Funciones de variables aleatorias distribuidas conjuntamente

Primero consideramos algunos casos particulares.


3.6.1.

Sumas

Sean X e y variables aleatorias discretas tomando valores en los enteros y teniendo una funcin de
frecuencia conjunta p (x, y) y sea Z = X + Y. Para encontrar la funcin frecuencia de Z, notamos
que Z = z cuando X = x e Y = z x, donde x es un entero. La probabilidad de que Z = z es por
lo tanto la suma sobre todos los x de estas probabilidades conjuntas, es decir,
pZ (z) =

p (x, z x)

x=

Si X e Y son independientes, entonces:


pZ (z) =

pX (x) pY (z x) ,

x=

suma conocida como convolucin de las sucesiones pX y pY .


El caso continuo puede deducirse de forma similar, obteniendo as que:

fZ (z) =
f (x, z x) dx

Si las variables son continuas e independientes, entonces:



fZ (z) =
fX (x) fY (z x) dx,

la cual tambin se conoce como la convolucin de las funciones fX y fY .


22

3.6.2.

Cocientes

Consideremos ahora el caso del cociente entre dos variables continuas aleatorias. La derivacin es
similar a la deducida para la suma de dichas variables. Supongamos que X e Y son continuas con
una densidad conjunta f y sea Z = Y /X, entonces FZ (z) = P (Z z) . Si X > 0, entonces es
equivalente a buscar y xz, si X < 0, a buscar y xz. Luego,
xz
0
f (x, y) dydx +
f (x, y) dydx
FZ (z) =

xz

Para remover la independencia de x, se hace y = xv para obtener:


0
z
FZ (z) =
xf (x, xv) dvdx +
xf (x, xv) dvdx
z
0

z
=
|x|f (x, xv) dxdv

Derivando con respecto a z:

|x|f (x, xz) dx

fZ (z) =

Si son independientes las variables:

|x|fX (x) fY (xz) dx

fZ (z) =

 estndar.

Ejemplo

Suponiendo que X e Y son variables independientes que distribuyen normal


Calculemos la distribucin de Z = Y /X.

Solucin: 

De acuerdo al resultado anterior se tiene que:


1
1 x2 (1+z2 )/2
x2 /2 x2 z 2 /2
|x|e
e
dx =
xe
fZ (z) =
2
0
Haciendo u = x2 du = 2x dx:
1
fZ (z) =
2

2
eu(1+z )/2 du =

1
+ 1)

(z 2

Esta funcin de densidad se conoce como densidad de Cauchy y est definida para todo z.

23

3.6.3.

Caso general

Para el caso general, suponemos que X e Y son variables aleatorias continuas distribuidas conjuntamente y que X e Y son mapeados en U y V bajo la transformacin:
u = g1 (x, y)
v = g2 (x, y)
De acuerdo al Teorema de la Funcin Inversa, de existir la inversa, deber cumplirse que:
g1 g2 g2 g1
(g1 , g2 )
=

6= 0
(x, y)
x y
x y
Esto lleva directamente al siguiente resultado, que puede ser demostrado mediante lo aprendido
del teorema de sustitucin de integrales dobles en el curso de clculo en varias variables:
Proposicin: Bajo los supuestos mencionados anteriormente, la distribucin conjunta de U y V
es:

1
(g1 , g2 )
fU V (u, v) = fXY (h1 (u, v) , h2 (u, v))
(x, y)
para (u, v) tal que u = g1 (x, y) y v = g2 (x, y) para algunos (x, y) y cero en otro caso.
El resultado es extendible a Rn de forma similar, obteniendo as que:

1
(g1 , . . . , gn )
fY1 YN (y1 , . . . , yn ) = fX1 Xn (x1 , . . . , xn )
(x1 , . . . , xn )

3.7.

Valores extremos y estadsticos de orden

Sean X1 , X2 , . . . , Xn variables independientes y aleatorias con una cdf comn F y densidad f (iid.,
independientes e idnticamente distribuidas). Sea U el mximo de Xi y V el mnimo. Las cdfs de
U y V , y por lo tanto sus densidades, sern calculadas.
Notamos que U u Xi u para todo i. Luego,
iid.

FU (u) = P (U u) = P (i : Xi u) =

n
Y

P (Xi u) = F n (u)

i=1

Derivando con respecto a u:


fU (u) = nF n1 (u)

dF
= nF n1 (u) f (u)
du

De forma anloga, V v Xi v para todo i. Luego, se puede deducir mediante lgica


complementaria que:
1 FV (v) = [1 F (v)]n FV (v) = 1 [1 F (v)]n
Finalmente, derivando con respecto a v:
fU (u) = n [1 F (v)]n1

24

dF
= n [1 F (v)]n1 f (v)
dv

Ahora asumamos los mismos supuestos, ordenamos los Xi y denotamos esta lista por:
X(1) < X(2) < < X(n)
Estos resultados se conocen como estadsticos de orden. Debe notarse de inmediato que no necesariamente X1 = X(1) . Se nota aqu que X(1) es el mnimo, X(2) el mximo y si n = 2m + 1, entonces
X(m+1) es la mediana de Xi .
Teorema: La densidad de X(k) , el ksimo estadstico de orden es:
fk (x) =

n!
f (x) F k1 (x) [1 F (x)]nk
(k 1)! (n k)!

25

4.
4.1.

Valores esperados
El valor esperado de una variable aleatoria

El concepto de valor esperado de una variable aleatoria recuerda la nocin de promedio ponderado.
Los posibles valores de una variable aleatoria son ponderados por sus probabilidades, tal como se
especifica en la siguiente definicin:
Definicin: Sea X una variable aleatoria discreta con funcin de frecuencia p (x), el valor esperado
o promedio de X, denotado por E (X), es:
4

E (x) =

xi p (xi )

Tambin suele denotarse por X y puede entenderse como el centro de masa de la funcin
frecuencia.
Bajo esta definicin, calculemos el promedio de cada una de las distribuciones discretas enunciadas
en el captulo 2.
Bernoulli. Usando la definicin:
E (X) = p 1 + (1 p) 0 = p
Binomial. Usando la misma definicin:
 
n
n
X
X
n!
n k
nk
k
k
p (1 p)
=
E (X) =
pk (1 p)nk
k
(n

k)!
k!
k=1
k=0
n
X

n (n 1)!
pk (1 p)nk
(n k)! (k 1)!
k=1

n 
X
n1 k
= n
p (1 p)nk
k1
k=1

n1 
X
n 1 k+1
= n
p
(1 p)n1k
k
k=0
=

n1

:1



n1 

X
n 1 k (n1)k
= np
p(1 p)

k



k=0


Finalmente,
E (X) = np

26

Geomtrica. Se tiene que:


E (X) =

k1

k (1 p)

p=p

k=1

k (1 p)k1

k=1

d X
(1 p)k
= p
dp k=0

= p

1
d 1
d
= p
dp 1 (1 p)
dp p

Finalmente,
E (X) =

1
p

Es decir, si la probabilidad es 10 % de ocurrencia de un error, entonces tras 10 inspecciones


se espera que aparezca un artculo defectuoso.
Binomial negativa. Se tiene que



X
X
(k 1)!
k1 r
kr
k
E (X) =
k
p (1 p)
=
pr (1 p)kr
r1
(r 1)! (k r)!
k=r
k=r

pr X
=
(k r + 1) (k r + 2) (k 1) k (1 p)kr
(r 1)! k=r

r X
pr
dr 1
pr
r d
k
=
(1)
(1

p)
=
(r 1)!
dpr k=0
(r 1)! dpr p

pr
r!
(1)2r r+1
(r 1)!
p

=
Finalmente,

E (X) =

r
p

Hipergeomtrica. El clculo es complejo y no se mencionar ac. Se puede demostrar que:


E (X) =

mr
n

Poisson. En este caso se tiene que:


E (X) =

X
kk
k=0

= e

k!

X
k
k=0

k!

= e

X
k1
(k 1)!
k=1

= e e

Finalmente,
E (X) =
Entonces el parmetro de la distribucin Poisson puede interpretarse como la cuenta promedio de ocurrencias.
27

En el caso discreto, es razonable e intuitivo que se reemplaza la suma por la integracin. Se tiene
entonces la siguiente definicin:
Definicin: Si X es una variable aleatoria continua con densidad f (x), entonces:

4
xf (x) dx
E (X) =

considerando que

|x|f (x) dx < . Si no existe o diverge, la esperanza no est definida.

Bajo esta definicin se puede calcular la esperanza para diversas distribuciones continuas:
1. Uniforme. Mediante esta definicin, podemos realizar los mismos clculos para las diversas
densidades:
b
x
1 b 2 a2
a+b
dx =
=
E (X) =
ba 2
2
a (b a)
Lo cual es un resultado razonable considerando que es el centro de masa de la funcin
densidad.
2. Exponencial. Se tiene que:

E (X) =

xe

dx =

d x
e dx
d

d 1
=
d
Es decir,
E (X) =

3. Gamma. Por definicin:

E (X) =
()

|0

t et dt =

{z
}

(+1)/+1

donde se us la relacin ( + 1) = ().

4. Normal. Reemplazando mediante la definicin:



2
1
2

E (X) =
xe(x) /2 dx
2

2
1
2

=
(x + ) e(x) /2 dx
2
!




2
2
1

2
2
 /2
(x)

=
(x
)e
dx +
e(x) /2 dx

2 




2
1
2

=
e(x) /2 dx
2
28

Es decir,
E (x) =
donde se cancel la integral pues esta simtrica en
torno al punto (, 0) (de forma anloga
a una funcin impar). La segunda integral vale 2, por lo que el resultado total es . De
aqu que este parmetro se conoce tambin como el promedio de la distribucin normal.
5. Beta. En este caso, se tendr que:
1
(a + b)
(a + b) (a + 1) (b)
E (X) =
ua (1 u)b1 du =
(a) (b) 0
(a) (b) (a + b + 1)
|
{z
}
(a+1)(b)/(a+b+1)

Se tiene entonces que:

E (X) =

a
a+b

donde se uso la relacin (? + 1) = ? (?) para simplificar los trminos.


Teorema: (Desigualdad de Markov) Si X es una variable aleatoria con P (X 0) = 1 y para la
cual E (X) existe, entonces P (X t) E (X) /t.
Demostracin:
Se probar para el caso continuo, considerando que es anlogo para el caso con sumatoria. Separando integrales, se tiene que:
t



E (X) =
xp (x) dx +
xp (x) dx
xp (x) dx t
p (x) dx = tP (X t)

De aqu se deduce que:


P (X t)

4.1.1.

E (X)
t

Esperanza de funciones de variables aleatorias

Teorema: Suponiendo que Y = g (X) donde X es una variable aleatoria, entonces:


1. Si X es discreta con funcin de frecuencia p (x), entonces:
X
E (Y ) =
g (x) p (x)
x

siempre que

|g(x)|p(x) < .

29

2. Si X es continua con funcin de densidad f (x), entonces:



g (x) f (x) dx
E (Y ) =

siempre que

|g(x)|f (x)dx < .

Se puede demostrar exactamente el mismo resultado para funciones de varias variables. De aqu
se nota de inmediato que E [g (x)] 6= g [E (X)].
Corolario: Si X e Y son variables independientes y g y h son funciones, entonces
E [g (X) h (Y )] = E [g (X)] E [h (Y )]
siempre que los miembros del lado derecho de la ecuacin existan.

4.1.2.

Esperanza de combinaciones lineales de variables aleatorias

Teorema:
X1 , . . . , Xn son variables aleatorias conjuntas con esperanzas E (Xi ) e Y es la funcin
PSi
n
Y = a + i=1 bi Xi , entonces:
n
X
E (Y ) = a +
bi E (Xi )
i=1

4.2.

Varianza y desviacin estndar

Se introducir el concepto de desviacin estndar de una variable aleatoria, la cual indica cun
dispersa est la distribucin de probabilidad respecto a su esperanza. Primero se definir la varianza
de una variable aleatoria y luego la desviacin estndar en trminos de la varianza.

Definicin: Si X es una variable aleatoria con valor esperado E (x) = , entonces la varianza de
X es


4
Var (X) = 2 (X) = E (X )2
Asimismo, se define la desviacin estndar como:
p
(X) = Var (X)

donde se usa esta medida para hacer coincidir las unidades de medicin de la variable.
Se puede notar entonces que en el caso discreto la frmula de la varianza es:
X
Var (X) =
(xi )2 p (xi )
xi

30

y en el caso continuo:

(x )2 f (x) dx

Var (X) =

Teorema: Si Var (X) existe e Y = a+bX, entonces Var (Y ) = b2 Var (X) y por lo tanto Y = |b|X .
Demostracin:
Se tiene que:
Var (Y ) = E (Y Y )2
= E (a + bX a bX )2


= E b2 (X X )2
= b2 E (X X )2

Finalmente,
Var (Y ) = b2 Var (X)

El siguiente teorema entrega una forma alternativa para calcular la varianza:


Teorema: La varianza de X, de existir, tambin puede ser calculada como:

Var (X) = E X 2 2X
Demostracin:
Se tiene que:
Var (X) = E (X )2 = E X 2 2X + 2

= E X 2 2 E (X) +2
| {z }

Finalmente,


Var (X) = E X 2 2

Considerando la descripcin dada de la varianza como indicacin de qu tan dispersos estn los valores de una variable aleatoria, existe una famosa desigualdad para entregar un aspecto cuantitativo
de este indicador:
Teorema: (Desigualdad de Chebyshev) Sea X una variable aleatoria con media y varianza 2 ,
entonces para cualquier t > 0:
2
P (|X | > t) 2
t
Este teorema plantea que si 2 es muy pequeo, entonces hay una alta probabilidad de X no se
desve mucho de . Otra interpretacin puede hacerse haciendo t = k:
P (|X | > k)
31

1
k2

Es decir, la probabilidad de que X se aleje una distancia k (o k veces la desviacin) de la media


es menor a 1/k 2 , donde a medida que se aumenta k disminuye la probabilidad.
Corolario: Si Var (X) = 0, entonces P (X = ) = 1.
Demostracin:
Por contradiccin, supongamos que P (X = ) < 1. Luego, se tendr que
P (|X | ) > 0
lo cual contradice la desigualdad de Chebyshev, pues:
P (|X | ) 0 

4.2.1.

Un modelo para el error de medicin

Los valores de las constantes fsicas no son conocidas con precisin pero deben ser determinadas
mediante procedimientos experimentales. Operaciones tan sencillas como pesar un objeto, determinar un voltaje o medir un intervalo de tiempo son en realidad bastante complicadas cuando se
toman en cuenta todos los detalles y posibles fuentes de error.
Una distincin realizada usualmente es aquella entre error aleatorio y error sistemtico, donde
el primero puede producir errores en las mediciones sin cambiar deliberadamente variables en el
experimento, mientras que el segundo puede producirse en cada medicin, como consecuencia de la
mala calibracin de instrumentos o errores asociados con la teora detrs del mtodo de medicin.
Si el valor real que se desea medir se denota por x0 , entonces la medida X se modela como:
X = x0 + +
donde es la constante de error sistemtico y  es la componente aleatoria del error, donde es
una variable aleatoria tal que E () = 0 y Var () = 2 . Se tiene entonces que:
E (X) = x0 +
y que
Var (X) = 2
donde se llama comnmente el sesgo del procedimiento de medicin. Los dos factores afectando
el tamao del error son el sesgo y el tamao de la varianza, 2 . Una medicin perfecta (e ideal)
debiese entregar = 0 y 2 = 0.
Definicin: Una medida del tamao del error total de medicin que se usa comnmente es el
error cuadrtico medio (MSE, por sus trminos en ingls mean squared error), el cual se define
como:
MSE (X, x0 ) = E (X x0 )2
32

El error cuadrtico medio, que es la desviacin cuadrtica esperada de X con respecto a x0 , puede
ser descompuesta en el sesgo y la varianza.
Teorema: MSE = 2 + 2 .
Demostracin:
E (X x0 )2 = Var (X x0 ) + [E (X x0 )]2
= Var (X) + 2
= 2 + 2

4.3.

Covarianza y correlacin

La varianza de una variable aleatoria es una medida de su variabilidad, y la covarianza de dos


variables aleatorias es una medida de su variabilidad conjunta, o de su grado de asociacin. Despus
de definir covarianza, se revisarn algunas propiedades y se discutir una medida de asociacin
llamada correlacin, definida en trminos de la covarianza.

Definicin: Si X e Y son variables distribuidas conjuntamente con esperanzas X y Y respectivamente, la covarianza de X e Y es:
Cov (X, Y ) = E [(X X ) (Y Y )]
siempre que esta esperanza exista. De aqu se sigue que Var (X) = Cov (X, X).
La covarianza es el valor promedio del producto de la desviacin de X de su media y de la desviacin
de Y de su media. Si las variables aleatorias estn positivamente asociadas si X es ms grande
que su media, entonces Y tambin, la covarianza ser positiva. Si la asociacin es negativa esto
es, cuando X es ms grande que su media, Y tiende a ser ms pequeo que su media la covarianza
es negativa.
Realizando una expansin de trminos, se puede encontrar una expresin equivalente para la covarianza:
Cov (X, Y ) = E (XY ) X Y
De aqu se puede notar que si X e Y son independientes, entonces E (XY ) = E (X) E (Y ) = X Y
y por lo tanto la covarianza es cero (pero la expresin recproca no es verdadera).
Proposicin: Se verifican las siguientes identidades:
1. Cov (a + X, y) = Cov (X, Y ).
2. Cov (aX, bY ) = ab Cov (X, Y ).
33

3. Cov (X, Y + Z) = Cov (X, Y ) + Cov (X, Z).


4. CoV (aW + bX, cY + dZ) = ac Cov (W, Y ) + ad Cov (W, Z) + bc Cov (X, Y ) + bd Cov (X, Z).
Teorema: Si U = a +

Pn

i=1 bi Xi y V = c +

Cov (U, V ) =

Pm

j=1

dj Yj , entonces:

n X
m
X

bi dj Cov (Xi , Yj )

i=1 j=1

Corolario:

1. Var a +

n
X

bi X i

i=1

2. Var

n
X
i=1

Xi

n
X

n X
n
X

bi bj Cov (Xi , Xj ).

i=1 j=1

Var (Xi ) si Xi son independientes.

i=1

El cociente de correlacin se define en trminos de la covarianza:


Definicin: Si X e Y son variables aleatorias distribuidas conjuntamente y las varianzas y covarianzas de ambas X e Y existen y las varianzas de ambas X e Y son no nulas, entonces el cociente
de correlacin de X e Y , denotado por es:
XY
Cov (X, Y )
=
= p
X Y
Var (X) Var (Y )

Puede notarse que el cociente ser adimensional. Se sigue de forma sencilla que ante transformaciones lineales de X e Y el cociente de correlacin no cambia. Como no depende de las unidades de
medicin y no discrimina las transformaciones lineales que se le puedan efectuar a las variables, el
cociente de correlacin es en muchos casos una medida til de asociacin, ms que la covarianza.
Teorema: 1 1. Adicionalmente, = 1 si y solo si P (Y = a + bX) = 1 para algunas
constantes a y b.
Demostracin:
Como la varianza de una variable aleatoria es no negativa:


Y
X
+
0 Var
X Y
 
 


X
Y
X Y
= Var
+ Var
+ 2 Cov
,
X
Y
X Y
Var (X) Var (Y ) 2 Cov (X, Y )
=
+
+
2
X
Y2
X Y
= 2 (1 + )
34

de donde se observa que 1. Similarmente, se puede demostrar que:




Y
X

= 2 (1 ) 1
0 Var
X
Y
Supongamos que = 1, entonces:




X
Y
X
Y
Var

= 0 P

=c =1
X
Y
X
Y
para alguna constante c. Por lo tanto, P (Y = a + bX) = 1 para algunos a y b, y de forma anloga
para = 1. 


 funcin

Ejemplo

La distribucin normal bivariada, de parmetros X , Y , X , Y y tiene como


de densidad:
f (x, y) =

1
p

2X Y

1 2

2 (1 2 )

exp

"

(x X )2
(y Y )2
2 (x X ) (y Y )
+

2
2
X
Y
X Y

#!

Demostraremos que la covarianza de la distribucin viene dada por X Y .




Solucin: 

Por definicin, la covarianza es:

(x X ) (y Y ) f (x, y) dxdy

Cov (X, Y ) =

Haciendo el cambio de variables u = (x X ) /X y v = (y Y ) /Y se tiene que dxdy =


X Y dudv y por lo tanto:
 2


X Y
u + v 2 2uv
dudv
Cov (X, Y ) = p
uv exp
2 (1 2 )
2 1 2
Aplicando la tcnica de completacin de cuadrados se tendr que toda esta expresin es
equivalente a:
(
"
# )


X Y
(u v)2
2
p
v exp v /2
u exp
du dv
2 (1 )2
2 1 2

La integral interior es la media de una variable


q aleatoria que distribuye normal de parmetros
= v y = (1 2 ) salvo la constante 1/ 2 (1 )2 , por lo que toda la expresin es igual

35

a:
146

X Y 2 v2 /2
X Y 2 v2 /2
v e
dv = 2
v e
dv
Cov (X, Y ) =
2
2 0
Chapter 4 Expected Values
 

X Y t
2
3
Xofcompleting
= 2 F
2t eusedt
As in Example
in Section 3.3, we
the=technique
the square to
Y
2

2as 0
rewrite this expression

#"
$
"
% &
X Y
1  
2
2



!
v exp(v /2)
2u exp 2(11 2 )1(u v) du dv
2 1 =
22 3 =

X Y
X Y
2
2
2

The inner integral is the mean of an N [v, (1 )] random variable, lacking only
the
normalizing constant [2(1 2 )]1/2 , and we thus have
Finalmente,
"

X
Y 2 v 2 /2
Cov
(X,
Y
)
=
X v Ye

dv = X Y
Cov(X, Y ) =
2

Esto implica que elascoeficiente


de correlacin es (coincidente con el parmetro dela distriwas to be shown.

bucin) para la distribucin normal bivariada.

The correlation coefficient measures the strength of the linear relationship


between X and Y (compare with Figure 3.9). Correlation also affects the appearance
El coeficiente de correlacin mide la fuerza de una relacin lineal entre X e Y . La correlacin
of a scatterplot, which is constructed by generating n independent pairs (X i , Yi ),
tambin afecta a la apariencia
muestras
en el Figure
plano4.7
coordenado,
construido
where i = del
1, . grfico
. . , n, anddeplotting
the points.
shows scatterplots
of 100 al generar
pares de variables independientes
(Xi , Ybivariate
siguiente
sefor
puede
observar
i ). En la
pairs of pseudorandom
normal
randomfigura
variables
various
values of el
. coeficiente
Note that the
clouds
points are aleatorias
roughly elliptical
shape. grados de independencia:
de correlacin para distintos
tipos
de ofvariables
con inciertos
y

y
3

!1

!1

!2

!2

!3
!2 !1
(a)

!3
!2 !1
(b)

!1

!1

!2
!3
!2 !1
(c)

!2
!3
!2 !1
(d)

F I G U R4.1:
E 4.7 (a)
Scatterplots
of 100
bivariate
random
Figura
= 0, (b)
independent
= 0,3, (c) pairs
= of0,6,
(d) normal
= 0,9.
variables, (a) = 0, (b) = .3, (c) = .6, (d) = .9.

36

4.4.
4.4.1.

Esperanza condicional y prediccin


Definiciones

Siempre asociada a una distribucin condicional hay asociada una esperanza condicional.

Definicin: Supongamos que Y y X son variables discretas aleatorias y que la funcin de


frecuencia condicional de Y es pY |X (y|x). La esperanza condicional de Y dado X = x es:
4

E (Y |X = x) =

ypY |X (y|x)

Para el caso continuo, se tiene que:


4

E (Y |X = x) =

yfY |X (y|x) dy

Y en el caso ms general, la esperanza condicional de la funcin h (Y ) es:



4
h (y) fY |X (y|x) dy
E [h (Y ) |X = x] =

Asumiendo que la esperanza condicional de Y |X existe para cada x en el rango de X, es una


funcin bien definida de X y por lo tanto una variable aleatoria, que escribimos como E (Y |X) y
por lo tanto, puede existir su esperanza, E [E (Y |X)].
Teorema: E (Y ) = E [E (Y |X)].
Demostracin:
Se probar para el caso continuo. Tenemos que demostrar que:

E (Y ) =
E (Y |X = x) pX (x) dx


=
ypY |X (y|x) pX (x) dydx



=
y
pY |X (y|x) pX (x) dx dy

|
{z
}

pY (y)

ypY (y) dy

lo cual es cierto pues es la definicin de esperanza. El tercer paso se dio utilizando la ley de
probabilidades totales. 

37

Ejemplo

Consideremos las sumas del tipo


T =

N
X

Xi

i=1

donde N es una variable aleatoria con esperanza finita y Xi son variables aleatorias que son independientes de N y tienen esperanza comn X . Calcular
E (T ).


Solucin: 

Se tiene que:
E (T ) = E [E (T |N )]
Se tiene que E (T |N = n) = nX E (T |N ) = N X . Entonces,
E (T ) = E (N X ) = N X

Teorema: Var (Y ) = Var [E (Y |X)] + E [Var (Y |X)].




 pendientes

Ejemplo

Continuando el ejemplo anterior, asumamos tambin que Xi son variables inde2


. Calcular Var (T ).
con la misma media X y varianza X

Solucin: 

Se tiene que:
Var (T ) = Var [E (T |N )] + E [Var (T |N )]
Se tiene que E (T |N ) = N X y
Var (T |N ) = Var

N
X

Xi

i=1

Como las variables son independientes, desaparecen los trminos asociados a las covarianzas,
de modo que:
!
N
N
X
X
2
2
Var (T |N ) = Var
Xi =
= N X
X
i=1

i=1

Luego, reemplazando,

2
Var (T ) = Var (N X ) + E N X
2
= 2X Var (N ) + X
N

38

4.4.2.

Prediccin

En esa seccin se trata el problema de predecir el valor de una variable aleatoria a partir de otra,
tal como se podra desear, por ejemplo, al medir una variable fsica utilizando un instrumento.
Asumamos que las mediciones deben medirse a travs de un instrumento que produce una respuesta
X, relacionada con Y de cierta forma pero corrompida por ruido aleatorio. Y y X tienen una
distribucin conjunta, y deseamos predecir la variable Y a partir de la respuesta del instrumento
X.
Partamos de la situacin trivial: deseamos predecir Y por una constante c, donde el mejor valor
de c debe ser obtenido a partir de la medicin de la efectividad de la prediccin. Una medicin
ampliamente utilizada es el error cuadrtico medio:


MSE = E (Y c)2

El problema consiste en encontrar c que minimice el MSE. Denotemos E (Y ) por y observemos


que:
E (Y c)2 = Var (Y c) + E2 (Y c)
= Var (Y ) + ( c)2
El primer trmino es constante y el segundo se minimiza tomando = c.
Consideremos ahora el problema de predecir Y por una funcin h (X) de modo de minimizar
MSE = E2 [Y h (X)]. Se tiene entonces que:
 

E2 [Y h (X)] = E E (Y h(X))2 |X

La esperanza de adentro se minimiza haciendo h(x) = E (Y |X = x) de acuerdo al resultado obtenido en la parte anterior. Entonces,
h (X) = E (Y |X)

4.5.

La funcin generadora de momentos

Definicin: La funcin generadora de momentos de una variable aleatoria X es M (t) = E etX


si esta est definida. En el caso discreto,
X
M (t) =
etx p (X) ,
x

y en el caso continuo

etx f (x) dx.

M (t) =

39

Proposicin: Si la funcin generadora de momentos existe en un intervalo abierto conteniendo al


cero, entonces
M (r) (0) = E (X r )
donde (r) representa r veces la derivacin con respecto a t.
Demostracin:
Asumiendo alternancia de operadores, se tiene que:
 r 


dr
d tx
tx
dx
e
f
(x)
dx
=
f
(x)
e
dtr
dtr


f (x) xr etx dx
=

Haciendo t = 0:
M

(r)

xr f (x) dx = E (X r )

(0) =

Teniendo calculada explcitamente la funcin generadora de momentos, puede calcularse de forma


rpida cualquier momento central. A modo de ejemplo,

2
Var (X) = E X 2 2X = M (2) (0) [M 0 (0)]
Esta es la utilidad prctica de la funcin generadora de momentos.

Proposicin: Si X tiene la funcin generadora de momentos MX (t) e Y = a + bX, entonces Y


tiene la funcin generadora de momentos MY (t) = eat MX (bt).
Demostracin:
Se tiene que:
MY (t) = E etY

= E eat+btX


= eat E ebtX
= eat MX (bt)

Proposicin: Si X e Y son variables aleatorias independientes con funciones generadoras de


momentos MX y MY y Z = X + Y , entonces MZ (t) = MX (t) MY (t) en el intervalo comn donde
ambas funciones generadoras de momentos existen.

Por induccin esta propiedad puede extenderse a la suma de una cantidad arbitraria de variables
aleatorias independientes. Esta propiedad es muy til en las funciones generadoras de momentos.

40

4.5.1.

Clculo de funciones generadoras de momentos

A continuacin calcularemos la funcin generadora de momentos para algunas distribuciones de


inters:
Distribucin Poisson. En la distribucin Poisson, se tiene por definicin que:

M (t) =

etk

k=0

k
e
k!

k
X
(et )

= e

k=0

k!

= e(e 1)
t

Se tiene entonces que:


M (0) = 1 lo esperable!
M 0 (t) = et e(e 1) M 0 (0) = E (X) =
t


t
t
M 00 (t) = et e(e 1) + 2 e2t e(e 1) M 00 (t) = E X 2 = 2 +

Luego, se sigue que:


Var (X) = E X 2 E (X) =

Distribucin normal. Se tiene que:

1
M (t) =
2

etx e

(x)2
2 2

dx

Notamos que:
tx

x2 2x + 2 2 2 tx
(x )2
=

2 2
2 2
2
x 2 ( + 2 t) x + (2 + 2 2 t + 4 t2 ) (2 2 t + 4 t2 )
=
2 2
2
(x 2 t)
t (2 + t 2 )
=
+
2 2
2

Es decir,
t 2+t 2

M (t) = e

(x2 t)

2 2

t 2+t 2

dx = e

De aqu:
M (0) = 1
M 0 (0) = E (X) =
M 00 (0) = + 2 Var (X) = 2
Se puede haber obtenido el mismo resultado notando que Y = + X y calculando el
resultado para la distribucin normal estndar, mucho ms sencilla de calcular.
41

Distribucin Gamma. Por definicin:



tx
1 x
e
x e dx =
x1 ex(t) dx
M (t) =

()

()
0
|0
{z
}
()/(t)

Luego,

M (t) =

Se puede demostrar as que:


M 0 (0) = E (X) =

 ( + 1)

M 00 (0) = E X 2 =
Var (X) = 2
2

Suma de variables Poisson. Si X Poisson () e Y Poisson (), entonces:


MX+Y (t) = MX (t) MY (t) = e(e 1) e(e 1) = e(+)(e 1)
t

Es decir, X + Y Poisson ( + ) .
Suma de variables normales. Si X N (, 2 ) y X N (, 2 ), entonces:
2 2 /2

MX+Y (t) = et+t


Es decir, X + Y N + , 2 + 2

2 2 /2

et+t

2
2
2
= e(+)t+t ( + )/2

Suma de variables Gamma. Si X (, 1 ) e Y (, 2 ), entonces:


MX+Y (t) =

1 

2

1 +2

donde t < . Luego, X + Y (, 1 + 2 ) . Si 1 = 2 = 1 (en cuyo caso las distribuciones


gamma tambin son exponenciales), entonces se deduce que la suma de n exponenciales de
parmetro resulta en una distribucin Gamma de parmetros y n.

42

5.

Teoremas de los lmites

En este captulo se estudia el comportamiento en el lmite de la suma de variables aleatorias


independientes cuando el nmero de sumandos se vuelve grande. Los resultados presentados aqu
son tanto interesante como tiles en estadstica, debido a que la mayora de cantidades estadsticas
comnmente calculadas, tales como promedios, pueden ser representadas como sumas.

5.1.

La ley de nmeros grandes

Es habitual pensar que si una moneda se lanza muchas veces y se calcula la proporcin entre
caras y sellos, la proporcin ser cercana a 1/2. John Kerrich, un matemtico sudafricano prob
esta creencia empricamente mientras fue un prisionero de la Segunda Guerra mundial. Lanz la
moneda 10.000 veces y observ 5.067 caras.
La ley de nmeros grandes es una formulacin matemtica de esta creencia. Los lanzamientos
sucesivos de monedas son modelados como intentos aleatorios independientes. La variable aleatoria
Xi toma el valor 0 o 1 de acuerdo a los resultados del intento isimo en una cara o un sello, y la
proporcin de caras y sellos en n intentos es:
1X
Xn =
Xi
n i=1
n

La ley de nmeros grandes plantea que X n tiende a 1/2 tal como se plantea en el siguiente teorema:
Teorema: (Ley de nmeros grandes) Sean X1 , X2 , . . ., Xi una secuencia de variable aleatorias
independientes con E (Xi ) = y Var (Xi ) = 2 . Dado X n definido anteriormente, se tiene que
para todo > 0:

lm P |X n | > = 0
n

Demostracin:


Primero encontramos E X n y Var X n :
E Xn

1X
=
E (Xi ) =
n i=1
n

Como Xi son independientes:


Var X n

n
1 X
2
= 2
Var (Xi ) =
n i=1
n

De acuerdo a la desigualdad de Chebyhshev:



2
0 P |X n | > 2
n
43

Haciendo n se cumple el teorema del sndwich y por lo tanto:



lm P |X n | > = 0 
n

Si una secuencia de variables aleatorias Zn es tal que


lm P (|Zn | > ) = 0

para todo > 0 y donde es un escalar, entonces se dice que Zn converge en probabilidad a .


Ejemplo

Integracin Monte Carlo. Supongamos que se desea calcular


1
I (f ) =
f (x) dx
0

donde no se puede determinar la primitiva o utilizar una tabla de integrales.


Introduzcamos el mtodo de integracin Monte Carlo.


Solucin: 

El mtodo ms comn es aproximar la integral mediante una suma y otro mtodo es el mtodo
de Monte Carlo. Se generan variables aleatorias uniformes en [0, 1] X1 , X2 , . . . , Xn para calcular
1X
I (f ) =
f (Xi )
n i=1
n

Por la ley de nmeros grandes, esto debe ser cercano a E [f (X)] que en este caso no es ms
que
1
E [f (X)] =
f (x) dx = I (f )
0

X

Ejemplo

Mediciones repetitivas. Supongamos que repetidas mediciones no sesgadas


1 , X2 , . . . , Xn se hacen sobre una cantidad. Si n es grande, entonces de acuerdo
a la ley de nmeros grandes se tendr que X ser cercano a , pero qu tan
cercano depende del error de medicin 2 , tal como se pudo observar en la
medicin del teorema?

Solucin: 

Afortunadamente, 2 puede ser estimado y por lo tanto


 2
Var X =
n
44

puede ser estimado de los datos para estimar la precisin de X. Primero, notamos que

1X 2
Xi E X 2
n i=1
n

de acuerdo a la ley de nmeros grnades. Se puede demostrar asimismo que si Zn converge en


probabilidad a y g es una funcin continua, entonces
g (Zn ) g ()
lo cual implica que:
2

X E2 (X)
Se puede demostrar entonces que:

1X 2
2
lm
Xi X = E X 2 E2 (X) = Var (X)
n n
i=1
n

Se puede demostrar a modo general que:


1X r
lm
Xi = E (X r )
n n
i=1
n

5.2.

Convergencia en la distribucin y el teorema del lmite central

En muchas ocasiones deseamos calcular P (a < X < b) pero no sabemos la cdf X precisamente y
se puede hacer en ocasiones aproximando FX mediante un argumento asinttico. El teorema del
lmite ms famoso en teora de probabilidades es el teorema del lmite central. Antes de examinarlo,
se desarrollar terminologa introductoria, teora y ejemplos.
Definicin: Sean X1 , X2 , . . . , Xn una secuencia de variables aleatorias con funciones de distribucin acumulada F1 , . . . , Fn y sea X una variable aleatoria con funcin de distribucin F. Decimos
que Xn converge en distribucin a X si:
lm Fn (x) = F (x)

en cada punto en que F es continua.


Teorema. Teorema de continuidad. Sea Fn una sucesin de funciones de distribucin acumuladas
con la correspondiente funcin generadora de momentos Mn , de modo que:

Mn (t) = E etXn
Sea F la funcin de distribucin acumulada con la funcin generadora de momentos M . Si
Mn (t) M (t) para todo t en un intervalo abierto conteniendo al cero, entonces Fn (x) F (x).
45

Nos enfocaremos ahora en el teorema del lmite central, el cual se preocupa de la propiedad
asinttica de sumas de variables aleatorias. Si X1 , X2 , . . . , Xn es una sucesin de variables aleatorias
independientes con media y varianza 2 y si
Sn =

n
X

Xi

i=1

Sabemos por la ley de nmeros grandes que Sn /n converge en probabilidad a . Esto se sigue por
el hecho de que:
 
1
2
Sn
= 2 Var (Sn ) =
0
Var
n
n
n

El teorema del lmite central se preocupa no del hecho de que Sn /n converge a este cociente si no
cmo Sn /n flucta cerca de . Para analizar estas situaciones estandarizaremos:
Zn =

Sn n

donde Zn tiene esperanza 0 y varianza 1, como es fcil de notar:


1
n n

E (Zn ) = [E (Sn ) n] =
=0
n
n
Var (Sn )
=1
n 2
El teorema del lmite central plantea que la distribucin de Zn converge a la distribucin normal
estndar.
Var (Zn ) =

Teorema. (Teorema del lmite central) Sean X1 , X2 , . . . , Xn una secuencia de variables aleatorias
independientes teniendo cada una de ellas media 0 y varianza 2 y la funcin de distribucin comn
F y la funcin generadora de momentos M definida en una vecindad de cero. Sea
Sn =

n
X

Xi

i=1

Entonces,
lm P

Sn
x
n

= (x)

< x <

Se suele usar la notacin


para indicar la tendencia asinttica. En otras palabras, el teorema
enuncia que:
Sn

N (0, 1)
n
Demostracin:

Sea Zn = Sn /( n). Demostraremos que la funcin generadora de momentos de Zn tiende a la funcin generadora de momentos de la distribucin normal. Con ello, por unicidad de la transformada
inversa de Laplace, habremos demostrado que ambas distribuciones en el lmite son iguales.
46

Se tiene por propiedades de la funcin generadora de momentos que:




t
n
n

MSn (t) = M (t) MZn (t) = M


n
Luego, M (s) puede expandirse en Taylor en torno al origen con un polinomio de orden 2. Este es
el hecho central de la demostracin:
M (s) M (0) + sM 0 (0) +
Como M (0) =
y por lo tanto:

f (x)dx = 1, M 0 (0) = 0 y M 00 (0) = 2 , entoncess cuando n t/( n) 0

donde

n
2
t /n 2

s2 00
M (0)
2


2
t
1 2

= 1+
+ n
2
n
t2
= 1+
+ n
2n

0 cuando n . Reemplazando, se tendr que:

MZn (t)

t2
1+
2n

n

Luego, cuando n se tiene que este lmite converge a la exponencial:


2 /2

lm MZn (t) = et

n
2

donde et /2 es la funcin generadora de momentos de la distribucin normal estndar, justo como


que sera demostrar y concluyendo as la demostracin del teorema. Notar que este teorema exige
que exista como mnimo la segunda derivada de la funcin generadora de momentos.


 de

Ejemplo

Como la distribucin uniforme en [0, 1] tiene media 1/2 y varianza 1/12, la suma
12 variables aleatorias uniformes, menos 6, tiene media 0 y varianza 1. La
distribucin de esta suma es muy cercana a la normal, tan cercana que fue uno
de los algoritmos iniciales para generar nmeros aleatorios normales antes de
que existieran algoritmos ms sofisticados.

Solucin: 

La siguiente figura muestra un histograma con 1000 de dichas sumas de 12 nmeros aleatorios
entre 0 y 1. El ajuste a la distribucin normal es sorprendentemente correcto, especialmente
considerando que 12 es un nmero pequeo para considerar que n tiende a infinito:

47

ically, but we will content ourselves with a simple demonstration. Figure 5.1 shows
a histogram of 1000 such sums with a superimposed normal density function. The fit
is surprisingly good, especially considering that 12 is not usually regarded as a large

value of n.
250

200

Count

150

100

50
0
!4

!2

2
Value

IGUR
E 5.1 Aen
histogram
of 1000
of which
the sum of 12
uniform
Figura 5.1: Histograma de F1000
valores,
que cada
unovalues,
es laeach
suma
de 12isvariables
aleatorias
[ 12 , 12 ] pseudorandom variables, with an approximating standard normal density.
entre 0 y 1 menos 6, comparado con la densidad normal estndar.

 distribucin

Ejemplo

La suma de n variables exponenciales aleatorias con parmetro = 1 sigue una


gamma con =1 y = n. La siguiente figura muestra la cdf de
la funcin gamma estandarizada y la cdf de la funcin normal estandarizada a
medida que n aumenta. Se comprueba cmo a medida que se aumenta n (y por
lo tanto ) las distribuciones comienzan a parecerse.

Solucin: 

48

exponential density is quite skewed; therefore, a good approximation of a standardized


gamma by a standardized normal would not be expected for small n. Figure 5.2 shows
the cdfs of the standard normal and standardized gamma distributions for increasing
values of n. Note how the approximation improves as n increases.

1.0

Cumulative probability

.8

.6

.4

.2

0
!3

!2

0
x

!1

I G U R E 5.2 The standard normal cdf (solid line) and the cdf s of standardized
Figura 5.2: Lnea slida:Fgamma
distribucin
normal estndar. Lneas punteadas largas: = 5.
distributions with = 5 (long dashes), = 10 (short dashes), and = 30 (dots).
Lneas punteadas cortas: = 10. Puntos: = 30.

Let us now consider some applications of the central limit theorem.


EXAMPLE E

Measurement Error
Suppose that X 1 , . . . , X n are repeated, independent measurements of a quantity, ,
and that E(X i ) = and Var(X i ) = 2 . The average of the measurements, X , is
used as an estimate of . The law of large numbers tells us that X converges to


is nclose
if n is large.
Chebyshevs
in probability,
so we canque
hope
Supongamos
X1that
, . . X. , X
sontomediciones
repetitivas
e
Ejemplo Error de medicin.
inequality
allows
us
to
bound
the
probability
of
an
error
of
a
given
but the

 independientes de una cantidad y que E (X ) = y Var (X ) = 2 . size,
Se usa el
i
central limit theorem gives a much sharperi approximation to the
actual error. Suppose
promedio de las
mediciones,
X,
se
usa
como
estimador
de
.
La
ley
de
nmeros
that we wish to find P(|X | < c) for some constant c. To use the central
limit
convergethis
en probability,
probabilidad
a standardize,
, por lo using
que X
grandes nos dice
quetoXapproximate
) = ser
and
theorem
we first
E(Xdebe
2
)
=

/n:
Var(X
cercano a si n es grande.
P(|X | < c) = P(c < X < c)

La desigualdad de Chebyshev permite acotar


determinado
! la probabilidad a un "
c
X
c
tamao, pero el teorema central del lmite
nos
entrega
una
aproximacin
mucho
<
<
=P
/ n
/ n
/ n
ms fina del error real.


Solucin: 

! "
! "
c n
c n
$


Supongamos que deseamos encontrar P |X | < c para alguna constante c arbitraria. Se
tiene que:


P |X | < c = P c < X < c

= P

c
X
c
<
<
/ n
/ n
/ n

49

1X
donde como X =
Xi entonces n X / ( n) N
(0, 1). De esta forma,
n i=1
n


P |X | < c = P

c
X
c
<
<
/ n
/ n
/ n

50

 
 
c n
c n

6.

Distribuciones derivadas de la distribucin normal

En este captulo se estudian tres distribuciones derivadas de la distribucin normal. Estas distribuciones ocurren en diversos problemas estadsticos.

6.1.

Distribucin 2

Definicin: Si Z es una distribucin normal estndar, entonces la distribucin U = Z 2 se denomina


distribucin chi-cuadrado (o 21 ) con un grado de libertad. Tal como vimos en la seccin 2.3, es el
caso especial de la distribucin gamma con parmetros = 1/2 y = 1/2. Entonces,
X N (0, 1) X 2 21
Se sigue entonces que como:
X N ,

(X )2
X
N (0, 1)
21

Definicin: Si U1 , U2 , . . . , Un son variables aleatorias independientes tales que Ui 21 para todo


i = 1, . . . , n. Entonces, V = U1 + + Un se llama la distribucin chicuadrado con n grados de
libertad y se nota como 2n .
Tal como dedujimos en el captulo 4, la suma de variables Gamma con mismo parmetro de escala
distribuye Gamma con el mismo parmetro de escala y la suma de sus parmetros de forma.
Entonces, 2n = ( = 1/2, = n/2) y por lo tanto la funcin de densidad es:
X 2n f (v) =

2n/2

1
v (n/2)1 ev/2
(n/2)

v0

Su funcin generadora de momentos es:


M (t) = (1 2t)n/2
Se sigue asimismo que si U 2n y V 2m entonces U + V 2n+m .

6.2.

Distribucin tstudent

Definicin:
Si Z N (0, 1) y U 2n y Z y U son independientes, entonces la distribucin de
p
Z/ U/n se denomina la distribucin t-student con n grados de libertad. En otras palabras,
Z
p
t (n)
U/n
51

Se puede demostrar con los procedimientos ya demostrados en el captulo 3 que la funcin de


densidad de esta distribucin es:
[(n + 1) /2]
X t (n) f (t) =
n (n/2)


(n+1)/2
t2
1+
n

< t <

Se observa con facilidad que la distribucin es simtrica en torno a cero. Asimismo, se puede notar
que cuando n la distribucin tiende a ser la distribucin normal estndar. En otras palabras,
Z
p
N
(0, 1)
U/n

En efecto, para 20 o 30 grados de libertad las distribuciones ya son muy similares. En la siguiente
figura se muestran algunas distribuciones t, donde puede notarse como las colas de la distribucin
a los extremos tienden a alivianarse (hacerse ms planas e inclinadas a cero) a medida que los
grados de libertad aumentan.
194

Chapter 6

Distributions Derived from the Normal Distribution


.4

Density

.3

.2

.1

0
!3

!2

0
x

!1

F I G U R E 6.1 normal
Three t densities
with Lneas
5 (long dashes),
10 (short
dashes),nand
Figura 6.1: Lnea slida: distribucin
estndar.
punteadas
largas:
=305.(dots)
Lneas
degrees of freedom and the standard normal density (solid line).
punteadas cortas: n = 10. Puntos: n = 30.

DEFINITION
Let U and V be independent chi-square random variables with m and n degrees
of freedom, respectively. The distribution of
U/m
W =
6.3. Distribucin F
V /n
is called the F distribution with m and n degrees of freedom and is denoted by
. 2 de m y n grados de libertad respectivamente. La distribucin

Fm,n
Definicin: Sean U y V variables

de

U/m
P R O P O S I T I O N B V /n
se denomina distribucin F conThe
mdensity
y n grados
libertad
functionde
of W
is given ybyse denota Fm,n .
W =

f (w) =

![(m + n)/2] ! m "m/2 m/21 !


m "(m+n)/2
w
,
1+ w
!(m/2)!(n/2) n
n

52

w0

Proof
W is the ratio of two independent random variables, and its density follows from

La funcin de densidad viene dada por:


W Fm,n

[(m + n) /2]  m m/2 m/21 


m (m+n)/2
f (w) =
w
1+ w
(m/2) (n/2) n
n

w0

Se puede observar que el cuadrado de una variable tn distribuye F1,n . La esperanza existe para
n > 2 y es igual a E (W ) = n/ (n 2).

53

Anexo 1: Distribuciones
Distribuciones
Distribuci
on

Densidad de Probabilidad
n 

Binomial

Par
ametros

x = 0, . . . , n

n, p

x = 1, 2, . . .

x 1
r
xr
p (1 p)
r1

x = r, r + 1, . . .

r, p

X = n p

X = 1/p
2 = (1 p)/p2
X

X = r/p
2 = r (1 p)/p2
X

( t)x e t

Poisson

Esperanza y Varianza

2 = n p (1 p)
X

x1
p (1 p)

Geom
etrica

Binomial-Negativa

x
nx
p (1 p)

x = 0, 1, . . .

X = t
2 = t
X

x 0

X = 1/
2 = 1/ 2
X

x 0

k,

x!

x
e

Exponencial

Gamma

k1

(k)

Gamma Trasladada

(k)

Log-Normal

2 ( x)

B(q, r)

Hipergeom
etrica

(x)
e

k, ,

X = k/ +
2 = k/ 2
X

"

exp

"

exp

!2 #

ln x

< x <

X =
2 = 2
X

!2 #

(b a)

Beta

k1

Uniforme

X = k/
2 = k/ 2
X

(x )

Normal

x
e

x 0

a x b

a, b

1 2
+

 22


2 = 2
X
e

1
X

X = exp

X = (a + b)/2
2 = (b a)2 /12
X

(x a)q1 (b x)r1

 

m
N m
x
nx
 
N
n

q
X = a +
(b a)
q+r
q r (ba)2
2 =
X
(q+r)2 (q+r+1)

a x b

q, r

m
ax{0, n + m N } x m
n{n, m}

N, m, n

(b a)q+r1

2 =
X

X = n m
N



N n n m 1 m
N 1
N
N

Propiedades funci
on ():
(1)

(k) =

uk1 eu du;

(2)

(a + 1) = a (a);

(3)
Propiedades funci
on B(, ):
(1)

si n N0 ;

(4)

(1/2) =

xq1 (1 x)r1 dx;

(2)

B(q, r) =

(q) (r)
(q + r)

(n + 1) = n!,

B(q, r) =

1
0

Propiedad distribuci
on Gamma:
Si T Gamma(k, ) FT (t) = 1

EYP1113 - Probabilidad y Estadstica


Primer Semestre 2011

54

k1
X
x=0

( t)x e t
,
x!

si k N

Profesores: Ricardo Aravena Cuevas


Lorena Correa Arriata
Ricardo Olea Ortega

Anexo 2: Tablas de percentiles y valores

Distribuci
on Normal Est
andar
kp
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0

0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.8413
0.8643
0.8849
0.9032
0.9192
0.9332
0.9452
0.9554
0.9641
0.9713
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9987

0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9649
0.9719
0.9778
0.9826
0.9864
0.9896
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9987

0.02
0.5080
0.5478
0.5871
0.6255
0.6628
0.6985
0.7324
0.7642
0.7939
0.8212
0.8461
0.8686
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9987

0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7357
0.7673
0.7967
0.8238
0.8485
0.8708
0.8907
0.9082
0.9236
0.9370
0.9484
0.9582
0.9664
0.9732
0.9788
0.9834
0.9871
0.9901
0.9925
0.9943
0.9957
0.9968
0.9977
0.9983
0.9988

0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7704
0.7995
0.8264
0.8508
0.8729
0.8925
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.9793
0.9838
0.9875
0.9904
0.9927
0.9945
0.9959
0.9969
0.9977
0.9984
0.9988

0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7422
0.7734
0.8023
0.8289
0.8531
0.8749
0.8944
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.9798
0.9842
0.9878
0.9906
0.9929
0.9946
0.9960
0.9970
0.9978
0.9984
0.9989

kp

Distribuci
on t-student

0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7123
0.7454
0.7764
0.8051
0.8315
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.9803
0.9846
0.9881
0.9909
0.9931
0.9948
0.9961
0.9971
0.9979
0.9985
0.9989

0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7157
0.7486
0.7794
0.8078
0.8340
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9989

0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9990

Distribuci
on Chi-Cuadrado

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

c0.025
0.00
0.05
0.22
0.48
0.83
1.24
1.69
2.18
2.70
3.25
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
10.28
10.98
11.69
12.40
13.12

c0.05
0.00
0.10
0.35
0.71
1.15
1.64
2.17
2.73
3.33
3.94
4.57
5.23
5.89
6.57
7.26
7.96
8.67
9.39
10.12
10.85
11.59
12.34
13.09
13.85
14.61

c0.10
0.02
0.21
0.58
1.06
1.61
2.20
2.83
3.49
4.17
4.87
5.58
6.30
7.04
7.79
8.55
9.31
10.09
10.86
11.65
12.44
13.24
14.04
14.85
15.66
16.47

c0.90
2.71
4.61
6.25
7.78
9.24
10.64
12.02
13.36
14.68
15.99
17.28
18.55
19.81
21.06
22.31
23.54
24.77
25.99
27.20
28.41
29.62
30.81
32.01
33.20
34.38

55
1

c0.95
3.84
5.99
7.81
9.49
11.07
12.59
14.07
15.51
16.92
18.31
19.68
21.03
22.36
23.68
25.00
26.30
27.59
28.87
30.14
31.41
32.67
33.92
35.17
36.42
37.65

0.09
0.5359
0.5753
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
0.8621
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.9990

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

t0.90
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.282

cp ()
c0.975
5.02
7.38
9.35
11.14
12.83
14.45
16.01
17.53
19.02
20.48
21.92
23.34
24.74
26.12
27.49
28.85
30.19
31.53
32.85
34.17
35.48
36.78
38.08
39.36
40.65

c0.99
6.63
9.21
11.34
13.28
15.09
16.81
18.48
20.09
21.67
23.21
24.72
26.22
27.69
29.14
30.58
32.00
33.41
34.81
36.19
37.57
38.93
40.29
41.64
42.98
44.31

c0.995
7.88
10.60
12.84
14.86
16.75
18.55
20.28
21.95
23.59
25.19
26.76
28.30
29.82
31.32
32.80
34.27
35.72
37.16
38.58
40.00
41.40
42.80
44.18
45.56
46.93

t0.95
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.645

t0.975
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
1.960

tp ()
t0.99
31.821
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.326

S-ar putea să vă placă și