Documente Academic
Documente Profesional
Documente Cultură
Pablo A. Ferrari
Fuentes:
Ana Bianco, Elena Martnez (2004), Probabilidades y
Estadstica (Computacion)
Sheldon Ross (1997), A first course in Probability.
Ronald Meester (2003) A Natural introduction to Probability
Theory.
2
Clase 1, 27/01/2014
Experimentos aleatorios y determinsticos
S Espacio muestral
Ejemplos:
Moneda: S = {Cara,Seca} = {1, 0}
Dado: S = {1, 2, 3, 4, 5, 6}
Dos monedas
10 monedas: S = {0, 1} {0, 1} (diez veces)
infinitas monedas: S = todas las sucesiones de 0 y 1.
Dos dados S = {1, 2, 3, 4, 5, 6}2 .
3
Ejemplos:
Cara sola, seca sola
Dos dados: suma par, suma igual a 7, resta menor que 2
10 monedas: por lo menos 5 caras.
lampara dura entre 3 y 5 meses
Operaciones con eventos
interseccion,
uniones e intersecciones numerables,
Union,
complementos.
S es el evento cierto o seguro.
es el evento imposible.
Ocurre A o B.
A B Union:
Ocurre A y B.
A B Interseccion:
Ac Complemento de A. No ocurre A.
4
A B = A B c . Diferencia: Ocurre A y no ocurre B.
Se dice que A esta contenido en B o que A implica B y se
de A conduce a la realizacion
de
denota A B si la realizacion
B, es decir si todo elemento de A pertenece a B.
Dos eventos A y B se dicen mutuamente excluyentes o
disjuntos si A B = .
Propiedades:
Asociatividad: A B C = (A B) C = A (B C)
A B C = (A B) C = A (B C)
Conmutatividad: A B = B A, A B = B A
Distributividad: (A B) C = (A C) (B C)
(A B) C = (A C) (B C)
Leyes de De Morgan:
c
i Ai = i Aci ,
5
i Ai
c
= i Aci
Frecuencia relativa de A:
fr(A) =
nA
n
Propiedades
1) fr(A) esta entre 0 y 1
2) fr(S) = 1
3) Si A B = ,
fr(A B) =
nAB
n
n
= A + B = fr(A) + fr(B).
n
n
n
X
i=1
P(Ai )
7
Ejemplo: Moneda. S = {cara, ceca} = {1, 0}. P({1}) = p y
P({0}) = 1 p, P({0, 1}) = 1, P() = 0, con 0 p 1,
satisface los axiomas.
Propiedades de la Probabilidad:
1) P(Ac ) = 1 P(A) para todo evento A
2) P() = 0
3) Si A B P(A) P(B) y P(B A) = P(B) P(A)
Dem: Si A B B = A (B A) y estos
dos eventos son
excluyentes. Por el axioma A3a P(B) = P(A) + P(B A) Dado
que, por el axioma A1, P(B A) 0 , resulta P(B) P(A) y,
8
Dem: A B = A (B A) = A (B Ac ) y estos dos eventos
son excluyentes, entonces, por el axioma A3a,
P(A B) = P(A (B Ac )) = P(A) + P(B Ac )
(1)
P(i=1 Ai )
P(Ai )
i=1
X
Ei A
P(Ei ) = 1
10
Ejemplos: 1) Dado equilibrado. S = {1, 2, 3, 4, 5, 6} y pi = 1/6
para i = 1, .., 6.
Para calcular P(A) = P( resultado par) = P(E2 E4 E6 ), se
obtiene P(A) = P(E2 ) + P(E4 ) + P(E6 ) = 1/2
2) Dado en el cual la probabilidad de las caras pares es el
doble que la probabilidad de las caras impares:
P(E1) = P(E3) = P(E5) = p, P(E2) = P(E4) = P(E6) = 2p
Como P(S) = 1, 3p + 3 2p = 1, entonces p = 1/9.
3) Arrojamos una moneda equilibrada 10 veces. Cual es la
probabilidad que salgan exactamente 5 caras?
par de lanzamientos?
S = {(1), (0, 1), (0, 0, 1), (0, 0, 0, 1), .....}
11
1
.
2i
X
i1
P(E2i ) =
X
i1
1/22i =
1
1
1
4
1=
1
.
3
12
Supongamos que las bolillas 1 y 2 son blancas y las otras 3
rojas.
es la probabilidad de que se extraiga al menos una
a) Cual
bolilla roja?
es la probabilidad de que la primera bolilla extrada
b) Cual
sea roja y la segunda blanca?
El evento ninguna roja es Ac = {12, 21, 11, 22} tiene 4
elementos. As P(A) = 1 P(Ac ) = 21/25.
b) A tiene 3 2 elementos. As P(A) = 6/25.
Observe que el espacio color de las dos bolas ordenado
{BB, BR, RB, RR} no es equiprobable en este caso.
2) Sucesiones de n 0 y 1. Lanzamiento de n monedas.
Si la moneda es honesta S tiene 2n elementos y todos tienen la
misma proba 1/2n .
13
14
P({ev }) = 0,02, P({en}) = 0,13, P({sv }) = 0,75,
P({sn}) = 0,10
(calculos
hechos con casos favorables sobre posibles)
Cual es la probabilidad que una persona este enferma?
P(E) = P({ev , en}) = 0, 02 + 0, 13 = 0, 15.
Probabilidad que una persona vacunada este enferma?
Casos favorables 2, casos posibles 75 + 2 (los vacunados)
Si sabemos que la persona elegida esta vacunada, cual es la
probabilidad que este enferma?
Hay que restringir el espacio muestral a los vacunados.
P(enfermo dado vacunado) =
2
77
= P(EV )/P(V )
15
P(A|B) = P(AB)/P(B) es la proba condicional de A dado que
conocemos B.
Observaciones
P(AB) = P(A|B)P(B)
(B, P(|B)) nuevo espacio de proba.
Ejemplos
Dados
Un dado. Calcule la probabilidad de ver un 3 dado que el
resultado es a lo sumo 4.
Dos dados. Calcule la probabilidad de que haya salido un seis
dado que la suma es mayor o igual a 9.
Monedas Lanzamos 3 monedas. Calcule la probabilidad que la
tercera moneda sea cara dado que el numero
de caras es 2.
16
S = {vv , vm, mv , mm}, espacio equiprobable.
1) Una familia tiene dos hijos. Sabemos que el primer hijo es
Cual es la probabilidad que el segundo hijo sea tambien
varon.
varon?
1/4
2/4
= 1/2
2) Sabemos que una familia conocida con dos hijos tiene por lo
Cual es la proba que los dos sean
menos un hijo varon.
varones?
Buscamos P(A|C), con A = {vv } (dos hijos varones), y
1/4
3/4
= 1/3.
17
3) Supongamos que visitamos a la familia, tocamos el timbre y
abre la puerta. Cual es la probabilidad que el
un chico varon
P(AC)
P(C)
2/8
4/8
= 1/2.
Calculo
Regla de la multiplicacion
de probabilidades usando
arboles
P(A1 . . . An ) = P(A1 )P(A2 |A1 )P(A3 |A1 A2 ) . . . P(An |A1 . . . An1 )
18
P(A1 A2 ) = P(A1 )P(A2 |A1 ), por definicion.
de oro.
Demuestre que el orden en que se colocan las cartas no
final.
modifica la distribucion
Formula
de la probabilidad total
de S es una familia de conjuntos disjuntos dos a
Una particion
dos Bi tal que
S = i Bi
P
En ese caso P(S) = i P(Bi )
19
20
Ejemplo. Dado. S = {1, 2, 3, 4, 5, 6}.
de S.
B1 = {1, 2}, B2 = {3, 4, 5}, B3 = {6} es una particion
de S
Teorema de la Probabilidad total Sea Bi una particion
tal que P(Bi ) > 0 para todo i. Sea A un evento. Entonces,
X
P(A) =
P(A|Bi )P(Bi ).
i
P(A Bi ) =
P(A|Bi )P(Bi ).
21
B1 = vacunado
Conocemos P(B0 ) = 0, 2, P(B1 ) = 0, 8, P(A|B0 ) = 0, 15,
P(A|B1 ) = 0, 02.
Usando probabilidad total:
P(A) = P(A|B0 )P(B0 ) + P(A|B1 )P(B1 )
= 0,15 0,2 + 0,02 0,8 = 0,19
Formula
de Bayes
de S tal que P(Bi ) > 0 para todo i. Sea A
Sea Bi una particion
un evento. Entonces,
P(Bj |A) =
P(A|Bj )P(Bj )
P(Bj A)
=P
P(A)
i P(A|Bi )P(Bi )
22
Vacunas
Cual es la proba que una persona con gripe haya sido
vacunada?
Queremos calcular P(B1 |A). Se aplica Bayes directo.
P(B1 |A) =
0,8 0,2
P(A|B1 )P(B1 )
=
= ...
P(A)
0,19
11
1
1
1
+1 +0 =
23
3
3
2
23
P(B1 |A) =
1/6
P(A|B1 )P(B1 )
=
= 1/3.
P(A)
1/2
P(B2 |A) =
P(A|B2 )P(B2 )
1/3
=
= 2/3.
P(A)
1/2
24
Ejercicio: Probar que si A B son independientes, entonces A y
lo son.
B c tambien
Familia de eventos independientes
Tres eventos A, B, C son independientes si
P(ABC) = P(A)P(B)P(C), P(AB) = P(A)P(B),
P(AC) = P(A)P(C), P(CB) = P(C)P(B)
Si A, B, C son independientes entonces A es independiente de
cualquier evento formado a partir de B y C.
Por ejemplo: C es independiente de A B:
P(C (A B)) = P(CA) + P(CB) P(CAB)
= P(C)[P(A) + P(B) P(AB)] = P(C)P(A B).
P(Ai )
iK
1
.
2k
25
26
Estamos calculando
P(
n=1 En ) =
P(En ) = ()
n=1
27
As
() =
X
n=1
2
10 n1 4
= .
36
36
5
P(A1 )
P(A1 )
2
=
=
1 P(H1 )
P(A1 ) + P(B1 )
5
28
Eventos independientes dos a dos pero no
independientes.
3 monedas
A1 primera moneda cara.
A2 segunda moneda cara.
A3 las dos monedas son iguales.
Son independientes dos a dos pero no independientes.
Variable aleatoria
X :SR
{X A} = {s S : X (s) A}
Notacion
Variable aleatoria discreta asume numerables valores todos
con proba positiva.
en S: ({s S : X (s) = x}, x R(X )}
Induce una particion
29
R(X ) = Rango de X = {x R : P(X = x) > 0}.
de probabilidad puntual pX (x) = P(X = x) (o
Funcion
distribucion)
Es una tabla.
Ejemplo Dos monedas, S = {00, 01, 10, 11}. X = numero
de
Ejemplo Geometrica.
1
4
1
2
1
4
30
Ejemplo Se elige un punto al azar sobre un tablero circular de
radio siete. Considere la variable aleatoria X que a cada punto
(x, y ) le asigna su distancia al centro del tablero. Tenemos
entonces que X toma todos los valores comprendidos en el
intervalo [0; 7].
x 7 P(X = x).
Diagrama de barras: grafico
de la funcion
cuyo area
es igual a P(X = x).
de distribucion
acumulada
Funcion
Def. FX (x) := P(X x)
de distribucion
acumulada: F = FX
Propiedades de la funcion
i) para todo x R, F (x) [0, 1]
ii) F es monotona
no decreciente: x y implica F (x) F (y)
iii) F es continua a derecha, es decir lmh0+ F (x + h) = F (x)
31
iv) lmx F (x) = 1 y lmx F (x) = 0
v) Altura del salto = probabilidad puntual: p(x) = F (x) F (x)
donde F (x) = lmh0 F (x h)
acumulada de X caracteriza la funcion
de
Uso La distribucion
probabilidad puntual. de X
P(a < X b) = F (b) F (a)
P(a X b) = F (b) F (a)
P(a X < b) = F (b) F (a)
P(a < X < b) = F (b) F (a)
geometrica
Ejemplo. Distribucion
de parametro
p
p (0, 1). Defino X con proba puntual
pX (k) = P(X = k) = (1 p)k1 p. Verifique que la suma es 1.
32
Exito con proba p, fracaso con proba 1 p.
Numero
de experimentos hasta el primer exito.
|x|P(X = x) < )
33
2) numero
de caras en 2 monedas. EX = 1.
6 1
.
2 x 2
Interpretaciones
Centro de gravedad.
Ley de grandes numeros.
1
,
107
P({0}) = 1
1
107
34
1: comprar el billete; lucro X (1) = 106 1, X (0) = 1
Opcion
EX =
1
1
(106 1) + (1 7 )(1) = 0,9
7
10
10
No podes
Mintiendo con estadstica
Un colegio tiene 3 aulas, con 5, 10 y 150 alumnos,
respectivamente.
X = numero
de alumnos de un aula elegida al azar
35
1
1
165
1
5 + 10 + 150 =
= 55
3
3
3
3
Numero
promedio de estudiantes por aula es 55.
es su aula.
Ahora elija un estudiante y vea de que tamano
S = {1, 2, . . . , 165},
equiprobable
si k 5
5,
10,
si 11 k 20
Y (k ) =
150, si 21 k 165
P(Y = 5) =
5
165 ,
P(Y = 10) =
EY =
10
165 ,
P(Y = 150) =
150
165 .
5
10
150
5+
10 +
165 = 137
165
165
165
Esperanza de la geometrica(p):
P(X = k) = (1 p)k1 p,
k = 1, 2, . . .
X
0
X
X
EX =
k (1 p)k1 p = p
((1 p)k )0 = p
(1 p)k
k1
= p
k1
k1
0
1
1 1
1
1 = p
1 = p 2 =
1 (1 p)
p
p
p
Para la geometrica
EX =
X
x0
P(X > x) =
X
(1 p)k =
x0
1
1
=
1 (1 p)
p
37
Prueba de
EX =
P(X > x)
x0
X X
P(X = y) =
x0 yx+1
P(X = y ) =
y1 0xy1
yP(X = y) = EX
y1
P(X = x).
x:g(x)=y
Entonces
EY =
X
y
yP(Y = y) =
X
x:g(x)=y
P(X = x)
x:g(x)=y
yP(X = x) =
=
x:g(x)=y
g(x)P(X = x)
g(x)P(X = x)
Propiedades de la esperanza
1) (Linealidad) Si a y b son constantes reales,
E(aX + b) = aE(X ) + b .
Dem: Sea h(X ) = aX + b, entonces
X
X
E(h(X )) =
h(x)P(X = x) =
(ax + b)P(X = x)
x
axP(X = x) + b
P(X = x) = aEX + b
38
39
Viaje 400km a velocidad aleatoria (bici o auto)
V velocidad P(V = 20) = 12 ; P(V = 100) =
Velocidad promedio: EV =
1
2
1
1
20 + 100 = 60
2
2
1 400 1 400
+
= 12
2 20
2 100
400
distancia
=
60
EV
40
Esperanza condicional
de probabilidad condicional
Definicion
P(A|B) =
P(A B)
P(B)
P({X = k } {X R})
P(X = k )
=
P(X R)
P(X R)
si x R.
Hay una variable aleatoria Y que tiene esas probabilidades:
P(Y = k) = P(X = k|X R)
1/8
1/8
+7
=6
1/4
1/4
Mostrar en un grafico
que lo que hacemos es tomar parte del
histograma multiplicando las probabilidades remanentes por
una constante para que quede una proba.
La geometrica
no tiene memoria X geometrica(p). Entonces
P(X = k + i|X > k) =
Vimos que EX = p1 .
p(1 p)k+i1
= p(1 p)i1 = P(X = i)
(1 p)k
41
42
X
(k + i)P(X = k + i|X > k)
j=k+1
i=1
(k+i)p(1p)
i=1
i1
=k
p(1p)
i=1
i1
X
+
ip(1p)i1 = k+EX
i=1
Lema EX =
Dem EX =
XX
i
kP(X = k) =
geometrica
usando esperanza total. Si condicionamos al
resultado del primer ensayo:
EX = E(X |X = 1)P(X = 1) + E(X |X > 1)P(X > 1)
Claramente, E(X |X = 1) = 1 y por lo que calculamos arriba,
E(X |X > 1) = EX + 1. Como E(X = 1) = p,
EX = 1p+(EX +1)(1p) = p+EX pEX +1p = EX = 1/p
Varianza de una v.a. discreta:
Consideremos las siguientes distribuciones:
43
44
x
P(X=x)
-1
1/3
0
1/3
1
1/3
x
P(Y=y)
-10
1/3
0
1/3
10
1/3
-100
1/3
0
1/3
100
1/3
z
P(Z=z)
Vea que EX = EY = EZ = 0.
dispersos alrededor de la
Sin embargo sus histogramas estan
media de forma diferente.
Def. La varianza de una v.a. X es definida por
X
VX = E(X EX )2 =
(x EX )2 P(X = x) = 2
x
El desvo standard :=
45
VX
Formula
alternativa
VX = E(X 2 ) (EX )2
Dem:
46
De donde
m=
xp(x) = EX
VY =
VZ =
2) X = numero
de caras pares de dos dados equilibrados
x
P(X=x)
0
1/4
1
1/2
3) Bernoulli.
4) Geometrica.
EX 2 (EX )2 =
Propiedades de la Varianza
1p
p2
2
1/4
47
V (aX + b) = a2 VX
usar formula del estadistico inconciente
Desvio standard
DX =
VX
D(aX + b) = |a| DX
Si X es constante, entonces VX = 0.
Bernoulli y binomial Jacob Bernoulli
Distribucion
de
(1654-1705), matematico
suizo. Demuestra la ley debil
grandes numeros
para variables Bernoulli.
P(X = 0) = 1 p
X Bernoulli(p).
EX = p, VX = p(1 p)
En un casino se juega al rojo representado por 1 o negro
representado por 0. Cual es la probabilidad de ganar
apostando al rojo en una ruleta con cero? p = 18/37.
Binomial:
Distribucion
El Experimento binomial consiste de n ensayos de Bernoulli.
Exito
(1) y Fracaso (0).
Pruebas independientes.
La probabilidad de Exito
en cada prueba es constante igual a p.
Espacio muestral = {vectores de n 0s y 1s}. Un estado tpico
a = (a1 , . . . , an ), ai {0, 1}.
P({a}) = P({(a1 , . . . , an )}) = p(#1 en a) (1 p)(#0 en a)
48
49
Sn (a) = a1 + + an numero
de exitos
en n ensayos.
n k
P(Sn = k) =
p (1 p)nk ,
k
k = 0, . . . , n
X
P(Sn = k) =
P({(a1 , . . . , an )})
a:Sn (a)=k
a:Sn (a)=k
n
=
kpk (1 p)nk
k
porque kn es el numero
de subconjuntos distintos de k objetos
pk (1 p)nk = (p + (1 p))n = 1.
k=0
50
51
de 2 motores a
Para cuales valores de p es preferible un avion
uno de 4 motores?
5) Es el que sigue un experimento Binomial? 2 bolillas sin
Calculo
de la esperanza de la Binomial:
ES =
n
X
n
k=0
kpk (1p)nk = np
n
X
n 1 k1
p
(1p)nk = np
k 1
k=1
52
Veamos:
E(S(S 1)) =
n
X
n
k=0
n
X
k=2
= n(n1)p2
n
X
k=0
= n(n 1)p2
n!
k(k 1)pk (1 p)nk
k !(n k)!
(n 2)!
pk2 (1p)(n2)(k2)
(k 2)!((n 2) (k 2))!
n2
X
k=0
(n 2)!
pk (1 p)n2k = n(n 1)p2
k !((n 2) k )!
De donde
VS = n2 p2 np2 + np n2 p2 = np(1 p)
53
Clase 6, 04/02
Poisson de la binomial
Aproximacion
Sn Binomial(n, p(n))
p(n) = /n, parametro.
Lemma Vale
lm P(Sn = k ) =
e k
k!
Dem:
k nk
n
n!
P(Sn = k ) =
p(n)k (1p(n))nk =
1
k
k!(n k )! n
n
=
Pero
k
n
k
n!
1
1
k!
n (n k)! nk
n
n
lm 1
= e
n
n
n(n 1) . . . (n k + 1)
n!
= lm
=1
n
n (n k)! nk
nk
k
lm 1
=1
n
n
Lo que prueba el Lema.
lm
e k
,
k!
k 0
ex = 1 + x +
X xi
x2
+ =
2!
i!
i=0
54
k0 P(X
= k ) = 1.
Calculo
de EX , VX .
En otras palabras, cuando n es grande y p es chico la
binomial (n, p) aproxima la Poisson() con = np.
distribucion
Ejemplos 1. Numero
de errores por pagina
de un libro 2.
Numero
de personas de una comunidad que llega a los 100
anos.
3. Numero
de llamadas equivocadas que recibo en mi
telefono.
4. Numero
de personas que van a un banco de 12 a
12:30
Ejemplo: si el numero
de errores por pagina
de un libro es
una pagina
tenga por lo menos dos errores?
55
Calculo
de la esperanza y varianza de la Poisson ().
EX = . VX =
de Poisson tambien
funciona para aproximar el
La distribucion
numero
de exitos
en ensayos no independientes.
La proba de exito
en cada ensayo es 1/n, as que el numero
medio de exitos
es n 1/n = 1. Se puede probar (ejercicio) que
de Xn aproxima Poisson(1).
la distribucion
Binomial negativa o Pascal: Dos parametros, k y p
t 1 k
P(Yk = t) =
p (1 p)tk
k 1
56
Yk numero
de ensayos Bernoulli hasta el k -esimo
exito.
EYk =
k
,
p
VYk =
k (1 p)
p2
exito,
cual es la probabilidad que ocurran por lo menos r exitos
antes de la mesima
falla?
r exitos
ocurren antes de la mesima
falla si el r esimo
exito
ocurre antes del (r + m 1) ensayo.
Por lo tanto la probabilidad que buscamos es
n+m1
X
n=r
n1 n
p (1 p)nr
r 1
57
58
and 1 in his right-hand pocket. Each time he needs a match, he
is equally likely to take it from either pocket. Consider the
moment when the mathematician first discovers that one of his
matchboxes is empty. If it is assumed that both matchboxes
initially contained N matches, what is the probability that there
are exactly k matches, k = 0, 1, . . . , N, in the other box?
Solution. Let E denote the event that the mathematician first
discovers that the righthand matchbox is empty and that there
are k matches in the left-hand box at the time. Now, this event
will occur if and only if the (N + 1)th choice of the right-hand
matchbox is made at the (N + 1 + N k)th trial. Hence,
p = 1/2 and , r = N + 1, and n = 2N k + 1), we see that
2N k 1 2Nk +1
P(E) =
2
N
59
En un espacio muestral S con una proba P se pueden definir
diferentes variables aleatorias. Sea p(s) = {P({s}) la
probabilidad de los eventos elementales de S.
Lema
EX =
X (s)p(s)
sS
xP(X = x) = . . .
X
(X (s) + Y (s))p(s)
s
60
=
X (s)p(s) +
Y (s)p(s) = EX + EY
X
x
X
s:X (s)=x
g(x)p(s) =
X
x
g(x)
s:X (s)=x
X
s:X (s)=x
p(s) =
X
x
g(x)P(X = x).
61
Clase 7, 06/02 Variables aleatorias continuas
de una batera en unidades 1/n.
Ejemplo: Xn : duracion
Xn Uniforme en { n1 , n2 , . . . , nn }.
Cuando n es grande Xn aproxima una variable aleatoria X
esencialmente continua (tiempo), X [0, 1].
1
n b a
n
Una v.a. X es continua si existe una funcion
Definicion:
de densidad de X tal que
f : R R+ = [0, ) llamada funcion
Z
P(X A) =
f (x)dx,
AR
A
f (x)dx
a
62
63
Ejemplo: f (x) = ax 2 1{x [1, 3]}.
R
3 2 1
3
= 26
Calcular a =
x
.
1
Calcular P(X 2) =
19
26
de distribucion
acumulada
Funcion
Z x
F (x) = P(X x) =
f (x)dx
Calcular la F de la variable X
de distribucion
acumulada:
Propiedades de la funcion
X v.a. continua,
i) para todo x R, F (x) [0, 1].
64
iv) lmx F (x) = 0,
lmx F (x) = 1
65
1
1{x [A, B]}
BA
X U(A, B).
Notacion:
acumulada esta dada por:
Distribucion
F (x) =
x A
1{x [A, B]} + 1{x B}
BA
66
continua: Sea X una v.a.
Percentiles de una distribucion
continua con f (x) y F (x) y sea 0 < p < 1. El percentil (100
xp
f (x) = p
19 2
26 x 1{x
[1, 3]}
x3 1
1{x [1, 3]} + 1{x 3}
26
x3 1
= 0, 25
26
x0,25 = 1, 96
67
x A
1{x [A, B]} + 1{x B}
BA
Buscamos el percentil p = 0, 5:
0, 5 = F (x0,5 )
0, 5 =
x0,5 A
BA
x0,5 =
A+B
2
Mediana: Es el percentil p = 0, 5.
Esperanza o valor esperado de una v.a. continua:
Sea X con densidad f (x), la esperanza o valor
Definicion:
esperado de X se define como
Z
EX =
xf (x)dx = X
si
|x|f (x)dx
68
Ejemplo: Sea X Uniforme(A,B),
EX =
A+B
2
k nk
k + 1o
1
X <
,
n n
n
k {0, . . . , nK 1}
69
nK
1
X
k=0
nK
1
X
k=0
nK
1
X
k
k
k + 1
k k
P Xn =
P
X <
=
n
n
n
n
n
k=0
k
n
k +1
n
f (x)dx =
k
n
nK
1 Z
X
k=0
k +1
n
k
n
hn (x)f (x)dx
hn (x)f (x)dx
=
0
Ahora calculemos
Z
Z
|EXn xf (x)dx|
0
1
|hn (x) x|f (x)dx
n
f (x)dx =
0
1
n
70
Linealidad:
Si a y b son constantes reales,
E(aX + b) = aE(X ) + b.
Dem: Sea h(X ) = aX + b,
Z
Z
E(h(X )) =
h(x)f (x)dx =
=a
xf (x)dx + b
f (x)dx = aE(X ) + b.
h(X ) = max(X
, 1 X ) = X 1{X > 1/2} + (1 X )1{X 1/2}
y su esperanza es
Eh(X ) = E(X 1{X > 1/2}) + E((1 X )1{X 1/2})
Z
1/2
(1 x)dx = 3/4
xdx +
=
1/2
Formula
para la esperanza de variables positivas
Lema.
Si X 0 es continua con densidad f y acumulada F y
R
0 xf (x)dx < , entonces
Z
EX =
(1 F (x))dx
0
71
72
Dem. Partes: u = x, du = dx, v = (1 F (x)), dv = f (x)dx.
Z
Z
EX =
xf (x)dx = [x(1 F (x))]0 +
(1 F (x))dx
0
73
VX = E(X EX )2 =
(x )2 f (x)dx
Desvo standard: = + VX
Lema. Vale: V (X ) = E(X 2 ) (E(X ))2 .
Ejemplos: Sea X Uniforme(A,B), EX = (A + B)/2
VX = E(X 2 ) (E(X ))2 ==
(B A)2
12
Linealidad:
V (aX + b) = a2 VX ,
aX +b = |a|X
74
Normal
Normal: Se dice que X tiene distribucion
Distribucion
2
de densidad es
de parametros
y si su funcion
f (x) =
(x )2
exp
2 2
2
1
X N(, 2 ). El grafico
Notacion:
tiene forma de campana con
en x =
eje de simetra en x = y puntos de inflexion
Es simetrica en relacion a : f ( + x) = f ( x)
Alcanza el maximo en x =
normal standard
Distribucion
Def: Z N(0, 1) si = 0 y 2 = 1.
x2
1
f (x) = exp
2
2
75
es 2.33
Tabulada: Z N(0, 1), el percentil 99 de la distribucion
Propiedades:
Si X N(, 2 ) entonces Z =
N(0, 1)
Prueba:
FZ (z) = P(Z z) = P(X z + ) = FX (z + )
d
d
FZ (z) =
FX (z + ) = fX (z + )
dz
dz
(z + )2
z2
1
1
=
exp
=
exp
2
2 2
2
2
fZ (z) =
76
1
EZ =
2
zez
2 /2
dz = 0
1
VZ = EZ =
x f (x)dx =
2
x2
x 2 exp
=1
2
Calculo
de probabilidades para la Normal
Para la Normal standard, por simetra:
P(Z < x) = P(Z > x)
Defina (z) = P(Z z) la acumulada de la Normal standard.
Esta tabulada.
a
a
=P Z
=
P(X a) = P
Clase 8, 7 de febrero
Ejemplos
1. X N(3, 9). Calcular P(2 < X < 5), P(X > 0) y
P(|X 3| > 6)
1
2
P(2 < X < 5) = = ( ) 1 ( ) 0, 3779
3
3
77
78
79
el juez declara que el acusado no es el
esta declaracion,
padre. Cual es la probabilidad que el juez se haya equivocado?
Es decir, cual es la probabilidad que si el acusado fue el
Variable exponencial Decimos que X tiene distribucion
exponencial de parametro
si su densidad es
f (x) = ex 1{x 0}
F (x) = (1 ex )1{x 0}
Calculemos EX y VX
Z
n
EX n =
x n ex dx = = EX n1
0
Con n = 1 obtenemos
EX =
1
,
EX 2 =
de donde
VX =
1
2
1
22
EX =
80
81
La exponencial no tiene memoria:
P(X > t + s|X > t) = P(X > s).
Ejemplo: Supongamos que el tiempo de respuesta de una
Sea Yn Geometrica(/n).
82
Entonces
1
ex (x)1 1{x 0}
()
ey y 1 dy
83
por lo que para entero no negativo () = ( 1)!.
Cuando = n es entero, X es el tiempo necesario para que
haya n eventos, cuando el tiempo entre dos eventos es
84
es estrictamente creciente en el intervalo
pero como la funcion
(a, b), podemos invertirla:
= P(X g 1 (y)) = FX (g 1 (y ))
Para obtener fY derivamos FY y obtenemos
1 0
1
fY (y) = fX (g (y)) g (y ) .
Ejemplo X Uniforme [0, 1] y Y = X 2 . Entonces
fY (y ) = fX ( y ) 21 y 1/2 .
g no es inversible,
Muchas veces, pese a que la funcion
de densidad de Y = g(X ). A modo
podemos calcular la funcion
de ejemplo,
Consideremos X Uniforme [3, 3] y Y = X 2 . Calcule FY , la
de distribucion
acumulada de Y y la densidad de Y .
funcion
85
Como X [3, 3], Y [0, 9].
FY (y ) = P(Y y) = P(g(X ) y) = P(X 2 y )
= P( y X y)
y [0, 9]
FY (y ) = 2FX ( y )
86
De donde
fY (y) = fX ( y )/ y
Clase 9 10/02
Vectores aleatorios
Ejemplo Lanzamiento de una moneda dos veces. El resultado
es un vector (X , Y )
Dos tipos de estudiante: el que la tira dos veces: resultados
posibles (0, 0), (0, 1), (1, 0), (1, 1) con proba 1/4 cada uno.
El fiaca tira una vez y repite el resultado: (0, 0), (1, 1),
Cada coordenada tiene la misma proba:
P(X = 0) = P(Y = 0) = 1/2
X o Y no podemos diferenciar entre los dos.
Mirando solo
Hay que mirar el resultado de todo el vector (X , Y )
(X1 , . . . , Xn ) : S Rn .
Def. Un vector aleatorio es una funcion
de probabilidad conjunta
Funcion
p(x, y ) = P(X = x, Y = y)
El rango del vector RX ,Y = RX RY
P((X , Y ) A) =
p(x, y )
(x,y)A
87
88
P(Y = y) =
P(X = x, Y = y),
marginal de Y
0
1
Y
0
0.4
0.1
0.5
1
0.2
0.3
0.5
X
0.6
0.4
1
89
Independencia Dado un vector (X , Y ) decimos que las
variables X e Y son independientes si
P(X = x, Y = y) = P(X = x)P(Y = y )
para todo x, y . Esto implica que
P(X A, Y B) = P(X A)P(Y B),
para todo A, B R.
90
Lema. Si existen f y g tales que
P(X = x, Y = y ) = Cf (x)g(y ),
para todo x, y
X
x
f (x)
g(y)
1
g(y)
P(X = y) = Cg(y)
X
x
f (x),
91
sumando sobre x. As:
P(X = x)P(Y = y) = Cf (x)
g(y)Cg(y)
f (x) = Cf (x)g(y )
conjunta de un vector (X , Y )
Ejemplo La distribucion
esta dada por
k ` e
p(k, `) =
k !`!
k , ` = 0, 1, 2, . . . ; , > 0.
Claramente p(k, `) = g(k)f (`), por lo tanto son independientes.
La marginal de X es
P(X = k) =
X k ` e
`0
k !`!
k e X ` e
k e
=
k!
`!
k!
`0
92
conjunta
Ejemplo (X , Y ) tiene distribucion
p(k, n) = C
2k
,
n
k = 1, 2, . . . ; n = 1, . . . , k
C constante apropiada.
Como p(k, n) = C2k n1 , parecera que p(k, n) puede
factorizarse; esto implicara que X , Y seran independientes.
Pero no. Hay dependencia entre X e Y porque
p(k , n) = C
2k
1{n k}
n
P(X = 1, Y = 2) = 0.
93
P(X = x, Y = y)
P(Y = y )
Esperanza condicional
E(X |Y = y ) =
X P(X = x, Y = y)
x
P(Y = y)
x
X
y
E(X |Y = y )P(Y = y )
94
Ejemplo Gallina produce N huevos Poisson . Cada huevo
produce un pollo con proba p independiente de los otros. Sea
K el numero
de pollos.
X
n
E(K |N = n) = np
X
E(K |N = n)P(N = n) =
npP(N = n) = pEN = p
n
95
96
1
1
1 1
1
(1 eb ) + ea = + (ea eb ) >
2
2
2 2
2
97
Vectores aleatorios continuos
Def. Un vector aleatorio X = (X1 , ..., Xd ) es continuo con
densidad conjunta g si
Z
b1
P(ai Xi bi , i = 1, . . . , d) =
bd
...
a1
ad
As, para A Rn :
Z
P((X1 , . . . , Xd ) A) =
98
acumulada de un vector continuo se define para
La distribucion
x = (x1 , . . . , xd ) como
F (x) = F (x1 , . . . , xd ) = P(X1 x1 , . . . , Xd xd )
Z
x1
xd
...
F (x, y)
.
xy
99
y a lo fsico:
Z
x+dx
y+dy
f (z, w)dz dw
x
f (x, y)dxdy
Distribuciones marginales Sea X = (X1 , . . . , Xd ) un vector
continuo con densidad fX . Entonces cada Xi es una variable
continua con densidad
Z
fX (x1 , . . . , xd )dx1 . . . dxi1 dxi+1 . . . dxd
fXi (xi ) =
Rd1
100
Ejemplo Sea (X , Y ) vector con densidad conjunta
f (x, y ) =
1 y yx
e
y
x, y > 0
Z y
f (z, w)dzdw = =
0
Z a
P(X < a) =
0
f (z, w)dzdw = = 1 ea .
1
3
1
1{0 < y x 1}
x
La marginal de X :
Z
fX (x) =
0
101
102
Lema las variables continuas X e Y con densidad fX , fY ,
si
respectivamente son independientes si y solo
fX (x)fY (y ) = f (x, y ), para todo x, y
Dem: Ejercicio.
Ejemplo X Y con densidad conjunta f (x, y) = exy , x, y > 0.
Entonces f (x, y ) se factoriza como f (x, y) = ex ey y son
independientes.
Def Una familia (Xi : i J) de vectores aleatorios es
independiente (mutuamente independientes) si para todo
subconjunto finito de ndices K J,
Y
P(Xi ai , i K ) =
P(Xi ai ), ai R
iK
Ejemplos
103
1. Encuentros casuales. Dos personas deciden encontrarse
un da entre las 5 y las 6. Cada uno llega en instantes
independientes distribuidos uniformemente en ese intervalo y
espera 15 minutos. Cual es la probabilidad que se encuentren?
Definiendo
A := {(x, y) [0, 60]2 : |x y | 15}
queremos calcular P((X , Y ) A), con (X , Y ) uniforme en
[0, 60]2 :
1
f (x, y ) = 2 1{(x, y ) [0, 60]2 }
60
P((X , Y ) A) =
area(Ac )
452
7
area(A)
=
1
=
1
=
9
602
602
602
104
105
piso y se considera el evento A = la aguja interseca una de las
lineas. El evento complementario es Ac = la aguja
esta totalmente dentro de una de las tablas.
Veremos que la probabilidad de A depende del numero
. Las
= angulo
entre la recta que contiene la aguja y la recta
perpendicular a las tablas que contiene el centro de la aguja.
X Uniforme[0, D/2]. fX (x) =
2
D 1{x
[0, d/2]}.
L
cos ,
2
106
que equivale a
o
n
h Di h i
L
(X , ) (x, y) 0,
0,
: x < cos y
2
2
2
n
o
L
= (x, y ) : 0 < y < , 0 < x < cos y
2
2
Entonces
L
P(A) = P X < cos =
2
4
D
Z
0
/2 Z
L
2
cos y
dxdy =
4
D
cos y
fX (x)f (y)dxdy
L
2
/2 Z
2L
P(A)D
/2
L
2L
cos y dy =
2
D
107
Llamemos p = P(A). Repitiendo el experimento muchas veces
de exitos,
muestral p
y tomando la proporcion
se estima por
condicional de variables continuas
= p2LD . Distribucion
(X , Y ) vector aleat con densidad f .
Queremos definir P(Y y|X = x)
Si X es continua, P(X = x) = 0. Procedimiento lmite:
? = P(Y y|x X x + h) =
P(Y y , x X x + h)
P(x X x + h)
Ry
=
R x+h
f (u, v )dudv
x
R x+h
fX (v )dv
x
108
EY =
Ejemplos
1. (X , Y ) tienen densidad conjunta f (x, y) = ey , 0 < x < y
109
marginal de Y .
(a) Calcule la distribucion
(b) Pruebe que fX |Y =y (x) = 1/y, para 0 < x < y.
(c) Calcule E(X |Y = y ) y use el resultado para calcular E(X ).
2. f (x, y) = 2(x + 2y )IT (x, y ) con
T = {0 x 1, 0 y 1 x}
Calcular las marginales de X e Y .
fX (x) = 2(1 x)I[0,1] (x)
fY (y ) = (1 + 2y 3y 2 )I[0,1] (y)
Calcular P(X 1/2|Y 1/4) = 8/19
R 1/2
P(X 1/2|Y = 1/4) = 0 ff(x,1/4)
(1/4) dx
Y
110
de proba condicional:
En funcion
fX (x) = fX |Y =y (x)
Dem: Por la def de la densidad condicional,
f (x, y ) = fY (y )fX |Y =y (x).
Por lo tanto las variables son independientes si y solo si
fX (x) = fX |Y =y (x)
Z
f (x, y )dxdy 6=
Z
fX (x)dx
fY (y)dy
c
111
se cumplira en un entorno
Por continuidad, la condicion
rectangular del punto.
Clase 10, 11 de febrero 2014
de numeros
Generacion
aleatorios
Cual es la probabilidad de ganar al solitario?
52 cartas. Hay 52! juegos posibles de solitario. Supongamos
que tenemos una estrategia fija. Es decir, dada una de las
X {0, 1} donde X es 0 si la
permutaciones, hay una funcion
112
#juegos ganados
n
n converge a p en algun
Despues veremos que p
sentido.
de simular variables aleatorias.
Esto motiva el interes
de numeros
Generacion
seudo-aleatorios
Metodo
de la congruencia Dados m, a, c y X0 ,
m,
Xn+1 = (aXn + c) mod
n0
m es el modulo
m>0
113
a es el multiplicador 0 a < m
c es el incremento 0 c < m
X0 es la semilla o valor inicial
Metodo
multiplicativo secuencial: c = 0
Knuth: m = 264 , a = 6364136223846793005,
c = 1442695040888963407
Ver wikipedia: Linear congruential generator
Generadores de numeros
aleatorios verdaderos
generadores de numeros
verdaderamente aleatorios.
114
connected to a computer, but typically people use a physical
phenomenon that is easier to connect to a computer than a die
is. A suitable physical phenomenon is atmospheric noise, which
is quite easy to pick up with a normal radio. This is the
approach used by RANDOM.ORG.
The process of generating true random numbers involves
identifying little, unpredictable changes in the data. For
example, HotBits uses little variations in the delay between
occurrences of radioactive decay, and RANDOM.ORG uses
little variations in the amplitude of atmospheric noise.
The characteristics of TRNGs are quite different from PRNGs.
First, TRNGs are generally rather inefficient compared to
PRNGs, taking considerably longer time to produce numbers.
They are also nondeterministic, meaning that a given sequence
of numbers cannot be reproduced, although the same
sequence may of course occur several times by chance.
TRNGs have no period.
115
aleatoria n 2 numeros.
Generacion de una permutacion
k = n, X (i) = i, i = 1, . . . , n
0. Inicializacion:
1. Genere una uniforme Vk en {1, . . . , k }
2. Intercambie los valores de X (Vk ) y X (k).
3. Ponga k k 1.
4. Si k = 1 imprima X (1), . . . , X (n). Si no, vuelva a 1.
Ejemplo: suponga que n = 5 y que V (5) = 4, V (4) = 2,
V (3) = 1, V (2) = 1. Entonces tendremos
12345, 12354, 15324, 35124, 53124
uniforme de 1, . . . , n.
Dem. Cada numero
tiene probabilidad
...
induccion
1
n
de ser el ultimo
y por
k 1
k
1
U< )=
n
n
n
116
117
del
Sea U uniforme en [0, 1]. Sea (J(x) : x RX ) una particion
intervalo [0, 1]. Defina
si U J(x)
X =x
Equivalentemente:
X =
x1{U J(x)}
118
Lo que implica
P(X = x) = P(U J(x)) = |J(x)| = F (x) F (x) = p(x)
Ejemplo. Simule la variable con distribucion
z
P(Z=z)
1
1/2
3
1/4
9
1/4
Acoplamiento
En este contexto un acoplamiento de dos variables aleatorias
de ambas en funcion
de un mismo
X e Y es la simulacion
numero
aleatorio.
parametro
p` . Una manera es hacer lo siguiente:
Y` = F`1 (U) = 1{U > 1 p` }
119
correcta:
Las variables generadas tienen la distribucion
P(Y` = 1) = P(U > 1 p` ) = p` .
y satisfacen la siguiente propiedad de monotona:
Si p1 p2 entonces Y1 Y2 .
En general, si 1 F1 (y ) 1 F2 (y ) para todo y y
Y` := F 1 (U) entonces
Y1 Y2 .
de orden entre variables aleatorias.
Lo que nos da una nocion
Ejemplo. Sucesiones de Bernoulli Construya un programa
de variables Bernoulli de tamano
120
Obs: la F es monotona.
Como no es estrictamente creciente,
necesitamos la definicion de inversa generalizada.
Dem.
P(Y < a) = P(F 1 (U) < a) = P(U < F (a)) = F (a)
de una exponencial
Generacion
121
F (x) = 1 ex , x 0
F 1 (u) =
log(1 u)
log(1 U)
log(U)
exponencial.
tambien tiene distribucion
El metodo
del rechazo
Queremos generar una variable con densidad f .
para todo x
x 0
122
123
Considere g(x) = ex , x 0. Cuenta:
r
f (x)
2e
g(x)
q
de donde c = 2e
y
(x 1)2
f (x)
= exp
cg(x)
2
El algoritmo queda:
1. Genere Y exponencial de parametro 1, U uniforme en [0, 1]
2. Si
(Y 1)2
2
ponga X = Y . Si no, vaya a (1).
U exp
(Y 1)2
2
que es equivalente a
log U
(Y 1)2
2
(Y1 1)2
2
124
125
Eh(X , Y ) =
XX
x
caso discreto
Z Z
Eh(X , Y ) =
caso continuo
126
127
Sean X e Y dos v.a. con
Covarianza y correlacion
esperanzas EX y EY respectivamente, la covarianza entre X e
Y se define como
E(X EX )(Y EY ) = caso continuo y discreto
Cov(X , X ) = V (X ) .
Observacion:
positiva, en el
Idea intuitiva: Si X e Y tienen una fuerte relacion
sentido que valores grandes de X aparecen asociados con
de X aparecen
valores grandes de Y y valores pequenos
de Y, entonces los productos
asociados con valores pequenos
positivos y por lo tanto la covarianza sera positiva.
seran
negativa, en
Por otra parte, si X e Y tienen una fuerte relacion
el sentido que valores grandes de X aparecen asociados con
de Y y valores pequenos
de X aparecen
valores pequenos
asociados con valores grandes de Y , entonces la mayora de
128
negativos y por lo tanto la covarianza
los productos seran
sera negativa.
Propo Cov(X , Y ) = E(XY ) EX EY .
Probarlo para discreto. Continuo igual.
Ejemplo discreto:
0
1
Y
0
0.4
0.1
0.5
1
0.1
0.2
0.3
2
0.1
0.1
0.2
X
0.6
0.4
1
129
Dem Como las variables son independientes las funciones de
probabilidad en el caso discreto y las densidades en el caso
continuo factorizan. Por ejemplo en el caso continuo.
Z
Z
Z
EXY =
xyfX (x)fY (y)dxdy =
xfX (x)dx
yfY (y )dy
R2
130
garantiza que E(XY ) = 0 y EX = EY = 0 pero que no sea el
producto de dos funciones.
Verifique que por ejemplo f (x, y ) uniforme en una bola
centrada en 0 satisface.
Sean X e Y dos v.a. con
Coeficiente de correlacion
esperanzas EX y EY respectivamente y varianza positiva, el
entre X e Y se define como
coeficiente de correlacion
(X , Y ) =
Cov(X , Y )
X Y
131
2. 1 (x, y) 1
3. |(X , Y )| = 1 sii Y es funcion lineal de X .
Dem: 1. Cuentas.
2. Asumamos EX = EY = 0.
Defina g(t) = E(X tY )2
Claramente g(t) 0
g(t) = EX 2 2t E(XY ) + t 2 EY 2
Polinomio de segundo grado en t. a = EY 2 , b = 2E(XY ),
c = EX 2 .
Discriminante b2 4ac = 4(E(XY ))2 4EX 2 EY 2 0
Por lo tanto
(E(XY ))2
1
EX 2 EY 2
132
es decir 2 1, lo que implica 1 1.
Caso general: basta ver que (X , Y ) = (X EX , Y EY ).
3. Supongamos que = 1. Esto implica que el discriminante de
g(t) es cero y que g tiene una unica
raiz t0 . Es decir
E(X t0 Y )2 = 0
Como X e Y tienen esperanza cero, X t0 Y = 0 con
probabilidad 1.
Caso general, substituyendo
E(X EX t0 (Y EY ))2 = 0
implica que Y =
1
t0 X
+ t10 EY EX .
133
Varianzas de sumas de variables aleatorias
X
X
E
ai Xi =
ai EXi
i
X
X 2
ai Xi =
ai VXi + 2
ai aj Cov(Xi , Xj )
i<j
134
x
X
pX (k )pY (x k )
k=0
n
X
n
k=0
x
p (1 p)
n+mx
= p (1 p)
nk
m
pxk (1 p)m(xk)
x k
n
X
n
m
x
n+mx n + m
= p (1 p)
k
x k
x
k=0
135
x
X
pX (k)pY (x k )
k=0
=
n
n x
x1
nx+1
p
(1 p)
p+
p (1 p)nx (1 p)
x
x 1
n
n
x
n+1x
= p (1 p)
+
x
x 1
x
n+1x n + 1
= p (1 p)
x
136
Si Sn Binomial(n, p),
Sn+1 = Sn + Xn+1 Binomial (n + 1, p)
ESn = E(X1 + + Xn ) = EX1 + + EXn = np
VSn = V (X1 + + Xn ) = VX1 + + VXn = np(1 p)
Suma de Poisson independientes es Poisson
X Poisson(), Y Poisson(). X + Z Poisson( + ).
P(Z = n) =
n
X
pX (k)pY (n k) =
k=0
n
X
e k e nk
k! (n k )!
k=0
n
e(+) ( + )n X n k nk
=
n!
k
+
+
k=0
137
Suma de variables continuas X Y va continuas con f .
Z = X + Y . Entonces
Z Z
Z Z zx
P(Z z) =
f (x, y )dxdy =
f (x, y)dxdy
{(x,y):x+yz}
substituya u = x, v = y + x:
Z Z z
=
f (u, v u)dudv
de donde
f (x, z x)dx
fZ (z) =
Caso independiente:
Z
fX (x)fY (z x)dx
fZ (z) =
138
La densidad de la suma de dos variables independientes es la
de las densidades de las variables.
convolucion
Gama X1 , . . . , Xn exponenciales indep. Zn = X1 + + Xn .
Entonces
fZ (z) =
n
z n1 ez
(n 1)!
Gama(n, )
n1 n2 x (zx)
x
e
e
dx
0 (n 2)!
Z z
n
z
=
e
x n2 dx = OK
(n 2)!
0
Z
fZ (z) =
X
et (t)j
j!
j=n
Diferenciando en t,
f (t) = F 0 (t) =
X
et j(t)j1
j=n
j!
et (t)n1
(n 1)!
X
et (t)j
j!
j=n
139
140
Ejercicio: Calcule EX y VX .
Z
( + 1)
1
ex (x)1 =
=
EX =
x
()
()
0
VX queda como ejercicio.
Clase 13, 17 de febrero 2014
Otro juego de los sobres.
Un juego Dos sobres con plata Y1 , Y2 . iid Uniformes en [0, 10].
Abro un sobre y veo y . Debo cambiar de sobre?
Estrategia 1: Fijo K (0, 10). Si y > K , me quedo con y . Si no,
cambio.
Sea X1 valor del primer sobre.
X2 valor obtenido despues de aplicar la estrategia.
X2 = Y1 1{Y1 > K } + Y2 1{Y1 K }
141
EX2 = E(Y1 1{Y1 > K }) + EY2 P(Y1 K )
h 2 i10
R 10
K
+ 5 10
= K yf (y )dy + 5 P(Y K ) = 2x10
K
=5
K2
2 10
K
5 10
=5+
K
10 (5
K
2)
de 6 en este
Use K = 6. Cual es la probabilidad de ganar mas
caso?
1 P(Y1 < 6, Y2 < 6) = 1
62
100
142
= 0,64
X n :=
1X
Xi
n
i=1
Si EX = y VX = 2 , obtenemos
EX n = ,
V X n = 2 /n
143
Desigualdad de Markov. Sea X una variable aleatoria no
negativa con esperanza finita. Entonces, para todo valor > 0
vale
EX
.
P(X > )
Dem:
X = X 1X > + X 1X 1X >
porque X 0. Sacando esperanzas,
EX E(1X > ) = P(X > ).
Desigualdad de Chevichev: Si X es una variable aleatoria
con media y varianza finitas, entonces
P(|X EX | > )
Dem. Ejercicio.
VX
2
144
145
=5
K2
2 10
K
5 10
=5+
K
10 (5
K
2)
146
1
V (Y1 1{Y1 > K }) =
10
10
x 2 dx
10 K 2
1
V (Y2 1{Y1 K }) =
10
10
x 2 dx
10
= ...
K
(5K )2 = . . .
10
10 K
5K
10
de 5?
Cual es la probabilidad de ganar mas
1 P(Y1 < 5, Y2 < 5) = 3/4.
de 6 en este
Use K = 6. Cual es la probabilidad de ganar mas
caso?
147
1 P(Y1 < 6, Y2 < 6) = 1
62
100
= 0,64
VX2
102 2
VX2
n 2 2
148
Ley de grandes numeros:
2
0
n2
149
n converge en
las n repeticiones dividido n), entonces p
probabilidad a p.
P
n = n1 ni=1 Xi , donde Xi = 1 si A ocurre en el
Dem: Note que p
i-esimo ensayo y Xi = 0 si no ocurre.
Xi X Bernoulli p.
EX = p,VX = p(1 p).
n = p
n
X
y se obtiene:
p(1 p)
P p
0, con n.
n p >
n2
Ejemplo: Cuantas
repeticiones del experimento deberan
n difiera de p en
muestral p
hacerse para que la proporcion
p(1 p)1002
0,052
150
= exp
exp
2dx
4
2
2 2
2
z 2
1
= exp
4
2 2
151
152
que implica que W Normal(0, 2).
se puede probar:
Con la misma demostracion
Xi Normal(i , i2 ) independientes. Entonces,
Proposicion
W =
n
X
Xi Normal
i=1
n
X
i=1
i ,
n
X
i2
i=1
de
Decimos que una sucesion
Convergencia en distribucion:
a una
variables aleatorias Y1 , Y2 , . . . converge en distribucion
variable Y si
lm FYn (y) = FY (y)
n
153
Sn n
Z , en distribucion,
n
n
n2r
= n12r .
n12r
n 0
a2
154
facil
es con la
del TCL: La demostracion
Demostracion
generatriz de momentos, tambien
conocida como
Funcion
Transformada de Fourier de la densidad. Pero es un poco
misteriosa.
del Teorema de
Vamos a mostrar una idea de la demostracion
del TCL para variables
Demoivre Laplace, la primera version
centradas que asumen valores 1 y 1.
Teorema de De Moivre Laplace Sean Xi , i = 1, 2, . . .
155
156
Dem Como EXi = 0 y VXi = 1, ES2n = 0 y VS2n = 2n. Por lo
tanto S2n es centrada con varianza 1. Vamos a calcular
2n
explicitamente el lmite.
Defino
a0 := P(S2n = 0) =
2n 1 2n
(2n)! 1 2n
=
n
2
n!n! 2
de Stirling es aproximadamente
que, usando la aproximacion
igual a
2
n
nn en 2n
Ahora queremos calcular
ak := P(S2n = 2k ) =
2n 1 2n
n+k
2
= a0
157
n(n 1) . . . (n k + 1)
(n + k)(n + k 1) . . . (n + 1)
1+
1
k
k
k
1+
... 1 +
n
n1
nk +1
1
b 2
b 2
b 2
= a0 1 +
1+
.
.
.
1
+
n
n 1n
n b 2+1
n
b 2 b 2 n
1
2
1+
' e2b
n
n
158
Consideremos x > 0 y calculemos
2nx/2
X
S2n
P 0
x =
ak
2n
k=0
Volviendo
a escribir k = b 2n, para b [0, x] tenemos
2b2 = (k/ n)2 y obtenemos
'
nx/ 2
X
k=0
2
1
e(k/ n)
n
x/ 2
1
2
ez dz =
Z
0
1
2
ey /2 dy
2
2z. La ultima
= (x) (0).
Usando simetra, concluimos.
Formas alternativas del TCL:
Sn n
Z
n
y dividiendo numerador y denominador por n, obtenemos
n
X
Z
/ n
matematica
Una razon
para el TCL:
Sn + S2n Sn
1 Sn
S
S2n
Z2n =
=
= + n ,
n
n
2n
2n
2
159
160
Sn
que Sn pero
donde
:= S2n Sn tiene la misma distribucion
es independiente de Sn .
O sea que el lmite, si existe tiene que satisfacer:
Z
Z + Z
()
es buena? El
grande? Como
sabemos si la aproximacion
de muestra requerido para que la aproximacion
sea
tamano
de las Xi .
razonable depende de la forma de la distribucion
simetrica
rapidamente
Mientras mas
y acampanada sea, mas
161
proximo.
se
numero
al entero mas
Los errores de aproximacion
U(-0.5,0.5).
suponen independientes y con distribucion
es la probabilidad de que
a) Si se suman 1500 numeros,
cual
Si llamamos Xi al error
Pcorrespondiente al i-esimo sumando, el
error total es T1500 = i Xi y queremos calcular
P(|T1500 | > 15). Como EXi = 0 y VXi = 1/12, ET1500 = 0 y
VT1500 = 1500
12 = 125. Entonces
P(|T1500 | > 15) = P(|Z | > 15/ 125) = P(|Z | > 1,34) = 0,18
(usando la tabla de la Normal)
b) Cuantos
numeros
pueden sumarse a fin de que el valor
162
probabilidad mayor o igual que 0.90? Buscamos el valor de n
tal que P(|Tn | 10) 0,9.
p
P(|Tn | 10) 0,9 P(|Z | 10/ n/12) 0,9
Buscamos z tal que P(|Z | z) = 0,9, que por tabla es
z = 1,64. As
p
10/ n/12 = 1,64, de donde n 446.
Otras Aplicaciones del TCL
1. Si Yn Poisson (n) entonces
Yn n D
Z
n
Dem: considere Xi Poisson() iid.
163
Yn = X1 + + Xn Poisson (n). Aplique TCL y obtenga el
lmite.
As la Poisson con parametro grande se aproxima por la
normal.
2. Yn Gama(n, ) iid con n entero
Yn n D
Z
n
Xi Gama(1, ) (exponenciales) independientes.
X1 + + Xn Gama (n, ) suma de n exponenciales
independientes.
As la suma de gamas se aproxima por la normal.
3. Un adivino acierta el color de 950 de 1500 cartas puestas al
dorso. Queremos decidir si creemos que es adivino.
164
Sea p la probabilidad que el adivino acierte. Queremos testar
p = 1/2 (es decir, no mejora el puro azar) contra p > 1/2 (tiene
probabilidad de adivinar mayor que 1/2).
Supongamos que decide al azar, p = 1/2.
Sea Xi = 1{acierta la carta i}. Azar Xi Bernoulli( 12 )
Numero
de aciertos:
S1500 =
1500
X
i=1
P(S1500 950) = P
Xi ,
= S1500
X
1500
1
X
2
0, 5/ 1500
950/1500
0, 5/ 1500
Aceptamos la hipotesis
que el hombre es un adivino.
165
Cuando n , la distribucion
de una variable aleatoria X concentrada en 0: P(X = 0) = 1.
Sin embargo, si F es la acumulada de X , vemos que Fn (0) no
converge a F (0).
De hecho, Fn (0) = 0 para todo n, pero F (0) = 1.
166
Clase 15 del 20 de febrero de 2014
El proceso de Bernoulli
de ensayos de Bernoulli
Sucesion
Espacio muestral: S = {(a1 , a2 , . . . , a` ), ai {0, 1}}
Se puede pensar que ` = o es muuuy grande.
de a:
Simulacion
11000010101100010100010110010100010100001
Modelo: El evento B = (todas las sucesiones a1 , a2 , . . . que
coinciden con b1 , . . . , bn en las primeras n coordenadas) tiene
probabilidad
p(b1 , . . . , bn ) = p#1 (1 p)#0 = p
bi
(1 p)
(1bi )
167
facil
si definimos las variables aleatorias proyeccion:
Mas
Xi (a) := ai ;
a = (a1 , a2 , . . . )
Un proceso estocastico
es una sucesion
aleatorias X1 , X2 , . . . indexadas por n N o t R.
arriba se llama Proceso de
El proceso X1 , X2 , . . . definido mas
de variables aleatorias
Bernoulli. Se trata de una sucesion
independientes Bernoulli (p).
El evento B se puede escribir
B = {X1 = b1 , . . . , Xn = bn }
168
y su probabilidad es
P(B) = pb1 (1 p)1b1 . . . pbn (1 p)1bn = p
bi
(1 p)n
bi
En particular
P(X1 = 1, X2 = 0, X3 = 0) = p(1 p)2 .
El proceso de Bernoulli es estacionario:
P(X1 = b1 , . . . , Xn = bn ) = P(Xt+1 = b1 , . . . , Xt+n = bn )
para todo t.
2 sale un colectivo 107 en
Ejemplo: En la parada del pabellon
cada minuto con probabilidad 1/10, en forma independiente.
Cual es la probabilidad que salgan colectivos en los minutos
1,2,3? Y en los minutos 27,28,29? Queremos calcular
P(X1 = 1, X2 = 1, X3 = 1) =
1 3
.
10
1 3
= 1) =
.
10
Proceso Binomial
Definamos las variables Sn = X1 + + Xn . El proceso
S1 , S2 , . . .
169
170
171
geometrica:
172
La probabilidad de ganar lo mismo que aposte es
1
221
mmmmmm. . .
Colectivo Si llego en un instante t cualquiera y defino el
tiempo de espera del colectivo a partir de ese instante:
Rt := mn{k > t : Xk = 1} t
P(Rt = k ) = P(Xt+1 = 0, . . . , Xt+k1 = 0, Xt+k = 1) = (1p)k1 p
geometrica
Tiene distribucion
igual que si empezaba en el
instante 0.
Instante de la k-esima
llegada
Yk := mn{n : X1 + + Xn = k }
173
Para t k :
si el
La k-esima
llegada ocurre antes del instante n si y solo
numero
de llegadas hasta el instante n es mayor o igual a k:
Yk n
Sn k.
174
binomial negativa.
Ya vimos que Yi tiene distribucion
Queremos probar que los Ti son independientes identicamente
distribudos.
P(T1 = k1 , . . . , Tj = kj ) = (1 p)k1 1 p . . . (1 p)kj 1 p
puntual de j geometricas
independientes de parametro
p. Sumando sobre las otras
coordinadas descubrimos que la marginal de Ti es
geometrica(p)
para todo i y por lo tanto
P(T1 = k1 , . . . , Tj = kj ) = P(T1 = k1 ) . . . P(Tj = kj )
Lo que quiere decir que las variables son independientes. Ya
que vale para las acumuladas:
vimos que eso implica tambien
P(T1 k1 , . . . , Tj kj ) = P(T1 k1 ) . . . P(Tj kj )
175
equivalente a
Eso es tambien
P(T1 > k1 , . . . , Tj > kj ) = P(T1 > k1 ) . . . P(Tj > kj )
= (1 p)k1 ++kj
Equivalencia de procesos Los procesos
(X1 , X2 , . . . ) Bernoulli(p) independientes
(S1 , S2 , . . . ) donde Sn Binomial (n, p) con incrementos
independientes y estacionarios
(T1 , T2 , . . . ) Geometricas(p) independientes
son equivalentes en el sentido que al conocer uno de los tres,
podemos reconstruir los otros dos. (esto hay que ampliarlo)
Juego de Las Vegas
Jugamos al rojo en las Vegas. Ruleta sin 0.
176
1
1
1
1
1
0
-1
0
2
1
2
2
1
0
-1
1
2
0
-2
-1
4
0
-4
-5
8
1
8
3
1
0
-1
2
2
1
2
4
1
0
-1
3
2
0
-2
1
4
0
-4
-3
8
1
8
5
n1
177
178
La probabilidad de exito
en cada ensayo es proporcional a 1/`.
Sea t real positivo y defina el proceso (St` , t R+ ) por
X
St` =
Xn`
n:(n/`)t
numero
de exitos
hasta el instante t. Son [`t] ensayos de
exito.
179
ESt` = numero
de ensayos por proba de exito
= [t`]
t
`
de Poisson:
tiene distribucion
P(Nt = k ) =
et (t)k
.
k!
rigurosos de este
Dem El enunciado y la demostracion
mas
alla del objetivo del curso, pero se pueden
teorema estan
que
ver una serie de propiedades de los lmites en distribucion
dan una buena idea de lo que esta pasando.
180
Para empezar
P(Nt = k) = lm P(St` = k ) =
`
et (t)k
,
k!
Poisson.
distribucion
Por los incrementos independientes y estacionarios del
proceso binomial, tenemos que para intervalos disjuntos:
P(St`1 Ss`1 = k1 , St`2 Ss`2 = k2 )
= P(St`1 Ss`1 = k1 )P(St`2 Ss`2 = k2 )
181
Que, tomando lmites en ` implica
P(Nt1 Ns1 = k1 , Nt2 Ns2 = k2 ) = P(Nt1 Ns1 = k1 )P(Nt2 Ns2 = k2 )
tiene incrementos
es decir que el proceso lmite tambien
independientes. Esto vale para cualquier conjunto finito de
intervalos disjuntos.
De la misma forma, como el proceso binomial tiene
incrementos estacionarios:
`
P(St` Ss` = k) = P(Sts
= k),
182
de Proceso de Poisson
Definicion
(Nt , t R+ ); t es interpretado como tiempo (real).
Nt numero
de llegadas en el intervalo [0, t].
del tamano
del intervalo: la distribucion
de dos
En un intervalo chico es muy difcil que haya mas
llegadas.
183
es equivalente a la
Se puede demostrar que esta definicion
que dimos en el teorema de convergencia del proceso Binomial
al proceso de Poisson.
Ejemplo El numero
de mails que llegan a una casilla es
184
k
Y
(1 /`)`ti 1 (/`) =
i=1
k
Y
P(Ti` = ti )
i=1
distribucion
de parametro
/`,
divididas por `. En particular,
P(Ti > ti , 1 i k) = lm P(Ti` > ti , 1 i k)
`
= lm
k
Y
i=1
k
k
Y
Y
P(Ti` > ti ) = lm
(1 /`)`ti 1 =
eti
`
i=1
186
i=1
de parametro
.
de un numero
Distribucion
fijo de puntos
Supongamos que hay una unica
llegada en [0, t]. Cual es la
T`
P(S ` = 1)P(S ` S ` = 0)
s
s
t
sSt` = 1 =
s
`
P(St` = 1)
1
187
Teorema En un proceso de Poisson
P({Y1` , . . . , Yk` } B|Nt = k) = P({U1 , . . . , Uk } B)
donde U1 , . . . , Uk son variables aleatorias independientes
uniformes en [0, t].
Construcciones del proceso de Poisson
1. Exponenciales independientes
Sean T1 , T2 , . . . variables aleatorias exponenciales
independientes de parametro .
Lema Nt := max{n
: T1 + + Tn t} es un proceso de
Poisson de parametro .
Dem Vimos que si Nt es un proceso de Poisson, los tiempos
entre llegadas son exponenciales independientes. Como hay
entre la trayectoria del proceso y los tiempos
una biyeccion
que garantice que esos
entre llegadas, cualquier construccion
log Ui
Poisson, distribucion
Elija un numero
NT Poisson(T ). Distribuya NT puntos
188
189
a dimensiones mayores Let > 0 and
Extension
A partition J of Rd (that is AJ A = Rd and A B = for all
A, B J ). Assume A Rd is measurable for all A J and the
Lebesgue measure l(A) < for all A J .
A sequence of Poisson random variables indexed by the
elements of the partition YA Poisson(l(A)).
A family of sequences ((UA,j , j 1), A J ), where
(UA,j , j 1) are random variables independent and uniformly
distributed in A:
UA,j Unif(A)
that is, for all measurable B,
P(UA,j A B) =
l(A B)
l(A)
190
Define the Poisson process as the random set given by
def
S =
[ [
{UA,j } =
AJ jYA
{UA,j : j YA }
(1)
AJ
(2)
sS
191
Clase 17 del 27 de febrero de 2014
Cadenas de Markov
Un proceso estocastico
(a tiempo discreto) es una sucesion
de variables aleatorias X1 , X2 , . . . que asumen valores en un
conjunto S finito o numerable llamado espacio de estados.
El sub-ndice se interpreta como tiempo. Si Xn = x, diremos
que el proceso se encuentra en el estado x en el instante n.
En una cadena de Markov cada vez que el proceso esta en el
estado x en el instante n, tiene probabilidad Q(x, y ) de ir al
estado y en el instante n + 1:
P(Xn+1 = y |Xn = x, Xn1 = xn1 , . . . , X0 = x0 ) = Q(x, y).
Observe que esa probabilidad es independiente de lo que haya
ocurrido en los instantes anteriores a n. Los valores p(x, y) son
y conforman una matriz
llamados probabilidades de transicion
192
Q = (Q(x, y ) : x, y S). Esta matriz tiene
de transicion
entradas no negativas y la suma de cada fila vale 1:
X
Q(x, y) = 1
yS
193
(4)
Fije un estado x y defina un proceso estocastico
Xn , n 0 por 194
X0 = x e iterativamente,
Xn+1 = F (Xn , Un+1 )
(5)
Q.
El proceso as definido es Markov con matriz de transicion
En efecto,
P(Xn+1 = y |Xn = x, Xn1 = xn1 , . . . , X0 = x0 )
= P(F (x, Un+1 ) = y|F (xn1 , Un ) = x, . . . , F (x0 , U1 ) = x1 , X0 = x0 ))
es igual a
Como los Uk son independientes, esa expresion
= P(F (x, Un+1 ) = y) = P(Un+1 J(x, y)) = |J(x, y)| = p(x, y).
en el instante n. La matriz de
Calculo
de la distribucion
sirve para calcular las probabilidades de transicion
a
transicion
de un paso:
mas
P(Xn = y|X0 = x) = Q n (x, y)
(6)
195
P(X2 = y, X1 = z|X0 = x)
196
k
,
N
Q(x, y ) = 0,
Q(k, k + 1) =
N k
N
si |x y| > 1.
tiene N moleculas
ocupando dos containers.
Si la primera urna tiene 4 bolillas y la segunda tiene 6, cual es
de dos pasos haya 4 bolillas en la
la probabilidad que despues
primera y 6 en la segunda?
Q 2 (4, 4) = Q(4, 5)Q(5, 4) + Q(4, 3)Q(3, 4) =
65+47
100
198
Medidas invariantes Se puede probar el siguiente resultado:
Si existe un k tal que Q k (x, y) > 0 para todo par de estados
x, y, entonces existe una probabilidad tal que
lm Q n (x, y ) = (y),
n
para todo x
de
es decir que la cadena olvida el valor inicial y la distribucion
para cualquier
Xn converge a (convergencia en distribucion)
estado inicial.
Si escribimos
P n+1 (x, y ) =
para todo y
199
Estas son las ecuaciones de balance. La probabilidad se
de las
llama medida invariante y es la unica
solucion
ecuaciones de balance.
Propiedades de la medida invariante:
es un autovector a la izquierda de P con autovalor 1: P = .
Esto quiere decir que
X
(x)P(X1 = y|X0 = x) = (y)
x
de X0 es , entonces la distribucion
de
O sea: si la distribucion
Xn es para todo n 0.
200
Ejemplo de la lluvia. Las ecuaciones de balance son
(0) = 0,9 (0) + 0,2 (1),
(1) = 0,1 (0) + 0,8 (1)
(0) + (1) = 1.
Substituyendo las identidades (0) = (0)(0,1 + 0,9) y
(0) + (1) = 1
es
cuya solucion
(0) =
0,2
2
= ,
0,2 + 0,1
3
(1) =
0,1
1
=
0,2 + 0,2
3
N k +1
k +1
+ (k 1)
,
N
N
0 < k < N;
y en los bordes:
(0) = (1)
1
,
N
(N) = (N 1)
1
N
es:
cuya solucion
N 1 N
(k ) =
k
2
Ley de grandes numeros
202
lm
n
1X
1{Xk = y } = (y ),
n
en probabilidad
k=1
1X
n (y) :=
1{Xk = y}
n
k=1
de (y ). La probabilidad (aleatoria)
como aproximacion
n es
emprica.
llamada distribucion
Ranqueo de paginas
de Google
203
G = (V , E), V = conjunto de vertices. E {(x, y ) : x, y V ),
conjunto de aristas orientadas.
numero
de aristas que llegan a un vertice
y V y proponer el
ranqueador
X
R1 (y) =
a(x, y)
xV
204
y dividiendo por este numero
obtenemos el segundo
ranqueador:
X a(x, y)
R2 (y) =
a(x)
xV
Mas
enviara un peso
proporcional a su importancia (medida por las aristas que
entran). Esto nos lleva a plantear el tercer ranqueador:
R3 (y) =
X
xV
R3 (x)
a(x, y)
a(x)
de un sistema de |V | ecuaciones,
O sea que R3 es la solucion
205
Usando la notacion
= R3 ,
Q(x, y ) =
a(x, y)
,
a(x)
paginas
http://news.netcraft.com/archives/category/web-server-survey/,
206
el calculo
de la medida invariante en forma exacta es
fisicamente imposible por el momento. Aunque la matriz sea
1X
1{Xk = y}
n (y) :=
n
k=1
o simplemente se usa
n como ranqueador.
Esta clase no se dio en el curso de verano 2014
207
Paseos aleatorios
Contando caminos Un camino de longitud n es un vector
(s0 , s1 , . . . , sn ),
sk = x1 + + xk
donde los incrementos xi {1, 1}.
Hay 2n caminos de longitud n. Si s0 = 0 y sn = x, entonces los
a incrementos positivos y los b incrementos negativos deben
satisfacer:
a + b = n,
a b = x.
Es decir:
nx
n+x
,
b=
.
2
2
el numero
de caminos de longitud n que van de 0 a x
a+b
a+b
Nn,x =
=
a
b
a=
As, Nn,x
es
208
ventaja de A despues
voto es
sk = x1 + + xk
A lidera todo el escrutinio si para todo 0 < k n,
s1 > 0, s2 > 0, . . . , sk > 0.
n que
Asumimos que todos los posibles caminos de tamano
terminan en a b son igualmente probables. (todas las
permutaciones de los votos son igualmente probables)
Principio de reflexion
Considere puntos espacio-temporales (k , x) y (n, y ).
0 k < n, x > 0, y > 0.
El punto reflejado de (k, x) es (k, x)
Consideraremos caminos que van de (k, x) a (n, y).
El numero
Principio de reflexion
de caminos que van de
209
El camino
x = sk , sk+1 , . . . , sT 1 , 0, sT +1 , . . . , sn = y
va de (k , x) a (n, y).
Como las secciones (k , x), . . . , (t, 0) y (k, x), . . . , (t, 0) son
entre esos dos
reflejadas una de la otra, existe una biyeccion
pedazos. Esto implica que el numero
de caminos es el mismo.
a+b1
a+b1
Nn1,x1 Nn1,x+1 =
a1
a
210
211
con a y b satisfaciendo que a + b = n y a b = x. Una cuenta
muestra que ese numero
es igual a xn Nn,x .
distribucion
P(Xi = 1) =
1
,
2
P(Xi = 1) =
1
.
2
n0
1
,
2
q(x, x 1) =
1
.
2
212
As, la probabilidad que el paseo este en x en el instante n es
n
pn,x = P(Sn = x) = n+x 2n
2
n+x
2
n
k
2
22k
213
lm u2k k = 1
lm P(Sn r n) = (r )
n
de distribucion
acumulada de la Normal
donde es la funcion
standard.
El primer retorno al origen ocurre en el instante 2k si
S1 6= 0, . . . , S2k1 6= 0, S2k = 0
y su probabilidad se denota f2k .
Lema Las probabilidades u2k y f2k se relacionan por
u2n = f2 u2n2 + f4 u2n4 + + f2n u0
214
Dem Use el teorema de la probabilidad total.
Sea T := mn{n > 0 : Sn = 0} instante del primer retorno al
origen.
Lema Sea n > 0, entonces
P(T > 2n) = P(S2n = 0)
Dem Por simetra,
P(T > 2n) = P(S1 > 0, . . . , S2n > 0) + P(S1 < 0, . . . , S2n < 0)
= 2P(S1 > 0, . . . , S2n > 0)
Por el teorema de la probabilidad total:
X
P(S1 > 0, . . . , S2n > 0) =
P(S1 > 0, . . . , S2n1 > 0, S2n = 2x)
x1
215
1
(p2n1,2x1 p2n1,2x+1 )
2
Sumando (telescopicamente),
X1
x1
(p2n1,2x1 p2n1,2x+1 ) =
1
1
p2n1,1 = u2n
2
2
Maximo
El maximo
Mn esta definido por
Mn (S0 , . . . , Sn ) = max{S
0 , . . . , Sn }
Lema Sea y un entero tal que n y > 0. La probabilidad de un
216
Dem Queremos calcular P(M2n y , S2n = 0). El numero
de
ese numero
Lema de reflexion,
es igual a N2n,2y . Multiplicando
2n
2n+2y
2
=
2n
n+y
2
lm P M2n b 2n S2n = 0 = e2b
p2n,2y
n! n!
=
p2n,0
(n y )! (n + y)!
n(n 1) . . . (n y + 1)
(n + y)(n + y 1) . . . (n + 1)
correspondiente termino
del numerador, obtenemos
1
y
y
y
1+
... 1 +
n
n1
ny +1
Substituyendo y = b 2n, y
1
b 2
b 2
b 2
= 1+
1+
.
.
.
1
+
n
n 1n
n b 2+1
=
1+
217
b 2 b 2 n
2
e2b
1+
n
218
Xi = 1 si el i-esimo
elector de la muestra vota por el candidato.
219
muestral es la variable aleatoria
La proporcion
n =
p
X1 + + Xn
n
n es
El error cometido al estimar p por p
n p|
|p
es aleatorio.
que por supuesto tambien
Parametros
As como la Bernoulli depende del parametro
p,
otras distribuciones de probabilidad dependen de cierto
numero
de parametros.
Por ejemplo: Poisson depende de ,
220
Muestras Denotamos X := (X1 , . . . , Xn ) una muestra aleatoria
de la muestra es
de una variable aleatoria X . Cualquier funcion
puntual parametrica
Estimacion
Sea X = X , una familia de variables aleatorias con
X F .
distribucion
Usaremos la notacion
E g(X )
(7)
221
Cuando el experimento es realizado, la muestra observada se
obteniendose
21 ases. Que valor podra utilizarse, en base a
como estimacion
de la probabilidad de as?
esa informacion,
En este caso, si llamamos p a la probabilidad que queremos
= 0,21 como
muestral p
estimar, usamos la proporcion
estimativa.
puntual
Metodos
de estimacion
Metodo
de momentos: Se buscan los valores de los
parametros
que permiten igualar los momentos muestrales a
los momentos poblacionales.
F , .
Sea X = X una variable aleatoria con distribucion
gk del
Sea EXk el momento de orden k de X . Es una funcion
parametro:
EXk = gk ()
Sea X = (X1 , . . . , Xn ) una muestra de X .
Definimos el momento muestral de orden k por:
Pn
k
i=1 Xi
n
Cuando la muestra observada es (x1 , . . . , xn ), los momentos
observados de orden k son
Pn
k
i=1 xi
n
Suponga que = (1 , . . . , m ). Es decir = Rm .
Defina = (1 , . . . , m ) los parametros que se obtienen al
igualar los m primeros momentos muestrales a los momentos
222
223
precisamente, 1 , . . . , m
poblacionales correspondientes. Mas
de las ecuaciones
es la solucion
Pn
xk
gk (1 , . . . , m ) = i=1 i , k = 1, . . . , m.
n
(1 , . . . , m ) son incognitas
y (x1 , . . . , xn ) son datos. Es decir
de la muestra observada.
que i = i (x1 , . . . , xn ) es una funcion
Substituyendo (x1 , . . . , xn ) por (X1 , . . . , Xn ), obtenemos las
variables aleatorias
i (X1 , . . . , Xn ) que se llaman estimadores
de momentos de (1 , . . . , m ).
224
n .
= 1/X
De donde
Ejemplo 2. X Gama(, ). Dos parametros, dos ecuaciones:
Pn
X2
2
EX = Xn ,
EX = i=1 i
n
Como EX =
y EX 2 =
2
,
2
2
+
=
2
2
n ,
=X
De aqui se despejan y :
=
X
Pn
i=1
Xi2
2
X
2
X
Pn
i=1
Xi2
2
X
Pn
2
i=1 Xi
225
n
=X
2
Despejando :
n
= 2X
Ejemplo 4. No siempre se puede usar el primer momento. Si
X es Uniforme en [, ], EX = 0 no depende de , por eso
hay que usar el segundo momento:
Pn
X2
2
EX = i=1 i
n
como EX 2 =
42
12
2
3,
queda
la ecuacion
2
=
3
Pn
2
i=1 Xi
= 3 i=1 i
n
Metodo
de maxima
verosimilitud: Fisher en 1920.
226
arg max
p i (1 p)1xi
p
h
i
X
X
(log p)
= arg max
xi + log(1 p)
(1 xi )
p
P
=
p
xi
227
228
de estimador de maxima
Definicion
verosimilitud
Sea X = X una familia de variables aleatorias con rango R
con probabilidad puntual p (.) o densidad conjunta f que
depende de parametros
, el espacio de parametros.
de verosimilitud L : R n [0, 1] esta definida
La funcion
para y x = (x1 , . . . , xn ) R n por
(
p (x1 ) . . . p (xn ) caso discreto
L(, x) =
f (x1 ) . . . f (xn )
caso continuo
L(, (x1 , . . . , xn )) es la probabilidad de observar (x1 , . . . , xn )
cuando el parametro
es .
L(, x)
(x)
:= arg max
229
230
De donde
= 1
xn
)
i
2 2
( 2)n
i
Maximizarla equivale a maximizar los logaritmos.
El resultado es:
rP
= x ,
x )2
n
i (xi
231
1 Y
Ixi [0,]
n
i
L() = 0I<max
i xi +
1
I
i xi
n max
i xi
De donde = max
Clase 19 del 6 de marzo 2014
Propiedades de los estimadores
Dada una muestra (X1 , . . . , Xn ) de X F , un estimador
La diferencia
de la muestra .
puntual de es una funcion
y una estimacion
sera mas
precisa
es el error de estimacion
cuanto menor sea este error.
232
una variable aleatoria dado que es
Este error es tambien
de la muestra.
funcion
Propiedad deseable: que la esperanza del error sea 0, es decir
que en promedio el error obtenido al estimar a partir de
diferentes muestras sea cero.
(7) de E .
Recordemos la definicion
Un estimador de es insesgado si
Definicion:
)=
E (X
Si el estimador no es insesgado, el sesgo se define por
= E
b()
Un estimador de es asintoticamente
insesgado si
lm E =
n
Ejemplos. 1. X Bernoulli(p). Usamos la proporcion
como estimador de p. Como
muestral p
=p
Ep p
es insesgado.
p
es insesgado.
2. Normal. X N(, ). Es claro que
=X
Pero
2 =
1X
)2
(Xi X
n
i
n1 2
233
234
es estimador asintoticamente
insesgado de
2.
3. X Uniforme[0, ].
=
. Es insesgado: E X
El estimador de momentos de es 2X
i Xi . No es insesgado:
El EMV de es M = max
Z
E M =
Z
0
(1 P (M x))dx
P (M > x)dx =
x n
dx =
n+1
n
=
(n + 1)n
n+1
1 = X
2 =
insesgados.
X1 +X2
2 ,
235
2
,
n
X + X 2
1
2
=
,
2
2
V X4 = 2 .
preciso, es decir el de
parece natural elegir el estimador mas
menor varianza.
insesgada de mnima varianza:
Principio de estimacion
Entre todos los estimadores insesgados de , elegir el de
menor varianza. El estimador resultante se denomina IMVU
(insesgado de mnima varianza uniformemente). Existe una
metodologa que permite hallar estimadores IMVU en muchas
situaciones.
N(, 2 ).
Teorema:Sea X una variable con distribucion
236
As, si se tiene evidencia de que la muestra viene de una
como
Normal, parece conveniente usar X
distribucion
estimador de .
Si los datos no son Normales este estimador podra llegar a
1
(1+(x)2 )
c. Uniforme en [ 1, + 1]
Consideremos los siguientes estimadores:
,
1 = X
e,
2 = X
3 =
max Xi + mn Xi
2
237
e (mediana muestral)
b. Cauchy muy dispersa, mejor elegir X
no tiene colas.
c. Elegir
3 porque la distribucion
= V ()
()
estos
se reemplazan por un estimador y se obtiene el error
standard estimado.
y el error
Ejemplo: X Normal (, 2 ). El EMV de es X
standard es
q
=
V X
n
(X
n
Error cuadratico
medio estimador de .
Def:
= E( )2
ECM ()
Si es insesgado, el ECM coincide con la varianza de
Propo
= V ()
+ (b ())
2
ECM ()
= E ()
es el sesgo.
donde b ()
de menor error cuadratico
Principio de estimacion
medio:
estimadores del parametro,
238
239
Consistencia
Sea n un estimador de . Diremos que n es un estimador
consistente de si
n ,
en probabilidad
n0
n es un
Ejemplo Si X tiene media y varianza 2 , entonces X
estimador consistente de . Ya lo vimos, usando Chevichev.
Verifique que (X1 + Xn )/2 no es consistente.
insesgado. E () = n+1 .
n X Xi2
2
X
n1
n
i
n , (X
n ) 2 2 .
Como X
240
Por la LGN:
241
X X2
i
E,2 X 2 = 2 + 2
Como n/(n 1) 1,
Sn2 2 + 2 2 = 2 .
Clase 20 del 7 de marzo 2014 Intervalos de confianza Hasta
puntual de un parametro,
parametro.
puntual por un
Otro modo es reemplazar la estimacion
n
X
N(0, 1)
/ n
242
De donde,
P(1, 96
n
X
1, 96) = 0, 95
/ n
que equivale a
1, 96 / n) = 0, 95
1, 96 / n X
P(X
Es decir que la proba que el intervalo
1, 96 / n, X
1, 96 / n]
[X
contenga (el verdadero valor) es 0,95.
Se llama intervalo de confianza para de confianza 0,95.
depende de un parametro
. Sea (X1 , . . . , Xn ) una muestra de
X . Dadas dos funciones a y b de la muestra tales que
P(a(X1 , . . . , Xn ) b(X1 , . . . , Xn )) = 1
243
[a, b] se denomina intervalo de confianza a nivel 1 para el
parametro .
Observaciones: 1) El intervalo [a, b] es aleatorio ya que sus
extremos son funciones de la muestra. La probabilidad de que
244
el radio del intervalo dado por el error y la confianza 1 en
la expresion
n < p < p
n + ) = 1
P(p
que equivale a
n p| < ) = 1
P(|p
equivalente
Standarizando obtenemos la expresion
n p|
|p
P p
=1
<p
p(1 p)/ n
p(1 p)/ n
Por el teorema del lmite central, aproximadamente
P |Z | < p
=1
p(1 p)/ n
245
como identidad,
para Z N(0, 1). Aceptando la aproximacion
z=p
p(1 p)/ n
(8)
246
3) Dada la confianza que deseamos que tenga el intervalo
n de la muestra, cual es el error obtenido?
obtenido y el tamano
Respuestas: Use la identidad (8) para obtener lo siguiente:
n
p
z=
1/2
p(1 p)/ n
que es el peor caso para p(1 p). Entonces calculamos
z = 2 n
y de ah 1 usando la tabla: P(Z < z) = (1 /2).
El intervalo obtenido con este z va a tener confianza (1 ),
por lo menos.
2) Tenemos 1 y y buscamos n.
247
A partir de (8) despeje n:
n=
z2
z 2 p(1 p)
2
22
p
p(1 p).
=
n
2 n
tomando el peor caso.
Obtenemos z a partir de 1 como antes y listo.
248
n
X
n
de confianza asintotica
1 :
h
i
z , X
+ z
X
n
n
donde P(Z < z) = 1 /2
t
Distribucion
b)
(n1)S 2
2
2n1
y S 2 son independientes
c) X
d) n X S tn1
249
250
tn1,/2 S/ n
X
donde P(Tn1 > tn1,/2 ) = /2
chi cuadrado
Distribucion
X N(, 2 ) con conocida.
n
X
(Xi )2
2n
i=1
251
Como
n
X
(Xi )2
2n,/2 = 1
P 2n,1/2
i=1
h (n 1)S 2 (n 1)S 2 i
,
2n1,/2 2n1,1/2
252
Metodo
general para obtener intervalos de confianza:
que
Sea n y (X1 , . . . , Xn ) una muestra de una distribucion
depende de un parametro
.
T (X1 , . . . , Xn , ) (es decir,
Supongamos que existe una funcion
de la muestra y del parametro)
no
una funcion
cuya distribucion
depende de ni de ningun
desconocido.
otro parametro
Entonces, existen dos valores a y b tales que
P(a < T (X1 , . . . , Xn , ) < b) = 1 =
es posible obtener un intervalo de
y, a partir de esta expresion,
confianza para .
T es el pivote.
Ejemplo X exponencial .
X1 + + Xn Gama(n, )
253
Se puede demostrar que
t = 2(X1 + + Xn ) 22n
Con eso se puede obtener un intervalo de confianza para
con la tabla de la 2 . De la tabla de la Chi cuadrado:
P(22n,1 < T < 22n, ) = 1
2
22n,1
22n,
P 2 << P 2 =1
2 Xi
2 Xi
254
no depende de . De hecho, la
de T = /
La distribucion
de T
distribucion de Xi / es uniforme en [0, 1] y la distribucion
es la del maximo
entre n uniformes en [0, 1].
FT (x) = x n ,
x [0, 1]
x [0, 1]
255
Como
elegir A y b? Qeda planteada la ecuacion
Z
nx n1 dx = 1
b1 a1 ]. Se obtiene b = 1 y a = .
max[
256
Clase 21 del 10 de marzo 2014
Test de Hipotesis
En una isla hay dos tribus. Una de aborgenes amigables de
altura media 170 cm y otra de canbales de altura media 150
cm.
Al llegar a la isla un explorador encuentra 9 aborgenes y tiene
que decidir si son amigables o canbales (por razones obvias).
La altura de los aborgenes encontrados es una variable
aleatoria X (cm).
Asumimos X N(, 100). Varianza conocida. desconocida,
o es 150 o 170.
257
Obtenemos una muestra aleatoria (X1 , . . . , X9 ) de X y
9 .
calculamos su media muestral X
Regla de decision:
Decidimos que si x9 > 160, se rechaza H0
y se desembarca en la isla. Por el momento 160 es un valor
arbitrario.
rapido
de rechazo (es
Como el valor observado esta en la region
mayor que 160), rechazamos H0 .
258
Calculo
de la probabilidad del error 1
9 > 160|H0 verdadera)
= P(error tipo 1) = P(X
160| = 150)
= P(X
X
150
160 150
=P
=
150
10/3
10/3
259
(por la tabla)
260
basada en un estadstico (o
un test es una regla de decision
de una muestra de X y en una region
de rechazo para
funcion)
ese estadstico.
de rechazo,
Si el estadstico observado pertenece a la region
261
Tipos de error:
Tipo 1: Se rechaza Ho cuando Ho es cierta
Tipo 2: No se rechaza Ho cuando Ho no es cierta
= P( error tipo 1) Nivel de significancia.
= P( error tipo 2)
de rechazo?
Como
se elige la region
de rechazo del test de manera que la
Elegiremos la region
probabilidad de error tipo 1 sea un valor predeterminado.
En el ejemplo, para = 0, 05, buscamos z tal que
150
(z) = 1 0,05 y rechazamos Ho si X10/3
> z que
corresponde a z = 1,64 y
x 150 + 1,64
10
= 150 + 5,4 = 154, 4
3
262
Para = 0, 05 rechazamos si x 154, 4.
de estadsticos Note que para el test precedente
Eleccion
podramos haber usado directamente el estadstico
T :=
150
X
10/3
de rechazo para T :
y la region
RC = [1,64, )
P-valor Otra manera de hacer el test es considerar un
estadstico llamado P-valor.
Si estamos considerando el estadstico T y observamos tobs , el
de rechazo para T
P-valor es el correspondiente a la region
cuyo extremo es tobs .
263
,
En particular, para el ejemplo anterior con el estadstico T = X
si se la muestra observada es x1 , . . . , xn y la media muestral
observada es x = xobs = 156, el P-valor es
> x | H0 )
P-valor(x1 , . . . , xn ) = P(X
9 > 156 | = 150) = P(Z > 1,8) = 0,0359.
= P(X
(por la tabla) Esto quiere decir que si hacemos un test con
< 0,0359, no podremos rechazar H0 .
Se rechaza a nivel cuando P-valor(x1 , . . . , xn ) < .
Substituyendo (x1 , . . . , xn ) por (X1 , . . . , Xn ), obtenemos el
estadstico
P-valor(X1 , . . . , Xn )
de la muestra, por lo tanto es un
El P-valor es una funcion
estadstico.
264
Para rechazar H0 , el P-valor observado tiene que ser menor
de rechazo para el P-valor
que el deseado. O sea, la region
es [0, ].
Error tipo 2
Supongamos que en nuestro ejemplo, observamos una altura
9 y trabajamos con el test
media 154 en la muestra de tamano
de nivel 0.05.
En este caso,
x = 154 154,4
de rechazo [154,4, ).
que esta fuera de la region
Por lo tanto no rechazamos H0 .
Podramos estar cometiendo un error de tipo 2.
265
266
El test de hipotesis
es un juicio con pruebas presentadas por
las dos partes.
y la
Una vez consideradas las presentaciones de la acusacion
de culpable o no
defensa, el jurado toma la decision
culpable.
Nunca declara inocente al acusado, a lo sumo concluye que las
pruebas presentadas no son suficientes para declararlo
culpable.
El objetivo del juicio es determinar si hay pruebas suficientes
para declararlo culpable.
El error de tipo 1 corresponde a declarar culpable a un
inocente.
rechazar la hipotesis
nula cuando el valor verdadero del
parametro
es .
de potencia es posible obtener una
Utilizando la funcion
general para los dos tipos de errores, pues
expresion
() = ()I{ H0 } + (1 ())I{ H1 }
Tipos de hipotesis
267
268
Las hipotesis
alternativas pueden ser unilaterales o bilaterales.
Las regiones de rechazo dependen del tipo de test.
Ejemplo, el test para de la normal con 2 conocida.
Hay tres posibles tests para :
1) H0 : = 0 , H1 : < 0 ; (contra menor)
2) H0 : = 0 , H1 : > 0 ; (contra mayor)
3) H0 : = 0 , H1 : 6= 0 ; (bilateral)
Usamos el estadstico
T =
0
X
,
n
269
2) RC = [z , )
3) RC = (, z/2 ] [z/2 , )
donde z satisface P(Z < z ) = 1 .
Clase 22 del 11 de marzo 2014
Tests para la media cuando la varianza es desconocida:
Supongamos ahora que la varianza es desconocida y
270
Regiones de rechazo son:
1) RC = (, t ]
2) RC = [t , )
3) RC = (, t/2 ] [t/2 , )
donde t satisface P(T < z ) = 1 , que se encuentra en la
tabla de la t de Student.
Tests para la varianza cuando la media es desconocida:
Las hipotesis
a testear son
1) H0 : 2 = 02 , H1 : 2 < 02 ; (contra menor)
2) H0 : 2 = 02 , H1 : 2 > 02 ; (contra mayor)
3) H0 : 2 = 02 , H1 : 2 6= 02 ; (bilateral)
Estadstico: T =
(n1)S 2
02
Bajo la hipotesis
H0 ( 2 = 02 ) el estadstico T 2n1
(Qui-cuadrado con n 1 grados de libertad).
271
272
b) si existe evidencia para decidir que la varianza de la
temperatura en ese sector del reactor es mayor que (2o C)2 .
a) Las hipotesis
a testear son Ho : = 250 (o 250) vs H1 :
< 250.
0
de rechazo
y la region
El estadstico del test sera T = n X
S
para ese estadstico sera (, tn1,0,05 ].
En nuestro caso, n = 25 y por lo tanto t24,0,05 = 1,71. Como
el valor observado de T es 12,5, se rechaza H0 , es decir hay
evidencia de que la temperatura media del reactor es menor
que 250o C.
b) Las hipotesis
a testear son H0 : 2 = 4 (o 2 4 ) vs H1 :
2
>4
El estadstico del test sera T =
[2n1,0,05 , ).
(n1)S 2
02
de rechazo
y la region
273
Tests de hipotesis
de nivel aproximado (o asintotico)
cualquiera: Queremos
para la media de una distribucion
testear la media asumiendo la varianza 2 finita pero
desconocida.
0
asintotica
N(0, 1) por el TCL.
Se toma n grande y se trabaja como en el caso de
X N(, 2 ). Las regiones de rechazo son
1) RC = (, z ]
2) RC = [z , )
3) RC = (, z/2 ] [z/2 , )
274
Test de hipotesis
asintotico
para p de la Bernoulli
Hay tres posibles tests para p:
1) H0 : p = p0 , H1 : p < p0 ; (contra menor)
2) H0 : p = p0 , H1 : p > p0 ; (contra mayor)
3) H0 : p = p0 , H1 : p 6= p0 ; (bilateral)
Usamos el estadstico
T =
p0
X
np
,
p0 (1 p0 )
275
3) RC = (, z/2 ] [z/2 , )
donde z satisface P(Z < z ) = 1 .
Ejemplo del adivino Un adivino acierta el color de 850 de
1600 cartas puestas al dorso. Queremos decidir si creemos
que es adivino.
Sea p la probabilidad que el adivino acierte. Queremos testar
H0 : p = 1/2 (es decir, no mejora el puro azar) contra
H1 : p > 1/2 (tiene probabilidad de adivinar mayor que 1/2).
850
p0
p
np
= 1600 16001
p0 (1 p0 )
2
1
2
= 2,5
276
820
1600 16001
1
2
= 1,25
Supongamos que queremos testear las hipotesis
H0 : = 0 ,
277
H1 : 6= 0
Tests no parametricos
Basado en notas del Curso de
Exemplo 1: Genetica
Equilibrio de Hardy-Weinberg
278
El modelo teorico
dice que las probabilidades de los
genotipos de los hijos son:
Tipo
Probab
AA
1/4
Aa
1/2
aa
1/4
AA
26
Aa
45
aa
29
Total
100
279
Si el modelo es adecuado, las frecuencias esperadas de
descendientes para cada genotipo se calculan as:
EAA := 100 P(AA) = 100 14 = 25
EAa := 100 P(Aa) = 100 21 = 50
Eaa := 100 P(aa) = 100 12 = 50
Tenemos una tabla para las frecuencias esperadas y
observadas:
Genotipo
Frecuencia observada Oi
Frecuencia esperada Ei
AA
26
25
Aa
45
50
aa
29
25
Total
100
100
280
Considere una tabla de frecuencias observadas de k 2
categoras de resultados en n observaciones:
Categoras
Frecuencia observada
1
O1
2
O2
...
...
k
Ok
Total
n
281
Si Ei es el numero
esperado de individuos en la categora i
i = 1, . . . , k.
1
O1
E1
2
O2
E2
...
...
...
k
Ok
Ek
Total
n
n
Definimos el estadstico
2k1 (O) =
X (Oi Ei )2
Ei
i
282
Suponiendo que H0 es verdadera, ese estadstico tiene
asintotica
distribucion
Chi-cuadrado con k 1 grados de
tabuladas.
libertad. Sus probabilidades estan
283
H0 : p0 (AA) = 1/4 , p0 (Aa) = 1/2 e p0 (aa) = 1/4
H1 : por lo menos una de las tres igualdades no se verifica.
La tabla presenta los valores observados y esperados
calculados antes.
Genotipo
Frecuencia observada Oi
Frecuencia esperada Ei
AA
26
25
Aa
45
50
aa
29
25
Total
100
100
Calculo
del valor del estadstico del test (k = 3):
2k 1 (o) = 0,04 + 0,50 + 0,64 = 1,18
de qui-cuadrado con k 1 = 2 grados
Usando la distribucion
de libertad, el P-valor es
P = P(22 1,18) = 0,5543
284
Para = 0,05, como P = 0,5543 > 0,05, no
Conclusion:
0
15
25
8
48
1
27
30
13
70
2
50
12
9
71
3
43
8
10
61
Total
135
75
40
250
testeadas
Hipotesis
que seran
Test de independencia
H0 : X e Y son variables independientes.
H1 : X e Y no son independientes.
Cuantas observaciones debera haber en cada celda de la
tabla si X e Y fueran independientes?
En ese caso las probabilidades conjuntas deberan ser iguales
al producto de las probabilidades marginales:
pij = P(X = i, Y = j) = P(X = i)P(Y = j)
y el numero
esperado de observaciones debera ser
n(i) n(j)
n
285
286
bajo la hipotesis
de independencia.
n(i) := numero
de observaciones de X = i.
n(j) := numero
de observaciones de Y = j.
nij := numero
de observaciones de X = i conjunto con Y = j.
de independencia
El estadstico propuesto bajo la suposicion
esta dado por:
X (Eij Oij )2
2q (O) =
Eij
i,j
en
donde Oij = nij representa el numero
total de observacoes
Bajo la hipotesis
de independencia 2q (O) tiene distribucion
asintotica
Chi-cuadrado de q grados de libertad.
q := (f 1)(c 1), f :=numero
de filas; c := numero
de
columnas.
287
se basa en el P-valor
La regla de decision
P(o) = P(2q (O) 2q (o))
Si para fijo obtenemos p , rechazamos H0 , en caso
contrario no podemos rechazar.
del ejemplo: renta y numero
Continuacion
de hijos. n = 250.
H0 : renta y numero
de hijos son variables independientes.
0
25.92
14.40
7.68
48
1
37.80
21
11.20
70
2
38.34
21.30
11.36
71
3
32.94
18.30
9.76
61
Total
135
75
40
250
288
Donde, por ejemplo:
11,20 =
70 40
250
Categoras de renta: f = 3
Categoras de numero
de hijos: c = 4
q = (f 1)(c 1) = 2 3 = 6
El P-valor observado es P(o) = P(26 36, 62) = 0, 000 (por la
tabla de la 26 )
289
Como P = 0, 000 < = 0, 05 (por ejemplo), rechazamos la
independencia entre el numero
de hijos y la renta familiar a
Modelos no parametricos
Basado en el Curso de modelos no
parametricos
de Pedro Delicado, Universidad de Cataluna.
Modelos parametricos
versus no parametricos
X sigue un
de probabilidad F
modelo parametrico
si su distribucion
pertenece a una familia de distribuciones indexada por un
finita:
parametro
de dimension
X F,
F {F = {F , Rk }
estadstico parametrico.
290
de
condiciones de regularidad. Por ejemplo: F es una funcion
continua.
distribucion
Metodos
no parametricos
Son metodos
de inferencia
estadstica validos
cuando no se hacen hipotesis
parametricas
de los datos.
sobre la distribucion
Test de bondad de ajuste
de distribucion
F desconocida.
Sea X v.a. con funcion
de distribucion
conocida. Se desea testear
Sea F0 una funcion
H0 : F = F0
H1 : F 6= F0
se pueden considerar las hipotesis
Tambien
alternativas
unilaterales:
H1 : F (x) < F0 (x) para todo x
H1 : F (x) > F0 (x) para todo x
291
Disponemos de una muestra X = (X1 , . . . , Xn ) de X .
Vamos a estudiar el test de Kolmogorov-Smirnov.
emprica: Definimos Fn = Fn (x, x) por
Distribucion
Fn (x, x) =
1X
1{xi x}
n
i
Para cada x fijo cada termino
1{Xi x} es una variable
Fn (x) F (x)
np
=Z
F (x)(1 F (x))
en distribucion
292
293
Definicion
Dn+ := sup(Fn (x) F (x)),
xR
Dn := max{D
n , Dn } = sup |Fn (x) F (x)|
xR
Esto no lo probaremos.
5) Se pueden demostrar las siguientes convergencias en
Para z > 0,
distribucion.
2
lm P( nDn > z) = e2z
n
X
2 2
lm P( nDn > z) = 2
(1)i1 e2i z
i=0
294
6) Para n grande
4n(Dn+ )2 22
Es decir que el supremo de la diferencia converge a una
chi-cuadrado de 2 grados de libertad.
distribucion
crtica y el P-valor para los tres
Vamos a establecer la region
tests de bondad de ajuste
H0
F = F0
F = F0
F = F0
H1
F =
6 F0
F > F0
F < F0
RC ()
Dn (x) dn,
+
Dn+ (x) dn,
Dn (x) dn,
P-valor
P(Dn Dn (x))
P(Dn+ Dn+ (x))
P(Dn Dn (x))
donde Dn (x) son los valores observados, dn, esta definido por
P(Dn > dn, ) = , etc.
Ejemplo Queremos saber si los valores {1; 7; 2; 5; 5,3} vienen
mayor que la uniforme en [0, 10].
de una distribucion
H0 : F (x) = F0 (x) =
x
10
295
en [0, 10], etc.
1
1
Fn F
0
x
10
x
1
5 10
2
x
5 10
3
x
5 10
4
x
5 10
x
1 10
0
intervalo
x <0
0x <1
1x <2
2x <5
5 x < 5,3
5,3 x < 7
7 x < 10
10 x
3
10 .
296
4n(dn+ (x))2 = 4 5
P-valor =
P(22
9
100
= 1,8
Dos muestras
distribucion.
H0 : FX = FY
H1 : FX (x) > FY (x) para todo x.
Supongamos FX continua. Todas las observaciones son
distintas.
Para construir el estadstico, primero ordenamos las muestras.
Definiendo
A = {X1 , . . . , Xn , Y1 , . . . , Yn }
297
Tk = mn(A \ {T1 , . . . , Tk1 }),
k = 1, . . . , 2n.
Bajo la hipotesis
H0 todas las combinaciones de subidas y
M2n = max{S
k , k = 0, . . . , 2n}
298