Documente Academic
Documente Profesional
Documente Cultură
NICOLAS SAINTIER
Supongamos que el gerente de un supermercado quiere estimar el tiempo promedio que pasan sus clientes en su local. Llamemos T la variable aleatoria que nos da el tiempo que pas un cliente elegido al azar en el local. Entonces E (T ) = . Supongamos por el momento la varianza 2 = V ar(T ) conocida, digamos 2 = 256. Para estimar se podra seleccionar al azar n clientes, preguntar a cada uno cuanto tiempo pas en el local y hacer el promedio de estos tiempos. Para formalizar esto, denimos n variables aleatorias T1 ; ::; Tn por
Ti = tiempo pasado por el i-esimo cliente en el local: Note que los Ti son copias de T en el sentido que tienen misma distribucin que T y que los Ti son independientes (si suponemos que los clientes interrogados no tienen ninguna relacin entre ellos). Decimos que los Ti forman una muestra de tamao n de T . Queremos entonces aproximar por el promedio 1 P Tn := n n=1 Ti de los Ti , lo que es razonable pues E (Tn ) = . Dicho de i otra forma estamos aproximando el promedio verdadero por el promedio
muestral. La pregunta ahora es saber qu tan buena es esta aproximacin. La idea va a ser de armar en base a la muestra un intervalo de manera que se pueda armar que contiene a con cierta probabilidad dada, digamos por ejemplo 0:9. Es decir que buscamos dos variables aleatorias a; b, funciones de T1 ; :; Tn , tales que Vamos a encontrar eplcitamente a y b usando el Teorema central del lmite. Este teorema arma que
pn Tn % N (0; 1)
P (a
b) 9 0:9:
P (1:65 Z 1:65) 9 0:9: si Z es una va con distribucin N (0; 1). Luego pn Tn 1:65 9 0:9 P 1:65 es decir, despejando , P Tn 1:65 p Tn + 1:65 p 9 0:9: n n
Eso signica que el intervalo
[Tn 1:65 p
si n es grande (en general se considera que vale si n usando la tabla de N (0; 1) vemos que
! 30).
; Tn + 1:65 p ] n n
1
NICOLAS SAINTIER
contiene con conanza 9 0:9, o sea que es un intervalo de conanza para de conanza 0:9 aproximadamente. Note que este intervalo es aleatorio ya que sus extremos dependen de las variables aleatorias Ti . Si por ejemplo despues de seleccionar a n = 100 clientes y de preguntar a cada uno cuanto tiempo pas en el local obtenemos Tn = 33, podemos armar que
contiene con probabilidad 0:9 aproximadamente. Note que no tiene ms sentido hablar de probabilidad una vez calculado el IC con los datos muestrales ya que el intervalo [30:36; 35:64] no es mas aleatorio y luego pertenece o no a este intervalo es decir la probabilidad de que pertenezca a [30:36; 35:64] vale o 0 o 1. Si ahora hacemos otra encuesta preguntando a otras n = 100 personas, obtendremos a priori un promedio muestral distinto y luego otro intervalo de conanza para del que podremos seguir armando que contiene con conanza 0:9 aproximadamente. Formalizemos lo que acabamos de ver. Tenemos al principio una va X y una muestra X1 ; ::; Xn de tamao n de X (es decir n va independientes con misma distribucin que X ). Queremos aproximar usando esta muestra alguna cantidad que involucre X (por ejemplo su esperanza, su varianza, o si X tiene una densidad dependiendo de un parametro este mismo parametro (pensar en las distribuciones exponenciales, normales ... que dependen de uno o ms parmetros)).
Denicin 1. Un intervalo de conanza (IC) para de conanza 1 es un intervalo [a; b] con a y b funciones de X1 ; ::; Xn tal que P (a b) = 1 :
En el caso que
lim P (a n3+I
b) = 1 ; hablamos de IC de conanza asinttica 1 . Cmo encontrar a, y b ? Supongamos como en el ejemplo introductivo que queremos encontrar un IC para la esperanza de X de nivel asinttico 1 suponiendo conocida la varianza 2 de X . Repetimos lo hecho en el ejemplo. Tomemos una muestra X1 ; ::; Xn de X con n ! 30 (la bibliografa recomienda tomar n ! 30 para estar seguro que la aproxamicin por el TCl sea buena). Considerando el nmero positivo z=2 tal que (1) P (z=2 Z z=2 ) = 1 ; donde Z $ N (0; 1), y recordando el TCL, segn el que pn Xn % N (0; 1); n = 1 Pn es el promedio de los Xi , obtenemos que donde X n i=1 pn Xn z ) % 1 P (z=2 =2 o sea n z=2 p P X xn + z=2 p 9 1 : n n
Luego
Proposicin 0.1. Un IC para (con 2 conocido y n ! 30) de conanza asinttica 1 es (2) [Xn z=2 p ; Xn + z=2 p ] n n
El hecho de que el IC encontrado tenga conanza 1 asintticamente se debe a que usamos el TCL. En el caso que X $ N (; 2 ) (y luego X1 ; ::; Xn $ p N (; 2 )) no hace falta usar el TCL ya que sabemos que n Xn es N (0; 1) exactamente. Obtenemos por lo tanto
Xn z=2 p
xn + z=2 p n
=1
es decir que (2) es un IC para de conanza exactamente 1 . Si no conocemos la varianza 2 tenemos que aproximarla usando la muestra. Para esto consideramos la varianza muestral Sn denida por
2 Sn :=
n 1 i=1
n X
(Xi Xn )2 :
La vrianza muestral est generalmente dada en el enunciado. Se puede pro2 bar que E (Sn ) = 2 (ejercicio) lo que justica el uso de Sn para aproximar . Se puede probar en este caso que (2) con Sn al lugar de es un IC para de conanza 1 asintoticamente es decir
Sn [Xn z=2 p
es un IC para de conanza 1 asintticamente. Finalmente la frmula (2) vale si podemos usar el TCL, lo que en general ocurre si disponemos de n ! 30 datos muestrales. En el caso que tengamos pocos datos, es decir n < 30, no se recomienda en general usar el TCL. Si podemos suponer los datos normales, es decir X $ N (; 2 ), entonces dos casos se presentan segn si conocemos o no 2 . Si la varianza es conocido p entonces listo ! ya que n Xn $ N (0; 1) y llegamos al IC (2) de conanza exactamente 1 como antes. Si en cambio no conocemos 2 entonces 2 debemos aproximarlo por la varianza muestral Sn . En este caso se puede pn Xn no tiene mas una distribucin N (0; 1) sino otra llamada probar que t de Student con n 1 grados de libertad. Se nota tn1 . Esta distribucin se parece mucho a la normal salvo que tiene las colas ms pesadas. Sus valores estn tabulados de la mismas manera que la N (0; 1). El IC (2) se escribe en este caso
[Xn t=2 p
S ; Xn + z=2 pn ] n n
donde t=2 se encuentra como z=2 pero mirando la tabla de tn1 al lugar de N (0; 1).
;X + t p ] n n =2 n
NICOLAS SAINTIER
Volvamos ahora al ejemplo introductivo con un enfoque un poco distinto. Vimos antes que (3) o sea
interrogadas. Examinemos esta posibilidad de ms cerca. Fijamos la conanza 1 , por ejemplo 0:9 como antes, o sea z=2 = 1:65, y busquemos n para que el error muestral sea 0:05. Estamos buscando entonces n tal que Despejando n obtenemos
9 0 :9 P 1:65 p n es decir que el error muestral jTn j, el error cometido al estimar por = 0:264 si tomamos n = 1000. Como hacer para Tn , es menor que 1:65 pn disminuir este error es decir obtener una estimacin ms na de , un IC ms chico para ? En general el error muestral para el IC (2) es error muestral en (2) = z=2 p : n Para disminuir esta cantidad podemos disminuir z=2 , es decir dismuir 1 , lo que implica un IC menos conable, o aumentar la cantidad n de personas
jTn j
Tn + 1:65 p 9 0:9 n [Tn 1:65 p ; Tn + 1:65 p ] n n 256, es un IC para de conanza 1 = 0:9 asintticamente.
P Tn 1:65 p n
z=2 p n
=
0:05:
n!
z=2 2
0:05
!2
= 278784:
Luego debemos interrogar al menos 278784 para asegurar un error muestral 0:05 con proba % 0:9. Examinemos para terminar el caso particular de una muestra X1 ; ::; Xn de la distribucin de Bernouilli con parmetro p desconocido. Supongamos por ejemplo que, durante el perodo elecroral, queremos aproximar el porcentaje p de votantes a favor del candidato A. Como sera demasiado costoso preguntar a cada votante del pas, se elige una muestra de n votantes al azar. Podemos pensar que el porcentaje en esta muestra, el porcentaje muestral, de votantes a favor de A aproxime el porcentaje poblacional p. Para formalizar esto introducimos n va X1 ; ::; Xn denidas por
Xi =
Entonces Xi $ Ber(p), E (Xi ) = p, V ar(Xi ) = p(1 p). Luego por el TCL (suponiendo n ! 30 para estar seguro que la aproximacin por el TCL es buena),
pn pXn p % N (0; 1) p(1 p)
p(1 p) pn ; Xn + z=2 p(1n p) ] p es un IC para p de conanza asinttica 1 . El problema es que no conocemos p (sino no hara falta hacer una encuesta !). Como pensamos que Xn aproxima p, podramos reemplazar p por Xn en esta frmula. Vamos a admitir que haciendo as obtenemos de nuevo un IC para p, es decir: Proposicin 0.2. " # p p Xn (1 Xn ) Xn (1 Xn ) pn pn (4) ; Xn + z=2 Xn z=2 es un IC para p de conanza asinttica 1 . Por ejemplo con n = 1000, 1 = 0:9 es decir z=2 = 1:65, Xn = 0:3 (es decir el 30% de las personas interrogadas estn vez estan a favor de A)
[Xn z=2
Pn
obtenemos el IC
[0:3 1:65
que contiene al verdadero porcentaje de votantes a favor de A en la poblacin entera con conanza 0:9. pX (1X ) El error muestral en el IC (4) es z=2 npn n . Si ahora queremos determinar a cuntas personas debemos interrogar para que el error muestral sea 0:05 por ejemplo, es decir buscamos n tal que
z=2
nos encontramos con el problema que no conocemos Xn (ya que no conoce mos n). Como x(1 x) 1=4 si x P [0; 1] (ejercicio) y que Xn P [0; 1] (es n (1 Xn ) 1=4 siempre. Luego nos basta una proporcin), tenemos que X encontrar n tal que p
Xn (1 Xn ) pn
0:05
z=2
2 z=2 : 4 0:052 Si queremos un nivel de conanza de 0:9 aproximadamente, es decir z=2 = 2 1:65, obtenemos n ! 41:65 2 = 272:25. Liego debemos interrogar a al menos 0:05 273 votantes para tener un IC para p de conanza 0:9 con un error muestral
es decir
1= pn4
0:05
n!
inferior al 5%.