Sunteți pe pagina 1din 5

INTRODUCCIN A LOS INTERVALOS DE CONFIANZA

NICOLAS SAINTIER
Supongamos que el gerente de un supermercado quiere estimar el tiempo promedio  que pasan sus clientes en su local. Llamemos T la variable aleatoria que nos da el tiempo que pas un cliente elegido al azar en el local. Entonces E (T ) = . Supongamos por el momento la varianza  2 = V ar(T ) conocida, digamos  2 = 256. Para estimar  se podra seleccionar al azar n clientes, preguntar a cada uno cuanto tiempo pas en el local y hacer el promedio de estos tiempos. Para formalizar esto, denimos n variables aleatorias T1 ; ::; Tn por

Ti = tiempo pasado por el i-esimo cliente en el local: Note que los Ti son copias de T en el sentido que tienen misma distribucin que T y que los Ti son independientes (si suponemos que los clientes interrogados no tienen ninguna relacin entre ellos). Decimos que los Ti forman una muestra de tamao n de T . Queremos entonces aproximar  por el promedio 1 P   Tn := n n=1 Ti de los Ti , lo que es razonable pues E (Tn ) = . Dicho de i otra forma estamos aproximando el promedio verdadero  por el promedio
muestral. La pregunta ahora es saber qu tan buena es esta aproximacin. La idea va a ser de armar en base a la muestra un intervalo de manera que se pueda armar que contiene a  con cierta probabilidad dada, digamos por ejemplo 0:9. Es decir que buscamos dos variables aleatorias a; b, funciones de T1 ; :; Tn , tales que Vamos a encontrar eplcitamente a y b usando el Teorema central del lmite. Este teorema arma que
 pn Tn  % N (0; 1)

P (a

b) 9 0:9:

P (1:65 Z 1:65) 9 0:9: si Z es una va con distribucin N (0; 1). Luego   pn Tn  1:65 9 0:9 P 1:65  es decir, despejando ,       P Tn 1:65 p  Tn + 1:65 p 9 0:9: n n
Eso signica que el intervalo
 [Tn 1:65 p

si n es grande (en general se considera que vale si n usando la tabla de N (0; 1) vemos que

! 30).

Por otro lado

   ; Tn + 1:65 p ] n n
1

NICOLAS SAINTIER

contiene  con conanza 9 0:9, o sea que es un intervalo de conanza para  de conanza 0:9 aproximadamente. Note que este intervalo es aleatorio ya que sus extremos dependen de las variables aleatorias Ti . Si por ejemplo despues de seleccionar a n = 100 clientes y de preguntar a cada uno cuanto  tiempo pas en el local obtenemos Tn = 33, podemos armar que

p p 256 256 [33 1:65 p ; 33 1:65 p ] = [30:36; 35:64]


100 100

contiene  con probabilidad 0:9 aproximadamente. Note que no tiene ms sentido hablar de probabilidad una vez calculado el IC con los datos muestrales ya que el intervalo [30:36; 35:64] no es mas aleatorio y luego  pertenece o no a este intervalo es decir la probabilidad de que  pertenezca a [30:36; 35:64] vale o 0 o 1. Si ahora hacemos otra encuesta preguntando a otras n = 100 personas, obtendremos a priori un promedio muestral distinto y luego otro intervalo de conanza para  del que podremos seguir armando que contiene  con conanza 0:9 aproximadamente. Formalizemos lo que acabamos de ver. Tenemos al principio una va X y una muestra X1 ; ::; Xn de tamao n de X (es decir n va independientes con misma distribucin que X ). Queremos aproximar usando esta muestra alguna cantidad  que involucre X (por ejemplo su esperanza, su varianza, o si X tiene una densidad dependiendo de un parametro este mismo parametro (pensar en las distribuciones exponenciales, normales ... que dependen de uno o ms parmetros)).

Denicin 1. Un intervalo de conanza (IC) para  de conanza 1 es un intervalo [a; b] con a y b funciones de X1 ; ::; Xn tal que P (a  b) = 1 :
En el caso que
lim P (a n3+I

b) = 1 ; hablamos de IC de conanza asinttica 1 . Cmo encontrar a, y b ? Supongamos como en el ejemplo introductivo que queremos encontrar un IC para la esperanza  de X de nivel asinttico 1 suponiendo conocida la varianza  2 de X . Repetimos lo hecho en el ejemplo. Tomemos una muestra X1 ; ::; Xn de X con n ! 30 (la bibliografa recomienda tomar n ! 30 para estar seguro que la aproxamicin por el TCl sea buena). Considerando el nmero positivo z =2 tal que (1) P (z =2 Z z =2 ) = 1 ; donde Z $ N (0; 1), y recordando el TCL, segn el que  pn Xn  % N (0; 1);   n = 1 Pn es el promedio de los Xi , obtenemos que donde X n i=1  pn Xn  z ) % 1 P (z =2 =2  o sea      n z =2 p P X  xn + z =2 p 9 1 :  n n 

INTRODUCCIN A LOS INTERVALOS DE CONFIANZA

Luego

Proposicin 0.1. Un IC para  (con 2 conocido y n ! 30) de conanza asinttica 1 es     (2) [Xn z =2 p ; Xn + z =2 p ] n n
El hecho de que el IC encontrado tenga conanza 1 asintticamente se debe a que usamos el TCL. En el caso que X $ N (;  2 ) (y luego X1 ; ::; Xn $ p  N (; 2 )) no hace falta usar el TCL ya que sabemos que n Xn es N (0; 1) exactamente. Obtenemos por lo tanto

donde z =2 esta denido por (1).

  Xn z =2 p

 xn + z =2 p  n

=1

es decir que (2) es un IC para  de conanza exactamente 1 . Si no conocemos la varianza  2 tenemos que aproximarla usando la muestra. Para esto consideramos la varianza muestral Sn denida por
2 Sn :=

n 1 i=1

n X

 (Xi Xn )2 :

La vrianza muestral est generalmente dada en el enunciado. Se puede pro2 bar que E (Sn ) =  2 (ejercicio) lo que justica el uso de Sn para aproximar . Se puede probar en este caso que (2) con Sn al lugar de  es un IC para  de conanza 1 asintoticamente es decir

Sn  [Xn z =2 p

es un IC para  de conanza 1 asintticamente. Finalmente la frmula (2) vale si podemos usar el TCL, lo que en general ocurre si disponemos de n ! 30 datos muestrales. En el caso que tengamos pocos datos, es decir n < 30, no se recomienda en general usar el TCL. Si podemos suponer los datos normales, es decir X $ N (;  2 ), entonces dos casos se presentan segn si conocemos o no  2 . Si la varianza es conocido p  entonces listo ! ya que n Xn $ N (0; 1) y llegamos al IC (2) de conanza exactamente 1 como antes. Si en cambio no conocemos  2 entonces 2 debemos aproximarlo por la varianza muestral Sn . En este caso se puede pn Xn no tiene mas una distribucin N (0; 1) sino otra llamada  probar que  t de Student con n 1 grados de libertad. Se nota tn1 . Esta distribucin se parece mucho a la normal salvo que tiene las colas ms pesadas. Sus valores estn tabulados de la mismas manera que la N (0; 1). El IC (2) se escribe en este caso
 [Xn t =2 p

S  ; Xn + z =2 pn ] n n

donde t =2 se encuentra como z =2 pero mirando la tabla de tn1 al lugar de N (0; 1).

   ;X + t p ] n n =2 n

NICOLAS SAINTIER

Volvamos ahora al ejemplo introductivo con un enfoque un poco distinto. Vimos antes que (3) o sea

interrogadas. Examinemos esta posibilidad de ms cerca. Fijamos la conanza 1 , por ejemplo 0:9 como antes, o sea z =2 = 1:65, y busquemos n para que el error muestral sea 0:05. Estamos buscando entonces n tal que Despejando n obtenemos

 9 0 :9 P 1:65 p n  es decir que el error muestral jTn j, el error cometido al estimar  por  = 0:264 si tomamos n = 1000. Como hacer para  Tn , es menor que 1:65 pn disminuir este error es decir obtener una estimacin ms na de , un IC ms chico para  ? En general el error muestral para el IC (2) es  error muestral en (2) = z =2 p : n Para disminuir esta cantidad podemos disminuir z =2 , es decir dismuir 1 , lo que implica un IC menos conable, o aumentar la cantidad n de personas
 jTn j

con  2 = Podemos reescribir (3) como

  Tn + 1:65 p 9 0:9 n     [Tn 1:65 p ; Tn + 1:65 p ] n n 256, es un IC para  de conanza 1 = 0:9 asintticamente. 
 

  P Tn 1:65 p n

 z =2 p n
=

0:05:

n!

 z =2  2
0:05

1:65: 256 0:05

!2

= 278784:

Luego debemos interrogar al menos 278784 para asegurar un error muestral 0:05 con proba % 0:9. Examinemos para terminar el caso particular de una muestra X1 ; ::; Xn de la distribucin de Bernouilli con parmetro p desconocido. Supongamos por ejemplo que, durante el perodo elecroral, queremos aproximar el porcentaje p de votantes a favor del candidato A. Como sera demasiado costoso preguntar a cada votante del pas, se elige una muestra de n votantes al azar. Podemos pensar que el porcentaje en esta muestra, el porcentaje muestral, de votantes a favor de A aproxime el porcentaje poblacional p. Para formalizar esto introducimos n va X1 ; ::; Xn denidas por

Xi =

Entonces Xi $ Ber(p), E (Xi ) = p, V ar(Xi ) = p(1 p). Luego por el TCL (suponiendo n ! 30 para estar seguro que la aproximacin por el TCL es buena),
 pn pXn p % N (0; 1) p(1 p)

1 si la i-sima persona interrogada piensa votar para 0 si no

INTRODUCCIN A LOS INTERVALOS DE CONFIANZA

p(1 p)  pn ; Xn + z =2 p(1n p) ] p es un IC para p de conanza asinttica 1 . El problema es que no conocemos p (sino no hara falta hacer una encuesta !). Como pensamos que   Xn aproxima p, podramos reemplazar p por Xn en esta frmula. Vamos a admitir que haciendo as obtenemos de nuevo un IC para p, es decir: Proposicin 0.2. " # p p     Xn (1 Xn )  Xn (1 Xn )  pn pn (4) ; Xn + z =2 Xn z =2 es un IC para p de conanza asinttica 1 .  Por ejemplo con n = 1000, 1 = 0:9 es decir z =2 = 1:65, Xn = 0:3 (es decir el 30% de las personas interrogadas estn vez estan a favor de A)
 [Xn z =2

1  donde Xn = n obtenemos que

Pn

i=1 Xi es el promedio de los

Xi . Haciendo como antes


p

obtenemos el IC
[0:3 1:65

que contiene al verdadero porcentaje de votantes a favor de A en la poblacin entera con conanza 0:9. pX (1X )   El error muestral en el IC (4) es z =2 npn n . Si ahora queremos determinar a cuntas personas debemos interrogar para que el error muestral sea 0:05 por ejemplo, es decir buscamos n tal que

0:3(1 0:3) p ; 0:3 + 1:65 1000

0:3(1 0:3) p ] % [0:28; 0:32] 1000

z =2

 nos encontramos con el problema que no conocemos Xn (ya que no conoce mos n). Como x(1 x) 1=4 si x P [0; 1] (ejercicio) y que Xn P [0; 1] (es   n (1 Xn ) 1=4 siempre. Luego nos basta una proporcin), tenemos que X encontrar n tal que p

  Xn (1 Xn ) pn

0:05

z =2

2 z =2 : 4 0:052 Si queremos un nivel de conanza de 0:9 aproximadamente, es decir z =2 = 2 1:65, obtenemos n ! 41:65 2 = 272:25. Liego debemos interrogar a al menos 0:05 273 votantes para tener un IC para p de conanza 0:9 con un error muestral

es decir

1= pn4

0:05

n!

inferior al 5%.

S-ar putea să vă placă și