Documente Academic
Documente Profesional
Documente Cultură
Unidad 4
Distribuciones Muestrales. Estimación
1. INTRODUCCIÓN
A partir de una misma población de valores de una variable se pueden tomar muchas muestras
distintas de un mismo tamaño. En el ejemplo que sigue, se verá como se obtienen los valores de
una variable aleatoria, la media muestral, determinada a partir de muestras tomadas de una
población. Veremos cómo obtener las probabilidades de los valores de esta variable con lo que
obtendremos su distribución de probabilidad, que en este caso particular recibe el nombre de
distribución muestral.
Suponga que una variable aleatoria X puede asumir los valores 2, 4, 6, y 8, es decir X = 2,4,6,8 .
Supongamos que todos los valores de la variable tienen la misma probabilidad. Bajo estas
condiciones es fácil comprobar que E ( X ) = 5 , qué Var ( X ) = 2 = 5 y que por lo tanto = 2,23
.
Adicionalmente, suponga que de esta población se toman muestras de tamaño 2 con reposición.
Para ello se pueden escribir los números 2, 4, 6 y 8 en cuatro bolas, ponerlas en una bolsa e ir
seleccionando dos bolas por vez. Una muestra puede consistir en los números 2 y 8, otra formada
por 8 y 6 etc. ¿Cuántas muestras diferentes pueden resultar en este experimento? En total existen
16 muestras posibles que se pueden seleccionar de la población. La tabla 1 arroja las 16 muestras
posibles y en ella X 1 designa el número de la primera bola que se saca y X 2 el número de la
segunda. Note que X 1 y X 2 pueden considerarse como variables aleatorias porque sus valores
están precedidos por una selección aleatoria de los objetos analizados.
Si bien podrían obtenerse hipotéticamente un número infinito de muestras, solamente habrá 16
muestras posibles diferentes.
Muestra X 1 X 2 Media muestral X
1 2 2 2
2 2 4 3
3 2 6 4
4 2 8 5
5 4 2 3
6 4 4 4
7 4 6 5
8 4 8 6
9 6 2 4
10 6 4 5
11 6 6 6
12 6 8 7
13 8 2 5
14 8 4 6
15 8 6 7
16 8 8 8
Tabla 1
En la tabla anterior también se muestra la media aritmética de cada muestra. La variable aleatoria
media muestral X = ( X 1 + X 2 ) / 2 toma los valores 2, 3, 4, 5, 6, 7 y 8. Estos valores se designan
con x y son todos los valores que toma X . De las 16 muestras posibles, una tiene media 2, dos
tienen media 3, tres medias 4, cuatro medias 5, tres medias 6, dos medias 7 y una media 8.
2
A partir de la tabla 1, se obtiene la tabla 2 donde aparecen los valores de la variable X y sus
probabilidades, es decir, la distribución de probabilidad de esta variable. Para construirla
asumimos que cada muestra tiene la misma probabilidad.
X Número de muestras Probabilidad P ( X )
2 1 1/16
3 2 2/16
4 3 3/16
5 4 4/16
6 3 3/16
7 2 2/16
8 1 1/16
Tabla 2
La distribución muestral de la media indicada en la tabla 2 se representa gráficamente en la
figura 1.
0,2594
0,2078
Probabilidad
0,1563
0,1047
0,0531
2 3 4 5 6 7 8
Media muestral
Figura 1
Construir la distribución muestral de la media muestral con enumeración de todas las muestras
posibles es un proceso no efectivo y en algunos casos imposible.
A continuación, nos proponemos desarrollar los conceptos que nos permitirán establecer la
distribución de probabilidad de la media muestral y de otras variables aleatorias sin necesidad de
extraer muestras para obtener las frecuencias relativas.
2. MUESTRAS ALEATORIAS. ESTADÍSTICOS
Supongamos tener cierta población (variable aleatoria) la cual pretendemos estudiar. Ésta podrá
tener cierta distribución como por ejemplo binomial, normal, etc. Llamaremos X a esta variable y
supongamos que vamos a hacer n observaciones de la población respectiva.
Estas observaciones serán datos concretos una vez que hayamos llevado a cabo el acto físico de
tomarlas, antes, solo podemos considerar valores posibles de acuerdo a la distribución de X, o sea,
la respuesta es aleatoria.
Por ello, a cada una de estas observaciones que luego se materializarán, las denotaremos
X 1 , X 2 ,..., X n y se consideran n representaciones de la variable X y por ello con su misma
distribución. Si, además, las variables X 1 , X 2 ,..., X n son independientes, tendremos lo que se
llama una muestra aleatoria.
3
Definición. Una muestra aleatoria de una población X es una sucesión X 1 , X 2 ,..., X n de variables
aleatorias independientes y con la misma distribución que X, es decir, con la misma función de
densidad.
Como consecuencia de esta definición, las variables aleatorias X 1 , X 2 ,..., X n tendrán el mismo
valor esperado y la misma varianza que X.
Dada la sucesión X 1 , X 2 ,..., X n de variables aleatorias, podemos realizar con ellas operaciones
aritméticas para obtener nuevas variables aleatorias tales como
i =1 X i ; i =1 X i2
n n
Y= U=
n n
(X i − X )2 ; ( X i − ) 2
n n
V = i =1 W = i =1
n n
Estas fórmulas pueden ser tales que solo sean desconocidos los valores de X 1 , X 2 ,..., X n , esto
es, que no contengan constantes desconocidas. Cuando esto ocurre, a tales expresiones se las
llama estadísticos.
Definición. Un estadístico o estadística es una fórmula que relaciona las variables de una muestra
aleatoria X 1 , X 2 ,..., X n y que no incluyen constantes desconocidas.
Xi
n n
i =1
X i2
Por ejemplo Y = i =1 yU= son estadísticos. En cambio, como generalmente
n n
( X i − ) 2
n
es desconocida W = i =1 no lo es.
n
El proceso de inferencia se lleva a cabo utilizando estadísticos (variables aleatorias) como un
medio para tal fin. Son de mayor uso las denominadas media y varianza muestral cuyas
expresiones son
Xi
n
Media muestral: X = i =1
n
n
i =1
(X i − X )2
Varianza muestral: S 2
=
n −1
Como los estadísticos son variables aleatorias, estarán caracterizados por su distribución de
probabilidad.
Definición. La distribución de probabilidad del estadístico ̂ recibe el nombre de distribución de
muestreo o distribución muestral del estadístico.
Cuando digamos por ejemplo que X tiene distribución normal, nos estamos refiriendo a su
distribución muestral.
3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL
Como ya se ha señalado, la media muestral, por ser un estadístico, es una variable aleatoria y
como tal tendrá una distribución de probabilidad.
A partir de la tabla 2 y teniendo en cuenta la definición de valor esperado, tendremos
Se sabe que la media o valor esperado de la población a partir de la cual se toman las muestras
está dada por
E( X ) = 2 + 4 + 6 + 8 = 5
4
Así que la media de X es igual a la media de X, esto es X = . Este resultado no solo es válido
para este problema, sino que es una propiedad entre las dos medias.
Teorema. Sea X 1 , X 2 ,..., X n una muestra aleatoria tomada de una población con media y
varianza 2 y X = ( n
i =1
)
X i / n la media muestral, entonces E ( X ) = .
Demostración
Utilizamos las propiedades del valor esperado
n X
E ( X ) = E i =1 = 1 E ( X + X + ... + X )
i
n n 1 2 n
E ( X ) = 1 E ( X 1 ) + E ( X 2 ) + ... + E ( X n ) = 1 E ( X ) + E ( X ) + ... + E ( X )
n n
n veces
E ( X 2 ) = 2 2 1 + 3 2 2 + 4 2 3 + 5 2 4 + 6 2 3 + 7 2 2 + 8 2 1 = 440 = 27,5
16 16 16 16 16 16 16 16
Por lo tanto
Var ( X ) = 27,5 − 5 2 = 2,5
Var ( X ) = 30 − 52 = 5
n n 2 1 2 n
5
= 12 nVar ( X ) =
2
n n
dado que las variables aleatorias son independientes.
Por lo tanto 2X = 2 / n . A partir de la varianza de X se puede obtener su desviación estándar
que estará dada por X = / n . La desviación estándar de la variable aleatoria media muestral
recibe el nombre de error estándar.
Como puede verse, el error estándar es directamente proporcional a e inversamente
proporcional a la raíz cuadrada del tamaño de la muestra. Por lo tanto, para un valor dado de ,
se puede controlar el valor de X al controlar el tamaño de la muestra, sea aumentándola o
disminuyéndola.
Por ejemplo, si n = 1 , entonces X = . Pero si n = 100 , X será la décima parte de la
desviación estándar de la población. Si n se hace infinitamente grande, X tiende a cero lo que
indica que la media muestral es idéntica a la media de la población.
En general, cuanto mayor sea n, más probable es que X se aproxime indefinidamente a la media
de la población.
Hasta aquí hemos hallado la media o valor esperado y la varianza de la variable aleatoria media
muestral X , pero ¿cuál es la forma de la distribución de la variable?
La clave para responder este interrogante está en el último teorema que enunciamos en la unidad
anterior. En él dijimos que cualquier combinación lineal de variables aleatorias independientes
que tengan distribución normal también tendrá distribución normal.
lineal de variables aleatorias independientes, su función de densidad estará dada por el siguiente
teorema.
Teorema. Si X 1 , X 2 ,..., X n es una muestra aleatoria proveniente de una población con
distribución normal con media y varianza 2 , entonces X = i =1 X i / n tiene distribución
n
X −
Z= ~ N (0,1)
/ n
Ejemplo 1. Se sabe que el tiempo que tardan los técnicos de una fábrica en ensamblar cierto
producto, es una variable aleatoria que tiene distribución normal con media = 10 y varianza
2 = 9 . ¿Cuál es la probabilidad de que una muestra aleatoria de 16 técnicos arroje un promedio
de ensamble mayor o igual a 11 minutos?
Solución
La variable aleatoria que nos interesa es X = tiempo de ensamble. De acuerdo con los datos del
problema X ~ N ( = 10, 2 = 9) . Por lo que sabemos, X también tendrá distribución normal
con media X = 10 y varianza 2X = 9 /16 . La muestra tomada es de tamaño 16, es decir, n = 16
y se pide calcular P ( X 11) .
6
Para efectuar el cálculo hay que estandarizar el valor x = 11 . Lo hacemos de la forma habitual
(11 − 10)
z= = 1,33
3/ 4
Por lo tanto P( X 11) = P( Z 1,33) = 1 − P( Z 1,33) = 0,09176 .
4. TEOREMA DEL LÍMITE CENTRAL
Hemos dicho que, si la población de la cual se toman las muestras aleatorias tiene distribución
normal, entonces la variable aleatoria media muestral también la tiene. Como consecuencia de
( X − )
ello, la variable Z = tiene distribución normal estándar. Sin embargo, este resultado es
/ n
aproximadamente correcto aún en poblaciones no normales como se establece en el siguiente
teorema denominado teorema del límite central.
Teorema. Si X es una variable aleatoria con media y varianza 2 , la distribución de la variable
aleatoria media muestral X , calculada a partir de muestras de tamaño n es aproximadamente
normal con media y varianza 2 / n si n es lo suficientemente grande.
Pero si se lleva adelante un muestreo sin reposición de una población finita, ¿se cumplirán las
mismas relaciones?
Es importante realizar el siguiente aporte. Se tiene un muestro sin reposición cuando la unidad
seleccionada y medida no es devuelta a la población una vez que ha sido seleccionada.
Esto evita que la unidad observacional pueda ser seleccionada nuevamente.
La mayoría de las muestras que se toman de un grupo de personas, de familias, etc. con el fin de
realizar algún trabajo de investigación, son muestras sin reposición. Esto tiene una explicación
lógica. Piense el estudiante qué sentido tendría seleccionar una cierta unidad, medir las variables
relevantes, reponerla y volver a seleccionarla para volver a medir lo que ya se ha medido.
Evidentemente esta forma de proceder distorsionará los resultados de la investigación.
Volvamos a nuestra pregunta original. Se quieren tomar muestras de tamaño 2 de la población del
conjunto S = {2, 4, 6, 8} que ya se tuvo en cuenta al principio de la unidad cuando se estudió el
muestreo con reposición.
7
Las muestras posibles de tamaño 2 sin reposición que podemos tomar de esta población son las
que se muestran en la tabla 3. También se muestran los valores de la media muestral para cada
muestra.
Muestra X1 X2 Media muestral X
1 2 4 3
2 2 6 4
3 2 8 5
4 4 2 3
5 4 6 5
6 4 8 6
7 6 2 4
8 6 4 5
9 6 8 7
10 8 2 5
11 8 4 6
12 8 6 7
Tabla 3
E ( X 2 ) = 3 2 1 + 4 2 1 + 5 2 2 + 6 2 1 + 7 2 1 = 160 = 80 .
6 6 6 6 6 6 3
Por lo tanto
Var ( X ) = 80 − 5 2 = 80 − 75 = 5
3 3 3
Cuando llevamos adelante un muestreo con reposición, vimos que 2X = 5 / 2 , luego, las
varianzas de los dos tipos de muestreo difieren. ¿Cuál es, en este caso, la relación entonces entre
2X y 2 ?
Cuando el muestreo se efectúa a partir de una población finita y el mismo se realiza sin reposición,
puede demostrarse que 2X = N − n en donde N es el tamaño de la población y n es el
2
n N −1
tamaño de la muestra.
8
n N −1
Recuerde el lector que el factor N − n es el factor de corrección para poblaciones finitas (fcp)
N −1
y en los problemas prácticos solo se lo tiene en cuanta cuando el cociente n / N , llamado fracción
de muestreo es mayor o igual a 0,05.
Ejemplo 2. Una empresa emplea 1.500 personas. La cantidad promedio gastada durante un año
en servicios médicos personales fue de $25,75 y la desviación estándar fue de $5,25. ¿Cuál es la
probabilidad de que una muestra aleatoria sin reposición de 100 empleados de una media
comprendida entre $25 y $27?
Solución
Tenemos la variable aleatoria X = gastos en servicios médicos anuales
De acuerdo con los datos del problema = 25,75 y = 5,25 pesos. Nada se sabe de la
distribución de esta variable. Pero como n = 100, de acuerdo con el teorema del límite central, X
tendrá distribución aproximadamente normal con media o valor esperado X = 25,75 . Como la
fracción de muestreo es igual a 0,067 debemos considerar el cpf. Por lo tanto
5,252 1500 − 100
2X = = 0,257 . Se pide calcular P ( 25 X 27) . Estandarizando
100 1500 − 1
25 − 25,75 27 − 25,75
z1 = = −1,48 ; z 2 = = 2,46
0,257 0,257
X −
T=
S/ n
cuando el muestreo se hace de una población que está distribuida normalmente. Esta distribución,
que se conoce con el nombre de distribución t de Student o simplemente con el nombre de
distribución t nos sirve para hacer inferencias sobre medias poblacionales cuando no se conoce la
desviación estándar de la población. Observe que la variable T contiene en el denominador la
desviación estándar de la muestra en lugar de .
Analizaremos brevemente cuales son las principales propiedades de esta distribución de
probabilidad para posteriormente ver cómo es posible utilizarla para realizar inferencias acerca
de parámetros de una población. Comenzamos con la definición de esta nueva distribución de
probabilidad.
Definición. La variable aleatoria X tiene distribución t de Student si su función de densidad es la
siguiente
n +1 n +1
−
2 t2 2
f (t ) = 1 +
n n
n
2
Donde ( ) = t −1e −t dx es la función Gamma.
0
La complejidad matemática de esta definición hace que resulte imposible apreciar cuales son las
propiedades más importantes de esta distribución que, como veremos, es muy utilizada en
Estadística. Lo que haremos en consecuencia es listar cuales son las principales propiedades de
esta y ver de qué manera se la utiliza con propósitos inferenciales.
Propiedades de la distribución t de Student
✓ Si una variable aleatoria T tiene distribución de Student, entonces − t . Es decir,
la variable puede tomar cualquier valor real.
n
✓ E (T ) = 0 y Var ( X ) = .
n−2
✓ −
f (t ) dt = 1
✓ La distribución t, al igual que la distribución normal estándar tiene forma de campana y
media igual a cero alrededor de la cual es simétrica.
3
✓ Pr(a X b) = f (t ) dt
a
✓ El único parámetro de la distribución t son sus grados de libertad (un poco más adelante
aclararemos este concepto) y hay una distribución t para cada grado de libertad que se
consideren.
✓ La distribución t tiende a la distribución normal estándar a medida que aumentan los
grados de libertad de aquella.
✓ En la figura 2 se muestran las gráficas de dos distribuciones t de Student para diferentes
grados de libertad.
10
Figura 2
Hay tablas que se pueden utilizar en las aplicaciones que requieren el uso de la distribución t. Una
de esas tablas es la tabla F que acompaña este material.
La columna que está más a la izquierda de esta tabla contiene diversos valores de grados de
libertad. Los encabezamientos de las columnas indican qué proporción del área total bajo la curva
de la distribución t, para determinado número de grados de libertad, se encuentra a la izquierda
del valor correspondiente de T dado en el cuerpo de la tabla.
Si estamos interesados, por ejemplo, en la distribución t con diez grados de libertad, podemos ver,
en la tabla F, que 0,975 es el área bajo la curva se encuentra a la izquierda de T = 2,2281. La
porción de área que se encuentra a la derecha de 2,2281 es igual a 1 − 0,975 = 0,025 . Utilizando
el símbolo T10 para indicar que nos estamos refiriendo a una variable aleatoria con distribución t
con 10 grados de libertad, podemos expresar las ideas anteriores escribiendo
P(T10 2,2281) = 0,975 o P(T10 2,2281) = 0,025
dada la equivalencia entre área y probabilidad.
Como hemos dicho, la distribución t se aproxima a la distribución normal a medida que aumentan
los grados de libertad. Para grados infinitos de libertad, las dos distribuciones son idénticas.
Podemos verificar este hecho observando que los valores de t en la última fila de la tabla F son
iguales a los valores de Z correspondientes a valores determinados, tales como 0,90, 0,95; etc.
Por último, observemos que, aunque la distribución t se basa en la hipótesis de que el muestreo
se hace en una población distribuida normalmente, se pueden tolerar algunos distanciamientos de
esta suposición. En otras palabras, podemos utilizar, en la práctica, la distribución t, aunque la
población de donde se obtiene la muestra no esté distribuida normalmente, con la condición de
que el alejamiento respecto de la normalidad no sea demasiado grande.
X −
Hacemos hincapié en que la variable aleatoria tendrá aproximadamente distribución
S/ n
normal estándar cuando el tamaño de la muestra es grande. En consecuencia, muchos
investigadores prefieren utilizar la variable aleatoria Z y no la T cuando el tamaño de la muestra
es grande aun cuando no se conozca la varianza de la población. Esta práctica se puede justificar,
en parte, por el hecho de que cuando el tamaño de la muestra es grande, s 2 constituye una buena
estimación de la varianza de la población.
11
n
i =n
( X i − X )2
S 2
=
n −1
Así, para calcular la varianza muestral debemos en primer lugar estimar un parámetro poblacional
que es la media muestral por medio de X . Entonces definitivos como grados de libertad a la
diferencia entre el tamaño de la muestra y el número de parámetros que hay que estimar para
calcular la varianza muestral.
X −
Es por ello, y atención con este concepto, que la variable T = tiene distribución t de
S/ n
Student con n − 1 grados de libertad si la muestra se toma de una población distribuida
normalmente.
6. ESTIMACIÓN
Hemos estudiado hasta aquí las nociones más importantes de distribución de probabilidad y de
distribución de muestreo. Estamos ya en condiciones de tratar con los métodos de la inferencia
estadística los cuales comprenden los procedimientos de estimación y de pruebas de hipótesis.
Los procedimientos de estimación se dividen a su vez en los de estimación puntual y estimación
por intervalos, tema que analizaremos seguidamente.
No habrá que confundir los conceptos de estimador y estimación. Un estimador es una regla o
método que se utiliza para estimar un parámetro poblacional. Por ejemplo, X es un estimador de
. Un valor particular de X constituye una estimación de la media poblacional. Un estimador
es por definición un estadístico (variable aleatoria) y como tal tendrá una distribución de
probabilidad. Una estimación es un valor particular del estimador calculado a partir de una
muestra aleatoria tomada de la población respectiva.
Estimación puntual
Si a partir de las observaciones de una muestra se calcula un solo valor como estimación de un
parámetro poblacional desconocido, tal procedimiento se denomina estimación puntual ya que se
utiliza como estimación un solo valor del conjunto de todos los valores posibles del estimador.
Supongamos que se quiera estimar el ingreso medio mensual de las familias de la ciudad de
Posadas. Sea X la variable aleatoria que indica el ingreso de las familias de la ciudad. Se toma
una muestra de n familias y se denota con X el ingreso medio de la muestra.
Si al tomar una muestra de 150 familias se obtiene un ingreso promedio de $1.200 ( x = 1.200) ,
este número se toma como una estimación puntual del ingreso promedio de todas las familias de
Posadas.
A continuación, veremos cuáles son las propiedades deseables de los estimadores que se utilizan
en el proceso de estimación.
Definición. Un estimador ̂ de un parámetro es cualquier estadístico que nos permita, a partir
de los datos de una muestra obtener valores aproximados del parámetro.
12
n +1
n
poblacional pues se puede demostrar (se deja la prueba para el alumno) que E (T ) = .
n +1
Damos la siguiente regla:
Si se tiene un estimador ̂1 y un estimador ̂ 2 del parámetro y uno de ellos es
insesgado, elegiremos el insesgado.
Puede ocurrir que el parámetro tenga dos estimadores que sean insesgados. Por ejemplo,
cuando la variable aleatoria estudiada tiene distribución perfectamente simétrica, la mediana
también es un estimador insesgado de .
Ahora bien, puede demostrarse que la varianza de la variable aleatoria mediana muestral es
Var ( M e ) = 4 siendo la varianza de la población. Obviamente Var ( M e ) Var ( X ) .
2
n
Definición. De dos estimadores ̂1 y ̂ 2 del parámetro , ambos insesgados, decimos que ̂1
es más eficiente que ̂ sí Var (ˆ ) Var (ˆ ) .
2 1 2
Los estimadores de mayor uso como la media muestral, la varianza muestral y la proporción
muestral son buenos estimadores de acuerdo con estos criterios. Una pregunta que nos queda por
contestar es la de cómo obtener los buenos estimadores. Hay varios métodos para lograrlo. Los
más comunes son los de máxima verosimilitud, el método de los momentos muestrales y el
método de los mínimos cuadrados. Este tema no será tratado en este material.
Estimación por intervalos
Hemos tratado con anterioridad el tema de la estimación puntual. Ahora abordaremos el estudio
de la estimación por intervalos la cual consiste en determinar dos números entre los cuales se
halla el parámetro estimado con cierto grado de certeza.
El procedimiento para la obtención de un intervalo de confianza requiere de la identificación del
parámetro y de la distribución de su estimador.
7. INTERVALO DE CONFIANZA PARA UNA MEDIA POBLACIONAL
Hemos dicho que cuando el objetivo de la inferencia estadística es la estimación hay dos maneras
de realizarla: estimación puntual y por intervalos. Hay un problema obvio relacionado con el uso
de las estimaciones puntuales. Aunque solo está implícito un solo parámetro, el número disponible
de estimaciones generalmente es muy grande. Cada una de las muestras posibles que se puedan
tomar de la población estudiada arrojará una estimación. Por el estudio de las distribuciones
muestrales sabemos que algunas estimaciones estarán más cerca del parámetro que se está
estimando que otras. Sin embargo, una vez realizada la estimación a partir de una muestra de la
población objetivo, no se sabe que tan cerca estará esta del parámetro estimado. En esta situación
podemos considerar poco probable que la estimación puntual sea igual al parámetro. Pero no se
estará en condiciones de decir cuánto nos hemos equivocado.
Para tratar de resolver este problema de las estimaciones puntuales se puede construir una
estimación por intervalo del parámetro de interés. Se construye el intervalo de tal manera que se
pueda establecer la confianza que se tenga en que el intervalo incluya dentro de sus puntos
limítrofes el parámetro estimado. Un intervalo construido con este objetivo recibe le nombre de
intervalo de confianza.
A continuación, veremos cómo se construyen intervalos de confianza para la media poblacional
en tres situaciones diferentes: (1) cuando la población es normal y la varianza de la población es
conocida, (2) cuando la población es normal y la varianza de la población es desconocida y (3)
cuando la población no es normal. En todos estos casos puede darse además que la población sea
finita o infinita.
Intervalo de confianza para , población normal, 2 conocida
Veremos la forma de construir un intervalo para la media de una población que tiene distribución
normal.
Aunque generalmente desconoce la varianza de la población, supondremos que la conocemos
para facilitar nuestro análisis. Luego estudiaremos el caso en el cual 2 es desconocida.
Por lo que sabemos de las distribuciones normales, la distribución de X , calculada a partir de
todas las muestras aleatorias simples de tamaño n que pueden ser tomadas de una población con
distribución normal, también tendrá distribución normal con media y varianza o error estándar
/ n donde y 2 son la media y la varianza respectiva de la población de la cual se han
tomado las muestras. Supongamos que no fue necesario considerar el fcp.
La distribución muestral de X se muestra en la figura 3.
14
Figura 3
Llamemos 1 − a la probabilidad de que una sola muestra aleatoria de tamaño n produzca una
media X que esté entre los valores xa y xb sobre el eje X . Es decir,
Pr( x a X xb ) = 1 − (1)
Figura 4
Luego, podemos escribir la ecuación (1) de la siguiente manera
Pr( x a X xb ) = Pr − k X +k = 1 − (2)
n n
Según esta ecuación, si se toma una muestra aleatoria simple de tamaño n sacada de una población
con distribución normal con media y varianza 2 , la probabilidad de que X esté entre
xa = − k y xb = + k es igual a 1 − .
n n
15
Como en el presente caso, X tiene distribución normal, una vez que se especifica el valor de 1 −
se podrá reemplazar k por un valor de Z o variable normal estandarizada. Por ejemplo, si
1 − = o,95 , entonces k = 1,96 y la ecuación anterior se convierte en
Pr − 1,96 X − 1,96 = 0,95 (3)
n n
Esto quiere decir que la probabilidad de que X esté entre un punto igual a − 1,96 errores
estándar y un punto igual a + 1,96 errores estándar es igual a 0,95.
La figura 5 se muestra este razonamiento.
Figura 5
Luego de algunas operaciones algebraicas, podemos escribir la ecuación (2) de la siguiente
manera
Pr X − k X +k = 1 − (3)
n n
Pr X − 1,96 X + 1,96 = 0,95 (4)
n n
y se puede decir que la probabilidad de que el parámetro desconocido esté entre un punto igual a
X − 1,96 errores estándar y un punto iguala X + 1,96 errores estándar es igual a 0,95. A diferentes
valores de 1 − le corresponderán diferentes valores de Z. Por ejemplo, si 1 − = 0,99 entonces
z = 2,58 .
Ahora bien, ¿cómo podemos interpretar el enunciado de probabilidad anterior? Es decir, ¿cómo
se puede interpretar la ecuación Pr X − 1,96 X + 1,96 = 0,95 ?
n n
Para ello debemos recordar el concepto de probabilidad como frecuencia relativa. Decir que el
evento A tiene probabilidad de 0,95, es decir, afirmar que Pr( A) = 0,95 significa que si el
experimento donde A está definido se realiza una y otra vez, a lo largo ocurrirá el 95% de las
veces.
16
Entonces, supongamos que de una población normal con 2 conocida se toma una muestra de
tamaño n y se calcula el intervalo X 1,96 o X − 1,96 ; X + 1,96 . Luego repetimos
n n n
el procedimiento con una segunda, con una tercera muestra, etc. Sea el evento
A = X − 1,96 X + 1,96
n n
Como P( A) = 0,95 , a la larga, 95% de los intervalos X 1,96 contendrán a . Esto se
n
muestra en la figura 6 presentada a continuación.
Figura 6
En la práctica, cuando deseamos estimar una media poblacional, no se sacan un gran número de
muestras aleatorias simples de la población, sino solamente una. Si designamos con x0 la media
de una sola muestra, podemos construir la siguiente estimación por intervalo para :
x0 k
n
Este intervalo recibe el nombre de intervalo de confianza del (1 − )100 % para y es apenas
uno del gran número de intervalos de los cuales el (1 − )100 % contiene a la media poblacional.
Para expresar este solo intervalo se puede emplear esta otra notación
C x0 − k x0 + k = 1 − (5)
n n
donde C indica que el intervalo es un intervalo de confianza y que se trata de un enunciado de
confianza más que un enunciado de probabilidad. En la ecuación anterior, 1 − se denomina
coeficiente de confianza e indica el grado o la cantidad de confianza que tenemos que nuestro
intervalo único contenga a . El coeficiente de confianza expresado en porcentaje recibe el
nombre de nivel de confianza.
Es importante destacar la diferencia entre las ecuaciones (4) y (5). En la ecuación (4), X es un
valor sin especificar de una variable aleatoria y el enunciado es por tanto un enunciado legítimo
17
de probabilidad. En la ecuación (5), x0 es una constante y por lo tanto los puntos límites
x0 − k y x0 + k son constantes. Por esta razón, la ecuación (5) no es una ecuación de
n n
probabilidad y se interpreta como un intervalo de confianza. Como la probabilidad de que la
muestra aleatoria arroje un intervalo que incluya a es iguala 1 − , tenemos la confianza en que
es lo que ha sucedido. El grado de nuestra confianza depende del tamaño de 1 − . Mientras más
grande se este valor mayor será nuestra confianza.
Observe que una vez seleccionado el valor de 1 − , se remplaza en la ecuación (5) k por el valor
de z de la distribución normal estandarizada correspondiente. Podemos ver que en términos
generales, un intervalo de confianza del tipo establecido en la ecuación (5) consta de tres partes,
x0 , z y / n . En esta ecuación, x0 es el estimador, z se llama factor de confiabilidad y / n
es el error estándar del estimador. Podemos entonces expresar un intervalo de confianza de este
tipo en términos generales de la siguiente manera
Estimador (factor de confiabilidad) (error estándar del estimador)
Expliquemos todo con un ejemplo:
Ejemplo 3. Se calcula que la media de las calificaciones de una muestra aleatoria de 36 alumnos
universitarios del último año es 6,9. Encuentre los intervalos de confianza del 95% y del 99%
para la calificación promedio del último año. Asuma que la desviación estándar de la población
es 0,3.
Solución
La estimación puntual de es x0 = 6,9 . Si bien es cierto no sabemos la distribución de la
población, el tamaño de la muestra es lo suficientemente grande como para aplicar el teorema del
X −
límite central por lo cual tiene distribución normal estándar y todo el razonamiento
/ n
anterior tiene la misma validez. El valor de Z a la izquierda del cual se acumula un área de 0,975
es z = 1,96 , De aquí que el intervalo de confianza del 95% para la media es
0,3 0,3
C 6,9 − (1,96) 6,9 + (1,96) = 0,95
36 36
C (6,8 6,99) = 0,95
o con notación de intervalo (6,8; 6,99). Para hallar un intervalo de confianza del 99% se encuentra
el valor de Z que acumula a izquierda un área de 0,995.
Por lo tanto, siendo z = 2,58 , el intervalo de confianza del 99% para la media es
0,3 0,3
C 6,9 − (2,58) 6,9 + (2,58) = 0,99
36 36
C (6,77 7,03) = 0,99
Con la notación de intervalo tendríamos (6,77; 7,03). Se observa que se requiere un intervalo más
grande para estimar la media poblacional con una mayor confianza. Es decir, al aumentar la
confianza se está perdiendo precisión.
Intervalo de confianza para , desconocida
Con frecuencia, se intenta estimar la media de una población cuando se desconoce la varianza de
esta. El lector deberá recordar que, si se tiene una muestra aleatoria de una distribución normal,
X −
entonces, la variable aleatoria T = tiene distribución t con n − 1 grados de libertad. Aquí,
S/ n
18
/2 1− /2
−t t
Figura 7
donde t es el valor de la distribución t con n − 1 grados de libertad sobre el cual se encuentra un
área / 2 . Debido a la simetría, un área igual a / 2 caería a la izquierda de − t .
Al sustituir T se obtiene
X −
Pr − t t = 1 −
S/ n
Luego de operaciones algebraicas apropiadas (que se dejan para el alumno) se obtiene
S S
Pr X − t X +t = 1 −
n n
Para el caso particular de una muestra de tamaño n, se calcula la media x0 y la desviación estándar
s 0 y se obtiene un intervalo de confianza para la media .
Definición. Si x y s son la media y la desviación estándar de una muestra aleatoria de una
población normal con varianza 2 desconocida, un intervalo de confianza del (1 − )100% para
la media poblacional lo da la siguiente expresión:
s s
C x0 − t 0 x0 + t 0 = 1 −
n n
donde t es el valor de la distribución t con n − 1 grados de libertad que deja un área de 1 − 2 a
su izquierda.
Hemos distinguido entre los casos de conocida y desconocida para calcular las estimaciones
de la media poblacional mediante un intervalo de confianza. Se debe recalcar que para el caso de
conocida se obtienen los mismos resultados tanto si la población tiene distribución normal o si
es posible aplicar el Teorema del Límite Central.
19
Ejemplo 5. El gerente de personal de una gran empresa quiere hacer una estimación del puntaje
promedio obtenido en una prueba de aptitud entre los 5.500 empleados de la misma. Para ello
toma una muestra aleatoria de 250 empleados y obtiene una media de 65 puntos y una desviación
estándar de 15 puntos. Construya un intervalo de confianza del 95% para la media de la población.
Solución
Los datos disponibles son N = 5.500 , n = 250 , x0 = 65 y s0 = 15 . Por lo tanto
x 0 − z / n ; x 0 + z / n
La amplitud del intervalo es A = 2 z por lo que la semi amplitud será
n
d = z
n
Al determinar la amplitud deseada del intervalo de confianza, estamos determinando que tan cerca
que tan cerca nos gustaría que estuviera nuestra estimación de la media verdadera. Por ejemplo,
si se quiere estimar la media de alguna población y afirmamos que nos gustaría que el intervalo
( )
sea de 10 unidades de amplitud, con esto queremos indicar que deseamos que z / n sea igual
a 5. Esto es lo mismo que decir que nos gustaría que nuestra estimación estuviera a una distancia
a lo sumo que 5 unidades de la media verdadera.
Suponga que se pueda determinar qué tan cerca queremos que se encuentre nuestra estimación de
la media verdadera, es decir, precisamos el valor de d. Suponga también que se conoce la varianza
de la población y que se fija de antemano la confianza que deseamos en nuestra estimación. Con
estos datos se podrá establecer la siguiente igualdad
21
d = z
n
donde k es la semi amplitud del intervalo de confianza. Resolviendo esta ecuación para n
obtenemos
z 22
n=
d2
Esta solución dará el tamaño de la muestra necesario para hacer una estimación con (1 − )100%
de confianza de la media de la población cuya varianza es 2 . En la mayoría de los casos, la
varianza de la población no se conoce. Por lo tanto, será necesario realizar una estimación de esta.
Algunas de las posibles maneras de hacerlos son las siguientes
✓ Muestra piloto. Se toma una muestra piloto de la población objetivo para obtener una
estimación de 2
✓ Estimaciones previas. Estudios con temas y objetivos similares a la investigación que se
piensa realizar pueden haberse llevado a cabo anteriormente. En estos casos es posible
utilizar la varianza muestral de estos estudios para estimar 2
Observe el efecto que tiene sobre n los valores de z, y d cuando varía algunas de ellas mientras
el resto permanece constante.
Cuando mayor sea la varianza de la población, mayor será el tamaño de la muestra para z y d fijas.
O sea, cuando el muestreo se hace en poblaciones altamente variables, se necesitarán muestras
más grandes.
Intervalos estrechos de confianza (valores pequeños de d) requerirán también muestras más
grandes.
Ejemplo 6. Un investigador quiere estimar la media de cierta población. Desea que su estimación
se encuentre a no más de 0,10 unidades de la media verdadera con una confianza del 95%.
Estudios anteriores indican que la población bajo estudio tiene distribución normal con una
varianza 2 = 0,09 . ¿Qué tamaño debe tener la muestra para que el investigador logre su
objetivo?
Solución
Los datos para la solución de nuestro problema son los siguientes: 1 − = 0,95 z = 1,96 y
2 = 0,09 . Por lo tanto
(1,96) 2 (0,09)
n= = 34,57
(0,10) 2
Por lo tanto, el investigador deberá tomar una muestra de tamaño 35 para el logro de sus objetivos.
Si se ha de tomar una muestra de una población finita, hay que incorporar el factor de corrección
fcp y la fórmula obtenida para el cálculo del tamaño muestral es en este caso
Nz 2 2
n=
z 2 2 + d 2 ( N − 1)
9. DISTRIBUCIÓN DE LA PROPORCIÓN MUESTRAL
En la práctica, es frecuente necesitar hacer inferencias sobre la proporción de una población. Un
investigador de mercados de una empresa puede estar interesado en conocer la proporción de los
consumidores de alguna provincia que prefiere los productos de su empresa a los de la
competencia. Un candidato político puede querer saber la proporción de votantes que van a votar
por él en las próximas elecciones.
22
Para poder hacer inferencias sobre la proporción p de una población debemos estudiar las
propiedades del estadístico P o proporción muestral que se define como
P= X
n
donde X es el número de entidades de la muestra que presentan la característica que interesa y n
es el número total de entidades de la muestra. Los procedimientos inferenciales dependerán de la
distribución de P .
¿Cómo se podría construir empíricamente la distribución muestral de P ?. De entre la población
que nos interesa, seleccionamos un gran número de muestras de tamaño n y con cada una de ellas
calculamos la proporción muestral P . Si la población fuera finita y razonablemente pequeña,
podríamos seleccionar todas las muestras posibles de tamaño n y calcular P . Obtendríamos
n1 → p1
n2 → p2
valores de P
.......... .....
n k → p k
Con poblaciones infinitas, solamente podemos pensar en tomar un gran número de muestras. Los
valores de P junto con su frecuencia relativa de ocurrencia constituirán la distribución muestral
de P . Nos interesa conocer cuál será la media, la varianza y la forma funcional de la variable
aleatoria proporción muestral. Puede demostrase el siguiente resultado:
Teorema. La distribución muestral de P o proporción muestral, calculada con base en muestra
aleatorias simples de tamaño n sacadas de una población en la que la proporción poblacional es
p, tiene distribución aproximadamente normal si np y n(1 − p) son mayores a 5. Si la población
p(1 − p) N − n . Puede omitirse el
es finita y de tamaño N, entonces E ( P ) = P = p y P =
n N −1
cpf si n / N 0,05 .
Si la población de la que se extraen las muestras es infinita, la media y la desviación estándar de
p (1 − p )
la proporción muestral serán E ( P ) = P = p y P = respectivamente.
n
P−p
Una consecuencia de este teorema es que la variable aleatoria Z = N (0,1) siempre que
pq / n
P tenga distribución aproximadamente normal.
Ejemplo 7. Se sabe que el 60% de las amas de casa de cierta área geográfica asisten regularmente
a un supermercado radicado en la misma. Se toma una muestra aleatoria de 150 amas de casa de
la región, ¿cuál es la probabilidad de que la proporción muestral que se puede calcular con esta
muestra esté entre 0,5 y 0,7? Suponga que n / N 0,05 .
Solución
Como np = 150(60) y nq = 150(40) son ambas mayores a 5, entonces P N . Se pide calcular
P (0,5 P 0,7) . Hay que estandarizar los valores p1 = 0,5 y p 2 = 0,7 . Procediendo de la
manera habitual:
0,5 − 0,6 0,70 − 0,6
z1 = = −2,5 ; z 2 = = 2,5
(0,60)(0,40) / 150 (0,60)(0,40) / 150
pq
P =
n
P = p
Figura 8
Para la construcción de un intervalo de confianza de (1 − )100% para la proporción poblacional,
partimos de la siguiente ecuación
P−p
P − z z = 1−
pq / n
Interprete el lector el significado de esta expresión. Luego de algunas transformaciones
algebraicas en la expresión dentro del paréntesis (que se dejan para el alumno), llegamos al
siguiente enunciado de probabilidad
pq pq
P P − z pP+z = 1−
n n
No parece probable que en una situación práctica p se conozca puesto que si se conociese no
pq
tendría sentido estimarlo. Es por ello por lo que P = debe ser estimado. Su estimación es
n
pq
donde p y q se calculan con la muestra extraída de la población.
n
Luego, una estimación por intervalo para p se construye de la siguiente manera
pq pq
C p − z p p+z = 1−
n n
Cuando el muestreo se hace sin reemplazo de una población finita, cosa que se hace
habitualmente, resulta adecuado el factor cpf y, por lo tanto, un intervalo de confianza del
(1 − )100% estará dado de la siguiente manera
pq N −n pq N − n
C p − z p p+z = 1−
n N −1 n N − 1
Si n / N 0,05 el factor cpf estará lo suficientemente cercano a 1 como para justifica su omisión.
Ejemplo 8. Una cadena de supermercados cuenta con 10.000 poseedores de tarjetas de crédito a
quienes se les factura los gastos de cada mes. El administrador de dichas tarjetas quiere estimar
la proporción de personas que poseen la tarjeta y que comprarían en los supermercados si
estuvieran abiertos los días domingos. Para ello toma una muestra aleatoria de 100 poseedores de
la tarjeta y encuentra que 60 indicaron que comprarían los días domingos. El administrador quiere
24
obtener una estimación por intervalo con el 99% de confianza de la proporción real de poseedores
de la tarjeta que comprarían los días domingo.
Solución
Los datos son los siguientes, N = 10.000 , n = 100 y p = 0,60 . Este valor es una estimación
puntual de p. Luego, como np = 100(0,60) = 60 y nq = 100(0,40) = 40 , tendremos que P N .
Por otro lado
(0,60)(0,40) 10.000 − 100
P = = 0,0486
100 10.000 − 1
Como 1 − = 0,99 entonces z1 = −2,58 y z 2 = 2,58 . Luego, el intervalo de confianza para p
será
C0,60 − (2,58)(0,0486) p 0,60 + (2,58)(0,0486) = 0,99
C (0,474 p 0,725) = 0,99
Luego, la proporción de poseedores de la tarjeta de crédito que estaría dispuesto a comprar los
días domingos está entre 47,4 y 72,5% con una confianza del 99%.
10. TAMAÑO DE LA MUESTRA PARA ESTIMAR LA PROPORCIÓN POBLACIONAL
Para determinar el tamaño de la muestra que se utilizará para estimar la proporción poblacional
mediante un intervalo de confianza, se sigue el mismo razonamiento que se describió al
determinar el tamaño de la muestra que se necesita para estimar la media de una población.
Se debe indicar que tan cerca deseamos que esté nuestra estimación del valor real que se está
estimando e indicar el nivel de confianza deseado.
Existen dos fórmulas para determinar el tamaño de la muestra y esto depende si se tiene o no en
cuanta el coeficiente para poblaciones finitas.
Si el muestreo se realiza de una población infinita o de una población finita pero el mismo se
realiza con reposición, no se necesitará el factor de corrección y la fórmula para calcular el tamaño
de la muestra es
z 2 pq
n= 2
d
donde z es el valor de la variable Z en la distribución normal estándar correspondiente al nivel de
significancia elegido.
En la práctica, hay que realizar estimaciones de p y q. Esto puede lograrse con base a estudios
similares o anteriores o tomando previamente una muestra piloto. Cuando no puede realizarse
esto, se obtiene el valor máximo de n haciendo p = 0,05 .
Aunque el tamaño de la muestra así obtenido es suficientemente grande para los objetivos
propuestos, puede resultar muy grande y de esta manera generar costos muy elevados.
Cuando el muestreo se va a realizar sin reemplazo en una población finita de tamaño N, es
necesario considerar el factor de corrección. La expresión para el cálculo de n es en este caso
Npqz 2
n=
( N − 1)d 2 + z 2 pq
Ejemplo 9. Un especialista en mercadotecnia desea calcular el tamaño de la muestra de hogares
que va a tomar en cierta comunidad para determinar en qué proporción de hogares por lo menos
uno de los miembros ve un programa determinado de televisión. En esta comunidad hay un total
de 500 hogares. El analista desea que su estimación esté a lo sumo a 0,04 de la proporción
25
verdadera con un 90% de confianza. En una muestra piloto de 15 hogares, el 35% de los
entrevistados indicaron que alguien de su casa veía regularmente dicho programa. Calcule el
tamaño de muestra necesario para los propósitos seguidos por el investigador.
Solución
los datos del problema son N = 500 ; 1 − = 0,90 y pˆ = 0,35 . Por lo tanto
(500)(0,43)(0,65)(1,645) 2
n= = 217,68
(499)(0,04) 2 + (1,645) 2 (0,35)(0,65)
Luego n = 218 . Pero como ya se han entrevistados en la muestra piloto 15 hogares, solamente
se necesitarán agregar 203 para completar la muestra.
11. INTERVALO DE CONFIANZA PARA LA VARIANZA POBLACIONAL
En muchas ocasiones se estará interesado en investigar la variabilidad de un conjunto de datos.
La variabilidad generalmente se mide mediante la varianza o la desviación estándar y el
estadístico empleado para llevar adelante el proceso inferencial es la varianza muestral
S 2 = i =1 ( X i − X ) 2 / (n − 1) como ya se indicado oportunamente. Para llevar adelante el proceso
n
2 gl
Densidad
3 gl
6 gl
Variable
Figura 9
+
✓ f ( x)dx = 1 , es decir, el área bajo la curva de la distribución es igual a 1 como en todas
0
las densidades de probabilidad.
b
✓ Pr(a X b) = a
f ( x)dx . Es decir, para calcular probabilidades debemos calcular áreas
como lo hemos hecho con la distribución normal y la t de Student.
Para facilitar el cálculo de probabilidades existen tablas que permiten hallar las áreas que son
probabilidades asociadas a intervalos limitados por valores determinados de la variable. Una de
estas tablas es la tabla G que acompaña este material.
En la tabla, la columna que aparece más a la izquierda registra los grados de libertad y los
encabezamientos de las columnas indican la proporción del área que queda a la izquierda de los
valores de la variable que se dan en el cuerpo de la tabla.
Supóngase, por ejemplo, que queremos saber, para una variable aleatoria que tiene distribución
Chi cuadrado con 10 gl. qué valor de esta tiene a su izquierda 0,95 del área bajo la curva. Para
ello localizamos 10 en la columna de los grados de libertad y también la columna encabezada con
02,95 . El valor en la intersección de la fila marcada con 10 y la columna encabezada con 0,95
2
es
el valor que buscamos y vemos que corresponde a 18,307. Esto nos dice que bajo la curva de la
distribución Chi cuadrado con 10 gl. el 95% del área está a la izquierda de 18,307. Como el área
total bajo la curva es igual a 1, sabemos que el 5% del área está a la derecha de 18,307.
Interpretando el área bajo la curva como probabilidad, podemos decir que si se saca al azar un
valor de una variable que tenga distribución chi cuadrado con 10 gl. la probabilidad de que sea
menor que 18,307 es 0,95. O que la probabilidad de que sea mayor a 18,307 es 0,05. La figura
10 muestra estas probabilidades.
27
0,95
Variable 18,307
Figura 10
Definida la distribución Chi cuadrado y analizadas sus principales propiedades estamos en
condiciones como se pueden obtener intervalos de confianza para la varianza de una población
con distribución normal.
En apartados anteriores hemos estudiado la distribución de la media muestral X y de la
proporción muestral P . Estos estadísticos y sus propiedades se utilizaron para realizar
inferencias sobre y p respectivamente.
Se podría pensar que para realizar inferencias sobre la varianza 2 uno debería estudiar la
distribución de S 2 = i =1 ( X i − X ) 2 / (n − 1) . En realidad, la distribución de este estadístico no
n
tiene mayor interés para la estadística aplicada. Sin embargo, si el muestreo se efectúa de una
población distribuida normalmente, la distribución de otra variable aleatoria relacionada con S 2
es de enorme importancia. En el siguiente teorema que damos sin demostración se expresa la
naturaleza de esta variable aleatoria y su distribución.
una población distribuida normalmente con media y varianza 2 , entonces la variable aleatoria
2 = (n − 1) S 2 / 2 tiene distribución Chi cuadrado con n − 1 grados de libertad.
( )
P 2 / 2 2 12− / 2 = 1 −
1−
2
/2 12−/ 2 2
Figura 11
donde 2 / 2 y 12− / 2 son los valores de la distribución Chi cuadrado con n − 1 grados de libertad
( n − 1) S 2
con áreas a la izquierda / 2 y 1 − / 2 , respectivamente. Al sustituir 2 por se
2
obtiene
(n − 1) S 2
P 2 / 2 12− / 2 = 1 −
2
Al dividir cada término de la desigualdad por (n − 1) S 2 , luego invertir cada término y reescribir
la desigualdad, se obtiene
(n − 1) S 2 (n − 1) S 2
P 2 2 = 1−
1− / 2 2 / 2
Para una muestra aleatoria particular de tamaño n, se calcula la varianza muestral S 2 y se obtiene
el siguiente intervalo de confianza de (1 − )100% para 2
donde 2 / 2 y 12− / 2 son los valores de 2 con n − 1 grados de libertad con áreas / 2 y
1 − / 2 a la izquierda, respectivamente.
Un intervalo de confianza de (1 − )100% para se obtiene sacando la raíz cuadrada de cada
punto extremo del intervalo para 2 .
Ejemplo 10. Un fabricante de baterías de automóviles asegura que las mismas duran en promedio
2 años con una desviación estándar de 0,5 años. Se toma una muestra de 5 baterías y se registran
los siguientes tiempos de duración, 1,5 – 2,5 – 2,9 – 3,2 y 4 años.
Determine un intervalo de confianza del 95% para 2 e indique si es válida la afirmación del
fabricante. Suponga que la variable aleatoria X = tiempo de duración, tiene distribución normal.
29
Solución
Según lo asegurado por el fabricante, = 2 años y 2 = 0,25 . Con la muestra seleccionada
encontramos que x = 2,82 y s 2 = 0,847 . Como la muestra es de tamaño 5, debemos buscar los
valores 02,025 y 02,975 en la distribución Chi cuadrado con 4 grados de libertad. Estos valores son
02,025 = 0,484 y 02,975 = 11,143 .
Por lo tanto, el intervalo será
4(0,847) 4(0,847)
C 2 = 0,95
11,143 0,484
C (0,30 2 7) = 0,95
Como este intervalo no contiene 2 = 0,25 podemos afirmar que lo asegurado por el fabricante
no es correcto. Es más, parece que la varianza resulta mayor que la indicada por el fabricante.