Inferencia Estadistica

Notas de Clase
Inferencia Estadística
Elías José Salazar Buelvas
Universidad de Cartagena
Facultad de Ciencias Exactas y Naturales
Programa de Matemáticas
Cartagena de Indias D.T. y C., Colombia
2011
Índice general
1. ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES 6

1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2. Clasificación de los procedimientos inferenciales . . . . . . . . . . . . . . . . 10
1.3. Naturaleza de la información extraída de la población . . . . . . . . . . . . . . 11
1.4. Razones que justifican un estudio inferencial . . . . . . . . . . . . . . . . . . . 12
1.5. Estadísticos y distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . 13
1.5.1. Parámetros poblacionales y estadísticos muestrales . . . . . . . . . . . 15
1.6. Función de distribución empírica . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.7. Distribución muestral del estadístico . . . . . . . . . . . . . . . . . . . . . . . 29
1.8. Media y varianza de algunos estadísticos . . . . . . . . . . . . . . . . . . . . . 39
1.8.1. Ley de los grandes números . . . . . . . . . . . . . . . . . . . . . . . 41
1.8.2. Aproximación de la binomial a la normal . . . . . . . . . . . . . . . . 46
1.8.3. El teorema central del límite . . . . . . . . . . . . . . . . . . . . . . . 48
1.9. Distribuciones de estadísticos muestrales de poblaciones normales . . . . . . . 52
1.9.1. Distribución χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . 58
1.9.2. Distribución t de Student . . . . . . . . . . . . . . . . . . . . . . . . . 65
1.9.3. Distribución F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . 69
1.9.4. Distribución de la diferencia de medias muestrales cuando se conoce la
varianza poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
1.9.5. Distribución de la diferencia de medias muestrales cuando no se conoce
la varianza poblacional . . . . . . . . . . . . . . . . . . . . . . . . . . 74
1.9.6. Distribución del cociente de varianzas . . . . . . . . . . . . . . . . . . 76
1.10. Distribución de la proporción muestral . . . . . . . . . . . . . . . . . . . . . . 78
1.11. Distribución de la diferencia de proporciones . . . . . . . . . . . . . . . . . . 80
1.12. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
2. ESTIMACIÓN PUNTUAL 97
2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
2.2. El problema de la estimación: Estimación puntual . . . . . . . . . . . . . . . . 100
2.3. Propiedades de los estimadores puntuales . . . . . . . . . . . . . . . . . . . . 104
2.3.1. Error cuadrático medio del estimador . . . . . . . . . . . . . . . . . . 104
Índice general 3
2.3.2. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

2.3.3. Estimador insesgado de varianza mínima . . . . . . . . . . . . . . . . 113
2.3.4. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
2.3.5. Estimador consistente . . . . . . . . . . . . . . . . . . . . . . . . . . 127
2.4. Suficiencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
2.4.1. Estimador suficiente . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
2.4.2. Estadístico mínimal suficiente . . . . . . . . . . . . . . . . . . . . . . 138
2.5. Completitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
2.6. La familia exponencial de distribuciones y la suficiencia . . . . . . . . . . . . 148
2.7. Métodos de estimación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
2.7.1. El método de los momentos . . . . . . . . . . . . . . . . . . . . . . . 151
2.7.2. Método de la máxima verosimilitud . . . . . . . . . . . . . . . . . . . 160
2.8. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
3. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 186

3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
3.2. Intervalos de confianza de longitud mínima . . . . . . . . . . . . . . . . . . . 191
3.3. Métodos de construcción de intervalos de confianza . . . . . . . . . . . . . . . 192
3.3.1. Método del pivote . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
3.3.2. Método general de Neyman de construcción de intervalos de confianza 195
3.4. Intervalos de confianza en poblaciones normales . . . . . . . . . . . . . . . . . 201
3.4.1. Intervalo de confianza para la media de una población normal . . . . . 202
3.4.2. Intervalo de confianza para la varianza de una población normal . . . . 213
3.4.3. Intervalo de confianza para la diferencia de medias en poblaciones nor-
males: muestras independientes . . . . . . . . . . . . . . . . . . . . . 217
3.4.4. Intervalo de confianza de para la diferencia de medias en poblaciones
normales: Muestras apareadas . . . . . . . . . . . . . . . . . . . . . . 224
3.4.5. Intervalo de confianza para el cociente de varianzas en poblaciones nor-
males . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
3.5. Método basado en la desigualdad de Chebychev . . . . . . . . . . . . . . . . . 230
3.6. Método asintótico basado en el Teorema Central del Límite . . . . . . . . . . . 231
3.7. Intervalos de confianza para la proporción . . . . . . . . . . . . . . . . . . . . 232
3.7.1. Intervalo de confianza de una proporción para muestras pequeñas . . . 232
3.8. Intervalo de confianza para la diferencia de proporciones . . . . . . . . . . . . 240
3.9. Intervalo asintótico para cualquier parámetro . . . . . . . . . . . . . . . . . . 243
3.10. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
3.10.1. Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 244
3.10.2. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . 245
3.11. Tablas de Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . 259
4 Índice general
4. CONTRASTE DE HIPÓTESIS 261

4.1. Conceptos básicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
4.1.1. Las Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
4.1.2. Clasificación de los contrastes . . . . . . . . . . . . . . . . . . . . . . 263
4.2. Los errores de un contraste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
4.2.1. Actuaciones asociadas a un contraste de hipótesis . . . . . . . . . . . . 265
4.3. El enfoque de Neyman–Pearson . . . . . . . . . . . . . . . . . . . . . . . . . 269
4.3.1. Lema de Neyman-Pearson para hipótesis simples . . . . . . . . . . . . 270
4.4. Metodología de Fisher para la realización de un contraste paramétrico . . . . . 275
4.4.1. Conclusiones de una prueba: el p-valor . . . . . . . . . . . . . . . . . 276
4.5. Pruebas uniformemente más potentes . . . . . . . . . . . . . . . . . . . . . . 278
4.5.1. Lema de Neyman-Pearson para alternativas compuestas . . . . . . . . 279
4.5.2. Razón de verosimilitud monótona. Teorema de Karlin-Rubin . . . . . . 281
4.6. Pruebas insesgadas. Pruebas localmente más potentes . . . . . . . . . . . . . . 283
4.7. Consistencia y eficiencia para pruebas . . . . . . . . . . . . . . . . . . . . . . 285
4.8. Pruebas de la razón de verosimilitudes . . . . . . . . . . . . . . . . . . . . . . 286
4.8.1. Relación con el Lema de Neyman-Pearson. . . . . . . . . . . . . . . . 289
4.8.2. Propiedades de las pruebas de razón de verosimilitudes . . . . . . . . . 289
4.9. Pruebas relacionados con la de máxima verosimilitud . . . . . . . . . . . . . . 290
4.9.1. Test del score. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
4.9.2. Test de Wald. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
4.10. Contrastes en poblaciones Normales . . . . . . . . . . . . . . . . . . . . . . . 292
4.10.1. Contrastes sobre una población . . . . . . . . . . . . . . . . . . . . . 292
4.10.2. Contrastes sobre dos poblaciones . . . . . . . . . . . . . . . . . . . . 298
4.11. Contrastes para la proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . 298
4.11.1. Contrastes sobre una población . . . . . . . . . . . . . . . . . . . . . 298
4.11.2. Contrastes sobre dos poblaciones . . . . . . . . . . . . . . . . . . . . 300
4.12. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300
A. Muestreo 308
A.1. Definición de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308
A.2. Tipos de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311
A.2.1. Muestreo aleatorio simple (MAS) . . . . . . . . . . . . . . . . . . . . 311
A.2.2. Muestreo aleatorio sistemático . . . . . . . . . . . . . . . . . . . . . . 313
A.2.3. Muestreo estratificado . . . . . . . . . . . . . . . . . . . . . . . . . . 314
A.2.4. Muestreo por áreas o conglomerados . . . . . . . . . . . . . . . . . . 316
A.2.5. Muestreo polietápico . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
A.3. Muestreos no probabilísticos . . . . . . . . . . . . . . . . . . . . . . . . . . . 317
A.3.1. Muestreo intencional u opinático . . . . . . . . . . . . . . . . . . . . . 317
Índice general 5
A.3.2. Muestreo por cuotas . . . . . . . . . . . . . . . . . . . . . . . . . . . 318

A.3.3. Muestreo incidental . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
A.3.4. Muestreo accidental . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
1. ESTADÍSTICOS Y
DISTRIBUCIONES MUESTRALES
1.1. Introducción
Una vez asentadas las bases de teoría de probabilidad podemos intentar inferir de la pobla-
ción, es decir, extraer información sobre las distintas características de interés de una cierta
población de la que se ha observado un conjunto de datos. Así, puede ser de interés estimar los
parámetros de la distribución de probabilidad asociada a la población, construir intervalos de
confianza, predecir valores futuros o verificar si ciertas hipótesis son coherentes con los datos
observados. Por tanto, la inferencia comprende alguna de las fases del método estadístico. Estas
fases son: recogida y depuración de datos, estimación, contrastes de simplificación, diagnosis y
validación del modelo.
Cuando realizamos una introducción general de la estadística decimos que uno de los objeti-
vos fundamentales es el de obtener conclusiones basándonos en los datos que se han observado,
proceso que se conoce con el nombre de inferencia estadística, es decir, utilizando la informa-
ción que nos proporciona una muestra de la población se obtienen conclusiones o se infieren
valores sobre características poblacionales. En un sentido amplio, se entiende por Inferencia a
la parte de la estadística que estudia grandes colectivos a partir de una pequeña parte de éstos.
Así pues, la inferencia estadística es aquella rama de la estadística mediante la cual se trata
de sacar conclusiones de una población en estudio, a partir de la información que proporciona
una muestra representativa de la misma. También se denomina estadística inductiva o inferen-
cia inductiva ya que es un procedimiento para generar nuevo conocimiento científico.
Toda inferencia inductiva exacta es imposible ya que disponemos de información parcial, sin
embargo, es posible realizar inferencias inseguras y medir el grado de inseguridad si el expe-
rimento se ha realizado de acuerdo con determinados principios. Uno de los propósitos de la
inferencia estadística es el de conseguir técnicas para hacer inferencias inductivas y medir el
grado de incertidumbre de tales inferencias. La medida de la incertidumbre se realiza en térmi-
nos de probabilidad.
1.1 Introducción 7
El primer concepto importante es el de población, que es un conjunto homogéneo de indi-

viduos sobre los que se estudian una o varias características. La población debe estar perfecta-
mente definida a la hora de comenzar el estudio. Por ejemplo, en un ensayo clínico en el que se
pretende demostrar la efectividad de un tratamiento han de estar muy claros cuales son los cri-
terios de inclusión de un paciente en la población (muestra) a estudiar. En estadística se conoce
como población objetivo a la totalidad de los elementos en discusión y acerca de los cuales se
desea información.
Es frecuente que no se pueda observar toda la población por un sinfín de motivos (empe-
zando por el económico) de manera que normalmente trabajaremos con un subconjunto de la
población que se denominará la muestra. Técnicamente la inferencia consiste en, una vez estu-
diada la muestra, proyectar las conclusiones obtenidas al conjunto de la población. Por motivos
obvios, la calidad del estudio que se realice depende, por una parte, de la calidad de la muestra
y, por otra, del uso que de ella se haga. La primera de las cuestiones se resuelve a través de la
Teoría de Muestreo, mientras que en la segunda se utilizan las herramientas suministradas por
la Estadística Descriptiva y el Cálculo de Probabilidades.
La muestra se obtiene por observación o experimentación. La necesidad de obtener un sub-

conjunto reducido de la población es obvia si tenemos en cuenta los costos económicos de la
experimentación o el hecho de que muchos de los métodos de medida son destructivos.
Si es posible recoger datos referidos a una muestra con objetividad y confiabilidad, enton-
ces, podemos estudiar sus características y aprovechar dicha información igualmente confiable
para tomar decisiones a nivel poblacional en el campo científico, político, social, económico y
otros de carácter práctico. Ahora bien, una muestra objetiva y confiable debe ser aleatoria. Un
conjunto de observaciones constituye una muestra aleatoria de tamaño “n” seleccionada de una
población finita de tamaño “N ”, si es elegida en forma tal, que cada subconjunto o muestra de
“n” elementos de los “N ” elementos que contiene la población, tiene la misma probabilidad de
ser elegido.
Podemos estar interesados en conocer de hogares diferentes atributos tales como: edad de la
madre, ingresos familiares, número de hijos, estado civil de la madre, tenencia de la vivienda y
concepto que a la madre le merece un proyecto de ley que busca modificar algunas funciones de
las Cajas de Compensación Familiar. Los tres primeros atributos son de naturaleza cuantitativa,
pero los tres últimos son de naturaleza cualitativa y por ejemplo al último, podríamos asignarle
tres posibles respuestas tales como: “de acuerdo”, “en desacuerdo”, “no sabe o no responde”.
La totalidad de los hogares, que podríamos llamar población objetivo, es la misma para cada
uno de los atributos considerados, puesto que el papel fundamental de la variable aleatoria, es
precisamente indicarnos, cual es el atributo de interés tomado en cuenta al estudiar una pobla-
8 1 ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES
ción objetivo dada. Los atributos encontrados en la muestra son la base para la generalización
en la población objetivo.
A continuación se dan unas pinceladas que ayudan a comprender algunos de los aspectos
de la Teoría de Muestreo. Su análisis en profundidad escapa de los objetivos de estas notas, y
resulta fuera de lugar debido a su gran extensión y complejidad.
1. Ante todo, una muestra debe ser suficientemente representativa de la población de la cual
ha sido extraída, tratando de reflejar lo mejor posible las particularidades de ésta. Las par-
tes de la citada población que no estén debidamente representadas en la muestra llevan a
la aparición de sesgos o errores sistemáticos que viciarán el proceso de la inferencia des-
de el origen. Por ejemplo, una muestra para un estudio de estaturas no incluirá solamente
individuos bajos o altos, sino individuos de ambas clases en proporciones similares a las
de la población. Para alcanzar buenos niveles de representatividad existen distintos tipos
de muestreo que, de forma sucinta, se estudiarán en el apéndice (A).
2. La segunda de las condiciones que se pide a una muestra, es que a través de ella se al-
cancen unos objetivos de precisión fijados de antemano. Esta condición tiene que ver con
el hecho de que, al no hacerse un estudio exhaustivo, existen márgenes de error en el
cálculo de las características de la población, en la determinación de la estructura proba-
bilística de ésta, etc. Mayores niveles de precisión exigirán una mayor información sobre
la población, es decir, un mayor tamaño muestral.
En otros casos una población finita no es muy extensa, pero es recomendable utilizar una mues-
tra, puesto que los elementos incluidos en la misma deben ser destruidos al analizarlos. Ejemplo:
Con el fin de conocer la máxima temperatura promedio tolerada por los fusibles fabricados por
una compañía, éstos son sometidos gradualmente a una temperatura cada vez más alta hasta
que se destruyan los mismos. Un censo en tal caso resultaría antieconómico, porque implicaría
destruir la totalidad de los fusibles. Por lo tanto, estudiar una muestra es un procedimiento más
práctico.
En otras ocasiones un censo es imposible, porque la población resulta inaccesible, o la toma

de información implica esperar durante mucho tiempo la ocurrencia de nuevos hechos.
Sobre cada uno de los individuos medimos una o varias características que denominamos
variables. Así a cada población le corresponde una variable aleatoria que denotaremos con
X. En la teoría de la estadística quedan identificadas población y variable aleatoria asociada.
Así, en toda la teoría de la inferencia población significará el conjunto de individuos a estudiar,
pero también la variable aleatoria asociada a la característica que medimos sobre los individuos.
1.1 Introducción 9
Las poblaciones en estadística pueden ser finitas o infinitas. Una población es finita cuando
consta de un número limitado de unidades, y es infinita cuando su tamaño es indefinidamen-
te grande. En definitiva, con frecuencia, las poblaciones en estadística suelen ser consideradas
infinitas. El gran tamaño que presentan algunas poblaciones es precisamente la principal razón
que hace recomendable reducir su estudio a muestras obtenidas de ellas.
Llamaremos tamaño muestral al número de elementos que componen la muestra.
Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función de densidad de

probabilidad f (x), ésta población recibe el nombre de población muestreada.
Ejemplo 1.1.
1. Si consideramos el número de hermanos que tienen los estudiantes de un curso de una
institución determinada, estaríamos hablando de una población finita. Habría tantos va-
lores como estudiante haya en dicho curso.
2. Si obtenemos una serie de medidas del tiempo que tarda un alumno en resolver una
división de dos cifras, estas medidas se pueden considerar como parte de un conjunto
mucho mayor, de tamaño indefinidamente grande, constituido por todas las medidas que
obtendríamos si repitiésemos la experiencia una y otra vez.
3. Supongamos que se lanza un dado en reiteradas ocasiones, y anotamos el valor de la ca-

ra superior. Tal experiencia se puede repetir infinitamente, por lo que cualquier conjunto
de resultados se podría considerar como una parte extraída de una población indefinida-
mente grande.
En general, trataremos con poblaciones infinitas, entendiendo que en la práctica “población

infinita” significa lo mismo que “población muy grande” ya que conceptualmente la mayor par-
te de las poblaciones no se pueden considerar infinitas.
Por otro lado, sabemos que una población se puede caracterizar por los valores de algunos
parámetros poblacionales, por ello es lógico que en muchos problemas estadísticos se centre
la atención sobre esos parámetros poblacionales. Por ejemplo, supongamos una población de
tubos fluorescentes, en donde la característica que estamos investigando es el tiempo de dura-
ción del tubo y nos interesa conocer la duración media, es decir, el parámetro poblacional µ. El
valor de este parámetro poblacional µ se podría calcular utilizando cada tubo fluorescente de la
población, anotando su tiempo de duración y calculando la media de los tiempos de duración
de todos los tubos de la población. Pero, evidentemente, no sería posible calcular el valor de
µ de esta forma, pues el proceso de observar el tiempo de duración de cada tubo de la pobla-
ción es destructivo, y no quedarían tubos fluorescentes para la venta. Un método alternativo
sería, seleccionar una muestra de tubos fluorescentes, observar el tiempo de duración de cada
uno y calcular su media, la cual sería la estimación o valor aproximado de µ. En este caso el
estadístico media muestral X, función de las observaciones muestrales, o variables aleatorias
de la muestra X1 , X2 , . . . , Xn , se utiliza para la estimación del parámetro poblacional µ. Como
veremos después, el estadístico media muestral es el mejor estadístico para estimar la media
poblacional µ.
Vemos pues que en muchos casos no será posible determinar el valor de un parámetro po-
blacional analizando todos los valores poblacionales, pues el proceso a seguir para determinar
el valor del parámetro puede ser destructivo, como en el ejemplo anterior, o nos puede costar
mucho tiempo o dinero el analizar cada unidad poblacional. En estas situaciones la única salida
que tenemos es utilizar, la inferencia estadística para obtener información sobre los valores de
los parámetros poblacionales, basándonos en la información contenida en una muestra aleatoria.
En la mayor parte de las investigaciones reales suponemos que las variables o transformacio-
nes de las mismas (logaritmos, etc, . . .) tienen distribuciones aproximadamente normales.
1.2. Clasificación de los procedimientos inferenciales

En primer lugar, se asume que la población está representada por una variable aleatoria con
una determinada distribución de probabilidad. Dependiendo del grado de conocimiento de ésta
se distinguen dos métodos para realizar el proceso inferencial:
1. Inferencia paramétrica. Es aquella en la que se admite que la distribución de la po-

blación pertenece a una cierta familia paramétrica de distribuciones (Normal, Binomial,
Poisson, etc, . . . ), siendo necesario únicamente precisar el valor de los parámetros para
determinar la distribución poblacional. Es decir, se realizan inferencias sobre los paráme-
tros desconocidos de la distribución conocida.
supondremos un modelo de distribución de probabilidad para la variable aleatoria en es-
tudio que resuma las características de la misma, aunque desconocemos los parámetros
que trataremos de estimar a partir de una muestra. Por ejemplo, suponemos que X es
N(µ, σ 2 ) donde los dos parámetros, o uno de ellos, son desconocidos.
En algunos casos no es necesario especificar tales distribuciones y las inferencias se hacen

sobre características de la distribución que no son necesariamente parámetros.
2. Inferencia no paramétrica. No supone ninguna distribución de probabilidad de la po-

blación, exigiendo sólo hipótesis muy generales de la distribución de probabilidad no
referenciadas en parámetros, como puede ser la de simetría. Es decir, se realiza inferencia
sobre características que no tienen por qué ser parámetros de una distribución conocida
1.3 Naturaleza de la información extraída de la población 11
(Mediana, Estadísticos de Orden, etc.). A su vez los procedimientos no paramétricos se

pueden clasificar en:
a) Procedimientos de localización, que estudian los parámetros de localización de la
distribución.
b) Procedimientos de estructura, que analizan las condiciones que se dan en la dis-
tribución de la variable.
c) Procedimientos sobre las condiciones de la muestra, que comprueban si se verifi-
can las hipótesis exigibles a los valores muestrales, como la independencia, ausencia
de valores atípicos, etc.
Por su parte, la inferencia paramétrica se puede estudiar desde dos enfoques diferentes:
1. Enfoque clásico o frecuentista. En el cual los parámetros de la distribución de probabi-

lidad de la población se consideran constantes desconocidas que se deben estimar.
2. Enfoque bayesiano. Considera a los parámetros como variables aleatorias, permitiendo

introducir información sobre ellos a través de una distribución inicial (a priori). Mezclan-
do la distribución a priori con la información muestral, los métodos bayesianos hacen uso
de la regla de Bayes para ofrecer una distribución a posteriori de los parámetros.
1.3. Naturaleza de la información extraída de la

población
Con el objeto de obtener una visión más global del proceso inferencial, se distinguen dos
procedimientos para la obtención de información. En el primero, dicha información se obtiene
de forma aséptica, con el sólo propósito de observar las unidades muestrales, y en el segundo,
se establecen las condiciones en las cuales se procederá a la medición de lo que se conoce como
unidades experimentales.
Formalmente, dicha distinción implica dos categorías, la primera de ellas, como ya ha que-
dado de manifiesto, supone el encontrarse dentro de la Teoría de Muestro, mientras que la
segunda se conoce como Diseño de Experimentos.
La Teoría de Muestro, en primer lugar necesita establecer los protocolos que se deben respe-
tar para alcanzar los niveles de representatividad y precisión prefijados; a ésto se le llama diseño
muestral, que conduce a una muestra potencial. Una vez realizado dicho diseño, se procede a
la obtención de una o varias muestras mediante la observación, la medición o la encuestación.
Estas alternativas están directamente relacionadas con la naturaleza de los datos: atributos, va-
riables continuas, discretas o de clase, ordenadas o no.
El Diseño de Experimentos, por su parte, fue creado por Fisher en la década de 1920 y en sus
orígenes tuvo una clara aplicación al mundo agrícola, relacionando las condiciones en las que se
realizaban los cultivos, que constituyen los denominados factores, con la producción obtenida,
variable dependiente. El campo de aplicación se ha ido extendiendo con el paso de los años, te-
niendo en la actualidad una aplicación generalizada en la mayoría de los campos científicos. En
cualquier caso, en lo que sigue no se considera como objeto de análisis, con lo cual los estudios
que a continuación se llevan a cabo se restringen a la Teoría de Muestro.
Antes de continuar, es necesario aclarar algunas cuestiones de vital importancia para entender
el desarrollo teórico que aquí se presenta.
Cuando se plantea realizar un estudio inferencial se debe realizar un diseño muestral.

Esto implica que cada elemento de la muestra potencial es una variable aleatoria unidi-
mensional, mientras que la muestra es un vector aleatorio de dimensión el tamaño de ésta.
Además, no debe confundirse el individuo físico con la característica o características que
se desean estudiar de éste.
Cuando de cada individuo se estudia una única característica se habla de análisis univaria-
ble o univariante, cuando se estudian dos, bivariable o bivariante y cuando se consideran
más de dos, multivariable o multivariante. En lo que sigue, se considerará un análisis
univariable.
Una muestra de tamaño n será denotada por X1 , X2 , . . . , Xn . Cada Xi , con i = 1, 2, . . . , n,

es una variable aleatoria que representa la característica bajo estudio del elemento i−ésimo
de la muestra. Cuando las mediciones se hayan llevado a cabo, es decir, una vez realizado
el muestreo los resultados obtenidos se denotan por x1 , x2 , . . . , xn .
1.4. Razones que justifican un estudio inferencial

La realización de un estudio inferencial se justifica por distintas circunstancias, entre las que
destacan las siguientes:
1. Por motivos presupuestarios. La realización de un estudio a través de muestras supone

un ahorro tanto de dinero como de tiempo. Imagínese el tiempo y dinero que supondría
realizar un estudio sobre la altura media de la población de Colombia.
2. A veces no todos los elementos de una población están localizables. En el ejemplo ante-
rior puede ocurrir que haya personas nacidas en Colombia que vivan en otros países.
1.5 Estadísticos y distribuciones muestrales 13
3. En ocasiones la población tiene un gran número de elementos, pudiendo ser ésta poten-
cialmente infinita. Considérense, por ejemplo, poblaciones cuyos elementos se obtienen
a partir de la realización de un experimento aleatorio, como la tirada de un dado o la
contabilización del número de clientes que utilizan un cierto servicio en un tiempo fijo.
4. Existen situaciones en las que cuando se analiza un elemento éste queda inutilizable o
destruido. Si se quiere comprobar la calidad del vino de una cierta cosecha, un análisis
completo llevaría a la desaparición de la población. Bastaría tomar una medición en cada
tonel o conjunto de éstos.
5. Por motivos de precisión. Aunque parezca contradictorio, a veces un análisis total, implica
el que se cometan errores graves en la medición, codificación, resumen, etc., cuestiones
que pueden ser mucho mejor controladas utilizando un estudio a partir de una muestra.
Por otro lado, es mucho más fácil formar y controlar a un pequeño número de medidores
– observadores – encuestadores, que a un gran número de éstos.
Ahora bien, la inferencia se hace a partir de muestras que deben estar debidamente escogidas.
Por esta razón trataremos previamente a los métodos de la inferencia, las técnicas de muestreo,
es decir, las diversas formas de poder seleccionar una muestra que sea adecuada para realizar
las inferencias, controlando el posible error.
Para trabajar este tema se necesita el manejo de los números combinatorios como herramien-
ta de cálculo y el conocimiento y uso de la distribución normal y sus propiedades.
Finalmente, insistir en la importancia de la inferencia estadística como disciplina fundamental

en todas las áreas científicas, tanto naturales como sociales.
1.5. Estadísticos y distribuciones muestrales

A partir de este punto trataremos más profundamente la inferencia paramétrica donde po-
demos pensar que estamos interesados en el estudio de una variable aleatoria X, cuya dis-
tribución, F , es en mayor o menor grado desconocida. Conociendo la distribución podemos
extraer conclusiones acerca de la población en estudio. En la inferencia paramétrica supo-
nemos que tenemos una familia de distribuciones cuya distribución de probabilidad se su-
pone conocida salvo los valores que toman ciertos coeficientes (parámetros), es decir, F =

Fθ : θ ∈ Θ ⊂ Rk (a Θ se le llama espacio paramétrico). Para tratar de conocer F tomamos
una muestra X1 , X2 , . . . , Xn . El método de muestreo empleado influirá decisivamente en los
pasos posteriores ya que la distribución conjunta de la muestra F (x1 , x2 , . . . , xn ) será necesaria
para el proceso de inferencia.
Tanto en el caso de muestreo estratificado como en el de áreas y en cualquier otro muestreo

probabilístico, la última etapa del muestreo implica la realización de un muestreo aleatorio sim-
ple; ello justifica el hecho de que en lo que sigue sólo se consideren muestras aleatorias simples,
(m.a.s.). En concreto, el tipo de muestras aleatorias simples que van a ser analizadas a partir de
ahora son aquellas obtenidas de una población infinita (muy grandes) y con muestreo aleatorio
simple con reemplazamiento. El muestreo aleatorio simple con reemplazamiento garantiza una
muestra representativa de la población y la obtención de observaciones independientes. Esto
supone que dada una muestra X1 , X2 , . . . , Xn se tiene que:
Las variables Xi , con i = 1, 2, . . . , n, tienen igual distribución de probabilidad que la
población de la cual se ha extraído la muestra. Es decir, si F es la función de distribución
de la población entonces FXi = F , i = 1, 2, . . . , n.
Las variables Xi , con i = 1, 2, . . . , n, son independientes. Por tanto, si FX1 ,X2 ,...,Xn es la
función de distribución conjunta de la muestra, entonces
n
Y n
Y
FX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = FXi (xi ) = F (xi ).
i=1 i=1
Definición 1.1. Sea X la variable aleatoria correspondiente a una población con función de
distribución F (x). Llamaremos muestra aleatoria simple de tamaño n de la variable aleatoria
X con distribución teórica F (x) a n variables aleatorias X1 , X2 , . . . , Xn independientes e
igualmente distribuidas con distribución común F (x), que es la distribución de la población.
Hemos utilizado letras minúsculas, como en estadística descriptiva, para denotar las observa-
ciones particulares de una muestra, y letras mayúsculas para denotar las variables aleatorias de
las que se han tomado. A lo largo de la exposición teórica ambas serán intercambiables y serán
utilizadas indistintamente para representar a las correspondientes variables aleatorias.
Al ser las variables aleatorias X1 , X2 , . . . , Xn , independientes, resulta que si la población de

partida es tipo discreto y la función de probabilidad de la población es:
pi = P (X = xi ) i = 1, 2, . . . , n,
entonces la función de probabilidad de la muestra será:

n
Y n
Y
P (X1 = x1 , X2 = x2 , . . . , Xn = xn , ) = P (Xi = xi ) = pi .
i=1 i=1
Si la muestra aleatoria simple procede de una población de tipo continuo con función de densi-
dad f (x), entonces la función de densidad de la muestra será:
n
Y
f (x1 , x2 , . . . , xn ) = f (xi ).
i=1
Es decir, una variable aleatoria multivariante cuya función de densidad de probabilidad es el

producto de las funciones de densidad de cada una de las componentes (ya que son indepen-
dientes). Esta forma de entender la muestra supera el ámbito de un curso introductorio.
Llamaremos espacio muestral al conjunto de muestras posibles que pueden obtenerse al se-
leccionar una muestra de un tamaño determinado de una cierta población.
Una vez obtenida la muestra la describimos en términos de algunas de sus características

fundamentales como la media, la desviación estándar, etc . . . A tales características las solemos
denominar estadísticos.
1.5.1. Parámetros poblacionales y estadísticos muestrales

Muchas investigaciones buscan conocer características de algunas poblaciones de interés.
Esta información puede referirse a promedios, totales, proporciones, varianza, etc. Estas carac-
terísticas poblacionales, reciben el nombre de “parámetros” si son obtenidas a través del estudio
de la totalidad de la población. En general, diremos que los parámetros poblacionales son las
características numéricas de la población. En concreto, un parámetro es una caracterización
numérica de la distribución de la población. El conocimiento de los parámetros permite descri-
bir parcial o totalmente la función de probabilidad de la característica que estamos investigando.
Por ejemplo, si la característica a investigar sabemos que sigue una distribución exponencial
de parámetro λ su función de densidad será:
(
λe−λx , si x > 0
f (x) =
0, si x ≤ 0.
pero esta función de densidad no estará totalmente descrita hasta que no se dé el valor del pará-
metro λ, y entonces será cuando podremos formular preguntas concretas sobre esa distribución,
es decir, podremos calcular las diferentes probabilidades.
En la mayoría de los modelos probabilísticos nos encontraremos parámetros cuyos valores

tendremos que fijar para especificar completamente el modelo y poder calcular las probabilida-
des deseadas. De manera más concreta podemos decir que uno de los problemas centrales en
estadística se nos presenta cuando deseamos estudiar una población con función de distribución
F (x, θ), donde la forma de la función de distribución es conocida pero depende de un paráme-
tro θ desconocido, ya que si θ fuese conocido tendríamos totalmente especificada la función de
distribución. Si el parámetro θ no se conoce entonces se selecciona una muestra aleatoria simple
X1 , X2 , . . . , Xn de tamaño n de la población, y se calcula para las observaciones de la muestra
el valor de alguna función g(x1 , x2 , . . . , xn ), que representa o estima el parámetro desconocido
θ. El problema es determinar qué función será la “mejor” para estimar el parámetro θ, lo cual
será resuelto en el capítulo dedicado a la estimación.
Un estadístico T (X1 , X2 , . . . , Xn ), es una función de las variables muestrales que no de-

pende de parámetros desconocidos. Se trata pues de una variable aleatoria, la cual tiene una
distribución que se denomina distribución en el muestreo. El estadístico puede considerarse co-
mo un resumen o una compresión de la información suministrada por la muestra y, obviamente,
va a ser más manejable que ésta. Nótese que puede ocurrir que en ese resumen se pierda alguna
posible información que pudiera contener X1 , X2 , . . . , Xn acerca de los parámetros descono-
cidos. Por ello, el objetivo perseguido es que el estadístico T (X1 , X2 , . . . , Xn ) sea tal que el
resumen que lleve a cabo se produzca sin pérdida de información relevante sobre los paráme-
tros.
Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará basada en

un estadístico muestral, es decir, en la información proporcionada por la muestra. La elección
del estadístico apropiado dependerá de cuál sea el parámetro poblacional de interés. El valor
verdadero del parámetro será desconocido y un objetivo sería estimar su valor, por lo que tal
estadístico se denomina estimador, es decir, aquel estadístico que se construye con la intención
de estimar un parámetro de la población y que, consecuentemente, debe reunir condiciones que
lo hagan deseable en algún sentido.
Formalmente, dada una muestra aleatoria simple X1 , X2 , . . . , Xn de la variable aleatoria X,

se llama estimador de un parámetro desconocido θ de la distribución de X, que se denota
por θ,
b a cualquier estadístico de X, (a cualquier función totalmente definida por las variables
X1 , X2 , . . . , Xn ).
estimador → θb = T (X1 , X2 , . . . , Xn )
Una estimación es el valor numérico que toma el estimador para una muestra concreta. Por
ejemplo, si el valor promedio de una muestra de 120 bloques de madera tomados de una po-
blación de 1000 bloques es de 72 kilos, entonces, el promedio de dicha muestra en este caso
es el estimador. El valor de este estimador podría ser utilizado como estimación del promedio
de la población a la cual pertenece la muestra. Un estimador recibe algunas veces el nombre de
estadístico.
No toda función de X1 , X2 , . . . , Xn será un buen estimador de un parámetro desconocido.

Unas funciones serán mejores que otras en su tarea estimadora. Un estimador no es más que
un estadístico en cuanto instrumento de estimar parámetro. Hay distintos estimadores para un
mismo parámetro, unos mejores que otros y muchos de ellos serán absolutamente inadecuados.
A menudo conoceremos la distribución de los estimadores que usaremos. En otros casos, sólo
conoceremos sus principales parámetros: su esperanza matemática y su varianza.
Dada una muestra aleatoria simple X1 , X2 , . . . , Xn de la variable aleatoria X y un estimador

θ, se llama estimación de un parámetro θ a la realización específica de los cálculos indicados
b
por el estimador para valores de una muestra determinada.
estimador → θb = T (x1 , x2 , . . . , xn )
El estimador del parámetro poblacional θ es una función de las variables aleatorias u observa-
ciones muestrales y se representa por
θb = T (X1 , X2 , . . . , Xn ) .
Para una realización particular de la muestra x1 , x2 , . . . , xn se obtiene un valor específico del

estimador que recibe el nombre de estimación del parámetro poblacional θ y lo notaremos por
θb = T (x1 , x2 , . . . , xn ) .
Ejemplo 1.2. Sea X una variable aleatoria que sigue una distribución normal de media des-
conocida, µ, y varianza σ2. La función T (X1 , X2 , . . . , Xn ) = X, es decir, la media muestral,
es un estadístico y estimador de la media µ de la población. Si se toma la muestra x1 = 2,5,
x2 = 2, x3 = 3,4, x4 = 1,5, x5 = 4, el valor numérico x = 2,68 es una estimación de µ.
La necesidad de definir los estadísticos se debe a que, aunque con la muestra se ha reducido
bastante la dimensión del problema, el excesivo tamaño de ésta obliga a comprimir aún más
la información para obtener respuestas a las preguntas que puedan hacerse y, de esa forma,
completar el proceso inferencial. El objetivo que se persigue al definir los estimadores es el de
resumir la información muestral, en aras, de obtener valores próximos a los verdaderos valores
de los parámetros desconocidos de la distribución de la población.
Vemos pues que existe diferencia entre estimador y estimación. Utilizaremos el término esti-
mador cuando nos referimos a la función de las variables aleatorias muestrales X1 , X2 , . . . , Xn ,
y los valores que toma la función estimador para las diferentes realizaciones o muestras concre-
tas serán las estimaciones. El estimador es un estadístico y, por tanto, una variable aleatoria y
el valor de esta variable aleatoria para una muestra concreta x1 , x2 , . . . , xn será la estimación
puntual.
Un estadístico es también una variable aleatoria ya que es una función de variables aleatorias.
Por ejemplo la media muestral
n
1X
X= Xi
n i=1
es una variable aleatoria de la que tenemos una sola observación

n
1X
x= xi .
n i=1
Veámoslo con un ejemplo sencillo:
Supongamos que disponemos de una población finita la cual consta de 4 individuos que toman
los valores {1, 2, 3, 4}. Supongamos que obtenemos una muestra sin reemplazo de tamaño 2.
Las distintas posibilidades son
{1, 2} {1, 3} {1, 4} {2, 3} {2, 4} {3, 4} .
Obtendremos, dependiendo de la muestra elegida, las siguientes medias respectivamente:
1,5 2 2,5 2,5 3 3,5
Es claro que la media muestral no es un valor fijo sino que puede considerarse también como
una variable aleatoria de la que tenemos una sola observación, la media de la muestra concreta
seleccionada.
Dicha variable tendrá una distribución de probabilidad asociada. En este caso una distribución
1 1 2 1 1
discreta que toma los valores 1,5, 2, 2,5, 3 y 3,5 con probabilidades , , , , , respec-
6 6 6 6 6
tivamente.
Continuando con la población de función de distribución F (x, θ), donde θ es un parámetro

desconocido, y considerando una muestra aleatoria simple, X1 , X2 , . . . , Xn , constituida por n
variables aleatorias independientes e idénticamente distribuidas, podemos definir algunos esta-
dísticos o funciones de esas variables aleatorias, como por ejemplo:
X 1 + X2 + · · · + Xn
g1 (X1 , X2 , . . . , Xn ) =
n
X12 + X22 + · · · + Xn2
g2 (X1 , X2 , . . . , Xn ) =
n
(X1 − X)2 + (X2 − X)2 + · · · + (Xn − X)2
g3 (X1 , X2 , . . . , Xn ) =
n−1
los cuales se determinan totalmente a partir de las observaciones muestrales.
En general, un estadístico T lo representaremos como:

T = g(X1 , X2 , . . . , Xn )
es decir, como una función g de las observaciones muestrales, que a su vez será también una
variable aleatoria, pues para cada muestra el estadístico T tomará un valor diferente, así pues
para una muestra concreta x1 , x2 , . . . , xn el estadístico tomará el valor:
T = g(x1 , x2 , . . . , xn )
y a medida que vamos tomando muestras diferentes se obtienen distintos valores del estadísti-
co, resultando que efectivamente el estadístico T es también una variable aleatoria y por consi-
guiente tendrá su correspondiente distribución, a la que llamaremos distribución muestral del
estadístico, como veremos posteriormente.
Vemos pues que un parámetro y un estadístico son conceptos muy diferentes, pues el pará-
metro es una constante y cuando se conoce determina completamente el modelo probabilístico,
sin embargo el estadístico es una variable aleatoria cuyo valor dependerá de las observaciones
muestrales.
Ahora vamos a distinguir entre medidas numéricas calculadas con conjuntos de datos po-
blacionales y las calculadas con datos muestrales. Así pues, si la medida numérica se calcula
para el conjunto de datos poblacionales le llamaremos valor del parámetro poblacional y si
se calcula para el conjunto de datos muestrales, le llamaremos valor del estadístico muestral.
Supongamos que en una población de tamaño N hemos atribuido a cada elemento de la po-
blación un valor de acuerdo con determinada característica X que hemos medido. Podemos
seleccionar una muestra de tamaño n y calcular un estadístico, por ejemplo, la media, para los
n valores seleccionados. Si volvemos a extraer muestras aleatorias y repetimos la operación
sucesivamente, lograremos reunir un número elevado de medias.
Con las medias obtenidas, podemos construir una distribución de frecuencias para los valores
de las medias, X. Pues bien, a medida que aumenta el número de muestras extraídas de tama-
ño n, esa distribución se aproxima a una distribución teórica que denominaremos distribución
muestral del estadístico media.
Definición 1.2. A la distribución de un estadístico calculado a partir de los valores tomados de

una muestra se la denomina distribución muestral del estadístico.
La distribución muestral de un estadístico se define como la función de probabilidad (o fun-

ción de densidad de probabilidad) del estimador de ese estadístico. Es decir, se trata de una
función que expresa la probabilidad asociada a cada posible valor del estadístico obtenido a
partir de una muestra aleatoria de tamaño n.
Ejemplo 1.3. Para ilustrar este concepto, construiremos la distribución muestral del estadístico
media, X, cuando extraemos muestras aleatorias de tamaño 2 en una población constituida por
los valores {1, 2, 3}. La muestra estará formada por los valores de las dos variables aleatorias:
X1 (resultado de la primera selección) y X2 (resultado de la segunda elección). A su vez, la
media muestral X es también una variable aleatoria, puesto que se obtiene por combinación
lineal de las dos variables aleatorias X1 y X2 .
Formaremos muestras de tamaño 2 recurriendo a dos vías diferentes:

a) Procedimiento empírico.- Seleccionamos al azar una muestra con reemplazamiento de
2 elementos y calculamos su media. Repetimos el proceso hasta un total de 20 veces. Los
resultados de este proceso podrían ser, por ejemplo:
x1 1 1 2 2 2 1 2 3 3 1 1 2 3 3 2 1 1 3 3 1
x2 2 3 1 3 2 3 1 1 3 1 2 3 3 2 1 2 2 2 1 3
x 1.5 2 1.5 2.5 2 2 1.5 2 3 1 1.5 2.5 3 2.5 1.5 1.5 1.5 2.5 2 2
Tabla 1-1.:
La distribución de frecuencias para los valores de la media obtenidos quedaría tal y como
muestra la tabla (1-2).
x ni fi
1 1 1/20 = 0.05
1.5 7 7/20 = 0.35
2 6 6/20 = 0.30
2.5 4 4/20 = 0.20
3 2 2/20 = 0.10
Tabla 1-2.:
Así habremos construido una distribución muestral empírica.
b) Procedimiento teórico. -Sin tener que extraer repetidas muestras para calcular la media
de los valores que las componen, podemos construir una distribución muestral teórica,
valiéndonos de conceptos probabilísticos. Así podemos determinar las 9 muestras alea-
torias posibles con reemplazamiento a partir de la población considerada y calcular las
respectivas medias.
x1 1 1 1 2 2 2 3 3 3
x2 1 2 3 1 2 3 1 2 3
x 1 1.5 2 1.5 2 2.5 2 2.5 3
Tabla 1-3.:
Teniendo en cuenta las medias de las nueve muestras posibles, todas ellas equiprobables,
puedo construir la función de probabilidad para la variable aleatoria X.
x ni fi
1 1 1/9 = 0.11
1.5 2 2/9 = 0.22
2 3 3/9 = 0.33
2.5 2 2/9 = 0.22
3 1 1/9 = 0.11
Tabla 1-4.:
Conociendo ésta distribución muestral teórica, se tiene que la probabilidad de obtener el

valor X = 1 para la media de una muestra extraída al azar de la población es P X = 1 =

0,11, mientras que la probabilidad de obtener el valor X = 2 es P X = 2 = 0,33. Es
decir, en un 11 % de los casos, la muestra tendrá como media 1 y en un 33 % de los casos,
el valor de la media de la muestra será 2.
Como afirmábamos anteriormente, la distribución muestral empírica de un estadístico se apro-

xima a la distribución muestral teórica a medida que aumenta el número de muestras extraídas.
Las frecuencias relativas obtenidas empíricamente llegan a coincidir con las probabilidades teó-
ricas cuando el número de muestras crece indefinidamente.
Veamos someramente otro ejemplo.
Supongamos que la población es P = {1, 2, 3, 5} y que representa el tiempo (en horas diarias)
que cada uno de un grupo de cuatro estudiantes de la universidad dedican al estudio.
Siguiendo la misma técnica utilizada en ejemplo anterior tenemos:
c) El conjunto de muestras de tamaño 2 de la población P tiene 16 elementos diferentes.
1 2 3 5
1 1 1.5 2 3
2 1.5 2 2.5 3.5
3 2 2.5 3 4
5 3 3.5 4 5
Tabla 1-5.: Medias de las muestras de tamaño 2.

La información que da la tabla anterior se puede organizar en una tabla de distribución de

frecuencias del siguiente modo:
x ni
1 1
1.5 2
2 3
2.5 2
3 3
3.5 2
4 2
5 1
Tabla 1-6.: Distribución de medias muestrales (n = 2)
Hemos construido la distribución muestral de medias de tamaño 2. Esa distribución, igual

que toda distribución, tiene gráfica de una determinada forma, una media, una desviación
estándar, etc.
d) El conjunto de muestras de tamaño 3 de la población P tiene 64 elementos diferentes. Y

procediendo de un modo análogo podemos obtener la siguiente tabla:
x ni
1 1
4/3 3
5/3 6
2 7
7/3 9
8/3 9
3 10
10/3 6
11/3 6
4 3
13/3 3
5 1
Así hemos construido la distribución muestral de medias de tamaño 3.

e) Igual podemos hacer la distribución muestral de medias de tamaño 4. En este caso hay
256 muestras diferentes.
x ni
1 1
5/4 4
6/4 10
7/4 16
2 23
9/4 28
10/4 34
11/4 32
3 31
13/4 24
14/5 22
15/4 12
4 10
17/4 4
18/4 4
5 1
T= 256
En resumen, se han construido las tres distribuciones muestrales de medias, asociadas con la
población P . Las características de la población P y de las tres distribuciones muestrales se
exponen a continuación.
Tamaño Media Desviación Estándar

Población 4 2.75 1.479016
Distribución muestral de medias, n = 2 16 2.75 1.045825
Tabla 1-9.:
Diagrama de Barras
1.0
0.8
0.6
Frecuencias
0.4
0.2
0.0 1 2 3 5
Población
Figura 1-1.: Distribución de la población.
Diagrama de Barras
3.0
2.5
2.0
Frecuencias
1.5
1.0
0.5
0.0
1 1.5 2 2.5 3 3.5 4 5
Medias
Figura 1-2.: Distribución de las medias de las muestras de tamaño 2.
Diagrama de Barras
10
8
6
Frecuencias
4
2
0
1 2 3 4 5
Medias

Diagrama de Barras
30
25
20
Frecuencias
15
10
5
0
1 1.5 2 2.5 3 3.5 4 4.5
Medias
Al observar las gráficas anteriores se comprueba que la gráfica de la población es uniforme y

los diagramas de las distribuciones muestrales van aproximándose a la curva normal a medida
que el tamaño de las muestras se aumenta.
También vemos que las medias de las cuatro distribuciones coinciden, y en cambio, las des-
viaciones estándares disminuyen a medida que aumenta el tamaño de las muestras.
Veamos como se relacionan la desviación estándar de la población con la desviación estándar

de la distribución muestral y con el tamaño de las muestras. Obsérvese que:
√
1,045825033 × 2 = 1,479019945
√
0,853912565 × 3 = 1,479019948
√
0,739509972 × 4 = 1,479019944
Los tres productos dan, prácticamente, el mismo resultado que el valor de la desviación estándar
de la población. En realidad, el producto entre la desviación estándar de la distribución muestral
de las medias y la raíz cuadrada del tamaño de las muestras es igual a la desviación estándar de
la población (la inexactitud de los resultados anteriores se debe a las aproximaciones tomadas).
En la mayor parte de los casos supondremos que nuestra población tiene distribución normal
y que los estadísticos que vamos a utilizar son la media y la desviación estándar (o la cuasi
desviación estándar).
Definición 1.3. En una población finita de tamaño N los parámetros poblacionales media,
varianza y proporción poblacional vienen dados por:
N
1 X
µ= Xi (1-1)
N i=1
N
2 1 X
σ = (Xi − µ)2 (1-2)
N i=1
X número de éxitos en N pruebas
p= = (1-3)
N número de pruebas
Definición 1.4. Para una muestra aleatoria simple de tamaño n, X1 , X2 , . . . , Xn , los estadísti-
cos media, varianza y proporción muestral se definen como:
n
1X
X= Xi (1-4)
n i=1
n
2 1 X
S = (Xi − X)2 (1-5)
n − 1 i=1
X número de éxitos en n pruebas
pX = = (1-6)
n número de pruebas
El estadístico varianza muestral, S 2 , se puede formular también mediante las siguientes ex-
presiones algebraicas:
 n 2 
P
n
! n Xi 
2 1 X
2 2 1 X 2 i=1
S = Xi − nX = Xi − (1-7)

n − 1 i=1 n − 1  i=1 n
 

En efecto:
n
2 1 X
S = (Xi − X)2
n − 1 i=1
n
1 X 2 2

= Xi − 2Xi X + X
n − 1 i=1
n n n
!
1 X X X 2
= Xi2 − 2X Xi + X
n−1 i=1 i=1 i=1
n
!
1 X 2
= Xi2 − 2X(nX) + nX
n−1 i=1
n
!
1 X 2
= Xi2 − nX
n−1
 i=1 2 
n
P
n Xi
1  X 2 i=1

= X −

n − 1  i=1 i n
 

1.6 Función de distribución empírica 27
Si en lugar de considerar las n variables aleatorias, independientes e idénticamente distribui-

das X1 , X2 , . . . , Xn , que constituyen la muestra aleatoria simple, consideramos una muestra
concreta x1 , x2 , . . . , xn entonces los valores de estos estadísticos muestrales son:
n
1X
x= xi (1-8)
n i=1
n
1 X
s2 = (xi − x)2 (1-9)
n − 1 i=1
x
pb = (1-10)
n
Luego, vemos que efectivamente el estadístico es una función de las observaciones muestrales,
y en estos casos asigna a cada muestra observada la media de los valores, la varianza o la
proporción, respectivamente.
1.6. Función de distribución empírica

Sabemos que la función de distribución de una variable aleatoria X estaba definida como:
F (x) = P (X ≤ x)
y puede representar la proporción de valores que son menores o iguales que x.

De manera similar podemos definir la función de distribución empírica para una muestra.
Definición 1.5. Consideremos una población con función de distribución F (x) y sean x1 , x2 , . . . , xn
los valores observados correspondientes a una muestra aleatoria simple procedente de esa po-
blación, y designamos por N (x) el número de valores observados que son menores o iguales
que x. Entonces definimos la función de distribución empírica de la muestra, que la notaremos
por Fn (x), como:
N (x)
Fn (x) = . (1-11)
n
Ejemplo 1.4. Dada una muestra aleatoria formada por las observaciones muestrales 3, 8, 5,
4, 5. Obtener la función de distribución empírica y su correspondiente representación gráfica.
Solución. Utilizando la expresión (1-11) podemos obtener la función de distribución empírica

que aparece en la Tabla (1-10).
Observaciones Muestrales x N (x) F5 (x)

( < 3, 0 0,0
3 ≤ 3, 1 0,2
4 ≤ 4, 2 0,4
5 ≤ 5, 4 0,8
8 ≤ 8, 5 1,0
Tabla 1-10.: Función de distribución empírica.
La representación gráfica de esta función de distribución la tenemos en el Gráfico (1-5).
Figura 1-5.: Gráfico de la función de distribución empírica.
La función de distribución empírica tiene las mismas propiedades que la función de dis-
tribución de la variable aleatoria, y, se puede demostrar, utilizando el teorema de Glivenko-
que Fn (x) converge en probabilidad
Cantelli, a F (x), es decir, para todo ε > 0, se verifica
lı́m P sup | Fn (x) − F (x) |≥ ε = 0. Lo cual, a efectos prácticos, implica que cuando
n→∞ −∞<x<∞
el tamaño de la muestra crece la gráfica de la función de distribución empírica se aproxima
bastante a la de la función de distribución de la población, y se puede utilizar como estimador
de la misma. Así, si la muestra es suficientemente grande y se verifica el teorema, entonces la
muestra puede proporcionar información casi exacta sobre la distribución de la población.
De todo esto se deduce que la función de distribución empírica o su gráfica se puede utilizar
para determinar la forma general de la distribución poblacional. También es fácil y muy fre-
cuente el reconocer la forma de la distribución observando el histograma correspondiente que
nos daría idea de la función de densidades.
1.7 Distribución muestral del estadístico 29
1.7. Distribución muestral del estadístico

Como veremos posteriormente los estadísticos muestrales (proporción, media y varianza
muestral) se pueden utilizar para estimar los correspondientes parámetros poblacionales. Así
pues, para estudiar propiedades de estos estadísticos, como estimadores de los parámetros po-
blacionales, será necesario estudiar las características de la distribución de probabilidad de estos
estadísticos.
Sabemos que los estadísticos muestrales se calculan a partir de los valores X1 , X2 , . . . , Xn

de una muestra aleatoria simple, y estos estadísticos son también variables aleatorias puesto que
su valor cambia de muestra a muestra. Como tales variables aleatorias tienen su distribución de
probabilidad, así pues los estadísticos muestrales: proporción, media,varianza, etc., tendrán su
correspondiente distribución de probabilidad. Si tales distribuciones de probabilidad se pueden
obtener, entonces será posible establecer afirmaciones probabilísticas sobre esos estadísticos.
La distribución exacta de los estadísticos dependerá del tamaño muestral n. Así, en muchas
situaciones, encontrar la distribución de probabilidad exacta del estadístico media muestral X,
incluso para n pequeño y variables aleatorias discretas, será bastante pesado, pero sin grandes
dificultades teóricas. En muchos de estos casos serán relativamente sencillo, mientras que en
otros lo mejor que se puede hacer es tomar una muestra grande y utilizar la distribución límite
apropiada.
El término distribución muestral se utiliza para poner de manifiesto que hay diferencia entre
la distribución de la población de la cual se ha extraído la muestra y la distribución de alguna
función de esa muestra.
Conceptualmente, la distribución muestral de un estadístico se puede obtener tomando todas

las posibles muestras de un tamaño n, fijo, calculando el valor del estadístico para cada muestra
y construyendo la distribución de estos valores.
La distribución de todos los valores posibles que se pueden tomar por algún estadístico, cal-
culados a partir de muestras del mismo tamaño extraídas aleatoriamente de la misma población,
se llama distribución muestral de ese estadístico.
Las distribuciones muestrales pueden construirse empíricamente cuando se obtiene de una

población finita, discreta. Para lo cual se procede como:
1. De una población finita, discreta de tamaño N , se extraen aleatoriamente todas las mues-
tras posibles de tamaño n.
2. Se calcula el estadístico de interés para cada muestra.
3. Se enumeran en una columna los diferentes valores observados del estadístico y, en otra
columna, la frecuencia correspondiente de la ocurrencia de cada uno de esos valores.
Ejemplo 1.5. Suponga se que de una población de tamaño N = 5 edades de niños, dadas
como {6, 8, 10, 12, 14}, la media poblacional µ = 10 y la varianza poblacional σ 2 = 8 y la
varianza muestral es s2 = 10. Si extraemos todas las muestras posibles de tamaño n = 2,
si consideramos un muestreo con remplazo y calculamos la media tendremos N n muestras
posibles, es decir 52 = 25 posibles muestras, de tamaño 2.
6+6 6+8 6 + 10 6 + 12 6 + 14
x1 = =6 x2 = =7 x3 = =8 x4 = =9 x5 = = 10
2 2 2 2 2
8+6 8+8 8 + 10 8 + 12 8 + 14
x6 = =7 x7 = =8 x8 = =9 x9 = = 10 x10 = = 11
2 2 2 2 2
10 + 6 10 + 8 10 + 10 10 + 12 10 + 14
x11 = =8 x12 = =9 x13 = = 10 x14 = = 11 x15 = = 12
2 2 2 2 2
12 + 6 12 + 8 12 + 10 12 + 12 12 + 14
x16 = =9 x17 = = 10 x18 = = 11 x19 = = 12 x20 = = 13
2 2 2 2 2
14 + 6 14 + 8 14 + 10 14 + 12 14 + 14
x21 = = 10 x22 = = 11 x23 = = 12 x24 = = 13 x25 = = 14
2 2 2 2 2
Tabla 1-11.:
La tabla de frecuencias es:
X Frecuencia Frecuencia relativa

6 1 1/25
7 2 2/25
8 3 3/25
9 4 4/25
10 5 5/25
11 4 4/25
12 3 3/25
13 2 2/25
14 1 1/25
Total 25 1
Tabla 1-12.:
Las gráficas de la distribución de la población y de la distribución muestral se observan en

el gráfico (1-6).
Figura 1-6.: Gráfico de la distribución de la población (Izquierda) y de la distribución muestral

(derecha).
En esta sección estamos interesados en determinar las distribuciones de probabilidad de algu-

nos estadísticos muestrales, en concreto, para la media X y varianza S 2 muestral, que serán de
bastante utilidad en diferentes aplicaciones estadísticas.
Así, por ejemplo, si el estadístico es la media muestral X, la distribución muestral de X puede

construirse tomando todas las muestras posibles de tamaño n, calculando el valor del estadístico
X para cada muestra, que lo notaremos por x, y formando la distribución de los valores x.
Ejemplo 1.6. Supongamos una población formada por las cinco tiendas existentes en un ba-
rrio. La característica a investigar será el número de horas que diariamente permanecen abier-
tas esas tiendas, lo cual representaremos por la variable aleatoria X; los valores poblacionales
se expresan en la tabla (1-13).
Tiendas Valores de X
T1 x1 = 12
T2 x2 = 10
T3 x3 = 14
T4 x4 = 9
T5 x5 = 10
Tabla 1-13.: Valores poblacionales de la variable aleatoria X.
Los valores de los parámetros media y varianza poblacional serán:
N
1 X 1 1
µ= Xi = (12 + 10 + 14 + 9 + 10) = (55) = 11
N i=1 5 5
N
2 1 X
σ = (Xi − µ)2
N i=1
1
(12 − 11)2 + (10 − 11)2 + (14 − 11)2 + (9 − 11)2 + (10 − 11)2

=
5
1
(1)2 + (−1)2 + (3)2 + (−2)2 + (−1)2

=
5
1
= (1 + 1 + 9 + 4 + 1)
5
1
= (16)
5
16
=
5
Las diez posibles muestras aleatorias simples de tamaño 3 que se pueden tomar y el valor del
estadístico media muestral aparecen en la tabla (1-14).
Muestra Observaciones muestrales Estadístico media muestral X

xi x
(T1 , T2 , T3 ) (12, 10, 14) 12,0
(T1 , T2 , T4 ) (12, 10, 9) 10,3
(T1 , T2 , T5 ) (12, 10, 10) 10,6
(T1 , T3 , T4 ) (12, 14, 9) 11,6
(T1 , T3 , T5 ) (12, 14, 10) 12,0
(T1 , T4 , T5 ) (12, 9, 10) 10,3
(T2 , T3 , T4 ) (10, 14, 9) 11,0
(T2 , T3 , T5 ) (10, 14, 10) 11,3
(T2 , T4 , T5 ) (10, 9, 10) 9,6
(T3 , T4 , T5 ) (14, 9, 10) 11,0
Tabla 1-14.: Posibles muestras de tamaño 3 y valores del estadístico media muestral.
La distribución de probabilidad del estadístico media muestral X viene dada por la tabla
(1-15).
Valores del estadístico media muestral X Función de probabilidad

x P (x) = P (X = x)
9,6 0,1
10,3 0,2
10,6 0,1
11,0 0,2
11,3 0,1
11,6 0,1
12,0 0,2
Tabla 1-15.: Distribuciones muestral del estadístico media muestral X.

La representación gráfica de la distribución muestral del estadístico media muestral X , se

tiene en el Gráfico (1-7).
Figura 1-7.: Distribución muestral del estadístico media muestral X.
Ahora veamos otro ejemplo más completo para muestras de tamaño dos en el cual obtendre-
mos las distribuciones de probabilidad de los estadísticos media, X, y varianza, S 2 , muestral.
También obtendremos las medias y varianzas de ambos estadísticos.
Ejemplo 1.7. Sea una empresa dedicada al transporte y distribución de mercancías, la cual
tiene una plantilla de 50 trabajadores. Durante el último año se ha observado que 25 trabaja-
dores han faltado un solo día al trabajo, 20 trabajadores han faltado dos días y 5 trabajadores
han faltado tres días. Si se toma una muestra aleatoria, con reemplazamiento, de tamaño dos
(X1 , X2 ) del total de la plantilla, obtener:
1. La distribución de probabilidad del número de días que ha faltado al trabajo un emplea-

do, su media y su varianza.
2. Distribución de probabilidad del estadístico media muestral X.
3. La distribución de probabilidad del estadístico varianza muestral, S 2 .
4. La media y varianza del estadístico media muestral.
5. La probabilidad de que el estadístico media muestral, X, sea menor que 2.
6. La media y varianza del estadístico varianza muestral.
7. La probabilidad de que el estadístico varianza muestral, S 2 , sea menor o igual que 0,5.
Solución. 1. Empezaremos obteniendo la distribución de probabilidad de la variable alea-

toria:
X: “número de días que ha faltado al trabajo un empleado elegido aleatoriamente de la
plantilla total”.
La variable aleatoria X, puede tomar los valores 1, 2 ó 3, y como la selección se hace de

manera aleatoria, todos los trabajadores tendrán la misma probabilidad de ser seleccio-
nados, luego la distribución de probabilidad de la variable aleatoria X viene dada en la
Tabla (1-16), y será la distribución de probabilidad de la población.
Valores de la variable aleatoria X Probabilidades P (X = x) = P (x)

x
25
1 P (X = 1) = P (1) = 50 = 0,5
20
2 P (X = 2) = P (2) = 50 = 0,4
5
3 P (X = 3) = P (3) = 50 = 0,1
Tabla 1-16.: Distribuciones muestral del estadístico media muestral X.
A partir de esta distribución de probabilidad tenemos que la media será:

X
µ = E[X] = xi P (X = xi ) = 1(0,5) + 2(0,4) + 3(0,1)
i
= 0,5 + 0,8 + 0,3 = 1,6
y la varianza
X
σ 2 = V ar(X) = E[(X − µ)2 ] = (xi − µ)2 P (X = xi )
i
= (1 − 1,6) (0,5) + (2 − 1,6)2 (0,4) + (3 − 1,6)2 (0,1)

2
= (−0,6)2 (0,5) + (0,4)2 (0,4) + (1,4)2 (0,1)

= 0,36(0,5) + 0,16(0, 4) + 1,96(0,1)
= 0,18 + 0,064 + 0,196 = 0,44
Observamos que si sumamos el número total de faltas al trabajo que se han producido en
la población de los 50 empleados y dividimos por los 50 empleados tenemos la media.
25 · 1 + 20 · 2 + 5 · 3 25 + 40 + 15 80
= = = 1,6.
50 50 50
Análogamente sucede con la varianza.
Por esto, en lo sucesivo µ y σ 2 serán consideradas como la media y la varianza poblacio-

nal, respectivamente.
2. Seleccionamos una muestra aleatoria, con reemplazamiento, de tamaño dos (X1 , X2 ),

siendo:
X1 : variable aleatoria correspondiente al número de días que falta el primer trabajador
seleccionado.
X2 : variable aleatoria correspondiente al número de días que falta el segundo trabajador
seleccionado.
Ambas variables aleatorias X1 y X2 tienen la misma distribución de probabilidad que la
de la variable aleatoria X, correspondiente a la población.
Pero como nos interesa obtener la distribución de probabilidad del estadístico media
muestral:
1
X = (X1 + X2 )
2
ésta estará relacionada con la distribución de probabilidad de las variables aleatorias X1
y X2 .
Para tener las distribuciones de probabilidad de los estadísticos media X y varianza S 2
muestral necesitaremos tener los diferentes valores que puede tomar y sus probabilida-
des. Para ello empezaremos obteniendo las posibles muestras, con reemplazamiento, de
tamaño dos, sus probabilidades y los valores correspondientes de los estadísticos media y
varianza muestral, que vienen dados en la Tabla (1-17).
Muestras de tamaño dos X S2 P (X1 = x1 , X2 = x2 )

(x1 , x2 )
(1, 1) 1.0 0.0 P (X1 = 1, X2 = 1) = 0,5 · 0,5 = 0,25
(1, 2) 1.5 0.5 P (X1 = 1, X2 = 2) = 0,5 · 0,4 = 0,20
(1, 3) 2.0 2.0 P (X1 = 1, X2 = 3) = 0,5 · 0,1 = 0,05
(2, 1) 1.5 0.5 P (X1 = 2, X2 = 1) = 0,4 · 0,5 = 0,20
(2, 2) 2.0 0.0 P (X1 = 2, X2 = 2) = 0,4 · 0,4 = 0,16
(2, 3) 2.5 0.5 P (X1 = 2, X2 = 3) = 0,4 · 0,1 = 0,04
(3, 1) 2.0 2.0 P (X1 = 3, X2 = 1) = 0,1 · 0,5 = 0,05
(3, 2) 2.5 0.5 P (X1 = 3, X2 = 2) = 0,1 · 0,4 = 0,04
(3, 3) 3.0 0.0 P (X1 = 3, X2 = 3) = 0,1 · 0,1 = 0,01
Tabla 1-17.: Muestras de tamaño dos y valores obtenidos para las distribuciones de probabili-
dad de X y S 2 .
Para obtener las probabilidades correspondientes a los diferentes valores muestrales, ten-
dremos en cuenta que las variables X1 y X2 son independientes, pues el muestreo se ha
realizado con reemplazamiento. Luego,
P (X = 1) = P (X1 = 1, X2 = 1) = P (X1 = 1) · P (X2 = 1) = 0,5 · 0,5 = 0,25

P (X = 1,5) = P [(X1 = 1, X2 = 2)ó(X1 = 2, X2 = 1)]

= P (X1 = 1, X2 = 2) + P (X1 = 2, X2 = 1)
= P (X1 = 1) · P (X2 = 2) + P (X1 = 2) · P (X2 = 1)
= (0,5)(0,4) + (0,4)(0,5) = 0,20 + 0,20 = 0,40
Análogamente obtendremos las restantes probabilidades.
La información que nos proporciona la Tabla (1-17) la utilizaremos para obtener la dis-
tribución de probabilidad del estadístico media muestral X, así pues:
P (X = 1) = 0,25
P (X = 1,5) = 0,20 + 0,20 = 0,40
P (X = 2) = 0,05 + 0,16 + 0,05 = 0,26
P (X = 2,5) = 0,04 + 0,04 = 0,08
P (X = 3) = 0,01
Luego, la distribución de probabilidad del estadístico media muestral X la tenemos en la

Tabla (1-18).
Valores del estadístico X Probabilidades

x P (X = x) = P (x)
1 0,25
1,5 0,40
2 0,26
2,5 0,08
3 0,01
Tabla 1-18.: Distribución de probabilidad del estadístico media muestral X.
3. Análogamente podemos obtener la distribución de probabilidad del estadístico varianza

muestral S 2 . Los diferentes valores del estadístico S 2 aparecen en la tercera columna de
la Tabla (1-17), así pues, para la primera muestra tenemos:
n
1 X
s2 = (xi − x)2
n − 1 i=1
1
(1 − 1)2 + (1 − 1)2

=
2−1
= 0.
Para la segunda muestra será:
1
s2 = (1 − 1,5)2 + (2 − 1,5)2

2−1
1
(−0,5)2 + (0,5)2

=
2−1
= 0,25 + 0,25 = 0,5.
y de manera análoga tendríamos los restantes valores.
Las probabilidades correspondientes a los diferentes valores del estadístico S 2 , las obte-
nemos a partir de la Tabla (1-17), así pues:
P (S 2 = 0,0) = 0,25 + 0,16 + 0,01 = 0,42

P (S 2 = 0,5) = 0,20 + 0,20 + 0,04 + 0,04 = 0,48
P (S 2 = 2,0) = 0,05 + 0,05 = 0,10
Y la distribución de probabilidad del estadístico varianza muestral, S 2 , viene dada en la

Tabla (1-19).
Valores del estadístico S 2 Probabilidades

s2 P (S 2 = s2 ) = P (s2 )
0,0 0,42
0,5 0,48
2,0 0,10
Tabla 1-19.: Distribución de probabilidad del estadístico varianza muestral S 2 .
4. Para el cálculo de la media y varianza del estadístico media muestral tendremos en cuenta
su distribución de probabilidad dada en la Tabla (1-18).
Utilizando la definición de valor esperado de una variable aleatoria de tipo discreto tene-
mos:
X
µX = E[X] = xi · P (X − xi )
i
= 1(0,25) + 1,5(0,40) + 2(0,26) + 2, 5(0,08) + 3(0,01)

= 0,25 + 0,60 + 0,52 + 0,20 + 0,03
= 1,60.
h 2 i X
2
σX = V ar[X] = E X − E[X] = (xi − 1,60)2 · P (X − xi )
i
= (1 − 1,60) (0,25) + (1,5 − 1,60) (0,40) + · · · + (3 − 1,60)2 (0,01)

2 2
= (−0,60)2 (0,25) + (−0,10)2 (0,40) + · · · + (1,40)2 (0,01)

= (0,36)(0,25) + (0,01)(0,40) + (0,16)(0,26) + (0,81)(0,08) + (1,96)(0,01)
= 0,09 + 0,004 + 0,0416 + 0,0648 + 0,0196
= 0,22.
5. Teniendo en cuenta la distribución de probabilidad del estadístico media muestral X,

tabla (1-18), se tiene:
P (X < 2) = P (X = 1) + P (X = 1,5) = 0,25 + 0,40 = 0,65.
6. Teniendo en cuenta la distribución de probabilidad del estadístico varianza muestral, S 2 ,

dada en la Tabla (1-19), y procediendo de manera análoga a como lo hemos hecho para
el estadístico media muestral, tendremos
X
µS 2 = E[S 2 ] = s2i · P (S 2 = s2i )
i
= (0,0)(0,42) + (0,5)(0,48) + (2,0)(0,10) = 0,24 + 0,20

= 0,44.
h 2 i X 2
σS2 2 2
= V ar[S ] = E 2
S − E[S ] 2
= s2i − 0,44 · P (S 2 = s2i )
i
= (0,0 − 0,44) (0,42) + (0,5 − 0,44) (0,48) + (2,0 − 0,44)2 (0,10)

2 2
= (−0,44)2 (0,42) + (0,06)2 (0,48) + (1,56)2 (0,10)

= (0,1936)(0,42) + (0,0036)(0,48) + (2,4336)(0,10)
= 0,081312 + 0,001728 + 0,24336
= 0,3264.
7. Basándonos en la distribución de probabilidad del estadístico varianza muestral S 2 , Tabla

(1-19), se tiene:
P (S 2 ≤ 0,5) = P (S 2 = 0,0) + P (S 2 = 0,5) = 0, 42 + 0,48 = 0,90.
Con este ejemplo, se pone de manifiesto que incluso para muestras de tamaño pequeño y
estadísticos con pocos valores posibles se hace pesado el obtener la distribución de probabilidad
de los estadísticos muestrales. Para evitar esto en los siguientes apartados daremos algunos
resultados que simplifican estos problemas.
1.8 Media y varianza de algunos estadísticos 39
1.8. Media y varianza de algunos estadísticos

En el ejemplo anterior hemos obtenido la media, µ, y varianza, σ 2 , poblacional; los estadísti-
cos media X y varianza S 2 muestral, y la media y varianza de los estadísticos media muestral,
X, y varianza muestral, S 2 , para una muestra de tamaño n = 2.
Estos resultados se recogen en la Tabla (1-20), en donde se observa:
1. Que E[X] = E[X], es decir, que la media del estadístico media muestral es igual a la
media de la población.
2. Que E[S 2 ] = V ar(X), es decir, que la media del estadístico varianza muestral es igual a
la varianza de la población.
V ar(X)
3. Que V ar(X) = , es decir, que la varianza del estadístico media muestral es
2
igual a la varianza de la población dividida por el tamaño de la muestra, n.
Poblacional Estadístico media muestral Estadístico varianza muestral

X X S2
Media µ = E[X] = 1,6 µX = E[X] = 1,6 µS 2 = E[S 2 ] = 0,44
Varianza σ 2 = V ar(X) = 0,44 σX2
= V ar(X) = 0,22 σS2 2 = V ar(S 2 ) = 0,32
Tabla 1-20.: Media y varianza poblacional y de los estadísticos media y varianza muestral del
ejemplo anterior, para n = 2.
Estos resultados no sólo se verifican para este ejemplo sino que se verifican en general, como
veremos en los siguientes teoremas.
Teorema 1.1. Si X1 , X2 , . . . , Xn es una muestra aleatoria simple de tamaño n procedente

de una población, descrita por la variable aleatoria X, con media E[X] = µ y varian-
za V ar(X) = σ 2 , entonces la esperanza de la media muestral es igual a la media de la
población,µ, y la Varianza de la media muestral es igual a la varianza poblacional, σ 2 , di-
vidida por n, es decir,
σ2
E[X] = µ V ar(X) = (1-12)
n
Demostración. Teniendo en cuenta la definición de muestra aleatoria simple, resulta que las
variables aleatorias X1 , X2 , . . . , Xn son independientes, todas tienen la misma distribución de
probabilidad que la población X y en consecuencias todas tienen la misma media y la misma
varianza que la población X, es decir:
E[X1 ] = E[X2 ] = . . . = E[Xn ] = E[X] = µ
V ar(X1 ) = V ar(X2 ) = . . . = V ar(Xn ) = V ar(X) = σ 2

Luego, si tenemos en cuenta las propiedades de los valores esperados, resulta que la media o
esperanza matemática del estadístico media muestral será:

X1 + X2 + · · · + Xn 1
E[X] = E = E [X1 + X2 + · · · + Xn ]
n n
1 1
= (E[X1 ] + E[X2 ] + · · · + E[Xn ]) = (µ + µ + · · · + µ)
n n
nµ
= =µ
n
Análogamente para la varianza, y dado que las variables aleatorias X1 , X2 , . . . , Xn son inde-
pendientes, resulta:

X 1 + X2 + · · · + Xn 1
V ar[X] = V ar = 2 V ar [X1 + X2 + · · · + Xn ]
n n
1 1
= 2 (V ar[X1 ] + V ar[X2 ] + · · · + V ar[Xn ]) = 2 σ 2 + σ 2 + · · · + σ 2

n n
nσ 2 σ2
= 2 = .
n n
Luego, vemos que se puede obtener la media y la varianza del estadístico media muestral
X sin necesidad de conocer la distribución de probabilidad del estadístico X, y sin importar la
distribución de probabilidad de la población siempre y cuando la varianza tenga un valor finito.
A la correspondiente desviación estándar del estadístico X se le llama error estándar de la

media y viene dado por:
σ
error estándar de la media muestral X = √ (1-13)
n
Observando los resultados de la expresión (1-12) se pone de manifiesto que el valor central del
estadístico media muestral es la media poblacional µ, y como la dispersión del estadístico media
muestral X en torno a su media µ es:
h 2 i σ2
V ar[X] = E X −µ =
n
resulta que cuanto mayor sea el tamaño muestral n menor será la V ar(X), es decir, menor será
la dispersión de X en torno a la media poblacional µ, y el valor observado del estadístico X
estará más próximo a µ, lo cual nos permite decir que el estadístico media muestral se puede
considerar como un buen estimador de la media poblacional µ.
El resultado obtenido en el teorema (1.1) es válido cuando el muestreo se hace de una pobla-
ción infinita, o bien de una población finita, pero con reemplazo, pues las variables aleatorias
X1 , X2 , . . . , Xn , tienen que ser independientes. Si el muestreo se hace sin reemplazo en una
población finita de tamaño N , las variables aleatorias X1 , X2 , . . . , Xn no son independientes y
entonces tendríamos que:
σ2 N − n
E[X] = µ, V ar[X] = .
n N −1
N −n
Al término se le suele llamar factor de corrección de población finita solo se utiliza
N −1
cuando n ≥ 0,05N .
n
A la fracción se le llama fracción de muestreo. Cuando la fracción de muestreo es menor
N
que 0,05, no es necesario usar el multiplicador de población finita.
1.8.1. Ley de los grandes números

Sea f (x; θ) la función de densidad de una variable aleatoria X. Una forma de tener informa-
ción sobre la función de densidad consiste en observar una muestra aleatoria y hacer inferencia
desde la muestra a la población. Si se conoce θ, la función de densidad está completamente
determinada y la inferencia es innecesaria. Por lo tanto, parece que es deseable que la muestra
aleatoria nos proporcione alguna información sobre el parámetro desconocido θ.
Sea µ = E[X] el valor esperado, a menudo, de un número infinito de valores de la variable

aleatoria X en la función de densidad f (x); se trata de estimar µ. En un problema concreto,
solo podemos observar un número finito de valores de la variable aleatoria X. Es posible hacer
inferencias fiables sobre E[X] utilizando solo una muestra finita, lo cual se demuestra probando
la llamada ley débil de los grandes números. Esta ley afirma lo siguiente: se puede determinar
un n tal que, si se toma una muestra aleatoria de tamaño n o mayor, de una población con
función de densidad f (x) (E[X] = µ), la probabilidad de que la media muestral difiera de µ en
menos de una cantidad determinada, arbitrariamente pequeña, llega a ser tan próxima a 1 como
se desee. Con mayor precisión: para cualesquiera > 0 y δ entre 0 y 1, existe un entero n tal
que, para todo m ≥ n,

P X m − µ < > 1 − δ
Antes de demostrar la ley débil de los grandes números, estableceremos las desigualdades de
Markov y de Chebysheff.
Teorema 1.2 (Desigualdad de Markov). Si X es una variable aleatoria no negativa cuyo valor
esperado E[X] existe, entonces para todo número real a > 0, se satisface:
E[X]
P (X ≥ a) ≤ .
a
Demostración. Consideremos la variable aleatoria I, definida como:

(
1, si X > a
I=
0, en otro caso.
X
Como X > 0, tenemos que I ≤ . Entonces
a

X 1 E[X]
E[I] ≤ E = E[X] = .
a a a
Pero, por definición de I, tenemos que
E[I] = 1 · P (X ≥ a) + 0 · P (X ≥ a) = P (X ≥ a) .
E[X]
Por lo tanto, P (X ≥ a) ≤ .
a
Ejemplo 1.8. Por experiencia, un profesor sabe que la nota obtenida por un estudiante en el
examen final de una materia es una variable aleatoria con media 3.2. Obtener una cota superior
para la probabilidad de que el estudiante obtenga en el examen final una nota mayor o igual a
4.5.
Solución. Sea X una variable aleatoria definida como:

X: “Nota obtenida por el estudiante en el examen final”.
Como X > 0, de la desigualdad de Markov, se sigue que:
E[X] 3,2
P (X ≥ 4,5) ≤ = = 0,711.
4,5 4,5
Esto es,
P (X ≥ 4,5) ≤ 0,711.
Ejemplo 1.9. Suponga que X es una variable aleatoria con distribución binomial de paráme-
1
tros 5 y . Usar la desigualdad de Markov para encontrar una cota superior para P (X ≥ 2).
3
Calcular de manera exacta P (X ≥ 2) y comparar los resultados.

1 1 5
Solución. Como X ∼ B 5, , tenemos que E[X] = np = 5 · = .
3 3 3
Por lo tanto, de la desigualdad de Markov se tiene que:
E[X] 5/3 5
P (X ≥ 2) ≤ = = .
2 2 6
Por otro lado,
P (X ≥ 2) = 1 − P (X < 2) = 1 − P (X = 0) − P (X = 1)
0 5 1 4
5 1 2 5 1 2
=1− −
0 3 3 1 3 3
= 0,53909.
Esto implica que la información aportada por la desigualdad de Markov no es de mucha utilidad
en este caso.
En muchas situaciones no se tiene información específica de la distribución de la variable

aleatoria X y es, en tal caso, donde la desigualdad de Chebysheff puede ofrecer información
valiosa acerca del comportamiento de la variable.
Teorema 1.3 (Desigualdad de Chebysheff). Sea X una variable aleatoria con V ar[X] < ∞.
Entonces, para todo > 0, se satisface lo siguiente:
1
P (|X − E[X]| ≥ ) ≤ var[X].
2
Demostración. Sea Y := |X − E[X]|2 y a = 2 . De la desigualdad de Markov, tenemos que
2 2
E[|X − E[X]|2 ]
P |X − E[X]| ≥ ≤ .
2
1
Es decir, P (|X − E[X]| ≥ ) ≤ var[X].
2
Observe que:
Claramente la desigualdad de Chebysheff es equivalente a:

1
P (|X − E[X]| < ) ≥ 1 − var[X].
2
p
Si tomamos = σk, con k > 0 y σ := V ar[X] en la desigualdad de Chebysheff,
tenemos que
1
P (|X − E[X]| ≥ kσ) ≤ .
k2
Si en la desigualdad de Chebysheff se reemplaza E[X] por cualquier número real C, se
obtiene:
E |X − C|2

P (|X − C| ≥ ) ≤ .
2
Esta última expresión es lo que algunos autores llaman desigualdad de Chebysheff.
Note que las desigualdades de Markov y de Chebysheff, se puede reemplazar P (X ≥ a) y

P (|X − E[X]| ≥ ) por P (X > a) y P (|X − E[X]| > ), respectivamente, y las desigualda-
des siguen siendo válidas.
Ejemplo 1.10. Demostrar que si V ar[X] = 0, entonces P (X = E[X]) = 1.
Demostración. De la desigualdad de Chebysheff, tenemos que para cualquier n ≥ 1, se satis-

face:
1
P |X − E[X]| > = 0.
n
Ahora, tomando límite cuando n → ∞, se obtiene:

1 1
0 = lı́m P |X − E[X]| > = P lı́m |X − E[X]| > = P (X 6= E[X]) .
n→∞ n n→∞ n
Por lo tanto, 1 − P (X = E[X]) = 0.
Así las cosas, P (X = E[X]) = 1.
Ejemplo 1.11. Se lanza una moneda legal 100 veces consecutivas. Sea X el número de caras
obtenidas. Usar la desigualdad de Chebysheff para encontrar una cota inferior de la probabi-
X 1
lidad de que difiera de en menos de 0.1.
100 2
Solución. Sea X una variable aleatoria definida como:
X: “Número de caras obtenidas en 100 lanzamientos de una moneda”.
σ2

1 1 1
Es claro que X ∼ Ber . Entonces E[X] = µ = y V ar[X] = = , donde
2 2 n 4n
X
X= pues n = 100.
100
De la desigualdad de Chebysheff, tenemos que:
1
P X − E[X] ≥ ≤ 2 var[X].

De donde,
1
1 − P X − E[X] < ≤ 2 var[X].

Esto es,
1
P X − E[X] < ≥ 1 − 2 var[X].

Así,

X 1 1
P
− < 0, 1 ≥ 1 −
100 2 4n2
1
=1−
4(100)(0, 1)2
1
=1−
4
3
=
4

X 1 3
Por lo tanto, P − < 0, 1 ≥ .
100 2 4
Como una aplicación de la desigualdad de Chebysheff se obtiene la ley débil de los grandes
números. Éste es uno de los resultados teóricos más importantes de la teoría de la probabilidad
que fue demostrado inicialmente por Jacobo Bernoulli para un caso particular. La ley débil
de los grandes números establece que el valor esperado E[X] de una variable aleatoria X se
puede considerar como una idealización para n suficientemente grande, del promedio aritmético
X 1 + X2 + · · · + Xn
X = , donde X1 , X2 , . . . , Xn son variables aleatorias independientes e
n
igualmente distribuidas con la misma distribución de X.
Teorema 1.4 (Ley débil de los grandes números). Sea X1 , X2 , . . . una sucesión de variables
aleatorias independientes e igualmente distribuidas con media µ y varianza finita σ 2 . Entonces,
para todo > 0, se satisface:
σ2

X1 + X 2 + · · · + Xn
P − µ > ≤ 2 ,
n n
de donde se deduce que, para todo > 0, se tiene que:

X1 + X 2 + · · · + Xn
lı́m P − µ > = 0.

n→∞ n
X 1 + X2 + · · · + Xn
Demostración. Sea X := la media aritmética de las primeras n variables
n
aleatorias.
σ2
Claramente, E[X] = µ y V ar[X] = . Por la desigualdad de Chebysheff se obtiene que, para
n
todo > 0, se satisface:
var[X]
P X − E[X] ≥ ≤ ,
2
que es lo que se quería demostrar.
Corolario 1.1 (Ley de Bernoulli). Sea X1 , X2 , . . . una sucesión de variables aleatorias inde-
pendientes e igualmente distribuidas con distribución de Bernoulli con parámetro p. Entonces,
para todo > 0, se tiene que:

Kn 1
P − p ≥ ≤
,
n 4n2
donde Kn = X1 + X2 + · · · + Xn .
Demostración. De la ley de los grandes números se obtiene que:

Kn p(1 − p)
P − p ≥ ≤
.
n n2
1
Puesto que 0 < p < 1, entonces p(1 − p) < . En consecuencia se concluye que:
4

Kn 1
P − p ≥ ≤
.
n 4n2
1.8.2. Aproximación de la binomial a la normal

Teorema 1.5. Sea X una variable aleatoria con distribución binomial de parámetros n y p. Si
n es grande, entonces la distribución de X es aproximadamente normal con esperanza µ = np
y varianza σ 2 = np(1 − p). En la práctica se suele utilizar esta aproximación cuando np y
n(1 − p) son mayores que 5, o bien cuando n > 30.
Para ver una demostración consultar el texto Probabilidad, primera edición, de la doctora
Liliana Blanco Castañeda, página 141.
Ejemplo 1.12. Supongamos que jugamos diariamente a un número de una lotería que, entre
otros premios, devuelve el monto jugado a todos los números que acaban en la misma cifra que
el número ganador.
Consideremos la variable X(n) , que nos da el número de veces que nos han devuelto el monto
jugado cuando se han realizado n sorteos. En este caso sabemos que la variable aleatoria
X(n) sigue una distribución binomial de parámetros n y p = 0, 1. ¿Cuál es la probabilidad
aproximada de que en un año nos hayan devuelto el dinero al menos cincuenta veces?
Solución. Debemos calcular la probabilidad P (X(365) ≥ 50). Si quisiéramos obtener el valor

exacto de esta probabilidad, por el hecho de que X(365) es una binomial de parámetros n = 365
y p = 0,1, deberíamos hacer el cálculo siguiente:
P (X(365) ≥ 50) = 1 − P (X(365) < 50)

= 1 − P (X(365) = 0) − P (X(365) = 1) − P (X(365) = 2) − · · · − P (X(365) = 49),
donde cada una de estas probabilidades se encontraría mediante la fórmula de la binomial que
ya conocemos, en nuestro caso:

365
P (X(365) = k) = (0,1)k (0,9)365−k .
k
En cambio, si renunciamos a pedir que la probabilidad sea exacta y nos conformamos con una
muy buena aproximación, podemos utilizar el hecho de que la distribución de X(365) se puede
aproximar por una normal de parámetros µ = np = 365 · 0,1 = 36,5 y σ 2 = np(1 − p) =
365 · 0,09 = 32,5.
X(365) − 36,5

50 − 36,5
Así, P X(365) ≥ 50 = P √ ≥ √ , y si llamamos Z a una variable
32,85 32,85
aleatoria N(0, 1), esta probabilidad será aproximadamente:

50 − 36,5
P Z≥ √ = P (Z ≥ 2,36) = 0,0091.
32,85
Por tanto, la probabilidad aproximada de que nos devuelvan el dinero cincuenta veces o más a
lo largo del año es únicamente del 0,0091.
Observe que hemos calculado P (X(365) ≥ 50), pero que esta cantidad es la misma que
P (X(365) ≥ 49,5), ya que la variable sólo toma valores naturales. Obsérvese que si la apro-
ximamos por la normal, obtendremos:
X(365) − 36,5

49,5 − 36,5
P X(365) ≥ 49,5 = P √ ≥ √ .
32,85 32,85
De donde,

49,5 − 36,5
P Z≥ √ = P (Z ≥ 2,26) = 0,0119,
32,85
que es una cantidad ligeramente diferente de la obtenida antes. Se dice que este valor se ha
obtenido haciendo una corrección de continuidad, ya que aproximamos una variable discreta
por una continua. Podemos considerar buenos los dos resultados.
1.8.3. El teorema central del límite

El teorema central del límite es uno de los resultados fundamentales de la estadística. Este
teorema nos dice que si una muestra es lo bastante grande (generalmente cuando el tamaño
muestral n, según varios autores, es al menos 30), sea cual sea la distribución de la media
muestral, seguirá aproximadamente una distribución normal. Es decir, dada cualquier variable
aleatoria, si extraemos muestras de tamaño n (n ≥ 30) y calculamos los promedios muestrales,
dichos promedios seguirán una distribución normal. Además, la media será la misma que la de
la variable de interés, y la desviación estándar de la media muestral será aproximadamente el
error estándar.
Un caso concreto del teorema central del límite es la distribución binomial. A partir de
n = 30, la distribución binomial se comporta estadísticamente como una normal, por lo que
podemos aplicar las pruebas estadísticas apropiadas para esta distribución.
La importancia del teorema central del límite radica en que mediante un conjunto de teore-
mas, se desvela las razones por las cuales, en muchos campos de aplicación, se encuentran en
todo momento distribuciones normales o casi normales.
Teorema 1.6. Sea X1 , X2 , . . . , Xn una muestra aleatoria de una población con media µ y
varianza σ 2 . Si n es lo bastante grande (n ≥ 30), sea cual sea la distribución de la variable
de interés, la distribución de la media muestral X es aproximadamente normal, con µX = µ y
σ2
V ar[X] = .
n
Demostración. Observe que
X1 + X2 + · · · + Xn − nµ (X1 − µ)/σ + (X2 − µ)/σ + · · · + (Xn − µ)/σ

√ = √ ,
nσ n
en donde cada sumando del numerador en el lado derecho es una variable con media cero y va-
rianza uno. Así pues, sin pérdida de generalidad, supondremos que cada variable de la sucesión
tiene media cero y varianza uno.
√
Consideremos entonces la suma Zn = (X1 + X2 + · · · + Xn )/ n. Se desea probar que
d
− N(0, 1). En efecto:
Zn →
2
Es suficiente demostrar que φZn (t) → e−t /2 . Por independencia e idéntica distribución, se
tiene que
√ √ n
φZn (t) = E eit((X1 +X2 +···+Xn )/ n) = φX (t/ n) ,
donde φX (t) es la función característica de cualquier elemento de la sucesión, que por la expan-
sión
n−1
X (it)k (it)n
φW (t) = E(W k ) + (E(W n ) + o(1)) ,
k=0
k! n!
es decir,
0 t2 2 it3 3 (it)n
φW (t) = E(W ) + itE(W ) − E(W ) − E(W ) + . . . + (E(W n ) + o(1)) ,
2 6 n!
X −µ
donde W = , siendo X cualquiera de las variables Xi . Es claro que E(W ) = 0 y
σ
V ar(W ) = 1
adquiere la expresión,
1
φW (t) = 1 − t2 (1 + o(1)) cuando t → 0.
2
Por lo tanto, n
t2

φZn (t) = 1 − (1 + o(1)) .
2n
2 /2
Haciendo n → ∞ se obtiene que φZn (t) → e−t .
El Teorema Central del Límite, es aplicable también a otros estimadores como la proporción,
la diferencia de medias y la diferencia de proporciones, que se verán más adelante.
Una consecuencia del teorema central del límite es la siguiente:
Dada cualquier variable aleatoria con esperanza µ y varianza σ 2 , y para n lo bastante grande,
X −µ
la distribución de la variable es una N(0, 1).
error estándar
Recordemos que si la variable tiene una desviación estándar conocida σ, el error estándar se
σ
puede calcular como √ .
n
S
Cuando σ es desconocida, calculamos el error estándar como √ .
n
Ejemplo 1.13. Una empresa de mensajería que opera en la ciudad tarda una media de 35
minutos en llevar un paquete, con una desviación estándar de 8 minutos. Supongamos que
durante el día de hoy han repartido 200 paquetes.
a) ¿Cuál es la probabilidad de que la media de los tiempos de entrega de hoy esté entre 30
y 35 minutos?
b) ¿Cuál es la probabilidad de que, en total, para los 200 paquetes hayan gastado más de
115 horas?
Solución. Consideremos la variable aleatoria X := “Tiempo de entrega del paquete”.

Sabemos que su media es µ = 35 minutos y su desviación estándar, σ = 8. Note que no sa-
bemos si esta variable sigue una distribución normal. Durante el día de hoy se han entregado
n = 200 paquetes. Es decir, tenemos una muestra x1 , x2 , . . . , xn de nuestra variable.
Por el teorema del límite central sabemos que la media muestral X se comporta como una
82
normal de esperanza µX = 35 y varianza V ar[X] = = 0,32. Es decir, desviación estándar
200
σX = 0,566.
Si utilizamos esta aproximación, ya podemos responder a la pregunta (a).

30 − 35 X − 35 35 − 35
a) P 30 ≤ X ≤ 35 = P ≤ ≤ que es aproximadamente igual
0,566 0,566 0,566
a la probabilidad siguiente:

30 − 35 35 − 35
P ≤Z≤ = P (−8,8339 ≤ Z ≤ 0)
0,566 0,566
= P (Z ≤ 0) − P (Z ≤ −8,8339)
= 0,5 − 0
= 0,5
donde Z es una N(0, 1). Es decir, tenemos una probabilidad aproximada del 0,5 de que la
media del tiempo de entrega de hoy haya estado entre 30 y 35 minutos.
b) Debemos pasar las horas a minutos, puesto que ésta es la unidad con la que nos viene
dada la variable. Observe que 115 horas por 60 minutos nos dan 6900 minutos. Se nos
pide que calculemos la probabilidad siguiente:

6900
P X> = P (X > 34,5)
200
y como que sabemos que la media se distribuye aproximadamente como una normal de
media 35 y desviación estándar 0,566 (supondremos siempre que la distribución de la
media es normal, ya sea porque la variable de interés es normal o porque la muestra
es lo bastante grande), esta probabilidad se puede aproximar por la probabilidad de una
distribución normal estándar Z:

34,5 − 35
P Z> = P (Z > −0,88) = 1 − P (Z < −0,88) = 1 − 0,1894 = 0,8106
0,566
Teorema 1.7. Si X1 , X2 , . . . , Xn es una muestra aleatoria simple de tamaño n, procedente de

una población, descrita por la variable aleatoria X, con varianza, V ar(X) = σ 2 , entonces la
esperanza de la varianza muestral S 2 es igual a la varianza poblacional σ 2 y la varianza de la
varianza muestral es función del momento central de orden cuatro, es decir,
µ4 3−n 4
E[S 2 ] = σ 2 y V ar[S 2 ] = + σ (1-14)
n n(n − 1)
Demostración. Sabemos que el estadístico varianza muestral viene dado por:
n
21 X
S = (Xi − X)2
n − 1 i=1
pero otra forma de expresarla es la siguiente:
n n
2 1 X 1 X
S = (Xi − X)2 = (Xi − µ + µ − X)2
n − 1 i=1 n − 1 i=1
n
1 X 2
= (Xi − µ) − (X − µ)
n − 1 i=1
n
1 X
(Xi − µ)2 + (X − µ)2 − 2(Xi − µ)(X − µ)

=
n − 1 i=1
" n n n
#
1 X X X
= (Xi − µ)2 + (X − µ)2 − 2(X − µ) (Xi − µ)
n − 1 i=1 i=1 i=1
" n #
1 X
= (Xi − µ)2 + n(X − µ)2 − 2(X − µ)(nX − nµ)
n − 1 i=1
" n #
1 X
= (Xi − µ)2 + n(X − µ)2 − 2n(X − µ)2
n − 1 i=1
" n #
1 X
= (Xi − µ)2 − n(X − µ)2
n − 1 i=1
n
1 X n
= (Xi − µ)2 − (X − µ)2 (1-15)
n − 1 i=1 n−1
Tomando valores esperados resulta:

" n
#
1 X n
E[S 2 ] = E (Xi − µ)2 − (X − µ)2
n − 1 i=1 n−1
n
1 X n
E (Xi − µ)2 − E (X − µ)2

=
n − 1 i=1 n−1
1 2 n σ2
= nσ −
n−1 n−1 n
nσ 2 σ2
= −
n−1 n−1
(n − 1)σ 2
=
n−1
2
=σ
Luego, vemos que la esperanza del estadístico varianza muestral es igual a la varianza pobla-
cional. Resultado que también será de bastante utilidad cuando estudiemos la estimación.
La segunda parte no la demostraremos, pues aunque no presenta dificultad los desarrollos son
algo pesados.
1.9. Distribuciones de estadísticos muestrales de

poblaciones normales
Las distribuciones derivadas de la Normal tienen gran importancia en la Inferencia Estadísti-
ca, ya que serán las distribuciones de una amplia familia de estimadores. Todas ellas se obtienen
como combinación y/o promedios de variables Normales, están tabuladas y se caracterizan sólo
por el número de Normales tipificadas que entran en su composición; a dicho número se le lla-
ma grado(s) de libertad, justificándose este nombre por los motivos que se desarrollarán en los
próximos temas.
Sabemos que muchos fenómenos que se observan en la realidad tienen distribuciones de fre-
cuencias relativas que al representarlas tienen una forma parecida a la distribución normal, por
ello podemos suponer que la mayoría de las poblaciones con las que nos encontraremos serán
normales, y las variables aleatorias observadas en una muestra aleatoria simple X1 , X2 , . . . , Xn
serán independientes y tienen la misma distribución.
Sabemos que si X1 , X2 , . . . , Xn son variables aleatorias independientes distribuidas según

una N(µi , σi2 ), para i = 1, 2, . . . , n y si a1 , a2 , . . . , an son constantes reales, la variable aleatoria
1.9 Distribuciones de estadísticos muestrales de poblaciones normales 53
n n

Y = a1 X1 + a2 X2 + · · · + an Xn sigue una distribución N a2i σi2
P P
ai µ i , .
i=1 i=1
Este resultado nos será de bastante utilidad para obtener la distribución de la media muestral,
como veremos en el siguiente teorema.
Teorema 1.8. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n, procedente de
una población N(µ, σ 2 ). Entonces la distribución del estadístico media muestral tendrá una
distribución normal, es decir:
n
σ2

1X
X= Xi ∼ N µ, (1-16)
n i=1 n
y en consecuencia el estadístico
X −µ
Z= √ ∼ N(0, 1)
σ/ n
Demostración. Sea X una variable aleatoria distribuida N(µ, σ 2 ). Sabemos que la función ge-
neratriz de momentos (f.g.m.) de una variable aleatoria X está dada por:
1 2 2
MX (t) = E[etX ] = etµ+ 2 t σ
Como las variables Xi son independientes y todas tienen la misma distribución N(µ, σ 2 ), en-
tonces la función generatriz de momentos del estadístico media muestral será:
n
" P #
1
h i t n Xi h X1 X2 Xn
i
M (t) = E etX = E e i=1
X = E et( n + n +···+ n )
1 t2 2 t 1 t2 2 1 t2 2
h t i h t i h t i t t
= E e n X1 E e n X2 · · · E e n Xn = e n µ+ 2 n2 σ e n µ+ 2 n2 σ · · · e n µ+ 2 n2 σ
n
t 1 t2 2 1 2 σ2
µ+ σ
= e n 2 n2 = etµ+ 2 t n
σ2

Por lo tanto, X ∼ N µ, .
n
Por otro lado,

X−µ
h t√n t√n i
tZ t σ/√
MZ (t) = E e =E e n
= E e σ X− σ µ
h t√n i h t√n i √ √
t n 1 t2 n σ 2 t n
= E e σ X E e− σ µ = e σ µ+ 2 σ2 n · e− σ µ
√ √
t n
µ 1 2
t − t σn µ 1 2
=e σ ·e 2 ·e = e2t
X −µ
Por lo tanto, Z = √ ∼ N(0, 1).
σ/ n
En muchas situaciones la población de partida de la cual se extrae la muestra no es normal.

En tales casos la distribución muestral del estadístico media muestral X, seguirá siendo normal
σ
con media µ y desviación estándar √ , es decir,
n
σ2

X ∼ N µ, . (1-17)
n
siempre que el tamaño muestral sea grande, n ≥ 30. Este resultado es una consecuencia inme-
diata del Teorema Central del Límite.
Ejemplo 1.14. El número de libros encuadernados diariamente por una máquina automática
sigue una variable aleatoria cuya distribución no se conoce, con una desviación estándar de 16
libros por día. Si se selecciona una muestra aleatoria de 49 días, determinar la probabilidad
de que el número medio de libros encuadernados durante esos días (la media muestral) se
encuentre a lo sumo a 3 libros de la verdadera media poblacional.
Solución. Aunque la distribución de la población no es conocida pero como n =2 49, mayor

σ
que 30, entonces la distribución de la media muestral se aproximará a una N µ, , es decir,
n
σ2

256
X ∼ N µ, = N µ, .
n 49
O bien, la distribución de la variable aleatoria
X −µ X −µ
Z= √ = √ ∼ N(0, 1).
σ/ n 16/ 49
La probabilidad que nos piden, se calcula utilizando la tabla de la distribución normal estándar:

P | X − µ |≤ 3 = P −3 ≤ X − µ ≤ 3

3 X −µ 3
=P − √ ≤ √ ≤ √
16/ 49 16/ 49 16/ 49
= P (−1, 31 ≤ Z ≤ 1, 31)
= F (1, 31) − F (−1, 31)
= 0, 9049 − 0, 0951
= 0, 8098
Ejemplo 1.15. Refiriéndonos al ejemplo (1.14). Determinar el tamaño de la muestra para que
la media muestral se encuentre a lo sumo a 3 libros de la media poblacional con una probabi-
lidad del 0,95.
Ahora se tiene que verificar:

P X − µ ≤ 3 = P −3 ≤ X − µ ≤ 3 = 0,95
σ
Dividiendo cada término de la desigualdad por √ , pero σ = 16, resultará
n
√ √

3 X −µ 3
P − √ ≤ √ ≤ √ = P −1,87 n ≤ Z ≤ 1,87 n = 0,95
16/ n 16/ n 16/ n
Luego utilizando la de la distribución normal estándar, se tiene que:
P (−1,96 ≤ Z ≤ 1,96) = 0,95
pues
F (−1,96) = P (Z ≤ −1,96) = 0,025 y F (1,96) = P (Z ≤ −1,96) = 0,975

√
de donde resulta que 0,187 n = 1,96.
2
1,96
Así las cosas, n = ' 110. A continuación se estudian algunas distribuciones que
0,187
surgen en la estadística al considerar funciones de una muestra aleatoria, en particular, la media
y la varianza muestral.
Teorema 1.9 (Teorema de cambio de variable). Sea X una variable aleatoria continua con
valores dentro de un intervalo (a, c) ⊆ R, y con función de densidad fX (x). Sea ϕ : (a, c) → R
una función tal que admite la descomposición
(
ϕ1 (x), si x ∈ (a, b),
ϕ(x) =
ϕ2 (x), si x ∈ (b, c),
en donde a < b < c, y cada una de las funciones ϕ1 (x) : (a, b) → R y ϕ2 (x) : (b, c) → R
es continua, estrictamente creciente o decreciente, y con inversa diferenciable. Entonces la
variable aleatoria Y = ϕ(X) toma valores dentro del intervalo ϕ(a, c), y tiene función de
densidad

−1
d −1 −1
d −1
fY (y) = fX (ϕ1 (y)) ϕ1 (y) · 1ϕ1 (a,b) (y) + fX (ϕ2 (y)) ϕ2 (y) · 1ϕ2 (b,c) (y).
dy dy
Demostración. Para cualquier y ∈ R,
FY (y) = P (Y ≤ y)
= P (ϕ(X) ≤ y)
= P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))] + P [(ϕ2 (X) ≤ y) ∩ (X ∈ (b, c))] .
Nos interesa el comportamiento de estas probabilidades como funciones de y, puesto que cal-
cularemos la derivada de ellas para encontrar fY (y). Por ejemplo, la primera probabilidad, vista
como función de y, es
y 7−→ P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))] ,
que permanece constante para y ∈
/ ϕ1 (a, b), de modo que, suponiendo por ejemplo ϕ1 creciente,
y para y ∈ ϕ1 (a, b),
d d
P [(ϕ1 (X) ≤ y) ∩ (X ∈ (a, b))] = P (X ≤ ϕ−1

1 (y)) ∩ (X ∈ (a, b))
dy dy
d
= P a < X ≤ ϕ−1

1 (y)
dy
d
FX ϕ−1

= 1 (y) − FX (a)
dy
d
= FX ϕ−1

1 (y)
dy
d −1
= fX (ϕ−1
1 (y)) ϕ (y).
dy 1
De manera análoga se procede respecto del segundo sumando, considerando también el caso
cuando se presenta la monotonía decreciente. De esta forma se obtiene la fórmula enunciada.
Ejemplo 1.16. Sea X continua con función de densidad fX (x). Considere la transformación
ϕ(x) = x2 , la cual es estrictamente decreciente en (−∞, 0), y estrictamente creciente en
(0, ∞).
Figura 1-8.: La transformación ϕ(x) = x2 como dos secciones monótonas.
Defina entonces las funciones monótonas ϕ1 (x) = x2 sobre (−∞, 0), y ϕ2 (x) = x2 sobre
√ √
(0, ∞). Entonces sus inversas son ϕ−1 −1
1 (y) = − y y ϕ2 (y) = y. La variable Y = X 2 tiene
por lo tanto función de densidad
fX (−√y) √
1 √ 1

+ fX ( y) √ , si y > 0,
fY (y) = 2 y 2 y
0, si y ≤ 0,

Teorema 1.10. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de la distribución N(µ, σ 2 ).

Entonces las estadísticas X y S 2 son independientes.
Demostración. Para demostrar que los estadísticos media X y vananza muestral S 2 , son in-
dependientes, demostraremos que X es independiente de Xi − X para cada i = 1, . . . , n, y
procederemos directamente calculando la función generatriz de momentos conjunta de X y
Xi − X, y tendremos:
h i h i
MX,Xi −X (t1 , t2 ) = E et1 X+t2 (Xi −X) = E et2 Xi +(t1 −t2 )X
X1 +...+Xi +...+Xn
h i
= E et2 Xi +(t1 −t2 )( n )
n
 
(t2 + t1 −t2 X + (t1 −t2 )
n ) i
P
n
Xj
 j=1 
=E e j6=i 
 
n
 
(t1 −t2 ) P
n
Xj
h t −t
i j=1
=E e( t2 + 1 n 2 )Xi

·E j6=i

e


t1 −t2 1 t1 −t2 2 2 n−1 t −t 2 2

(n−1) σ2
= e(t2 + n )µ+ 2 (t2 + n ) σ
·e n (
(t1 −t2 )µ+ 1 n 2 )
2
1 t1 2 1 2 (n−1) 2
= et1 µ+ 2 n
σ
· e 2 t2 n
σ
que son las funciones generatrices de momentos correspondientes a una

σ2

2n − 1
N µ, y N 0, σ ,
n n
respectivamente, con lo cual hemos demostrado que:
X y Xi − X son independientes, y en consecuencia también son independientes X y
n
(Xi − X)2 y por tanto X y S 2 son independientes.
P
i=1
σ2

2n −1
X ∼ N µ, y Xi − X ∼ N 0, σ .
n n
1.9.1. Distribución χ2 de Pearson

Una variable aleatoria X tiene una distribución Chi-cuadrado ó Ji-cuadrado con n > 0 grados
de libertad (χ2(n) ), si su función de densidad de probabilidad está dada por:

1 x n
e− 2 x 2 −1 , si x > 0,

 nn
f (x) = 2 Γ( 2 )
2
0,

en otro caso
En este caso se escribe X ∼ (χ2(n) ). El término (χ2 ) se lee ji-cuadrada. La gráfica de esta
función de densidad se muestra en la figura (1-9).
Figura 1-9.: Función de densidad (χ2(n) ).
La función de densidad de la distribución Ji–cuadrado es asimétrica, siendo sólo distinta de

cero para valores positivos de la variable. Tiene una asíntota cuando los valores tienden a infi-
nito y para n > 2 tiene forma campaniforme.
La distribución Ji-cuadrado es un caso particular de la distribución gamma, cuya función de

densidad está dada por:
 λ e−λx (λx)r−1 , si x > 0,


f (x) = Γ(r)
0, en otro caso

Z ∞
donde Γ(·) es la función gamma, esto es, Γ(r) = tr−1 e−t dt.
0
1
Así, la distribución Ji-cuadrado no es más que una distribución gamma con parámetros λ =
2
n
y r = . Por tanto, la esperanza de χ2(n) es n y su varianza es 2n. Observe que la distribución
2
2 1
χ(n) con n = 2 se reduce a la distribución exponencial, Exp(λ), con λ = .
2
Cuando el número de variables aleatorias es muy grande, es decir, cuando n > 100, la va-
riable se puede aproximar por una normal. En este caso se verifica la siguiente aproximación:
q √
2χ2(n) ≈ N( 2n − 1, 1) aunque esta aproximación es lenta.
La distribución ji-cuadrada puede encontrarse como indican los siguientes resultados.
Teorema 1.11. Si X ∼ N(0, 1), entonces X 2 ∼ χ2(1) .
Demostración. Para x > 0,
√ 1 √ 1
fX 2 (x) = fX ( x) √ + fX (− x) √
2 x 2 x
√ 1
= fX ( x) √
x
1 x 1
= √ e− 2 √
2π x
1 x 1
= 1 1 e− 2 x 2 −1
2 2 Γ( 2 )
Esta es la función de densidad de la distribución χ2(1) .
Ejemplo 1.17. La velocidad (cm/s) de un objeto de masa 1 kg, viene dada por una variable
mV 2
aleatoria V que sigue una N(0, 25). Si K = , donde m es la masa del objeto, es la
2
variable aleatoria que representa la energía cinética de dicho objeto, calcular la probabilidad
de que la energía cinética sea menor que 200.
Solución. Puesto que m = 1, se tiene que
mV 2

P (K < 200) = P < 200
2
2
V 200 × 2
=P <
625 625
2
V
=P < 1,28
625
= P χ2(1) < 1,28

= 0,725
La suma de dos o más variables aleatorias independientes con distribución ji-cuadrada es

nuevamente una variable aleatoria ji-cuadrada, y sus grados de libertad son la suma de los
grados de libertad de cada uno de los sumandos. Este es el contenido del siguiente teorema.
Teorema 1.12. Sean X1 , X2 , . . . , Xm independientes tales que cada Xi tiene distribución χ2(ni ) ,
m
Xi ∼ χ2 P
P
para i = 1, . . . , m. Entonces las estadísticas m .
i=1 ( ni )
i=1
Demostración. Es suficiente demostrar el resultado para el caso de dos variables aleatorias.

Sean X y Y independientes con distribución ji-cuadrada con grados de libertad n y m, respec-
tivamente. Este ligero cambio en la notación evitará el uso de subíndices.
Sabemos que, si (X, Y ) un vector absolutamente continuo con función de densidad fX,Y (x, y),
entonces X + Y tiene función de densidad
Z ∞
fX+Y (u) = fX,Y (u − v, v)dv. (1-18)
−∞
Luego, como X y Y independientes, para u > 0, se tiene que
Z u
fX+Y (u) = fX (u − v)fY (v)dv
0
Z u
1 u−v n 1 v m
= n
e− 2 (u − v) 2 −1 m m e− 2 v 2 −1 dv
n
0 2 Γ( 2 ) 2 2 2 Γ( 2 )
Z u
1 u n m
= n+m n m
e− 2 (u − v) 2 −1 v 2 −1 dv.
2 2 Γ( 2 )Γ( 2 ) 0
v
Haciendo el cambio de variable w(v) = se obtiene
u
Z 1
1 −u n+m
−1 n m
fX+Y (u) = n+m e2 u 2 (1 − w) 2 −1 w 2 −1 dw.
2 2 Γ( n2 )Γ( m2 ) 0
n m
n m
Γ( n2 )Γ( m2 )
La integral resultante es la función beta B , . Pero B , = . Entonces
2 2 2 2
Γ( n+m2
)
1 u n+m
fX+Y (u) = n+m e− 2 u 2
−1
.
2 2 Γ( n+m
2
)
Esta es la función de densidad de la distribución χ2(n+m) .
El resultado anterior también se puede demostrar usando la función generadora de momentos

o la función característica.
Teorema 1.13. Sean X1 , X2 , . . . , Xn independientes cada una con distribución N(µ, σ 2 ). En-
tonces
n
X (Xi − µ)2
2
∼ χ2(n) .
i=1
σ
Demostración. Esto es una consecuencia sencilla de los dos teoremas anteriores.

Como cada una de las variables Xi tiene distribución N(µ, σ 2 ), para i = 1, . . . , n, entonces
Xi − µ (Xi − µ)2
tiene distribución N(0, 1). Por lo tanto, tiene distribución χ2(1) .
σ σ2
n (X − µ)2
i
tiene distribución χ2(n) .
P
En consecuencia, 2
i=1 σ
Teorema 1.14. Sean X y Y independientes tales que X tiene distribución χ2(n) , y X + Y tiene
distribución χ2(m) con m > n. Entonces Y tiene distribución χ2(m−n) .
Demostración. Calculando la función generatriz de momentos conjunta de X + Y y X, tendre-

mos:
MY (t) = E etY = E et(X+Y )−tX

= E et(X+Y ) · E e−tX

m n
= (1 − 2t)− 2 · (1 − 2t) 2
m−n
= (1 − 2t)− 2
que es la función generatriz de momentos correspondiente a una variable aleatoria Y con distri-
bución χ2(m−n) .
Así como al estudiar la distribución del estadístico media muestral decíamos que era de gran
utilidad para realizar inferencias, aquí no podemos decir lo mismo del estadístico varianza
muestral, pues, la distribución muestral del estadístico S 2 tiene pocas aplicaciones prácticas
(n − 1)S 2
en estadística, sin embargo, si las tiene el estadístico y por ello será el estadístico del
σ2
que nos ocuparemos a continuación.
Con ayuda del teorema (1.14) se demuestra ahora el siguiente resultado de particular importan-
cia en estadística.
Teorema 1.15. Sean X1 , X2 , . . . , Xn independientes con distribución N(µ, σ 2 ). Entonces
(n − 1) 2
S ∼ χ2(n−1) .
σ2
Demostración. Sabemos que,

n n
X
2
X 2
(Xi − µ) = (Xi − X) + (X − µ)
i=1 i=1
n
X
(Xi − X)2 + 2(Xi − X)(X − µ) + (X − µ)2

=
i=1
Xn n
X n
X
= (Xi − X)2 + 2(X − µ) (Xi − X) + (X − µ)2
i=1 i=1 i=1
n
X
= (Xi − X)2 + n(X − µ)2
i=1
Dividiendo entre σ 2 , tenemos:

n n
X (Xi − µ)2 X (Xi − X)2 (X − µ)2
= +n
i=1
σ2 i=1
σ2 σ2
De donde,
n 2
(Xi − µ)2

X (n − 1) 2 X −µ
= S + √ .
i=1
σ2 σ2 σ/ n
El término del lado izquierdo tiene distribución χ2(n) , mientras que el segundo sumando del
lado derecho tiene distribución χ2(1) . Por el teorema anterior, y recordando que X y S 2 son
independientes, se concluye que el primer sumando del lado derecho tiene distribución χ2(n−1) .
(n − 1)S 2
La función de densidad del estadístico será la correspondiente a una distribución
σ2
χ2(n−1) y por tanto a una Γ n−1 1 n−1 1

2
, 2
, y su media será la de una Γ 2
, 2
, es decir:
(n − 1)S 2

E = n − 1.
σ2
De donde, tenemos:
n − 1 2
E S = n − 1,
σ2
esto es,
E S 2 = σ2.

n−1 1
Análogamente, la varianza de una distribución Γ , es:
2 2
(n − 1)S 2

V ar = 2(n − 1),
σ2
de donde se deduce que:

(n − 1)2 2
V ar S = 2(n − 1),
σ4
es decir,
2σ 4
V ar S 2 =

.
n−1
Luego vemos que las propiedades de la distribución χ2 se pueden utilizar para encontrar la va-
nanza de la distribución de la varianza muestral, siempre y cuando el modelo de la población
de partida sea normal.
Veamos qué significado tiene el término grados de libertad. Para ello consideramos el esta-
dístico vananza muestra S 2 : n
1 X
S2 = (Xi − X)2
n − 1 i=1
el cual incluye la suma de cuadrados de las cantidades
(X1 − X), (X2 − X), . . . , (Xn − X)
las cuales no son independientes de la información, pues la suma de todas ellas debe ser igual a
cero n n n n
X X X X
(Xi − X) = Xi − X= Xi − nX = 0
i=1 i=1 i=1 i=1
pues según la definición de X

n
1X
X= Xi .
n i=1
Luego si conocemos (n − 1) cualesquiera de estas cantidades (Xi − X), podemos calcular la

restante; así pues, ya que
Xn
(Xi − X) = 0
i=1
se deduce que
n−1
X
Xn − X = −(X1 − X) − (X2 − X) − · · · − (Xn−1 − X) = − (Xi − X).
i=1
Luego sólo tendremos n − 1 cantidades (Xi − X) independientes.
La situación se puede clarificar algo más:

Supongamos que queremos hacer una inferencia sobre la varianza poblacional σ 2 desconoci-
da. Si la media poblacional µ fuera conocida, esta inferencia se podría basar en la suma de
cuadrados de las cantidades.
(X1 − µ), (X2 − µ), . . . , (Xn − µ).
Estas cantidades son independientes unas de otras, y podríamos decir que tenemos n grados de
libertad para estimar la varianza poblacional σ 2 . Sin embargo, como la media de la población,
en la práctica no suele ser conocida, tiene que ser sustituida por su estimación, es decir, por X,
utilizando por tanto uno de estos grados de libertad, quedando (n − 1) observaciones indepen-
dientes para utilizarlas en la inferencia sobre la varianza poblacional y entonces decimos que
tenemos (n − 1) grados de libertad.
Supongamos que tenemos una población normal y tomamos una muestra aleatoria de esta
población con el fin de hacer alguna inferencia sobre la varianza poblacional, entonces utili-
zando la distribución χ2 veremos que efectivamente esto es posible, como lo prueba el ejemplo
siguiente.
Ejemplo 1.18. En una fábrica conservera se admite que la distribución de pesos de las latas
de conservas es normal. El director comercial está muy interesado en que el peso neto del
producto incluido en el interior de la lata tenga poca variabilidad, pues en ciertas ocasiones
ha observado diferencias entre el peso real y el peso anunciado en la etiqueta. Si se selecciona
una muestra aleatoria de 25 latas, obtener los valores k1 , y k2 tales que
2 2
S S
P ≤ k1 = 0,05 y P ≥ k2 = 0,05.
σ2 σ2
Solución. Multiplicando ambos miembros de la desigualdad por (n − 1) tenemos:

2
(n − 1)S 2

S 2

0,05 = P ≤ k1 = P ≤ (n − 1)k1 = P χ 24 ≤ 24k 1
σ2 σ2
Utilizando la tabla de la distribución χ2 resulta:
24k1 = 13,848, es decir, k1 = 0,577.
Luego,
P (S 2 ≤ 0,577σ 2 ) = 0,05.
Es decir, existe una probabilidad del 0.05 de que la varianza muestral sea inferior o igual al
57.7 % de la varianza poblacional.
Análogamente calculamos el valor k2 de manera que:

2
(n − 1)S 2

S
≥ (n − 1)k1 = P χ224 ≥ 24k2

0,05 = P 2
≥ k1 = P 2
σ σ
o bien
0,95 = P χ224 ≤ 24k2

Luego, de la tabla de la distribución χ2 resulta:

24k2 = 36,42, es decir, k2 = 1,517
y sustituyendo en la expresión inicial resulta
P (S 2 ≥ 1,517σ 2 ) = 0,05.
Es decir, la probabilidad de que la varianza muestral sea mayor o igual que el 151,7 % de la
varianza poblacional, es del 0,05.
Gráficamente tendríamos representadas ambas probabilidades en el Gráfico (1-10):
Figura 1-10.: Representación gráfica de la probabilidad de que la variable aleatoria χ224 es menor
o igual que 13,848 y también de que sea mayor o igual que 36,420.
1.9.2. Distribución t de Student

En probabilidad y estadística, la distribución t de Student es una distribución de probabi-
lidad que surge del problema de estimar la media de una población normalmente distribuida
cuando el tamaño de la muestra es pequeño.
A la teoría de pequeñas muestras también se le llama teoría exacta del muestreo, ya que tam-
bién la podemos utilizar con muestras aleatorias de tamaño grande.
Una variable aleatoria X se distribuye según el modelo de probabilidad t de Student con n

grados de libertad, donde n es un entero positivo, si su función de densidad está dada por:
n+1
2 − 2
Γ( n+1

) x
f (x) = √ 2 n 1 + , ∀x ∈ R.
nπΓ( 2 ) n
En este caso se escribe X ∼ t(n) . La gráfica de esta función de densidad se muestra en la figura
(1-11). dt(x, 30)
0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4
Figura 1-11.: Función de densidad de la distribución t de Student con 30 (color negro), 10 (color
rojo), 3 (color verde), 2 (color azul) y 1 (color marrón) grado de libertad.
La distribución t de Student es simétrica respecto a cero, con una varianza mayor que la
N(0, 1) y tiende a ésta a medida que n lo hace hacia infinito (se puede considerar que sus pro-
babilidades coinciden a partir de un n superior a 120).
La distribución t de Student utiliza una tabla de probabilidad especial, cuyo uso sugiere como
compensación el cálculo previo de los grados de libertad (ν), que se define como el tamaño de
la muestra n, al cual se le ha restado tantas unidades como parámetros de la población halla que
estimar a partir de la muestra. En el caso de la distribución en el muestreo de la media, tendre-
mos que estimar al parámetro σ 2 , por lo cual para conocer los grados de libertad (ν), tendremos
que restar al tamaño de la muestra n, el valor de 1.
La forma de la distribución t de Student es semejante a la normal pero más achatada, si-

métrica, campaniforme, con media cero (0), pero con mayor probabilidad de obtener valores
extremos. Esta distribución presenta más dispersión y menor curtosis que la N(0, 1). Es bueno
anotar, que a medida que el tamaño de la muestra n crece, la curva t de Student se normaliza.
La gráfica de la distribución t de Student es muy parecida a la de la normal estándar diferen-
ciándose en que las colas de t están por encima de la normal y el centro se encuentra por debajo
del de la misma.
Esta distribución apareció por primera vez en 1908 en un trabajo publicado por William
Gosset bajo el seudónimo de Student. El estadístico William Gosset trabajaba en una empre-
sa cervecera Irlandesa, la cual prohibía que sus empleados difundieran los resultados de sus
investigaciones, y para eludir esta prohibición él publicaba sus trabajos bajo el seudónimo de
Student, de aquí el nombre de la distribución t-Student.
Cuando el valor del parámetro n es igual a uno se obtiene la distribución de Cauchy y no

n
tiene media. Se puede demostrar también que E(X) = 0, cuando n > 1, y V ar(X) = ,
n−2
para n > 2. La primera igualdad establece que esta distribución se encuentra siempre centrada
en cero para cualquier valor del parámetro n.
Ejemplo 1.19. Sea X una variable aleatoria que sigue una t20 . Hallar a tal que P (|X| > a) =
0,01.
Solución. Para ello basta tener en cuenta que la distribución t de Student es simétrica, con lo
cual
P (|X| > a) = P (X > a) + P (X < −a)

= 2P (X > a)
= 0,01
Así pues, el a requerido es el que verifica P (X > a) = 0,005, de donde se obtiene, buscando
en las tablas, que a = 2,845.
A continuación se muestran algunas formas en las que surge esta distribución.
Teorema 1.16. Sean X ∼ N(0, 1) e Y ∼ χ2n variables aleatorias independientes. Entonces

X
p ∼ t(n) .
Y /n
Demostración. Por independencia, la función de densidad conjunta de X y Y , para y > 0,

viene dada por:
1 x2 1 y n
fX,Y (x, y) = √ e− 2 n n e− 2 y 2 −1 .
2π 2 2 Γ( 2 )
!
x
Ahora se aplica el teorema de cambio de variable para la transformación ϕ(x, y) = x, p ,
y/n
ns2

−1
con inversa ϕ (s, t) = s, 2 . El Jacobiano de la transformación inversa es
t

∂x ∂x
1 0 2ns2
∂s ∂t 2 = −
J(s, t) = ∂y =
∂y 2sn − 2ns .
t3

t2 t3

∂s ∂t

Por lo tanto,
n
ns2 2ns2 n 2 −1 sn−2 2ns2

1 s2 1 ns2
fS,T (s, t) = fX (s)fY · 3 = √ e− 2 n n e− 2t2 · .
t2 t 2π 2 2 Γ( 2 ) tn−2 t3
Integrando respecto a s,
n ∞ s2 (1+ n2 )
Z
1 n2 t
fT (t) = √ n
−1
sn e− 2 ds.
2π 2 2 Γ( n2 )tn+1 0
n
s2 1 + 2
Ahora efectuamos el cambio de variable r(s) = t , de donde obtenemos dr =
2
n
s 1 + 2 ds, y entonces
t
n Z ∞
1 n2 n−1
−r
fT (t) = √ n n+1 r 2 e dr
2π 2 2 Γ( )tn+1 2 + 2
−1 n 1 n
2 0
n+1
2 2 2t
Γ 2 1
=√ n
n+1
nπΓ 2 1 + t2 2
n
n+1
− n+1
Γ 2 t2 2
=√ 1 +
nπΓ n2

n
correspondiente a la función de densidad de la distribución t(n) . Salvo la constante Γ n+1

2
.
n+1

Observe que la última integral corresponde a la densidad Gamma 2 , λ con λ = 1.
Hasta ahora estábamos admitiendo que se conoce la varianza de la población de la que se

extrae la muestra, pero esta no será la situación general, sino que la mayoría de las veces no
conocemos la varianza de la población, entonces como se dispone de una muestra aleatoria
simple de tamaño n, podemos, calcular la varianza muestral S 2 y utilizarla en lugar de la va-
nanza poblacional σ 2 desconocida, pues S 2 es, como veremos después, un buen estimador de σ 2 .
Al hacer esta sustitución si el tamaño de la muestra, n es grande, es decir, n ≥ 30 la distribu-

ción del estadístico:
X −µ
√
S/ n
sigue siendo aproximadamente una N(0, 1).
Si el tamaño de la muestra es pequeño, n < 30, los valores de la varianza muestral S 2 varían
considerablemente de muestra en muestra, pues S 2 disminuye a medida que n aumenta, y la
distribución del estadístico
X −µ
√
S/ n
ya no será una distribución normal.
Este problema fue resuelto en 1908 por el estadístico William Gosset a partir del teorema
(1.17).
El siguiente resultado se usa en estadística para efectuar estimaciones de la media de una

población normal cuando la varianza es desconocida.
Teorema 1.17. Sea X1 , X2 , . . . , Xn es una muestra aleatoria simple, de tamaño n, procedente
de una población N(µ, σ 2 ) con σ desconocida. Entonces el estadístico
X −µ
T = √ ∼ t(n−1) .
S/ n
Demostración. Simplemente se aplica el teorema recién demostrado a las variables aleatorias

independientes
X −µ n−1 2
√ ∼ N(0, 1) y S ∼ χ2(n−1)
σ/ n σ2
1.9.3. Distribución F de Snedecor

La variable aleatoria continua X tiene una distribución F de Snedecor con m > 0 grados
de libertad en el numerador y n > 0 grados de libertad en el denominador, si su función de
densidad viene dada por:
Γ( m+n ) m m2 m −1 m − m+n
2
f (x) = m 2 n x2 1+ x , ∀x > 0.
Γ( 2 )Γ( 2 ) n n
En este caso se escribe X ∼ F(m,n) .
n
Si X ∼ F(m,n) , la distribución F se caracteriza porque E(F(m,n) ) = , para n > 2 y
n−2
2n2 (m + n − 2)
V ar(F(m,n) ) = , para m > 4.
m(n − 2)2 (n − 4)
1
Además, si X ∼ F(m,n) entonces ∼ F(n,m) . En efecto,
X

X/m
α=P > F(α,m,n)
Y /n

Y /n 1
=P <
X/m F(α,m,n)

Y /n 1
=1−P ≥ ,
X/m F(α,m,n)
de donde
1
F(1−α,m,n) = .
F(α,m,n)
Función de densidad de F(5,10) Función de distribución de F(5,10)

0.7
1.0
0.6
0.8
0.5
0.6
0.4
df(x, 5, 10)
pf(x, 5, 10)
0.3
0.4
0.2
0.2
0.1
0.0
0.0
0 2 4 6 8 10 0 2 4 6 8 10
x x
Figura 1-12.: Gráfico de la función de densidad (panel de la izquierda) y de la función distribu-

ción (panel de la derecha) de la distribución F con 5 y 10 grados de libertad.
Los siguientes dos resultados indican la forma de obtener esta distribución.

Teorema 1.18. Sean X ∼ χ2(m) y Y ∼ χ2(n) independientes. Entonces
X/m
∼ F(m,n) .
Y /n
Demostración. Esta afirmación se obtiene directamente de la aplicación de la fórmula para

la función de densidad del cociente de dos variables aleatorias. Recuerde que para n > 0,
fX/n (x) = nfX (nx).
Teorema 1.19. Si X ∼ t(n) , entonces X 2 ∼ F(1,n) .
Demostración. El resultado se sigue fácilmente de la aplicación de la siguiente fórmula general.
Para x > 0, y por la simetría de la distribución t,

n+1
Γ
√ √ 1 √ 1 2 x −( n+1
2 ) 1
fX 2 (x) = fX ( x) + fX (− x)) √ = fX ( x) √ = √ n 1 + √ .
2 x x nπΓ n x
2
Por lo tanto,
n+1
Γ 12 −( 1+n
2 )
2 1 1
−1 1
fX 2 (x) = √ n x 2 1+ x ,
πΓ n n
2
√

1
donde π=Γ .
2
Así las cosas, X 2 ∼ F(1,n) .
1.9.4. Distribución de la diferencia de medias muestrales cuando

se conoce la varianza poblacional
En muchas situaciones surge la necesidad de comparar las medias muestrales de dos pobla-
ciones distintas. Por ejemplo, supongamos que estamos interesados en comparar los tiempos
medios de duración de dos tipos de tubos fluorescentes. La fabricación de ambos tipos de tubos
fluorescentes se realiza por compañías distintas y con diferentes procesos de fabricación. Por
tanto, los tubos producidos por cada compañía tendrán una distribución diferente, una de la otra,
de los tiempos de duración de los tubos.
Designamos por X la variable aleatoria que representa el tiempo de duración del primer tipo
de tubos y admitimos que sigue una distribución N(µX , σX 2
). Análogamente la variable alea-
toria Y representa el tiempo de duración del segundo tipo de tubos que sigue una distribución
N(µY , σY2 ). Se selecciona una muestra aleatoria de tamaño nX , del primer tipo de tubos y una
muestra aleatoria de tamaño nY , del segundo tipo de tubos, ambas muestras independientes.
Entonces si designamos por X y Y los estadísticos medias muestrales de ambas muestras, es-
tamos interesados en conocer la distribución muestral de la diferencia X − Y para las muestras
respectivas de tamaño nX y nY , procedentes de dos poblaciones normales e independientes.
De manera análoga el Teorema (1.1) que anunciábamos para la distribución muestral de la

media, podemos enunciar el siguiente teorema para la diferencia de medias muestrales.
Teorema 1.20. Sean X1 , X2 , . . . , Xnx e Y1 , Y2 , . . . , Yny dos muestras aleatorias simples e in-
dependientes de tamaños nx , y ny , procedentes de las poblaciones N(µx , σx2 ) y N(µy , σy2 ), res-
pectivamente. Entonces la distribución muestral de la diferencia de medias X − Y , tendrá una
distribución normal con media y desviación estándar:
s
σx2 σy2
µX−Y = µx − µy y σX−Y = + .
nx ny
Es decir,
σx2 σy2

X − Y ∼ N µx − µy , + .
nx ny
De donde el estadístico
(X − Y ) − (µx − µy )
Z= s ∼ N(0, 1).
σx2 σy2
+
nx ny
Demostración. Del teorema (1.8), tenemos que:

σx2

X ∼ N µx ,
nx
σy2

Y ∼ N µy ,
ny
Luego, sus respectivas funciones generatrices de momentos son:
2
1 2 σx
MX (t) = E[etX ] = etµx + 2 t nx
σ2
tµy + 12 t2 ny
MY (t) = E[etY ] = e y
Por lo tanto, la función generatriz de momentos de X − Y será:

σ2

2
σ2 σx
σ2
tµx + 12 t2 nx −tµy + 12 t2 ny t(µx −µy )+ 12 t2 + ny
MX−Y (t) = E[et(X−Y ) ] = E[etX ]·E[e−tY ] = e x ·e y =e nx y
Ahora bien, teniendo en cuenta la unicidad de la función generatriz de momentos resulta que:
σx2 σy2

X − Y ∼ N µx − µy , +
nx ny
Si las dos muestras provienen de poblaciones tales que µx = µy , entonces:
σx2 σy2

X − Y ∼ N 0, +
nx ny
o bien, si σx2 = σy2 = σ 2 , es decir, las dos muestras provienen de poblaciones que tienen la
misma varianza, entonces:

1 1
X − Y ∼ N µx − µy , σ 2
+
nx ny
Así las cosas, estandarizando la variable aleatoria normal, se tiene:
(X − Y ) − (µx − µy )
Z= s ∼ N(0, 1).
σx2 σy2
+
nx ny
Nota 1.1. Si las distribuciones no son normales y los tamaños muestrales nx , y ny , son grandes,
mayores o iguales que 30, entonces por el Teorema Central del Límite la aproximación normal
para la distribución de X − Y es muy buena. Sin embargo si nx , y ny , son pequeños entonces
la forma de la distribución muestral de X − Y dependerá de la naturaleza de la población
muestreada.
Ejemplo 1.20. Analizando los salarios, en Estados Unidos, de los trabajadores de dos Esta-
dos, se deduce que en el Estado A el salario medio es de 1590 dolares. con una varianza de
25 dolares2 , y en el Estado B el salario medio es de 1550 dolares. con una varianza de 30
dolares2 . Si tomamos una muestra aleatoria de 36 personas en del Estado A y de 49 personas
en del Estado B, determinar la probabilidad de que la muestra procedente del Estado A tenga
un salario medio que sea al menos 42 dolares superior al salario medio del Estado B.
Solución. Observe que no se ha dicho que las poblaciones, de partida son normales, pues no
es necesario ya que como los tamaños muestrales nx = 36 y ny = 49, son mayores o iguales
que 30, la aproximación a la distribución normal dada por el teorema (1.20) es muy buena, sin
necesidad de que las poblaciones de partida sean normales.
Entonces del problema se sigue que:
Estado A: µx = 1590, σx2 = 25 y nx = 36.
Estado A: µy = 1550, σx2 = 30 y nx = 49.
Aplicando el teorema (1.20), la distribución muestral de la diferencia de los salarios medios
muestrales X − Y será:

25 30
X − Y ∼ N 1590 − 1550, +
36 49
Esto es, X − Y ∼ N(40, 1,306689).
La probabilidad de que de que el salario medio muestral del Estado A sea al menos 42 dola-
res superior al salario medio muestra del Estado B, viene dado por:

(X − Y ) − 40 42 − 40
P (X − Y ) ≥ 42 = P ≥
1,143105 1,143105
= P (Z ≥ 1,749621)
= 1 − P (Z ≤ 1,749621)
= 1 − 0,9599
= 0,0401.
Este resultado nos dice que la probabilidad, de que la media de una muestra aleatoria de 36
salarios del Estado A exceda en 42 o más dolares a la media de una muestra aleatoria de 49
salarios del Estado B, es 0,0401.
1.9.5. Distribución de la diferencia de medias muestrales cuando

no se conoce la varianza poblacional
En general, en situaciones reales las varianzas poblacionales no suelen ser conocidas. Así
pues, ahora queremos obtener la distribución de la diferencia de medias muestrales X − Y
cuando el muestro se realiza sobre dos poblaciones normales, independientes y con varianzas
desconocidas.
Es decir, consideramos dos poblaciones normales e independientes, N(µx , σx2 ) y N(µy , σy2 ) y se-
leccionamos una muestra aleatoria simple de tamaño nx , de la primera población y otra muestra
aleatoria simple de tamaño ny , independiente de la anterior, y procedente de la segunda pobla-
ción, entonces pueden presentarse dos situaciones:
a) σx2 = σy2 = σ 2 (las varianzas poblacionales son iguales).
b) σx2 6= σy2 (las varianzas poblacionales son distintas).
Las varianzas poblacionales son iguales σx2 = σy2 = σ 2
Por los Teoremas (1.17) y (1.20) sabemos que:

σx2 (nx − 1)Sx2

X ∼ N µx , , ∼ χ2nx −1
nx σ2
σy2 (ny − 1)Sy2

Y ∼ N µy , , ∼ χ2ny −1
ny σ2
Como las muestras son independientes, también serán independientes las varianzas muestrales
Sx2 y Sy2 y por tanto los estadísticos
(nx − 1)Sx2 (ny − 1)Sy2

y
σ2 σ2
son variables aleatorias independientes distribuidas según una χ2 con nx −1 y una χ2 con ny −1
grados de libertad, respectivamente.
Teniendo en cuenta el teorema (1.15), resulta que la variable aleatoria W
(nx − 1)Sx2 (ny − 1)Sy2

W = 2
+ 2
∼ χ2nx +ny −2
σ σ
también sigue una distribución χ2x con nx + ny − 2 grados de libertad.
También sabemos, por el teorema (1.20), que
(X − Y ) − (µx − µy )
Z= s ∼ N(0, 1)
σx2 σy2
+
nx ny
y como las variables aleatorias Z y W son independientes, teniendo en cuenta el teorema (1.16),
resulta que:
Z
T =s ∼ tnx +ny −2 (1-19)
W
nx + ny − 2
Luego, sustituyendo en la expresión (1-19) tenemos:
(X − Y ) − (µx − µy )
r
1 1
σ +
nx ny
T =r
(nx − 1)Sx2 + (ny − 1)Sy2
/(nx + ny − 2)
σ2 p
(X − Y ) − (µx − µy ) nx + ny − 2
=r
1 1 q
+ (nx − 1)Sx2 + (ny − 1)Sy2
nx ny
p √
(X − Y ) − (µx − µy ) nx + ny − 2 · nx · ny
=q √ ∼ tnx +ny −2
(n − 1)S 2 + (n − 1)S 2 nx + ny
x x y y
es decir, sigue una distribución t-Student con nx + ny − 2 grados de libertad.
Las varianzas poblacionales son distintas σx2 6= σy2
En este caso encontrar una distribución de la diferencia de medias poblacionales que nos
pueda ser útil después para la obtención de un intervalo de confianza, no es fácil, y se le conoce
con el nombre de problema de Behrens-Fisher. Bajo condiciones especiales se puede encontrar
alguna distribución, pero el obtener una solución general no es sencillo, aquí se proporcionaran
algunas aproximaciones.
Si las varianzas poblacionales son distintas y desconocidas utilizamos las varianzas muestra-
les Sx2 y Sy2 como estimadores de σx2 y σy2 .
Cuando los tamaños muestrales son grandes, es decir, nx ≥ 30 y ny ≥ 30, entonces el

estadístico
(X − Y ) − (µx − µy )
Z= s ∼ N(0, 1) (1-20)
Sx2 Sy2
+
nx ny
pues para nx y ny , grandes Sx2 y Sy2 son muy buenos estimadores de σx2 y σy2 , puesto que, co-
mo veremos después, la varianza muestral es un estimador insesgado de la varianza poblacional.
Si las muestras son pequeñas, el estadístico

(X − Y ) − (µx − µy )
s ∼ t(ν) (1-21)
2 2
Sx S y
+
nx ny
es decir, sigue una t-Student con ν-grados de libertad, siendo:

2
Sx Sy2
2
+
nx ny
ν= (1-22)
(Sx2 /nx )2 (Sy2 /ny )2
+
nx − 1 ny − 1
Tomaremos por valor de ν el valor entero más próximo.
1.9.6. Distribución del cociente de varianzas

Sean dos poblaciones X e Y normales N(µx , σx2 ) y N(µy , σy2 ) e independientes, de las cuales
seleccionamos dos muestras aleatorias simples e independientes, de tamaños nx y ny , X1 , X2 , . . . , Xnx
e Y1 , Y2 , . . . , Yny , entonces pueden presentarse fundamentalmente dos situaciones:
a) µx y µy conocidas.
b) µx y µy desconocidas.
Las medias poblacionales son conocidas
Al ser las medias poblacionales µx y µy conocidas, las podemos utilizar para el cálculo de
las varianzas muestrales Sx2 y Sy2 y como las muestras son independientes y además proceden
de distintas poblaciones, entonces los estadísticos:
nx
1 X
Sx∗2 = (Xi − µx )2
nx i=1
ny
1 X
Sy∗2 = (Yi − µy )2
ny i=1
son independientes y podemos expresarlos como:
nx n 2
nx Sx∗2 X x
X 2 Xi − µx
nx Sx∗2 = (Xi − µx ) ⇒ = ∼ χ2nx
i=1
σx2 i=1
σx
ny n 2
ny Sy∗2 X y
X 2 Y i − µy
ny Sy∗2 = (Yi − µy ) ⇒ = ∼ χ2ny
i=1
σy2 i=1
σy
pues la suma de n variables aleatorias N(0, 1), independientes y elevadas al cuadrado siguen
una χ2n .
Y recordando que la variable aleatoria F de Snedecor con nx y ny grados de libertad, F(nx ,ny ) ,
se define como un cociente entre dos variables aleatorias χ2 independientes y divididas cada
una de ellas por sus grados de libertad, tendríamos:
nx Sx∗2
/nx
σx2 Sx∗2 σy2
F = = · ∼ F(nx ,ny )
ny Sy∗2 Sy∗2 σx2
/ny
σy2
Las medias poblacionales son desconocidas
Al ser las medias poblacionales desconocidas, que será lo que casi siempre ocurra, y ser las
muestras independientes y además procedentes de distintas poblaciones, entonces los estadísti-
cos: nx
1 X 2
Sx2 = Xi − X
nx − 1 i=1
ny
1 X 2
Sy2 = Yi − Y
ny − 1 i=1
son independientes y teniendo en cuenta el Teorema (1.15) resulta:
nx nx 2
2
X 2 (nx − 1)Sx2 X Xi − X
(nx − 1)Sx = Xi − X ⇒ 2
= ∼ χ2nx −1
i=1
σ x i=1
σx
ny n
y 2
(ny − 1)Sy2 X

X 2 Yi − Y
(ny − 1)Sy2 = Yi − Y ⇒ = ∼ χ2ny −1
i=1
σy2 i=1
σy
Análogamente a como ocurría en la situación anterior, llegaremos a una F -Snedecor con nx − 1
y ny − 1 grados de libertad, en efecto:
(nx − 1)Sx2
/(nx − 1)
σx2 Sx2 σy2
F = = · ∼ F(nx −1,ny −1)
(ny − 1)Sy2 Sy2 σx2
/(ny − 1)
σy2
σy2
A partir de aquí podremos obtener la distribución del cociente de varianzas , así pues la
σx2
función de distribución será:
Sx2 Sx2 σy2 σy2

P ≤v =P · ≤ v
Sy2 Sy2 σx2 σx2
σy2

= P F(nx −1,ny −1) ≤ 2 v
σx
que será el valor que toma la función de distribución de una F -Snedecor con nx − 1 y ny − 1
σy2
grados de libertad en el punto 2 v.
σx
También podríamos estudiar otras situaciones:
c) µx conocida y µy desconocida.
d) µx desconocida y µy conocida.
pero son similares a los casos anteriores; así pues llegaríamos a tener: F(nx ,ny −1) y F(nx −1,ny ) ,
respectivamente.
1.10. Distribución de la proporción muestral

Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de tamaño n, procedente de una B(1, p), y
sabemos que el estadístico proporción muestral será también una variable aleatoria,
X
PX =
n
que tomará diferentes valores para cada una de las posibles muestras, así pues para una muestra
concreta x1 , x2 , . . . , xn el valor del estadístico proporción muestral será:
x
pb = ,
n
donde x representa el número de elementos de la muestra que poseen la característica que esta-
mos investigando y la variable aleatoria X sigue una distribución binomial B(n, p).
Luego, la distribución muestral del estadístico proporción muestral tendrá la misma forma
que la distribución binomial de X y como la distribución binomial se puede aproximar a la
normal cuando n es grande, n ≥ 30, entonces teniendo en cuenta el Teorema Central del Límite
resulta que el estadístico proporción muestral sigue una distribución normal, es decir:
X pq
pb = PX = ∼ N p, , (1-23)
n n
donde q = 1 − p, puesto que

X 1 1
E[b
p] = E[PX ] = E = E[X] = · np = p
n n n
1.10 Distribución de la proporción muestral 79

X 1 1 p(1 − p) pq
V ar[b
p] = V ar[PX ] = V ar = 2
V ar[X] = 2 · np(1 − p) = =
n n n n n
También se verifica, para muestras grandes, que
PX − p
Z= r ∼ N(0, 1)
pq
n
A la desviación estándar de la proporción muestral, que es la raíz cuadrada de la varianza, le

llamaremos error estándar de la proporción y viene dado por:
r
pq
error estándar del estadístico proporción muestral pb =
n
De manera análoga a como ocurría con el estadístico media muestral, aquí resulta que para un
parámetro p fijo, el error estándar de la proporción muestral disminuye cuando el tamaño de la
muestra aumenta. Lo cual implica que cuando el tamaño de la muestra aumenta la distribución
del estadístico proporción muestral pb está más concentrada en torno a su media, es decir, en
torno a la proporción población.
Ejemplo 1.21. Supongamos que el 30 % de la población de viviendas de un país tienen más de

un baño. Con el fin de obtener una información más precisa se toma una muestra aleatoria de
tamaño 400 viviendas. Obtener:
1. La probabilidad de que la proporción de viviendas de la muestra con más de un baño esté

comprendida entre 0.25 y 0.32.
2. La probabilidad de que el porcentaje de viviendas de la muestra con más de un baño sea

superior al 33 %.
Solución. Sabemos que el parámetro proporción poblacional es p = 0,3 y de la expresión

X pq
(1-23) resulta que el estadístico proporción muestral pb = sigue una distribución N p, .
n n
X
1. Si notamos por pb = el estadístico proporción muestral, debemos encontrar:
n
 
 0,25 − p pb − p 0,32 − p 
P (0,25 ≤ pb ≤ 0,32) = P  r ≤ r ≤ r 
 pq pq pq 
n n n
 
 0,25 − 0,30 0,32 − 0,30 
=P r
 0,30 · 0,70 ≤ Z ≤ r 
0,30 · 0,70 
400 400
= P (−2,18 ≤ Z ≤ 0,873)
= F (0,873) − F (−2,18)
= 0,8078 − 0,0146
= 0,7932.
Luego la proporción muestral de viviendas que tienen más de un baño, caerá en el interior
del intervalo (0,25, 0,32) para aproximadamente el 79.32 % de las muestras de tamaño
400 procedentes de esta población.
2. Análogamente, tenemos:
   
 pb − p 0, 33 − p   0,33 − 0,30 
P (b
p > 0,33) = P  r
 pq > r  = P Z > r  = P (Z > 1,31)
pq   0,30 · 0,70 
n n 400
= 1 − P (Z ≤ 1,31)
= 1 − F (1,31)
= 1 − 0,9049
= 0,0951.
1.11. Distribución de la diferencia de proporciones

Otro problema que se suele presentar es el de comparar las proporciones px y py de dos po-
blaciones binomiales, B(1, px ) y B(1, py ), basándose en muestras aleatorias simples de tamaño
nx y ny , respectivamente, extraídas de ambas poblaciones.
1.12 Ejercicios 81
Así pues, sean dos muestras aleatorias simples e independientes de tamaño nx y ny y proce-
dentes de poblaciones binomiales con parámetros px y py respectivamente, entonces la distribu-
ción muestral de la diferencia de proporciones muestrales
X Y
pbx − pby = −
nx ny
tendrá aproximadamente (para nx y ny grandes) una distribución normal con media y desviación
estándar
µpbx −bpy = px − py
px qx py qy
r
σpbx −bpy = + .
nx ny
Es decir,
px qx py qy
pbx − pby ∼ N px − py , +
nx ny
1.12. Ejercicios
1. ¿Qué es una distribución muestral? ¿Por qué son importantes las distribuciones muestra-
les? ¿Qué es el error estándar? ¿Qué efecto tiene aumentar el tamaño de la muestra sobre
la variabilidad de una distribución muestral de proporciones?
2. ¿Qué efectos tiene cada uno de los siguientes cambios sobre la variabilidad de una dis-
tribución muestral de la proporción muestral de muestras aleatorias simples de tamaño
n?
a) Un aumento en la desviación estándar de la población.
b) Un aumento en el tamaño de la muestra.
c) Una disminución en la proporción de la población.
3. Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal

con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se
extraen 200 muestras aleatorias de tamaño 25 sin reemplazo de esta población, determine:
a) El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
b) El número de medias muestrales que caen por debajo de 172 centímetros.
4. Las puntuaciones en la Escala de Inteligencia para Adultos de Wechsler (WAIS) siguen

en una población una distribución Normal de media 100 y desviación estándar 16. Si
extraemos de esa población una muestra aleatoria simple de 25 individuos.
a) ¿Cuál es la probabilidad de que la media de esos 25 individuos sea inferior a 95?
b) ¿Cuál es la probabilidad de que esa misma media esté comprendida entre 98 y 102?
5. ¿Cuántas muestras de tamaño 32 pueden extraerse de una población de tamaño 750? Rta:
1,95 × 1056 .
6. Si a cada una de las muestras del problema anterior le calculamos su correspondiente

proporción, ¿cómo llamaría usted a la serie de proporciones obtenidas y qué propiedades
tiene dicha distribución?.
7. Considere una población de 5 elementos y una muestra de tamaño 2 extraída de dicha

población y explique mediante ésta información, ¿en qué consiste la distribución en el
muestreo de la media?.
8. Quinientos cojinetes de bolas, tienen un peso medio de 5.02 onzas y una desviación están-
dar de 0.30 onzas. Hallar la probabilidad de que una muestra aleatoria de 150 cojinetes,
tenga un peso medio de más de 5.10 onzas. Rta: 0.0005.
9. Suponga que una máquina produce tornillos, cuyos diámetros se distribuyen normalmen-
te, con media igual a 0.5 pulgadas y desviación estándar de 0.01 pulgadas. ¿Cuál es la
probabilidad de que el diámetro medio esté comprendido entre 0.49 y 0.51 pulgadas, para
una muestra de 4 tornillos?. Rta: 0.9544.
10. Las puntuaciones obtenidas en la escala de Locus de Control de James por los sujetos
depresivos, siguen una distribución Normal de media 90 y desviación estándar 12. Si se
extraen muestras aleatorias simples de 30 sujetos depresivos ¿Por debajo de que cantidad
se encontrará el 90 % de las veces el valor de la varianza de la muestra?
11. Los estudiantes de Psicología en general manifiestan que tienen dificultad para memo-
rizar. Experiencias anteriores han consistido en exponer 5 palabras ante los estudiantes
durante 10 segundos al comienzo de la clase y luego preguntar por ellos al final de la
clase, obteniéndose la siguiente distribución de probabilidades:
Cantidad de palabras que recuerdan 0 1 2 3 4 5
P (X = x) 0,05 0,15 0,20 0,25 0,30 0,05
En una muestra aleatoria de 64 estudiantes, ¿Cuál es la probabilidad de que en promedio
recuerden por lo menos 3 palabras?
12. En una determinada población se sabe que el valor de la tasa diaria de consumo de calorías
sigue una distribución normal con desviación estándar σ = 400 calorías.
Si la media poblacional es µ = 1600 calorías y se elige al azar una muestra aleatoria
de 100 personas de esa población, determinar la probabilidad de que el consumo medio
diario de calorías en esa muestra esté comprendido entre 1500 y 1660 calorías.
1.12 Ejercicios 83
13. En una cierta prueba, el 35 % de la población examinada obtuvo una nota superior a 6, el
25 % entre 4 y 6, y el 40 % inferior a 4. Suponiendo que las notas siguen una distribución
normal, hállese la nota media y la desviación estándar. ¿Qué porcentaje de la población
tiene una nota que se diferencia de la media en menos de dos unidades? Rta. µ = 4,7874,
σ = 3,1496 y 47.14 %.
14. En cierta población humana, la media muestral X de una característica se distribuye me-
diante una distribución Normal. La probabilidad de que X sea menor o igual que 75 es
0.58 y la de que X sea mayor que 80 es 0.04. Hallar la media y la desviación estándar de
X. (Tamaño muestral n = 100). Rta. µ = 74,3; σ = 3,23.
15. La edad a la que contraen matrimonio los hombres de cierta Ciudad es una variable alea-
toria que se puede aproximar por una distribución Normal de media 35 años y desviación
estándar de 5 años. Se elige aleatoriamente una muestra de 100 hombres de dicha Ciudad.
Sea X la media muestral de la edad de casamiento.
a) ¿Cuál es la media y la varianza de X?
b) ¿Cuál es la probabilidad de que la edad media de casamiento de la muestra esté
comprendida entre 36 y 37 años?
16. Los salarios diarios de cierta industria están distribuidos normalmente con una media de
US$1320. Si el 9 % de las medias de los salarios diarios en muestras de 25 obreros, es
inferior a US$1250, ¿cuál es la desviación estándar de la industria?. Rta: US$261.19.
17. De una población de 120 alumnos, hay 48 que tienen 2 o más hermanos. Si de dicha
población se toman muestras de tamaño 40.
a) ¿Qué distribución siguen las proporciones muestrales?
b) ¿Cuál es la probabilidad de que se encuentre en dicha muestra una proporción de
más del 55 % de alumnos con 2 o más hermanos?
18. Las notas de cierto examen se distribuyen según una normal de media µ = 5,3 y desvia-
ción estándar σ = 2,4. Hallar la probabilidad de que un estudiante tomado al azar tenga
una nota:
a) Superior a 6.5.
b) Inferior a 5.2.
c) Comprendida entre 5 y 6.5.
d) Halla las mismas probabilidades para la media de las notas de 16 estudiantes elegi-
dos al azar.
19. La probabilidad de que un esquiador debutante se caiga en la pista es 0.4. Si lo intenta 5

veces, calcula la probabilidad de que se caiga al menos 3 veces. Rta. 0.3174
20. En una ciudad, el 20 % de los hogares están asegurados contra incendios. Con objeto de
establecer una encuesta en el área, una compañía de seguros selecciona 5 hogares al azar.
Calcular:
a) el número de hogares que se espera que estén asegurados. Rta. 1
b) la probabilidad de que dos hogares estén asegurados. Rta. 0.2048
c) la probabilidad de que ninguno esté asegurado. Rta. 0.3277
d) la probabilidad de que alguno esté asegurado. Rta. 0.6723
21. Se sabe que 2 de cada 8 habitantes de una ciudad utiliza el transporte público para ir a su
trabajo. Se hace una encuesta a 140 de esos ciudadanos. Determinar:
a) El número esperado de individuos que no van a su trabajo en transporte público.
Rta. 35
b) Probabilidad de que el número de individuos que va al trabajo en transporte público
esté entre 30 y 45. Rta. 0.8375
22. En un saco mezclamos frijoles blancos y pintos en la relación de 14 blancos por cada
pinto. Extraemos un puñado de 100 frijoles. Calcula la probabilidad de que la proporción
de frijoles pintos esté comprendida entre 0.05 y 0.1.
23. El cociente intelectual, CI, de unos universitarios se distribuye normalmente con media
100 y desviación estándar 11.
a) Se elige al azar una persona. Hallar la probabilidad de que su CI esté entre 100 y
103.
b) Se elige al azar una muestra de 25 personas. Encontrar la probabilidad de que la
media de sus cocientes intelectuales esté entre 100 y 103.
24. El 42 % de los habitantes de un municipio es contrario a la gestión del alcalde y el resto

son partidarios de este. Si se toma una muestra de 64 individuos, ¿cuál es la probabilidad
de que ganen los que se oponen al alcalde?
Rta. 0.0778
25. La probabilidad de que un bebé sea varón es 0.515. Si han nacido 184 bebés, ¿cuál es la
probabilidad de que haya 100 varones o más? Rta. 0.2420
26. Se sabe que el 10 % de los habitantes de una determinada ciudad va regularmente al teatro.
Se toma una muestra al azar de 100 habitantes de esta ciudad. ¿Cuál es la probabilidad de
que, al menos, un 13 % de ellos vaya regularmente al teatro? Rta. 0.2033
1.12 Ejercicios 85
27. Se conoce que el número de días de permanencia de los enfermos de un hospital sigue
una normal de media 8,1 días y desviación estándar 9 días. Se elige al azar una muestra
de 100 enfermos:
a) Razona cuál es la distribución de la media muestral. Rta. N(8,1, 0,81).
b) ¿Cuál es la probabilidad de que la media muestral esté comprendida entre 8 y 10
días?. Rta. 0,5219.
28. Una variable aleatoria X tiene una distribución normal, siendo su desviación estándar
igual a 3.
a) Si se consideran muestrasde tamaño
16, ¿qué distribución sigue la variable aleatoria
9
media muestral?. Rta. N µ, .
4
b) Si se desea que la media de la muestra no difiera en más de 1 unidad de la media
de la población, con probabilidad de 0.99, ¿cuántos elementos, como mínimo, se
deberían tomar en la muestra?. Rta. n = 60.
29. El peso de las peras de una cosecha se distribuye según una normal de media 115 gramos
y desviación estándar igual a 25 gramos.
a) ¿Cuál es la probabilidad de que una pera elegida al azar pese más de 120 gramos?.
Rta. 0,4207.
b) ¿Cuál es la probabilidad de que el peso medio de una muestra de 64 peras esté entre
112 y 119 gramos?. Rta. 0,7312.
30. Se quiere estudiar la altura de los alumnos de octavo grado y se estimó, en experiencias
anteriores, que dicha característica se distribuye según una distribución normal de media
167 cm y varianza 1,024 cm2 . Si se toma una muestra aleatoria simple de 10 alumnos,
a) Calcular la probabilidad de que la media muestral de las alturas de los 10 alumnos
no sea inferior a 165 cm.
b) Hallar la probabilidad de que la varianza muestral de las alturas de los 10 alumnos
sea superior a 15.90 cm2 .
31. En una empresa de microcircuitos se ha comprobado que el 10 % de éstos son defectuo-

sos. Si se compra un paquete de 300 microcircuitos procedentes de la fábrica, B(300; 0,1),
determinar:
a) Número esperado de microcircuitos no defectuosos. Rta. 270
b) Probabilidad de que se encuentre más del 9 % de microcircuitos defectuosos. Rta.
0.6844
c) Probabilidad de que el número de microcircuitos defectuosos esté entre 20 y 30.

Rta. 0.4297
32. La probabilidad de que un deportista gane una competición es 0.4. ¿Cuántas veces ha-
bremos de verle competir para que haya una probabilidad de al menos 0.95, de que la
frecuencia relativa de triunfos difiera de 0.4, en valor absoluto, como máximo en 0.02?
Rta: n = 12000 veces.
33. El gasto diario de la familia Robles sigue una distribución normal de media de 30000
pesos y varianza 500. Supongamos que el gasto de cada día es independiente del de los
otros días. Si el ingreso mensual es de 970000 pesos, ¿cuál es la probabilidad de que no
gasten más de lo que ganan? ¿Cuánto deberían ganar para tener una seguridad del 99 %
de que no gastarán más de lo que han ganado?
34. Hemos hecho una encuesta entre los hombres de una población determinada y, a partir
de los resultados, deducimos que el peso de los hombres de esta población sigue una
distribución normal de media 72 kg. Para saber si los datos que hemos obtenido son
fiables, pesamos a cuatro de los encuestados y obtenemos una media de 77.57 kg, con
una desviación estándar de 3.5 kg. ¿Tenemos suficientes motivos para pensar que los
encuestados han mentido cuando nos han dicho su peso?
35. En un examen, al que se presentaron 2000 estudiantes, las puntuaciones se distribuyeron

normalmente, con media 72 y desviación estándar 9.
a) ¿Cuántos estudiantes obtuvieron una puntuación entre 60 y 80?. Rta. 1438
b) Si el 10 % superior de los alumnos recibió la calificación de sobresaliente, ¿qué
puntuación mínima había que tener para recibir tal calificación?. Rta. A partir de 84.
36. En un experimento de laboratorio se mide el tiempo de una reacción química. Se ha

repetido el experimento 98 veces y se obtiene que la media de los 98 experimentos es
de 5 segundos con una desviación de 0.05 segundos. ¿Cuál es la probabilidad de que la
media poblacional µ difiera de la media muestral en menos de 0.01 segundos?
37. Un psicólogo clínico afirma que con su terapia para tratar “el miedo a volar en avión” se
recupera el 80 % de los pacientes. Si seleccionamos al azar 16 pacientes que han acudido
a su consulta durante los últimos 3 meses por este tema, ¿cuál es la probabilidad de que
al menos el 75 % se hayan recuperado y puedan tomar aviones?
Rta. 0.798
38. Se sabe que las puntuaciones de un test siguen una distribución normal de media 36 y
desviación estándar 4.8.
1.12 Ejercicios 87
a) Si se toma una muestra aleatoria simple de 16 individuos, ¿cuál es la probabilidad

de que la media de esta muestra sea superior a 35 puntos?
b) ¿Qué porcentaje de muestras de tamaño 25 tiene una media comprendida entre 34 y
36?
39. Un partido político cree que el 60 % del electorado está a favor de su programa. Como su
líder encuentra que esta predicción es demasiado optimista decide hacer un sondeo con
una muestra de 90 personas, ¿cuál es la probabilidad de que como máximo 60 personas
estén a favor de su partido? Rta. 0.9192
40. Disponemos de los datos del Instituto Nacional de Estadística sobre el aumento del em-
pleo durante el año 1998, el cual se encuentra en un 45 % . Si tomamos una muestra
aleatoria de 200 ciudadanos, ¿cuál es la probabilidad de que más del 50 % tenga empleo?
Rta. 0.0869 (con corrección por continuidad).
41. Si la altura de un grupo de población sigue una distribución normal con media 176 cm y
desviación estándar de 12 cm, calcular la P r(S ≤ 10) para una muestra de tamaño 8.
Rta. 0.3232
42. Un investigador quiere estimar la media de una población usando una muestra suficien-
temente grande para que la probabilidad de que la media muestral no difiera de la media
poblacional en más del 25 % de la desviación estándar sea 0,95. Hallar el tamaño de
muestra necesario.
43. La efectividad en días de un determinado antibiótico, sigue una distribución normal de

media 14 días y desviación estándar desconocida. Fue administrada a 16 enfermos, ob-
teniéndose una desviación estándar muestral de 1.4 días. Determinar la probabilidad de
que la efectividad media en la muestra no supere los 13 días, que es el tiempo mínimo de
efectividad requerido. Preocupados por una posible subestimación de la varianza pobla-
cional, que podría llevar a subestimar la probabilidad de que no se alcance la efectividad
mínima, se desea determinar la probabilidad de que con una muestra de 16 enfermos se
subestime la varianza en más de un 20 %. Si la muestra es de 61 pacientes, ésta proba-
bilidad ¿aumenta o disminuye? Determinar el tamaño de muestra necesario para que la
probabilidad anterior sea 0.05. Rta: 118
44. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una distribución de Bernoulli de

parámetro p, 0 < p < 1. Sea X la media muestral y S 2 la varianza muestral. Calcular la
función de probabilidad de X y S 2 .
45. Una expresión alternativa de S 2 . Sea X1 , X2 , . . . , Xn una muestra aleatoria simple. De-
mostrar que
n n
1 XX
2
S = (Xi − Xj )2
2n(n − 1) i=1 j=1
46. Establecer las siguientes relaciones recursivas para la media y varianza muestrales. Sean
X n y Sn2 la media y la varianza muestrales de X1 , X2 , . . . , Xn . Suponer ahora que se
dispone de otra observación Xn+1 . Demostrar que:
Xn+1 + nX n
a) X n+1 = .
n+1
2 n 2
b) nSn+1 = (n − 1)Sn2 + Xn+1 − X n
n+1
47. Sea X1 , X2 , . . . , Xn una muestra aleatoria simple de una N(µ, σ 2 ), X y S 2 definidos de
la forma usual. Sea Xn+1 una nueva observación independiente r y de la misma población
n Xn+1 − X
que las anteriores. Encontrar la distribución del estadístico . ¿Para qué
n+1 S
podría ser utilizado?
48. Si la variable aleatoria X tiene una distribución N(0, 1) y extraemos de ella una muestra
aleatoria simple X1 , X2 , . . . , Xn , construir, utilizando las fórmulas recursivas de X n y Sn2
(ejercicio 46), una demostración inductiva de que (n − 1)Sn2 tiene una distribución χ2(n−1) .
49. Sea X1 , X2 , . . . , Xn , una muestra aleatoria simple de una población N(µ, σ 2 ). Supon-
gamos que Xn+1 se distribuye N(µ, σ 2 ) y que X1 , X2 , . . . , Xn+1 , son independientes.
Obtener con todo detalle la distribución en el muestreo de
r
Xn+1 − X n
.
S n+1
50. Sea una muestra aleatoria simple X1 , X2 , . . . , Xn . Se define


 X , si n = 2m + 1
 (m+1)


Z1 =
2  X + X(m)
 (m+1)

 , si n = 2m.
2
Calcular la función de densidad de Z 1 (mediana muestral) en ambos casos. Encontrar la
2
distribución exacta si Xi es U (0, 1).
51. Dadas X1 , X2 , . . . , Xn , n variables aleatorias independientes e idénticamente distribuidas

según una U (0, 1), calcular la función de densidad conjunta y correspondientes margina-
les del semirrango muestral:
X(1) + X(n)
V =
2
1.12 Ejercicios 89
y el rango muestral:
R = X(n) − X(1)
52. Las estaturas de 1000 estudiantes están distribuidas aproximadamente de forma normal
con una media de 174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se
extraen 200 muestras aleatorias de tamaño 25 de esta población, determine:
a) la media y la desviación estándar de la distribución muestral del promedio muestral.
b) el número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.
53. Un importante proceso de fabricación produce partes de componentes cilíndricos para

la industria automotriz. Es importante que el proceso produzca partes que tengan una
media de 5 milímetros. El ingeniero involucrado hace la conjetura de que la media de
la población es de 5.0 milímetros. Se lleva a cabo un experimento en el que 100 partes
elaboradas por el proceso se seleccionan al azar y se mide el diámetro de cada una de
ellas. Se sabe que la desviación estándar de la población es de σ = 0,1 milímetros. El
experimento indica un diámetro promedio de la muestra x = 5,027 milímetros. ¿Esta
información de la muestra parece apoyar o no la conjetura del ingeniero?
54. Calcular la probabilidad de que la media µ se encuentre entre X ± 3S para poblaciones

normales y n = 5. Rta. 0.9974
55. De una población normal de media y desviación estándar desconocida se ha obtenido una
muestra de 26 elementos que tiene como media aritmética 5 y desviación estándar 1.2.
¿Cuál es la probabilidad de que la media poblacional sea superior a 5.3? Rta. 0.114.
56. La media de una muestra aleatoria de tamaño 36 se utiliza para estimar la media de
una población infinita con desviación estándar de 5.4. Qué podemos afirmar sobre la
probabilidad de que el error muestral sea menor o igual que 2.3 en valor absoluto? Rta:
0.9896.
57. Suponga que los tiempos requeridos por un cierto autobús para alcanzar uno de sus des-
tinos en una ciudad grande forman una distribución normal con una desviación estándar
σ = 1 minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad
de que la varianza muestral sea mayor que 2. Rta. 0.01
58. Encuentre la probabilidad de que una muestra aleatoria de 25 observaciones, de una po-
blación normal con varianza σ 2 = 6, tenga una varianza muestral:
a) Mayor que 9.1. Rta. 0.05
b) Entre 3.462 y 10.745. Rta. 0.94
59. De una variable aleatoria X con distribución N(−1, σ 2 ) se extrae una muestra aleatoria
simple de tamaño 10 cuyo resultado es
1,03, −1,79, 1,45, −2,54, 0,37, −0,60, 0,53, 0,28, −2,21, −2,66.
Calcular la probabilidad de que la media muestral sea mayor o igual que −1,2.
60. Dadas W , X, Y y Z cuatro variables aleatorias independientes e idénticamente distribui-

das según una N(0, 5).
a) Si S = 2W + 3X − Y + Z + 30, hallar P (S ≤ 42).
b) Si T = W 2 + X 2 + Y 2 + Z 2 , hallar a tal que P (T ≤ a) = 0,025.
r
W 2 + X2 + Y 2 + Z2
c) Si U = , hallar P (U ≤ 6,973).
4
61. En una reunión una droga fue tomada por 14 personas, de las cuales 6 lo hacen por primera
vez y 8 ya son habituales de ella. La droga produjo en el primer grupo sueños de duración
11, 12, 13, 16, 17 y 15 horas, mientras que en el segundo grupo 8, 7, 9, 10, 6, 7, 9 y 8
horas.
a) Calcular la media y desviación estándar de cada grupo.
b) Formar el estadístico que se distribuye según una t de Student de 12 grados de
libertad, sabiendo que las poblaciones tienen la misma media y desviación estándar.
62. La variable X se distribuye normalmente con media 50 y desviación estándar 12. Si

extraemos una muestra aleatoria simple de 16 alumnos:
a) Si se extrae un sujeto al azar, ¿Cuál es la probabilidad de que obtenga al menos una
puntuación de 45?
b) ¿Cuál es la probabilidad de que su media aritmética sea menor de 58?
c) ¿Cuál es la probabilidad de que su media aritmética sea como mínimo 45?
d) ¿Qué valores debería tomar la media aritmética para que exista una probabilidad de
0.38 de encontrar valores entre ellos?
e) ¿Qué tamaño tendría que tener la muestra para que la probabilidad de encontrar
medias superiores a 52 fuese 0.2578?
63. Un fabricante de baterías para automóvil garantiza que sus baterías duran en promedio 3
años con desviación estándar de 1 año. ¿Si 5 de dichas baterías presentan una varianza
de 0.815, está el fabricante aún convencido de que la duración de sus baterías tienen
una desviación estándar de un año? Se sabe que la duración de las baterías se distribuye
normalmente. Rta. No hay razón para sospechar que la desviación estándar siga siendo
de un año.
1.12 Ejercicios 91
64. El tiempo promedio para realizar una tarea por parte de los empleados del turno 1 de una
compañía es de 20 minutos con una desviación estándar de 6 minutos. Dichos valores
para los empleados del turno 2 son 25 minutos y 5.5 minutos respectivamente.¿Cuál es
la probabilidad de que en un concurso que se ha programado, el promedio para 10 em-
pleados del turno 1, sea mayor que el rendimiento medio de 9 empleados del turno 2?
Se supone que el tiempo empleado por los empleados en ambos turnos, se distribuyen
normalmente. Rta: 0.0298.
65. Un rodamiento para una troqueladora producida por la empresa A, tiene una vida media
útil de 3.5 años con una desviación estándar de 0.4 años. El mismo tipo de rodamientos
producido por la empresa B, tiene una vida media útil de 3.3 años con una desviación
estándar de 0.3 años. ¿Cuál es la probabilidad de que una muestra de 25 rodamientos de
la empresa A tenga una vida media de por lo menos 0.4 años más, que la vida media de
una muestra de 36 rodamientos de la empresa B? Rta. 0.017
66. En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en
una escuela primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se
sabe que tanto para niños como para niñas los pesos siguen una distribución normal. El
promedio de los pesos de todos los niños de sexto grado de esa escuela es de 100 libras
y su desviación estándar es de 14.142, mientras que el promedio de los pesos de todas
las niñas del sexto grado de esa escuela es de 85 libras y su desviación estándar es de
12.247 libras. Si x1 representa el promedio de los pesos de 20 niños y x2 es el promedio
de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio de
los pesos de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas. Rta.
0.1056.
67. Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a
dos compañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una
desviación estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7
años con una desviación estándar de 0.7. Determine la probabilidad de que una muestra
aleatoria de 34 tubos de la compañía A tenga una vida promedio de al menos un año más
que la de una muestra aleatoria de 40 tubos de la compañía B. Rta. 0.0023.
68. Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrándose una desviación

estándar de 1.23 km/L para la primera gasolina y una desviación estándar de 1.37 km/L
para la segunda gasolina; se prueba la primera gasolina en 35 autos y la segunda en 42
autos.
a) ¿Cuál es la probabilidad de que la primera gasolina de un rendimiento promedio
mayor de 0.45 km/L que la segunda gasolina? Rta. 0.0642.
b) ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre

entre 0.65 y 0.83 km/L a favor de la gasolina 1? Rta. 0.0117 a favor de la gasolina
1.
69. Sean X e Y dos variables aleatorias que siguen una t(36) y una χ2(62) , respectivamente.
a) Hallar x tal que P (|X| > x) = 0,05.
b) Hallar y tal que P (|Y | > y) = 0,05.
70. Se sabe que la anchura de las piezas fabricadas por una cierta máquina, medida en cen-
tímetros, se distribuye según una Normal de media 10 y desviación estándar 0.25. Si se
toma una muestra aleatoria simple de 25 piezas, calcular:
a) P (9,68 ≤ X ≤ 10,1).
b) P (S 2 ≤ 0,19).
71. Con el fin de estimar la proporción de éxitos p (desconocido) en un experimento que se

repite 3 veces (modelo B(, )) tomamos una muestra de tamaño 4, pongamos (2, 5, 1, 2),
es decir, en estas cuatro realizaciones hemos obtenido cuatro valores diferentes para p,
que son 0.2; 0.5; 0.1 y 0.2. ¿Qué valor asignamos a p?
72. El fabricante de una dieta de adelgazamiento dice que su producto permite una reducción
media de peso de 3.5 kg. Con objetivo de investigar su eficacia, se seleccionaron al azar
40 personas, observando en ellas el peso antes de aplicar la dieta, X y el peso después de
acabar el tratamiento, Y , lo que proporcionó una cuasivarianza para la diferencia de:
40
X 2
Sd2

= (Xi − Yi ) − X − Y = 1,8
i=1
Si suponemos que tanto X como Y siguen distribuciones normales, determinar la proba-

bilidad de que los individuos de la muestra haya una reducción media de masa de 3kg.
Rta. 0.988
73. Se sabe que la longitud del fruto de dos variedades A y B de tomate pepita, sigue, en am-
bos casos, una distribución normal. Para la variedad A la media es 7.3 cm y la desviación
estándar es 0.4 cm y para la variedad B la media es 6.0 cm y la desviación estándar es
0.5 cm.
a) ¿cuál es la distribución de la diferencia de medias muestrales de la longitud de frutos
tomando nA = nB = 5?
b) ¿cuál es la probabilidad de que la diferencia entre los promedios muestrales sea
mayor o igual a 1.5 cm si nA = nB = 10?
1.12 Ejercicios 93
c) ¿Cual es la probabilidad de que la varianza observada en la variedad A sea al menos

la mitad de la observada en la variedad B?
74. Los cinescopios para la televisión del fabricante A tiene una duración media de 6.5 años y
una desviación estándar de 0.9 años, mientras que los del fabricante B tienen una duración
media de 6.0 años y una desviación estándar de 0.8 años. ¿Cuál es la probabilidad de que
una muestra aleatoria simple de 36 cinescopios del fabricante A tenga una duración media
que sea al menos de un año más que la duración media de una muestra de 49 cinescopios
del fabricante B?
75. La velocidad (cm/s) de un objeto de masa 1 kg, viene dada por una variable aleatoria V
mV 2
que sigue una N(0; 625). Si K = , donde m es la masa del objeto, es la variable
2
aleatoria que representa la energía cinética de dicho objeto, calcular la probabilidad de
que la energía cinética sea menor que 200. Rta. 0.725.
76. Las compañías A y B fabrican dos tipos de cables que tienen una resistencia media a la
rotura de 4000 y 4500 libras y desviaciones estándar de 300 y 200 libras respectivamente.
Si se comprueban 100 cables de A y 50 cables de B; ¿cual es la probabilidad de que la
media a la rotura de B sea mayor que la de A en 400 libras o más? Rta. 0.9925.
77. Si se tienen dos poblaciones referidas al tiempo de servicio de los trabajadores de dos
compañías tales que las desviaciones estándar correspondientes son 2.3 años y 3.4 años,
se pide calcular el error estándar de las diferencias de medias muestrales para muestras
respectivas de tamaños 36 y 64. Rta. 0.57.
78. Supongamos dos poblaciones normales, referidas al consumo promedio mensual de ener-
gía eléctrica de los hogares de dos barrios de una ciudad, de los cuales tomamos muestras
de tamaños 9 y 16 respectivamente. Se pide calcular el error estándar de las diferencias
de medias muestrales, si las desviaciones estándar de dichas muestras son 130 y 180
respectivamente. Rta. 68.48.
79. Una persona que desea encontrar trabajo se presenta a dos entrevistas en las empresas A
y B. En la entrevista de la empresa A obtiene una puntuación de 9, con una media de
puntuación de 7 para la totalidad de los candidatos y un varianza de 4. En la entrevista
de la empresa B obtiene una puntuación de 8, con una media de puntuación de 6 para
la totalidad de los candidatos y una desviación estándar de 1.5. ¿En qué entrevista ha
obtenido esa persona una mejor puntuación relativa?
80. En una granja avícola pueden usar dos sistemas de alimentación para sus gallinas: A y
B. Con ambos sistemas se recoge aproximadamente el mismo número de huevos, pero
cuando se usa el A el peso de los huevos sigue una normal, de 62 g de media y 3.5 g
de desviación estándar, mientras que usando el B la distribución (también normal) tiene

63.5 g de media y 4.5 g de desviación estándar. Si hay que deshechar, por inutilizables a
todos los efectos, los huevos de menos de 55 g:
a) ¿Cuál de los dos sistemas es preferible?. Rta. A
b ¿Cuántos huevos fueron deshechados en cierta temporada en la que se usó el sistema
A y se produjeron 1000 docenas de huevos?. Rta. 274
81. Un experto afirma que el tiempo promedio que se requiere para realizar un trabajo de
torno A es 2.5 horas, mientras que el tiempo promedio que se requiere para realizar un
trabajo de torno B es de 3.2 horas. Un analista para comprobarlo hace un estricto segui-
miento a la producción de 15 piezas de A y 16 piezas de B y encontró que para la pieza
A se requirió un promedio de 2.7 horas con desviación estándar de 0.01 horas, mientras
que para la pieza B se requirió un promedio de 3.0 horas con una desviación estándar
de 0.01 horas. El analista acepta la afirmación del experto solamente si el valor de t cal-
culado se encuentra dentro del intervalo −t0,005 y +t0,005 . ¿Qué decisión debe tomar el
analista? Se sabe que para ambas piezas el tiempo se distribuye normalmente. El analista
debe rechazar la afirmación del experto.
82. Un supervisor de planta en una compañía de acuerdo con sus registros, sabe que los traba-
jadores inician labores en promedio 4.5 minutos con desviación estándar de 0.8 minutos
después de firmar la planilla de asistencia. El superintendente quiere comprobar tal afir-
mación, para lo cual toma una muestra aleatoria de los registros de 12 trabajadores, con
media igual 3.2 y desviación estándar igual a 0.8. El superintendente acepta la afirmación
del supervisor, si el valor de t calculado se encuentra según la tabla entre −t0,025 y +t0,025 .
Rta. El superintendente podría concluir que el supervisor está equivocado.
83. El 46 % de la población de una ciudad está descontento con la gestión realizada por el
ayuntamiento. Si extraemos una muestra aleatoria de tamaño 200, ¿cuál es la probabilidad
de que al menos 100 de ellos estén descontentos? Rta. 0.1282
84. Se ha observado la duración, en horas, de 9 bombillas catalogadas como de primera ca-

tegoría. Se observó una vida media de 1309 horas con una desviación estándar de 420
horas. Una segunda muestra de 16 bombillas catalogadas como de segunda clase también
ha sido observada. Los resultados obtenidos han sido una vida media de 1205 horas y
una desviación estándar de 390 horas. Supongamos que la vida de una bombilla es una
variable aleatoria que sigue una distribución Normal. Usando α = 0,05:
a) ¿Podemos suponer que las varianzas de las poblaciones son iguales?
b) Supuesto cierto (a), ¿se puede decir que existe una diferencia real entre la duración
media de las bombillas de cada clase?
1.12 Ejercicios 95
85. En unas elecciones a alcalde, el 56 % de los votantes optó por el candidato A, mientras
que el 44 % lo hizo por el candidato B.
a) Halla la distribución de proporciones de las muestras de tamaño 50 extraídas de la
población. Rta. N(0,56; 0,0049)
b) Calcula la probabilidad de que en una muestra de 50 votantes haya, al menos, 30
favorables al candidato A. Rta. 0.2838
86. Se ha demostrado por reclamos que se han hecho, que el 20 % de las encomiendas llegan
averiadas al utilizar una compañía intermunicipal de transporte. ¿Cuál es la probabilidad
de que al enviar 100 encomiendas, la proporción de averiadas sea menor que el 25 %?
Rta. 0.8944.
87. En una gran compañía, el 18 % de los trabajadores están de acuerdo con un proyecto
de ley que modifica el código laboral Colombiano. La gerencia de la compañía desea
conocer la probabilidad de que en una muestra aleatoria de 120 trabajadores, el 30 % o
más estén de acuerdo con dicho proyecto de ley. Rta. 0.003.
88. Por experiencia se sabe que el 68 % de los clientes de un supermercado, utilizan vales de
consumo. Si se toma aleatoriamente una muestra de 500 clientes, ¿cual es la probabilidad
de que menos del 65 % utilicen dichos vales? Rta. 7.93 %.
89. Dos máquinas A y B, producen un mismo artículo. La máquina A produce como término
medio una proporción de 14 % de artículos defectuosos, mientras que la máquina B, pro-
duce en término medio una proporción de 20 % de artículos defectuosos. Si se obtiene
una muestra aleatoria de 200 unidades del artículo que provengan de la máquina A y una
muestra aleatoria de 100 unidades provenientes de la máquina B, calcular la probabili-
dad de que B tenga una proporción de defectuosos 8 % o más que A. Se supone que la
población es infinita. Rta. 0.3336.
90. Cierto censo hecho a televidentes de un gran barrio A en una ciudad, revela que el 65 %
de las amas de casa ven una determinada telenovela a las 10 a.m . Si se selecciona una
muestra de 100 amas de casa de dicho barrio, cual es la probabilidad de que más del 68 %
vean la referida telenovela. El barrio tiene según el censo 1200 amas de casa? Rta: 0.2576.
91. Con el fin de estimar la diferencia de proporciones entre dos poblaciones A y B, se

tomaron muestras de ambas poblaciones de tamaños 70 y 90 respectivamente. Se pide
calcular el error estándar de la diferencia de las proporciones muestrales, si se sabe que
éstas últimas fueron 35 % y 41 % respectivamente. Rta: 0.077.
92. Se sabe que según unas elecciones, el 25 % de los electores de una región A votaron a
favor de un candidato X, mientras que en una región B el 33 % de los electores también
lo hicieron por dicho candidato. Se toman muestras aleatorias de 150 para la región A y
de 100 para la región B, se pide calcular la probabilidad de que la proporción en la región
A sea igual o mayor que en la región B. Rta. 0.0869.
93. Un laboratorio, lanza al mercado una droga para aliviar el resfriado para lo cual tiene pre-
viamente comprobada su eficacia en el 80 % de los casos. Si se selecciona aleatoriamente
una muestra de 49 enfermos de gripa, ¿qué probabilidad hay de que en la misma se pre-
sente una diferencia en la proporción mayor del 10 % en valor absoluto, a lo comprobado
por el laboratorio? Rta. 0.0802.
94. Sean X1 , X2 , . . . , Xn e Y1 , Y2 , . . . , Ym dos muestras aleatorias simples de dos poblacio-

nes independientes N(µ1 , σ 2 ) y N(µ2 , σ 2 ), respectivamente. Queremos realizar inferen-
cias sobre αµ1 + βµ2 , con α y β dos números reales y fijos, cuando no se conoce la
varianza común σ 2 . Encontrar una variable cuya distribución sólo dependa de parámetros
conocidos y sirva para este fin.
95. Hallar el valor b tal que P (F < b) = 0,01, sabiendo que la variable aleatoria F sigue una
distribución F(7,20) .
96. Sea X una variable aleatoria que sigue una distribución F de Snedecor con 10 grados de
libertad en el numerador y 8 grados de libertad en el denominador. Determinar el valor
de a que verifica la siguiente igualdad:
a) P (X < a) = 0,9. Rta. 2.538
b) P (X > a) = 0,05. Rta. 3.3472
97. En una clase de ciencias, se toma una muestra aleatoria simple de 51 alumnos que se pre-
sentaron al examen de matemáticas y otra, independiente de la anterior, de 19 alumnos
presentados al examen de física. Se sabe que las notas de los alumnos tanto en matemá-
ticas como en física siguen una distribución normal con la misma varianza. ¿Cuál es la
probabilidad de que la varianza observada en la primera muestra sea al menos el doble de
la segunda? Rta. 0.0632
A. Muestreo
Las técnicas de muestreo, no solo sirven para el estudio de poblaciones infinitas, sino que
también son utilizadas para aquellas poblaciones finitas que contienen una enorme cantidad de
elementos, que impiden la realización de un censo, por limitaciones económicas o de tiempo o
inexistencia de personal especializado, etc. Por ejemplo, sabemos que buena parte de los Co-
lombianos no están de acuerdo con la legalización del aborto. Sin embargo, no sabemos hasta
que punto comparten o no esa opinión los profesionales de la salud, que están más en contacto
con éste fenómeno. Se podría llegar a conocer el porcentaje de dichos profesionales, interrogan-
do a la totalidad de ellos (población objetivo); pero éste procedimiento, no solo exigiría mucho
tiempo y dinero, sino que también podría resultar impracticable. Para solucionar éste problema,
sería más práctico investigar solamente una muestra o porción de la población objetivo y gene-
ralizar las conclusiones encontradas en dicha muestra, para la totalidad de la población a la cual
pertenece la misma.
Aunque la teoría que se desarrolla está referida solamente a muestras aleatorias simples, rea-
lizaremos aquí una rápida revisión de posibles métodos para la toma de muestras que podemos
encontrarnos en la práctica.
A.1. Definición de muestreo

El empleo de encuestas es uno de los métodos de investigación más utilizados en la actuali-
dad. La realidad, en continuo cambio y con muchísimas opciones diferentes, es muy difícil de
abarcar en su totalidad. Por este motivo se hace necesario seleccionar una parte lo más pequeña
posible, pero representativa del total, en la que sea posible medir las características deseadas.
Esta necesidad ha obligado a crear un instrumento matemático que llamamos muestreo.
Un método de muestreo será el procedimiento mediante el cual elegimos a las unidades es-
tadísticas que forman la muestra, dentro del conjunto que constituye la población.
A continuación se establece una primera clasificación de los tipos de muestreo que es común-
mente aceptada en la Estadística:
1. Muestreo probabilístico o aleatorio. Es aquel en el que a priori se conoce la probabili-

98 A Muestreo
dad de que cada uno de los elementos de la población pertenezca a la muestra. Es decir,
el muestreo es probabilístico cuando todos los elementos de la población poseen un pro-
babilidad conocida (o calculada de antemano), no nula, de ser elegidos para formar parte
de la muestra. Se contrapone al llamado muestreo no probabilístico, en el que, o bien no
se conoce la probabilidad de que los elementos de la población sean seleccionados para
la muestra, o bien para parte de ellos esta probabilidad es nula y, por tanto, no es posible
llevar a cabo inferencias estadísticas.
2. Muestreo opinático. Es aquel en el que el muestrador decide subjetivamente los indivi-

duos que compondrán la muestra.
3. Muestreo sin norma. Es aquel en el que se toma como muestra un trozo de la población
por razones, en general, de comodidad.
La ventaja del muestreo probabilístico es que pueden determinarse los errores que se cometerán
en el proceso inferencial, siendo el único que interesa desde el punto de vista estadístico. El
muestreo opinático se justifica en función del conocimiento que se tenga de la población bajo
estudio. Finalmente, el muestreo sin norma puede utilizarse como una primera aproximación a
una población de la que no se dispone de información alguna.
Lógicamente, el muestreo que se encuentra en la base de la mayoría de los métodos de la

estadística inferencial es el muestreo probabilístico. Para llevarlo a cabo es necesario que la
selección pueda considerarse como una prueba o experimento aleatorio o de azar, de los que
constituyen la base de la teoría de la probabilidad en la cual se fundamenta la estadística mate-
mática.
Las generalizaciones de resultados, a partir del estudio de muestras extraídas mediante pro-
cedimientos de muestreo no probabilístico, nos impiden conocer el margen de error con el que
hacemos las generalizaciones a la población. En cambio, el muestreo probabilítico permite ha-
cer inferencias sobre la población, y gracias a los procedimientos de la estadística inferencial
podemos conocer el error con el que se realizan las generalizaciones.
En las páginas siguientes, se describen muestreos probabilísticos (muestreo aleatorio con

y sin reemplazamiento, muestreo aleatorio sistemático, muestreo estratificado, muestreo por
conglomerados, muestreo polietápico) y muestreos no probabilíticos (muestreo intencional, por
cuotas, incidental y accidental), pero antes incluiremos dos conceptos que aparecen al referirnos
al muestreo: factor o coeficiente de elevación y fracción de muestreo.
Definición A.1 (Factor de Elevación). Se denomina factor o coeficiente de elevación al co-
N
ciente entre el tamaño de la población y el tamaño de la muestra, . Representa el número de
n
elementos que hay en la población por cada elemento de la muestra.
A.1 Definición de muestreo 99
Definición A.2 (Factor de Muestreo). Se denomina fracción de muestreo al cociente entre el

n
tamaño de la muestra y el tamaño de la población, . Si se multiplica por 100, representa el
N
porcentaje de la población que representa la muestra.
Las muestras que se elijan para hacer un estudio deben ser lo más pequeñas posible por exi-
gencias de tiempo y coste. Además, el aumento del número de datos no siempre acarrea una
mayor certeza, ya que más importante que escoger muchos datos es que los datos estén bien
seleccionados, con el fin de que sean representativos de la población que se desea estudiar. Se
verá como el azar juega un papel importante en la elección de la muestra para que ésta sea
representativa.
Aunque la teoría que será desarrollada más tarde está referida solamente a muestras aleatorias
simples, realizaremos aquí una rápida revisión de posibles métodos para la toma de muestras
que podemos encontrarnos en la práctica.
Para que una muestra se considere válida debe cumplir que:
Su tamaño sea proporcional al tamaño de la población.
No haya distorsión en la elección de los elementos de la muestra.
Sea representativa.
Un estudio exhaustivo cuyos datos se utilizan para muchos trabajos e investigaciones es el Cen-
so 1 de Población. Requiere un gran esfuerzo tanto económico como de medios y en él se recaba
información de todos los habitantes de un país. Sin embargo, para el conocimiento de algunas
características de la población, se utilizan métodos alternativos que reducen el costo y el tiem-
po. Los modelos reducidos de la población, constituidos por las muestras, tienen como finalidad
obtener resultados que puedan ser aplicables (extrapolables) a la población.
Las principales razones que inducen a tomar muestras son:
a) El costo temporal. Estudiar una población de tamaño considerable exige una dedicación
de tiempo que retrasaría enormemente las investigaciones en marcha y prolongaría en
exceso la realización de los estudios. A veces, esto último podría entrar además en con-
flicto con el carácter vivo, cambiante, en continua evolución de las realidades que ocupan
el interés de los investigadores en el campo de las ciencias sociales, cuyo estudio desde
una perspectiva sincrónica, requiere la concreción en segmentos temporales limitados.
Por ejemplo, si queremos saber cómo ha afectado a la intención de voto de los españoles
1
Se da el nombre de censo a la enumeración y anotación de ciertas características de todos los elementos de una
población.
100 A Muestreo
determinadas declaraciones de un destacado líder político no disponemos de un tiempo

indefinido, porque otros hechos o declaraciones posteriores influirían en las opiniones
y tendencias de la población. En este caso, sería necesario recurrir a un muestreo que
permita abordar el estudio con un bajo coste temporal.
b) El costo económico. La inversión en recursos temporales y humanos necesaria para abor-

dar algunos problemas de investigación sería elevada si pretendiéramos abarcar a la pobla-
ción. La recogida de los datos que posteriormente van a ser analizados estadísticamente
requiere desplegar estrategias que exigen disponer de recursos. El envío de cuestionarios
por correo, la realización de entrevistas por parte de personas especializadas, el desplaza-
miento de observadores a los lugares estudiados, etc., suponen un coste económico que
queda reducido si nos limitamos al estudio de una muestra extraída de la población.
c) El impacto sobre la realidad estudiada. Cuando el estudio realizado pudiera provocar

efectos en los sujetos, parece adecuado limitar la realización de experimentos a ámbitos
reducidos. Por ejemplo, la medición de los resultados de un nuevo método de aprendizaje
de la lectura habría de hacerse sobre un número reducido de alumnos, sin extender a
toda la población la nueva metodología hasta no confirmar los resultados positivos de la
misma.
d) Una población homogénea. Si la población es homogénea se pueden obtener muy bue-

nos resultados a partir de cualquier muestra.
e) La falta de personal. Si no se dispone de suficiente personal preparado para llevar a cabo

un estudio exhaustivo, también resulta aconsejables hacer un muestreo.
Los pasos a seguir para la recolección de una muestra son los siguientes:
Definir la población en estudio especificando las unidades que la componen, el área

geográfica donde se realiza el estudio (si procede) y el periodo de tiempo en el que se
realizará el mismo.
Definir el marco: listado o descripción de los elementos que forman la población.
Definir la unidad de muestreo: Ciudades, calles, hogares, individuos, etc . . .
Definir las variables a medir o las preguntas que se harán si se trata de una encuesta.
Seleccionar el método de muestreo: Probabilístico o no Probabilístico, aunque son los

primeros los que nos permiten la estimación correcta de parámetros.
Calcular el tamaño necesario para obtener una determinada precisión en la esti-

mación. Este punto se verá con más detalle en el apartado dedicado a la estimación por
intervalos.
A.2 Tipos de muestreo 101
Elaborar el plan de muestreo que guiará el trabajo de campo.
Por otro lado, el uso del muestreo presenta limitaciones, entre estas destacamos:
a) El riesgo que supone la toma de una muestra que pueda no ser representativa.
b) Cuando es necesaria información de todos los elementos de la población.
c) Cuando no se domina bien la técnica de muestreo.
d) Cuando la población esté formada por un número muy pequeño de elementos, ya que una
ligera equivocación en la toma de la muestra puede originar grandes errores.
Para el investigador tienen especial interés las muestras en la medida en que permiten genera-
lizar los resultados de un estudio a las poblaciones de las que fueron extraídas. Para que ello
sea posible es necesario que el muestreo se realice siguiendo determinados procedimientos que
garanticen la representatividad de la muestra y, por tanto, las posibilidades de generalización.
A.2. Tipos de muestreo

El objetivo de los métodos de muestreo es que la muestra represente a la población de la
mejor manera posible.
En cuanto al tipo de muestreo, algunas de las características más importantes de los muestreos
probabilísticos más usuales se detallan a continuación:
A.2.1. Muestreo aleatorio simple (MAS)

Se denomina muestreo aleatorio simple a aquel en que todos los elementos de la población
tienen la misma probabilidad de formar parte de la muestra y ésta es determinada únicamente
por el azar. Se trata de un tipo de muestreo probabilístico que permite con facilidad llevar a cabo
inferencias estadísticas y calcular la probabilidad de error asociada a las mismas.
En el muestreo aleatorio simple con reemplazamiento, todas las unidades poblacionales tie-
nen la misma probabilidad de pertenecer a la muestra, pudiendo medirse varias veces el mismo
individuo. Las variables aleatorias que componen una muestra obtenida a través de este proce-
dimiento son independientes e idénticamente distribuidas.
Si la muestra se selecciona con reemplazamiento se habla de muestreo aleatorio con reposi-

ción, también llamado generalmente muestreo aleatorio simple.
102 A Muestreo
Ejemplo A.1. En una urna se tienen 100 bolas: 60 bolas rojas, 25 bolas blancas y 15 bolas
amarillas. Se extraen de la misma (con reemplazamiento) dos de ellas. Para averiguar cuál es
la probabilidad de que la primera bola sea blanca y la segunda roja, se definen los eventos:
A = “sacar la primera bola blanca”.
B = “sacar la segunda bola roja”.
Puesto que hay reemplazamiento, sacar bola blanca y sacar bola roja son sucesos independien-
25 60
tes, con lo cual, P (A ∩ B) = P (A)P (B) = .
100 100
En le muestreo aleatorio simple sin reemplazamiento, igual que en el caso anterior, todos los
individuos tienen idéntica probabilidad de pertenecer a la muestra, pero los individuos no pue-
den seleccionarse varias veces. En este caso, las variables aleatorias que componen la muestra
no son independientes.
Si la muestra se selecciona sin reemplazamiento se habla de muestreo aleatorio sin reposición,

también llamado muestreo irrestrictamente aleatorio.
Ejemplo A.2. En el caso del ejemplo anterior, si se extraen de nuevo dos bolas de la urna pero
esta vez sin reemplazamiento, la probabilidad de extraer primero una bola blanca y luego una
25 60
roja es P (A ∩ B) = P (A)P (B|A) = .
100 99
Concretando, el muestreo aleatorio simple consiste en seleccionar n elementos con o sin re-
emplazamiento de entre los N elementos que componen la población, de tal modo que todas las
muestras de tamaño n que se puedan formar tengan la misma probabilidad de ser elegidas.
Si bien los dos métodos son distintos, cuando el tamaño de la población es infinito o tan
grande que pueda considerarse como infinito, ambos métodos llegan a las mismas conclusio-
n
nes. Si la fracción de muestreo es mayor de 0.1 (se muestrea más del 10 % de la población)
N
la diferencia entre ambos métodos puede ser apreciable, llegando a conclusiones contradictorias
según se aplique un método u otro.
El procedimiento habitual consiste en numerar todos los elementos de la población y se selec-

cionan muestras del tamaño deseado utilizando una tabla de números aleatorios o un programa
de ordenador que proporcione números aleatorios. Las tablas de números aleatorios son tablas
de números colocados de tal forma que no exista ninguna relación entre ellos sea cual sea el
sentido en que los leamos.
Recuérdese que “al azar” no significa “de cualquier manera”, para que el procedimiento de
muestreo sea válido es necesario utilizar correctamente el proceso de generación de números
aleatorios.
Entre las ventajas de este procedimiento esta la compensación de valores altos y bajos con lo
que la muestra tiene una composición similar a la de la población, es además un procedimiento
sencillo y produce estimadores de los parámetros desconocidos próximos a los valores reales
de los mismos.
El principal inconveniente de este tipo de muestreo es que necesita un marco adecuado y

amplio que no siempre es fácil de conseguir y que no contiene información a priori sobre la
población que podría ser útil en la descripción de la misma.
Ejemplo A.3. En el muestreo aleatorio

sin reemplazamiento, el número de muestras de ta-
N
maño n que se pueden formar es: , y, por tanto, la probabilidad de elegir una muestra
n
determinada es:
1 (N − n)! · n!
p= =
N N!
n
La probabilidad de que un elemento determinado de la población forme parte de la muestra
n
viene dada por p = .
N
En efecto:
N −1
Casos favorables n−1 (N − 1)! · (N − n)! · n! n
p= = = = .
Casos posibles N (N − n)! · (n − 1)! · N ! N
n
En la práctica el procedimiento de muestreo aleatorio consiste en extraer al azar los elementos
que constituyen la muestra, obteniendo la muestra unidad a unidad. Para ello, si la población es
finita, se enumeran los elementos de la población desde 1 hasta N , y se extraen a continuación
n elementos usando una urna o un bombo. Este procedimiento, aunque sencillo, requiere tener
unos medios materiales: un bombo o una urna, papeles numerados o bolas numeradas, etc., por
lo que se suelen utilizar otras alternativas como las tablas de números aleatorios o la generación
de números aleatorios con la calculadora.
Ejemplo A.4. Si en una población de 834 individuos deseamos extraer una muestra de 42,
asignaríamos un número a cada uno de los 834 elementos de la población. Para determinar
los 42 elementos de la muestra, marcaríamos un número en la tabla de números aleatorios al
azar y a partir de éste leeríamos en dicha tabla números de tres dígitos en cualquier dirección,
desestimando los que superen 834.
A.2.2. Muestreo aleatorio sistemático

El muestreo aleatorio sistemático resulta ser un procedimiento más cómodo que el muestreo
aleatorio, con o sin reemplazamiento, cuando la población o la muestra que vamos a extraer
104 A Muestreo
son grandes. En lugar de recurrir a papeletas, bolas, tablas de números aleatorios o calculadora,
puede determinarse la muestra eligiendo sistemáticamente, en una relación ordenada de los
individuos de la población, aquellos que se encuentren a una distancia determinada. Suponiendo
que el tamaño de la población es N y que la muestra que queramos extraer constara de n
individuos, procederíamos del siguiente modo:
N
a) Calculamos el coeficiente de elevación, k = .
n
b) Elegimos aleatoriamente un número m comprendido entre 1 y k.
c) Determinamos la muestra sumándole repetidamente k al número,m, elegido.
La muestra estará constituida por los individuos:
m, m + k, m + 2k, m + 3k . . . , m + (n − 1)k.
Para que la muestra conserve el carácter aleatorio, debemos procurar que la ordenación de los
individuos de la población no presente tendencias que hagan recaer la elección sistemática so-
bre unidades que no sean representativas de la heterogeneidad de la población.
La ventaja principal es que es más sencillo y más barato que el muestreo aleatorio simple,
además, se comporta igual si no hay patrones o periodicidades en los datos.
La aparición de patrones desconocidos puede llevar a importantes errores en la estimación de

los parámetros.
Este tipo de muestreo puede utilizarse, por ejemplo, en encuestas telefónicas programadas
mediante ordenador.
Ejemplo A.5. Supongamos que queremos hacer una investigación en una institución de 720
alumnos y alumnas, de los que queremos tomar una muestra de 80 individuos. En primer lugar,
ordenar todos los alumnos y alumnas alfabéticamente sería un buen criterio de ordenación. Sin
embargo, disponer los alumnos situando una tras otra las listas de los alumnos de cada grado,
en las que estos aparezcan por orden de calificaciones, podría llevar a que se seleccionaran
sistemáticamente los alumnos con calificaciones altas y no los de las calificaciones bajas, o
viceversa.
720
Una vez ordenados adecuadamente, calculamos el coeficiente o factor de elevación = 9.
80
Elegimos aleatoriamente un número entre 1 y 9 (tabla de números aleatorios, calculadora, etc.).
Si el número obtenido fuese 6, los individuos seleccionados serían:
6, 15(= 6 + 9), 24(= 6 + 2 × 9), 33(= 6 + 3 × 9), . . . , 717(= 6 + 79 × 9)

Evidentemente, k no suele ser un número entero. Si se desprecian los decimales ocurrirá que
una parte de los sujetos que se encuentran al final de la ordenación pierden toda posibilidad de
ser elegidos. Una solución podría consistir en mantener los decimales del coeficiente k y re-
dondear el resultado de las sumas al número entero más próximo, una vez que se han realizado
todas ellas. Otra sería, sumar alternativamente las cantidades Ent(k) y Ent(k) + 1.
Además del procedimiento que acabamos de exponer, existen otras formas de muestreo que
también se consideran muestreos sistemáticos. Por ejemplo, para elegir una muestra de perso-
nas, podemos seleccionar una o varias letras del abecedario y tomar como muestra todos los
sujetos cuyo apellido comience por esa(s) letra(s).
A.2.3. Muestreo estratificado

Este tipo de muestreo se basa en la especificación de subpoblaciones o estratos conteniendo
elementos parecidos entre sí.
El muestreo estratificado se realiza cuando queremos garantizar cierta representatividad de

la muestra respecto de alguna característica. Para ello, en función de esa característica, di-
vidimos la población de tamaño N en K estratos o subpoblaciones de tamaños respectivos
N1 , N2 , N3 , . . . NK y elegimos de forma aleatoria (mediante sorteo, tablas, procedimientos sis-
temáticos, etc.) submuestras de tamaños n1 , n2 , n3 , . . . nK en cada estrato, asegurándonos de
este modo de que todas las subpoblaciones estarán representadas en la muestra. La muestra to-
tal será la suma de las submuestras elegidas en cada estrato, es decir, n = n1 +n2 +n3 +· · ·+nK .
La composición de la muestra se distribuye entre los distintos estratos mediante un procedi-

miento que recibe el nombre de afijación. Existen principalmente tres tipos de afijación:
a) Uniforme. En la muestra habrá el mismo número de representantes de cada estrato. Es

decir, si existen K estratos y el tamaño de la muestra es n, se extraerán, aproximadamente
n
elementos de cada estrato. Es decir, todos los estratos contribuyen a la muestra con
K
idéntico número de individuos, con independencia de cual sea la importancia numérica
de dicho estrato.
Ejemplo A.6. En una empresa hay seis categorías diferentes de trabajadores, cada una
con un número similar de empleados y con varianzas parecidas para la variable salario.
Si se quiere tomar una muestra de 60 individuos para estudiar el salario promedio de los
60
trabajadores, habría que tomar de cada categoría = 10 trabajadores.
6
b) Proporcional. En la muestra habrá un número de representantes de cada estrato pro-

porcional a su tamaño. Es decir, si un estrato, i, contiene Ni elementos de los N de la
106 A Muestreo
Ni
población, le corresponderá un total de n elementos muestrales.
N
En el muestreo estratificado con afijación proporcional, se respeta la importancia cuanti-

tativa de cada estrato, asignando en la muestra un número de individuos proporcional al
tamaño del estrato en la población.
n1 n2 n3 nK n1 + n2 + n3 + · · · + nK n
= = = ··· = = = .
N1 N2 N3 NK N1 + N2 + N3 + · · · + NK N
Ejemplo A.7. Para realizar un estudio sobre una característica de una población de 1000
habitantes, donde 600 son hombres y 400 mujeres, suponiendo que la varianza de dicha
característica sea similar para ambos sexos, se debería tomar la muestra de manera que
se mantuviera esa proporción, es decir, que el 60 % de la muestra fuesen hombres y el
40 % fuesen mujeres.
c) Óptima. La asignación de unidades muestrales se hace teniendo en cuenta tanto el tama-

ño de los estratos como su variabilidad, de forma que, un estrato más heterogéneo necesita
de más unidades muestrales, mientras que uno más homogéneo se explica con un menor
número relativo de elementos de la muestra. Es decir, cuando la contribución de cada
estrato se determina a partir de parámetros ya conocidos de la población. Así, si σi re-
presenta la desviación estándar del estrato i-ésimo, la asignación de unidades muestrales
σi Ni
para dicho estrato vendrá dada por ni = n K .
P
σj Nj
j=1
Ejemplo A.8. Se quiere realizar un estudio sobre el tiempo dedicado a la lectura a la

semana en una población de 1000 habitantes. La siguiente tabla refleja los porcentajes y
desviaciones estándar de los grupos en los que se divide la población.
Grupo Edades fi σi
1 <18 0.25 0.1
2 19 - 35 0.40 0.3
3 36 - 55 0.20 0.5
4 >55 0.15 0.1
Tabla A-1.:
Se decide tomar una muestra de 600 habitantes, de manera que de cada grupo, dado que
4
P
σi Ni = 260, habrá que tomar:
i=1
250 × 0,1
n1 = 600 = 60
260
400 × 0,3
n2 = 600 = 276
260
200 × 0,5
n3 = 600 = 228
260
150 × 0,1
n1 = 600 = 36
260
Como propiedad a destacar, hay que señalar que el muestreo estratificado permite un estudio
diferenciado para cada estrato.
En el muestreo estratificado se divide la población en grupos homogéneos (estratos) de acuer-

do con las características a estudiar. Por ejemplo, en un estudio de las características socioeco-
nómicas de una ciudad los estratos pueden ser los barrios de la misma, ya que los barrios suelen
presentar características diferenciales.
Se selecciona una muestra aleatoria de cada estrato tratando de que todos los estratos de la
población queden representados.
El muestreo estratificado permite utilizar información a priori sobre la estructura de la pobla-

ción en relación con las variables a estudiar.
Ejemplo A.9. Se desea extraer una muestra de 60 alumnos y alumnas de un centro escolar en
el que hay 500 matriculados, de los que 300 son niños y 200 son niñas, para estimar la estatura
media.
Si se utiliza un muestreo estratificado de afijación uniforme deberíamos seleccionar 30
niños y 30 niñas.
Si se utiliza un muestreo estratificado de asignación proporcional deberíamos escoger 36

niños y 24 niñas.
Si conocemos la variabilidad de la característica considerada, y sabemos que la varianza

en el caso de los alumnos es de 15 cm y en las alumnas 5 cm, la proporción de alumnos
a alumnas sería de 3 : 1, y usando un muestreo estratificado de asignación óptima, los
tamaños de las submuestras deberían ser de 45 niños y 15 niñas.
Lógicamente, el menos recomendable de los tres tipos de muestreo estratificado es el de
asignación uniforme, ya que asigna el mismo tamaño a cada estrato, y como consecuencia se
favorece a los estratos de menor tamaño y perjudica a los grandes, en cuanto a la precisión de
los resultados que obtengamos.
108 A Muestreo
A.2.4. Muestreo por áreas o conglomerados

El muestreo por conglomerados se utiliza cuando las unidades de la población presentan
alguna forma de agrupamiento, que permite elegir grupos en lugar de individuos físicamente
próximos entre ellos. De esta forma, el acceso a la muestra queda facilitado considerablemente,
al quedar reunidos en una serie de grupos los individuos que la constituyen. Al realizar el mues-
treo, seleccionaríamos aleatoriamente una serie de grupos o conglomerados, tratando de reunir
el número total de individuos que pretendemos incluir en la muestra. Los conglomerados deben
ser lo más representativos posible de la población, es decir, deben representar la heterogeneidad
de la población del estudio y ser entre sí homogéneos.
Este procedimiento no requiere construir censos o listados completos de los elementos de la

población, que son sustituidos en este caso por los censos de conglomerados. En realidad, el
muestreo por conglomerados no es más que la aplicación de los muestreos aleatorios con o sin
reemplazamiento, sistemático o estratificado al caso en que la unidad de muestreo no son los
individuos sino los grupos de individuos. Usando este procedimiento se evita la dispersión de
unidades a la que conducen otros tipos de muestreo, y se reducen los costos y el tiempo de un
trabajo de recogida de datos.
Cuando los conglomerados se corresponden con zonas geográficas, y se define el conglo-

merado como un área o parte bien limitada del terreno, se denomina muestreo por áreas. Los
conglomerados que se realizan teniendo en cuenta proximidad geográfica pueden no tener un
significado importante en la población (no responden a una característica real).
Se puede observar que las ideas que subyacen en el muestreo estratificado y por conglome-
rados son opuestas, ya que los elementos de la población que pertenecen al mismo estrato son
homogéneos entre sí y heterogéneos con el resto de los estratos, sin embargo, los conglomera-
dos son homogéneos entre ellos y heterogéneos internamente.
La característica principal del muestreo por áreas es que permite limitar la toma de muestras
a un conjunto de áreas que representen al resto.
Por ejemplo, los conglomerados en un estudio sobre la situación de las mujeres en una deter-
minada zona rural pueden ser los municipios de la zona.
Ejemplo A.10. Se quiere realizar un estudio sobre cuánto gastan las familias colombianas al
año. Para simplificar el problema que supone obtener las listas de toda la población, se eligen
aleatoriamente algunos departamentos como representantes del conjunto de ellos, de las cuales
se obtendrá la muestra deseada.
Se selecciona una muestra de conglomerados al azar y se toma el conglomerado completo o
una muestra del mismo.
Necesitan menos información previa sobre los individuos particulares.
Si el número de bloques no es muy grande se puede incurrir en errores de estimación si se

han incluido conglomerados atípicos.
Ejemplo A.11. Si queremos hacer un estudio sobre la influencia de un determinado alimento
en el engorde de cerdos criados en granjas, podemos seleccionar aleatoriamente las granjas y
luego dentro de ellas estudiar los pesos de los cerdos, bien de todos los cerdos de cada granja
o de una muestra representativa de la población de cerdos de la misma.
A.2.5. Muestreo polietápico

En el muestreo polietápico las unidades que finalmente componen la muestra se determinan
en etapas sucesivas. Se trata de un caso particular del muestreo por conglomerados, en el que
la unidad final no son los conglomerados sino subdivisiones de éstos. Por tanto, será interesan-
te aplicarlo cuando los conglomerados contengan un elevado número de individuos y resulte
aconsejable hacer una selección entre ellos.
Si únicamente desarrollamos dos etapas, muestreo bietápico, el procedimiento consistiría

en la selección de los conglomerados en la primera etapa, y la selección de los individuos en la
segunda. En este se suele partir de una muestra grande que permita reconocer las características
más acentuadas de la población, con el objeto de poder definir un diseño más fino, etc.
No obstante, el muestreo polietápico puede extenderse a más de dos etapas dando lugar a
una selección sucesiva de unidades cada vez menores, que están jerarquizadas de tal modo que
la unidades de la primera etapa son divisibles en unidades de la segunda etapa, éstas a su vez
en unidades de la tercera etapa, y así hasta alcanzar las unidades que finalmente constituirán la
muestra. Estas unidades finales no necesariamente han de ser los individuos.
En cada etapa, la selección de las unidades podrá hacerse siguiendo procedimientos de mues-
treo aleatorio, sistemático o estratificado.
Ejemplo A.12. En el ejemplo anterior referido al estudio sobre la influencia de un determinado
pienso en el engorde de cerdos, supongamos que el estudio se realiza a nivel de toda Colom-
bia. Entonces, en una primera etapa, podríamos seleccionar de forma aleatoria una serie de
departamentos; en segundo lugar, en cada uno de los departamentos seleccionar también alea-
toriamente algunos municipios (bien delimitados); posteriormente, dentro de cada municipio
elegir al azar un grupo de granjas; y finalmente, en cada una de ellas estudiar todos los cerdos
o una muestra de ellos elegida adecuadamente.
110 A Muestreo
A.3. Muestreos no probabilísticos
A.3.1. Muestreo intencional u opinático

En el muestreo intencional u opinático la representatividad depende de la intención u opinión
de la persona que selecciona la muestra, y que, según su criterio, procura que sea representativa.
Por tanto, la evaluación de la representatividad es subjetiva. En este caso, la composición de
la muestra puede estar influida por las preferencias o tendencias, aun las inconscientes, del
individuo que la obtiene, y no sólo por factores objetivos que son los que deben tenerse en
cuenta de modo riguroso, como ocurre en el muestreo probabilístico.
Ejemplo A.13. Se pretende hacer una encuesta en una institución, entre los alumnos de 9o
(noveno grado), para saber la modalidad de bachillerato que seguirán los que continúen estu-
diando en décimo grado. El coordinador pregunta a unos cuantos alumnos de cada grupo de
9o , con el único criterio de que piensa que esos seguirán estudiando en la institución.
Este tipo de muestreo carece, pues, de una base teórica satisfactoria a pesar de lo cual su uso
está bastante generalizado, especialmente el llamado muestreo por cuotas.
A.3.2. Muestreo por cuotas

En el muestreo por cuotas, el investigador establece estratos de la población, determina el
número de individuos a seleccionar en cada uno de ellos y elige intencionadamente individuos
para completar las cuotas establecidas. Se asemeja al muestreo por estratos en cuanto que supo-
ne un conocimiento previo de la población, que permite diferenciar segmentos o estratos dentro
de la misma, pero se distancia de aquel por el hecho de que aquí los individuos que constituyen
la cuota aportada a la muestra por cada estrato no son determinados aleatoriamente, sino en fun-
ción de otros criterios (accesibilidad, comodidad, economía, etc.). La única condición impuesta
es que los individuos cumplan los requisitos fijados en las cuotas.
Ejemplo A.14. El agente visitador o entrevistador recoge información de personas o familias

en número proporcional al de las que cumplen determinadas condiciones en la población, y
puede elegirlas a su arbitrio dentro de grupos establecidos por sexo, edad o ciertos niveles
socioeconómicos. Así, se podría fijar que el 15 % de la muestra ha de constar de mujeres que
tengan menos de 40 años, sean de clase media y habiten en determinado barrio, y esta sería la
única condición para seleccionar este 15 % de la muestra.
El muestreo por cuotas no es un muestreo probabilístico, y por tanto, no permite llevar a cabo
estimaciones rigurosas en las que podamos calibrar el error cometido.
A.3 Muestreos no probabilísticos 111
A.3.3. Muestreo incidental

En el muestreo incidental el investigador determina deliberadamente qué individuos formarán
parte de la muestra, tratando de recoger a los casos considerados típicamente representativos de
la población. Los criterios de elección suelen basarse generalmente en el conocimiento teórico
sobre el tema de estudio. Pero, en definitiva, a pesar de la posible buena intención y conoci-
miento del tema y de la población que tenga el investigador, la muestra no servirá para hacer
inferencias a toda la población ya que siempre cabe que pueda estar distorsionada por tenden-
cias o preferencias subconscientes o inconscientes del investigador.
Ejemplo A.15. Para estimar el problema de absentismo escolar, un investigador puede selec-
cionar los alumnos de un centro situado en una zona de trabajadores agrícolas temporeros que
han de desplazarse en determinadas épocas del año, los alumnos de un centro situado en una
barriada marginal de una gran ciudad y los de un centro residencial, dado que por su conoci-
miento teórico del problema sabe que éstos representan los diferentes tipos de comportamientos
en relación con la asistencia a clase.
A.3.4. Muestreo accidental

En el muestreo accidental, también llamado sin norma, circunstancial o errático, se selec-
cionan determinados individuos o grupos de individuos sin que exista ningún criterio aparente.
La muestra se toma de cualquier manera, a la aventura, por razones de comodidad o por las
circunstancias que rodean al proceso o a capricho. Este tipo de muestreo se considera el más
alejado de la posibilidad de generalizar a la población los resultados obtenidos.
Sólo si la población es homogénea la representatividad de la muestra puede ser satisfactoria.

A veces la uniformidad puede sustituirse por una buena mezcla antes de tomar muestras, como
en el caso de los avisos “agítese antes de usar”, o bien cuando se barajan los naipes o se hacen
girar las bolas dentro de un bombo.
Ejemplo A.16. Estas muestras se emplean a menudo en la vida corriente, por ejemplo, en el
comercio cuando se supone que un trozo de tela o un sorbo de vino, representa bien a los artícu-
los completos. Por otra parte, influye en la adopción de este procedimiento en estas cuestiones
de la realidad cotidiana el hecho de que, en caso de equivocación, las consecuencias no serían
demasiado graves.

Inferencia Estadistica

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Inferencia Estadistica

Încărcat de

Drepturi de autor:

Formate disponibile

Notas de Clase

Elías José Salazar Buelvas

1. ESTADÍSTICOS Y DISTRIBUCIONES MUESTRALES 6

2.3.2. Estimador insesgado . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

3. ESTIMACIÓN POR INTERVALOS DE CONFIANZA 186

4. CONTRASTE DE HIPÓTESIS 261

A.3.2. Muestreo por cuotas . . . . . . . . . . . . . . . . . . . . . . . . . . . 318

El primer concepto importante es el de población, que es un conjunto homogéneo de indi-

La muestra se obtiene por observación o experimentación. La necesidad de obtener un sub-

En otras ocasiones un censo es imposible, porque la población resulta inaccesible, o la toma

Llamaremos tamaño muestral al número de elementos que componen la muestra.

Si X1 , X2 , . . . , Xn es una muestra aleatoria de una población con función de densidad de

3. Supongamos que se lanza un dado en reiteradas ocasiones, y anotamos el valor de la ca-

En general, trataremos con poblaciones infinitas, entendiendo que en la práctica “población

1.2. Clasificación de los procedimientos inferenciales

1. Inferencia paramétrica. Es aquella en la que se admite que la distribución de la po-

En algunos casos no es necesario especificar tales distribuciones y las inferencias se hacen

2. Inferencia no paramétrica. No supone ninguna distribución de probabilidad de la po-

(Mediana, Estadísticos de Orden, etc.). A su vez los procedimientos no paramétricos se

1. Enfoque clásico o frecuentista. En el cual los parámetros de la distribución de probabi-

2. Enfoque bayesiano. Considera a los parámetros como variables aleatorias, permitiendo

1.3. Naturaleza de la información extraída de la

Cuando se plantea realizar un estudio inferencial se debe realizar un diseño muestral.

Una muestra de tamaño n será denotada por X1 , X2 , . . . , Xn . Cada Xi , con i = 1, 2, . . . , n,

1.4. Razones que justifican un estudio inferencial

1. Por motivos presupuestarios. La realización de un estudio a través de muestras supone

Finalmente, insistir en la importancia de la inferencia estadística como disciplina fundamental

1.5. Estadísticos y distribuciones muestrales

Tanto en el caso de muestreo estratificado como en el de áreas y en cualquier otro muestreo

Al ser las variables aleatorias X1 , X2 , . . . , Xn , independientes, resulta que si la población de

entonces la función de probabilidad de la muestra será:

Es decir, una variable aleatoria multivariante cuya función de densidad de probabilidad es el

Una vez obtenida la muestra la describimos en términos de algunas de sus características

1.5.1. Parámetros poblacionales y estadísticos muestrales

En la mayoría de los modelos probabilísticos nos encontraremos parámetros cuyos valores

Un estadístico T (X1 , X2 , . . . , Xn ), es una función de las variables muestrales que no de-

Cualquier inferencia o conclusión obtenida de la población, necesariamente, estará basada en

Formalmente, dada una muestra aleatoria simple X1 , X2 , . . . , Xn de la variable aleatoria X,

No toda función de X1 , X2 , . . . , Xn será un buen estimador de un parámetro desconocido.

Dada una muestra aleatoria simple X1 , X2 , . . . , Xn de la variable aleatoria X y un estimador

Para una realización particular de la muestra x1 , x2 , . . . , xn se obtiene un valor específico del

es una variable aleatoria de la que tenemos una sola observación

Continuando con la población de función de distribución F (x, θ), donde θ es un parámetro

En general, un estadístico T lo representaremos como:

Definición 1.2. A la distribución de un estadístico calculado a partir de los valores tomados de

La distribución muestral de un estadístico se define como la función de probabilidad (o fun-

Formaremos muestras de tamaño 2 recurriendo a dos vías diferentes:

Así habremos construido una distribución muestral empírica.

Conociendo ésta distribución muestral teórica, se tiene que la probabilidad de obtener el

Como afirmábamos anteriormente, la distribución muestral empírica de un estadístico se apro-

Veamos someramente otro ejemplo.

c) El conjunto de muestras de tamaño 2 de la población P tiene 16 elementos diferentes.

Tabla 1-5.: Medias de las muestras de tamaño 2.

La información que da la tabla anterior se puede organizar en una tabla de distribución de

Tabla 1-6.: Distribución de medias muestrales (n = 2)

Hemos construido la distribución muestral de medias de tamaño 2. Esa distribución, igual

d) El conjunto de muestras de tamaño 3 de la población P tiene 64 elementos diferentes. Y

Tabla 1-7.: Distribución de medias muestrales (n = 3)

Así hemos construido la distribución muestral de medias de tamaño 3.

Tabla 1-8.: Distribución de medias muestrales (n = 4)

Tamaño Media Desviación Estándar

Figura 1-1.: Distribución de la población.

1 1.5 2 2.5 3 3.5 4 5