Curso de Probabilidad y Estadistica

Notas1: Curso de Probabilidad y Estadı́stica
Antonio Murillo Salas

Departamento de Matemáticas
Universidad de Guanajuato
amurillos@ugto.mx
Erick Alberto Cecilio Ayala

Coordinación de Servicios Tecnológicos
Centro de Investigación en Matemáticas
erick@cimat.mx
20 de mayo de 2015
1 Versión preliminar. No distribuirlas.

Índice general
1. Estimación de parámetros 2
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Distribución Normal y el Teorema del Lı́mite Central . . . . . . . . . . . 4
1.2.1. Distribución de la media muestral . . . . . . . . . . . . . . . . . . 4
1.2.2. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3. Teorema del Lı́mite Central . . . . . . . . . . . . . . . . . . . . . 11
1.3. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.2. Otros métodos de muestreo . . . . . . . . . . . . . . . . . . . . . 17
1.4. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5. Estimadores y estimaciones . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.1. Estimaciones puntuales e intervalos de confianza . . . . . . . . . . 19
1.6. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2. Pruebas de hipótesis 39
2.1. Hipótesis y pruebas estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . 39
2.2. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3. Pruebas unilaterales y bilaterales . . . . . . . . . . . . . . . . . . . . . . 45
2.3.1. Estadı́sticos de Prueba . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
A. Tablas de Distribuciones 54
1
Capı́tulo 1
Estimación de parámetros
En el núcleo de la Estadı́stica se encuentran las ideas de inferencia, que tiene por

objetivo obtener conclusiones sobre como se comporta una población, sin que para esto
tengamos que analizar el 100 % de los elementos de esta población, sino analizando
solamente una parte de ella (muestra). La siguiente figura ilustra el papel de la Inferencia
Estadı́stica.
Figura 1.1: Inferencia Estadı́stica
1.1. Introducción
Comúnmente estamos interesados en aprender alguna carácterı́stica numérica de
la población, tal como la proporción de elementos de la población que poseen cierta
carácterı́stica establecida (por ejemplo, la proporción de mujeres en el salón de clases),
la media y desviación estándar de la población, o alguna otra medida central o de varia-
ción.
Definición 1.1.1 Un parámetro es una caracterı́stica numérica de una población.
El valor verdadero de un parámetro de una población es una constante desconocida. Se
puede determinar correctamente al realizar un estudio completo de la población. Mientras
2
que un parámetro se refiere a una caracterı́stica numérica de la población, una cantidad
basada en la muestra se denomina estadı́stico.
Definición 1.1.2 Un estadı́stico es una función numérica valuada en las observacio-

nes de la muestra.
Por ejemplo, la media muestral

X1 + · · · + Xn
X=
n
es un estadı́stico porque es un valor numérico que puede ser calculado desde los datos
muestrales, cuando los valores X1 , . . . , Xn , están disponibles. De igual forma, la media-
na muestral y la desviación estándar muestral son cantidades basadas en la muestra,
entonces cada una de ellas es un estadı́stico. Nótese que cada estadı́stico es una varia-
ble aleatoria, pues, cada vez que se obtiene una muestra de una población estos valores
frecuentemente diferı́ran para cada muestra. Comenzamos modelando la población con
una distribución de probabilidad la cual tiene una caracterı́stica numérica de interés de-
nominada como parámetro. Una muestra aleatoria de la población proveerá información
acerca del parámetro, más aún, cuando queremos hacer generalizaciones acerca de la
población con sólo esa información a esto lo llamaremos inferencias estadı́sticas o sólo
inferencias La siguiente figura describe el proceso de la inferencia estadı́stica
Figura 1.2: Proceso de inferir
Definición 1.1.3 La inferencia estadı́stica trata de obtener conclusiones sobre los

parámetros poblacionales a partir de un análisis de los datos de la muestra.
3
1.2. Distribución Normal y el Teorema del Lı́mite
Central
1.2.1. Distribución de la media muestral
La inferencia estadı́stica sobre la media poblacional es de importancia práctica pri-
mordial. Las inferencias acerca de este parámetro se basan en la media de la muestra
X1 + X 2 + · · · + Xn
X=
n
y su distribución. Consecuentemente, exploraremos las propiedades básicas de la distri-
bución muestral de X y explicaremos el rol de la distribución normal como una apro-
ximación útil. La distribución muestral de X tiene una media E(X) y una desviación
estándar sd(X). Estos pueden expresarse en términos de la media poblacional µ y una
desviación estándar σ. (NOTA: La demostración de éstas igualdades se verán en el curso
y otras se dejarán como tarea)
E(X) = µ (= Media Poblacional)
σ2

Varianza Poblacional
V ar(X) = =
n Tamaño de la muestra

σ Desviación Estándar Poblacional
sd(X) = √ = √
n Tamaño de la muestra
El primer resultado muestra que la distribución de X se centra en la media de la
población µ en el sentido de que la esperanza sirve como una medida de centro de una
distribución.
El último resultado indica que la desviación estándar de X es igual a la desviación
estándar de la población dividida por la raı́z cuadrada del tamaño de muestra. Es decir,
la variabilidad de la media de la muestra se rige por los dos factores: la variabilidad de
la población σ y el tamaño de la muestra n. Gran variabilidad en la población induce
una gran variabilidad en X lo que la información de la muestra sobre µ es menos fiable.
Sin embargo, esto puede ser contrarrestado por la√elección de un n grande. Por ejemplo,
con n = 100, la desviación estándar de X es σ/ 100 = σ/10, una décima parte de la
desviación estándar
√ de la población. Al aumentar el tamaño de la muestra, la desviación
estándar σ/ n disminuye y la distribución de X tiende a concentrarse más en torno a
la media de la población µ. Conozcamos ahora un poco más de la distribución Normal.
4
1.2.2. Distribución Normal
Se llama distribución normal, distribución de Gauss o distribución gaussiana, a
una de las distribuciones de probabilidad de variable continua que con más frecuencia
aparece aproximada en fenómenos reales.
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto
de un determinado parámetro estadı́stico (en nuestro caso en su media µ). Esta curva se
conoce como campana de Gauss y es el gráfico de una función gaussiana. Su función de
densidad está definida como
1 (x−µ)2
f (x; µ, σ) = √ e− 2σ2 , x∈R (1.1)
σ 2π
La gráfica que se muestra a continuación es la forma que tiene una función como la (1.1),
donde se muestra el porcentaje de área que está entre cada marca indicada
Si X es una variable aleatoria normal, es decir, si X tiene la densidad f (x; µ, σ) definida

en (1.1), entonces la distribución normal estándar es la función Φ(x) definida por
Φ(a) = P [X ≤ a] , a ∈ R, (1.2)
y es numéricamente igual al área bajo la curva de densidad f (x; µ, σ) que está a la

izquierda del punto a, como se muestra en la figura 1.3.
En particular, como el área total bajo f (x; µ, σ) es 1, de la simetrı́a de f se siguen que
5
Figura 1.3: Φ(a) = P [X ≤ a] = área bajo la curva f a la izquierda de a
el área a la izquierda de 0 es 1/2, o sea,
Φ(0) = P [X ≤ 0] = 1/2. (1.3)
La importancia de esta distribución radica en que permite modelar numerosos fenómenos

naturales, sociales y psicológicos.
Propiedades
Algunas propiedades de la distribución normal son:
1. Es simétrica respecto de su media, µ;
2. La moda y la mediana son ambas iguales a la media, µ;
3. Si X ∼ N (µ, σ 2 ) y a y b son números reales, entonces (aX + b) ∼ N (aµ + b, a2 σ 2 ).

2
4. Si X ∼ N (µX , σX ) e Y ∼ N (µY , σY2 ) son variables aleatorias normales indepen-
dientes, entonces:
2
• Su suma está normalmente distribuida con U = X +Y ∼ N (µX +µY , σX +σY2 ).
Recı́procamente, si dos variables aleatorias independientes tienen una suma
normalmente distribuida, deben ser normales (Teorema de Crámer ).
2
• Su diferencia está normalmente distribuida con V = X −Y ∼ N (µX −µY , σX +
2
σY ).
• Si las varianzas de X e Y son iguales, entonces U y V son independientes
entre sı́.
6
Uso de la tabla normal
Ası́ pues, para calcular la probabilidad de que una variable aleatoria X con distribu-
ción normal estándar tome valores en un cierto intervalo, basta medir el área que está,
sobre ese intervalo, abajo de la curva normal. Sin embargo, esto no es tan sencillo; ni
siquiera usando integración es posible calcular directamente esa área. Afortunadamente,
usando métodos numéricos se han elaborado tablas con valores aproximados de dichas
áreas, como en la “tabla de Distribución Normal Estándar” del Anexo. En esa tabla se
dan únicamente las áreas entre 0 y valores positivos de x, o sea,
P [0 ≤ X ≤ x] = Φ(x) − Φ(0).
Sabemos que esto es suficiente por la simetrı́a de la curva normal. En la primera columna
de esa tabla se dan algunos valores de x para aquellos casos en que sea necesaria una
mejor aproximación.
Ejemplo:
Sea X una variable normal estándar. Calcular la probabilidad de que,
(a) X esté entre cero y 1.1.
(b) X esté entre cero y 1.17.
(c) X sea menor o igual que 1.1.
(d) X sea menor o igual que 1.17.
(e) X sea mayor que -1.57.
(f) |X| sea mayor que 1.3.
Solución:
(a) El área que se está buscando es
Que es equivalente a decir P [0 ≤ X ≤ 1.1]; del renglón 1.1 y la columna 0.00 en la

“tabla de la normal”, vemos que
P [0 ≤ X ≤ 1.1] = 0.3643 = Φ(1.1) − Φ(0).
7
(b) En este caso lo que se busca es
De la misma forma que el inciso anterior, esto es equivalente a decir P [0 ≤ X ≤ 1.17];

luego, del renglón 1.1 y la columna 0.07 en la “tabla de la normal”, vemos que
P [0 ≤ X ≤ 1.17] = 0.3790 = Φ(1.17) − Φ(0).
(c) Ahora lo que se busca es
Esto es equivalente a decir P [X ≤ 1.1]; además, por (1.3), es claro que
P [X ≤ 1.1] = P [X ≤ 0] + P [0 ≤ X ≤ 1.1]
= 0.5000 + 0.3643 = 0.8643.
(d) En este caso es similar al caso anterior, esto es
P [X ≤ 1.17] = P [X ≤ 0] + P [0 ≤ X ≤ 1.17]
= 0.5000 + 0.3790 = 0.8790.
(e) Vemos ahora que lo que se busca es
Esto es
P [X > −1.57] = P [0 ≤ X ≤ 1.57] + 1/2 (explique)

= 0.4418 + 0.5000 = 0.9418.
8
(f) En este último inciso el área buscada es
Luego
P [|X| > 1.3] = P [X > 1.3] + P [X < −1.3]

= 2P [X > 1.3] (explique)
= 2 (1/2 − P [0 ≤ X ≤ 1.3]) (explique)
= 0.1936 (explique)
Estandarización
Hasta el momento hemos visto la densidad normal estándar, es decir, que tiene media
µ = 0 y varianza σ 2 = 1. En la mayorı́a de las aplicaciones, sin embargo, es necesario con-
siderar variables aleatorias distribuidas normalmente con media µ y varianza σ 2 (σ 2 > 0)
arbitrarias. A continuación se muestran distintas distribuciones normales con diferentes
valores para la media y desviación estándar σ
9
como podemos observar, la media nos dá el centro de cada gráfica, es por eso que µ
se conoce como el parámetro de localización, mientras que σ entre más chico el valor
de éste sea, la gráfica se vé más “delgada” y si es más grande se vé más “apachurrada”,
luego este se conoce como parámetro de escala.
Para indicar que X es una variable aleatoria normal con parámetros µ = E(X) y
D
σ 2 = var(X), escribimos X = N (µ, σ 2 ). En particular, si X es una variable aleatoria
D
estándar, escribimos X = N (0, 1). Por supuesto, ahora deseamos calcular probabilidades
como
P[X ≤ x]
D
en donde X = N (µ, σ 2 ), con µ y σ 2 no necesariamente iguales a 0 y 1 como en el caso
D
estándar. Esto es muy fácil, porque si X = N (µ, σ 2 ), entonces la variable “estandarizada”
(X − µ)/σ es una variable aleatoria normal con media 0 y varianza 1, o sea,
D
X ∗ = (X − µ)/σ = N (0, 1).
Ejemplo:
D
(a) Sea X = N (400, 40000). Calcular la probabilidad de que X sea menor o igual a
800.
D
(b) Sea X = N (10, 4). Calcular el valor de a tal que
P[X ≥ a] = 0.01.
10
Solución:
√
(a) Como σ = 40000 = 200, entonces
P [X ≤ 800] = P [(X − 400)/200 ≤ (800 − 400)/200]

= P [(X − 400)/200 ≤ 2]
= Φ(2).
Luego, de la “tabla normal”,
P [X ≤ 800] = Φ(2) = 1/2 + P [0 ≤ X ∗ ≤ 2]

= 0.5000 + 0.4772 = 0.9772,
D
pues X ∗ = (X − 400)/200 = N (0, 1).
D
(b) Si hacemos X ∗ = (X − 10)/2, entonces X ∗ = N (0, 1) y
0.01 = P[X ≥ a] = P [(X − 10)/2 ≥ (a − 10)/2]

= P [X ∗ ≥ (a − 10)/2]
= 1/2 − P [0 ≤ X ∗ ≤ (a − 10)/2] .
Por lo tanto,
P [0 ≤ X ∗ ≤ (a − 10)/2] = 0.50 − 0.01 = 0.49,
de modo que (de la “tabla normal”) (a − 10)/2 = 2.33 (aprox.), es decir a = 14.66.
C
1.2.3. Teorema del Lı́mite Central

Cuando se muestrea de una población no-normal, la distribución de X depende de
la forma particular de la distribución de la población la cual prevalece. Un resultado
sorprendente, conocido como el Teorema del Lı́mite Central, establece que cuando
el tamaño de la muestra n es grande, la distribución de X es aproximadamente normal,
sin importar la forma de la distribución de la población. En la práctica, la aproximación
normal es ideal cuando n es mayor a 30.
Teorema 1.2.1 (Teorema del Lı́mite Central) Si la población tiene una distribución con
media µ y varianza σ 2 , entonces la media muestral X (de muestras aleatorias de tamaño
n), tiene aproximadamente una distribución normal con media µ y varianza σ 2 /n, es
decir,
D
X = N (µ, σ 2 /n) (1.4)
aproximadamente, para valores grandes de n.
11
La ecuación (1.4) del resultado anterior, tiene varias conotaciones diferentes algunas de
ellas son:
(1)
X −µ
Z= √ es aproximadamente N (0, 1)
σ/ n
(2) Para cada x,

X1 + · · · + Xn − nµ
P √ ≤ x ∼ Φ(x)
σ n
en donde Φ(x) es la distribución normal estándar.
(3) Definimos
√

X −µ
Un = n
σ
Entonces la función de distribución Un converge a una función de distribución

normal estándar cuando n → ∞.
Ejemplo 1.2.2 Supongamos que en individuos con presión sanguı́nea alta, es igualmen-
te probable que después de un cierto periodo de tiempo, la presión le haya bajado o no
ligeramente. Por otro lado se ha comprobado que en individuos con presión sanguı́nea
alta, que se encuentren bajo el efecto de un cierto medicamento H, la presión disminu-
ye en el 80 % de los casos. Consideremos una muestra de 200 individuos con presión
sanguı́nea alta:
(a) Si suponemos que no están afectados por ningún medicamento, calcula la pro-
babilidad de que le baje la presión a más de 90 individuos.
Solución:
Puesto que estamos bajo el supuesto de que no están afectados por ningún medi-
camento, entonces la probabilidad de le sube o baje la presión a un individuo es
p = 0.5, tenemos una muestra de tamaño n = 200. En este caso, estamos tra-
tando con una distribución binomial (Bin(n = 200, p = 0.5)), y lo que se busca
es
200
X
P(X ≥ 90) = (0.5)x (0.5)200−x
x=90
90
X
= 1− (0.5)x (0.5)200−x
x=1
= 0.9313
12
Figura 1.4: Probabilidad de X ≥ 90
Existe un problema en este caso, pues cualquiera de la dos opciones para calcular
la probabilidad deseada se tiene que realizar 110 o 90 sumas respectivamente, lo
cual es poco práctico; en este caso el resultado de 0.9313 es el resultado exacto
de la sumatoria. Ahora utilizaremos el Teorema del Lı́mite Central, para dar una
aproximación al resultado anterior, tenemos que X es una variable binomial con
parámetros n = 200 y p = 0.5; además, X tiene media y desviación estándar:
√ p √
µ = np = 100, σ = npq = 200(0.25) = 50.
Luego, lo que deseamos encontrar estará dado por:

√
P(X ≥ 90) ≈ P(X ∗ ≥ (90 − 100)/ 50)
= P(X ∗ ≥ −10/7.07)
= P(X ∗ ≥ −1.4144)
en donde X ∗ = (X − µ)/σ. De la ”tabla normal”se ve entonces que
P(X ≥ 90) ≈ P(X ∗ ≥ −1.4144)

= 0.9207
(b) Si la muestra se encuentra bajo el efecto de H, calcula la probabilidad de que

baje la presión en más de 172 casos ó en menos de 148.
Solución:
En este caso como la muestra se encuentra bajo el efecto de H, tomaremos como
la probabilidad de éxito (disminuye la presión) p = 0.8. En este caso, estamos
tratando con una distribución binomial (Bin(n = 200, p = 0.8)), y lo que se
13
Figura 1.5: Probabilidad de X < 148 y X > 172
busca es:
P(X < 148) + P(X > 172) = P(X ≤ 147) + P(X ≥ 173)
√ √
≈ P(X ∗ ≤ (147 − 160)/ 32) + P(X ∗ ≥ (173 − 160)/ 32)
= P(X ∗ ≤ −13/5.66) + P(X ∗ ≥ 13/5.66)
= 2 ∗ P(X ∗ ≥ −2.29)
en donde X ∗ = (X − µ)/σ. De la ”tabla normal”se ve entonces que
P(X < 148) + P(X > 172) ≈ 2 ∗ P(X ∗ ≥ −2.29)

= 2 ∗ (0.01101)
= 0.02202
1.3. Muestreo
En las secciones anteriores supusimos que una muestra era dada y calculamos algunos
parámetros (o estadı́sticos) asociados a dicha muestra. En esta sección y las siguientes,
14
que se pueden agrupar bajo el nombre de inferencia estadı́stica, estaremos interesados
en qué conclusiones se pueden obtener acerca de una población a partir de una muestra
daday qué tan confiables son dichas conclusiones.
1.3.1. Muestreo aleatorio

En primer lugar, la información que se obtiene de una población a partir de una
muestra se basa en criterios probabilı́sticos. Consecuentemente las muestras se deben
seleccionar en tal forma que las reglas de la probabilidad sean aplicadas. Para que esto
se cumpla, el muestreo debe ser aleatorio. Esto significa que el muestreo debe satisfacer
las siguientes condiciones:
(a) Cada individuo en la población debe tener una probabilidad conocida de ser se-
leccionado. El caso más simple y más común es cuando dicha probabilidad es la
misma para cada uno de los individuos o elementos de la población. Además,
(b) La muestra debe ser independiente; es decir, cada selección debe ser independiente
de las demás.
Cuando se realiza un muestreo que satisface estas condiciones, se dice entonces que
la muestra obtenida es una muestra aleatoria. En lo que sigue, para abreviar un
poco, eliminaremos el adjetivo “aleatorio” y supondremos que el muestreo realizado y la
muestra obtenida siempre son aleatorios.
Como el único resultado que se obtiene al realizar una investigación es la información,
deberı́amos de obtenerla a un costo mı́nimo. El procedimiento de muestreo afecta la
cantidad de ésta información debido a la medición. Esto, junto con el tamaño n de la
muestra, controla la cantidad total de información relevante en una muestra. En nuestro
caso estaremos interesados en la situación más sencilla de muestreo -el muestreo aleatorio
de una población relativamente grande- y dedicaremos nuestra atención a la selección
del tamaño n de la muestra.
El tamaño de la muestra depende de tres factores:
La variabilidad del parámetro a estudiar (σ 2 ); ésta se puede obtener de datos

previos o estudios pilotos.
Precisión; se refiere a la amplitud del intervalo de confianza (este tema se encuen-

tra más adelante).
15
Nivel de confianza (1 − α); comúnmente se toma 95 % o 99 %. La cual es la
probabilidad complementaria al error admitido (α).
Para encontrar la expresión del tamaño de la muetra cuando se hace estudio sobre la
media, utilizaremos el Teorema del Lı́mite Central, pues, sabemos que
√

X −µ
P n ≤ x ∼ Φ(x)
σ
en donde Φ(x) es la distribución normal estándar. Hacemos E = X − µ, que nos deno-

tará un nivel de “error” en la diferencia entre el promedio que obtengamos de la muestra
y la media poblacional que será desconocida para nosotros, luego, si queremos que el
promedio no se aleje mucho de la media con una probabilidad 1 − α, debemos encontrar
n de tal forma que
√

E
≤ x = 1 − α.
P n
σ
Se toma el valor absoluto porque queremos que esa diferencia entre el promedio y la
media sea en ambos sentidos (la diferencia puede ser negativa o positiva), de aquı́ que,
se tiene que encontrar el valor de “x” de la tabla normal tal que la probabilidad deseada
sea de 1 − α, denotaremos a este x como zα/2 (explique), luego si sabemos el valor de
E que deseamos como el “error”, el nivel de confianza, y la variabilidad, sólo nos resta
encontrar el valor de n en la expresión anterior eso es
√
E n
= zα/2
σ√
E n = σ · zα/2
√ σ · zα/2
n =
E
h σ · z i2
α/2
n =
E
Ejemplo:
Un economista quiere estimar el ingreso medio para el primer año de trabajo de un
colegio. ¿Cuántos de éstos ingresos debe encontrar si quiere estar 95 % seguro que la
media muestral está en $500 de la verdadera media poblacional? Supongamos que un
estudio previo ha revelado que para estos ingresos, se tiene un σ = $6250.
Solución:
Sabemos que el valor zα/2 de la tabla normal es de 1.96 (aprox.), y tenemos que E = 500
16
y σ = 6250. Luego,
2
(6250) · (1.96)
n =
500
2
12250
=
500
= (24.5)2
= 600.25 ≈ 601.
Por lo tanto, si el economista quiere estimar el ingreso medio para el primer año con un
error sobre su estimación de $500 y un nivel de confianza del 95 % entonces tendrá que
tomar una muestra de tamaño de 601. C
Los tamaños de muestra para las distintas estimaciones entonces se pueden resumir:
σ·zα/2 2
n= E
Media
2
(0.25)·zα/2
n= E2
Proporción desconocida
(b 2
pqb)·zα/2
n= E2
Proporción (b
p y qb son conocidos)
Puesto que supusimos que nos encontrabamos en la situación más sencilla de muestreo
el cual es aleatorio de una población relativamente grande las igualdades anteriores son
válidas, se deja al lector la investigación sobre otras configuraciones de muestreo, pues,
existen expresiones para el tamaño de muestra cuando la población es finita, y si el
muestreo es aleatorio o por estratos, etc.
1.3.2. Otros métodos de muestreo

En este apartado, y sólo a nivel de comentario, mencionaremos algunos métodos mo-
dificados. El nombre se debe a que estos métodos se reducen, en última instancia, a un
muestreo simple.
Si se desea conocer el ingreso medio de los habitantes de una ciudad, un muestreo alea-
torio simple podrı́a dar resultados poco apegados a la realidad si es que los ingresos de
las personas son de órdenes demasiado heterogéneos. Una forma de obtener resultados
más reales consiste en hacer un muestreo estratificado. Este tipo de muestreo se basa
en dividir la población en estratos o grupos (económicos, en nuestro ejemplo), y tomar
después muestras aleatorias de cada grupo por separado. Si el tamaño de las muestras
de cada grupo es proporcional al tamaño del grupo, se dice entonces que el muestreo
es un muestreo (estratificado) proporcional. (Este tipo de muestreo se puede justificar
teóricamente usando el teorema de la probabilidad total )
17
En otros casos (como en los censos nacionales) es más conveniente hacer un muestreo
ramificado. En este tipo de muestreo, la región completa de donde se desea tomar la
muestra se divide en regiones más pequeñas de las cuales ya se toma una muestra alea-
toria, o bien, se vuelven a subdividir en regiones todavı́a más pequeñas antes de hacer
el muestreo en sı́.
Combinando estos métodos se obtienen métodos compuestos que pueden ser mejores en
un caso particular. En última instancia, el método que se escoja depende de las facilidades
de realizarlo y, desde luego, el problema que se tenga en mente.
1.4. Estimación de parámetros

En esta sección estudiaremos brevemente uno de los problemas más importantes de
la estadı́stica: la estimación de parámetros.
Ejemplo de una situación en la que se presenta el problema de la estimación de parámetros
es la siguiente:
Ejemplo 1.4.1 La siguiente tabla muestra 106 temperaturas corporales (medidas en gra-
dos Fahrenheit) obtenidas por los investigadores de la Universidad de Maryland.
Temperaturas corporales de 106 adultos saludables

98.6 98.6 98.0 98.0 99.0 98.4 98.4 98.4 98.4 98.6
98.6 98.8 98.6 97.0 97.0 98.8 97.6 97.7 98.8 98.0
98.0 98.3 98.5 97.3 98.7 97.4 98.9 98.6 99.5 97.5
97.3 97.6 98.2 99.6 98.7 99.4 98.2 98.0 98.6 98.6
97.2 98.4 98.6 98.2 98.0 97.8 98.0 98.4 98.6 98.6
97.8 99.0 96.5 97.6 98.0 96.9 97.6 97.1 97.9 98.4
97.3 98.0 97.5 97.6 98.2 98.5 98.8 98.7 97.8 98.0
97.1 97.4 99.4 98.4 98.6 98.4 98.5 98.6 98.3 98.7
98.8 99.1 98.6 97.9 98.8 98.0 98.7 98.5 98.9 98.4
98.6 97.1 97.9 98.8 98.7 97.6 98.2 99.2 97.8 98.0
98.4 97.8 98.4 97.4 98.0 97.0
De los cuales tenemos las siguientes estadı́sticas:
La media de los datos es x = 98.20
La desviación estándar es s = 0.62
El tamaño de la muestra es n = 106.
Si usamos µ = 98.20 como una “estimación” del parámetro µ de la población, se

nos antoja afirmar que aproximadamente la temperatura corporal promedio es de 98.20.
18
Pero, ¿qué significa el “aproximadamente”?¿Queremos decir que la diferencia entre la
media real µ y la estimación µ = 98.20 es de 1o F , o de 10o F , o de 20o F ? Ası́ pues, es
obvia la necesidad de precisar el “grado de confianza” con que se aceptará la estimación
µ. La relación con los grados centı́grados es de acuedo a C = 95 (F − 32).
1.5. Estimadores y estimaciones

Como se ha visto en secciones anteriores la distribución normal está completamente
determinada por los parámetros µ y σ. Esto significa que cualquier propiedad de la dis-
tribución normal depende de estos dos parámetros. Asimismo, la distribución binomial
está determinada por los parámetros n y p.
Consideremos una distribución con un parámetro desconocido θ y supóngase que tene-
mos una fórmula para calcular un valor aproximado θb del parámetro θ a partir de una
muestra x1 , x2 , . . . , xn . (Por ejemplo, si la distribución es normal y se conoce σ 2 , pero µ
es desconocida, entonces podrı́amos pensar que una aproximación de µ es la media de
la muestra: µb = x = n1 (x1 + x2 + · · · + xn )) Es claro que θb depende de los valores de la
muestra y, por lo tanto, podemos escribir
θb = f (x1 , x2 , . . . , xn ), (1.5)
en donde f es una función conocida de x1 , x2 , . . . , xn . (En nuestro ejemplo, la función

f es f (x1 , x2 , . . . , xn ) = n1 (x1 + x2 + · · · + xn ).) Supongamos que x1 , x2 , . . . , xn son los
valores respectivos de n variables aleatorias X1 , X2 , . . . , Xn independientes y con la mis-
ma distribución. Entonces θb = f (x1 , x2 , . . . , xn ) se puede considerar como un valor de la
variable aleatoria
Θ
b = f (X1 , X2 , . . . , Xn ). (1.6)
Esta variable aleatoria es un estimador del parámetro θ, y un valor particular del núme-
ro θb en (1.5) es una estimación de θ.
1.5.1. Estimaciones puntuales e intervalos de confianza

Las estimaciones de parámetros de uso común en estadı́stica son de dos tipos: las
estimaciones puntuales y las estimaciones por intervalos.
Definición 1.5.1 Un estimador es un estadı́stico muestral usado para aproximar un

parámetro de una población. Una estimación es un valor especı́fico o rango de valores
usados para aproximar algún parámetro poblacional.
19
Definición 1.5.2 Un estimador puntual es un valor simple (o punto) usado para
aproximar un parámetro poblacional.
Regresando al ejemplo de las temperaturas corporales, vemos que 98.20◦ es nuestro mejor
estimador puntual de la media poblacional µ, pero no tenemos indicación de qué tan
bueno fué. Si supiéramos sólo las primeras cuatro temperaturas 98.6, 98.6, 98.0 y 98.0,
el mejor estimador puntual de µ serı́a su media (x = 98.30◦ F), pero no esperarı́amos
que este estimador fuera muy bueno porque está basado en una muestra muy pequeña.
La media muestral x es el mejor estimador puntual de la media poblacional
µ, ¿Porqué?, a continuación mencionamos algunas caracterı́sticas de éste estimador:
Para muchas poblaciones, la distribución de las medias muestrales x tiende a ser

más consistente (con menos variación) que la distribución de otros estadı́sticos
muestrales.
Para todas las poblaciones, decimos que la media muestral x es un estimador

insesgado de la media poblacional µ, lo que significa que la distribución de las
medias muestrales tiende a centrarse alrededor del valor de la media poblacional
µ.
Métodos de Estimación
En este apartado veremos dos métodos para encontrar estimadores: el método de los
momentos y el método de la máxima verosimilitud. Un tercer método importante para
la estimación es el método de los mı́nimos cuadrados, que se tratará en el Capı́tulo X
(Regresión Lineal).
Método de los momentos

En esta parte se explicará uno de los métodos más antiguos para obtener estimadores
puntuales.
El método de los momentos es un procedimiento muy sencillo para encontrar un estima-
dor para uno o más parámetros poblacionales. Recuérdese que el k−ésimo momento de
una variable aleatoria, tomado con respecto al origen, es
µ0k = E(X k )
El correspondiente k−ésimo momento de la muestra es el promedio

n
1X k
m0k = X
n i=1 i
El método de los momentos se basa en el supuesto de que los momentos de la muestra

deben proporcionar estimaciones apropiadas para los momentos correspondientes de la
20
población. Es decir, m0k serı́a un buen estimador de µ0k , k = 1, 2, . . . Entonces, ya que los
momentos de la población µ01 , µ02 , . . . , µ0k serán funciones de los parámetros poblacionales,
igualaremos los momentos correspondientes de la población y de la muestra, y resolvere-
mos para determinar los parámetros deseados. Por lo tanto el método de los momentos
puede expresarse como sigue:
Método de los momentos: Elija como estimaciones aquellos valores de los

parámetros que son soluciones de las ecuaciones µ0k = m0k , k = 1, 2, . . . , t, en
donde t es igual al número de parámetros.
Ejemplo:
Se selecciona una muestra aleatoria de n observaciones Y1 , Y2 , . . . , Yn , de una población
en la cual Yi , i = 1, 2, . . . , n, tiene una función de densidad de probabilidad uniforme so-
bre el intervalo (0, θ) con θ desconocido. Utilice el método de los momentos para estimar
el parámetro θ.
Solución:
Su función de densidad está definida como
1
f (y; θ) = θ
, y ∈ (0, θ)
El valor de µ01 para una variable aleatoria uniforme es

Z θ
0
µ1 = µ = E(Y ) = y · f (y; θ)dy
0
Z θ
y
= dy
0 θ
Z θ
1
= ydy
θ 0
θ
1 y 2
= ·
θ 2 0
1 θ2 0

θ
= · − = ·
θ 2 2 2
21
El primer momento muestral correspondiente es
Pn
0 Yi
m1 = i=1 = Y
n
Al igualar los momentos correspondientes y al resolver con respecto al parámetro desco-
nocido θ, obtenemos
θ
µ01 = = Y o θb = 2Y
2
Por lo tanto 2Y es el estimador mediante momentos para θ. C
Método de la máxima verosimilitud

El método implica determinar alguna función de un estadı́stico de “mı́nima suficiencia”
que sea un estimador insesgado del parámetro-objetivo. El método de los momentos es
intuitivo y fácil de aplicar, pero generalmente no lleva a los mejores estimadores. En esta
sección presentamos un método, el método de la máxima verosimilitud, que suele generar
estimadores insesgados de mı́nima varianza.
La técnica llamada método de la máxima verosimilitud selecciona como estimaciones
aquellos valores de los parámetros que maximizan la verosimilitud (la función de proba-
bilidad o la función de densidad conjunta) de la muestra observada.
Definición 1.5.3 Sean x1 , x2 , . . . , xn observaciones muestrales para las variables aleato-

rias correspondientes X1 , X2 , . . . , Xn . Entonces si X1 , X2 , . . . , Xn son variables aleatorias
discretas, la verosimilitud (factibilidad) de la muestra, L = L(x1 , x2 , . . . , xn ) se define co-
mo la probabilidad conjunta de x1 , x2 , . . . , xn . Si X1 , X2 , . . . , Xn son variables aleatorias
continuas, la verosimilitud L = L(x1 , x2 , . . . , xn ) se define como la densidad conjunta
evaluada en x1 , x2 , . . . , xn .
Método de la máxima verosimilitud: Escoja como estimaciones aquellos

valores de los parámetros que maximizan la verosimilitud L(x1 , x2 , . . . , xn ).
Ilustraremos el método con un ejemplo
Ejemplo:
Sea Y1 , Y2 , . . . , Yn una muestra aleatoria de una distribución normal con media µ y va-
rianza σ 2 . Encuentre los estimadores de máxima verosimilitud de µ y σ 2 .
Solución:
22
Como Y1 , Y2 , . . . , Yn son variables aleatorias continuas, L es la función de densidad con-
junta de la muestra. Por lo tanto, L = f (y1 , y2 , . . . , yn ). En este caso
L = f (y1 , y2 , . . . , yn ) = f (y1 )f (y2 ) · · · f (yn )
h 2
i  h i h i
−(y2 −µ)2 −(yn −µ)2
 
 exp −(y2σ 1 −µ)
2
  exp 2σ 2
  exp 2σ 2

= √ √ ··· √
 σ 2π  σ 2π   σ 2π 
Pn
− i=1 (yi − µ)2

1
= exp
σ n (2π)n/2 2σ 2
[recuerde que exp( ) es solamente otra manera de escribir e( ) ] y
Pn
n 2 n (yi − µ)2
ln L = − ln σ − ln 2π − i=1 2
2 2 2σ
Los estimadores de máxima verosimilitud de µ y σ 2 son aquellos valores que maximizan
ln L. Al derivar con respecto a µ y σ 2 , obtenemos
Pn
d ln L (yi − µ)
= i=1 2
dµ σ
y
d ln L n 1 Pn (y − µ)2
i
2
=− 2
+ i=1 4
dσ 2 σ 2σ
Al igualar las derivadas a cero y resolver simultáneamente, obtenemos de la primera
ecuación Pn
i=1 (yi − µ
b)
=0
b2
σ
Xn
yi − nbµ=0
i=1
luego Pn
i=1 yi
µ
b= =y
n
Al sustituir y por µb en la segunda ecuación y despejar σ b2 , tenemos
Pn 2
−n i=1 (yi − y)
+ =0
b2
σ b4
σ
Pn 2
i=1 (yi − y)
σ 2
b = = s02
n
02
Por lo tanto Y y S son los estimadores de máxima verosimilitud de µ y σ 2 , respecti-
vamente. Nótese que Y es insesgado para µ. Aunque S 02 no es insesgado para σ 2 , se le
puede ajustar fácilmente para obtener el estimador insesgado S 2 . C
23
Intervalos de Confianza
Dado que basarnos en un solo dato para tomar decisiones es poco “confiable”, es
necesario utilizar un rango de valores plausibles para el parámetro de la población, a
este rango de valores se les denomina intervalos de confianza.
Definición 1.5.4 Un intervalo de confianza (o estimación por intervalos) es un

rango de valores que es muy probable que contengan el verdadero valor del parámetro de
la población.
Definición 1.5.5 El grado de confianza es la probabilidad 1 − α de que el inter-

valo de confianza contenga el valor verdadero del parámetro de la población. (El grado
de confianza también es conocido como el nivel de confianza o el coeficiente de
confianza).
Ejemplo:
El intervalo de confianza de grado de confianza del 0.95 en (1.4.1), para la media
poblacional µ es 98.08◦ F < µ < 98.32◦ F. Ésta media poblacional µ puede o no estar
Figura 1.6: 95 % de confianza
en los valores del rango del intervalo, pues los valores dependen mucho de los datos de
la muestra. En este caso tenemos un 95 % de confianza, lo cual nos quiere decir que de
cada 100 muestras que se tomen, 95 de ellas tendrán la media poblacional.
24
Ahora veamos como calcular el intervalo de confianza; como podemos observar en la
Figura 1.6 el centro del intevalo es la media de la muestra (98.20◦ F) y los lı́mites del
intervalo están alrededor de este valor, es decir, este intervalo tiene la forma
x ± (donde = error).
El problema es calcular un error con un “nivel de confianza” del 95 %; en términos de

probabilidades el problema es el siguiente: calcular el valor de tal que

P X − < µ < X + = 0.95. (1.7)
Este problema no es muy difı́cil porque, afortunadamente, tenemos el teorema del lı́mite
central. Ası́ pues, (1.7) se puede reescribir como

− X −µ
P √ < √ < √ = 0.95
σ/ n σ/ n σ/ n
∗ √ D
en donde X = (X − µ)/(σ/ n) = N (0, 1) aproximadamente. Luego, de la “tabla
normal” vemos que
− σ
√ = 1.96 ó = 1.96 · √
σ/ n n
y (1.7) resulta:
σ σ
P X − 1.96 · √ < µ < X + 1.96 · √ = 0.95 (1.8)
n n
De (1.8) vemos que para las estimaciones x = 98.20 y s = 0.62, el “intervalo de confianza
del 95 %” para la temperatura media corporal (µ) es
0.62 0.62
98.20 − 1.96 · √ < µ < 98.20 + 1.96 · √ ,
106 106
es decir,
98.20 − 0.118 < µ < 98.20 + 0.118
98.082 < µ < 98.318.
C
√
Los extremos x ± 1.96(σ/ n) del intervalo de confianza se llaman lı́mites de confianza.
Por supuesto, estos lı́mites varı́an cuando se toma un nivle de confianza distinto del 95 %.
De lo anterior tenemos las siguientes definiciones,
Definición 1.5.6 Un valor crı́tico es el número en la base de la lı́nea que separa

los estadı́sticos muestrales que son muy probables de ocurrir de aquellos que son poco
probables. El número zα/2 es un valor crı́tico.
25
Definición 1.5.7 Cuando los datos son usados para estimar la media de la población µ
el margen de error, denotado por E, es la diferencia máxima probable (con probabilidad
1 − α) entre la media muestral estimada x y el verdadero valor µ.
σ
E = zα/2 · √
n
Para el ejemplo anterior zα/2 = 1.96 y E = 0.118. Por lo tanto, los intervalos de confianza
para la media, se puede resumir en lo siguiente:
x − E < µ < x + E.
donde E será:
E = zα/2 · √σn (σ conocida o n > 30)

E = tα/2 · √sn (σ desconocida y n ≤ 30)
donde tα/2 tiene n − 1 grados de libertad.
Hasta el momento hemos utilizado la media (x) de una muestra para estimar la media
(µ) de la población. Aunque eso parece muy natural, alguien podrı́a preguntarse por
qué no usamos la moda o la mediana o alguna otra medida de tendencia central, distinta
de la media, para estimar µ. Claro que las podemos usar, pero se eligió la media porque
es el “mejor” estimador de µ en varios sentidos, uno de ellos es porque es un estimador
insesgado, esto lo vimos en la sección 1.2.1.
Definición 1.5.8 Decimos que Θ

b es un estimador insesgado del parámetro θ si
E(Θ)
b =θ (1.9)
b 6= θ, entonces Θ
En caso contrario, es decir, si E(Θ) b es un estimador sesgado. Cuando
Θ
b es sesgado, el sesgo de Θ b − θ.
b se define como la diferencia E(Θ)
Vamos a ver algunos intervalos de confianza, se mencionan a continuación:
Intervalo de confianza para diferencia de dos medias, varianza conocida y descono-

cida
Intervalo de confianza para la varianza de una distribución normal
Intervalo de confianza para una proporción y diferencia de dos proporciones
26
Intervalo de confianza para la diferencia de dos medias
En este caso dividiremos los intervalos cuando las muestras son dependientes o inde-
pendientes.
Muestras dependientes
Los intervalos de confianza para la diferencia de dos medias, se puede resumir en lo
siguiente:
d − E < µd < d + E
sd
donde E = tα/2 · √
n
con n − 1 grados de libertad, µd es el valor medio de las diferen-
cias, d es el valor medio de las diferencias para los datos pareados muestrales y sd es la
desviación estándar de las diferencias.
Pero, ¿Que es dependencia?, ¿Cuando dos muestras son dependientes?, veamos un ejem-
plo donde los datos son dependientes.
Ejemplo:
Consideramos la siguiente muestra de datos pareados, que muestra los pesos de pre-
entrenamiento y los pesos de pos-entrenamiento de seis personas:
Sujeto A B C D E F
Pre-entrenamiento (Kg) 99 62 74 59 70 73
Pos-entrenamiento (Kg) 94 62 66 58 70 76
Basados en los datos de Journal of Applied Psychology, Vol. 62, No.1.
Se dice que que los datos son dependientes porque son datos que se toman de las mismas
personas en distintos tiempos.
Para encontrar los valores de d y sd , primero debemos calcular las diferencias de los datos
pareados,
Sujeto P re P os P re − P os
A 99 94 5
B 62 62 0
C 74 66 8
D 59 58 1
E 70 70 0
F 73 76 −3
d= 1.833
sd = 3.97
Nos falta calcular el valor crı́tico tα/2 . Luego, de la “tabla t-student” con n−1 = 5 grados
de libertad vemos que tα/2 = 2.57, el “intervalo de confianza del 95 %” para la diferencia
de las medias (µd ) es
3.97 3.97
1.83 − 2.57 · √ < µd < 1.83 + 2.57 · √ ,
6 6
27
es decir,
1.83 − 4.17 < µd < 1.83 + 4.17
−2.34 < µd < 6.00
Como el valor de “cero” se encuentra en el intervalo de las diferencias, es decir, se puede
dar que P re − P os = 0, entonces no hay diferencia significativa entre los pesos antes y
después del entrenamiento. C
Muestras independientes
Los intervalos de confianza para la diferencia de dos medias cuando tenemos muestras
independientes, se puede resumir en lo siguiente:
(x1 − x2 ) − E < (µ1 − µ2 ) < (x1 − x2 ) + E

donde E en este caso puede ser de distintas maneras:
q
σ12 σ2
1. σ1 , σ2 conocidas o n1 > 30 y n2 > 30 entonces E = zα/2 · + n22 .
n1
q 2
s s22
2. Rechazamos σ12 = σ22 y n1 ≤ 30 o n2 ≤ 30 entonces E = tα/2 · n11 + n2
(g.l. = el
menor de n1 − 1, n2 − 1).
q
s2p s2p
3. No rechazamos = σ22 y n1 ≤ 30 o n2
σ12 ≤ 30 entonces E = tα/2 · n1
+ n2
(g.l. =
(n1 −1)s21 +(n2 −1)s22
n1 + n2 − 2) y s2p = (n 1 −1)+(n2 −1)
.
Ejemplo:
Como parte de una encuesta nacional de salud, se obtuvieron los pesos para los
hombres. Para 804 hombres de edades 25-34, la media es 176 lb y la desviación estándar
es de 35.0 lb. Para 1657 hombres de 65-74, la media y desviación estándar son 164 y 27.0
lb, respectivamente. Construye un intervalo de 99 % de confianza para la diferencia entre
las medias de los hombres en las dos categorı́as. ¿El intervalo de confianza contiene al
0?, ¿Indica que hay o nó diferencia significante entre las dos medias?
Solución: Tenemos los siguientes datos:
Edades 25 − 34 Edades 65 − 74
n1 = 804 n2 = 1657
x1 = 176 x2 = 164
s1 = 35.0 s2 = 27.0
Luego tenemos que x1 − x2 = 176 − 164 = 12, ahora calculemos el margen de error,
utilizaremos el punto (2), s
s21 s2
E = tα/2 · + 2
n1 n2
28
de la “tabla t-student” con n1 − 1 = 803 grados de libertad vemos que tα/2 = 2.58,
entonces la expresión del margen de error resulta
r
(35)2 (27)2
E = 2.58 · +
√ 804 1657
= 2.58 · 1.52 + 0.44
= 2.58 · (1.4)
= 3.612
y el “intervalo de confianza del 99 %” para la diferencia de las medias (µ1 − µ2 ) es
12 − 3.61 < (µ1 − µ2 ) < 12 + 3.61
8.39 < (µ1 − µ2 ) < 15.61

Como el intervalo de confianza sugiere que la diferencia de las medias es estrictamente
positiva, es decir, (µ1 − µ2 ) > 0, es equivalente a decir que µ1 > µ2 entonces hay dife-
rencia significativa entre los pesos de hombres de edades 25-34 y de 65-74; las personas
“jóvenes” en general tienden a pesar más que las personas de la tercera edad. C
Intervalo de confianza para la varianza de una distribución normal

Éste tipo de intervalos para la varianza en general se utiliza para control de procesos,
que mantengan un cierto balance en la variación del producto. Los intervalos de confianza
para la varianza de una distribución normal, se puede resumir en lo siguiente:
(n − 1) s2 2 (n − 1) s2
< σ <
χ2R χ2L
donde χ2R y χ2L son los valores crı́ticos de una distribución ji-cuadrada de los lados
derecho e izquierdo respectivamente (donde χ2L = χ2α/2 y χ2R = χ21−α/2 ), la distribución
tendrá n − 1 grados de libertad. Pues, asumiendo normalidad de los datos, la siguiente
expresión tendrá una distribución ji-cuadrada:
(n − 1) s2
χ2 =
σ2
Ejemplo:
En la siguiente tabla se muestran los pesos de 12 buñuelos (oz). El supervisor de
calidad ha encontrado que puede estar fuera de problemas si los buñuelos tienen una
media de 3.50 oz. y una desviación estándar de 0.06 oz o menos (pues han etiquetado 42
oz).
3.43 3.37 3.58 3.50 3.68 3.61 3.42 3.52 3.66 3.50 3.36 3.42
29
Construir intervalo de confianza del 95 % para σ 2 y un intervalo de confianza del 95 %
para σ, luego determina si el supervisor de control de calidad está en problemas.
Solución:
Para poder calcular el intervalo de confianza sólo necesitamos encontrar los valores de
s2 , χ2L y χ2R . Luego, s2 = 0.0119 y de “tablas” de la distribución ji-cuadrada tenemos que
χ2L = 3.82 y χ2R = 21.92 con n − 1 = 11 grados de libertad, y el “intervalo de confianza
del 95 %” para la varianza σ 2 es
(11) 0.0119 (11) 0.0119
< σ2 <
21.92 3.82
0.1309 0.1309
< σ2 <
21.92 3.82
2
0.0060 < σ < 0.0343
Dado que la función “raı́z cuadrada” es una función 1-1 podemos obtener también el
intervalo para la desviación estándar con sólo tomar la raı́z cuadrada en la expresión
anterior, es decir, √ √ √
0.0060 < σ 2 < 0.0343
0.077 < σ < 0.185.
Luego, como en el intervalo de confianza para la desviación estándar no se encuentra
el valor de 0.06, de hecho el intervalo “abarca” valores mayores a este y se necesitaba
valores menores para que el supervisor estuviera fuera de problemas, entonces quiere
decir que el proceso de la preparación de buñuelos tiene mucha variación. C
Intervalo de confianza para una proporción y diferencia de dos proporciones

Supongamos que queremos estimar una proporción de población (p), en este caso la
proporción muestral (bp) es el mejor estimador para nuestro parámetro, ésta proporción
muestral será el cociente del números de sucesos (éxitos) en una muestra de tamaño n.
El intervalo de confianza para la proporción poblacional, se puede resumir en lo siguiente:
pb − E < p < pb + E
q
pbqb
donde E = zα/2 · n
con qb = 1 − pb
Ejemplo:
Ha sido realizado (Journal of Clinical Epidemiology, (1988) 41(6), 531-541 ) un estu-
dio caso-control sobre la efectividad del Test de Pap en la prevención del cáncer cervical
(por identificación de lesiones precancerosas). Se obtuvo que un 28.1 % de 153 casos de
cáncer cervical y un 7.2 % de 153 controles nunca se habı́an realizado un Test de Pap
previo al diagnóstico del caso.
30
(a) Obtén un intervalo de confianza, al 95 %, para el porcentaje de casos de cáncer
cervical que nunca se han realizado un Test de Pap.
(b) Ídem para los controles.
Solución:
(a) Tenemos que pb = 0.281, qb = 1 − 0.281 = 0.719 y n = 153, y de la tabla de la
distribución normal para el nivel de 95 % tenemos que zα/2 = 1.96, luego
r
(0.281)(0.719) √
E = 1.96 · = 1.96 · 0.0013 = 0.071
153
y el “intervalo de confianza del 95 %” para la proporción p de casos de cáncer cervical
que nunca se han realizado un Test de Pap es
0.281 − 0.071 < p < 0.281 + 0.071
0.210 < p < 0.352

(b) De igual forma que anteriormente, tenemos ahora para los controles tenemos que
pb = 0.072, qb = 1 − 0.072 = 0.928 y n = 153, y de la tabla de la distribución normal para
el nivel de 95 % tenemos que zα/2 = 1.96, luego
r
(0.072)(0.928) √
E = 1.96 · = 1.96 · 0.00044 = 0.041
153
y el “intervalo de confianza del 95 %” para la proporción p de casos de cáncer cervical
controles es
0.072 − 0.041 < p < 0.072 + 0.041
0.031 < p < 0.113
C
Otro caso es cuando queremos comparar dos proporciones de dos poblaciones indepen-
dientes. El intervalo de confianza en este caso será:
(bp1 − pb2 ) − E < (p1 − p2 ) < (b

p1 − pb2 ) + E
q
donde E = zα/2 · pbn1 q1b1 + pbn2 q2b2 .
Ejemplo:
Según un estudio señaló que una gran proporción de crimenes cometidos por personas
menores de 21 años son crimenes violentos. De 2750 arrestos seleccionados aleatoriamente
de criminales menores de 21 años, el 4.25 % involucran crimenes violentos. De 2200
31
arrestos seleccionados aleatoriamente de criminales mayores o iguales a 21 años, el 4.55 %
involucran crimenes violentos. Construye un intervalo de confianza del 95 % para la
diferencia entre las dos proporciones de crimenes violentos. ¿El intervalo de confianza
contiene al cero?, ¿Esto indica que no hay una diferencia significativa entre estos dos
ı́ndices de crimenes violentos?
Solución:
Tenemos los datos de los menores de 21 años, pb1 = 0.0425, qb1 = 1 − 0.0425 = 0.9575 y
n1 = 2750, y para los mayores o iguales a 21 años, pb2 = 0.0455, qb2 = 1 − 0.0455 = 0.9545
y n2 = 2200, de la tabla de la distribución normal para el nivel de 95 % tenemos que
zα/2 = 1.96, luego
r
(0.0425)(0.9575) (0.0455)(0.9545)
E = 1.96 · + = (1.96) · (0.0059) = 0.012
2750 2200
y el “intervalo de confianza del 95 %” para la diferencia de proporciones (p1 − p2 ) es
(0.0425 − 0.0455) − 0.012 < (p1 − p2 ) < (0.0425 − 0.0455) + 0.012
−0.003 − 0.012 < (p1 − p2 ) < −0.003 + 0.012

−0.015 < (p1 − p2 ) < 0.009
Como el intervalo de confianza sugiere que la diferencia de las proporciones puede ser
cero, es decir, (p1 − p2 ) = 0, es equivalente a decir que p1 = p2 entonces no hay diferencia
significativa entre las dos proporciones de crimenes violentos. C
32
1.6. Ejercicios propuestos
1. En una cierta población se estudia la variable aleatoria “cifra de urea en sangre”
(expresada en SDS-puntuaciones estándar). Se acepta que dicha variable se distri-
buye según una ley normal de media 0 y desviación tı́pica 1.
(a) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta
población tenga una SDS de urea en sangre inferior a 1.83?
(b) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta
población tenga una SDS de urea en sangre igual o superior a 1.65?
(c) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta po-
blación tenga una SDS de urea en sangre igual o inferior a -1.65?
(d) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta
población tenga una SDS de urea en sangre comprendida entre 0.25 y 1.25?
(e) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta po-
blación tenga una SDS de urea en sangre comprendida entre -0.25 y 1.25?
(f) ¿Cuál es el valor de la variable urea en sangre expresada en SDS que limita
el 25 % superior de la distribución de todos los individuos de la población?
2. El valor medio de ácido pirúvico en sangre es de 10 µgr/cc, con una desviación

tı́pica de 4 µgr/cc, y se supone que se distribuye normalmente. Calcula:
(a) La probabilidad de encontrar valores de dicho ácido inferiores a 1.8 µgr/cc
ó superiores a 22.2 µgr/cc.
(b) La probabilidad de encontrar valores de dicho ácido comprendidos entre
17.36 µgr/cc y 18.8 µgr/cc.
(c) ¿Cuál es el valor de u si se sabe que la probabilidad de encontrar valores
de dicho ácido comprendidos entre 3.6 y u µgr/cc es de 0.8201?
(d) ¿Cuál es el valor de u si se sabe que la probabilidad de encontrar valores
de dicho ácido igual o superior a u µgr/cc es de 0.9678?
3. Supongamos que la estatura media de los varones españoles mayores de 17 años

se distribuye normalmente con media 1.73m y que el 67 % de éstos mide más de
1.69m.
(a) Calcula la desviación tı́pica de la población.
(b) Se pretende clasificar la población en tres grupos: altos, normales y bajos.
Para ello se toma un cierto intervalo centrado en la media, considerándose entonces
un varón como normal cuando su estatura quede dentro de ese intervalo, como alto
cuando sea superior al lı́mite superior del intervalo y como bajo cuando sea inferior
al lı́mite inferior del intervalo. El intervalo se construye de tal forma que sean
33
considerados como normales el 66.8 % de los varones mayores de 17 años. ¿A partir
de qué estatura será considerado como alto un varón mayor de 17 años? ¿Hasta
qué estatura es considerado bajo?
4. En una población de niños con edades comprendidas entre 5 y 7 años se ha com-

probado que el perı́metro carpiano (X) se distribuye según una normal de media
12 cm. Sabiendo que el 47.51 % de los niños de esta población tienen su perı́metro
carpiano entre 8 cm y 12 cm, calcula:
(a) P(X < 16)
(b) P(X = 12)
(c) La varianza del perı́metro carpiano en la citada población.
5. Se sabe que la estatura de los varones sigue una distribución Normal. ¿Cuáles son
sus parámetros si el percentil 5 es 156 cm y el 95 es 184 cm?
6. El periodo de incubación de una determinada enfermedad se distribuye normal-

mente con un tiempo medio de 800 horas y una desviación tı́pica de 60 horas.
Calcula las siguientes probabilidades en una muestra de 16 pacientes contagiados:
(a) Que muestren una incubación media entre 790 y 810 horas.
(b) Que la incubación media fuese inferior a 785 horas.
(c) Que la incubación media fuese mayor que 820 horas.
(d) Que ningún paciente muestre sı́ntomas de la enfermedad antes de 830 horas.
(e) Que todos los pacientes muestren sı́ntomas antes de las 800 horas.
(f) Que la desviación tı́pica muestral en la duración de las incubaciones esté en-
tre 50 y 65 horas.
(g) Que la desviación tı́pica muestral sea menor de 60 horas. Nota: P(χ215 ≤
10.42) = 0.2075, P(χ215 ≤ 15) = 0.5486 y P(χ215 ≤ 17.6) = 0.7157.
7. Un fabricante de cigarrillos asegura que el contenido promedio de nicotina, en una

de sus marcas, es de 0.6 mg por cigarrillo. Una organización independiente mide
el contenido de nicotina de 16 cigarrillos de esta marca y encuentra que la media
y la desviación tı́pica muestrales son 0.75 y 0.175, respectivamente, de nicotina.
Si se supone que la cantidad de nicotina de estos cigarrillos sigue una distribución
normal, ¿qué podemos decir de la probabilidad del resultado muestral dado el dato
proporcionado por el fabricante?
8. Supongamos que en individuos con presión sanguı́nea alta, es igualmente probable

que después de un cierto periodo de tiempo, la presión le haya bajado o no ligera-
mente. Por otro lado se ha comprobado que en individuos con presión sanguı́nea
34
alta, que se encuentren bajo el efecto de un cierto medicamento H, la presión dis-
minuye en el 80 % de los casos. Consideremos una muestra de 200 individuos con
presión sanguı́nea alta:
(a) Si suponemos que no están afectados por ningún medicamento, calcula la
probabilidad de que le baje la presión a más de 90 individuos.
(b) Si la muestra se encuentra bajo el efecto de H, calcula la probabilidad de
que baje la presión en más de 172 casos ó en menos de 148.
9. Se ha comprobado que un cierto tipo de intervención quirúrgica tiene un porcen-
taje de complicaciones secundarias del 30 %. Consideremos cien pacientes que se
someten a dicha intervención:
(a) Calcula la probabilidad de que se produzcan menos de 20 complicaciones.
(b) Calcula el número máximo de complicaciones esperado, con una probabili-
dad del 95 %.
10. Si en una población de mujeres un 15 % están sometidas a cierta dieta, ¿cuál es la
probabilidad de que una muestra aleatoria de tamaño 100 dé una proporción de
aquellas que se encuentran a dieta:
(a) mayor o igual que 0.2?
(b) entre 0.1 y 0.2?
(c) no mayor que 0.12?
11. En una determinada comunidad hay unos hábitos alimenticios generales basados
en una dieta hipercalórica. Se piensa que este puede ser un factor que produzca
un incremento de la presión sanguı́nea en los individuos de la comunidad, respecto
a la media regional. Estudios previos han determinado que la presión sanguı́nea
sistólica se distribuye de manera normal, y que en la región su nivel medio es de
140 mmHg y σ = 20 mmHg. Con objeto de determinar los valores de la presión
sistólica en esa comunidad se tomó una muestra de 25 individuos, para los cuales
se obtuvo x = 146 mmHg. Si suponemos que en nuestra comunidad la dispersión
de la presión sistólica es la misma que en la región:
(a) Da una estimación del nivel medio de la presión sistólica en esa comunidad.
¿Qué error cometemos al hacer dicha estimación?
(b) ¿Qué tamaño de muestra debemos tomar para poder estimar la presión
sistólica media de la comunidad con un error máximo de 4 mmHg, para un nivel
de confianza del 95 %?
12. Estima puntualmente y mediante un intervalo de confianza, la cantidad media de
gastrina, en mujeres gestantes, entre 15 y 25 semanas de gestación, mediante los
datos siguientes:
35
39 49 35 39 34 21 49 40 35 38
Consideraremos que los valores de gastrina se distribuyen normalmente. Utiliza un

nivel de confianza del 95 %.
Sabemos que para un nivel de confianza fijo, mientras más estrecho es el intervalo,
más deseable es. ¿Qué podrı́amos hacer para obtener, en nuestro problema, una
reducción de la anchura del intervalo?
13. Un dermatólogo investiga cierto tipo de afección de piel induciéndolo en una mues-
tra aleatoria de 25 ratas y tratándolas luego con un nuevo fármaco. Se cuenta el
número de horas hasta que desaparece dicha afección, con los resultados siguientes:
x = 132 horas s = 40 horas
Supondremos que el número de horas hasta que desaparece la afección se distribuye

normalmente.
(a) Calcula un intervalo de confianza para el número medio de horas que tarda
en desaparecer la afección dermatológica con el nuevo fármaco. ¿Cuál es el error
máximo de esta estimación? Utiliza un nivel de confianza del 95 %.
(b) Si repetimos este experimento exactamente en las mismas condiciones, la
longitud del intervalo que obtendrı́amos, ¿serı́a la misma?. Razona la respuesta.
(c) Supongamos ahora que σ = 32 horas. Calcula un intervalo de confianza al
90 % para el número medio de horas que tarda en desaparecer la afección derma-
tológica. En estas condiciones, ¿qué tamaño de muestra se necesitarı́a para tener
el 90 % de confianza de que la media se estima dentro de ±5 horas?
14. Estudiando la estatura de los individuos de una población, dos investigadores es-
cogieron, independientemente el uno del otro, dos muestras de 16 y 400 individuos,
respectivamente. La muestra de 16 individuos dio una estatura media de 172.94
cm. y una desviación tı́pica muestral de 3.3 cm. La muestra de tamaño 400 dio una
media de 172.23 cm y una desviación tı́pica muestral de 2.5 cm. Supongamos que
la estatura se distribuye normalmente.
(a) Calcula un intervalo de confianza para la estatura media de la población,
en el caso de la muestra de tamaño 16, para una confianza del 95 %.
(b) Ídem para la muestra de tamaño 400.
(c) Si nos preguntasen acerca de la estatura media de la población, ¿cuál de
las dos experiencias elegirı́amos para responder?. Razona la respuesta.
15. En un estudio sobre la talla de niños menores de 4 meses se obtuvo, a partir de una
muestra de 200 niños, que la talla media en la población considerada está entre
36
63.2 cm y 69.6 cm, con un nivel de confianza del 95 %. Por otro lado, sólo a 120
niños se les midió una cierta variable bioquı́mica, obteniéndose a partir de dicha
muestra, que el valor medio de dicha variable está entre 320mg/l y 336mg/l con
un nivel de confianza del 99 %.
(a) Da una estimación puntual del valor medio y de la varianza, tanto de la
talla como de la variable bioquı́mica, para los niños de la población.
(b) ¿Qué medida de dispersión utilizarı́as para saber en que muestra están los
datos más agrupados? Calcúlala para ambas muestras e indica qué conjunto de
datos es más homogéneo.
16. Los datos de la tabla adjunta corresponden al peso total del corazón en un grupo
de 10 hombres normales y 11 con enfermedad de corazón (valores tomados en
autopsias realizadas en un determinado hospital). Suponiendo normalidad de la
variable, construye un intervalo de confianza, para un nivel de confianza del 99 %,
para la varianza del peso total del corazón de hombres con la enfermedad. Ídem
para hombres normales.
Enfermos 450 760 325 495 285 450 460 375 310 615 425
Normales 245 350 340 300 310 270 300 360 405 290
17. Se pretende conocer la influencia de un tratamiento con metil-dopa sobre pacientes

hipertensos. Para ello se toman 10 pacientes hipertensos a los que se les mide la
presión sanguı́nea. Posteriormente se les administra el tratamiento y se les vuelve
a medir la presión una semana después. Los datos de la presión sanguı́nea antes y
después de la administración del tratamiento están en la siguiente tabla:
Antes 200 194 236 163 240 225 203 180 177 240
Después 188 212 186 150 200 222 190 154 180 225
Para probar la efectividad del fármaco, queremos medir la diferencia, D, entre la

presión sanguı́nea inicial y final para cada persona. Supongamos que D está nor-
2
malmente distribuida con media µD y varianza σD , ambas desconocidas
2
(a) Estima puntualmente y mediante un intervalo de confianza µD y σD .
(b) ¿Qué opinión tienes de la efectividad de la metil-dopa a partir de los resul-
tados obtenidos para estos 10 pacientes hipertensos?
18. En una prueba sobre la leucemia en ratones AKR, se toma una muestra testigo de 56
ratones, (ratones sin ningún tratamiento), de los cuales aparecieron 45 leucémicos.
(a) Calcula una estimación puntual de la proporción de ratones con leucemia.
(b) Calcula un intervalo de confianza, al 95 %, para la proporción anterior.
Interpreta el resultado.
37
19. En un muestreo llevado a cabo en una amplia región se tomaron 125 individuos, al
azar, de los cuales 30 padecieron afecciones pulmonares.
(a) Estima la proporción de afecciones pulmonares en dicha región.
(b) Si queremos estimar dicha proporción con un error máximo del 4 %, para
una confianza del 95 %, ¿qué tamaño de muestra debemos tomar?.
20. En un experimento sobre los efectos de la insulina en la disminución de la glucemia

en conejos, se administró una dosis alta de insulina a 9 conejos, resultando una
disminución media de glucemia de 16.4 con una desviación tı́pica muestral de 4. A
otro grupo de 9 conejos se les administró una dosis baja de insulina, resultando una
disminución media de 9.3 con una desviación tı́pica muestral de 3. Si suponemos
que la distribución de la glucemia es Normal, contesta las siguientes preguntas:
(a) ¿Es posible afirmar, con un nivel de significancia del 5 %, que existe dife-
rencia significativa en la disminución de la glucemia según se aplique una dosis alta
o baja de insulina?
(b) ¿En cuánto podemos estimar dicha diferencia?
(c) Ídem para un nivel de significancia del 1 %.
38
Capı́tulo 2
Pruebas de hipótesis
En el capı́tulo anterior estudiamos el problema de estimar un parámetro de la distri-

bución de probabilidad de una población. Ahora estudiaremos un problema relacionado,
las pruebas de hipótesis.
En muchos aspectos el procedimiento formal para la prueba de hipótesis es similar al
método cientı́fico. El cientı́fico observa la naturaleza, establece una teorı́a y después prue-
ba su teorı́a respecto de la observación. En este contexto el cientı́fico propone una teorı́a
relativa a los valores especı́ficos de uno o más parámetros poblacionales. Luego obtiene
una muestra de la población y compara la observación con la teorı́a. Si las observaciones
se contraponen a la teorı́a, el cientı́fico rechaza la hipótesis. En caso contrario concluye
que la teorı́a es válida o bien que la muestra no detectó la diferencia entre los valores
reales y los valores de la hipótesis respecto de los parámetros poblacionales.
Supongamos que se afirma que el parámetro de la población tiene un cierto valor. ¿Cómo
decidimos que efectivamente el valor dado es el valor real del parámetro? Es decir, su-
ponga que se nos dice que la media de una población es µ = 3.4. ¿En qué forma podemos
probar la afirmación de que µ = 3.4? Puede ocurrir que al tomar una muestra de la
población se encuentre que la media de la muestra es x = 2.9. Entonces debemos decidir
entre aceptar o rechazar que x = 2.9 coincide con antes dicho: µ = 3.4 dentro de cierto
“nivel de confianza”.
Primero veremos lo que se entiende por hipótesis estadı́stica y algunos de los tipos de
hipótesis, ası́ como los errores que se pueden cometer al aceptar o rechazar una hipóte-
sis. En la siguiente sección introduciremos una metodologı́a para “probar” hipótesis y,
finalmente, estudiamos el caso en el que se desea comparar las medias de dos poblaciones.
2.1. Hipótesis y pruebas estadı́sticas

Las hipótesis no son producto de la matemática si no que surgen de un contexto.
La matemática que se desarrolla en la teorı́a de prueba de hipótesis está reaccionando
al concepto de hipótesis como surge en la práctica. Por ejemplo, una persona sin sa-
39
ber estadı́stica puede formularse la siguiente hipótesis al comprar un tanque de gas de
30kg:“éste tanque me durará un mes, pues, siempre me há durado ese tiempo”, en éste
caso el ejemplo es muy burdo pues, la forma de probar ésta hipótesis es cuando se termine
dicho tanque; pero, el punto en este caso es que la proposición salió de un contexto que
no fué matemático.
En general, una hipótesis estadı́stica es una proposición o conjetura sobre un paráme-
tro o parámetros de una distribución de probabilidad.
Considerando el ejemplo del gas, ¿qué sucede si la afirmación que se dió no se cumple?,
es decir, se acabó el gas y no llegó al mes ó fué más de lo esperado. Siempre al realizar
una prueba de hipótesis hay dos opciones, supongamos que hay µ = 1 y µ = 1.5 (dura
un mes ó 1.5 meses, no se sabe). Para distinguir entre las dos proposiciones, a una de
ellas se le llama hipótesis nula y se le denota por H0 , y la otra se llama hipótesis
alternativa y se le denota por H1 . Entonces podemos escribir:
H0 : µ = 1,
H1 : µ = 1.5,
o bien,
H0 : µ = 1.5,
H1 : µ = 1.
En el mismo ejemplo citado, si se conocen los demás parámetros la población, entonces
H0 y H1 se llaman hipótesis simples. Si en lugar de µ = 1 se tuviera que
H0 : µ < 1 (ó µ > 1)
entonces la hipótesis serı́a una hipótesis compuesta, porque, aunque H0 fuera cierta,
no se conocerı́a el valor exacto de µ, el cual puede ser una infinidad de números.
Al realizar una prueba de hipótesis se pueden cometer dos tipos de errores: Tipo I y Tipo
II. Se comete error tipo I cuando se rechaza una hipótesis que deberı́a ser aceptada,
y se comete el error tipo II cuando de acepta una hipótesis que deberı́a ser rechazada
(véase figura).
40
Como veremos adelante, el problema de minimizar los errores de decisión no es simple.
La dificultad se debe a que, para un tamaño de muestra dado, es usual que un intento
de disminuir uno de los errores esté acompañado de un incremento en el otro error. En
las secciones siguientes calcularemos las probabilidades con que se pueden ocurrir esos
errores y algunas formas de disminuirlas.
2.2. Pruebas de hipótesis

Veamos un ejemplo sencillo para ilustrar las ideas anteriores. Supóngase que en 100
lanzamientos de una moneda se obtuvieron 38 águilas. Este resultado nos podrá sugerir
que posiblemente la moneda no está bien hecha, es decir, quizás la moneda tiene alguna
irregularidad en su forma o su peso no está debidamente balanceado, y esto hace que la
proporción de águilas que ocurren en lanzamientos sucesivos de la moneda es menor de
la que esperarı́amos (50/100 = 0.5) si estuviera bien hecha. Entonces nos preguntamos:
¿el hecho de obtener sólo 38 águilas en los 100 lanzamientos es suficiente para concluir
que la moneda es irregular?
Para responder a esta pregunta elaboraremos una prueba que nos dé un grado razonable
de confianza en la conclusión que hagamos. Ensayaremos la hipótesis nula H0 de que la
proporción de águilas es p = 0.50 (la moneda es regular) contra la hipótesis alternativa
H1 de que la proporción de águilas es p = 0.40. (Para simplificar los cálculos tomamos
p = 0.40 en lugar de p = 0.38) Entonces tenemos
H0 : p = 0.5, H1 : p = 0.4. (2.1)
Una posible regla para decidir si se acepta o se rechaza H0 es la siguiente: Al efectuar

100 lanzamientos de la moneda
(a) aceptamos H0 si ocurren 45 ó más águilas,
(b) rechazamos H0 (y aceptamos H1 ) si ocurren menos de 45 águilas.
41
Optamos por esta regla porque el resultado en los primeros 100 lanzamientos nos sugi-
rió que, si la moneda está desviada, en todo caso serı́a a favor de obtener menos del 50 %
de águilas, en lugar de obtener más del 50 %. En la siguiente figura se ilustra la regla
decisión.
El punto 0.45 que separa las regiones de “aceptación” y de “rechazo” de H0 se llama

punto crı́tico. La región p < 0.45 se llama región de rechazo o región crı́tica. Existe
otro elemento en una prueba de hipótesis que es el estadı́stico de prueba el cual es
un valor basado en la muestra que nos permite tomar una decisión; en nuestro caso éste
valor es de pb = 0.38 (pues consideramos el caso de obtener 38 águilas). En nuestro caso el
estadı́stico de prueba cae en la región de rechazo, es decir rechazamos nuestra hipótesis
nula.
Los elementos de una prueba estadı́stica son
1. la hipótesis nula, H0
2. la hipótesis alternativa, H1
3. el estadı́stico de la prueba
4. la región de rechazo
Como en general no tenemos manera de afirmar que esta regla nos dará siempre la
decisión correcta, calcularemos la probabilidad de cometer los errores tipo I y tipo II.
Primeros calcularemos la probabilidad del error tipo I. Es decir, si H0 es correcta (p =
0.5), ¿cuál es la probabilidad de obtener menos de 45 águilas en 100 lanzamientos de la
moneda?. Sabemos que la distribución del número de águilas en 100 lanzamientos (que
es una distribución binomial) se puede aproximar por la distribución de una variable
normal X con media y desviación estándar
p
µ = p = 0.5, σ = p(1 − p)/n = 0.05 (2.2)
Por lo tanto, la probabilidad del error tipo I, que se denota por α, es
42
α = P[rechazar H0 dado que es cierta]
= P[X < 0.45|p = 0.5]
= P[(X − 0.5)/0.05 < −1]
= 0.1587 (de la tabla normal).
Entonces la probabilidad de rechazar la hipótesis H0 siendo ésta correcta es α = 0.1587.

Calculemos ahora la probabilidad del error tipo II. Supongamos pues que H0 es falsa
(p = 0.4). ¿Cuál es la probabilidad de aceptar H0 ? En otras palabras, si p = 0.4, ¿cuál
es la probabilidad de obtener 45 ó más águilas?. Argumentando como el párrafo anterior
se tiene que la probabilidad β del error tipo II es
β = P[aceptar H0 dado que es falsa]

= P[X ≥ 0.45|p = 0.4]
p
= P[(X − 0.4)/ 0.4(0.6)/100 ≥ 1.02]
= 0.1539 (de la tabla normal).
La probabilidad α del error tipo I se llama el nivel de significancia de la prueba. (En

nuestro ejemplo decimos que la prueba tiene un nivel de significancia del 15.87 %.) El
complemento del error tipo I, es decir aceptar H0 siendo verdadera (decisión correcta)
tiene la probabilidad 1 − α y a esta probabilidad se le llama el nivel de confianza de
la prueba. (En el ejemplo, la prueba tiene un nivel de confianza del 84.13 %.) Por otra
parte, la probabilidad β del error tipo II se le llama la caracterı́stica de operación de
la prueba, y 1−β es la potencia de la prueba (la potencia de la prueba es la probabilidad
de rechazar una hipótesis falsa).
Ahora se nos ocurre preguntar: ¿es la regla (2.1) un buen criterio de decisión? ¿Se puede
mejorar? En otras palabras, ¿se pueden disminuir las probabilidades α y β de los errores?
Por (2.2) se puede ver que α disminuye (y también β) si aumentamos el tamaño n de
la muestra; pues, la varianza disminuye. Pero para un valor fijo de n, es claro que al
disminuir α (moviendo el punto crı́tico de 0.45 a 0.42 por ejemplo) necesariamente crece
β (véase figura)
43
Ası́ pues, α se puede reducir a costa de aumentar β. En este caso, la potencia 1 − β de la
prueba disminuye, lo cual hace crecer el riesgo de aceptar una hipótesis falsa. Asi mismo,
si se desea reducir β (moviendo el punto crı́tico 0.45 hacia la derecha) necesariamente
aumenta α.
Ante esta disyuntiva se acostumbra fijar de antemano el nivel de confianza de la prueba.
Por ejemplo, si se desea un nivel de confianza de 1 − α = 95 % (o equivalentemente, un
nivel de significancia = 5 % = 0.05) entonces se puede calcular el punto crı́tico para el
cual nuestra regla de decisión (2.1) será correcta en (aproximadamente) 95 de cada 100
veces que se repita el experimento. Es decir (aproximadamente), sólo en uno de cada
20 experimentos rechazaremos la hipótesis cierta H0 . Entonces con los datos (2.2) de
nuestro ejemplo (H0 : µ = 0.5, σ = 0.05), de la tabla normal,
α = P[(X − µ)/σ ≤ x] = 0.05
si x = −1.65. (El signo negativo aparece porque recuerde que estamos calculando el área
bajo la curva N (µ, σ) a la izquierda de x0 que a su vez se encuentra a la izquierda de µ.)
Esto significa que el valor x0 (el punto crı́tico) a la izquierda del cual está contenida el
5 % del área bajo la curva normal correspondiente a H0 es la solución a la ecuación
(x0 − µ)/σ = −1.65
o sea,
x0 = (0.05)(−1.65) + (0.5) = 0.4175.
Este resultado nos dice que con un nivel de confianza del 95 % podemos modificar (2.1)
y aceptar como nuestra regla de decisión la siguiente: Al efectuar 100 lanzamientos de la
moneda
(a) aceptamos H0 si ocurren 42 ó más águilas,
44
(b) rechazamos H0 (y aceptamos H1 ) si ocurren menos de 42 águilas.
Por lo tanto, con el resultado original que tenı́amos de 38 águilas, la hipótesis H0 se

rechaza porque 0.38 está en la región de rechazo. Lo más que podemos afirmar con
nuestro método es que con probabilidad 0.95 aceptaremos H0 cuando es cierta (pero no
podemos afirmar que la regla siempre nos dará la decisión correcta).
El método que utilizamos se puede resumir como sigue:
(i) Se enuncian las hipótesis nula y alternativa (H0 y H1 ), y se dan el nivel de signifi-
cancia (usualmente α = 1 % ó α = 5 %) y el tamaño de la muestra.
(ii) Se supone que H0 es cierta y se determina el punto crı́tico para conocer las regiones
de aceptación y de rechazo de H0 . (En algunos casos, no siempre, también es nece-
sario calcular β, la probabilidad del error tipo II.) Lo anterior equivale a formular
nuestra regla de desición.
(iii) Se toma una muestra de tamaño indicado en (i) y se ve si los resultados son
significativos (se rechaza H0 ) o no lo son (se acepta H0 ).
2.3. Pruebas unilaterales y bilaterales

En la sección anterior vimos un ejemplo en el que la región crı́tica (o región de rechazo
de H0 ) corresponde a un intervalo en la cola izquierda de una curva normal. En otros
casos la región crı́tica corresponde a un intervalo en la cola derecha de una curva normal.
En estas dos situaciones se dice que la prueba es unilateral.
Si la región crı́tica es la unión de un intervalo en la cola izquierda con otro en la cola
derecha, se dice entonces que la prueba es bilateral o de dos colas. Ahora veremos un
ejemplo para ilustrar esto.
Ejemplo:
Usando los datos vistos en el capı́tulo anterior, (n = 106, x = 98.2, s = 0.62) y con un
nivel de significancia de 0.05, probaremos que la temperatura media del cuerpo de adultos
sanos es igual a 98.6◦ F. Veremos un método más simple que en la sección anterior.
En este caso usaremos el estadı́stico de prueba para µ cuando n > 30 :
x − µx
z= √
σ/ n
Solución:
Paso 1: La afirmación de que la media es igual a 98.6 es expresada en forma simbólica
como µ = 98.6.
45
Paso 2: La alternativa a la afirmación original es µ 6= 98.6.
Paso 3: Entonces tenemos:
H0 : µ = 98.6 (afirmación original) H1 : µ 6= 98.6
Paso 4: Como se especificó en el enunciado del problema, el nivel de significancia es

α = 0.05.
Paso 5: Puesto que la afirmación es acerca de la media poblacional, el estadı́stico mues-

tral más lógico (reelevante) para la prueba es x = 98.2. Y dado que n > 30, las medias
muestrales pueden aproximarse por una distribución normal.
Paso 6: Para calcular el estadı́stico de prueba, podemos usar s = 0.62 como un es-
timador razonable de σ (pues n > 30), entonces el estadı́stico de prueba se encuentra
convirtiendo la media muestral x = 98.2 en z = −6.64, a través del siguiente cálculo:
x − µx 98.20 − 98.6
z= = = −6.64
√σ 0.62
√
n 106
el cual lo comparamos con z = −1.96, 1.96. Nuestra región de rechazo es de dos colas.
Paso 7: La media muestral x = 98.2 se convirtió a un estadı́stico de prueba z = −6.64,

el cual cae dentro de la región crı́tica, entonces rechazamos la hipótesis nula.
Paso 8: Para refrasear la conclusión del paso 7 en términos no técnicos, concluimos

que hay suficiente evidencia para garantizar el rechazo de la afirmación de que la tem-
peratura media corporal de adultos sanos es 98.6◦ F.
El método anterior de los 8 pasos es diferente al utilizado en la sección anterior en

que, ahora estamos “estandarizando” la región de rechazo pues ahora normalizamos el
estadı́stico de prueba y lo comparamos con la región de una normal estándar. Que en el
ejemplo anterior está definido por los valores z = −1.96, 1.96.
46
Siguiendo esta metodologı́a para el ejemplo de la moneda de la sección anterior, su-
pusimos que de 100 lanzamientos obtuvimos 38 águilas, esto es p = 0.38, luego los pasos
en este caso estarán dados por,
Paso 1: La afirmación de que la proporción es igual a 0.50 es expresada en forma simbóli-
ca como p = 0.50.
Paso 2: La alternativa a la afirmación original es p < 0.50 (por cómo definimos la

hipótesis en la sección anterior, en este caso es una prueba unilateral)
Paso 3: Entonces tenemos:
H0 : p = 0.50 (afirmación original) H1 : p < 0.50
Paso 4: Como no se especificó en el enunciado del problema, tomamos el nivel de signi-

ficancia de α = 0.05.
Paso 5: Puesto que la afirmación es acerca de la proporción de la moneda, el estadı́stico

muestral más lógico (reelevante) para la prueba es pb = 0.38, considerando una distribu-
ción Bernoulli tenemos que la varianza estará dada por var = pb·b
q = (0.38)·(0.62) = 0.236.
y n = 100.
Paso 6: Para calcular el estadı́stico de prueba, será a través del siguiente cálculo:
pb − ppb 0.38 − 0.50

z= q = q = −2.47
pb·b
q 0.236
n 100
entonces el estadı́stico de prueba es z = −2.47, el cual lo comparamos con z = −1.96.

Nuestra región de rechazo es de una cola.
47
Paso 7: La proporción muestral pb = 0.38 se convirtió a un estadı́stico de prueba
z = −2.47, el cual cae dentro de la región crı́tica, entonces rechazamos la hipótesis
nula.
Paso 8: Para refrasear la conclusión del paso 7 en términos no técnicos, concluimos

que hay suficiente evidencia para garantizar el rechazo de la afirmación de que la mone-
da es regular (p = 0.50).
Para esta metodologia lo único que cambia es el estadı́stico de prueba, la región de re-
chazo es la misma para todas las pruebas, sólo depende del nivel de significancia (α) de
la prueba. A continuación se muestran los diferentes estadı́sticos de prueba dependiendo
del contraste que se quiera realizar.
2.3.1. Estadı́sticos de Prueba

Una población
x−µ Población con una media.
z= √σ
n (σ conocida o n > 30)
x−µ Población con una media.

t= √s
n (σ desconocida y n ≤ 30)
pb−p
z=√ pq Población con una porporción.
n
(n−1)s2
χ2 = σ2
Población con una desviación estándar o varianza.
48
Dos poblaciones
d−µd Dos medias dependientes.
t= s
√d
n (gl = n − 1)
(x1 −x2 )−(µ1 −µ2 ) Dos medias independientes

z= r
2
σ1 σ2
+ n2
(σ1 , σ2 conocidas o n1 > 30 y n2 > 30)
n1 2
s21 Desviación estándar o varianza de dos poblaciones.

F = s22 (donde s21 ≥ s22 )
Dos medias independientes.

(x1 −x2 )−(µ1 −µ2 )
t= r
s2 2
Rechazamos σ12 = σ22 y n1 ≤ 30 o n2 ≤ 30.
1 + s2
n1 n2 (gl = mı́n (n1 − 1, n2 − 1))
Dos medias independientes.

t= (x1 −x2 )−(µ1 −µ2 )
r No rechazamos σ12 = σ22 y n1 ≤ 30 o n2 ≤ 30.
s2
p s2 (n1 −1)s21 +(n2 −1)s22
n1
+ np (gl = n1 + n2 − 2) y s2p = (n .
2
1 −1)+(n2 −1)
p1 −b
(b p )−(p1 −p2 ) Dos proporciones
z= q2 (x1 +x2 )
pq
n
1
+ npq
2
(donde p = (n1 +n2 )
)
49
2.4. Ejercicios propuestos
1. Suponer que existe una droga experimental que puede aumentar la probabilidad
de concebir un varón. Debe ser administrada a la mujer algunos dı́as previos a la
ovulación. Se planea un experimento con mujeres, clasificadas en dos grupos: las
que se les administra la droga, y las que se les aplica un placebo. Se observarán las
frecuencias de concepción de varones en cada grupo.
(a) El Cientı́fico #1, versado en embriologı́a, desea aprovechar el experimento
sobre el grupo placebo, para verificar la hipótesis de que la determinación del sexo
es totalmente aleatoria.
(b) El Cientı́fico #2, desea analizar ambos grupos para determinar si la droga
cumple el objetivo pretendido.
Plantea las hipótesis que son de interés para cada uno de los cientı́ficos.
2. En el servicio regional de salud existe la sospecha de que un determinado fármaco,

empleado habitualmente en el tratamiento de ciertas afecciones, tiene como efecto
secundario un aumento de la tensión ocular media de su nivel normal 15, a 18; efecto
insensible para los pacientes pero que a la larga aumenta el riesgo de glaucoma.
Por los servicios médicos regionales es conocido que la tensión ocular se distribuye
de forma normal en la región, con varianza 1. Si se toma una muestra de tamaño
n, ¿cómo podemos tomar una decisión acerca del valor de la tensión ocular media
de los pacientes, que emplean habitualmente el fármaco bajo sospecha?
3. Se cree que la proporción p de mujeres que han iniciado el proceso de pubertad a

los 11 años supera el 50 %. Para reunir datos que verifiquen esta afirmación se va
a seguir el desarrollo de 20 chicas.
(a) Indica las hipótesis nulas y alternativas adecuadas.
(b) Si utilizamos como estadı́stico de contraste la variable “número de chicas
(entre las 20) que han comenzado su desarrollo a los 11 años”, ¿cuál serı́a la región
crı́tica para α = 0.0577?
(c) Para α = 0.0059 la región crı́tica es RC = {16, 17, 18, 19, 20}. Si en una
muestra de 20 chicas 19 habı́an iniciado el proceso de pubertad antes de 11 años,
¿qué decisión tomarı́amos en el test para α = 0.0059? ¿Qué tipo de error podemos
cometer? Contesta a ambas preguntas si fueron 15 las chicas que habı́an iniciado
dicho proceso. Razona todas las respuestas.
Nota: Para resolver b) utiliza la distribución binomial de parámetros 20 y 0.5.
4. La ingestión de calorı́as por persona y por dı́a en una determinada región es de 2900
calorı́as. En una región vecina, se efectuó un muestreo para estudiar el consumo
medio de calorı́as. Se eligieron aleatoriamente 50 personas y los resultados fueron
50
de un consumo medio de 3000 calorı́as por persona y por dı́a, con una desviación
tı́pica muestral de 100 calorı́as. Suponiendo que la distribución del consumo de
calorı́as en esa región es normal, contesta las siguientes preguntas:
(a) ¿Podemos admitir, con un nivel de significancia del 5 %, que las dos regiones
tienen diferente consumo medio de calorı́as por persona y por dı́a?.
(b) Si la muestra hubiese sido de tamaño 27, ¿a qué conclusiones llegarı́amos?
5. En un estudio sobre sanidad dental se hace la hipótesis de que el 90 % de niños

menores de 4 años no muestran indicios de caries dental. Se tomaron 100 niños,
menores de 4 años, de los cuales el 82 % no dio tales indicios. En base a estos
resultados , ¿serı́a aceptable el hipotético valor del 90 %?.
6. Se ha comprobado que el porcentaje de curaciones espontáneas de cierta enferme-

dad es del 40 %. Un laboratorio ha obtenido un antibiótico y asegura que es eficaz
sobre dicha enfermedad. Para comprobarlo se tomó una muestra de 100 personas,
a las que se les inyectó este antibiótico. El porcentaje de personas curadas fue
del 55 %. ¿Podemos creer, con un nivel del significancia del 5 %, la afirmación del
laboratorio?
7. El 70 % de los pacientes internados en un hospital traumatológico requieren in-

tervención quirúrgica. A 30 de estos pacientes se les aplica un nuevo método de
fisioterapia y 17 de ellos requieren intervención quirúrgica. ¿Es eficaz la fisioterapia?
8. Se da a continuación la dosis de colesterol sérico en mg/l, de dos grupos de indi-

viduos hiperlipidémicos, bajo el efecto de un placebo y después de un tratamiento
que reduce el colesterol:
Placebo 5.6 6.25 7.45 5.05 4.56 4.5 3.9 4.3

Tratamiento 3.35 3.6 3.75 4.15 3.6
(a) Probar si existe diferencia significativa entre las dosis medias de colesterol
sérico en ambas poblaciones, suponiendo normalidad de ambas variables.
(b) ¿Qué podemos hacer si no tenemos la hipótesis de normalidad?
9. Se quiere comprobar si existe diferencia en eficacia entre la aspirina y un producto

de comparación, en el alivio de determinados sı́ntomas. Se registraron los tiempos
desde la toma del preparado hasta que el paciente declaraba sentirse mejor, siendo
los datos obtenidos:
Aspirina: m = 10; x = 15.2; s1 = 8.7

Producto comparación: n = 20; y = 13.4; s2 = 6.9
51
(Unidades=minutos). Si suponemos que las variables se distribuyen normalmente,
realiza el contraste adecuado.
10. Se ha estudiado el tiempo de reacción ante un estı́mulo auditivo bajo dos situaciones
o condiciones radicalmente diferentes F y Q. Para ello se ha elegido una muestra
aleatoria de 9 niños, los cuales han sido estimulados, en primer lugar, bajo la
situación F y pasado un tiempo prudencial de reposo, son nuevamente estimulados
bajo Q. Los tiempos de reacción, en centésimas de segundo, aparecen en la siguiente
tabla:
niño 1 2 3 4 5 6 7 8 9
sist. F 14 12 9 13 15 17 13 12 13
sist. Q 17 14 13 15 16 16 16 15 13
Suponiendo que la diferencia de los tiempos de reacción se distribuye normalmente,

¿puede afirmarse que el tiempo de reacción medio difiere de la situación F a la Q,
si admitimos un nivel de error del 1 %?
11. Se quiere probar si los efectos hipnóticos de un nuevo fármaco M, son mejores que
los del fármaco usado habitualmente L. Para ello se eligieron 10 personas, de forma
aleatoria, a las que primeramente se les administró L y se les anotó el tiempo, en
horas, de sueño. Pasado un tiempo prudencial se les administró M, obteniéndose
del mismo modo, el tiempo, en horas, de sueño. Los resultados fueron los siguientes:
Persona 1 2 3 4 5 6 7 8 9 10
L 7 6 8 9 6.5 8 8.5 8 9.5 8
M 9 8 10 8.5 9 7 9 8.5 9.5 7.5
Suponiendo normalidad, ¿puede afirmarse que el nuevo fármaco es mejor que el

habitual, si admitimos un nivel de error del 1 %?
12. A 11 ratas tratadas crónicamente con alcohol se les midió la presión sanguı́nea
sistólica antes y después de 30 minutos de administrarles a todas ellas una cantidad
fija de etanol, obteniéndose los datos que aparecen en la siguiente tabla:
Ratas 1 2 3 4 5 6 7 8 9 10 11
Antes 126 120 124 122 130 129 114 116 119 112 118
Después 119 116 117 122 127 122 110 120 112 110 111
¿Hay un descenso significativo de la presión sanguı́nea sistólica tras la ingestión de

etanol?
52
13. Los porcentajes de curación de dos tipos de cáncer de piel A y B han sido del 85 %
sobre una muestra de 400 cancerosos A y de 225 curaciones sobre una muestra de
300 cancerosos B. ¿Existe diferencia significativa en las proporciones de curaciones
de estos tipos de cáncer?. Si es afirmativa la respuesta, ¿es posible estimar dicha
diferencia?
14. Se sospecha que añadiendo al tratamiento habitual para la curación de una deter-
minada enfermedad, un medicamento A, se consigue mayor número de curaciones.
Tomamos dos grupos de enfermos de 100 individuos cada uno. Al primero se le
suministra el medicamento A y se curan 60, mientras que al otro grupo no se le
administra y se curan 55. ¿Podemos decir que es beneficioso el uso del medicamento
A, para la curación de la enfermedad, para un nivel de significancia del 5 %? ¿Cómo
queda la respuesta a la pregunta anterior reflejado en el intervalo de confianza para
la diferencia de proporciones?
15. Se quiere comprobar la efectividad de una vacuna contra una determinada enfer-
medad. Para ello se suministra la vacuna a 100 animales y se les comparó con un
grupo control de otros 100, de modo que a los 200 se les contagió la enfermedad.
Entre los vacunados murieron sólo 8 como resultado de la enfermedad, mientras
que del grupo testigo murieron 20. ¿Podemos decir, con un nivel de significancia
del 5 %, que la vacuna es eficaz para reducir la mortalidad?
16. Durante mucho tiempo se ha afirmado que en los nacimientos gemelares el segundo
nacido tiene una mayor probabilidad de sufrir determinados problemas respiratorios
que el primero. ¿Es aceptable la hipótesis si, de 221 nacimientos gemelares, en 24
casos ambos niños presentaron los problemas, en 158 ninguno los presentó, en 8 los
presentó el primero pero no el segundo y al revés en los 31 restantes?. Cuantifica
el incremento de la probabilidad. (Arnold et al.(1987) The New England Journal
of Medicine, 317(18), 1121-1125).
17. En un estudio sobre el efecto de un fármaco A en la prevención de nacimientos

prematuros, se contó con 500 pares de mujeres embarazadas, emparejadas de tal
manera que el peso de las dos mujeres de un par se diferenciase, a lo sumo, en 500g.
A una de las mujeres se le administró un placebo, mientras que al otro miembro
del par se le administró el fármaco A. En 30 de estos pares ambas mujeres tuvieron
un niño prematuro. En 420 pares, ambas tuvieron niños normales. En 35 pares, la
mujer que tomó el fármaco A tuvo un niño normal y la que tomó el placebo, uno
prematuro. Y, por último, en 15 pares, la mujer que tomó el fármaco tuvo un niño
prematuro y la que no lo tomó, uno normal. ¿Qué podemos decir del efecto del
fármaco A?
53
Apéndice A
Tablas de Distribuciones
54
Distribución Normal Estándar
Valores de
P [0 ≤ X ≤ x] = Φ(x) − Φ(0) = Φ(x) − 1/2. (x > 0).
Para valores negativos de x, las probabilidades se pueden obtener por simetrı́a.

Segundo decimal de x
x 0 1 2 3 4 5 6 7 8 9
0.0 .0000 .0040 .0080 .0120 .0160 .0199 .0239 .0279 .0319 .0359
0.1 .0398 .0434 .0478 .0517 .0557 .0596 .0636 .0675 .0714 .0753
0.2 .0793 .0832 .0871 .0910 .0948 .0987 .1026 .1064 .1103 .1141
0.3 .1179 .1217 .1255 .1293 .1331 .1368 .1406 .1443 .1480 .1517
0.4 .1554 .1591 .1628 .1664 .1700 .1736 .1772 .1808 .1844 .1879
0.5 .1915 .1950 .1985 .2019 .2054 .2088 .2123 .2157 .2190 .2224
0.6 .2257 .2291 .2324 .2357 .2389 .2422 .2454 .2486 .2517 .2549
0.7 .2580 .2611 .2642 .2673 .2704 .2734 .2764 .2794 .2823 2852
0.8 .2881 .2910 .2939 .2967 .2995 .3023 .3051 .3078 .3106 .3133
0.9 .3159 .3186 .3212 .3238 .3265 .3289 .3315 .3340 .3365 .3389
1.0 .3413 .3438 .3461 .3485 .3508 .3531 .3554 .3577 .3599 .3621
1.1 .3643 .3665 .3686 .3708 .3729 .3749 .3770 .3790 .3810 .3830
1.2 .3849 .3869 .3888 .3907 .3925 .3944 .3964 .3980 .3997 .4015
1.3 .4032 .4049 .4066 .4082 .4099 .4115 .4131 .4147 .4162 .4177
1.4 .4199 .4207 .4222 .4236 .4251 .4265 .4279 .4292 .4306 .4319
1.5 .4332 .4345 .4357 .4370 .4382 .4394 .4406 .4418 .4429 .4441
1.6 .4452 .4463 .4474 .4484 .4495 .4505 .4515 .4525 .4535 .4545
1.7 .4554 .4564 .4573 .4582 .4591 .4599 .4608 .4616 .4625 .4633
1.8 .4641 .4649 .4656 .4664 .4671 .4678 .4686 .4693 .4699 .4706
1.9 .4713 .4719 .4726 .4732 .4738 .4744 .4750 .4756 .4761 .4767
2.0 .4772 .4778 .4783 .4788 .4793 .4798 .4803 .4808 .4812 .4817
2.1 .4821 .4826 .4830 .4834 .4838 .4842 .4846 .4850 .4854 .4857
2.2 .4861 .4864 .4868 .4871 .4875 .4878 .4881 .4884 .4887 .4890
2.3 .4893 .4896 .4898 .4901 .4904 .4906 .4909 .4911 .4913 .4916
2.4 .4918 .4920 .4922 .4925 .4927 .4929 .4931 .4932 .4934 .4936
2.5 .4938 .4940 .4941 .4943 .4945 .4946 .4948 .4949 .4951 .4952
2.6 .4953 .4955 .4956 .4957 .4959 .4960 .4961 .4962 .4963 .4964
2.7 .4965 .4966 .4967 .4968 .4969 .4970 .4971 .4972 .4973 .4974
2.8 .4974 .4975 .4976 .4977 .4977 .4978 .4979 .4979 .4980 .4981
2.9 .4981 .4982 .4982 .4983 .4984 .4984 .4985 .4985 .4986 .4986
3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990
55
Distribución t
υ = n − 1 es el número de grados de libertad (n es el tamaño de muestra). P es la
probabilidad de que |t| sea mayor que t0 , P = P [|t| > t0 ] .
ν \P 0.50 0.25 0.10 0.05 0.025 0.01 0.005


1 1.00000 2.4142 6.3138 12.706 25.452 63.657 127.32 

2 0.81650 1.6036 2.9200 4.3027 6.2053 9.9248 14.089 



3 0.76489 1.4226 2.3534 3.1825 4.1765 5.8409 7.4533 



4 0.74070 1.3444 2.1318 2.7764 3.4954 4.6041 5.5976 



5 0.72669 1.3009 2.0150 2.5706 3.1634 4.0321 4.7733 



6 0.71756 1.2733 1.9432 2.4469 2.9687 3.7074 4.3168 



7 0.71114 1.2543 1.8946 2.3646 2.8412 3.4995 4.0293 



8 0.70639 1.2403 1.8595 2.3060 2.7515 3.3554 3.8325 



9 0.70272 1.2297 1.8331 2.2622 2.6850 3.2498 3.6897 



10 0.69981 1.2213 1.8125 2.2281 2.6338 3.1693 3.5814 



11 0.69745 1.2145 1.7559 2.2010 2.5931 3.1058 3.4966 



12 0.69548 1.2089 1.7823 2.1788 2.5600 3.0545 3.4284 



13 0.69384 1.2041 1.7709 2.1604 2.5326 3.0123 3.3725 



14 0.69242 1.2001 1.7613 2.1448 2.5096 2.9768 3.3257 



15 0.69120 1.1967 1.7530 2.1315 2.4899 2.9467 3.2860 



16 0.69013 1.1937 1.7459 2.1199 2.4729 2.9208 3.2520 



17 0.68919 1.1910 1.7396 2.1098 2.4581 2.8982 3.2225

t0
18 0.68837 1.1887 1.7341 2.1009 2.4450 2.8784 3.1966 

19 0.68763 1.1866 1.7291 2.0930 2.4334 2.8609 3.1737 



20 0.68696 1.1848 1.7247 2.0860 2.4231 2.8453 3.1534 



21 0.68635 1.1831 1.7207 2.0796 2.4138 2.8314 3.1352 



22 0.68580 1.1816 1.7171 2.0739 2.4055 2.8188 3.1188 



23 0.68531 1.1802 1.7139 2.0687 2.3979 2.8073 3.1040 



24 0.68485 1.1789 1.7109 2.0639 2.3910 2.7969 3.0905 



25 0.68443 1.1777 1.7081 2.0595 2.3846 2.7874 3.0782 



26 0.68405 1.1766 1.7056 2.0555 2.3788 2.7787 3.0669 



27 0.68370 1.1757 1.7033 2.0518 2.3734 2.7707 3.0565 



28 0.68335 1.1748 1.7011 2.0484 2.3685 2.7633 3.0469 



29 0.68304 1.1739 1.6991 2.0452 2.3638 2.7564 3.0380 



30 0.68276 1.1731 1.6973 2.0423 2.3596 2.7500 3.0298 



40 0.68066 1.1673 1.6839 2.0211 2.3289 2.7045 2.9712 




60 0.67862 1.1616 1.6707 2.0003 2.2991 2.6603 2.9146 



120 0.67656 1.1559 1.6577 1.9799 2.2699 2.6174 2.8599 


∞

0.67449 1.1503 1.6449 1.9600 2.2414 2.5758 2.8070
56

Curso de Probabilidad y Estadistica

Încărcat de

Informații document

Descriere originală:

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curso de Probabilidad y Estadistica

Încărcat de

Drepturi de autor:

Formate disponibile

Notas1: Curso de Probabilidad y Estadı́stica

Antonio Murillo Salas

Erick Alberto Cecilio Ayala

1 Versión preliminar. No distribuirlas.

En el núcleo de la Estadı́stica se encuentran las ideas de inferencia, que tiene por

Figura 1.1: Inferencia Estadı́stica

Definición 1.1.2 Un estadı́stico es una función numérica valuada en las observacio-

Por ejemplo, la media muestral

Figura 1.2: Proceso de inferir

Definición 1.1.3 La inferencia estadı́stica trata de obtener conclusiones sobre los

E(X) = µ (= Media Poblacional)

Si X es una variable aleatoria normal, es decir, si X tiene la densidad f (x; µ, σ) definida

y es numéricamente igual al área bajo la curva de densidad f (x; µ, σ) que está a la

el área a la izquierda de 0 es 1/2, o sea,

Φ(0) = P [X ≤ 0] = 1/2. (1.3)

La importancia de esta distribución radica en que permite modelar numerosos fenómenos

1. Es simétrica respecto de su media, µ;

2. La moda y la mediana son ambas iguales a la media, µ;

3. Si X ∼ N (µ, σ 2 ) y a y b son números reales, entonces (aX + b) ∼ N (aµ + b, a2 σ 2 ).

Que es equivalente a decir P [0 ≤ X ≤ 1.1]; del renglón 1.1 y la columna 0.00 en la

De la misma forma que el inciso anterior, esto es equivalente a decir P [0 ≤ X ≤ 1.17];

P [0 ≤ X ≤ 1.17] = 0.3790 = Φ(1.17) − Φ(0).

(c) Ahora lo que se busca es

Esto es equivalente a decir P [X ≤ 1.1]; además, por (1.3), es claro que

(d) En este caso es similar al caso anterior, esto es

(e) Vemos ahora que lo que se busca es

P [X > −1.57] = P [0 ≤ X ≤ 1.57] + 1/2 (explique)

P [|X| > 1.3] = P [X > 1.3] + P [X < −1.3]

P [X ≤ 800] = P [(X − 400)/200 ≤ (800 − 400)/200]

Luego, de la “tabla normal”,

P [X ≤ 800] = Φ(2) = 1/2 + P [0 ≤ X ∗ ≤ 2]

0.01 = P[X ≥ a] = P [(X − 10)/2 ≥ (a − 10)/2]

1.2.3. Teorema del Lı́mite Central

(2) Para cada x,  

Entonces la función de distribución Un converge a una función de distribución

Luego, lo que deseamos encontrar estará dado por:

en donde X ∗ = (X − µ)/σ. De la ”tabla normal”se ve entonces que

P(X ≥ 90) ≈ P(X ∗ ≥ −1.4144)

(b) Si la muestra se encuentra bajo el efecto de H, calcula la probabilidad de que

en donde X ∗ = (X − µ)/σ. De la ”tabla normal”se ve entonces que

P(X < 148) + P(X > 172) ≈ 2 ∗ P(X ∗ ≥ −2.29)

1.3.1. Muestreo aleatorio

La variabilidad del parámetro a estudiar (σ 2 ); ésta se puede obtener de datos

Precisión; se refiere a la amplitud del intervalo de confianza (este tema se encuen-

en donde Φ(x) es la distribución normal estándar. Hacemos E = X − µ, que nos deno-

1.3.2. Otros métodos de muestreo

1.4. Estimación de parámetros

Temperaturas corporales de 106 adultos saludables

De los cuales tenemos las siguientes estadı́sticas:

La media de los datos es x = 98.20

La desviación estándar es s = 0.62

El tamaño de la muestra es n = 106.

Si usamos µ = 98.20 como una “estimación” del parámetro µ de la población, se

1.5. Estimadores y estimaciones

en donde f es una función conocida de x1 , x2 , . . . , xn . (En nuestro ejemplo, la función

1.5.1. Estimaciones puntuales e intervalos de confianza

Definición 1.5.1 Un estimador es un estadı́stico muestral usado para aproximar un

Para muchas poblaciones, la distribución de las medias muestrales x tiende a ser

Para todas las poblaciones, decimos que la media muestral x es un estimador

Método de los momentos

El correspondiente k−ésimo momento de la muestra es el promedio

El método de los momentos se basa en el supuesto de que los momentos de la muestra

Método de los momentos: Elija como estimaciones aquellos valores de los

(2) Para cada x,

El problema es calcular un error con un “nivel de confianza” del 95 %; en términos de