Documente Academic
Documente Profesional
Documente Cultură
20 de mayo de 2015
1. Estimación de parámetros 2
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Distribución Normal y el Teorema del Lı́mite Central . . . . . . . . . . . 4
1.2.1. Distribución de la media muestral . . . . . . . . . . . . . . . . . . 4
1.2.2. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.3. Teorema del Lı́mite Central . . . . . . . . . . . . . . . . . . . . . 11
1.3. Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3.1. Muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.3.2. Otros métodos de muestreo . . . . . . . . . . . . . . . . . . . . . 17
1.4. Estimación de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5. Estimadores y estimaciones . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5.1. Estimaciones puntuales e intervalos de confianza . . . . . . . . . . 19
1.6. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2. Pruebas de hipótesis 39
2.1. Hipótesis y pruebas estadı́sticas . . . . . . . . . . . . . . . . . . . . . . . 39
2.2. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3. Pruebas unilaterales y bilaterales . . . . . . . . . . . . . . . . . . . . . . 45
2.3.1. Estadı́sticos de Prueba . . . . . . . . . . . . . . . . . . . . . . . . 48
2.4. Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
A. Tablas de Distribuciones 54
1
Capı́tulo 1
Estimación de parámetros
1.1. Introducción
Comúnmente estamos interesados en aprender alguna carácterı́stica numérica de
la población, tal como la proporción de elementos de la población que poseen cierta
carácterı́stica establecida (por ejemplo, la proporción de mujeres en el salón de clases),
la media y desviación estándar de la población, o alguna otra medida central o de varia-
ción.
Definición 1.1.1 Un parámetro es una caracterı́stica numérica de una población.
El valor verdadero de un parámetro de una población es una constante desconocida. Se
puede determinar correctamente al realizar un estudio completo de la población. Mientras
2
que un parámetro se refiere a una caracterı́stica numérica de la población, una cantidad
basada en la muestra se denomina estadı́stico.
3
1.2. Distribución Normal y el Teorema del Lı́mite
Central
1.2.1. Distribución de la media muestral
La inferencia estadı́stica sobre la media poblacional es de importancia práctica pri-
mordial. Las inferencias acerca de este parámetro se basan en la media de la muestra
X1 + X 2 + · · · + Xn
X=
n
y su distribución. Consecuentemente, exploraremos las propiedades básicas de la distri-
bución muestral de X y explicaremos el rol de la distribución normal como una apro-
ximación útil. La distribución muestral de X tiene una media E(X) y una desviación
estándar sd(X). Estos pueden expresarse en términos de la media poblacional µ y una
desviación estándar σ. (NOTA: La demostración de éstas igualdades se verán en el curso
y otras se dejarán como tarea)
σ2
Varianza Poblacional
V ar(X) = =
n Tamaño de la muestra
σ Desviación Estándar Poblacional
sd(X) = √ = √
n Tamaño de la muestra
El primer resultado muestra que la distribución de X se centra en la media de la
población µ en el sentido de que la esperanza sirve como una medida de centro de una
distribución.
El último resultado indica que la desviación estándar de X es igual a la desviación
estándar de la población dividida por la raı́z cuadrada del tamaño de muestra. Es decir,
la variabilidad de la media de la muestra se rige por los dos factores: la variabilidad de
la población σ y el tamaño de la muestra n. Gran variabilidad en la población induce
una gran variabilidad en X lo que la información de la muestra sobre µ es menos fiable.
Sin embargo, esto puede ser contrarrestado por la√elección de un n grande. Por ejemplo,
con n = 100, la desviación estándar de X es σ/ 100 = σ/10, una décima parte de la
desviación estándar
√ de la población. Al aumentar el tamaño de la muestra, la desviación
estándar σ/ n disminuye y la distribución de X tiende a concentrarse más en torno a
la media de la población µ. Conozcamos ahora un poco más de la distribución Normal.
4
1.2.2. Distribución Normal
Se llama distribución normal, distribución de Gauss o distribución gaussiana, a
una de las distribuciones de probabilidad de variable continua que con más frecuencia
aparece aproximada en fenómenos reales.
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto
de un determinado parámetro estadı́stico (en nuestro caso en su media µ). Esta curva se
conoce como campana de Gauss y es el gráfico de una función gaussiana. Su función de
densidad está definida como
1 (x−µ)2
f (x; µ, σ) = √ e− 2σ2 , x∈R (1.1)
σ 2π
La gráfica que se muestra a continuación es la forma que tiene una función como la (1.1),
donde se muestra el porcentaje de área que está entre cada marca indicada
Φ(a) = P [X ≤ a] , a ∈ R, (1.2)
5
Figura 1.3: Φ(a) = P [X ≤ a] = área bajo la curva f a la izquierda de a
Propiedades
Algunas propiedades de la distribución normal son:
6
Uso de la tabla normal
Ası́ pues, para calcular la probabilidad de que una variable aleatoria X con distribu-
ción normal estándar tome valores en un cierto intervalo, basta medir el área que está,
sobre ese intervalo, abajo de la curva normal. Sin embargo, esto no es tan sencillo; ni
siquiera usando integración es posible calcular directamente esa área. Afortunadamente,
usando métodos numéricos se han elaborado tablas con valores aproximados de dichas
áreas, como en la “tabla de Distribución Normal Estándar” del Anexo. En esa tabla se
dan únicamente las áreas entre 0 y valores positivos de x, o sea,
P [0 ≤ X ≤ x] = Φ(x) − Φ(0).
Sabemos que esto es suficiente por la simetrı́a de la curva normal. En la primera columna
de esa tabla se dan algunos valores de x para aquellos casos en que sea necesaria una
mejor aproximación.
Ejemplo:
Sea X una variable normal estándar. Calcular la probabilidad de que,
(a) X esté entre cero y 1.1.
(b) X esté entre cero y 1.17.
(c) X sea menor o igual que 1.1.
(d) X sea menor o igual que 1.17.
(e) X sea mayor que -1.57.
(f) |X| sea mayor que 1.3.
Solución:
(a) El área que se está buscando es
7
(b) En este caso lo que se busca es
P [X ≤ 1.1] = P [X ≤ 0] + P [0 ≤ X ≤ 1.1]
= 0.5000 + 0.3643 = 0.8643.
P [X ≤ 1.17] = P [X ≤ 0] + P [0 ≤ X ≤ 1.17]
= 0.5000 + 0.3790 = 0.8790.
Esto es
8
(f) En este último inciso el área buscada es
Luego
Estandarización
Hasta el momento hemos visto la densidad normal estándar, es decir, que tiene media
µ = 0 y varianza σ 2 = 1. En la mayorı́a de las aplicaciones, sin embargo, es necesario con-
siderar variables aleatorias distribuidas normalmente con media µ y varianza σ 2 (σ 2 > 0)
arbitrarias. A continuación se muestran distintas distribuciones normales con diferentes
valores para la media y desviación estándar σ
9
como podemos observar, la media nos dá el centro de cada gráfica, es por eso que µ
se conoce como el parámetro de localización, mientras que σ entre más chico el valor
de éste sea, la gráfica se vé más “delgada” y si es más grande se vé más “apachurrada”,
luego este se conoce como parámetro de escala.
Para indicar que X es una variable aleatoria normal con parámetros µ = E(X) y
D
σ 2 = var(X), escribimos X = N (µ, σ 2 ). En particular, si X es una variable aleatoria
D
estándar, escribimos X = N (0, 1). Por supuesto, ahora deseamos calcular probabilidades
como
P[X ≤ x]
D
en donde X = N (µ, σ 2 ), con µ y σ 2 no necesariamente iguales a 0 y 1 como en el caso
D
estándar. Esto es muy fácil, porque si X = N (µ, σ 2 ), entonces la variable “estandarizada”
(X − µ)/σ es una variable aleatoria normal con media 0 y varianza 1, o sea,
D
X ∗ = (X − µ)/σ = N (0, 1).
Ejemplo:
D
(a) Sea X = N (400, 40000). Calcular la probabilidad de que X sea menor o igual a
800.
D
(b) Sea X = N (10, 4). Calcular el valor de a tal que
P[X ≥ a] = 0.01.
10
Solución:
√
(a) Como σ = 40000 = 200, entonces
Por lo tanto,
P [0 ≤ X ∗ ≤ (a − 10)/2] = 0.50 − 0.01 = 0.49,
de modo que (de la “tabla normal”) (a − 10)/2 = 2.33 (aprox.), es decir a = 14.66.
C
11
La ecuación (1.4) del resultado anterior, tiene varias conotaciones diferentes algunas de
ellas son:
(1)
X −µ
Z= √ es aproximadamente N (0, 1)
σ/ n
(3) Definimos
√
X −µ
Un = n
σ
Ejemplo 1.2.2 Supongamos que en individuos con presión sanguı́nea alta, es igualmen-
te probable que después de un cierto periodo de tiempo, la presión le haya bajado o no
ligeramente. Por otro lado se ha comprobado que en individuos con presión sanguı́nea
alta, que se encuentren bajo el efecto de un cierto medicamento H, la presión disminu-
ye en el 80 % de los casos. Consideremos una muestra de 200 individuos con presión
sanguı́nea alta:
(a) Si suponemos que no están afectados por ningún medicamento, calcula la pro-
babilidad de que le baje la presión a más de 90 individuos.
Solución:
Puesto que estamos bajo el supuesto de que no están afectados por ningún medi-
camento, entonces la probabilidad de le sube o baje la presión a un individuo es
p = 0.5, tenemos una muestra de tamaño n = 200. En este caso, estamos tra-
tando con una distribución binomial (Bin(n = 200, p = 0.5)), y lo que se busca
es
200
X
P(X ≥ 90) = (0.5)x (0.5)200−x
x=90
90
X
= 1− (0.5)x (0.5)200−x
x=1
= 0.9313
12
Figura 1.4: Probabilidad de X ≥ 90
Existe un problema en este caso, pues cualquiera de la dos opciones para calcular
la probabilidad deseada se tiene que realizar 110 o 90 sumas respectivamente, lo
cual es poco práctico; en este caso el resultado de 0.9313 es el resultado exacto
de la sumatoria. Ahora utilizaremos el Teorema del Lı́mite Central, para dar una
aproximación al resultado anterior, tenemos que X es una variable binomial con
parámetros n = 200 y p = 0.5; además, X tiene media y desviación estándar:
√ p √
µ = np = 100, σ = npq = 200(0.25) = 50.
13
Figura 1.5: Probabilidad de X < 148 y X > 172
busca es:
P(X < 148) + P(X > 172) = P(X ≤ 147) + P(X ≥ 173)
√ √
≈ P(X ∗ ≤ (147 − 160)/ 32) + P(X ∗ ≥ (173 − 160)/ 32)
= P(X ∗ ≤ −13/5.66) + P(X ∗ ≥ 13/5.66)
= 2 ∗ P(X ∗ ≥ −2.29)
1.3. Muestreo
En las secciones anteriores supusimos que una muestra era dada y calculamos algunos
parámetros (o estadı́sticos) asociados a dicha muestra. En esta sección y las siguientes,
14
que se pueden agrupar bajo el nombre de inferencia estadı́stica, estaremos interesados
en qué conclusiones se pueden obtener acerca de una población a partir de una muestra
daday qué tan confiables son dichas conclusiones.
(a) Cada individuo en la población debe tener una probabilidad conocida de ser se-
leccionado. El caso más simple y más común es cuando dicha probabilidad es la
misma para cada uno de los individuos o elementos de la población. Además,
(b) La muestra debe ser independiente; es decir, cada selección debe ser independiente
de las demás.
Cuando se realiza un muestreo que satisface estas condiciones, se dice entonces que
la muestra obtenida es una muestra aleatoria. En lo que sigue, para abreviar un
poco, eliminaremos el adjetivo “aleatorio” y supondremos que el muestreo realizado y la
muestra obtenida siempre son aleatorios.
Como el único resultado que se obtiene al realizar una investigación es la información,
deberı́amos de obtenerla a un costo mı́nimo. El procedimiento de muestreo afecta la
cantidad de ésta información debido a la medición. Esto, junto con el tamaño n de la
muestra, controla la cantidad total de información relevante en una muestra. En nuestro
caso estaremos interesados en la situación más sencilla de muestreo -el muestreo aleatorio
de una población relativamente grande- y dedicaremos nuestra atención a la selección
del tamaño n de la muestra.
El tamaño de la muestra depende de tres factores:
15
Nivel de confianza (1 − α); comúnmente se toma 95 % o 99 %. La cual es la
probabilidad complementaria al error admitido (α).
Para encontrar la expresión del tamaño de la muetra cuando se hace estudio sobre la
media, utilizaremos el Teorema del Lı́mite Central, pues, sabemos que
√
X −µ
P n ≤ x ∼ Φ(x)
σ
16
y σ = 6250. Luego,
2
(6250) · (1.96)
n =
500
2
12250
=
500
= (24.5)2
= 600.25 ≈ 601.
Por lo tanto, si el economista quiere estimar el ingreso medio para el primer año con un
error sobre su estimación de $500 y un nivel de confianza del 95 % entonces tendrá que
tomar una muestra de tamaño de 601. C
Los tamaños de muestra para las distintas estimaciones entonces se pueden resumir:
σ·zα/2 2
n= E
Media
2
(0.25)·zα/2
n= E2
Proporción desconocida
(b 2
pqb)·zα/2
n= E2
Proporción (b
p y qb son conocidos)
Puesto que supusimos que nos encontrabamos en la situación más sencilla de muestreo
el cual es aleatorio de una población relativamente grande las igualdades anteriores son
válidas, se deja al lector la investigación sobre otras configuraciones de muestreo, pues,
existen expresiones para el tamaño de muestra cuando la población es finita, y si el
muestreo es aleatorio o por estratos, etc.
17
En otros casos (como en los censos nacionales) es más conveniente hacer un muestreo
ramificado. En este tipo de muestreo, la región completa de donde se desea tomar la
muestra se divide en regiones más pequeñas de las cuales ya se toma una muestra alea-
toria, o bien, se vuelven a subdividir en regiones todavı́a más pequeñas antes de hacer
el muestreo en sı́.
Combinando estos métodos se obtienen métodos compuestos que pueden ser mejores en
un caso particular. En última instancia, el método que se escoja depende de las facilidades
de realizarlo y, desde luego, el problema que se tenga en mente.
Ejemplo 1.4.1 La siguiente tabla muestra 106 temperaturas corporales (medidas en gra-
dos Fahrenheit) obtenidas por los investigadores de la Universidad de Maryland.
18
Pero, ¿qué significa el “aproximadamente”?¿Queremos decir que la diferencia entre la
media real µ y la estimación µ = 98.20 es de 1o F , o de 10o F , o de 20o F ? Ası́ pues, es
obvia la necesidad de precisar el “grado de confianza” con que se aceptará la estimación
µ. La relación con los grados centı́grados es de acuedo a C = 95 (F − 32).
θb = f (x1 , x2 , . . . , xn ), (1.5)
19
Definición 1.5.2 Un estimador puntual es un valor simple (o punto) usado para
aproximar un parámetro poblacional.
Regresando al ejemplo de las temperaturas corporales, vemos que 98.20◦ es nuestro mejor
estimador puntual de la media poblacional µ, pero no tenemos indicación de qué tan
bueno fué. Si supiéramos sólo las primeras cuatro temperaturas 98.6, 98.6, 98.0 y 98.0,
el mejor estimador puntual de µ serı́a su media (x = 98.30◦ F), pero no esperarı́amos
que este estimador fuera muy bueno porque está basado en una muestra muy pequeña.
La media muestral x es el mejor estimador puntual de la media poblacional
µ, ¿Porqué?, a continuación mencionamos algunas caracterı́sticas de éste estimador:
Métodos de Estimación
En este apartado veremos dos métodos para encontrar estimadores: el método de los
momentos y el método de la máxima verosimilitud. Un tercer método importante para
la estimación es el método de los mı́nimos cuadrados, que se tratará en el Capı́tulo X
(Regresión Lineal).
µ0k = E(X k )
20
población. Es decir, m0k serı́a un buen estimador de µ0k , k = 1, 2, . . . Entonces, ya que los
momentos de la población µ01 , µ02 , . . . , µ0k serán funciones de los parámetros poblacionales,
igualaremos los momentos correspondientes de la población y de la muestra, y resolvere-
mos para determinar los parámetros deseados. Por lo tanto el método de los momentos
puede expresarse como sigue:
Ejemplo:
Se selecciona una muestra aleatoria de n observaciones Y1 , Y2 , . . . , Yn , de una población
en la cual Yi , i = 1, 2, . . . , n, tiene una función de densidad de probabilidad uniforme so-
bre el intervalo (0, θ) con θ desconocido. Utilice el método de los momentos para estimar
el parámetro θ.
Solución:
Su función de densidad está definida como
1
f (y; θ) = θ
, y ∈ (0, θ)
21
El primer momento muestral correspondiente es
Pn
0 Yi
m1 = i=1 = Y
n
Al igualar los momentos correspondientes y al resolver con respecto al parámetro desco-
nocido θ, obtenemos
θ
µ01 = = Y o θb = 2Y
2
Por lo tanto 2Y es el estimador mediante momentos para θ. C
Ejemplo:
Sea Y1 , Y2 , . . . , Yn una muestra aleatoria de una distribución normal con media µ y va-
rianza σ 2 . Encuentre los estimadores de máxima verosimilitud de µ y σ 2 .
Solución:
22
Como Y1 , Y2 , . . . , Yn son variables aleatorias continuas, L es la función de densidad con-
junta de la muestra. Por lo tanto, L = f (y1 , y2 , . . . , yn ). En este caso
L = f (y1 , y2 , . . . , yn ) = f (y1 )f (y2 ) · · · f (yn )
h 2
i h i h i
−(y2 −µ)2 −(yn −µ)2
exp −(y2σ 1 −µ)
2
exp 2σ 2
exp 2σ 2
= √ √ ··· √
σ 2π σ 2π σ 2π
Pn
− i=1 (yi − µ)2
1
= exp
σ n (2π)n/2 2σ 2
[recuerde que exp( ) es solamente otra manera de escribir e( ) ] y
Pn
n 2 n (yi − µ)2
ln L = − ln σ − ln 2π − i=1 2
2 2 2σ
Los estimadores de máxima verosimilitud de µ y σ 2 son aquellos valores que maximizan
ln L. Al derivar con respecto a µ y σ 2 , obtenemos
Pn
d ln L (yi − µ)
= i=1 2
dµ σ
y
d ln L n 1 Pn (y − µ)2
i
2
=− 2
+ i=1 4
dσ 2 σ 2σ
Al igualar las derivadas a cero y resolver simultáneamente, obtenemos de la primera
ecuación Pn
i=1 (yi − µ
b)
=0
b2
σ
Xn
yi − nbµ=0
i=1
luego Pn
i=1 yi
µ
b= =y
n
Al sustituir y por µb en la segunda ecuación y despejar σ b2 , tenemos
Pn 2
−n i=1 (yi − y)
+ =0
b2
σ b4
σ
Pn 2
i=1 (yi − y)
σ 2
b = = s02
n
02
Por lo tanto Y y S son los estimadores de máxima verosimilitud de µ y σ 2 , respecti-
vamente. Nótese que Y es insesgado para µ. Aunque S 02 no es insesgado para σ 2 , se le
puede ajustar fácilmente para obtener el estimador insesgado S 2 . C
23
Intervalos de Confianza
Dado que basarnos en un solo dato para tomar decisiones es poco “confiable”, es
necesario utilizar un rango de valores plausibles para el parámetro de la población, a
este rango de valores se les denomina intervalos de confianza.
Ejemplo:
El intervalo de confianza de grado de confianza del 0.95 en (1.4.1), para la media
poblacional µ es 98.08◦ F < µ < 98.32◦ F. Ésta media poblacional µ puede o no estar
en los valores del rango del intervalo, pues los valores dependen mucho de los datos de
la muestra. En este caso tenemos un 95 % de confianza, lo cual nos quiere decir que de
cada 100 muestras que se tomen, 95 de ellas tendrán la media poblacional.
24
Ahora veamos como calcular el intervalo de confianza; como podemos observar en la
Figura 1.6 el centro del intevalo es la media de la muestra (98.20◦ F) y los lı́mites del
intervalo están alrededor de este valor, es decir, este intervalo tiene la forma
x ± (donde = error).
Este problema no es muy difı́cil porque, afortunadamente, tenemos el teorema del lı́mite
central. Ası́ pues, (1.7) se puede reescribir como
− X −µ
P √ < √ < √ = 0.95
σ/ n σ/ n σ/ n
∗ √ D
en donde X = (X − µ)/(σ/ n) = N (0, 1) aproximadamente. Luego, de la “tabla
normal” vemos que
− σ
√ = 1.96 ó = 1.96 · √
σ/ n n
y (1.7) resulta:
σ σ
P X − 1.96 · √ < µ < X + 1.96 · √ = 0.95 (1.8)
n n
De (1.8) vemos que para las estimaciones x = 98.20 y s = 0.62, el “intervalo de confianza
del 95 %” para la temperatura media corporal (µ) es
0.62 0.62
98.20 − 1.96 · √ < µ < 98.20 + 1.96 · √ ,
106 106
es decir,
98.20 − 0.118 < µ < 98.20 + 0.118
98.082 < µ < 98.318.
C
√
Los extremos x ± 1.96(σ/ n) del intervalo de confianza se llaman lı́mites de confianza.
Por supuesto, estos lı́mites varı́an cuando se toma un nivle de confianza distinto del 95 %.
De lo anterior tenemos las siguientes definiciones,
25
Definición 1.5.7 Cuando los datos son usados para estimar la media de la población µ
el margen de error, denotado por E, es la diferencia máxima probable (con probabilidad
1 − α) entre la media muestral estimada x y el verdadero valor µ.
σ
E = zα/2 · √
n
Para el ejemplo anterior zα/2 = 1.96 y E = 0.118. Por lo tanto, los intervalos de confianza
para la media, se puede resumir en lo siguiente:
x − E < µ < x + E.
donde E será:
Hasta el momento hemos utilizado la media (x) de una muestra para estimar la media
(µ) de la población. Aunque eso parece muy natural, alguien podrı́a preguntarse por
qué no usamos la moda o la mediana o alguna otra medida de tendencia central, distinta
de la media, para estimar µ. Claro que las podemos usar, pero se eligió la media porque
es el “mejor” estimador de µ en varios sentidos, uno de ellos es porque es un estimador
insesgado, esto lo vimos en la sección 1.2.1.
E(Θ)
b =θ (1.9)
b 6= θ, entonces Θ
En caso contrario, es decir, si E(Θ) b es un estimador sesgado. Cuando
Θ
b es sesgado, el sesgo de Θ b − θ.
b se define como la diferencia E(Θ)
Vamos a ver algunos intervalos de confianza, se mencionan a continuación:
26
Intervalo de confianza para la diferencia de dos medias
En este caso dividiremos los intervalos cuando las muestras son dependientes o inde-
pendientes.
Muestras dependientes
Los intervalos de confianza para la diferencia de dos medias, se puede resumir en lo
siguiente:
d − E < µd < d + E
sd
donde E = tα/2 · √
n
con n − 1 grados de libertad, µd es el valor medio de las diferen-
cias, d es el valor medio de las diferencias para los datos pareados muestrales y sd es la
desviación estándar de las diferencias.
Pero, ¿Que es dependencia?, ¿Cuando dos muestras son dependientes?, veamos un ejem-
plo donde los datos son dependientes.
Ejemplo:
Consideramos la siguiente muestra de datos pareados, que muestra los pesos de pre-
entrenamiento y los pesos de pos-entrenamiento de seis personas:
Sujeto A B C D E F
Pre-entrenamiento (Kg) 99 62 74 59 70 73
Pos-entrenamiento (Kg) 94 62 66 58 70 76
Basados en los datos de Journal of Applied Psychology, Vol. 62, No.1.
Se dice que que los datos son dependientes porque son datos que se toman de las mismas
personas en distintos tiempos.
Para encontrar los valores de d y sd , primero debemos calcular las diferencias de los datos
pareados,
Sujeto P re P os P re − P os
A 99 94 5
B 62 62 0
C 74 66 8
D 59 58 1
E 70 70 0
F 73 76 −3
d= 1.833
sd = 3.97
Nos falta calcular el valor crı́tico tα/2 . Luego, de la “tabla t-student” con n−1 = 5 grados
de libertad vemos que tα/2 = 2.57, el “intervalo de confianza del 95 %” para la diferencia
de las medias (µd ) es
3.97 3.97
1.83 − 2.57 · √ < µd < 1.83 + 2.57 · √ ,
6 6
27
es decir,
1.83 − 4.17 < µd < 1.83 + 4.17
−2.34 < µd < 6.00
Como el valor de “cero” se encuentra en el intervalo de las diferencias, es decir, se puede
dar que P re − P os = 0, entonces no hay diferencia significativa entre los pesos antes y
después del entrenamiento. C
Muestras independientes
Los intervalos de confianza para la diferencia de dos medias cuando tenemos muestras
independientes, se puede resumir en lo siguiente:
Ejemplo:
Como parte de una encuesta nacional de salud, se obtuvieron los pesos para los
hombres. Para 804 hombres de edades 25-34, la media es 176 lb y la desviación estándar
es de 35.0 lb. Para 1657 hombres de 65-74, la media y desviación estándar son 164 y 27.0
lb, respectivamente. Construye un intervalo de 99 % de confianza para la diferencia entre
las medias de los hombres en las dos categorı́as. ¿El intervalo de confianza contiene al
0?, ¿Indica que hay o nó diferencia significante entre las dos medias?
Solución: Tenemos los siguientes datos:
Edades 25 − 34 Edades 65 − 74
n1 = 804 n2 = 1657
x1 = 176 x2 = 164
s1 = 35.0 s2 = 27.0
Luego tenemos que x1 − x2 = 176 − 164 = 12, ahora calculemos el margen de error,
utilizaremos el punto (2), s
s21 s2
E = tα/2 · + 2
n1 n2
28
de la “tabla t-student” con n1 − 1 = 803 grados de libertad vemos que tα/2 = 2.58,
entonces la expresión del margen de error resulta
r
(35)2 (27)2
E = 2.58 · +
√ 804 1657
= 2.58 · 1.52 + 0.44
= 2.58 · (1.4)
= 3.612
(n − 1) s2 2 (n − 1) s2
< σ <
χ2R χ2L
donde χ2R y χ2L son los valores crı́ticos de una distribución ji-cuadrada de los lados
derecho e izquierdo respectivamente (donde χ2L = χ2α/2 y χ2R = χ21−α/2 ), la distribución
tendrá n − 1 grados de libertad. Pues, asumiendo normalidad de los datos, la siguiente
expresión tendrá una distribución ji-cuadrada:
(n − 1) s2
χ2 =
σ2
Ejemplo:
En la siguiente tabla se muestran los pesos de 12 buñuelos (oz). El supervisor de
calidad ha encontrado que puede estar fuera de problemas si los buñuelos tienen una
media de 3.50 oz. y una desviación estándar de 0.06 oz o menos (pues han etiquetado 42
oz).
3.43 3.37 3.58 3.50 3.68 3.61 3.42 3.52 3.66 3.50 3.36 3.42
29
Construir intervalo de confianza del 95 % para σ 2 y un intervalo de confianza del 95 %
para σ, luego determina si el supervisor de control de calidad está en problemas.
Solución:
Para poder calcular el intervalo de confianza sólo necesitamos encontrar los valores de
s2 , χ2L y χ2R . Luego, s2 = 0.0119 y de “tablas” de la distribución ji-cuadrada tenemos que
χ2L = 3.82 y χ2R = 21.92 con n − 1 = 11 grados de libertad, y el “intervalo de confianza
del 95 %” para la varianza σ 2 es
(11) 0.0119 (11) 0.0119
< σ2 <
21.92 3.82
0.1309 0.1309
< σ2 <
21.92 3.82
2
0.0060 < σ < 0.0343
Dado que la función “raı́z cuadrada” es una función 1-1 podemos obtener también el
intervalo para la desviación estándar con sólo tomar la raı́z cuadrada en la expresión
anterior, es decir, √ √ √
0.0060 < σ 2 < 0.0343
0.077 < σ < 0.185.
Luego, como en el intervalo de confianza para la desviación estándar no se encuentra
el valor de 0.06, de hecho el intervalo “abarca” valores mayores a este y se necesitaba
valores menores para que el supervisor estuviera fuera de problemas, entonces quiere
decir que el proceso de la preparación de buñuelos tiene mucha variación. C
pb − E < p < pb + E
q
pbqb
donde E = zα/2 · n
con qb = 1 − pb
Ejemplo:
Ha sido realizado (Journal of Clinical Epidemiology, (1988) 41(6), 531-541 ) un estu-
dio caso-control sobre la efectividad del Test de Pap en la prevención del cáncer cervical
(por identificación de lesiones precancerosas). Se obtuvo que un 28.1 % de 153 casos de
cáncer cervical y un 7.2 % de 153 controles nunca se habı́an realizado un Test de Pap
previo al diagnóstico del caso.
30
(a) Obtén un intervalo de confianza, al 95 %, para el porcentaje de casos de cáncer
cervical que nunca se han realizado un Test de Pap.
Solución:
(a) Tenemos que pb = 0.281, qb = 1 − 0.281 = 0.719 y n = 153, y de la tabla de la
distribución normal para el nivel de 95 % tenemos que zα/2 = 1.96, luego
r
(0.281)(0.719) √
E = 1.96 · = 1.96 · 0.0013 = 0.071
153
y el “intervalo de confianza del 95 %” para la proporción p de casos de cáncer cervical
que nunca se han realizado un Test de Pap es
Otro caso es cuando queremos comparar dos proporciones de dos poblaciones indepen-
dientes. El intervalo de confianza en este caso será:
Ejemplo:
Según un estudio señaló que una gran proporción de crimenes cometidos por personas
menores de 21 años son crimenes violentos. De 2750 arrestos seleccionados aleatoriamente
de criminales menores de 21 años, el 4.25 % involucran crimenes violentos. De 2200
31
arrestos seleccionados aleatoriamente de criminales mayores o iguales a 21 años, el 4.55 %
involucran crimenes violentos. Construye un intervalo de confianza del 95 % para la
diferencia entre las dos proporciones de crimenes violentos. ¿El intervalo de confianza
contiene al cero?, ¿Esto indica que no hay una diferencia significativa entre estos dos
ı́ndices de crimenes violentos?
Solución:
Tenemos los datos de los menores de 21 años, pb1 = 0.0425, qb1 = 1 − 0.0425 = 0.9575 y
n1 = 2750, y para los mayores o iguales a 21 años, pb2 = 0.0455, qb2 = 1 − 0.0455 = 0.9545
y n2 = 2200, de la tabla de la distribución normal para el nivel de 95 % tenemos que
zα/2 = 1.96, luego
r
(0.0425)(0.9575) (0.0455)(0.9545)
E = 1.96 · + = (1.96) · (0.0059) = 0.012
2750 2200
y el “intervalo de confianza del 95 %” para la diferencia de proporciones (p1 − p2 ) es
32
1.6. Ejercicios propuestos
1. En una cierta población se estudia la variable aleatoria “cifra de urea en sangre”
(expresada en SDS-puntuaciones estándar). Se acepta que dicha variable se distri-
buye según una ley normal de media 0 y desviación tı́pica 1.
(a) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta
población tenga una SDS de urea en sangre inferior a 1.83?
(b) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta
población tenga una SDS de urea en sangre igual o superior a 1.65?
(c) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta po-
blación tenga una SDS de urea en sangre igual o inferior a -1.65?
(d) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta
población tenga una SDS de urea en sangre comprendida entre 0.25 y 1.25?
(e) ¿Cuál es la probabilidad de que un individuo escogido al azar de esta po-
blación tenga una SDS de urea en sangre comprendida entre -0.25 y 1.25?
(f) ¿Cuál es el valor de la variable urea en sangre expresada en SDS que limita
el 25 % superior de la distribución de todos los individuos de la población?
33
considerados como normales el 66.8 % de los varones mayores de 17 años. ¿A partir
de qué estatura será considerado como alto un varón mayor de 17 años? ¿Hasta
qué estatura es considerado bajo?
5. Se sabe que la estatura de los varones sigue una distribución Normal. ¿Cuáles son
sus parámetros si el percentil 5 es 156 cm y el 95 es 184 cm?
34
alta, que se encuentren bajo el efecto de un cierto medicamento H, la presión dis-
minuye en el 80 % de los casos. Consideremos una muestra de 200 individuos con
presión sanguı́nea alta:
(a) Si suponemos que no están afectados por ningún medicamento, calcula la
probabilidad de que le baje la presión a más de 90 individuos.
(b) Si la muestra se encuentra bajo el efecto de H, calcula la probabilidad de
que baje la presión en más de 172 casos ó en menos de 148.
9. Se ha comprobado que un cierto tipo de intervención quirúrgica tiene un porcen-
taje de complicaciones secundarias del 30 %. Consideremos cien pacientes que se
someten a dicha intervención:
(a) Calcula la probabilidad de que se produzcan menos de 20 complicaciones.
(b) Calcula el número máximo de complicaciones esperado, con una probabili-
dad del 95 %.
10. Si en una población de mujeres un 15 % están sometidas a cierta dieta, ¿cuál es la
probabilidad de que una muestra aleatoria de tamaño 100 dé una proporción de
aquellas que se encuentran a dieta:
(a) mayor o igual que 0.2?
(b) entre 0.1 y 0.2?
(c) no mayor que 0.12?
11. En una determinada comunidad hay unos hábitos alimenticios generales basados
en una dieta hipercalórica. Se piensa que este puede ser un factor que produzca
un incremento de la presión sanguı́nea en los individuos de la comunidad, respecto
a la media regional. Estudios previos han determinado que la presión sanguı́nea
sistólica se distribuye de manera normal, y que en la región su nivel medio es de
140 mmHg y σ = 20 mmHg. Con objeto de determinar los valores de la presión
sistólica en esa comunidad se tomó una muestra de 25 individuos, para los cuales
se obtuvo x = 146 mmHg. Si suponemos que en nuestra comunidad la dispersión
de la presión sistólica es la misma que en la región:
(a) Da una estimación del nivel medio de la presión sistólica en esa comunidad.
¿Qué error cometemos al hacer dicha estimación?
(b) ¿Qué tamaño de muestra debemos tomar para poder estimar la presión
sistólica media de la comunidad con un error máximo de 4 mmHg, para un nivel
de confianza del 95 %?
12. Estima puntualmente y mediante un intervalo de confianza, la cantidad media de
gastrina, en mujeres gestantes, entre 15 y 25 semanas de gestación, mediante los
datos siguientes:
35
39 49 35 39 34 21 49 40 35 38
13. Un dermatólogo investiga cierto tipo de afección de piel induciéndolo en una mues-
tra aleatoria de 25 ratas y tratándolas luego con un nuevo fármaco. Se cuenta el
número de horas hasta que desaparece dicha afección, con los resultados siguientes:
14. Estudiando la estatura de los individuos de una población, dos investigadores es-
cogieron, independientemente el uno del otro, dos muestras de 16 y 400 individuos,
respectivamente. La muestra de 16 individuos dio una estatura media de 172.94
cm. y una desviación tı́pica muestral de 3.3 cm. La muestra de tamaño 400 dio una
media de 172.23 cm y una desviación tı́pica muestral de 2.5 cm. Supongamos que
la estatura se distribuye normalmente.
(a) Calcula un intervalo de confianza para la estatura media de la población,
en el caso de la muestra de tamaño 16, para una confianza del 95 %.
(b) Ídem para la muestra de tamaño 400.
(c) Si nos preguntasen acerca de la estatura media de la población, ¿cuál de
las dos experiencias elegirı́amos para responder?. Razona la respuesta.
15. En un estudio sobre la talla de niños menores de 4 meses se obtuvo, a partir de una
muestra de 200 niños, que la talla media en la población considerada está entre
36
63.2 cm y 69.6 cm, con un nivel de confianza del 95 %. Por otro lado, sólo a 120
niños se les midió una cierta variable bioquı́mica, obteniéndose a partir de dicha
muestra, que el valor medio de dicha variable está entre 320mg/l y 336mg/l con
un nivel de confianza del 99 %.
(a) Da una estimación puntual del valor medio y de la varianza, tanto de la
talla como de la variable bioquı́mica, para los niños de la población.
(b) ¿Qué medida de dispersión utilizarı́as para saber en que muestra están los
datos más agrupados? Calcúlala para ambas muestras e indica qué conjunto de
datos es más homogéneo.
16. Los datos de la tabla adjunta corresponden al peso total del corazón en un grupo
de 10 hombres normales y 11 con enfermedad de corazón (valores tomados en
autopsias realizadas en un determinado hospital). Suponiendo normalidad de la
variable, construye un intervalo de confianza, para un nivel de confianza del 99 %,
para la varianza del peso total del corazón de hombres con la enfermedad. Ídem
para hombres normales.
Enfermos 450 760 325 495 285 450 460 375 310 615 425
Normales 245 350 340 300 310 270 300 360 405 290
Antes 200 194 236 163 240 225 203 180 177 240
Después 188 212 186 150 200 222 190 154 180 225
37
19. En un muestreo llevado a cabo en una amplia región se tomaron 125 individuos, al
azar, de los cuales 30 padecieron afecciones pulmonares.
(a) Estima la proporción de afecciones pulmonares en dicha región.
(b) Si queremos estimar dicha proporción con un error máximo del 4 %, para
una confianza del 95 %, ¿qué tamaño de muestra debemos tomar?.
38
Capı́tulo 2
Pruebas de hipótesis
39
ber estadı́stica puede formularse la siguiente hipótesis al comprar un tanque de gas de
30kg:“éste tanque me durará un mes, pues, siempre me há durado ese tiempo”, en éste
caso el ejemplo es muy burdo pues, la forma de probar ésta hipótesis es cuando se termine
dicho tanque; pero, el punto en este caso es que la proposición salió de un contexto que
no fué matemático.
En general, una hipótesis estadı́stica es una proposición o conjetura sobre un paráme-
tro o parámetros de una distribución de probabilidad.
Considerando el ejemplo del gas, ¿qué sucede si la afirmación que se dió no se cumple?,
es decir, se acabó el gas y no llegó al mes ó fué más de lo esperado. Siempre al realizar
una prueba de hipótesis hay dos opciones, supongamos que hay µ = 1 y µ = 1.5 (dura
un mes ó 1.5 meses, no se sabe). Para distinguir entre las dos proposiciones, a una de
ellas se le llama hipótesis nula y se le denota por H0 , y la otra se llama hipótesis
alternativa y se le denota por H1 . Entonces podemos escribir:
H0 : µ = 1,
H1 : µ = 1.5,
o bien,
H0 : µ = 1.5,
H1 : µ = 1.
En el mismo ejemplo citado, si se conocen los demás parámetros la población, entonces
H0 y H1 se llaman hipótesis simples. Si en lugar de µ = 1 se tuviera que
entonces la hipótesis serı́a una hipótesis compuesta, porque, aunque H0 fuera cierta,
no se conocerı́a el valor exacto de µ, el cual puede ser una infinidad de números.
Al realizar una prueba de hipótesis se pueden cometer dos tipos de errores: Tipo I y Tipo
II. Se comete error tipo I cuando se rechaza una hipótesis que deberı́a ser aceptada,
y se comete el error tipo II cuando de acepta una hipótesis que deberı́a ser rechazada
(véase figura).
40
Como veremos adelante, el problema de minimizar los errores de decisión no es simple.
La dificultad se debe a que, para un tamaño de muestra dado, es usual que un intento
de disminuir uno de los errores esté acompañado de un incremento en el otro error. En
las secciones siguientes calcularemos las probabilidades con que se pueden ocurrir esos
errores y algunas formas de disminuirlas.
41
Optamos por esta regla porque el resultado en los primeros 100 lanzamientos nos sugi-
rió que, si la moneda está desviada, en todo caso serı́a a favor de obtener menos del 50 %
de águilas, en lugar de obtener más del 50 %. En la siguiente figura se ilustra la regla
decisión.
1. la hipótesis nula, H0
2. la hipótesis alternativa, H1
3. el estadı́stico de la prueba
4. la región de rechazo
Como en general no tenemos manera de afirmar que esta regla nos dará siempre la
decisión correcta, calcularemos la probabilidad de cometer los errores tipo I y tipo II.
Primeros calcularemos la probabilidad del error tipo I. Es decir, si H0 es correcta (p =
0.5), ¿cuál es la probabilidad de obtener menos de 45 águilas en 100 lanzamientos de la
moneda?. Sabemos que la distribución del número de águilas en 100 lanzamientos (que
es una distribución binomial) se puede aproximar por la distribución de una variable
normal X con media y desviación estándar
p
µ = p = 0.5, σ = p(1 − p)/n = 0.05 (2.2)
42
α = P[rechazar H0 dado que es cierta]
= P[X < 0.45|p = 0.5]
= P[(X − 0.5)/0.05 < −1]
= 0.1587 (de la tabla normal).
43
Ası́ pues, α se puede reducir a costa de aumentar β. En este caso, la potencia 1 − β de la
prueba disminuye, lo cual hace crecer el riesgo de aceptar una hipótesis falsa. Asi mismo,
si se desea reducir β (moviendo el punto crı́tico 0.45 hacia la derecha) necesariamente
aumenta α.
Ante esta disyuntiva se acostumbra fijar de antemano el nivel de confianza de la prueba.
Por ejemplo, si se desea un nivel de confianza de 1 − α = 95 % (o equivalentemente, un
nivel de significancia = 5 % = 0.05) entonces se puede calcular el punto crı́tico para el
cual nuestra regla de decisión (2.1) será correcta en (aproximadamente) 95 de cada 100
veces que se repita el experimento. Es decir (aproximadamente), sólo en uno de cada
20 experimentos rechazaremos la hipótesis cierta H0 . Entonces con los datos (2.2) de
nuestro ejemplo (H0 : µ = 0.5, σ = 0.05), de la tabla normal,
si x = −1.65. (El signo negativo aparece porque recuerde que estamos calculando el área
bajo la curva N (µ, σ) a la izquierda de x0 que a su vez se encuentra a la izquierda de µ.)
Esto significa que el valor x0 (el punto crı́tico) a la izquierda del cual está contenida el
5 % del área bajo la curva normal correspondiente a H0 es la solución a la ecuación
o sea,
x0 = (0.05)(−1.65) + (0.5) = 0.4175.
Este resultado nos dice que con un nivel de confianza del 95 % podemos modificar (2.1)
y aceptar como nuestra regla de decisión la siguiente: Al efectuar 100 lanzamientos de la
moneda
44
(b) rechazamos H0 (y aceptamos H1 ) si ocurren menos de 42 águilas.
(i) Se enuncian las hipótesis nula y alternativa (H0 y H1 ), y se dan el nivel de signifi-
cancia (usualmente α = 1 % ó α = 5 %) y el tamaño de la muestra.
(ii) Se supone que H0 es cierta y se determina el punto crı́tico para conocer las regiones
de aceptación y de rechazo de H0 . (En algunos casos, no siempre, también es nece-
sario calcular β, la probabilidad del error tipo II.) Lo anterior equivale a formular
nuestra regla de desición.
(iii) Se toma una muestra de tamaño indicado en (i) y se ve si los resultados son
significativos (se rechaza H0 ) o no lo son (se acepta H0 ).
Solución:
Paso 1: La afirmación de que la media es igual a 98.6 es expresada en forma simbólica
como µ = 98.6.
45
Paso 2: La alternativa a la afirmación original es µ 6= 98.6.
Paso 6: Para calcular el estadı́stico de prueba, podemos usar s = 0.62 como un es-
timador razonable de σ (pues n > 30), entonces el estadı́stico de prueba se encuentra
convirtiendo la media muestral x = 98.2 en z = −6.64, a través del siguiente cálculo:
x − µx 98.20 − 98.6
z= = = −6.64
√σ 0.62
√
n 106
el cual lo comparamos con z = −1.96, 1.96. Nuestra región de rechazo es de dos colas.
46
Siguiendo esta metodologı́a para el ejemplo de la moneda de la sección anterior, su-
pusimos que de 100 lanzamientos obtuvimos 38 águilas, esto es p = 0.38, luego los pasos
en este caso estarán dados por,
Paso 1: La afirmación de que la proporción es igual a 0.50 es expresada en forma simbóli-
ca como p = 0.50.
Paso 6: Para calcular el estadı́stico de prueba, será a través del siguiente cálculo:
47
Paso 7: La proporción muestral pb = 0.38 se convirtió a un estadı́stico de prueba
z = −2.47, el cual cae dentro de la región crı́tica, entonces rechazamos la hipótesis
nula.
(n−1)s2
χ2 = σ2
Población con una desviación estándar o varianza.
48
Dos poblaciones
d−µd Dos medias dependientes.
t= s
√d
n (gl = n − 1)
p1 −b
(b p )−(p1 −p2 ) Dos proporciones
z= q2 (x1 +x2 )
pq
n
1
+ npq
2
(donde p = (n1 +n2 )
)
49
2.4. Ejercicios propuestos
1. Suponer que existe una droga experimental que puede aumentar la probabilidad
de concebir un varón. Debe ser administrada a la mujer algunos dı́as previos a la
ovulación. Se planea un experimento con mujeres, clasificadas en dos grupos: las
que se les administra la droga, y las que se les aplica un placebo. Se observarán las
frecuencias de concepción de varones en cada grupo.
(a) El Cientı́fico #1, versado en embriologı́a, desea aprovechar el experimento
sobre el grupo placebo, para verificar la hipótesis de que la determinación del sexo
es totalmente aleatoria.
(b) El Cientı́fico #2, desea analizar ambos grupos para determinar si la droga
cumple el objetivo pretendido.
Plantea las hipótesis que son de interés para cada uno de los cientı́ficos.
4. La ingestión de calorı́as por persona y por dı́a en una determinada región es de 2900
calorı́as. En una región vecina, se efectuó un muestreo para estudiar el consumo
medio de calorı́as. Se eligieron aleatoriamente 50 personas y los resultados fueron
50
de un consumo medio de 3000 calorı́as por persona y por dı́a, con una desviación
tı́pica muestral de 100 calorı́as. Suponiendo que la distribución del consumo de
calorı́as en esa región es normal, contesta las siguientes preguntas:
(a) ¿Podemos admitir, con un nivel de significancia del 5 %, que las dos regiones
tienen diferente consumo medio de calorı́as por persona y por dı́a?.
(b) Si la muestra hubiese sido de tamaño 27, ¿a qué conclusiones llegarı́amos?
(a) Probar si existe diferencia significativa entre las dosis medias de colesterol
sérico en ambas poblaciones, suponiendo normalidad de ambas variables.
(b) ¿Qué podemos hacer si no tenemos la hipótesis de normalidad?
51
(Unidades=minutos). Si suponemos que las variables se distribuyen normalmente,
realiza el contraste adecuado.
10. Se ha estudiado el tiempo de reacción ante un estı́mulo auditivo bajo dos situaciones
o condiciones radicalmente diferentes F y Q. Para ello se ha elegido una muestra
aleatoria de 9 niños, los cuales han sido estimulados, en primer lugar, bajo la
situación F y pasado un tiempo prudencial de reposo, son nuevamente estimulados
bajo Q. Los tiempos de reacción, en centésimas de segundo, aparecen en la siguiente
tabla:
niño 1 2 3 4 5 6 7 8 9
sist. F 14 12 9 13 15 17 13 12 13
sist. Q 17 14 13 15 16 16 16 15 13
11. Se quiere probar si los efectos hipnóticos de un nuevo fármaco M, son mejores que
los del fármaco usado habitualmente L. Para ello se eligieron 10 personas, de forma
aleatoria, a las que primeramente se les administró L y se les anotó el tiempo, en
horas, de sueño. Pasado un tiempo prudencial se les administró M, obteniéndose
del mismo modo, el tiempo, en horas, de sueño. Los resultados fueron los siguientes:
Persona 1 2 3 4 5 6 7 8 9 10
L 7 6 8 9 6.5 8 8.5 8 9.5 8
M 9 8 10 8.5 9 7 9 8.5 9.5 7.5
12. A 11 ratas tratadas crónicamente con alcohol se les midió la presión sanguı́nea
sistólica antes y después de 30 minutos de administrarles a todas ellas una cantidad
fija de etanol, obteniéndose los datos que aparecen en la siguiente tabla:
Ratas 1 2 3 4 5 6 7 8 9 10 11
Antes 126 120 124 122 130 129 114 116 119 112 118
Después 119 116 117 122 127 122 110 120 112 110 111
52
13. Los porcentajes de curación de dos tipos de cáncer de piel A y B han sido del 85 %
sobre una muestra de 400 cancerosos A y de 225 curaciones sobre una muestra de
300 cancerosos B. ¿Existe diferencia significativa en las proporciones de curaciones
de estos tipos de cáncer?. Si es afirmativa la respuesta, ¿es posible estimar dicha
diferencia?
14. Se sospecha que añadiendo al tratamiento habitual para la curación de una deter-
minada enfermedad, un medicamento A, se consigue mayor número de curaciones.
Tomamos dos grupos de enfermos de 100 individuos cada uno. Al primero se le
suministra el medicamento A y se curan 60, mientras que al otro grupo no se le
administra y se curan 55. ¿Podemos decir que es beneficioso el uso del medicamento
A, para la curación de la enfermedad, para un nivel de significancia del 5 %? ¿Cómo
queda la respuesta a la pregunta anterior reflejado en el intervalo de confianza para
la diferencia de proporciones?
15. Se quiere comprobar la efectividad de una vacuna contra una determinada enfer-
medad. Para ello se suministra la vacuna a 100 animales y se les comparó con un
grupo control de otros 100, de modo que a los 200 se les contagió la enfermedad.
Entre los vacunados murieron sólo 8 como resultado de la enfermedad, mientras
que del grupo testigo murieron 20. ¿Podemos decir, con un nivel de significancia
del 5 %, que la vacuna es eficaz para reducir la mortalidad?
16. Durante mucho tiempo se ha afirmado que en los nacimientos gemelares el segundo
nacido tiene una mayor probabilidad de sufrir determinados problemas respiratorios
que el primero. ¿Es aceptable la hipótesis si, de 221 nacimientos gemelares, en 24
casos ambos niños presentaron los problemas, en 158 ninguno los presentó, en 8 los
presentó el primero pero no el segundo y al revés en los 31 restantes?. Cuantifica
el incremento de la probabilidad. (Arnold et al.(1987) The New England Journal
of Medicine, 317(18), 1121-1125).
53
Apéndice A
Tablas de Distribuciones
54
Distribución Normal Estándar
Valores de
55
Distribución t
υ = n − 1 es el número de grados de libertad (n es el tamaño de muestra). P es la
probabilidad de que |t| sea mayor que t0 , P = P [|t| > t0 ] .
56