Unidad 3 Estimacion y Prueba de Hipotesis

ESTADSTICA UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS
UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS.
3.1 MUESTREO ALEATORIO.
Claramente, la confiabilidad de las conclusiones obtenidas concernientes a una poblacin

dependen de si la muestra se tom adecuadamente, para que represente a la poblacin lo
suficientemente bien. Uno de los problemas importantes de la inferencia estadstica es
precisamente cmo obtener una muestra.
Una manera de hacer esto para poblaciones finitas es asegurar que cada miembro de la
poblacin tenga la misma probabilidad de estar en la muestra, lo cual se denomina,
muestra aleatoria. Una muestra aleatoria puede lograrse para muestras de poblaciones
relativamente pequeas extrayendo lotes, o de manera equivalente, usando una tabla de
nmeros aleatorios, especialmente construida para tales propsitos.
Ejercicio.
Cuntas muestras distintas de n podemos tomar de una poblacin finita de tamao N,

cuando
a) n=2 y N=12
b) n=3 y N=100 ?
Hay (122)= 12.11

2!
=66 muestras distintas.
100.99.98
Hay (100
23 )=
3!
=161,700 muestras distintas.
3.1.1 ALEATORIO SIMPLE.
Con base en el resultado de que hay ( Nn ) muestras distintas de tamao n de una
poblacin finita de tamao N, presentaremos la siguiente definicin de una muestra

aleatoria (en ocasiones conocida tambin como muestra aleatoria simple) de una
poblacin finita:
1
ESQUIVEL REYES GEOVANNI ALEXIS
Una muestra de tamao n de una poblacin finita de tamao N es una variable aleatoria si
se selecciona de manera tal que cada una de las ( Nn ) muestras posibles tiene la
1
,
misma probabilidad,
()
N
n
de ser seleccionada.
Ejercicio.
Tome una muestra aleatoria de tamao n=12 de la poblacin consistente en las

cantidades de impuestos sobre las ventas cobradas por 247 farmacias de una ciudad en
diciembre de 1990 numerando las farmacias como 001,002,003 y 247 (digamos, en el
orden en que aparecen en el directorio telefnico) leyendo nmeros aleatorios de tres
dgitos de la segunda pgina de la tabla XI, usando la vigesimasexta, la vigesimaseptima
y la vigesimaoctava columnas empezando en el sexto rengln y continuando pagina
abajo.
Siguiendo estas instrucciones, obtenemos
046 230 079 022119 150 056 064 193 232 040 146
Donde ignoramos los nmeros mayores que 247; si cualquier nmero se hubiera repetido,
tambin lo habramos ignorado. Los doce nmeros que tenemos aqu son los nmeros
asignados a las farmacias; las cifras de impuestos sobre las ventas correspondientes
constituyen la muestra aleatoria deseada.
3.1.2 SISTEMTICO.
En algunos casos, la manera ms prctica de efectuar un muestreo consiste en

seleccionar, digamos, cada vigsimo nombre de una lista, cada decimasegunda casa de
un lado de una calle, cada quincuagsima pieza de una lnea de ensamble y as
sucesivamente.
Esto se conoce como muestreo sistemtico y se puede integrar un elemento de azar en

esta clase de muestreo usando nmeros aleatorios para seleccionar la unidad en la que
se debe comenzar. Aunque una muestra sistemtica puede no ser una muestra aleatoria
de acuerdo con la definicin, a menudo es razonable tratar las muestras sistemticas
como si fueran muestras aleatorias; de hecho, en algunos casos las muestras
sistemticas en realidad pueden ser mejores que las muestras aleatorias simples por que
las primeras se extienden en forma ms regular sobre las poblaciones enteras.
Ejercicio.
2
Si tenemos una poblacin formada por 100 elementos y queremos extraer una
muestra de 25 elementos, en primer lugar debemos establecer el intervalo de
seleccin que ser igual a 100/25=4 . A continuacin elegimos el elemento
de arranque, tomando aleatoriamente un nmero entre el 1 y el 4, y a partir de

l obtenemos los restantes elementos de la muestra.
2, 6, 10, 14,..., 98
3.1.3 ESTRATIFICADO.
Si tenemos informacin acerca de la constitucin de una poblacin (es decir, su

composicin) y esta es importante para nuestra investigacin, podemos mejorar el
muestreo aleatorio por medio de la estratificacin. Este es un procedimiento que consiste
en estratificar (o dividir) en un numero de subpoblaciones o estratos que no se traslapen y
luego tomar una muestra de cada estrato. Si los artculos seleccionados de cada estrato
constituyen muestras aleatorias simples, el procedimiento completo (primero la
estratificacin y luego el muestreo aleatorio) se conoce como muestreo aleatorio (simple)
estratificado.
Esencialmente el objetivo de la estratificacin es formar estratos de tal forma que haya

alguna relacin entre estar en un estrato particular y la respuesta que se busca en el
estudio estadstico y que en los estratos separados haya tanta homogeneidad como sea
posible.
Ejercicio.
Se debe tomar una muestra estratificada de tamao n=60 de una muestra de tamao
N=4000, que consta de tres estratos de tamao N 1=2000, N 2=1200 y N 3 =800.
Si la distribucin debe ser proporcional, cun grande debe ser la muestra tomada de
cada estrato?
Sustituyendo en la frmula, obtenemos:
2000 1200 800

n1= .60=30 n 2= .60=18 n3= .60=12
4000 4000 4000
3.1.4 POR CONGLOMERADOS.
Se divide la poblacin en varios grupos de caractersticas parecidas entre ellos y luego se

analizan completamente algunos de los grupos, descartando los dems. Dentro de cada
conglomerado existe una variacin importante, pero los distintos conglomerados son
parecidos. Requiere una muestra ms grande, pero suele simplificar la recogida de
muestras. Frecuentemente los conglomerados se aplican a zonas geogrficas.
3
Se divide la poblacin total en un nmero determinado de subdivisiones relativamente

pequeas y se seleccionan al azar algunas de estas subdivisiones o conglomerados para
incluirlos en la muestra general. Si los conglomerados son subdivisiones geogrficas, este
muestreo se llama tambin muestreo por reas.
Ejercicio.
Suponga que el decano de estudiantes de una universidad quiere saber la opinin de la

fraternidad hacia la escuela acerca de cierta disposicin nueva. Puede tomar una muestra
de conglomerados entrevistando algunos o a todos los miembros de varias fraternidades
seleccionadas a azar. Aunque las estimaciones basadas en el muestreo por
conglomerados por lo general no son tan confiables como las estimaciones que se basan
en muestras aleatorias simples del mismo tamao, a menudo son ms confiables por el
costo unitario.
3.1.5 EN DOS ETAPAS.
Cuando en el muestreo por conglomerados se prosigue en el anlisis y dentro de

cada conglomerado se vuelven a seleccionar, tambin de forma aleatoria, nuevos
subconglomera-dos, y as sucesivamente hasta seleccionar las unidades ltimas,
al muestreo se le denominador etapas o polietpico. El ms frecuente de los muestreos
por etapas es el bietpico, en el que se seleccionan, en primer trmino y de forma
aleatoria, los conglomerados o reas, y en una segunda etapa, las unidades ltimas o
ms elementales del conjunto poblacional, sin necesidad de tener que seleccionar ningn
otro tipo de unidad intermedia.
Ejercicio.
Si estadistas del gobierno quieren estudiar la opinin de los profesores de las escuelas
primarias estadounidenses hacia ciertos programas federales, podran estratificar primero
el pas por estados o algunas otras subdivisiones geogrficas. Para tomar medida de
cada estrato, podran usar el muestreo de conglomerados subdividiendo cada estrato en
un nmero determinado de subdivisiones geogrficas ms pequeas y finalmente podran
usar un muestreo aleatorio simple o un muestreo sistemtico para seleccionar una
muestra de profesores de educacin primaria de cada conglomerado.
3.2 ESTIMACIN PUNTUAL.
Un estimador de un parmetro poblacional dado por un numero sencillo se llama

estimador puntual del parmetro. Un estimador de un parmetro poblacional dado por dos
nmeros entre los cuales se puede considerar que esta el parmetro, se llama estimacin
por intervalo del parmetro.
3.2.1 PROPIEDADES.
4
Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y

eficiencia. Se trata del error cuadrtico medio. Sea T un estimador del parmetro
. El error cuadrtico medio de T , denotado ECM (T ) , se define como el valor
esperado de (T )2 .
ECM (T )=E[(T )2]
Nos referimos al promedio de los cuadrados de las observaciones. Si ste es pequeo,

T
debemos aceptar que hay una tendencia para que los valores ) sean pequeos, y
T
as lo ser tambin la diferencia ), lo que quiere decir que T tiende a producir
respuestas numricas prximas al parmetro . El poder que tenga T para producir
valores prximos a depende de dos condiciones bsicas. Una es la fuerza o

intensidad con la que tiende a dar esos valores (insesgamiento) y la otra es la fuerza
que tenga para no permitir que se aparte de del camino que lo conduce a
(eficiencia). Estas dos condiciones matemticamente quedan establecidas y precisadas

en el teorema siguiente:
TEOREMA
Si T es un estimador del parmetro , ECM (T )=V [T ] [E( T )]2
3.2.1.1 INSESGADO.
Se dice que un estimador puntual ^, es un estimador insesgado de , si
E ( ^ ) = , para todo valor posible de . En otras palabras, un estimador insesgado
es aquel para el cual la media de la distribucin muestral es el parmetro estimado. Si se

usa la media muestral x para estimar la media poblacional , se sabe que la
x = , por lo tanto la media es un estimador insesgado.
5
Ejercicio.
La media X y varianza S^ , son estimadores insesgados de la media de la poblacin

2
y varianza 2 , ya que E ( X ) = , E ( S^ 2 ) = 2 . Los valores de x y s^ 2 se
S^
2
denominan estimadores insesgados. Sin embargo, es un estimador sesgado de
, ya que, en general , E ( S^ 2 ) 2 .
3.2.1.2 CONSISTENTE.
Una estadstica es un estimador coherente de un parmetro de poblacin, si al aumentar
el tamao de la muestra se tiene casi la certeza de que el valor de la estadstica se
aproxima bastante al valor del parmetro de la poblacin. Si un estimador es coherente se
vuelve ms confiable si tenemos tamaos de muestras ms grandes.
Un estimador es suficiente si utiliza una cantidad de la informacin contenida de la

muestra que ningn otro estimador podra extraer informacin adicional de la muestra
sobre el parmetro de la poblacin que se est estimando.
Es decir se pretende que al extraer la muestra el estadstico calculado contenga toda la

informacin de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se
necesitan todos los datos. Cuando se calcula la mediana de una muestra slo se utiliza a
un dato o a dos. Esto es solo el dato o los datos del centro son los que van a representar
la muestra. Con esto se deduce que si utilizamos a todos los datos de la muestra como es
en el caso de la media, la varianza, desviacin estndar, etc; se tendr un estimador
suficiente.
Ejercicio.
Para una poblacin normal, la distribucin muestral de la media y la mediana tienen la

misma media; es decir, la media de la poblacin. Sin embargo, la varianza de la
distribucin muestral de medias es ms pequea que aquella de la distribucin muestral
de medianas. Por consiguiente, la media provee un estimador ms eficiente que la
mediana.
3.2.1.3 INSESGADO DE VARIACION MINIMA.
6
Suponga que ^ 1 y ^ 2 son dos estimadores insesgados de . Entonces, aun
cuando la distribucin de cada estimador est centrada en el valor verdadero de , las
dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes.
Entre todos los estimadores de que son insesgados, seleccione al que tenga
varianza mnima. El ^ resultante recibe el nombre de estimador insesgado con
varianza mnima (MVUE, minimum variance unbiased estimator) de .
En otras palabras, la eficiencia se refiere al tamao de error estndar de la estadstica. Si

comparamos dos estadsticas de una muestra del mismo tamao y tratamos de decidir
cul de ellas es un estimador ms eficiente, escogeramos la estadstica que tuviera el
menor error estndar, o la menor desviacin estndar de la distribucin de muestreo.
Tiene sentido pensar que un estimador con un error estndar menor tendr una mayor
oportunidad de producir una estimacin ms cercana al parmetro de poblacin que se
est considerando.
Como se puede observar las dos distribuciones tienen un mismo valor en el parmetro
slo que la distribucin muestral de medias tiene una menor varianza, por lo que la media
se convierte en un estimador eficiente e insesgado.
Ejercicio.
Si decimos que una distancia es de 5.28 metros, estamos dando un estimador puntual. Si,
por otro estamos dando una estimacin por intervalo.
La confiabilidad de un estimador es el conocimiento de su error o de su precisin.
7
3.3 ESTIMACIN POR INTERVALOS DE CONFIANZA.
3.3.1 DE LA MEDIA CON CONOCIDA.
Es conocido de nosotros durante este curso, que en base a la distribucin muestral de

medias que se gener en el tema anterior, la frmula para el clculo de probabilidad es la
siguiente: z=( x ) /( n) . Como en este caso no conocemos el parmetro y lo
queremos estimar por medio de la media de la muestra, slo se despejar de la

formula anterior, quedando lo siguiente:
z
= x
n
De esta frmula se puede observar que tanto el tamao de la muestra como el valor de z
se conocern. Z se puede obtener de la tabla de la distribucin normal a partir del nivel de
confianza establecido. Pero en ocasiones se desconoce por lo que en esos casos lo
correcto es utilizar otra distribucin llamada "t" de student si la poblacin de donde
provienen los datos es normal.
Para el caso de tamaos de muestra grande se puede utilizar una estimacin puntual de
la desviacin estndar, es decir igualar la desviacin estndar de la muestra a la de la
poblacin (s= ).
Ejercicio.
Las medidas de los dimetros de una muestra aleatoria de 200 balineras hechas por
cierta maquina durante una semana mostraron una media de 0.824 centmetros y
desviacin estndar 0.042 centmetros. Encuentre los lmites de confianza del a) 95% y
b) 99% para el dimetro medio de todas las balineras.
Ya que n=200 es grande, podemos suponer que X tiene un distribucin casi

normal.
8
a) Los limites de confianza del 95% son
s^ 0.042
X 1.96 =x 1.96 =0.824 1.96 =0.824 0.0058 cm 0.824 0.006 cm
n n 200
b) Los limites de confianza del 99% son
s^ 0.042
X 2.58 =x 2.58 =0.824 2.58 =0.824 0.0077 cm 0.824 0.008 cm
n n 200
3.3.2 DE LA MEDIA CON DESCONOCIDA.
En este caso usamos la distribucin t para obtener los niveles de confianza. En

general, los lmites de confianza para las medias de las poblaciones estn dados por:
S^
X t c
n
Ejercicio.
Una muestra de 10 medidas del dimetro de una esfera dio una media x =4.38
centimetros y desviacin estndar s=0.06 centimetros. Encuentre los limites de

confianza del 95% para el verdadero dimetro.
9
Los limites del 95% estn dados por X t 0.975 ( S/ n1) .
Ya que v =n1=101=9 , encontramos que t 0.975=2.26
Entonces, usando x =4.38 y s=0.06 , los limites de confianza del 95% requeridos
son
0.06
4.38 2.26 =4.38 0.0452 cm
101
Por consiguiente, podemos tener el 95% de confianza de que las verdaderas medias
estarn entre 4.380.045=4.335 cm y 4.38+ 0.045=4.425 cm .
3.3.3 DE LA VARIANZA.
El hecho de que n S 2 / 2=(n1) S^ 2 / 2 tenga distribucin chi cuadrado con n1
grados de libertad, nos permite obtener lmites de confianza para 2 o . Por
ejemplo, si x 20.025 y x 20.975 son valores de X2 para los cuales 2.5% del rea esta
en cada cola de la distribucin, entonces el 95% del intervalo de confianza es
n S2
x 20.025 2
x20.975

O de manera equivalente
(n1)S 2
x 20.025 2
x 20.975

De esto vemos que puede calcularse en el intervalo
S n

S n
X 0.975 X 0.025
O de manera equivalente
10
S^ n1 S^ n1

X 0.975 X 0.025
Con el 95% de confianza. De igual manera, se pueden encontrar otros intervalos de

confianza. En general es deseable que la amplitud esperada de un intervalo de confianza
sea lo ms pequea posible. Para estadsticos con distribuciones muestrales simtricas,
tales como la normal y la t, esto se logra usando colas con reas iguales. Sin embargo,
para distribuciones no simtricas, tales como la chi cuadrado, puede ser deseable ajustar
las reas de las colas de manera que se obtenga el menor intervalo.
Ejercicio.
Se calcul que la desviacin estndar de los tiempos de vida de una muestra de 200
bombillas elctricas es 100 hrs. Encuentre los lmites de confianza del a) 95%, para la
desviacin estndar de todas esas bombillas elctricas.
En este caso se aplica la teora de muestreo grande. Por consiguiente los lmites de
confianza para la desviacin estndar de la poblacin estn dados por S z c / 2 n ,
zc
donde indica el nivel de confianza. Usamos la desviacin muestral estndar para
calcular .
Los lmites de confianza del 95% son 100 1.96(100)/ 400=100 9.8 .
Por consiguiente, podemos tener confianza del 95% de que la desviacin estndar de la
poblacin estar entre 90.2 y 109.8 hrs .
3.3.4 DE LA PROPORCIN.
Su pongamos que el estadstico S es la proporcin de xitos en un muestra de tamao

n 30, obtenida a partir de una poblacin con distribucin binomial en la que p es
la proporcin de xitos (es decir, la probabilidad de xito). Entonces, los limites de
P z c P , donde P
confianza para p estn dados por es la proporcin de xitos en
n . Usando los valores de P

la muestra de tamao , vemos que los limites de
confianza para proporcin de la poblacin estn dados por
P z c
pq
n
=P z c

p( 1 p)
n
11
En el caso en que el muestreo se haga de una poblacin infinita o si se hace de una

poblacin finita y con reemplazo. De manera similar, los lmites de confianza son
P z c

pq
n
N n
N 1
Si la toma de muestras se hace sin reemplazo de una poblacin de tamao finito N.
Ejercicio.
Una encuesta de 100 votantes, escogidos al azar de todos los votantes en un distrito
dado, indico que el 55% est a favor de un candidato en particular. Encuentre los limites
de confianza del a) 95%, b) 99%.
a) Los limites de confianza del 95% de la p poblacional son
P 1.96 P=P 1.96

p(1 p)
n
=0.55 1.96

( 0.55 ) (0.45)
100
=0.55 0.10
Donde usamos la proporcin muestral de 0.55 para estimar p .
b) Los limites de confianza del 99% para p son
0.55 2.58 ( 0.55 ) (0.45)/100=0.55 0.13 .
3.4 ESTIMACIN POR INTERVALOS DE CONFIANZA.
3.4.1 DE LA DIFERENCIA DE DOS MEDIDAS CON CONOCIDAS.
S 1 y S2
Si son dos estadsticos muestrales cuya distribucin muestral es
aproximadamente normal, los limites de confianza para las diferencias de los parmetros
S 1 y S2 , estn dados por
poblacionales correspondientes a
S 1S2 z c S =S 1S 2 z c 2S + 2S
1S2 1 2
Mientras que los limites de confianza para la suma de los parmetros de la poblacin
estn dados por
S 1 +S 2 z c S =S1 + S2 z c 2S + 2S
1S 2 1 2
12
Siempre y cuando las muestras sean independientes.
De manera similar, los limites de confianza para a diferencia de dos proporciones de

poblaciones, donde las poblaciones son infinitas, estn dados por
P1P2 z c
P 1(1P1) P2 (1P2)
n1
+
n2
P1 y P2 n1n2
Donde son las dos proporciones muestrales y son los tamaos de
las dos muestras obtenidas de la poblacin.
Ejercicio.
En una muestra aleatoria de 400 adultos y 600 adolescentes que vean cierto programa
de televisin, 100 adultos y 300 adolescentes dijeron que les gusto. Construya los limites
de confianza del 95% para la diferencia en proporciones de todos los adultos y
adolescentes que vieron el programa y lo encontraron de su agrado.
Los limites de confianza para la diferencia en proporciones de los dos grupos estn dados
por
P1P2 z c
P 1 Q 1 P2 Q 2
n1
+
n2
Donde los subndices 1 y 2 se refieren a adolescentes y adultos, respectivamente, y

Q1=1P1 , Q2=1P2 P1=300/600=0.50
los complementos. Aqu y
P2=100/ 400=0.25 son respectivamente, la proporcin de adolescentes y adultos a

los que les gusto el programa.
a) Limites de confianza del 95%:
0.500.25 1.96 ( 0.50 ) (0.50)/600+ ( 0.25 ) (0.75)/ 400=0.25 0.06 .
Por consiguiente, podemos tener confianza del 95% de que la diferencia verdadera de
proporciones este entre 0.19 y 0.31.
3.4.2 DE LA DIFERENCIA DE DOS MEDIDAS CON DESCONOCIDAS.
13
2 2
1 2 1 2 ,
Si se tienen dos poblaciones con medias y y varianzas y
1 2 est dado por

respectivamente, un estimador puntual de la diferencia entre y
x 1x 2 .
la estadstica
1 2 se seleccionan dos
Por tanto. Para obtener una estimacin puntual de
n1 y n 2 , se
muestras aleatorias independientes, una de cada poblacin, de tamao
x 1x 2 , de las medias muestrales.

calcula la diferencia
Recordando a la distribucin muestral de diferencia de medias:
( x1 x2 ) ( 1 2 )
z=
21 22
+
n1 n2
3.4.2.1 CON IGUALES.
1= 2= .
Supongamos ahora que las varianzas son desconocidas pero iguales ( La
distribucin de la diferencia de medias muestrales es ahora
( x1 x2 ) ( 1 2 )
z=
21 22
+
n1 n2
Tenemos que eliminar el parmetro , para lo cual utilizaremos los distribuciones
muestrales asociadas a las cuasi-varianzas muestrales
El nuevo estadgrafo de contraste es de la forma
( x 1x 2 )
t= =t n +n 2
1 1 1 2
s +
n1 n2
14
Los dos estadsticos toman exactamente el mismo valor por lo que pueden utilizarse
indistintamente. Usaremos el calculado a partir de la cuasi-varianzas porque son
estimadores insesgados de la varianza poblacional. En este caso es necesario que las
varianzas sean iguales para poder despejarlas y eliminarlas en el clculo del estadgrafo
de contraste. La comprobacin de la igualdad de varianzas se har posteriormente
aunque sea un paso previo a la decisin del tipo de contraste.
Ejercicio.
Un artculo publicado dio a conocer los resultados de un anlisis del peso de calcio en
cemento estndar y en cemento contaminado con plomo. Los niveles bajos de calcio
indican que el mecanismo de hidratacin del cemento queda bloqueado y esto permite
que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras
de cemento estndar, se encontr que el peso promedio de calcio es de 90 con una
desviacin estndar de 5; los resultados obtenidos con 15 muestras de cemento
contaminado con plomo fueron de 87 en promedio con una desviacin estndar de 4.
Supngase que el porcentaje de peso de calcio est distribuido de manera normal y que
las dos poblaciones normales tienen la misma desviacin estndar.
a) Encuentre un intervalo de confianza del 95% para la diferencia entre medias de los dos
tipos de cemento.
El estimador combinado de la desviacin estndar es:
( n1 ) S2x +(m1) S 2y 52 ( 101 ) + 42 (151)

S p= = =19.52
n+m2 10+152
3.4.2.2 CON DIFERENTES.
Para hacer inferencias estadsticas sobre dos poblaciones, se necesita tener una muestra
de cada poblacin. Las dos muestras sern dependientes o independientes de acuerdo a
la forma de seleccionarlas. Si la seleccin de los datos de una poblacin no est
relacionada con la de los datos de la otra, son muestras independientes. Si las muestras
se seleccionan de manera que cada medida en una de ellas pueda asociarse
naturalmente con una medida en la otra muestra, se llaman muestras dependientes. Cada
dato sale de alguna fuente; una fuente es algo, una persona o un objeto, que produce
datos. Si dos medidas se obtienen de la misma fuente, se puede pensar que las medidas
estn pareadas. En consecuencia dos medidas que se obtienen del mismo conjunto de
fuentes son dependientes. Note que si dos muestras son dependientes, entonces
necesariamente tienen el mismo tamao.
15
Si se tienen dos muestral aleatorias dependientes de tamao n, donde cada elemento de

la primera muestra es pareja de un elemento de la segunda, entonces estas dos muestras
dan lugar a una de parejas o a unas diferencias, como lo indica la siguiente figura. La
d=x 1 x 2
muestra de diferencias se puede pensar como una muestra de la poblacin
de diferencias de datos pareados de dos poblaciones. La media de la poblacin de
diferencias es igual a la diferencias de las medias poblacionales.
En consecuencia se ve que la media de la poblacin de diferencias es igual a la diferencia

entre las medias poblacionales. Siguiendo la misma lnea de razonamiento, se puede
demostrar que, para dos muestras dependientes, la media de sus diferencias muestrales
d=x 1 x 2 , entonces
es igual a la diferencia entre sus medias muestrales. Esto es, si
x 1 x 2
d=
Si se tiene una muestra aleatoria de n pares de datos y si las diferencias d se distribuyen

normalmente, entonces el estadstico:

d d
Sd
n
Tiene una distribucin muestral que es una distribucin t con gl=n1 , donde S d
representa la desviacin estndar de la muestra de puntajes diferencia.

d d
t=
Sd
n
g .l=n1 . Lmites del intervalo de confianza para 12 . Cuando se usa

Donde
muestras dependientes
Sd
12= d t
n
Ejercicio.
Se hizo un estudio para definirse si los ejercicios aerbicos reducen el ritmo cardiaco de
una persona durante el descanso, y al examinar a diez voluntarios antes y despus de
16
seguir un programa de ese tipo durante seis meses, sus pulsaciones, en latidos por
minuto, dieron los siguientes registros:
Voluntario 1 2 3 4 5 6 7 8 9 10
Antes 73 77 68 62 72 80 76 64 70 72
Despus 68 72 64 60 71 77 74 60 64 68
Use =0.05 para calcular si los ejercicios aerbicos reducen el ritmo cardiaco durante
el reposo. Calcule el valor de P.
Ensayo de hiptesis:
H 0 ; A D =0
H 1 ; A D >0
Para calcular el valor de P se interpola entre 0.10 y 0.05, con 9 grados de libertad
obteniendo un rea de 0.0574, pero como el ensayo es bilateral este sera un valor de
P/2, por lo tanto el valor de P=(2)( 0.0574)=0.1148
17
Calcula el intervalo de confianza del 95 para la diferencia de medias poblacionales del

ejercicio anterior.
SD 3.53
A D =d t =2 2.262
n 10
El intervalo de confianza del 95 es 0.53 y 4.53 y como contiene a cero,

no podemos concluir que la dieta sea efectiva para cambiar el peso.
3.4.2.3 DE DOS MEDIAS APAREADAS.
En este caso se trata de comparar dos mtodos o tratamientos, pero se quiere que las
unidades experimentales donde se aplican los tratamientos sean las mismas, lo ms
parecidas posibles, para evitar influencia de otros factores en la comparacin. Este es un
procedimiento de estimacin para la diferencia de dos medias cuando las
muestras son dependientes y las varianzas de las dos poblaciones no
necesariamente son iguales.
Las muestras pareadas involucran un procedimiento en el cual varios pares de

observaciones se equiparan de la manera ms prxima posible, en trminos de
caractersticas relevantes. Los dos grupos de observaciones son diferentes slo en un
aspecto o "tratamiento". Toda diferencia subsiguiente en los dos grupos se atribuye a
dicho tratamiento. Las ventajas de las muestras pareadas son:
1) Pueden utilizar muestras muy pequeas.
2) Se encuentran varianzas ms pequeas.
3) Menos grados de libertad se pierden en el anlisis.
4) Resulta un error de muestreo ms pequeo (la variacin entre observaciones reduce

debido a que corresponden de la forma ms prxima posible).
Otro mtodo para utilizar muestras pareadas a diferencia de la situacin que se describi
cuando las muestras son independientes, las condiciones de las dos poblaciones no se
signan de forma aleatoria a las unidades experimentales. Ms bien, cada unidad
experimental homognea recibe ambas condiciones poblacionales; como resultado, cada
unidad experimental tiene un par de observaciones, una para cada poblacin.
X i el valor de tratamiento I y Y i el valor del tratamiento II en el i-simo sujeto.

Sea
d i= X iY i
18
Diferencia de los tratamientos en el i-simo sujeto.
Ejercicio.
Se asume que se tienen puntajes de la prueba de 10 empleados antes y despus de

habrseles impartido capacitacin laboral adicional. Establezca un intervalo de confianza
del 90% para la media de la diferencia en el puntaje antes y despus de la capacitacin.
Los puntajes aparecen en la tabla:
Empleado Puntaje antes de Puntaje despus de
La capacitacin del La capacitacin del
empleado empleado di d i2
1 9.0 9.2 -0.2 0.04
2 7.3 8.2 -0.9 0.81
3 6.7 8.5 -1.8 3.24
4 5.3 4.9 0.4 0.16
5 8.7 8.9 -0.2 0.16
6 6.3 5.8 0.5 0.25
7 7.9 8.2 -0.3 0.09
8 7.3 7.8 -0.5 0.25
9 8.0 9.5 -1.5 2.25
10 8.5 8.0 -0.5 0.25
7.4 7.9 -5.0 7.38
Encontrar estimador puntual insesgado

5 d
d= =0.5 Estimador puntual insesgado de
10
Determinar la variable aleatoria funcin del estimador y del parmetro cuya distribucin
este definida.
19

d d
T= Con n1 grados de libertad.
sd / n
Determinar los valores de la variable aleatoria definida en el paso (2) de acuerdo a la

probabilidad establecida.
P (1.8333 t 1.833 ) =0.90
Establecer la desigualdad con los valores de la variable aleatoria definidos en el paso y la

expresin definida en el paso.
S d < D < d+
dt t Sd
2 n 2 n
Encontrar los lmites inferiores y superiores dentro de los cuales se encuentra el

parmetro
Lmite superior de confianza:
0.736
d =5+ 1.8333 =0.073
10
Lmite inferior de confianza
0.736
d =5+ 1.8333 =0.0927
10
Debido a que se restan los puntajes posteriores al entrenamiento de los puntajes

anteriores al entrenamiento, produciendo valores negativos, se puede estar 90% seguro
de que la media de los puntajes posteriores al entrenamiento est entre 0.073 y 0.927
ms altos.
3.4.3 ESTIMACIN POR INTERVALOS DE CONFIANZA DE LA RAZN DE DOS

VARIANZAS.
Supngase que se tienen dos poblaciones normales e independientes con varianzas
desconocidas 21 y 22 , respectivamente. De este par de poblaciones, se tienen
n1 n2 , respectivamente, sean
disponibles dos muestras aleatorias de tamaos y
20
2 2
S1 y S2 las dos varianzas muestrales. Se desea conocer un intervalo de confianza
del 100 (1 ) por ciento para el cociente de las dos varianzas, 21 / 22 .
Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales,

se coloca la varianza muestral mayor en el numerador del estadstico F.
Ejercicio.
Se obtienen al azar dos muestras de tamaos 16 y 10 respectivamente, de dos

poblaciones con distribucin normal. Si sus varianzas son 24 y 18, respectivamente,
encuentre los limites de confianza del a) 98% para el cociente de las varianzas.
a) Tenemos m=16, n=10, s21=20, s22=18, as que:
m 2 16
s^ 21= s=
m1 1 15 ( )
( 24 )=25.2
m 2 10
s^ 22= s=
m1 2 9 ( )
( 18 )=20
3.4.4 ESTIMACIN POR INTERVALOS DE CONFIANZA DE LA DIFERENCIA

DE DOS PROPORCIONES.
En la seccin anterior se vio el tema de la generacin de las distribuciones muestrales, en

donde se tena el valor de los parmetros, se seleccionaban dos muestras y podamos
calcular la probabilidad del comportamiento de los estadsticos. Para este caso en
particular se utilizar la distribucin muestral de diferencia de proporciones para la
estimacin de las mismas. Recordando la formula:
( p1 p 2 )( P1P2 )
Z=
P1 q1 P2 q2
n1
+
n2
P1P2 de esta ecuacin:

Despejando
Aqu se tiene el mismo caso que en la estimacin de una proporcin, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que
21
queremos estimar, por lo que se utilizarn las proporciones de la muestra como

estimadores puntuales:
P1P2=( p1 p2 ) z
P1 q1 P2 q 2
n1
+
n2
Ejercicio.
Se considera cierto cambio en un proceso de fabricacin de partes componentes. Se

toman muestras del procedimiento existente y del nuevo para determinar si ste tiene
como resultado una mejora. Si se encuentra que 75 de 1500 artculos del procedimiento
actual son defectuosos y 80 de 2000 artculos del procedimiento nuevo tambin lo son,
encuentre un intervalo de confianza de 90% para la diferencia real en la fraccin de
defectuosos entre el proceso actual y el nuevo.
P1 P2
Sean y las proporciones reales de defectuosos para los procesos actual y
P1=75/1500=0.05 y P1=80 /2000=0.04 . Con el

nuevo, respectivamente. De aqu,
uso de la tabla encontramos que z para un nivel de confianza del 90% es de 1.645.
P1P2=( p1 p2 ) z
P1 q1 P2 q 2
n1
+
n2
( 0.050.04 ) 1.645
( 0.05 )( 0.95 ) ( 0.04 ) ( 0.96 )
1500
+
2000
0.0017< P1P2 <0.0217
Como el intervalo contiene el valor de cero, no hay razn para creer que el nuevo
procedimiento producir una disminucin significativa en la proporcin de artculos
defectuosos comparada con el mtodo existente.
3.5 PRUEBAS DE HIPTESIS.
Si suponemos que cierta hiptesis es verdadera, pero encontramos que los resultados de
una muestra aleatoria difieren marcadamente de los esperados bajo la hiptesis sobre la
base del azar de la teora del muestreo, podremos decir que las diferencias observadas
22
son significativas y nos inclinamos a rechazar la hiptesis (o al menos a no aceptarla

debido a la evidencia obtenida). Por ejemplo, si de 20 lanzamientos de una moneda
obtenemos 16 caras, podemos inclinarlos a rechazar la hiptesis de que la moneda es
balanceada aunque posiblemente estemos equivocados.
Los procedimientos que nos permiten aceptar o rechazar hiptesis o determinar si las
muestras observadas difieren significativamente de los resultados esperados reciben el
nombre de pruebas de hiptesis, pruebas de significancia o reglas de decisin.
3.5.1 GENERALIDADES E IMPORTANCIA DE LOS ENSAYOS DE HIPTESIS.
Es importante recordar que las hiptesis siempre son proposiciones sobre la poblacin o
distribucin bajo estudio, no proposiciones sobre la muestra. Por lo general, el valor del
parmetro de la poblacin especificado en la hiptesis nula se determina en una de tres
maneras diferentes:
1. Puede ser resultado de la experiencia pasada o del conocimiento del proceso,

entonces el objetivo de la prueba de hiptesis usualmente es determinar si ha
cambiado el valor del parmetro.
2. Puede obtenerse a partir de alguna teora o modelo que se relaciona con el

proceso bajo estudio. En este caso, el objetivo de la prueba de hiptesis es
verificar la teora o modelo.
3. Cuando el valor del parmetro proviene de consideraciones externas, tales como

las especificaciones de diseo o ingeniera, o de obligaciones contractuales. En
esta situacin, el objetivo usual de la prueba de hiptesis es probar el
cumplimiento de las especificaciones.
Los procedimientos de prueba de hiptesis dependen del empleo de la informacin

contenida en la muestra aleatoria de la poblacin de inters. Si esta informacin es
consistente con la hiptesis, se concluye que sta es verdadera; sin embargo si esta
informacin es inconsistente con la hiptesis, se concluye que esta es falsa. Debe
hacerse hincapi en que la verdad o falsedad de una hiptesis en particular nunca puede
conocerse con certidumbre, a menos que pueda examinarse a toda la poblacin.
Usualmente esto es imposible en muchas situaciones prcticas. Por tanto, es necesario
desarrollar un procedimiento de prueba de hiptesis teniendo en cuenta la probabilidad de
llegar a una conclusin equivocada.
23
Ejercicio.
Suponga que se tiene inters en la rapidez de combustin de un agente propulsor slido

utilizado en los sistemas de salida de emergencia para la tripulacin de aeronaves. El
inters se centra sobre la rapidez de combustin promedio. De manera especfica, el
inters recae en decir si la rapidez de combustin promedio es o no 50 cm/s . Esto
puede expresarse de manera formal como
H 0 ; =50 cm/s
H 1 ; 50 cm/s
H 0 ; =50 cm/s , se conoce como hiptesis nula, mientras que la

La proposicin
H 1 ; 50 cm/s , recibe el nombre de hiptesis alternativa. Puesto que la

proposicin
hiptesis alternativa especifica valores de que pueden ser mayores o menores que
50 cm/s, tambin se conoce como hiptesis alternativa bilateral.
En algunas situaciones, lo que se desea es formular una hiptesis alternativa unilateral,

como en
H 0 ; =50 cm/s
H 1 ; <50 cm/ s
3.5.2 HIPTESIS NULA O HIPTESIS ALTERNA.
Con el fin de llegar a una decisin es til hacer suposiciones o conjeturas sobre las
poblaciones involucradas. Tales suposiciones, que pueden ser o no ciertas, reciben el
nombre de hiptesis estadsticas y, en general, son planteamientos sobre la distribucin
de probabilidad de las poblaciones.
Por ejemplo, si vamos a decidir si cierta moneda esta cagada, formulamos la hiptesis de
que la moneda es balanceada, es decir, p=0.5 , donde p es la probabilidad de
obtener caras. De igual manera, si queremos decidir si un procedimiento es mejor que
otro formulamos la hiptesis de que no hay diferencia entre los procedimientos (as,
cualquier diferencia observada se debe a meras fluctuaciones en el muestreo de la misma
poblacin). Tales hiptesis se llaman hiptesis nulas o simplemente hiptesis, y se denota
24
H 0 . Cualquier hiptesis que difiera de la hiptesis nula dada se llama hiptesis

como
alterna. Si la hiptesis nula es p=0.5 , las hiptesis alternas posibles son
p=0.7, p 0.5 o p>5 . Una hiptesis alterna de la hiptesis nula se denota por H1 .
Ejercicio.
Un fabricante de aparatos domsticos est considerando la compra de una nueva

0 es el numero promedia de partes buenas
mquina para prensar partes metlicas. SI
prensadas por hora con su mquina antigua y es el promedio correspondiente para

= 0
la maquina nueva, el fabricante quiere probar la hiptesis nula contra una
alternativa pertinente. Cul debera ser la alternativa si
a) No quiere comprar la maquina nueva a menos de que sea ms productiva que la

antigua;
b) B) quiere comprar la maquina nueva (que tiene otras caractersticas atractivas) a

menos de que sea menos productiva que la antigua?
> 0
Sol. a) El fabricante debera usar la hiptesis alternativa y comprar la maquina
nueva solo si se puede rechazar la hiptesis nula.
< 0
b) El fabricante debera usar la hiptesis alternativa y comprar la maquina nueva
a menos de que se rechace la hiptesis nula.
3.5.3 NIVEL DE SIGNIFICACIN Y REGLAS DE DECISIN.
Al probar una hiptesis dada, la probabilidad mxima con la que queremos tomar el riesgo
de un error tipo I se llama nivel de significancia de la prueba. Esta probabilidad se
especifica antes de que se hayan tomado muestras, para que los resultados obtenidos no
influyan en nuestra decisin.
En la prctica, niveles de significancia de 0.05 0.01 son habituales, aunque se pueden

usar otros valores. Si por ejemplo, al disear una prueba de hiptesis escogemos un nivel
de significancia de 0.05 5%, entonces hay una probabilidad de 5 en 100 de que
rechacemos la hiptesis cuando deberamos aceptarla, es decir, siempre que la hiptesis
nula sea verdadera, tenemos cerca del 95% de confianza de que tomaremos la decisin
25
correcta, en tales casos decimos que rechazamos la hiptesis con un nivel de

significancia de 0.05, lo cual significa que podemos estar equivocados con probabilidad de
0.05.
Nuestra eleccin del estndar mnimo para una probabilidad aceptable, o el nivel de
significancia, es tambin el riesgo que asumimos al rechazar una hiptesis nula cuando
es cierta. Mientras ms alto sea el nivel de significancia que utilizamos para probar una
hiptesis, mayor ser la probabilidad de rechazar una hiptesis nula cuando es cierta.
Ejercicio.
Una marca de nueces afirma que, como mximo, el 6% de las nueces estn
vacas. Se eligieron 300 nueces al azar y se detectaron 21 vacas. Con un nivel
de significacin del 1%, se puede aceptar la afirmacin de la marca?
Enunciamos las hiptesis nula y alternativa:
H 0 : p 0 . 06 H 1 : p>0 . 06
Zona de aceptacin
=0 . 01 z =2 . 33 .
Determinamos el intervalo de confianza:
(; 0.06+2.33
)
( 0.06 ) ( 0.94 )
300
=( ; 0.092 )
21
Verificacin.
p= =0.07
300
H 0 . Con un nivel de significacin del

Decisin: Aceptamos la hiptesis nula
1%.
3.5.4 ERRORES DEL TIPO I y II.
Si rechazamos una hiptesis cuando da la casualidad que es verdadera, decimos que se

ha cometido un error de tipo I. Si, por el contrario, aceptamos una hiptesis cuando esta
ha debido rechazarse, decimos que se ha cometido un error de tipo II. En cualquier caso,
se ha tomado una mala decisin o se ha hecho un error de juicio.
26
Para que cualquier prueba de hiptesis o las reglas de decisin sean adecuadas, se
deben disear de manera que reduzcan los errores de la decisin. Esto es sencillo ya
que, para un tamao muestral dado, el intento de disminuir un tipo de error va
generalmente acompaado del incremento en el otro tipo de error, En la prctica, un tipo
de error puede ser ms grave que el otro, de manera que debemos inclinarnos a favor de
una limitacin del error ms grave. La nica manera de reducir ambos tipos de error es
incrementando el tamao de la muestra, lo cual puede o no ser posible.
Ejercicio.
Suponga que el miembro de la comisin de planificacin en realidad toma la muestra y

obtiene x =41 . 8 minuto. Qu decisin tomaran los miembros de la comisin de
planificacin y estarn cometiendo un error si en realidad
a) =42. 5 minutos
b) =41. 2 minutos?
Ya que x =41 . 8 cae en el intervalo de 40.5 a 44.4, aceptaran la hiptesis nula de que
en promedio los automviles permanecen en el rea de estacionamiento momentneo
durante 42.5 minutos.
a) dado que la hiptesis nula es verdadera y se acepta, no estarn cometiendo un

error
b) Puesto que la hiptesis nula es falsa pero se acepta, estarn cometiendo un error
tipo II
3.6 PRUEBAS DE HIPTESIS.
27
3.6.1 PARA LA MEDIA.
Las suposiciones para esta prueba son mnimas. La poblacin o distribucin de inters
2
tiene una media y una varianza , conocida. El estadstico de prueba se basa
en la media muestral X , por lo que tambin se supondr que la poblacin est
distribuida de manera normal o que se aplican las condiciones del teorema del lmite
central. Esto significa que la distribucin de X es aproximadamente normal con una

2
media y una varianza /n .

S= X s = X =
Aqu , la media muestral; , la media de la poblacin;
s= X = / n , donde es la desviacin estndar de la poblacin y n es el

tamao muestral. La variable estandarizada est dada por:

X
Z=
/n

Cuando es necesario, la desviacin estndar muestral, s o s^ , se utiliza para
. Para probar la hiptesis nula H0

estimar de que la media de la poblacin es
=a podemos usar el estadstico. Entonces si la hiptesis alterna es a , usando
H0
la prueba de dos colas, podemos aceptar (o al menos no rechazarla) al nivel de
significancia de 0.05 si para una muestra particular de tamao n con media X .
x a
1.96 1.96
/n
Y podemos rechazarla de otra manera. Para otros noveles de significancia podemos

H0
cambiar de manera apropiada, para probar en contra de la hiptesis alternativa de
que la media de la poblacin es mayor que a, podemos usar la prueba de una cola y
H 0 (o al menos no rechazarla) al nivel de 0.05 si
aceptar
28
x a
<1.645
/n
H0
Y rechazarla de otra manera. Para probar en contra de la hiptesis alterna de que
H 0 al nivel del 0.05 si

la media de la poblacin es menor que a, podemos aceptar
x a
>1.645
/n
Ejercicio.
Se calculo que el tiempo de vida medio de una muestra de 100 bombillas fluorescentes
producidas por una compaa es de 1570 horas con desviacin estndar de 120 horas. Si
es el tiempo de vida medio de todas las bombillas producidas por la compaa,
pruebe la hiptesis =1600 horas en contra de una hiptesis alterna 1600
horas, usando un nivel de significancia de 0.05.
Encuentre el valor de P en la prueba.
Debemos decidir entre dos hiptesis
H 0 : =1600 h rs H 1 : 1600 hrs
Se debe usar una prueba de dos colas ya que 1600 hrs incluye los valores
ms grandes y ms pequeos que 1600.
Para una prueba de dos colas con nivel de significancia de 0.05, tenemos la
siguiente regla de decisin:
H0 z
1) Rechazar la si el valor de la media muestral esta por fuera del
rango 1.96 a1.96 .
29
H0
2) De otra manera aceptar (o abstenerse a tomar la decisin).
El estadstico bajo consideracin es la media muestral X . La distribucin
X X = X = / n ,
muestral de tiene media y desviacin estndar
donde y son la media y la desviacin estndar de la poblacin de

todas las bombillas producidas por la compaa.
H 0 , tenemos =1600 h rs X = / n=120/ 100=12 ,

Bajo la hiptesis y
usando la desviacin estndar muestral como un estimador de . Dado que

Z ( X1600)/12=(15701600)/12=2.50 se encuentran fuera del rango de
1.96 a1.96 , rechazamos la H0 al nivel de significancia de 0.05.
3.6.2 PARA LA PROPORCIN.
S=P , s = p= p , donde p es la
Aqu la proporcin de xitos en una muestra;
proporcin de xitos en la poblacin y n es el tamao muestral; s= p = pq /n ,
donde q=1 p . La variable estandarizada est dada por
P p
Z=
pq/n
En el caso P= X /n , donde X es el nmero verdadero de xitos en una muestra, se

convierte en:
Xnp
Z=
npq
Se pueden hacer observaciones similares a las hechas atrs sobre pruebas de una y dos
colas para medias.
Ejercicio.
30
Tenemos dos grupos, A y B, cada uno de 100 personas que sufren una enfermedad. Se le
da un suero al grupo A, pero no al grupo B (grupo de control); para lo dems, ambos
grupos se manejan de manera idntica. Se encontr que en los grupos Ay B, 75 y 65
personas, respectivamente, se recuperaron de la enfermedad. Pruebe la hiptesis de que
el suero ayuda a curar la enfermedad usando un nivel de significancia de 0.01.
p1 p2 , respectivamente, las proporciones de la poblacin curada usando el

Sean y
suero sin usar el suero. Debemos decidir entre estas dos hiptesis.
H 0 : p1 =p 2
. Y las diferencias observadas de deben al azar, es decir, el suero
H 1 : p1 > p2
no es efectivo y el suero es efectivo
H0 ,
Bajo la hiptesis
P P =0 ; P P = pq
1 2 1 2
( 1 1
)
+ = ( 0.70 ) (0.30)
n 1 n2
1
( +
1
100 100 )
=0.0648
Donde usamos como estimado de p la proporcin promedio de curas en los
dos grupos muestrales, dados por (75+85)/200=0.70 , y donde
q=1 p=0.30 . Entonces:
P1P2 0.7500.650
Z= = =1.54
P P
1
0.0648
2
Con base en una prueba de una cola con nivel de significancia e 0.01, podemos
H0 z
rechazar la hiptesis si solo el valor fuera mayor que 2.33. Dado que
el valor z es solo 1.54, debemos concluir que, con este nivel de

significancia, los resultados se deben al azar.
3.6.3 PARA LA VARIANZA.
31
H0
2
Para probar la hiptesis de que una poblacin normal tiene varianza ,
consideramos las variables aleatorias
1
n S2 (n1) S
X 2= =
2 2
La cual tiene la distribucin chi cuadrado con n1 grados de libertad. Entonces, si una
2
muestra aleatoria de tamao n resulta tener varianza S , podemos, sobre la base
H 0 (o al menos no rechazarla) al nivel de 0.05 si

de la prueba de dos colas, aceptar
n S2
x 20.025 2
x20.975

Y rechazarla de otra manera. Se obtiene un resultado similar para el nivel de 0.01 u otro
H 1 de que la varianza de la poblacin es mayor que
nivel. Para probar la hiptesis de

2
H0
, podemos aun usar la hiptesis nula pero ahora emplearemos la prueba de
H0
una cola. As, podemos rechazar al nivel de 0.05 (y por consiguiente concluir que
H 1 es correcta) si la varianza S 2 de la muestra particular es tal que
n S2 2
> x 0.975
2
H 0 (o al menos no la rechazamos) de otra manera.

Y aceptamos
Ejercicio.
Suponga que un fabricante de pernos est produciendo pernos de 8 mm de dimetro, y
que los dimetros de estas piezas se distribuyen normalmente; con propsitos de control
de calidad, se obtuvo una muestra de 25 pernos de una lnea de produccin para estimar
2 2
la varianza de todos los dimetros, la cual result ser S =0.009 mm . Con un nivel de
32
significancia de 0.05. Se puede concluir que la varianza poblacional es igual o menor

0.01 mm2 ?
Datos:
n=25
S 2=0.009 mm2
0.05
Establecer la hiptesis
H 0 ; 2 0.01 H 1 ; 2> 0.01
Establecer la estadstica de prueba x 2=( n1)S2 / 2 . Definir el nivel de significancia y
la zona de rechazo.
g .l=24
36.415
Nivel de significancia = 0.05

2 2
X /X 36.415
Zona de Rechazo =
Calcular la estadstica de prueba.
( n1)S 2
X 2= Como la
2
esta bajo la hiptesis nula entonces tenemos
2
( 24 ) (0.009)
X 2= =21.6
0.01
33
Como 21.6 es menor que 36.415 no se rechaza la hiptesis nula con un nivel de
significancia de 0.05. Conclusin: Existe evidencia estadstica para decir que la varianza
poblacional es igual o menor 0.01 mm2 .
3.6.4 PARA LA DIFERENCIA DE MEDIAS.
Sean X 1 y X 2 las medias muestrales obtenidas en muestras grandes de tamaos
n1 n2 1 2
y de poblaciones respectivas con media y y desviaciones
1 2 . Considere la hiptesis nula de que no hay diferencia entre las

estndar y
1=2 . Reemplazando 1=2

medias de las poblaciones, es decir, vemos que la
distribucin muestral de diferencias con medias es aproximadamente normal con media y
desviacin estndar dadas por
x x =0 x x =
1 2
21 22
+
n1 n2
1 2

s1
Donde podemos, si es necesario, usar las desviaciones estndar observadas y
s 2 como estimados de 1 y 2 . Usando la variable estandarizada dada por
1 X 2
X
Z=
x x1 2
Podemos probar la hiptesis nula en contra de la hiptesis alterna (o de significancia de la

diferencia observada) a un nivel adecuado de significancia.
Ejercicio.
Se evaluaron dos cursos de 40 y 50 estudiantes. En el primer curso la nota promedio fue

de 74 con desviacin estndar de 8, mientras que en el segundo curso la nota promedio
fue de 78 con desviacin estndar de 7. Existe alguna diferencia en el rendimiento de los
dos cursos con nivel de significancia de 0.05. Cul es el valor de p de la prueba?
34
1
Supongamos que los dos cursos vienen de dos poblaciones con medias respectivas
2 . Entonces tenemos que decidir entre estas hiptesis:

y
H 0 : 1=2
y la diferencia se debe al azar.
H 1 : 1 2
y hay una diferencia significativa entre ambos cursos.
H 0 , ambos cursos viene de la misma poblacin. La media y la

Bajo la hiptesis
desviacin estndar de la diferencia de medias est dada por
21 22

2 2
8 7
x x =0 x x = + = + =1.606
1 2 1
n1 n2
2
40 50
1 2
Donde usamos las deviaciones estndar muestrales como estimadores de y
.Entonces:
1 X 2 7478
X
Z= = =2.49
x x
1 2
1.606
Para una prueba de dos colas, los resultados son significativos al nivel de 0.05 si Z
esta por afuera del rando 19.6 a 1.96 . Entonces concluimos que al nivel de 0.05
hay una diferencia significativa en el desempeo de los dos cursos y que probablemente
el segundo curso es mejor.
3.6.5 PARA LA DIFERENCIA DE PROPORCIONES.
P1 P2
Sean y las proporciones muestrales obtenidas en muestras grandes de
n1 n2 p1 p2 .
tamaos y de las poblaciones respectivas con proporciones y
Considere la hiptesis nula de que no hay diferencia entre las proporciones de la
p1= p2 , y por lo tanto, de que las muestras se tomaron
poblacin, es decir,
realmente de la misma poblacin.
35
P P =0 P P = p ( 1p )
1 2 1 2
( n1 + n1 )
1 2
Usando la variable estandarizada
P1P2
Z=
P P
1 2
Podemos probar diferencias observadas a un nivel apropiado de significancia y de all

probar la hiptesis nula.
Ejercicio.
Una encuesta hecha a 300 votantes del distrito A y a 200 del distrito B mostro que 56% y
48%, respectivamente, estaban a favor de un candidato dado. Con el nivel de significancia
de 0.05 pruebe la hiptesis de que: Hay diferencia entre los distritos.
P1 P2
Sean y las proporciones de todos los votantes de los distritos A y B,
respectivamente, que estn a favor del candidato.
H 0 : P1 =P 2 , tenemos
Bajo la hiptesis
P P =0 P P = p ( 1p )
1 2 1 2
( n1 + n1 )=(0.528)( 0.472)( 3001 + 2001 )=0.0456
1 2
Donde usamos como estimadores de p y q los valores
( 0.56 ) ( 300 ) + ( 0.48 ) (200)/ 500=0.528 y 10.528=0.472 , tenemos
P1P2 0.5600.480
Z= = =1.75
P P
1
0.0456
2
Si solamente queremos determinar si hay una diferencia entre los distritos, debemos
H 0 ; P1 =P 2 y H 1 ; P1=P2 , lo que involucra una prueba de
decidir entre la hiptesis
dos colas. Con base en una prueba de dos colas con nivel de significancia de 0.05,
H 0 , si Z esta fuera del intervalo -1.96 a 1.96. Dado que Z =1.75
debemos rechazar
36
H0
esta dentro del intervalo, no podemos rechazar con este nivel de significancia, es
decir, no hay diferencia significativa entre los dos distritos.
3.6.6 PARA LA RELACIN DE VARIANZAS.
En algunos problemas queremos decidir si dos muestras de tamao m y n ,

2 2
respectivamente, cuyas varianzas son s1 y s 2 , provienen o no de poblaciones
normales con la misma varianza, en tales casos, usamos el estadstico.
s21 / 21
F= 2 2
s2 / 2
2 2
Donde 1 y 2 son las varianzas de dos poblaciones normales de las cuales se
H0
tomaron las muestras. Supongamos que denota la hiptesis nula de que no hay
2 2
diferencia entre las varianzas de las poblaciones, es decir 1= 2 . Entonces, bajo
esta hiptesis se convierte en:
s^ 21
F=
s^ 22
Para probar esta hiptesis al nivel de 0.10, por ejemplos, primero debemos observar que
F tiene la distribucin F con m1, n1 grados de libertad. Entonces, usando
H 0 al nivel de 0.10 si
una prueba de dos colas, podemos aceptar
^s21
F0.05 2 F0.95
^s2
Y rechazarla de otra manera. Se pueden formular procedimientos similares usando

pruebas de una cola en caso de que queramos probar la hiptesis de que la varianza de
una poblacin partculas es, de hecho, mayor que la otra.
Ejercicio.
37
Un instructor tiene dos cursos, A y B en una materia en particular. El curso A tiene 16

estudiantes mientras que el B tiene 25. En el mismo examen, a pesar de que no hubo
diferencias significativas en las notas promedio, el curso A tuvo una desviacin estndar
de 9 mientras que el B tuvo una desviacin estndar de 12. Podemos concluir que al
nivel de significancia de 0.01, la variabilidad del curso B es mayor que el de A?
Sol. Usemos los subndices 1 y 2 para los cursos Ay B, respectivamente. Tenemos

s 1=9, s2=12, de manera que
entonces,
9

12

2 n1 2 16
s^ 1= s=
n11 1 15
Debemos decidir entre las hiptesis
H 0 ; 1= 2
, y cualquier variacin se debe al azar
H 1 ; 2> 1
, y la variacin del curso B es mayor que la del A
Por lo tanto, la decisin de debe basar en una prueba de una cola de la distribucin F.
para las muestras en cuestin.
s^ 2 150
F= 22 = =1.74
s^ 1 86.4
r 2=251=24 ;
El nmero de grados de libertad asociados con el numerador es para
r 1=161=15 ;
el denominador, grados de libertad. Al nivel de 0.01 para 24, 15 grados
F , F0.99 =3.99. F< F 0.99 ,

de libertad tenemos del apndice Entonces, dado que
H 0 al nivel de 0.01.
no podemos rechazar
3.7 AJUSTE DE DISTRIBUCIONES DE FRECUENCIA A DISTRIBUCIONES DE

PROBABILIDAD.
38
3.7.1 AJUSTE A UNA DISTRIBUCIN BINOMIAL.
La distribucin binomial se caracteriza porque su funcin de probabilidad viene dada por

la expresin siguiente:
()
P ( X=r )=p r= n p r qn r
r
Donde r es el nmero de xitos asociado al experimento aleatorio. En una distribucin
binomial B (n , p) se verifica que:
La probabilidad de que aparezca al menos un xito en las n repeticiones es igual

a:
P ( X 1 )=1p ( X =0)
La probabilidad de que se produzca un xito como mximo en las n
repeticiones se determina como:

P ( X 1 )=P ( X =0 ) + P( X=1)
En ocasiones, el clculo de la probabilidad de una distribucin binomial del tipo B
(n , p) resulta muy complicado. Segn demostr el matemtico francs Abraham de
Moivre (1667-1754), la probabilidad de una distribucin binomial B (n , p) puede
aproximarse por medio de una distribucin normal de tipo N (np , npq), que resulta
particularmente adecuada cuando:
El valor de n es muy elevado.

Tanto np y nq son que 5. (Obsrvese que cuanto mayor es n y
ms se aproxima p a 0.5 tanto mejor es la aproximacin realizada).
Para transformar una distribucin binomial (de variable discreta) en una normal (de
variable continua).
Ejercicio.
Supongamos que un importador de juguetes recibe mensualmente 100 cajas de una

determinada modelo, y cada una de las cajas contiene 4 juguetes. Durante el primer mes,
para poder calcular los costes reales de los juguetes, lleva a cabo un estudio en el que
39
obtiene:
El empresario calcula en primer lugar el n medio de juguetes defectuosos por caja,
obteniendo media =0,41 . Si la distribucin de juguetes defectuosos por caja fuera
una B (n=4, p), la media sera m=np=0.41 , luego despejando, p=0.102 .
Para ver si se ajusta o no a la B (4, 0, 1) , calculamos para esta ltima la probabilidad
de 0,1,2,3,4 "xitos" (juguetes defectuosos), y obtenemos:
Y por tanto, en 100 cajas, las "tericas" apariciones de los valores 0,1,2,3,4 , seran:
65.6 , 29.2, 4.9 ,0.4 y 0 , que son muy similares a las encontradas en la muestra.
A partir de aqu, el empresario puede asumir que la probabilidad de que un juguete sea
defectuoso es del 10 , podr hacer previsiones para las 5000 cajas de que va a
constar su prximo pedido.
3.7.2 AJUSTE A UNA DISTRIBUCIN DE POISSON.
La distribucin de Poisson describe el nmero de sucesos discretos que ocurren en serie,

o en una secuencia, y que muestran una independencia de tipo muy particular. Ellos son
independientes en cuanto que su ocurrencia en un intervalo de tiempo (de distancia o
rea) depende slo del largo del intervalo sobre el cual son contados, pero no depende de
donde se ubica el intervalo ni de las ocurrencias en otros intervalos no sobrepuestos. As
los sucesos ocurren aleatoriamente, pero a una tasa temporal media constante. Este tipo
de independencia resulta difcil de probar en datos atmosfricos, pero resulta til en casos
en que el grado de dependencia no sea muy fuerte. Los sucesos de tipo Poisson deben
ser suficientemente raros para que la probabilidad de ocurrencia de ms de uno sea muy
pequea. Otra forma de motivar la ocurrencia de tipo Poisson es como el caso lmite de la
distribucin binomial, con p tendiendo a cero y N tendiendo a infinito.
La distribucin de Poisson tiene slo un parmetro, que especifica la tasa promedio de

ocurrencia, suele denominarse la intensidad del fenmeno y sus dimensiones son
ocurrencias en la unidad de tiempo. La distribucin de Poisson es:
40
x
e
Pr ( X =x )= x=0,1,2
x!
Para ajustar la distribucin de Poisson a la muestra de datos lo ms simple es usar el

mtodo de los momentos, es decir se igualan los momentos de la muestra con los
momentos de la distribucin o poblacin. Recordando que el primer momento es el
promedio de la muestra, resulta muy fcil el ajuste en el caso de la distribucin de
Poisson. Simplemente el promedio, es igual al nmero de ocurrencias de la v.a. en la
unidad de tiempo.
2
(oe)
X =
2
Ejercicio.
Con base en las frecuencias observadas en la tabla anterior, pruebe en el nivel de

significancia 0.05 si hay algn indicio de que los dgitos de la tabla XI no se puedan
considerar como aleatorios.
H 0 : La probabilidad de cada digito es 0.10
H 1 : No todas las probabilidades son 0.10
=0.05
Se rechaza la hiptesis nula si X 2 16.919 , donde
2
(oe)
X =
2
e
Y 16.919 es el valor de x 10.05 para k m1=1001=9 , grados de libertad, de
otra manera, se seala que no hay ningn indicio de que los dgitos de la tabla no se
puedan considerar como aleatorios. (Aqu m=0 por que ninguno de los parametros de
la distribucin de la probabilidad se deba estimar apartir de los datos de la muestra).
Sustituyendo las frecuencias observadas y esperadas de la tabla de la pgina 373 en la
frmula para X 2 , obtenemos
41
2
2125

2825 2

3325 2

X 2=
Dado que X 2 7.92 no es mayor que 16.919, no se puede rechazar la hiptesis nula; en
otras palabras, no hay indicios de que no se puedan considerar los dgitos de la tabla XI
como aleatorios.
3.7.3 AJUSTE A UNA DISTRIBUCIN NORMAL.
Entre las distribuciones probabilsticas de variable continua, la ms ampliamente utilizada

es la llamada distribucin normal, cuya representacin grfica tiene una forma muy
conocida en el mbito de la estadstica y las ciencias naturales: la campana de Gauss. El
clculo de las probabilidades asociadas a una distribucin normal por medio de integrales
resulta, en general, complejo. Por ello, suele utilizarse una funcin de distribucin de
apoyo cuya media es 0 y cuya desviacin tpica es la unidad. Tal funcin se denomina
distribucin normal tipificada, y se expresada como N (0,1).
Se llama tipificacin a la operacin consistente en cambiar de una variable aleatoria X a

otra variable Z de distribucin tipificada, por medio de la expresin siguiente:
Xx
Z=

Ejercicio.
Pruebe en el nivel de significancia 0.05 si se pueden considerar los datos de la pagina

374 como valores de una variable aleatoria que tiene una distribucin binomial.
H 0 : La variable aleatoria tiene una distribucin binomial.
H 1 : La variable aleatoria no tiene una distribucin binomial.
=0.05
42
2
Se rechaza la hiptesis nula si X 9.488 , donde
Xx
Z=

Y 9.488 es el valor de x 20.05 para 611=4 grados de libertad; de otro modo se
acepta la hiptesis nula o se reserva la opinin. (Aqu, k =6 por que se deban sumar
seis parmetros para obtener X 2 y m=1 por que p se tena que estimar a partir
de los datos observados.)
Sustituyendo las frecuencias observadas y esperadas de la tabla anterior en la frmula

2
para X , obtenemos
1013.7 2

1919.6 2

2924.9 2

2621.6 2

1313 2

37.1 2

X 2=
2
Puesto que X =5 no es mayor que 9.488, no se debe rechazar la hiptesis nula; en
otras palabras, no hay ninguna evidencia real de que la variable aleatoria (el nmero de
autobuses que llegan retrasados por semana) no tenga una distribucin binomial.
3.8 ESTADSTICA NO PARAMTRICA.
La mayora de las pruebas de hiptesis y significancia o reglas de decisin, requieren de

varias suposiciones acerca de la distribucin de la poblacin de la que se toman las
muestras. En la prctica surgen situaciones en las cuales tales suposiciones pueden no
43
justificarse o en las que hay duda de que aplican, como en el caso en que una poblacin
puede estar altamente sesgada. Debido a esto, los estadsticos han ideado diferentes
pruebas y mtodos que son independientes de las distribuciones de la poblacin y de sus
parmetros asociados. Estas se denominan pruebas no paramtricas. Las pruebas no
paramtricas se pueden usar como un mtodo abreviado para reemplazar pruebas ms
complejas. Son especialmente valiosas al tratar con datos no numricos, tales como los
que surgen cuando los consumidores ordenan cereales u otros productos en orden de
preferencia.
3.8.1 PRUEBA DEL SIGNO.
Una prueba no paramtrica sencilla para el caso de tales muestras pareadas, es la

prueba del signo. Esta prueba consiste en tomar la diferencia entre los nmeros de
tornillos defectuosos por da y escribir solamente el signo de la diferencia.
~
1 ~
2=d 0
Tambin se puede utilizar la prueba de signo para probar la hiptesis nula
d i , con un signo
para observaciones pareadas. Aqu se reemplaza cada diferencia,
d id 0 , es positiva o negativa. A lo
ms o menos dependiendo si la diferencia ajustada,
largo de esta seccin suponemos que las poblaciones son simtricas. Sin embargo, aun si
las poblaciones son asimtricas se puede llevar a cabo el mismo procedimiento de
prueba, pero las hiptesis se refieren a las medianas poblacionales en lugar de las
medias.
La probabilidad de obtener un valor muestral menor que la mediana y la probabilidad de

1
obtener un valor muestral mayor que la mediana son 2 . Si los valores de la poblacin
~
y la
estn distribuidos simtricamente alrededor de la mediana, entonces la mediana
media son iguales. Solo ocasionalmente nos vemos en una situacin que nos
permite suponer la simetra de una poblacin. Los procedimientos que siguen por lo
~

regular se describirn en trminos de la mediana pero debemos recordar que en
ciertas situaciones la mediana y la media son iguales. Aunque la prueba del signo es
particularmente til para las muestras pareadas, tambin se puede usar para problemas
que involucran muestras sencillas.
Ejercicio.
44
H0
Con relacin a la tablas 10-1, pruebe la hiptesis la hiptesis de que no hay
H 1 de que hay diferencia al nivel de

diferencia entre maquinas I y II, contra la hiptesis
significancia de 0.05.
La figura 10-1 es una grafica de la distribucin binomial (y de la aproximacin normal a

ella) que da las probabilidades de X caras en 12 lanzamientos de una moneda
balanceada, donde X =0,1, 2, ,12. la probabilidad de X caras es:
X 12 X 12
( )( ) ( )
Pr ( X )= 12 1
X 2
1
2 ( )( )
= 12 1
X 2
De donde Pr ( 0 )=0.00024, Pr ( 1 )=0.00293, P ( 2 ) =0.01611 y Pr ( 3 )=0.05371 .
H1
Dado que es la hiptesis de que hay una diferencia entre las maquinas, en contra
de la hiptesis de que la maquina I es mejor que la maquina II, usamos una prueba de
dos colas. Para el nivel de significancia de 0.05, cada cola tiene la probabilidad asociada
( 12 )( 0.05 )=0.025 . Ahora agregamos las probabilidades al lado izquierdo hasta que la
suma supere 0.025. As:
0, 1o 2
=0.00024+0.00293+ 0.01611=0.01928
Pr caras
0, 1,2 o 3
Pr caras =0.00024+0.00293+ 0.01611+0.05371=0.07299
Dado que 0.025 es mayor que 0.01928, pero menor que 0.07299, podemos rechazar la
H 0 si el numero de caras es 2 o menor (o por simetra, si el numero de caras
hiptesis
es 10 o mayor). Sin embargo, el numero de caras (los signos + de la secuencia) es 3. Por
H0
lo tanto, no podemos rechazar al nivel de 0.05 y debemos concluir que no hay
diferencia entre las maquinas a este nivel.
3.8.2 PRUEBA DE WILCOXON.
Se puede notar que la prueba de signo utiliza slo los signos ms y menos de las
0 en el caso de una muestra, o los signos ms y
diferencias entre las observaciones y
45
menos de las diferencias entre los pares de observaciones en el caso de la muestra

pareada, pero no toma en consideracin la magnitud de estas diferencias. Una prueba
que utiliza direccin y magnitud, propuesta en 1945 por Frank Wilcoxon, se llama ahora
comnmente prueba de rango con signo de Wilcoxon.
Esta prueba se aplica en el caso de una distribucin continua simtrica. Bajo esta
= 0 . Primero se resta 0
condicin se puede probar la hiptesis nula de cada
valor muestral y se descarta todas las diferencias iguales a cero. Se asigna un rango de 1
a la diferencia absoluta ms pequea, un rango de 2 a la siguiente ms pequea, y as
sucesivamente. Cuando el valor absoluto de dos o ms diferencias es el mismo, se asigna
a cada uno el promedio de los rangos que se asignaran si las diferencias se
distinguieran. Por ejemplo, si la quinta y sexta diferencia son iguales en valor absoluto, a
= 0
cada una se le asignara un rango de 5.5. Si la hiptesis es verdadera, el total
de los rangos que corresponden a las diferencias positivas debe ser casi igual al total de
los rangos que corresponden a las diferencias negativas. Se representan esos totales
+ +
como w y w , respectivamente. Se designa el menor de w y w con w .
+
Al seleccionar muestras repetidas esperaramos que variaran w y w , y por tanto
+
w . De esta manera se puede considerar a w y w , y w como valores de las
+ = 0
correspondiente variables aleatorias w , w , y W . La hiptesis nula
< 0
se puede rechazar a favor de la alternativa slo si w+ es pequea y w es
> 0 +
grande. Del mismo modo, la alternativa se puede aceptar slo si w es
H0
grande y w es pequea. Para una alternativa bilateral se puede rechazar a
H 1 si + o
favor de w w y por tanto w son suficientemente pequeas. No importa
cul hiptesis alternativa puede ser, rechazar la hiptesis nula cuando el valor de la
+
estadstica apropiada w , w , o W es suficientemente pequeo.
46
Dos Muestras con Observaciones Pareadas.
Para probar la hiptesis nula de que se muestrean dos poblaciones simtricas continuas
1=2 para el caso de una muestra pareada, se clasifican las diferencias de las
con
observaciones paradas sin importar el signo y se procede como en el caso de una
muestra. Los diversos procedimientos de prueba para los casos de una sola muestra y de
una muestra pareada se resumen en la siguiente tabla:
No es difcil mostrar que siempre que n<5 y el nivel de significancia no exceda 0.05
para una prueba de una cola 0.10 para una prueba de dos colas, todos los valores
+
posibles de w , w , o w conducirn a la aceptacin de la hiptesis nula. Sin
embargo, cuando 5 n 30 , la tabla A.16 muestra valores crticos aproximados de
+
w y w para niveles de significancia iguales a 0.01, 0.025 y 0.05 para una prueba
de una cola, y valores crticos de W para niveles de significancia iguales a 0.02, 0.05 y
0.10 para una prueba de dos colas. La hiptesis nula se rechaza si el valor calculado
+
w , w o w es menor o igual que el valor de tabla apropiado. Por ejemplo,
,
+
cuando n=12 la tabla A .16 muestra que se requiere un valor de w 17
< 0 sea significativa en el nivel 0.05.

para que la alternativa unilateral
Ejercicio.
Los siguientes datos representan el nmero de horas que un compensador opera antes
de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0, 1.2 y 1.7. Utilice la prueba
de rango con signo para probar la hiptesis en el nivel de significancia de 0.05 que este
compensador particular opera con una media de 1.8 horas antes de requerir una recarga.
47
H 0 ; =1.8 H 1 ; 1.8
Se proceder a efectuar las diferencias y a poner rango con signo a los datos.
Dato di = dato - 1.8 Rangos
1.5 -0.3 5.5
2.2 0.4 7
0.9 -0.9 10
1.3 -0.5 8
2.0 0.2 3
1.6 -0.2 3
1.8 0 Se anula
1.5 -0.3 5.5
2.0 0.2 3
1.2 -0.6 9
48
1.7 -0.1 1
Regla de decisin:
Para una n=10, despus de descartar la medicin que es igual a 1.8, la tabla muestra
que la regin crtica es w 8.
+=7+3+3=13
W
=5.5+10+ 8+3+5.5+9+1=42
W
+
Por lo que w=13 (menor entre W y W ).

Decisin y Conclusin:
Como 13 no es menor que 8, no se rechaza H 0 y se concluye con un =0.05 que el

tiempo promedio de operacin no es significativamente diferente de 1.8 horas.
3.8.3 PRUEBA DE KRUSKAL-WALLIS.
La prueba U es no paramtrica y se usa para decidir si dos muestras provienen o no de la

misma poblacin. La prueba H de Kruskal-Wallis, o la prueba H , es una
generalizacin de esto para k muestras.
Esta prueba se puede describir as: Su pongamos que tenemos k muestras de

N1 , N2 , , N k,
tamaos siendo el tamao total de todas las muestras juntas
N=N 1 + N 2 ++ N k . Supongamos, adems, que los datos de todas las muestras
49
juntas se ordenan y que las sumas de los rdenes para las k muestras son
R1 , R2 , , R k , respectivamente. Si definimos el estadstico:
12
k
R2j
H= 3( N +1)
N (N +1) j=1 N j
Entonces se puede demostrar que la distribucin muestral de H tiene casi distribucin
k 1 grados de libertad, siempre y cuando N1 , N2 , , N k ,

chi cuadrado con sean al
menos 5. La prueba H ofrece un mtodo no paramtrico en el anlisis de varianza

para clasificaciones simples o experimentos con un factor, y es posible hacer
generalizaciones. Como consecuencia, rechazamos la hiptesis nula de que las
poblaciones de las que se efecta el muestreo son idnticas, y aceptamos la hiptesis
alternativa de que no todas las medias de estas poblaciones son iguales, si el valor que
2
obtenemos para H es mayor o igual que x para k 1 grados de libertad.
Ejercicio.
Se escogen al azar 3 muestras de una poblacin. Acomodando los datos segn rango
obtenemos la tabla 10-21. Determine si hay alguna diferencia al nivel de significancia de
0.05 entre las muestras.
Muestra 1 7 4 6 10
Muestra 2 11 9 12
Muestra 3 5 1 3 8 2
k =3, N 1 =4, N 2=3, N 3=5, N =N 1 + N 2 + N 3=12 , R 1=7+ 4+6 +10=27, R2=11+ 9+12=32,
R3=5+1+3+ 8+2=19. As
y
[ ]
k 2 2 2
12 Rj 12 27 32 19
H=
N ( N +1) j=1 N j
3 ( N +1 ) =
( 12 ) (13) 4
+
3
+
5
3 ( 13 )=6.83 .
2
Para k 1=31=2 grados de libertad, x 0.95=9.21 . As, dado que 6.83<9.21 no
podemos concluir que hay una diferencia significativa entre las muestras al nivel de 0.05.
50

Unidad 3 Estimacion y Prueba de Hipotesis

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Unidad 3 Estimacion y Prueba de Hipotesis

Încărcat de

Drepturi de autor:

Formate disponibile

ESTADSTICA UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS

UNIDAD 3 ESTIMACIN Y PRUEBA DE HIPTESIS.

3.1 MUESTREO ALEATORIO.

Claramente, la confiabilidad de las conclusiones obtenidas concernientes a una poblacin

Cuntas muestras distintas de n podemos tomar de una poblacin finita de tamao N,

Hay (122)= 12.11

3.1.1 ALEATORIO SIMPLE.

Con base en el resultado de que hay ( Nn ) muestras distintas de tamao n de una

poblacin finita de tamao N, presentaremos la siguiente definicin de una muestra

Tome una muestra aleatoria de tamao n=12 de la poblacin consistente en las

Siguiendo estas instrucciones, obtenemos

En algunos casos, la manera ms prctica de efectuar un muestreo consiste en

Esto se conoce como muestreo sistemtico y se puede integrar un elemento de azar en

de arranque, tomando aleatoriamente un nmero entre el 1 y el 4, y a partir de

Si tenemos informacin acerca de la constitucin de una poblacin (es decir, su

Esencialmente el objetivo de la estratificacin es formar estratos de tal forma que haya

N=4000, que consta de tres estratos de tamao N 1=2000, N 2=1200 y N 3 =800.

Sustituyendo en la frmula, obtenemos:

2000 1200 800

3.1.4 POR CONGLOMERADOS.

Se divide la poblacin en varios grupos de caractersticas parecidas entre ellos y luego se

Se divide la poblacin total en un nmero determinado de subdivisiones relativamente

Suponga que el decano de estudiantes de una universidad quiere saber la opinin de la

3.1.5 EN DOS ETAPAS.

Cuando en el muestreo por conglomerados se prosigue en el anlisis y dentro de

3.2 ESTIMACIN PUNTUAL.

Un estimador de un parmetro poblacional dado por un numero sencillo se llama

Existe una propiedad que comprende conjuntamente las propiedades de insesgamiento y

. El error cuadrtico medio de T , denotado ECM (T ) , se define como el valor

ECM (T )=E[(T )2]

Nos referimos al promedio de los cuadrados de las observaciones. Si ste es pequeo,

respuestas numricas prximas al parmetro . El poder que tenga T para producir

valores prximos a depende de dos condiciones bsicas. Una es la fuerza o

(eficiencia). Estas dos condiciones matemticamente quedan establecidas y precisadas

Si T es un estimador del parmetro , ECM (T )=V [T ] [E( T )]2

Se dice que un estimador puntual ^, es un estimador insesgado de , si

E ( ^ ) = , para todo valor posible de . En otras palabras, un estimador insesgado

es aquel para el cual la media de la distribucin muestral es el parmetro estimado. Si se

x = , por lo tanto la media es un estimador insesgado.

La media X y varianza S^ , son estimadores insesgados de la media de la poblacin

y varianza 2 , ya que E ( X ) = , E ( S^ 2 ) = 2 . Los valores de x y s^ 2 se

Un estimador es suficiente si utiliza una cantidad de la informacin contenida de la

Es decir se pretende que al extraer la muestra el estadstico calculado contenga toda la

Para una poblacin normal, la distribucin muestral de la media y la mediana tienen la

3.2.1.3 INSESGADO DE VARIACION MINIMA.

Suponga que ^ 1 y ^ 2 son dos estimadores insesgados de . Entonces, aun

cuando la distribucin de cada estimador est centrada en el valor verdadero de , las

varianza mnima. El ^ resultante recibe el nombre de estimador insesgado con

varianza mnima (MVUE, minimum variance unbiased estimator) de .

En otras palabras, la eficiencia se refiere al tamao de error estndar de la estadstica. Si

La confiabilidad de un estimador es el conocimiento de su error o de su precisin.

3.3 ESTIMACIN POR INTERVALOS DE CONFIANZA.

3.3.1 DE LA MEDIA CON CONOCIDA.

Es conocido de nosotros durante este curso, que en base a la distribucin muestral de

siguiente: z=( x ) /( n) . Como en este caso no conocemos el parmetro y lo

queremos estimar por medio de la media de la muestra, slo se despejar de la

Ya que n=200 es grande, podemos suponer que X tiene un distribucin casi

a) Los limites de confianza del 95% son

b) Los limites de confianza del 99% son

3.3.2 DE LA MEDIA CON DESCONOCIDA.

En este caso usamos la distribucin t para obtener los niveles de confianza. En

centimetros y desviacin estndar s=0.06 centimetros. Encuentre los limites de

Los limites del 95% estn dados por X t 0.975 ( S/ n1) .