Documente Academic
Documente Profesional
Documente Cultură
2. CONTRASTE DE HIPTESIS
2.1. Introduccin
2.2. Contraste de una hiptesis estadstica
2.3. Test unilateral y bilateral
2.4. Test relacionados con una sola media (varianza conocida)
2.5. Relacin con la estimacin del intervalo de confianza
2.6. Test sobre una sola media (varianza desconocida)
2.7. Test sobre dos medias
2.7.1. Varianzas conocidas
2.7.2. Varianzas desconocidas
2.8. Pruebas relacionadas con varianzas
2.9. Test de Bondad de ajuste.
2.9.1 Aplicaciones
Prueba de Homogeneidad
Test de independencia
2.1. INTRODUCCIN
Nunca se sabe con absoluta certeza la verdad o falsedad de una hiptesis estadstica, a
no ser que se examine la poblacin entera. Como esto no es prctico, se elige una muestra
aleatoria de la poblacin que se estudia, y se utilizan los datos que contiene dicha muestra
para proporcionar evidencias que confirmen o no la hiptesis.
contrario, aceptamos H0 .
Por tanto para realizar un contraste necesitamos una medida de discrepancia, y una ley
para juzgar cuando las discrepancias son demasiado grandes.
DECISIN
Se Acepta Se Rechaza
H 0 Es Verdadera Decisin correcta Error de tipo I
REALIDAD Decisin correcta
H 0 Es Falsa Error de tipo II
Para definir qu valores de las discrepancias son grandes fijamos un valor que
denominaremos nivel de significacin. El valor es la probabilidad de cometer un error de
Al conjunto de reglas que lleva a aceptar o no una cierta hiptesis, es lo que se llama
"un test o contraste de hiptesis".
1 = Potencia=P(rechazar H 0 / H 0 es falsa)
En general, a todo nmero que, obtenido a partir de las observaciones de una muestra,
sirve para decidirse por H0 o H1 , se llama estadstico de contraste.
estadstico de contraste, sino que tambin habr de decidir de antemano el valor del error
que est dispuesto a aceptar.
Consideraciones acerca de
.
1) Aceptar o rechazar la hiptesis
H0 puede depender del valor ,
Aceptacin <
dc >
Rechazo
2) Dar slo el resultado del test no indica el grado de discrepancia. Se acostumbra a utilizar
niveles de significacin del 0.05 0.01.
Si, por ejemplo se elige un nivel de significacin del 0.05 entonces hay
aproximadamente 5 ocasiones de cada 100 en que se rechazara la hiptesis cuando debe ser
aceptada.
Se define el nivel crtico o p valor como el mnimo nivel de significacin para el que,
con los datos de una muestra concreta, se tendra que rechazar H0 .
=p P(D D n ) .
Como se evidencia en la figura siguiente, cuanto menor sea el valor crtico, menor es
la probabilidad de existir discrepancia como la observada, y menor es la certidumbre de H0.
Esto es; cuanto ms cercano a cero sea su valor con mayor confianza se rechazar H0. Puesto
Al error de la primera RC que rechaza H0, se le llama nivel crtico nivel mnimo de
significacin.
Presentamos los test de hiptesis acerca de una sola media de poblacin. Se deben, en
primer lugar, describir las suposiciones sobre las cuales se basa el experimento. El modelo
para la situacin fundamental se centra alrededor de un experimento X1, X 2 ,..., Xn que
Caso bilateral
Considrese primero la hiptesis:
Ho : = o
H1: o
X
Conviene normalizar la v.a. =
X: Z N (0,1) .
/ n
Puede, entonces, determinarse una regin crtica con base en el promedio muestral
calculado, X .
(
P z < Z < z
2 2
) =P z
2
<
X
/ n
1 puede utilizarse para escribir una regin
< z =
2
crtica apropiada.
Hasta este momento, habr una regin crtica de dos colas para la prueba.
Se necesita una seal de evidencia de dos colas para respaldar H1 . As, dado un valor
X 0
z= cae dentro de la regin crtica z < z z < z .
/ n 2 2
Caso unilateral
Las pruebas de hiptesis unilaterales acerca de la media, comprenden el mismo estadstico
que el descrito para el caso bilateral. Aqu la regin crtica es de una sola cola de la
distribucin normal.
Para H1: < o , la regin crtica est dada por z < z , o bien, p-valor= P(Z < z) .
H 0 : < 0
Contraste unilateral (cola de la derecha)
H1 : 0
Para H1: > o , el rechazo (regin crtica) resulta cuando z < z , o bien, p-valor=
P(z < Z) .
2.1 Ejemplo:
Se supone que un topgrafo realiza como mnimo 42 mediciones diarias. Ante la duda
se hace una comprobacin observando las mediciones durante 10 das seleccionados al azar,
observndose una media de 40. Suponiendo normalidad con varianza 16 en la distribucin de
las mediciones diarias con un nivel de significacin de 0,05 la suposicin inicial. Realizar el
contraste para la media.
Solucin:
Estamos ante un caso de contraste unilateral para la media de una poblacin normal con
varianza conocida.
X
=
Sabemos que: Z N (0,1)
/ n
Como el valor de nuestro estadstico Z bajo la hiptesis nula cae dentro de la regin de
aceptacin (-1,64<-1,58), se ACEPTA que el topgrafo realiza como mnimo 42 mediciones
diarias.
WOLFRAMALPHA: z-test for population mean
X
Z=
n
X 0
z /2 < < z /2 X z /2 < 0 < X + z /2
/ n n n
Los intervalos de confianza tienen la ventaja frente a los contrastes de hiptesis de que
siempre nos dan una idea de la zona en la que se va a encontrar el verdadero valor del
parmetro poblacional, mientras que en el caso de los test, cuando se rechaza una hiptesis
nula, no se conoce el valor del parmetro en cuestin. Todo lo que se sabe es que es ms
verosmil que el valor del parmetro sea mayor o menor que un valor concreto.
menor que t ,n 1 .
2
H 0 : = 0
Contraste bilateral (2 colas)
H1 : 0
Para H1: < o , la regin crtica est dada por t < t ,n 1 o bien, p-valor=P(tn-1<t)
Para muestras pequeas (n<30), con regularidad, es difcil detectar las desviaciones de
una distribucin normal.
2.2 Ejemplo:
Se hace un envo de latas de conserva, de las que se afirma que el peso medio es de 1000 g.
Examinada una muestra de 5 latas, se han obtenido los siguientes datos: media 998 g y
varianza muestral 19,6. Puede mantenerse la hiptesis de que =1000, con un nivel de
significacin =0,05? Obtener un intervalo de confianza al 95% para la media.
Solucin:
H 0 : =1000
Contrastamos la hiptesis
H1 : 1000
Datos:=
n 5;=
X 998 ; =
S2 19, 6; 1 =
0.95
X 0 998 1000
t= = =1,009511502
S/ n 4, 43 / 5
Buscaremos un valor t /2 tal que P ( t /2 < t n 1 < t /2 ) = 1 , siendo n-1 los grados
de confianza.
WOLFRAMALPHA:
t-interval xbar=998, s=4.43, n=5
Tenemos una muestra pequea (n=5) de varianza desconocida:
S S
I =
X t / 2,n 1 , X + t / 2,n 1
n n
Datos:=
n 5;=
X 998 ; =
S2 19, 6; 1 =
0.95; t 0,025;4
= 2, 776
4.43 4.43
I=0.25 = 998 2.776 ,998 + 2.776 =( 992.48,1003.51)
5 5
1000 ( 992.48,1003.51)
Obviamente se cumple que la media=
X1 X 2 ( 1 2 )
la v.a. Z = tiene una distribucin N(0,1).
12 22
+
n1 n 2
X1 X 2 ( 1 2 )
Si 1 = 2 = , el estadstico anterior se reduce a: Z = .
1 1
+
n1 n 2
X1 X 2 d 0
z=
12 22
+
n1 n 2
con una regin crtica de dos colas en el caso de una alternativa de dos lados. Es decir, el
rechazo de H0 en favor de H1 : 1 2 d 0 si z > z 2 z < z 2 . Las regiones crticas de
una cola se utilizan en el caso de las alternativas unilaterales.
2.3 Ejemplo
Solucin:
Queremos comparar las medias de dos poblaciones normales de varianzas conocidas.
H0 : A B H0 : A B 0
, luego
H1 : A > B H1 : A B > 0
XA XB 150 160
El estadstico de prueba es: = z sustituyendo los valores = 1.72 .
2
2
302 252
+
A B
+
nA nB 50 40
WOLFRAMALPHA:
Probability -1.72<x normal distribution, mean=0, sd=1 0,957284
Se ACEPTA la hiptesis nula para cualquier valor de <0,95728378
Si el cientfico est dispuesto a asumir que ambas distribuciones son normales, y que
1 = 2 = , puede utilizarse la prueba t combinada (prueba t de dos muestras). El estadstico
de prueba es:
n1 1 + n 2 1
p
1 1
Sp +
n1 n 2
2.4 Ejemplo:
Se utilizan dos teodolitos para hacer ciertas determinaciones, pretendiendo averiguar si
la media de los errores cometidos con uno y otro es idntica para un nivel de significacin del
5%. Se hacen 20 determinaciones con el teodolito A y se obtiene una media de 0,4 errores y
una desviacin tpica de 0,2 y otras 20 determinaciones con el B obteniendo una media de 0,5
y una desviacin de 0,3. Suponemos que las variables error son normales y con la misma
varianza. Comparar los dos teodolitos.
Solucin:
xA xB
El estadstico de prueba es: = t siendo
1 1
S +
nA nB
xA xB 0.4 0.5
=t = = 1.24 y para =0.05, t
,n + n 2
= t 0.025,38 =2
1 1 1 1 2 1 2
S + 0.065 +
nA nB 20 20
DERIVE:
#1: NSOLVE(STUDENT(x, 38) = 0.975, x, Real)
#2: x = 2.024394161
EXCEL: =INV.T.2C(0,05;38) 2,02439415
Como 1.24 < 2 admitimos la hiptesis de igualdad de medias.
H 0 : 2 = 02
(n 1)S2 (n 1)S2
n 1
2
2 02
Caso bilateral
De aqu que, para una prueba de dos colas con un nivel de significacin , la regin crtica es
< 12 / 2 y > 2 / 2 .
H0 : = 0
Contraste bilateral (2 colas)
H1 : 0
( ( ) (
O bien, calculando el p-valor = 2 mn P n 1 < ,P n 1 >
2 2
) ) y comparndolo con :
p > se acepta la hiptesis nula, y por lo tanto 2 = o2 .
( )
O bien, calculando el p-valor = P n 1 < y comparndolo con :
2
H0 : < 0
Contraste unilateral (cola de la derecha)
H1 : 0
( )
O bien, calculando el p-valor = P n 1 > y comparndolo con :
2
Para probar una hiptesis acerca de una varianza poblacional, se procede siguiendo
los mismos 6 pasos bsicos indicados antes.
(n 1)S2
Sabemos que: 2n 1
2
En nuestro caso
(n 1)S2 27 2
= = = 13,5
02 4
2
27
0.975 =
14,57 0.025 =
43,19
Para = 0,05 P( 227 0.975,27
= ) 0.025 0.975,27
= 14,57
siendo 13,5 menor que 14,57 RECHAZAMOS la hiptesis nula de que la varianza del grosor
de los filamentos es 4 milmetros.
EXCEL: = INV.CHICUAD(0,025;27) 14,75; INV.CHICUAD (0,975;27) 43,19
SPSS: IDF.CHISQ(0.025,27) 14,75; IDF.CHISQ(0.975,27) 43,19
( ( 2
) (
O bien, calculando el p-valor = 2 mn P n 1 < 13.5 ,P n 1 >=
13.5 ))
0.02865 <
2
(n 1)S2 (n 1)S2 27 2
Sabemos que: 2
n 1 = = 13,5
2 02 4
El valor crtico para = 0,05 y n=28
,n 1 =
0.05,27
(
O bien, calculando el p-valor = P n 1 >
2
= )
13.5 0.98567 >
f > F .
,n1 1,n 2 1
2
2.6 Ejemplo:
Se pretende comparar dos mtodos de eliminacin de observaciones. Se seleccionan
una muestra de 50 series con observaciones aberrantes y a 25 de ellas se le aplica el mtodo A
y a las otras 25 el B. Los resultados obtenidos son los siguientes:
=
Mtodo A =
: x A 4,3; SA 1, 4
=
Mtodo B : x B 3,=
6; SB 1,1
Suponiendo la variable normal, contrastar la hiptesis de igualdad de medias a un nivel de
significacin = 0,05.
Solucin:
Debemos en primer lugar contrastar la hiptesis de igualdad de varianzas
H 0 : A2 =2B
H1 : 2A 2B
S2A 1.42
= 1.62 ( F0.975,24,24 , F0.025,24,24 ) =
= ( 0.44, 2.27 )
S2B 1.12
DERIVE:
#1: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.975, x, 0, 1)
#2: x = 0.4405911279
#3: NSOLVE(F_DISTRIBUTION(x, 24, 24) = 0.025, x, 0, 5)
#4: x = 2.269129557
EXCEL:
=INV.F(0,975;24;24) 0,44066972;=INV.F(0,025;24;24) 2,26927455
SPSS:
IDF.F(0.975,24,24) .44;IDF.F(0.025,24,24) 2.27
0,44 < 1,62 < 2,27 y por tanto aceptamos la hiptesis de varianzas iguales.
X A XB
El estadstico de prueba es: = t siendo
1 1 ,n A + n B 2
S + 2
nA nB
X A XB 4.3 3.6
= = 1.966 y para = 0,05, t0.025,48=2
1 1 1 1
S + 1.585 +
nA nB 25 25
DERIVE:
#1: NSOLVE(STUDENT(x, 48) = 0.975, x, Real)
#2: x = 2.010634765
SPSS: IDF.T(0.975,48) 2.01
EXCEL: =INV.T.2C(0,05;48) 2,01063472
Como 1.93 < 2 admitimos la hiptesis de igualdad de medias.
Sean:
n = tamao de la muestra
k = nmero de clases
ni = frecuencia absoluta de la clase i
pi = probabilidad de cada clase segn la distribucin terica
npi = frecuencia absoluta de cada clase segn la distribucin terica
Una medida de las discrepancias en este sentido, fue estudiada por Pearson
k
( n i np i ) 2
construyendo el siguiente estadstico: D= , y demostr que, para
i =1 np i
Para aplicar correctamente el test, las frecuencias tericas de las diferentes clases
deben ser mayor o igual que cinco, por lo que en caso de que no lleguen, se agrupan
previamente.
( )
Fijado un nivel de significacin , buscamos un valor tal que P 2 =
D <
Si D < aceptamos la hiptesis H0 de conformidad con el ajuste, siendo las
Se define como el mnimo nivel de significacin para el que, con los datos de una muestra
concreta, se tendra que rechazar H0
Dp>
Observaciones acerca de D.
2.7 Ejemplo:
De un experimento se ha obtenido la siguiente distribucin de frecuencias:
x <1 1a2 2a3 3a4 4a5 5a6 6a7 7a8 8a9 >9
ni 0 5 19 91 202 217 95 16 5 0
ei 1 ei xi ni ni xi ni xi2 240
Histograma de frecuencias
<1 0
200
n
3-4 3.5 91 318.5 1114.75
120
4-5 4.5 202 909.0 4090.50
5-6 5.5 217 1193.5 6564.25 80
>9 0 0 2 4 6 8 10
650
S= = 1154
. ; resulta una distribucin estimada: N( 5 , 1.154 )
649
( n i npi )
2
2.8 Ejemplo:
Se puede admitir la distribucin uniforme de valores angulares en una triangulacin de primer
orden de un pas en la que se ha tomado una muestra de tamao 100 y se han obtenido los
siguientes resultados:
x < 40 40-50 50-60 60-70 >70
ni 16 22 20 19 23
Solucin:
Unidad Docente de Matemticas de la E.T.S.I.T.G.C. de la U.P.M. 30
Contraste de Hiptesis
Segn la ley de la distribucin uniforme, la probabilidad terica de cada clase es igual a la
unidad dividida por el nmero de clase: 1/5=0,2
x < 40 40-50 50-60 60-70 >70
ni 16 22 20 19 23
20 20 20 20 20
npi
(n i npi ) 2 k
=D = 1,5
i =1 npi
Utilizando el p-valor:
DERIVE: 1 - CHI_SQUARE(1.5,4)= 0.8266414672> 0,05 =
EXCEL: = DISTR.CHI(1,5;4) 0,826641> 0,05 =
SPSS: 1 - CDF.CHISQ(1.5,4) .83> 0,05=
WOLFRAMALPHA: Probability 1.5<X, Chi Square Distribution degrees of freedom 4
0.826641
Aceptamos la hiptesis de ser el ajuste bueno. La diferencia entre la distribucin emprica y
la ley de la distribucin uniforme no es significativa.
Test de independencia
Se trata de contrastar si dos variables CUALITATIVAS son independientes (es decir, si
existe relacin entre ellas), o no.
Para ello, se divide el conjunto de los posibles valores de X en r clases disjuntas, A1, A2,, Ar
y los de Y en k clases disjuntas, B1, B2 ,, Bk, obteniendo k r clases con frecuencia nij, dando
lugar a una tabla de doble entrada (tabla de contingencia):
Muestra A1 A2 . Ar Total
B1 n11 n12 n1r n1.
B2 n21 n22 n2r n2.
pij =P ( A j Bi ) =P ( A j ) P ( Bi ) =
n . j n i.
n n
n . j n i. n i. n . j
Sobre una muestra de tamao n, ser: eij = npij = n =
n n n
Al Igual que para el test de Bondad el estadstico de contraste
(O eij )
2
r k
D =
ij
=j 1 =i 1 eij
Fuma 25 35 60
No fuma 75 65 140
Solucin:
Qu debera salir, si fueran independientes?
25 (30) 35(30) 60
Fuma
H : X e Y son independientes
o
H : X e Y no son independientes
1
Comparamos frecuencias observadas (O ) y esperadas (e )
i i
(O eij )
2
r k
D =
ij
=j 1 =i 1 eij
( 25 30 ) ( 35 30 ) ( 75 70 ) ( 65 70 )
2 2 2 2
D= + + + = 2,38
30 30 70 70
La idea es RECHAZAR la hiptesis, si los valores observados difieren demasiado de los
esperados.
En general, ser el nmero de columnas menos 1 por el nmero de filas menos 1: (c-1)(f-1).
p valor = P( 2n =1 2.38) = 0,12289758
Utilizando el p-valor:
EXCEL: = DISTR.CHI(2,38;1) 0,1228975
SPSS: 1 - CDF.CHISQ(2,38,1) .12
WOLFRAMALPHA: Probability 2.38<X , Chi Square Distribution degrees of freedom 1
0.1228975482
Aceptamos la hiptesis de independencia para cualquier valor de inferior al p-valor.
Prueba de Homogeneidad
Consiste en comprobar si varias muestras de un carcter cualitativo proceden de la misma
poblacin o que las distribuciones de la variable observada es la misma en todas las
poblaciones
H0: m poblaciones homogneas
H1: al menos una poblacin es heterognea
Para ello, se divide el conjunto de los posibles valores de A en r clases disjuntas y nij,
representa el nmero de observaciones de la muestra i que pertenece a la clase Aj segn
vemos en una tabla de doble entrada (tabla de contingencia):
Muestra A1 A2 . Ar Total
1 n11 n12 n1r n1
2 n21 n22 n2r n2
La hiptesis de que las m poblaciones son homogneas, se traduce en que cada conjunto Aj
debe tener una probabilidad terica pj, desconocida, pero que no vara de la poblacin i a la
poblacin i
n. j
e=
ij n i p=j n i
n
(O eij )
2
r m
D =
ij
=j 1 =i 1 eij
2
n i n. j
r m
n
n ij
En nuestro caso: D = con (m-1)(r-1) grados de libertad
=j 1 =i 1
n n
i .j
2.10 Ejemplo:
Queremos saber si las cuatro muestras obtenidas proceden de la misma poblacin con
probabilidad del 95%. Es decir, si la proporcin de aprobados y suspensos es homognea.
A B C D
Aprobados 56 60 62 59
No aprobados 44 40 38 41
Solucin:
H : p = p11 = p12 = p13 = p14
o
H : pij distinto de p para algn grupo
1
Que coinciden para los cuatro grupos por ser el mismo tamao muestral ni = 100
n .2 163
ei2 =n i p 2 =n i =100 =40,75 5
n 400
+ + + + + =
59,25 40,75 40,75 40,75 40,75
= 0,7765784
En general, ser el nmero de columnas menos 1 por el nmero de filas menos 1: (c-1)(f-1).
Utilizando el p-valor: