Documente Academic
Documente Profesional
Documente Cultură
Uso en la práctica
El nivel de significación es comúnmente representado por el símbolo griego α (alfa). Son
comunes los niveles de significación del 0,05, 0,01 y 0,001. Si un contraste de hipótesis
proporciona un valor p inferior a α, la hipótesis nula es rechazada, siendo tal resultado
denominado 'estadísticamente significativo'. Cuanto menor sea el nivel de significación,
más fuerte será la evidencia de que un hecho no se debe a una mera coincidencia (al azar).
Los niveles fijos de significación tales como los mencionados pueden ser considerados
como útiles en el análisis exploratorio de datos. Sin embargo, la recomendación de la
estadística moderna es que, cuando el resultado de un test es esencialmente el resultado
final de un experimento o de otro estudio, el valor p debería ser citado explícitamente. Y,
sobre todo, debería ser citado si el valor p es juzgado o no como significativo. Esto es para
permitir que el máximo de información sea transferido de un resumen de estudio al
metaanálisis.
Valor p
Interpretación
Se rechaza la hipótesis nula si el valor p asociado al resultado observado es igual o menor
que el nivel de significación establecido, convencionalmente 0,05 ó 0,01. Es decir, el valor
p nos muestra la probabilidad de haber obtenido el resultado que hemos obtenido si
suponemos que la hipótesis nula es cierta.
Si el valor p es inferior al nivel de significación nos indica que lo más probable es que la
hipótesis de partida sea falsa. Sin embargo, también es posible que estemos ante una
observación atípica, por lo que estaríamos cometiendo el error estadístico de rechazar la
hipótesis nula cuando ésta es cierta basándonos en que hemos tenido la mala suerte de
encontrar una observación atípica. Este tipo de errores se puede subsanar rebajando el valor
p; un valor p de 0,05 es usado en investigaciones habituales sociológicas mientras que
valores p de 0,01 se utilizan en investigaciones médicas, en las que cometer un error puede
acarrear consecuencias más graves. También se puede tratar de subsanar dicho error
aumentando el tamaño de la muestra obtenida, lo que reduce la posibilidad de que el dato
obtenido sea casualmente raro.
El valor p es un valor de probabilidad, por lo que oscila entre 0 y 1. Así, se suele decir que
valores altos de p NO RECHAZAN la hipótesis nula o, dicho de forma correcta, no permiten
rechazar la H0. De igual manera, valores bajos de p rechazan la H0.
Es importante recalcar que un contraste de hipótesis nula no permite aceptar una hipótesis;
simplemente la rechaza o no la rechaza, es decir que la tacha de verosímil (lo que no
significa obligatoriamente que sea cierta, simplemente que es más probable de serlo) o
inverosímil.
Ejemplo
Supongamos que dos amigos están en un bar y uno le dice a otro que es capaz de distinguir,
sin lugar a dudas, un whisky barato de uno caro. Como el otro amigo no lo cree, deciden
hacer una prueba. El amigo bravucón dice que acierta qué tipo de whisky está tomando el
90% de las veces, ya que a veces los hielos le distorsionan la cata. Deciden hacerle probar
20 whiskys (en días distintos) y obtienen el resultado de que acertó sobre el contenido del
vaso que estaba probando en 14 noches. Dado que nuestro amigo dijo que acertaría el 90%
de las veces y sólo acertó el 70% de ellas (14 de 20 noches), ¿podemos creer a nuestro
amigo, o nos está engañando? ¿es posible que fallara por mala suerte, pero si le dejamos
seguir intentándolo a la larga acertará el 90%? Está claro que si hubiera acertado todas las
noches, o 19 de ellas le creeríamos sin lugar a dudas, también si hubiera fallado todas o casi
todas le desmentiríamos sin dudar, pero con 14 sobre 20 es algo dudoso. Esto es lo que
podemos medir con el valor p.
Si suponemos que la hipótesis nula es cierta, esto quiere decir que las catas de nuestro
amigo se distribuyen según una binomial de parámetro 0,9, esto es, como una moneda que
saliera cara el 90% de las veces y cruz el 10%. ¿Cuál es la probabilidad de que una
distribución binomial de parámetro 0,9 repetida 20 veces nos dé como resultado 14 caras y
6 cruces? Calculando esa probabilidad nos queda p=0,0088.
Si a este valor le sumamos la probabilidad de que acierte sólo 13 veces, más la probabilidad
de que acierte sólo 12 veces y así hasta la probabilidad de que no acierte ninguna vez, es
decir la probabilidad de que acierte 14 o menos veces esto nos da p=0,01125. Este es el
valor p.
¿Qué significa esto? Esto significa que si realmente suponemos que nuestro amigo acierta
el 90% de las veces que prueba una copa y ha probado 20 copas, la probabilidad de que
acierte menos de 15 copas es del 1,125%. Por tanto, si damos una potencia de contraste
usual de 0,05, que significa que aceptamos equivocarnos el 5% de las veces si repitiéramos
el experimento, como el valor p es inferior a la potencia del contraste, rechazamos la
hipótesis nula, y declaramos que nuestro amigo es un fanfarrón. Estadísticamente, esto lo
hacemos porque el resultado observado (14 aciertos de 20 intentos) es muy poco probable
si suponemos que acierta el 90% de las veces, por lo tanto asumimos que no era cierta la
hipótesis nula.
¿Que hubiera pasado si hubiera acertado las 20 veces? En ese caso el valor p saldría muy
alto, ya que es muy probable que una distribución binomial de parámetro 0,9 repetida 20
veces nos dé 20. Por tanto no rechazamos la hipótesis nula. Es decir, diríamos que es
verosímil que acierte el 90% de las veces, es posible que lleve razón, no tenemos
evidencias significativas en contra de ello ya que el p-valor nos ha resultado muy favorable.
Contraste de hipótesis
Dentro de la inferencia estadística, un contraste de hipótesis (también denominado test de
hipótesis o prueba de significación) es un procedimiento para juzgar si una propiedad que
se supone en una población estadística es compatible con lo observado en una muestra de
dicha población. Fue iniciada por Ronald Fisher y fundamentada posteriormente por Jerzy
Neyman y Karl Pearson.
Existen diversos métodos para desarrollar dicho test, minimizando los errores de tipo I y II,
y hallando por tanto con una determinada potencia, la hipótesis con mayor probabilidad de
ser correcta. Los tipos más importantes son los test centrados, de hipótesis y alternativa
simple, aleatorizados, etc. Dentro de los tests no paramétricos, el más extendido es
probablemente el test de la U de Mann-Whitney.
Índice
1 Introducción
2 Planteamiento clásico del contraste de hipótesis
3 Procedimientos de prueba
4 Enfoque actual de los contrastes de hipótesis
5 Errores en el contraste
o 5.1 Contraste más potente
o 5.2 Contraste uniformemente más potente
6 Aplicaciones de los contrastes de hipótesis
7 Test estadísticos
8 Véase también
9 Enlaces externos
10 Referencias
Introducción
Si sospechamos que una moneda ha sido trucada para que se produzcan más caras que
cruces al lanzarla al aire, podríamos realizar 30 lanzamientos, tomando nota del número de
caras obtenidas. Si obtenemos un valor demasiado alto, por ejemplo 25 o más,
consideraríamos que el resultado es poco compatible con la hipótesis de que la moneda no
está trucada, y concluiríamos que las observaciones contradicen dicha hipótesis.
Un ejemplo del primer grupo es la hipótesis de que la media de una variable es 10, y del
segundo que la distribución de probabilidad es la distribución normal.
A partir de una muestra de la población en estudio, se extrae un estadístico (esto es, una
valor que es función de la muestra) cuya distribución de probabilidad esté relacionada con
la hipótesis en estudio y sea conocida. Se toma entonces como región de rechazo al
conjunto de valores que es más improbable bajo la hipótesis, esto es, el conjunto de valores
para el que rechazaremos la hipótesis nula si el valor del estadístico observado entra dentro
de él.
La probabilidad de que se obtenga un valor del estadístico que entre en la región de rechazo
aún siendo cierta la hipótesis puede calcularse. De esta manera, se puede escoger dicha
región de tal forma que la probabilidad de cometer este error sea suficientemente pequeña.
Procedimientos de prueba
Un procedimiento de prueba es una regla con base en datos muestrales, para determinar si
se rechaza .
Ejemplo
Una prueba de : p = .10 contra : p < .10, podría estar basada en el examen de una
muestra aleatoria de n = 200 objetos. Representamos con X el número de objetos
defectuosos de la muestra, una variable aleatoria binomial; x representa el valor
observado de X. si es verdadera, E(X) = np = 200(.10) = 20, mientras, podemos esperar
menos de 20 objetos defectuosos si es verdadera. Un valor de x ligeramente debajo de
20 no contradice de manera contundente a así que es razonable rechazar solo si x
es considerablemente menor que 20. Un procedimiento de prueba es rechazar si x≤15
y no rechazar de otra forma. En este caso, la región de rechazo está formada por x = 0,
1, 2, …, y 15. no será rechazada si x= 16, 17,…, 199 o 200.
Un procedimiento de prueba se especifica por lo siguiente:
Entonces, la hipótesis nula será rechazada si y solo si el valor observado o calculado del
estadístico de prueba se ubica en la región de rechazo
En el mejor de los casos podrían desarrollarse procedimientos de prueba para los cuales
ningún tipo de error es posible. Pero esto puede alcanzarse solo si una decisión se basa en
un examen de toda la población, lo que casi nunca es práctico. La dificultad al usar un
procedimiento basado en datos muestrales es que debido a la variabilidad en el muestreo
puede resultar una muestra no representativa.
Si por ejemplo deseamos comprobar la hipótesis de que dos distribuciones tienen la misma
media, estamos implícitamente considerando como hipótesis alternativa “ambas
poblaciones tienen distinta media”. Podemos, sin embargo considerar casos en los que
no es la simple negación de . Supongamos por ejemplo que sospechamos que en un
juego de azar con un dado, este está trucado para obtener 6. Nuestra hipótesis nula podría
ser “el dado no está trucado” que intentaremos contrastar, a partir de una muestra de
lanzamientos realizados, contra la hipótesis alternativa “el dado ha sido trucado a favor del
6”. Cabría realizar otras hipótesis, pero, a los efectos del estudio que se pretende realizar,
no se consideran relevantes.
Un contraste, prueba o test para dichas hipótesis sería una función de la muestra de la
siguiente forma:
Se escoge de tal manera que la probabilidad de que T(X) caiga en su interior sea baja
cuando se da .
Errores en el contraste
Artículo principal: Errores de tipo I y de tipo II
Una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis,
o , y la decisión escogida coincidirá o no con la que en realidad es cierta. Se pueden
dar los cuatro casos que se exponen en el siguiente cuadro:
es cierta es cierta
Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de tal manera
que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera posible. Sin
embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error de tipo
I, α, conduce a incrementar la probabilidad del error de tipo II, β.
Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el 5% (0,05),
aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o
más estrictas. El recurso para aumentar la potencia del contraste, esto es, disminuir β,
probabilidad de error de tipo II, es aumentar el tamaño muestral, lo que en la práctica
conlleva un incremento de los costes del estudio que se quiere realizar.
El concepto de potencia nos permite valorar cual entre dos contrastes con la misma
probabilidad de error de tipo I, α, es preferible. Si se trata de contrastar dos hipótesis
sencillas sobre un parámetro desconocido, θ, del tipo:
Se trata de escoger entre todos los contrastes posibles con α prefijado aquel que tiene mayor
potencia, esto es, menor probabilidad β de incurrir en el error de tipo II.
En el caso de que las hipótesis sean compuestas, esto es, que no se limiten a especificar un
único posible valor del parámetro, sino que sean del tipo:
esto es, la probabilidad de discriminar que la hipótesis alternativa es cierta para cada valor
posible de θ dentro de los valores posibles de esta misma hipótesis.
Se dice que un contraste es uniformemente más potente de tamaño α cuando, para todo
valor es mayor o igual que el de cualquier otro contraste del mismo
tamaño. En resumen, se trata de un contraste que garantiza la máxima potencia para todos
los valores de θ en la hipótesis alternativa.
Es claro que el caso del contraste uniformemente más potente para hipótesis compuestas
exige el cumplimiento de condiciones más exigentes que en el caso del contraste más
potente para hipótesis simples. Por ello, no existe un equivalente al Lema de Neyman-
Pearson para el caso general.
Las técnicas de contraste de hipótesis son también de amplia aplicación en muchos otros
casos, como ensayos clínicos de nuevos medicamentos, control de calidad, encuestas,
etcétera.
Test estadísticos
Nombre Fórmula Notas
Dos muestras
(Poblaciones normales o
no combinadas
n1 + n2 > 40) y observaciones
t-test,
independientes y σ1 ≠ σ2 ambas
varianzas
desconocidas
desiguales
1
Dos
n1 p1 > 5 y n1(1 − p1) > 5 y n2 p2 > 5 y
proporciones
n2(1 − p2) > 5 y observaciones
z-test,
independientes, véase la
combinadas
aproximación normal de la
por
distribución binomial.
Dos
n1 p1 > 5 y n1(1 − p1) > 5 y n2 p2 > 5 y
proporciones
n2(1 − p2) > 5 y observaciones
z-test,
independientes, véase la
descombinada
aproximación normal de la
s por
distribución binomial.
Test de la chi
cuadrado para Población normal
la varianza
Test de la chi
cuadrado para df = k - 1 - # parámetros estimados, y
la bondad de uno de ellos debe tenerse.
ajuste
En general, el subíndice 0 indica un valor dado de la hipótesis nula, H0, la cual debe ser usada tanto
como sea posible en la construcción del test estadístico. ... Definiciones de otros símbolos:
= Suma (de
números k)
Se considera que el paciente está enfermo, a pesar de que en realidad está sano; hipótesis
nula: El paciente está sano.
Se declara culpable al acusado, a pesar de que en realidad es inocente; hipótesis nula: El
acusado es inocente.
No se permite el ingreso de una persona, a pesar de que tiene derecho a ingresar; hipótesis
nula: La persona tiene derecho a ingresar.
En un estudio de investigación, el error de tipo II, también llamado error de tipo beta (β)
(β es la probabilidad de que exista este error) o falso negativo, se comete cuando el
investigador no rechaza la hipótesis nula siendo esta falsa en la población. Es equivalente a
la probabilidad de un resultado falso negativo, ya que el investigador llega a la conclusión
de que ha sido incapaz de encontrar una diferencia que existe en la realidad.
Se acepta en un estudio que el valor del error beta esté entre el 5 y el 20%.
Índice
1 Errores en el contraste
2 Véase también
3 Referencias
o 3.1 Bibliografía
o 3.2 Enlaces externos
Errores en el contraste
Artículo principal: Contraste de hipótesis
Una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis, la
hipótesis nula o base o la hipótesis alternativa , y la decisión escogida coincidirá
o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el
siguiente cuadro:
es cierta es cierta
En este caso, se denomina Potencia del contraste al valor 1-β, esto es, a la probabilidad de
escoger cuando esta es cierta
.
Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de tal manera
que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera posible. Sin
embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error de tipo
I, α, conduce a incrementar la probabilidad del error de tipo II, β.
Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el 5% (0,05),
aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o
más estrictas. El recurso para aumentar la potencia del contraste, esto es, disminuir β,
probabilidad de error de tipo II, es aumentar el tamaño muestral, lo que en la práctica
conlleva un incremento de los costes del estudio que se quiere realizar.
Véase también
Contraste de hipótesis
Estadística
Referencias
1.
Bibliografía
Betz, M.A. & Gabriel, K.R., "Type IV Errors and Analysis of Simple Effects", Journal of
Educational Statistics, Vol.3, No.2, (Summer 1978), pp. 121–144.
David, F.N., "A Power Function for Tests of Randomness in a Sequence of Alternatives",
Biometrika, Vol.34, Nos.3/4, (December 1947), pp. 335–339.
Fisher, R.A., The Design of Experiments, Oliver & Boyd (Edinburgh), 1935.
Gambrill, W., "False Positives on Newborns' Disease Tests Worry Parents", Health Day, (5
June 2006). 34471.html
Kaiser, H.F., "Directional Statistical Decisions", Psychological Review, Vol.67, No.3, (May
1960), pp. 160–167.
Kimball, A.W., "Errors of the Third Kind in Statistical Consulting", Journal of the American
Statistical Association, Vol.52, No.278, (June 1957), pp. 133–142.
Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological
Measurement, Vol.21, No.4, (Winter 1961), pp. 807–817.
Marascuilo, L.A. & Levin, J.R., "Appropriate Post Hoc Comparisons for Interaction and
nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV Errors",
American Educational Research Journal, Vol.7., No.3, (May 1970), pp. 397–421.
Mitroff, I.I. & Featheringham, T.R., "On Systemic Problem Solving and the Error of the
Third Kind", Behavioral Science, Vol.19, No.6, (November 1974), pp. 383–393.
Mosteller, F., "A k-Sample Slippage Test for an Extreme Population", The Annals of
Mathematical Statistics, Vol.19, No.1, (March 1948), pp. 58–65.
Moulton, R.T., “Network Security”, Datamation, Vol.29, No.7, (July 1983), pp. 121–127.
Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty, Addison–
Wesley, (Reading), 1968.
Enlaces externos