Sunteți pe pagina 1din 17

Valor p

En estadística, un resultado es estadísticamente significativo cuando no es probable que


haya sido debido al azar. Una "diferencia estadísticamente significativa" solamente
significa que hay evidencias estadísticas de que hay una diferencia; no significa que la
diferencia sea grande, importante, o significativa en el sentido estricto de la palabra.

El nivel de significación de un test es un concepto estadístico asociado a la verificación de


una hipótesis. En pocas palabras, se define como la probabilidad de tomar la decisión de
rechazar la hipótesis nula cuando ésta es verdadera (decisión conocida como error de tipo I,
o "falso positivo"). La decisión se toma a menudo utilizando el valor p (o p-valor): si el
valor p es inferior al nivel de significación, entonces la hipótesis nula es rechazada. Cuanto
menor sea el valor p, más significativo será el resultado.

En otros términos, el nivel de significación de un contraste de hipótesis es una probabilidad


p tal que la probabilidad de tomar la decisión de rechazar la hipótesis nula - cuando ésta es
verdadera - no es mayor que p.

Uso en la práctica
El nivel de significación es comúnmente representado por el símbolo griego α (alfa). Son
comunes los niveles de significación del 0,05, 0,01 y 0,001. Si un contraste de hipótesis
proporciona un valor p inferior a α, la hipótesis nula es rechazada, siendo tal resultado
denominado 'estadísticamente significativo'. Cuanto menor sea el nivel de significación,
más fuerte será la evidencia de que un hecho no se debe a una mera coincidencia (al azar).

En algunas situaciones es conveniente expresar la significación estadística como 1 − α. En


general, cuando se interpreta una significación dada, se debe tomar en cuenta que,
precisamente, está siendo probada estadísticamente.

Diferentes niveles de α tienen distintas ventajas y desventajas. Valores pequeños de α


otorgan mayor confianza en la determinación de la significación, pero hacen correr
mayores riesgos de equivocarse al aceptar una hipótesis nula falsa (error de tipo II o "falso
negativo"), con lo cual se pierde potencia de estudio. La elección de un nivel de α
inevitablemente envuelve un compromiso entre significación y potencia, y
consecuentemente entre errores de tipo I y de tipo II.

En algunos campos, por ejemplo física nuclear y de partículas, es común expresar la


significación estadística en unidades de "σ" (sigma), el desvío estándar de una distribución
de Gauss. La significación estadística de " " puede ser convertida en un valor α por
medio de la función error:
El uso de σ está motivado por la importancia de la distribución gaussiana para medir
incertezas. Por ejemplo, si una teoría predice que un parámetro tendrá un valor de, digamos,
100, y el parámetro medido resulta de 109 ± 3, luego se puede informar la medición como
un "desvío de 3σ" de la predicción teórica. En términos de α, esta afirmación es equivalente
a decir que "asumiendo que la teoría sea cierta, la posibilidad de obtener el resultado
experimental por casualidad es 0,27% (dado que 1 − erf(3/√2) = 0,0027).

Los niveles fijos de significación tales como los mencionados pueden ser considerados
como útiles en el análisis exploratorio de datos. Sin embargo, la recomendación de la
estadística moderna es que, cuando el resultado de un test es esencialmente el resultado
final de un experimento o de otro estudio, el valor p debería ser citado explícitamente. Y,
sobre todo, debería ser citado si el valor p es juzgado o no como significativo. Esto es para
permitir que el máximo de información sea transferido de un resumen de estudio al
metaanálisis.

Valor p

En contrastes de hipótesis, en Estadística, el valor p (a veces conocido simplemente como


el p-valor, la p, o bien directamente en inglés p-value) está definido como la probabilidad
de obtener un resultado al menos tan extremo como el que realmente se ha obtenido (valor
del estadístico calculado), suponiendo que la hipótesis nula es cierta. Es fundamental tener
en cuenta que el valor p está basado en la asunción de la hipótesis de partida (o hipótesis
nula).

Interpretación
Se rechaza la hipótesis nula si el valor p asociado al resultado observado es igual o menor
que el nivel de significación establecido, convencionalmente 0,05 ó 0,01. Es decir, el valor
p nos muestra la probabilidad de haber obtenido el resultado que hemos obtenido si
suponemos que la hipótesis nula es cierta.
Si el valor p es inferior al nivel de significación nos indica que lo más probable es que la
hipótesis de partida sea falsa. Sin embargo, también es posible que estemos ante una
observación atípica, por lo que estaríamos cometiendo el error estadístico de rechazar la
hipótesis nula cuando ésta es cierta basándonos en que hemos tenido la mala suerte de
encontrar una observación atípica. Este tipo de errores se puede subsanar rebajando el valor
p; un valor p de 0,05 es usado en investigaciones habituales sociológicas mientras que
valores p de 0,01 se utilizan en investigaciones médicas, en las que cometer un error puede
acarrear consecuencias más graves. También se puede tratar de subsanar dicho error
aumentando el tamaño de la muestra obtenida, lo que reduce la posibilidad de que el dato
obtenido sea casualmente raro.

El valor p es un valor de probabilidad, por lo que oscila entre 0 y 1. Así, se suele decir que
valores altos de p NO RECHAZAN la hipótesis nula o, dicho de forma correcta, no permiten
rechazar la H0. De igual manera, valores bajos de p rechazan la H0.

Es importante recalcar que un contraste de hipótesis nula no permite aceptar una hipótesis;
simplemente la rechaza o no la rechaza, es decir que la tacha de verosímil (lo que no
significa obligatoriamente que sea cierta, simplemente que es más probable de serlo) o
inverosímil.

Ejemplo
Supongamos que dos amigos están en un bar y uno le dice a otro que es capaz de distinguir,
sin lugar a dudas, un whisky barato de uno caro. Como el otro amigo no lo cree, deciden
hacer una prueba. El amigo bravucón dice que acierta qué tipo de whisky está tomando el
90% de las veces, ya que a veces los hielos le distorsionan la cata. Deciden hacerle probar
20 whiskys (en días distintos) y obtienen el resultado de que acertó sobre el contenido del
vaso que estaba probando en 14 noches. Dado que nuestro amigo dijo que acertaría el 90%
de las veces y sólo acertó el 70% de ellas (14 de 20 noches), ¿podemos creer a nuestro
amigo, o nos está engañando? ¿es posible que fallara por mala suerte, pero si le dejamos
seguir intentándolo a la larga acertará el 90%? Está claro que si hubiera acertado todas las
noches, o 19 de ellas le creeríamos sin lugar a dudas, también si hubiera fallado todas o casi
todas le desmentiríamos sin dudar, pero con 14 sobre 20 es algo dudoso. Esto es lo que
podemos medir con el valor p.

Si suponemos que la hipótesis nula es cierta, esto quiere decir que las catas de nuestro
amigo se distribuyen según una binomial de parámetro 0,9, esto es, como una moneda que
saliera cara el 90% de las veces y cruz el 10%. ¿Cuál es la probabilidad de que una
distribución binomial de parámetro 0,9 repetida 20 veces nos dé como resultado 14 caras y
6 cruces? Calculando esa probabilidad nos queda p=0,0088.

Si a este valor le sumamos la probabilidad de que acierte sólo 13 veces, más la probabilidad
de que acierte sólo 12 veces y así hasta la probabilidad de que no acierte ninguna vez, es
decir la probabilidad de que acierte 14 o menos veces esto nos da p=0,01125. Este es el
valor p.
¿Qué significa esto? Esto significa que si realmente suponemos que nuestro amigo acierta
el 90% de las veces que prueba una copa y ha probado 20 copas, la probabilidad de que
acierte menos de 15 copas es del 1,125%. Por tanto, si damos una potencia de contraste
usual de 0,05, que significa que aceptamos equivocarnos el 5% de las veces si repitiéramos
el experimento, como el valor p es inferior a la potencia del contraste, rechazamos la
hipótesis nula, y declaramos que nuestro amigo es un fanfarrón. Estadísticamente, esto lo
hacemos porque el resultado observado (14 aciertos de 20 intentos) es muy poco probable
si suponemos que acierta el 90% de las veces, por lo tanto asumimos que no era cierta la
hipótesis nula.

¿Que hubiera pasado si hubiera acertado las 20 veces? En ese caso el valor p saldría muy
alto, ya que es muy probable que una distribución binomial de parámetro 0,9 repetida 20
veces nos dé 20. Por tanto no rechazamos la hipótesis nula. Es decir, diríamos que es
verosímil que acierte el 90% de las veces, es posible que lleve razón, no tenemos
evidencias significativas en contra de ello ya que el p-valor nos ha resultado muy favorable.

El valor p, o también llamado p consignado, es la probabilidad de que de la población


propuesta por la hipótesis nula se obtenga la muestra observada o una aún más alejada.

Contraste de hipótesis
Dentro de la inferencia estadística, un contraste de hipótesis (también denominado test de
hipótesis o prueba de significación) es un procedimiento para juzgar si una propiedad que
se supone en una población estadística es compatible con lo observado en una muestra de
dicha población. Fue iniciada por Ronald Fisher y fundamentada posteriormente por Jerzy
Neyman y Karl Pearson.

Mediante esta teoría, se aborda el problema estadístico considerando una hipótesis


determinada y una hipótesis alternativa , y se intenta dirimir cuál de las dos es la
hipótesis verdadera, tras aplicar el problema estadístico a un cierto número de
experimentos.

Está fuertemente asociada a los considerados errores de tipo I y II en estadística, que


definen respectivamente, la posibilidad de tomar un suceso falso como verdadero, o uno
verdadero como falso.

Existen diversos métodos para desarrollar dicho test, minimizando los errores de tipo I y II,
y hallando por tanto con una determinada potencia, la hipótesis con mayor probabilidad de
ser correcta. Los tipos más importantes son los test centrados, de hipótesis y alternativa
simple, aleatorizados, etc. Dentro de los tests no paramétricos, el más extendido es
probablemente el test de la U de Mann-Whitney.

Índice
 1 Introducción
 2 Planteamiento clásico del contraste de hipótesis
 3 Procedimientos de prueba
 4 Enfoque actual de los contrastes de hipótesis
 5 Errores en el contraste
o 5.1 Contraste más potente
o 5.2 Contraste uniformemente más potente
 6 Aplicaciones de los contrastes de hipótesis
 7 Test estadísticos
 8 Véase también
 9 Enlaces externos
 10 Referencias

Introducción
Si sospechamos que una moneda ha sido trucada para que se produzcan más caras que
cruces al lanzarla al aire, podríamos realizar 30 lanzamientos, tomando nota del número de
caras obtenidas. Si obtenemos un valor demasiado alto, por ejemplo 25 o más,
consideraríamos que el resultado es poco compatible con la hipótesis de que la moneda no
está trucada, y concluiríamos que las observaciones contradicen dicha hipótesis.

La aplicación de cálculos probabilísticos permite determinar a partir de qué valor debemos


rechazar la hipótesis garantizando que la probabilidad de cometer un error es un valor
conocido a priori. Las hipótesis pueden clasificarse en dos grupos, según:

1. Especifiquen un valor concreto o un intervalo para los parámetros del modelo.


2. Determinen el tipo de distribución de probabilidad que ha generado los datos.

Un ejemplo del primer grupo es la hipótesis de que la media de una variable es 10, y del
segundo que la distribución de probabilidad es la distribución normal.

Aunque la metodología para realizar el contraste de hipótesis es análoga en ambos casos,


distinguir ambos tipos de hipótesis es importante puesto que muchos problemas de
contraste de hipótesis respecto a un parámetro son, en realidad, problemas de estimación,
que tienen una respuesta complementaria dando un intervalo de confianza (o conjunto de
intervalos de confianza) para dicho parámetro. Sin embargo, las hipótesis respecto a la
forma de la distribución se suelen utilizar para validar un modelo estadístico para un
fenómeno aleatorio que se está estudiando.

Planteamiento clásico del contraste de hipótesis


Se denomina hipótesis nula a la hipótesis que se desea contrastar. El nombre de "nula"
significa “sin valor, efecto o consecuencia”, lo cual sugiere que debe identificarse con
la hipótesis de no cambio (a partir de la opinión actual); no diferencia, no mejora, etc.
representa la hipótesis que mantendremos a no ser que los datos indiquen su falsedad, y
puede entenderse, por tanto, en el sentido de “neutra”. La hipótesis nunca se considera
probada, aunque puede ser rechazada por los datos. Por ejemplo, la hipótesis de que dos
poblaciones tienen la misma media puede ser rechazada fácilmente cuando ambas difieren
mucho, analizando muestras suficientemente grandes de ambas poblaciones, pero no puede
ser "demostrada" mediante muestreo, puesto que siempre cabe la posibilidad de que las
medias difieran en una cantidad lo suficientemente pequeña para que no pueda ser
detectada, aunque la muestra sea muy grande.

A partir de una muestra de la población en estudio, se extrae un estadístico (esto es, una
valor que es función de la muestra) cuya distribución de probabilidad esté relacionada con
la hipótesis en estudio y sea conocida. Se toma entonces como región de rechazo al
conjunto de valores que es más improbable bajo la hipótesis, esto es, el conjunto de valores
para el que rechazaremos la hipótesis nula si el valor del estadístico observado entra dentro
de él.

La probabilidad de que se obtenga un valor del estadístico que entre en la región de rechazo
aún siendo cierta la hipótesis puede calcularse. De esta manera, se puede escoger dicha
región de tal forma que la probabilidad de cometer este error sea suficientemente pequeña.

Siguiendo con el anterior ejemplo de la moneda trucada, la muestra de la población es el


conjunto de los treinta lanzamientos a realizar, el estadístico escogido es el número total de
caras obtenidas, y la región de rechazo está constituida por los números totales de caras
iguales o superiores a 25. La probabilidad de cometer el error de admitir que la moneda está
trucada a pesar de que no lo está es igual a la probabilidad binomial de tener 25 "éxitos" o
más en una serie de 30 ensayos de Bernoulli con probabilidad de "éxito" 0,5 en cada uno,
entonces: 0,0002, pues existe la posibilidad, aunque poco probable, que la muestra nos dé
más de 25 caras sin haber sido la moneda trucada.

Procedimientos de prueba
Un procedimiento de prueba es una regla con base en datos muestrales, para determinar si
se rechaza .

Ejemplo

Una prueba de : p = .10 contra : p < .10, podría estar basada en el examen de una
muestra aleatoria de n = 200 objetos. Representamos con X el número de objetos
defectuosos de la muestra, una variable aleatoria binomial; x representa el valor
observado de X. si es verdadera, E(X) = np = 200(.10) = 20, mientras, podemos esperar
menos de 20 objetos defectuosos si es verdadera. Un valor de x ligeramente debajo de
20 no contradice de manera contundente a así que es razonable rechazar solo si x
es considerablemente menor que 20. Un procedimiento de prueba es rechazar si x≤15
y no rechazar de otra forma. En este caso, la región de rechazo está formada por x = 0,
1, 2, …, y 15. no será rechazada si x= 16, 17,…, 199 o 200.
Un procedimiento de prueba se especifica por lo siguiente:

1. Un estadístico de prueba: una función de los datos muestrales en los cuales se


basa la decisión de rechazar o no rechazar .
2. Una región de rechazo, el conjunto de todos los valores del estadístico de prueba
para los cuales será rechazada.

Entonces, la hipótesis nula será rechazada si y solo si el valor observado o calculado del
estadístico de prueba se ubica en la región de rechazo

En el mejor de los casos podrían desarrollarse procedimientos de prueba para los cuales
ningún tipo de error es posible. Pero esto puede alcanzarse solo si una decisión se basa en
un examen de toda la población, lo que casi nunca es práctico. La dificultad al usar un
procedimiento basado en datos muestrales es que debido a la variabilidad en el muestreo
puede resultar una muestra no representativa.

Un buen procedimiento es aquel para el cual la probabilidad de cometer cualquier tipo de


error es pequeña. La elección de un valor particular de corte de la región de rechazo fija las
probabilidades de errores tipo I y II. Estas probabilidades de error son representadas por α y
β, respectivamente.

Enfoque actual de los contrastes de hipótesis


El enfoque actual considera siempre una hipótesis alternativa a la hipótesis nula. De manera
explícita o implícita, la hipótesis nula, a la que se denota habitualmente por , se
enfrenta a otra hipótesis que denominaremos hipótesis alternativa y que se denota . En
los casos en los que no se especifica de manera explícita, podemos considerar que ha
quedado definida implícitamente como “ es falsa”.

Si por ejemplo deseamos comprobar la hipótesis de que dos distribuciones tienen la misma
media, estamos implícitamente considerando como hipótesis alternativa “ambas
poblaciones tienen distinta media”. Podemos, sin embargo considerar casos en los que
no es la simple negación de . Supongamos por ejemplo que sospechamos que en un
juego de azar con un dado, este está trucado para obtener 6. Nuestra hipótesis nula podría
ser “el dado no está trucado” que intentaremos contrastar, a partir de una muestra de
lanzamientos realizados, contra la hipótesis alternativa “el dado ha sido trucado a favor del
6”. Cabría realizar otras hipótesis, pero, a los efectos del estudio que se pretende realizar,
no se consideran relevantes.

Un test de hipótesis se entiende, en el enfoque moderno, como una función de la muestra,


corrientemente basada en un estadístico. Supongamos que se tiene una muestra
de una población en estudio y que se han formulado hipótesis
sobre un parámetro relacionado con la distribución estadística de la población.
Supongamos que se dispone de un estadístico cuya distribución con respecto a ,
se conoce. Supongamos, también, que las hipótesis nula y alternativa tienen la
formulación siguiente:

Un contraste, prueba o test para dichas hipótesis sería una función de la muestra de la
siguiente forma:

Donde significa que debemos rechazar la hipótesis nula, (aceptar )y


, que debemos aceptar (o que no hay evidencia estadística contra ). A
se la denomina región de rechazo. En esencia, para construir el test deseado, basta con
escoger el estadístico del contraste y la región de rechazo .

Se escoge de tal manera que la probabilidad de que T(X) caiga en su interior sea baja
cuando se da .

Errores en el contraste
Artículo principal: Errores de tipo I y de tipo II

Una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis,
o , y la decisión escogida coincidirá o no con la que en realidad es cierta. Se pueden
dar los cuatro casos que se exponen en el siguiente cuadro:

es cierta es cierta

Se escogió No hay error Error de tipo II

Se escogió Error de tipo I No hay error

Si la probabilidad de cometer un error de tipo I está unívocamente determinada, su valor se


suele denotar por la letra griega α, y en las mismas condiciones, se denota por β la
probabilidad de cometer el error de tipo II, esto es:
En este caso, se denomina Potencia del contraste al valor 1-β, esto es, a la probabilidad de
escoger cuando ésta es cierta

Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de tal manera
que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera posible. Sin
embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error de tipo
I, α, conduce a incrementar la probabilidad del error de tipo II, β.

Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el 5% (0,05),
aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o
más estrictas. El recurso para aumentar la potencia del contraste, esto es, disminuir β,
probabilidad de error de tipo II, es aumentar el tamaño muestral, lo que en la práctica
conlleva un incremento de los costes del estudio que se quiere realizar.

Contraste más potente

El concepto de potencia nos permite valorar cual entre dos contrastes con la misma
probabilidad de error de tipo I, α, es preferible. Si se trata de contrastar dos hipótesis
sencillas sobre un parámetro desconocido, θ, del tipo:

Se trata de escoger entre todos los contrastes posibles con α prefijado aquel que tiene mayor
potencia, esto es, menor probabilidad β de incurrir en el error de tipo II.

En este caso el Lema de Neyman-Pearson garantiza la existencia de un contraste de


máxima potencia y determina cómo construirlo.

Contraste uniformemente más potente

En el caso de que las hipótesis sean compuestas, esto es, que no se limiten a especificar un
único posible valor del parámetro, sino que sean del tipo:

donde y son conjuntos de varios posibles valores, las probabilidades α y β ya no


están unívocamente determinadas, sino que tomarán diferentes valores según los distintos
valores posibles de θ. En este caso se dice que un contraste tiene tamaño α si
esto es, si la máxima probabilidad de cometer un error de tipo I cuando la hipótesis nula es
cierta es α. En estas circunstancias, se puede considerar β como una función de θ, puesto
que para cada posible valor de θ en la hipótesis alternativa se tendría una probabilidad
distinta de cometer un error de tipo II. Se define entonces

y, la función de potencia del contraste es entonces

esto es, la probabilidad de discriminar que la hipótesis alternativa es cierta para cada valor
posible de θ dentro de los valores posibles de esta misma hipótesis.

Se dice que un contraste es uniformemente más potente de tamaño α cuando, para todo
valor es mayor o igual que el de cualquier otro contraste del mismo
tamaño. En resumen, se trata de un contraste que garantiza la máxima potencia para todos
los valores de θ en la hipótesis alternativa.

Es claro que el caso del contraste uniformemente más potente para hipótesis compuestas
exige el cumplimiento de condiciones más exigentes que en el caso del contraste más
potente para hipótesis simples. Por ello, no existe un equivalente al Lema de Neyman-
Pearson para el caso general.

Sin embargo, sí existen muchas condiciones en las que, cumpliéndose determinadas


propiedades de las distribuciones de probabilidad implicadas y para ciertos tipos de
hipótesis, se puede extender el Lema para obtener el contraste uniformemente más potente
del tamaño que se desee.

Aplicaciones de los contrastes de hipótesis


Los contrastes de hipótesis, como la inferencia estadística en general, son herramientas de
amplio uso en la ciencia en general. En particular, la moderna Filosofía de la ciencia
desarrolla el concepto de falsabilidad de las teorías científicas basándose en los conceptos
de la inferencia estadística en general y de los contrastes de hipótesis. En este contexto,
cuando se desea optar entre dos posibles teorías científicas para un mismo fenómeno (dos
hipótesis) se debe realizar un contraste estadístico a partir de los datos disponibles sobre el
fenómeno que permitan optar por una u otra.

Las técnicas de contraste de hipótesis son también de amplia aplicación en muchos otros
casos, como ensayos clínicos de nuevos medicamentos, control de calidad, encuestas,
etcétera.
Test estadísticos
Nombre Fórmula Notas

(Población distribuida normal o n >


30) y σ conocida.

(z es la distancia desde la media


Test-z para una en relación con la desviación
muestra estándar de la media). Para
distribuciones no normales es
posible calcular una proporción
mínima de una población que cae
dentro de k desviaciones estandar
para cualquier k.
Población normal y observaciones
Test-z para dos
independientes con σ1 y σ2
muestras
conocidas

Una muestra t- (Población normal o n > 30) y


test desconocida

(Población normal de diferencias o n


t-test parejado > 30) y desconocida o pequeña
muestra de tamaño n < 30

Dos muestras (Poblaciones normales o


combinadas t- n1 + n2 > 40) y observaciones
test, varianzas independientes y σ1 = σ2
iguales desconocido

Dos muestras
(Poblaciones normales o
no combinadas
n1 + n2 > 40) y observaciones
t-test,
independientes y σ1 ≠ σ2 ambas
varianzas
desconocidas
desiguales
1

Una n .p0 > 10 and n (1 − p0) > 10 y es una


proporción z- muestra aleatoria simple, véase
test distribución binomial.

Dos
n1 p1 > 5 y n1(1 − p1) > 5 y n2 p2 > 5 y
proporciones
n2(1 − p2) > 5 y observaciones
z-test,
independientes, véase la
combinadas
aproximación normal de la
por
distribución binomial.

Dos
n1 p1 > 5 y n1(1 − p1) > 5 y n2 p2 > 5 y
proporciones
n2(1 − p2) > 5 y observaciones
z-test,
independientes, véase la
descombinada
aproximación normal de la
s por
distribución binomial.

Test de la chi
cuadrado para Población normal
la varianza

Test de la chi
cuadrado para df = k - 1 - # parámetros estimados, y
la bondad de uno de ellos debe tenerse.
ajuste

Test de la F de Poblaciones normales


Snedecor para
dos muestras Cumpla que y rechace H0
para la para
igualdad de
2
varianzas

Test de la *Restar 1 por variable dependiente;


regresión t-test k es el número de variables
de independientes.
Reject H0 for
3

En general, el subíndice 0 indica un valor dado de la hipótesis nula, H0, la cual debe ser usada tanto
como sea posible en la construcción del test estadístico. ... Definiciones de otros símbolos:

 , la probabilidad del  = Varianza de  = x/n = proporción


erro tipo I (rechazando la muestra muestra/proporción, a menos
una hipótesis nula  = Desviación que se especifique otra manera
cuando es en realidad estándar de la  = proporción de la
cierta) muestra 1 población hipotética
 = tamaño de la  = Desviación  = proporción 1
muestra estándar de la  = proporción 2
 = tamaño de la muestra 2  = Diferencia hipotética en la
muestra 1  = T de student proporción
 = tamaño de la
 = Grados de
muestra 2  = Mínimo de
libertad
 = media de la n1 y n2
 = Diferencias 
muestra
 = media de la de las medias de 
las muestras  = Estadístico F
población hipotética
 = media de la  = Diferencia
población 1 de las medias
 = media de la poblacionales
población 2 hipotéticas
 = desviación de la  = Diferencias
población de las
desviaciones
 = varianza
estándares
poblacional
 = Desviación  = Estadístico
estándar de la chi-cuadrado
muestra

 = Suma (de
números k)

Errores de tipo I y de tipo II


En un estudio de investigación, el error de tipo I también denominado error de tipo alfa
(α)1 o falso positivo, es el error que se comete cuando el investigador no acepta la hipótesis
nula ( ) siendo esta verdadera en la población. Es equivalente a encontrar un resultado
falso positivo, porque el investigador llega a la conclusión de que existe una diferencia
entre las hipótesis cuando en realidad no existe. Se relaciona con el nivel de significancia
estadística.
Representación de los valores posibles de la probabilidad de un error tipo II (rojo) en el ejemplo de
un test de significancia estadística para el parámetro μ. El error tipo II depende del parámetro μ .
Mientras más cerca se encuentre este del valor supuesto bajo la hipótesis nula, mayor es la
probabilidad de ocurrencia del error tipo II. Debido a que el verdadero valor de μ es desconocido
al hacer la presunción de la hipótesis alternativa, la probabilidad del error tipo II, en contraste con
el error tipo I (azul), no se puede calcular.

La hipótesis de la que se parte aquí es el supuesto de que la situación experimental


presentaría un «estado normal». Si no se advierte este «estado normal», aunque en realidad
existe, se trata de un error estadístico tipo I. Algunos ejemplos para el error tipo I serían:

 Se considera que el paciente está enfermo, a pesar de que en realidad está sano; hipótesis
nula: El paciente está sano.
 Se declara culpable al acusado, a pesar de que en realidad es inocente; hipótesis nula: El
acusado es inocente.
 No se permite el ingreso de una persona, a pesar de que tiene derecho a ingresar; hipótesis
nula: La persona tiene derecho a ingresar.

En un estudio de investigación, el error de tipo II, también llamado error de tipo beta (β)
(β es la probabilidad de que exista este error) o falso negativo, se comete cuando el
investigador no rechaza la hipótesis nula siendo esta falsa en la población. Es equivalente a
la probabilidad de un resultado falso negativo, ya que el investigador llega a la conclusión
de que ha sido incapaz de encontrar una diferencia que existe en la realidad.

Se acepta en un estudio que el valor del error beta esté entre el 5 y el 20%.

Contrariamente al error tipo I, en la mayoría de los casos no es posible calcular la


probabilidad del error tipo II. La razón de esto se encuentra en la manera en que se
formulan las hipótesis en una prueba estadística. Mientras que la hipótesis nula representa
siempre una afirmación enérgica (como por ejemplo «Promedio μ = 0») la hipótesis
alternativa, debido a que engloba todas las otras posibilidades, es generalmente de
naturaleza global (por ejemplo «Promedio μ ≠ 0» ). El gráfico de la derecha ilustra la
probabilidad del error tipo II (rojo) en dependencia del promedio μ desconocido.

El poder o potencia del estudio representa la probabilidad de observar en la muestra una


determinada diferencia o efecto, si existe en la población. Es el complementario del error de
tipo II (1-β).

Índice
 1 Errores en el contraste
 2 Véase también
 3 Referencias
o 3.1 Bibliografía
o 3.2 Enlaces externos

Errores en el contraste
Artículo principal: Contraste de hipótesis

Una vez realizado el contraste de hipótesis, se habrá optado por una de las dos hipótesis, la
hipótesis nula o base o la hipótesis alternativa , y la decisión escogida coincidirá
o no con la que en realidad es cierta. Se pueden dar los cuatro casos que se exponen en el
siguiente cuadro:

es cierta es cierta

Se escogió No hay error (verdadero positivo) Error de tipo II (β o falso negativo)

Se escogió Error de tipo I (α o falso positivo) No hay error (verdadero negativo)

Si la probabilidad de cometer un error de tipo I está unívocamente determinada, su valor se


suele denotar por la letra griega α, y en las mismas condiciones, se denota por β la
probabilidad de cometer el error de tipo II, esto es:

En este caso, se denomina Potencia del contraste al valor 1-β, esto es, a la probabilidad de
escoger cuando esta es cierta

.
Cuando es necesario diseñar un contraste de hipótesis, sería deseable hacerlo de tal manera
que las probabilidades de ambos tipos de error fueran tan pequeñas como fuera posible. Sin
embargo, con una muestra de tamaño prefijado, disminuir la probabilidad del error de tipo
I, α, conduce a incrementar la probabilidad del error de tipo II, β.

Usualmente, se diseñan los contrastes de tal manera que la probabilidad α sea el 5% (0,05),
aunque a veces se usan el 10% (0,1) o 1% (0,01) para adoptar condiciones más relajadas o
más estrictas. El recurso para aumentar la potencia del contraste, esto es, disminuir β,
probabilidad de error de tipo II, es aumentar el tamaño muestral, lo que en la práctica
conlleva un incremento de los costes del estudio que se quiere realizar.

Véase también
 Contraste de hipótesis
 Estadística

Referencias
1.

1. El nombre de “error α” es inapropiado, porque α es en realidad la probabilidad de que


ocurra este error.

Bibliografía

 Betz, M.A. & Gabriel, K.R., "Type IV Errors and Analysis of Simple Effects", Journal of
Educational Statistics, Vol.3, No.2, (Summer 1978), pp. 121–144.
 David, F.N., "A Power Function for Tests of Randomness in a Sequence of Alternatives",
Biometrika, Vol.34, Nos.3/4, (December 1947), pp. 335–339.
 Fisher, R.A., The Design of Experiments, Oliver & Boyd (Edinburgh), 1935.
 Gambrill, W., "False Positives on Newborns' Disease Tests Worry Parents", Health Day, (5
June 2006). 34471.html
 Kaiser, H.F., "Directional Statistical Decisions", Psychological Review, Vol.67, No.3, (May
1960), pp. 160–167.
 Kimball, A.W., "Errors of the Third Kind in Statistical Consulting", Journal of the American
Statistical Association, Vol.52, No.278, (June 1957), pp. 133–142.
 Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological
Measurement, Vol.21, No.4, (Winter 1961), pp. 807–817.
 Marascuilo, L.A. & Levin, J.R., "Appropriate Post Hoc Comparisons for Interaction and
nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV Errors",
American Educational Research Journal, Vol.7., No.3, (May 1970), pp. 397–421.
 Mitroff, I.I. & Featheringham, T.R., "On Systemic Problem Solving and the Error of the
Third Kind", Behavioral Science, Vol.19, No.6, (November 1974), pp. 383–393.
 Mosteller, F., "A k-Sample Slippage Test for an Extreme Population", The Annals of
Mathematical Statistics, Vol.19, No.1, (March 1948), pp. 58–65.
 Moulton, R.T., “Network Security”, Datamation, Vol.29, No.7, (July 1983), pp. 121–127.
 Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty, Addison–
Wesley, (Reading), 1968.

Enlaces externos

S-ar putea să vă placă și