Tema 28

TEMA 28: MÉTODOS NO PARAMÉTRICOS.
INTRODUCCIÓN
La mayor parte de los métodos anteriormente utilizados están basados

en que se conoce la forma de la distribución de la población.
Casi todas las pruebas hasta ahora estudiadas permitían que se

estimaran algunos valores desconocidos de los parámetros a partir de valores
calculados gracias a muestras elegidas al azar en una población dada. Las
hipótesis se enunciaban en función del valor o valores especificados de los
parámetros de la población.
Al presentarse situaciones en las que no se cumplen los supuestos, se

han desarrollado numerosas pruebas estadísticas que no exigen supuestos
rigurosos sobre la distribución de la población y que no requieren enunciar las
hipótesis en los términos de valores especificados de los parámetros:
• De distribución libre: método de probar hipótesis o de definir un intervalo

de confianza que no depende de la distribución que se esté
considerando.
• No paramétricas: no hay hipótesis enunciada en términos de valores

especificados de parámetros.
Las pruebas no paramétricas no deben emplearse si se pueden aplicar

eficazmente los métodos paramétricos. Esto es debido a que las pruebas no
paramétricas son de potencia relativamente baja en comparación con las
paramétricas.
Cuando se utilizan pruebas no paramétricas debemos tomar muestras de

gran tamaño.
Ventajas de los métodos no paramétricos:

Métodos
• Son fáciles de aplicar.
abreviados.
Se emplean a
• Son relativamente sencillos.
menudo
aumentando el
• Son claros de exponer. tamaño de la
muestra en lugar
• Son fáciles de comprender. de los
paramétricos
Los métodos no paramétricos más empleados son:
• Prueba de la mediana.
• Pruebas en las que intervienen signos de diferencia:
- Prueba de los signos.
- Prueba de rangos signados de Wilcoxon.
1
• Pruebas por suma de rangos:

- Prueba de Mann-Whitney.
- Prueba de Kruskal-Wallis.
• Prueba de correlación de rangos:
- Método de Spearman.
- Método de Kendall.
13.1. PRUEBA DE LA MEDIANA.
Es de los métodos más simples.
Es un método para probar si dos o más muestras independientes

provienen de poblaciones con igual mediana.
Esta prueba no exige suposiciones acerca de las dos poblaciones de

donde vienen las dos muestras, excepto de que la variable aleatoria respecto
de la que se comparan las dos poblaciones se halle medida por lo menos en
una escala ordinal.
La hipótesis nula que vamos a aprobar es la de que las dos poblaciones

de las que se han tomado las dos muestras tienen la misma mediana. La
alterna es que las medianas son diferentes.
Para llevar a cabo la prueba es necesario determinar el valor de la

misma para los dos grupos combinados, llamada mediana combinada o gran
mediana. Se cuenta el número de valores de cada muestra que se hallan por
encima de la gran mediana y los que se encuentran por debajo. Si n1 y n2 son
los números de las observaciones de las dos muestras, obtendremos una tabla
2x2 como la siguiente:
Numero de valores Grupo I Grupo II Total

Por encima de la gran mediana a b a+b
Por debajo de la gran mediana c d c+d
Total a+ c=n1 b+d=n2 n1+n2=n
Si la hipótesis nula es cierta, sería de esperar que la mitad de valores de

la muestra quedaran por encima y la mitad por debajo de la gran mediana.
Si n es mayor que 20 y la frecuencia esperada en cada casilla es por lo

menos 5, se puede utilizar la siguiente variable aleatoria
n( ad − bc − 0´5n )
2
χ2 =
(a + b )(a + c )(c + d )(b + d )
que sigue una distribución χ2 con un grado de libertad.
Un problema que se encuentra al aplicar la prueba de la mediana es el

que dos o más observaciones pueden tener el mismo valor de la gran mediana.
En tal caso dichos valores se omiten.
2
Es de poca potencia, especialmente si se la compara con la t como

prueba paramétrica. Por lo tanto se debe usar con un tamaño de muestra
grande.
No vamos a considerar la prueba con tres o más muestras ya que se

puede sustituir por el método de Kruskal-Wallis que es más potente.
10.2. PRUEBAS EN LAS QUE INTERVIENEN SIGNOS DE DIFERENCIA.
Si comparamos dos muestras para determinar si existe diferencia

significativa entre las medias de las dos poblaciones de donde provienen, se
pueden utilizar los signos de las diferencias entre observaciones pareadas o en
parejas de ambas muestras con el fin de probar la hipótesis. Consideraremos
dos tipos de pruebas:
• La prueba de los signos.
• La prueba de los rangos signados.
10.2.1. PRUEBA DE LOS SIGNOS.
Para aplicar la prueba t:
- La población de la que se toma las muestras ha de ser normal.

- Las poblaciones deben ser independientes.
- Las varianzas de las poblaciones debían ser idénticas.
Si alguna de las condiciones no se cumple se puede utilizar una prueba

no paramétrica denominada prueba de los signos.
Se basa en los signos positivos o negativos de las diferencias entre las

observaciones pareadas sin tener en cuenta la magnitud de éstas.
Cuando la unidad de medida es la misma para observaciones

pareadas, podemos aplicar la prueba de los signos para tratar los siguientes
problemas:
(1) ¿Son los valores de la variable X mayores que los de Y en D
unidades?
(2) ¿Son los valores de X mayores que los de Y en un P por ciento?
Para tratar el primero simplemente se añaden D unidades a cada valor

observado de Y y se encuentran los signos de las diferencias xi e yi+D, y
entonces aplicamos la prueba de los signos.
Para tratar el segundo multiplicamos primero Y por 1+P/100 y luego

comparamos estos valores con los de X para determinar el signo de la
diferencia para cada par de observaciones, y aplicamos entonces la prueba de
los signos.
10.2.2. PRUEBA DE RANGOS SIGNADOS.
3
La prueba de signos deja de lado la magnitud de la diferencia entre cada

par de valores.
Frank Wilcoxon, en 1945, sugirió un método para mejorar la prueba de

los signos, prueba de rangos signados de Wilcoxon, que toma en
consideración la magnitud de las diferencias.
Primer paso: ordenar todos los valores absolutos de las diferencias

entre las observaciones pareadas de menor a mayor.
Segundo paso: Le asignamos a la diferencia más pequeña rango 1, a la

siguiente en tamaño, 2, y así sucesivamente, sin tener en cuenta el signo
Tercer paso: a cada rango se le asigna el signo de la diferencia.
Cuarto paso: se calcula la suma de rangos positivos por un lado, y por

otro la de los rangos negativos.
Quinto paso: la suma menor omitido su signo, es la estadística de

prueba que se suele denotar con la letra T.
La hipótesis nula a probar es que las dos poblaciones tienen idéntica

distribución.
Esta estadística se puede emplear para prueba de una o dos colas. Para
la de una cola es necesario anticipar el signo de la suma de rangos menor en el
caso de ser la hipótesis nula falsa. Si la suma más pequeña tiene signo distinto
del que se anticipó, no se rechazará la hipótesis nula.
El valor T se refiere a la tabla de T construida por Wilcoxon para

compararlo con el valor crítico para un valor de significancia dado.
Si n es mayor de 25 la tabla de valores T no puede emplearse. Pero

para valores grandes T es aproximadamente normal y tendríamos las
n(n + 1) n(n + 1)(2n + 1)
siguientes fórmulas E(T)= , σT = , el valor z se
4 24
T − E (T )
calcula: Z=
σT .
Con el mismo experimento se puede rechazar la hipótesis nula por la

prueba de signos, en tanto que la prueba por rangos signados de Wilcoxon
puede conducir al no rechazo de la hipótesis nula y al contrario.
4
VALORES CRÍTICOS DE T PARA LA PRUEBA DE RANGOS SIGNADOS DE

WILCOXON
Nivel de significancia
Pares(n) Prueba de una cola:0.005 0.01 0.025
Prueba de dos colas: 0.01 0.02 0.05
6 .. .. 0
7 .. 0 2
8 0 2 4
9 2 3 6
10 3 5 8
11 5 7 11
12 7 10 14
13 10 13 17
14 13 16 21
15 16 20 25
16 20 24 30
17 23 28 35
18 28 33 40
19 32 38 46
20 38 43 52
21 43 49 59
22 49 56 66
23 55 62 73
24 61 69 81
25 68 77 89
5
10.3. PRUEBAS POR SUMA DE RANGOS.
10.3.1. PRUEBA DE MANN-WHITNEY.
No requiere de suposiciones rigurosas sobre las poblaciones de las que

se obtienen las muestras. La única suposición que se necesita es que los
valores de la variable estén dados en una escala no inferior a una ordinal.
La hipótesis nula que vamos a probar es la de que dos muestras

tomadas independientemente provienen de poblaciones que tienen la
misma media.
Puede ser de una o dos colas.
También se le llama prueba U.
Suele emplearse en vez de la de signos y la de Wilcoxon cuando

intervienen dos muestras independientes.
Suponemos que dos muestras con n1 y n2 observaciones

respectivamente, se han tomado independientemente y que los n1+n2 valores
de ambas muestras se disponen en orden descendente o ascendente, al
asignar un rango a cada valor de acuerdo con su magnitud, el valor más bajo
tendrá el rango 1, el que le sigue 2, y así sucesivamente. Entonces se elige una
de las muestras, la 1 por ejemplo y se calcula la suma de sus rangos. Sea R1
dicha suma. La estadística de prueba se define entonces por:
n1 (n1 + 1)
nn +
U= 1 2
− R1 también se puede utilizar la fórmula
2
n2 (n2 + 1)
n n
U= 1 2
+ − R2 . El resultado que obtengamos con una de
2
estas fórmulas se comparará con n1n2/2. Si es mayor que n1n2/2 lo
designaremos con la letra U´y calcularemos U mediante la expresión U=n1n2-
U´, si es menor que n1.n2/2, se trataría del valor de U.
Si n1y n2 son ambos menores que 20, el menor valor de U se refiere a la

tabla U de valores críticos para determinar si la hipótesis nula debe rechazarse.
Si al menos uno de ellos es mayor que 20, se emplea la aproximación

n1 n2
normal. U es aproximadamente normal con media E(U) = y desviación
2
n1 n2 (n1 + n2 + 1)
estándar σU = . Por consiguiente, se determina la
12
6
significancia de un valor U al observar y calcular el valor normal tipificado

U − E (U )
Z=
σU .
Esta prueba también se puede utilizar para determinar si la dispersión de

una población es la misma que la de otra, es decir, se puede utilizar para
probar la hipótesis nula de que dos muestras independientes se han
tomado de poblaciones con igual varianza contra la alterna de que
provienen de poblaciones con diferente varianza. Para ello los valores de
las muestras combinadas se disponen en orden de magnitud ascendente o
descendente y luego se les asignan rangos desde los valores más bajos y el
más elevado hacia la mitad. Al valor más bajo se le asigna primero el rango 1,
al más elevado y al que le precede se les asignan los rangos 2 y 3, al segundo
y tercer valores se les asigna 4 y 5 y así sucesivamente. El valor U se calcula al
aplicar las fórmulas anteriores.
10.3.2. PRUEBA DE KRUSKAL-WALLIS.
La prueba anterior se puede extender a situaciones en las que se

comparan tres o más grupos conociéndose entonces con el nombre de prueba
H o prueba de Kruskal-Wallis.
Es una opción útil frente a la técnica de análisis de la varianza de un solo

factor, que es una prueba paramétrica.
Sirve para determinar si K muestras independientes se han tomado de

poblaciones que tienen la misma media.
No exige suposiciones de distribución normal de la población y de

homogeneidad de la varianza.
Todo lo que se supone es que la variable tenga como base una

distribución continua y se encuentre medida en una escala ordinal por lo
menos.
La hipótesis nula que vamos a probar es que las medias de las K

poblaciones de donde provienen las muestras son iguales; la alterna es que
son diferentes.
Para realizar la prueba ordenamos los valores de todas las k muestras,

del más bajo al más alto. Al más bajo se le asigna rango 1, al que le sigue 2 ,...,
al más alto rango N (número total de observaciones). La suma de rangos para
cada muestra se notará Rk. Si nk es mayor que 5 para todo k, entonces la
K
Rk2
∑ − 3(N + 1) que
12
N ( N + 1) k =1 n k
estadística de prueba viene definida por H=
tiene una distribución aproximadamente χ2 con K-1 grados de libertad.
7
Esta prueba es más potente que cualquier prueba no paramétrica

semejante, como la de la mediana, cuando se extiende a tres o más grupos.
Es menos potente que la prueba paramétrica F.
10.4. MÉTODO DE CORRELACIÓN POR RANGOS.

10.4.1. MÉTODO DE SPEARMAN.
Requiere de la suma y de las diferencias al cuadrado de cada par de

rangos después de que una de las variables que van a correlacionarse ha sido
ordenada por rangos, entonces si no hay coincidencia de éstos, se puede
aplicar la fórmula para el coeficiente de correlación por rangos de Spearman,
n
2
6∑ d i
rs= 1 −
i =1
(
n n −1
2
) , siendo d la diferencia entre rangos del i-ésimo par y n el
i
número de pares que intervienen.
Cuando el valor n es mayor o igual que 10, la significancia de rs obtenida

según la hipótesis nula, puede ser probada mediante la estadística
n−2
T= rs , que cuando n es grande tiene distribución t de student con n-2
1 − rs2
grados de libertad.
La hipótesis nula de esta prueba es: “Las variables no están

relacionadas en la población” y la alterna es: “Las variables están relacionadas
en la población”.
Si el orden del rango de una variable coincide con el de la otra, existirá

correlación positiva entre los órdenes de los rangos de las variables, en cambio
un coeficiente negativo, reflejaría una correlación negativa.
10.4.2. MÉTODO DE KENDALL.
Con el mismo tipo de datos para los que es útiles el método anterior,
puede calcularse otra estadística, llamada coeficiente de correlación por rangos
de Kendall, τ
, que es una medida del grado de correlación entre dos
conjuntos de rangos.
Los valores de rs y τ pueden no ser iguales.
Ambos métodos tienen igual potencia para descubrir la existencia de

correlación entre las poblaciones.
Dado un conjunto de datos ambas pruebas llevan a la misma conclusión

con respecto a la hipótesis nula.
La ventaja de τ sobre rs ,es que τ se puede aplicar al análisis de

correlación parcial.

Tema 28

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Tema 28

Încărcat de

Drepturi de autor:

Formate disponibile

TEMA 28: MÉTODOS NO PARAMÉTRICOS.

La mayor parte de los métodos anteriormente utilizados están basados

Casi todas las pruebas hasta ahora estudiadas permitían que se

Al presentarse situaciones en las que no se cumplen los supuestos, se

• De distribución libre: método de probar hipótesis o de definir un intervalo

• No paramétricas: no hay hipótesis enunciada en términos de valores

Las pruebas no paramétricas no deben emplearse si se pueden aplicar

Cuando se utilizan pruebas no paramétricas debemos tomar muestras de

Ventajas de los métodos no paramétricos:

Los métodos no paramétricos más empleados son:

• Pruebas por suma de rangos:

13.1. PRUEBA DE LA MEDIANA.

Es de los métodos más simples.

Es un método para probar si dos o más muestras independientes

Esta prueba no exige suposiciones acerca de las dos poblaciones de

La hipótesis nula que vamos a aprobar es la de que las dos poblaciones

Para llevar a cabo la prueba es necesario determinar el valor de la

Numero de valores Grupo I Grupo II Total

Si la hipótesis nula es cierta, sería de esperar que la mitad de valores de

Si n es mayor que 20 y la frecuencia esperada en cada casilla es por lo

Un problema que se encuentra al aplicar la prueba de la mediana es el

Es de poca potencia, especialmente si se la compara con la t como

No vamos a considerar la prueba con tres o más muestras ya que se

10.2. PRUEBAS EN LAS QUE INTERVIENEN SIGNOS DE DIFERENCIA.

Si comparamos dos muestras para determinar si existe diferencia

10.2.1. PRUEBA DE LOS SIGNOS.

Para aplicar la prueba t:

- La población de la que se toma las muestras ha de ser normal.

Si alguna de las condiciones no se cumple se puede utilizar una prueba

Se basa en los signos positivos o negativos de las diferencias entre las

Cuando la unidad de medida es la misma para observaciones

Para tratar el primero simplemente se añaden D unidades a cada valor

Para tratar el segundo multiplicamos primero Y por 1+P/100 y luego

10.2.2. PRUEBA DE RANGOS SIGNADOS.

La prueba de signos deja de lado la magnitud de la diferencia entre cada

Frank Wilcoxon, en 1945, sugirió un método para mejorar la prueba de

Primer paso: ordenar todos los valores absolutos de las diferencias

Segundo paso: Le asignamos a la diferencia más pequeña rango 1, a la

Tercer paso: a cada rango se le asigna el signo de la diferencia.

Cuarto paso: se calcula la suma de rangos positivos por un lado, y por

Quinto paso: la suma menor omitido su signo, es la estadística de

La hipótesis nula a probar es que las dos poblaciones tienen idéntica

El valor T se refiere a la tabla de T construida por Wilcoxon para

Si n es mayor de 25 la tabla de valores T no puede emplearse. Pero

Con el mismo experimento se puede rechazar la hipótesis nula por la

VALORES CRÍTICOS DE T PARA LA PRUEBA DE RANGOS SIGNADOS DE

10.3. PRUEBAS POR SUMA DE RANGOS.

10.3.1. PRUEBA DE MANN-WHITNEY.

No requiere de suposiciones rigurosas sobre las poblaciones de las que

La hipótesis nula que vamos a probar es la de que dos muestras

Puede ser de una o dos colas.

También se le llama prueba U.

Suele emplearse en vez de la de signos y la de Wilcoxon cuando

Suponemos que dos muestras con n1 y n2 observaciones

Si n1y n2 son ambos menores que 20, el menor valor de U se refiere a la

Si al menos uno de ellos es mayor que 20, se emplea la aproximación

significancia de un valor U al observar y calcular el valor normal tipificado

Esta prueba también se puede utilizar para determinar si la dispersión de

10.3.2. PRUEBA DE KRUSKAL-WALLIS.

La prueba anterior se puede extender a situaciones en las que se

Es una opción útil frente a la técnica de análisis de la varianza de un solo

Sirve para determinar si K muestras independientes se han tomado de

No exige suposiciones de distribución normal de la población y de