Sunteți pe pagina 1din 8

TEMA 28: MÉTODOS NO PARAMÉTRICOS.

INTRODUCCIÓN

La mayor parte de los métodos anteriormente utilizados están basados


en que se conoce la forma de la distribución de la población.

Casi todas las pruebas hasta ahora estudiadas permitían que se


estimaran algunos valores desconocidos de los parámetros a partir de valores
calculados gracias a muestras elegidas al azar en una población dada. Las
hipótesis se enunciaban en función del valor o valores especificados de los
parámetros de la población.

Al presentarse situaciones en las que no se cumplen los supuestos, se


han desarrollado numerosas pruebas estadísticas que no exigen supuestos
rigurosos sobre la distribución de la población y que no requieren enunciar las
hipótesis en los términos de valores especificados de los parámetros:

• De distribución libre: método de probar hipótesis o de definir un intervalo


de confianza que no depende de la distribución que se esté
considerando.

• No paramétricas: no hay hipótesis enunciada en términos de valores


especificados de parámetros.

Las pruebas no paramétricas no deben emplearse si se pueden aplicar


eficazmente los métodos paramétricos. Esto es debido a que las pruebas no
paramétricas son de potencia relativamente baja en comparación con las
paramétricas.

Cuando se utilizan pruebas no paramétricas debemos tomar muestras de


gran tamaño.

Ventajas de los métodos no paramétricos:


Métodos
• Son fáciles de aplicar.
abreviados.
Se emplean a
• Son relativamente sencillos.
menudo
aumentando el
• Son claros de exponer. tamaño de la
muestra en lugar
• Son fáciles de comprender. de los
paramétricos

Los métodos no paramétricos más empleados son:

• Prueba de la mediana.
• Pruebas en las que intervienen signos de diferencia:
- Prueba de los signos.
- Prueba de rangos signados de Wilcoxon.

1
TEMA 28: MÉTODOS NO PARAMÉTRICOS.

• Pruebas por suma de rangos:


- Prueba de Mann-Whitney.
- Prueba de Kruskal-Wallis.
• Prueba de correlación de rangos:
- Método de Spearman.
- Método de Kendall.

13.1. PRUEBA DE LA MEDIANA.

Es de los métodos más simples.

Es un método para probar si dos o más muestras independientes


provienen de poblaciones con igual mediana.

Esta prueba no exige suposiciones acerca de las dos poblaciones de


donde vienen las dos muestras, excepto de que la variable aleatoria respecto
de la que se comparan las dos poblaciones se halle medida por lo menos en
una escala ordinal.

La hipótesis nula que vamos a aprobar es la de que las dos poblaciones


de las que se han tomado las dos muestras tienen la misma mediana. La
alterna es que las medianas son diferentes.

Para llevar a cabo la prueba es necesario determinar el valor de la


misma para los dos grupos combinados, llamada mediana combinada o gran
mediana. Se cuenta el número de valores de cada muestra que se hallan por
encima de la gran mediana y los que se encuentran por debajo. Si n1 y n2 son
los números de las observaciones de las dos muestras, obtendremos una tabla
2x2 como la siguiente:

Numero de valores Grupo I Grupo II Total


Por encima de la gran mediana a b a+b
Por debajo de la gran mediana c d c+d
Total a+ c=n1 b+d=n2 n1+n2=n

Si la hipótesis nula es cierta, sería de esperar que la mitad de valores de


la muestra quedaran por encima y la mitad por debajo de la gran mediana.

Si n es mayor que 20 y la frecuencia esperada en cada casilla es por lo


menos 5, se puede utilizar la siguiente variable aleatoria
n( ad − bc − 0´5n )
2

χ2 =
(a + b )(a + c )(c + d )(b + d )
que sigue una distribución χ2 con un grado de libertad.

Un problema que se encuentra al aplicar la prueba de la mediana es el


que dos o más observaciones pueden tener el mismo valor de la gran mediana.
En tal caso dichos valores se omiten.

2
TEMA 28: MÉTODOS NO PARAMÉTRICOS.

Es de poca potencia, especialmente si se la compara con la t como


prueba paramétrica. Por lo tanto se debe usar con un tamaño de muestra
grande.

No vamos a considerar la prueba con tres o más muestras ya que se


puede sustituir por el método de Kruskal-Wallis que es más potente.

10.2. PRUEBAS EN LAS QUE INTERVIENEN SIGNOS DE DIFERENCIA.

Si comparamos dos muestras para determinar si existe diferencia


significativa entre las medias de las dos poblaciones de donde provienen, se
pueden utilizar los signos de las diferencias entre observaciones pareadas o en
parejas de ambas muestras con el fin de probar la hipótesis. Consideraremos
dos tipos de pruebas:
• La prueba de los signos.
• La prueba de los rangos signados.

10.2.1. PRUEBA DE LOS SIGNOS.

Para aplicar la prueba t:

- La población de la que se toma las muestras ha de ser normal.


- Las poblaciones deben ser independientes.
- Las varianzas de las poblaciones debían ser idénticas.

Si alguna de las condiciones no se cumple se puede utilizar una prueba


no paramétrica denominada prueba de los signos.

Se basa en los signos positivos o negativos de las diferencias entre las


observaciones pareadas sin tener en cuenta la magnitud de éstas.

Cuando la unidad de medida es la misma para observaciones


pareadas, podemos aplicar la prueba de los signos para tratar los siguientes
problemas:
(1) ¿Son los valores de la variable X mayores que los de Y en D
unidades?
(2) ¿Son los valores de X mayores que los de Y en un P por ciento?

Para tratar el primero simplemente se añaden D unidades a cada valor


observado de Y y se encuentran los signos de las diferencias xi e yi+D, y
entonces aplicamos la prueba de los signos.

Para tratar el segundo multiplicamos primero Y por 1+P/100 y luego


comparamos estos valores con los de X para determinar el signo de la
diferencia para cada par de observaciones, y aplicamos entonces la prueba de
los signos.

10.2.2. PRUEBA DE RANGOS SIGNADOS.

3
TEMA 28: MÉTODOS NO PARAMÉTRICOS.

La prueba de signos deja de lado la magnitud de la diferencia entre cada


par de valores.

Frank Wilcoxon, en 1945, sugirió un método para mejorar la prueba de


los signos, prueba de rangos signados de Wilcoxon, que toma en
consideración la magnitud de las diferencias.

Primer paso: ordenar todos los valores absolutos de las diferencias


entre las observaciones pareadas de menor a mayor.

Segundo paso: Le asignamos a la diferencia más pequeña rango 1, a la


siguiente en tamaño, 2, y así sucesivamente, sin tener en cuenta el signo

Tercer paso: a cada rango se le asigna el signo de la diferencia.

Cuarto paso: se calcula la suma de rangos positivos por un lado, y por


otro la de los rangos negativos.

Quinto paso: la suma menor omitido su signo, es la estadística de


prueba que se suele denotar con la letra T.

La hipótesis nula a probar es que las dos poblaciones tienen idéntica


distribución.

Esta estadística se puede emplear para prueba de una o dos colas. Para
la de una cola es necesario anticipar el signo de la suma de rangos menor en el
caso de ser la hipótesis nula falsa. Si la suma más pequeña tiene signo distinto
del que se anticipó, no se rechazará la hipótesis nula.

El valor T se refiere a la tabla de T construida por Wilcoxon para


compararlo con el valor crítico para un valor de significancia dado.

Si n es mayor de 25 la tabla de valores T no puede emplearse. Pero


para valores grandes T es aproximadamente normal y tendríamos las
n(n + 1) n(n + 1)(2n + 1)
siguientes fórmulas E(T)= , σT = , el valor z se
4 24
T − E (T )
calcula: Z=
σT .

Con el mismo experimento se puede rechazar la hipótesis nula por la


prueba de signos, en tanto que la prueba por rangos signados de Wilcoxon
puede conducir al no rechazo de la hipótesis nula y al contrario.

4
TEMA 28: MÉTODOS NO PARAMÉTRICOS.

VALORES CRÍTICOS DE T PARA LA PRUEBA DE RANGOS SIGNADOS DE


WILCOXON

Nivel de significancia
Pares(n) Prueba de una cola:0.005 0.01 0.025
Prueba de dos colas: 0.01 0.02 0.05
6 .. .. 0
7 .. 0 2
8 0 2 4
9 2 3 6
10 3 5 8
11 5 7 11
12 7 10 14
13 10 13 17
14 13 16 21
15 16 20 25
16 20 24 30
17 23 28 35
18 28 33 40
19 32 38 46
20 38 43 52
21 43 49 59
22 49 56 66
23 55 62 73
24 61 69 81
25 68 77 89

5
TEMA 28: MÉTODOS NO PARAMÉTRICOS.

10.3. PRUEBAS POR SUMA DE RANGOS.

10.3.1. PRUEBA DE MANN-WHITNEY.

No requiere de suposiciones rigurosas sobre las poblaciones de las que


se obtienen las muestras. La única suposición que se necesita es que los
valores de la variable estén dados en una escala no inferior a una ordinal.

La hipótesis nula que vamos a probar es la de que dos muestras


tomadas independientemente provienen de poblaciones que tienen la
misma media.

Puede ser de una o dos colas.

También se le llama prueba U.

Suele emplearse en vez de la de signos y la de Wilcoxon cuando


intervienen dos muestras independientes.

Suponemos que dos muestras con n1 y n2 observaciones


respectivamente, se han tomado independientemente y que los n1+n2 valores
de ambas muestras se disponen en orden descendente o ascendente, al
asignar un rango a cada valor de acuerdo con su magnitud, el valor más bajo
tendrá el rango 1, el que le sigue 2, y así sucesivamente. Entonces se elige una
de las muestras, la 1 por ejemplo y se calcula la suma de sus rangos. Sea R1
dicha suma. La estadística de prueba se define entonces por:
n1 (n1 + 1)
nn +
U= 1 2
− R1 también se puede utilizar la fórmula
2
n2 (n2 + 1)
n n
U= 1 2
+ − R2 . El resultado que obtengamos con una de
2
estas fórmulas se comparará con n1n2/2. Si es mayor que n1n2/2 lo
designaremos con la letra U´y calcularemos U mediante la expresión U=n1n2-
U´, si es menor que n1.n2/2, se trataría del valor de U.

Si n1y n2 son ambos menores que 20, el menor valor de U se refiere a la


tabla U de valores críticos para determinar si la hipótesis nula debe rechazarse.

Si al menos uno de ellos es mayor que 20, se emplea la aproximación


n1 n2
normal. U es aproximadamente normal con media E(U) = y desviación
2
n1 n2 (n1 + n2 + 1)
estándar σU = . Por consiguiente, se determina la
12

6
TEMA 28: MÉTODOS NO PARAMÉTRICOS.

significancia de un valor U al observar y calcular el valor normal tipificado


U − E (U )
Z=
σU .

Esta prueba también se puede utilizar para determinar si la dispersión de


una población es la misma que la de otra, es decir, se puede utilizar para
probar la hipótesis nula de que dos muestras independientes se han
tomado de poblaciones con igual varianza contra la alterna de que
provienen de poblaciones con diferente varianza. Para ello los valores de
las muestras combinadas se disponen en orden de magnitud ascendente o
descendente y luego se les asignan rangos desde los valores más bajos y el
más elevado hacia la mitad. Al valor más bajo se le asigna primero el rango 1,
al más elevado y al que le precede se les asignan los rangos 2 y 3, al segundo
y tercer valores se les asigna 4 y 5 y así sucesivamente. El valor U se calcula al
aplicar las fórmulas anteriores.

10.3.2. PRUEBA DE KRUSKAL-WALLIS.

La prueba anterior se puede extender a situaciones en las que se


comparan tres o más grupos conociéndose entonces con el nombre de prueba
H o prueba de Kruskal-Wallis.

Es una opción útil frente a la técnica de análisis de la varianza de un solo


factor, que es una prueba paramétrica.

Sirve para determinar si K muestras independientes se han tomado de


poblaciones que tienen la misma media.

No exige suposiciones de distribución normal de la población y de


homogeneidad de la varianza.

Todo lo que se supone es que la variable tenga como base una


distribución continua y se encuentre medida en una escala ordinal por lo
menos.

La hipótesis nula que vamos a probar es que las medias de las K


poblaciones de donde provienen las muestras son iguales; la alterna es que
son diferentes.

Para realizar la prueba ordenamos los valores de todas las k muestras,


del más bajo al más alto. Al más bajo se le asigna rango 1, al que le sigue 2 ,...,
al más alto rango N (número total de observaciones). La suma de rangos para
cada muestra se notará Rk. Si nk es mayor que 5 para todo k, entonces la
K
Rk2
∑ − 3(N + 1) que
12
N ( N + 1) k =1 n k
estadística de prueba viene definida por H=

tiene una distribución aproximadamente χ2 con K-1 grados de libertad.

7
TEMA 28: MÉTODOS NO PARAMÉTRICOS.

Esta prueba es más potente que cualquier prueba no paramétrica


semejante, como la de la mediana, cuando se extiende a tres o más grupos.

Es menos potente que la prueba paramétrica F.

10.4. MÉTODO DE CORRELACIÓN POR RANGOS.


10.4.1. MÉTODO DE SPEARMAN.

Requiere de la suma y de las diferencias al cuadrado de cada par de


rangos después de que una de las variables que van a correlacionarse ha sido
ordenada por rangos, entonces si no hay coincidencia de éstos, se puede
aplicar la fórmula para el coeficiente de correlación por rangos de Spearman,
n
2
6∑ d i
rs= 1 −
i =1

(
n n −1
2
) , siendo d la diferencia entre rangos del i-ésimo par y n el
i

número de pares que intervienen.

Cuando el valor n es mayor o igual que 10, la significancia de rs obtenida


según la hipótesis nula, puede ser probada mediante la estadística
n−2
T= rs , que cuando n es grande tiene distribución t de student con n-2
1 − rs2
grados de libertad.

La hipótesis nula de esta prueba es: “Las variables no están


relacionadas en la población” y la alterna es: “Las variables están relacionadas
en la población”.

Si el orden del rango de una variable coincide con el de la otra, existirá


correlación positiva entre los órdenes de los rangos de las variables, en cambio
un coeficiente negativo, reflejaría una correlación negativa.

10.4.2. MÉTODO DE KENDALL.

Con el mismo tipo de datos para los que es útiles el método anterior,
puede calcularse otra estadística, llamada coeficiente de correlación por rangos
de Kendall, τ
, que es una medida del grado de correlación entre dos
conjuntos de rangos.

Los valores de rs y τ pueden no ser iguales.

Ambos métodos tienen igual potencia para descubrir la existencia de


correlación entre las poblaciones.

Dado un conjunto de datos ambas pruebas llevan a la misma conclusión


con respecto a la hipótesis nula.

La ventaja de τ sobre rs ,es que τ se puede aplicar al análisis de


correlación parcial.

S-ar putea să vă placă și