Pruebas NO PARAMETRICAS

Facultad Latinoamericana de Ciencias Sociales – Sede Ecuador
Curso: Métodos Cuantitativos para la investigación social – Políticas Públicas

Profesor: Fernando Carrasco
Capítulo 14
Pruebas de hipótesis para métodos no paramétricos
14.1 Prueba para dos muestras independientes
Como se comentó anteriormente, se han desarrollado y propuesto varios

procedimientos para comparar dos muestras independientes, de los cuales se
presenta uno de los que ha dado mejores resultados en cuanto a su aplicación y por
ende está entre las de mayor frecuencia de uso, la U de Mann-Whitney.
La prueba U de Mann-Whitney
Sean X1,X2, X3, …, Xn1, y Y1, Y2, Y3, …, Yn2, dos muestras aleatorias
independientes.
Con base en estas muestras aleatorias, el objetivo es establecer si existen o no

diferencias significativas entre las distribuciones. Para la aplicación de la prueba, se
asume que las muestras tienen la misma dispersión, luego el procedimiento
compara si existen o no diferencias en su tendencia central, es decir, si existen o no
diferencias significativas entre medias.
Es decir, con base en estas muestras aleatorias, se plantea la siguiente prueba de

hipótesis:
Hipótesis nula (Ho): no hay diferencias significativas entre las

muestras
versus
Hipótesis alternativa (H1): si hay diferencias significativas entre las

muestras
Para llevar a cabo esta prueba, se procede de la siguiente manera:
• Se juntan las dos muestras, y se ordenan los datos combinados, manteniendo

la identificación de a que muestra pertenece cada uno de los datos
• Se asignan rangos desde 1 hasta el valor (n1+n2)
• Si existen casos repetidos, se procede a reemplazar los rangos por el
promedio de éstos
• Se procede a sumar los rangos de cualquiera de las muestras, digamos de la
primera muestra, teniendo el valor R1.
Luego se calcula el siguiente estadístico Z, que sigue una ley normal de

probabilidades:
U −U
Z =
σ
Donde,
n1 ( n1 +1)
U = n1n2 + −R1
2
n1n2 n1 n2 ( n1 + n2 +1)
U = y σ=
2 12
n1, es el tamaño de la primera muestra, y

n2, es el tamaño de la segunda muestra.
Veamos el siguiente ejemplo:
Un municipio del país, está interesado en evaluar si el nivel de participación

ciudadana de la población en un cierto proyecto de intervención, presenta o no
diferencias por género. Para esto, tomaron una muestra de hombres, y una muestra
de mujeres, a quienes se les preguntó que indicaran que porcentaje de su tiempo
libre consideran que participaron en el proyecto.
Se registraron los de participación de 10 hombres y de 10 mujeres, siendo los

siguientes:
Hombres (H) Mujeres (M)

70 90
40 80
50 70
35 65
98 85
60 15
20 25
10 88
70 95
40 70
Para llevar a cabo la prueba, aplicamos el procedimiento de la prueba U de Mann-

Whitney:
1er paso 2do paso 3er paso 4to paso
Se juntan todos los Rango de

datos, manteniendo la Se ordenan los datos hombres
identificación de la (con la identificación de Se asignan
muestra la muestra y valores) los Rangos (suma = R1)
H 70 H 10 1 1
H 40 M 15 2
H 50 M 20 3
H 35 H 25 4 4
H 98 H 35 5 5
H 60 H 40 6.5 6.5
H 20 H 40 6.5 6.5
H 10 H 50 8 8
H 70 H 60 9 9
H 40 M 65 10
M 90 H 70 12.5 12.5
M 80 M 70 12.5
M 70 M 70 12.5
M 65 H 70 12.5 12.5
M 85 M 80 15
M 15 M 85 16
M 25 M 88 17
M 88 H 90 18 18
M 95 M 95 19
M 70 M 98 20
Suma rangos (=R1) 83
Obtenemos el mismo resultado final si se

considera la suma de rangos de las
mujeres
Con base en estos datos, se obtienen los siguientes resultados:
n1 = 10 U= 72
n2 = 10 Ū= 50
R1 = 83 σ= 13,2
Z= 1,7
Significancia
p= 0,09630
La significancia se obtiene en el Excel con =(1-DISTR.NORM.ESTAND(ABS(z)))*2,

donde z=1.7
La significancia estadística nos dice que no hay diferencias en el nivel de

participación entre hombres y mujeres.
Utilizando los rangos de mujeres, se obtiene, U = 28 y Z=-1.7, y p=0.09630, es

decir, obtenemos la misma conclusión.
14.2 Pruebas para dos muestras pareadas o relacionadas
La prueba de Wilcoxon
Recordemos lo que significan muestras pareadas. Esto se refiere cuando de un

mismo individuo o elementos se toman dos medidas en un experimento, como es el
caso de una opinión o evaluación antes y después de un proceso de intervención.
Así, sean (X1,Y1), (X2,Y2), (X3,Y3),… (Xn,Yn), n pares de observaciones pareadas o

relacionadas para una muestra de n elementos.
Con base en las muestras aleatorias, se plantea la siguiente prueba de hipótesis:

muestras (las medias son iguales)
versus

muestras (las medias no son iguales)
Esta prueba se basa en los siguientes pasos:
• Se obtiene la diferencia de las dos muestras

• Se asignan rangos desde 1 hasta el valor n, sin tomar en cuenta el signo de la
diferencia
• Luego se coloca el signo de la diferencia de las muestras a los rangos
• Se suman los rangos con signo positivo, teniendo el valor W
En caso de que un individuo tenga la misma medida en ambas muestras (x i=yi), se

recomienda no tomar en cuenta al individuo, es decir, es mejor omitir el registro.
Luego se calcula el siguiente estadístico Z, que sigue una ley normal de

probabilidades:
W −W
Z =
σ
Donde,
n( n +1) n(n +1)( 2n +1)
W =
4
y σ=
24
Veamos el siguiente ejemplo:
Dos jueces, califican en una escala de 0 a 10 puntos, a un grupo de 15 deportistas

en las eliminatorias de una competencia. Se desea establecer si las calificaciones
dadas por los dos jueces difieren o no de manera significa. Las calificaciones de los
deportistas son las siguientes:
1er paso 2do paso 3er paso 4to paso

Se ordenan los datos

según la variable
diferencia, sin tomar
en cuenta el signo Registramos
Calificaciones negativo los rangos
para los
valores
Se Signo positivos de
asignan original la diferencia
Juez1 Juez2 Diferencia Diferencia los de la de muestras
Deportista (X) (Y) (X-Y) Deportista POSITIVA Rangos diferencia original
1 7,7 9,1 -1,4 2 0,1 1 (-)
2 6,4 6,5 -0,1 10 0,2 2 (-)
3 8,9 8,6 0,3 3 0,3 3 Positivo 3
4 8,8 8,0 0,8 14 0,4 4 Positivo 4
5 9,0 8,1 0,9 6 0,5 5 Positivo 5
6 9,5 9,0 0,5 11 0,6 6 Positivo 6
7 5,5 6,2 -0,7 7 0,7 7 (-)
8 6,9 8,2 -1,3 4 0,8 8,5 Positivo 8,5
9 9,3 8,5 0,8 9 0,8 8,5 Positivo 8,5
10 6,5 6,7 -0,2 5 0,9 10 Positivo 10
11 10,0 9,4 0,6 12 1,0 11 (-)
12 8,5 9,5 -1,0 13 1,1 12 Positivo 12
13 10,0 8,9 1,1 15 1,2 13 Positivo 13
14 9,1 8,7 0,4 8 1,3 14 (-)
15 9,5 8,3 1,2 1 1,4 15 (-)
SUMA DE RANGOS POSITIVOS

(W) 70
Los resultados son los siguientes:
n= 15 W= 70
Ŵ= 60
Significanci
σ= 17,6 a p=
Estadístico Z= 0,6 0,57006
El resultado nos indica que no hay diferencias significativas en las calificaciones

emitidas por los dos jueces deportivos.
14.3 Prueba para dos o más muestras independientes
La prueba de Kruskall-Wallis
Esta prueba es el equivalente al modelo paramétrico de Análisis de la Varianza

(ANOVA) de efectos fijos.
Consideremos el siguiente arreglo de datos para las k muestras independientes:

MUESTRAS INDEPENDIENTES
1 2 ... j ... K
Y11 Y12 ... Y1j ... Y1k
Y21 Y22 ... Y2j ... Y2k
. . . .
. (D A T O S) .
. . . .
Yi1 Yi2 ... Yij ... Yik
. . . .
. . . .
. . . .
Yn11 Y n 22 ... Ynjj ... Inc.
Con base en estas k muestras aleatorias, se plantea la siguiente prueba de

hipótesis:

muestras
versus

muestras
Para llevar a cabo esta prueba, se procede de la siguiente manera:
• Se juntan las k muestras, y se ordenan los datos combinados, manteniendo la

identificación de la muestra a que pertenece cada uno de los datos
• Se asignan rangos desde 1 hasta el valor N (la suma total de las muestras)
• Si existen casos repetidos, se procede a reemplazar los rangos por el
promedio de éstos.
• Se procede a sumar los rangos correspondientes a cada una de las k
muestras, teniendo los valores R1, R2, R3, … Rk.
Con base en estos resultados intermedios, se calcula el estadístico de Kruskal-

Wallis, que sigue una ley chi-cuadrada con (k-1) grados de libertad (es decir que
para decidir sobre la prueba de hipótesis planteada, utilizamos la ley chi-
cuadrada de probabilidades):
12  k Ri2 
KW = ∑ 
 −3( N +1)
N ( N +1) 
 i =1 ni 
Donde:
N, es el número total de datos

Ri, para i=1, 2, 3, ,,,, k, son las sumas de rangos para cada una de las k
muestras.
Una cosa relevante sobre este modelo, es que NO SE RECOMIENDA APLICARLO,

cuando se tienen k=3 muestras y el número de datos es menor a 5 en cada una de
las muestras.
Veamos un ejemplo: se toman los mismos datos sobre cosecha de papa que se
utilizaron con los modelos de análisis de la varianza (ANOVA). El objetivo es
establecer si existen o no diferencias significativas entre los 4 tipos de abonos
utilizados y adicionalmente vamos a realizar una sencilla comparación entre ambos
modelos (paramétrico y no paramétrico).
TRATAMIENTOS (FACTOR ABONO)
Abono 1 Abono 2 Abono 3 Abono 4

parcelas 12.5 15.9 12.4 20
parcelas 10.9 16 12.8 19.8
parcelas 11.8 16.5 11.9 17.7
parcelas 12 17 12.2 19.5
Parcelas 12.2 16.7 18.8
Parcelas 12.4 15.8 19
Parcelas 12.8 19.7
Parcelas 11.9
Parcelas 11.5
Parcelas 11.7
Desarrollo (considerando el procedimiento planteado):
1er paso 2do paso 3er paso
Se juntan todos los datos, Se ordenan los datos

manteniendo la (con la identificación
identificación de la de la muestra y Se asignan
muestra valores) los Rangos
Abono1 12,5 Abono1 10,9 1

Abono1 12,2 Abono1 11,9 5,5
Abono1 12,4 Abono3 11,9 5,5
Abono1 11,9 Abono1 12,2 8,5
Abono1 11,5 Abono3 12,2 8,5
Abono1 11,7 Abono1 12,4 10,5
Abono2 15,9 Abono3 12,4 10,5
Abono2 16,0 Abono1 12,5 12
Abono2 16,5 Abono1 12,8 14
Abono2 17,0 Abono3 12,8 14
Abono2 16,7 Abono2 15,8 14
Abono2 15,8 Abono2 15,9 16
Abono3 12,4 Abono2 16,0 17
Abono3 12,8 Abono2 16,5 18
Abono3 11,9 Abono2 16,7 19
Abono3 12,2 Abono2 17,0 20
Abono4 20,0 Abono4 17,7 21
Abono4 19,8 Abono4 18,8 22
Abono4 17,7 Abono4 19,0 23
Abono4 19,5 Abono4 19,5 24
Abono4 18,8 Abono4 19,7 25
Abono4 19,0 Abono4 19,8 26
Abono4 19,7 Abono4 20,0 27
NUMERO DE CASOS POR MUESTRA SUMA DE LOS RANGOS
n1 = 10 Abono1 R1= 67,5

n2 = 6 Abono2 R2= 104,0
n3 = 4 Abono3 R3= 38,5
n4 = 7 Abono4 R4= 168,0
Con estos resultados se calcula el estadístico de Kruskal-Wallis y la probabilidad de

significancia estadística (p), con la ley chi-cuadrado de probabilidades:
Estadístico de Kruskal-Wallis 21,7
Significancia estadística p= 0,0001

=DISTR.CHI(21,7 ; 3)
Esta probabilidad nos indica que existen diferencias significativas entre los abonos
para la producción de papa.
A continuación se presenta la tabla resumen del modelo de análisis de la varianza
paramétrico (Anova):
Tabla de análisis de la varianza para los

abonos
Suma de Grados de Cuadrados Estadística F
Fuente de variación
cuadrados libertad medios (Fisher)
Tratamientos (abonos) 254.7 3 84.9
241.5
Error 8.1 23 0.4
Total 262.8 26 Sig p = 0.0000
Comparemos las probabilidades de significancia estadística:
• Con el modelo ANOVA p=0.0000

• Con el modelo KRUSKAL-WALLIS p=0.0001
Podemos ver que, con ambos modelos la conclusión es la misma (existen

diferencias significativas entre los abonos para la producción de papa), y hay un
diferencia en los valores de la probabilidad de 1 en 10000 (1 diez milésima).
Así el modelo no paramétrico es también eficiente con datos cuantitativos, pero es

más adecuado, que el método paramétrico, en el caso de tener variables cualitativas
ordinales.
14.4 Prueba para dos o más muestras pareadas
La prueba de Friedman
Esta prueba es el equivalente al modelo paramétrico de Análisis de la Varianza

(ANOVA) de diseño de bloques.
Consideremos el siguiente arreglo de datos para las k muestras independientes:
MUESTRAS PAREADAS
(k TRATAMIENTOS O GRUPOS)
Bloque
1 2 ... j ... k
1
Y11 Y12 ... Y1j ... Y1k
2
Y21 Y22 ... Y2j ... Y2k
. . . . .
. . (D A T O S) .
. . . . .
i
Yi1 Yi2 ... Yij ... Yik
. . . . .
. . . . .
. . . . .
n
Yn1 Yn2 ... Ynj ... Ynk
Para cada uno de los bloques, se tienen k mediciones dadas por cada una de las
muestras o tratamientos, y se desea establecer si existen o no diferencias entre los
tratamientos o grupos.
Con base en estas k muestras aleatorias, se plantea la siguiente prueba de

hipótesis:

muestras
versus

muestras
Para llevar a cabo esta prueba con muestras pareadas, se procede de la siguiente
manera:
• Se asignan rangos por cada uno de los bloques, es decir para cada una de
las filas de 1 a k
• Se procede a sumar los rangos correspondientes por cada uno de los k
tratamientos, teniendo los valores R1, R2, R3, … Rk.
Y se procede a calcular el estadístico de Friedman, que sigue una ley chi-cuadrada

con (k-1) grados de libertad (es decir que para decidir sobre la prueba de
hipótesis planteada, utilizamos la ley chi-cuadrada de probabilidades):
12  k 
F=  ∑Ri2  − 3n( k +1)
nk (k +1)  i =1 
Donde:
n, es el número de bloques
k, representa el número de tratamientos
Ri, para i=1, 2, 3, ,,,, k, son las sumas de rangos para cada una de las k
muestras.
Para apreciar este modelo, veamos el siguiente ejercicio:
Se desea evaluar si existen diferencias significativas o no entre 4 políticas públicas

implementadas en el transcurso de 2 años para promover el retorno de migrantes
que se fueron a países europeos. Estas políticas fueron aplicadas en 10 parroquias
del país con mayores tasas de migración.
Se disponen de los siguientes datos que representan el número de personas que

retornaron, producto de los incentivos ofrecidos por cada una de las políticas
públicas:
Políticas públicas con incentivos para el Se asignan RANGOS por cada uno de los
retorno de migrantes (TRATAMIENTOS) bloques (PARROQUIAS), es decir por filas
Parroquias Política Política Política Política

(BLOQUES) 1 2 3 4 Política 1 Política 2 Política 3 Política 4
1 25 20 56 40 2 1 4 3
2 30 15 40 17 3 1 4 2
3 35 12 90 30 3 1 4 2
4 33 10 75 15 3 1 4 2
5 29 18 60 25 3 1 4 2
6 20 19 55 21 2 1 4 3
7 30 25 58 23 3 2 4 1
8 15 21 65 18 1 3 4 2
9 25 19 70 27 2 1 4 3
10 28 13 85 15 3 2 4 2
SUMA DE RANGOS 25 14 40 22
R1 R2 R3 R4
Con estos valores de rangos, el estadístico de Friedman y la probabilidad de

significancia estadística, calculada con la ley chi-cuadrada es:
n= 10
k= 4
Estadístico de Friedman 22,7
Significancia estadística p= 0,0000
De acuerdo a la probabilidad de significancia estadística, se concluye que si existen

diferencias significativas en las políticas públicas de incentivos para el retorno de
migrantes.

Pruebas NO PARAMETRICAS

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Pruebas NO PARAMETRICAS

Încărcat de

Drepturi de autor:

Formate disponibile

Facultad Latinoamericana de Ciencias Sociales – Sede Ecuador

Curso: Métodos Cuantitativos para la investigación social – Políticas Públicas

Pruebas de hipótesis para métodos no paramétricos

14.1 Prueba para dos muestras independientes

Como se comentó anteriormente, se han desarrollado y propuesto varios

Con base en estas muestras aleatorias, el objetivo es establecer si existen o no

Es decir, con base en estas muestras aleatorias, se plantea la siguiente prueba de

Hipótesis nula (Ho): no hay diferencias significativas entre las

Hipótesis alternativa (H1): si hay diferencias significativas entre las

Para llevar a cabo esta prueba, se procede de la siguiente manera:

• Se juntan las dos muestras, y se ordenan los datos combinados, manteniendo

Luego se calcula el siguiente estadístico Z, que sigue una ley normal de

n1, es el tamaño de la primera muestra, y

Veamos el siguiente ejemplo:

Un municipio del país, está interesado en evaluar si el nivel de participación

Se registraron los de participación de 10 hombres y de 10 mujeres, siendo los

Hombres (H) Mujeres (M)

Para llevar a cabo la prueba, aplicamos el procedimiento de la prueba U de Mann-

Se juntan todos los Rango de

Suma rangos (=R1) 83

Obtenemos el mismo resultado final si se

Con base en estos datos, se obtienen los siguientes resultados:

La significancia se obtiene en el Excel con =(1-DISTR.NORM.ESTAND(ABS(z)))*2,

La significancia estadística nos dice que no hay diferencias en el nivel de

Utilizando los rangos de mujeres, se obtiene, U = 28 y Z=-1.7, y p=0.09630, es

Recordemos lo que significan muestras pareadas. Esto se refiere cuando de un

Así, sean (X1,Y1), (X2,Y2), (X3,Y3),… (Xn,Yn), n pares de observaciones pareadas o

Con base en las muestras aleatorias, se plantea la siguiente prueba de hipótesis:

Hipótesis nula (Ho): no hay diferencias significativas entre las

Hipótesis alternativa (H1): si hay diferencias significativas entre las

Esta prueba se basa en los siguientes pasos:

• Se obtiene la diferencia de las dos muestras

En caso de que un individuo tenga la misma medida en ambas muestras (x i=yi), se

Luego se calcula el siguiente estadístico Z, que sigue una ley normal de

Veamos el siguiente ejemplo:

Dos jueces, califican en una escala de 0 a 10 puntos, a un grupo de 15 deportistas

1er paso 2do paso 3er paso 4to paso

Se ordenan los datos

SUMA DE RANGOS POSITIVOS

Los resultados son los siguientes:

Estadístico Z= 0,6 0,57006

El resultado nos indica que no hay diferencias significativas en las calificaciones

Esta prueba es el equivalente al modelo paramétrico de Análisis de la Varianza

Consideremos el siguiente arreglo de datos para las k muestras independientes:

Con base en estas k muestras aleatorias, se plantea la siguiente prueba de

Hipótesis nula (Ho): no hay diferencias significativas entre las

Hipótesis alternativa (H1): si hay diferencias significativas entre las

Para llevar a cabo esta prueba, se procede de la siguiente manera:

• Se juntan las k muestras, y se ordenan los datos combinados, manteniendo la

Con base en estos resultados intermedios, se calcula el estadístico de Kruskal-

N, es el número total de datos

Una cosa relevante sobre este modelo, es que NO SE RECOMIENDA APLICARLO,

TRATAMIENTOS (FACTOR ABONO)

Abono 1 Abono 2 Abono 3 Abono 4

Desarrollo (considerando el procedimiento planteado):

1er paso 2do paso 3er paso

Se juntan todos los datos, Se ordenan los datos

Abono1 11,8 Abono1 11,7 3

NUMERO DE CASOS POR MUESTRA SUMA DE LOS RANGOS

n1 = 10 Abono1 R1= 67,5

Con estos resultados se calcula el estadístico de Kruskal-Wallis y la probabilidad de

Estadístico de Kruskal-Wallis 21,7

Significancia estadística p= 0,0001