Sunteți pe pagina 1din 28

UNIVERSIDAD NACIONAL FEDERICO

VILLARREAL

TEMA: ANALISIS NO PARAMÉTRICO


INTEGRANTES:
 LEIVA PUMA JOSE ANTONIO
 CAQUI JIMENEZ JENIFER ELIZABETH
 MAYTA LUJAN KATHERINE
 JULCA ALVARADO SELENE
 VILCARROMERO GARAY BRUNO
CURSO: ESTADÍSTICA APLICADA A LA
ECONOMÍA
Aula: 55”c”
Año: 2018
ÍNDICE

I. Introducción……………………………………………………………….......
II. Conceptos Elementales
II.I Definición……………………………………………………………….
II.II Características…………………………………………………………
II.III Ventajas y desventajas del Análisis no Paramétrico………………
III. Análisis no paramétricos
III.I Pruebas estadísticas no paramétricos más utilizadas
 Ji cuadrada o Chi Cuadrada………………………………….
 Para una variable………………………………………
 Para dos variables…………………………………….
 Ejemplos………………………………………………..
 Prueba de rangos con signos ………………………………
 Prueba de signos……………………………………….
 Uso de la aproximación normal a la binomial……….
 Prueba de hipótesis acerca de una mediana………...
 Prueba de rangos con signos de Wilcoxon para
muestras dependientes…………………………………
 Ejemplos……………………………………………….
 Prueba de Mann-Withney ……………...…………………….
 Ejemplos………………………………………………..
 Prueba de Kruskal- Wallis……………………………………
 Ejemplos……………………………………………….
III.II Prueba de Bondad de Ajuste de Kolmogorov-Smirnov (KS)…….
 Pruebas para una muestra …………………………………
 Concepto
 Simulación de datos con distribución normal,
exponencial, uniforme y Poisson
 Ejemplos
 Pruebas para dos muestras independientes………………..
 Concepto
 Estadístico de prueba
 Ejemplos
 Ejercicios propuestos
IV. Conclusiones…………………………………………………………………….
V. Anexos……………………………………………………………………………
VI. Bibliografía……………………………………………………………………….
ANÁLISIS NO PARAMÉTRICO
Introducción
La estadística clásica se divide en descriptiva e inferencial (inductiva). La descriptiva
busca conocer el comportamiento general de una población a partir de la medición de
características presentes en sus individuos y la aplicación de medidas de resumen
(medidas de tendencia central o dispersión, frecuencias absolutas o relativas) y
métodos de visualización (tablas y gráficos). En este contexto no es necesario cumplir
ningún supuesto para que las conclusiones obtenidas tengan validez.

La estadística inferencial, parte de la selección de una muestra aleatoria de una


población de referencia, con el fin de realizar una estimación (intervalos de confianza)
o evaluar una afirmación (pruebas de hipótesis) sobre un parámetro; para que los
resultados sean válidos es necesario que se cumplan algunos supuesto sobre la
distribución de los valores de la variable en la población de estudio.

En el campo de la estadística inferencial, cuando los supuestos no se cumplen se


pueden utilizar los métodos no paramétricos. En estos métodos, se encuentran las
pruebas no paramétricas que son pruebas cuya hipótesis no corresponde a una
afirmación sobre un parámetro, y las pruebas de libre distribución donde su aplicación
no depende de la distribución de la variable de interés en la población de estudio. En
este contexto, las pruebas dentro de la estadística inferencial clásica se denominan
pruebas paramétricas.

Cuando la hipótesis a probar corresponde a una afirmación que no está relacionada


con un parámetro particular, la estadística clásica no ofrece una alternativa para su
evaluación, por consiguiente, los métodos no paramétricos se presentan como única
alternativa de elección. Cuando la hipótesis a probar corresponde a una afirmación
sobre un parámetro, tenemos dos alternativas (paramétricos y no paramétricos) en
cuyo caso debemos evaluar cual de los dos métodos es el recomendable. Por lo
anterior, se han identificado algunas ventajas generales de los métodos no
paramétricos:

1. Son más rápidos y fáciles de aplicar (cálculos aritméticos simples).


2. Con frecuencia son más fáciles de entender.
3. Son relativamente insensibles a datos atípicos.
4. El tipo de supuestos requeridos son en general más fáciles de cumplir.
5. Se pueden aplicar en muestras pequeñas donde no se pueden verificar los
supuestos de la estadística inferencial clásica.
6. Resuelven preguntas en nuevos escenarios, por ejemplo cuando se trabaja con
variables medidas en escalas nominales.

Ahora bien, en favor de las pruebas paramétricas, estos métodos son los
recomendables cuando se cumplen los supuestos sobre las distribuciones de las
variables en la población de estudio.

En este documento se realiza la revisión de distintas pruebas no paramétricas


buscando cumplir con los siguientes objetivos:

1. Probar hipótesis relacionadas con la comparación entre dos o más muestras


independientes o emparejadas.
2. Evaluar la relación y correlación entre dos variables.
3. Evaluar si una muestra proviene de una población con una cierta distribución.
El listado de pruebas que se presentan son las siguientes:

1. Prueba del signo.


2. Prueba de rangos de signos de Wilcoxon.
3. Prueba de Mann Whitney|suma de rangos de Wilcoxon.
4. Prueba de rachas Wald-Wolfowitz.
5. Prueba de McNemar.
6. Prueba de la mediana.
7. Prueba Kruskall-Wallis.
8. Prueba de Friedman.
9. Prueba Q de Cochran.
10. Coeficiente ττ de Kendall.
11. Coeficiente de correlación de rangos de Spearman-ρρ.
12. Aplicación de la distribución χ2χ2 (Prueba de independencia - Coeficiente de
asociación).
13. Aplicación de la distribución χ2χ2 (Prueba de homogeneidad).
14. Aplicaciones de la distribución χ2χ2 (Prueba de bondad de ajuste).
15. Pruebas de Kolmogorov-Smirnov.
16. Pruebas de Shapiro Wills|Francia.
17. Gráficas para evaluar bondad y ajuste.

II.Conceptos Elementales

II.I DEFINICIÓN

Análisis no paramétrico

La estadística no paramétrica es una rama de la estadística inferencial que estudia


las pruebas y modelos estadísticos cuya distribución subyacente no se ajusta a los
llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues
son los datos observados los que la determinan.

El análisis no paramétrico no depende de cómo se distribuye la población. Estos se


realizan cuando no se conocen de forma exacta las características de la población, por
ejemplo en un estudio exploratorio.
II.IICARACTERÍSTICAS
PRUEBAS PARAMÉTRICAS
Para usarlas debe cumplirse los supuestos:
• Las variables tienen que ser cuantitativas y estas medidas en escalas de
intervalo o razón.
• Los datos siguen una distribución normal.
• Las varianzas son iguales.
• Muestras grandes (n>30)
PRUEBAS NO PARAMÉTRICAS
Se deben usar con:
• Datos de distribución libre(no necesariamente normal). Si un grupo tiene
distribución normal mientras el otro no.
• Si se trata de datos cuantitativos, ordinales o nominales.
• Con varianza grande, un grupo de varianza 0 y el otro no.
• Al trabajar con muestras pequeñas.

II.III VENTAJAS DEL ANÁLISIS NO PARAMÉTRICO

1. Determinación sencilla. Mediante fórmulas simples de combinación.

2. Fáciles de aplicar. Las operaciones matemáticas son la jerarquización, conteo,


suma y resta.

3. Rápidas de aplicar. Cuando las muestras son pequeñas.

4. Campos de aplicación. A grupos mayores de poblaciones.

5. Menos susceptibles a la contravención de los supuestos. Ya que los supuestos son


escasos y menos complicados.

DESVENTAJAS DEL ANÁLISIS NO PARAMÉTRICO

1. Si se puede utilizar una prueba paramétrica y se usa una no paramétrica hay una
pérdida de información.

2. En muestras grandes las pruebas no paramétricas son muy laboriosas

PRUEBAS NO PARAMÉTRICAS

• Chi cuadrado de Pearson(independencia, bondad de ajuste, homogeneidad)


• Prueba exacta de Fischer
• U de Mann Whitney
• T de Wilcoxon
• Mac Nemar
• Kruskall Wallis
• Friedman
• Q de Cochran

VII. Análisis no paramétricos


Pruebas estadísticas no paramétricos más utilizadas

1. CHI CUADRADO DE PEARSON


La Chi cuadrado (también conocido como X 2 o ji-cuadrado) propuesto por Pearson
(1911) proporciona un estadístico que permite contrastar la hipótesis de que los dos
criterios de clasificación utilizados son independientes.
Para ello, compara las frecuencias observadas (las frecuencias de hecho obtenidas)
con las frecuencias esperadas (las frecuencias que teóricamente deberíamos haber
encontrado en cada casilla si los dos criterios de clasificación fueran independientes).

𝑘
2
(𝑂𝑖 − 𝐸𝑖 )2
𝑋 =∑
𝐸𝑖
𝑖=1

Donde:
𝑂𝑖 = frecuencias observadas
𝐸𝑖 =frecuencias esperadas (teóricas)

El denominador común a todas ellas es que su tratamiento estadístico está basado en


la misma distribución teórica: la distribución χ2 (chi-cuadrado ó ji-cuadrado). En esencia
se van a abordar tres tipos de problemas:
a) PARA 1 VARIABLE
Prueba de Bondad de Ajuste, consiste en determinar si los datos de cierta muestra
corresponden a cierta distribución poblacional. En este caso es necesario que los
valores de
la variable en la muestra y sobre la cual queremos realizar la inferencia esté dividida en
clases de ocurrencia, o equivalentemente, sea cual sea la variable de estudio,
deberemos
categorizar los datos asignado sus valores a diferentes clases o grupos.

PARA 2 VARIABLES
b) Prueba de Homogeneidad de varias muestras cualitativas, consiste en comprobar
si varias
muestras de un carácter cualitativo proceden de la misma población (por ejemplo:
¿estas
tres muestras de alumnos provienen de poblaciones con igual distribución de
aprobados? Es
necesario que las dos variables medibles estén representadas mediante categorías con
las
cuales construiremos una tabla de contingencia.
El conjunto de posibles valores de las observaciones se divide en k conjuntos disjuntos:
A1, A2, ..., Ak.; clasificando en ellos las observaciones de cada muestra. Si nij
representa el número de observaciones de la muestra i que pertenecen al conjunto Aj ,
los datos pueden tabularse en lo que se denomina una tabla de contingencia.

c) Prueba de Independencia, consistente en comprobar si dos características


cualitativas están
relacionadas entre sí (por ejemplo: ¿el color de ojos está relacionado con el color de los
cabellos?). Aunque conceptualmente difiere del anterior, operativamente proporciona
los
mismos resultados. Este tipo de contrastes se aplica cuando deseamos comparar una
variable en dos situaciones o poblaciones diferentes, i.e., deseamos estudiar si existen
diferencias en las dos poblaciones respecto a la variable de estudio.
Ejemplo:
Ejemplo 2
2. PRUEBA DE LOS SIGNOS
La prueba de los signos se basa en el signo de una diferencia entre dos observaciones
relacionadas. En general, se designa con un signo más (+) una diferencia positiva, y con
un signo menos (–), una negativa. Por ejemplo, una dietista quiere ver si disminuirá el
nivel de colesterol de una persona si la dieta se complementa con cierto mineral. Ella
selecciona una muestra de 20 obreros mayores de 40 años de edad y mide su nivel de
colesterol. Después que los 20 sujetos toman el mineral durante 6 semanas, se vuelve
a medir su nivel de colesterol; si disminuyo, se registra un signo “+”. Si aumento, se
registra un signo “–”. Si no hay cambio, se registra cero (y esa persona sale del estudio).
Para una prueba de los signos, no interesa la magnitud de la diferencia, solo la dirección
de la diferencia.
La prueba de los signos tiene muchas aplicaciones. Una es para experimentos de
“antes/después”. Para ilustrar este punto, suponga la evaluación de un programa nuevo
de afinación de automóviles. Se registra el número de millas recorridas por galón de
gasolina antes de la afinación y de nuevo después de esta. Si la afinación no es eficaz,
es decir, si no tuvo efecto en el desempeño, casi la mitad de los automóviles probados
presentara un aumento en las millas por galón, y la otra mitad, una disminución. Se
asigna “+” a un aumento y “–” a una disminución. Un experimento sobre la preferencia
de un producto ilustra otro uso de la prueba del signo. Taster´s Choice vende dos clases
de café
en un frasco de 4 onzas: descafeinado y normal. Su departamento de investigación de
mercado quiere determinar si los bebedores de café prefieren café descafeinado o
normal, y para saberlo les dan dos tazas de café sin ninguna marca y a cada uno se le
pregunta cual prefiere. La preferencia por café descafeinado se codifica “+”, y la
preferencia por el regular, “–”. En cierto sentido, los datos están en un nivel ordinal
debido a que los bebedores de café le dan a su café preferido un rango más alto y el
otro tipo de café queda en un rango más bajo. Aquí, una vez más, si la población de
consumidores de café no tiene una preferencia, esperaría que la mitad de la muestra de
consumidores de café prefiera descafeinado, y la otra mitad, normal. Un ejemplo
ayudara a mostrar mejor la aplicación de la prueba de los signos. A continuación, se
presenta un experimento de “antes/después”.
Debe hacerse notar que, si la hipótesis nula no ofrece una dirección, por ejemplo, H0: π
= 0.50 y H1: π ≠ 0.50, la prueba de hipótesis es de dos colas. En esos casos hay dos
regiones de rechazo, una en la cola inferior y la otra en la cola superior. Si α = 0.10 y la
prueba es de dos colas, el área en cada cola es 0.05 (α/2 = 0.10/2 = 0.05).

Uso de la aproximación normal a la binomial

Si el número de observaciones en la muestra es mayor que 10, puede utilizar la


distribución normal para aproximar la binomial. calculo la media de la distribución normal
a partir de μ = nπ, y la desviación estándar de σ = √nπ(1 – π). En este caso, π = 0.50,
por tanto, puede reducir las ecuaciones a μ = 0.50n y σ = 0.50√n, respectivamente.
El estadístico de prueba z es:

Si el número de signos “+” mas o “–” menos es mayor que n/2, emplee la siguiente
formula como el estadístico de prueba:
Si el número de signos “+” más o “–” menos es menor que n/2, el estadístico de prueba
z es

En las formulas anteriores, X es el número de signos más o menos. El valor +0.50 o


bien –0.50 es el factor de corrección de continuidad. En resumen,
se aplica cuando una distribución continua como la normal (que se está utilizando) sirve
para aproximar una distribución discreta (la binomial).

Prueba de hipótesis acerca de una mediana

La mayoría de las pruebas de hipótesis realizadas hasta este punto comprendieron la


media de la población o una proporción. La prueba de los signos es una de las pocas
pruebas con que se prueba el valor de una mediana. Recuerde que la mediana es el
valor sobre del cual están la mitad de las observaciones y debajo del cual encontramos
la otra mitad. Para los honorarios por hora de $7, $9, $11 y $18, la mediana es $10. La
mitad de los honorarios están arriba de $10 por hora, y la otra mitad, debajo de $10 por
hora. Para realizar una prueba de hipótesis, a un valor por arriba de la mediana se le da
un signo más, y a un valor debajo de la mediana, un signo menos. Si un valor es el
mismo que la mediana, se elimina en el análisis posterior.

Prueba de rangos con signo de


Wilcoxon para muestras dependientes

La prueba t de Student por pares (o apareada), que se describió en el capítulo 11, tiene
dos requisitos. Primero, las muestras deben ser dependientes. Recuerde que las
muestras dependientes se caracterizan por una medición, algún tipo de intervención y
luego otra medición. Por ejemplo, una compañía importante inicio un programa de
“bienestar”
al inicio del ano. Se inscribieron 20 personas en la parte de reduccion de peso del
programa. Para comenzar, se pesaron todos los participantes. Luego se pusieron a
dieta, hicieron ejercicio, etc., para reducir de peso. Al final del programa, que duro seis
meses, todos los participantes se pesaron de nuevo. La diferencia en su peso entre el
inicio y el final del programa es la variable de interés. Observe que hay una medición,
una intervención y luego otra medición. El segundo requisito para la prueba t por pares
es que la distribución de las diferencias siga la distribución normal de probabilidad. En
el ejemplo sobre el bienestar de la compañía, esto requiere que las diferencias en los
pesos de los 20 participantes sigan la distribución normal de probabilidad. En ese caso,
dicha suposición es razonable. Sin embargo, hay casos en que interesaran
las diferencias entre observaciones independientes y no se podrá suponer que la
distribución de las diferencias se aproxima a una distribución normal. Con frecuencia,
encontrara problemas con la suposición de normalidad
cuando el nivel de medición en las muestras sea ordinal, en lugar de intervalo
o de razón. Por ejemplo, suponga que este día hay 10 pacientes en cirugía en la clínica
3. La supervisora de enfermería pide a las enfermeras Benner y Jurris que califiquen a
cada uno de los pacientes en una escala de 1 a 10 de acuerdo con la dificultad de los
cuidados que debe recibir. La distribución de las diferencias en las calificaciones quizá
no se aproxime a la distribución normal, y, por tanto, no sería adecuada la prueba t por
pares. En 1945, Frank Wilcoxon desarrollo una prueba no paramétrica, con base en las
diferencias en muestras dependientes, que no requiere la suposición de normalidad.
Esta prueba se denomina prueba de rangos con signo de Wilcoxon. En el siguiente
ejemplo se dan los detalles de su aplicación

3. PRUEBA DE MANN-WHITNEY

En estadística la prueba de la U de Mann-Whitney (también llamada de Mann-


Whitney-Wilcoxon, prueba de suma de rangos Wilcoxon, o prueba de Wilcoxon-Mann-
Whitney) es una prueba no paramétrica aplicada a dos muestras independientes. Es la
versión no paramétrica de la habitual prueba t de Student.
Fue propuesto inicialmente en 1945 por Frank Wilcoxon para muestras de igual
tamaños y extendido a muestras de tamaño arbitrario como en otros sentidos
por Henry B. Mann y D. R. Whitney en 1947.
La prueba de Mann-Whitney contrasta la igualdad de dos distribuciones poblacionales.
Se basa en la suposición de que dos muestras aleatorias se sacan independientemente
de variables continuas. En su sentido más amplio, la hipótesis nula establece que las
distribuciones de dos poblaciones son idénticas. Sin embargo, la prueba puede
realizarse para analizar la igualdad de dos medias o medianas poblacionales .parta
contrastar la igualdad de las medias la prueba U de Mann-Whitney sirve como
alternativa no paramétrica de la prueba “t”, salvo que no requiere del supuesto de
normalidad. Si el supuesto de simetría se elimina, la mediana reemplaza la media como
estadístico de prueba.
Planteamiento de la prueba
La prueba de Mann-Whitney se usa para comprobar la heterogeneidad de dos muestras
ordinales. El planteamiento de partida es:

1. Las observaciones de ambos grupos son independientes.


2. Las observaciones son variables ordinales o continuas.
3. Bajo la hipótesis nula, la distribución de partida de ambos grupos es la misma

Cálculo del estadístico


Para calcular el estadístico U se asigna a cada uno de los valores de las dos muestras su
rango para construir

𝑁1 ∗ (𝑁1 + 1)
𝑈 = 𝑁1𝑋𝑁2 + − 𝑅1
2
𝑁2 ∗ (𝑁2 + 1)
𝑈2 = 𝑁2𝑋𝑁1 + − 𝑅2
2
Donde n1 y n2 son los tamaños respectivos de cada muestra; R1 y R2 es la suma de los
rangos de las observaciones de las muestras 1 y 2 respectivamente.
El estadístico U se define como el mínimo de U1 y U2.
Los cálculos tienen que tener en cuenta la presencia de observaciones idénticas a la
hora de ordenarlas. No obstante, si su número es pequeño, se puede ignorar esa
circunstancia.
Distribución del estadístico
La prueba calcula el llamado estadístico U, cuya distribución para muestras con más
de 10 observaciones se aproxima bastante bien a la distribución normal.
La aproximación a la normal, z, cuando tenemos muestras lo suficientemente grandes
viene dada por la expresión:

𝑈𝑖 − 𝜇𝑊
𝑍=
𝜎𝑊
Donde mU y σU son la media y la desviación estándar de U si la hipótesis nula es
cierta, y vienen dadas por las siguientes fórmulas:

𝑁1𝑋𝑁2
𝜇𝑤 =
2

𝑁1 ∗ 𝑁2(𝑁1 + 𝑁2 + 1)
𝜎𝑤 = √
12

 Caso de muestras pequeñas

La prueba de MWW para el caso de muestras pequeñas se usa siempre que los
tamaños de las muestras de ambas poblaciones sean menores o iguales a 10.
Para poder entenderlo tomamos un ejemplo

Ejemplo 1
La mayoría de los alumnos de la escuela Johnston provienen de la escuela
Garfield o de la escuela Mulberry. La cuestión que desean resolver los directivos
de la escuela Johnston es si la población de los estudiantes que provenían de la
escuela Garfield es idéntica, en términos de preparación académica, a la
población de los estudiantes que provenían de la escuela Mulberry. Para este
problema utilizaremos un nivel de confianza del 95%,
PASO 1: Es reconocer que estas muestras no cumplan con los supuestos de la
normalidad , es decir, no tienen que ser normales para saber esto tenemos a las pruebas
de Kolmogórov-Smirnov que las utilizamos para muestras mayores a 30 y la prueba
de Shapiro-Wilk cuando son menores a 30
PASO 2: ESTABLECER LAS HIPOTESIS
H0: Las dos poblaciones son idénticas en términos de preparación académica
Ha: Las dos poblaciones no son idénticas en términos de preparación académica
PASO 3: SE ESTABLECEN LOS RANGOS

4(4 + 1)
𝑈1 = 4𝑋5 + − 11 = 19
2
5(5 + 1)
𝑈2= 5𝑋4 + − 34 = 1
2

• Se obtiene el estadístico Ucal escogiendo el valor más grande entre U1 y U2


• Se comprueba la significación estadística del estadístico Ucal comparando este valor con
el valor de un estadístico Ucrít obtenido a partir de las tablas correspondientes.
• Si Ucal >=Ucrít (a=0.05 o inferior) se rechaza H0 y se acepta Ha (las medianas
son diferentes)
• Si Ucal < Ucrít (a=0.05) se acepta H0 y se rechaza Hecol (las
medianas son iguales)
 Caso de muestras grandes

La prueba calcula el llamado estadístico U, cuya distribución para muestras con


más de 10 observaciones se aproxima bastante bien a la distribución normal
Luego se determinar el tamaño de las muestras (n1 y n2). Si n1 y n2 son
menores que 10, se consideran muestras pequeñas, pero si son mayores que
10, se consideran muestras grandes. En caso de muestras grandes, calcular el
valor Z, pues en estas condiciones se distribuye normalmente.
Después se ordenan los valores de menor a mayor, asignando el rango uno al
valor más pequeño.Cuando se encuentran valores iguales (ligas o empates), se
le asigna el promedio de sus rangos
La aproximación a la normal, z, cuando tenemos muestras lo suficientemente
grandes viene dada por l

U  U
Z
U
Donde U y σU son la media y la desviación estándar de U si la hipótesis nula es
cierta, y vienen dadas por las siguientes fórmulas:

n1 n 2 n1n2 (n1  n2  1)
U  U 
2 12

4. PRUEBA DE KRUSKAL – WALLIS: ANÁLISIS DE LA


VARIANZA POR RANGOS
El procedimiento del análisis de la varianza se relaciona con la igualdad de las medias
de varias poblaciones. Sus datos estaban en un nivel de intervalo o de razón. Asimismo,
se supuso que las poblaciones seguían la distribución normal de probabilidad y que sus
desviaciones estándar eran iguales. ¿Qué sucede si los datos están a escala ordinal y/o
las poblaciones no siguen una distribución normal?
En 1952, William Henry Kruskal y W. Allen Wallis reportaron una prueba no paramétrica
que sólo requería datos de nivel ordinal (clasificados). No se requieren suposiciones
acerca de la forma de las poblaciones. A la prueba se le conoce como análisis en una
dirección de la varianza por rangos de Kruskal - Wallis.
La prueba de Kruskal – Wallis es el método más adecuado para comparar poblaciones
cuyas distribuciones no son normales. Incluso cuando las poblaciones son normales,
este contraste funciona muy bien. También es adecuado cuando las desviaciones
típicas de los diferentes grupos no son iguales entre sí.
Para la aplicación de la prueba de Kruskal - Wallis, las muestras seleccionadas de la
población deben ser independientes. Por ejemplo, si selecciona y entrevista muestras
de tres grupos —ejecutivos, personal y supervisores—, las respuestas de un grupo
(ejecutivos) no deben por ningún motivo influir en las respuestas de los demás. Para
entenderlo mejor lo explicaremos mediante un ejemplo.
El Hospital System of the Carolinas opera tres hospitales en el área de Great Charlotte:
St. Luke’s Memorial, en el lado poniente de la ciudad, Swedish Medical Center, al Sur,
y el Piedmont Hospital en el lado Este. El director de administración está preocupado
acerca del tiempo de espera de los pacientes con lesiones de tipo deportivo, que no
ponen en peligro la vida, y que llegan durante las tardes entre semana a los tres
hospitales. Específicamente, ¿existe una diferencia en los tiempos de espera en los tres
hospitales?
Para averiguarlo, el director seleccionó una muestra aleatoria de pacientes en los tres
hospitales y determinó el tiempo, en minutos, en que se entra a un hospital y el momento
en que termina el tratamiento.
Tiempos de espera de los pacientes en la sala de urgencias en el Sistema Hospitalario
de las Carolinas

St. Luke´s Memorial Swedish Medical Center Piedmont Hospital


56 103 42
39 87 38
48 51 89
38 95 75
73 68 35
60 42 61
62 107
89

En la tabla observamos que el tiempo de espera más corto, 35 minutos, es del quinto
paciente muestreado en el Piedmont Hospital. El tiempo más largo, 107 minutos, le tocó
al séptimo paciente muestreado en el Swedish Medical Center.
En este caso, las muestras provienen de poblaciones independientes, que son los tres
hospitales. Pero suponga que no quiere asumir que hay una varianza igual en los
tiempos de espera en los tres hospitales o que estos tiempos de espera siguen una
distribución de probabilidad normal. La falta de estos dos criterios significa que no se
cubren los requisitos de ANOVA, así que no se puede utilizar esta técnica. En vez de
eso, recurrimos a la prueba de Kruskal-Wallis, donde no se requieren estas
suposiciones.
El primer paso en la prueba de hipótesis es formular las hipótesis nula y alternativa.

 𝐻0 = Las distribuciones de las poblaciones de los tiempos de espera son iguales


para los tres hospitales.
 𝐻1 = No todas las distribuciones de las poblaciones son iguales.
El director de administración seleccionó un nivel de significancia de 0.05. El estadístico
de prueba de la prueba de Kruskal-Wallis se designa como H, y su fórmula es:
Prueba de Kruskal - Wallis
12 (𝛴𝑅1 )2 (𝛴𝑅2 )2 (𝛴𝑅𝑘 )2
𝐻= [ + + ⋯+ ] − 3(𝑛 + 1)
𝑛(𝑛 + 1) 𝑛1 𝑛2 𝑛𝑘

Con k-1 grados de libertad (k es el número de poblaciones), donde:


 𝛴𝑅1 , 𝛴𝑅2 , … , 𝛴𝑅𝑘  Son las sumas de los rangos de las muestras 1, 2,…, k,
respectivamente.
 𝑛1 , 𝑛2 , … , 𝑛𝑘  Son los tamaños de las muestras 1, 2,…,k, respectivamente.
 𝑛  Es el número combinado de observaciones de todas las muestras.
La distribución del estadístico de prueba H es muy similar a la distribución ji cuadrada
con k - 1 grados de libertad. Es preferible que cada muestra incluya al menos 5
observaciones. Utilice ji cuadrada para formular la regla de decisión. En este ejemplo
hay tres poblaciones: una población de tiempos de espera de pacientes en St. Luke’s
Memorial, otra de pacientes del Swedish Medical Center, y una tercera de los pacientes
de Piedmont Hospital. Por lo tanto, hay k - 1, es decir, 3 - 1 = 2 grados de libertad. El
valor crítico de 2 grados de libertad y el nivel de significancia de 0.05 es 5.99. No rechace
H0 si el valor calculado del estadístico de prueba H es menor o igual a 5.99. Rechace
H0 si el valor calculado de H es mayor que 5.99 y acepte H1.
El paso siguiente es determinar el valor del estadístico de prueba. Remplazamos los
tiempos de espera en los tres hospitales por sus rangos correspondientes.
Considerando los tiempos de espera como una sola población, el paciente de Piedmont
con un tiempo de espera de 35 minutos aguardó el tiempo más corto y, por lo tanto, se
le otorga el rango más bajo, 1. Hay dos pacientes que esperaron 38 minutos, uno en St.
Luke’s y el otro en Piedmont. Para resolver este empate, se otorga a cada paciente un
rango de 2.5, calculado mediante (2 + 3)/2. El proceso continúa con todos los tiempos
de espera. El más largo es de 107 minutos, y ese paciente del Swedish Medical Center
recibe un rango de 21.
En la siguiente tabla se muestra las calificaciones, los rangos y la suma de los rangos
en cada uno de los tres hospitales.

St. Luke´s Memorial Swedish Medical Center Piedmont Hospital


Tiempo de Rango del Tiempo de Rango del Tiempo de Rango del
espera tiempo de espera tiempo de espera tiempo de
espera espera espera
56 9.0 103 20.0 42 5.5
39 4.0 87 16.0 38 2.5
48 7.0 51 8.0 89 17.5
38 2.5 95 19.0 75 5.0
73 14.0 68 13.0 35 1.0
60 10.0 42 5.5 61 11.0
62 12.0 107 21.0
89 17.5
𝛴𝑅1 = 58.5 𝛴𝑅2 = 120.0 𝛴𝑅2 = 52.5

Al despejar H. se obtiene

12 (𝛴𝑅1 )2 (𝛴𝑅2 )2 (𝛴𝑅3 )2


𝐻= [ + + ] − 3(𝑛 + 1)
𝑛(𝑛 + 1) 𝑛1 𝑛2 𝑛3
12 (58.5)2 (120)2 (52.5)2
= [ + + ] − 3(21 + 1) = 5.38
22(21 + 1) 7 8 6

Como el valor calculado de H (5.38) es menor que el valor crítico de 5.99, no se rechaza
la hipótesis nula. No hay evidencia suficiente para concluir que existe una diferencia
entre los tiempos de espera en los tres hospitales.

III.II Prueba de Bondad de Ajuste de Kolmogorov-Smirnov (KS)

 Prueba de Kolmogorov-Smirnov para una muestra

Al igual que las pruebas de chi-cuadrado para una muestra y binomial, la prueba
Kolmogorov-Smirnov (K-S) para una muestra (Kolmogorov, 1933) es una prueba de
bondad de ajuste: Sirve para contrastar la hipótesis nula de que la distribución de una
variable se ajusta a una determinada distribución teórica de probabilidad. Pero a
diferencia de las primeras, que han sido diseñada más bien para evaluar el ajuste de
variables categóricas, la prueba de K-S para una muestra se adapta mejor a situaciones
en las que se interesa evaluar el ajuste de variables cuantitativas.
Para contrastar la hipótesis nula de bondad de ajuste, la prueba de K-S se basa en la
comparación de dos funciones de distribución (o funciones de probabilidad
acumuladas): una función de distribución empírica F(Xi) y una función de distribución
teorica F0(Xi)
Para obtener la función de distribución empírica F(Xi) se comienza ordenando los
valores de Xi de forma ascendente, es decir, desde el valor más pequeño X1 hasta el
más grande Xn
Tras esto, la función de distribución empírica para cada valor de Xi se obtiene de la
siguiente manera: F(Xi) = i/n (i se refiere al rango correspondiente a cada observación).
La forma de obtener la función de distribución teórica depende la distribución concreta
propuesta en la hipótesis. Si la distribución propuesta es, por ejemplo, la uniforme, la
función de distribución teórica para cada valor de Xi se obtiene así: F0(X1) = (Xi – X1) (Xn
– X1). Si la distribución teórica propuesta es, por ejemplo, la de Poisson, entonces la
función de disribución teórica se obtiene así:

Una vez obtenidas las distribuciones empírica y teórica, el estadístico de K-S se calcula
a partir de la diferencia D más grande existente entre F(Xi) y F0(Xi)

Este estadístico Z se distribuye según el modelo de probabilidad normal N(0,1). El SPSS


utiliza el método de Smirnov (1948) para obtener las probabilidades concretas asociadas
a los valores del estadístico Z. Este método difiere del estándar (basado en las
probabilidades de la curva normal estandarizada), pero es equivalente
La lista de variables de datos ofrece un listado de todas las variables con formato
numérico. Para contrastar la hipótesis de bondad de ajuste referida a una variable.
Distribución de contraste. Las opciones de este apartado permiten elegir la distribución
teórica a la cual se desea ajustar la distribución empírica de la variable seleccionada:
Normal, Uniforme, Poisson y Exponencial (Puede seleccionarse más de una). Los
parámetros de las diferentes distribuciones se estiman a partir de los datos. No es
posible obtener el ajuste a una distribución normal si la varianza de la variable vale

cero. Ni a una distribución de Poisson si la media de la variable vale cero o los valores
no son, todos ellos, enteros negativos.
El procedimiento Prueba de Kolmogorov-Smirnov para una muestra compara la función
de distribución acumulada observada de una variable con una distribución teórica
determinada, que puede ser la normal, la uniforme, la de Poisson o la exponencial.
La Z de Kolmogorov-Smirnov se calcula a partir de la diferencia mayor (en valor
absoluto) entre las funciones de distribución acumuladas teórica y observada. Esta
prueba de bondad de ajuste contrasta si las observaciones podrían razonablemente
proceder de la distribución especificada.

Ejemplo. Muchas pruebas paramétricas requieren que las variables se distribuyan de


forma normal. La prueba de Kolmogorov-Smirnov para una muestra se puede utilizar
para comprobar que una variable (por ejemplo ingresos) se distribuye normalmente.

Estadísticos. Media, desviación estándar, mínimo, máximo, número de casos no


perdidos y cuartiles.

Prueba de Kolmogorov-Smirnov para una muestra: Consideraciones sobre los datos

Datos. Utilice variables cuantitativas (a nivel de medición de razón o de intervalo).

Supuestos. La prueba de Kolmogorov-Smirnov asume que los parámetros de la


distribución de prueba se han especificado previamente. Este procedimiento estima los
parámetros a partir de la muestra. La media y la desviación estándar de la muestra son
los parámetros de una distribución normal, los valores mínimo y máximo de la muestra
definen el rango de la distribución uniforme, la media muestral es el parámetro de la
distribución de Poisson y la media muestral es el parámetro de la distribución
exponencial. La capacidad de la prueba para detectar desviaciones a partir de la
distribución hipotetizada puede disminuir gravemente. Para contrastarla con una
distribución normal con parámetros estimados, considere la posibilidad de utilizar la
prueba de K-S Lillliefors (disponible en el procedimiento Explorar).

El contraste de Kolmogorov-Smirnov sigue una idea similar al de Chi-Cuadrado, pero en


vez de comparar las probabilidades de diversos sucesos, compara los valores de las
funciones de distribución, tanto en la muestra, como la que teóricamente se derivaría de
la población que se ha explicitado en la hipótesis nula. El estadístico de Kolmogorov-
Smirnov consiste en la máxima distancia observada entre ambas funciones de
distribución: donde Fn(x) denota la función de distribución muestral, y hay que comparar
su valor con unas tablas específicas de este estadístico, pues no sigue ninguna
distribución conocida. Para tamaños muestrales, n, superiores a 100, el valor crítico
puede obtenerse mediante: raíz cuadrada de [-ln ("/ 2)/ 2n] siendo 1-α el nivel de
confianza. Lógicamente, se rechaza la hipótesis nula si el estadístico toma un valor
superior al de las tablas. Bajo H0, la muestra fue extraída de la población considerada
en dicha hipótesis nula, por lo que las funciones de distribución muestral y teórica serían
tan similares que, incluso tomando su máxima distancia, ésta sería suficientemente
reducida. Cuando el valor numérico del estadístico excede del valor crítico de las tablas,
se considera que no es suficientemente reducido, constituyendo evidencia en el sentido
de que las funciones de distribución difieren una de otra y, por ello, la hipótesis nula
debe rechazarse. La distribución del estadístico de Kolmogorov-Smirnov es
independiente del tipo de distribución de la que fue extraída la muestra, lo cual es
interesante, pues nos permite utilizar una única tabla de valores críticos para este
estadístico; de lo contrario, deberíamos tener una tabla para cada tipo de distribución
de probabilidad F incluida en H0. Este contraste puede utilizarse asimismo con
distribuciones de tipo discreto, pero entonces sólo podemos decir que α es el máximo
nivel de significación del contraste que hayamos diseñado. Para aplicar el contraste con
distribuciones continuas es preciso agrupar sus valores en clases o intervalos, con lo
que se pierde cierta información. Al utilizar únicamente la información muestral
incorporada en la máxima distancia entre las funciones de distribución, este estadístico
ignora mucha información muestral, a diferencia del contraste basado en el estadístico
χ2 de Pearson. El estadístico de Kolmogorov-Smirnov puede utilizarse para construir
bandas de confianza para una distribución teórica desconocida F(x), a partir de una
distribución empírica. Para ello, fijado un valor de α, tomamos de la tabla el valor crítico
Dn correspondiente a α y n, el tamaño muestral del que se dispone. El extremo superior
Fs(x) de la banda para F(x) se construye sumando Dn a la función de distribución
empírica, hasta que se alcanza el nivel 1, 6 X ' ' n i'1 Xi permaneciendo entonces en
éste. El nivel inferior Fi (x) es igual a cero hasta que la distribución empírica llega a ser
igual o mayor a Dn. A partir de entonces, Fi (x) = F(x) - Dn.

 Prueba para dos muestras independientes

Este procedimiento contiene varias pruebas no paramétricas, todas ellas diseñadas


para analizar datos provenientes de diseños con una variable independiente categórica
(con dos niveles que definen dos grupos o muestras) y una variable dependiente
cuantitativa al menos ordinal (en la cual interesa comparar los dos grupos o muestras).

Prueba de Kolmogorov-Smirnov para dos muestras

La prueba Z de Kolmogorov-Smirnov y la prueba de rachas de Wald-Wolfowitz son


pruebas más generales que detectan las diferencias entre las posiciones y las formas
de las distribuciones. La prueba de Kolmogorov-Smirnov se basa en la diferencia
máxima absoluta entre las funciones de distribución acumulada observadas para ambas
muestras.

Cuando esta diferencia es significativamente grande, se consideran diferentes las dos


distribuciones. La prueba de rachas de Wald-Wolfowitz combina y ordena las
observaciones de ambos grupos. Si las dos muestras proceden de una misma
población, los dos grupos deben dispersarse aleatoriamente en la ordenación de los
rangos.

Esta prueba sirve para contrastar la hipótesis de que dos muestras proceden de la
misma población. Para ello, compara las funciones de distribución (funciones de
probabilidad acumuladas) de ambas muestras: F1(Xi) y F2(Xi). A diferencia de lo que
ocurre con la prueba de U de Mann-Whitney, que permite comparar dos promedios
poblaciones, la prueba de Kolmogorov-Smirnov es sensible a cualquier tipo de diferencia
entre las dos distribuciones (tendencia central, simetría, variabilidad, etc.)
Para obtener las funciones de distribución de las dos muestras se comienza asignando
rangos a los valores de Xi . Esta asignación de rangos se realiza de forma separada
para cada muestra y los empates se resuelven asignando el rango promedio a las
puntuaciones empatadas.
Tras asignar rangos a los valores de ambas muestras, la función de distribución empírica
para cada valor de Xi, se obtiene, en cada muestra, de la siguiente manera: Fj(Xn) = i/n
(donde i se refiere al rango correspondiente a cada observación). A continuación se
obtienen las diferencias DI = F1(Xi) - F2(Xi), donde F1(Xi) se refiere a la función de
distribución de la muestra de mayor tamaño. Una vez obtenidas las diferencias Di, la
hipótesis de las dos muestras proceden de la misma población se pone a prueba
utilizando una tipificación de la diferencia más grande en valor absoluto (Smirnov, 1939,
1948):

Este estadístico Z se distribuye según el modelo de probabilidad normal N(0,1). El SPSS


utiliza el método de Smirnov (1948) para obtener las probabilidades concretas asociadas
a los valores del estadístico Z. Este método difiere del estándar (basado en las
probabilidades de la curva normal estandarizada), pero es equivalente. Si la probabilidad
de obtener una diferencia tan grande como la observada es muy pequeña
(generalmente, menos que 0,05), podremos rechazar la hipótesis de que ambas
muestras proceden de la misma población.
Este contraste puede utilizarse para la hipótesis nula de que las distribuciones continuas
de las que han sido extraídas dos muestras aleatorias simples de tamaños n1 y n2, son
iguales. Para llevarlo a cabo se divide el espacio muestral en k intervalos (o sucesos)
disjuntos, se calculan ambas funciones de distribución empíricas, Fn1(x) y Fn2 (x) , y se
toma el estadístico:

Si las dos muestras proceden de la misma población, sus funciones de distribución


empíricas no pueden ser muy distintas, por lo que el contraste es siempre de una cola,
y se rechaza la hipótesis nula de igual distribución si el estadístico toma un valor
suficientemente grande. Para ello, se utilizan las tablas de este
estadístico, para encontrar el umbral λ tal que:
Dicho valor crítico puede aproximarse, cuando ambas muestras son grandes por:
siendo k = 1,22; 1,36; 1,63 a niveles de confianza del 90%, 95% y 99%, para el
contraste de dos colas, y de k = 1,07; 1,22 y 1,52 para contrastes de una sola cola. El
contraste de Kolmogorov-Smirnov tiene más potencia para el caso en que las
distribuciones tienen diferentes medianas que para el caso en que, teniendo la misma
posición central, difieren en su dispersión.
CONCLUSIONES
Anexos
BIBLIOGRAFIA
 https://carlosmarquez.files.wordpress.com/2012/02/prueba-de-bondad-de-
ajuste.pdf
 https://www.uv.es/webgid/Inferencial/22_kolmogorov.html
 https://es.wikipedia.org/wiki/Prueba_de_Kolmog%C3%B3rov-Smirnov
 https://www2.ulpgc.es/hege/almacen/download/5/5015/Complemento_3_Pr
ueba_de_Bondad_de_Ajuste_de_Kolmogorov_Smirnov.pdf
 Estadística Aplicada a los negocios y la economía. Lind, Marchal y Wathen.
Editorial: Mc Graw Hil. Edición: 15 edición. Páginas: 698-702.
 https://slideplayer.es/slide/1698415/#
 https://www.slideshare.net/EdithRosmeryAnccoChi/prueba-de-kruskal-wallis
 https://previa.uclm.es/profesorado/mdsalvador/58109/teoria/anova_un_fact
or-lectura.pdf
 https://es.slideshare.net/byrong/prueba-kruskall-wallis
 http://halweb.uc3m.es/esp/Personal/personas/jmmarin/esp/GuiaSPSS/19npa
ram.pdf

 https://www.actaodontologica.com/ediciones/2016/1/art-6/
 https://bookdown.org/cjrinconr/no_parametrica/no_parametrica.html#1_intr
oducci%C3%B3n

 http://www.medigraphic.com/pdfs/pediat/sp-2003/sp032i.pdf
 https://www.uoc.edu/in3/emath/docs/Chi_cuadrado.pdf
 https://www.upg.mx/wp-content/uploads/2015/10/LIBRO-13-Estadistica-
para-administracion-y-economia.pdf
 http://materias.unq.edu.ar/pye/Trabajos%20Pr%C3%A1cticos/Tablas%20de%
20Estadistica.pdf
 https://www.uco.es/servicios/informatica/windows/filemgr/download/ecolog
/Metodos%20analisis%20datos.pdf

S-ar putea să vă placă și