Sunteți pe pagina 1din 8

Captulo 14 Estadstica no paramtrica

498

INTRODUCCIN
El trmino estadstica no paramtrica se refiere a un conjunto de mtodos inferenciales vlidos para
formas muy diversas de distribucin de la poblacin. La aplicacin de estos mtodos no requiere modelo
de poblacin, en el sentido de un parmetro especfico relacionado con la forma de la curva que repre-
senta a la poblacin en estudio, como s es necesario, por ejemplo, en el caso de la distribucin normal.
En el contraste de hiptesis, las pruebas estadsticas no paramtricas emplean usualmente algunos datos
ms simples de la muestra, como los signos de las mediciones, las relaciones de orden o las categoras
de las frecuencias. Estos rasgos generales no requieren escalas numricas de medicin. Por otra parte,
es ms importante indicar que a estos mtodos no les afecta el alargamiento o estrechamiento de la escala.
Una aclaracin final indispensable es que los trminos distribucin libre y estadstica no paramtrica
no son sinnimos, aunque en este texto se usarn indistintamente.
A estos procedimientos se les llama de distribucin libre, por no considerar la forma como se dis-
tribuye la poblacin. Tienen ventajas sobre las pruebas paramtricas, algunas de ellas son: i) implican
menos requisitos de uso, ii) son ms sencillas de entender y aplicar, y iii) los procedimientos de clculo
resultan menos laboriosos. Por otra parte, los mtodos no paramtricos tienen ciertas desventajas: i) se
pierde informacin, ii) la potencia es menor que la de las pruebas paramtricas y iii) tienden a ser con-
servadoras, es decir, se orientan hacia la aceptacin de la hiptesis nula con ms frecuencia de lo que
deberan.
En estas circunstancias, las pruebas estadsticas paramtricas son preferibles a las no paramtricas,
pero si la poblacin no est normalmente distribuida o las varianzas poblacionales no son homogneas
o iguales, entonces puede utilizarse una prueba de distribucin no paramtrica como un buen sustituto de
su anloga paramtrica, sobre todo cuando la muestra en estudio es pequea.
Se discutirn mtodos que nicamente requieren mediciones nominales, comparando distribuciones
enteras. Tambin se considerarn las tcnicas que requieren datos ordinales. Cuando los datos son
categricos o continuos se har un anlisis estadstico, utilizando el modelo de la
2
( ji-cuadrada), que
si bien algunos autores la consideran no paramtrica, se ha credo oportuno que forme parte de este cap-
tulo en sus aplicaciones ms relevantes, como:
a) Independencia.
b) Homogeneidad o proporcin.
c) Mediana.
Para la prueba de bondad de ajuste se emplearn dos tcnicas:
i) La
2
( ji-cuadrada); y
ii) La Kolmogorov-Smirnov.
PRUEBAS DE BONDAD DE AJUSTE
En esta seccin se considerarn dos tipos de bondad de ajuste. El primer tipo se aplica cuando la hipte-
sis nula concierne a una distribucin discreta; el segundo se aplica si la hiptesis nula es bsicamente
una distribucin continua. Los modelos que se describirn son:
1.
2
( ji-cuadrada). Este modelo es clsico y se emplea cuando la H
0
concierne a una distribucin discreta.
2. K-S (Kolnogorov-Smirnov) para una muestra, cuando la hiptesis nula concierne una distribucin
continua.
Parte 5 Asociacin
499

Estas pruebas son de importancia vital, ya que para una aplicacin adecuada de los modelos estads-
ticos es necesario obtener informacin acerca de la forma de la distribucin poblacional de donde se
extrae la muestra. Esta forma puede ser el tema de investigacin, ya que las variables aleatorias que repre-
sentan constructos tales como ansiedad, inteligencia, estrs, por mencionar algunos, pueden distribuirse
en forma normal, binomial, Poisson, etc. y aplicar la prueba estadstica adecuada t de Student, ANOVA,
Kruskal-Wallis, entre otras. Dicho de manera distinta, utilizar modelos paramtricos o no paramtricos
adecuadamente.
Para el anlisis de varianza se utilizarn dos modelos:
a) La prueba de Kruskal-Wallis, para muestras independientes.
b) La prueba de Friedman para disear bloques, o tambien, para una sola muestra medida ms de dos
ocasiones.
Por ltimo se encuentran los coeficientes de asociacin, tambin llamados de correlacin:
s
, , c,
bp
.
Ji-cuadrada (
2
)
Este modelo, obtenido por K. Pearson en 1900, mide la discrepancia entre la frecuencia observada y la
esperada tericamente, con base en una distribucin hipottica.
La prueba de bondad de ajuste ayuda a decidir si los resultados de un experimento coinciden con los
esperados de acuerdo con alguna ley, modelo o teora cientfica.
Esto se lleva a cabo de la siguiente manera:
1. Se obtienen las frecuencias observadas y se ubican en un cuadro de contingencia (tambin llamada
tabla de doble entrada o diagrama de Carroll) (vase captulo 3).
2. Se construye un cuadro de frecuencias esperadas que concuerden con la distribucin terica o el
modelo cientfico.
3. Segn el nmero de variables de criterio que se consideren, ser el cuadro de contingencia (l c) o
(r l); la prueba de bondad de ajuste se emplear para una muestra y una o ms variables de criterio.
Existe una familia de curvas
2
, derivadas de una variable normalmente distribuida, cuya forma
depende del tamao de la muestra. Para muestras pequeas (que tienen pocos grados de libertad), esta
distribucin se halla fuertemente sesgada en direccin positiva (todos sus valores son positivos y varan
de cero a infinito). Cuando la muestra es grande (n - ), la
2
se aproxima a la distribucin normal
(vase el captulo 7).
El modelo que se utilizar en esta seccin es el siguiente:
donde:
fo = frecuencia observada
fe = frecuencia esperada

2
2
=
~
( )
_
fo fe
fe
Captulo 14 Estadstica no paramtrica
500

Para cada clase o categora se obtiene el cuadrado de la diferencia entre la frecuencia observada y la
esperada, resultado que se divide por la misma frecuencia esperada de dicha categora. La suma total
de cada categora proporciona el valor de

2
.
A continuacin se enumeran los requisitos de uso de la prueba de

2
para bondad de ajuste.
1. Se requiere un mnimo de 50 observaciones (mediciones) para que la distribucin

2
sea una aproxi-
macin razonable de la distribucin muestral esperada.
2. La frecuencia esperada para cada categora debe ser por lo menos de 5; a fin de cumplir este requi-
sito, se pueden combinar las categoras.
3. En el caso de la bondad de ajuste para la distribucin normal, deben conocerse
X
y o
X
o sus esti-
madas x y s, a fin de poder calcular las frecuencias esperadas.
Procedimiento
Paso 1. Identifique la variable de inters.
Paso 2. Establezca las hiptesis estadsticas.
H
0
: las observaciones muestrales han sido extradas de una distribucin con ciertas
propiedades tericas, independencia y forma de la distibucin poblacional,
o bien
H
0
: el modelo que genera fe es vlido.
H
1
: no es vlida.
Paso 3. Proponga el valor de o.
Paso 4. Determine el modelo estadstico que se utilizar. En este caso

2
2
=
~
( )
_
fo fe
fe

2
(o, gl )
Paso 5. Obtenga mediante la tabla de

2
(ji-cuadrada) del apndice el valor crtico de

2
(o, gl)
y ubique la regin de rechazo en una grfica.
o = Regin de rechazo de H
0
Parte 5 Asociacin
501

Paso 6. Especifique la regla de decisin (RD) para rechazar H
0
.
Si , entonces H
0
se rechaza.
Paso 7. Calcule

2
, por medio de , habiendo calculado previamente fe,
donde
n = tamao de la muestra
p = probabilidad de ocurrencia en cada categora
Paso 8. Obtenga las conclusiones considerando el rechazo de H
0
o de H
1
(la distribucin
muestral se ajusta a la especificacin de la distribucin o no se ajusta a ella).
Una variable de criterio. Cuando las categoras de la distribucin de frecuencias se basan en una
sola variable, constituyen un anlisis de frecuencias de una variable de criterio, no obstante que
existan varios resultados: lanzar una moneda (cara, cruz), tirar un dado (1, 2, 3, 4, 5 o 6).
Ejemplo 1
Si se lanza una moneda al aire, nicamente caer cara o cruz; pero si se lanzan 1000 monedas,
la nica variable a tomar en cuenta es la cara de la moneda que aparecer, pero se contarn
cuntas caras y cruces caern.
Despus de determinar el muestreo, las 1000 monedas se lanzan al aire y se registra la fre-
cuencia de caras y cruces en un cuadro de frecuencias observadas. A continuacin, se cons-
truye el cuadro de frecuencias esperadas, previstas por los resultados ms simples de probabi-
lidad elemental. Para una muestra de 1000 monedas, la hiptesis nula (H
0
) implica que deben
obtenerse 500 caras y 500 cruces. En este caso, la prueba de ji-cuadrada ayudar a decidir si
la discrepancia entre los resultados observados y los esperados corresponde simplemente a la
fluctuacin del muestreo o indica el sesgo de la poblacin.

2
2
=
~
( )
_
fo fe
fe

o c gl
2 2
~
( ) ,
Frecuencias observadas
Cara Cruz Total
530 470 1 000
(a) (b)
Frecuencias esperadas
Cara Cruz Total
500 500 1 000
(a) (b)
470
500
530
500
1000
o sea:
Captulo 14 Estadstica no paramtrica
502

Paso 1. Como la variable de criterio es la posicin de la cara de la moneda al caer, entonces
se establecen las hiptesis nula y alternativa de la siguiente manera:
H
0
: cara y cruz ocurren con igual frecuencia.
H
1
: cara y cruz no ocurren con igual frecuencia.
Paso 2. Como gl = 1 y o = 0.01 = 1%, entonces:

2
crtica =

2
(1, 0.01) = 6.64
fo
2
fe
2
fo
n
fe
n
fo
1
fe
1
. . .
donde fo
i
es la frecuencia observada i, i = 1, 2, ..., n
y fe
i
es la frecuencia esperada i, i = 1, 2, ..., n
Paso 3. Se define la poblacin de estudio como: todos los lanzamientos de las monedas de
cierto valor y con caractersticas determinadas.
Paso 4. La muestra n son 1000 monedas seleccionadas al azar de la poblacin anterior, o el
lanzamiento 1000 veces de una moneda.
Paso 5. El modelo estadstico por aplicar es:
Paso 6. Al sustituir los datos concentrados en los cuadros anteriores y efectuar las opera-
ciones, resulta:
Paso 7. Regla de decisin (RD):
si H
0
se rechaza. Como 3.60 < 6.64, entonces no se rechaza H
0
.
Paso 8.
Conclusin
Los resultados no son significativos. En este estudio de las monedas no se encontr indicacin alguna de
sesgo, debido a que no se predice respuesta (salida) especfica alguna; por ejemplo, las caras ocurrirn
con mayor frecuencia. Por ello, el nivel de significancia se establece relativamente bajo (0.01) por dos
razones: i) el tamao de la muestra es grande y se minimiza (error tipo II) y ii) el error ms grave sera
decidir que las monedas tienen un sesgo, cuando en realidad no es as.

o
2 2
2


~
, gl
. =
2
3 60
c
.

2
2 2
530 500
500
470 500
500
3 60 =
~ ( )
+
~ ( )
= .

2
2
=
~
( )
_
fo fe
fe
Parte 5 Asociacin
503

La regla de decisin (RD) establece que H
0
se rechazar si la ji-cuadrada (
2
)
calculada es mayor que el valor crtico de 6.64 (los procedimientos para determinar
los valores crticos se estudiarn despus).
Pudo cometerse un error del tipo II; sin embargo, el inters en un posible sesgo
de las monedas disminuye en gran escala, si no es que desaparece por completo.
Dos variables de criterio.

En algunos problemas de bondad de ajuste se


obtienen medidas de dos o ms variables categricas. Las frecuencias esperadas en
cada combinacin de categoras se generan a partir de algunas distribuciones teri-
cas; para evitar confusiones en este tipo de estudios, es recomendable colocar los
datos en una tabla de contingencia de doble entrada.
donde fo
ij
es la frecuencia observada ij, i = 1, 2, ..., n y j = 1, 2, ..., n
y fe
ij
es la frecuencia esperada i = 1, 2, ..., m,
j = 1, 2, ..., n
Ejemplo 2
Aplicacin de una prueba de bondad de ajuste para una sola muestra y dos variables de criterio.
Un genetista efecta la cruza de una muestra de chcharos con la siguientes variables de crite-
rio: color (verde o amarillo) y textura (liso o rugoso). Existen cuatro combinaciones posibles
como resultados de las cruzas: amarillo-liso (AL), amarillo-rugoso (AR), verde-liso (VL) y
verde-rugoso (VR); de acuerdo con las leyes de Mendel, la combinacin AL deber ocurrir
nueve veces ms frecuentemente que la VR, mientras que las mezclas AR y VL ocurrirn tres
veces con mayor frecuencia que la VR. Esta distribucin terica se utiliza para construir una
tabla de frecuencias esperadas de (2 2).
Debido a que en dicho ejemplo la muestra consta de 960 elementos (chcharos), el inves-
tigador podr esperar que las combinaciones posibles ocurrirn aproximadamente con las
siguientes frecuencias esperadas (E):
VR = 60
VL = 180
AR = 180
AL = 540
fo
12
fe
12
fo
1n
fe
2n
fo
11
fe
11
fo
22
fe
22
fo
2n
fe
2n
fo
21
fe
21
fo
m
2
fe
m
2
fo
mn
fe
mn
fo
m
1
fe
m
1
. . .
. . .
. . .
. . .
. . .
. . .
.

.

.
.

.

.
.

.

.

Una s puede ser controlada, por ejemplo, tratamientos en un experimento.


Captulo 14 Estadstica no paramtrica
504

Las frecuencias observadas (O) son las siguientes:
VR = 50
VL = 200
AR = 160
AL = 550
Por tanto, las frecuencias observadas y esperadas se ubicarn en las tablas de contingencia.
Los grados de libertad para estas tablas de contingencia son:
gl = k ~ l = 4 ~ 1 = 3
gl = 3
aplicando el modelo se tiene
Tambin puede utilizarse la frmula siguiente:

2
2
2
2 2 2
50
60
200
180
160
180
550
540
960 = ~ =
( )
+
( )
+
( )
+
( )
~
_
fo
fe
n

2
2
= ~
_
fo
fe
n

c
2
6 30 = . = + + + =
100
60
400
180
400
180
100
540
6 30 . ;

2
2 2 2 2
50 60
60
200 180
180
160 180
180
550 540
540
=
~ ( )
+
~ ( )
+
~ ( )
+
~ ( )

2
2
=
~
( )
_
fo fe
fe
O E
50 60 1.66
200 180 2.22
160 180 2.22
550 540 0.185
6.29
( ) O E
E
~
2
Parte 5 Asociacin
505

Suponga que el genetista decide tomar un nivel de confianza de 5%, o sea, o = 0.05, y el
valor crtico de

2
, determinado en la tabla de

2
, es de 7.81. En ese caso, la hiptesis nula
de la distribucin observada, es igual que la distribucin esperada por la ley de Mendel, no
se rechazara, ya que la

2
= 6.30 no es mayor que el valor crtico de 7.81. En las pruebas de
bondad de ajuste, la fe (frecuencia esperada) ya est definida por el investigador, o las condi-
ciones de estudio.
Ejemplo 3
Se realiza una investigacin con el fin de producir un nuevo tipo de insulina, la hormona uti-
lizada para controlar enfermos de diabetes mellitus. Los siguientes criterios de inclusin se
consideran en la muestra de estudio:
n = 400 pacientes del mismo sexo.
Mismo grado de evolucin de la enfermedad.
Dieta controlada.
Supervisin mdica.
En este experimento se medir la respuesta de los pacientes a la insulina convencional, as
como el porcentaje de ellos en cada una de las siguientes categoras estandarizadas:
Categora 1. Decremento intenso en la glucosa.
Categora 2. Decremento moderado en la glucosa.
Categora 3. Decremento ligero en la glucosa.
Categora 4. Decremento nulo o ligero incremento en la glucosa.
Con base en un estudio de nivel nacional, se determin que los porcentajes por categora
son, respectivamente: 50%, 25%, 15% y 10%. Por otra parte, los resultados de las pruebas
clnicas con el nuevo tipo de insulina aplicadas en 400 pacientes son: 240, 120, 30 y 10.
Paso 1. La variable de inters es la respuesta a cada categora.
Paso 2. H
0
: P
1
= 50%, P
2
= 25%, P
3
= 15%, P
4
= 10%.
H
1
: al menos una probabilidad de una categora es diferente del valor esperado.
Paso 3. o = 0.05
Paso 4.

2
2
=
~
( )
_
fo fe
fe

2
6 30 = .
2
41 667 222 22 142 22 560 185 960 6 30 = + + + ~ = . . . . . ;

S-ar putea să vă placă și