Sunteți pe pagina 1din 52

UNIDAD 2

PRUEBA DE LA BONDAD DEL AJUSTE Y ANLISIS DE VARIANZA


2.1 ANALISIS Ji-CUADRADA
2.1.1 PRUEBA DE INDEPENDENCIA
Cuando cada individuo de la poblacin a estudio se puede clasificar segn dos
criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la
representacin de las frecuencias observadas en forma de una matriz a x b recibe
el nombre de Tabla de contingencia.
Siendo nij el nmero de individuos que presentan simultneamente la i-sima
modalidad del carcter A y la j-sima del B.
La hiptesis nula a contrastar admite que ambos caracteres, A y B, se presentan
de forma independiente en los individuos de la poblacin de la cual se extrae la
muestra; siendo la alternativa la dependencia estocstica entre ambos caracteres.
La realizacin de esta prueba requiere el clculo del estadstico
son las frecuencias absolutas marginales y el tamao muestral total.
El estadstico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El
contraste se realiza con un nivel de significacin del 5%.
Ejemplo e Apli!"!i#$
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se
seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes
resultados:
Sin depresin Con depresin
Deportista 38 9 47
No deportista 31 22 53
69 31 100
L = (38 32,43)
2
/32,43 + (31 36,57)
2
/36,57 + (9 14,57)
2
/14,57 + (22
16,43)
2
/16,43 = 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de
Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que
permite rechazar la hiptesis de independencia de caracteres con un nivel de
significacin del 5%, admitiendo por tanto que la prctica deportiva disminuye el
riesgo de depresin.
%&&p'(())).mo$o*+",i"-.!om(&+"."jo-1/(p+0e."-e-i$epe$e$!i"(p+0e."-
e-i$epe$e$!i".-%&ml1PRINDEPEND
2.1.2 TABLA DE CONTIN3ENCIAS
Las tablas de contingencia estn compuestas por filas (horizontales) y columnas
(verticales)que delimitan celdas donde se vuelcan la frecuencia de cada categora
analizada. En el ejemplo siguiente, efectuado con el programa SPSS 7.5, se
observa la tabla de contingencia de dos variables en una poblacin de pacientes
crticos hipotticos: la evolucin (SV/NS) y la presencia o ausencia de coma al
ingreso. Las celdas delimitadas por estas dos variables comprenden cuatro tipos:
Frecuencia de pacientes sin coma sobrevivientes
Frecuencia de pacientes sin coma no sobrevivientes
Frecuencia de pacientes con coma sobrevivientes
Frecuencia de pacientes con coma No Sobrevivientes
La pregunta es es el coma al ingreso un factor de riesgo para la mortalidad?
Para contestarnos esa pregunta debemos apelar al uso de la prueba de Chi
Cuadrado de ndependencia. Esta prueba contrasta la hiptesis: las categoras
de las dos variables son independientes entre s o no?. El anlisis del chi
cuadrado arroja un valor de p determinado, que si es inferior a 0.05, indica que
existe una relacin entre las categoras estudiadas, o sea que las variables no son
independientes entre s.
En general la prueba de chi cuadrado presenta ciertos puntos a tener en cuenta:
Si el N casos es pequeo, se utiliza la prueba exacta de Fisher para
obtener el valor de chi cuadrado (X2).
Si el N 40 casos se puede utilizar la correccin de continuidad de Yates
para obtener el X2.
Para hallar correctamente el valor de X2, la tabla de 2x2 debe estar
integrada por valores de una muestra aleatoria, con distribucin multinomial
y los valores esperados no deben ser < 5.
Los mtodos estadsticos ms usados para hallar el valor del X2 son el
mtodo de Pearson y el de razn de verosimilitud, funcionan muy bien para
muestras grandes.
Segn el anlisis el valor del estadstico chi cuadrado es de 133, 353
correspondiendo a un valor de p = 0.000 (segn el test de Fisher), es decir una p 4
5.551, sumamente significativa, lo cual indica que existe una relacin entre coma
al ingreso y sobrevida en pacientes crticos. El valor de gl representa los grados de
libertad de la muestra estudiada.
Para determinar si la presencia de coma al ingreso empeora la sobrevida o no,
debemos determinar el Riesgo Relativo del cruce de las dos variables. El valor
sera 3,604, por lo cual la presencia de coma al ingreso determina un mayor riesgo
de mortalidad.
%&&p'(())).me"l.o+*."+(-&"%elp(S&55511.%&m
UNIDAD 2
ANLISIS DE RE3RESI6N7 CORRELACION LINEAL SI8PLE Y 89LTIPLE
2.1 ESTI8ACION 8EDIANTE LA LINEA DE RE3RESI6N
2.1.1 DIA3RA8A DE DISPERSI6N
Supongamos una muestra de tamao n sobre una poblacin multivariante de
dimensin , cuyos datos se disponen en una matriz de n filas y m columnas
de la forma
.
Entendemos por poblacin multivariante de dimensin m aquella en la que a cada
individuo muestral se le observan exactamente m caractersticas o variables.
Podemos estar interesados en cada una de las m variables de forma
independiente, en cuyo caso no necesitaremos el diagrama de dispersin. Pero lo
ms comn en este tipo de muestras es estudiar si unas variables se relacionan
con otras de algn modo, o si existe dependencia entre ellas.
En un diagrama de dispersin se escogen dos variables distintas entre las m
posibles, numeradas por a y b, tales que
,
y se representan en el plano cartesiano los pares
: :x1a7 x1b;7 :x2a7 x2b;7 ...7 :xna7 xnb;;,
es decir, se asocia a al eje horizontal o de abscisas y b al vertical o de ordenadas.
Si los puntos forman una nube ms o menos amorfa, podemos suponer que
ambas variables no se interrelacionan, o lo que es lo mismo, el conocimiento de
una no aporta informacin sobre la otra. Pero si ambas variables tienen un patrn
de comportamiento conjunto, esto se ver en el diagrama de dispersin. El
siguiente ejemplo pretende dar luz sobre lo recin comentado.
Caso
A continuacin se transcribe una muestra simulada de tamao 12 en la que a cada
individuo muestral se le midieron 2 variables.
Variable 1 Variable 2 Variable 3
102 32 5.0
220 75 5.8
300 115 5.3
210 81 5.8
180 60 5.8
260 83 5.2
117 40 5.4
200 49 5.9
143 60 5.6
97 39 5.2
261 99 5.4
220 60 5.5
En la fase exploratoria se quiere obtener una apreciacin sobre cmo se
relacionan estas tres variables entre s.
El diagrama de dispersin de las dos primeras variables sugiere una relacin lineal
y positiva entre ambas; ya que al aumentar una lo hace tambin la otra y de forma
proporcional. Haciendo a < 1 y b < 2, tomando la primera y la tercera, parece que
el comportamiento es del tipo cuadrtico; la tercera variable va aumentando
conforme lo hace la primera, pero luego disminuye mientras la otra sigue
aumentando. Finalmente, interprete el lector lo que ocurre cuando a < 2 y b < 2.
%&&p'(())).&ele,o$i!".$e&()e.2(.iom"&e-(e=plo+"(e=plo+">i-pe+2(e=plo+">i
-pe+2.%&m
2.1.2 8ETODO DE 8INI8OS CUADRADOS
Cuando se trata de aproximacin polinomial se establecen los mtodos de
interpolacin de Newton y La Grange. Para encontrar la ecuacin de la cuna que
contiene a todos y cada uno de los n puntos que definen a una fusin tabular
dada, como la que se presenta en la tabla siguiente y que se representa con todos
los puntos de la figura tambin siguiente. Esta ecuacin resulta ser algebraica de
grado (n-1). r ,.j-0.
Obsrvese que en la tabla aparecen n puntos y que en la figura curva continua
representa la aproximacin polinomial de estos; es decir, la representacin
geomtrica de los mtodos de
interpolacin. Ahora se trata de encontrar la ecuacin de una curva que, aunque
no pase por todos los puntos, tenga pocas variaciones (sea suave, como la curva
de los trazos de la figura anterior). y pase lo mas ceca posible de todos.
Generalmente" lo mas cerca posible se obtiene imponiendo el criterio de los
mnimos cuadrados. Antes de aplicar este criterio, debe de escogerse la forma de
curva ms suave que se va a ajustar al conjunto de puntos dados. La ecuacin de
esa curva puede obtenerse por conocimiento previo del problema, es decir, o la
interpretacin fsica del fenmeno, o en forma arbitraria observando que ecuacin
conocida describe aproximadamente a esta curva. En lo que sigue, la curva que
se va a ajustar, es la grfica de un polinomio de grado conocido m.
8ETODO DE LOS 8?NI8OS CUADRADOS
Dada la funcin tabular definida por la tabla anterior se trata de obtener los valores
de los coeficientes de la funcin:
Y=F(x)=ao+a1X+a2X2+a3X3+ amxn-1........(1)
Cuya grfica es una curva que se acerca a la mayora de los puntos (curva de
trazos de la figura anterior).
Se llama residuos a la diferencia de ordenadas de la curva para x=xi menos la del
punto xi, yi representado por Ri a este residuo, se tiene Ri=f(xi)-yi..t2),es decir:
Ri= a0+a1X+a2X2+a3X3+.....amxn-yi ........ (3) ,donde i=1 ,2,3,..n.
El mtodo de los mnimos cuadrados consiste en determinar los valores de los
parmetros a0,a1 ,a2,a3,.....am; de manera que haga mnima la suma de os
cuadrados de los residuos. Esta suma vale Re= ( o+Xj+Xi+Xi+... +mXi-Yi)...... (4)
Se tiene el mnimo de esta igualdad a cero sus primeras derivadas parciales con .
respecto a todo y cada uno de sus parmetros .Derivando con respecto a ai,
donde
j=0,1,2,3,...m; se obtiene :
Ri= (a0+a1X+ a2X2+a3X3+.....amxn-yi )2............ (4)
Ri = 2(a0+a1X+ a2X2+a3X3+.....amxn-yi ) Xi
igualando con cero esta derivada a:
a0+a1Xj+1+ a2Xj+2+a3Xj+3+.....amxyi+m ............ (5)
Finalmente, considerando j=0,1,.2,3,....,m; se obtiene el siguiente sistema de
ecuaciones normales.
na0+a1X+a2X2+a3X3+.....+amxm = y
a0x+a1X2+a2X3+a3X4+.....+amxm = xy
a0X2+a1X3+a2X4+a3X5+.....+amxm = x2y
a0X3+a1X4+a2X5+a3X6+.....+amxm = x3y
a0Xm+ a1Xm+1+a2Xm+2+ a3Xm+3 +...+amxm = xmy.......... (6)
en donde, por simplicidad se ha omitido los ndices de X y Y, y los limites de las
sumatorias , pero debe de entenderse que estas son sobre todo los valores de X y
Y dados la tabla inicial.
%&&p'((%&ml.+i$!o$el@"*o.!om("j0-&e-e-,0$!io$e->me&oo-e-mi$imo--
!0"+"o-.%&ml
2.1.2 INTERPRETACION DEL ERROR ESTANDAR DE LA ESTI8ACI6N
Si se utilizaron muestras, valoraron los autores el error muestral intrnseco, es
decir, calcularon los intervalos de confianza? nterprete los intervalos.
Si se utilizaron muestras, exponga brevemente cmo se seleccionaron. Cree que
se introdujo algn sesgo en el mtodo de muestreo?. Explique brevemente.
Si se utilizaron muestras, fue suficiente el tamao de las muestras o pudo
haberse introducido una gran variacin a causa de su pequeo tamao?
Haga un comentario sobre la amplitud del intervalo de confianza.
En este caso no se han utilizado muestras de la poblacin, sino a toda la
poblacin que se quera estudiar. En caso de que se hubieran usado, habra que
tener en cuenta el posible efecto aleatorio asociado a dicho proceso (error
muestral intrnseco). En caso de usar muestras no podemos hablar de tasa en
sentido estricto, sino de "estimacin muestral" de dicha tasa. Adems deberamos
acompaar dicha estimacin de su correspondiente "error estndar". Este error
estndar de la tasa de incidencia se calculara como cualquier error estndar de
una proporcin o porcentaje, mediante la frmula:
Error estndar = Raiz cuadrada [(Tasa)
2
/ n], donde Tasa, se refiere a la tasa
estimada y "n" es el nmero de casos. Si trabajamos con un ntervalo de
Confianza al 95% (C-95%), entonces habr que multiplicar por 1.96 el error
estndar, para obtener los lmites del mencionado C-95%, segn la frmula:
C-95% = Estimacin muestral de la Tasa de ncidencia (1.96 Error estndar).
Como ocurre con cualquier C-95%, cuanto ms estrecho sea mayor precisin
denota. Es decir, tenemos mayor seguridad de que el parmetro poblacional
estimado (en este caso la tasa de incidencia de cncer de pulmn en la
comunidad de Castilla-Len), no ser muy diferente del correspondiente estimador
muestral que hemos obtenido. Como sabemos que el nmero "0" no debe estar
contenido en el C, el error estndar debe ser inferior a la mitad del estimador
muestral correspondiente. De lo contrario, al multiplicarlo por 1.96 (o sea,
aproximadamente por 2), superar a la "Estimacin muestral de la Tasa de
incidencia" y en ese caso el C-95% incluira el nmero "0".
Respecto a la interpretacin de los C-95%, es la siguiente: Si hubiramos extrado
100 muestras de tamao "n" de la poblacin diana correspondiente, y calculado
sus C-95%, 95 de dichos C-95% contendran el verdadero parmetro
poblacional (en este caso la Tasa de incidencia de Cncer de pulmn) y slo 5 de
ellos no lo contendran. Por tanto tenemos un "nivel de confianza" del 95% de que
el C-95% de nuestra muestra sea uno de los 95, que s contienen al verdadero
parmetro poblacional.Si realizamos 100 estudios en una poblacin con similares
caractersticas y con el mismo tamao poblacional, en 95 estudios el estimador
estara comprendido entre los valores del C95% y en 5 estudios no.
De haber utilizado muestras, habra que haber usado algn procedimiento (por
ejemplo, muestreo aleatorio simple) que asegurara que las caractersticas de
nuestra muestra no difirieran de las de la poblacin a la que quiere representar (Es
decir, que nuestra muestra no estuviera sesgada).
Si se hubieran utilizado muestras, habra que haber tenido en cuenta el efecto del
tamao muestral (designado habitualmente como "n") sobre la amplitud del
ntervalo de Confianza (C), habitualmente al 95% (C-95%). Esto queda muy
patente examinando las siguientes frmulas:
C-95% = Estimacin muestral de la Tasa de ncidencia (1.96 Error estndar).
Para simplificar la expresin previa, designar la "Estimacin muestral de la Tasa
de ncidencia" como "Tasa", por lo que expresin anterior queda as:
C-95% = Tasa (1.96 Error estndar).
Veamos ahora la frmula del Error Estndar:
Error estndar = raiz cuadrada [(Tasa)
2
/ n], donde Tasa, se refiere a la tasa
estimada y "n" es el tamao muestral.
Sustituyendo el trmino "Error Estndar", por su valor correspondiente, la frmula
del C-95% quedara as:
C-95% = Tasa (1.96 x Raiz cuadrada [(Tasa)
2
/ n]).
En la expresin previa queda claro que conforme aumenta "n", disminuye el
segundo trmino de dicha expresin (o sea, disminuye 1.96 x raiz cuadrada
[(Tasa)
2
/ n]). Por tanto obtendremos un C-95% ms "estrecho" (ms preciso). Lo
contrario es igualmente cierto: Con bajos valores de "n", los C-95% son
excesivamente amplios (poco precisos), denotando un gran componente de
variabilidad achacable a error aleatorio, debido a un tamao muestral insuficiente.
%&&p'((-"mee$-.i".0$e.e-(T+"."jo-(SA-1B"(IAl,"jeme(p2-/.%&m
2.1./ ANALISIS DE CORRELACION
Otra forma de anlisis bivariado es la correlacin y regresin de variables
numricas y discretas. El concepto de correlacin y regresin se basa en el grado
de relacin que poseen dos variables numricas entre si.
El coeficiente de correlacin permite predecir si entre dos variables existe o no una
relacin o dependencia matemtica.
Supongamos que queremos estudiar la correlacin existente entre peso y altura
de un grupo de personas tomadas al azar. Sometemos los datos recogidos de
peso y altura al anlisis de correlacin y encontramos el coeficiente de correlacin
entre ambas, que se representa con la letra r. El r = 0.78. Esto significa que a
mayor altura correspondera mayor peso.
Los coeficientes de correlacin r siempre oscilan entre valores de 1 y 1. El valor
cero 0 significa que no existe correlacin entre ambas variables. Un valor positivo
indica que a incrementos en la variable A se producen incrementos proporcionales
en B y un valor negativo indica lo contrario.
Podemos graficar la correlacin entre las dos variables a travs de una grfica de
dos ejes (abscisas y ordenadas) cartesianos.
En el siguiente grfico observamos la correlacin entre potencia de motor de un
automvil y consumo en Litros por cada 100 Km. El r = 0.87 (correlacin positiva).
(SPSS). Evidentemente a mayor potencia se observa mayor consumo de
combustible. El valor de significacin para ese r es de una p < 0.01. Esto quiere
decir que la correlacin entre potencia y consumo no es aleatoria.
En el siguiente grfico encontramos la relacin existente entre peso del automvil
en kg. y aceleracin 0 a 100 Km. / hora en segundos. El r = - 0.56 con una p <
0.05. Esto significa que existe una correlacin negativa significativa, entre peso del
auto y respuesta de la aceleracin. Automviles ms pesados presentan una
respuesta ms tarda y viceversa. (SPSS)
Para interpretar el coeficiente de correlacin, Col&o$ a dado los siguientes
lineamientos generales:
Valor de r de 0 a 0.25 implica que no existe correlacin entre ambas
variables.
Valor de r de 0.25 a 0.50 implica una correlacin baja a moderada.
Valor de r de 0.50 a 0.75 implica correlacin moderada a buena.
Valor de r de 0.75 o mayor, implica una muy buena a excelente correlacin.
Estos rangos de valores se pueden extrapolar a correlaciones negativas
tambin.
Se debe tener cuidado al analizar la correlacin entre dos variables, de que ambas
varen juntas permanentemente. Esto parece redundante, pero es importante. Por
ejemplo, si correlacionamos edad y altura. La altura ir aumentando con la edad
hasta un determinado punto en donde ya no aumentar ms.
%&&p'(())).me"l.o+*."+(-&"%elp(S&5551B.%&m
2.1.C RE3RESION 89LTIPLE Y ANLISIS DE CORRELACION
L" +e*+e-i#$ mDl&iple es el mtodo de anlisis apropiado cuando el
problema del investigador incluye una nica variable mtrica dependiente
que se supone est relacionada con una o ms variables mtricas
independientes. El objetivo del anlisis de la regresin mltiple es predecir
los cambios en la variable dependiente en respuesta a cambios en varias
de las variables independientes. Este objetivo se consigue muy a menudo a
travs de la regla estadstica de los mnimos cuadrados.
La regresin mltiple es til siempre que el investigador est interesado en
predecir la cantidad o la magnitud de la variable dependiente. Por ejemplo,
se puede hacer la prediccin de los gastos mensuales de cenar fuera de
casa (variables dependientes) con informacin referente a la renta familiar,
su tamao y la edad del cabeza de familia (variables independientes). De la
misma forma. el investigador puede intentar predecir las ventas de una
compaa a partir de informacin sobre sus gastos en publicidad, el nmero
de vendedores y el nmero de tiendas que distribuyen sus productos.
La regresin multiple es quizs el mtodo estadstico empleado con mayor
frecuencia en las ciencias sociales. En este cuaderno se introducen los
supuestos y tcnicas bscias. El enfoque es aplicado con ejemplos
prcticos y presentaciones grficas. Se abordan tambin los ltimos
avances realizados en estadstica tales como la regresin logstica para
variables categricas y los modelos de riesgos proporcionales para datos
longitudinales. A lo largo de toda la exposicin se recalca la necesidad de
conjugar la teora, la imaginacin sociologgica y la metodologa para
superar los numerosos problemas que se presentan en toda investigacin
emprica en ciencias sociales.
%&&p'(())).p+ome&eoli.+o-.!om(li.+o-(A("$"li-i-e+e*+e-io$m0l&iple>ABCBCE1
E2."-p
%&&p'(())).@i+&0"l.0$"l.e0.!o(!0+-o-(-ee-(m"$iF"le-(B5155/G(o!->!0+-o(
8o0loH25E-&"i-&i!"(&ipo-m0l&i.%&m
2.1.A USO DE VARIABLES IICTICIAS
En un estudio de panel puede que se desee construir variables ficticias de uno o
ambos tipos descritos a continuacin: (a) variables ficticias como identificadores
de las unidades mustrales, y (b) variables ficticias como identificadores de los
periodos de tiempo. El primer mtodo puede utilizarse para permitir que el
intercepto de la regresin sea diferente en diferentes unidades, y el segundo para
permitir lo mismo en diferente periodos.
Hay dos opciones especiales para crear estas variables ficticias. Se encuentran
dentro del men "Datos, Aadir variables" en el GU, o en la instruccin genr en el
modo lote de instrucciones, o gretlcli.
1. "variables ficticias peridicas" (lote de instrucciones: genr dummy). Esta
instruccin normalmente se utiliza para crear variables ficticias peridicas
hasta la frecuencia de datos en los estudios de series temporales (por
ejemplo un conjunto de variables ficticias trimestrales para ser utilizado en
correccin estacional). No obstante, tambin funciona con datos de panel.
Ntese que la interpretacin de las variables ficticias creadas mediante esta
instruccin difiere dependiendo de si las filas de datos estn agrupadas por
unidad o por periodo. Si estn agrupadas segn unidades (frecuencia T) las
variables resultantes son variables ficticias peridicas y habr un nmero T
de ellas. Por ejemplo, dummy_2 tendr el valor 1 en cada fila de datos
correspondiente a una observacin del periodo 2, o 0 en caso contrario. Si
estn agrupadas segn periodos (frecuencia n) entonces se generaran n
variables ficticias unitarias: dummy_2 tendr el valor 1 en cada fila de datos
asociada con la unidad muestral 2, o 0 en caso contrario.
2. "Variables ficticias de panel" (en modo consola genr paneldum). Esta
instruccin crea todas las variables ficticias, de cada unidad y periodo, de
golpe. Se supone que por defecto, las filas de datos estn agrupadas por
unidades. Las variables ficticias de cada unidad se denominan du_1, du_2 y
as sucesivamente, mientras que las variables ficticias peridicas se llaman
dt_1, dt_2, etc. Es incorrecto utilizar la u (por unidad) y la t (por tiempo) en
estos nombres si las filas de datos estn agrupadas por periodos: su
utilizacin correcta en este contexto se hace mediante genr paneldum -o
(slo en modo lote de instrucciones).
Si el conjunto de datos de panel contiene el ao YEAR como una de las variables,
es posible crear un periodo ficticio para de escoger algn ao en particular como
en este ejemplo genr dum = (YEAR=1960). Tambin es posible crear variables
ficticias peridicas utilizando el operador de mdulo, %. Por ejemplo, para crear
una variable ficticia con valor 1 para la primera observacin y cada treinta
observaciones y 0 en lo dems casos, se puede hacer lo siguiente
genr index
genr dum = ((index-1)%30) = 0

%&&p'(()))..l.e%0.e-(Je&pi%ei(m"$0"l-%&ml(=AE5.%&ml
2.1.G RESIDUALES Y 3RAIICAS RESIDUALES
Para un valor X dado de la variable independiente. al valor y frecuentemente se le
denomina el valor ajustado de la variable dependiente. A la diferencia entre el
valor observado y y el valor ajustado y se le denomina residual para esa
observacin, y se le denota mediante e:
e = Y- y
%&&p'((%&ml.+i$!o$el@"*o.!om(e-&"i-&i!"-e-!+ip&i@">1.%&ml
2.2.15 INTERPRETACION DEL INTERVALO DE CONIIANZA
Vamos a ilustrar el procedimiento de obtencin de un intervalo de confianza,
considerando una poblacin normal K con varianza desconocida , siendo el
parmetro a estimar su valor medio L . Para ello se deber disponer de:
Una muestra aleatoria K17 K2 7...7 K$ de tamao $ extrada de la poblacin K.
Un estimador M del parmetro poblacional L , que en este caso es la media
muestral pero que, debido al desconocimiento de la varianza de la
poblacin, tendremos que reemplazar este ltimo parmetro por la varianza
muestral. El estadstico que emplearemos, relacionado con el parmetro L
,Ser :
Este estadstico sigue una distribucin T de Student con (n-1) grados de libertad.
El nivel de confianza 1- N , establecido a priori por el experimentador
(los usuales son 5.G/, 5.G5 y 5.GG).
Dada la distribucin del estadstico y el nivel de confianza , se tiene la siguiente
igualdad probabilstica:
La expresin anterior es equivalente a:
que hace referencia a que con una probabilidad 1- NOel i$&e+@"lo "le"&o+io
contendr el valor medio L . El intervalo es aleatorio ya que sus extremos se
determinan a partir de los estimadores media muestral y desviacin tpica
muestral, tratndose de variables aleatorias. La probabilidad a que se refiere dicho
intervalo aleatorio, puede interpretarse de manera informal pero quizs ms clara:
"Si consideramos todas las muestras distintas de tamao $ que puedan ser
extradas de la poblacin K , y con las observaciones de cada una construimos
los correspondientes intervalos, segn la estructura anterior, el (1- NPQOde estos
intervalos contendrn el parmetro L "
Por tanto, si extraemos una muestra de tamao $ y con los datos u observaciones,
=1, =2 ,..., =$ , calculamos los extremos del intervalo, dispondremos del concreto
i$&e+@"lo e !o$,i"$F" p"+" el p"+Rme&+o L
que, en funcin de la interpretacin informal anterior, contendr dicho parmetro
con una !o$,i"$F" :1- NPS
O.-e+@"!i#$: el nivel de confianza establece en alguna medida la longitud del
correspondiente intervalo de confianza. Aumentando el nivel de confianza :m"To+
!e+&eF"; , aumenta la longitud :me$o+ p+e!i-i#$;.
%&&p'((e--&"i-&i!"..io.0!m.e-(*lo-"+io(e,>i$&e+@"lo>!o$,i"$F".%&ml
UNIDAD B
SERIES DE TIE8PO
B.1 8ODELO CLSICO DE SERIES DE TIE8PO
Toda institucin, ya sea la familia, la empresa o el gobierno, tiene que hacer
planes para el futuro si ha de sobrevivir y progresar. Hoy en da diversas
instituciones requieren conocer el comportamiento futuro de ciertos fenmenos
con el fin de planificar, prever o prevenir.

La planificacin racional exige prever los sucesos del futuro que probablemente
vayan a ocurrir. La previsin, a su vez, se suele basar en lo que ha ocurrido en el
pasado. Se tiene pues un nuevo tipo de inferencia estadstica que se hace acerca
del futuro de alguna variable o compuesto de variables basndose en sucesos
pasados. La tcnica ms importante para hacer inferencias sobre el futuro con
base en lo ocurrido en el pasado, es el anlisis de series de tiempo.

Son innumerables las aplicaciones que se pueden citar, en distintas reas del
conocimiento, tales como, en economa, fsica, geofsica, qumica, electricidad, en
demografa, en marketing, en telecomunicaciones, en transporte, etc.

Series De Tiempo Ejemplos


1. Series econmicas:
- Precios de un artculo
- Tasas de desempleo
- Tasa de inflacin
- ndice de precios, etc.


2. Series Fsicas:
- Meteorologa
- Cantidad de agua cada
- Temperatura mxima diaria
- Velocidad del viento (energa
elica)
- Energa solar, etc.
3. Geofsica:

- Series sismologas


4. Series demogrficas:

- Tasas de crecimiento de la
poblacin
- Tasa de natalidad, mortalidad
- Resultados de censos
poblacionales
5. Series de marketing:

- Series de demanda, gastos,
ofertas

6. Series de
telecomunicacin:

- Anlisis de seales

7. Series de transporte:

- Series de trfico


Uno de los problemas que intenta resolver las series de tiempo es el de
prediccin. Esto es dado una serie {x(t1),...,x(tn)} nuestros objetivos de inters
son describir el comportamiento de la serie, investigar el mecanismo generador de
la serie temporal, buscar posibles patrones temporales que permitan sobrepasar la
incertidumbre del futuro.

En adelante se estudiar como construir un modelo para explicar la estructura y
prever la evolucin de una variable que observamos a lo largo del tiempo. La
variables de inters puede ser macroeconmica (ndice de precios al consumo,
demanda de electricidad, series de exportaciones o importaciones, etc.),
microeconmica (ventas de una empresa, existencias en un almacn, gastos en
publicidad de un sector), fsica (velocidad del viento en una central elica,
temperatura en un proceso, caudal de un ro, concentracin en la atmsfera de un
agente contaminante), o social (nmero de nacimientos, matrimonios,
defunciones, o votos a un partido poltico).

DEIINICI6N DE SERIE DE TIE8PO

En muchas reas del conocimiento las observaciones de inters son obtenidas en
instantes sucesivos del tiempo, por ejemplo, a cada hora, durante 24 horas,
mensuales, trimestrales, semestrales o bien registradas por algn equipo en forma
continua.

Llamamos Serie de Tiempo a un conjunto de mediciones de cierto fenmeno o
experimento registradas secuencialmente en el tiempo. Estas observaciones
sern denotadas por {x(t1), x(t), ..., x(tn)} = {x(t) : t T R} con x(ti) el valor de la
variable x en el instante ti. Si T = Z se dece que la serie de tiempo es discreta y si
T = R se dice que la serie de tiempo es continua. Cuando ti!1 " ti = k para todo i =
1,...,n-1, se dice que la serie es equiespaciada, en caso contrario ser no
equiespaciada.

En adelante se trabajar con series de tiempo discreta, equiespaciadas en cuyo
caso asumiremos y sin perdida de generalidad que: {x(t1), x(t), ..., x(tn)}= {x(1),
x(), ..., x(n)}.


PRI8ER PASO AL ANALIZAR CUALUUIER SERIE DE TIE8PO

El primer paso en el anlisis de series de tiempo, consiste en graficar la serie. Esto
nos permite detectar las componentes esenciales de la serie.

El grfico de la serie permitir:

a) Detectar Outlier: se refiere a puntos de la serie que se escapan de lo normal.
Un outliers es una observacin de la serie que corresponde a un comportamiento
anormal del fenmeno (sin incidencias futuras) o a un error de medicin.

Se debe determinar desde fuera si un punto dado es outlier o no. Si se concluye
que lo es, se debe omitir o reemplazar por otro valor antes de analizar la serie.

Por ejemplo, en un estudio de la produccin diaria en una fabrica se present la
siguiente situacin ver figura 1.1:
Figura 1.1
Los dos puntos enmarcados en un crculo parecen corresponder a un
comportamiento anormal de la serie. Al investigar estos dos puntos se vio que
correspondan a dos das de paro, lo que naturalmente afect la produccin en
esos das. El problema fue solucionado eliminando las observaciones e
interpolando.

b) Permite detectar tendencia: la tendencia representa el comportamiento
predominante de la serie. Esta puede ser definida vagamente como el cambio de
la media a lo largo de un periodo (ver figura 1.2).
Figura 1.2

c) Variacin estacional: la variacin estacional representa un movimiento
peridico de la serie de tiempo. La duracin de la unidad del periodo es
generalmente menor que un ao. Puede ser un trimestre, un mes o un da, etc
(ver figura 1.3).

Matemticamente, podemos decir que la serie representa variacin estacional si
existe un nmero - tal que x(t) = x(t ! #s).

Las principales fuerzas que causan una variacin estacional son las condiciones
del tiempo, como por ejemplo:
1) en invierno las ventas de helado
2) en verano la venta de lana
3) exportacin de fruta en marzo.

Todos estos fenmenos presentan un comportamiento estacional (anual, semanal,
etc.)
Figura 1.3

d) Variaciones irregulares componente aleatoria)! los movimientos irregulares
(al azar) representan todos los tipos de movimientos de una serie de tiempo que
no sea tendencia, variaciones estacinales y fluctuaciones cclicas.

%&&p'((!i.e+!o$&".0$iF"+.e-(LECCION(-e+ie-&(155.VT81>To!/22EE1A51
B.2 ANALISIS DE LA TENDENCIA
A$Rli-i- e &e$e$!i".
Objetivo. Calcular las previsiones para aos futuros dada una serie de datos con
un modelo sencillo.
Los datos a utilizar son los siguientes y que se presentan de esta manera por
economa de espacio.
t 1 2 3 4 5 6 7 8 9 10 11 12
X
99,93 103 103,41 112,79 109,52 113,57 110,5 120,42 118,23 119 118,75 127,32
t 13 14 15 16 17 18 19 20 21 22 23 24
Xt 124,93 128,13 127,55 137,06 131,95 133,91 135,35 146,19 138,57 143,14 144,64 153,72
Se va a indicar la manera de hacer esta prctica paso a paso, por lo que no ser
necesario el conocimiento previo ni de anlisis de series de datos ni del uso de la
hoja de clculo
El primer paso sera introducir los datos de la tabla anterior en una columna
que denominaremos $.
Segundo paso, representar la serie X en el tiempo. Para eso seleccionamos
los datos de la columna X, y vamos a [nsertar] [Diagrama]. Seguiremos los
pasos de la seccin %r&icos en la pgina .
Supongamos:
Obtener el componente tendencial, .
En la celda B1, ponemos t introducimos 1, en B3 escribimos =1+b2.
Copiamos la celda B3 desde B4 hasta B25. En la celda C1 escribimos Tt.
En C2, =100+2*b2
5.15
. Y copiamos C2 desde C3 hasta C25.
Componente estacional, .
Definimos las variables cualitativas:
Obteniendo las variables cualitativas estacionales.
En D1 escribimos d1, en D2 ponemos 1, en las celdas D3, D4, D5 se
escribe 0. En E1, d2, para E2, escribimos 1, y en E2, E4 y E5, 0. Para F1,
d3, 1 en F4, 0 para F2, F3 y F5. En G1 ponemos d4, em G2, G3, G4 0, para
G5 1. Se seleccionan las celdas D2 hasta G5 y se copian desde D6 hasta
G25.
En la celda H1 escribimos St, y en H2 =-1*d2-1*e2-2*f2+4*g2, copiaremos
esta casilla desde H3 hasta H25.
Componente irregular, . En la celda 1 se escribe t. En la celda 2 =a2-
c2-h2. Copiaremos 2 desde 3 hasta 25.
Calculamos el valor medio de la serie: en 26 insertamos =suma(i2:125)/24.
El ltimo paso que faltara es representar grficamente las series , e
frente al tiempo.
%&&p'((*.0$-".e0."+(l0!"-(."-i!o($oe12C.%&ml
B.A PRO8EDIOS 8OVILES
La primera consideracin que hacemos es la de la permanencia en nuestro
pronstico de observaciones que se encuentran muy alejadas del momento
presente. En el ejemplo no se ve claramente esto, pero si hubiramos tenido cien
valores en la serie en lugar de doce, parecera extrao que los primeros 10 datos
tuvieran ingerencia tan directa como los ltimos 10, en el pronstico. Es bueno
que nuestro pronstico tenga ``memoria'' pero no tanta!
Por otra parte, al pasar el tiempo, la importancia de cada trmino en particular
para el promedio disminuye notablemente. Esto quiere decir que el valor que
observamos al tiempo t va teniendo menos importancia para el pronstico y los
valores previos (la historia) cobran tanta importancia que nuestro pronstico le da
un peso excesivo a la historia.
Los dos males anteriores (que en realidad son slo uno) tienen como remedio el
promedio m'il.
Este consiste en promediar slo las ltimas observaciones. Conforme avanza el
tiempo dejamos fuera del promedio a los datos ms viejos y vamos incorporando
datos nuevos. Por eso recibe el nombre de promedio mvil.
Un promedio mvil tiene un parmetro que es la amplitud del promedio, es decir,
cuntos datos ponemos en el promedio.
Si el valor de este parmetro es grande, el suavizado es mayor; si es pequeo el
suavizado es menor.
Con nuestro pequeo ejemplo, podemos hacer promedios mviles de orden 3 y de
orden 5. Como sigue
tiempo 1 2 3 4 5 6 7 8 9 10 11
valor 200 135 195 198 310 175 155 130 220 277 235
Prom.(3) *** *** 177 176 234 228 213 153 168 209 244
Prom.(5) *** *** *** *** 208 202 206 194 198 191 204
Las dos series de promedios mviles son ms suaves que los datos originales y
las podemos usar como pronstico recorrindolas hacia adelante de la misma
forma que recorrimos para adelante a los promedios simples antes.
P+omeio- m#@ile- T e-&"!io$"li""
Tambin es adecuado que en este momento nos demos cuenta de otro fenmeno
notable. Si tuvisemos una serie con estacionalidad de orden 4, por ejemplo, e
hicisemos con ella promedios mviles de longitud 4 ( 8, o 12, o cualquier otro
mltiplo de 4) la estacionalidad se perdera. La razn es que las desviaciones de
un promedio que tipifican a la estacionalidad se cancelan al momento de hacer la
suma que va en el numerador del promedio mvil.
P+omeio- m#@ile- T &e$e$!i""
El mtodo de los promedios mviles est diseado para una serie que tenga un
patrn horizontal. Si la serie tiene alguna tendencia, el promvil puede
equivocarse por completo. Veamos un ejemplo para determinar cuales son los
daos y descubrir como remediarlos.
Pensemos en una serie completamente artificial. Esta serie sigue en forma
perfecta una lnea recta.
tiempo 1 2 3 4 5 6 7 8 9 10 11
valor 5.1 7.8 10.5 13.2 15.9 18.6 21.3 24.0 26.7 29.4 32.1
pm(4) ** ** ** 9.1 11.8 14.5 17.2 19.9 22.6 25.3 28.0
pron ** ** ** ** 9.1 11.8 14.5 17.2 19.9 22.6 25.3
error ** ** ** ** 6.8 6.8 6.8 6.8 6.8 6.8 6.8
Podemos observar que los pronsticos siempre arriban demasiado tarde! El error
es sistemtico: la serie de promedios mviles da valores consistentemente
menores.
La forma de corregir el pronstico es un poco sorprendente. Al menos, la primera
vez que se la presentan a uno, es sorprendente.
Para pronosticar en este caso, hacemos lo siguiente:
Calculamos los promviles de longitud 4: S't
Calculamos los promviles de los promviles: S''t
Calculamos los parmetros de un recta: ordenada al origen y pendiente,
como sigue
At = S't + ( S't - S''t )
Bt = 2 ( S't - S''t ) / (k - 1)
donde k es la longitud del promvil.
Pronosticamos siguiendo la lnea recta:
F(t+m) = At + (m) Bt
Fjese que el pronstico se hace siguiendo una lnea recta. m representa el
nmero de periodos hacia adelante que queremos pronosticar. Lo usual ser que
busquemos el pronstico slo para un perodo adelante (el pronstico para
maana) en cuyo caso m = 1 y F(t+1) = At + Bt.
La recta que sirve para pronosticar va cambiando en cada momento, tanto en su
pendiente como en su ordenada al origen. Adems el valor de los parmetros de
la recta se basa principalmente en la diferencia del promedio mvil y del
``promedio mvil doble'' ( S''t ).
En nuestro ejemplo los nmeros son:
t 1 2 3 4 5 6 7 8 9 10 11
Xt 5.1 7.8 10.5 13.2 15.9 18.6 21.3 24.0 26.7 29.4 32.1
S't ** ** ** 9.1 11.8 14.5 17.2 19.9 22.6 25.3 28.0
S''t ** ** ** ** ** ** 13.2 15.9 18.6 21.3 24.0
At ** ** ** ** ** ** 21.3 24.0 26.7 29.4 32.1
Bt ** ** ** ** ** ** 2.7 2.7 2.7 2.7 2.7
pron ** ** ** ** ** ** ** 24.0 26.7 29.4 32.1
Como partimos de una serie artificial, calculada con la ecuacin de una recta, el
pronstico obtenido es perfecto. Con una serie real, no se espera que tengamos el
mismo xito. Por otra parte, notamos que la ordenada al origen recuper los
valores de Xt. Tambin, en el ejemplo, se ve que la pendiente siempre result
igual y con el valor ``correcto''.
A este mtodo de pronstico le llamamos ()*+E,-* +./-0 0-1E20
%&&p'(())).mo+.i&e-m.m=(J!me$oF"(!AB1(!215/.%&ml
UNIDAD /
ESTAD?STICA NO PARA8ETRICA
/.1 ESCALA DE 8EDICION
En cualquier anlisis estadstico que se haga, se manejan datos que provienen de
la medicin de una variable o variables seleccionadas en el estudio. Las variables
son las caractersticas que interesan en los sujetos u objetos que se estudian, por
ejemplo podra ser la edad de los empleados de una empresa, el monto de las
ventas de determinado artculo, la ocupacin de los clientes de cierto negocio, etc.
Para obtener los datos relativos a las variables de inters, se requiere hacer una
medicin, como podra ser preguntar las edades de los empleados o la ocupacin
de los clientes, pero como puede apreciarse, los datos que se obtendran seran
de diferente tipo, pues para la primera variable, seran nmeros y para la segunda
categoras. La medicin la llevamos a cabo en el momento en que le asignamos
un nmero correspondiente a la edad o una categora correspondiente a la
ocupacin
1
. Resulta obvio que en este caso, no estamos midiendo de la misma
manera ambas variables, pero adems de que las mediciones nos arroja valores
de estos dos tipos, es posible medir las variables con otras escalas diferentes, lo
cual depende de sus caractersticas; a continuacin se har una breve explicacin
de las diferentes escalas con las que se pueden medir las variables.
1. E-!"l" $omi$"l
Las variables que solamente se pueden medir con esta escala, son los
cualitativas, tambin llamados categricas, en ellas se pueden encontrar
diferentes categoras, como por ejemplo, la variable sexo puede tomar dos valores
que son: masculino y femenino, para que las categoras de clasificacin sean
tiles, deben ser mutuamente excluyentes, complementarias y exhaustivas. En
cada una de ellas se puede obtener la frecuencia.
2. E-!"l" o+i$"l
Las variables que se pueden medir con esta escala, son de tipo cuantitativo y en
sta, las variables pueden tomar diferentes valores, de tal manera que es posible
ordenar estos valores en forma ascendente o descendente, pero no se puede
saber si la diferencia entre dos valores es la misma o diferente a la diferencia entre
otros dos valores.
Se usa cuando se pueden detectar diferentes grados del valor de una variable y
que los datos recopilados a partir de ella, se pueden ordenar por rangos. Por
ejemplo, si se le presentan tres refrescos diferentes a una persona y se le pide
que exprese su preferencia utilizando una escala del uno al tres, esto lo estamos
evaluando en una escala ordinal, pues se puede suponer que hay un orden en los
resultados, pero la diferencia en las puntuaciones no tiene importancia, pues no se
puede saber si la diferencia entre un tres y un dos es la misma que entre un uno y
un dos.
Otro ejemplo lo tenemos cuando comparamos dureza de materiales y decimos
que A es ms duro que B si A raya a B.
2. E-!"l" e i$&e+@"lo
Cuando adems de distinguir diferencias en grado, en la propiedad de un objeto,
tambin se pueden distinguir diferencias iguales entre objetos, se tiene una
medida de intervalo. Una forma de distinguir variables que se miden en esta
escala, es que el cero no indica que hay ausencia de la variable. Un ejemplo tpico
de una variable que se mide en esta escala, es la temperatura cuando se mide en
grados Fahrenheit o en grados Centgrados, pues stas como es ya conocido, no
son escalas absolutas, sino relativas. Sabemos que la diferencia entre 30 C y 35
C es la misma que entre 45 C y 50 C y si se dice que un lquido se encuentra a
0 C, no significa que no tiene temperatura.
B. E-!"l" e +"F#$ o p+opo+!io$"l
En esta escala se cumplen todas las caractersticas que en las anteriores, adems
de que el cero s indica una ausencia de la variable, por ejemplo, si la variable son
los gastos semanales de una persona y nos dice que no tuvo gastos durante la
semana, entonces es vlido decir que sus gastos semanales fueron iguales a
cero. Hay muchas variables de inters en la economa y administracin que se
evalan en una escala de razn, otra podra ser la antigedad de una persona en
una empresa; si sabemos de alguien que apenas va a entrar a trabajar ah y no
tiene antigedad se puede decir que su antigedad es igual a cero aos o meses.
%&&p'(())).0@.m=(iie-!"(+e@i-&"2(.e&T1.%&ml
/.2 8ETODOS ESTAD?STICOS NO PARA8ETRICOS
Partiendo de la base de que algunos contrastes de hiptesis dependen del
supuesto de normalidad, muchos de estos contrastes siguen siendo
aproximadamente vlidos cuando se aplican a muestras muy grandes, incluso si la
distribucin de la poblacin no es normal. Sin embargo, muchas veces se da
tambin el caso de que, en aplicaciones prcticas, dicho supuesto de normalidad
no sea sostenible. Lo deseable entonces ser buscar la inferencia en contrastes
que sean vlidos bajo un amplio rango de distribuciones de la poblacin. Tales
contrastes se denominan $o p"+"mW&+i!o-.
En este tema intentar describir contrastes no paramtricos que son apropiados
para analizar algunos de los problemas que hubiera podido encontrar antes. Los
contrastes no paramtricos son generalmente, vlidos cualquiera que sea la
distribucin de la poblacin. Es decir, dichos contrastes pueden ser desarrollados
de manera que tengan el nivel de significacin requerido, sin importar la
distribucin de los miembros de la poblacin.
Mi objetivo, es dar una idea general de aquellos mtodos que son mas utilizados.
As, en el presente tema tratar procedimientos no paramtricos para contrastar la
igualdad de los parmetros de centralizacin de dos distribuciones poblacionales.
La mayor parte de las tcnicas estudiadas hacen suposiciones sobre la
composicin de los datos de la poblacin. Las suposiciones comunes son que la
poblacin sigue una distribucin normal, que varias poblaciones tienen varianzas
iguales y que los datos se miden en una escala de intervalos o en una escala de
razn. Este tema presentar un grupo de tcnicas llamadas no paramtricas que
son tiles cuando estas suposiciones no se cumplen.
Porqu los administradores deben tener conocimientos sobre estadstica no
paramtrica?
La respuesta a esta pregunta es muy sencilla; las pruebas de ji cuadrada son
pruebas no paramtricas. Tanto la prueba de la tabla de contingencia como la de
bondad de ajuste analizan datos nominales u ordinales. Estas pruebas, se usan
ampliamente en las aplicaciones de negocios, lo que demuestra la importancia de
la habilidad para manejar datos categricos o jerarquizados adems de los
cuantitativos.
Existen otras muchas pruebas estadsticas diseadas para situaciones en las que
no se cumplen las suposiciones crticas o que involucran datos cuantitativos o
categricos. Los analistas que manejan estos datos deben familiarizarse con libros
que abordan tales pruebas, conocidas comnmente como pruebas estadsticas no
paramtricas. Se presentarn aqu unas cuantas de las pruebas no paramtricas
que mas se usan.
Qu ocurre con las pruebas no paramtricas frente a las que si lo son?
Las pruebas no paramtricas no necesitan suposiciones respecto a la composicin
de los datos poblacionales. Las pruebas no paramtricas son de uso comn:
1.- Cuando no se cumplen las suposiciones requeridas por otras tcnicas usadas,
por lo general llamadas pruebas paramtricas.
2.- Cuando es necesario usar un tamao de muestra pequeo y no es posible
verificar que se cumplan ciertas suposiciones clave.
3.- Cuando se necesita convertir datos cualitativos a informacin til para la toma
de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala
nominal u ordinal. Muchas aplicaciones de negocios involucran opiniones o
sentimientos y esos datos se usan de manera cualitativa.
Las pruebas no paramtricas tienen varias ventajas sobre las pruebas
paramtricas:
1.- Por lo general, son fciles de usar y entender.
2.- Eliminan la necesidad de suposiciones restrictivas de las pruebas
paramtricas.
3.- Se pueden usar con muestras pequeas.
4.- Se pueden usar con datos cualitativos.
Tambin las pruebas no paramtricas tienen desventajas:
1.- A veces, ignoran, desperdician o pierden informacin.
2.- No son tan eficientes como las paramtricas.
3.- Llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa
(incurriendo en un error de tipo ).
Las pruebas no paramtricas son pruebas estadsticas que no hacen suposiciones
sobre la constitucin de los datos de la poblacin.
Por lo general, las pruebas paramtricas son mas poderosas que las pruebas no
paramtricas y deben usarse siempre que sea posible. Es importante observar,
que aunque las pruebas no paramtricas no hacen suposiciones sobre la
distribucin de la poblacin que se muestrea, muchas veces se apoyan en
distribuciones mustrales como la normal o la ji cuadrada.
EL CONTRASTE DE SI3NOS
La prueba de los signos es quiz la prueba no paramtrica mas antigua. En ella
est, basadas muchas otras. Se utiliza para contrastar hiptesis sobre el
parmetro de centralizacin y es usado fundamentalmente en el anlisis de
comparacin de datos pareados. Consideremos una muestra aleatoria de tamao
n tal que sus observaciones estn o puedan estar clasificadas en dos categoras:
0 y 1, + y -, ... etc.
Podemos establecer hiptesis acerca de la mediana, los centiles, cuartiles, etc.
Sabemos que la mediana deja por encima de s tantos valores como por debajo;
Considerando que Xi - Mdn > 0 , darn signos positivos (+) y Xi - Mdn < 0 signos
negativos (-) , en la poblacin original tendremos tantos (+) como (-). Se tratara de
ver hasta que punto el numero de signos (+) esta dentro de lo que cabe esperar
que ocurra por azar si el valor propuesto como mediana es verdadero. Lo mismo
se puede decir respecto a los cuartiles, centiles, o deciles.
Teniendo en cuenta que se trabaja con dos clases de valores, los que estn por
encima y los que estn por debajo, es decir, los (+) y los (-) , los estadsticos de
contraste seguirn la distribucin binomial, si se supone independencia y
constancia de probabilidad en el muestreo.
La mejor forma de entender este apartado es mediante un ejemplo practico; De
modo que en la tabla que pondremos a continuacin se pueden ver los resultados
de un experimento sobre comparacin de sabores. Un fabricante de alubias esta
considerando una nueva receta para la salsa utilizada en su producto. Eligio una
muestra aleatoria de ocho individuos y a cada uno de ellos le pedio que valorara
en una escala de 1 a 10 el sabor del producto original y el nuevo producto. Los
resultados se muestran en la tabla, donde tambin aparecen las diferencias en las
valoraciones para cada sabor y los signos de estas diferencias. Es decir,
tendremos un signo + cuando el producto preferido sea el original, un signo -
cuando el preferido sea el nuevo producto y un 0 si los dos productos son
valorados por igual. En particular en este experimento, dos individuos han
preferido el producto original y cinco el nuevo; Uno los valoro con la misma
puntuacin.
La hiptesis nula es que ninguno de los dos productos es preferido sobre el otro.
Comparamos las valoraciones que indican la preferencia por cada producto,
descartando aquellos casos en los que los dos productos fueron valorados con la
misma puntuacin. As el tamao muestral efectivo se reduce a siete, y la nica
informacin muestral en que se basara nuestro contraste ser la de los dos
individuos de los siete que prefirieron el producto original.
La hiptesis nula puede ser vista como aquella en la que la media poblacional de
las diferencias sea 0. Si esta hiptesis fuese cierta, nuestra sucesin de
diferencias + y - podra ser considerada como una muestra aleatoria de una
poblacin en la que las probabilidades de + y - fueran cada una 0,5. En este caso,
las observaciones constituiran una muestra aleatoria de una poblacin con una
distribucin binomial, con probabilidad de + 0,5. Es decir, si p representa la
verdadera proporcin en la poblacin de +,la hiptesis nula ser:
H0: p = 0,5
Podemos querer contrastar esta hiptesis bien frente alternativas unilaterales, bien
frente a alternativas bilaterales. Supongamos que en el ejemplo de preferencias
por los sabores la hiptesis alternativa es que en la poblacin, la mayora de las
preferencias son por el nuevo producto. Esta alternativa se expresa como:
H1: p < 0,5
Tabla:
NDVDUO VALORACON DFERENCA
SGNO DE LA
DFERENCA
PRODUCTO
ORGNAL
PRODUCTO
NUEVO
A 6 8 -2 -
B 4 9 -5 -
C 5 4 1 +
D 8 7 1 +
E 3 9 -6 -
F 6 9 -3 -
G 7 7 0 0
H 5 9 -4 -
Al contrastar la hiptesis nula frente a esta alternativa, nos preguntamos, Cul es
la probabilidad de observar en la muestra un resultado similar a aquel que se
observara si la hiptesis nula fuese, de hecho, cierta? Si representamos por P(x)
la probabilidad de observar x "xitos (+) en una binomial de tamao 7 con
probabilidad de xito 0,5, la probabilidad de observar dos o menos + es:
P(0)+P(1)+P(2) = 0,0078 + 0,0547 + 0,1641 = 0,2266
Por tanto, si adoptamos la regla de decisin "rechazar H0 si en la muestra
tenemos dos o menos + , la probabilidad de rechazar la hiptesis nula cuando en
realidad de cierta ser de 0,2266. Dicho contraste tiene un nivel de significacin
del 22,66 % y , en nuestro ejemplo, la hiptesis nula podr ser rechazada a dicho
nivel. Es importante tambin preguntarse a que nivel dejaremos de rechazar la
hiptesis nula. Si hubisemos tenido la regla de decisin "ningn + o un + para
rechazar, H0 no hubiera sido rechazada. El nivel de significacin de este nuevo
test es:
P(0)+P(1) = 0,0625
La hiptesis nula no ser rechazada a un nivel de significacin del contraste del
6,25 %. La hiptesis nula de que en la poblacin las preferencias por un producto
u otro son iguales es rechazada contra la hiptesis alternativa de que la mayora
de la poblacin prefiere el nuevo producto utilizando un test con nivel de
significacin del 22,66% . Si embargo la hiptesis nula no puede ser rechazada
utilizando el test con nivel de significacin del 6,25%.
Por tanto, estos datos muestran una modesta evidencia contra la hiptesis nula de
que la poblacin tenga preferencias iguales por un producto u otro, aunque dicha
evidencia no es muy grande. En nuestro caso, esto puede ser una consecuencia
del pequeo tamao muestral. Tenemos que considerar el caso en el que la
hiptesis alternativa sea bilateral, es decir:
H1: p " 0,5
En nuestro ejemplo, esta hiptesis significa que la poblacin puede preferir uno u
otro producto. Si las alternativas a cada valor postulado por la hiptesis nula son
tratados de forma simtrica, una regla de decisin que nos conducira a rechazar
la hiptesis nula para estos datos seria "rechazas Ho si la muestra contiene dos o
menos, o cinco o mas +. El nivel de significacin para este contraste es:
P(0) + P(1) + P(2) + P(5) + P(6) + P(7) = 2 [P(0) + P(1) + P(2)] = 0.4532
Ya que la funcin de probabilidad de la distribucin binomial es simtrica para p =
0,5. La hiptesis nula no ser rechazada si no tomamos como regla de decisin
"rechazar H0 si la muestra contiene dos o menos o seis o mas +s.Este contraste
tiene nivel de significacin:
P(0) + P(1) + P(6) + P(7) = 2 [ P(0) + P(1)] = 0,1250
Por tanto, a un nivel de significacin del contraste del 12,5 %, la hiptesis nula de
que la mitad de los miembros de la poblacin con alguna preferencia prefieren el
nuevo producto no ser rechazado frente a la hiptesis alternativa bilateral.
El contraste de signos puede ser utilizado para contrastarla hiptesis nula de que
la mediana de una poblacin es 0. Supongamos que tomamos una muestra
aleatoria de una poblacin y eliminamos aquellas observaciones iguales a 0,
quedando en total n observaciones. La hiptesis nula a contrastar ser que la
proporcin p de observaciones positivas en la poblacin es 0,5 es decir:
H0 : p = 0,5
En este caso, el contraste estar basado en el hecho de que el numero de
observaciones positivas en la muestra tiene una distribucin binomial ( p = 0,5
bajo la hiptesis nula).
Si el tamao muestral es grande, se podr utilizar la aproximacin de la
distribucin binomial a la normal para realizar el contraste de signos. Esta es una
consecuencia del teorema central del lmite.
Si el numero de observaciones no iguales a 0 es grande, el contraste de signos
esta basado en la aproximacin de la binomial a la normal. El contraste es:
H0 : p = 0,5
EJEMPLO
A una muestra aleatoria de cien nios se les pidi que comparasen dos nuevos
sabores de helados: vainilla y fresa. 56 de los nios prefirieron el sabor a vainilla,
40 prefirieron el sabor a fresa, y a 4 de ellos les daba igual. Se quiere contrastar
frente a una alternativa bilateral la hiptesis nula de que no existe en la poblacin
una preferencia por un sabor u otro.
Si p es la proporcin de nios en la poblacin que prefieren el sabor a vainilla, lo
que queremos contrastar es H0: p=0,5 frente a H1: p"0,5.
Como cuatro de los nios no han preferido un sabor a otro, tenemos un tamao
muestral de 96 nios. La proporcin de nios que han preferido el sabor a vainilla
es:
Px = 56 / 96 = 0,583
Para un nivel de significacin , la regla de decisin es:
Px - 0,5
Rechazar H0 si -------------------- < -Z/2
"(0,5)(0,5) / n

Px - 0,5
-------------------- > -Z/2
"(0,5)(0,5) / n
En nuestro caso
Px - 0,5 0,583 - 0,5
-------------------- = ------------------------ = 1,63
"(0,5)(0,5) / n "(0,5)(0,5) / 96
Vemos, que si Z/2 = 1,63, /2 = 0,0516, de manera que = 0,1032. Por tanto, la
hiptesis nula podr ser rechazada para todos los niveles de significacin
superiores al 10,32%. Si la hiptesis nula de que el mismo nmero de nios
prefieren el sabor a vainilla que el sabor a fresa fuese cierta, la probabilidad de
observar unos resultados maestrales tan extremos, o mas extremos que los
actualmente obtenidos, ser ligeramente superior a uno sobre diez. En nuestro
caso, los datos muestran una modesta evidencia en contra de dicha hiptesis.
La figura muestra las probabilidades de las colas de una distribucin normal
correspondientes al 5,16% inferior y superior del rea total bajo la funcin de
densidad.
EJEMPLO 2
Como parte de un estudio sobre transferencia del aprendizaje entre tareas simples
y complejas, se disea un experimento en el que cada sujeto se le presentan 5
tareas simples y a continuacin 1 tarea compleja. Al finalizar sta se le pregunta a
cada sujeto si le ha parecido mas fcil o mas difcil que las 5 anteriores. Si algn
sujeto contestaba " igualmente difcil, se le segua preguntando hasta decidirse
por " mas fcil " o " mas difcil ". Las respuestas dadas por los 10 sujetos fueron:
SUJETO 1 2 3 4 5 6 7 8 9 10
RESPUESTA D F F D F F F D F F
Podemos concluir que ha habido transferencia, a un nivel de significacin de
0,01 ?
Siendo D (Mas difcil = - ) y F = +
H0: P (-) " (No ha habido transferencia)
H1: P (-) < (Ha habido transferencia)
Suponemos que las observaciones son independientes y que bajo H0 p (-) es
constante por cada sujeto.
Estadstico de contraste t1 = 7, t2 = 3, t = 3.
(3 + 0,5) - (10 / 2)
Z = ---------------------------- = -0,949
" 10 / 4
Dado que = 0,01 y Z0,01 = -2,33:
P (T " 3) = 0,172 > 0,01, mantenemos H0.
-0,949 > -2,33, mantenemos H0.
No hay evidencia suficiente para concluir que ha habido transferencia. Slo si T
hubiera tomado valor 0, podramos haber llegado a tal conclusin ya que P (T " 0)
" 0,001 < 0,01.
%&&p'(())).i&!%.e0.m=("!"emi!(i$0-&+i"l(e-&"i-&i!"1(!"p5B.%&ml
/.2 PRUEBA DE CORRIDAS PARA ALEATORIEDAD
Muchos mtodos de tipo inferencial, se basan en el supuesto de que se manejan
muestras aleatorias. Cuando se tiene una aplicacin en la que es difcil saber si
esta suposicin se justifica o cuando no es posible seleccionar una muestra
aleatoria por contar solamente con cierta informacin; se tienen dentro de las
tcnicas no paramtricas varios mtodos que hacen posible juzgar la aleatoriedad
sobre la base del orden o secuencia en el que se realizan las observaciones o en
el que los puntajes u observaciones fueron obtenidos originalmente. Lo que se
analiza es si aparecen patrones de los que se sospeche no sean aleatorios.
En las variables de tipo nominal, una corrida es una sucesin de letras u otro
smbolo idnticos que van seguidos o precedidos de otra letra, smbolo, diversas
letras o de ninguna, si se encuentra en el inicio o al final de una sucesin.
4
Por
ejemplo, cuando se lanza una moneda diez veces y si representamos por A el
guila y con S el sol, se puede presentar la siguiente sucesin de resultados:
A SS AAA S AA S
1 2 3 4 5 6
Aqu se presentan seis corridas o rachas. Esta prueba puede aplicarse a variables
de tipo cualitativo y cuantitativo, en el segundo caso, se utiliza la mediana como
medida de referencia y a los valores que caigan arriba de ella se les asigna un
signo positivo (+) o una letra como por ejemplo la A y a los que caigan abajo de
ella, se les asigna el signo negativo (-) o una letra distinta, como por ejemplo la B y
a partir de los signos o letras asignados, se identifican las rachas o corridas.
En estos casos, el nmero de corridas que se tiene es una buena indicacin de
una posible falta de aleatoriedad, que se presentara con pocas o demasiadas
corridas. Aqu se prueba aleatoriedad en el proceso de generacin de una serie de
observaciones de una variable aleatoria que slo toma dos valores y la
probabilidad de cada uno de ellos es 0.5, por lo cual la prueba se basa en una
distribucin binomial con probabilidad igual a 0.5. Se tiene una tabla realizada a
partir de la distribucin mencionada, mediante la que se hace la prueba de
aleatoriedad de rachas en la que se encuentran los valores crticos del nmero de
rachas tomando en cuenta el nmero de elementos de una clase (n1) y el nmero
de elementos de la otra clase (n2). Cuando n1 y n2 son mayores que 20, la
distribucin muestral se puede determinar en forma muy aproximada con una
distribucin de probabilidad normal.
%&&p'(())).i&!%.e0.m=("!"emi!(i$0-&+i"l(e-&"i-&i!"1(!"p5B.%&ml
/.B UNA 8UESTRA' PRUEBA DE SI3NOS
Se cree que esta prueba es la ms antigua dentro de la estadstica no
paramtrica, pues se reporta en la literatura desde 1710 por Arbuthnott.
2

Esta prueba corresponde a la prueba de media de una sola muestra y se recurre a
ella cuando la muestra es de menos de 30 elementos y no se puede sostener el
supuesto de normalidad de la poblacin.
Se le llama prueba del signo porque la informacin contenida en la muestra
seleccionada se puede transformar en un conjunto de signos ms y menos; y
cuando se hace la prueba no se hace uso de la magnitud de los valores de la
muestra, sino solamente se consideran los signos.
sta se aplica cuando se muestrea una poblacin simtrica continua de tal manera
que la probabilidad de que una valor sea mayor que la media o menor que la
media es de un medio. Para esta prueba se utiliza la distribucin binomial.
En esta prueba se tiene la hiptesis nula H0 : m = m0 contra la alternativa
pertinente, pudiendo ser sta de uno o dos extremos. Los supuestos que se deben
tomar en cuenta para aplicarla, son los siguientes: se tiene una muestra aleatoria
que proviene de una poblacin con mediana desconocida, la variable de inters se
mide en escala ordinal o ms fuerte y esta misma variable es de naturaleza
continua .Cuando la variable se mide en escala ordinal, las hiptesis se referirn a
la mediana y no a la media.
%&&p'(())).i&!%.e0.m=("!"emi!(i$0-&+i"l(e-&"i-&i!"1(!"p5B.%&ml
/./ UNA 8UESTRA' PRUEBA DE XILCOKON
PRUEBA DE XILCOKON
Sea X una variable aleatoria continua. Podemos plantear cierta hiptesis sobre la
mediana de dicha variable en la poblacin, por ejemplo, M=M0. Extraigamos una
muestra de tamao m y averigemos las diferencias Di = X - M0. Consideremos
nicamente las n diferencias no nulas (n " m). Atribuyamos un rango u orden (0i) a
cada diferencia segn su magnitud sin tener en cuenta el signo.
Sumemos por un lado los 0+i , rangos correspondientes a diferencias positivas y
por otro lado los 0-i , rangos correspondientes a diferencias negativas.
La suma de los rdenes de diferencias positivas sera igual a la suma de los
rdenes de diferencias negativas, caso que la mediana fuera el valor propuesto
M0. En las muestras, siendo M0 el valor de la verdadera mediana, aparecern por
azar ciertas discrepancias, pero si la suma de los rangos de un ciclo es
considerablemente mayor que la suma de los rangos de otro signo, nos har
concebir serias dudas sobre la veracidad de M0.
La prueba de Wilcoxon va a permitir contrastar la hiptesis de que una muestra
aleatoria procede de una poblacin con mediana M0. Adems, bajo el supuesto de
simetra este contraste se puede referir a la media, E(X). Esta prueba es mucho
mas sensible y poderosa que la prueba de los signos; como se puede apreciar
utiliza mas informacin, pues no solo tiene en cuenta si las diferencias son
positivas o negativas, sino tambin su magnitud.
El contraste de Wilcoxon puede ser utilizado para comparar datos por parejas.
Supongamos que la distribucin de las diferencias es simtrica, y nuestro
propsito es contrastar la hiptesis nula de que dicha distribucin est centrada en
0. Eliminando aquellos pares para los cuales la diferencia es 0 se calculan los
rangos en orden creciente de magnitud de los valores absolutos de las restantes
diferencias. Se calculan las sumas de los rangos positivos y negativos, y la menor
de estas sumas es el estadstico de Wilcoxon. La hiptesis nula ser rechazada si
T es menor o igual que el valor correspondiente.
Si el nmero n de diferencias no nulas es grande y T es el valor observado del
estadstico de Wilcoxon los siguientes contrastes tienen nivel de significacin .
Si la hiptesis alternativa es unilateral, rechazaremos la hiptesis nula si
T - T
--------- < -Z
T
Si la hiptesis alternativa es bilateral, rechazaremos la hiptesis nula si
T - T
--------- < -Z/2
T
EJEMPLO
La salud mental de la poblacin activa de sujetos de 60 aos tiene
una mediana de 80 en una prueba de desajuste emocional (X). Un psiclogo cree
que tras el retiro (jubilacin) esta poblacin sufre desajustes emocionales. Con el
fin de verificarlo, selecciona al azar una muestra de sujetos retirados, les pasa la
prueba de desajuste y se obtienen los siguientes resultados:
X: 69,70,75,79,83,86,88,89,90,93,96,97,98,99
Se puede concluir, con un nivel de significacin de 0,05, que tras el retiro
aumenta el promedio de desajuste emocional?
1.-
H0: M " 80 La poblacin no incrementa su promedio de desajuste.
H1: M > 80 La poblacin aumenta su nivel de desajuste tras el retiro.
2.- Suponemos que la muestra es aleatoria, la variable es continua y el nivel de
medida de intervalo.
3.- Aunque la muestra es pequea usemos los dos estadsticos:
Averigemos Di = X - 80 y ordenemos las | Di |:
Di = -11, -10, -5, -1, +3, +6, +8, +9, +10, +13, +16, +17, +18, +19
Oi = 9, 7,5, 3 , 1, 2, 5, 6, 7,5, 10, 11, 12, 13, 14
W= "Oi = 9+7,5+3+1 = 20,5
(20,5 + 0,5) - (14)(15)/4 21 - 52,5
Z = ---------------------------------- = --------------- = -1,98
"(14)(15)(28 + 1)/24 15,93
4.- Puesto que = 0,05:
W14,0,05 = 26 > 20,5, por lo que rechazamos H0.
Z0.05 = -1,64 > -1,98, por lo que se rechaza H0.
Hay evidencia suficiente para concluir que tras el retiro, aumenta el nivel de
desajuste, medido por X.
EJEMPLO 2
Un estudio compar empresas que utilizaban o no procedimientos sofisticados de
post-auditoria. Se examin una muestra de 31 pares de firmas. Para cada
empresa se utiliz una funcin determinada como medida de su rendimiento. En
cada uno de los pares, una empresa utiliz procedimientos sofisticados post-
auditoria y la otra no. Se calcularon las diferencias en los 31 casos y los rangos de
las diferencias en valor absoluto. La mas pequea de la suma de rangos, 189, fue
la correspondiente a aquellas empresas que no utilizaron procedimientos
sofisticados post-auditoria. Contrastamos la hiptesis nula de que la distribucin
de las diferencias est centrada en 0 frente a la alternativa de que el rendimiento
de las empresas es menor cuando no utilizan procedimientos sofisticados post-
auditoria.
Dada una muestra de n=31 pares de datos, la media del estadstico del Wilcoxon
bajo la hiptesis nula es:
n (n + 1) (31)(32)
T = ---------------- = -------------- = 248
4
T - T
La distribucin de Z = ---------- cuando la hiptesis nula de que la distribucin
T
de las diferencias est centrada en 0 es cierta y la alternativa es unilateral, a nivel
de significacin 0,123.
Y varianza
n (n + 1)(2n + 1) (31)(32)(63)
T2 = ------------------------- = ------------------ = 2.064
24
De manera que la desviacin tpica es
T = 51,03
Si T es el valor observado del estadstico, la hiptesis nula frente a la alternativa
unilateral ser rechazada si:
T - T
--------- < -Z
T
Aqu, T = 198, y
T - T 189 - 248
--------- = ---------------- = -1,16
T 51,03
El valor de correspondiente a Z = 1,16 es (1 - 0, 8760) = 0,123. Por tanto, la
hiptesis nula ser rechazada a niveles de significacin superiores al 12,3%. Los
datos sugieren una modesta evidencia de que las empresas sin un procedimiento
sofisticado de post-auditoria tienen mejor rendimiento.
%&&p'(())).i&!%.e0.m=("!"emi!(i$0-&+i"l(e-&"i-&i!"1(!"p5B.%&ml
/.E DOS 8UESTRAS' PRUEBA DE 8ANN YXVITNEY
La prueba U de Mann-Whitney esta diseada para determinar si dos muestras se
han obtenido de la misma poblacin. Esta prueba se usa como alternativa para la
prueba t para medias con muestras pequeas. La prueba U de Mann-Whitney se
usa para encontrar si dos muestras independientes proceden de poblaciones
simtricas que tienen la misma media o mediana. La prueba se usa cuando no se
puede verificar la suposicin de 2 poblaciones normales con varianzas iguales.
Los datos deben estar medidos al menos en una escala ordinal, haciendo que esta
prueba sea til para datos ordinales o categricos.
El procedimiento da rangos a los datos como si los valores en ambas muestras
pertenecieran todos a un solo grupo. El valor mas pequeo se asigna al rango 1 ,
el siguiente valor mas pequeo al rango 2 ., sin importar a que muestra
pertenece el elemento. Si las medias de dos poblaciones son iguales, los rangos
altos y bajos deben tener una distribucin bastante pareja en las 2 muestras. Si las
medias no son iguales, una muestra tendera a tener rangos mas altos o mas bajos
que la otra. El anlisis se concentra en la suma de los rangos de una de las
muestras y la compara con la suma que se esperara si las medias de la poblacin
fueran iguales.
Para una muestra combinada de 20 o menos, se usan tablas especiales para
probar la hiptesis nula de los dos grupos; estas tablas se encuentran en libros
especializados en mtodos no parametritos. Si la muestra combinada es mayor
que 20, se ha demostrado que la curva normal es una buena aproximacin de la
distribucin muestral. Esta curva normal tiene parmetros que se encuentran en
las ecuaciones que se presentaran a continuacin. El estadstico U de Mann-
Whitney:
n(n1+1)
U = n1 n2 + ------------------ - R1
2
Donde :
U = Estadstico de Mann Whitney
n1 = Numero de elementos en la muestra 1
n2 = Numero de elementos en la muestra 2
R1 = Suma de rangos en la muestra 1
Si las dos muestras son de diferentes tamaos, la muestra 1 debe respetar la que
tiene menor numero de observaciones.
Los procedimientos de la curva normal estndar que se emplean para determinar
si es razonable si el estadstico U se haya obtenido de una distribucin normal con
los parmetros especficos. Si as es, la hiptesis nula devengan de esta
distribucin, la hiptesis nula se rechaza.
Si la hiptesis nula es cierta, el estadstico U tiene una distribucin muestral con la
siguiente media y desviacin estndar:
n1n2
u = ----------------------
2
" n1n2 (n1+n2+1)
u = ---------------------------
"12
Donde:
n1 = Numero de elementos en la muestra 1
n2 = Numero de elementos en la muestra 2
El valor Z es :
U - u
Z= --------------
u
EJEMPLO
Dos dependientes, A y B , trabajan en el departamento de nios de una tienda. El
gerente de la tienda piensa ampliar su negocio a otros locales desde que ley un
articulo en una revista sobre la creciente popularidad de las tiendas sobre nios.
La comparacin entre las ventas de los 2 dependientes parece ser una buena
manera de determinar si uno de ellos puede dirigir la nueva tienda. La hiptesis
nula y alternativa son :
H0: 1 - 2 = 0
H1: 1 - 2 " 0
Si se usa un nivel de significancia de 0,05 , la regla de decisin para esta prueba
de hiptesis es: Si el valor Z calculado es menor que -1,96 o mayor que 1,96 se
rechaza la hiptesis nula.
El gerente registra las ventas semanales de los 2 dependientes para una muestra
de varias semanas y quiere saber si ellos pueden considerarse iguales como
vendedores. Se usara la prueba U de Mann-Whitney para probar esta hiptesis de
que los 2 dependientes son iguales en este sentido, ya que el tamao de la
muestra es pequeo y hay evidencia de que la poblacin de las ventas no es
normal. En la siguiente tabla se numeran las ventas de cada dependiente junto
con sus rangos.
El estadstico U se calcula con la ecuacin antes expuesta, en esta ecuacin, n1
es igual a 16 , n2 igual a 25 y R1 = 241. Este ultimo valor se calculo sumando
todos los rangos para el dependiente a , el calculo de U es:
n1 (n1 + 1) 16(16+1)
U = n1 n2 + ----------------- - R1 = (16)(25)+ ---------------- - 241 = 295
TABLA Ventas por rangos para la prueba U de Mann Whitney
DEPENDENTE A DEPENDENTE B
VENTAS RANGO VENTAS RANGO
197 1 190 3
194 2 180 7
188 4 175 8
185 5 172 10
182 6 167 13
173 9 166 14
169 11 160 17
169 12 157 18
TABLA Ventas por Rangos para la prueba U de Mann - Whitney
DEPENDENTE A DEPENDENTE B
VENTAS RANGO VENTAS RANGO
164 15 155 19
166 16 150 21
154 20 146 23
149 22 145 24
142 26 143 25
139 28 140 27
137 29 135 30
130 35 135 31
134 32
133 33
131 34
122 36
120 37
118 38
109 39
98 40
95 41
Los parmetros de la distribucin muestral normal deben determinarse para ver si
el valor U de 295 se puede considerar poco usual. La media y la desviacin
estndar de la distribucin muestral normal se calculan a continuacin.
n1n2 (16)(25)
u = --------- = ------------- = 200
2 2
"n1n2 (n1+n2+1) "(16)(25) (16+25+1)
u = --------------------------------- = ----------------------------- = 37,4
"12 "12
El valor z del estadstico muestral se calcula:
U - u 295 - 200
z = --------------------- = ---------------- = 2,54
u 37,4
El estadstico muestral (295) esta a los 2,54 desviaciones estndar a la derecha
de la media (200) de la curva si la hiptesis nula de poblaciones iguales es cierta.
Este es un valor poco probable para esta curva, ya que este valor z cubre 0,4945
del rea bajo la curva, dejando solo 0,0055 en la cola superior. Se justifica que el
gerente de la tienda rechace la hiptesis nula de que los dos dependientes son
iguales en su habilidad para general ventas. El riego de un error tipo al rechazar
es solo 0,011 ( 2 * 0.0055).
%&&p'(())).i&!%.e0.m=("!"emi!(i$0-&+i"l(e-&"i-&i!"1(!"p5B.%&ml
/.C OBSERVACIONES PAREADAS' PRUEBA DE SI3NOS
P+0e." el Si*$o p"+" 80e-&+"- P"+e""-
Tambin se puede utilizar la prueba de signo para probar la hiptesis nula
para observaciones pareadas. Aqu se reemplaza
cada diferencia, di, con un signo ms o menos dependiendo si la diferencia
ajustada, di-d0, es positiva o negativa. A lo largo de esta seccin suponemos que
las poblaciones son simtricas. Sin embargo, aun si las poblaciones son
asimtricas se puede llevar a cabo el mismo procedimiento de prueba, pero las
hiptesis se refieren a las medianas poblacionales en lugar de las medias.
Ejemplo:
1. Una compaa de taxis trata de decidir si el uso de llantas radiales en lugar
de llantas regulares con cinturn mejora la economa de combustible. Se
equipan 16 automviles con llantas radiales y se manejan por un recorrido
de prueba establecido. Sin cambiar de conductores, se equipan los mismos
autos con llantas regulares con cinturn y se manejan una vez ms por el
recorrido de prueba. Se registra el consumo de gasolina, en kilmetros por
litro, de la siguiente manera:
A0&om#@il Ll"$&"- +"i"le-
Ll"$&"- !o$
!i$&0+#$
1 4.2 4.1
2 4.7 4.9
3 6.6 6.2
4 7.0 6.9
5 6.7 6.8
6 4.5 4.4
7 5.7 5.7
8 6.0 5.8
9 7.4 6.9
10 4.9 4.9
11 6.1 6.0
12 5.2 4.9
13 5.7 5.3
14 6.9 6.5
15 6.8 7.1
16 4.9 4.8
Se puede concluir en el nivel de significancia de 0.05 que los autos
equipados con llantas radiales obtienen mejores economas de
combustible que los equipados con llantas regulares con cinturn?
Solucin3
Regla de decisin:
Si zR 1.645 no se rechaza Ho.
Si zR> 1.645 se rechaza Ho.
Se procede ha realizar las diferencias entre de los kilmetros por litro entre llantas
radiales y con cinturn:
A0&om#@il Ll"$&"- +"i"le-
Ll"$&"- !o$
!i$&0+#$

1 4.2 4.1 Z
2 4.7 4.9 -
3 6.6 6.2 Z
4 7.0 6.9 Z
5 6.7 6.8 -
6 4.5 4.4 Z
7 5.7 5.7 5
8 6.0 5.8 Z
9 7.4 6.9 Z
10 4.9 4.9 5
11 6.1 6.0 Z
12 5.2 4.9 Z
13 5.7 5.3 Z
14 6.9 6.5 Z
15 6.8 7.1 -
16 4.9 4.8 Z
Al observar las diferencias se ve que slo existe una n=14, ya que se descartan
los valores de cero. Se tiene r
+
= 11
Decisin y conclusin:
Como 2.14 es mayor a 1.645 se rechaza H0 y se concluye con un = 0.05 que
las llantas radiales mejoran la economa de combustible.
%&&p'(())).i&!%.e0.m=("!"emi!(i$0-&+i"l(e-&"i-&i!"1(!"p5B.%&ml
/.A OBSERVACIONES PAREADAS' PRUEBA DE XILCOKON
Se puede notar que la prueba de signo utiliza slo los signos ms y menos de las
diferencias entre las observaciones y 0 en el caso de una muestra, o los signos
ms y menos de las diferencias entro los pares de observaciones en el caso de la
muestra pareada, pero no toma en consideracin la magnitud de estas diferencias.
Una prueba que utiliza direccin y magnitud, propuesta en 1945 por Frank
Wilcoxon, se llama ahora comnmente p+0e." e +"$*o !o$ -i*$o e Xil!o=o$.
Esta prueba se aplica en el caso de una distribucin continua simtrica. Bajo esta
condicin se puede probar la hiptesis nula 0. Primero se resta de cada
valor muestral y se descarta todas las diferencias iguales a cero. Se asigna un
rango de 1 a la diferencia absoluta ms pequea, un rango de 2 a la siguiente ms
pequea, y as sucesivamente. Cuando el valor absoluto de dos o ms diferencias
es el mismo, se asigna a cada uno el promedio de los rangos que se asignaran si
las diferencias se distinguieran. Por ejemplo, si la quinta y sexta diferencia son
iguales en valor absoluto, a cada una se le asignara un rango de 5.5. Si la
hiptesis 0 es verdadera, el total de los rangos que corresponden a las
diferencias positivas debe ser casi igual al total de los rangos que corresponden a
las diferencias negativas. Se representan esos totales como 4! y 4",
respectivamente. Se designa el menor de 4! y 4" con 4.
Al seleccionar muestras repetidas esperaramos que variaran 4! y 4", y por tanto
4. De esta manera se puede considerar a 4! y 4", y 4 como valores de las
correspondiente variables aleatorias W+, W-, y W. La hiptesis nula 0 se
puede rechazar a favor de la alternativa 0 slo si 4! es pequea y 4" es
grande. Del mismo modo, la alternativa 0 se puede aceptar slo si 4! es
grande y 4" es pequea. Para una alternativa bilateral se puede rechazar H0 a
favor de H1 si 4! o 4" y por tanto 4 son suficientemente pequeas. No importa cul
hiptesis alternativa puede ser, rechazar la hiptesis nula cuando el valor de la
estadstica apropiada W+, W-, o W es suficientemente pequeo.
Do- 80e-&+"- !o$ O.-e+@"!io$e- P"+e""-
Para probar la hiptesis nula de que se muestrean dos poblaciones simtricas
continuas con i para el caso de una muestra pareada, se clasifican las
diferencias de las observaciones paradas sin importar el signo y se procede como
en el caso de una muestra. Los diversos procedimientos de prueba para los casos
de una sola muestra y de una muestra pareada se resumen en la siguiente tabla:
No es difcil mostrar que siempre que n<5 y el nivel de significancia no exceda
0.05 para una prueba de una cola 0.10 para una prueba de dos colas, todos los
valores posibles de 4!, 4", o 4 conducirn a la aceptacin de la hiptesis nula. Sin
embargo, cuando 5 n 30, la tabla A.16 muestra valores crticos aproximados de
W+ y W- para niveles de significancia iguales a 0.01, 0.025 y 0.05 para una prueba
de una cola, y valores crticos de W para niveles de significancia iguales a 0.02,
0.05 y 0.10 para una prueba de dos colas. La hiptesis nula se rechaza si el valor
calculado 4!, 4", o 4 e- me$o+ o i*0"l [0e el valor de tabla apropiado. Por
ejemplo, cuando n=12 la tabla A.16 muestra que se requiere un valor de 4+ 17
para que la alternativa unilateral sea significativa en el nivel 0.05.
Ejemplos:
1. Los siguientes datos representan el nmero de horas que un compensador
opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0,
1.2 y 1.7. Utilice la prueba de rango con signo para probar la hiptesis en el
nivel de significancia de 0.05 que este compensador particular opera con
una media de 1.8 horas antes de requerir una recarga.
Solucin3
H0; i
H1; i
Se proceder a efectuar las diferencias y a poner rango con signo a los
datos.
D"&o i < "&o - 1.A R"$*o-
1.5 -0.3 /./
2.2 0.4 C
0.9 -0.9 15
1.3 -0.5 A
2.0 0.2 2
1.6 -0.2 2
1.8 0 Se "$0l"
1.5 -0.3 /./
2.0 0.2 2
1.2 -0.6 G
1.7 -0.1 1
Regla de decisin:
Para una n = 10, despus de descartar la medicin que es igual a 1.8, la
tabla A.16 muestra que la regin crtica es w 8.
Clculos:
4! = 7 + 3 + 3 = 13
4" = 5.5 + 10 + 8 + 3 + 5.5 + 9 + 1 = 42
por lo que 4 = 13 (menor entre 4! y 4").
Decisin y Conclusin:
Como 13 no es menor que 8, no se rechaza H0 y se concluye con un =
0.05 que el tiempo promedio de operacin no es significativamente
diferente de 1.8 horas.

2. Se afirma que un estudiante universitario de ltimo ao puede aumentar su
calificacin en el rea del campo de especialidad del examen de registro de
graduados en al menos 50 puntos si de antemano se le proporcionan
problemas de muestra. Para probar esta afirmacin, se dividen 20
estudiantes del ltimo ao en 10 pares de modo que cada par tenga casi el
mismo promedio de puntos de calidad general en sus primeros aos en la
universidad. Los problemas y respuestas de muestra se proporcionan al
azar a un miembro de cada par una semana antes del examen. Se registran
las siguientes calificaciones del examen:
P"+
Co$
p+o.lem"-
e
m0e-&+"
Si$
p+o.lem"-
e
m0e-&+"
1 531 509
2 621 540
3 663 688
4 579 502
5 451 424
6 660 683
7 591 568
8 719 748
9 543 530
10 575 524
Pruebe la hiptesis nula en el nivel de significancia de 0.05 de que
los problemas aumentan las calificaciones en 50 puntos contra la
hiptesis alternativa de que el aumento es menor a 50 puntos.
Solucin3
La prueba de rango con signo tambin se puede utilizar para probar la hiptesis
nula i d 0. En este caso las poblaciones no necesitan ser simtricas. Como
con la prueba de signo, se resta d0 de cada diferencia, se clasifican las diferencias
ajustadas sin importar el signo y se aplica el mismo procedimiento.
En este caso d0 = 50, por lo que se procede a calcular las diferencias entre las
muestras y luego restarles el valor de 50. Se representara con iy la
calificacin media de todos los estudiantes que resuelven el examen en cuestin
con y sin problemas de muestra, respectivamente.
H0; i
H1; i
Regla de decisin:
Para n=10 la tabla muestra que la regin crtica es 4+ 11.
Clculos:

P"+
Co$
p+o.lem"-
e
m0e-&+"
Si$
p+o.lem"-
e
m0e-&+"
i
i
Y
5
R"$*o-
1 531 509 22
-
28
/
2 621 540 81 31 E
3 663 688
-
25
-
75
G
4 579 502 77 27 2./
5 451 424 27
-
23
2
6 660 683
-
23
-
73
A
7 591 568 23
-
27
2./
8 719 748 - - 15
29 79
9 543 530 13
-
37
C
10 575 524 51 1 1
4! = 6 + 3.5 + 1 = 10.5
Decisin y Conclusin:
Como 10.5 es menor que 1 se rechaza H0 y se concluye con un = 0.05 que los
problemas de muestra, en promedio, no aumentan las calificaciones de
registro de graduados en 50 puntos.
Ap+o=im"!i#$ No+m"l p"+" 80e-&+"- 3+"$e-
Cuando n 15, la distribucin muestral de W+ W- se aproxima a la distribucin
normal con media y varianza .
Por tanto, cuando n excede el valor ms grande en la tabla A.16, se puede utilizar
la estadstica
para determinar la regin crtica de la prueba.
%&&p'(())).i&!%.e0.m=("!"emi!(i$0-&+i"l(e-&"i-&i!"1(!"p5B.%&ml

S-ar putea să vă placă și