Documente Academic
Documente Profesional
Documente Cultură
Grupo: 309-D
Fecha: 13/ENE/2018
1
Contenido
INTRODUCCION GENERAL .................................................................................. 4
UNIDAD 2 ANALISIS DE REGRESION LINEAL Y MULTIPLE ............................... 5
INTRODUCCION .................................................................................................... 5
2.7 Análisis de regresión múltiple ............................................................................ 6
2.8 Residuales y graficas de residuales ................................................................ 14
2.9 Interpretación del intervalo de confianza ......................................................... 20
2.10 Uso del coeficiente de determinación múltiple .............................................. 22
UNIDAD 3 SERIES DE TIEMPO ........................................................................... 23
INTRODUCCION .................................................................................................. 23
3.6 Tendencia irregular ......................................................................................... 24
3.7 Pronósticos basados en factores de tendencia y estacionales ....................... 25
3.8 Pronósticos, cíclicos e indicadores económicos .............................................. 28
3.9 Técnica y uso de promedios móviles y suavización exponencial en las
organizaciones ...................................................................................................... 30
Métodos de Promedios Simples......................................................................... 33
El pronóstico es la media de los valores precedentes hasta el dato actual. ...... 33
Métodos de Promedios Móviles ......................................................................... 34
Se especifica un número de puntos de datos y se calcula la media para las ‘n’
observaciones más recientes. ............................................................................ 34
3.10 Ventajas y desventajas de análisis de las series de tiempo .......................... 36
Ventajas ................................................................................................................ 36
UNIDAD 4 ESTADISTICA NO PARAMETRICA .................................................... 37
INTRODUCCION .................................................................................................. 37
4.1 Escalas de medición ....................................................................................... 38
4.2 Métodos estadísticos paramétricos contra no paramétricos............................ 42
4.3 Prueba de rachas para aleatoriedad ............................................................... 44
4.4 Una muestra: Prueba de signos ...................................................................... 45
2
4.4 Una muestra: Prueba de Wilcoxon .................................................................. 46
4.5 Dos muestras: Prueba de Mann- Whitney ....................................................... 48
4.7 Observaciones pareadas: Prueba de Signos ................................................. 49
4.8 Observaciones pareadas: Prueba de Wilcoxon ............................................... 52
4.9 Varias muestras independientes: Prueba de Krauskal- Wallis ........................ 59
4.10 Aplicaciones con el uso del software ............................................................. 64
CONCLUSION GENERAL .................................................................................... 65
BIBLIOGRAFIA ..................................................................................................... 66
3
INTRODUCCION GENERAL
4
se puede asumir que los datos se ajusten a una distribución conocida, cuando el
nivel de medida empleado no sea, como mínimo, de intervalo.
INTRODUCCION
La unidad dos nos enseña a cómo resolver los análisis de regresión lineal y
múltiple tomando como primer tema el análisis de regresión múltiple y correlación
donde aprenderemos que es cada uno de estos temas de la misma forma
veremos cómo se elaboran los gráficos de residuales y que son los residuales.
5
2.7 Análisis de regresión múltiple
Y
Plano formado a a = intersección en Y
partir de los
puntos
muestrales:
ŷ = β0+ β1 X1 + β2 X2 Punto
observado
Error
Punto
correspondiente
en el plano
X1
6
X2
Una de las ventajas de regresión múltiple es que utilizamos mayor información
para obtener un pronóstico más acertado y para ello debemos de definir la
ecuación de regresión múltiple ya que se pueden tener más de tres variables. El
modelo de regresión lineal múltiple es:
n + ∑ + ∑
+. . . + ∑ = ∑y
y
. . . . .
. . . . .
. . . . .
∑ + ∑ + ∑ +. . . + ∑ =∑ y
Estimación de parámetros
7
Dónde:
8
Estos estimadores tienen las propiedades de ser insesgado, con varianza mínima
insesgado, consistente y suficiente.
La matriz es:
Inferencias sobre el
modelo
Es una prueba para determinar si existe una relación lineal entre la respuesta “y” y
un subconjunto de las variables de regresión . Las hipótesis apropiadas
son:
9
El rechazo de implica que al menos una de las variables de regresión
tiene una contribución significativa en el modelo.
En la prueba de significancia la suma total de cuadrados se divide en la suma de
cuadrados debida a la regresión y la suma de cuadrados debida al error digamos:
Grados
Fuentes de
de SS MS
variación
libertad
𝑆𝑆𝑅
Regresión k-1
𝑘 −1
𝑆𝑆𝐸
Error n-k
𝑛−𝑘
′ (∑ 𝑦)2
Total n-1 𝑆𝑆𝑇 = 𝑦 𝑦 −
𝑛
Análisis de correlación
10
Creado por Karl Pearson en 1900, que también se le llama coeficiente de
correlación momento - producto de Pearson (r de Pearson), describe la fuerza de
la relación entre dos variables. Los coeficientes de correlación r siempre oscilan
entre valores de 1 y –1. El valor cero 0 significa que no existe correlación entre
ambas variables. Un valor positivo indica que a incrementos en la variable A se
producen incrementos proporcionales en B y un valor negativo indica lo contrario.
Podemos graficar la correlación entre las dos variables a través de una gráfica de
dos ejes (abscisas y ordenadas) cartesianos.
Para interpretar el coeficiente de correlación:
Valor de r de 0 a 0.25 implica que no existe correlación entre ambas variables.
Valor de r de 0.25 a 0.50 implica una correlación baja a moderada.
Valor de r de 0.50 a 0.75 implica correlación moderada a buena.
Valor de r de 0.75 o mayor, implica una muy buena a excelente correlación.
Estos rangos de valores se pueden extrapolar a correlaciones negativas también.
Un coeficiente de correlación cercano a cero, digamos +0.08 o -0.08, muestra que
la relación entre las variables es débil. Coeficientes de -0.91 y +0.91 tienen igual
fuerza, ambos indican una muy fuerte correlación entre las dos variables.
11
correlación entre ambas, que se representa con la letra r. El r = 0.88. Esto significa
que a mayor altura correspondería mayor peso.
Cuando r = 1 existe una relación funcional entre las dos variables de modo que el
valor de cada variable se puede obtener a partir de la otra. Los puntos de la nube
están todos situados sobre una recta de pendiente positiva.
Esto ocurre, por ejemplo, cuando una barra metálica se somete a distintas
temperaturas, x1, x2,…, xn, y se miden con precisión sus correspondientes
longitudes, y1, y2,…, yn. Las longitudes se obtienen funcionalmente a partir de las
temperaturas de modo que, conociendo la temperatura a que se va a calentar, se
podría obtener la longitud que tendría la barra.
Es el caso de las estaturas, x1, x2,…, xn, y los pesos, y1, y2,…, yn, de diversos
atletas de una misma especialidad. A mayor estatura cabe esperar que tengan
mayor peso, pero puede haber excepciones.
Cuando r es próximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la
correlación es muy débil (prácticamente no hay correlación). La nube de puntos es
amorfa.
12
Es lo que ocurriría si lanzáramos simultáneamente dos dados y anotáramos sus
resultados: puntuación del dado rojo, xi; puntuación del dado verde, yi. No existe
ninguna relación entre las puntuaciones de los dados en las diversas tiradas.
Cuando r es próximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlación
fuerte y negativa. Los valores de cada variable tienden a disminuir cuando
aumentan los de la otra. Los puntos de la nube están próximos a una recta de
pendiente negativa.
13
2.8 Residuales y graficas de residuales
Análisis residual
Cuando un modelo de regresión, tal como el modelo de regresión
lineal se selecciona para su uso, uno no puede estar seguro por
adelantado que el modelo es apropiado. El analista debe realizar
análisis para examinar cuan adecuado es el modelo que se propone
de manera tentativa. El ajuste de un modelo de regresión requiere
varias suposiciones.
14
Hay algunos gráficos que estudian la valides del modelo, así como
algunas pruebas estadísticas formales. Análisis de Residuales es
útil para verifica la hipótesis de que los errores tienen una
distribución que es aproximadamente normal con una varianza
constante, así como para determinar la utilidad que tiene la adición
de más términos al modelo.
Los residuos de un modelo de regresión es la diferencia entre el
valor observado y el valor ajustado a partir del modelo.
𝐸𝑖 = 𝑌𝑖 − 𝐸(𝑌𝑖)
Estandarización de residuales
15
En ocasiones en el análisis de residuales es conveniente hacer un
análisis de los residuales estandarizando,
Grafico de residuales
16
Los residuos que se alejan mucho de este intervalo puede indicar la
presencia de una observación que no es común con respecto a los
demás datos. Vale la pena analizarla, ver que ocurrió.
Las gráficas residuales a menudo se construyen:
1. Como una consecuencia en el tiempo (si se conoce).
2. Contra las
3. Contra la variable independiente “x”.
𝑒𝑖
2 𝑒𝑖
1
0 0
-1
-2
𝑥𝑖 , 𝑦̂ 𝑖 , 𝑛 𝑦̂ 𝑖
17
En estos gráficos la varianza de las observaciones puede aumentar
con el tiempo o con la magnitud de 𝑦̂𝑖 o 𝑥𝑖 o pueden disminuir, esto
es, cuando aumenta 𝑦̂𝑖 aumenta la variación de las observaciones,
residuante o a mayor valor de , la varianza de la observación
disminuye. Esto indica que la varianza no es constante.
𝑒𝑖
𝑥𝑖 , 𝑦̂ 𝑖
𝑦̂ 𝑖 o 𝑥𝑖medio
Hay mayor varianza para las observaciones en el punto . de
Esto también se puede eliminar con una transformación.
Todos aquellos diagramas que presentan una tendencia, indican
que el modelo no es apropiado.
El diagrama que se presenta con una tendencia ascendente o
descendente indica que el error no es independiente.
𝑒𝑖
𝑒𝑖
𝑒𝑖
0
0
18
El grafico que nos indica la distribución de probabilidad de los errores es normal
es que al graficar la probabilidad acumulada normal centra los residuos nos da
que los puntos se ubican de manera aproximada a lo largo de una línea recta.
50
40
30
20
10
-1 0 1 𝑒𝑖
Z
6
5
4
3
2
1
0
-1
-2
-3
-4
-5
-6
𝑥𝑖 , 𝑦̂ 𝑖 , 𝑛
19
𝑒𝑖
𝑥𝑖 , 𝑦̂ 𝑖 , 𝑛
20
La estimación por intervalos de confianza consiste en determinar un
posible rango de valores o intervalo (a; b), en el que, con una determinada
probabilidad, sus límites contendrán el valor del parámetro poblacional que
andamos buscando. Para cada muestra obtendremos un intervalo distinto
que, para el X % de ellas, contendrá el verdadero valor del parámetro. A este
intervalo se le denomina intervalo de confianza.
Ejemplo.
Un estudio pretende estimar el porcentaje de hipertensos que hay entre las
personas mayores de 65 años en la Comunidad Valenciana. Además de una
estimación puntual de este porcentaje, interesa obtener un intervalo de confianza
al 95% para este parámetro de la población (P). Para llevar a cabo este estudio,
han sido seleccionadas 350 personas mayores de 65 años en toda la Comunidad,
resultando tras realizar las pruebas correspondientes que 167 padecen de
hipertensión.
Estimador puntual: (167/350) x100=47.71%
Intervalo de confianza: [42.48, 52.94]
Con un 95% de confianza, el porcentaje de hipertensos entre las personas
mayores de 65 años en la Comunidad Valenciana estaría contenido en el intervalo
[42.48, 52.94], es decir, aproximadamente entre el 42.5% y 53% de la población.
21
2.10 Uso del coeficiente de determinación múltiple
Ejemplo
INTRODUCCION
En esta unidad estudiaremos lo que son las series de tiempo pero principalmente
lo que es la tendencia irregular, los pronósticos basados en factores de tendencia
y estacionales, pronósticos, ciclos e indicadores económicos, técnica y uso de
promedios móviles y suavización exponencial en las organizaciones y ventajas y
desventajas del análisis de las series de tiempo.
23
las ventajas y las desventajas de hacer un análisis a las series de tiempo y las
distintas técnicas.
Variación irregular
25
ECUACION DE LA LÍNEA DE TENDENCIA:
YT = bo + b1 X = bo + b1 x
12 12 12 12 144
YT = bo + b1 X= bo + b1 x
4 4 44 16
26
YT = bo - (5.5)
b1 + b1
x 12
144 144
YT = bo - (1.5) b1 + b1 x
4 16 16
27
3.8 Pronósticos, cíclicos e indicadores económicos
28
Indicadores coincidentes: está compuesto por series de tiempo cuyos puntos
de cambio han coincidido usualmente con el ciclo económico general.
29
3.9 Técnica y uso de promedios móviles y suavización
exponencial en las organizaciones
Modelos No Formales
Las más simples suponen que los periodos recientes son los mejores.
20
Para el 1er. Trimestre 2012: 09
20
Para el periodo 25 se tiene: 10
Proyecciones no
Error de pronóstico:
20
muy 11
coherentes
20
Para el periodo 26 se tiene 850 error: - 12
250
30
Modificación
model
del
o
Modelo:
31
Modelo:
Las ventas en el 1er. Trimestre son por lo regular mayores que aquellas
en cualquier otro trimestre.
La variable tomará el valor que tenia el trimestre del año anterior. Asi
para el 1er. Trimestre 2012:
32
Combinación variación
estacional + tendencia.
Modelo posible:
33
Error:
34
No maneja muy bien la tendencia o la estacionalidad, aunque lo hace
mejor que el método de promedio simple
Error:
35
3.10 Ventajas y desventajas de análisis de las series de tiempo
Ventajas
Solo se requiere conocer una cantidad limitada de datos para hacer pronóstico sin
importar el horizonte de tiempo y es bastante simple.
No requiere tener información de las variables exógenas que afectan la serie para
su análisis, pero pueden ser univariadas o multivariadas.
Desventajas
Identifica un patrón con base a datos pasados, lo que implica que debe hacerse
nuevas estimaciones con base a datos nuevos.
36
UNIDAD 4 ESTADISTICA NO PARAMETRICA
INTRODUCCION
En esta unidad los temas nos servirán para conocer más y sobre todo como
resolver los ejercicios o problemas con las pruebas de signos, las pruebas de
Wilcoxon, pruebas de Mann- whitney pero sobre todo para entender en que nos
sirve o en que podemos aplicar todos estos métodos para poder llegar a
resultados concretos y que nos ayude a resolver cada problema de este tipo.
De la misma manera nos servirá para conocer cuáles son los softwares que
podemos ocupar para resolver los problemas de este tipo de una manera
computarizada y mucho mas practica.
37
4.1 Escalas de medición
Existen diversas definiciones del término "medición", pero estas dependen de los
diferentes puntos de vista que se puedan tener al abordar el problema de la
cuantificación y el proceso mismo de la construcción de una escala o instrumento
de medición. En general, se entiende por medición la asignación de números a
elementos u objetos para representar o cuantificar una propiedad. El problema
básico está dado por la asignación un numeral que represente la magnitud de la
característica que queremos medir y que dicho números pueden analizarse por
manipulaciones de acuerdo a ciertas reglas. Por medio de la medición, los
atributos de nuestras percepciones se transforman en entidades conocidas y
manejables llamadas "números". Es evidente que el mundo resultaría caótico si no
pudiéramos medir nada. En este caso cabría preguntarse de que le serviría la
físico saber que el hierro tiene una alta temperatura de fusión.
Escala Nominal:
La escala de medida nominal, puede considerarse la escala de nivel más bajo, y
consiste en la asignación, puramente arbitraria de números o símbolos a cada una
de las diferentes categorías en las cuales podemos dividir el carácter que
observamos, sin que puedan establecerse relaciones entre dichas categorías, a
no ser el de que cada elemento pueda pertenecer a una y solo una de estas
categorías. Se trata de agrupar objetos en clases, de modo que todos los que
pertenezcan a la misma sean equivalentes respecto del atributo o propiedad en
estudio, después de lo cual se asignan nombres a tales clases, y el hecho de que
a veces, en lugar de denominaciones, se le atribuyan números, puede ser una de
las razones por las cuales se le conoce como "medidas nominales".
Educación 1
Administración 2
Se ha de tener presente que los números asignados a cada categoría sirven única y
exclusivamente para identificar la categoría y no poseen propiedades cuantitativas.
Escala Ordinal:
En caso de que puedan detectarse diversos grados de un atributo o propiedad de
un objeto, la medida ordinal es la indicada, puesto que entonces puede recurrirse
a la propiedad de "orden" de los números asignándolo a los objetos en estudio de
modo que, si la cifra asignada al objeto A es mayor que la de B, puede inferirse
que A posee un mayor grado de atributo que B.
Los caracteres que posee una escala de medida ordinal permiten, por el hecho
mismo de poder ordenar todas sus categorías, el cálculo de las medidas
estadísticas de posición, como por ejemplo la mediana.
Ejemplo:
Al asignar un número a los pacientes de una consulta médica, según el orden de
llegada, estamos llevando una escala ordinal, es decir que al primero en llegar
ordinal, es decir que al primeo en llegar le asignamos el nº 1, al siguiente el nº 2 y
así sucesivamente, de esta forma, cada número representará una categoría en
general, con un solo elemento y se puede establecer relaciones entre ellas, ya que
los números asignados guardan la misma relación que el orden de llegada a la
consulta.
39
Escalas de intervalos iguales:
La escala de intervalos iguales, está caracterizada por una unidad de medida
común y constante que asigna un número igual al número de unidades
equivalentes a la de la magnitud que posea el elemento observado. Es importante
destacar que el punto cero en las escalas de intervalos iguales es arbitrario, y no
refleja en ningún momento ausencia de la magnitud que estamos midiendo. Esta
escala, además de poseer las características de la escala ordinal, encontramos
que la asignación de los números a los elemento es tan precisa que podemos
determinar la magnitud de los intervalos (distancia) entre todos los elementos de
la escala. Sin lugar a dudas, podemos decir que la escala de intervalos es la
primera escala verdaderamente cuantitativa y a los caracteres que posean esta
escala de medida pueden calculársele todas las medidas estadísticas a excepción
del coeficiente de variación.
Ejemplo:
El lapso transcurrido entre 1998-1999 es igual al que transcurrió entre 2000-2001.
40
Ejemplo: En una encuesta realizada en un barrio de esta localidad se observó
que hay familias que no tienen hijos, otras tienen 6 hijos que es exactamente el
doble de hijos que aquellas que tienen 3 hijos.
41
4.2 Métodos estadísticos paramétricos contra no paramétricos
43
4.3 Prueba de rachas para aleatoriedad
44
4.4 Una muestra: Prueba de signos
La prueba de los signos puede utilizarse para probar una hipótesis nula referente
al valor de la medida de la población. En consecuencia, es el equivalente no
paramétrico a la prueba de una hipótesis referente al valor de la medida de la
población. Es necesario que los valores de la muestra aleatoria se encuentren al
menos en la escala ordinal, aunque no se requiere de supuestos acerca de la
forma de la distribución de la población.
Las hipótesis nula y alternativa pueden aludir ya sea a una prueba bilateral o
unilateral. Si Med denota la mediana de la población y Med0 designa al valor
hipotético, las hipótesis nulas y alternativa para una prueba de dos extremos son:
H0: Med=Med0
H1: Med≠Med0
Se aplica un signo de más a cada valor muestra observada mayor que el valor
hipotético de la mediana y un signo de menos a cada valor menor que el valor
hipotético de la mediana. Si un valor maestral es exactamente igual a la mediana
hipotética, no se le aplica ningún signo, con lo que el tamaño de muestra efectivo
se reduce. Si la hipótesis nula sobre el valor de la mediana es cierta, el número de
signos de más debería ser aproximadamente igual al número de signos de menos.
O, para decirlo de otra manera, la proporción de signos de mas debe ser de
alrededor de 0.50. Por consiguiente, la hipótesis nula que se prueba en una
prueba bilaterales H0: π=0.50, donde π es la proporción de la población de los
signos de mas o de menos. Así, una hipótesis referente al valor de la mediana se
prueba en realidad como una hipótesis sobre π. Si la muestra es grande, se puede
hacer uso de la distribución normal.
45
4.4 Una muestra: Prueba de Wilcoxon
La prueba de Wilcoxon puede usarse para probar una hipótesis nula referente al
valor de la medida de la población. Pero dado que la prueba Wilcoxon considera la
magnitud de la diferencia entre cada valor muestral y el valor hipotético de la
mediana, es una prueba más sensible que la prueba de los signos.
Sea X una variable aleatoria continua. Podemos plantear cierta hipótesis sobre la
mediana de dicha variable en la población, por ejemplo, M=M0. Extraigamos una
muestra de tamaño m y averigüemos las diferencias Di = X - M0. Consideremos
únicamente la n diferencias no nulas (n “m). Atribuyamos un rango u orden (0i) a
cada diferencia según su magnitud sin tener en cuenta el signo. Sumemos por un
lado los 0+i, rangos correspondientes a diferencias positivas y por otro lado los 0-i,
rangos correspondientes a diferencias negativas.
El contraste de Wilcoxon puede ser utilizado para comparar datos por parejas.
Supongamos que la distribución de las diferencias es simétrica, y nuestro
propósito es contrastar la hipótesis nula de que dicha distribución está centrada en
0. Eliminando aquellos pares para los cuales la diferencia es 0 se calculan los
rangos en orden creciente de magnitud de los valores absolutos de las restantes
diferencias.
46
normal de probabilidad y calculando la estadística de prueba z, de la siguiente
manera: Z= (T-µ_R)/σ_T.
47
4.5 Dos muestras: Prueba de Mann- Whitney
El procedimiento es el siguiente:
1. Hipótesis:
Hipótesis nula: No existen diferencias entre los dos grupos.
Hipótesis alternativa: Hay diferencias entre los dos grupos.
2. Estadístico de contraste:
En este caso, el estadístico a emplear se denomina U de Mann-Whitney, que se
calcula siguiendo estos pasos:
a) Se procede a ordenar las puntuaciones de las dos muestras como si fueran una
sola.
b) A cada una de ellas se le asigna un rango.
c) Se calcula el estadístico T, a partir de la suma de los rangos de la muestra de
menor tamaño.
d) Teniendo T, se calcula U:
48
4.7 Observaciones pareadas: Prueba de Signos
para observaciones pareadas. Aquí se reemplaza cada diferencia, di, con un signo
más o menos dependiendo si la diferencia ajustada, di-d0, es positiva o negativa. A
lo largo de esta sección suponemos que las poblaciones son simétricas. Sin
embargo, aun si las poblaciones son asimétricas se puede llevar a cabo el mismo
procedimiento de prueba, pero las hipótesis se refieren a las medianas
poblacionales en lugar de las medias.
Ejemplo:
Llantas con
Automóvil Llantas radiales
cinturón
1 4.2 4.1
2 4.7 4.9
3 6.6 6.2
4 7.0 6.9
5 6.7 6.8
6 4.5 4.4
7 5.7 5.7
8 6.0 5.8
9 7.4 6.9
10 4.9 4.9
49
11 6.1 6.0
12 5.2 4.9
13 5.7 5.3
14 6.9 6.5
15 6.8 7.1
16 4.9 4.8
¿Se puede concluir en el nivel de significancia de 0.05 que los autos equipados
con llantas radiales obtienen mejores economías de combustible que los
equipados con llantas regulares con cinturón?
Solución:
Regla de decisión:
Se procede a realizar las diferencias entre de los kilómetros por litro entre llantas
radiales y con cinturón:
50
Llantas con d
Automóvil Llantas radiales
cinturón
1 4.2 4.1 +
2 4.7 4.9 -
3 6.6 6.2 +
4 7.0 6.9 +
5 6.7 6.8 -
6 4.5 4.4 +
7 5.7 5.7 0
8 6.0 5.8 +
9 7.4 6.9 +
10 4.9 4.9 0
11 6.1 6.0 +
12 5.2 4.9 +
13 5.7 5.3 +
14 6.9 6.5 +
15 6.8 7.1 -
16 4.9 4.8 +
Al observar las diferencias se ve que sólo existe una n=14, ya que se descartan
los valores de cero. Se tiene r+ = 11
Decisión y conclusión:
51
4.8 Observaciones pareadas: Prueba de Wilcoxon
Se puede notar que la prueba de signo utiliza sólo los signos más y menos de las
diferencias entre las observaciones y 0 en el caso de una muestra, o los signos
más y menos de las diferencias entre los pares de observaciones en el caso de la
muestra pareada, pero no toma en consideración la magnitud de estas diferencias.
Una prueba que utiliza dirección y magnitud, propuesta en 1945 por Frank
Wilcoxon, se llama ahora comúnmente prueba de rango con signo de
Wilcoxon.
Esta prueba se aplica en el caso de una distribución continua simétrica. Bajo esta
condición se puede probar la hipótesis nula 0. Primero se resta de cada
valor muestral y se descarta todas las diferencias iguales a cero. Se asigna un
rango de 1 a la diferencia absoluta más pequeña, un rango de 2 a la siguiente más
pequeña, y así sucesivamente. Cuando el valor absoluto de dos o más diferencias
es el mismo, se asigna a cada uno el promedio de los rangos que se asignarían si
las diferencias se distinguieran. Por ejemplo, si la quinta y sexta diferencia son
iguales en valor absoluto, a cada una se le asignaría un rango de 5.5. Si la
hipótesis 0 es verdadera, el total de los rangos que corresponden a las
diferencias positivas debe ser casi igual al total de los rangos que corresponden a
las diferencias negativas. Se representan esos totales como w+ y w-,
respectivamente. Se designa el menor de w+ y w- con w.
52
diferencias de las observaciones paradas sin importar el signo y se procede como
en el caso de una muestra. Los diversos procedimientos de prueba para los casos
de una sola muestra y de una muestra pareada se resumen en la siguiente tabla:
53
valor calculado w+, w-, o w es menor o igual que el valor de tabla apropiado. Por
ejemplo, cuando n=12 la tabla A.16 muestra que se requiere un valor de w
Ejemplos:
1. Los siguientes datos representan el número de horas que un compensador
opera antes de requerir una recarga: 1.5, 2.2, 0.9, 1.3, 2.0, 1.6, 1.8, 1.5, 2.0,
1.2 y 1.7. Utilice la prueba de rango con signo para probar la hipótesis en el
nivel de significancia de 0.05 que este compensador particular opera con
una media de 1.8 horas antes de requerir una recarga.
Solución:
H0;
H1;
Se procederá a efectuar las diferencias y a poner rango con signo a los
datos.
1.
Dato di = dato - 1.8 Rangos
2.2 0.4 7
0.9 -0.9 10
1.3 -0.5 8
2.0 0.2 3
1.6 -0.2 3
1.8 0 Se anula
54
1.5 -0.3 5.5
2.0 0.2 3
1.2 -0.6 9
1.7 -0.1 1
Regla de decisión:
Para una n = 10, después de descartar la medición que es igual a 1.8, la
tabla A.16 muestra que la región crítica es w 8.
Cálculos:
W+ = 7 + 3 + 3 = 13
w- = 5.5 + 10 + 8 + 3 + 5.5 + 9 + 1 = 42
Por lo que w = 13 (menor entre w+ y w-).
Decisión y Conclusión:
Como 13 no es menor que 8, no se rechaza H0 y se concluye con un =
0.05 que el tiempo promedio de operación no es significativamente
diferente de 1.8 horas.
55
Par Con problemas de Sin problemas de
muestra muestra
1 531 509
2 621 540
3 663 688
4 579 502
5 451 424
6 660 683
7 591 568
8 719 748
9 543 530
10 575 524
56
calificación media de todos los estudiantes que resuelven el examen en cuestión
con y sin problemas de muestra, respectivamente.
H0;
H1;
Regla de decisión:
Para n=10 la tabla muestra que la región crítica es w+ 11.
Cálculos:
La prueba de rango con signo también se puede utilizar para probar la hipótesis
nula
d0. En este caso las poblaciones no necesitan ser simétricas. Como con
la prueba de signo, se resta d0 de cada diferencia, se clasifican las diferencias
1 531 509 22 - 5
28
2 621 540 81 31 6
3 663 688 - - 9
25 75
5 451 424 27 - 2
23
57
6 660 683 - - 8
23 73
8 719 748 - - 10
29 79
9 543 530 13 - 7
37
10 575 524 51 1 1
W+ = 6 + 3.5 + 1 = 10.5
Decisión y Conclusión:
58
4.9 Varias muestras independientes: Prueba de Krauskal- Wallis
Se utiliza cuando:
Muestras pequeñas.
59
Contrastar hipótesis (direccional o no direccional).
Pasos:
1. Ordenar las observaciones en rangos de todos los grupos, del más pequeño
al mayor.
3. Detectar las ligas o empates entre los rangos de cada grupo y aplicar la
Ejemplo:
Un investigador estudia el efecto benéfico de cuatro sustancias
anticonvulsionantes (fenobarbital, difenilhidantoinato -DFH-, diacepam y
clonacepam), para proteger contra la muerte producida por un convulsionante, la
tiosemicarbazida, la cual se manifiesta después de crisis clónica y tónica,
respectivamente. El investigador elige al azar a 24 ratones de la misma edad y
peso y les inyecta anticonvulsionante previamente a la tiosemicarbazida. A partir
de este momento, inicia la cuenta en tiempo, hasta que mueren los ratones;
además mide las observaciones en horas de tiempo transcurrido.
60
Las mediciones se realizan en horas, por lo que la variable puede ser continua y,
en consecuencia, una escala de intervalo; sin embargo, algunos ratones no
murieron y el tiempo está calificado nominalmente como infinito. Este obstáculo
impide concederle la calificación de escala de intervalo, por lo cual se elige una
escala de tipo ordinal.
Planteamiento de la hipótesis.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se
rechaza Ho.
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha
Tiempo en horas que tarda el fármaco en causar la muerte en ratones.
61
De acuerdo con los pasos, se inicia con el ordenamiento de todas las
observaciones a partir del valor más pequeño hasta el mayor y la detección de las
ligas o empates.
Arreglo de los datos para asignar rangos y detectar las ligas o empates.
62
Con el ajuste de L, se procede a calcular el valor estadístico de la prueba de
KruskalWallis.
Decisión.
Como el valor estadístico H tiene una probabilidad menor que 0.01 y éste es
menor que el nivel de significancia, se acepta Ha y se rechaza Ho.
Interpretación.
Entre las drogas anticonvulsionantes, existe diferencia significativa en cuanto a la
protección de muerte a los ratones cuando se les inyecta el fármaco
tiosemicarbazida. El diacepam se manifestó principalmente con los rangos más
altos y se muestra distinto de los demás anticonvulsionantes (véase la siguiente
figura). Sumatoria de rangos de las observaciones.
63
4.10 Aplicaciones con el uso del software
Software estadístico
El uso de ordenadores y calculadoras facilita el que los alumnos comprendan
mejor temas complejos de matemáticas. Es evidente que en muchos casos la
tecnología agiliza y supera, la capacidad de cálculo de la mente humana, con
ayuda de la tecnología, los alumnos tienen más tiempo para concentrarse en
enriquecer su aprendizaje matemático.
Excel o Calc
Javascript
Applet de Java, Geogebra
Proyecto Descartes
Software Libre
Otros Software
64
CONCLUSION GENERAL
65
BIBLIOGRAFIA
https://es.slideshare.net/isaacgflores/anlisis-de-series-de-tiempo
https://www.uv.es/~mamtnez/IECRC.pdf
Glantz SA. Primer of Biostatistics, 3th ed., McGraw Hill, New Yor, 1992
https://campusvirtual.univalle.edu.co/moodle/pluginfile.php/1006795/mod_resource
/content/1/Exposici%C3%B3n%209%20An%C3%A1lisis%20de%20Series%20de
%20Tiempo.pdf
http://www.estadisticaparatodos.es/software/software_otros.html
http://www.virtual.sepi.upiicsa.ipn.mx/mdid/anasetie.pdf
66