Sunteți pe pagina 1din 115

Docente: Luis García Sandoval

Alumno: Yahir López Gutiérrez


Asignatura: Análisis de datos
Tema: Estadística no paramétrica

Contenido

pág. 1
Análisis de regresión lineal y correlación ..............................................................................4
Diagrama de dispersión....................................................................................................4
Ejemplo .......................................................................................................................6
Regresión lineal. ..............................................................................................................9
Coeficiente de determinación......................................................................................... 11
El Coeficiente de correlación .......................................................................................... 12
Ejemplo ..................................................................................................................... 13
Error estándar................................................................................................................ 14
Ejemplos ................................................................................................................... 16
Aplicación práctica ......................................................................................................... 17
Resultados ................................................................................................................. 20
Conclusiones .............................................................................................................. 20
Fuente consultada ...................................................................................................... 21
Referencias de la apicación ......................................................................................... 21
Herramienta de apoyo ................................................................................................... 23
Interpretación de resultados ..................................................................................... 24
Conclusión ................................................................................................................. 28
Referencias .................................................................................................................... 29
Investigación de varianza de un factor y dos factores.......................................................... 30
Análisis de la varianza .................................................................................................... 30
Prueba de Turkey ........................................................................................................... 30
Análisis de la varianza de dos factores ............................................................................ 32
Estadístico F................................................................................................................... 34
Ejemplo Prueba de Tukey ............................................................................................... 38
Ejemplo de Análisis de un factor ..................................................................................... 42
Práctica donde se utilice ANOVA .................................................................................... 47
Referencias ................................................................................................................ 52
Aplicación práctica donde se utilice ANOVA .................................................................... 52
Referencias ....................................................................................................................... 55
Series de tiempo................................................................................................................ 56
Serie de tiempo ............................................................................................................. 56
Análisis de tendencias .................................................................................................... 61
Variación cíclica ............................................................................................................. 62
Variación estacional ....................................................................................................... 63

pág. 2
Variación irregular ......................................................................................................... 64
Números índice.............................................................................................................. 64
Ejemplos........................................................................................................................ 77
Serie de tiempo .......................................................................................................... 77
Análisis de tendencias ................................................................................................ 81
Variación cíclica.......................................................................................................... 82
Variación estacional ................................................................................................... 84
Variación irregular...................................................................................................... 87
Números índice .......................................................................................................... 87
Series de tiempo en aplicaciones prácticas ..................................................................... 88
Referencia consultada de la aplicación ........................................................................ 92
Herramienta de apoyo ................................................................................................... 92
Referencias ..................................................................................................................... 100
Estadística no paramétrica ............................................................................................... 101
Estadística no paramétrica ........................................................................................... 101
Principales pruebas que se utilizan ............................................................................... 102
Ejemplos...................................................................................................................... 102
Aplicaciones ................................................................................................................ 110
Referencia................................................................................................................ 111
Herramienta de apoyo ................................................................................................. 111
Conclusiones ............................................................................................................... 113
Referencias .................................................................................................................. 115

pág. 3
Análisis de regresión lineal y correlación

Diagrama de dispersión
La representación gráfica más útil para describir el comportamiento conjunto de dos
variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece
representado como un punto en el plano definido por variables.

El Diagrama de Dispersión tiene el propósito de controlar mejor el proceso y mejorarlo,


resulta indispensable conocer cómo se comportan algunas variables o características de
calidad entre sí, esto es, descubrir si el comportamiento de unas depende del
comportamiento de otras, o no, y en qué grado.

El Diagrama de dispersión es una herramienta utilizada cuando se desea realizar un


análisis gráfico de datos bivariados, es decir, los que se refieren a dos conjuntos de datos.
El resultado del análisis puede mostrar que existe una relación entre una variable y la otra.

El estudio puede ampliarse para incluir una medida cuantitativa de tal relación.

Las dos variables pueden estar relacionadas de la siguiente manera:

 Una característica de calidad y un factor que incide sobre ella.


 Dos características de calidad relacionadas.
 Dos factores relacionados con una misma característica de calidad.

¿Para qué sirve el Diagrama de Dispersión?

 Indica si dos variables (o factores o características de calidad) están relacionados.


 Proporciona la posibilidad de reconocer fácilmente relaciones Causa / efecto.

¿Cómo se construye el Diagrama de Dispersión?

Paso 1.- Recolectar n parejas de datos de la forma (Xi, Yi), con i = 1, 2, 3,…n donde Xi
y Yi representan los valores respectivos de las dos variables. Los datos se suelen
representar en una tabla.
Paso 2.- Diseñar las escalas apropiadas para los ejes X y Y.
Paso 3.- Graficar las parejas de datos. Si hay puntos repetidos, se mostrarán como círculos

pág. 4
concéntricos.
Paso 4.- Documentar el diagrama.

Lectura y uso del Diagrama de Dispersión

La lectura se hace en base al tipo de relación entre los datos; lo fuerte o débil de la
relación, la forma de la relación y la posible presencia de punto anómalos.

La relación entre los datos se denomina “correlación positiva” cuando a un aumento en


el valor de la variable X le acompaña un aumento en la otra variable.

El caso inverso da lugar a la llamada “correlación negativa”.

No hay correlación Correlación débil Correlación fuerte

El patrón de puntos puede asumir formas diversas, dependiendo de la relación que exista
entre las variables. Si el patrón de puntos asume la forma (quizás aproximada) de una
línea recta, se dice que existe una relación lineal entre las variables.

En ocasiones, algunos datos dan lugar a puntos anómalos, que se presentan separados del
patrón de puntos. El usuario debe dejar fuera del análisis esos puntos, que quizás son
debidos a lecturas equivocadas o a algún cambio en las condiciones del proceso, etc.

Pero se ganará conocimiento de este último al estudiar las causas por las que se
presentaron los puntos.

pág. 5
Un Diagrama de Dispersión no dice nada de porqué existe la correlación, por lo que es
imprescindible examinar la aparente relación entre las variables desde el punto de vista
científico o técnico.

Ejemplo
Las variables a estudiar para este ejemplo de grafico de dispersión en calidad son:

 Cantidad de tinta en litros


 Número de errores de impresión
Para el paso 3, comenzamos a recolectar las variables. En nuestro caso, el departamento
de control de calidad hace 50 corridas o pruebas durante 5 días continuos.
Los resultados, a continuación:

pág. 6
Cantidad de errores según el grado de tinta

pág. 7
Ejemplo resuelto de diagrama de dispersión
Para el paso 4 ubicamos los ejes según las variables que tenemos. Al estar el número de
errores influenciado por la cantidad de tinta, lo ubicamos como el eje y. Por consiguiente,
el eje x es la cantidad de tinta. Ahora sí, hacemos el gráfico de dispersión.
Paso 5: Determinamos el coeficiente de correlación. En excel lo calculamos con la
formula COEF.DE.CORREL. Para nuestro ejemplo resuelto, obtenemos 0,94, ¿se ve esto
reflejado en el gráfico? Por supuesto que si, fíjate que los puntos están muy cerca unos
de los otros, lo que indica que los valores se correlacionan fuertemente, es decir que la
relación entre un aumento en los litros de tinta, impacta directamente en el número de
errores en la impresión de posters. De hecho, se hace evidente si miramos la tabla, no hay
grandes saltos entre datos si miramos el número de errores.
Paso 6: Analizamos. Evidentemente hay una relación positiva fuerte entre la cantidad de
tinta con la que se carga el tubo de la máquina y el número de errores generados en la
impresión de los posters. Un paso siguiente para un problema de este tipo, sería buscar la
forma de aprovechar la capacidad restante de la máquina, por ejemplo, usar más tubos y
más pequeños.

pág. 8
Regresión lineal.
La regresión lineal es utilizada para determinar modelos matemáticos del comportamiento
y relación de dos o varias variables interrelacionadas.
El modelo que se busca corresponde a la ecuación de la “mejor” línea recta que pasa a
través de los puntos. Tal ecuación, denominada Ecuación de Regresión de Mínimos
Cuadrados, es, en términos de las variables X y Y, la siguiente:

Y=a+bX

b = (nƩXiYi – (ƩXi)(ƩYi))/n ƩXi² – (ƩXi)²

a = (ƩYi – bƩXi)v/ n

Para el ejemplo anterior:

b = (nƩXiYi – (ƩXi)(ƩYi))/ ƩXi² – (ƩXi)² = ((22)(1481) – (1270)(28.7)) / 90700 –


(1270) ² = 0.0025

a = ƩYi – bƩXi/n = 28.7 – ((0.0025)(1270)) / 22 = 1.15

Y = a + b X Y = 1.15 + 0.0025 X

La regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la


relación de dependencia entre una variable dependiente Y, las variables
independientes Xi y un término aleatorio ε Este modelo puede ser expresado como:

donde:

𝑌𝑡 variable dependiente, explicada o regresando.

variables explicativas, independientes o regresores.

: parámetros, miden la influencia que las variables explicativas tienen


sobre el regrediendo.
Donde 𝛽0 es la intersección o término "constante", las son los parámetros
respectivos a cada variable independiente, y 𝒑 es el número de parámetros independientes
a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión
no lineal.

Para la regresión basta con hacer el cuadrado del coeficiente de correlación de Pearson.

pág. 9
Donde:
𝜎𝑥𝛾 es la covarianza de (𝑋, 𝑌)

𝜎𝑥 es la desviación típica de la variable 𝑋

𝜎𝑌 es la desviación típica de la variable 𝑌

En un modelo lineal, la variable dependiente 𝒚

Si observamos 𝑛 veces tanto la variable aleatoria como los factores, podemos ordenar
nuestras observaciones de la variable dependiente en una matriz 𝒚 mientras que

colocaremos las de los factores en la matriz de regresión 𝑋.

Cada observación corresponderá a una coordenada de 𝒚 y a una fila de 𝑋. Cada columna


de la matriz de regresión corresponde a las observaciones de un factor. En cada observación
el modelo cometerá un error:

Estos errores se llaman residuos. La varianza residual es la varianza de estos residuos.

es la parte de la variación de 𝑌𝑖 explicada por el modelo lineal.

es la parte de la variación de 𝑌𝑖 que no explica el modelo lineal.

Sumando estas dos partes, obtenemos 𝑌𝑖

El valor del coeficiente de determinación aumenta cuando se incluyen nuevas variables


en el modelo, incluso cuando éstas son poco significativas o tienen poca correlación con

pág. 10
la variable dependiente. El coeficiente de determinación corregido mide el porcentaje de
variación de la variable dependiente (al igual que el coeficiente de determinación) pero
tiene en cuenta además el número de variables incluidas en el modelo.

Coeficiente de determinación

El coeficiente de determinación, denominado R² y pronunciado R cuadrado, es


un estadístico usado en el contexto de un modelo estadístico cuyo principal propósito es
predecir futuros resultados o probar una hipótesis. El coeficiente determina la calidad del
modelo para replicar los resultados, y la proporción de variación de los resultados que
puede explicarse por el modelo.1

Hay varias definiciones diferentes para R² que son algunas veces equivalentes. Las más
comunes se refieren a la regresión lineal. En este caso, el R² es simplemente el cuadrado
del coeficiente de correlación de Pearson, lo cual es sólo cierto para la regresión lineal
simple. Si existen varios resultados para una única variable, es decir, para una X existe
una Y, Z... el coeficiente de determinación resulta del cuadrado del coeficiente de
determinación múltiple. En ambos casos el R² adquiere valores entre 0 y 1. Existen casos
dentro de la definición computacional de R² donde este valor puede tomar valores
negativos.

Cálculo
Un modelo estadístico se construye para explicar una variable aleatoria que llamaremos
dependiente a través de otras variables aleatorias a las que llamaremos factores. Dado que
podemos predecir una variable aleatoria mediante su media y que, en este caso, el error
cuadrático medio es su varianza, el máximo error cuadrático medio que podemos aceptar
en un modelo para una variable aleatoria que posea los dos primeros momentos es la
varianza. Para estimar el modelo haremos varias observaciones de la variable a predecir
y de los factores. A la diferencia entre el valor observado de la variable y el valor predicho
la llamaremos residuo. La media cuadrática de los residuos es la varianza residual.

Si representamos por la varianza de la variable dependiente y la varianza


residual por 𝜎𝑟2 el coeficiente de determinación viene dado por la siguiente ecuación:

pág. 11
Se mide en tantos por ciento. Si la varianza residual es cero, el modelo explica el 100%
de valor de la variable; si coincide con la varianza de la variable dependiente, el modelo
no explica nada y el coeficiente de determinación es del 0%. En variables económicas y
financieras, suele ser difícil conseguir un coeficiente de determinación mayor de un 30%.

El Coeficiente de correlación
El valor del Coeficiente de Correlación lineal de Pearson (r) proporciona una medida del
grado de relación entre dos variables y se calcula mediante la expresión:

r = S (xy) / S(xx) S(yy)

donde:

S(xx) = ƩXi² – (ƩXi)² / n

S(yy) = ƩYi² – (ƩYi)² / n

S(xy) = ƩXiYi – ((ƩXi) (ƩYi))/ n

n es el número de parejas de datos. El término S(xy) se llama covarianza.

El Coeficiente de Relación Lineal.

El valor del Coeficiente de Correlación es:

|r| = < 1

Si r = +1 ó r = -1 se tiene entonces una correlación perfecta, lo cual significa que todos


los puntos caen sobre una línea recta.

Un valor de r = 0 indicará la ausencia de relación entre las variables; entre más cercano
esté el valor absoluto de r a la unidad mayor será el grado de correlación.

pág. 12
Ejemplo
A continuación, se presenta una tabla en la que la variable X corresponde a la experiencia
en semanas de cada uno de los empleados a los que se aplicó la prueba, y la variable Y al
tiempo en minutos que tarda el empleado en capturar correctamente los datos de un
reporte a la computadora.

El Coeficiente de Relación Lineal.

S(xx) = ƩXi² – (ƩXi)² / n = 90700 / 22 – (1270)² = 17386.36

pág. 13
S(yy) = ƩYi² – (ƩYi)² / n = 47.77 / 22 – (28.7) ² = 10.32

S(xy) = ƩXiYi – (ƩXi) (ƩYi) / n = 1481 – (1270)(28.7) / 22 = -175.77

El valor del Coeficiente de Correlación es:

r = S (xy) / √(S(xx) S(yy)) = -175.77 / √(17386.36)(10.32)

r = – 0.415 La correlación es negativa.

Error estándar
Uno de los conceptos más útiles en la práctica estadística es justamente el de "error
estándar". Este término fue definido originalmente por el estadístico británico Udny Yule
a comienzos del siglo XX. La norma E2586 de ASTM, Práctica para calcular y usar
estadísticas básicas, define el error estándar como "la desviación estándar de la población
de valores de una estadística muestral en un muestreo repetido o su estimación". El
término incertidumbre está estrechamente relacionado con el error estándar y en las
últimas décadas se la he dedicado bastante atención. El error estándar mide el error
aleatorio en un dato estadístico informado: el tipo de error causado por la variación
aleatoria del muestreo al repetir una prueba en las mismas condiciones. La incertidumbre
es un concepto más amplio que incluye componentes adicionales de error potencial
además del error aleatorio. La norma E2655 de ASTM, Guía para informar la

pág. 14
incertidumbre de los resultados de pruebas y Uso del término incertidumbre de la
medición en métodos de prueba de ASTM, describe el uso del concepto de incertidumbre
tal como se lo aplica al resultado de una prueba.
En general, las personas que toman las decisiones y los usuarios que utilizan los datos
suelen estar más preocupados por los datos estadísticos que por las mediciones
individuales en un grupo de datos. Los usuarios de datos desean ver promedios, varianzas,
rangos, proporciones, valores máximos o mínimos, percentilos u otras estadísticas. Lo
que a menudo no logran apreciar totalmente es que las estadísticas también se comportan
de una manera aleatoria, similar a la de las mediciones individuales, y esto se mide con
el error estándar. Cuando se informa la media de una muestra, no se informa el promedio
"verdadero" sino una estimación. La estadística muestral puede resultar levemente
superior o inferior al valor verdadero desconocido. El error estándar de la media mide la
diferencia que puede existir entre la media verdadera y la estadística que se informa. En
términos más generales, podemos hablar del "error estándar de la estimación" cada vez
que se informa una cantidad estadística estimada. Cuando se calcula un dato estadístico
único, es posible calcular el error estándar de la estimación. En general, cuanto mayor sea
el tamaño de la muestra, menor será el error estándar de una cantidad estimada.
Para ver cómo funciona esto, analicemos una media muestral. A partir de una muestra de
tamaño n, se calculan la media muestral y la desviación estándar. En realidad, hay una
media verdadera, μ, y una desviación estándar verdadera σ, y son desconocidas. La
muestra nos brinda las estimaciones y S. Si hiciéramos muestras repetidamente de la
población/proceso del cual se toma la muestra y calculáramos la media muestral una y
otra vez, la desviación estándar de la distribución de medias sería el error estándar
verdadero de la media. En teoría, esta es la Ecuación 1:

(1)
Debido a que solo tenemos una media estimada, y no conocemos el verdaderos σ, solo
podemos estimar el error estándar como:

(2)
El error en un resultado informado se llama error de muestreo, y se mide como desviación
absoluta del valor verdadero desconocido. Por lo tanto, para una media, el error muestral
puede considerarse como la desviación | - μ| . Alrededor del 68% de las veces el error

pág. 15
muestral tendrá como máximo el tamaño de un error estándar, y en el 95% de los casos,
el de 2 errores estándar. Esto puede expresarse más concisamente de la siguiente manera:
(3)
(4)
De este modo, el usuario de una estadística obtiene una idea de la magnitud de la
diferencia que pudo haberse verificado en la práctica, la manera en que el tamaño de la
muestra afecta el posible error de una estimación y con qué probabilidad aproximada
(confianza). En este caso, estamos considerando un tamaño de muestra de 20 o más y
estamos usando la teoría de la distribución normal. Algunos lectores también reconocerán
en esto una cierta similitud con la construcción de un intervalo de confianza para una
media desconocida. En la norma E2586 de ASTM se tratan los intervalos de confianza y
se ha publicado un artículo de DataPoints sobre este tema.1
Ejemplos
Consideremos que en una muestra de tamaño n = 20 se determinó que la media muestral
y la desviación estándar eran 162 y 11,5 respectivamente. El error estándar estimado de
la media surge de la Ecuación 2: 11,5/4,47 = 2,57. De este modo, el potencial de error en
el resultado informado no es superior a ±2,57 (68% de confianza) o no más de 2(2,57) =
±5,14 (a 95% de confianza).
Uno de los recursos estadísticos más utilizados es una proporción simple. Hay una
muestra de objetos de tamaño n, y se observa cada objeto para identificar la ocurrencia
de un atributo. Cada objeto tiene o no tiene el atributo. Esta es la situación, por ejemplo,
en los muestreos de control de calidad o en las encuestas de opinión pública. La
estadística, indicada , es la proporción en la muestra que tiene ese atributo. La
proporción verdadera y desconocida de todos los objetos es p. El error estándar teórico
de la estimación es:

(5)
En la práctica no conocemos nunca el valor verdadero de p, de modo que reemplazamos
la estadística y obtenemos una estimación del error estándar. Utilizando la Ecuación 5, el
error estándar estimado es:

(6)

pág. 16
Cuando esta técnica se utiliza en una encuesta política o una investigación de mercado,
la cantidad 2SE( )se menciona como margen de error de la encuesta. Supongamos que
en una muestra de n = 200 componentes de metal inspeccionados, se clasificaron 23 como
defectuosos. La estimación de la proporción defectuosa del proceso es = 23/200 = 0,115
o 11,5%.
El error estándar de esta estimación, usando la Ecuación 6, es 0.0226 o 2,26%. En caso
de querer reclamar una confianza de aproximadamente 95% en el posible error en el
resultado, deberíamos informarlo utilizando dos errores estándar o como 11,5% ±4,52%.
De todos modos, debería informarse al menos el error estándar (2,26%) junto con la
estimación.
En la E2586 de ASTM están disponibles las fórmulas de error estándar para varios casos
comunes. En la bibliografía sobre ciencias estadísticas pueden consultarse otros casos y
métodos.

Aplicación práctica
En este artículo se evalúan las armónicas individuales de tensión como función de las
armónicas individuales de corriente usando los análisis estadísticos de regresión lineal
simple, regresión polinomial y regresión lineal múltiple. Para la selección del modelo, se
usan el coeficiente de determinación R2 y el criterio de información de Akaike (AIC). Se
utiliza como caso de estudio un sistema eléctrico de un proceso minero ubicado en la
región de Atacama Copiapó Chile, que ocupa la técnica de electro obtención de cobre
como parte principal de su proceso productivo. Se muestran y comparan los resultados
para los distintos modelos estadísticos y se discute la información de éstos para el estudio
de calidad de energía. Finalmente, usando el modelo que mejor se ajusta a las mediciones
de armónicas de tensión y corriente, se muestran algunas predicciones para la componente
armónica dominante de tensión.

Determinar la influencia de las armónicas de tensión y corriente en los sistemas eléctricos


industriales es de gran importancia para la evaluación de la calidad de la energía y la
administración eficiente del recurso energético [1-2]. Usualmente, para medir la
influencia de los armónicos en los sistemas eléctricos se usan los índices de distorsión
armónica total de tensión (THDV) y distorsión armónica total de corriente (THDI), que se

pág. 17
obtienen a partir de los registros que almacenan los equipos analizadores de calidad de
energía eléctrica. El cálculo de estos indicadores [3] se muestra en la ecuación (1).

En la ecuación (1), Vn es la magnitud de la tensión a la frecuencia de orden n, V1 es la


magnitud de la tensión a la frecuencia fundamental, In es la magnitud de la corriente a la
frecuencia de orden n y I1 es la magnitud de la corriente a la frecuencia fundamental (En
Chile la frecuencia fundamental es 50 Hertz).

Por otro lado, la distorsión armónica individual IHD (individual harmonic distortion)
mide el nivel de contenido armónico de la componente de orden n respecto del valor de
referencia conocido como fundamental. El IHD se define como la razón entre el valor
RMS de la componente armónica individual de orden n y el valor RMS de la componente
fundamental [4]. La armónica que tenga la magnitud más alta de IHD será la armónica
dominante del sistema. La ecuación (2), muestra el cálculo de la distorsión armónica
individual.

Algunos autores [1-2], han desarrollado modelos estadísticos de regresión lineal para
evaluar las componentes armónicas, considerando a la distorsión armónica total (THD)
de tensión y/o corriente como variable de interés, esto debido a que en sus estudios se
analizan cargas de distinta naturaleza (residencial, comercial e industrial) en un mismo
registro de datos, y entonces, el THD resulta ser un buen indicador para esa condición,
otros autores [5], proponen modelos de series de tiempo para la estimación de las
armónicas. En este artículo en cambio, se estudian los modelos de regresión lineal simple,
regresión polinomial de orden 2, regresión polinomial de orden 3 y regresión lineal
múltiple, tomando como variable de respuesta a la distorsión armónica individual de

pág. 18
tensión y como variable predictora a la distorsión armónica individual de corriente. Dado
que el sistema de estudio corresponde a una carga de tipo industrial exclusiva, la
distorsión armónica individual (IHD) resulta ser un buen indicador. La carga tiene como
elemento principal un convertidor de potencia de corriente alterna a corriente continua
con gran cantidad de elementos semiconductores, y por tanto, el monitoreo y control de
los niveles de contaminación armónica son de gran interés para el usuario. Los criterios
que se usan en este artículo para evaluar los niveles permisibles de distorsión armónica
se han extraído desde las normas IEEE Std. 519-1992 [6] y de la norma chilena Norma
Técnica de Seguridad y Calidad de Servicio [7].

El artículo se estructura de la siguiente manera. En la primera parte se presentan las


principales características de los modelos de regresión que son tratados en este trabajo y
se describen los indicadores que se utilizan para validar y seleccionar los modelos
propuestos. Luego, se muestran los resultados del procesamiento de datos de las
mediciones en la carga minera, se aplican los distintos modelos de regresión, se comparan
los resultados de cada modelo, se evalúa su eficiencia y se selecciona el mejor modelo.
Posteriormente, se desarrollan algunas predicciones para la distorsión armónica
individual de tensión usando el modelo que haya tenido el mejor ajuste. Finalmente, se
entregan las principales conclusiones de la investigación.

La figura 1, muestra el diagrama unilineal de medición y registro en la carga minera. Esta


carga se encuentra ubicada en las cercanías de la ciudad de Copiapó, región de Atacama
Chile y corresponde a un proceso minero cuyo principal equipo eléctrico es un
convertidor de potencia de corriente alterna a corriente continua. Se almacenaron los
registros de la distorsión armónica individual de tensión y corriente durante 7 días
consecutivos, con tiempos de muestreo de 10 minutos.

pág. 19
El nivel de cortocircuito máximo en la barra de 23 KV es 1072,7 A y la corriente máxima
de plena carga en 23 KV es 37,65 A, por lo tanto, la relación corriente máxima de
cortocircuito sobre corriente máxima de carga en el punto común de conexión PCC) es
28,5.

Resultados
Al analizar los registros de distorsión armónica se detectó que la armónica dominante de
tensión es la de orden 7, con una magnitud media de 2,17 %. Las armónicas de corriente
de orden 3, 5 y 7, registraron las magnitudes medias de 3,10 %, 2,12 % y 10,29 %,
respectivamente. En la figura 2, se muestra el perfil de la distorsión armónica de tensión
de orden 7 y los perfiles de distorsión armónica de corriente de orden 3, 5 y 7, durante los
7 días de registro.

Como la relación corriente máxima de cortocircuito sobre corriente máxima de plena


carga es 28,5, el nivel máximo de distorsión armónica individual de corriente para
armónicas de orden inferior a 11 no debe superar el 7 % [6-7]. Por otro lado, para
tensiones inferiores a 69 KV la distorsión armónica individual de tensión no debe superar
el 3 % [6], mientras que para sistemas con tensiones menores o iguales que 110 KV, la
distorsión armónica de orden 7 debe ser menor a 5 % [7]. Considerando lo descrito en el
párrafo anterior, la distorsión armónica individual de corriente de orden 7 no cumple con
lo establecido por la norma IEEE 519-1992 [6], ni por la norma chilena [7], mientras que
la distorsión armónica individual de corriente de orden 5 y orden 3 cumplen con lo exigido
por estas normas. La magnitud de la distorsión armónica individual de corriente es menor
que 3 % y 5 %, por lo tanto, cumple con lo exigido por las normas [6-7].

Conclusiones
En este trabajo, se probaron los modelos de regresión lineal simple, regresión polinomial
de orden 2, regresión polinomial de orden 3 y regresión lineal múltiple para describir la
relación entre la distorsión armónica individual de tensión y la distorsión armónica
individual de corriente en un proceso minero, siendo el modelo de regresión lineal
múltiple el que mejor ajustó los datos de las mediciones del proceso, con mejor
coeficiente de determinación R2 (0,8124) y menor criterio de información de Akaike
(459,25).

pág. 20
Los pronósticos realizados con el modelo de regresión lineal múltiple, permiten estimar
la distorsión armónica individual de tensión y corriente del sistema eléctrico y direccionar
medidas correctivas para el control del contenido armónico del proceso. Cuando se
analizan las armónicas de un sistema eléctrico con carga homogénea, el modelo de
regresión lineal múltiple describe adecuadamente la distorsión armónica individual de
tensión como función de la distorsión armónica individual de corriente.

Fuente consultada
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1815-59012014000300008

Referencias de la apicación

1. WU, C.J.; et al., "Application of regression models to predict harmonic voltage and
current growth trend from measurement data at secondary substations". IEEE
Transactions on Power Delivery, 1998, vol.13, n.3, p. 793-799, [Consultado: junio 2013],
Disponible en: http://ieeexplore.ieee.org/iel4/61/15033/00686976.pdf, ISSN 0885-8977.

pág. 21
2. VLAHINI?, S.; et al., "Measurement and analysis of harmonic distortion in power
distribution systems". Electric Power Systems Research, 2009, vol.79, n.7, p. 1121-1126,
[Consultado: marzo de 2013], Disponible
en: http://www.sciencedirect.com/science/article/pii/S0378779609000558, ISSN 0378-
7796.

3. ARRILLAGA, J.; WATSON, N.R., "Power system harmonics". England: John Wiley
& Sons, 2003, 389 p., ISBN: 0-470-85129-5.

4. SANKARAN, C., "Power quality". Florida: CRC Press, 2001, 216 p., ISBN: 0-8493-
1040-7.

5. JAIN, S.K.; SINGH, S.N., "Harmonics estimation in emerging power system: Key
issues and challenges". Electric Power Systems Research, 2011, vol.81, n.9, p. 1754-
1766, [Consultado: abril de 2013], Disponible
en: http://www.sciencedirect.com/science/article/pii/S0378779611001088, ISSN 0378-
7796.

6. IEEE, "IEEE Recommended practices and requirements for harmonic control in


electrical power systems". IEEE Std. 519-1992, New York: IEEE, 1992, ISBN: 1-55937-
239-7.

7. Gobierno de Chile, Comisión Nacional de Energía C.N.E., "Norma técnica de


seguridad y calidad de servicio". Santiago de Chile, Octubre de 2009, [Consultado: mayo
2013], Disponible en: http://www.cne.cl/normativas/energias/electricidad/528-norma-
tecnica.

8. MONTGOMERY, D.; et al., "Introducción al análisis de regresión lineal". México: Ed.


Limusa Wiley, 2006, 588 p., ISBN: 970-24-0327-8.

9. AKAIKE, H., "A new look at the statistical model identification". IEEE Transactions
on Automatic Control, 1974, vol.19, n.6, p. 716-723, [Consultado: marzo 2013],
Disponible en: http://ieeexplore.ieee.org/iel5/9/24140/01100705.pdf, ISSN 0018-9286.

pág. 22
10. R Development Core Team, "The R Project for Statistical Computing". [Programa de
computación], [Consultado: abril 2013], Disponible en: http://www.r-project.org.

11. DE LA GARZA, J.; et al., "Análisis estadístico multivariante, un enfoque teórico y


práctico". México: Ed. Mc Graw-Hill, 2013, 712 p., ISBN: 978-607-15-0817-1.

Herramienta de apoyo
Una vez XLSTAT iniciado, elija el comando XLSTAT/Modelación de datos/Regresión.

Una vez el botón presionado, aparece el cuadro de diálogo que corresponde a la regresión.
Puede elegir entonces los datos en la hoja Excel. La "Variable dependiente" corresponde
a la variable explicada, es decir en este caso preciso, el peso. La variable cuantitativa
explicativa es aquà la estatura. Queremos explicar aquà la variabilidad del peso por la de
la estatura. La opción "Etiquetas de las variables" se deja activada ya que la primera lànea
de columnas incluye el nombre de las variables.

pág. 23
Una vez que haga clic en el botón OK, los cálculos empiezan y los resultados son
visualizados.

Interpretación de resultados
El primer cuadro de resultados proporciona los coeficientes de ajuste del modelo. El R’²
(coeficiente de determinación) proporciona una idea del % de variabilidad de la variable
a modelizar, explicado por la variable explicativa. Mientras más cerca está de 1 este
coeficiente, mejor es el modelo.

pág. 24
En nuestro caso, 60% de la variabilidad del peso es explicada por la estatura. El resto de
la variabilidad es debido a efectos (variables explicativas) que no son tenidos en cuenta
en este ejemplo.

El cuadro de análisis de la varianza es un resultado que debe ser atentamente analizado.


Es en este nivel que comprobamos si podemos considerar que la variable explicativa
seleccionada (la estatura) originan una cantidad de información significativa al modelo
(hipótesis nula H0) o no. En otros términos, es una manera de comprobar si la media de
la variable a modelizar (el peso) bastará con describir los resultados obtenidos o no.

La prueba del F de Fisher es utilizada. Dado que la probabilidad asociada al F, en este


caso, es inferior de 0.0001, significa que nos arriesgamos de menos del 0.01%
concluyendo que la variable explicativa origina una cantidad de información significativa
al modelo.

El siguiente cuadro proporciona los detalles sobre el modelo y es esencial en cuanto el


modelo debe ser utilizado para realizar previsiones, simulaciones o si debe ser comparado
a otros resultados, por ejemplo los coeficientes que obtendràamos para los varones.
Vemos que si el parámetro de la estatura tiene un intervalo de confianza bastante
restringido, el de la constante del modelo es bastante importante. La ecuación del modelo
es proporcionada abajo del cuadro. El modelo enseña que en los làmites proporcionados
por las observaciones del intervalo de la variable tamaño, cada vez que la estatura
aumenta de un inch, el peso aumenta de 3.8 libras.

pág. 25
El cuadro siguiente expone el análisis de los residuos. Los residuos centrados reducidos
deben tener una atención particular, dado que las hipótesis vinculadas a la regresión lineal,
deben ser distribuidos según una ley normal N(0,1). Eso significa, entre otros, que 95%
de los residuos deben encontrarse en el intervalo [-1.96, 1.96]. Dado que el escaso número
de datos del que disponemos aquà, cualquier valor fuera de este intervalo es revelador de
un dato sospechoso. Hemos utilizado la herramienta DataFlagger de XLSTAT, con el fin
de demostrar rápidamente los valores que se encuentran fuera del intervalo [-1.96, 1.96].

Podemos aquà identificar nueve observaciones dudosas, en 237 observaciones. Este


análisis de los residuos no anula la hipótesis de normalidad.

El primer gráfico permite visualizar los datos, la recta de regresión, y los dos intervalos
de confianza (el intervalo alrededor de la media del estimador es lo más cerca de la curva,
el segundo es el intervalo alrededor de la estimación puntual). Vemos asà claramente una
tendencia lineal, pero con una intensa variabilidad alrededor de la recta. Los 9 valores
sospechosos están fuera del segundo intervalo de confianza.

pág. 26
El tercer grafico permite analizar si hay una relación entre la variable explicativa y los
residuos. Una de las hipótesis del modelo, es que no debe haber ninguna relación.

El grafico siguiente permite comparar las prediccionses con la observaciones.

pág. 27
El histograma de los residuos estandarizados permite señalar rápidamente y visualmente
la presencia de valores fuera del intervalo [-2, 2].

Conclusión
En conclusión, la estatura permite explicar 60% de la variabilidad del peso. Para explicar
la variabilidad sobrante, otras fuentes de variabilidad deben entonces ser utilizadas en el

pág. 28
modelo. En el tutorial sobre la regresión lineal múltiple, la edad es añadida como segunda
variable explicativa.

Referencias
Stephen N. Luko y Dean V. Neubauer, “Statistical Intervals, Part 1: The Confidence
Interval,” ASTM Standardization News, Vol. 39, Núm. 4, julio/agosto 2011.
Stephen N. Luko, de Hamilton Sundstrand, Windsor Locks, Connecticut, es el anterior
presidente del Comité E11 sobre calidad y estadísticas y es miembro de ASTM
International.
Dean V. Neubauer, de Corning Inc., Corning, Nueva York, es miembro de ASTM; se
desempeña como vicepresidente del Comité E11 sobre calidad y estadísticas, es
presidente del Subcomité E11.30 sobre control estadístico de la calidad y del E11.90.03
sobre publicaciones, y también coordina la columna DataPoints (Mediciones).

pág. 29
Investigación de varianza de un factor y dos factores

Análisis de la varianza
En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según
terminología inglesa) es una colección de modelos estadísticos y sus procedimientos
asociados, en el cual la varianza está particionada en ciertos componentes debidos a
diferentes variables explicativas.

Las técnicas iniciales del análisis de varianza fueron desarrolladas por


el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces
conocido como "Anova de Fisher" o "análisis de varianza de Fisher", debido al uso de
la distribución F de Fisher como parte del contraste de hipótesis. El análisis de la varianza
parte de los conceptos de regresión lineal. Un análisis de la varianza permite determinar
si diferentes tratamientos muestran diferencias significativas o por el contrario puede
suponerse que sus medias poblacionales no difieren. El análisis de la varianza permite
superar las limitaciones de hacer contrastes bilaterales por parejas que son un mal método
para determinar si un conjunto de variables con n > 2 difieren entre sí.

Prueba de Turkey
Sirve para probar todas las diferencias entre medias de tratamientos de una experiencia.

La única exigencia es que el número de repeticiones sea constante en todos los


tratamientos.

PROCEDIMIENTO

1. Se calcula el valor crítico de todas las comparaciones por pares.

2. Se obtiene el error estándar de cada promedio.

3. Obtener el T(alfa).

4. Calcular la diferencia de las medias y realizar las comparaciones con el valor crítico.

pág. 30
5. Hacer las conclusiones.

UTILIZAR TUKEY:
*Cuando el tamaño de las muestras seleccionadas para cada grupo son iguales.

EJEMPLO:
Una empresa tiene cuatro plantas y sabe que la planta A satisface los requisitos impuestos
por el gobierno para el control de desechos de fabricación, pero quisiera determinar cuál
es la situación de las otras tres. Para el efecto se toman cinco muestras de los líquidos
residuales de cada una de las plantas y se determina la cantidad de contaminantes. Los
resultados del experimento aparecen en la siguiente tabla. Tabla 1 Cantidad de
contaminantes para cuatro plantas de una empresa.
Este método sirve para comparar las medias de los tratamientos, dos a dos, o sea para
evaluar las
Cuando el interés fundamental es comparar promedios entre dos grupos y son múltiples
las comparaciones que estamos haciendo. Por lo tanto este test de Tukey es el más
utilizado.

La prueba de Tukey es la prueba más aplicada y preferida por los estadísticos, pues
controla de mejor manera los dos errores ampliamente conocidos en la estadística (alfa y
beta) (Montgomery 2003).

Antes de realizar el análisis de varianza se debe trazar el diagrama de cajas múltiple para
determinar si existen casos extraordinarios y si se cumple el supuesto de varianzas
iguales:
Los cálculos se muestran en la siguiente tabla de ANDEVA.
Tabla de ANDEVA para los datos de contaminación.

Conclusión: Puesto que Fcalc > Fteor se rechaza H0, y se concluye que hay diferencia
significativa (al 5%) entre las cantidades medias de contaminantes para las diferentes
plantas

pág. 31
Análisis de la varianza de dos factores

Es un diseño de anova que permite estudiar simultáneamente los efectos de dos fuentes
de variación.

En el ejemplo 1, en el que se estudiaban diversos tratamientos para la hipertensión


arterial, se podría plantear que, quizás, la evolución de la misma fuera diferente para los
hombres y las mujeres, en cuyo caso, y si el número de hombres y mujeres en cada
muestra no fuera el mismo, podría ocurrir que una parte del efecto atribuido a los
tratamientos fuera debido al sexo.

En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no,


diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los
individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos.
En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco para
las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el
segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una
con nindividuos o repeticiones.

Una observación individual se representa como:

El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo
factor y el tercero la observación dentro de la muestra. Los factores pueden ser ambos de
efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de
efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemático de este
análisis es:

modelo I

modelo II

pág. 32
modelo mixto

donde m es la media global, ai o Ai el efecto del nivel i del 1º factor, bj o Bj el efecto del
nivel j del 2º factor y e ijk las desviaciones aleatorias alrededor de las medias, que también
se asume que están normalmente distribuidas, son independientes y tienen media 0 y
varianza s2.

A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo añade


la de aditividad de los efectos de los factores.

A los términos ( ab )ij, (AB)ij, (aB)ij, se les denomina interacción entre ambos factores y
representan el hecho de que el efecto de un determinado nivel de un factor sea diferente
para cada nivel del otro factor.

Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un
anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el
efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos
grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se
les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el
tiempo que los sujetos tardan en dormirse desde el suministro de la píldora.

Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles
(hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de
resultados posibles se esquematizan en la figura

A B

pág. 33
En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo
tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo
tardan más en dormirse que los tratados con somnífero en ambos sexos (hay un efecto del
tratamiento). Ambos efectos son fácilmente observables.

Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto
en ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto
en ambos grupos de tratamiento. En este caso, se dice que existe interacción.

Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los
distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y
los hombres antes con el placebo.

La interacción indica, por tanto, que los efectos de ambos factores no son aditivos: cuando
se dan juntos, su efecto no es la suma de los efectos que tienen cuando están por separado,
por lo que, si en un determinado estudio se encuentra interacción entre dos factores,
no tiene sentido estimar los efectos de los factores por separado. A la interacción
positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma
de efectos actuando por separado, en Biología se le denomina sinergiao potenciación y a
la interacción negativa inhibición. En el ejemplo de la figura B, se diría que el ser mujer
inhibe el efecto del somnífero, o que el ser hombre lo potencia (según el sexo que se tome
como referencia).

Estadístico F
El análisis de Varianza contrasta la hipótesis de igualdad de las Medias de más de dos
grupos, y tiene su fundamento en la relación entre la variación explicada por las
diferencias entre grupos y la variación individual.

Consideremos la siguiente situación: Queremos comparar la efectividad de cuatro


tratamientos de la depresión, para lo que aplicamos los tratamientos a cuatro grupos de
pacientes seleccionados aleatoriamente. A finales del tratamiento recogemos los datos,
que son:

pág. 34
Los valores del cuerpo central de la tabla representan las puntuaciones obtenidas por el
sujeto "i" en el grupo "j". Por ejemplo, X32=14 simboliza que el sujeto número tres del
grupo 2 ha obtenido una puntuación igual a 14.

Las puntuaciones de cada grupo son una muestra de la población de pacientes a los que
se administra cada tratamiento (los del grupo 1, de la población a la que se administra el
tratamiento 1, los del grupo 2, de la población a la que se administra el tratamiento 2,
etc.). Las Medias de las poblaciones se simbolizan m1, m2, m3, etc. Queremos saber si
estas Medias son semejantes o diferentes a la finalización del tratamiento, porque eso
significaría que los tratamientos afectan de manera diferente a los pacientes. La Hipótesis
Nula es:

El estadístico de contraste es:

donde MCE y MCI son las Medias Cuadráticas "entre" e "intra" respectivamente.

El fundamento del estadístico de contraste es:

a) El efecto del tratamiento en cada grupo es medido por la Media de las medidas de
depresión de cada grupo.

b) Si todos los tratamientos tuvieran el mismo efecto, esperaríamos que las Medias de los
grupos fueran semejantes:

pág. 35
En cambio, cuanto más diferentes sean los efectos de los tratamientos, más diferentes
esperamos que sean las Medias.

c) La Media Cuadrática "entre" mide la variación explicada por las diferencias entre las
Medias de los grupos más la variación explicada por diferencias individuales:

donde

si las Medias fueran semejantes, la Media Cuadrática "entre" sería igual a 0 (porque la
Media de cada grupo sería igual a la Media total). Si las Medias fueran diferentes, la
Media Cuadrática "entre" será mayor cuanto más y mayores sean las diferencias.

d) La variación individual es medida por la Media Cuadrática "intra":

donde

glI: grados de libertad "intra"= J(n-1).

La Media Cuadrática "intra" mide la variación explicada por diferencias individuales


porque solo depende de las diferencias dentro de cada grupo. En cambio, las diferencias
entre grupos no explican la variación "intra".

e) El estadístico F pone en relación la variación "entre" respeto de la variación "intra":

pág. 36
cuanto mayor es la variación "entre" en relación a la variación "intra", mayor es el valor
de F.

f) Para generalizar a la población se opera con los valores esperados de la Medias


Cuadráticas:

el valor esperado de la Media Cuadrática "entre" es igual a la Varianza explicada


(ocasionada) por las diferencias individuales más una cantidad cuyo valor depende de las
diferencias entre los tratamientos (entre las muestras).

El valor esperado de la Media Cuadrática "intra" es igual a la Varianza explicada por


diferencias individuales.

g) Si la Hipótesis Nula fuera verdadera, es decir, si NO hubiera diferencias entre las


Medias poblacionales, el valor del término de la derecha en la expresión del valor
esperado de la Media Cuadrática "entre", que es:

tomaría el valor 0 (porque las diferencias dentro del paréntesis siempre serían 0).

En consecuencia, el estadístico F sería una razón de dos estimadores de la misma Varianza


y seguiría la distribución F con J-1 y J(n-1) grados de libertad.

h) Si la Hipótesis Nula fuera falsa, es a decir, si hubiera diferencias entre las Medias
poblacionales, la expresión

pág. 37
tomaría un valor superior a 0. En consecuencia, el estadístico F NO sería una razón de
dos estimadores de la misma Varianza y el cociente F NO seguiría la distribución FJ-
1,J(n-1).

i) En conclusión, si el estadístico F sigue la distribución FJ-1,J(n-1) pensaremos que no


hay evidencia suficiente por rechazar la Hipótesis Nula. En cambio, si el estadístico F NO
sigue la distribución FJ-1,J(n-1), pensaremos que es más razonable rechazar la Hipótesis
Nula.

Ejemplo Prueba de Tukey

pág. 38
pág. 39
pág. 40
pág. 41
Ejemplo de Análisis de un factor
Un gerente de recursos humanos desea identificar los factores subyacentes que explican
las 12 variables que la dirección de Recursos Humanos mide para cada solicitante. Los
empleados de Recursos Humanos califican a cada solicitante de empleo con respecto a
diversas características utilizando una escala del 1 (bajo) al 10 (alto). El gerente recoge
las calificaciones para 50 solicitantes de empleo.

pág. 42
Análisis anteriores determinaron que 4 factores representan la mayor parte de la
variabilidad total en los datos.

1. Abra el conjunto de datos de muestra.

2. Elija Estadísticas > Análisis multivariado > Análisis factorial.

3. En Variables, ingrese C1-C12.

4. En Número de factores que se extraerán, ingrese 4.

5. En Método de extracción, seleccione Máxima verosimilitud.

6. En Tipo de rotación, seleccione Varimax.

7. Haga clic en Aceptar.

Interpretar los resultados

Minitab calcula las influencias de los factores para cada variable en el análisis. Las
influencias indican cuánto explica un factor a una variable. Influencias grandes (positivas
o negativas) indican que el factor tiene una influencia fuerte en la variable. Influencias
pequeñas (positivas o negativas) indican que el factor tiene una influencia débil en la
variable.

Las influencias de los factores no rotadas a menudo son difíciles de interpretar. La


rotación de los factores simplifica la estructura de influencias y hace que las influencias
de los factores sean más fáciles de interpretar. Utilizando las influencias de los factores
rotadas, el ingeniero concluye lo siguiente:

 Aptitud para la compañía (0.778), Aptitud para el empleo (0.844) y Potencial (0.645)
tienen influencias positivas grandes en el factor 1, así que este factor describe la aptitud
y potencial del empleado para crecer en la compañía.

 Apariencia (0.73), Simpatía (0.615) y Autoconfianza (0.743) tienen influencias positivas


grandes en el factor 2, así que este factor describe las cualidades personales.

 Comunicación (0.802) y Organización (0.889) tienen influencias positivas grandes en el


factor 3, así que este factor describe destrezas para el trabajo.

pág. 43
 Carta (0.947) y C. V. (0.789) tienen influencias positivas grandes en el factor 4, así que
este factor describe destrezas para la redacción.

En conjunto, los cuatro factores explican 0.754 o 75.4% de la variación en los datos.
Análisis factorial: Estudios, Apariencia, Comunicación, Apto P Cía, ...

Análisis del factor de verosimilitud máxima de la matriz de correlación

Iteración para verosimilitud máxima

Cambio máx en

Valor de ln(varianza Divisiones

Iteración la función única) por paso

1 1.59123 0.00000 0

2 1.46511 0.60457 0

3 1.44098 0.21665 0

4 1.42962 0.34068 0

5 1.41848 0.48747 0

6 1.41058 1.03753 0

7 1.40438 0.11625 0 E

8 1.40036 0.01625 0 E

9 1.39884 0.00802 0 E

10 1.39771 0.00752 0 E

11 1.39687 0.00650 0 E

12 1.39632 0.00643 0 E

13 1.39586 0.00462 0 E

pág. 44
E La matriz de la segunda derivada fue exacta

Cargas de factores no rotados y comunalidades

Variable Factor1 Factor2 Factor3 Factor4 Comunalidad

Estudios 0.380 0.455 0.340 0.259 0.534

Apariencia 0.359 0.530 -0.040 0.523 0.685

Comunicación 0.465 0.660 -0.377 -0.023 0.795

Apto P Cía 0.523 0.677 0.266 -0.253 0.866

Experiencia 0.508 0.194 0.450 0.232 0.553

Apto P Trabajo 0.532 0.632 0.415 -0.201 0.895

Carta 0.992 -0.094 -0.012 -0.007 0.994

Simpatía 0.412 0.529 0.032 0.377 0.593

Organización 0.406 0.761 -0.424 -0.055 0.926

Potencial 0.446 0.548 0.431 0.172 0.714

C. V. 0.850 0.040 0.096 0.283 0.814

Autoconfianza 0.293 0.575 0.083 0.506 0.679

Varianza 3.6320 3.3193 1.0883 1.0095 9.0491

% Var 0.303 0.277 0.091 0.084 0.754

Cargas de factores rotados y comunalidades

Rotación Varimax

Variable Factor1 Factor2 Factor3 Factor4 Comunalidad

Estudios 0.481 0.510 0.086 0.188 0.534

pág. 45
Apariencia 0.140 0.730 0.319 0.175 0.685

Comunicación 0.203 0.280 0.802 0.181 0.795

Apto P Cía 0.778 0.165 0.445 0.189 0.866

Experiencia 0.472 0.395 -0.112 0.401 0.553

Apto P Trabajo 0.844 0.209 0.305 0.215 0.895

Carta 0.219 0.052 0.217 0.947 0.994

Simpatía 0.261 0.615 0.321 0.208 0.593

Organización 0.217 0.285 0.889 0.086 0.926

Potencial 0.645 0.492 0.121 0.202 0.714

C. V. 0.214 0.365 0.113 0.789 0.814

Autoconfianza 0.239 0.743 0.249 0.092 0.679

Varianza 2.5153 2.4880 2.0863 1.9594 9.0491

% Var 0.210 0.207 0.174 0.163 0.754

Coeficientes de puntuación de factores

Variable Factor1 Factor2 Factor3 Factor4

Estudios 0.045 0.134 -0.068 -0.003

Apariencia -0.109 0.339 -0.034 0.012

Comunicación -0.089 0.014 0.258 -0.036

Apto P Cía 0.454 -0.225 0.066 -0.105

Experiencia 0.062 0.120 -0.104 0.006

Apto P Trabajo 0.662 -0.181 -0.079 -0.123

Carta -0.159 -0.428 0.090 1.068

Simpatía -0.039 0.199 -0.022 0.002

Organización -0.239 -0.027 0.822 -0.131

pág. 46
Potencial 0.136 0.173 -0.115 -0.017

C. V. -0.065 0.300 -0.117 0.049

Autoconfianza -0.064 0.332 -0.061 0.006

Práctica donde se utilice ANOVA


Introducción Se utiliza la técnica del Análisis de Varianza Anidado (ANOVA anidada)
cuando se tiene una variable de medición y dos o más variables nominales (Badii et al.,
2009). Las variables nominales se anidan, lo que significa que cada valor de una variable
nominal (los subgrupos) se encuentra en combinación con un solo valor de la variable
nominal de más alto nivel (los grupos). El nivel nominal de la variable superior puede ser
Modelo I o modelo II pero el nivel nominal de las variables más bajos deben ser el Modelo
II (Steel and Torrie, 1960; Zar, 1996; Pagano & Gauvreau, 2000; Casella & Berger, 2002)
El análisis de varianza anidado es una extensión del análisis de varianza de una vía en
que se divide cada grupo en subgrupos. En teoría, estos subgrupos se eligen al azar de un
conjunto más amplio posible de los subgrupos. Un análisis de varianza anidado tiene una
hipótesis nula para cada nivel. En el ANOVA anidada, una hipótesis nula sería que los
subgrupos dentro de cada grupo tienen promedios iguales, la segunda hipótesis nula sería
que los grupos tienen los mismos medios.

Objetivo Comparar varios factores que estén relacionados con una muestra, determinando
su igualdad de las medias.

Requisitos Como todos los diferentes métodos de ANOVA, se supone que las
observaciones dentro de cada subgrupo se distribuyen normalmente, los residuales son
independientes y con distribución normal y además, existe homogeneidad de varianzas
para diferentes valores de las medias.

Ejemplo. Hay 5 laboratorios (A, B, C, D y E), cada uno con 4 trabajadores (I, II, III y
IV), el objetivo es 1) el analizar y comparar si hay diferencia entre las medias de grupos
o laboratorios y 2) si existe diferencias significativas entre los promedios de número de
análisis realizado por cada trabajador (subgrupo) de cada laboratorio durante 4 meses
consecutivos (Tabla 1).

pág. 47
Juegos de hipótesis:

1. Caso de los promedios (m) de los cinco laboratorios (suma de CL´s):

Ho: mLabA = mLab B = mLab C = mLabD = mLab E

Ha: Al menos una media es diferente de los demás medias

2. Caso de de los 20 trabajadores de todos los laboratorios (suma de CT´s):

Ho: mT I = m mTII = mTIII = m TIV = … = m TIV del ultimo laboratorio

Ha: Al menos una media es diferente de los demás medias

3. Caso de los Trabajadores (T) de cada laboratorio (Lab):

3A. Los Trabajadores del laboratorio A:

Ho: m TI Lab A = m TII Lab A = m TIII Lab A = m TIV Lab A

Ha: Al menos una media es diferente

3B. Los Trabajadores del laboratorio B:

Ho: m TI Lab B = m TII Lab B = m TIII Lab B = m TIV Lab B

Ha: Al menos una media es diferente

pág. 48
3C. Los Trabajadores del laboratorio C:

Ho: m TI Lab C = m TII Lab C = m TIII Lab C = m TIV Lab C

Ha: Al menos una media es diferente

3D. Los Trabajadores del laboratorio D:

Ho: m TI Lab D = m TII Lab D = m TIII Lab D = m TIV Lab D

Ha: Al menos una media es diferente

3E. Los Trabajadores del laboratorio E:

Ho: m TI Lab E = m TII Lab E = m TIII Lab E = m TIV Lab E

Ha: Al menos una media es diferente

El templete o el modelo de la tabla de ANOVA para el caso a ANOVA anidada se


demuestra en la Tabla 2.

pág. 49
pág. 50
En la Tabla 3 se demuestra los datos del ANOVA para los laboratorios.

Conclusiones:

Los resultados del análisis de ANOVA anidada indican los siguientes hallazgos.

1. El desempeño (promedio de análisis) es igual entre los 5 laboratorios.

2. El promedio de desempeño de todos los trabajadores (combinados) es igual, es decir,


no hay diferencia entre los promedios de desempeño de suma de los 20 GP´s.

pág. 51
3. Finalmente, para cada laboratorio individual, con la excepción del laboratorio B, los
promedios del análisis de los demás laboratorios (A, C, D y E) son iguales. En otras
palabras, solamente existe diferencia significativa entre el desempeño de los trabajadores
del laboratorio B.

Por tanto, se puede utilizar la técnica de ANOVA anidada para las situaciones de la
presencia de los subgrupos dentro de los grupos, con el objetivo del determinar la
diferencia estadística entre los promedios tanto de sub-grupos como de los grupos. Esta
técnica tiene la ventaja de ahorrar el esfuerzo, ya que en lugar de realizar varios
ANOVA’s, el investigador se puede llegar a conclusiones deseadas realizando solamente
un análisis de varianza denominada ANOVA anidada.

Referencias

Badii, M.H., J. Castillo, J. Landeros & K. Cortez. 2009. Papel de la estadística en la


investigación científica. Pp. 1-43. In: M.H. Badii & J.Castillo (eds). Desarrollo
Sustentable: Métodos, Aplicaciones y Perspectivas. UANL. Monterrey

Casella, G. & R.L. Berger. 2002. Statistical Inference, 2nd. Edition. Cengage Learning,
Autralia. Pagano, M. & K. Gauvreau. 2000. Principles of Biostatistics. 2nd. Edition.
Cengage Learning. USA. Steel, R:G:D: & J.H. Torrie. 1960. Principles and Procedures
of Statistics. McGraw-Hill. N.Y. Zar, J.H. 1996. Biostatistical Analysis. 3rd. Edition.
Prentice Hall. New jersey.

Aplicación práctica donde se utilice ANOVA


Inflamabilidad de pijamas: La inflamabilidad de los pijamas para niños ha sido un tema
de preocupación constante durante las últimas décadas. Hoy en día, hay toda una serie de
controles de seguridad que garantizan que las telas con que se fabrican los pijamas no
sean fácilmente inflamables. Tras seleccionar un determinado fabricante de pijamas y 5
laboratorios diferentes, hemos enviado a cada laboratorio 11 prendas de dicho fabricante.

pág. 52
La idea es que en cada laboratorio se les aplique un test de inflamabilidad. Los resultados
(expresados en un determinado índice de inflamabilidad) se muestran a continuación:

Nuestro objetivo será determinar si las medias obtenidas por cada laboratorio son
aproximadamente iguales (es decir, pretendemos saber si hay o no diferencias
significativas entre los laboratorios a la hora de determinar la capacidad de inflamación
de una determinada prenda). Stat Æ Anova Æ One-way (Unstacked)... Le pediremos al
programa que nos aplique la técnica ANOVA simple y, además, que nos represente un
diagrama de puntos y un boxplot de los datos.

pág. 53
En las dos siguientes gráficas, podemos observar la variación dentro de cada grupo
(laboratorio) y la variación entre diferentes grupos (laboratorios). La pregunta que habría
que responder es: ¿resulta la variación entre diferentes grupos significativamente mayor
que la variación existente dentro de los grupos? Notar que el laboratorio 4 parece tener
índices mayoritariamente bajos, mientras que los grupos 2 y 5 presentan índices bastante
mayores.

En el cuadro siguiente se presenta el “output” numérico del programa. La primera parte


del mismo es la llamada tabla ANOVA. Entre otros datos importantes (como los MS-

pág. 54
factor y MSerror, el valor del estadístico de contraste F = (MS-factor)/(MS-error), los
grados de libertad, etc.), ésta nos proporciona el p-valor del contraste anterior. En este
caso, el p-valor = 0,003 y, por tanto, rechazaremos la hipótesis nula de que todas las
medias son iguales. A partir del gráfico que proporciona los intervalos de confianza (a un
nivel del 95%) para la media, parece obvio que, al menos, las medias procedentes de los
laboratorios 4 (3,000) y 5 (3,6455) son significativamente diferentes:

Referencias
https://es.wikipedia.org/wiki/An%C3%A1lisis_de_la_varianza

https://prezi.com/gtfrscaw_cnb/prueba-de-tukey/

pág. 55
Series de tiempo

Serie de tiempo
Por serie de tiempo nos referimos a datos estadísticos que se recopilan, observan o
registran en intervalos de tiempo regulares (diario, semanal, semestral, anual, entre otros).
El término serie de tiempo se aplica por ejemplo a datos registrados en forma periódica
que muestran, por ejemplo, las ventas anuales totales de almacenes, el valor trimestral
total de contratos de construcción otorgados, el valor trimestral del PIB.
a. Componentes de la serie de tiempo Supondremos que en una serie existen cuatro tipos
básicos de variación, los cuales sobrepuestos o actuando en concierto, contribuyen a los
cambios observados en un período de tiempo y dan a la serie su aspecto errático. Estas
cuatro componentes son: Tendencia secular, variación estacional, variación cíclica y
variación irregular. Supondremos, además, que existe una relación multiplicativa entre
estas cuatro componentes; es decir, cualquier valor de una serie es el producto de factores
que se pueden atribuir a las cuatro componentes.
1. Tendencia secular: La tendencia secular o tendencia a largo plazo de una serie es
por lo común el resultado de factores a largo plazo. En términos intuitivos, la
tendencia de una serie de tiempo caracteriza el patrón gradual y consistente de las
variaciones de la propia serie, que se consideran consecuencias de fuerzas
persistentes que afectan el crecimiento o la reducción de la misma, tales como:
cambios en la población, en las características demográficas de la misma, cambios
en los ingresos, en la salud, en el nivel de educación y tecnología. Las tendencias a
largo plazo se ajustan a diversos esquemas. Algunas se mueven continuamente hacía
arriba, otras declinan, y otras más permanecen igual en un cierto período o intervalo
de tiempo.
2. Variación estacional: El componente de la serie de tiempo que representa la
variabilidad en los datos debida a influencias de las estaciones, se llama componente
estacional. Esta variación corresponde a los movimientos de la serie que recurren año
tras año en los mismos meses (o en los mismos trimestres) del año poco más o menos
con la misma intensidad. Por ejemplo: Un fabricante de albercas inflables espera poca
actividad de ventas durante los meses de otoño e invierno y tiene ventas máximas en
los de primavera y verano, mientras que los fabricantes de equipo para la nieve y

pág. 56
ropa de abrigo esperan un comportamiento anual opuesto al del fabricante de
albercas.
3. Variación cíclica: Con frecuencia las series de tiempo presentan secuencias
alternas de puntos abajo y arriba de la línea de tendencia que duran más de un año,
esta variación se mantiene después de que se han eliminado las variaciones o
tendencias estacional e irregular. Un ejemplo de este tipo de variación son los ciclos
comerciales cuyos períodos recurrentes dependen de la prosperidad, recesión,
depresión y recuperación, las cuales no dependen de factores como el clima o las
costumbres sociales.
4. Variación Irregular: Esta se debe a factores a corto plazo, imprevisibles y no
recurrentes que afectan a la serie de tiempo. Como este componente explica la
variabilidad aleatoria de la serie, es impredecible, es decir, no se puede esperar
predecir su impacto sobre la serie de tiempo. Existen dos tipos de variación irregular:
a) Las variaciones que son provocadas por acontecimientos especiales, fácilmente
identificables, como las elecciones, inundaciones, huelgas, terremotos. b)
Variaciones aleatorias o por casualidad, cuyas causas no se pueden señalar en forma
exacta, pero que tienden a equilibrarse a la larga.

b. Tendencia de una serie


1. Tendencia lineal Como se dijo antes, la tendencia de una serie viene dada por el
movimiento general a largo plazo de la serie. La tendencia a largo plazo de muchas
series de negocios (industriales y comerciales), como ventas, exportaciones y
producción, con frecuencia se aproxima a una línea recta. Esta línea de tendencia
muestra que algo aumenta o disminuye a un ritmo constante. El método que se utiliza
para obtener la línea recta de mejor ajuste es el Método de Mínimos Cuadrados.
2. Tendencia no lineal Cuando la serie de tiempo presenta un comportamiento
curvilíneo se dice que este comportamiento es no lineal. Dentro de las tendencias no
lineales que pueden presentarse en una serie se encuentran, la polinomial,
logarítmica, exponencial y potencial, entre otras.

c. Métodos de Suavizamiento de la Serie

pág. 57
1. Promedio móvil Un promedio móvil se construye sustituyendo cada valor de una
serie por la media obtenida con esa observación y algunos de los valores
inmediatamente anteriores y posteriores. Se mostrará este método con los siguientes
ejemplos:

Ejemplo 1. Aplicar el método de promedios móviles para el pronóstico de ventas de


gasolina a partir de la siguiente información:

Se considerará el promedio móvil a partir de las tres observaciones más recientes. En este
caso se utilizará la siguiente ecuación:

Promedio móvil =

Resumen de cálculos para promedios móviles de tres semanas

Los promedios móviles también se pueden construir tomando en cuenta valores


adyacentes de las observaciones, por ejemplo: En el caso de determinar el promedio móvil
para tres observaciones adyacentes de la tabla anterior, se tiene:

pág. 58
2. Promedios móviles ponderados Para mostrar el uso de éste método, se utilizará la
primera parte del ejemplo anterior de la venta de gasolina. El método consiste en asignar
un factor de ponderación distinto para cada dato. Generalmente, a la observación o dato
más reciente a partir del que se quiere hacer el pronóstico, se le asigna el mayor peso, y
este peso disminuye en los valores de datos más antiguos. En este caso, para pronosticar
las ventas de la cuarta semana, el cálculo se realizaría de la siguiente manera:
pronóstico para la cuarta semana

Puede observarse que el dato más alejado (correspondiente a la primera semana) tiene el
factor de ponderación más pequeño, el siguiente tiene un factor de ponderación del doble
que el primero y el dato más reciente (que corresponde a la tercera semana) tiene un factor
de ponderación del triple del primero. Los pronósticos para las diversas semanas se
presentan en la siguiente tabla. En todos los casos, la suma de los factores de ponderación
debe ser igual a uno.

pág. 59
3. Suavizamiento exponencial El suavizamiento exponencial emplea un promedio
ponderado de la serie de tiempo pasada como pronóstico; es un caso especial del método
de promedios móviles ponderados en el cual sólo se selecciona un peso o factor de
ponderación: el de la observación más reciente. En la práctica comenzamos haciendo que
F1, el primer valor de la serie de valores uniformados, sea igual a Y1, que es el primer
valor real de la serie. El modelo básico de suavizamiento exponencial es el siguiente:

Donde: Ft+1 = pronóstico de la serie de tiempo para el período t+1 Yt = valor real de la
serie de tiempo en el período t Ft = pronóstico de la serie de tiempo para el período t  =
constante de suavizamiento, 0 ≤ ≤ 1 En base a lo anterior, el pronóstico para el período
dos se calcula de la siguiente manera:

Como se observa, el pronóstico para el período 2 con suavizamiento exponencial es igual


al valor real de la serie de tiempo en el período uno. Para el período 3, se tiene que:

pág. 60
Para el período 4 se tiene:

Para mostrar el método de suavizamiento exponencial, retomamos el ejemplo de la


gasolina, utilizando como constante de suavizamiento  = 0.2:

Análisis de tendencias
Para analizar la tendencia, es decir, para aislar el componente que determina el
comportamiento a largo plazo de la serie pueden utilizarse dos procedimientos: las medias
móviles y el ajuste por mínimos cuadrados ordinarios.

Medias móviles
Una serie de medias móviles puede considerarse como una serie temporal artificial
construida substituyendo el valor observado de la variable en cada período por la media
de dicho valor y algunos anteriores y posteriores a él. En general, el primer valor de una
media móvil de orden k es:

el segundo valor es:

pág. 61
Por el mismo procedimiento se calculan los valores sucesivos. De esta forma se obtiene
una serie alisada, de la cual se han eliminado o suavizado las fluctuaciones con
periodicidad igual o inferior al orden de la media móvil. Esta serie alisada puede
considerarse como una serie de estimaciones de la tendencia en cada período.
El procedimiento para la obtención de las medias móviles está incluido en el
procedimiento de descomposición estacional.

Ajuste por mínimos cuadrados ordinarios


En caso de que la tendencia de una serie temporal sea lineal, ésta puede modelizarse
como Xt=a+bt donde t es el tiempo o variable independiente y b es la tasa de crecimiento
o decrecimiento de la tendencia. Para estimar los parámetros a y b a partir de la serie
observada se ajusta por MCO una recta a la nube de puntos (t,Xt). Para obtener la
estimación de la tendencia con el programa SPSS la secuencia es: Analizar > Regresión
> Lineal, teniendo en cuenta que la variable dependiente es, en este caso, X y la
independiente es t.

Variación cíclica
Con frecuencia las series de tiempo presentan secuencias alternas de puntos abajo y arriba
de la línea de tendencia que duran más de un año, esta variación se mantiene después de
que se han eliminado las variaciones o tendencias estacional e irregular. Un ejemplo de
este tipo de variación son los ciclos comerciales cuyos períodos recurrentes dependen de
la prosperidad, recesión, depresión y recuperación, las cuales no dependen de factores
como el clima o las costumbres sociales.

El modelo de variación estacional, estacionaria o cíclica permite hallar el valor esperado


o pronóstico cuándo existen fluctuaciones (movimientos ascendentes y descendentes de
la variable) periódicas de la serie de tiempo, esto generalmente como resultante de la
influencia de fenómenos de naturaleza económica.
El modelo de variación estacional es un modelo óptimo para patrones de demanda sin
tendencia y que presenten un comportamiento cíclico, por ejemplo, la demanda de
artículos escolares, la cual tiene un comportamiento cíclico de conformidad con el
calendario escolar.

pág. 62
Donde:

Variación estacional
El componente de la serie de tiempo que representa la variabilidad en los datos debida a
influencias de las estaciones, se llama componente estacional. Esta variación corresponde
a los movimientos de la serie que recurren año tras año en los mismos meses (o en los
mismos trimestres) del año poco más o menos con la misma intensidad. Por ejemplo: Un
fabricante de albercas inflables espera poca actividad de ventas durante los meses de
otoño e invierno y tiene ventas máximas en los de primavera y verano, mientras que los
fabricantes de equipo para la nieve y ropa de abrigo esperan un comportamiento anual
opuesto al del fabricante de albercas.

pág. 63
Variación irregular
Esta se debe a factores a corto plazo, imprevisibles y no recurrentes que afectan a la serie
de tiempo. Como este componente explica la variabilidad aleatoria de la serie, es
impredecible, es decir, no se puede esperar predecir su impacto sobre la serie de tiempo.
Existen dos tipos de variación irregular:
a) Las variaciones que son provocadas por acontecimientos especiales, fácilmente
identificables, como las elecciones, inundaciones, huelgas, terremotos.
b) Variaciones aleatorias o por casualidad, cuyas causas no se pueden señalar en forma
exacta, pero que tienden a equilibrarse a la larga.

Números índice
En general, las magnitudes socioeconómicas varían en el tiempo y en el espacio. Con
frecuencia estaremos interesados en hacer comparaciones de dichas magnitudes en dos o
más periodos de tiempo o en dos o más zonas geográficas. Por ejemplo, analizar la
evolución del PIB español en los últimos años, comparar el PIB de los países europeos o,
lo que es de más interés, estudiar la evolución de los precios de los productos de consumo
a lo largo del tiempo o comparar el nivel de desarrollo de los países del mundo.

Un número índice, , es una medida estadística que recoge la evolución relativa en el


periodo t de una magnitud económica (precios, producciones, …) de un conjunto de
bienes o productos respecto de un periodo base o de referencia 0. También permite
comparar una magnitud económica en una zona geográfica respecto de una zona de
referencia. Por tanto, permiten comparar el estado de un fenómeno económico (precios,
producción,) en dos situaciones y es una herramienta imprescindible en los estudios de
coyuntura. Utilizaremos la notación de los índices temporales, cuyo uso es más habitual
que los espaciales, si bien los desarrollos se pueden generalizar en gran medida a estos
últimos.
 Período base o de referencia: período de tiempo fijado arbitrariamente que se toma
como origen de las comparaciones.
 Período actual o corriente: período de tiempo que se compara con el período base.
Tipos de números índices
Según que recojan la evolución de una o más magnitudes:

pág. 64
 Índices simples: recogen la evolución del precio, la cantidad o el valor de un único
bien o producto.
 Índices compuestos, complejos o sintéticos: recogen la evolución conjunta de los
precios, las cantidades o los valores de kbienes o productos. A su vez, los índices
complejos se clasifican como:
 Sin ponderar: todas las magnitudes o componentes tiene la misma
importancia, es decir, los mismos pesos. Los k bienes o productos se
consideran con el mismo peso.
 Ponderados: cada magnitud o componente tiene un peso diferente
asignado en función de diversos criterios. Los kbienes o productos se
consideran con distinto peso, peso que recoge la importancia relativa de
cada uno de los bienes.
Simples
Números Sin Sauerbeck, Brandstreet-Dûtot,
índices Compuestos o ponderar …
complejos Laspeyres, Paasche,
Ponderados
Edgeworth, Fisher, …

Según el tipo de magnitud:


 Índices de precios: estudian la evolución de los precios de un bien o de un conjunto
de bienes.

 Índices de cantidades: estudian la evolución de la cantidad producida o consumida


de un bien o de un conjunto de bienes.

 Índices de valores: estudian la evolución del valor de un bien o de un conjunto de


bienes.
Precios
Números índices Cantidades
Valores

pág. 65
Números índices simples
Un índice simple es el cociente entre la magnitud en el período corriente y la magnitud
en el período base. Generalmente se multiplica por cien y se lee en porcentaje. No
presentan gran utilidad en sí mismos y su interés radica en que son el punto de partida
de la construcción de los índices complejos y en que algunas de sus propiedades sirven
para evaluar la bondad de éstos. Consideremos la magnitud X en distintos períodos de
tiempo. El índice simple de la magnitud X en el período t con respecto al período 0 será:

que se interpreta como la variación, en tanto por uno, experimentada por la


magnitud X entre el periodo 0 y el periodo t. Habitualmente el índice se expresa en tanto
por ciento, esto es,

interpretándose como la variación, en tanto por ciento, experimentada por la


magnitud X entre el periodo 0 y el periodo t. Con todo, en los desarrollos y propiedades
de los números índices ha de considerarse la primera de las expresiones.

Los índices simples pueden recoger la evolución de los precios de un bien, de su


producción (cantidad) o de sus valores. En la hoja adjunta se ilustra el concepto
construyendo el índice del precio del trigo.

Propiedades de los números índices

Las siguientes propiedades las cumplen los índices simples y, aunque sería deseable, no
siempre las cumplen los índices complejos.

1. Existencia: todo número índice ha de existir, ser finito y distinto de cero.

2. Identidad: si el período base y el actual coinciden, el índice vale la unidad.

pág. 66
3. Circular: sean los períodos 0, t y t',

Esta propiedad jugará un importante papel para enlazar índices tras hacer un cambio de
base.

4. Inversión: el índice con los periodos invertidos resulta la inversa del índice.

5. Encadenamiento: es una generalización de la propiedad circular.

6. Proporcionalidad: si en el período actual todas las


magnitudes sufren una variación proporcional, esto es, el
número índice queda afectado en la misma proporción.

7. Homogeneidad: el número índice no debe quedar afectado por un cambio en las


unidades de medida.

8. Adición: el índice de una suma de magnitudes es la media ponderada de los índices


simples.

pág. 67
9. Multiplicación: el índice de un producto de magnitudes es el producto de los índices
simples.

Números índices complejos


Frecuentemente, el interés no está en comparar precios, cantidades o valores de un único
bien, sino en conocer la evolución conjunta de esas magnitudes para un grupo más o
menos numeroso de bienes. Para ello, trataremos de resumir la información suministrada
por los índices simples en un único índice que denominaremos compuesto, complejo o
sintético. Nuestro propósito es obtener un número índice sencillo pero que reúna la mayor
cantidad de información posible. Según que prime la sencillez o la conservación de la
máxima información tendremos dos tipos de índices complejos: sin ponderar y
ponderados.

Sea la magnitud X (precios, cantidades, valores, ...) relativa a k bienes, .


Los valores de la magnitud para los distintos bienes en los distintos períodos de tiempo
se recogen en la siguiente tabla:

A partir de los índices simples de X para cada uno de los bienes,

podremos obtener un índice complejo para X utilizando un promedio, índice complejo


que resume la información proporcionada por los índices simples. Los más habituales son
los que se obtienen a partir de medias aritméticas o medias agregativas. También se
pueden aplicar medias geométricas o medias armónicas.

pág. 68
Índices complejos sin ponderar. Todos los índices simples, y por tanto todas las
componentes, tienen el mismo peso.
Media aritmética

Media agregativa

El problema de la media agregativa es que exige que las componentes sean agregables.
Índices complejos ponderados. En este caso, los índices simples tienen distinto peso, es
decir, se asignan diferentes ponderaciones a las componentes o magnitudes. Sean estos

pesos .
Media aritmética

Los índices complejos de media aritmética sin ponderar se pueden considerar un caso
particular de éste, cuando todas las ponderaciones son iguales a 1.
Media agregativa

Los índices complejos de media agregativa sin ponderar se pueden considerar un caso
particular de éste, cuando todas las ponderaciones son iguales a 1. Además, las medias
agregativas se pueden expresar como medias aritméticas ponderadas. Así, para la media
agregativa sin ponderar resulta

pág. 69
y para la media agregativa ponderada

Por tanto, la media aritmética ponderada de los índices simples es la forma más general
de agregar índices simples para obtener un índice complejo:

donde son las ponderaciones normalizadas,

Habitualmente estas ponderaciones se expresan en tanto por ciento o en tanto por mil.
Variación, repercusión y participación
El valor del índice en sí mismo, su nivel, aporta poca información: un índice que valga
167,3 indicaría que la magnitud ha experimentado un crecimiento del 67,3% desde el
periodo base, periodo que pudiera estar muy alejado en el tiempo. La información más
relevante es la variación del índice a corto plazo. Así, si el índice es de periodicidad
mensual, la variación del índice se medirá mediante tres tipos de tasas:
Tasa de variación intermensual, esto es, la variación del índice un mes respecto del mes
anterior:

Suele ser una tasa muy volátil y compara dos periodos heterogéneos.
Tasa de variación en lo que va de año, es decir, la variación del índice un mes respecto
del mes de diciembre del año anterior:

pág. 70
De nuevo, compara periodos heterogéneos; su interés radica en que sirven de referencia
para ciertos índices, como el Índice de Precios de Consumo, para los que se hacen
predicciones sobre su crecimiento en el año.
Tasa de variación interanual, esto es, la variación del índice un mes respecto del mismo
mes del año anterior:

Dado que compara periodos homogéneos y recoge todo un año, es la tasa de variación
más relevante para seguir la evolución de la magnitud.
No sólo va a interesar la variación (intermensual, en lo que va de año o interanual) de un
índice, también interesará conocer qué parte de esa variación corresponde a cada una de
las componentes o grupos de componentes que lo forman. La parte de la tasa de variación
que es achacable a una componente o grupo de componentes se conoce
como repercusión, resultando que la suma de las repercusiones de las distintas
componentes es la tasa de variación. Las repercusiones se pueden expresar en porcentaje
sobre la tasa de variación, lo que se denomina participación; en este caso, su suma es
100.
En el caso de un índice complejo, media aritmética ponderada de los índices simples con
ponderaciones fijas, la repercusión del bien i-ésimo en la tasa de variación intermensual
se calcula del siguiente modo:

pudiéndose demostrar que su suma es la correspondiente tasa de variación,

En el mismo sentido se calcularían las repercusiones para los otros tipos de tasas. Como
se puede observar, en la repercusión influye no sólo la variación de la componente, sino
también su peso en el índice.

pág. 71
Índices de precios, cantidades y valores

Los índices simples y complejos de mayor interés son los índices de precios, cantidades
y valores.
 Índices de precios: estudian la evolución de los precios de un bien o de un
conjunto de bienes.

 Índices de cantidades: estudian la evolución de la producción o el consumo de


un bien o de un conjunto de bienes.

 Índices de valores: estudian la evolución del valor de un bien o de un conjunto


de bienes.

Índices de precios
Índices simples

Sea el precio de un bien en el periodo t.


Índices de precios o precios relativos:

Sean y el precio y la cantidad del bien i-ésimo en el periodo t.


Índices complejos sin ponderar
Índice de Sauerbeck: media aritmética de los índices simples del conjunto de bienes.

Índice de Bradstreet-Dûtot: media agregativa de los precios del conjunto de bienes.

pág. 72
También se puede expresar como la media aritmética ponderada de los índices simples
siendo las ponderaciones los precios de cada bien en el periodo base.
Índices complejos ponderados

Índice de Laspeyres: media agregativa de precios ponderados por las cantidades del
periodo base.

Como se puede observar por la última igualdad de la expresión anterior, el índice de


Laspeyres se puede expresar como una media aritmética ponderada de índices simples de
precios. La ponderación utilizada es el valor de la cantidad producida (consumida) del

bien i-ésimo en el periodo base a precios de dicho periodo, . Dada la


importancia de este índice, Índice de Paasche: media agregativa de precios ponderados
por las cantidades del periodo corriente.

También el índice de Paasche se puede expresar como media aritmética ponderada de


índices simples de precios. En este caso la ponderación utilizada es el valor de la cantidad
producida (consumida) del bien i-ésimo en el periodo corriente a precios del periodo

base, .
El cálculo de este último índice es más laborioso porque exige una renovación de las
ponderaciones en cada periodo.
Índice de Edgeworth: media agregativa de precios ponderados por la suma (la media) de
las cantidades del periodo base y del periodo corriente.

pág. 73
También se puede expresar como media aritmética ponderada de índices simples de
precios, siendo la ponderación utilizada el valor de la suma (la media) de las cantidades
producidas (consumidas) del bien i-ésimo en el periodo base y en el corriente a precios

del periodo base, .


Índice de Fisher: media geométrica de los índices de Laspeyres y Paasche.

Los índices de Edgeworth y de Fisher son soluciones de compromiso entre los índices de
Laspeyres y Paasche.

Sea la cantidad de un bien en el periodo t.


Índices de cantidades o cantidades relativas:

Sean y el precio y la cantidad del bien i-ésimo en el periodo t.


Índices complejos sin ponderar

Índice de Sauerbeck: media aritmética de los índices simples del conjunto de bienes.

Índice de Bradstreet-Dûtot: media agregativa de las cantidades del conjunto de bienes.

También se puede expresar como la media aritmética ponderada de los índices simples
siendo las ponderaciones las cantidades de cada bien en el periodo base.

pág. 74
Índices complejos ponderados

Índice de Laspeyres: media agregativa de cantidades ponderadas por los precios del
periodo base.

Como se puede observar por la última igualdad de la expresión anterior, el índice de


Laspeyres se puede expresar como una media aritmética ponderada de índices simples de
cantidades. La ponderación utilizada es la misma que para el índice de precios, es decir,
el valor de la cantidad producida (consumida) del bien i-ésimo en el periodo base a precios

de dicho periodo, .

Índice de Paasche: media agregativa de cantidades ponderadas por los precios del periodo
corriente.

También el índice de Paasche se puede expresar como media aritmética ponderada de


índices simples de cantidades. En este caso la ponderación utilizada es el valor de la
cantidad producida (consumida) del bien i-ésimo en el periodo base a precios del periodo

corriente, .
Índice de Edgeworth: media agregativa de cantidades ponderadas por la suma (la media)
de los precios del periodo base y del periodo corriente.

También se puede expresar como media aritmética ponderada de índices simples de


cantidades, siendo la ponderación utilizada el valor de la cantidad del periodo base del

pág. 75
bien i-ésimo al precio resultante de la suma (la media) de los precios en el periodo base y

en el corriente, .

Índice de Fisher: media geométrica de los índices de Laspeyres y Paasche.

Sean y el precio y la cantidad de un bien en el periodo t. El valor de un bien en un

período dado es el producto del precio de ese bien y de la cantidad producida,


, esto es, la cantidad valorada.
Índices de valores o valores relativos:

Sean y el precio y la cantidad del bien i-ésimo en el periodo t. Dado que el valor
de un bien en un periodo cualquiera es el producto del precio de ese bien y la cantidad

producida (vendida o consumida), el valor del bien i-ésimo en el periodo t es


. De la misma forma, el valor del conjunto de bienes será

Al igual que los índices de precios y cantidades, el índice complejo de valor entre el
periodo 0 y el periodo t es el cociente entre el valor del conjunto de bienes en el
periodo t y el valor del conjunto de bienes en el periodo 0:

Como se observa en la última expresión, el índice complejo de valor es una media


agregativa de los índices simples de valor.
El índice de valor se puede obtener a partir del producto de los índices de Laspeyres y de
Paasche:

pág. 76
o bien,

También el producto del índice de precios y el de cantidades de Fisher proporciona el


índice de valor:

Ejemplos

Serie de tiempo
Indicador Mensual de Actividad Económica (IMACEC). Base del índice : 1996=100
Corresponde al nuevo Indicador Mensual de Actividad Económica (Imacec), estructurado
a base de la matriz insumo-producto de 1996. La cobertura de este indicador comprende
casi la totalidad de las actividades económicas incluidas en el PIB.
Las cifras de 2000 y 2001 son provisionales.
Las cifras de 2002 y 2003 son preliminares.

pág. 77
1996 1997 1998 1999 2000 2001 2002 2003
Enero 99.6 105.0 110.8 109.2 112.6 116.4 119.7 122.6
Febrero 94.9 98.6 104.3 103.7 107.6 111.8 113.0 118.3
Marzo 105.4 109.1 117.5 116.4 121.2 124.3 124.4 128.8
Abril 103.4 108.1 116.1 108.0 113.8 118.0 122.0 125.3
Mayo 104.2 109.2 114.4 111.2 117.9 121.7 123.0 126.1
Junio 101.3 106.5 111.9 110.0 113.1 119.1 120.1
Julio 98.7 107.1 110.9 106.4 112.3 116.0 118.9
Agosto 98.7 105.6 109.0 108.1 113.4 116.9 119.1
Septiembre 94.8 103.8 105.4 105.7 108.6 111.4 114.6
Octubre 102.0 110.9 107.7 109.2 115.4 118.4 121.7
Noviembre 98.0 106.8 106.1 110.7 114.9 117.3 119.9
Diciembre 99.2 108.4 106.5 111.9 114.4 115.7 120.9

Indicador Mensual Actividad Económica

140.0

120.0

100.0
IMACEC

80.0
60.0

40.0

20.0

0.0

96 97 98 99 00 01 02 03
19 19 19 19 20 20 20 20
m es-año

Se estima la tendencia por el método de mínimos cuadrados, de regresión lineal


Y (t )  a  bt  A(t )
dando el siguiente resultado:
Intercepto a = 100.3 . Corresponde al valor de partida.
Pendiente b = 0.253 . Corresponde al aumento medio mensual.
Coeficiente de determinación R2 = 0.74, que indica un ajuste moderadamente bueno.
El error estándar de los errores se estimó en 3.98.

pág. 78
La recta de regresión correspondiente a la tendencia se muestra en el siguiente gráfico:

Tendencia Indicador Mensual Actividad


Económica

140
120
100
IMACEC

80
60
40
20
0

96 97 98 99 00 01 02 03
19 19 19 19 20 20 20 20
m es-año

Asumiremos un modelo clásico aditivo.


Entonces para obtener una estimación de la estacionalidad, restamos los valores ajustados
de la tendencia a los datos, obteniendo una serie sin tendencia.
Luego promediamos todos los valores de enero, los de febrero, los de marzo, etc.,
obteniendo doce valores mensuales promedio:
Mes Prom.
Enero Compone nte Cíclica Indicador M e nsual
0.8
Activ idad Económica
Febrero -4.9
Marzo 6.7 20
Abril 2.4
15
Mayo 3.8
10
Junio
IMACEC

0.8
Julio -1.2 5

Agosto -1.3 0

Septiembre -5.4 -5

Octubre 0.2 -10


Noviembre -1.7
96

97

98

99

00

01

02
19

19

19

19

20

20

20

Diciembre -1.5 m es-año

Se observan valores altos a partir de marzo, y bajos en torno a septiembre.

pág. 79
Si recomponemos la serie con tendencia y componente cíclica, sin la componente
aleatoria, tenemos la situación que se ilustra en el gráfico siguiente:

Te nde ncia más Compone nte Cíclica Indicador


M e nsual Activ idad Económica

140
120
100
IMACEC

80
60
40
20
0

96 97 98 99 00 01 02
19 19 19 19 20 20 20
m es-año

Con esto se pueden hacer predicciones futuras, extrapolando la recta de regresión y


sumándole la componente cíclica del mes correspondiente.
Dentro de un rango limitado, estas predicciones pueden ser acertadas.
A continuación, se muestra el gráfico de la componente aleatoria sola.

Compone nte Ale atoria Indicador M e nsual


Activ idad Económica

20

15

10
IMACEC

-5

-10
96

97

98

99

00

01

02
19

19

19

19

20

20

20

m es-año

Si se usa el modelo multiplicativo, el procedimiento es parecido.


Nota: Junto con las series de datos como esta, el Banco Central también entrega series sin
tendencia y desestacionalizadas.

pág. 80
Análisis de tendencias
Un analista de mercadotecnia desea evaluar tendencias en las ventas de raquetas de tenis.
El analista recoge datos de las ventas de los cinco años previos para predecir las ventas
del producto en los próximos 3 meses.

La gráfica de análisis de tendencia muestra una tendencia general hacia arriba. Existe
curvatura y el modelo parece ajustarse a los datos adecuadamente, lo cual indica un buen
ajuste. El analista puede estar seguro de los pronósticos correspondientes a los 3 meses
siguientes.

Análisis de tendencia para Raquetas

pág. 81
Gráfica de análisis de tendencia de Raquetas

Variación cíclica
La distribuidora de papelería CAROLA desea vender para el año 2015 una cantidad de
12000 kits escolares. Determine el pronóstico por trimestre a partir del modelo de
variación estacional, teniendo en cuenta la siguiente información acerca del
comportamiento de las ventas:

El primer paso consiste en determinar el promedio general de las ventas, para ello hemos
de sumar las ventas totales y dividirlas entre el número de trimestres.

pág. 82
Luego se procede a calcular el promedio de las ventas de cada período, en este caso de
cada período tan sólo tenemos un dato, existirán en la práctica ejercicios en los que de
cada período (por ejemplo, trimestre I) tengamos gran cantidad de información histórica,
por ejemplo, la información histórica del trimestre I de 5 años. Como lo mencionamos,
para éste caso no es necesario promediar, ya que contamos tan sólo con un dato de cada
trimestre, por tal razón procedemos a calcular el índice de estacionalidad de cada período.

Teniendo en cuenta que se desean vender un total de 12000 kits para el año 2015,
calcularemos el promedio general de las ventas para dicho año, para ello dividiremos ésta
cantidad en la cantidad de trimestres.

Ya que tenemos el promedio general de las ventas del año que deseamos pronosticar y
contamos con el índice de estacionalidad de cada trimestre, es momento de determinar el
pronóstico por trimestre para el año 2015.

pág. 83
Variación estacional
Identifique si la variable Viajes del archivo Turivia.sav presenta estacionalidad.
Con la secuencia Gráficos > Secuencia y seleccionando en el cuadro de diálogo las
variables Viajes y Año se obtiene la siguiente representación gráfica:

La observación del gráfico pone de manifiesto la existencia de una tendencia creciente


así como de un patrón estacional muy marcado: el valor máximo anual se observa
sistemáticamente en el mes de agosto, seguido por los valores de la variable en julio y
septiembre; así mismo, en los meses de enero, febrero, noviembre y diciembre se
observan sistemáticamente los valores mínimos anuales.

Para poder calcular los índices de variación estacional de la serie Viajes es necesario, en
primer lugar, definir una variable fecha.
Para obtener los índices de variación estacional correspondientes a cada uno de los 12
meses la secuencia a seguir es: Analizar > Series Temporales > Descomposición
estacional. En el cuadro de diálogo se selecciona la variable Viajes, se mantiene el
modelo Multiplicativo y se indica que las medias móviles se quieren realizar con la
ponderación Puntos finales ponderados por ,5. Si se quiere recoger el listado de los
resultados de la descomposición en el editor de resultados se deberá seleccionar Mostrar
el listado por casos.
El cuadro de resultados presenta:
Moving averages: Medias móviles centradas de orden 12;

pág. 84
Ratios (*100) = 100: componente estacional específica de cada período;

Seasonal factors: índices de variación estacional corregidos (IVE), obtenidos como


mediana de los ratios correspondientes a cada período estacional por separado y corregido
teniendo en cuenta que se debe verificar:

Serie desestacionalizada;

Smoothed trend-cycle: Estimación del componente Tendencia-Ciclo;

Estimación del componente irregular.

Algunos de los resultados que se obtienen son:

Los índices de variación estacional obtenidos son: JAN 62,207 FEB 63,671 MAR 80,921
APR 95,999 MAY 105,515 JUN 104,870 JUL 152,271 AUG 180,162 SEP 115,276 OCT
99,178 NOV 68,232 DEC 71,698. Por lo tanto, se puede concluir que la serie en los meses
enero, febrero, marzo, abril, octubre, noviembre y diciembre toma valores inferiores a la
tendencia media; el componente estacional tiene mayor repercusión en el mes de agosto

pág. 85
incrementando en algo más del 80% el valor de los viajes; en el mes de enero es cuando
se produce el mayor decremento de los viajes debido a la estacionalidad, reduciéndose
éstos en cerca del 38%.
La representación gráfica de la serie desestacionalizada y de la estimación de la tendencia-
ciclo (o del componente extraestacional) es la siguiente:

Como se puede observar, la serie desestacionalizada presenta fluctuaciones a muy corto


plazo debidas a la acción del componente irregular, mientras que la serie de valores de
tendencia-ciclo está mucho más alisada y sugiere una tendencia lineal creciente.

pág. 86
Variación irregular

Un ejemplo que ilustra este tipo de comportamientos erráticos es cuando se dio el


fenómeno de la influenza H1N1 en el 2009 lo cual generó una expectativa muy fuerte
en las autoridades y civiles de nuestro país. Si observas la gráfica te darás cuenta que el
número de decesos presenta un patrón irregular producto de la aparición de una nueva
cepa del virus lo que intensifico entre el 19 de abril y el 1 de Mayo y a partir de ahí se
mostraron números que de acuerdo a las instituciones de salud eran los normales; por lo
que no se ha vuelto a presentar un fenómeno de esta forma en nuestro país. Esta
variación irregular se debe a fenómenos que no se tienen contemplados; así mismo por
ejemplo en estas mismas fechas la demanda de gel antibacterial, cubrebocas, sueros,
inyecciones para la gripa, amentaron como nunca llegando inclusive al desabasto de
dichos productos

Números índice
La tabla siguiente recoge los precios y el consumo de tres artículos básicos en los años
1991 y 1992:

pág. 87
Precio Consumo
Artículo Unidades promedio promedio
1991 1992 1991 1992

Leche Litro 75 80 10 11
Pan Barra 50 60 9 8
Huevos Docena 225 200 1 1.2

a) Hallar los índices de precios de Laspeyres y Paasche para el conjunto de artículos


utilizando como año base 1991.
b) El consumo de mantequilla de una familia fue de 1500 pts. en 1991 y de 1950 en 1992.
Hallar el incremento real, en porcentaje, del consumo de mantequilla, utilizando el índice
más apropiado de los calculados en el apartado anterior.

Series de tiempo en aplicaciones prácticas


Aplicaciones de un modelo de tráfico
A partir de un modelo de tráfico desarrollado, evaluado y seleccionado, como el que se
muestra en la ecuación 4 se pueden obtener información importante a la hora de realizar
la planeación y control de las redes de comunicaciones.
Ancho de Banda Se ha definido ancho de banda efectivo o simplemente ancho de banda
como la banda en la que se concentra la mayor parte de la energía de la señal. El concepto
de “la mayor parte de la energía de la señal” es algo subjetivo. Lo importante es que,
aunque una forma de onda dada contenga frecuencias en un rango extenso, por cuestiones
prácticas, cualquier sistema de transmisión solo podrá transferir una banda limitada de

pág. 88
frecuencias. Lo cual hace que la velocidad de transmisión máxima en el medio este
limitado Ahora el ancho de banda es un parámetro que puede modificarse según la técnica
de modulación que se utilice, por esto se analizó la relación que existe entre el ancho de
banda y las diferentes técnicas de modulación digital, a partir del cociente entre
velocidades de transmisión y ancho de banda para tres valores del factor de roll-off (α),
los cuales se mencionan en la tabla 1

De la tabla 1 se puede deducir que el ancho de banda se maximiza cuando la relación de


cociente entre la velocidad de transmisión y el ancho de banda se minimiza, el valor mas
pequeño de dicha relación es 0.5 por lo que el máximo ancho de banda necesario será
equivalente al doble de la velocidad de transmisión.
De acuerdo a la conclusión anterior el ancho de banda necesario para una señal se puede
determinar a partir del modelo de tráfico desarrollado multiplicando por dos el resultado
arrojado por este, por lo que la expresión matemática para determinar el máximo ancho
de banda necesario será:

Sin embargo, algunos autores (Stallings, 2004) (Schwartz, 1994) definen el ancho de
banda como la cantidad de información de datos que se puede enviar a través de un medio
de transmisión en un periodo de tiempo dado, en este sentido se puede decir que el ancho
de banda es equivalente a la velocidad de transmisión de datos.

Parámetros de Calidad de Servicio Es importante que durante los periodos de


congestión los flujos de tráfico con distintos requisitos sean tratados de forma diferente y
se les asigne una calidad de servicio (QoS) diferente. Por ejemplo, algunas aplicaciones
de voz y video, son sensibles al retardo, pero insensibles a la perdida de datos; mientras

pág. 89
otras, como la transferencia de ficheros y el correo electrónico, son insensibles al retardo,
pero sensibles a las pérdidas de datos.
Debido a esto es necesario determinar parámetros de calidad de servicio que le garanticen
al usuario final un adecuado servicio. A continuación, se determinarán dos parámetros de
calidad de calidad de servicio a partir del modelo de trafico seleccionado anteriormente
(ARIMA (18,1,18)).

Retardo Para encontrar un modelo matemático para el retardo promedio de los paquetes
en el sistema, es necesario conocer la tasa de salida y de llegada de los paquetes en el
sistema. El modelo de tráfico desarrollado a partir de series de tiempo determina el valor
de la tasa instantánea de llegada de paquetes, por lo que solo haría falta determinar la tasa
de salida de los paquetes. Para obtener un modelo de retardo instantáneo se realiza un
modelo en series de tiempo para los datos de tráfico de salida correspondientes a los datos
de tráfico de entrada con los cuales se modeló la ecuación 4, el resultado es la ecuación
6.

Como los modelos para las tasas de llegada y salida de paquetes arrojan datos
instantáneos (en bits por segundo) se puede calcular el tiempo de retardo instantáneo
para un solo bit y asumir dicho resultado para todo el sistema con un grado de error
significativamente bajo. Denominando VL(t) al modelo de tráfico de la ecuación 4, y
correspondientemente VS(t) al modelo de tráfico de la ecuación 6. Se tiene que el
tiempo de llegada TL para un único bit es:

De la misma forma se tiene que el tiempo de salida TS para un único bit es:

pág. 90
Ahora se puede determinar el tiempo de retardo instantáneo TR para un único bit
como:

Sin embargo, hay que hacer una salvedad importante, si el valor del tiempo de salida es
menor al valor del tiempo de llegada, el retardo no queda definido como la diferencia,
ya que para ese instante el retardo en teoría valdría cero. Digo en teoría a razón de que
es posible que en ese momento existan aun paquetes en cola, por lo que los nuevos
arribos tendrán que esperar un tiempo TR* determinado por el cociente del número de
paquetes en cola NR entre la diferencia de las velocidades instantáneas de salida y
llegada, como se indica en la ecuación 10.

Ahora el número de paquetes NR* que experimentarían el retardo TR* está dado por la
ecuación 11, siempre y cuando durante dicho tiempo la diferencia entre la velocidad de
salida y la velocidad de llegada permanezca constante y mayor que cero.

Ahora si lo que se desea es determinar el retardo promedio E[TR] en lugar del retardo
instantáneo, entonces se toma el estadístico del valor esperado para un número “n”
significativos datos de retardo instantáneo, es decir se realiza el promedio de “n” valores
adyacentes de retardo instantáneo.

Encolamiento El parámetro de calidad de servicio denominado encolamiento, resulta


muy sencillo de estimar teniendo con anterioridad el retardo promedio, ya que

pág. 91
simplemente el número de paquetes en cola será equivalente al producto de la tasa de
llegadas por el tiempo de retardo. [14].

Nuevamente para estimar el valor promedio se calcula el valor esperado para un


número “n” de datos como se muestra en la ecuación 14.

Referencia consultada de la aplicación


[1] ALZATE, Marco Aurelio. Modelos de tráfico en análisis y control de redes de
comunicaciones. En: Revista de ingeniería de la Universidad Distrital Francisco José de Caldas.
Bogotá. Vol. 9, No. 1 (Junio 2004); p. 63-87.

[2] CORREA MORENO, Emilia. Series de tiempo: conceptos básicos. Medellín: Universidad
Nacional de Colombia, Facultad de Ciencias, Departamento de matemáticas, 2004.

[3] PAPADOPOULI, María; SHENG, Haipeng; RAFTOPUULOS, Elias; PLOUMIDIS, Manolis y


HERNANDEZ, Felix. Short-term traffic forecasting in a campus-wide wíreles network. 2004.

[4] FILLATRE, Lionel; MARAKOV, Dimitry y VATON, Sandrine. Forecasting seasonal traffic flows.
Computer Science

Herramienta de apoyo
El modelado y análisis de las relaciones entre las variables económicas y financieras en
diferentes mercados de energía (electricidad, petróleo, gas, carbón, biocombustibles,
etc.) son dos de los principales ejes de investigación de la economía energética; las
metodologías utilizadas provienen de diversos campos del conocimiento que incluyen,
entre otros, la economía, la econometría, la investigación de operaciones, la estadística
y las finanzas. Gran parte del análisis está centrado en descubrir y entender la relación
entre diferentes variables, así como su dinámica, a partir de la información histórica.

El lenguaje r para el computo estadistico


El entorno de programación R [8] es un clon de los lenguajes S [9][10][11]y S-plus [12],
de tal forma que muchos programas escritos en S y S-plus pueden ejecutarse en R sin

pág. 92
modificaciones. S y S-plus son lenguajes de muy alto nivel diseñados para [12]:La
exploración y visualización de datos; el modelado estadístico; y la programación con
datos.

Funciones disponibles para el análisis y la predicción de series de tiempo


El lenguaje R ha sido utilizado intensivamente para ilustrar diferentes metodologías de
análisis y predicción de series de tiempo [20][21][22][23][24]. Tambien existe material
de referencia general; véase [18][19][25][26].
Las funciones disponibles para el análisis de series de tiempo se encuentran agrupadas en
paquetes desarrollados por diferentes autores, los cuales pueden ser instalados desde la
barra de menú "paquetes/Instalar paquete(s).". Los paquetes deben ser cargados
manualmente en cada sesión mediante la opción "Cargar paquete." del menú "Paquetes"
o a través de la función library(). Los principales paquetes disponibles para el análisis y
la predicción de series de tiempo se encuentran listados en la Tabla 1. A continuación, se
discute algunas de sus principales funciones, agrupadas de acuerdo con las principales
fases de desarrollo un modelo explicativo o predictivo.

Entrada de los datos

La unidad fundamental de información es el objeto time-series, creado con la función ts();


este almacena la información relacionada con la secuencia de datos como tal, su periodo,
el momento en que ocurre la primera información, etc. En el siguiente fragmento de
código, se crea la variable gasdem la cual contiene la información de la demanda mensual
de gasolina desde enero de 1960 hasta diciembre de 1975 en Ontario (Canadá) [27]:

pág. 93
El diseño del sistema permite que funciones generales como plot(), line(), points() o sqrt()
puedan ser aplicadas a un objeto time-series; adicionalmente, existen funciones
específicas que operan directamente sobre él

pág. 94
Funciones como filter() o lag() permiten transformar la serie de tiempo. Véase la Tabla
2; detalles y opciones específicas para cada función pueden obtenerse consultando el
sistema de ayuda. Por ejemplo, en la Figura 1 se grafica la variable gasdem, y su tendencia
de largo plazo, obtenida mediante la función decompose() del paquete stats. El código
para generar la Figura 1 fue el siguiente:

La gráfica presentada (Figura 1) muestra la presencia de un fuerte patrón estacional,


consistente con la dependencia del consumo de gasolina de la temperatura promedio, tal
como describen en [27], así como una tendencia creciente, resultado del crecimiento del
ingreso.
La entrada de los datos no está limitada a la línea de comandos, de tal manera que se
puede acceder a información almacenada en archivos de texto, hojas de cálculo y
diferentes bases de datos[25].

pág. 95
Análisis exploratorio de la información

En el marco de los modelos ARIMA, el análisis exploratorio se basa principalmente en


el uso de contrastes de raíces unitarias y el análisis de los gráficos de las funciones de
autocorrelación simple y parcial; no obstante, cuando hay presencia de no linealidades,
tanto en la media como en la varianza, se deben utilizar otras herramientas exploratorias.
En la Tabla 3, se resumen y describen las principales funciones disponibles para el
análisis exploratorio de una serie de tiempo. Para ejemplos detallados véase [20][21],
[22][23].

Especificación y pronóstico

Existen varios modelos disponibles para el modelado y el pronóstico de series de tiempo.


Estos abarcan desde aproximaciones más
tradicionales como los modelos de suavizado exponencial y modelos ARIMA (paquetes
stats y forecast), hasta modelos no lineales en media como las redes neuronales

pág. 96
autoregresivas y modelos de transición de regímenes (paquete tsDyn), y los modelos de
varianza condicional. En la Tabla 4, se listan las principales funciones para crear modelos
de predicción y el correspondiente paquete donde se encuentran implementadas.

El pronóstico varios pasos adelante es realizado, comúnmente, por la función predict(),


la cual se encuentra sobrecargada con una versión específica para cada modelo utilizado.
En algunos casos, también se dispone de la función simulate(), que permite generar series
simuladas a partir de un modelo ya ajustado.
En el caso de los modelos ARIMA, la función auto.arima() realiza una búsqueda entre un
conjunto de posibles modelos y selecciona el mejor de ellos basado en un criterio de
información.
Esta es una clara ventaja, ya que la correcta especificación de un modelo ARIMA es una
tarea difícil, aún más cuando la dinámica de la serie de tiempo es compleja; por ejemplo,
para la serie de ejemplo utilizada, debería considerarse un modelo
SARIMA(p, d, q)(P, D, Q)m [o ARIMA estacional], donde los valores de los parámetros
son escogidos a partir de la experiencia del modelador.
El valor retornado por auto.arima() puede ser usado directamente para generar el
pronóstico de la serie de tiempo utilizada. En la Figura 2(a), se presenta la comparación
entre la serie real y el pronóstico obtenido usando la función auto.arima(). Para la
información disponible desde el principio de la serie hasta 1973(12), el pronóstico
corresponde a la predicción del mes actual utilizando como entrada al modelo la
información real; a partir de 1974(1), inclusive, se realizó el pronóstico con un horizonte
de 24 meses hacia adelante usando la información disponible hasta 1973(12).

pág. 97
La línea vertical en la Figura 2(a) corresponde al último dato disponible para el ajuste del
modelo, esto es, la observación en 1973(12). La predicción fue generada con el siguiente
código:

pág. 98
El pronóstico de la demanda también puede obtenerse usando suavizado exponencial de
Holt-Winters. El siguiente código permite obtener el gráfico de la Figura 2(b).

Diagnóstico
En la Tabla 5, se listan las principales funciones para realizar el diagnóstico de los
residuales obtenido después de calibrar un modelo de series de tiempo.

Uno de los principales campos de investigación en mercados energéticos es el modelado


de diferentes series que incluyen los precios de los energéticos, su demanda en diferentes
escalas de tiempo y muchas otras series relacionadas, con el fin de comprender mejor los
diferentes hitos históricos que explican sus fluctuaciones en el tiempo. Además de
comprender el comportamiento de las series, desde un punto de vista pragmático, deben
desarrollarse modelos que para pronosticar su evolución.
El lenguaje R para la computación estadística es un paquete gratuito que provee muchas
de las herramientas necesarias para estudiar dichas series de interés. En este artículo se
ha realizado una introducción a dicho entorno de cómputo, haciendo énfasis en las
principales fuentes de información detallada, así como también en los principales
paquetes y funciones necesarios para realizar las tareas de modelado y predicción. Los
principales objetivos de este artículo son: dar a conocer al lector dicha herramienta de

pág. 99
trabajo, ilustrando su potencialidad en el área de la econometría energética; y facilitar las
primeras experiencias en su uso al presentar una guía detallada de las principales
funciones en el análisis y predicción de series de tiempo.

Referencias

[1] ALZATE, Marco Aurelio. Modelos de tráfico en análisis y control de redes de


comunicaciones. En: Revista de ingeniería de la Universidad Distrital Francisco José de Caldas.
Bogotá. Vol. 9, No. 1 (Junio 2004); p. 63-87.

[2] CORREA MORENO, Emilia. Series de tiempo: conceptos básicos. Medellín: Universidad
Nacional de Colombia, Facultad de Ciencias, Departamento de matemáticas, 2004.

[3] PAPADOPOULI, María; SHENG, Haipeng; RAFTOPUULOS, Elias; PLOUMIDIS, Manolis y


HERNANDEZ, Felix. Short-term traffic forecasting in a campus-wide wíreles network. 2004.

[4] FILLATRE, Lionel; MARAKOV, Dimitry y VATON, Sandrine. Forecasting seasonal traffic flows.
Computer Science

http://www.estadistica.mat.uson.mx/Material/seriesdetiempo.pdf

https://www.ingenieriaindustrialonline.com/herramientas-para-el-ingeniero-
industrial/pron%C3%B3stico-de-ventas/variaci%C3%B3n-estacional-o-c%C3%ADclica/

pág. 100
Estadística no paramétrica

Estadística no paramétrica
Es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya
distribución subyacente no se ajusta a los llamados criterios paramétricos. Su distribución
no puede ser definida a priori, pues son los datos observados los que la determinan. La
utilización de estos métodos se hace recomendable cuando no se puede asumir que los
datos se ajusten a una distribución conocida, cuando el nivel de medida empleado no sea,
como mínimo, de intervalo.
La mayoría de los test estadísticos están programados en los paquetes estadísticos más
frecuentes, quedando para el investigador, simplemente, la tarea de decidir por cuál de
todos ellos guiarse o qué hacer en caso de que dos test nos den resultados opuestos. Hay
que decir que, para poder aplicar cada uno existen diversas hipótesis nulas y condiciones
que deben cumplir nuestros datos para que los resultados de aplicar el test sean fiables.
Esto es, no se puede aplicar todos los test y quedarse con el que mejor convenga para la
investigación sin verificar si se cumplen las hipótesis y condiciones necesarias pues, si se
violan, invalidan cualquier resultado posterior y son una de las causas más frecuentes de
que un estudio sea estadísticamente incorrecto. Esto ocurre sobre todo cuando el
investigador desconoce la naturaleza interna de los test y se limita a aplicarlos
sistemáticamente.
Es importante mencionar que, si la distribución de los datos se ajusta a un tipo de
distribución conocida, existen otras [pruebas] que, en la práctica, son más aconsejables
pero que así mismo requieren otros supuestos. En este caso, la estadística a emplear es
la estadística paramétrica, dentro de la cual muchas veces podemos encontrar
equivalencias entre pruebas pero con diferencias en la potencia entre ambas siendo
siempre la potencia de las pruebas no paramétricas menor que la potencia de las pruebas
paramétricas equivalentes. Aun así, el uso adecuado de los tamaños muéstrales disminuye
la posibilidad de cometer un [error tipo II], puesto que aumenta al mismo tiempo la
eficacia de la prueba. Es decir, a medida que se aumenta el tamaño de la muestra,
disminuye la posibilidad de cometer un error tipo II (un falso negativo: No rechazar la
hipótesis nula cuando ésta en realidad es falsa).

pág. 101
Principales pruebas que se utilizan
Las principales pruebas no paramétricas son las siguientes:

 Prueba χ² de Pearson
 Prueba binomial
 Prueba de Anderson-Darling
 Prueba de Cochran
 Prueba de Cohen kappa
 Prueba de Fisher
 Prueba de Friedman
 Prueba de Kendall
 Prueba de Kolmogórov-Smirnov
 Prueba de Kruskal-Wallis
 Prueba de Kuiper
 Prueba de Mann-Whitney o prueba de Wilcoxon
 Prueba de McNemar
 Prueba de la mediana
 Prueba de Siegel-Tukey
 Prueba de los signos
 Coeficiente de correlación de Spearman
 Tablas de contingencia
 Prueba de Wald-Wolfowitz
 Prueba de los rangos con signo de Wilcoxon

Ejemplos
La prueba χ² de Pearson se considera una prueba no paramétrica que mide la
discrepancia entre una distribución observada y otra teórica (bondad de ajuste),
indicando en qué medida las diferencias existentes entre ambas, de haberlas, se deben al
azar en el contraste de hipótesis. También se utiliza para probar la independencia de dos
variables entre sí, mediante la presentación de los datos en tablas de contingencia.
La fórmula que da el estadístico es la siguiente:

pág. 102
Cuanto mayor sea el valor de menos verosímil es que la hipótesis nula (que asume la
igualdad entre ambas distribuciones) sea correcta. De la misma forma, cuanto más se
aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones.
Los grados de libertad gl vienen dados por :

Donde r es el número de filas y k el de columnas.

 Criterio de decisión:
No se rechaza cuando En caso contrario sí se rechaza.
Donde t representa el valor proporcionado por las tablas, según el nivel de significación
estadística elegido.

Ejemplo de la prueba χ² de Pearson


En un Centro de Salud analizamos las historias de Enfermería (292 hombres y 192
mujeres). De ellos tienen úlcera 10 hombres y 24 mujeres, y no tienen 282 y 168
respectivamente. Establecemos un nivel de significación del 0,05. Enunciado del
ejercicio:
 Se cree que existe relación entre las dos variables cualitativas independientes
(aparición de úlcera y sexo) y que no ocurre por azar.
 Para comprobar si existe o no tal relación debemos realizar una prueba de χ² de
independencia de dos variables, ya que se trata de dos variables cualitativas
dicotómicas e independientes (medidas una sola vez).
 𝐻0 : 𝜋𝐻 = 𝜋𝑀 , es decir, en la realidad, el porcentaje de “aparición de úlceras” es
igualen “hombres y en mujeres” (las dos variables “aparición de úlceras” y
“sexo”NO están asociadas, son independientes)
 𝐻1 : 𝜋𝐻 ≠ 𝜋𝑀 , es decir, en la población el porcentaje de “aparición de úlceras” es
diferente en “hombres y en mujeres” (las dos variables SÍ están asociadas)

Primero, la tabla con los valores observados

pág. 103
Luego, la tabla de valores esperados(E) según la siguiente fórmula:

Como no hay ningún valor esperado menor que 5 podemos hacer χ². Sino tendríamos
que usar la prueba de Fischer. Calculamos el EC,Chi Cuadrado de Pearson mediante la
fórmula:

Para ello necesitamos el grado de libertad (gl) y el nivel de significancia. El gl se


calcula multiplicando el nº de filas menos 1 por el nº de columnas menos 1, de la tabla
de contingencia usada:

El nivel de significancia, que nos lo da elejercicio, es del 95%, es decir, 𝛼= 0,05.


Con estos dos datos nos vamos a la tabla dela distribución Chi Cuadrado y obtenemos el
valor del punto crítico:

Comparamos el resultado del estadístico χ² (14’57) con el valor del punto crítico
obtenido (χ² (0’05;1) = 3’84)

Si χ² > χ² ;(f-1) (c-1) se rechaza la 𝐻0 y se concluye que las dos variables están
asociadas.

pág. 104
Si χ² < χ² ;(f-1) (c-1) se acepta la 𝐻0 y se concluye que no hay pruebas estadísticas de
que las variables estén asociadas.

En nuestro caso, vemos que efectivamente, el EC es mayor que el punto crítico, por lo
tanto, rechazamos la 𝐻0 y aceptamos la 𝐻1 .

Conclusión estadística: Afirmamos que existe relación entretener úlcera y el sexo

Prueba del signo


Una prueba no paramétrica utilizada comúnmente para tomar decisiones en relación a
diferencias entre poblaciones como contraparte de la distribución t, la cual requiere el
supuesto de normalidad de ambas poblaciones. La prueba de signos es útil cuando no se
cumple este supuesto.

Se supone que se tienen datos antes y después para una muestra y se desean comparar
estos conjuntos de datos correspondientes. Se hace restando las observaciones por pares,
y se anota el signo algebraico resultante. No es importante la magnitud de la diferencia,
sino solo si resulta un signo más o un signo menos.

La hipótesis nula establece que no existe diferencia en los conjuntos de datos. Si esto
es cierto, entonces un signo más y un signo menos son igualmente probables. La
probabilidad de que ocurra cualquiera es de 0.50. Una prueba de dos extremos es:
H0: m = p
H1: m  p
en donde m y p son los números de signos menos y de signos más, respectivamente. Una
prueba de un solo extremo es:
H0: m = p
H1: m > p
o

pág. 105
H0: m = p
H1: m < p
Ejemplo. Un analista de mercado desea medir la efectividad de una campaña
promocional del producto de su empresa. Antes de la campaña, selecciona 12 tiendas
minoristas y registra las ventas del mes. Durante el segundo mes se termina la campaña
promocional y se registran de nuevo las ventas. La tabla muestra los niveles de ventas,
junto con el signo algebraico que resulta cuando las ventas del segundo mes se restan de
las del primer mes.
Ventas para doce tiendas minoristas
Tienda Antes Después Signo
1 $4200 $4000 +
2 $5700 $6000 -
3 $3800 $3800 0
4 $4900 $4700 +
5 $6300 $6500 -
6 $3600 $3900 -
7 $4800 $4900 -
8 $5800 $5000 -
9 $4700 $4700 0
10 $5100 $5200 -
11 $8300 $7200 +
12 $2700 $3300 -

Se desea probar la hipótesis de que la promoción incrementó las ventas con un nivel de
significancia del 5%. Esta es una prueba de extremo derecho, como se muestra enseguida:

H0: m  p
H1: m > p
Pregunta: ¿Qué haría que se rechazara la hipótesis nula?
1) un número significativamente grande de signos menos
2) un número significativamente pequeño de signos más

pág. 106
Número de signos menos = 6
Número de signos más = 4
Los valores que resultan en una diferencia de cero se eliminan.
La Tabla de Distribución Binomial establece que la probabilidad de seis o más signos
menos es:
p( m  6 | n  10 ,  0.5 )  1  P ( X  5 )
 1  0.6230
 0.3770
Este valor de 0.3770 es la probabilidad de obtener seis o más signos menos ( o cuatro
o menos signos más) si la probabilidad de ocurrencia de cualquier signo es de  = 0.5. Se
nota que si el número de signos menos fuera inusitadamente grande, se rechazaría la
hipótesis nula. Sin embargo, 6 no es un número grande. La probabilidad de su ocurrencia
es mayor que un  de 0.5%, el evento de 6 signos menos no se considera grande, y la
hipótesis nula de que H0: m  p no se rechaza, por lo tanto no se puede considerar que la
promoción haya sido exitosa.

Valor de Z para prueba del signo con muestras grandes (n  30)

k  0.5  0.5 n
Z
0.5 n

Prueba U de Mann-Whitney
Es la contraparte no paramétrica de la prueba t para muestras independientes. No requiere
del supuesto de que las diferencias entre las dos muestras estén distribuidas normalmente.

Ejemplo. Suponga que una fábrica de cerámicas desea comparar el tiempo que toma a
las piezas de barro enfriarse después de haber “ardido” en el horno mediante dos métodos
diferentes.

Los alfareros queman 12 piezas utilizando el método 1, y 10 utilizando el método 2. El


número de minutos necesarios para que cada pieza se enfríe es el siguiente:

pág. 107
Método1 27 31 28 29 39 40 35 33 32 36 37 43
Método 2 34 24 38 28 30 34 37 42 41 44

Tabla 1.4 Rangos de tiempos de enfriamiento

Método 1 Rango Método 2 Rango


24 1
27 2
28 3.5 28 3.5
29 5
30 6
31 7
32 8
33 9
34 10.5
34 10.5
35 12
36 13
37 14.5 37 14.5
38 16
39 17
40 18
41 19
42 20
43 21
44 22
R1=130 R2=123

Se calcula el estadístico de Mann-Whitney para cada muestra de la ecuación, así:

pág. 108
n1 ( n1  1 )
U 1  n1 n2    R1
2
n (n  1
U 2  n1 n2  1 1   R2
2
12( 12  1 )
U 1  ( 12 )( 10 )   130  68
2
10 ( 10  1 )
U 2  ( 12 )( 10 )   123  52
2

Se nota que U1+ U2 = n1n2 proporciona un chequeo rápido de su aritmética.

Media y Desviación estándar de la distribución muestral para la Prueba U de Mann-


Whitney

n1n2 ( 12 )( 10 )
u    60
2 2
n n ( n  n2  1 ) ( 12 )( 10 )( 12  10  1 )
u  1 2 1   15.17
12 12

Valor de Z para normalizar la prueba U de Mann-Whitney

U 1  u
Z
u

Prueba de dos extremos: Probar la hipótesis de que los tiempos promedio de enfriamiento
de enfriamiento del método 1 y del método 2 son los mismos

H 0 : 1   2
H 1 : 1   2

Utilizando arbitrariamente U2, se tiene que

52  60
Z  0.053
15.17

Si  = 10%, la regla de decisión es “ No rechazar si -1.65  Z  1.65. Rechazar si Z < -


1.65 o Z > 1.65”.

Como Z = -0.53 se puede concluir al nivel de significancia del 10% que los tiempos
promedio de enfriamiento son los mismos para ambos métodos de cocción.

pág. 109
Aplicaciones
Prueba de bondad y ajuste - Distribución X^2
Una aplicación más que tiene la distribución χ2 es evaluar si una muestra proviene de
una población con una distribución de probabilidades específica, por ejemplo: normal,
binomial o poisson. En esta sección describiremos como realizar esta aplicación para la
distribución normal.

 Hipótesis.

Hipótesis nula.

H0: La variable proviene de una población con distribución normal.

 Estadística de prueba.

Se parte de clasificar los valores de la variable de interés en 𝒓 categorías de tal forma


que cada valor observado de la variable 𝑿𝒊̇ se puede clasificar en una de estas categorías
obteniendo una tabla de frecuencias observadas como la que se presenta a
continuación:

Ahora, asumiendo que la hipótesis nula es verdadera, es decir que la población de la cual
se extrajo la variable tiene una distribución normal, se puede estimar el número de sujetos
(frecuencias esperadas) en cada una de las categorías. Para ello, primero se estima la
media y la desviación estándar, sean (frecuencias esperadas) en cada una de las categorías.
Para ello, primero se estima la media y la desviación estándar, sean𝑥̅ y 𝑠, y con base en
la función de distribución acumulada de la distribución normal ∅ (𝑋), se calcula la
probabilidad de que un sujeto caiga en cada categoría, es decir:

pág. 110
La frecuencia esperada de la categoría i, 𝐸𝑖 , es igual a la probabilidad de estar en la
categoría multiplicado por 𝑛. Incluyendo la frecuencia esperada, la tabla anterior se
puede completar de la siguiente forma:

Con base en la tabla anterior, el estadístico de prueba es igual a:

que tiene una distribución

Si se conoce uno de los dos parámetros de la distribución normal que se define en la


hipótesis nula, los grados de libertad son iguales a y si se conocen los dos
parámetros, los grados de libertad son iguales a

Referencia
https://bookdown.org/cjrinconr/no_parametrica/no_parametrica.html

Herramienta de apoyo

Comandos en R
 Caso.
Se registró la información de la estatura de 157 mujeres de distintas edades. Se quiere
evaluar si esta variable proviene de una población con distribución normal.
Para evaluar la prueba de bondad y ajuste utilizando la estadística χ2, primero se carga
la información de la estatura de las 157 mujeres, y se estiman los dos parámetros.

pág. 111
Ahora, se definen los puntos de corte para construir las categorías, y se calculan las
frecuencias observadas en cada categoría

A continuación, se obtienen las frecuencias esperadas

A partir de las frecuencias observadas y las frecuencias esperadas se calcula el


estadístico de prueba y su valor p asociado.

pág. 112
Conclusiones

La Estadística es una ciencia matemática que se utiliza para describir, analizar e


interpretar ciertas características de un conjunto de individuos llamado población.
Cuando nos referimos a muestra y población hablamos de conceptos relativos, pero
estrechamente ligados. Una población es un todo y una muestra es una fracción o
segmento de ese todo.
Podemos dividir la estadística en dos ramas; la estadística descriptiva, que se dedica a
los métodos de recolección, descripción, visualización y resumen de datos originados a
partir de los fenómenos en estudio; y la estadística inferencial, que se dedica a la
generación de los modelos, inferencias y predicciones asociadas a los fenómenos en
cuestión.
La estadística trata en primer lugar, de acumular la masa de datos numéricos
provenientes de la observación de multitud de fenómenos, procesándolos de forma
razonable. Mediante la teoría de la probabilidad analiza y explora la estructura
matemática subyacente al fenómeno del que estos datos provienen y, trata de sacar
conclusiones y predicciones que ayuden al mejor aprovechamiento del fenómeno.
La Estadística responde a la actividad planificadora de la sociedad. Con la Revolución
Industrial aparecen nuevos problemas, en este caso las emisiones atmosféricas. La
Estadística es un instrumento para identificar causas e impactos que esta problemática
genera en la sociedad.
La estadística es el conjunto de diversos métodos matemáticos que tienen como objetivo
obtener, presentar y analizar datos (ya sean números o cualidades).

pág. 113
· La estadística nos permite realizar estudios reales, con poblaciones exactas; lo cual nos
ayuda a mejorar nuestros proyectos. Dentro de una planificación ambiental los datos
estadísticos juegan un papel muy importante, pues nos van a determinar en primera
medida gastos y nos garantizara la eficiencia. Este trabajo evidencia todos y cada uno de
los temas vistos dentro del plan semestral del programa ingeniería ambiental; lo aquí
presentado permitió desarrollar el sentido de localización de cada uno de los estudiantes
pues fijo datos reales a temas teóricos. Llevar un buen registro de datos estadísticos nos
permite conocer de mejor manera el problema, cuando nosotros conocemos la realidad de
nuestras áreas afectadas; es más fácil dar soluciones.

· Los diferentes tipos de distribuciones nos permiten prever eventos que puedan ocurrir,
teniendo en cuenta lo que ha sucedido anteriormente (datos históricos).
Una de las técnicas más utilizadas dentro de la estadística es la medición de parámetros
de tendencial central, la moda, mediana y media. Lo cual nos permite centrar el problema
y plantear puntos de referencia. Para desarrollar un buen proyecto ambiental siempre es
necesario conocer las bases estadísticas del lugar donde vayamos a trabajar.
Conocer la teoría nos ayuda a enfocar soluciones y conocer la realidad nos ayuda a
contextualizar y a diferenciar soluciones.

pág. 114
Referencias

Canavos. 1994. “Métodos No Paramétricos.” In Probabilidad Y Estadistica -


Aplicaciones Y Metodos, 575. México etc.: McGraw-Hill Companies.

Stephen N. Luko y Dean V. Neubauer, “Statistical Intervals, Part 1: The Confidence


Interval,” ASTM Standardization News, Vol. 39, Núm. 4, julio/agosto 2011.
Stephen N. Luko, de Hamilton Sundstrand, Windsor Locks, Connecticut, es el anterior
presidente del Comité E11 sobre calidad y estadísticas y es miembro de ASTM
International.

Dean V. Neubauer, de Corning Inc., Corning, Nueva York, es miembro de ASTM; se


desempeña como vicepresidente del Comité E11 sobre calidad y estadísticas, es
presidente del Subcomité E11.30 sobre control estadístico de la calidad y del E11.90.03
sobre publicaciones, y también coordina la columna DataPoints (Mediciones).

Kazmier, L. J., & Díaz, M. A. (1991). Estadística aplicada a administración y


economía (2a. ed.). Retrieved from https://ebookcentral.proquest.com

pág. 115

S-ar putea să vă placă și