Documente Academic
Documente Profesional
Documente Cultură
TÍTULO TRABAJO
Evert Castro Fernández1, Iván Andrés Giraldo2, Yalid Jerez Jiménez3, Luis David Pérez4 y Simón Toro5
Resumen
El objetivo principal de este trabajo es realizar un análisis descriptivo de la serie de tiempo
correspondiente a los muebles y equipo para oficina, computadores, programas y suministros en
miles de millones, considerando 173 observaciones para los periodos comprendidos entre Enero
del 2003 a Mayo del 2017. Los datos usados para la serie fueron suministrados en el
Departamento Administrativo Nacional De Estadística, (DANE) con el fin identificar y postular
modelos globales y locales basados en la descomposición por regresión múltiple, utilizando así,
el programa estadístico R, para luego realizar una comparación en términos de ajuste y pronóstico
usando el método de validación cruzada y así escoger el modelo más adecuado a la serie de
tiempo teniendo en cuenta ciertos factores para el análisis de AIC, BIC, MAPE, RMSE, MAE,
con el propósito de obtener criterios válidos, postular un modelo adecuado para la toma de
decisiones.
Palabras claves: Validación cruzada, modelo local, modelo global, estacionalidad, tendencia, ajuste.
3.1 Introducción
Un buen modelo que se ajuste a la curva a determinar, partiendo de un análisis de la serie correspondiente nos
permitirá obtener mucha información en cuestiones de lo que se puede esperar para los siguientes períodos, es
decir, se podría saber información a largo plazo. La serie de tiempo que se va a construir fue hecha en base a
datos reales suministrados por el Departamento Administrativo Nacional de Estadística (DANE), estos datos
provenientes de un encuesta que busca medir el comportamiento del comercio minorista del país a partir de las
siguientes variables: Ventas, Personal ocupado, Sueldos y salarios que mensualmente suministran los
comerciantes. . En la serie se tomó como análisis la variable “Venta de muebles y equipo para oficina,
computadores, programas y suministros”, que parte del periodo Enero del 2003 hasta Mayo del 2017 donde los
valores están cuantificados en miles de millones de pesos. Para el cálculo del índice del primer mes se tomará:
Donde:
1
Estudiante Ingeniería Industrial, Universidad Nacional de Colombia – Sede Medellín.
2
Estudiante Ingeniería Industrial, Universidad Nacional de Colombia- Sede Medellín
3
Estudiante Ingeniería Industrial, Universidad Nacional de Colombia- Sede Medellín
4
Estudiante Ingeniería Industrial, Universidad Nacional de Colombia- Sede Medellín
5
Estudiante Ingeniería Industrial, Universidad Nacional de Colombia- Sede Medellín
Para el segundo mes se tendrán en cuenta:
Donde:
Los datos suministrados cuentan con 173 observaciones a estudiar donde se tendrá en cuenta una frecuencia
mensual. Para realizar el análisis tendremos en cuenta el comportamiento de los datos, con el propósito de
ajustarse métodos de estudio para así, lograr pronósticos para los periodos posteriores.
Figura 1. Izq.: Serie del índice de empalmados de las ventas reales mensuales por grupo de mercancía. (Yt)
Der.:Logaritmo de la serie del índice de empalmados de las ventas reales mensuales por grupo de mercancía
Log(Yt)
𝒀𝒕 = 𝑻𝒕 × 𝑺𝒕 × 𝒆𝑬𝒕 , 𝑬𝒕 𝐢𝐢𝐝
~
𝐍(𝟎, 𝛔𝟐 ) (1)
𝒀𝒕 = 𝑻𝒕 × 𝑺𝒕 + 𝑬𝒕 , 𝑬𝒕 𝐢𝐢𝐝
~
𝐍(𝟎, 𝛔𝟐 ) (2)
Por medio de regresión lineal se debe trabajar sobre la serie transformada en serie multiplicativa (1), usando la
transformación con logaritmo natural (3):
Donde,
𝑌𝑡∗ = 𝑇𝑡∗ × 𝑆𝑡∗ × 𝐸𝑡 , 𝐸𝑡 iid
~
N(0, σ2 )
Igualmente, se debe transformar (2) para ajustarlo a la serie, resultando así un modelo no lineal mostrado en la
siguiente ecuación (4):
𝑌𝑡 = Índices de empalmados de las ventas reales mensuales por grupo de mercancía de acuerdo a su
comportamiento en el tiempo.
Log(𝑌𝑡 ) = Índices de empalmados de las ventas reales mensuales por grupo de mercancía de acuerdo a su
comportamiento en el tiempo en escala logaritmo natural
𝑇𝑡 = Componente de tendencia de la serie real
𝑇𝑡∗ = Componente de tendencia de la serie en escala logaritmo natural
𝑆𝑡 = Estacionalidad de la serie de tiempo establecida con indicadoras
𝑆𝑡∗ = Estacionalidad de la serie de tiempo establecida con indicadoras en escala logaritmo natural
𝐸𝑡 = Componente de error presentes en el modelo
Figura 3. Izq. Box-plot para comparar la distribución del logaritmo natural de la serie teniendo en cuenta los
meses del año. Der. Periodograma sobre las diferencias de los logaritmos naturales de la serie
De la figura 3, en la gráfica de Box-plot se observa que el promedio de la serie de cada mes es diferente al del
nivel de referencia (Diciembre), por lo tanto la serie presenta patrón estacional. Además en el periodograma,
desde el punto de vista de fenómenos ondulatorios sobresalen 5 frecuencias significativas por el valor
relativamente alto de esa función, excepto para la frecuencia angular fundamental (1/12). En base al
periodograma se concluye que hay una asociación fuerte de los datos a una onda sinusoidal, por lo tanto hay
patrones periódicos que deben modelarse por medio de funciones trigonométricas.
En los fenómenos ondulatorios observados en el lado Der. de la Figura 3, se puede ver claramente que como
se concluyó antes existen 5 frecuencias sobresalientes; estas ubicadas en los valores de ⅙, 3/12, ¾, 5/12, y ½.
Concluyendo finalmente el análisis descriptivo, se postularan modelos de ajuste global multiplicativos para
ajustar tendencia con polinomios de grado relativamente alto, y estacionalidad usando funciones
trigonométricas. No obstante, debido a la presencia de variaciones cíclicas los modelos de tendencia global que
se van a probar no alcanzarán a explicar muy bien la serie, por lo tanto se postularan también modelos de ajuste
local.
A continuación se presentarán los dos mejores modelos de ajuste global: el mejor modelo exponencial-
polinomial estacional y el mejor modelo de ajuste aditivo sobre el logaritmo natural de la serie (modelo log-
polinomial estacional); y dos modelos de ajuste local: suavizamiento exponencial Holt-Winters multiplicativo
y el mejor modelo entre el filtro de descomposición multiplicativa y LOESS lineal y cuadrático usando los
criterios AICC y GCV.
Por lo tanto, se evaluaron los modelos cúbicos y cuartos tanto logarítmicos como exponenciales, en dónde se
encontró:
Según la Tabla 1, se pudo identificar que para los modelos logarítmicos y exponenciales estacionales los
menores AIC y BIC fueron los modelos de grado cuarto, es decir, que presentan un mejor ajuste; pero hay que
tener en cuenta que para el criterio de BIC en los modelos logarítmicos, este fue mejor para el de grado 3
teniendo en cuenta también la parsimoniosidad.
En cuanto a la evaluación de los supuestos de los modelos se puede decir que no hay evidencias suficientes que
conlleven a rechazar supuestos en alguno de los casos, ya que por ejemplo en el caso de los logaritmos hay una
compensación en cuanto a la centralización de los residuos, es decir, en un tramo se centra más en el modelo
logarítmico de grado 4 y en otro en el modelo Log cubico y en los exponenciales el comportamiento es mejor
en el de grado 3.
Igualmente, se puede observar que el modelo logarítmico de grado cuatro estacional (St) y el Exp cubico
estacional (St) son mejores en cuanto a los pronósticos; de acuerdo a que entre 2 o más modelos se elige el de
menor valor en la medida en el criterio.
Finalmente, para seleccionar los modelos globales que más se ajustan al comportamiento de los datos reales se
utilizara el criterio para que las precisiones de pronósticos sean más significativas que la calidad de ajuste o
información de los modelos, así para los modelos logarítmicos se escogerá el de grado 3, teniendo en cuenta
que las diferencias numéricas son pequeñas entre el modelo logarítmico de grado 3 y el logarítmico de grado 4;
esto observado en los criterios de precisión puntual MAE y MAPE, y en modelos exponenciales el de grado 3.
De la misma manera concluyendo que como los efectos estacionales varían lentamente de año a año, resulta
más conveniente plantear ecuaciones con funciones trigonométricas (debido a que se observa una función
“suave”); en lugar de utilizar índices separados para cada estación. Las funciones seno y coseno son mejores
para representar las variaciones suaves en el modelo estacional; de este modo se justifica usar esta clase de
funciones mencionadas anteriormente en el documento.
Para este caso se plantea una onda armónica sinusoidal de frecuencia F (o periodo T=1/F), amplitud A y fase
ϕ; la cual describe un ciclo repetitivo de la siguiente forma:
La ecuación (5) es utilizada en la regresión para representar la estacionalidad (St) de funciones trigonométricas,
con 𝑡 𝜖 ℤ. Se dice que en general las funciones seno y coseno sirven para generar series estacionales puras.
Modelo 1: Modelo Log- polinomial cubico con Trigonométricas, con ecuación (6)
𝜋 𝜋 𝜋 𝜋
log(𝑌𝑡) = log(𝑌𝑡) = 𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2 + 𝛽3 𝑡 3 + 𝛼1 𝑠𝑒𝑛 ( 𝑡) + 𝛾1 cos ( 𝑡) + 𝛼2 𝑠𝑒𝑛 ( 𝑡) + 𝛾2 cos ( 𝑡) +
3 3 2 2
2𝜋 2𝜋 5𝜋 5𝜋
𝛼3 𝑠𝑒𝑛 ( 𝑡) + 𝛾3 cos ( 𝑡) + 𝛼4 𝑠𝑒𝑛 ( 𝑡) + 𝛾4 cos ( 𝑡) + 𝛾5 cos(𝜋𝑡) + 𝐸𝑡 , 𝑐𝑜𝑛 𝐸𝑡 ~𝑖𝑖𝑑𝑁(0, 𝜎 2 (6)
3 3 6 6
𝜋 𝜋 𝜋 𝜋
𝑌𝑡 = exp(𝛽0 + 𝛽1 𝑡 + 𝛽2 𝑡 2 + 𝛽3 𝑡 3 + 𝛼1 𝑠𝑒𝑛 ( 𝑡) + 𝛾1 cos ( 𝑡) + 𝛼2 𝑠𝑒𝑛 ( 𝑡) + 𝛾2 cos ( 𝑡)
3 3 2 2
2𝜋 2𝜋 5𝜋 5𝜋
+ 𝛼3 𝑠𝑒𝑛 ( 𝑡) + 𝛾3 cos ( 𝑡) + 𝛼4 𝑠𝑒𝑛 ( 𝑡) + 𝛾4 cos ( 𝑡) + 𝛾5 cos(𝜋𝑡)) + 𝐸𝑡 ,
3 3 6 6
𝑐o𝑛 𝐸𝑡 ~𝑖𝑖𝑑𝑁(0, 𝜎 2 ) (7)
Observando la serie en la Figura 1. Izq. se pueden ver movimientos cíclicos en algunos tramos, además, se
puede identificar que su nivel, su pendiente y los factores estacionales están evolucionando lentamente en el
tiempo, teniendo en cuenta que ya se analizó la estacionalidad, y el tipo de descomposición (multiplicativa) a
trabajar. En el momento de escoger un modelo que representara el comportamiento de la serie con una
descomposición multiplicativa & loess lineal o cuadrática y sus criterios AICC y GCV se evaluaron los
supuestos, además de la capacidad de ajuste y pronóstico presentados en la Tabla 3 y Tabla 4.
En la Tabla 3 se puede observar que el modelo en cuanto a los criterios de AIC y BIC es mejor el modelo
de descomposición Loess Lineal para el AICC y GCV, pero teniendo en cuenta que se recomienda escoger el
modelo indicado por el BIC por presentar más parsimoniosidad; para este caso el mejor sería el modelo de
descomposición Loess Lineal por el criterio de información AICC.
En la Tabla 4 se puede ver claramente que el mejor modelo que presenta menores valores en los criterios
analizados es decir RMSE, MAE y MAPE es el de descomposición Loess Cuadrático por AICC.
Es notorio que en las dos tablas anteriores los modelos correspondientes al filtro de descomposición
multiplicativa y Loess lineal y cuadrático por el criterio de AICC son mejores en las medidas de ajuste local;
pero teniendo presente que las medidas de precisión de pronósticos pesan más que las medidas de calidad de
ajuste se escogerá el modelo de descomposición Loess de tendencia cuadrática y criterio de información AICC.
Modelo 4: Descomposición multiplicativa & Loess Cuadrático con criterio AICC, con ecuación (8)
𝑆
2
𝑌𝑡 = (𝛽0,𝑘 + 𝛽1,𝑘 𝑡 + 𝛽2,𝑘 𝑡 ) × ∑ 𝛿𝑖 𝐼𝑖,𝑡 + 𝐸𝑡 ,
𝑖=1
∀ t ∈ vecindad de 𝑡𝑘 , con Et iid
~
N(0, σ2 ), ∑𝑆𝑖=1 𝛿𝑖 = 𝑆 , (8)
𝛽0,𝑘 , 𝛽1,𝑘 , 𝛽2,𝑘 𝑃𝑎𝑟á𝑚𝑒𝑡𝑟𝑜𝑠 𝑑𝑒 𝑙𝑎 𝑝𝑎𝑟á𝑏𝑜𝑙𝑎 𝑒𝑛 𝑙𝑎 𝑣𝑒𝑐𝑖𝑛𝑑𝑎𝑑 𝑐𝑜𝑛 𝑐𝑒𝑛𝑡𝑟𝑜 𝑒𝑛 𝑡𝑘
La serie constituida sobre los datos del índice de empalmados de las ventas reales mensuales por grupo de
mercancía del sector manufacturero inicia en Enero del 2003 y termina en Mayo del 2017. Esta serie cuenta
con un total de 173 observaciones tomadas mensualmente (N=173) con el fin de evaluar el ajuste de los
modelos propuestos se implementara la estrategia de validación cruzada, la cual consiste en elegir una
proporción de los datos para evaluar su comportamiento y medir la calidad de los pronósticos, los datos restantes
se utilizaran para medir la calidad del ajuste.
De los 173 datos observados se utilizaran 12 (s=12) para medir la calidad del pronóstico, por tanto la nueva
serie con la cual se ajustaran los modelos estará conformada por las 161 observaciones (n=161) restantes. Se
tomaran 12 datos para el pronóstico (que corresponde a un año calendario mensual), debido a que se cuenta con
una cantidad necesaria de observaciones y se pueden extraer las mismas garantizando que no se debilitara la
capacidad de ajuste, los datos restantes son necesario para contar con una referencia mediante la cual sea posible
comparar los pronósticos realizados.
Figura 4. Serie real y ajustada para la validación cruzada, modelo log cubico estacional.
En la gráfica anterior se observa que la serie ajustada no alcanza a explicar bien los últimos 5 meses de las
datos obtenidas
El ajuste con R arroja los parámetros estimados presentados en la Tabla 5.
Es importante resaltar que debido a que este modelo es logarítmico, se aplicó el siguiente factor de corrección
con el fin de obtener los datos en la escala original:
̂2
Factor de corrección= 𝑒 𝜎 , donde 𝜎 2 = 𝑀𝑆𝐸
Para determinar la significancia de los parámetros relevantes de este modelo (en este caso de 𝛽4 ), se plantean
las siguientes hipótesis:
Estadístico de prueba:
̂3
𝛽
𝑇0 = ̂4 ) ~𝑡173−4 =-1.643
𝑠.𝑒(𝛽
El criterio de decisión que utilizaremos será el Valor-P, con una significancia del 95% y usando un alfa de 0.05.
Se rechaza la hipótesis H0 si el Valor-P es menor a este alfa:
Como se puede observar, el 𝑉𝑝 > 𝛼, lo cual indica que no hay evidencia suficiente para rechazar Ho, por lo
tanto β3=0 y así es posible afirmar que β3 no es significativa para el modelo presente, por lo que los índices de
empalmados de las ventas reales mensuales por grupo de mercancía no están siendo afectados
significativamente por una tendencia de grado 3. A través de la misma prueba se verificó que los demás
parámetros asociados a la tendencia son significativos; sin embargo este test por sí mismo, no garantiza que el
modelo resulte útil para hacer predicciones.
A continuación evaluaremos la significancia de los parámetros de la componente estacional del modelo
planteando las siguientes hipótesis:
𝐻0 : 𝛼𝑗 = 0 𝑣𝑠 𝐻1 : 𝛼𝑗 ≠ 0
𝐻0 : 𝛾𝑗 = 0 𝑣𝑠 𝐻1 : 𝛾𝑗 ≠ 0
Estadístico de prueba:
𝛼̂𝑗
𝑃𝑎𝑟𝑎 𝛼𝑗 : 𝑇0 = ~𝑡173−9
𝑠. 𝑒(𝛼̂𝑗 )
𝛾̂𝑗
𝑃𝑎𝑟𝑎 𝛾𝑗 : 𝑇0 = ~𝑡173−9
𝑠. 𝑒(𝛾̂)
𝑗
Criterio de rechazo según Valor P:
𝑉𝑃 = 𝑃(|𝑡164 | ≥ |𝑇𝑜𝑏𝑠 |)
Según la Tabla 5, y analizando cada pareja de los parámetros de las funciones trigonométricas se concluye que
la componente estacional es significativa, ya que en cada caso, las dos componentes o al menos una es
significativa porque su valor-p es pequeño.
Vale la pena mencionar que los parámetros 𝛼𝑗 y 𝛾𝑗 no tienen interpretación en términos de cambios en 𝐸(𝑌𝑡 ),
según periodos del año. Su interpretación es mediante el test de significancia para responder si la componente
periódica con frecuencia 𝐹𝑗 es significativa en la onda sinusoidal armónica en la representación del modelo, que
fue lo que ya se hizo en el paso anterior.
Modelo 2: Modelo Exp- polinomial cubico estacional con variables trigonométricas, con ecuación (11)
𝜋 𝜋 𝜋 𝜋
𝑌𝑡 = exp(𝛽̂0 + 𝛽̂1 𝑡 + 𝛽̂2 𝑡 2 + 𝛽̂3 𝑡 3 + 𝛼2 𝑠𝑒𝑛 ( 𝑡) + 𝛾2 cos ( 𝑡) + 𝛼2 𝑠𝑒𝑛 ( 𝑡) + 𝛾2 cos ( 𝑡)
3 3 2 2
2𝜋 2𝜋 5𝜋 5𝜋
+ 𝛼3 𝑠𝑒𝑛 ( 𝑡) + 𝛾3 cos ( 𝑡) + 𝛼4 𝑠𝑒𝑛 ( 𝑡) + 𝛾4 cos ( 𝑡) + 𝛾5 cos(𝜋𝑡)) + 𝐸𝑡 ,
3 3 6 6
𝑐o𝑛 𝐸𝑡 ~𝑖𝑖𝑑𝑁(0, 𝜎 2 ) (11)
̂ ̂ ̂
̂ ,𝛽
𝛽 0 1 , 𝛽2 , 𝛽3 Parámetros asociados a la tendencia
𝛼1 , 𝛼2 , 𝛼3 , 𝛼4 Parámetros asociados a la estacionalidad en el Seno
𝛾1 , 𝛾2 , 𝛾3 , 𝛾4 , 𝛾5 Parámetros asociados a la estacionalidad en el Coseno
Figura 5. Serie real y ajustada para la validación cruzada, modelo exponencial-polinomial cubico estacional.
La serie real con su ajuste exponencial polinomial de grado 3 estacional, no alcanza a ajustar bien sobre la serie
real, principalmente en el periodo comprendido por el 2007 al 2010 y los últimos meses observados entre Enero
y Mayo del 2016.
𝜋
𝑌̂𝑡 = exp (2.679 + 1.668𝑥10−2 𝑡 + 3.00𝑥10−5 𝑡 2 − 3.231𝑥10−7 𝑡 3 − 2.429𝑥10−3 𝑠𝑒𝑛 ( 𝑡)
3
𝜋 𝜋 𝜋
+ 9.358𝑥10−2 𝑐𝑜𝑠 ( 𝑡) − 3.716𝑥10−2 𝑠𝑒𝑛 ( 𝑡) + 7.175𝑥10−2 𝑐𝑜𝑠 ( 𝑡)
3 2 2
−3
2𝜋 −2
2𝜋 −2
5𝜋
− 2.636𝑥10 𝑠𝑒𝑛 ( 𝑡) + 7.436𝑥10 𝑐𝑜𝑠 ( 𝑡) + 2.151𝑥10 𝑠𝑒𝑛 ( 𝑡)
3 3 6
−2
5𝜋 −2
+ 6.604𝑥10 𝑐𝑜𝑠 ( 𝑡) + 2.828𝑥10 𝑐𝑜𝑠(𝜋𝑡))
6
Para determinar la significancia de los parámetros relevantes de este modelo plantearemos nuevamente la
hipótesis:
H0 : β3 = 0 vs H1 : β3 ≠ 0
Estadístico de prueba:
̂3
𝛽
T0 = ̂3 ) ~(bajo H0 ) 𝑡173−5 = -3.244
𝑠𝑒(𝛽
Utilizaremos nuevamente como criterio de decisión el Valor-P, con una significancia del 95% y un alfa de 0.05.
Rechazaremos la hipótesis H0 si el Valor-P es menor que alfa:
𝐻0 : 𝛼𝑗 = 0 𝑣𝑠 𝐻1 : 𝛼𝑗 ≠ 0
𝐻0 : 𝛾𝑗 = 0 𝑣𝑠 𝐻1 : 𝛾𝑗 ≠ 0
𝐵𝑎𝑗𝑜 𝐻0 𝑦 𝑐𝑜𝑛 𝐸𝑡 ~𝑖𝑖𝑑 𝑁(0, 𝜎 2 )
Estadístico de prueba:
𝛼̂𝑗
𝑃𝑎𝑟𝑎 𝛼𝑗 : 𝑇0 = ~𝑡
𝑠. 𝑒(𝛼̂𝑗 ) 173−9
𝛾̂𝑗
𝑃𝑎𝑟𝑎 𝛾𝑗 : 𝑇0 = ~𝑡
𝑠. 𝑒(𝛾̂𝑗 ) 173−9
𝑉𝑃 = 𝑃(|𝑡164 | ≥ |𝑇𝑜𝑏𝑠 |)
Criterio de rechazo según Valor P:
En la Tabla 6 se observa que los parámetros de las funciones trigonométricas relacionadas a cada frecuencia
fundamental de la componente estacional, al menos uno es significativo para cada frecuencia, por lo tanto, se
concluye que la componente estacional es significativa.
Con Ŝt−s el valor suavizado y debidamente estandarizado de la componente estacional hace s periodos,
t=2s+1,…,173
Figura 6. Serie real y ajustada para la validación cruzada, modelo correspondiente al suavizamiento
exponencial Holt-Winters multiplicativo.
En la siguiente tabla se presentan los datos usados para el ajuste Holt- Winters multiplicativo:
Tabla 4. Estimaciones de la componente estacional con el filtro de descomposición multiplicativa, t=1 a 173
Factores estacionales
estimados
i 𝛿̂𝑖
1 0.8941683
2 0.8676187
3 0.9884350
4 0.9210070
5 0.9928208
6 0.9910669
7 1.0399252
8 0.9710970
9 0.9372519 Figura 7. Componente estacional usando filtro de descomposición
10 0.9745711 multiplicativo
11 0.9777825
12 1.4442556
suma 12
De la tabla 4 se obtiene la ecuación de ajuste para la componente estacional:
𝑑𝑒𝑠𝑐𝑜𝑚𝑝
𝑆̂𝑡 = 0.8941683𝐼1,𝑡 + 0.8676187𝐼2,𝑡 + 0.9884350𝐼3,𝑡 + 0.9210070𝐼4,𝑡 + 0.9928208𝐼5,𝑡 +
0.9910669𝐼6,𝑡 + 1.0399252𝐼7,𝑡 + 0.9710970𝐼8,𝑡 + 0.9372519𝐼9,𝑡 + 0.9745711𝐼10,𝑡 + 0.9777825𝐼11,𝑡 +
1.4442556𝐼12,𝑡
𝑎𝑑𝑗
Figura 8. Print-Screen de la salida resumen del ajuste Loess cuadrático óptimo sobre la serie 𝑌𝑡 en R.
Figura 9. Serie desestacionalizada y su ajuste Loess cuadrático óptimo. (Criterio AICC)
En la Figura 9 se observa que la tendencia trata de ajustar bien sobre la serie, pero en el 2010 el ajuste subestima
los datos reales.
Como tercero se obtiene el ajuste final combinando de manera multiplicativa las estimaciones de tendencia y
estacionalidad como se muestra en la siguiente figura.
Figura 10. Serie y su ajuste utilizando el filtro de descomposición multiplicativa y Loess cuadrático (Criterio
AICC)
En la Figura 10 se puede ver claramente que el ajuste usando el filtro de descomposición multiplicativa y
LOESS cuadrático con criterio AICC explica mucho mejor la serie (en cuanto a ajuste) que los otros modelos
anteriores: los dos globales y Holt-Winters multiplicativo.
3.4 Análisis de residuales y validación de supuestos.
A continuación se presentaran los gráficos de residuales para realizar la validación de supuestos
respecto a si presentan varianza constante y media cero, variaciones cíclicas que impliquen evidencia
Residuos vs. tiempo
Modelo Exp cúbico estacional Residuos vs. ajustados
Modelo exponencial cúbico estacional
Residuos vs. ajustados en escala Log
Modelo Log cúbico
10
5
0.1
residuals(mod2)
0.1
residuals(mod2)
0
residuals(mod1)
0
residuals(mod1)
0.0
0.0
-5
-5
-0.1
-0.1
-10
-10
-0.2
-0.2
0 50 100 150 2.5 3.0 3.5 4.0 4.5 5.0 50 100 150
0 50 100 150
Figura 14 y 15. Izq. los Residuales ajustados vs tiempo de los modelo Log y Exp cubico estacional. Der. Sus
respectivos Residuales vs valores ajustados del modelo Log y Exp cubico estacional.
Residuos vs. tiempo Residuos vs. ajustados
Ajuste por descomposición & LOESS cuadrático Residuos vs.tiempo Ajuste por descomposición & LOESS cuadrático Residuos vs. ajustados
Ajuste por suavizamiento exponencial Holt-Winters Ajuste por suavizamiento exponencial Holt-Winters
15
15
10
10
10
10
5
5
5
5
residuals(suav)
residuals(suav)
0
0
et2
et2
0
0
-5
-5
-5
-5
-10
-10
-10
-10
-15
-15
2004 2006 2008 2010 2012 2014 2016 50 100 150
2004 2006 2008 2010 2012 2014 2016 50 100 150
Time as.numeric(ythat2)
Time as.numeric(fitted(suav)[, 1])
Figura 16 y17.Izq.Residuales ajustados vs tiempo del modelo LOESS cuadrático y Holt winters y. Der. Sus
respectivos Residuales vs valores ajustados del modelo LOESS cuadrático y Holt Winters.
De la figura 14 en el gráfico de la izquierda se observan variaciones cíclicas que no son explicadas por el modelo
propuesto, por lo tanto hay una violación del supuesto de independencia, ya que al parecer existen relaciones
entre los errores; globalmente parece cumplir el supuesto de media cero. En el gráfico de la derecha en sus
residuales vs ajustados se visualiza que no hay evidencia fuerte en contra del supuesto de varianza constante,
aunque hay unos huecos o intentos de curvas muy sutiles que parecen indicar que hay un poco de carencia de
ajuste. También en este grafico se visualizan algunas observaciones atípicas.
En la figura 15 en el segundo gráfico de residuos vs tiempo, se observan también variaciones cíclicas, lo que
implica que no se cumple el supuesto de independencia. Globalmente parece cumplir el supuesto de media cero.
En el segundo gráfico de residuos vs ajustados, se observa que hay no hay evidencia contra del supuesto de
varianza constante, aunque se presenta una pequeña acumulación al principio que parecen indicar que hay un
poco de carencia de ajuste pero este se ve mejor que el anterior modelo , y además hay unas observaciones
atípicas menores que el anterior modelo.
En la figura 16, del gráfico de la izquierda no se observan variaciones cíclicas tan evidentes como en los gráficos
de los dos modelos anteriores, no obstante no se puede concluir que los errores son independientes ya que
pueden existir otro tipo de correlaciones entre ellos. Parece cumplir en forma global el supuesto de media cero,
y además en el gráfico de la izquierda parece haber una evidencia fuerte del supuesto de varianza constante. ya
que la dispersión de los puntos tiene forma de cono, y además se visualizan algunas observaciones atípicas.
En la figura 17, se observa en el gráfico de la izquierda que no hay variaciones cíclicas significativas, aunque
no se puede decir nada aun del cumplimiento del supuesto de independencia debido a que pueden existir otro
tipo de correlaciones entre los errores. Sin embargo, en este grafico se observa un mejor comportamiento que
el anterior. Se cumple el supuesto de media cero. En el gráfico de la derecha se ve que no hay una violación
fuerte del supuesto de varianza constante, además la varianza de este grafico es más homogénea que la del
grafico anterior (loess cuadratico). No se observan indicios relevantes de carencia de ajuste y se observan
algunos puntos atípicos.
Del análisis de los residuales, se concluye que el que satisface mejor los supuestos es el modelo correspondiente
al filtro de descomposición Holt winters en cuanto a varianza constante, media cero, variaciones cíclicas no tan
significativas y mejor carencia de ajuste.
Si solo evaluamos los modelos globales, es mejor el exp-polinomial de grado 3 estacional, debido a que no tiene
un problema tan severo de varianza constante como el modelo Log polinomial de grado 3 estacional que muestra
como unos hueco o intentos de formas en u.
𝑇
𝛽𝑡 = (𝛽0𝑡 , 𝛽1𝑡 , 𝛽2𝑡 , 𝛽3𝑡 , 𝛼1𝑡 , 𝛾1𝑡 , 𝛼2𝑡 , 𝛾2𝑡 , 𝛼3𝑡 , 𝛾3𝑡 , 𝛼4𝑡 , 𝛾4𝑡 , 𝛾5𝑡 )
Hipótesis a probar:
𝐻0 : 𝛽 = 𝛽𝑡 ∀𝑡 𝑣𝑠 𝐻1 : 𝛽𝑡 𝑛𝑜 𝑒𝑠 𝑐𝑜𝑠𝑡𝑎𝑛𝑡𝑒 𝑒𝑛 𝑒𝑙 𝑡𝑖𝑒𝑚𝑝𝑜
Figura 24: Der. Residuos recursivos; Izq. Gráfico estadístico CUSUMt, en test de estabilidad del modelo
sobre serie.
El grafico del test CUSUM muestra que el estadístico se aleja notablemente de cero y se sale de los
límites establecidos, además, el valor p es muy pequeño por lo que se rechaza la hipótesis nula. Todo
lo anterior permite concluir que por medio del test CUSUM hay evidencia suficiente en contra del
supuesto de estabilidad. En el gráfico de los residuos recursivos es evidente la presencia de ciclos, lo
que implica dependencia en los errores, también se nota con facilidad que la varianza no es constante,
por lo que se concluye que el modelo es inestable.
Se concluye entonces que el modelo log- cúbico estacional es un modelo inestable, por lo que no se
deben realizar pronósticos a largo plazo, sino proponer modelos locales con pronósticos a corto plazo.
Conclusiones
El objetivo principal de este trabajo fue utilizar las herramientas estadísticas vistas en clase relacionadas
con series de tiempo, en búsqueda de encontrar el mejor modelo que se ajustara al comportamiento de las
“Venta de muebles y equipo para oficina, computadores, programas y suministros”, desde el periodo Enero
del 2003 hasta Mayo del 2017, tomando datos mensuales de estas ventas, estos datos se analizaron y se
llevaron a cabo ajustes y pronósticos al mejor modelo que permitiría predecir el comportamiento de esta
variable en el futuro en un horizonte de corto plazo.
Del análisis descriptivo, se postularon modelos de ajuste global multiplicativos para ajustar tendencia con
polinomios de grado mayor o igual a un cubico, y estacionalidad usando funciones trigonométricas, ya que
la varianza de la serie no es constante y crece en la dirección de la tendencia y además la forma del patrón
estacional cambia en el tiempo. No obstante, debido a la presencia de variaciones cíclicas los modelos de
tendencia global que se probaron no alcanzaron a explicar muy bien la serie, por lo tanto se postularon
modelos de ajuste local.