Documente Academic
Documente Profesional
Documente Cultură
SERIES TEMPORALES
Autores: Manuel Terrdez (mterradez@uoc.edu), ngel A. Juan (ajuanp@uoc.edu)
ESQUEMA DE CONTENIDOS__
________________________
Medias mviles
Series Temporales
Anlisis de la serie
Autocorrelacin
Modelo combinado
INTRODUCCIN
___________________
Una serie temporal es un conjunto de observaciones ordenadas en el tiempo, que pueden representar la evolucin de una variable (econmica, fsica, etc.) a lo largo de l. El objetivo del anlisis de una serie temporal es el conocimiento de su patrn de comportamiento, para as prever su evolucin futura, suponiendo que las condiciones no variarn. Dado que no se trata de fenmenos deterministas, sino sujetos a una aleatoriedad, el estudio del comportamiento pasado ayuda a inferir la estructura que permita predecir su comportamiento futuro, pero es necesaria una gran cautela en la previsin debido a la inestabilidad del modelo. La particular forma de la informacin disponible de una serie cronolgica (se dispone de datos en periodos regulares de tiempo) hace que las tcnicas habituales de inferencia estadstica no sean vlidas para estos casos, ya que nos encontramos ante n muestras de tamao 1 procedentes de otras tantas poblaciones de caractersticas y distribucin desconocidas. Proyecto e-Math Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Series Temporales
OBJETIVOS
________________________
Entender la estructura especial de la informacin en una serie temporal. Comprender qu est sucediendo con los datos (patrn de comportamiento). Predecir valores futuros.
CONOCIMIENTOS PREVIOS
___________________________________
Aparte de estar iniciado en el uso del paquete estadstico Minitab, resulta muy conveniente haber ledo con profundidad los siguientes math-blocks: Estadstica descriptiva. Anlisis de regresin y correlacin lineal.
CONCEPTOS FUNDAMENTALES
______________________________
Los pasos 2 y 3 se pueden hacer con Minitab mediante las opciones Stat > Time Series > Lag , y Calc > Calculator, o bien directamente con la opcin Stat > Time Series > Differences, como se muestra a continuacin:
Series Temporales
Representando ahora la columna de las diferencias podemos saber si la varianza permanece aproximadamente constante.
Series Temporales
En el ejemplo anterior, se observa que la varianza permanece aproximadamente constante (con excepcin de los dos outliers), por lo que no parece necesario aplicar ninguna transformacin a los datos. Es frecuente que nos interese comparar el valor observado en un instante temporal determinado con el valor observado en algn instante anterior. As, podramos estar interesados en comparar los datos de la columna OBSERV con los de la columna LAG = 1 (los mismos datos pero desplazados en una unidad temporal). Esta comparacin nos puede permitir determinar el coeficiente de correlacin entre ambos conjuntos de datos, lo cual ser til a la hora de realizar predicciones. Para determinar dichas correlaciones haremos uso de la funcin de autocorrelacin y de la funcin de autocorrelacin parcial. En el anlisis de las series temporales se considera que las observaciones contienen: (a) un patrn sistemtico, y (b) un componente de error aleatorio al que llamaremos ruido. La mayora de las tcnicas que veremos tendrn como objetivo filtrar dicho ruido.
DIFER
Series Temporales
Anlisis de la tendencia
El anlisis de la tendencia es un mtodo que consiste en ajustar un modelo de tendencia general a una serie temporal con el fin de realizar predicciones. Se suele utilizar cuando la serie no contiene componente estacionario alguno. Los datos deben estar todos en la misma columna. Minitab permite elegir entre cuatro modelos diferentes: lineal, cuadrtico, exponencial, y curva en forma de S. En el caso de elegir este ltimo, es necesario eliminar de la columna todas las casillas que no contengan datos vlidos (missing data). El programa ofrece tres medidas para estimar la bondad del ajuste: (y t y t ) / y t n
MAPE =
100
(y t 0)
MAD =
yt yt n (y t y t ) n
2
MSD =
y En las expresiones anteriores, y t representa la observacin, t representa el valor pronosticado, y n representa el nmero de predicciones a realizar. Para las tres medidas, cuanto menor sea su valor, mejor ser el ajuste del modelo.
Descomposicin
El mtodo de descomposicin permite, dada una serie temporal, separarla en sus respectivos componentes: por un lado nos proporcionar la tendencia lineal y, por otro, su estacionalidad. Usaremos el mtodo de descomposicin cuando: (a) (b) deseemos realizar predicciones y la serie tenga un componente estacional, o queramos examinar la naturaleza de los componentes de la serie.
El componente estacional de la serie puede tener, con respecto a la tendencia, un carcter aditivo o un carcter multiplicativo. Usaremos un modelo multiplicativo cuando la variacin del patrn estacional aumente al desplazarnos hacia la derecha en el grfico. Si, por el contrario, la variacin del patrn estacional permanece constante, usaremos un modelo aditivo.
Generalmente, realizaremos la descomposicin en un solo paso a partir de las observaciones colocadas en una nica columna. Sin embargo, cuando las observaciones muestren una tendencia no lineal, suele ser conveniente realizar una descomposicin de los residuos del modelo de tendencia previamente calculado. Esta alternativa suele mejorar el ajuste del modelo al combinar la informacin del anlisis de tendencia con la informacin de la descomposicin.
Modelo combinado Cuando las observaciones muestren una tendencia no lineal, suele ser conveniente
realizar una descomposicin de los residuos del modelo de tendencia previamente calculado (anlisis combinado). Esta alternativa suele mejorar el ajuste del modelo al combinar la informacin del anlisis de tendencia con la informacin de la descomposicin.
Medias mviles
El mtodo de las medias mviles es un mtodo dinmico que consiste en promediar observaciones consecutivas de una serie para suavizar el patrn que siguen los datos y realizar predicciones a corto plazo. Este procedimiento suele emplearse cuando las observaciones no muestran patrones de tendencia o estacionarios, si bien es posible emplearlo tambin con series que tengan componentes estacionarios o de tendencia. Para calcular la media mvil se promedian grupos de observaciones consecutivas. Supongamos, por ejemplo, que una serie comienza con los nmeros 4, 5, 8, 9, 10, , y que usamos una longitud de 3 para calcular la media mvil. Entonces, los dos primeros valores de la media mvil sern desconocidos, mientras que el tercero ser el promedio entre las observaciones 4, 5, y 8. Por su parte, el cuarto valor ser el promedio entre 5, 8, y 9, etc. Si la serie no tiene componente estacionario, suele ser habitual tomar medias mviles de poca longitud para suavizar la serie, si bien dicha longitud depende del nivel de ruido (error) que contenga la serie: si tomamos una media mvil de longitud grande estaremos eliminando mucho ruido, pero el patrn resultante tambin ser menos sensible a cambios en las series. Si la serie contiene un patrn estacionario se suele usar el perodo como longitud para la media mvil.
Series Temporales
Series Temporales
Trend Analysis
Data Length NMissing Empleados 60,0000 0
Fitted Trend Equation Yt = 320,762 + 0,509373*t Accuracy Measures MAPE: MAD: MSD: Row 1 2 3 4 ... Period 61 62 63 64 ... 1,70760 5,95655 59,1305 FORE1 391,818 393,649 395,502 397,376 ... + 1,07E-02*t**2
Series Temporales
Empleados
370
320 0 10 20 30 40 50 60 70
Time
El grfico anterior muestra las observaciones (Actual), la curva de tendencia que se ajusta a las mismas (Fits), y los valores pronosticados (Forecasts). Las observaciones presentan una tendencia creciente, con un claro componente estacionario. La curva obtenida parece ajustarse bastante bien a la tendencia de las observaciones, pero el patrn estacionario no est siendo considerado en este modelo.
Anlisis de descomposicin Seleccionamos Stat > Time Series > Decomposition y completamos las ventanas como se indica (elegiremos un modelo aditivo):
10
Series Temporales
El output del programa nos ofrece informacin textual y grfica. Observar que, con este modelo, obtenemos un valor de 20,30 para el MSD: Time Series Decomposition
Data Length NMissing Empleados 60,0000 0
Trend Line Equation Yt = 313,989 + 1,16485*t Seasonal Indices Period 1 2 3 4 5 6 7 8 9 10 11 12 Index -8,48264 -13,3368 -11,4410 -5,81597 0,559028 3,55903 1,76736 3,47569 3,26736 5,39236 8,49653 12,5590
Accuracy of Model MAPE: MAD: MSD: Forecasts Row 1 2 3 4 5 6 7 8 9 10 11 12 Period 61 62 63 64 65 66 67 68 69 70 71 72 Forecast 376,562 372,873 375,933 382,723 390,263 394,428 393,801 396,674 397,631 400,921 405,190 410,417 0,8797 2,9550 20,2982
11
Series Temporales
Actual
400
Empleados
350
300 0 10 20 30 40 50 60 70
Time
En las siguientes imgenes se muestran, por separado, la serie original de observaciones, los datos una vez eliminada la tendencia, los datos una vez extrado el patrn estacional, y los datos una vez extrados el patrn estacional y la tendencia:
Detrended Data
10
20
30
40
50
60
12
Series Temporales Finalmente, en el ltimo conjunto de grficos se muestra un anlisis estacional: grfico de ndices estacionales, grfico de variacin porcentual por estaciones, grfico de boxplots referidos a observaciones agrupadas por perodos estacionarios, y grfico de boxplots de los residuos agrupados por perodos estacionarios.
-10
10
9 10 11 12
Anlisis combinado (tendencia+descomposicin) Usaremos los residuos obtenidos en el anlisis de la tendencia (guardados en la columna RESI1) para combinarlo con el mtodo de descomposicin: Seleccionamos Stat > ventanas como se indica:
13
Series Temporales A continuacin se muestra el output generado por el programa: Time Series Decomposition
Data Length NMissing RESI1 60,0000 0
Seasonal Indices Period 1 2 3 4 5 6 7 8 9 10 11 12 Index -8,48264 -13,3368 -11,4410 -5,81597 0,559028 3,55903 1,76736 3,47569 3,26736 5,39236 8,49653 12,5590
Accuracy of Model MAPE: MAD: MSD: Forecasts Row 1 2 3 4 5 6 7 8 9 10 11 12 Period 61 62 63 64 65 66 67 68 69 70 71 72 FORE2 -8,4826 -13,3368 -11,4410 -5,8160 0,5590 3,5590 1,7674 3,4757 3,2674 5,3924 8,4965 12,5590 881,582 2,802 11,899
El grfico siguiente nos proporciona la serie de residuos original (Actual), la lnea de tendencia asociada (horizontal, ya que son los residuos), los valores estimados (Predicted), y los pronosticados (Forecasts):
14
Series Temporales
Actual Predicted
10
RESI1
-10
MAPE: MAD: MSD: 881,582 2,802 11,899
-20 0 10 20 30 40 50 60 70
Time
En las siguientes imgenes se muestran, por separado, la serie original de observaciones (residuos), los datos una vez eliminada la tendencia (en este caso queda igual, por ser la tendencia horizontal), los datos una vez extrado el patrn estacional, y los datos una vez extrados el patrn estacional y la tendencia:
Detrended Data
10
20
30
40
50
60
15
Series Temporales En el primero de los grficos (Decomposition FIT) se observa que los residuos obtenidos en el anlisis de tendencia (ver ejemplo anterior) se ajustan bastante bien por el modelo generado usando el mtodo de descomposicin. Si acaso, vemos que el valor estimado en el primero de los ciclos es considerablemente menor que el valor real, mientras que ocurre todo lo contrario en el ltimo de los ciclos. Esto tambin se puede apreciar claramente en el grfico de nombre Seasonally Adj. And Detrended Data.
Finalmente, en el ltimo conjunto de grficos se muestra un anlisis estacional: grfico de ndices estacionales, grfico de variacin porcentual por estaciones, grfico de boxplots referidos a observaciones (residuos) agrupadas por perodos estacionarios, y grfico de boxplots de los residuos (de las observaciones) agrupados por perodos estacionarios.
9 10 11 12
16
Series Temporales
Veamos ahora cmo podemos calcular los valores estimados (Predicted) y los pronosticados (Forecasted):
Guardaremos los nuevos valores estimados, obtenidos como suma (por ser un modelo aditivo) de:
17
Series Temporales
Comprobemos cmo quedan todos los datos anteriores en un grfico de series temporales. Usaremos la opcin Graph > Time Series Plot :
18
Series Temporales
400 Empleados
350
300 Index 2 12 22 32 42 52 62 72
En el grfico anterior, los crculos representan las observaciones, los smbolos + representan las estimaciones. Los pronsticos se representan con otro smbolo. Calculemos ahora el valor del MSD. Haremos uso para ello de la frmula y de la opcin Calc
> Calculator :
19
Series Temporales
Como se observa en la siguiente pantalla, el valor del MSD que se obtiene con este mtodo combinado es de 11,90:
Podemos comparar la bondad del ajuste de los diferentes modelos usando el MSD obtenido. El valor del MSD para el modelo de tendencia cuadrtica era de 59,13. Los modelos de descomposicin aditiva y multiplicativa con tendencia lineal daran un MSD de 20,30 y 18,54 respectivamente. El valor del MSD para la combinacin de tendencia cuadrtica y descomposicin de residuos es de 11,90, lo que indica que este mtodo combinado es el que proporciona un mejor ajuste. Probablemente sea tambin interesante calcular el valor MSD para el modelo multiplicativo.
20
Series Temporales
Evolucin de la temperatura de un ro
En el archivo Rio.mtw se ha registrado (en la variable Temp) la temperatura del agua de un ro en las ltimas 90 horas. En primer lugar, a fin de determinar si la temperatura en una hora concreta est correlacionada con la temperatura registrada una hora antes, dos horas antes, etc., calcularemos la funcin de autocorrelacin con lags = 24 Posteriormente realizaremos con Minitab un anlisis de la tendencia y un anlisis de descomposicin (no combinado) de la serie temporal que origina la variable Temp. Por otra parte, usando medias mviles de longitud 4, intentaremos predecir la temperatura de las prximas 12 horas Estudio de la autocorrelacin y la autocorrelacin parcial
Observar en el grfico siguiente que la funcin de correlacin tiene una forma senosuidal, lo cual sugiere que las temperaturas de horas cercanas estarn positivamente correlacionadas (de hecho, el valor obtenido para la correlacin entre la columna de las observaciones y la columna desplazada en una unidad es de 0,95), mientras que temperaturas separadas por 12 horas estarn negativamente correlacionadas (-0,70 en este ejemplo). Notar tambin la existencia de un componente estacionario de perodo 24 horas.
21
Series Temporales
Autocorrelation
12
22
Lag Corr
LBQ
Lag Corr
LBQ
Lag Corr
LBQ
Lag Corr
LBQ
1 0,95 9,25 88,34 2 0,84 4,87 157,57 3 0,67 3,21 203,14 4 0,48 2,06 226,19 5 0,26 1,08 233,18 6 0,04 0,16 233,34 7 -0,17 -0,70 236,44
8 -0,36 -1,44 249,83 9 -0,50 -2,00 277,09 10 -0,61 -2,33 317,54 11 -0,67 -2,43 367,27 12 -0,70 -2,37 420,99 13 -0,68 -2,19 472,74 14 -0,62 -1,91 516,86
15 -0,53 -1,57 549,45 16 -0,41 -1,18 569,00 17 -0,26 -0,75 577,17 18 -0,10 -0,27 578,29 19 0,08 0,21 578,99 20 0,24 0,69 586,23 21 0,39 1,11 605,55
Al analizar grficos como el anterior, no debemos olvidar que los coeficientes de autocorrelacin son dependientes entre s. Por ejemplo: si la primera columna (observaciones) est fuertemente correlacionada con la segunda (lag = 1), y esta a su vez con la tercera (lag = 2), entonces la primera estar tambin correlacionada con la tercera. Por este motivo, suele ser interesante calcular tambin la funcin de autocorrelacin parcial, en la cual ya se eliminan las dependencias con columnas intermedias. En cierto sentido, podramos decir que la autocorrelacin parcial proporciona una visin ms clara de las dependencias entre las .
22
Series Temporales
12
22
20 -0,02
Anlisis de la tendencia Dado que se observa en los datos un patrn lineal, usaremos un modelo lineal para ajustar las observaciones. Adems, tambin se observa un claro componente estacionario, por lo que guardaremos los residuos a fin de realizar, ms adelante, una descomposicin de los mismos y poder as mejorar nuestro modelo. Seleccionamos Stat > Time Series > Trend Analisis
23
Series Temporales
Fitted Trend Equation Yt = 42,6710 - 2,11E-02*t Accuracy Measures MAPE: MAD: MSD: Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Period 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 6,13991 2,51294 8,26801 FORE1 40,6501 40,6291 40,6080 40,5869 40,5659 40,5448 40,5238 40,5027 40,4817 40,4606 40,4396 40,4185 40,3975 40,3764 40,3554 40,3343 40,3133 40,2922 40,2712 40,2501 40,2291 40,2080 40,1870 40,1659
Observar que las medidas de bondad del ajuste (MAPE, MAD y MSD) mantienen unos valores bastante buenos (pequeos). El siguiente grfico muestra las observaciones (Actual), la curva de tendencia que se ajusta a las mismas (Fits), y los valores pronosticados (Forecasts). Las observaciones presentan una tendencia decreciente, con un claro componente estacionario. La recta obtenida no ajusta mal la tendencia de las observaciones, pero el patrn estacionario no est siendo considerado en este modelo.
24
Series Temporales
Temp
40
Time
Anlisis de descomposicin Utilizamos un modelo aditivo, al no observarse que la variacin del patrn estacional crezca con el tiempo. Seleccionamos Stat > Time Series > Decomposition
25
Trend Line Equation Yt = 42,6710 - 2,11E-02*t Seasonal Indices Period 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Index 0,919957 1,60121 1,94391 2,41391 2,91829 3,09621 2,99412 3,15204 3,16475 3,07621 2,61058 0,905998 -1,14609 -1,59484 -2,81734 -3,60754 -4,40838 -4,77692 -4,44046 -3,22254 -1,92629 -0,73692 -0,10129 -0,01859
Accuracy of Model MAPE: MAD: MSD: Forecasts Row 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Period 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 Forecast 40,6315 41,5490 42,2092 42,5309 42,9798 43,4631 43,6200 43,4969 43,6337 43,6254 43,5158 43,0291 41,3035 39,2304 38,7606 37,5170 36,7057 35,8839 35,4943 35,8097 37,0065 38,2817 39,4501 40,0646 2,03073 0,83542 1,13924
26
Series Temporales
Notar que todas las medidas de bondad del ajuste (MAPE, MAD y MSD) son menores que en el caso anterior, lo cual indica que este modelo se ajusta mejor a la serie. Esto tambin se ve claramente en el primero de los grficos siguientes, donde se observa que ahora el componente estacional s se est teniendo en cuenta. En el segundo bloque de imgenes se muestran, por separado, la serie original de observaciones, los datos una vez eliminada la tendencia, los datos una vez extrado el patrn estacional, y los datos una vez extrados el patrn estacional y la tendencia Finalmente, en el ltimo conjunto de grficos se muestra un anlisis estacional: grfico de ndices estacionales, grfico de variacin porcentual por estaciones, grfico de boxplots referidos a observaciones agrupadas por perodos estacionarios, y grfico de boxplots de los residuos agrupados por perodos estacionarios.
27
Series Temporales
Actual
45
Temp
40
35 0 50 100
Time
Detrended Data
40
35 0 10 20 30 40 50 60 70 80 90 100
-5 0 10 20 30 40 50 60 70 80 90 100
10 20 30 40 50 60 70 80 90 100
28
Series Temporales
40
35 2 4 6 8 10 12 14 16 18 20 22 24
8 10 12 14 16 18 20 22 24
A pesar de que una transformacin de la variable suele tener efectos positivos en el anlisis, en este caso no parece que sea necesario a la vista del grfico de residuos, ya que presentan un comportamiento errtico alrededor del 0, sin ningn patrn claro.
Medias mviles Utilizamos un modelo aditivo, al no observarse que la variacin del patrn estacional crezca con el tiempo. Seleccionamos Stat > Time Series > Moving Average
29
Series Temporales
Moving average
Data Length NMissing Temp 95,0000 0
Moving Average Length: 4 Accuracy Measures MAPE: 3,78930 MAD: 1,54115 MSD: 3,28697 Row 1 2 3 4 5 6 7 8 9 10 11 12 Period 96 97 98 99 100 101 102 103 104 105 106 107 Forecast 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 36,37 Lower 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 32,8165 Upper 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235 39,9235
La prediccin que nos ofrece el anlisis es que la temperatura en las prximas 12 horas estar entre 32,82 y 39,92; siendo el valor medio 36,37. En el siguiente grfico se muestran las observaciones (Actual), los valores estimados (Predicted), y los valores pronosticados (Forecast). Observar que el patrn de los valores estimados est ligeramente desplazado a la derecha con respecto al patrn de las observaciones (ello se debe a que el valor estimado en el instante t es el valor de la media mvil en t-1).
45
Temp
40
Forecast
35
50
100
Time
30
Series Temporales
BIBLIOGRAFA
[1] [2] [3] [4] [5] [5] [7]
______________________________________________
Bar, J. y Alemany, R. (2000): Estadstica II. Ed. Fundaci per a la Universitat Oberta de Catalunya. Barcelona. Pea Snchez de Rivera, D. (1987): Estadstica. Modelos y Mtodos. Volumen 2. Alianza Editorial. Madrid. ISBN: 84-206-8110-5 Johnson, R. R. (1996): Elementary statistics. Belmont, etc. : Duxbury, cop Kvanli, A. (????): Introduction to Business Statistics. South-Western. Martn-Guzmn, P. (1991): Curso bsico de estadstica econmica. AC, DL. Madrid. ISBN: 84-7288-142-3 Uriel, E. (????): Anlisis de datos. ???. Valencia. ISBN: -???? Pepi, M. (2001): Series Temporales. Edicions UPC. Barcelona. ISBN: 84-8301-526-9
ENLACES
___________________________________
http://perso.wanadoo.es/bledatobias/series.html Curso "Anlisis, Regresin y Prediccin de Series Temporales Epidemiolgicas" http://www.ii.uam.es/~asuarez/docencia/doctorado/TS2001.html Curso de doctorado de la Universidad Autnoma de Madrid: "Series Temporales"
31