Regresion y Series de Tiempo

Regresión y series de tiempo
Relación funcional y relación estadística

Una relación funcional es una relación entre variables que queda completamente
representada en una ecuación matemática, expresada por una fórmula o un modelo
matemático. Por ejemplo, una función lineal es una relación funcional.
Una relación estadística es una relación que solo puede hacerse en un determinado
porcentaje. Es decir, la relación estadística se puede modelizar con algún grado de éxito
pero siempre hay una variación (error o ruido) que no podemos explicar con el modelo
construido. Un ejemplo de relación estadística es la regresión lineal simple.
Regresión lineal simple
Cuando queremos generar un modelo estadístico donde una de las variables (Y), llamada
variable respuesta o variable dependiente, es una variable aleatoria dependiente de otra
u otras variable/s (X) que se llaman variables predictoras, independientes o regresoras,
que asumen valores fijos o fijados por el investigador, estamos hablando de un análisis de
regresión.
El más sencillo de los análisis de regresión es el análisis de regresión lineal simple que se
utiliza cuando hay una única variable explicativa (X) y la relación entre (X) e (Y) está
modelizada por una función lineal, donde la primera explica a la segunda.
Ejemplo de relación estadística
El área de data mining de una importante cadena de comercios minoristas cree que hay
una relación positiva entre las ventas de uno de sus productos y el ingreso per cápita del
año anterior. Decide asociar las ventas del año 2019 con el ingreso per capita del año 2018
en una muestra de 13 de sus sucursales ubicadas en distintas localidades. Los datos
aparecen en la siguiente tabla:
© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 1

INGRESO PER CAPITA
MENSUAL
PROMEDIO POR 8 8,5 9 9,5 10 10,5 11 12 13 16 17 19 22
LOCALIDAD (EN
MILES DE PESOS)
VENTAS PER CAPITA
750 748 825 820 902 910 950 983 990 1030 1200 1250 1520
(EN PESOS)
Lo primero que se debe hacer para empezar a analizar los datos es graficarlos en el plano
XY. El gráfico que muestra la localización de los pares x e y en el eje cartesiano se llama
nube de puntos o diagrama de dispersión, ya que la relación que se ilustra no es una
función perfecta sino que para cada valor de X pueden existir varios valores de Y (una
dispersión de puntos), en lugar de un único valor. Este diagrama da una idea aproximada
de la forma en que X e Y podrían (o no) relacionarse, o sea de qué tipo de modelo de
regresión se puede usar.
 Si la nube de puntos o diagrama de dispersión muestra una forma similar a un

círculo/pelota, probablemente ningún modelo ajuste bien con las variables
seleccionadas.
 Si la nube de puntos o diagrama de dispersión muestra una forma que se asemeja
a una recta, puede entonces ajustarse un modelo lineal con pendiente positiva o
negativa según corresponda.
 Pueden haber otros ajustes también tales como exponencial, logarítmica, etc.
La gráfica de dispersión de los datos se muestra a continuación:

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión EstudiantilGRÁFICA DE DISPERSIÓN
Versión Estudiantil Versión Estudiantil Versión Estudiantil
1559
VENTAS PER CAPITA (EN PESOS)
Versión Estudiantil1464
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión 1370
Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
1276
1181
Versión Estudiantil 992
898
Versión Estudiantil Versión Estudiantil
804 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
7 Versión
9 Estudiantil
11 Versión 14
12 Estudiantil
16 Versión
18 Estudiantil
19 Versión
21 Estudiantil
23
Versión Estudiantil Versión EstudiantilINGRESO
Versión Estudiantil
PER CAPITA Versión Estudiantil
MENSUAL Versión Estudiantil
PROMEDIO Versión Estudiantil

En este diagrama de dispersión vemos que la variable X (ingreso per capita) podría
explicar a la variable Y (ventas per capita), ya que pareciera que la variación de una implica
la variación de otra y que dicha relación aparentaría ser una recta de pendiente positiva, o
sea ascendente: cuanto mayor es el ingreso per cápita, mayores son las ventas. No se
observa una recta perfecta sino que hay pequeñas variaciones, típico de un diagrama de
dispersión. El análisis de regresión lineal simple consistirá precisamente en generar la
línea recta que mejor describa la relación entre la variable predictora (X) y la variable
respuesta (Y).
Como vimos en inferencia de parámetros poblacionales a través de las estimaciones de la

muestra, si conociéramos todos los valores posibles de X e Y estaríamos tratando con una
población. Entonces, se podría buscar una recta que describa ajustadamente la relación
entre las dos variables, es decir, que si se hallara dicha recta, se conocerían sus
parámetros: la ordenada al origen (0) y la pendiente (1).
Pero si no se conocen todos los valores de X e Y, se trabajará con los valores de una
muestra. La cuestión ahora es encontrar la recta que mejor “ajuste” los puntos del
diagrama de dispersión, es decir, a partir de los datos de la muestra se deberán encontrar
estimadores de los parámetros 0 y 1 de la recta verdadera (en la población) a los que
denotaremos como b0 y b1.
Modelos de regresión
Un modelo de regresión es una manera formal de expresar una relación estadística. Esta
relación está dada por una tendencia de la variable dependiente Y a variar conjuntamente
con la variación de la/s variable/s independiente/s X de una manera sistemática.
En la población de observaciones asociadas con el proceso que fue muestreado hay una
distribución de probabilidades de Y para cada nivel de X. En general, se asume que esa
distribución de probabilidades sigue una distribución normal y las medias de estas
distribuciones de probabilidades varían de una manera sistemática al variar X.
Los modelos de regresión se utilizan para describir, controlar y/o predecir.
- Describir: cuando se observa un proceso sin incidir sobre el mismo.

- Controlar: cuando se manipula la variable X para observar como varia.
- Predecir: nos permite predecir el comportamiento futuro de Y en función de
conocer el valor de X.

*Estos objetivos perfectamente pueden superponerse. Este apunte es introductorio al
tema de análisis de regresión. Para una mayor profundidad, se recomienda la lectura del
tema en los libros de la bibliografía.
Modelo de regresión lineal simple
Como se indicó arriba, el análisis de regresión lineal simple se aplica cuando hay una única
variable explicativa (X), y la relación entre (X) e (Y) está modelizada por una función lineal,
donde la primera explica a la segunda. Para este caso, el modelo utiliza las siguientes
ecuaciones:
Yi   0   1  X i   i
 i  N 0, e ;
 2
Cov  ;    0, i  j
 i j
 Yi es el valor de la variable dependiente en función de una observación de Xi. Como

también depende de i, entonces Yi también tomará valores aleatorios.
 Xi es el valor de la variable independiente.
 0 es el valor del parámetro poblacional ordenada al origen. Nos indica cuánto vale
Y cuando hay ausencia de X (X=0)
 1 es el valor del parámetro poblacional pendiente de la recta de regresión, e
indica el cambio en la media de la distribución de probabilidad de Y por cada
unidad de incremento en X. Es decir, indica por un cambio unitario de X cuanto
aumenta o disminuye Y.
 i es un término de error aleatorio con distribución normal con E(i) = 0 y
variancia  e
2
Construcción de la recta de regresión estimada
Procedemos a estimar una recta de regresión a partir de los datos de una muestra. Para
hacerlo, recurrimos al llamado método de mínimos cuadrados clásicos. Esta metodología
generará, a partir de los datos de la nube de puntos (pares x;y de la muestra) la mejor
recta posible. Es decir, aquella que minimice el error cuadrático.

Como partimos de datos de una muestra, los estimadores de la recta estimada se
escribirán con letras del alfabeto tradicional:
b1  ̂ 1 y b0  ̂ 0
donde b1 será la estimación de la pendiente 1 y b0 será la estimación de la ordenada al

origen 0.
El error estimado es: ei  Yi  Yˆi  Yi  b0  b1  X i
Entonces, la recta de regresión estimada será: ŷi = b0 + b1 * xi
Se usa el ŷ para denotar los valores de la variable Y que se estiman sobre la recta.
La pendiente estimada b1 es el cociente de la suma de producto X*Y dividido la suma de

cuadrados de X. Su fórmula es:
 XiYi  
X i Yi
b1 
  X  X   Y  Y  
i i n
 X  X    Xi 
2 2
X
i 2
i 
n
El par x; y  promedios siempre pasan por la recta estimada. La ordenada al origen b0
saldrá, luego de calcular la pendiente estimada y reemplazar en la ecuación Xi e Ŷi por los
promedios de dichas variables. Su fórmula es:
b0  Y  b1  X
La recta de regresión estimada para el ejemplo sería:

Versión Estudiantil Versión Estudiantil RECTAVersión
Versión Estudiantil DE REGRESIÓN
Estudiantil ESTIMADA
1559
VENTAS PER CAPITA (EN PESOS)

1276
992
804 Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
709
7 Versión Estudiantil
23
Versión Estudiantil Versión EstudiantilINGRESO
PER CAPITA MENSUAL PROMEDIO Versión Estudiantil Versión Estudiantil
ŷi = b0 + b1 * xi = 373,2 + 48,5 * xi
Esta ecuación sirve para predecir los valores de Y. Si reemplazamos con cualquier ingreso
per capita entre 8 y 22 en la ecuación de la recta, podemos obtener el valor predicho por
el modelo ŷ para un valor dado de x.
El estimador 373,2 es la cantidad de ventas per capita estimadas si los ingresos per capita
mensuales fueran cero. Esto no tiene mucho sentido, ya que sin ingresos no habría
ninguna capacidad de compra. El motivo de este aparente absurdo es que la ordenada al
origen no pertenece, en este caso, al dominio del modelo (valores que toma la variable X).
El dominio del modelo está dado por el rango de valores introducidos en él. De los datos
podemos observar que el ingreso promedio per capita en la localidad más pobre es de
$8.000 (muy lejos de cero). Esto no presenta ningún problema para el análisis estadístico,
es solo que hay que tener en cuenta que cuando esto sucede la ordenada al origen
estimada solo tendrá un significado geométrico para hacer los cálculos, pero no un
significado real en términos del experimento.
Gráficamente, podemos ver que la recta estimada está dibujada dentro de la nube de
puntos (diagrama de dispersión) y no proyectada fuera de ella. Con respecto a la
pendiente estimada de $48,5, podemos decir que cuando aumenta una unidad la variable
X (en este caso $1000 per capita), aumentan $48,5 las ventas per capita.

Errores, residuos o residuales
Los errores, residuos o residuales nos muestran la diferencia que hay entre el valor real de
yi con el valor estimado por la recta en ŷi. Es la desviación vertical observada de yi con
respecto a la línea de regresión ajustada, obtenida para la muestra y, por lo tanto, es
conocido.
ei = yi – ŷi
Los residuales son muy útiles para estudiar si un modelo de regresión es apropiado para
los datos con los cuales se está trabajando. Estos residuales elaborados con la muestra
son distintos al valor del término del error del modelo, que se refiere a la desviación
vertical de Yi con respecto a la línea de regresión poblacional, que es desconocida. Dado
que la recta de regresión poblacional es desconocida, también lo será el término del error
del modelo:
i = Yi – E(Yi)
En la siguiente gráfica podemos visualizar los residuales (líneas rojas). Vemos como
algunos valores fueron subestimados por el modelo y otros fueron sobrestimados. El
modelo será bueno cuando tenga subestimaciones y sobrestimaciones pequeñas en
relación con la distancia que hay entre el valor predicho por el modelo y el promedio total
de la variable dependiente. Esto lo podemos ver en el gráfico:

Vemos como las líneas rojas son mucho menores que las violetas, que son la variación
entre las predicciones del modelo y el valor promedio (llamada variación explicada por el
modelo o de la regresión), y las rojas son las variaciones entre el valor observado y el valor
predicho (variación no explicada, del error o residual).
Otra gráfica utilizada para los residuos es:

Res. estudentizados_VENTAS PER CAPITA (EN PESOS)
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Residuos Versión Estudiantil Versión Estudiantil
3,0
1,5
0,0
-1,5
-3,0
727,2 Versión Estudiantil
1474,1
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión
Predichos Estudiantil Versión Estudiantil Versión Estudiantil
n
Algebraicamente también podemos comprobar que e
i 1
i  0 siendo e 2
i un mínimo.
Procedemos ahora a estimar la varianza del error  e2 .
La varianza estimada del error o residuo (también llamada cuadrado medio del error o
residuo) es el cociente entre la suma de cuadrados del residuo (numerador) y los grados
de libertad (denominador). La suma de cuadrados SCRES tiene n - 2 grados de libertad,
porque dos grados de libertad se pierden cuando 0 y 1 son estimados para obtener los
ˆ
valores Yi . Entonces:
 Y  Yˆ   Y  b  b1  X i 2 e
2 2
SC
 RES   
i i i 0 i
CMRES = 30.049,5 / (13-2) = 2.731,8
n2 n 2 n2 n2

Coeficiente R2
El coeficiente de determinación (R2) indica el grado de asociación lineal entre las dos
variables. Está compuesto por la suma de cuadrados total (SCTOT), que mide la variación
total en las observaciones Yi, y la suma de cuadrados de error (SCRES), que mide la
variación residual en las Yi cuando se emplea el modelo de regresión.
SCTOT = SCREG + SCRES
582.277,1 = 552.227,5 + 30.049,5

n
SC TOT  SC Y   y i  y 2
i 1
n
SC RES   ei 2
i 1
SCTOT  SCRES SCREG

R2  
SCTOT SCTOT
El coeficiente R2 indica el porcentaje de la variación total de Y, que puede ser explicado

por la variación de X. Es un porcentaje con valores entre 0  R2  1. En el ejercicio de
ejemplo:
R2 = 552.227,5 / 582.277,1 = 0,948
En este caso, el valor de 0,948 nos está diciendo que casi el 95% de la variabilidad total de
las ventas per capita está dada por la relación lineal con el ingreso per capita. Esto es un
excelente ajuste.
Inferencia en la regresión lineal simple

En clases anteriores explicamos la inferencia estadística como el método para estimar el
verdadero valor de un parámetro. En regresión, los parámetros son la pendiente y la

ordenada al origen. Con el análisis de regresión podemos calcular intervalos de confianza
y test de hipótesis para estos parámetros.
Inferencia para la pendiente
La pendiente (distinta de 0) es una característica esencial de una función lineal no

constante y, por lo tanto, también esencial para la estimación de una relación estadística.
El valor p del test de hipótesis de la pendiente será fundamental a la hora de interpretar si
tenemos una buena regresión que permite modelizar (sostenemos H0) o debemos hacer
ajustes adicionales, como incorporar otras variables, cambiar el tipo de modelo, etc.
(rechazamos H0).
El test de hipótesis para la pendiente siempre será igual:
H0: 1 = 0: No hay asociación entre X e Y
H1: 1  0: Hay asociación entre X e Y
Si H0 es cierta, entonces 1 es cero y tendríamos una constante, o sea que no hay

variación de Y cuando X varía, por lo tanto, no hay asociación. Entonces, la ordenada al
origen es igual a Y y se pierde toda relación entre las variables.
Para calcular el test y su valor p estimamos la pendiente: b1 

 X  X  Y  Y 
i i
 X  X 
2
i
CM RES
y estimamos el desvío de la pendiente: s 2 b1  
 x i  x 2
b1   1
Como estadístico para la prueba, en general se usa t de student: tcalc =
sb1 
Donde 1 de la hipótesis nula será siempre cero. Luego, buscamos el valor p. Si es menor a
0,05 o 0,1 (dependiendo del α elegido) rechazamos la H0 y concluimos que hay relación
entre las variables.
El intervalo de confianza se calcula como:


P b1  t 1
2 ;n2
 sb1    1  b1  t 1
2 ;n2

 sb1   1  

Inferencia para la ordenada al origen
Sobre el test de hipótesis de la ordenada al origen se podrá rechazar la H0 o no

dependiendo de si x = 0 pertenece o no al dominio del modelo.
 Si el dominio incluye el valor 0 (por ejemplo, si estudio temperaturas de congelamiento

de soluciones acuosas, cero grados centígrados es un valor de mucha importancia), la
ordenada al origen tiene un sentido real.
 Si el dominio no incluye el valor 0 (x = 0 no pertenece al dominio), la ordenada al origen
solo tiene sentido aritmético para hacer las estimaciones, pero no en términos
estadísticos y de negocios; es solo para tener “un punto de apoyo” para el gráfico de la
recta. Por ejemplo, supongamos que produzco acero y la cantidad producida está en
función del combustible utilizado. Sin combustible (x = 0) la máquina no enciende, así que
en ese tramo no se verificará ninguna relación: x = 0 no pertence al dominio.
Seguramente, a partir de cierto valor alejado de cero, se generará alguna relación de algún
tipo y ese tramo (dominio) será en el que se midan este tipo de regresiones.
Test de hipótesis
H0: 0 = 0: La ordenada al origen es igual a cero.
H1: 0  0: La ordenada al origen es distinta de cero.
Recordemos que la estimación puntual de la ordenada al origen es: b0  Y  b1  X
1 X2 
y el desvío estándar de la ordenada al origen es: s 2 b0   CMRES    2
 n  X i  X  
b0   0
El estadístico para la prueba también es generalmente t de student: tcalc =
sb0 
El intervalo de confianza se calcula como: P b0  t   sb0    0  b0  t 


 sb0   1  
n 2;1 n 2;1
 2 2 

En resumen, sobre el intervalo de confianza para la ordenada al origen podemos decir que
tiene interés cuando el dominio del modelo incluye el valor x = 0. Solo en ese caso, el
parámetro 0 tiene el valor del promedio poblacional de la variable Y cuando la variable
independiente tiene el valor cero. Cuando el cero de X no pertenece al dominio, la
ordenada al origen solo tiene sentido aritmético para hacer las estimaciones.
Series de tiempo
El objetivo del análisis de la serie de tiempo es descubrir en función de los datos históricos
un patrón que permita extrapolar el modelo al futuro. El pronóstico se basa únicamente
en los valores pasados de la variable o en los errores de pronóstico del pasado. Como
ocurre en regresión, la variable aleatoria que se quiere pronosticar se utiliza como variable
dependiente, pero esta dependencia en lugar de ser con otra variable se da con el tiempo.
En una serie de tiempo en el eje de las abscisas medimos el tiempo, ya que es la variable
independiente. El tiempo se puede medir en horas, días, semanas, meses, trimestres,
años, décadas, etc. Sus gráficas son similares a las de control. El estudio de la gráfica de
una serie de tiempo nos permitirá identificar si existen patrones: horizontalidad,
tendencia, estacionalidad y ciclo. Identificarlos, nos guiará hacia soluciones adecuadas.
 Cuando una serie de tiempo se mantiene de manera similar e independiente del

tiempo, se denomina serie horizontal. Son series de tiempo estacionarias aquellas que sus
propiedades no dependen del tiempo. Es decir, aquellas que tienen un promedio y
varianza constantes.
 Cuando se observa un movimiento creciente, decreciente o constante a lo largo del
tiempo, digamos el largo plazo, se denomina tendencia. Por ejemplo, la población mundial
tiende a aumentar con los años.
 Cuando se observan movimientos que se repiten en un período de tiempo se denomina
estacionalidad. Por ejemplo, en los meses de invierno aumenta el consumo de gas de los
hogares.
 Cuando las estacionalidades duran períodos de tiempo más largos, sin una duración
determinada y muy difícil de predecir, tenemos ciclos. Por ejemplo, los ciclos económicos
de crecimiento y estancamiento de los países muchas veces son cíclicos.
Muchas veces hay combinaciones de tendencia y estacionalidad.

Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión
Serie deEstudiantil
Tiempo Versión Estudiantil Versión Estudiantil Versión Estudiantil
35,50
Versión Estudiantil34,28
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Versión Estudiantil Versión 33,06
Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
31,83
Ganancias
28,17
24,50
Versión Estudiantil Versión Estudiantil Versión
1 Estudiantil
2 Versión
3 Estudiantil
4 Versión
5 Estudiantil
6 Versión
7 Estudiantil
8 Versión
9 Estudiantil
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión EstudiantilAño
Versión Estudiantil Versión Estudiantil Versión Estudiantil Versión Estudiantil
Pronósticos
Definimos el error de pronóstico como la diferencia entre el valor real y el valor que había
sido proyectado (pronóstico). Si el valor real fue mayor al pronóstico hubo una
subestimación; si el valor real es menor que el pronosticado hubo una sobreestimación.
El modelo más básico es aquel que prevé que la situación proyectada será igual a la
situación actual. Un segundo modelo levemente más avanzado es aquel que considera
como pronóstico al promedio de los datos históricos. Este segundo modelo, si la serie es
estacionaria, dará mejores pronósticos.
Promedios móviles
El método de promedios móviles utiliza el promedio de los valores de los k datos más
recientes de la serie de tiempo como pronóstico para el próximo periodo. Siempre el
nuevo valor histórico reemplaza al más antiguo que es considerado.
Para establecer el valor de k (es decir, cuántos de los últimos valores históricos
consideramos) habrá que conocer bien la serie de tiempo. También existen los promedios
móviles ponderados que dan una ponderación menor a los k valores históricos más viejos.

Suavizar exponencialmente
Es un caso particular del método de promedio móvil ponderado en el que se elige solo un
peso: aquel para la observación más reciente. Los pesos de los valores para los demás
datos se calculan automáticamente y son más pequeños conforme las observaciones se
vuelven más antiguas.
Ft+1 = α *Yt + (1 - α)*Ft
donde α es la constante con la que se suaviza (ponderación entre 0 y 1).
Despejando podemos obtener: Ft+1 = Ft + α *(Yt - Ft)
Esto significa que el pronóstico es igual al anterior más un ajuste dado por la constante α
por el error de pronóstico más cercano (Yt - Ft).
Proyección de la tendencia
Para proyectar la tendencia mostraremos dos métodos.
Regresión de tendencia lineal
Para estimar una tendencia lineal se puede utilizar el procedimiento de los mínimos
cuadrados de la regresión lineal simple. Estimamos la recta de regresión y la comparamos
con la gráfica de valores de la serie de tiempo.
Tt = b0 + b1 * t
*Suavizar exponencialmente la tendencia con la línea de Holt:
Se obtiene con dos constantes de suavización y estas tres ecuaciones.

Lt = α * Yt + (1 - α) * (Lt-1 + bt-1)
bt = β * (Lt - Lt - 1) + (1 - β) * bt-1
Ft+k = Lt + bt * k
Donde:
Lt = estimación del nivel de la serie de tiempo para el periodo t
bt = estimación de la pendiente de la serie de tiempo para el periodo t
α = constante para el nivel de la serie de tiempo
β = constante para la pendiente de la serie de tiempo
Ft+k = pronóstico para el periodo k en el futuro
k = número de periodos próximos a pronosticar
Estacionalidad y tendencia
Modelos con estacionalidad sin tendencia
Supongamos que tenemos una situación de estacionalidad dada, por ejemplo, que en
algún/algunos trimestre/s la variable se destaca positiva o negativamente respecto al
resto de los trimestres. En estos casos, se podrían utilizar variables categóricas de sistema
binario (0 y 1) para representar variables ficticias.
Como son cuatro trimestres, las variables categóricas a crear serán tres (k-1). El modelo
nos quedaría de la siguiente manera:
ŷ = b0 + b1 * Qtr1 + b2 * Qtr2 + b3 * Qtr3
Donde b0 será el trimestre con el valor más bajo y, luego, los coeficientes b1, b2 y b3 nos
darán la ponderación que tiene cada uno. Los Qtr nos darán valores de 0 para los
trimestres no estimados y de 1 para el trimestre que estemos estimando.

Modelos con estacionalidad y tendencia
Si a este modelo le agregamos una tendencia.
ŷ = b0 + b1 * Qtr1 + b2 * Qtr2 + b3 * Qtr3 + b4 * t
donde las variables tienen todas el significado de las anteriores y se agrega el termino
b4*t, donde t es el periodo de tiempo a estimar y b4 es la pendiente de la tendencia (por el
incremento de una unidad de t cuanto aumenta la variable).

Regresion y Series de Tiempo

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresion y Series de Tiempo

Încărcat de

Drepturi de autor:

Formate disponibile

Regresión y series de tiempo

Relación funcional y relación estadística

Regresión lineal simple

Ejemplo de relación estadística

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 1

 Si la nube de puntos o diagrama de dispersión muestra una forma similar a un

La gráfica de dispersión de los datos se muestra a continuación:

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 2

Como vimos en inferencia de parámetros poblacionales a través de las estimaciones de la

Los modelos de regresión se utilizan para describir, controlar y/o predecir.

- Describir: cuando se observa un proceso sin incidir sobre el mismo.

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 3

Modelo de regresión lineal simple

 Yi es el valor de la variable dependiente en función de una observación de Xi. Como

Construcción de la recta de regresión estimada

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 4

donde b1 será la estimación de la pendiente 1 y b0 será la estimación de la ordenada al

El error estimado es: ei  Yi  Yˆi  Yi  b0  b1  X i

Entonces, la recta de regresión estimada será: ŷi = b0 + b1 * xi

La pendiente estimada b1 es el cociente de la suma de producto X*Y dividido la suma de

La recta de regresión estimada para el ejemplo sería:

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 5

VENTAS PER CAPITA (EN PESOS)

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 6

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 7

Otra gráfica utilizada para los residuos es:

Procedemos ahora a estimar la varianza del error  e2 .

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 8

SCTOT = SCREG + SCRES

582.277,1 = 552.227,5 + 30.049,5

SCTOT  SCRES SCREG

El coeficiente R2 indica el porcentaje de la variación total de Y, que puede ser explicado

R2 = 552.227,5 / 582.277,1 = 0,948

Inferencia en la regresión lineal simple

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 9

Inferencia para la pendiente

La pendiente (distinta de 0) es una característica esencial de una función lineal no

El test de hipótesis para la pendiente siempre será igual:

H0: 1 = 0: No hay asociación entre X e Y

H1: 1  0: Hay asociación entre X e Y

Si H0 es cierta, entonces 1 es cero y tendríamos una constante, o sea que no hay

Para calcular el test y su valor p estimamos la pendiente: b1 

El intervalo de confianza se calcula como:

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 10

Sobre el test de hipótesis de la ordenada al origen se podrá rechazar la H0 o no

 Si el dominio incluye el valor 0 (por ejemplo, si estudio temperaturas de congelamiento

H0: 0 = 0: La ordenada al origen es igual a cero.

H1: 0  0: La ordenada al origen es distinta de cero.

Recordemos que la estimación puntual de la ordenada al origen es: b0  Y  b1  X

El intervalo de confianza se calcula como: P b0  t   sb0    0  b0  t 

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 11

 Cuando una serie de tiempo se mantiene de manera similar e independiente del

Muchas veces hay combinaciones de tendencia y estacionalidad.

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 12

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 13

Ft+1 = α *Yt + (1 - α)*Ft

donde α es la constante con la que se suaviza (ponderación entre 0 y 1).

Despejando podemos obtener: Ft+1 = Ft + α *(Yt - Ft)

Regresión de tendencia lineal

*Suavizar exponencialmente la tendencia con la línea de Holt:

Se obtiene con dos constantes de suavización y estas tres ecuaciones.

© Universidad de Palermo. Prohibida la reproducción total o parcial de imágenes y textos. 14

Lt = estimación del nivel de la serie de tiempo para el periodo t

bt = estimación de la pendiente de la serie de tiempo para el periodo t

Ft+1 = α Yt + (1 - α)Ft