Documente Academic
Documente Profesional
Documente Cultură
HISTORIA
La primera forma de regresión lineal documentada fue el método de los mínimos cuadrados
que fue publicada por Legendre en 1805, y en dónde se incluía una versión del teorema de
Gauss-Márkov.
ETIMOLOGÍA
El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean
modelos basados en cualquier clase de función matemática. Los modelos lineales son una
explicación simplificada de la realidad, con un soporte teórico mucho más extenso por parte
de la matemática y la estadística. En estadística la regresión lineal o ajuste lineal es un
método matemático que modela la relación entre una variable dependiente “Y”, las variables
independientes “Xi” y un término aleatorio “ε”. Este modelo puede ser expresado como:
β0, β1, β2, · · ·, βp: parámetros, miden la influencia que las variables explicativas tienen
sobre el regresando.
El modelo lineal relaciona la variable dependiente “y” con “k” variables explícitas Xk (k =
1, ...K), o cualquier transformación de éstas que generen un hiperplano de parámetros βk
desconocidos:
Y =∑βkXk + ε
Y = β1 + β2X2 + ε
El problema de la regresión consiste en elegir unos valores determinados para los parámetros
desconocidos βk, de modo que la ecuación quede completamente especificada. Para ello se
necesita un conjunto de observaciones. En una observación i-ésima (i= 1, ... I) cualquiera, se
registra el comportamiento simultáneo de la variable dependiente y las variables explícitas
(las perturbaciones aleatorias se suponen no observables).
Yi =∑βkXki + εi
Los valores escogidos como estimadores de los parámetros βˆk, son los coeficientes de
regresión sin que se pueda garantizar que coincida n con parámetros reales del proceso
generador. Por tanto, en:
Yi =∑βˆkXki + ˆεi
Los valores εˆi son por su parte estimaciones o errores de la perturbación aleatoria.
SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL
Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes
supuestos:
Para cada parámetro pueden existir varios estimadores diferentes. En general, escogeremos
el estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia,
convergencia y robustez (consistencia).
SESGO
EFICIENCIA
Un estimador es más eficiente o preciso que otro, si la varianza del primero es menor que la
del segundo.
CONVERGENCIA
Para estudiar las características de un estimador no solo basta con saber el sesgo y la varianza,
sino que además es útil hacer un análisis de su comportamiento y estabilidad en el largo
plazo, esto es, su comportamiento asintótico. Cuando hablamos de estabilidad en largo plazo,
se viene a la mente el concepto de convergencia.
TIPOS DE MODELOS DE REGRESIÓN LINEAL
Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:
Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son
de la forma:
Yi = β0 + β1Xi + εi
donde εi es el error asociado a la medición del valor Xi y siguen los supuestos de modo que:
i ∼ N (0, σ2) (media cero, varianza constante e igual a un σ y εi ⊥ εj con i ̸= j).
La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma
manera, es posible analizar la relación entre dos o más variables a través de ecuaciones, lo
que se denomina regresión múltiple o regresión lineal múltiple.
Yi = β0 +∑βiXip + εi
Donde: εi es el error asociado a la medición i del valor Xip y siguen los supuestos de modo
que εi ∼ N (0, σ2) (media cero, varianza constante e igual a un σ y εi ⊥ εj con i ̸= j).
SUPUESTOS DEL MODELO CLÁSICO DE REGRESIÓN
Supuesto 1: modelo de regresión lineal
Es decir, sigue una tendencia lineal, dado que el modelo se sustenta en promedios, y al ser
promedios sigue una tendencia promediar
Supuesto 2: los valores de X son fijos en un muestreo repetido
Los X deben seguir una secuencia de carácter lógico a lo menos en un 80%, es decir, deben
guardar una relación directa o inversamente proporcional.
Cuando los valores son demasiados fluctuantes no sirve este modelo
Supuesto 3:
los residuos deben comportarse como una distribución normal en la que tienda al centro, es
decir, a 0.
si el residuo no tiende a 0, se descarta porque los residuos no se comportarán como una
distribución normal
Supuesto 4:
El modelo debe ser homocedasico, es decir, que tiende a comportarse los residuos de manera
similar dentro de los datos. Si existe homocedasicidad se comprueba con la varianza.
la varianza tendría que tender a 0
Si el modelo es homocedasico, se sigue al siguiente paso (supuesto 5).
Si el modelo es heterocedasico en sus residuos, se descarta el modelo.
Heterocedasicidad: significa que es distinta la varianza de una variable con las otras.
Todos los residuos tienen distintas varianzas, por lo tanto, los datos variaran mucho y la
predicción que podemos hacer del futuro no será cierto.
Supuesto 5: No existe auto correlación entre las perturbaciones
Covarianza: relación entre 2 variables; a diferencia de la correlación, la covarianza es
bidimensional, es decir, que ve la relación que hay entre un dato1 y dato2, y de dato2 a
dato1. Cómo una in/ere en la otra y como la otra in/ere en la una. (Viceversa)
La correlación solo ve la relación de una variable con el otro, no viceversa.
Según este supuesto, se espera que las variables no estén auto correlacionadas, es decir, no
se puede tomar una extensión de la misma variable.
Para aprobar este supuesto, la covarianza debe ser 0.
Perturbaciones: residuos.
Supuesto 6: La covarianza entre el residuo y el eje x debe ser 0
Supuesto 7: el número de observaciones “n” debe ser mayor que el número de
parámetros por estimar
no se puede estimar por sobre los datos que tengo
Ejemplo: n: de 1 año
Estimaciones: de 6 meses.
Supuesto 8: variabilidad en los valores de “x”.
La varianza de x debe ser mayor de 0, porque los datos deben variar. “x” se debe mover
porque si no se mueve no explicaría nada, no estaríamos estudiando nada.
Supuesto 9: el modelo de regresión está correctamente especificado.
a mayor comportamiento de “x”, los datos se van expandiendo.
Supuesto 10: No hay multicolinealidad perfecta.
No hay relaciones perfectamente lineales entre las variables explicativas.
Al referirnos que los estimadores “B” tienen varianza mínima, podemos decir de la forma
más simple, que presentan el menor error cuadrático comparado a otros estimadores, y hace
por ello que sean los más eficientes, todo esto con el fin de que la función de regresión
muestral sea lo más cercana posible a la función de regresión poblacional, por lo que
podemos hablar de insesgadez.