Sunteți pe pagina 1din 7

MODELO DE REGRESION LINEAL

HISTORIA

La primera forma de regresión lineal documentada fue el método de los mínimos cuadrados
que fue publicada por Legendre en 1805, y en dónde se incluía una versión del teorema de
Gauss-Márkov.

ETIMOLOGÍA

El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al


comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían una
estatura muy superior al valor medio, tendían a igualarse a éste, mientras que aquellos cuyos
padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir,
“regresaban” al promedio.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean
modelos basados en cualquier clase de función matemática. Los modelos lineales son una
explicación simplificada de la realidad, con un soporte teórico mucho más extenso por parte
de la matemática y la estadística. En estadística la regresión lineal o ajuste lineal es un
método matemático que modela la relación entre una variable dependiente “Y”, las variables
independientes “Xi” y un término aleatorio “ε”. Este modelo puede ser expresado como:

Yt = β0 + β1X1 + β2X2 + · · · + βpXp + ε

Donde: Yt: variable dependiente, explicada o regresando.

X1, X2, · · ·, Xp: variables explicativas, independientes o regresores.

β0, β1, β2, · · ·, βp: parámetros, miden la influencia que las variables explicativas tienen
sobre el regresando.

Donde: β0 es la intersección o término “constante”, las βi (i > 0) son los parámetros


respectivos a cada variable independiente, y p es el número de parámetros independientes a
tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no
lineal.
EL MODELO DE REGRESIÓN LINEAL

El modelo lineal relaciona la variable dependiente “y” con “k” variables explícitas Xk (k =
1, ...K), o cualquier transformación de éstas que generen un hiperplano de parámetros βk
desconocidos:

Y =∑βkXk + ε

Donde: ε es la perturbación aleatoria que recoge todos aquellos factores de la realidad no


controlables u observables y que por tanto se asocian con el azar, y es la que confiere al
modelo su carácter estocástico. En el caso más sencillo, con una sola variable explícita, el
hiperplano es una recta:

Y = β1 + β2X2 + ε

El problema de la regresión consiste en elegir unos valores determinados para los parámetros
desconocidos βk, de modo que la ecuación quede completamente especificada. Para ello se
necesita un conjunto de observaciones. En una observación i-ésima (i= 1, ... I) cualquiera, se
registra el comportamiento simultáneo de la variable dependiente y las variables explícitas
(las perturbaciones aleatorias se suponen no observables).

Yi =∑βkXki + εi

Los valores escogidos como estimadores de los parámetros βˆk, son los coeficientes de
regresión sin que se pueda garantizar que coincida n con parámetros reales del proceso
generador. Por tanto, en:

Yi =∑βˆkXki + ˆεi

Los valores εˆi son por su parte estimaciones o errores de la perturbación aleatoria.
SUPUESTOS DEL MODELO DE REGRESIÓN LINEAL

Para poder crear un modelo de regresión lineal es necesario que se cumpla con los siguientes
supuestos:

1. Que la relación entre las variables sea lineal.


2. Que los errores en la medición de las variables explicativas sean independientes
entre sí.
3. Que los errores tengan varianza constante. (Homocedasticidad)
4. Que los errores tengan una esperanza matemática igual a cero (los errores de una
misma magnitud y distinto signo son equiprobables).
5. Que el error total sea la suma de todos los errores.

ESTIMADORES DEL MODELO DE REGRESION LINEAL

Para cada parámetro pueden existir varios estimadores diferentes. En general, escogeremos
el estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia,
convergencia y robustez (consistencia).

SESGO

Se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor esperado) del


estimador y el verdadero valor del parámetro a estimar. Es deseable que un estimador sea
insesgado o centrado, es decir, que su sesgo sea nulo por ser su esperanza igual al parámetro
que se desea estimar.

EFICIENCIA

Un estimador es más eficiente o preciso que otro, si la varianza del primero es menor que la
del segundo.

CONVERGENCIA

Para estudiar las características de un estimador no solo basta con saber el sesgo y la varianza,
sino que además es útil hacer un análisis de su comportamiento y estabilidad en el largo
plazo, esto es, su comportamiento asintótico. Cuando hablamos de estabilidad en largo plazo,
se viene a la mente el concepto de convergencia.
TIPOS DE MODELOS DE REGRESIÓN LINEAL

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

REGRESIÓN LINEAL SIMPLE

Sólo se maneja una variable independiente, por lo que sólo cuenta con dos parámetros. Son
de la forma:

Yi = β0 + β1Xi + εi

donde εi es el error asociado a la medición del valor Xi y siguen los supuestos de modo que:
i ∼ N (0, σ2) (media cero, varianza constante e igual a un σ y εi ⊥ εj con i ̸= j).

REGRESIÓN LINEAL MÚLTIPLE

La regresión lineal permite trabajar con una variable a nivel de intervalo o razón. De la misma
manera, es posible analizar la relación entre dos o más variables a través de ecuaciones, lo
que se denomina regresión múltiple o regresión lineal múltiple.

Constantemente en la práctica de la investigación estadística, se encuentran variables que de


alguna manera están relacionadas entre sí, por lo que es posible que una de las variables
pueda relacionarse matemáticamente en función de otra u otras variables.

Maneja varias variables independientes, cuenta con varios parámetros y se expresan de la


forma:

Yi = β0 +∑βiXip + εi

Donde: εi es el error asociado a la medición i del valor Xip y siguen los supuestos de modo
que εi ∼ N (0, σ2) (media cero, varianza constante e igual a un σ y εi ⊥ εj con i ̸= j).
SUPUESTOS DEL MODELO CLÁSICO DE REGRESIÓN
Supuesto 1: modelo de regresión lineal
Es decir, sigue una tendencia lineal, dado que el modelo se sustenta en promedios, y al ser
promedios sigue una tendencia promediar
Supuesto 2: los valores de X son fijos en un muestreo repetido
Los X deben seguir una secuencia de carácter lógico a lo menos en un 80%, es decir, deben
guardar una relación directa o inversamente proporcional.
Cuando los valores son demasiados fluctuantes no sirve este modelo
Supuesto 3:
los residuos deben comportarse como una distribución normal en la que tienda al centro, es
decir, a 0.
si el residuo no tiende a 0, se descarta porque los residuos no se comportarán como una
distribución normal
Supuesto 4:
El modelo debe ser homocedasico, es decir, que tiende a comportarse los residuos de manera
similar dentro de los datos. Si existe homocedasicidad se comprueba con la varianza.
la varianza tendría que tender a 0
Si el modelo es homocedasico, se sigue al siguiente paso (supuesto 5).
Si el modelo es heterocedasico en sus residuos, se descarta el modelo.
Heterocedasicidad: significa que es distinta la varianza de una variable con las otras.
Todos los residuos tienen distintas varianzas, por lo tanto, los datos variaran mucho y la
predicción que podemos hacer del futuro no será cierto.
Supuesto 5: No existe auto correlación entre las perturbaciones
Covarianza: relación entre 2 variables; a diferencia de la correlación, la covarianza es
bidimensional, es decir, que ve la relación que hay entre un dato1 y dato2, y de dato2 a
dato1. Cómo una in/ere en la otra y como la otra in/ere en la una. (Viceversa)
La correlación solo ve la relación de una variable con el otro, no viceversa.
Según este supuesto, se espera que las variables no estén auto correlacionadas, es decir, no
se puede tomar una extensión de la misma variable.
Para aprobar este supuesto, la covarianza debe ser 0.
Perturbaciones: residuos.
Supuesto 6: La covarianza entre el residuo y el eje x debe ser 0
Supuesto 7: el número de observaciones “n” debe ser mayor que el número de
parámetros por estimar
no se puede estimar por sobre los datos que tengo
Ejemplo: n: de 1 año
Estimaciones: de 6 meses.
Supuesto 8: variabilidad en los valores de “x”.
La varianza de x debe ser mayor de 0, porque los datos deben variar. “x” se debe mover
porque si no se mueve no explicaría nada, no estaríamos estudiando nada.
Supuesto 9: el modelo de regresión está correctamente especificado.
a mayor comportamiento de “x”, los datos se van expandiendo.
Supuesto 10: No hay multicolinealidad perfecta.
No hay relaciones perfectamente lineales entre las variables explicativas.

PROPIEDADES DE LOS ESTIMADORES


Un estimador es un estadístico (una función de la muestra) utilzado para estimar un parámetro
desconocido de la población.
Por ejemplo, si se desea conocer el precio medio poblacional de un artículo (parámetro
desconocido) se recogen observaciones del precio de dicho artículo en diversos
establecimientos (muestra) pudiendo utilizarse la media aritmética de las observaciones para
estimar el mecio medio poblacional.
Para cada parámetro pueden existir varios estimadores diferentes. En general, se elige al
estimados que posea mejores propiedades que los restantes, como insesgadez, eficiencia,
convergencia y robustez (consistencia).
El valor de un estimador proporciona una eestimación puntual del valor del parámetro en
estudio. En general, se realiza la estimación mediante un intervalo, es decir, se obtiene un
intervalo(parámetro muestral +- error muetsral) dentro del cual se espera se encuentre el valor
poblacional dentro de un cierto nivel de confianza.
El nivel de confianza es la probabilidad de qe a priori el valor poblacional se enceuntre
contenido en el intervalo.
TEOREMA DE GAUSS-MÁRKOV:
Bajo las hipótesis básicas del MRL, el estimador MCO (Mínimos Cuadrados Ordinarios) de
β es óptimo entre la familia de estimadores lineales e insesgados.
Es decir, no es posible encontrar otro estimador de β que siendo lineal e insesgado tenga una
varianza menor que el estimador MCO.

Al referirnos que los estimadores “B” tienen varianza mínima, podemos decir de la forma
más simple, que presentan el menor error cuadrático comparado a otros estimadores, y hace
por ello que sean los más eficientes, todo esto con el fin de que la función de regresión
muestral sea lo más cercana posible a la función de regresión poblacional, por lo que
podemos hablar de insesgadez.

S-ar putea să vă placă și