Sunteți pe pagina 1din 18

Regresión Lineal en R

EII353 - Inferencia Estadística


Agradecimientos a Javier Maturana Ross, 2016
Introducción

 La regresión lineal nos permite para poder explicar una variable en función
de otra.
 En una regresión lineal simple tenemos una sola variable explicadora.
 En una regresión lineal múltiple tiene más de dos variables explicadoras.

 Cuando hacemos la regresión lineal, lo que buscamos es estimar los


parámetros 𝛽0 y 𝛽1 .

 La regresión es lineal, porque los parámetros son lineales. No tiene que ver
con la potencia de la o las variables explicadoras.
El modelo
𝑦𝑖 = 𝛽0 +𝛽1 𝑥𝑖 + 𝜀𝑖

 Esto corresponde a un modelo estadístico, ya que al explicar a la variable


y en función de la variable x, existe un error aleatorio.

 Se supone que los errores tienen las siguientes características:


 Los errores son independientes, e idénticamente distribuidos
 Se distribuyen Normal
 Tiene media cero y varianza constante

 El modelo que no contiene el error, se conoce como modelo ajustado. El


modelo ajustado es el que ocupamos para estimar a la variable y como
función de la variable x.
Correlación

 Lo más importante antes de comenzar, es que para que la variable x


pueda explicar a la variable y, deben estar correlacionadas.

 Si utilizamos el coeficiente de correlación de Pearson, el valor de la


correlación esta entre -1 y 1.

 El criterio de selección es que si el valor absoluto de la correlación es


mayor a 0.9, entonces las variables están altamente correlacionadas
(positiva o negativamente).
Pasos iniciales

 Hoy aprenderemos a hacer una regresión lineal en R. Para poder hacer


una regresión lineal debemos cargar algunos paquetes en el software. Las
librerías que necesitamos son:
 MASS
 nortest
 lmtest

 Ahora, aprenderemos a instalar y cargar librerías al software.


Instalando paquetes

1
2

3
Cargando paquetes

 Una vez que las librerías están instaladas, deben ser cargadas al R, para
poder utilizarlas.

 De ahora en adelante, considere que se está intentando explicar a la


variable Número de Matriculados, y existen 2 posibles variables
explicadoras: Porcentaje de Desempleados e Ingreso (¿Qué sucederá con
la correlación?).
Cargando los datos

 Suponga que sus datos están en el archivo “datosEjemplo.txt”, y se


encuentra en la carpeta Documentos.

1 2

3
Pasos para hacer una Regresión Lineal

1. Primero debemos hacer un análisis de correlación para ver qué variable


escoger.

El número de desempleados no tiene mucho que ver con la cantidad de


matriculados en una Universidad, y por eso su correlación es tan baja.
Podemos ver que la correlación con el ingreso es mayor que 0.9, por lo tanto
podemos considerar que la variable Ingreso está correlacionada con la
variable Número de Matriculados.
Pasos para hacer una Regresión Lineal

Sin embargo, también es importante ver un gráfico y analizar cómo se


comportan las variables.
Pasos para hacer una Regresión Lineal
2. Una vez que hemos seleccionado la variable, hacemos el ajuste, con su
respectivo resumen para ver el resultado de la estimación para los
parámetros del modelo. Recuerdo: El valor-p nos dirá si el parámetro es o no
es significativo para el ajuste.
Pasos para hacer una Regresión Lineal

3. Si realizamos un análisis de varianza, el resultado nos dirá si es que el


modelo es o no es significativo.
Pasos para hacer una Regresión Lineal
4. Después de hacer el ajuste, debemos mirar los errores. Esto nos permite
identificar si es que existe algún punto atípico, y probar los supuestos.
Pasos para hacer una Regresión Lineal

5. Sin embargo, para poder ver los puntos atípicos de mejor forma y también
probar los supuestos nos conviene utilizar los residuos estandarizados.
Pasos para hacer una Regresión Lineal

6. Ahora comenzamos con una de las partes más importantes. Probar los
supuestos. El primer supuesto a probar es que los errores se distribuyen Normal.
Esto lo hacemos con la prueba de Kolmogorov-Smirnov, o mediante su versión
mejorada: Anderson-Darling.
Pasos para hacer una Regresión Lineal

7. El segundo supuesto a probar es la Independencia de los errores. Esto lo


hacemos con el test de Durbin-Watson.
Pasos para hacer una Regresión Lineal

7. Finalmente, el último supuesto por probar es la Homocedasticidad. Esto lo


hacemos con el test de Goldfeld-Quandt.
Conclusiones

 Si todos los supuestos se cumplen, y el modelo es significativo (es decir la


variable x logra explicar a la variable y), entonces hemos terminado.

 Si algún supuesto no se cumple, no se puede continuar, ya que los


supuestos son lo más importante del modelo. Los supuestos son la base
teórica que lo sustenta.

FIN 

S-ar putea să vă placă și