Regresion Lineal

Regresión
lineal simple
Herramientas
Matemáticas V -
Estadística II
1
Regresión lineal simple
Bibliografía Básica Análisis de Regresión y Correlación
Para cumplir con los
objetivos de la Unidad 6 Introducción a la Inferencia Estadística
del programa, es necesario
profundizar en los temas La idea de poder predecir cierto valor de una variable a partir del
desarrollados en el conocimiento del valor de otra que la determina o influye ha llevado a
Capítulo 17 y 18 del texto desarrollar las técnicas que presentamos en este módulo.
de Berenson & Levine
(1996), relacionándolo con En particular, la idea es detectar si existe una relación lineal entre dos
los comentarios, ejemplos variables, una que llamaremos dependiente que es condicionada por los
y recomendaciones de las
valores de otra que denominamos independiente o explicatoria.
lecturas del módulo.
Capítulos: 17 (Apartados
17.1, 17.2, 17.3, 17.4, 17.5, Diagrama de dispersión
17.6, 17.7, 17.8, 17.9), 18
(Apartados 18.1 y 18.2) Como siempre en Estadística, un primer análisis exploratorio gráfico
posibilita un avance en el conocimiento sobre un fenómeno, aunque no de
manera concluyente.
Un gráfico da la posibilidad de visualizar rápidamente la posible existencia

de una relación entre las variables de interés.
El diagrama de dispersión, de amplia aplicación en el caso del análisis de

regresión, consiste en la representación de puntos en un sistema de ejes
cartesianos, donde los valores de la variable dependiente se indican en las
ordenadas y los de la variable independiente en las abscisas. Cada punto del
gráfico corresponde con las coordenadas del mismo representado como par
ordenado (x, y). El conjunto de puntos que quedan ilustrados recibe el
nombre de nube de puntos.
Un diagrama de dispersión permite visualizar la forma de la relación, pero

siempre debe tomarse precauciones (“no confiar en las apariencias), por lo
cual siempre necesitaremos los test y estimaciones estadísticas. No
obstante, destacamos que la primera aproximación gráfica es un buen punto
de partida, por ejemplo, para preliminarmente analizar si la línea recta será
una aproximación aceptable de la relación o no.
En el ejemplo de Diagrama de dispersión que mostramos a continuación, la

variable Y (dependiente) indica, en el marco de un estudio sobre
productividad laboral en el contexto fabril, el número de errores en una
tarea repetitiva de un ocupado en el mercado laboral, mientras que la
2
variable X (independiente) señala el número de horas seguidas de repetición
de la actividad. Para describir la relación aparente entre estas variables,
podríamos indicar que si bien en nuestra muestra hay pocos casos con muy
pocas horas de realización la tarea repetitiva, a medida que más horas se
lleva a cabo continuamente la misma, el número de errores resulta más
elevado. Con la intención de ser más específicos y sintéticos al mismo
tiempo, el modelo de regresión lineal intenta asociar la relación entre estas
variables a través de una línea recta que generalice esta vinculación,
despreciando las oscilaciones específicas de cada caso particular respecto de
la línea recta que indicaría la estructura de la relación entre experiencia y
salario inicial.
Figura 1: Diagrama de dispersión
Fuente: Elaboración propia
Actividad:
1) Elabore (utilizando una hoja cuadriculada, para facilitar la adecuación a

una escala proporcional de cada variable) la siguiente relación:
Los siguientes datos fueron tomados de un estudio sobre las diferentes

sucursales de una marca de supermercados de la ciudad:
3
Tabla 1
2) Intente graficar utilizando Excel. Aproveche la Ayuda disponible en el

programa, invierta unos minutos en explorar, conocer cómo realizar
buenos gráficos con las herramientas estándar le puede ser muy útil.
El modelo de regresión lineal
Como a partir del diagrama de dispersión comenzamos a sospechar de una

relación aproximadamente lineal (es decir, que tiene forma de línea recta),
trataremos de ver si realmente podemos indicar la relación a partir de este
modelo.
modelo lineal puede sintetizarse de manera que represente una línea recta
con la siguiente expresión:
Donde:
4
β0 = la intersección u ordenada al origen poblacional
β1 = la pendiente poblacional
εi = error aleatorio en Y para la i-ésima observación
Figura 2: Relación lineal positiva
El coeficiente β0 = representa la ordenada al origen, es decir, el punto en

que la recta corta al eje vertical.
El coeficiente β1= es la pendiente de la recta, el cual indica el cambio en el

valor esperado de la variable Y cuando se produce un cambio en una unidad
de X.
Figuras: Diferentes ordenadas al origen
Figura 3: Ordenada al origen 3.95
5
Figura 4: Ordenada al origen 2,7
Figura 5: Ordenada al origen 1,6
Fuente: Elaboración propia con la herramienta de simulación provista por:

http://www.seeingstatistics.com/seeing1999/resources/opening.ht ml
La relación lineal es uno de los modelos que puede seguir la relación entre
dos variables. En este caso, a su vez, la relación puede ser positiva (tal como
la ejemplificada) o negativa. No obstante, la relación podr ía tener otra
forma (curvilínea, constante, etc.) que pudiera tener enorme interés teórico
y práctico, que se trabaja con técnicas más sofisticadas que las que
presentaremos en este módulo. La siguiente figura ilustra algunas de las
situaciones posibles.
6
Formas de la relación entre dos variables
Figura 6: relación lineal positiva
Figura 7: relación lineal negativa
Figura 8: relación cudrática entre las variables
7
Figura 9: variables que aparentemente no poseen relación
Determinación de la ecuación de regresión lineal

simple
Hasta el momento hemos visto que podemos sospechar de la relación lineal

entre las variables, pero no presentamos la manera de deducir el valor de
los valores de los estimadores de la pendiente y la ordenada al origen en
base a datos de una muestra.
El Método de mínimos cuadrados es una manera de obtener la ecuación que

mejor ajusta a la nube de puntos, justamente minimizando la suma de los
cuadrados de los errores (o residuos).
8
Figura 10: Recta de mínimos cuadrados
Método de Mínimos
Cuadrados La ecuación de la recta
Es el método
matemático que
permite encontrar los Esta manera de obtener los valores de b0 y b1, permite seleccionar una de
valores de b0 y b1 que todas las posibles rectas (algunos ejemplos pueden observarse en la figura
hacen mínimas la siguiente) que podrían ser utilizadas para describir la relación. El método de
sumatoria del
mínimos cuadrados aporta un criterio para determinar esa recta. Este
cuadrado de las
criterio corresponde a determinar la recta en la cual los valores reales y los
diferencias entre los
valores predichos tienen la mínima distancia. Como puede observarse en la
valores observados y el
figura previa, la recta de mínimos cuadrados, es la que tiene las menores
obtenido mediante la
distancias totales (ej: la distancia vertical indicada en la figura). En cuanto a
recta de regresión.
si las diferencias (ej) entre la recta de regresión y los valores observados, no
interesa si las diferencias son por exceso o por defecto, por lo tanto, se
trabaja con la suma de desvíos elevados al cuadrado.
9
Figura 11: Otras rextas de regresión “posibles”
Para obtener los valores de los estimadores de los parámetros de la recta de

regresión, se minimiza la expresión
Los valores b0 y b1 que minimizan la función se obtienen al igualar a cero las

derivadas parciales de la función respecto de cada uno de los parámetros.
Tales estimadores verifican también la condición de segundo orden de un
mínimo (estudiada en las materias vinculadas con el Análisis Matemático).
A través de este proceso se obtienen las denominadas “ecuaciones

normales”, que permiten despejar las fórmulas de cálculo de los
estimadores de la pendiente y la ordenada al origen respectivamente.
Ecuación I:
Ecuación II:
Si ambas ecuaciones se resuelven como un sistema, se pueden obtener los

estimadores:
10
Pendiente:
Ordenada:
Veamos en un ejercicio cómo se aplican todos estos conceptos.
Ejercicio:
Los siguientes datos corresponden a información sobre pautas de consumo
de individuos adultos de una ciudad metropolitana. La variable X indica la
edad del individuo (medida en años), mientras que la variable Y señala la
cantidad de veces que salieron a comer fuera de su casa, en ocasiones de
esparcimiento, en el último año. Los datos consideran una muestra reducida
de individuos de la ciudad, por tratarse de un estudio piloto.
Datos del ejercicio
11
Descripción gráfica de los datos bivariados
Diagrama de dispersión
Obtención de los estimadores de la pendiente y la ordenada al origen

 Las medias de las variables son:
 Tabla auxiliar
La siguiente tabla facilita el cálculo posterior, debido a la manera en que se

sistematizan los datos
12
 Cálculo del estimador de la pendiente
Tal como esperábamos de analizar el gráfico de la nube de puntos, la

pendiente de la recta de regresión es negativa.
 Cálculo del estimador de la ordenada al origen
13
Por lo tanto, la ecuación estimada de la recta es:
Si queremos usar los resultados para, por ejemplo, predecir la cantidad de

salidas a comer de un consumidor, de por ejemplo, 50 años, reemplazamos
en la ecuación estimada, el valor de X por este valor específico de la variable
independiente:
Predicciones utilizando la recta de regresión
Figura 12: Cuando X=2,3, Y predicho será 2,38
14
En una recta de regresión, para como la indicada, obtenemos la predicción
reemplazando en la ecuación a X por el valor que se desee considerar, y
luego realizamos los cálculos indicados en la ecuación.

Predicciones: para interpolar y no para extrapolar
Es muy importante que los valores de X que se utilicen para predicciones

correspondan al intervalo de valores considerados al calcular los
estimadores de los parámetros. No corresponde aplicar el modelo obtenido
a valores de la variable que excedan los valores considerados en la regresión,
ya que nada asegura que la relación se mantenga más allá del rango de
valores de estudio.
15
Error estándar de estimación
Como se puede observar si en el ejemplo anterior calculan todos los valores

predichos en base al modelo estimado para los valores de X disponibles, las
predicciones basadas en el modelo no son exactas
Tabla 2
El error estándar de la estimación es una medida que informa cuánto varían

los datos reales en torno de la recta de regresión.
Donde es el valor predicho para el valor Xi.
Para el problema ejemplificado anteriormente, el error estándar de la

estimación, es:
16
El error estándar de la estimación es la medida análoga a la desviación
estándar, y está expresada en la misma unidad de medida que la variable Y.
Pregunta para reflexión: si el error estándar de la estimación es análoga a la

desviación estándar calculada en base a datos muestrales, ¿por qué cree que
en la fórmula se divide en n-2? (Ayuda: piense en el concepto de grados de
libertad, y analice a qué se asocian las pérdidas de grados de libertad en este
caso).
Bondad de ajuste de la regresión
Una vez que hemos encontrado la recta de regresión, necesitamos disponer

de alguna medida que indique en qué grado es buena (o no) la
representación que permite hacer la esa recta del conjunto de puntos
iniciales. Para construir una medida, construiremos algunas sumas de
cuadrados que permitan luego integrar esa medida.
La suma de cuadrados total (SST) indica la variabilidad de los valores de Y

respecto de su media:
17
Figura 15: Descomposición de los desvíos respecto de la media
Esta suma de cuadrados totales, puede dividirse en la variabilidad explicada

o debida a la regresión (SSR) y variabilidad no explicada asociada con el error
(SSE).
Para obtener cada una de estas medidas, aplicamos las siguientes fórmulas
de cálculo basadas en la parte del desvío respecto de la media que les
corresponde.
Suma de cuadrados debida a la regresión:
Suma de cuadrados debida al error:
A partir de estas sumas de cuadrados, se puede definir una medida, el

coeficiente de determinación o R2, que mide el grado en que la regresión
explica la variabilidad total del conjunto de datos:
18
Figura 16: Relación entre SSR y SSE

En la barra se indica qué proporción corresponde a SSR (en verde) y a SSE

(en rosa) de la variabilidad total para la recta obtenida.
Obtengamos ahora el coeficiente de determinación para el ejemplo que

estábamos desarrollando.
Para ello, completemos la tabla que teníamos, con los desvíos que
necesitamos y las respectivas sumas de desvíos al cuadrado:
Tabla 3
Tabla 3
19
Tabla 4
La suma de cuadrados debida a la regresión
La suma de cuadrados debida al error:
La suma de cuadrados total:
20
El coeficiente de determinación:
Por lo tanto, la regresión a través de la recta obtenida, explica el 54,5% de la

variabilidad total de la variable Y observada.
21
Referencias
Berenson & Levine (1996). Estadística para administración y economía. Sexta
Edición. Ed. Prentice Hall Hispanoamericana. México.
22

Regresion Lineal

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresion Lineal

Încărcat de

Drepturi de autor:

Formate disponibile

Regresión

Un gráfico da la posibilidad de visualizar rápidamente la posible existencia

El diagrama de dispersión, de amplia aplicación en el caso del análisis de

Un diagrama de dispersión permite visualizar la forma de la relación, pero

En el ejemplo de Diagrama de dispersión que mostramos a continuación, la

Figura 1: Diagrama de dispersión

Fuente: Elaboración propia

1) Elabore (utilizando una hoja cuadriculada, para facilitar la adecuación a

Los siguientes datos fueron tomados de un estudio sobre las diferentes

2) Intente graficar utilizando Excel. Aproveche la Ayuda disponible en el

El modelo de regresión lineal

Como a partir del diagrama de dispersión comenzamos a sospechar de una

Figura 2: Relación lineal positiva

Fuente: Elaboración propia

El coeficiente β0 = representa la ordenada al origen, es decir, el punto en

El coeficiente β1= es la pendiente de la recta, el cual indica el cambio en el

Figuras: Diferentes ordenadas al origen

Figura 3: Ordenada al origen 3.95

Figura 5: Ordenada al origen 1,6

Fuente: Elaboración propia con la herramienta de simulación provista por:

Figura 6: relación lineal positiva

Fuente: Elaboración propia

Figura 7: relación lineal negativa

Fuente: Elaboración propia

Figura 8: relación cudrática entre las variables

Fuente: Elaboración propia

Fuente: Elaboración propia

Determinación de la ecuación de regresión lineal

Hasta el momento hemos visto que podemos sospechar de la relación lineal

El Método de mínimos cuadrados es una manera de obtener la ecuación que

Para obtener los valores de los estimadores de los parámetros de la recta de

Los valores b0 y b1 que minimizan la función se obtienen al igualar a cero las

A través de este proceso se obtienen las denominadas “ecuaciones

Si ambas ecuaciones se resuelven como un sistema, se pueden obtener los

Veamos en un ejercicio cómo se aplican todos estos conceptos.

Datos del ejercicio

Obtención de los estimadores de la pendiente y la ordenada al origen

La siguiente tabla facilita el cálculo posterior, debido a la manera en que se

Tal como esperábamos de analizar el gráfico de la nube de puntos, la

 Cálculo del estimador de la ordenada al origen

Si queremos usar los resultados para, por ejemplo, predecir la cantidad de

Predicciones utilizando la recta de regresión

Figura 12: Cuando X=2,3, Y predicho será 2,38

Figura 13: Cuando X=3,65, Y predicho será 3,19

Figura 14: Cuando X=4,35, Y predicho será 3,61

Fuente: Elaboración propia con la herramienta de simulación provista por:

Predicciones: para interpolar y no para extrapolar

Es muy importante que los valores de X que se utilicen para predicciones

Como se puede observar si en el ejemplo anterior calculan todos los valores

El error estándar de la estimación es una medida que informa cuánto varían

Donde es el valor predicho para el valor Xi.

Para el problema ejemplificado anteriormente, el error estándar de la

Pregunta para reflexión: si el error estándar de la estimación es análoga a la

Bondad de ajuste de la regresión

Una vez que hemos encontrado la recta de regresión, necesitamos disponer

La suma de cuadrados total (SST) indica la variabilidad de los valores de Y

Esta suma de cuadrados totales, puede dividirse en la variabilidad explicada

Suma de cuadrados debida a la regresión:

Suma de cuadrados debida al error:

A partir de estas sumas de cuadrados, se puede definir una medida, el

Fuente: Elaboración propia con la herramienta de simulación provista por:

En la barra se indica qué proporción corresponde a SSR (en verde) y a SSE

Obtengamos ahora el coeficiente de determinación para el ejemplo que