Sunteți pe pagina 1din 22

Regresión

lineal simple

Herramientas
Matemáticas V -
Estadística II

1
Regresión lineal simple
Bibliografía Básica Análisis de Regresión y Correlación
Para cumplir con los
objetivos de la Unidad 6 Introducción a la Inferencia Estadística
del programa, es necesario
profundizar en los temas La idea de poder predecir cierto valor de una variable a partir del
desarrollados en el conocimiento del valor de otra que la determina o influye ha llevado a
Capítulo 17 y 18 del texto desarrollar las técnicas que presentamos en este módulo.
de Berenson & Levine
(1996), relacionándolo con En particular, la idea es detectar si existe una relación lineal entre dos
los comentarios, ejemplos variables, una que llamaremos dependiente que es condicionada por los
y recomendaciones de las
valores de otra que denominamos independiente o explicatoria.
lecturas del módulo.

Capítulos: 17 (Apartados
17.1, 17.2, 17.3, 17.4, 17.5, Diagrama de dispersión
17.6, 17.7, 17.8, 17.9), 18
(Apartados 18.1 y 18.2) Como siempre en Estadística, un primer análisis exploratorio gráfico
posibilita un avance en el conocimiento sobre un fenómeno, aunque no de
manera concluyente.

Un gráfico da la posibilidad de visualizar rápidamente la posible existencia


de una relación entre las variables de interés.

El diagrama de dispersión, de amplia aplicación en el caso del análisis de


regresión, consiste en la representación de puntos en un sistema de ejes
cartesianos, donde los valores de la variable dependiente se indican en las
ordenadas y los de la variable independiente en las abscisas. Cada punto del
gráfico corresponde con las coordenadas del mismo representado como par
ordenado (x, y). El conjunto de puntos que quedan ilustrados recibe el
nombre de nube de puntos.

Un diagrama de dispersión permite visualizar la forma de la relación, pero


siempre debe tomarse precauciones (“no confiar en las apariencias), por lo
cual siempre necesitaremos los test y estimaciones estadísticas. No
obstante, destacamos que la primera aproximación gráfica es un buen punto
de partida, por ejemplo, para preliminarmente analizar si la línea recta será
una aproximación aceptable de la relación o no.

En el ejemplo de Diagrama de dispersión que mostramos a continuación, la


variable Y (dependiente) indica, en el marco de un estudio sobre
productividad laboral en el contexto fabril, el número de errores en una
tarea repetitiva de un ocupado en el mercado laboral, mientras que la

2
variable X (independiente) señala el número de horas seguidas de repetición
de la actividad. Para describir la relación aparente entre estas variables,
podríamos indicar que si bien en nuestra muestra hay pocos casos con muy
pocas horas de realización la tarea repetitiva, a medida que más horas se
lleva a cabo continuamente la misma, el número de errores resulta más
elevado. Con la intención de ser más específicos y sintéticos al mismo
tiempo, el modelo de regresión lineal intenta asociar la relación entre estas
variables a través de una línea recta que generalice esta vinculación,
despreciando las oscilaciones específicas de cada caso particular respecto de
la línea recta que indicaría la estructura de la relación entre experiencia y
salario inicial.

Figura 1: Diagrama de dispersión

Fuente: Elaboración propia

Actividad:

1) Elabore (utilizando una hoja cuadriculada, para facilitar la adecuación a


una escala proporcional de cada variable) la siguiente relación:

Los siguientes datos fueron tomados de un estudio sobre las diferentes


sucursales de una marca de supermercados de la ciudad:

3
Tabla 1

2) Intente graficar utilizando Excel. Aproveche la Ayuda disponible en el


programa, invierta unos minutos en explorar, conocer cómo realizar
buenos gráficos con las herramientas estándar le puede ser muy útil.

El modelo de regresión lineal

Como a partir del diagrama de dispersión comenzamos a sospechar de una


relación aproximadamente lineal (es decir, que tiene forma de línea recta),
trataremos de ver si realmente podemos indicar la relación a partir de este
modelo.

modelo lineal puede sintetizarse de manera que represente una línea recta
con la siguiente expresión:

Donde:

4
β0 = la intersección u ordenada al origen poblacional
β1 = la pendiente poblacional
εi = error aleatorio en Y para la i-ésima observación

Figura 2: Relación lineal positiva

Fuente: Elaboración propia

El coeficiente β0 = representa la ordenada al origen, es decir, el punto en


que la recta corta al eje vertical.

El coeficiente β1= es la pendiente de la recta, el cual indica el cambio en el


valor esperado de la variable Y cuando se produce un cambio en una unidad
de X.

Figuras: Diferentes ordenadas al origen

Figura 3: Ordenada al origen 3.95

5
Figura 4: Ordenada al origen 2,7

Figura 5: Ordenada al origen 1,6

Fuente: Elaboración propia con la herramienta de simulación provista por:


http://www.seeingstatistics.com/seeing1999/resources/opening.ht ml

La relación lineal es uno de los modelos que puede seguir la relación entre
dos variables. En este caso, a su vez, la relación puede ser positiva (tal como
la ejemplificada) o negativa. No obstante, la relación podr ía tener otra
forma (curvilínea, constante, etc.) que pudiera tener enorme interés teórico
y práctico, que se trabaja con técnicas más sofisticadas que las que
presentaremos en este módulo. La siguiente figura ilustra algunas de las
situaciones posibles.

6
Formas de la relación entre dos variables

Figura 6: relación lineal positiva

Fuente: Elaboración propia

Figura 7: relación lineal negativa

Fuente: Elaboración propia

Figura 8: relación cudrática entre las variables

Fuente: Elaboración propia

7
Figura 9: variables que aparentemente no poseen relación

Fuente: Elaboración propia

Determinación de la ecuación de regresión lineal


simple

Hasta el momento hemos visto que podemos sospechar de la relación lineal


entre las variables, pero no presentamos la manera de deducir el valor de
los valores de los estimadores de la pendiente y la ordenada al origen en
base a datos de una muestra.

El Método de mínimos cuadrados es una manera de obtener la ecuación que


mejor ajusta a la nube de puntos, justamente minimizando la suma de los
cuadrados de los errores (o residuos).

8
Figura 10: Recta de mínimos cuadrados

Método de Mínimos
Cuadrados La ecuación de la recta

Es el método
matemático que
permite encontrar los Esta manera de obtener los valores de b0 y b1, permite seleccionar una de
valores de b0 y b1 que todas las posibles rectas (algunos ejemplos pueden observarse en la figura
hacen mínimas la siguiente) que podrían ser utilizadas para describir la relación. El método de
sumatoria del
mínimos cuadrados aporta un criterio para determinar esa recta. Este
cuadrado de las
criterio corresponde a determinar la recta en la cual los valores reales y los
diferencias entre los
valores predichos tienen la mínima distancia. Como puede observarse en la
valores observados y el
figura previa, la recta de mínimos cuadrados, es la que tiene las menores
obtenido mediante la
distancias totales (ej: la distancia vertical indicada en la figura). En cuanto a
recta de regresión.
si las diferencias (ej) entre la recta de regresión y los valores observados, no
interesa si las diferencias son por exceso o por defecto, por lo tanto, se
trabaja con la suma de desvíos elevados al cuadrado.

9
Figura 11: Otras rextas de regresión “posibles”

Para obtener los valores de los estimadores de los parámetros de la recta de


regresión, se minimiza la expresión

Los valores b0 y b1 que minimizan la función se obtienen al igualar a cero las


derivadas parciales de la función respecto de cada uno de los parámetros.
Tales estimadores verifican también la condición de segundo orden de un
mínimo (estudiada en las materias vinculadas con el Análisis Matemático).

A través de este proceso se obtienen las denominadas “ecuaciones


normales”, que permiten despejar las fórmulas de cálculo de los
estimadores de la pendiente y la ordenada al origen respectivamente.

Ecuación I:

Ecuación II:

Si ambas ecuaciones se resuelven como un sistema, se pueden obtener los


estimadores:

10
Pendiente:

Ordenada:

Veamos en un ejercicio cómo se aplican todos estos conceptos.

Ejercicio:
Los siguientes datos corresponden a información sobre pautas de consumo
de individuos adultos de una ciudad metropolitana. La variable X indica la
edad del individuo (medida en años), mientras que la variable Y señala la
cantidad de veces que salieron a comer fuera de su casa, en ocasiones de
esparcimiento, en el último año. Los datos consideran una muestra reducida
de individuos de la ciudad, por tratarse de un estudio piloto.

Datos del ejercicio

11
Descripción gráfica de los datos bivariados
Diagrama de dispersión

Obtención de los estimadores de la pendiente y la ordenada al origen


 Las medias de las variables son:

 Tabla auxiliar

La siguiente tabla facilita el cálculo posterior, debido a la manera en que se


sistematizan los datos

12
 Cálculo del estimador de la pendiente

Tal como esperábamos de analizar el gráfico de la nube de puntos, la


pendiente de la recta de regresión es negativa.

 Cálculo del estimador de la ordenada al origen

13
Por lo tanto, la ecuación estimada de la recta es:

Si queremos usar los resultados para, por ejemplo, predecir la cantidad de


salidas a comer de un consumidor, de por ejemplo, 50 años, reemplazamos
en la ecuación estimada, el valor de X por este valor específico de la variable
independiente:

Predicciones utilizando la recta de regresión

Figura 12: Cuando X=2,3, Y predicho será 2,38

14
En una recta de regresión, para como la indicada, obtenemos la predicción
reemplazando en la ecuación a X por el valor que se desee considerar, y
luego realizamos los cálculos indicados en la ecuación.

Figura 13: Cuando X=3,65, Y predicho será 3,19

Figura 14: Cuando X=4,35, Y predicho será 3,61

Fuente: Elaboración propia con la herramienta de simulación provista por:


http://www.seeingstatistics.com/seeing1999/resources/opening.ht ml

Predicciones: para interpolar y no para extrapolar

Es muy importante que los valores de X que se utilicen para predicciones


correspondan al intervalo de valores considerados al calcular los
estimadores de los parámetros. No corresponde aplicar el modelo obtenido
a valores de la variable que excedan los valores considerados en la regresión,
ya que nada asegura que la relación se mantenga más allá del rango de
valores de estudio.

15
Error estándar de estimación

Como se puede observar si en el ejemplo anterior calculan todos los valores


predichos en base al modelo estimado para los valores de X disponibles, las
predicciones basadas en el modelo no son exactas

Tabla 2

El error estándar de la estimación es una medida que informa cuánto varían


los datos reales en torno de la recta de regresión.

Donde es el valor predicho para el valor Xi.

Para el problema ejemplificado anteriormente, el error estándar de la


estimación, es:

16
El error estándar de la estimación es la medida análoga a la desviación
estándar, y está expresada en la misma unidad de medida que la variable Y.

Pregunta para reflexión: si el error estándar de la estimación es análoga a la


desviación estándar calculada en base a datos muestrales, ¿por qué cree que
en la fórmula se divide en n-2? (Ayuda: piense en el concepto de grados de
libertad, y analice a qué se asocian las pérdidas de grados de libertad en este
caso).

Bondad de ajuste de la regresión

Una vez que hemos encontrado la recta de regresión, necesitamos disponer


de alguna medida que indique en qué grado es buena (o no) la
representación que permite hacer la esa recta del conjunto de puntos
iniciales. Para construir una medida, construiremos algunas sumas de
cuadrados que permitan luego integrar esa medida.

La suma de cuadrados total (SST) indica la variabilidad de los valores de Y


respecto de su media:

17
Figura 15: Descomposición de los desvíos respecto de la media

Esta suma de cuadrados totales, puede dividirse en la variabilidad explicada


o debida a la regresión (SSR) y variabilidad no explicada asociada con el error
(SSE).

Para obtener cada una de estas medidas, aplicamos las siguientes fórmulas
de cálculo basadas en la parte del desvío respecto de la media que les
corresponde.

Suma de cuadrados debida a la regresión:

Suma de cuadrados debida al error:

A partir de estas sumas de cuadrados, se puede definir una medida, el


coeficiente de determinación o R2, que mide el grado en que la regresión
explica la variabilidad total del conjunto de datos:

18
Figura 16: Relación entre SSR y SSE

Fuente: Elaboración propia con la herramienta de simulación provista por:


http://www.seeingstatistics.com/seeing1999/resources/opening.ht ml

En la barra se indica qué proporción corresponde a SSR (en verde) y a SSE


(en rosa) de la variabilidad total para la recta obtenida.

Obtengamos ahora el coeficiente de determinación para el ejemplo que


estábamos desarrollando.

Para ello, completemos la tabla que teníamos, con los desvíos que
necesitamos y las respectivas sumas de desvíos al cuadrado:

Tabla 3

Tabla 3

19
Tabla 4

La suma de cuadrados debida a la regresión

La suma de cuadrados debida al error:

La suma de cuadrados total:

20
El coeficiente de determinación:

Por lo tanto, la regresión a través de la recta obtenida, explica el 54,5% de la


variabilidad total de la variable Y observada.

21
Referencias
Berenson & Levine (1996). Estadística para administración y economía. Sexta
Edición. Ed. Prentice Hall Hispanoamericana. México.

22

S-ar putea să vă placă și