Documente Academic
Documente Profesional
Documente Cultură
UNIDAD
4 Unidad 4
Correlación y
regresión lineal
Estadística
Metodología
Desarrollo temático
Introducción Hasta el momento los temas vistos atañen a datos descritos
por una sola variable, pero existen situaciones en las que se
hace necesario trabajar simultáneamente con dos variables,
tales como los casos en que se analiza dos características en
un mismo individuo, por ejemplo el peso y la estatura de cada
persona, el tiempo de estudios y el nivel de ingresos por em-
pleado o los costos de publicidad y los ingresos por ventas.
También se tiene el caso de dos variables correspondientes
a diferentes individuos, situación relacionada con distribucio-
nes bidimensionales. En esta cartilla se aborda los principios
de correlación y regresión, mediante los cuales, si es posible,
se busca establecer la relación entre dos variables asociadas a
características de los individuos de una muestra o población.
El análisis se limita al caso de relaciones lineales, por lo que la
temática específica es correlación y regresión lineal.
Es altamente recomendable que el estudiante realice la lectura de esta cartilla de forma muy
cuidadosa. Teniendo en cuenta que los principios de cálculo asociados a las temáticas de
correlación y regresión están fuertemente marcadas por cálculos numéricos, se recomienda
que realice los repasos y refuerzos requeridos antes de enfrentase a ellos. Específicamente se
requiere total claridad en el manejo de sumatorias y cálculo de media aritmética ya que ellas
son el soporte para realizar los cálculos. Se recomienda la verificación de los cálculos numé-
ricos presentados, teniendo especial cuidado con las sumas de cuadrados y cuadrados de
sumas. Todo lo anterior, además de contribuir a afianzar el conocimiento del tema, le brinda
la posibilidad de tomar mayor confianza hacia lo que sigue a cada eje temático.
Correlación y regresión
Coeficiente de Correlación
(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝒓=
(𝑵 𝑿𝟐 ) − 𝑿 𝟐 . (𝑵 𝒀𝟐 ) − 𝒀 𝟐
!
! Si 𝒓 toma un valor cercano a 1, se considera que hay correlación positiva entre las
variables.
! Si 𝒓 toma un valor cercano a -1, se considera que hay correlación negativa entre
las variables.
Diagrama de dispersión
Ejemplo 7.1:
Núm. 4 4 5 6 9 11 13 14 17 18
comerciales𝑿
Ventas 2 1,3 1,5 2 2,8 3 3,5 3 4 4,5
semanales 𝒀
Solución:
𝑿 𝒀 𝑿𝒀 𝑿𝟐 𝒀𝟐
4 2 8 16 4
6 2 12 36 4
11 3 33 121 9
14 3 42 196 9
17 4 68 289 16
𝟑𝟐𝟕𝟒 − 𝟐𝟕𝟖𝟕, 𝟔
𝒓=
𝟏𝟐𝟕𝟑𝟎 − 𝟏𝟎𝟐𝟎𝟏. 𝟖𝟔𝟐, 𝟖 − 𝟕𝟔𝟏, 𝟕𝟔
𝟒𝟖𝟔, 𝟒
𝒓=
𝟐𝟓𝟐𝟖. 𝟏𝟎𝟏, 𝟒
𝟒𝟖𝟔, 𝟒
𝒓=
(𝟓𝟎, 𝟐𝟕𝟗). (𝟏𝟎, 𝟎𝟔𝟗)
𝟒𝟖𝟔, 𝟒
𝒓=
𝟓𝟎𝟔, 𝟐𝟓𝟗
𝒓 = 𝟎, 𝟗𝟔𝟎𝟕𝟕
En el ejemplo el coeficiente de correlación con un valor de 0,96077, muy cercano a 1,
indica que existe una relación fuerte entre el número de anuncios comerciales emitidos
y las ventas semanales del producto. Como el resultado es positivo, indica que a medida
en que aumenta el número de comerciales, aumentan también las ventas semanales.
El diagrama de dispersión brinda una idea del tipo de relación entre las variables, si
resulta razonable pensar que la secuencia de puntos se encuentra sobre una curva que
se asemeja a una línea recta, se estaría en un caso de modelo de regresión lineal. La
representación gráfica de la recta se obtiene dibujando sobre la nube de puntos una
recta que cobije la mayoría de los puntos. La regresión lineal establece, como vínculo
entre las dos variables, la ecuación de una línea recta, cuya forma es:
𝒀 = 𝑨𝑿 + 𝑩
Dónde:
𝑨 y 𝑩 son conocidos como los parámetros del modelo, sus valores son desconocidos y
se pueden calcular por un método numérico conocido como el método de los mínimos
cuadrados. En este módulo no se describe en detalle el método de los mínimos
cuadrados, sólo se presenta las fórmulas que permiten determinar los valores de 𝑨 y 𝑩.
𝑩 = 𝒀 − 𝑨𝑿
Es decir, el valor 𝑨 de la pendiente se halla a partir de cálculos sobre los valores de las
observaciones, mientras que para el cálculo de 𝑩 se requiere el conocimiento del valor
de la pendiente y la media aritmética de cada una de las variables.
Ejemplo 7.2:
Solución:
Como el diagrama de dispersión sugiere la semejanza con una línea recta, se puede
asumir que los datos del ejemplo encajan en un problema de regresión lineal, por lo
tanto se procede a calcular los valores de 𝑨 y 𝑩 usando las fórmulas correspondientes a
los parámetros del modelo de regresión lineal.
(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝑨= 𝟐
(𝑵 𝑿 ) − 𝑿 𝟐
𝟑𝟐𝟕𝟒 − 𝟐𝟕𝟖𝟕, 𝟔
𝑨=
𝟏𝟐𝟕𝟑𝟎 − 𝟏𝟎𝟐𝟎𝟏
𝟒𝟖𝟔, 𝟒
𝑨=
𝟐𝟓𝟐𝟗
𝑨 = 𝟎, 𝟏𝟗𝟐𝟑
𝑩 = 𝒀 − 𝑨𝑿
Dado que se requiere la media de las dos variables, se calculan mediante:
𝑿 𝒀
𝑿= 𝑦 𝒀 =
𝑵 𝑵
Por tanto:
𝑿 𝟏𝟎𝟏
𝑿= = = 𝟏𝟎, 𝟏
𝟏𝟎 𝟏𝟎
𝒀 𝟐𝟕, 𝟔
𝒀= = = 𝟐, 𝟕𝟔
𝟏𝟎 𝟏𝟎
𝑩 = 𝟐, 𝟕𝟔 − 𝟏, 𝟗𝟒𝟐
𝑩 = 𝟎, 𝟖𝟏𝟖
Con lo que finalmente se encuentra que la recta que mejor describe la relación entre los
datos está dada por la ecuación:
𝒀 = 𝑨𝑿 + 𝑩
𝒀 = 𝟎, 𝟏𝟗𝟐𝟑𝑿 + 𝟎, 𝟖𝟏𝟖
Con base en la ecuación anterior se puede predecir con un razonable grado de
aproximación los valores que tomará la variable 𝒀 a partir del conocimiento de los
valores de 𝑿, es decir se podrá tomar la decisión de cuanto es razonable invertir en
publicidad para obtener un determinado nivel de ventas.
Coeficiente de determinación
𝒓 = 𝟎, 𝟗𝟔𝟎𝟕𝟕
Por lo tanto:
𝒓𝟐 = 𝟎, 𝟗𝟐𝟑𝟎×𝟏𝟎𝟎%
𝒓𝟐 = 𝟗𝟐, 𝟑𝟎%
Se tiene entonces que el 𝟗𝟐, 𝟑𝟎% de las ventas son explicadas por el modelo de
regresión lineal en función del número de comerciales. El modelo presenta un buen
ajuste para los datos.
Ejemplo 7.3
Se quiere medir la relación que existe entre el número de empleados 𝑿 y las ventas
semanales 𝒀 (en millones de $), para un grupo de almacenes del sector de los alimentos
en una ciudad. Los datos obtenidos son los siguientes:
𝑋 12 16 20 28 30 32 36 40
𝑌 20 30 36 44 80 60 95 98
Tabla 3. Datos
Gráfico de dispersión: sobre el eje X se ubican los valores para el número de empleados
y en el eje Y, los valores de las ventas, en ambos casos se debe tener en cuenta el uso de
una escala apropiada. El gráfico de dispersión es el siguiente
𝒀 = 𝑨𝑿 + 𝑩
Se elabora la siguiente tabla que facilita los cálculos.
𝑿 𝒀 𝑿. 𝒀 𝑿𝟐 𝒀𝟐
(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝑨=
(𝑵 𝑿𝟐 ) − 𝑿 𝟐
𝟖 . 𝟏𝟒𝟑𝟑𝟐 − 𝟐𝟏𝟒 . 𝟒𝟔𝟑
𝑨=
𝟖 . 𝟔𝟒𝟎𝟒 − (𝟐𝟏𝟒)𝟐
𝟏𝟏𝟒𝟔𝟓𝟔 − 𝟗𝟗𝟎𝟖𝟐
𝑨=
𝟓𝟏𝟐𝟑𝟐 − 𝟒𝟓𝟕𝟗𝟔
𝟏𝟓𝟓𝟕𝟒
𝑨=
𝟓𝟒𝟑𝟔
𝑨 = 𝟐, 𝟖𝟔𝟒𝟗
𝑿 𝟐𝟏𝟒
𝑿= =
𝑵 𝟖
𝑿 = 𝟐𝟔, 𝟕𝟓
𝒀 𝟒𝟔𝟑
𝒀= =
𝑵 𝟖
𝒀 = 𝟓𝟕, 𝟖𝟕𝟓
Con el valor hallado para 𝑨, y los de 𝑿 y 𝒀, el cálculo del intercepto con el eje 𝒀 es:
𝑩 = 𝒀 − 𝑨𝑿
Entonces la recta que mejor describe la relación entre las variables es:
𝒀 = 𝑨𝑿 + 𝑩
𝒀 = 𝟐, 𝟖𝟔𝟒𝟗𝑿 − 𝟏𝟖, 𝟕𝟔
Interpretación de los parámetros del modelo de regresión: en este modelo el valor de
𝑩 = 𝟏𝟖, 𝟕𝟔, lo cual indica que si no hay empleados, es decir si 𝑿 = 𝟎, se estaría dejando
de vender $18`763.000. El valor de 𝑨 = 𝟐, 𝟖𝟔𝟒𝟗 indica que por cada empleado se estima
que las ventas semanales aumentan en $2`864.900.
𝟏𝟏𝟒𝟔𝟓𝟔 − 𝟗𝟗𝟎𝟖𝟐
𝒓=
𝟓𝟏𝟐𝟑𝟐 − 𝟒𝟓𝟕𝟗𝟔. 𝟐𝟔𝟓𝟐𝟖𝟖 − 𝟐𝟏𝟒𝟑𝟔𝟗
𝟏𝟓𝟓𝟕𝟒
𝒓=
𝟓𝟒𝟑𝟔. 𝟓𝟎𝟗𝟏𝟗
𝟏𝟓𝟓𝟕𝟒
𝒓=
(𝟕𝟑, 𝟕𝟐𝟗). (𝟐𝟐𝟓, 𝟔𝟓𝟐)
𝟏𝟓𝟓𝟕𝟒
𝒓=
𝟏𝟔𝟔𝟑𝟕, 𝟎𝟗𝟔
𝒓 = 𝟎, 𝟗𝟑𝟔
El valor es positivo y cercano a 1, lo que indica que existe una correlación fuerte entre el
número de empleados y las ventas semanales. El signo positivo indica que a mayor
número de empleados, en los almacenes se tienen mayores ventas semanales.
El porcentaje de las ventas semanales explicadas por el modelo lineal en función del
número de empleados, se mide con el coeficiente de determinación:
𝒓𝟐 = 𝟎, 𝟖𝟕𝟔×𝟏𝟎𝟎%
𝒓𝟐 = 𝟖𝟕, 𝟔 %
El 87,6% de las ventas son explicadas por el modelo lineal, presentando un buen modelo
para hacer estimación de valores, ya que 𝒓𝟐 > 𝟕𝟓 %.
𝒀 = 𝟐, 𝟖𝟔𝟒𝟗𝑿 − 𝟏𝟖, 𝟕𝟔
𝒀 = 𝟏𝟐𝟒, 𝟒𝟖𝟓
𝑿 𝒀 𝑿. 𝒀 𝑿𝟐 𝒀𝟐
17 9 153 289 81
8 23 184 64 529
Tabla 5. Datos
Solución:
Determinación del modelo de regresión lineal: con 𝑵 = 𝟖 y los valores en la última fila
de la tabla, se halla primero los valores de los parámetros 𝑨 y 𝑩.
(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝑨= 𝟐
(𝑵 𝑿 ) − 𝑿 𝟐
𝟕 . 𝟏𝟑𝟔𝟎 − 𝟗𝟎 . 𝟏𝟏𝟑
𝑨=
𝟕 . 𝟏𝟐𝟏𝟔 − (𝟗𝟎)𝟐
−𝟔𝟓𝟎
𝑨=
𝟒𝟏𝟐
𝑨 = −𝟏, 𝟓𝟕𝟕
𝑿 𝟗𝟎
𝑿= = = 𝟏𝟐, 𝟖𝟓𝟕
𝑵 𝟕
𝒀 𝟏𝟏𝟑
𝒀= = = 𝟏𝟔, 𝟏𝟒𝟐
𝑵 𝟕
𝑩 = 𝒀 − 𝑨𝑿
𝑩 = 𝟏𝟔, 𝟏𝟒𝟐 − −𝟏, 𝟓𝟕𝟕 . (𝟏𝟐, 𝟖𝟓𝟕)
𝑩 = 𝟑𝟔, 𝟒𝟏𝟕
Entonces el modelo lineal es:
𝒀 = 𝑨𝑿 + 𝑩
(𝑵 𝑿. 𝒀) − 𝑿 . ( 𝒀)
𝒓=
(𝑵 𝑿𝟐 ) − 𝑿 𝟐 . (𝑵 𝒀𝟐 ) − 𝒀 𝟐
𝟕 . 𝟏𝟑𝟔𝟎 − 𝟗𝟎 . 𝟏𝟏𝟑
𝒓=
𝟕 . 𝟏𝟐𝟏𝟔 − (𝟗𝟎)𝟐 . 𝟕 . 𝟏𝟗𝟕𝟗 − (𝟏𝟏𝟑)𝟐
−𝟔𝟓𝟎 −𝟔𝟓𝟎
𝒓= =
𝟒𝟏𝟐. 𝟏𝟎𝟖𝟒 𝟔𝟔𝟖, 𝟐𝟓
𝒓 = −𝟎, 𝟗𝟕𝟐
El valor obtenido indica que hay correlación negativa entre el precio del producto y el
consumo, esto significa que a medida que aumenta el precio disminuye el consumo.
𝒓𝟐 = 𝟎, 𝟗𝟒𝟒×𝟏𝟎𝟎%
𝒓𝟐 = 𝟗𝟒, 𝟒 %
Esto significa que el 94,4 % del consumo corresponde al modelo lineal encontrado.
Puesto que el coeficiente de determinación supera el 75 %, se considera que el modelo
es apropiado para hacer estimación de valores.
Consumo estimado del producto para un precio de 20.000: según el modelo lineal
hallado, el consumo para un precio de 20.000 es:
𝒀 = 𝟒, 𝟖𝟕𝟕
Con este ejemplo y esta cartilla finaliza el contenido relativo al establecimiento de la
relación entre dos variables observadas en un estudio estadístico. Al igual que en las
cartillas anteriores se requiere que el estudiante revise minuciosamente los ejemplos
desarrollados y aplique las estrategias de trabajo a los ejercicios propuestos en el taller.
La temática de la siguiente unidad corresponde a distribuciones bidimensionales y
números índice.